CN112840313A

CN112840313A - 电子设备及其控制方法

Info

Publication number: CN112840313A
Application number: CN201980067464.5A
Authority: CN
Inventors: 黄寅喆; 高炫睦; 金纹助; 李豪桢
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-02
Filing date: 2019-11-01
Publication date: 2021-05-25
Also published as: WO2020091519A1; US11393468B2; US20200143808A1; US20220328044A1; US11631413B2; KR20200054354A; EP3647914B1; EP3647914A1

Abstract

提供了一种电子设备。该电子设备包括存储器和处理器，处理器配置为控制电子设备以：将多个输入数据分类为多种类型以存储在存储器中，基于在输入数据中识别的语音命令来确定所分类的多种类型的输入数据中的至少一个类型，以及基于所确定的类型的输入数据来提供与语音命令对应的响应信息。

Description

电子设备及其控制方法

技术领域

本公开涉及一种电子设备及其控制方法，并且例如，涉及一种使用人工智能学习模型来根据输入数据提供与用户语音命令对应的响应信息的电子设备及其控制方法。

背景技术

为了执行与常规用户语音命令对应的操作，将输入数据与现有数据进行比较。例如，将识别出的用户语音与先前存储的数据进行比较，或将识别出的用户行为与先前存储的数据进行比较。然而，可能存在仅通过与先前存储的数据进行比较不能清楚地理解用户语音命令的情况。

发明内容

[技术问题]

因而，在识别用户语音命令的过程中，还可分析语音以外的各种类型的数据(诸如手势、情绪等)以具体地识别用户语音命令。然而，当使用所有各种类型的数据时存在耗费大量的时间进行识别的问题。另外，难以确定使用哪些数据。

[技术方案]

本公开的实施方式解决了上述问题，并提供了一种电子设备及其控制方法，该电子设备按照类型对输入数据进行分类，使用人工智能学习模型从分类的类型中确定特定类型的输入数据，并提供与用户语音命令对应的信息。

示例性实施方式的示例性方面涉及一种电子设备，包括存储器和处理器，处理器配置为控制电子设备以：将多个输入数据分类为多种类型以存储在存储器中，基于在输入数据中识别的语音命令来确定所分类的多种类型的输入数据中的至少一个类型，以及基于所确定的类型的输入数据来提供与语音命令对应的响应信息。

处理器可基于与用户语音命令相关的时间信息，确定所分类的多种类型的输入数据中的至少一个类型。

处理器可按照预设时间单位将分类成多种类型的输入数据进行分组，以及基于分组的输入来获得用于与每个时间单位对应的多种类型中的每一种类型的代表性数据以存储在存储器中，以及基于所确定的类型的代表性数据提供与语音命令对应的响应信息。

处理器可对与每个时间单元对应的多种类型中的每一种类型的代表性数据中的变化量进行比较，以及在具有最大变化量的类型上分配最大权重以提供与语音命令对应的响应信息。

多种类型可包括手势信息、情绪信息、面部识别信息、性别信息、年龄信息或语音信息中的至少一个。

处理器可基于输入数据中的手势信息或语音信息中的至少一种来识别语音命令。

处理器可基于在输入数据中识别的语音命令，识别语音命令作为预设语音识别单元，以及基于属于至少一个语音识别单元的时间间隔来确定所分类的多种类型中的至少一种。

处理器可基于在语音命令中包括的唤醒词，基于识别出唤醒词的时间间隔来识别语音命令作为预设语音识别单元。

处理器可根据基于识别到唤醒词的预设时间间隔输入的输入数据未提供响应信息，使用在识别唤醒词之前的先前时间间隔中输入的输入数据来提供与语音命令对应的响应信息。

处理器可基于在语音命令中识别的关于用户意图或要控制的对象的信息，确定所分类的多种类型的输入数据中的至少一个类型。

示例性实施方式的示例性方面涉及一种用于控制电子设备的方法，包括：将多个输入数据分类为多种类型以存储在存储器中，基于在输入数据中识别的语音命令来确定所分类的多种类型的输入数据中的至少一个类型，以及基于所确定的类型的输入数据来提供与语音命令对应的响应信息。

确定所分类的多种类型的输入数据中的至少一个类型可包括：基于与用户语音命令相关的时间信息，确定所分类的多种类型的输入数据中的至少一个类型。

存储在存储器中可包括：按照预设时间单位将分类成多种类型的输入数据进行分组，以及基于分组的输入来获得与每个时间单位对应的多种类型中的每一种类型的代表性数据以存储在存储器中，其中，提供与语音命令对应的响应信息包括基于所确定的类型的代表性数据提供与语音命令对应的响应信息。

提供与语音命令对应的响应信息可包括：对与每个时间单元对应的多种类型中的每一种类型的代表值中的变化量进行比较，以及在具有最大变化量的类型上分配最大权重以提供与语音命令对应的响应信息。

确定所分类的多种类型的输入数据中的至少一个类型可包括，基于输入数据中的手势信息或语音信息中的至少一个来识别语音命令。

确定所分类的多种类型的输入数据中的至少一个类型可包括，基于在输入数据中识别的语音命令，识别语音命令作为预设语音识别单元；以及基于属于至少一个语音识别单元的时间间隔，确定所分类的多种类型的输入数据中的至少一个类型。

确定所分类的多种类型的输入数据中的至少一个类型可包括，基于在用户语音命令中包括的唤醒词，基于识别出唤醒词的时间间隔来将用户语音命令识别为预设语音识别单元。

提供与语音命令对应的响应信息可包括，根据基于识别到唤醒词的预设时间间隔输入的输入数据未提供响应信息，使用在识别唤醒词之前的先前时间间隔中输入的输入数据来提供与用户语音命令对应的响应信息。

确定所分类的多种类型的输入数据中的至少一个类型可包括，基于在语音命令中识别的用户意图或要控制的对象中的至少一个，确定所分类的多种类型的输入数据中的至少一个类型。

附图说明

通过以下结合附图的详细描述，本公开的某些实施方式的上述和其它方面、特征和优点将更为显而易见，其中：

图1是示出根据本公开的实施方式的示例性电子设备的框图；

图2是示出图1的示例性电子设备的示例性配置的框图；

图3是示出根据本公开的实施方式的根据类型对输入数据进行分类和存储的示例性操作的图；

图4A、图4B、图4C和图4D是示出根据本公开的实施方式的以预定时间为单位对数据进行分类和存储的示例性操作的图；

图5是示出根据本公开的实施方式的基于时间信息对输入数据进行分类的示例性过程的图；

图6是示出根据本公开的实施方式的存储在输入中的内容随时间变化的示例的图；

图7是示出根据本公开的实施方式的将输入数据分组为预定时间间隔的示例性操作的图；

图8是示出根据本公开的实施方式的在分组过程中获得输入数据的代表值的示例性过程的图；

图9是示出根据本公开的实施方式的根据预设数据选择多种类型中的一些的示例性操作的图；

图10A、图10B、图10C和图10D是示出根据本公开实施方式的根据时间间隔选择不同的多种类型的示例的图；

图11是示出根据本公开的实施方式的使用语音或情绪数据来提供与用户语音命令对应的信息的示例的图；

图12是示出根据本公开的实施方式的用于临时存储输入数据并使用临时输入数据提供与用户语音命令对应的响应信息的示例性操作的图；

图13是示出根据本公开的实施方式的通过对多个输入数据应用权重来提供与用户语音命令对应的响应信息的示例的图；

图14是示出根据本公开的实施方式的电子设备针对每种功能的示例性操作的图；

图15是示出根据本公开的实施方式的电子设备按时间的示例操作的图；以及

图16是示出根据本公开的实施方式的电子设备的示例性操作的流程图。

具体实施方式

在更详细地描述本公开的各种示例性实施方式之前，将描述用于理解本公开和附图的方法。

考虑到本公开的配置和功能，本公开的实施方式中使用的术语选择为当前广泛使用的通用术语，但是根据本领域技术人员的意图、先例、新技术的出现等，也可使用不同的术语。此外，可能会有一些任意选择的术语。可根据本公开中定义的含义来理解这些术语，并且还可基于本公开的一般内容和本领域中的典型技术概念(未具体定义这些术语)来理解这些术语。

此外，在附图中描述的相同的附图标记或符号可表示实际上执行相同功能的部件或元件。为了便于描述和理解，在不同的示例性实施方式中使用和描述了相同的附图标记或符号。换句话说，尽管在多个附图中全都示出了具有相同附图标记的元件，但是多个附图不必仅指一个示例性实施方式。

另外，为了区分组件，在本公开和权利要求中可使用包括诸如“第一”、“第二”等的序数的术语。序数可用于将相同或类似的元件与另一元件区分开，并且序数的使用不应理解为限制性的。本文所用的术语仅旨在解释各种示例性实施方式，而不是限制本公开的范围。例如，与这些序数组合的元件的使用顺序、布置顺序等可不受这些数的限制。必要时各个序号可互换使用。

在不与上下文冲突的情况下，单数表达还包括复数含义。说明书中的术语“包括”、“包含”、“配置为”等可用于指示特征、数量、步骤、操作、元件、部件或其组合的存在，并且其不应排除组合或添加一个或多个特征、数量、步骤、操作、元件、部件或其组合的可能性。

本公开可具有几个实施方式，并且可对实施方式进行各种修改。在以下描述中，特定实施方式提供有附图及其更详细的描述。然而，不必将示例性实施方式的范围限制为特定的实施方式形式。相反，可采用包括在本公开的公开概念和技术范围中的修改、等同方式和替换方式。在描述示例性实施方式时，如果确定关于已知技术的具体描述使本公开的主旨不清楚，则可省略该具体描述。

在本公开的示例性实施方式中，术语“模块”、“单元”或“部件”可被称为执行至少一个功能或操作的元件，并且可用硬件、软件、或硬件和软件的组合来实现。另外，除了必须用特定硬件实现的“模块”、“单元”或“部分”外，多个“模块”、多个“单元”、多个“部分”可集成到至少一个模块或芯片中，并且可用至少一个处理器(未示出)来实现。

此外，当任何部件连接到另一部件时，包括直接连接和通过另一介质的间接连接。此外，当某部分包括某个元件时，可另外包括另一元件，而不排除另一元件，除非另有相反的指定。

本公开的各种示例性实施方式的各个部分可由基于机器学习的识别系统执行，并且本公开可包括基于一系列基于神经网络的机器学习算法的分类系统，并且将以深度学习为基础的识别系统为例进行描述。

基于深度学习的识别系统可包括至少一个分类器，该分类器可对应于一个或多个处理器。处理器可实现为多个逻辑门的阵列，或者可实现为通用微处理器和存储器的组合，在该存储器中存储了可在微处理器中执行的程序。

分类器可实现为基于神经网络的分类器、支持向量机(SVM)、adaboost分类器、贝叶斯分类器、感知器分类器等。在下文中，本公开的分类器例如可以指实现为基于卷积神经网络(CNN)的分类器的实施方式。基于神经网络的分类器例如可以指使用由连接线连接的大量人工神经元来实现模拟生物系统的计算能力的计算模型，并且可通过具有连接强度(权重)的连接线来执行人类识别或学习过程。然而，本公开的分类器不限于此，并且将实现为上述各种分类器。

一般的神经网络可包括例如但不限于输入层、隐藏层和输出层，并且根据需要，隐藏层可包括一层或多层。作为用于学习神经网络的算法，可使用反向传播算法。

当任何数据输入到神经网络的输入层时，分类器可训练神经网络，使得用于输入学习数据的输出数据被输出到神经网络的输出层。当输入从输入数据中提取的特征信息时，可将特征信息的模式分类成几种类别中的一种，并且可使用神经网络输出分类结果。

处理器可包括基于一系列基于神经网络的机器学习算法的分类系统，并且可使用基于深度学习的识别系统。

图1是示出根据本公开的实施方式的示例性电子设备的框图。

电子设备100可包括存储器110和处理器(例如，包括处理电路)120。

电子设备100可包括例如但不限于，TV、台式PC、膝上型计算机、智能电话、平板PC、服务器等。电子设备100可实现为，例如但不限于，构建有云计算环境的系统本身，即云服务器。具体地，电子设备100可以是包括基于深度学习的识别系统的设备。上述示例仅是用于描述电子设备的示例，而不必限于上述设备。

存储器110可实现为内部存储器，例如但不限于ROM(例如，电可擦除可编程只读存储器(EEPROM))、包括在处理器120中的RAM，可实现为单独的存储器等。

存储器110可例如按照多种类型存储顺序输入的多个输入数据。稍后将在处理器120的操作中描述用于按照多种类型进行存储的示例性操作。

在电子设备100中实施的存储器可实现为，例如但不限于，易失性存储器(例如、动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)、非易失性存储器(例如，一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩码ROM、闪存ROM、闪存(例如、NAND闪存或NOR闪存等)、硬盘驱动器(HDD)、固态驱动器(SSD)、从电子设备100中可拆卸的存储器等中的至少一个；以及可实现为例如但不限于，存储卡(例如，紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、微型安全数字(Mini-SD)和极限数字(xD)、多媒体卡(MMC)等)、可连接到USB端口的外部存储器(例如USB存储器)等。

处理器120可包括各种处理电路，并且执行用于控制电子设备的总体操作。例如，处理器可用作控制电子设备的总体操作。

处理器120可实现为，例如但不限于数字信号处理器(DSP)、微处理器、时间控制器(TCON)等，但不限于此。处理器可包括例如但不限于，中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)、ARM处理器等中的一个或多个，并且可定义为相应的术语。另外，处理器可被实现为片上系统(SoC)，其中实施处理算法的大规模集成(LSI)或现场可编程门阵列(FPGA)。

根据本公开的与人工智能(在下文中称为AI)有关的功能可通过处理器和存储器来操作。该处理器可包括一个或多个处理器。一个或多个的处理器可包括例如但不限于，诸如CPU、AP、数字信号处理器(DSP)等的通用处理器，诸如GPU、视觉处理单元(VPU)的图形专用处理器，诸如NPU的AI专用处理器等。一个或多个处理器可包括各种处理电路，并控制电子设备根据存储在存储器中的预定操作规则或AI模型来处理输入数据。当一个或多个处理器包括AI专用处理器时，AI专用处理器可设计成具有专门用于处理特定AI模型的硬件结构。

预定义的操作规则或AI模型的特征是通过学习来制定。通过学习制定可以指，例如由学习算法使用多个学习数据来进行基本AI模型的训练，从而创建预定义的操作规则或AI模型集以执行期望的特征(或目的)。这种学习可根据本公开在执行AI的设备本身中进行，或可通过单独的服务器和/或系统进行。学习算法的示例包括监督学习、无监督学习、半监督学习或强化学习，但不限于上述示例。

AI模型可包括例如多个神经网络层。多个神经网络中的每一个可具有多个权重值，并且可通过在先前层的计算结果与多个权重之间的计算来执行神经网络计算。多个神经网络层具有的多个权重值可通过学习AI模型的结果来优化。例如，可更新多个权重以减小或最小化在学习过程期间从AI模型获得的损失值或成本值。AI神经网络可包括例如但不限于，卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻耳兹曼机(RBM)、深度置信网络(DBN)、双向递归深度神经网络(BRDNN)、深度Q网络等，但不限于上述示例。

处理器120可将顺序输入的多个输入数据划分为多种类型，并且将多种类型存储在存储器110中。当在输入数据中识别出用户语音命令时，处理器120可基于与用户语音命令相关的信息来确定分类的多种类型的输入数据中的至少一个类型。处理器120可基于所确定的类型的输入数据来提供与用户语音命令对应的响应信息。

根据另一实施方式，除了语音命令(例如用户语音命令)外，可使用动作或手势来输入用户命令。例如，除了用户语音命令外，处理器120还可具有通过图像接收的用户命令。另外，本文描述的用户语音命令可替换为用户图像命令。

输入数据可以是能够分析用户行为的图像数据或语音数据。根据实施方式，可通过电子设备100的麦克风获得语音数据，并且可通过外部设备的麦克风接收语音数据，并且电子设备100可仅接收语音数据。另外，根据实施方式，可从电子设备100的相机等获得图像数据，并且可通过外部设备的相机接收图像数据，并且电子设备100可仅接收图像数据。

预设的用户语音命令可以是能够从语音数据和图像数据中识别的用户行为。用户行为例如可以指用户说出特定词或采取/做出特定动作。预设的用户语音命令可根据用户的设置来改变。

处理器120可使用以多种类型存储的输入数据来分析(确定)用户语音命令。处理器120可通过仅选择(确定)多种类型中的某些类型来分析用户语音命令。处理器120可使用与用户语音命令有关的信息在多种类型中选择一些类型。与用户语音命令有关的信息可以指能够从语音数据和图像数据中识别的用户的任何和所有行为或动作。处理器120可使用语音数据和图像数据来识别用户的行为或动作，并且获得识别的结果作为用户信息。另外，处理器120可将所获得的用户信息和输入数据分类成多种类型并将其存储。处理器120可使用多种类型中的一些类型来分析用户语音命令。

处理器120可使用AI学习模型来选择多种类型中的一些类型。更详细地，在特定事件的情况下，AI学习模型可用于通过选择任何类型来计算分析识别率的过程。处理器120可控制电子设备以使用AI学习模型来确定预期最高识别率的类型。

为了分析用户语音命令，AI学习模型可将与用户语音命令对应的输入数据和与实际用户语音命令对应的响应信息进行比较。如果将输入数据和与用户语音命令对应的响应信息进行比较，则可分析出基于上述多种类型中的哪种类型，用户语音命令可具有最高识别率。

当基于分类成多种类型的预存储的输入数据来分析类型时，AI学习模型可学习哪种类型具有最高识别率，并通过确定具有最高识别率的类型来获得标准。另外，当接收到新的输入数据时，可通过将新的输入数据应用于先前的标准来获得识别率。即使当应用新输入数据的标准改变时，AI学习模型也可确定其是否具有如之前一样的高识别率。

如果新输入数据的识别率高于现有标准的识别率，则AI学习模型可改变现有标准。另外，每当接收新的输入数据时，都可重复所述过程。根据另一实施方式，在确定最终标准之后，可在接收到每预设数量的输入数据时执行识别率比较的操作。

处理器120可确定基于与用户语音命令有关的时间信息分类的多种类型的输入数据中的至少一个。

处理器120可根据时间信息对音频数据和图像数据进行分类。例如，如果用户说出“Bixby，打开那边的空调”，则语音数据可根据时间获得与“Bixby”、“那边”、“空调”和“打开”对应的信息。另外，可获得与时间对应的图像数据。处理器120可通过对与时间信息或时间间隔对应的语音数据和图像数据进行匹配来对输入数据进行分类。另外，可通过对语音数据和图像数据进行分类来分析用户语音命令。

处理器120可基于时间信息来分析与特定时间间隔对应的用户信息。下面将参考图5更详细地描述相应的操作。

处理器120可将按照预定时间单位分类成多种类型的输入数据进行分组，基于分组的输入来获得用于与每个时间单位对应的每种类型的代表性数据，并将每种类型的代表性数据存储在存储器110中，并基于确定的类型的代表性数据来提供与用户语音命令对应的响应信息。

分组操作例如可以指布置多个数据并将这些数据转换为一个数据的操作。另外，分组操作例如可以指将多个数据转换为一个代表值(或代表性数据)的操作。例如，假设从1秒至10秒接收了10个输入数据，则可将这10秒接收的输入数据分为一组并转换为一个输入数据。一个输入数据可以是代表值(或代表数据)。

代表数据可以是一个或多个。例如，假设每秒接收20个输入数据，则当以10秒为单位执行分组操作时，可存在两组和两个代表值。另外，处理器120可使用这两个代表值来分析用户语音命令。分析用户语音命令例如可以指处理器120获得与用户语音命令对应的响应信息。

获得代表值的操作可根据时间顺序使用多个输入数据中的最大值、最小值和平均值中的任何一个。另外，代表值可以是多个数据的相加操作。例如，假设存在四个文本信息“Bixby”、“那边”、“空调”和“打开”，则处理器120可通过分组操作将其转换为一个文本信息“Bixby，打开那边的空调”。

处理器120可以例如分析用户的语音并且在用户实际讲话的间隔执行分组操作。通常，语音数据可包括用户发声的间隔和用户未发声的间隔。处理器120可辨别识别到唤醒词的间隔或其后的间隔，以缩短处理时间。处理器120可对辨别出的特定间隔执行分组操作。

同时，下面将参考图7和8更详细地描述分组操作。

处理器120可对与每个时间单位对应的每种类型的代表性数据中的变化量进行比较，将最大权重分配给具有最大变化量的类型，并提供与用户语音命令对应的响应信息。下面将参考图13更详细地描述分配权重的操作。

处理器120可基于输入数据中的手势信息或语音信息中的至少一个来识别用户语音命令。

可使用语音数据和图像数据来分析用户语音命令。语音和图像数据可包括用于分析用户命令的信息。例如，可包括要控制的对象和控制命令，并且用户可做出与要控制的对象和控制命令对应的特定动作。

另外，当在输入数据中识别出用户语音命令时，处理器120可将用户语音命令识别为预设语音识别单元，并基于属于至少一个语音识别单元的时间间隔来确定按照多种类型分类的多个输入数据中的至少一个。

当用户语音命令中包括唤醒词时，处理器120可确定包括唤醒词的时间间隔(时间段)以及其后的发声间隔，并且使用包括在确定的时间间隔中的输入数据来分析用户语音命令。

当用户语音命令中包括唤醒词时，处理器120可基于识别到唤醒词的时间间隔，将该用户语音命令确定为预设语音识别单元。

可执行端点检测(EPD)操作以确定用户发声的间隔或预设语音识别单元，下面将参考图5更详细地描述详细操作。

根据另一实施方式，预设语音识别单元可以是预设时间间隔。例如，当将时间间隔设置为0.2秒时，处理器120可按照预设语音识别单元(0.2秒)分析包括唤醒词的语音数据。

当基于识别到唤醒词之后的预设时间间隔期间输入的输入数据不能提供响应信息时，处理器120可使用在识别到唤醒词之前的所有时间间隔中输入的数据输入，并提供与用户语音命令对应的响应信息。

当处理器120无法识别与特定时间间隔对应的输入数据时，处理器120可使用与先前时间间隔对应的输入数据来分析用户语音命令。下面将参考图12更详细地描述使用与先前时间间隔对应的输入数据的操作。

处理器120可基于从用户语音命令识别的关于用户意图或要控制的对象的信息中的至少一个，确定分类的多种类型的输入数据中的至少一个。当识别了包括在用户语音中的预设词时，处理器120可使用与预设词对应的类型来分析用户的命令。例如，当用户说出“Bixby”时，处理器120可仅选择与语音识别有关的类型并分析用户语音命令。下面将参考图9至图10更详细地描述具体操作。

根据本公开的电子设备100可接收语音数据和图像数据并分析用户的行为。电子设备100可存储语音数据和图像数据作为每种类型的输入数据。另外，当发生特定事件时，“电子设备”可使用与特定事件对应的类型来分析用户语音命令。由于使用特定类型的数据而非所有数据，因而电子设备100可缩短处理时间。另外，由于仅使用与特定事件对应的类型，因而结果中仅可反映所需区域(类型)的数据。因而，本公开的电子设备100预期可提高对用户语音命令的识别率。

图2是示出图1的示例性电子设备的示例性配置的框图。

参考图2，根据实施方式的电子设备100可包括存储器110、处理器120(例如，包括处理电路)、通信接口130(例如，包括通信电路)、用户接口140(例如，包括用户接口电路)、以及输入/输出接口150(例如，包括输入/输出电路)。

这里可不重复对存储器110和处理器120与上述操作相同的操作的重复描述。

处理器120可包括各种处理电路，并使用存储在存储器110中的各种程序来控制电子设备100的总体操作。

例如，处理器120可包括随机存取存储器(RAM)121、只读存储器(ROM)122、主中央处理单元(CPU)123、第一接口124-1至第n接口124-n、以及总线125。

在本示例中，RAM 121、ROM 122、CPU 123、第一接口124-1至第n接口124-n等可通过总线125彼此连接。

ROM 122存储用于系统启动的指令集。如果输入了开机命令并供电，则主CPU 123根据存储在ROM 122中的命令将存储在存储器110中的O/S复制到RAM 121中，并通过执行O/S来启动系统。响应于启动完成，主CPU 123可将存储在存储器110中的各种应用程序复制到RAM 121，并执行复制到RAM 121的应用程序以执行各种操作。

主CPU 123访问存储器110以使用存储在存储器110中的O/S来执行启动。CPU 123可使用存储在存储器110中的各种程序、内容、数据等执行各种操作。

第一接口124-1至第n接口124-n可与前述各种组件连接。接口中的一个可以是经由网络连接到外部设备的网络接口。

处理器120可执行图形处理功能(视频处理功能)。例如，处理器120可使用计算器(未示出)和渲染器(未示出)生成包括诸如图标、图像、文本等的各种对象的屏幕。计算器(未示出)可基于接收的控制指令，根据屏幕布局计算属性值，诸如每个对象将被表示的坐标值、形式、大小和颜色。渲染器(未示出)可基于由操作员(未示出)操作的属性值，生成包括对象的各种布局的屏幕。处理器120可对视频数据执行各种图像处理过程，诸如解码、缩放、噪声过滤、帧速率转换和分辨率转换。

处理器120可对音频数据执行处理。例如，处理器120可执行各种处理，诸如音频数据的解码、放大和噪声过滤。

通信接口130可包括各种通信电路，并且可以是根据各种类型的通信方法与各种外部设备进行通信的元件。通信接口130可包括在各种通信模块中包括的各种通信电路，例如但不限于Wi-Fi模块131、蓝牙模块32、红外通信模块133、无线通信模块134等。处理器120可使用通信接口130执行与各种外部设备的通信。外部设备可包括例如但不限于，诸如电视的显示设备、诸如机顶盒的图像处理设备、外部服务器、诸如遥控器的控制设备、诸如蓝牙扬声器的音频输出设备、照明设备、智能清洁器、诸如智能冰箱的家用电器、诸如IOT家庭管理员的服务器等。

Wi-Fi模块131和蓝牙模块132可分别使用Wi-Fi方法和蓝牙方法执行通信。在使用Wi-Fi模块131或蓝牙模块132的情况下，可以先接收和发送诸如服务集标识符(SSID)和会话密钥的连接信息，并可使用连接信息进行通信连接，然后可接收和发送各种信息。

红外通信模块133可根据红外数据关联(IrDA)技术执行通信，IrDA技术使用时间光与毫米波之间的红外线将数据无线传输到短距离。

无线通信模块134例如可以指，除上述Wi-Fi模块131和蓝牙模块132外，根据各种通信标准(诸如Zigbee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、LTE-A、4G(第四代)、5G(第五代)等)执行通信的模块。

通信接口130可包括局域网(LAN)模块、以太网模块或有线通信模块(使用成对的电缆、同轴电缆或光纤电缆来执行通信)中的至少一个。

根据实施方式，通信接口130可使用相同的通信模块(例如，Wi-Fi模块)，与外部设备和诸如遥控器的外部服务器进行通信。

根据另一实施方式，通信接口130可使用不同的通信模块(例如，Wi-Fi模块)，与外部设备和诸如遥控器的外部服务器进行通信。例如，通信接口130可使用以太网模块或Wi-Fi模块中的至少一个与外部服务器通信，并且可使用BT模块与诸如遥控器的外部设备通信。

然而，这仅仅是示例，并且在与多个外部设备或外部服务器进行通信的情况下，通信接口130可使用各种通信模块中的至少一个通信模块。

根据实施方式，通信接口130还可包括调谐器和解调器。

调谐器(未示出)可通过调谐由用户选择的信道或预先通过天线在无线电(RF)广播信号中预先存储的所有信道来接收RF广播信号。

解调器(未示出)可接收和解调由调谐器转换的数字IF信号(DIF)，并执行信道解码。

用户接口140可包括各种用户接口电路，并且可实现为例如但不限于诸如按键、触摸板、鼠标、键盘等的设备，或可实现为能执行上述显示功能和操作单元功能的触摸屏。按键可以是各种类型的按键，诸如机械按键、触摸板、滚轮等，其形成在电子设备100主体的诸如正面、侧面或背面的任何区域上。

输入/输出接口150可包括各种输入/输出电路，并且可以是例如但不限于，高清多媒体接口(HDMI)、移动高清链接(MHL)、通用串行总线(USB)、显示端口(DP)、雷电、视频图形阵列(VGA)端口、RGB端口、D超微型(D-SUB)、数字视觉接口(DVI)等中的一个或多个。

HDMI可以指例如能够发送用于输入和输出音频和视频信号的AV设备的高性能数据的接口。DP可以指例如能够实现1920×1080全高清、诸如2560×1600或3840×2160的超高分辨率屏幕和3D立体图像以及数字音频的接口。雷电可以指例如用于传输和连接高速数据的输入/输出接口，并且可在一个端口中并行连接PC、显示器、存储设备等。

输入/输出接口150可输入/输出音频和视频信号中的至少一个。

根据实施方式，输入/输出接口150可包括仅用于输入/输出音频信号的端口和仅用于输入/输出视频信号的端口作为单独端口，或可实现为用于输入/输出音频信号和视频信号的一个端口。

电子设备100可实现为不包括显示器的设备，以将视频信号发送到单独的显示设备。

电子设备100可将对应的语音信号发送到外部服务器，以对从外部设备接收的语音信号进行语音识别。

例如，用于与外部设备和外部服务器通信的通信模块可与Wi-Fi模块相同。

用于与外部设备和外部服务器通信的通信模块可以分开实现。例如，外部设备可以用蓝牙模块进行通信，并且外部服务器可以用以太网调制解调器或Wi-Fi模块进行通信。

根据实施方式的电子设备100可将接收的数字语音发送到语音识别服务器。在本示例中，语音识别服务器可使用语音转文本(STT)将数字语音信号转换为文本信息。在本示例中，语音识别服务器可将文本信息发送到另一服务器或电子设备，以执行与文本信息对应的搜索。在某些情况下，语音识别服务器可以直接执行搜索。

根据另一实施方式的电子设备100可将STT功能直接应用于数字语音信号，将数字语音信号转换为文本信息，并将转换的文本信息发送到外部服务器。

图2所示的组件还可包括显示器和扬声器。

显示器可实现为各种类型的显示器，例如但不限于液晶显示器(LCD)、有机发光二极管(OLED)显示器、等离子显示面板(PDP)等。显示器可包括驱动电路、背光单元等，其可实现为a-si TFT、低温多晶硅(LTPS)TFT、有机TFT(OTFT)等的形式。显示器可实现为与触摸传感器结合的触摸屏、柔性显示器、3D显示器等。

此外，根据实施方式的显示器不仅可包括用于输出图像的显示面板，还可包括容纳该显示面板的边框。例如，根据实施方式的边框可包括用于检测用户交互的触摸传感器(未示出)。

扬声器可以是不仅输出由输入/输出接口150处理的各种音频数据，还输出各种通知声音或语音消息的组件。

电子设备100还可包括麦克风(未示出)。麦克风可以指例如用于接收用户的语音或其它声音并将其转换为音频数据的配置。在本示例中，麦克风可转换接收的模拟用户语音信号并将其发送到电子设备100。

麦克风(未示出)可以在激活状态下接收用户语音。例如，麦克风可以与电子设备100的上侧、前侧或侧面一体形成。麦克风可包括各种配置，诸如用于以模拟形式采集用户语音的麦克风、用于放大采集的用户语音的放大器电路、用于对放大的用户语音进行采样并将其转换为数字信号的A/D转换电路、用于从转换的数字信号中去除噪声成分的滤波器电路等。

图3是示出根据本公开的实施方式的根据类型对输入数据进行分类和存储的示例性操作的图。

电子设备100可识别用户的语音数据和图像数据。例如，电子设备100可通过麦克风接收用户的语音。另外，电子设备100可通过相机接收用户的外貌。

例如，当用户说出“Bixby，打开那边的空调”同时将他/她的手指向某方向时，电子设备100可使用麦克风和相机来识别用户的行为。

电子设备100可接收音频数据和视频数据作为输入数据。电子设备100可存储接收的多种类型中的每一种类型的输入数据。例如，电子设备100可将输入数据分类并存储为面部ID、手势、性别、年龄、情绪(图像)、语音ID、文本、情绪(文本)和情绪(语音)。

面部ID可以指根据用户的面部的唯一ID，并且电子设备100可使用确定用户唯一特征(诸如虹膜或面部轮廓)的方法来获得面部ID。

手势可以指使用用户的手、手指或手臂指向特定方向或进行特定动作的操作。

文本可以指将由用户讲出的语音数据转换为文本的结果。

情绪(视频)可以指通过视频识别的用户的情绪状态，并且动作(文本)可以指仅使用文本结果分析的用户的情绪状态。另外，情绪(语音)可以指仅使用语音数据分析的用户的情绪状态。

与面部ID、手势和情绪(视频)对应的类型可以是使用视频数据分析的结果，并且与语音ID、文本、情绪(文本)、情绪(语音)对应的类型可以是使用语音数据分析的结果。

与性别和年龄对应的类型可以是使用语音数据或视频数据中的至少一个的分析结果。

参考图3，电子设备100可存储面部ID为面部用户1，以及手势为左。左可表示由用户的手指指向的方向为左。根据另一实施方式，可存储特定动作的名称。另外，电子设备100可存储性别为女性、年龄为30岁、以及情绪(视频)为愉悦0.6。愉悦0.6可描述表示情绪状态的值或与情绪状态对应的概率中的至少一个。另外，电子设备100可存储语音ID为语音用户1、文本为“Bixby，打开那儿的空调”、情绪(文本)为中性0.6、以及情绪(语音)为愉悦0.8。

电子设备100可区分并描述面部ID和语音ID，但基本上可确定为同一用户。当面部ID和语音ID不匹配时，电子设备100可注意到分析是错误的并再次执行识别操作。

图4A、图4B、图4C和图4D是示出根据本公开的实施方式的以预定时间为单位存储输入数据的示例性操作的图。

参考图4A、图4B、图4C和图4D，电子设备可以处于以例如时间顺序存储输入数据的状态。例如，如果假设用户说出“Bixby，打开那边的空调”的实施方式，则可基于用户发声的时间顺序存储输入数据。

基于语音数据，电子设备100可识别用户在图4A所示的间隔中说出“Bixby”、在图4B中示出的间隔中说出“那边”、在图4C所示的间隔中说出“空调”、以及在图4D所示的间隔中说出“打开”。

另外，基于视频数据，电子设备100可以未识别出在图4A所示的间隔中的特殊手势操作，并且可识别出在图4B、图4C、图4D所示的间隔中的指向左侧的手势操作。

另外，基于视频数据，电子设备100可识别出在图4A和图4B所示的间隔中用户的情绪对应于愉悦，并且在图4C和图4D所示的间隔中对应于中性。另外，基于语音数据，电子设备可识别出在图4A所示的间隔中用户的情绪对应于愉悦，并且可以未识别出在图4B所示的时间间隔中用户的情绪，并且可识别出在图4C和图4D所示的间隔中用户的情绪对应于愉悦。

参考图4A、图4B、图4C和图4D，电子设备100可根据时间间隔接收输入数据并根据每个时间间隔不同地分析类型。例如，电子设备可接收根据时间间隔改变的用户动作作为数据，并且根据时间间隔对其进行分析以存储该数据。

图5是示出根据本公开的实施方式的基于时间信息对输入数据进行分类的示例性过程的图。

参考图5，电子设备100可基于时间信息来区分用户发出的语音。例如，假设接收两秒钟的用户的语音数据，并且用户说“Bixby，打开那边的空调”。

语音数据对应于2秒，但是由用户实际发声的时间间隔实际上可小于2秒。如图5所示，由用户实际发声的时间间隔可在0.4秒至1.2秒之间。可包括“Bixby”与“打开那边的空调”之间的无发声时间。电子设备100可确定由用户实际发声的时间间隔。电子设备100可分析语音数据，并确定声音波形的幅度连续大于任意值的间隔作为一个间隔。

例如，电子设备可将从声音波形的幅度大于任意值的时间点到小于该任意值的时间点确定为一个间隔(t1)。另外，电子设备100可将从声音波形的幅度大于任意值的时间点到小于该任意值的时间点确定为新的间隔(t2)。

因此，电子设备100可通过分析语音数据来确定分类的时间间隔(t1和t2)。

参考图5，当电子设备识别了唤醒词时，其随后可分析话语。例如，假设电子设备100存储Bixby作为唤醒词，并且当用户说出“Bixby，打开那边的空调”时，电子设备100可将Bixby识别为唤醒词并对用户随后的话语执行端点检测(EPD)的操作。也就是说，电子设备100在识别了唤醒词Bixby之后执行EPD操作，从而其可单独分类出与t2对应的时间间隔。

图6是示出根据本公开的实施方式的存储在输入数据中的内容随时间变化的示例的图。

参考图6，电子设备100可根据时间顺序根据多种类型对输入数据进行分类和存储。电子设备100可从0.8秒或稍后识别出用户用手指指向左，并且可在手势区域中存储为左。电子设备100可基于图像数据识别出在0.1秒至0.8秒之间用户的情绪状态对应于愉悦，并且在0.9秒至1.2秒之间用户的情绪状态对应于中性。根据另一实施方式，电子设备可存储与情绪状态对应的概率。

电子设备100可基于语音数据根据时间存储文本信息。电子设备100可根据时间间隔分类并存储与“Bixby，打开那边的空调”对应的文本信息。对应于0.5秒的“Bixby”文本信息实际上可以是从与0.5秒至0.6秒之间对应的语音数据获得的文本信息。

参考图6，电子设备100可使用按照时间顺序接收的输入数据来分类和存储多种类型。

图7是示出根据本公开的实施方式的将输入数据分组为预设时间间隔的示例性操作的图。

关于图7，为了便于说明和解释，假定用户的语音是在0.5秒至1.3秒之间发出的且预设时间间隔为0.2秒。

电子设备100能够辨别出实际识别到用户语音的时间间隔(0.5秒至1.2秒、R1、R2、R3和R4)和未识别到用户语音的时间间隔(0秒至0.5秒，R0)。另外，电子设备100可将识别到用户语音的时间间隔(0.5秒至1.2秒)划分为预设时间间隔(0.2秒)。电子设备100可以以0.2秒的间隔对识别到用的语音的间隔进行分组。具体地，电子设备100可将0.5秒至0.7秒分组为间隔R1，将0.7秒至0.9秒分组为间隔R2，将0.9秒至1.1秒分组为间隔R3并且将1.1秒至1.3秒分组为间隔R4。

电子设备100可通过执行分组操作简化输入数据。当根据所有时间存储输入数据时，会浪费处理时间和存储空间。因而，电子设备100可通过分组操作简化存储输入数据的过程。

为了通过分组操作简化数据存储过程，需要组织数据的过程，并且下面将参考图8更详细地描述用于组织数据的操作。

图8是说明根据本公开的实施方式的在分组过程中获得输入数据的代表值的示例性过程的图。

与图8中所示的R1、R2、R3和R4对应的数据可以指例如通过根据图7的分组过程获得的数据。电子设备100可按照预定时间间隔对输入数据进行分组，并且获得关于分组的时间间隔的每种类型信息的代表值。例如，与图7中的R1对应的间隔中，存在针对每种类型的两个输入数据信息。电子设备100可使用这两个数据获得用于每种类型的一个代表值。同时，根据另一实施方式，电子设备100可使用两个或更多个数据获得代表值。可通过改变预设时间间隔(0.2秒)，来调整用于获得代表值所使用的数据的数量。

电子设备100可使用多个分组的输入数据的平均值、最小值和最大值中的任何一个来获得代表值。另外，当仅存在多个分组的输入数据中的一部分时，电子设备100可排除不存在的输入数据部分，并仅用输入数据来获得代表值。

电子设备100可通过对多个分组的输入数据求和来获得代表值。例如，在图7的R1间隔中，可通过将“Bix”和“by”分开来存储文本信息。电子设备100可通过组合“Bix”和“by”的文本信息来获得“Bixby”，并存储“Bixby”作为代表值。

根据另一实施方式，各种方法可应用于电子设备100，并且电子设备100不限于上述实施方式。

图9是示出根据本公开的实施方式的根据预设数据选择多种类型中的一些的示例性操作的图。

参考图9，如果接收的输入数据与预设数据匹配，则电子设备100可确定与预设数据对应的类型。例如，为了便于描述和说明，假设用户说出“Bixby，打开那边的空调”。当识别了Bixby的文本信息时，电子设备100可基于与输入数据中的语音ID、文本信息、情绪(文本)和情绪(语音)对应的类型来提供与用户语音命令对应的响应信息。电子设备100可分析“Bixby”与语音识别设备有关，并且仅使用与语音数据有关的类型来提供与用户语音命令对应的响应信息。

此外，当识别了文本信息“那边的”时，电子设备100可使用手势类型来提供与用户语音命令对应的响应信息。电子设备100可确定词“那边的”是指方向等，并且可使用与方向有关的类型的手势类型来提供与用户语音命令对应的响应信息。

当在语音数据中识别的文本信息被识别为“这边、这里、那、这、左侧、右侧、东、西、南、北、上、下、左和右”中的至少一个词时，电子设备100可使用手势类型提供与用户语音命令对应的响应信息。

本公开不限于上述实施方式，电子设备100可根据由用户设置的词使用其它类型来提供与用户语音命令对应的响应信息。

此外，电子设备100可使用AI学习模型以确定与由用户设置的词对应的类型。例如，除了用户指定预设词和与预设词对应的类型外，AI学习模型可以直接匹配预设词和与预设词对应的类型。

AI学习模型可基于多个预存储的输入数据来获得用于确定的标准。AI学习模型可基于大量输入数据来分析特定词与类型之间的关系。例如，在获得与用户语音命令对应的响应信息时，与Bixby对应的词可能不会受到性别类型或年龄类型的显著影响。另一方面，当用户说出与Bixby对应的词时，语音ID、文本、情绪(文本)和情绪(语音)类型可能会对结果具有巨大影响。AI学习模型可将词“Bixby”与所有多种类型进行比较，并通过仅选择具有特定权重或更大权重的类型来确定用于分析用户语音命令的标准。

人工智能学习模型还可通过比较上述词Bixby以外的各种词和多种类型，来确定选择具有最高识别率的类型的标准。

由于电子设备100选择性地使用与预设文本信息对应的类型，因而可提高数据处理速度。例如，当以常规方式分析数据时，所有类型的数据应被分析。然而，当选择性地使用如图9所述的一些类型时，可提高数据处理速度。另外，由于通过仅反映用户所需的数据来获得结果，因而可提高识别度。

图10A、图10B、图10C和图10D是示出根据本公开实施方式的根据时间间隔选择的多种类型不同的示例的图。

图10A、图10B、图10C和图10D是示出根据图9的实施方式的图。例如，电子设备100可按照图10A、图10B、图10C和图10D的顺序接收与用户的话语对应的输入数据。

用于图10A至图10D中公开的每个时间步骤的输入数据可与图4中公开的实施方式部分相同。参考图10A至图10D，电子设备100可根据包括在用户的话语和时间间隔中的文本信息，不同地确定用于每个时间间隔的多种类型中的一些。例如，如果用户在图10A所示的时间间隔内说出Bixby，电子设备100可在图10A、图10B、图10C和图10D所示的间隔中分别确定与语音ID、文本、情绪(文本)和情绪(语音)对应的类型。

电子设备100可在图10B所示的间隔中识别与“那边的”对应的文本信息。在本示例中，电子设备100可在图10B、10C和10D所示的间隔中确定手势类型，并且提供与用户语音命令对应的响应信息。

参考图10A至图10D，电子设备100可根据时间间隔通过选择另一类型来提供与用户语音命令对应的响应信息。当不论时间间隔而分析与手势类型对应的所有数据时，处理时间可能会很长。由于电子设备100仅选择性地使用与特定时间间隔对应的输入数据，因而可缩短处理时间。

图11是示出使用语音或情绪数据来提供与用户语音命令对应的信息的各种示例的图。

图11示出了一种操作，确定是否根据接收的输入数据使用哪种类型提供与用户语音命令对应的响应信息。

示例1假设用户说出“Bixby，打开那边的空调”的情况。唤醒词可对应于Bixby。当识别了用户说出的Bixby时，电子设备100可确定文本类型。当用户说“那边的空调”时，电子设备100可确定文本类型和手势类型。另外，当用户说出“打开”时，电子设备可确定语音ID类型。

示例2假设用户说出“Bixby，买这本书”的情况。唤醒词可对应于Bixby。当用户说出“这本书”时，电子设备100可确定文本类型和手势类型；并且当用户说出“购买”时，其可确定语音ID或面部ID中的至少一个。

示例3假设用户说出“Bixby，播放民谣音乐”的情况。唤醒词可对应于Bixby。当用户说出“民谣音乐”时，电子设备100可确定文本类型。当用户说“播放”时，电子设备100可确定语音ID类型。当电子设备100在语音数据或图像数据中的至少一个中确定用户的情绪为忧伤时，电子设备可确定情绪(图像)、情绪(文本)和情绪(语音)类型。

示例4假设用户说出“Bixby，登记12月2日的旅行计划”的情况。唤醒词可对应于Bixby。当用户说出“12月2日”和“旅行”时，电子设备100可确定文本。当用户说出“登记(计划)”时，电子设备100可确定语音ID或面部ID中的至少一个。另外，当电子设备100确定用户的情绪为愉快的情绪时，电子设备100可确定情绪(图像)、情绪(文本)和情绪(语音)。

将描述对示例3和示例4中确定的情绪状态进行确定的操作的示例。电子设备100可使用图像数据、语音数据或从语音数据中分析的文本信息中的至少一个，以确定用户的情绪状态。当电子设备100识别了在图像数据、语音数据或从图像数据中分析的文本信息中显示了诸如愉快、悲伤等的特定情绪状态时，电子设备100可确定所有情绪(图像)、情绪(文本)和情绪(语音)。

在图11中，电子设备100确定特定类型可以指，例如，使用该特定类型来提供与用户语音命令对应的响应信息。

本公开不限于以上示例，并且电子设备100可根据用户的设置以各种方式选择或确定。

参考图11，电子设备100可例如仅使用与预设数据对应的类型，并提供与用户语音命令对应的响应信息。

图12是示出根据本公开的实施方式的临时存储输入数据并使用临时输入数据提供与用户语音命令对应的响应信息的示例性操作的示图。

电子设备100可在预定时间内临时存储以多种类型存储的输入数据。另外，当输入用户的附加命令时，电子设备100可使用临时存储的输入数据来提供与用户语音命令对应的响应信息。

例如，在用户说出“Bixby，打开那边的空调”的同时执行指向特定方向的操作之后，当用户说出“将温度设为24度”的同时未指向特定方向时，电子设备100可能无法获得与用户语音命令“将温度设为24度”对应的信息。这是由于用户语音命令“将温度设为24度”没有要控制的目标。因而，当未获得与用户语音命令对应的信息时，电子设备100可使用临时存储的先前分析来提供与用户语音命令对应的响应信息。

由于目标未被识别，因此前述实施方式可使用与可识别目标的手势类型或文本类型对应的信息。在先前时间间隔中获得的文本类型包括“Bixby，打开那边的空调”的文本信息，使得电子设备可确定空调是要控制的目标。

根据另一实施方式，电子设备100可以不立即使用临时存储的数据。而是当面部ID或语音ID中的至少一个的类型信息匹配时，电子设备100可使用临时存储的数据。

参考图12，电子设备100可使用与先前时间间隔对应的输入数据来提高对用户语音命令的识别率，从而从用户的角度提高便利性。

图13是示出根据本公开的实施方式的通过对多个输入数据分配权重来提供与用户语音命令对应的响应信息的实施方式的图。

电子设备100可提供选择多种类型中的一些类型，并且提供与用户语音命令对应的响应信息。可通过根据选择的类型彼此分配不同的权重来获得与用户语音命令对应的响应信息。

参考图11，在示例3中描述了分析情绪状态的操作。为了分析情绪状态，电子设备100可使用情绪(图像)、情绪(文本)和情绪(语音)。当在情绪(图像)、情绪(文本)和情绪(语音)类型中的任何一种中，用户的情绪状态对应于悲伤时，电子设备100可使用情绪(图像)、情绪(文本)和情绪(语音)的所有类型来确定最终的情绪状态。例如，尽管在特定时间间隔中确定了悲伤状态，但是可单独检查用户的最终情绪状态是否对应于悲伤。

为了单独检查用户的最终情绪状态是否对应于悲伤，电子设备100可使用情绪(图像)、情绪(文本)和情绪(语音)类型的所有类型。电子设备100可以对每种类型分配不同的权重。另外，电子设备100可考虑数据的变化量来确定权重。详细地，对于数据变化量更大的类型，电子设备100可分配更大的权重。

参考图13，情绪(图像)和情绪(文本)类型的数据是持续显示悲伤或中性，但情绪(语音)类型已从中性变为悲伤。电子设备100可通过对具有最大数据变化的情绪(语音)类型应用很大的权重来分析用户的最终情绪状态。

AI学习模型可能能够通过自身学习来确定用于分配权重的确定标准。AI学习模型可分析存储的大量输入数据和与输入数据对应的响应信息，并通过将各种权重值应用于数据变化量最大的类型来计算识别率。另外，AI学习模型可确定各种权重值中具有最高识别率的权重值。

电子设备100可确定是否应用对每种类型应用的不同权重值。例如，如果具有最大数据变化量的类型是情绪(语音)，则可应用权重0.9，但是如果具有最大数据变化量的类型是手势，则可应用权重0.5。AI学习模型可基于识别率来应用关于这些操作的各种方法，从而确定是对每种类型应用相同的权重还是对每种类型应用不同的权重。

当为每种类型应用不同的权重时，电子设备100可增加对用户语音命令的识别率。对于每个用户，反映用户情绪的部分可能不同。电子设备100可通过根据数据改变设置不同的权重，确定情绪被良好表达的部分并且在识别操作中予以反映。

图14是示出根据本公开的实施方式的用于每种功能的电子设备的示例性操作的图。

电子设备100可使用例如机器人操作系统(ROS)框架、交互管理器和应用，提供与用户语音命令对应的响应信息。

电子设备100可从机器人操作系统(ROS)框架接收语音或图像数据。另外，电子设备100可使用接收的数据来识别用户的信息。例如，电子设备100可包括用于使用用户的身体姿势、手指指向、情绪(图像、文本和语音)、面部、性别和年龄以及自动语音识别(ASR)进行讲话者识别的各种引擎。电子设备100可选择性地使用确定上述各种用户信息所需的数据。

交互管理器可包括引擎连接器、服务呈现器、语义分析器、上下文管理器和对话系统的模块。

引擎连接器模块可包括各种处理电路和/或可执行程序元件，并执行能够获得各种用户信息的引擎连接。另外，引擎连接器模块可发送特定命令以获得从特定引擎获得的用户信息。引擎连接器模块可将获得的用户信息发送到语义分析器。

服务呈现器模块可包括各种处理电路和/或可执行程序元件，并与应用进行通信。详细地，服务呈现器模块可从语义分析器接收最终的分析结果，并将其发送到应用。

语义分析器模块可包括各种处理电路和/或可执行程序元件，并且从各种引擎接收与用户信息对应的数据，并且分析与接收的用户信息对应的数据以执行最终的分析操作。语义分析器模块可使用引擎连接器模块控制要发送到引擎的特定命令，以执行最终的分析操作，然后将从对话系统模块接收到的结果发送到服务呈现器。

上下文管理器模块可包括各种处理电路和/或可执行程序元件，并且存储和管理从交互管理器产生的数据。上下文管理器模块可在不同的交互管理器之间交换信息。另外，上下文管理器可存储和管理用户信息。

对话系统模块可包括各种处理电路和/或可执行程序元件，并与包括对话功能的外部服务器通信。对话模块可将内部操作的输出发送到外部服务器。另外，对话系统模块可从外部服务器接收输出并将其发送到语义分析器。对话系统模块可将与用于执行特定任务的请求及其结果有关的信息发送到上下文管理器模块。另外，对话系统模块可执行与自然语言理解(NLU)、对话管理(DM)和自然语言生成(NLG)功能有关的操作，每个功能可包括各种处理电路和/或可执行程序元件。

应用可包括信使控制模块、头像控制模块和时尚推荐模块中的至少一个。

机器人操作系统(ROS)框架、交互管理器和应用可通过机器人操作系统(ROS)接口和代表性状态传送(RST)接口连接。

ROS框架可通过ROS接口连接到交互管理器和应用，并且可通过ROS接口连接到上述各种引擎。时尚推荐模块(应用中不包括的模块)可通过REST接口连接到交互管理器。另外，可通过REST接口将文本语音转换(TTS)或语音文本转换(STT)模块连接到应用。

图15是示出根据本公开的实施方式的电子设备的示例性操作的图。

参考图15，ROS框架可以与引擎连接器发送和接收ROS消息(S1)。引擎连接器模块可将识别分析数据发送到服务呈现器模块(S2)。语义分析器模块可将自动语音识别结果发送到服务呈现器模块(S3-1)，并且服务呈现器模块可将自动语音识别结果发送到智能镜网络应用(S3-2)。语义分析器模块可使用接收的识别分析数据，将面部ID或语音ID信息到上下文管理器模块(S4)。另外，上下文管理器模块可将请求和响应发送和接收到外部服务器，外部服务器可用对话系统模块分析对话(S9-2)。

另外，语义分析器模块可将用于能够分析对话的外部服务器的对话分析请求命令发送到对话系统模块(S5)。对话系统模块可将用于外部服务器的对话分析请求命令发送到外部服务器(S6)。另外，外部服务器可使用网络挂钩服务来执行天气、提醒和内容推荐操作(S7)，并且外部服务器可将执行结果发送到对话系统模块(S8)。

对话系统模块可将时尚推荐的请求命令发送到时尚推荐引擎(S8-1)。时尚推荐引擎可根据接收的请求命令执行时尚推荐操作，并将结果发送回对话系统模块(S8-2)。

对话系统模块可根据接收的外部服务器或时尚推荐的结果将关于执行结果的信息发送到语义分析器模块(S9-1)。上下文管理器模块可根据由另一交互管理器执行的外部服务器将关于执行结果和时尚推荐结果的信息发送到对话系统模块(S9-2)，并且对话系统模块可将接收的信息发送到语义分析器模块。

语义分析器模块可将根据外部服务器接收的执行结果、时尚推荐结果、LNG响应结果、头像行为信息等发送到服务呈现器模块(S10)。另外，服务呈现器模块可将对应的信息发送到智能镜像网络应用(S11)。智能镜像网络应用可将LNG结果、性别、语言、情绪等发送到执行文本到语音(TTS)或语音到文本(STT)功能的模块(S12)。

交互管理器可使用超文本传输协议(HTTP)与外部服务器或时尚推荐引擎进行通信。另外，交互管理器可使用ROS方法与ROS框架和智能镜像网络应用进行通信。

参考图15，仅已描述一些示例性实施方式，并且不限于对应的模块或配置。

根据本公开的实施方式的控制电子设备的方法，可包括：将顺序输入的多个输入数据划分为多种类型，并将多个输入数据存储在存储器110中(S1605)；如果在输入数据中识别出了用户语音命令，则基于与用户语音命令有关的信息确定分类的(例如，划分的)多种类型中的至少一种(S1610)；以及基于确定的类型的输入数据，提供与用户语音命令对应的响应信息(S1615)。

确定分类的多种类型中的至少一种(S1610)可基于与用户语音命令有关的时间信息来确定分类的多种类型的至少一种。

另外，存储在存储器110中(S1605)可以以预定时间单位将分类成多种类型的输入数据进行分组，并且获得与每个时间单位对应的多种类型的代表性数据以将其存储在存储器110中。提供与用户语音命令对应的响应信息可基于确定的代表数据来提供与用户语音命令对应的响应信息。

提供与用户语音命令对应的响应信息(S1615)可按照与每个时间单位对应的多种类型将代表性数据的变化量进行比较，并且将最大权重分配给具有最大变化量的类型，以提供与用户语音命令对应的响应信息。

另外，确定分类的多种类型的输入数据中的至少一个(S1610)可基于手势信息或语音信息中的至少一个来识别用户语音命令。

另外，当在输入数据中识别了用户语音命令时，确定分类的多种类型的输入数据中的至少一个(S1610)可将用户语音命令识别为预设语音识别单元，并基于属于至少一个语音识别单元的时间间隔来确定在分类的多种类型的输入数据中的至少一个。

当在用户语音命令中包括唤醒词时，确定分类的多种类型的输入数据中的至少一个(S1610)可基于识别出唤醒词的时间间隔来将用户语音命令识别为预设语音识别单元。

当基于识别出唤醒词之后的预设时间间隔期间输入的输入数据不能提供响应信息时，提供与用户语音命令对应的响应信息(S1615)可使用在识别唤醒词之前的时间间隔中输入的输入数据，并提供与用户语音命令对应的响应信息。

另外，确定分类的多种类型的输入数据中的至少一个(S1610)可基于关于用户意图的信息或由用户语音命令识别的控制对象中的至少一个，确定分类的多种类型的输入数据中的至少一个。

根据上述实施方式的方法可实现为可安装在现有电子设备中的应用。

此外，根据上述实施方式的方法可通过升级现有电子设备的软件或硬件、或软件和硬件的组合来实现。

上述示例性实施方式可通过电子设备中的嵌入式服务器或通过电子设备外部的外部服务器来执行。

根据上述各种实施方式的控制电子设备的方法可实现为程序并且设置在用户终端设备中。例如，根据示例性实施方式的包括用于控制显示设备的方法的程序可存储在非暂时性计算机可读介质中并设置在其中。

上述各种示例性实施方式可在可以由使用软件、硬件或其组合的计算机或与计算机类似的设备读取的记录介质中实施。根据示例性硬件实施方式，本公开所描述的示例性实施方式可使用从专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、用于执行其它功能的电元件中选择的至少一种来实施。在一些情况下，本公开所描述的实施方式可实现为处理器120本身。在示例性软件配置中，本公开所描述的各种实施方式(诸如过程和功能)可实施为单独的软件模块。软件模块可分别执行本公开所描述的一个或多个功能和操作。

根据各种示例性实施方式的控制显示设备的方法可存储在非暂时性可读介质上。当存储在非暂时性可读介质中的计算机指令由特定设备的处理器执行时，其允许特定设备根据上述各种实施方式在电子设备中执行处理操作。

非暂时性计算机可读记录介质可以指例如存储数据并可由设备读取的介质。例如，非暂时性计算机可读介质可以是CD、DVD、硬盘、蓝光盘、USB、存储卡、ROM等。

前述示例性实施方式和优点仅仅是示例，并且不应被理解为限制本公开。本教导可以容易地应用于其它类型的设备。本公开的示例性实施方式的描述旨在说明性的，而非限制权利要求的范围，并且许多替代方式、修改和变化对于本领域技术人员将是显而易见的。

Claims

1.一种电子设备，包括：

存储器；以及

处理器，配置为控制所述电子设备以：

将多个输入数据分类为多种类型以存储在所述存储器中，

基于在所述输入数据中识别的语音命令，确定所分类的所述多种类型的输入数据中的至少一个类型，以及

基于所确定的类型的输入数据，提供与所述语音命令对应的响应信息。

2.如权利要求1所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

基于与所述语音命令相关的时间信息，确定所分类的所述多种类型的输入数据中的至少一个类型。

3.如权利要求1所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

按照预设时间单位将分类成所述多种类型的输入数据进行分组，以及基于分组的输入来获得与每个时间单位对应的所述多种类型中的每一种类型的代表性数据以存储在所述存储器中，以及

基于所确定的类型的所述代表性数据，提供与所述语音命令对应的响应信息。

4.如权利要求3所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

对与每个时间单元对应的所述多种类型中的每一种类型的代表性数据中的变化量进行比较，以及在具有最大变化量的类型上分配最大权重以提供与所述语音命令对应的响应信息。

5.如权利要求1所述的电子设备，其中，所述多种类型包括手势信息、情绪信息、面部识别信息、性别信息、年龄信息或语音信息中的至少一个。

6.如权利要求1所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

基于所述输入数据中的手势信息或语音信息中的至少一个，识别所述语音命令。

7.如权利要求1所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

基于在所述输入数据中识别的所述语音命令，将所述语音命令识别为预设语音识别单元，以及

基于至少一个语音识别单元的时间间隔，确定所分类的多种类型中的至少一种。

8.如权利要求7所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

基于在所述语音命令中包括的唤醒词，基于识别出所述唤醒词的时间间隔，识别所述语音命令作为所述预设语音识别单元。

9.如权利要求8所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

在基于在识别所述唤醒词之后在所述预设时间间隔输入的输入数据未提供响应信息的情况下，使用在识别所述唤醒词之前的先前时间间隔中输入的输入数据来提供与所述语音命令对应的响应信息。

10.如权利要求7所述的电子设备，其中，所述处理器配置为控制所述电子设备以：

基于在所述语音命令中识别的关于用户的意图或要控制的对象的信息，确定所分类的多种类型的输入数据中的至少一个类型。

11.一种控制电子设备的方法，包括：

将多个输入数据分类为多种类型以存储在存储器中；

基于在所述输入数据中识别的语音命令，确定所分类的多种类型的输入数据中的至少一个类型；以及

12.如权利要求11所述的方法，其中，确定所分类的多种类型的输入数据中的至少一个类型包括：

基于与所述语音命令相关的时间信息，确定所分类的多种类型的输入数据中的至少一个类型。

13.如权利要求11所述的方法，其中，存储在存储器中包括：

按照预设时间单位将分类成所述多种类型的输入数据进行分组，以及基于所分组的输入来获得与每个时间单位对应的所述多种类型中的每一种类型的代表性数据以存储在所述存储器中，

其中，提供与所述语音命令对应的响应信息包括：基于所确定的类型的所述代表性数据提供与所述语音命令对应的响应信息。

14.如权利要求13所述的方法，其中，提供与所述语音命令对应的响应信息包括：

对与每个时间单元对应的所述多种类型中的每一种类型的所述代表性数据中的变化量进行比较，以及在具有最大变化量的类型上分配最大权重以提供与所述语音命令对应的响应信息。

15.如权利要求11所述的方法，其中，所述多种类型包括手势信息、情绪信息、面部识别信息、性别信息、年龄信息或语音信息中的至少一个。