CN111417924B

CN111417924B - 电子装置及其控制方法

Info

Publication number: CN111417924B
Application number: CN201880075833.0A
Authority: CN
Inventors: 赵恩希; 裵在铉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-11-23
Filing date: 2018-11-01
Publication date: 2024-01-09
Anticipated expiration: 2038-11-01
Also published as: CN111417924A; US11250850B2; WO2019103347A1; KR102517219B1; US20200365151A1; KR20190059509A

Abstract

提供一种电子装置及其控制方法和用于其的计算机程序产品。该电子装置包括：通信器，所述通信器被配置为与多个外部装置通信；存储装置，该存储装置被配置为存储情况信息；处理器，该处理器被配置为：基于用户的第一发声，进行控制以执行在与多个外部装置有关的多个操作中的与该第一发声相对应的第一操作；在存储装置中，存储与基于第一发声执行第一操作的多种情况中的每一种情况相对应的情况信息；基于用户的第二发声，基于所存储的情况信息从多个操作中识别与第二发声相对应的第二操作；以及进行控制以执行所识别的第二操作。这样，电子装置可以执行用户期望的操作。

Description

电子装置及其控制方法

技术领域

与实施例一致的装置和方法涉及一种电子装置及其控制方法，更具体地，涉及可以识别用户的语音的电子装置及其控制方法和用于其的计算机程序产品。

背景技术

近年来，电子装置可以根据用户的语音来执行命令。电子装置可以识别用户的语音以执行与其相对应的操作。如果电子装置是不进行操作的装置，则它可以将与用户的语音相对应的命令发送到其他电子装置。

在语音识别中，如果用户说出包括电子装置执行操作所需的所有信息的句子，则电子装置可以识别用户的语音以执行与其相对应的命令。然而，在一般的日常生活中，用户说出风格自由的句子，从中省略了一些所需要的信息。

根据相关技术，如果用户像与人交谈一样向电子装置说出不完美的句子，则存在以下问题：电子装置可能不执行与根据说出的句子识别出的语音相对应的命令或执行不同于用户的意图的操作。

发明内容

技术问题

实施例提供一种电子装置、其控制方法及用于其的计算机程序产品，在语音识别时，如果接收到用户说出的不完美的句子，则该电子装置可以预测用户的意图并选择执行与其相对应的正确的命令。

技术方案

根据实施例，电子装置包括：通信器，所述通信器被配置为与多个外部装置通信；存储装置，该存储装置被配置为存储情况信息；处理器，该处理器被配置为：基于用户的第一发声，进行控制以执行在与多个外部装置有关的多个操作中的与该第一发声相对应的第一操作；在存储装置中，存储与基于第一发声执行第一操作的多种情况中的每一种情况相对应的情况信息；基于用户的第二发声，基于所存储的情况信息从多个操作中识别与第二发声相对应的第二操作；以及进行控制以执行所识别的第二操作。这样，电子装置可以预测在自由的发声中的用户的意图，从而减少其错误。

情况信息可以包括多个因素，所述多个因素包括设备、空间、时间或空间状态中的至少一项。因此，电子装置可以更精确地预测用户的意图。

处理器可以被配置为：通过进一步考虑多个因素中的至少一个因素的相似度和发声内容的相似度来识别第二操作。因此，电子装置可以以更高的精度预测用户的意图。

处理器可以被配置为根据用户的输入来存储或编辑情况信息。因此，电子装置可以存储针对用户进行优化的情况信息，以更加精确地预测用户的意图。

该装置还可以包括被配置为输出屏幕的显示器，并且处理器可以被配置为通过使用在屏幕上输出的用户界面(UI)来存储或编辑情况信息。因此，用户可以方便地编辑情况信息。

处理器可以被配置为基于操作执行的次数来优先地识别要对其应用相似度识别的操作。因此，电子装置可以执行用户经常使用的操作，从而减少其故障。

处理器可以被配置为根据多个因素的类别对情况信息进行分类和存储。因此，电子装置可以更高效地执行相似度识别处理。

处理器可以被配置为根据多个因素(users of a plurality of factors)的用户，来对情况信息进行分类和存储。因此，电子装置可以根据用户来高效地执行语音识别。

根据实施例，一种电子装置的控制方法包括：基于用户的第一发声，进行控制以执行在与多个外部装置有关的多个操作中的与所述第一发声相对应的第一操作，其中多个外部装置能够通过所述电子装置的通信器与所述电子装置通信；在存储装置中，存储与基于所述第一发声执行所述第一操作的多种情况中的每一种情况相对应的情况信息；基于用户的第二发声，基于所存储的情况信息从所述多个操作中识别与第二发声相对应的第二操作；以及进行控制以执行所识别的第二操作。这样，电子装置可以预测在自由的发声中的用户的意图，从而减少其错误。

所述识别可以包括：通过进一步考虑多个因素中的至少一个因素的相似度和发声内容的相似度来识别第二操作。因此，电子装置可以以更高的精度预测用户的意图。

所述方法可以包括：根据用户的输入来存储或编辑情况信息。因此，电子装置可以存储针对用户进行优化的情况信息，以更加精确地预测用户的意图。

所述方法可以包括：通过使用经由被配置为输出屏幕的显示器在该屏幕上输出的用户界面(UI)来存储或编辑情况信息。因此，用户可以方便地编辑情况信息。

所述识别可以包括：基于操作执行的次数来优先地识别要对其应用相似度识别的操作。因此，电子装置可以执行用户经常使用的操作，从而减少其故障。

所述存储可以包括：根据多个因素的类别对情况信息进行分类和存储。因此，电子装置可以更高效地执行相似度识别处理。

所述存储可以包括：根据多个因素的用户对情况信息进行分类和存储。因此，电子装置可以根据用户来高效地执行语音识别。

根据一个实施例，一种计算机程序产品包括：存储器，被配置为存储指令；以及处理器，当由处理器执行时，所述指令被配置为控制电子装置以用于：基于用户的第一发声，执行在与多个外部装置有关的多个操作中的与所述第一发声相对应的第一操作，其中多个外部装置能够通过所述电子装置的通信器与所述电子装置通信；在存储装置中，存储与基于所述第一发声执行所述第一操作的多种情况中的每一种情况相对应的情况信息；基于用户的第二发声，基于所存储的情况信息从所述多个操作中识别与第二发声相对应的第二操作；以及执行所识别的第二操作。这样，电子装置可以预测在自由的发声中的用户的意图，从而减少其错误。

有益效果

如上所述，根据实施例，电子装置、其控制方法及用于其的计算机程序产品可以在语音识别时从不完美的句子中找出用户的意图，以执行与其相对应的操作。

附图说明

图1示出根据实施例的电子装置；

图2示出根据实施例的电子装置的框图；

图3示出根据实施例的电子装置的操作的流程图；

图4示出根据实施例的电子装置的情况信息；

图5示出根据实施例的电子装置分析发声的方法；

图6示出根据实施例的电子装置的操作执行过程；

图7示出根据实施例的电子装置的布置示例；

图8示出根据实施例的电子装置的操作示例；

图9示出根据实施例的电子装置的另一操作示例；

图10示出根据实施例的电子装置的又一操作示例；

图11示出根据实施例的用户界面(UI)的示例；以及

图12示出根据实施例的另一UI的示例。

具体实施方式

在下文中，将参照附图来详细描述实施例。在附图中，相似的附图标记或符号指代具有实质上相同的功能的相似要素，并且为了清楚起见和便于描述，每个要素的尺寸可以被放大。然而，以下实施例中示出的配和功能不应被解释为限制本发明构思以及关键配置和功能。在以下描述中，如果认为公知的功能或特征会模糊本发明构思的主旨，则可以省略关于它们的描述。

在以下实施例中，术语“第一”、“第二”等仅用于将一个要素与另一个要素区分开，并且单数形式旨在包括复数形式，除非上下文中另外提及。在以下实施例中，要理解的是，术语“包括”、“包含”、“具有”等不排除存在或添加一个或多个其他特征、数字、步骤、操作、要素、组件或其组合。此外，在以下实施例中，“模块”或“部分”可以执行至少一个功能或操作，由硬件或软件或硬件和软件的组合来实现，并且可以被模块化为至少一个处理器。

在以下示例性实施例中，多个要素中的至少一个要素不仅指代多个要素中的所有要素，而且还指除其他要素之外的多个要素中的每个要素或其组合。

近年来，用户可以很容易地使用物联网(IoT)来控制电子装置1的操作。存在控制电子装置的各种方法，但是以下示例性实施例将相对于根据用户的语音命令来控制电子装置进行说明。如果使用语音命令和IoT技术，则用户可以在不接近电子装置的情况下通过语音命令远程地控制电子装置。如果语音命令包括用于控制电子装置所需的所有信息，则电子装置可以根据其执行操作而没有任何错误。然而，如果用户说出与自由样式的句子(以下称为“自由式发声”)相对应的语音命令，所述句子中省略了一些信息或不符合给定的形式，则电子装置可能难以执行与其对应的操作。为了解决这个问题，根据实施例的电子装置被配置为：累积存储执行或不执行语音命令的情况信息并相对于与自由式发声相对应的语音命令使用已存储的情况信息，从而允许电子装置执行与用户的意图相对应的操作。在下文中，将描述根据实施例的电子装置。

图1示出根据实施例的电子装置。根据实施例的电子装置1可以被实现为能够识别用户的语音命令100的装置，例如，电视(TV)、冰箱、照明灯、炉灶、扬声器、服务器等。根据实施例的电子装置1不限于此，该电子装置可以应用于能够识别用户的语音命令100的任何事物。作为实施例，根据是否执行与语音命令相对应的操作，可以将电子装置1分为两种电子装置，例如，第一电子装置11和第二电子装置12。第一电子装置11是能够选择与用户的意图一致的语音命令并执行与已选择的语音命令相对应的操作的装置。第二电子装置12是能够从用户的语音中选择与用户的意图一致的语音命令的装置。然而，根据实施例的电子装置1不限于电子装置的角色和数量的划分。

在下文中，除非另有说明，否则术语“电子装置1”用于统一地指代第一电子装置11和第二电子装置12，而不分为第一电子装置11和第二电子装置12。电子装置1可以通过有线或无线方式与其他电子装置1连接，以与其通信。因此，电子装置1由此可以共享由其他电子装置1接收到的语音命令。因此，对于由其他电子装置1接收到的语音命令，电子装置1可以执行与其相对应的操作。

图2示出根据实施例的电子装置的框图。电子装置1包括处理器210和语音信号接收器220。电子装置1还可以包括通信器230、存储装置240、传感器250和操作执行器260。然而，根据图2所示的实施例的电子装置1的结构仅是示例，并且还可以通过除了图2所示的结构以外的结构来实现。换言之，可以通过从图2所示的结构中排除一些要素或者添加除图2所示的结构以外的要素来实现根据实施例的电子装置1。

语音信号接收器220接收用户的语音信号。语音信号接收器220可以设置有用于接收用户的语音信号的麦克风。电子装置1可以直接或间接地接收语音信号。电子装置1可以具有用于直接接收语音信号的诸如麦克风等的接收器。此时，语音信号接收器220将与接收到的用户的语音命令相对应的模拟信号转换为数字信号，并将转换后的数字信号发送到处理器210，以通过语音识别模块执行语音识别操作。语音信号接收器220不仅仅通过麦克风来接收用户的语音信号，并且还可以使用其他结构来接收用户的语音信号。

电子装置1可以使用其他设备间接地接收语音信号。例如，电子装置1可以经由被设置在诸如智能电话等的移动设备(未示出)或与其通信的遥控器(未示出)中的麦克风来接收语音信号。在这种情况下，遥控器或移动设备将与通过麦克风接收到的语音命令相对应的模拟信号转换为数字信号，并且经由通信器230等将经转换的数字信号发送到电子装置1。通信器230将从遥控器或移动设备接收到的语音信号发送到处理器210，以执行与接收到的语音信号相对应的语音识别操作。

电子装置1可以设置有通信器230，通信器230与外部装置或其他电子装置1通信，以接收用户的语音信号。可以根据显示装置1的实现类型来以各种形式提供通信器230。例如，通信器230可以包括用于有线通信的连接。所述连接可以根据诸如高清多媒体接口(HDMI)、HDMI消费者电子控制(CEC)、通用串行总线(USB)、组件等的标准来发送和接收信号或数据，并且包括与所述标准相对应的至少一个连接器或端子。通信器230还可以经由有线局域网(LAN)来执行与多个服务器的有线通信。

通信器230可以以除了包括至少一个连接器或端子的用于有线通信的连接之外的各种其他通信形式来实现。例如，通信器230可以包括发送和接收RF信号以执行与外部装置的无线通信的射频(RF)电路，并且可以被配置为使用来自以下项中的多于一种的通信方式来执行无线通信：Wi-Fi、蓝牙、Zigbee、超宽带(UWB)、无线USB和近场通信(NFC)。

通信器230可以从移动设备(未示出)接收语音信号，该移动设备使用上述通信方式中的多于一种的通信方式与电子装置1通信。在这种情况下，移动设备可以被实现为智能电话等，并且可以在其中安装例如远程控制应用，并且执行所述远程控制应用以经由用于控制电子装置1的操作的语音输入等将语音信号发送到电子装置1。

电子装置1可以自身不处理经由语音信号接收器220或通信器230接收到的语音命令，而是将该语音命令发送到语音识别服务器(未示出)并由其进行处理。语音识别服务器可以被实现为语音到文本(STT)服务器。在这种情况下，处理器210将语音命令的数据发送到语音识别服务器，且语音识别服务器执行语音识别操作以将语音命令的数据转换为文本。

可以将上述在语音识别服务器中处理的语音命令的数据再次发送到收集语音命令的语音识别结果的电子装置1或另一服务器。如果电子装置1接收到在识别服务器中被转换的语音命令的文本，则处理器210控制电子装置1来执行与经转换的语音命令的文本相对应的功能。

此时，处理器210可以将关于电子装置1的与语音命令的转换后的文本相对应的功能的信息发送到语音识别服务器或另一服务器。因此，语音识别服务器或另一服务器可以在存储设备中存储关于与语音命令的语音识别结果相对应的功能的信息，然后，如果接收到相同语音命令的数据，则将所存储的信息提供给电子装置1，以使电子装置1基于所提供的信息来执行对应的功能。

如果语音信号接收器设置在电子装置1的外部，则电子装置1和语音信号接收器之间的通信方法可以与电子装置1和外部服务器(未示出)之间的方法相同或不同。例如，电子装置1可以经由Wi-Fi与语音信号接收器和外部服务器通信，并且可以经由蓝牙与语音信号接收器，且经由以太网与外部服务器通信。

电子装置1可以设置有用于存储执行其操作所需的信息的存储装置240。例如，存储装置240可以累积地存储执行电子装置1的操作所需的信息，例如情况信息等。这样，电子装置1可以累积地存储所述信息并学习所存储的信息以找出用户的意图。存储装置240的种类或其中存储的类型不受限制。

电子装置1可以设置有传感器250，传感器250能够感测电子装置1的状态、电子装置1外部的状态等。传感器250可以感测激励。例如，传感器250可以包括用于检测用户的位置或用户的图像或运动的图像传感器、用于检测振动的运动传感器、用于检测位置的位置传感器、用于检测温度的温度传感器、用于检测湿度的湿度传感器、用于检测亮度的照度传感器、用于检测颜色的颜色传感器等。用户的运动也可以由照度传感器或颜色传感器检测。电子装置1的传感器250不限于上面列出的传感器，而是还可以包括其他传感器。电子装置1可以包括设置在其中的传感器250，但是经由通信器230接收由设置在其外部的单独的传感器检测到的激励。例如，与电子装置1分开安装的照度传感器或颜色传感器可以检测用于发送到电子装置1的激励，例如用户的运动等。电子装置1可以接收激励以用作情况信息。

电子装置1可以设置有执行电子装置1的操作的操作执行器260。操作执行器260执行能够由电子装置1执行的操作。此时，操作执行器260可以被包括在第一电子装置11中，但是不被包括在第二电子装置12中。操作执行器260可以包括用于输出图像的显示器、用于输出语音的扬声器等。

处理器210执行用于操作电子装置1的一般元件的控制。处理器210可以包括执行控制的控制程序(或至少一个指令)、安装有控制程序的非易失性存储器、在其中加载已安装的控制程序的至少一部分的易失性存储器、以及执行已加载的控制程序的至少一个处理器或中央处理单元(CPU)。另外，控制程序可以被存储在除了电子装置1以外的电子装置中。

控制程序可以包括以基本输入/输出系统(BIOS)、设备驱动程序、操作系统、固件、平台和应用程序中的至少一个的形式实现的程序。根据一个实施例，应用程序可以在制造电子装置1时预先被安装或存储在电子装置1中，或者可以在将来被使用时基于从外部接收到的应用程序数据而被安装在电子装置1中。例如，可以从应用市场等外部服务器将应用程序的数据下载到电子装置1中。如上所述的外部服务器是根据实施例的计算机程序产品的示例，但是不限于此。

处理器210例如控制语音接收器220以接收用户的语音信号。处理器210控制通信器230与外部装置或其他电子装置1通信，控制存储装置240在其中存储信息，控制传感器250检测激励，并且控制操作执行器260执行操作。

在下文中，将描述电子装置1与服务器之间的用于语音识别的通信。如果经由语音信号接收器220或通信器230接收到语音信号，则处理器210可以经由通信器230将语音信号发送到服务器。接收语音信号的服务器可以是仅用作将与语音信号有关的数据转换为适当的文本的STT设备的服务器，或者也可以用作STT设备的服务器。服务器可以将经STT处理的数据发送到电子装置1。或者，服务器可以将数据发送到另一服务器以对其进行处理，从另一服务器接收经处理的数据，然后将接收到的数据发送到电子装置1。为了执行特定功能，电子装置1可以完全使用从服务器或另一服务器接收的数据或对其进行变形。电子装置1针对语音信号执行操作的结构不限于此。因此，电子装置1可以被配置为包括仅用作STT设备的服务器或还用作STT设备的服务器。

在下文中，将详细描述根据实施例的处理器210。图3示出根据实施例的电子装置的操作的流程图。首先，处理器210接收用户的第一发声(操作S301)。第一发声可以包括执行与其对应的命令所需的信息。当接收到第一发声时，处理器210识别与第一发声相对应的第一操作(操作S302)。处理器210进行控制以执行所识别的第一操作(操作S303)。电子装置1可以直接执行所识别的第一操作，并且控制其他电子装置1执行所识别的第一操作。处理器210存储与执行第一操作的情况相对应的情况信息(操作S304)。所述情况信息可以包括执行第一操作的时间、电子装置1的状态、与电子装置1的位置相对应的空间等。可以存储所述情况信息，从而使处理器210在以后使用已存储的情况信息。将针对图4详细描述关于情况信息的说明。在存储情况信息之后，电子装置1接收第二发声(操作S305)。第二发声可以与第一发声相同或相似。处理器201可以使用先前存储的情况信息来分析第二发声。第二发声可以包括电子装置1执行第二操作所需的所有信息，但是可以从所需的信息中省略一些信息。换言之，第二发声可以是自由式发声。处理器210预测用户的意图以补充作为自由式发声的第二发声，并且识别出与所述第二发声相对应的第二操作(操作S306)。在基于已存储的情况信息识别出与第二发声相对应的第二操作之后，处理器210进行控制以执行所识别的第二操作(操作S307)。处理器210存储与执行和第二发声相对应的第二操作的情况相对应的情况信息(操作S308)。如上所述，处理器210累积存储情况信息。据此，处理器210可以根据自由式发声来预测用户的意图，从而减少电子装置1的错误。

例如，为了知道今日天气，用户(图8中的801)可以尝试关于今日天气询问客厅中的电视(图8中的701)。如果用户(图8中的801)说出完整的句子，例如“嗨，客厅里的电视！让我知道今日天气”，则处理器201将控制电视701通知关于今日天气的信息。这样，如果存在操作电子装置1(例如，电视)所需的所有信息，则电视701可以向用户通知关于今日天气的信息。然而，对于电子装置1而言，可能难以针对诸如自由式发声等的以下发声内容识别出正确的命令。例如，用户说出“今日天气”的情况。在这种情况下，省略了操作电子装置1所需的一些信息。因此，对于不是根据实施例的电子装置1的现有技术装置而言，可能难以执行正确的操作。根据实施例的电子装置1可以执行发声分析，这将在后面参考图4至图6进行描述，从而识别并执行与用户的意图相符的操作。

图4示出根据实施例的电子装置的情况信息。附图标记400在表格中示出了被存储在电子装置1中的情况信息的示例。在所述情况信息中，存在使用空间、空间状态、域、发声数、设备标识(ID)和当前功能状态、发声日期和时间、发声内容等。情况信息的种类不限于此，并且可以根据情况而存储更多的信息。这样，电子装置可以更精确地预测用户的意图。处理器210可以进行控制以根据多个因素的类别对情况信息进行分类和存储。因此，电子装置可以更高效地执行相似度识别处理。另外，处理器210可以进行控制以根据多个因素的用户对情况信息进行分类和存储。因此，电子装置1可以根据用户高效地执行语音识别。

使用空间可以被分为例如客厅、厨房和房间1。使用空间不限于此，并且用户可以设置更多的使用空间。

关于电子装置1的使用空间的信息可以在用户进行使用之前被预先输入。因此，电子装置1可以使用关于预先输入的使用空间的情况信息。如果没有在电子装置1中预先输入关于使用空间的情况信息，则用户可以经由用户输入来设置使用空间，或者电子装置1可以通过学习来设置使用空间。将参照图12来说明用户经由用户输入来设置使用空间的内容。

如果没有在电子装置1中输入情况信息，则电子装置1可以通过学习自动地设置使用空间，而无需任何用户输入。例如，如果相同的语音命令被同时输入到多个电子装置1中，则每个电子装置1可以被设置为处于相同的使用空间中。换言之，如果相同的语音命令被同时输入到在其中输入了使用空间的第一电子装置1和在其中未输入使用空间的第二电子装置1，则可以将在其中未输入使用空间的第二电子装置1设置为与在其中输入了使用空间的第一电子装置1处于相同的使用空间中。

作为电子装置1进行学习的另一示例，电子装置1可以使用其他电子装置1的数据库。例如，电子装置1可以根据电子装置来分析用户使用的数据库，并因此建立数据库，如果数据库中的每个数据库显示相同的趋势，则数据库中的每个数据库都将电子装置1设置在相同的空间中。或者，电子装置1可以根据显示相同趋势的用户来分析数据库以建立电子装置1的数据库。因此，即使在相同空间中的多个用户使用所述数据库，由于所述数据库是根据用户建立的，因此即使通过相同的命令，相同的电子装置1也可以根据用户执行不同的操作。

作为电子装置1进行学习的另一示例，第一电子装置1可以分析第二电子装置1的数据库，以建立电子装置1的情况信息数据库。例如，未为其建立数据库的新电子装置1可以使用其他电子装置1的现有的情况信息数据库。因此，用户可以在不经历手动设置没有数据库的新电子装置1的任何麻烦的情况下使用新电子装置1。

空间状态可以表示经由通信器230接收的数据或传感器250可检测到的各种激励的结果值。可以表示照度、湿度、温度等。处理器210可以借助于空间状态来找出用户的意图。

处理器210可以通过参考发声内容来识别域。例如，如果发声内容是“开灯”，则处理器210可以将设备控制或照明设置为域。

发声数是指根据之前说出的内容已经执行的操作的次数。例如，在房间1的照明(设备ID：4)处，根据之前说出的内容已经执行的操作的次数为5。如果使用发声次数，则处理器210可以识别用户频繁使用的命令，从而增加相似度识别时的权重。

设备ID和当前功能状态表示设置给设备的ID(在表中用数字标记)及其当前功能状态。例如，客厅中的电视(设备ID：1)的当前状态是被打开的并正显示电影频道。另外，厨房中的电视(设备ID：5)的当前状态是被打开并正显示烹饪频道。处理器可以通过设备的当前功能状态来找出用户的意图。

日期和时间是设备执行特定操作或接收用户发出的语音的时间。处理器210可以找出设备执行特定操作或接收语音的日期和时间，并由此确定用户的意图。

尽管在表400中未示出，但是处理器210可以通过传感器250或经由接收语音信号的位置来找出用户所在的空间。如上所述的情况信息仅是示例，且其种类不受表400的限制。情况信息可以由用户添加，并可以通过用户的输入进行存储和编辑。因此，电子装置可以存储针对用户进行优化的情况信息，以更加精确地预测用户的意图。将参考图12详细描述用户编辑情况信息的内容。

图5示出根据实施例的电子装置分析发声的方法。附图标记500表示数学公式，处理器210通过该数学公式识别相似度。相似度S(Vc，Vi)被表示为如下所述的公式。

[数学公式1]

S(Vc，Vi)＝1/((1-a)*Dt(Tc，Ti)+a*Di(Ic，Ii))

相似度S(Vc，Vi)表示当前输入的发声与被存储在数据库中的发声之间的相似度。在相似度S(Vc，Vi)中，Vc表示当前输入的发声，且Vi表示被存储在数据库中的发声。

Dt(Tc，Ti)表示当前输入的发声的输入时间与被存储在数据库中的发声的输入时间之间的差。在Dt(Tc，Ti)中，Tc表示当前输入的发声的输入时间，且Ti表示被存储在数据库中的发声的输入时间。

Di(Ic，Ii)表示当前输入的发声内容与被存储在数据库中的发声内容之间的差。在Di(Ic，Ii)中，Ic表示当前输入的发声内容，且Ii表示被存储在数据库中的发声内容。

a表示每个选择标准的权重。

上面的相似度S(Vc，Vi)的数学公式是一个示例，其使用输入时间之间的差Dt和发声内容之间的差Di。因此，在发声分析中，处理器210可以在相似度识别时使用存储的情况信息来分析发声。例如，可以设置相似度公式，使得发声次数越多，相似度越高；通过参考设备的当前功能状态，如果说出执行的当前正在执行的操作，则该发声的相似度变低；或者，通过参考空间状态，如果处于与平均状态不同的状态，则与能够返回平均状态的设备的操作相对应的发声内容的相似度变高。识别相似度的公式不限于此。据此，电子装置1可以根据情况来预测用户的意图，从而减少其错误。或者，基于操作执行的次数，处理器可以优先地识别对其应用相似度识别的操作。因此，电子装置可以执行用户经常使用的操作，从而减少其故障。

图6示出根据实施例的电子装置的操作执行过程。电子装置1可以位于若干个空间中。如图6所示，电子装置601至电子装置604位于空间1和空间2中。空间1中的电子装置601和602可以与在其中存储情况信息的数据库600通信。处理器210可以接收命令(操作S611)，并且进行控制以根据情况信息选择命令(操作S612)。情况信息可以被存储在电子装置1的存储装置中，但是被集中存储在数据库600中。在考虑到情况信息的步骤(操作S612)处，处理器210可以经由通信器230与数据库600通信。处理器210可以使用被存储在数据库600中的情况信息来识别图5中的相似度。使用相似度识别的结果，电子装置1可以选择与情况或用户的意图一致的命令(操作S612)。电子装置1可以执行与已选择的命令相对应的操作(操作S613)。

接下来，将描述在接收到语音命令时分析发声的处理的示例。如果接收到语音命令，则处理器210根据用户的发声内容来选择域的候选组。处理器210可以基于存储在常用数据库中的语言词典来识别域的候选组。如果用户未说出完整的句子，则可能有若干个域的候选组。处理器210对与用户的输入发声相对应的域的候选组进行聚类，以从多个划分(compartmental)空间中选择包括最相似的域的空间。处理器210可以基于对应的空间的情况信息来识别最终的域。如果由处理器识别出的最终的域是一个，且将根据所识别的最终的域来执行操作的电子装置1是一个，则电子装置1可以执行该操作(操作S613)。然而，如果域的候选组在相似度上相同，以致于由处理器识别的最终的域为多个，或者将根据所识别的最终的域执行操作的电子装置1为多个，则处理器210可以选择用户想要的服务。可以使用由操作执行器260在屏幕上显示的用户界面(UI)或经由讲话者输入的语音来选择用户想要的服务。因此，用户可以方便地编辑情况信息。

电子装置1可以根据所定位的空间来管理数据库600。或者，电子装置1可以根据家庭而内部地管理数据库600。数据库600可以被布置在外部，使得可以利用诸如外部服务器等的电子装置1来管理。换言之，数据库600可以被包括在执行该操作的电子装置1或不执行该操作的其他电子装置1中。

根据另一实施例，当空间2中的电子装置603接收到命令(操作S611)并根据被存储在数据库600中的情况信息来选择命令时(操作S612)，如果根据相似度识别的结果，将用户的意图识别为操作空间1中的电子装置602，则可以控制空间1中的电子装置602来执行与该命令相对应的操作(操作S613)。换言之，接收命令的电子装置603和执行命令的电子装置602可以彼此不同，并且可以位于彼此不同的空间中。

图7示出根据实施例的电子装置的布置示例。如上所述，电子装置的种类不受限制。在客厅中设置有能够显示图像或输出声音的电视701以及能够改变照明的照明灯702。在厨房中设置有能够加热食物的炉灶711、能够调节其内部温度的冰箱712、以及照明灯713。在杂物间、浴室、房间1和房间2中分别设置有照明灯721、照明灯731、照明灯741和照明灯751。在房间1中设置有能够输出声音的扬声器742。出于说明的目的，未在图7中示出数据库600，并且数据库600可以被包括在电子装置1中或单独地被设置在外部，如参考图6所描述的。由于关于分别被设置在图7中所描述的空间上的电子装置1的说明同样适用于图8至图10，因此在关于图8至图10的说明中将省略它们。

图8示出根据实施例的电子装置的操作示例。参考图4所示的表400的情况信息来描述图8的说明。

假设当用户801说出“今日天气”时，用户801发声的空间是“客厅”，用户说出的内容是“今日天气”，并且用户发声的时间是上午7点。作为对这样的发声的响应，处理器210可以从域的候选组中识别“天气”、“音乐”和“食物”。

在“音乐”域中存储了发声内容“打开今日天气”，或者在“食物”域中存储了发声内容“推荐适于今日天气的好食物”。作为在域“音乐”上的日期和时间的相似度识别的结果，处理器210可以识别出因为存在时间差而使得“音乐”域的相似度较低。而且，作为在“食物”域上的日期和时间的相似度识别的结果，处理器210可以识别出因为存在很小的时间差而使得“食物”域的相似度较高，但是因为用户发声的空间不同而使得“食物”域的相似度较低。

在“天气”域中存储了针对电视(设备ID：1)的发声数是两次，其日期和时间是8月22日上午8点和8月23日上午7:30，与其日期和时间分别相对应的发声内容分别是“让我知道今日天气”和“今日天气如何？”。处理器210可以识别出由于发声数较多、时间差较小且用户发声的空间是相同的而使得“天气”域的相似度很高。因此，处理器210可以将具有最高相似度的“天气”域识别为最终的域。当识别出最终的域时，处理器210可以控制电视701来执行向用户通知今日天气的操作。

图9示出根据实施例的电子装置的另一操作示例。将参考图4所示的表400的情况信息来描述图9的说明。

在图9中，假设用户901想要加热炉灶711。如果用户901说出完整的句子，例如“打开厨房的炉灶”等，则处理器210可以在没有其他原因的情况下控制炉灶711被打开并被加热。如上所述，如果提供例如要操作的设备、该设备所在的空间、要由该设备执行的操作等的所有信息，则处理器210可以控制炉灶711被打开并被加热。然而，对于以下发声内容，处理器210可能难以选择正确的命令。例如，用户说出“打开”。该发声可能与自由式发声相对应。结果，处理器210可能难以控制正确的设备来执行其操作。然而，如果处理器210执行参照图4至图6所描述的发声分析处理，则其可以控制设备执行与用户的意图一致的操作。

用户901发声的空间是“厨房”，说出的内容是“打开”，且发声时间是下午6:30。处理器210选择“照明”和“设备控制”作为域的候选组。在域的候选组中的“照明”域中，存储有发声内容“打开”。与域的候选组中的“照明”域相对应的空间有客厅和厨房两个地方。

在与域的候选组中的“照明”域相对应的当前功能状态中，客厅的照明灯(设备ID：2)是“关”，且厨房的电视(设备ID：5)是“开”。与域的候选组中的“照明”域相对应的日期和时间是8月23日下午7点和8月23日上午7:30。如果处理器210针对域的候选组中的“照明”域执行时间、当前功能状态等的发声分析，则它可以计算出客厅的照明灯(设备ID：2)比厨房的示例(电视，设备ID：5)具有更高的相似度，这是因为厨房的示例已经处于“打开”状态。

在域的候选组中的“设备控制”域中，存储有发声内容“打开”。作为与域的候选组中的“设备控制”域相对应的空间，存在厨房一个位置。在与域的候选组中的“设备控制”域相对应的当前功能状态中，炉灶(设备ID：3)是“关闭”。与域的候选组中的“设备控制”域相对应的日期和时间是8月23日下午5点。

处理器210最终计算出在“照明(客厅的扬声器)”域和“设备控制(厨房的炉灶)”域处的相似度。如果处理器210计算设备的当前功能状态和用户901的空间的相似度，则“设备控制”域可能具有最高相似度。因此，处理器210可以将具有最高相似度的“设备控制”域识别为最终的域。当识别出最终的域时，处理器210可以控制炉灶711来执行其加热操作。

图10示出根据实施例的电子装置的又一操作示例。将参考图4所示的表400的情况信息来描述图10的说明。

在图10中，假设用户1001想要打开房间1中的扬声器742。如果用户1001说出完整的句子，例如“打开房间1中的扬声器”等，则处理器210可以在没有其他原因的情况下控制扬声器742被打开。如上所述，如果提供例如要操作的设备、该设备所在的空间、要由该设备执行的操作等的所有信息，则处理器210可以进行控制以打开扬声器742。然而，对于以下发声内容，处理器210可能难以选择正确的命令。例如，用户说出“打开”。该发声可能与自由式发声相对应。结果，处理器210可能难以控制正确的设备来执行其操作。然而，如果处理器210执行参照图4至图6所描述的相似度计算处理，则其可以控制设备执行与用户1001的意图一致的操作。

用户1001发声的空间是“房间1”，发声内容是“打开”，并且讲话时间是晚上9点。通过将使用空间限制在房间1，来描述图10的实施例。在域的候选组中，存在“设备控制”。在“设备控制”域中，存在房间1的照明灯741和扬声器742两个设备。在照明灯741的情况信息中，发声数是5，照明灯741目前处于打开状态，且已执行发声的时间是晚上9:20。在扬声器742的情况信息中，发声数是0，且扬声器741目前处于关闭状态。如果考虑发声数和发声时间，则处理器210可以计算出房间1的照明灯741的相似度较高，从而控制房间1的照明灯741来执行其功能。然而，由于在电子装置的当前功能状态中，照明灯741目前处于打开状态，因此不再存在处理器210可以进行控制以执行的操作。如果使用诸如当前功能状态等的情况信息，则可以看出，打开已经打开的房间1的照明灯741并不是用户的意图。因此，如果考虑当前的功能状态，则处理器210可以计算出扬声器741的相似度较高，而不是房间1的照明灯741。因此，为了满足用户的意图，处理器210可以控制扬声器742被打开。

图11示出根据实施例的用户界面(UI)的示例。处理器210进行控制以存储关于图4所描述的情况信息。用户可能想要编辑已存储的情况信息。因此，如附图标记1101所示，处理器21可以通过操作执行器260来显示UI，以询问用户是否编辑情况信息。附图标记1101表示通过屏幕显示的UI。处理器210可以进行控制以询问用户是否使用语音而不是屏幕来编辑情况信息。换言之，如果电子装置1设有扬声器，则处理器210可以询问用户是否通过语音来编辑情况信息。当用户编辑情况信息时，用户可以更正确地选择与她或他的意图一致的操作。因此，用户可以方便地编辑情况信息。将参考图12描述关于用户编辑情况信息的说明。

作为处理器210计算相似度的结果，可以存在相似度相同的两个以上的操作。因此，为了从两个以上的操作中识别出一个操作，处理器210可以进行控制以向用户询问关于她或他的意图操作。如附图标记1102所示，处理器210可以通过操作执行器260来显示UI，以向用户询问由处理器210所识别的操作是否是她或他想要的操作。附图标记1102表示通过屏幕显示的UI。处理器210可以进行控制以通过语音向用户询问所识别的操作是否是意图操作。因此，电子装置1可以确认并学习所识别的操作是否是意图操作。

如果需要用户的语音输入，如附图标记1103所示，则处理器210可以经由屏幕输出UI。或者，处理器210可以进行控制以请求用户经由扬声器输入语音。

图12示出根据实施例的UI的另一示例。附图标记1200表示编辑在图4中用附图标记400标记的情况信息的处理。用户可以编辑电子装置1的标识(ID)、使用空间1202、日期和时间1203、发声内容1204、执行操作1205、发声数1206、用户1207等。情况信息的种类不限于上面列出的项目，并且还可以包括其他信息。情况信息的具体内容可以由用户选择或附加地由用户输入。附加地输入具体内容的方法可以包括通过语音进行输入，并且输入方法和方式不受限制。电子装置1可以根据用户、空间或设备来对已存储的情况信息进行分类，并且使用已分类的信息来根据用户的命令高效地进行操作。如上所述，用户可以编辑情况信息，从而高效地预测用户的意图。

Claims

1.一种电子装置，包括：

通信器，被配置为与多个外部装置通信；

存储装置，被配置为存储情况信息；

处理器，被配置为：

基于用户的第一发声，进行控制以执行与所述多个外部装置有关的多个操作中的与所述第一发声相对应的第一操作；

在所述存储装置中存储与基于所述第一发声执行所述第一操作的多种情况中的每一种情况相对应的情况信息；

基于所述用户的第二发声，基于所存储的情况信息从所述多个操作中识别与所述第二发声相对应的第二操作；以及

进行控制以执行所识别的第二操作。

2.根据权利要求1所述的电子装置，其中，所述情况信息包括多个因素，所述多个因素包括设备、空间、时间或空间状态中的至少一个。

3.根据权利要求2所述的电子装置，其中，所述处理器被配置为：通过进一步考虑所述多个因素中的至少一个因素的相似度和发声内容的相似度来识别所述第二操作。

4.根据权利要求1所述的电子装置，其中，所述处理器被配置为根据所述用户的输入来存储或编辑所述情况信息。

5.根据权利要求1所述的电子装置，还包括：

显示器，被配置为输出屏幕，

其中所述处理器被配置为通过使用在所述屏幕上输出的用户界面UI来存储或编辑所述情况信息。

6.根据权利要求1所述的电子装置，其中，所述处理器被配置为基于操作执行的次数来优先地识别用于对其应用相似度识别的操作。

7.根据权利要求1所述的电子装置，其中，所述处理器被配置为根据多个因素的类别来对所述情况信息进行分类和存储。

8.根据权利要求1所述的电子装置，其中，所述处理器被配置为根据多个因素的用户来对所述情况信息进行分类和存储。

9.根据权利要求1所述的电子装置，其中，所述处理器还被配置为：

基于所述用户的第二发声，根据所述用户的第二发声的内容识别域的多个候选组；

将与所述用户的第二发声相对应的域的多个候选组进行聚类，以从多个划分空间中识别包括与所述第二发声的内容最相似的域的空间，

基于在所识别的空间处存储的情况信息，从域的多个候选组识别域，

从多个操作中识别与所识别的域相对应的第二操作；以及

控制执行所识别的第二操作，

其中，所存储的情况信息包括所述电子装置的使用空间和所述第一发声的内容；以及

其中，域的所述多个候选组分别对应于将第二发声的内容分类的多个命令或询问区域。

10.根据权利要求9所述的电子装置，其中，所述情况信息还包括以下项中的至少一项：使用空间、第一发声的日期和时间、根据第一发声的内容执行的第一操作的次数、根据第二发声的内容的多个外部装置的设备ID、或多个外部装置的当前功能状态。

11.一种电子装置的控制方法，包括：

基于用户的第一发声，进行控制以执行与多个外部装置有关的多个操作中的与所述第一发声相对应的第一操作，其中所述多个外部装置能够通过所述电子装置的通信器与所述电子装置通信；

在存储装置中存储与基于所述第一发声执行所述第一操作的多种情况中的每一种情况相对应的情况信息；

进行控制以执行所识别的第二操作。

12.根据权利要求11所述的控制方法，其中，所述情况信息包括多个因素，所述多个因素包括设备、空间、时间或空间状态中的至少一个。

13.根据权利要求12所述的控制方法，其中，所述识别包括：通过进一步考虑所述多个因素中的至少一个因素的相似度和发声内容的相似度来识别所述第二操作。

14.根据权利要求11所述的控制方法，还包括：

根据所述用户的输入来存储或编辑所述情况信息。

15.一种计算机程序产品，包括：

存储器，被配置为存储指令；以及

处理器，

其中所述指令当由所述处理器执行时被配置为控制电子装置以用于：

基于用户的第一发声，执行与多个外部装置有关的多个操作中的与所述第一发声相对应的第一操作，其中多个外部装置能够通过所述电子装置的通信器与所述电子装置通信；

执行所识别的第二操作。