CN104348828B

CN104348828B - 用于支持语音对话服务的交互装置和方法

Info

Publication number: CN104348828B
Application number: CN201410384423.8A
Authority: CN
Inventors: 全贺英; 金少拉; 金熙云; 安由美; 安智贤
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-08-05
Filing date: 2014-08-05
Publication date: 2019-04-05
Anticipated expiration: 2034-08-05
Also published as: CN110085222B; KR102141116B1; KR20150016776A; US20150039307A1; US9454964B2; EP2835798B1; CN104348828A; CN110085222A; EP2835798A1; EP3734598A1

Abstract

提供一种用于支持语音对话服务的交互装置和方法。所述方法包括：基于选择的输入模式接收用户输入；当接收到的用户输入是非语音输入时，从接收到的用户输入提取文本；将提取出的文本作为请求信号发送到服务器；从服务器接收响应于请求信号的对话识别的结果；基于接收到的对话识别的结果，执行对接收到的用户输入的响应。

Description

用于支持语音对话服务的交互装置和方法

技术领域

本公开涉及一种用于支持语音对话服务的交互装置和方法。更具体地，本公开涉及提供允许多模式输入的语音对话服务。

背景技术

语音对话服务允许用户和语音代理之间的基于语音的交互。目前，由包括各种便携式终端的很多交互装置提供这样的语音对话服务。典型的交互装置支持语音对话服务。然而，通常语音对话服务未能充分利用除了语音以外的任何输入/输出交互，从而限制表达。此外，随着语音输入的长度增加，语音识别中的错误的概率也会增加。

鉴于上述问题，已引入了基于各种交互的多模式交互技术。

提出上述信息仅作为背景信息，以帮助对本公开的理解。不确定并且不断言关于是否任何上述内容可作为相对于本公开的现有技术而被应用。

发明内容

本公开的各个方面在于解决至少上述问题和/或缺点，并提供至少下面描述的优点。因此，本公开的一方面在于提供一种用于基于多模式输入执行语音对话服务的交互装置和方法。

根据本公开的一方面，提供一种用于支持语音对话服务的交互方法。所述方法包括：基于选择的输入模式接收用户输入；当接收到的用户输入是非语音输入时，从接收到的用户输入提取文本；将提取出的文本作为请求信号发送到服务器；从服务器接收响应于请求信号的对话识别的结果；基于接收到的对话识别的结果，执行对接收到的用户输入的响应。

根据本公开的另一方面，提供一种用于支持语音对话服务的交互装置。所述装置包括：输入单元，被配置为基于选择的输入模式接收用户输入；通信单元，被配置为与服务器通信；控制单元，被配置为当接收到的用户输入是非语音输入时，从接收到的用户输入提取文本，将提取出的文本作为请求信号发送到服务器，从服务器接收响应于请求信号的对话识别的结果，基于接收到的对话识别的结果，执行对用户输入的响应；输出单元，被配置为输出执行对接收到的用户输入的响应的结果。

从下面结合附图公开本公开的各种实施例的详细描述中，本公开的其它方面、优点和显著特征对本领域技术人员而言将变得清楚。

附图说明

从下面结合附图的描述，本公开的上述和另外方面、特征和优点将会变得更加清楚，其中：

图1是示出根据本公开的实施例的用于支持语音对话服务的系统的框图。

图2是示出根据本公开的实施例的用于在系统处执行语音对话服务的方法的框图。

图3是示出根据本公开的实施例的用于在交互装置处执行语音对话服务的方法的流程图。

图4是示出根据本公开的实施例的图3中示出的文本提取操作的详细处理的流程图。

图5是示出根据本公开的实施例的在服务器处确定相关内容提供器的示例的表格。

图6A和图6B是示出根据本公开的实施例的在交互装置处执行语音对话服务的处理的截屏。

在整个服务中，应注意相同的标号用于表示相同或相似的元件、特征和结构。

具体实施方式

提供下面参照附图的描述以帮助全面理解由权利要求及其等同物所限定的本公开的各种实施例。所述描述包括各种具体细节以帮助理解，但是这些具体细节将被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对这里所描述的各种实施例进行各种改变和修改。此外，为了清楚和简明，可省略对公知功能和构造的描述。

下面的描述和权利要求中所使用的术语和词语不局限于书面意义，而仅仅被发明人使用以使本公开得以清楚和一致的理解。因此，本领域的技术人员应该清楚，提供下面对本公开的各种实施例的描述仅是为了说明的目的，而不是为了限制本公开的目的，其中，本公开由权利要求和它们的等同物所限定。

应当理解，除非上下文清楚地另有指示，否则单数形式包括复数指示物。因此，例如，参照“信号”包括参照一个或多个这样的信号。

在本公开中，术语多模式指人类和机器之间的交互中的各种类型的输入/输出机制的使用，因此多模式输入可利用语音识别、键盘、键区、触摸传感器、图像捕捉等。另外，术语语音输入指通过麦克风接收到的用户的语音的输入。语音输入是在语音对话服务中提供的一般交互类型。相反，术语非语音输入指除了所述语音输入以外的任何输入。如果在一般语音交互中执行了输入模式转换，则通过转换的交互类型接收输入。

参照图1，用于支持语音对话服务的系统包括交互装置110和服务器120。

交互装置110是支持用户和语音代理之间的语音对话服务的装置。交互装置110具有经由网络与服务器120通信的能力，以从语音代理取得对用户输入的响应。语音代理可指在语音对话服务中执行语音交互的虚拟实体。

交互装置110可包括输入单元111、控制单元114、通信单元116和输出单元117，但不限于此。

输入单元111被配置为执行在语音对话服务中接收用户输入的功能。输入单元111可包括用于接收用户的语音输入的语音输入单元112，以及用于接收除了语音输入以外的非语音输入的非语音输入单元113。例如可以是麦克风的语音输入单元112可接收用户的语音输入，并将它转换为语音输入信号。非语音输入单元113可接收用户的非语音输入，诸如，文本、图像、音乐等。文本可被接收为通过键盘输入、触摸传感器手势输入、文本复制输入等的用户输入。图像可通过相机功能、从存储的图像列表选择图像、图像复制输入等被接收为用户输入。音乐在被通过音乐播放器播放时可被接收为用户输入。本领域中的技术人员将理解，任意其它输入模式可被应用为输入交互类型。

控制单元114控制语音对话服务的执行。具体地，控制单元114可处理从输入单元111接收到的用户输入信号，并随后将用户输入信号发送到输出单元117和服务器120。

在接收到语音输入的情况下，控制单元114可将语音输入信号转换为文本，并随后将文本输出到输出单元117，以显示用户输入。另外，控制单元114可将所述语音输入信号或文本作为请求信号发送到服务器120。当从服务器120接收到响应于所述请求信号的对话识别的结果时，控制单元114可执行与接收到的对话识别的结果相应的特定功能，并随后将响应输出到输出单元117。

此外，在接收到非语音输入的情况下，控制单元114可包括用于从非语音信号提取文本的文本提取单元115。如果例如输入了包含元数据的图像或音乐文件，则文本提取单元115可识别包含在图像或音乐文件中的元数据的文本，并执行用于选择必要文本的过滤处理。例如，当元数据具有描述(即，关键字)、保存时间、版权所有人和任何其它文件信息时，描述可被预定义为在过滤处理中将被选择为必要文本。然而，这仅是示例性的，并不意味着限制本公开。

另外，在包含字符的图像文件的情况下，文本提取单元115可通过光学字符识别(OCR)处理来识别包含在图像文件中的文本。可在过滤处理中选择用户期望的文本的特定部分。可根据预定义的规则或用户的选择来执行所述过滤处理。

控制单元114可将提取出的非语音输入的文本输出到输出单元117，以显示用户的输入。另外，控制单元114可将所述提取出的非语音输入的文本作为请求信号发送到服务器120。当从服务器120接收到响应于所述请求信号的对话识别的结果时，控制单元114可执行与接收到的对话识别的结果相应的特定功能，并随后将响应输出到输出单元117。

在将请求信号发送到服务器120之后，控制单元114可从服务器120接收询问是否应用相关内容提供器的消息。下面将描述相关内容提供器的确定。

通信单元116被配置为通过有线网络或无线网络支持交互装置110和服务120之间的通信。

输出单元117可从控制单元114接收对话内容信号(即，经过处理的用户输入信号和语音代理的响应信号)，并随后在语音对话服务被执行时输出对话内容信号。具体地，输出单元117可包括显示器118和扬声器119。在对话内容信号不需要视频信号时，可通过关闭显示器118并打开扬声器119来仅通过声音输出语音代理的响应。可选择地，可也打开显示器118，以便显示用户输入的文本和语音代理的响应。如果用户输入被接收为非语音输入，则可打开显示器118以显示提取出的非语音输入的文本。另外，输出单元117可显示语音对话服务中提供的各种功能和内容。

服务器120被配置为从交互装置110接收用户输入(即，请求信号)，从语音代理取得对请求信号的响应，并将取得的结果发送到交互装置110。当从交互装置110接收到语音信号时，服务器120可执行用于将接收到的语音信号转换为文本的功能。

服务器120可包括基于与用户输入相应的文本从数据库取得语音代理的响应的对话管理器122。如果例如识别出文本“Google”，则对话管理器122可确定用户期望“Google搜索”，并从而可取得结果“访问Google主页”作为系统响应。这个对话结果可被发送到交互装置110，并随后交互装置110可执行对Google的主页的访问。

同时，服务器120可还包括基于与用户输入相应的文本确定相关内容提供器的相关内容服务器(CP)确定单元121。即，根据包含在文本中的词语的每个分类的权值确定文本的类型，并随后从文本的类型推断相关内容提供器。例如，如果确定包含在文本中的词语是地址类型，则地图服务可被推断为相关内容提供器。另外，服务器120可询问是否应用相关内容提供器，即可请求交互装置110检查地图服务的适用性。如果用户接受相关内容提供器的适用性，则对话管理器122可基于相关内容提供器推断并提供语音代理的响应。

图2是示出根据本公开的实施例的用于在系统处执行语音对话服务的方法的流程图。

参照图2，在操作S201，交互装置110可选择输入模式。可将语音输入设置为语音对话服务的默认输入模式，之后可通过语音命令执行输入模式的切换。例如，如果接收到语音命令“打开相机”，则交互装置110可将输入模式切换为通过相机的图像输入。

在操作S202，交互装置110可基于选择的输入模式接收用户输入。随后，在操作S203，如图1中先前所讨论的，交互装置110可从接收到的用户输入提取作为对话的内容的文本。

之后，在操作S204，交互装置110可将提取出的文本发送到服务器120。优选地，在操作S205，服务器120可从接收到的文本确定相关内容提供器。在操作S206，服务器120可将用于检查相关内容提供器的适用性的请求发送到交互装置110。随后，在操作S207，交互装置110可将检查相关内容提供器的适用性的结果发送到服务器120。

在操作S208，服务器120可通过整体地考虑接收到的文本和接收到的相关内容提供器的适用性的检查结果来取得语音代理的响应。随后，在操作S209，服务器120可基于取得的响应，将对话识别的结果发送到交互装置110。

在操作S210，交互装置110可基于接收到的对话识别结果执行响应，并将它提供给用户。

参照图3，交互装置110在操作S301接收用户输入，并随后在操作S302确定接收到的用户输入是否是语音输入。在语音输入的情况下，在操作S303，交互装置110将所述语音或从语音转换的文本发送到服务器120。

相反，在非语音输入的情况下，在操作S304，交互装置110从非语音输入提取文本，并随后在操作S305将提取出的文本发送到服务器120。

参照图4，详细示出操作S304，在非语音输入是图像输入的情况下，在操作S401，交互装置110可识别包含在图像文件中的元数据的文本，并随后在操作S402执行过滤处理，和/或可通过执行OCR从图像文件识别文本，并在操作S403执行过滤处理。如果仅执行了操作S402和S403中的一个，则提供通过执行的操作提取的文本。然而，如果操作S402和S403均被执行，则可最终提供通过所述操作中的一个提取的文本。

返回参照图3，在操作S306，交互装置110检查由服务器120确定的相关内容提供器的适用性，并随后将检查结果发送到服务器120。在操作S307，交互装置110从服务器120接收对话识别的结果，并随后基于接收到的结果，执行响应以将结果提供给用户。

参照图5，在由交互装置110提取的文本被发送到服务器120的情况下，相关内容提供器确定单元121可通过分析包含在文本中的词语来确定提取出的文本的类型。如图5中所示，如果提取出的文本是“8 Rue du Fouarre 75005Paris,France”501，则这个文本包含国家的名称、城市的名称和街道的名称，因此文本类型可被确定为地点(地址)502。如果提取出的文本是“Samsung,Sennheiser,Ferrari”504，则文本类型可被确定为公司名称505。如果提取出的文本是“Dark knight,Spider man”507，则文本类型可被确定为内容名称(电影)508。

如果文本类型是地点(地址)502，则地图服务503可被提供为相关内容提供器。如果文本类型是公司名称505，则搜索网络506可被提供为相关内容提供器。如果文本类型是内容名称(电影)508，则电影服务应用509可被提供为相关内容提供器。

如果用户接受提供到交互装置110的相关内容提供器的适用性，则服务器120可请求交互装置110在其上显示相关内容提供器中的关于文本的信息。即，交互装置110可将相关内容提供器中的关于文本的信息作为对从用户输入提取的文本的响应提供给用户。

首先参照图6A，交互装置110可将用户和语音代理之间的对话显示在屏幕上。在实施例中，一些图标(诸如，用于控制语音对话服务的开关状态的图标(开/关)、用于控制麦克风的激活的图标(mic.)、用于选择输入模式的图标(SEL)等)可被显示在屏幕上。

当如截屏610中所示，语音代理提供通知语音对话服务的评论601时，如截屏620中所示，用户可将语音输入602作为响应提供到语音代理。在这种情况下，用户输入语音“导航到这个地方”。作为答复，如截屏630中所示，语音代理提供与用户的语音输入相应的响应603。在这种情况下，语音代理提供响应“这是哪？”。

参照图6B，示出输入模式的切换和根据图像输入的交互的响应。

如截屏640中所示，响应于语音代理的请求，用户可期望提供图像输入，并从而需要输入模式的切换。可使用语音命令执行这个输入模式的切换。在这种情况下，可通过语音输入604“打开相机并读取这个图像”来切换输入模式。

随后，如截屏650中所示，交互装置110可通过运行相机来捕捉图像，并从捕捉的图像提取文本部分。例如，可通过OCR处理识别包含在捕捉的图像中的文本，可通过过滤处理在识别出的文本中选择期望的文本部分。如截屏660中所示，从图像输入提取出的文本部分605可作为用户响应被显示在屏幕上。之后，语音代理输出对提取出的文本部分605的响应。由于提取出的文本部分605指示地点(地址)，因此如截屏670中所示，语音代理可提供用于表示地点(地址)的地图服务。

如上面充分讨论的，可通过除了语音以外的各种输入交互提供语音对话服务。

将理解，可按照硬件、软件或硬件和软件的组合的形式实现根据权利要求书和说明书中的描述的本公开的各种实施例。

任何这样的软件可被存储在非暂时性计算机可读存储介质中。非暂时性计算机可读存储介质存储一个或更多个程序(软件模块)。所述一个或更多个程序包括指令，当所述指令被电子装置中的一个或更多个处理器执行时，使得电子装置执行本公开的方法。

任意这样的软件可以以易失性或非易失性存储器的形式(例如，如不论是否可擦除或可重写的只读存储器(ROM)的存储装置)被存储，或者以存储器的形式(例如，随机存取存储器(RAM)、存储芯片、器件或集成电路)被存储，或被存储在光学或磁性可读介质(诸如，压缩光盘(CD)、数字多功能光盘(DVD)、磁盘或磁带等)上。将理解，存储装置和存储介质是非暂时性计算机可读存储器的各种实施例，所述非暂时性计算机可读存储器适合存储包括当被运行时实现本公开的各种实施例的指令的程序。因此，各种实施例提供包括用于实现如本说明书的权利要求书中的任意一个所述的设备或方法的代码的程序，以及存储这样的程序的非暂时性机器可读存储器。

虽然已经参照本公开的各种实施例显示和描述了本公开，但是本领域的技术人员将理解，在不脱离由权利要求书及其等同物限定的本公开的精神和范围的情况下，可在其中进行形式和细节上的各种改变。

Claims

1.一种用于支持语音对话服务的交互方法，所述交互方法包括：

执行用于语音对话服务的界面；

通过执行的界面，接收包括语音输入和/或非语音输入的用户输入，所述非语音输入包括从相机获取的图像数据；

当接收到的用户输入是语音输入时，将语音输入或从语音输入提取出的文本中的至少一个作为请求信号发送到服务器；

当接收到的用户输入是非语音输入时，从所述非语音输入的图像数据提取文本，将从非语音输入的图像数据中提取的文本作为请求信号发送到服务器；

从服务器接收响应于请求信号的对话识别的结果；

执行与接收到的对话识别的结果相应的特定功能。

2.如权利要求1所述的交互方法，还包括：

基于用户控制设置界面的输入模式，

其中，设置输入模式的步骤包括以下步骤中的至少一个：

响应于输入，选择显示在屏幕上的输入模式的菜单；

响应于语音命令，运行与输入模式相关的应用。

3.如权利要求1所述的交互方法，其中，当非语音输入是图像输入时，所述方法还包括：

识别包含在图像输入中的元数据的文本并且/或者通过光学字符识别处理从图像输入识别文本；

通过过滤处理，在识别出的文本中选择特定部分作为提取的文本。

4.如权利要求1所述的交互方法，其中，当非语音输入是图像输入时，执行与接收到的对话识别的结果相应的特定功能的步骤包括：

显示从服务器接收到的对提取的文本的处理结果。

5.如权利要求1所述的交互方法，还包括：

从服务器接收用于检查是否应用由服务器确定的相关内容提供器的请求；

检查是否应用由服务器确定的相关内容提供器，并将检查的结果发送到服务器。

6.如权利要求5所述的交互方法，其中，执行对接收到的用户输入的响应的步骤包括：当相关内容提供器的适用性被接受时，运行所述相关内容提供器。

7.一种用于支持语音对话服务的交互装置，所述交互装置包括：

输入单元，被配置为接收包括语音输入和/或非语音输入的用户输入，所述非语音输入包括从相机获取的图像数据；

通信单元，被配置为与服务器通信；

控制单元，被配置为执行用于语音对话服务的界面，通过执行的界面接收用户输入，当接收到的用户输入是语音输入时，将语音输入或从语音输入提取出的文本中的至少一个作为请求信号发送到服务器，当接收到的用户输入是非语音输入时，从所述非语音输入的图像数据中提取文本，将从非语音输入的图像数据中提取的文本作为请求信号发送到服务器，从服务器接收响应于请求信号的对话识别的结果，执行与接收到的对话识别的结果相应的特定功能；

输出单元，被配置为输出执行与接收到的对话识别的结果相应的特定功能的结果。

8.如权利要求7所述的交互装置，其中，控制单元还被配置为通过执行以下操作中的至少一个来基于用户控制设置界面的输入模式：

响应于输入，选择显示在屏幕上的输入模式的菜单，

响应于语音命令，运行与输入模式相关的应用。

9.如权利要求7所述的交互装置，其中，当非语音输入是图像输入时，控制单元还被配置为识别包含在图像输入中的元数据的文本并且/或者通过光学字符识别处理从图像输入识别文本，并通过过滤处理在识别出的文本中选择特定部分作为提取的文本。

10.如权利要求7所述的交互装置，其中，当非语音输入是图像输入时，控制单元还被配置为显示从服务器接收到的对提取的文本的处理结果。

11.如权利要求7所述的交互装置，其中，控制单元还被配置为从服务器接收用于检查是否应用由服务器确定的相关内容提供器的请求，检查是否应用由服务器确定的相关内容提供器，并将检查的结果发送到服务器。

12.如权利要求11所述的交互装置，其中，控制单元还被配置为当相关内容提供器的适用性被接受时，运行所述相关内容提供器。