CN110114825A

CN110114825A - 语音识别系统

Info

Publication number: CN110114825A
Application number: CN201780080657.5A
Authority: CN
Inventors: R.拉奥; K.恩茨明格; A.福斯曼
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2016-12-30
Filing date: 2017-12-29
Publication date: 2019-08-09
Also published as: EP3563373B1; US20190333508A1; EP3563373A1; WO2018132273A1; EP3563373A4

Abstract

一种语音识别系统，其设置有用于显示内容的用户界面、用于提供指示观看所述内容的用户的图像的第一信号的相机和用于提供指示对应于所请求的动作的语音命令的第二信号的传声器。所述语音识别系统还设置有控制器，所述控制器被编程为接收所述第一信号和所述第二信号，基于所述图像过滤所述语音命令，以及基于所述过滤后的语音命令执行所述请求的动作。

Description

语音识别系统

相关申请的交叉引用

本申请要求2016年12月30日提交的美国临时申请序列号62/440,893的权益，其公开内容据此通过引用整体并入本文。

技术领域

一个或多个实施方案涉及一种语音识别系统，其用于监控用户并基于用户的移动和外观修改语音转换。

背景技术

用于控制蜂窝电话功能的语音识别系统的示例是Samsung的“S Voice”系统。用于控制便携式扬声器功能的语音识别系统的示例是的“JBL CONNECT”应用。

发明内容

在一个实施方案中，语音识别系统设置有用于显示内容的用户界面、用于提供指示观看内容的用户的图像的信号的相机和用于提供指示语音命令的信号的传声器。语音识别系统还设置有控制器，所述控制器与用户界面，相机和传声器通信，并且被配置成基于图像过滤语音命令。

在另一实施方案中，语音识别系统设置有用于显示内容的用户界面、用于提供指示观看内容的用户的图像的第一信号的相机和用于提供指示对应于所请求的动作的语音命令的第二信号的传声器。所述语音识别系统还设置有控制器，所述控制器被编程为接收所述第一信号和所述第二信号，基于所述图像过滤所述语音命令，以及基于所述过滤后的语音命令执行所述请求的动作。

在又一实施方案中，提供了一种体现在非暂时性计算机可读介质中的计算机程序产品，所述计算机程序产品被编程用于控制语音识别系统。所述计算机程序产品包括用于以下操作的指令：接收对应于所请求的动作的语音命令；接收指示观看用户界面上的内容的用户的视觉命令；基于视觉命令过滤语音命令；以及基于过滤后的语音命令执行请求的动作。

在另一实施方案中，提供了一种用于控制语音识别系统的方法。接收指示对应于所述请求的动作的语音命令的第一信号。接收指示观看用户界面上的内容的用户的图像的第二信号。基于图像过滤语音命令，和基于过滤后的语音命令执行所述请求的动作。

这样，语音识别系统通过将语音命令与眼睛注视跟踪和/或面部识别相结合来缩小搜索域并将语音到文本的转换限制到用户感兴趣的项目，从而提高了语音命令转换的准确度。

附图说明

图1是根据一个或多个实施方案的用户与包括语音识别系统的媒体装置交互的示意图。

图2是图1的媒体装置的正视图，其示出了音频系统控制。

图3是图1的媒体装置的另一正视图，其示出了气候系统控制。

图4是图1的媒体装置的另一正视图，其示出了气候系统控制。

图5是图1的媒体装置的另一正视图，其示出了通信系统控制。

图6是根据一个或多个实施方案的具有多个装置的媒体网络的示意图，所述多个装置包括图1的媒体装置、被示出为使用基于云的网络彼此通信。

图7是图1的媒体装置的另一正视图，其示出了启用注视的宏。

图8是示出根据一个或多个实施方案的用于控制语音识别系统的方法的流程图。

具体实施方式

根据需要，本文公开了本发明的详细实施方案；然而，应理解，所公开的实施方案仅仅是本发明的示例，本发明可以以各种替代形式来实施。附图不一定按比例绘制；一些特征可能被放大或缩小以示出特定部件的细节。因此，在此公开的具体结构和功能细节不应被解释为限制，而仅仅作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。

参考图1，根据一个或多个实施方案示出了语音识别系统，并且所述语音识别系统通常由附图标记10表示。语音识别系统10被描绘在媒体装置12内。媒体装置12是根据所示实施方案的车辆信息/娱乐系统。语音识别系统10包括运动监控装置14(例如，相机)和语音监控装置16(例如，传声器)。语音识别系统10还包括用户界面18和控制器20，控制器20与相机14、传声器16和用户界面18通信。语音识别系统10还可以在其他媒体装置中实现，诸如家庭娱乐系统、蜂窝电话和便携式扬声器组件，如下面参考图6所描述的。

语音识别系统10监控用户的特征并将所述特征与预定数据进行比较，以确定是否识别出用户并且用户兴趣的现有简档是否可用。如果识别出用户，并且他们的简档可用，则系统10基于他们的简档使用过滤器来转换用户的语音。系统10还监控用户的移动(例如，眼睛注视和/或嘴唇移动)并基于这种移动过滤用户的语音。这种过滤器缩小了用于将用户语音转换成文本的搜索域，并提高了转换的准确度，尤其是在具有高环境噪声的环境中，例如汽车的乘客舱。

控制器20通常包括任何数量的微处理器、ASIC、IC、存储器(例如，FLASH、ROM、RAM、EPROM和/或EEPROM)和软件代码，以彼此协作以执行本文所述的操作。控制器20还包括基于计算和测试数据并存储在存储器中的预定数据或“查找表”。控制器20使用共同总线协议(例如，CAN和LIN)通过一个或多个有线或无线连接与媒体装置12的其他部件(例如、相机14、传声器16和用户界面18等)通信。

参考图1-图2，媒体装置12接收指示用户命令的输入。根据一个实施方案，用户界面18是用于从用户接收触觉输入的触摸屏。传声器16接收来自用户的音频输入，即语音命令。相机14接收视觉输入，例如，来自用户的可以指示命令的移动或手势。例如，根据一个实施方案，相机14监控用户眼睛的移动并生成指示用户的眼睛注视的数据。相机14可以在监控用户的同时调整(例如，平移、倾斜或缩放)。控制器20使用已知技术分析所述眼睛注视数据，以确定用户正在看向用户界面18的哪个区域。

用户界面18显示诸如用于各种车辆系统的车辆控制的内容。例如，根据所示实施方案，用户界面18显示气候控制图标22、通信控制图标24和音频系统控制图标26。用户界面18响应于用户触觉(触摸)命令、语音命令或视觉命令来调整向用户显示的内容。例如，语音识别系统10响应于用户将他们的注视集中在气候控制图标22上一段时间，控制用户界面18显示附加的气候控制(在图3-图4中示出)。另外，语音识别系统10响应于用户说“呼叫Anna”，控制用户界面18显示附加的通信控制(在图5中示出)。

参考图2，语音识别系统10响应于用户按下音频系统控制图标26而控制用户界面18显示附加音频系统控制，诸如可用的音频内容和当前音频内容。用户界面18显示可用的音频内容28，该音频内容28是艺术家1-6的专辑封面A-F的图像。用户界面18还显示音频系统当前正在播放的歌曲的信息，包括描述艺术家和歌曲名称的文本以及指示歌曲当前状态(即，过去的时间和剩余的时间)的标度，所述标度由附图标记29表示。

语音识别系统10基于语音命令来调整向用户显示的内容。例如，用户可以说“播放艺术家2、专辑B、歌曲1”，而不是按下艺术家2的可用音频内容图标28，语音识别系统10控制音频系统停止播放当前音频内容(即艺术家1、专辑A、歌曲2)，并启动播放新请求的音频内容。语音识别系统10将用户的语音命令转变或转换成文本，并将其与预定数据(例如，不同命令的数据库)进行比较，以解释所述命令。然而，在某些情况下，语音识别系统10可能难以解释所述命令。例如，用户可能在窗户打开的情况下驾驶，或者可能有其他乘客在车辆中说话，这可能产生使转换复杂化的噪声。

根据一个实施方案，语音识别系统10通过将语音命令与眼睛注视跟踪相结合来缩小搜索域并将语音到文本的转换限制到用户集中的菜单上的项目，从而提高了语音命令转换的准确度。在一个示例中，用户提供语音命令:“播放艺术家2、专辑B、歌曲1”，同时看向艺术家2、专辑B图标28。然而，车辆中的其他乘客在命令期间正在说话，因此语音识别系统10仅能够从语音命令转换“播放。。。。。。歌曲1”。语音识别系统10确定用户的眼睛注视集中在艺术家2、专辑B图标28上，并且因此将搜索域缩小到正确的可用音频内容。

根据一个实施方案，语音识别系统10通过将语音命令与面部识别相结合来缩小搜索域，从而提高了语音请求的转换的准确度。在另一示例中，可用的音频内容包括艺术家:The的歌曲和艺术家:Justin的歌曲。用户看向道路而不是用户界面18时提供语音命令：“播放The”。然而，车辆中的窗户是打开的，并且在命令期间存在外部噪声，因此语音识别系统10仅能够从语音命令转换“播放Be。。。。。。”。语音识别系统10使用面部识别软件确定驾驶员A(爸爸)正在驾驶，而不是驾驶员B(孩子)，并且能够基于指示驾驶员A的音频偏好和/或历史的简档将搜索域缩小到正确的可用音频内容。

在另一实施方案中，语音识别系统10通过将语音命令与面部识别和唇读相结合来缩小搜索域，从而进一步提高了语音请求的转换的准确度。语音识别系统10使用面部识别来检测面部和嘴唇运动，并使所述运动与对应于语音的拼读法的预定面部运动相关。

根据一个实施方案，语音识别系统10使用音频和/或视觉通信来响应用户命令。在接收到播放音频内容的命令后，系统10可以要求用户确认所述命令，例如，“请确认，您想要播放艺术家2、专辑B、歌曲1”。替代地，或除了这种音频通信之外，语音识别系统10可以通过动态和响应的用户界面18的改变来提供视觉反馈。例如，语音识别系统可以控制艺术家2、专辑B的可用音频内容图标28闪烁、移动或改变大小(例如，缩小或放大)，如图2中的运动线30所描绘的。这种视觉反馈减少了由于无意的语音/移动动作引起的误报，特别是对于远场语音识别。

参考图3-图4，例如，响应于用户触摸或将他们的注视集中在气候系统控制图标22上，可以在用户界面18上显示附加的气候系统控制。根据一个或多个实施方案，语音识别系统10使用眼睛注视跟踪和/或面部识别作为替换“唤醒词”的选项。现有的语音识别系统在启动监控语音命令之前通常需要输入来唤醒。例如，一些现有系统要求用户按下按钮或说出“唤醒词”，诸如“嗨Bixby”、“你好Alexa”、“好的，”等，以发起音频通信。

根据一个实施方案，语音识别系统10使用眼睛注视跟踪来发起音频通信(唤醒)。例如，系统10在确定用户的眼睛注视集中在用户界面18上达预定时间段之后发起音频通信。一旦语音识别系统10被唤醒，语音识别系统10还可以使用音频或视觉通信通知用户。在所示实施方案中，用户界面18包括描绘打开的眼球的唤醒图标32。在唤醒之后，语音识别系统10通过控制唤醒图标闪烁来通知用户，如运动线34(如图4所示)所描绘的。图5示出了可以在用户界面18上显示的附加通信系统控制，例如，响应于用户触摸或将他们的注视集中在通信控制图标24上。

参考图6，根据一个或多个实施方案示出了媒体网络，并且通常由附图标记38表示。如上参考图1-图5所描述的，媒体网络38包括车辆40的媒体装置12中的语音识别系统10。媒体网络38还包括家庭娱乐系统42、蜂窝电话44和便携式扬声器组件46，每个都包括语音识别系统10，并且每个都使用基于云的网络48彼此通信。可以基于从过去的眼睛注视数据、语音命令、音频内容偏好等确定的用户的兴趣为媒体装置12的每个用户建立简档。所述简档可以存储在云网络48中，使得媒体网络38的其他装置可以访问所述简档。

参考图7，根据一个实施方案，语音识别系统10包括启用注视的宏。控制器20包括一旦被执行就执行宏的指令。这种宏提供了命令或动作的分组的快捷方式，这些命令或动作的分组可以通过与眼睛注视跟踪相结合的单个语音命令或话语来发起。命令可以包括与嵌入式系统域相关的动作、非车载或云相关动作或这些动作的组合。例如，在车辆40中实现的语音识别系统10可以响应于接收到“恶劣天气”语音命令结合集中在天气图标(未示出)上的眼睛注视来打开前灯、刮水器并请求本地天气预报和天气警报。基于车辆的语音识别系统10还可以响应于接收到“体育”语音命令，结合集中在文本图标“体育”52上的眼睛注视，将无线电调谐到个性化体育比赛，并显示当前得分，如体育得分图标50所描绘的。

类似地，在家庭娱乐系统42中实现的语音识别系统10可以响应于“体育”语音命令结合集中在体育图标(未示出)上的眼睛注视，提供个性化的体育得分和新闻、打开环绕声以及电视的特定光学设置。另外，在蜂窝电话44中实现的语音识别系统10可以响应于“睡觉”语音命令，结合集中在睡眠图标(未示出)上的眼睛注视，设置家庭安全系统、检查室内灯、恒温器设置和门锁。

参考图8，示出了根据一个或多个实施方案的描述用于控制语音识别系统10的方法的流程图，并且所述方法通常由附图标记100表示。根据一个或多个实施方案，使用由控制器20执行并包含在存储器内的软件代码来实现方法100。尽管以多个连续步骤示出了流程图，但是在不脱离本公开的范围和预期的情况下，可以省略和/或以另一种方式执行一个或多个步骤。

在操作110，语音识别系统10(如图1所示)开始或发起方法100。在一个实施方案中，语音识别系统10响应于用户执行触发向系统供电的动作而启动，例如通过将点火钥匙打开，并且用户界面18显示车辆控制，诸如图2-图5和图7中所示的控制。在操作112处，响应于接收到触觉命令，语音识别系统10进行到操作130并且执行对应的动作。例如，如果用户触摸气候控制图标22，则用户界面18显示如图3和图4所示的附加气候控制图标。在操作114处，语音识别系统10例如使用相机14和/或传声器16(在图1中示出)来监控用户。

在操作116处，语音识别系统发起与用户的音频通信(即，唤醒)。根据一个或多个实施方案，所述发起响应于语音命令(例如，“唤醒词”)或者响应于视觉命令，例如确定用户的眼睛注视集中在用户界面18上的时间长于预定时间段。如参考图4所讨论的，一旦语音识别系统10使用音频或视觉通信唤醒，语音识别系统10还可以例如通过控制唤醒图标32闪烁通知用户。

在操作118处，语音识别系统10继续监控用户的特征，并将所述特征与预定数据进行比较，以确定是否识别出用户。如果识别出用户，则语音识别系统10例如通过基于云的网络38(如图6示出)在操作120处获取他们的简档。

在操作122处，语音识别系统10接收语音命令。然后在操作124处，语音识别系统10确定语音命令结合非语言命令(例如，眼睛注视)是否对应于宏。如果是，则系统10进行到操作130并且执行(一个或多个)动作。

如果语音命令部对应于宏，则语音识别系统10过滤用户的语音。如果在操作120处获取了简档，则系统10在操作126处基于所述简档过滤语音命令。系统10还监控用户的移动(例如，眼睛注视和/或嘴唇移动)，并基于这种移动过滤语音命令。这种过滤器缩小了用于将语音命令转换为文本的搜索域，并提高了转换的准确度。语音识别系统10在操作128处转换语音命令，并且然后在操作130处执行一个或多个动作(例如，调整用户界面18上显示的内容；控制气候系统以增加车辆内的温度；或者控制音频系统播放不同的歌曲)。

虽然以上描述了示例性实施方案，但并不意味着这些实施方案描述了本发明的所有可能形式。相反，说明书中使用的词语是描述性的词语而不是限制性的词语，并且应理解，在不脱离本发明的精神和范围的情况下，可以进行各种改变。另外，可以结合各种实现实施方案的特征以形成本发明的其他实施方案。

Claims

1.一种语音识别系统，其包括:

用户界面，所述用户界面用于显示内容；

相机，所述相机用于提供指示观看所述内容的用户的图像的第一信号；

传声器，所述传声器用于提供指示对应于所请求的动作的语音命令的第二信号；和

控制器，所述控制器被编程为：

接收所述第一信号和所述第二信号，

基于所述图像过滤所述语音命令，以及

基于所述过滤后的语音命令执行所述请求的动作。

2.如权利要求1所述的语音识别系统，其中所述控制器还被编程为当基于所述图像过滤所述语音命令时，缩小用于将所述语音命令转换成文本的搜索域。

3.如权利要求1所述的语音识别系统，其中所述控制器还被编程为响应于所述图像中对应于运动的变化而过滤所述语音命令。

4.如权利要求1所述的语音识别系统，其中所述控制器还被编程为响应于指示所述用户的眼睛注视和嘴唇移动中的至少一者的所述图像而过滤所述语音命令。

5.如权利要求1所述的语音识别系统，其中所述控制器还被编程为当检测到所述用户的眼睛注视集中在所述用户界面的区域上的时间段超过预定时间段时，过滤对应于显示在所述用户界面的所述区域上的内容的所述语音命令。

6.如权利要求5所述的语音识别系统，其中所述控制器还被编程为在执行所述动作之前调整显示在所述用户界面的所述区域上的所述内容，以确认所述第一信号和所述第二信号中的至少一者。

7.如权利要求1所述的语音识别系统，其中所述控制器还被编程为响应于以下情况而执行包括一系列动作的宏:

检测到所述用户的眼睛注视集中在所述用户界面的区域上的时间段超过预定时间段；和

所述语音命令对应于与在所述用户界面的所述区域上显示的所述内容相关联的预定语音命令。

8.如权利要求1所述的语音识别系统，其中所述控制器还被编程为通过调整显示在所述用户界面上的所述内容执行请求的动作。

9.如权利要求1所述的语音识别系统，其中所述控制器还被编程为将所述图像与预定简档数据进行比较，以选择与所述用户相关联的简档并基于所述简档过滤所述语音命令。

10.如权利要求1所述的语音识别系统，其中所述控制器还被编程为响应于检测到所述用户的眼睛注视集中在所述用户界面的区域上的时间段超过预定时间段而发起与所述用户的通信。

11.如权利要求10所述的语音识别系统，其中所述控制器还被编程为调整显示在所述用户界面上的内容，以确认通信的发起。

12.一种媒体网络，其包括:

第一媒体装置，所述第一媒体装置包括如权利要求1所述的语音识别系统，其中所述用户界面包括第一用户界面；

第二媒体装置，所述第二媒体装置包括适于显示内容的第二用户界面和与所述第二用户界面通信的第二控制器；和

存储装置，所述存储装置与所述控制器和所述第二控制器通信，并适于存储用户简档。

13.一种体现在非暂时性计算机可读介质中的计算机程序产品，所述计算机程序产品被编程用于控制语音识别系统，所述计算机程序产品包括用于以下操作的指令：

接收对应于所请求的动作的语音命令；

接收指示观看用户界面上的内容的用户的视觉命令；

基于所述视觉命令过滤所述语音命令；和

基于所述过滤后的语音命令执行所请求的动作。

14.如权利要求13所述的计算机程序产品，其中所述视觉命令还包括眼睛注视和嘴唇移动中的一者。

15.如权利要求14所述的计算机程序产品，其还包括用于以下操作的指令：当检测到所述用户的所述眼睛注视集中在所述用户界面的区域上的时间段超过预定时间段时，过滤对应于显示在所述区域上的内容的所述语音命令。

16.如权利要求14所述的计算机程序产品，其还包括用于以下操作的指令：

将所述视觉命令与预定简档数据进行比较以选择与所述用户相关联的简档；和

基于所述简档过滤所述语音命令。

17.如权利要求14所述的计算机程序产品，其还包括用于以下操作的指令：当检测到所述用户的所述眼睛注视集中在所述用户界面的区域上的时间段超过预定时间段时发起与所述用户的通信。

18.一种用于控制语音识别系统的方法，其包括:

接收指示对应于所请求的动作的语音命令的第一信号；

接收指示观看用户界面上的内容的用户的图像的第二信号；

基于所述图像过滤所述语音命令；和

基于所述过滤后的语音命令执行所请求的动作。

19.如权利要求18所述的方法，其还包括在转换所述语音命令之前调整显示在所述用户界面上的内容，以确认通信的发起。

20.如权利要求18所述的方法，其还包括响应于所述过滤后的语音命令，执行包括一系列动作的宏。