CN107452381A

CN107452381A - 一种多媒体语音识别装置及方法

Info

Publication number: CN107452381A
Application number: CN201610371239.9A
Authority: CN
Inventors: 马帅; 于渊
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2017-12-08
Anticipated expiration: 2036-05-30
Also published as: CN107452381B

Abstract

本发明公开了一种多媒体语音识别装置及方法，该装置包括：至少一个第二声音采集模块、摄像装置以及控制模块，其中：控制模块在确定出智能用户设备的设定区域内有用户存在时，控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户；第二声音采集模块，用于获得声音数据；摄像装置，用于获取视频信息；所述控制模块，用于在确定出所述声音数据跃变时，提取当前摄像装置中获取的所述视频信息中的图片；并结合所述第二声音采集模块采集的所述声音数据和所述图片，识别所述声音数据对应的用户发送的语音，识别所述语音指令，用于提升语音识别率，降低语音识别的处理开销，提高实时性。

Description

一种多媒体语音识别装置及方法

技术领域

本发明涉及通信技术领域，尤其是涉及一种多媒体语音识别装置及方法。

背景技术

相比个人计算机，以机器人为代表的智能设备日益受到欢迎。除了携带方便外，机器人的多种多样的人机交互能力也是广受关注的一个因素，这其中包括语音交互、图像交互、触觉感知等。

机器人等其他智能设备和人体交互时，不能像手机一样与人体距离太近，因为手机是随身设备，而机器人则看做是另外的一个类人实体。在机器人改造角度，当前技术方案侧重于在机器人本体上加设通过蓝牙连接的麦克风或者放大器等降噪声音采集模块，其可以采用比较成熟的降噪技术，从而提升语音的纯净程度。但要想获得清晰的语音，需要交互时人处于某固定位置，才能达到较好的降噪性能，这样就限制了人机交互场景，易于给使用者带来不便；同时降噪声音采集模块的声音采集阈值难以较好设定，如果阈值过低，则容易将其他人的声音或者噪声视为指令；如果阈值过高，则灵敏度较低，出现人机交互困难。

为了进一步优化语音效果，有方案提出使用图像采集模块先确认人员行为，进而根据图像上人的行为判断控制声音采集模块开关，明确采集到的声音是有效的。也有方案提到对唇读视频和语音进行共同识别，以提升语音识别率。但以上方案仍存在对人员活动范围的限制，如使用图像采集模块识别人员行为，需要人员必须站立在图像采集模块前面。同时，使用唇读视频和语音共同识别方案，在一定程度上可以提升识别率，但视频数据量大，处理开销高，往往实时性不高。

发明内容

本发明提供了一种多媒体语音识别装置及方法，用于提升语音识别率，降低语音识别的处理开销，提高实时性。

一种多媒体语音识别装置，包括至少一个第二声音采集模块、摄像装置以及控制模块，其中：控制模块在确定出智能用户设备的设定区域内有用户存在时，控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户；第二声音采集模块，用于获得声音数据；摄像装置，用于获取视频信息；所述控制模块，用于在确定出所述声音数据跃变时，提取当前摄像装置中获取的所述视频信息中的图片；并结合所述第二声音采集模块采集的所述声音数据和所述图片，识别所述声音数据对应的用户发送的语音。

所述装置还包括至少一个红外阵列感应模块，所述红外阵列感应模块分布环绕所述装置本体，用于采集红外数据，并将所述红外数据发送给所述控制模块；所述控制模块，具体用于接收所述红外数据，在分析出所述红外数据中包含人体信息时，确定智能用户设备的设定区域内有用户存在。

所述装置还包括至少一个第一声音采集模块，所述第一声音采集模块分布环绕所述装置本体，其中：所述第一声音采集模块，用于采集所述智能用户设备设定区域内的声音数据，并将所述声音数据发送给控制模块；所述控制模块，具体用于接收所述声音数据，在分析出所述声音数据中包含用户所做的动作发出的声音时，确定智能用户设备的设定区域内有用户存在。

所述控制模块，还用于在开启第二声音采集模块获得声音数据时，关闭所述第一声音采集模块。

所述控制模块，具体用于若所述识别结果中，包含的词语少于第一数值，且所述词语的含义多于第二数值时，为所述识别结果的每种释义标注概率，并展示概率值最高的识别结果。

一种多媒体语音识别方法，包括：在确定出智能用户设备的设定区域内有用户存在时，控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户；获得获得声音数据；以及获取视频信息；在确定出所述声音数据跃变时，提取当前摄像装置中获取的所述视频信息中的图片；并结合所述第二声音采集模块采集的所述声音数据和所述图片，识别所述声音数据对应的用户发送的语音。

确定出智能用户设备的设定区域内有用户存在，包括：获得红外数据；在所述红外数据中包含人体信息时，确定智能用户设备的设定区域内有用户存在。

确定出智能用户设备的设定区域内有用户存在，包括：获得所述智能用户设备设定区域内的声音数据；在分析出所述声音数据中包含用户所做的动作发出的声音时，确定智能用户设备的设定区域内有用户存在。

还包括：若所述识别结果中，包含的词语少于第一数值，且所述词语的含义多于第二数值时，为所述识别结果的每种释义标注概率，并展示概率值最高的识别结果。

所述声音数据跃变，具体包括：所述声音数据中包含用户发送的语音时，确定声音数据跃变。

通过采用上述技术方案，通过感知人体位置的方案，并根据人体位置控制可转动部件转动，将摄像装置和第二声音采集模块对准用户。可以从视觉、听觉两方面定位人体位置，提升了定位精度，提升语音识别率，降低语音识别的处理开销，提高实时性。

附图说明

图1～图4为本发明实施例提出的多媒体语音识别装置结构组成示意图；

图5为本发明实施例中提出的多媒体语音识别方法流程图。

具体实施方式

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

本发明实施例提出一种多媒体语音识别装置，该装置可以是集成在智能用户本体中，也可以是独立的一个模块，在本发明实例提出的技术方案中，将一该识别装置集成在之智能用户设备本体中为例进行详细阐述，如图1所示，其结构组成如下述：

该装置至少一个第二声音采集模块101、摄像装置102以及控制模块103。控制模块103可以与第二声音采集模块101、摄像装置102以及控制模块103进行通信。

一种较佳地实施方式，如图2所示，该装置还可以包括至少一个红外阵列感应模块201，至少一个第一声音采集模块202。

该装置可以通过控制模块103控制智能用户设备的可转动部件203。

以图2所示装置为例进行详细阐述：

红外阵列感应模块201，分布环绕在智能用户设备本体，采集红外数据，可以通过红外感应方式，监测用户是否靠近智能用户设备以及定位用户的位置。红外阵列感应模块201将采集到的红外数据传输给控制模块103。

第一声音采集模块202，分布环绕在智能用户设备本体，采集智能用户设备设定区域内的声音数据。该声音数据是用户所做的动作时发出的声音，或者是智能用户设备设定区域内环境的声音。

第一声音采集模块202中可以集成降噪功能，也可以不集成降噪功能。

红外阵列感应模块201采集的红外数据，以及第一声音采集模块202采集的声音数据，发送给控制模块103。

控制模块103，具体用于接收红外数据，在分析出红外数据中包含人体信息时，确定智能用户设备的设定区域内有用户存在。

进一步地，具体用于接收所述声音数据，在分析出所述声音数据中包含用户所做的动作发出的声音时，确定智能用户设备的设定区域内有用户存在。

一种较佳地实现方式，在本发明实施例提出的技术方案中，结合红外阵列感应模块和第一声音采集模块，确定智能用户设备的设定区域内是否有用户存在。控制模块103获得红外阵列感应模块201采集的红外数据，以及获得以第一声音采集模块202采集的声音数据，控制模块103根据红外数据和声音数据，确定智能用户设备的设定区域内是否有用户存在，以及用户的位置。控制模块103在确定出智能用户设备的设定区域内有用户存在时，控制智能用户设备的可转动部件203的正面面向该用户。

其中，在本发明实例提出的技术方案中，可转动部件203的正面即设置有摄像装置的一面。

控制模块103在控制智能用户设备的可转动部件203的正面面向该用户之后，该控制模块可以通过第二声音采集模块101获得声音数据。

第二声音采集模块101采集声音数据。

其中，第二声音采集模块101，用于采集智能用户设备设定范围内的声音数据。

具体实施中，在第二声音采集模块101中，可以集成降噪功能。

第二声音采集模块101可以和第一声音采集模块202连接，实现方法可以有两种：

第一种方式：默认状态下第一声音采集模块202处于开启状态，第二声音采集模块101处于关闭状态，当控制模块103确定出有用户存在时，第二声音采集模块101启动，并通知第一声音采集模块202关闭。

第二种方式：第一声音采集模块202和第二声音采集模块101均处于开启状态，第一声音采集模块202和第二声音采集模块101通过最大似然比算法进行声音合并。

摄像装置102，用于获取视频信息。

控制模块103，用于在确定出声音数据跃变时，提取当前摄像装置102中获取的视频信息中的图片，并结合第二声音采集模块101采集的声音数据和图片，识别声音数据对应的用户发送的语音。

其中，在本发明实施例提出的技术方案中，声音数据跃变，是指声音数据中包含用户发送的语音时，确定声音数据跃变。或者声音数据中本来包含用户发送的语音，但是在某一时间不包含用户发送的语音时，确定声音数据跃变。

一种较佳地实现方式，在本发明实施例提出的技术方案中，第一声音采集模块采集智能用户设备设定距离内的声音数据，该声音数据是不包含用户发送的语音的，但是该声音数据可以包含用户所做动作发生的声音，以及周围风声、家用电器运行发出的声音等。在控制模块通过红外感应阵列模块传输的红外数据确定出智能用户设备的设定距离内有人体存在时，则触发启动第二声音采集模块，采集声音数据，此时声音数据可以是和第一声音采集模块采集的声音数据相同。若此时用户开始对智能用户设备发送语音指令，则可以确定此时声音数据发生跃变。

具体地，第二声音采集模块101与摄像装置102具备连接功能，可以通过峰均比算法判断声音是否出现跃变，如果出现跃变，则摄像装置102进行图片采集。

控制模块103，还用于在确定出语音指令未发生跃变时，控制第二声音采集模块101持续获得用户发送的语音指令。

控制模块103，还用于在开启第二声音采集模块101获得用户发送的语音指令时，关闭第一声音采集模块202。

控制模块103，具体用于根据语音指令识别结果，判断语音指令的语义。若识别结果中，包含的词语少于第一数值，且语的含义多于第二数值时，为识别结果的每种释义标注概率，并展示概率值最高的识别结果。

通常情况下，带降噪功能的声音采集模块安装位置比较固定，要想获得清晰的语音指令，需要交互时用于处于某一固定位置，才能达到较好的降噪性能，这就限制了人机交互场景，易于给用于带来不便；同时降噪功能的声音采集模块的声音采集阈值难以较好设定，如果阈值过低，则容易将其他人的声音或者噪声视为指令；如果阈值过高，则灵敏度较低，出现人机交互困难。在本发明实例提出的技术方案中，使用红外阵列感应模块、第一声音采集模块协同感知人体位置的方案，并根据人体位置控制可转动部件转动，将摄像装置和第二声音采集模块对准用户。在本发明实例提出的技术方案中，第一声音采集模块可以具备降噪功能，第二声音采集模块也可以具备降噪功能，也可以不具备降噪功能。使用红外阵列感应模块、第一声音采集模块和第二声音采集模块协同感知，可以从视觉、听觉两方面定位人体位置，提升了定位精度。

第一声音采集模块用于采集人体动作声音并定位人体位置，不负责语音指令采集和识别；第二声音采集模块用于采集用户语音指令，进行语音识别。使用两级声音采集模块，可以为不同类型声音设置不同阈值，避免出现误判。同时，第二声音采集模块与第一声音采集模块具备连接。

具体地，如图3所示，控制模块103中可以包含图片识别单元301、语音识别单元302以及语义理解单元303。

图片识别单元301，可以获得图片，并对获得的图片中的人体信息进行识别，形成相关联的释义信息发送给语义理解单元303。

其中人体信息可以但不限于包括唇读、人脸、表情、动作等。该图片识别单元301的功能可以通过控制模块103体现.

具体实施中，该图片识别单元301可以位于服务端，例如该图片识别单元301可以设置在云端，基于深度学习的人工神经网络实现图片识别功能。

语音识别单元302，用于对接收到的语音指令进行识别，形成相关语言信息提供给语义理解单元303。

具体实施中，该语音识别单元302可以位于服务端，例如该语音识别单元302可以设置在云端，基于深度学习的人工神经网络实现。

语义理解单元303，接收图片识别单元301的图片识别结果，以及接收语音识别单元302的语音识别结果，根据图片识别结果和语音识别结果，综合判断语义含义。

一种较佳地实施方式，该语义理解单元303具备自反馈功能，当词语较少、含义较多时，反馈机制启动。

具体实施中，该语义理解单元303可以位于服务端，例如该语义理解单元303可以设置在云端，基于深度学习的人工神经网络实现。

一种较佳地实施方式，本发明实例提出的智能用户设备中，如图4所示，还可以包括语音交互模块401和肢体表达模块402。

其中，语音交互模块401接收语义理解单元303的输出结果，实现语音合成，完成和智能用户设备之间的语音交互。

肢体表达模块402，接收语义理解单元303的输出结果，实现对应的动作，完成和用户之间的肢体表达交互。

通常情况下，使用唇读视频和语音共同识别方案，在一定程度上可以提升识别率，但视频数据量大，处理开销高，往往实时性不高，且当前视频动作属于学术难题，其识别率并不高，协同工作对语音识别率提升效果有限。在本发明实施例上述提出的技术方案中，提出使用声音采集模块与摄像装置协同工作方案，当声音采集模块检测语音强度发生跃变后，摄像装置根据信号波峰抓取图片信息，递送到图像识别单元进行识别。本方案需要判断语音强度跃变情况，并根据强度跃变情况及时抓取图片信息。图片信息可以是唇读图片，也可以是人脸或动作图片，用于判断人体的语言特征和情绪波动，并综合判断人体的真实意图，由于声音强度跃变时，图像已经经过；可以采用视频缓存、延时拍照的方式，完成声音和图像信息同步。

通常情况下，提升语音识别率涉及到语义理解，当前大量算法研究基本基于英语描述，对中文描述的语义解析已有一些突破，但实际效果有限，尤其是针对语言上下文的连贯理解。比如当用户问wuji(拼音)是什么时，语音识别会将wuji转换成最常出现的词语反馈过去，通常会翻译成五级。而五级的含义本身是模糊不清的。用户不会满意反馈的五级的含义，一般情况下会重复再问wuji(拼音)是什么。在这种情况语音识别系统反馈五级的概率仍然很高。反复多次之后，用户会失去耐心，体验变差。虽然语义理解的上下文关系较难把握，但人机交流类同人人交流，当同样问题反复提问时，其真实意图已经暴露。同时，一般发现中文词语越短，其含义往往更多。如wuji可以认为是舞技，也可以是武技，也可以是无极，甚至乌鸡、污迹。但当字数增多时，其含义则会比较固定，比如wudaojiyi则基本可以认为是舞蹈技艺。

本发明实施例针对上述情况，提出一种带反馈的语义理解方法，并结合图像识别对语义进行修正。具体实施方法是当词语较少、含义较多时，语义理解单元为每种释义进行概率标注，同时反馈出现概率最高的释义A；当用户第二次提出同样问题时，语义理解单元结合图像识别算法(用来判断用户情绪)，判断用户是否满意第一答案。如果满意，则仍反馈释义A，否则则降低概率最高的释义A的概率，反馈概率次高的释义B。概率降低程度可依据实际试验结果判断。如此往复，直至用户得到肯定答案。语义理解单元也可以设置同样问题次数，当同样问题被连续问N次后，语义理解单元返回请用户进一步澄清的问题，而不是简单答案。

基于图1～图4所示的多媒体语音识别装置结构组成示意图，本发明实施例还提出一种多媒体语音识别方法，如图5所示，其具体处理流程如下述：

51，分别开启红外阵列感应模块以及开启第一声音采集模块。

52，红外阵列感应模块采集红外数据，第一声音采集模块采集声音数据。

红外阵列感应模块，分布环绕在智能用户设备本体，采集红外数据，可以通过红外感应方式，监测用户是否靠近智能用户设备以及定位用户的位置。

第一声音采集模块，布环绕在智能用户设备本体，采集声音数据。该声音数据是用户所做的动作时发出的声音，和/或家用电器正常运行是发出的声音等。

53，控制模块接收红外阵列感应模块采集的红外数据，以及第一声音采集模块采集的声音数据。

54，控制模块根据红外数据和声音数据，确定智能用户设备的设定区域内是否有用户存在，如果判断结果卫视，执行55，反之，返回执行步骤52。

55，控制模块在确定出智能用户设备的设定区域内有用户存在时，控制智能用户设备的可转动部件的正面面向该用户，并开启摄像装置进行图像采集。

56，开启第二声音采集模块，采集声音数据。同时可以关闭第一声音采集模块。

57，判断第二声音采集模块采集的声音数据是否跃变，如果判断结果为否，返回执行步骤56，如果判断结果为是，执行58。

58，在确定出声音数据跃变时，提取当前摄像装置中获取的视频信息中的图片，并结合第二声音采集模块采集的语音指令和图片，识别用户发送的语音。

用户发送的语音可以是语音指令，例如命令智能用户设备所做的动作，或者是用户和智能用户设备发生的交谈等。

59，根据语音识别结果，判断语音对应的语义。

若识别结果中，包含的词语少于第一数值，且语音的含义多于第二数值时，为识别结果的每种释义标注概率，并展示概率值最高的识别结果。

根据图片识别结果和语音识别结果综合判断语义。当词语较少、含义较多时，语义理解单元为每种释义进行概率标注，同时反馈出现概率最高的释义A；当用户第二次提出同样问题时，语义理解单元结合图像识别算法(用来判断用户情绪)，判断用户是否满意第一答案。如果满意，则仍反馈释义A，否则则降低概率最高的释义A的概率，反馈概率次高的释义B。概率降低程度可依据实际试验结果判断。如此往复，直至用户得到肯定答案。

60，接收语义理解结果，实现对应的动作，完成和用户之间的肢体表达交互。返回执行51。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多媒体语音识别装置，其特征在于，包括至少一个第二声音采集模块、摄像装置以及控制模块，其中：

控制模块在确定出智能用户设备的设定区域内有用户存在时，控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户；

第二声音采集模块，用于获得声音数据；

摄像装置，用于获取视频信息；

所述控制模块，用于在确定出所述声音数据跃变时，提取当前摄像装置中获取的所述视频信息中的图片；并结合所述第二声音采集模块采集的所述声音数据和所述图片，识别所述声音数据对应的用户发送的语音。

2.如权利要求1所述的装置，其特征在于，所述装置还包括至少一个红外阵列感应模块，所述红外阵列感应模块分布环绕所述装置本体，用于采集红外数据，并将所述红外数据发送给所述控制模块；

所述控制模块，具体用于接收所述红外数据，在分析出所述红外数据中包含人体信息时，确定智能用户设备的设定区域内有用户存在。

3.如权利要求1或2所述的装置，其特征在于，所述装置还包括至少一个第一声音采集模块，所述第一声音采集模块分布环绕所述装置本体，其中：

所述第一声音采集模块，用于采集所述智能用户设备设定区域内的声音数据，并将所述声音数据发送给控制模块；

所述控制模块，具体用于接收所述声音数据，在分析出所述声音数据中包含用户所做的动作发出的声音时，确定智能用户设备的设定区域内有用户存在。

4.如权利要求3所述的装置，其特征在于，所述控制模块，还用于在开启第二声音采集模块获得声音数据时，关闭所述第一声音采集模块。

5.如权利要求1所述的装置，其特征在于，所述控制模块，具体用于若所述识别结果中，包含的词语少于第一数值，且所述词语的含义多于第二数值时，为所述识别结果的每种释义标注概率，并展示概率值最高的识别结果。

6.一种多媒体语音识别方法，其特征在于，包括：

在确定出智能用户设备的设定区域内有用户存在时，控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户；

获得获得声音数据；以及获取视频信息；

在确定出所述声音数据跃变时，提取当前摄像装置中获取的所述视频信息中的图片；并

结合所述第二声音采集模块采集的所述声音数据和所述图片，识别所述声音数据对应的用户发送的语音。

7.如权利要求6所述的方法，其特征在于，确定出智能用户设备的设定区域内有用户存在，包括：

获得红外数据；

在所述红外数据中包含人体信息时，确定智能用户设备的设定区域内有用户存在。

8.如权利要求6或7所述的方法，其特征在于，确定出智能用户设备的设定区域内有用户存在，包括：

获得所述智能用户设备设定区域内的声音数据；

在分析出所述声音数据中包含用户所做的动作发出的声音时，确定智能用户设备的设定区域内有用户存在。

9.如权利要求6所述的方法，其特征在于，还包括：

若所述识别结果中，包含的词语少于第一数值，且所述词语的含义多于第二数值时，为所述识别结果的每种释义标注概率，并展示概率值最高的识别结果。

10.如权利要求6所述的方法，其特征在于，所述声音数据跃变，具体包括：

所述声音数据中包含用户发送的语音时，确定声音数据跃变。