CN106919059A

CN106919059A - 带独立麦克风阵列的服务机器人双语音识别方法

Info

Publication number: CN106919059A
Application number: CN201610483687.8A
Authority: CN
Inventors: 向忠宏
Original assignee: Guangzhou Robotzero Software Technology Co Ltd
Current assignee: Guangzhou Robotzero Software Technology Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2017-07-04

Abstract

本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统，其中一套为环形麦克风阵列和离线语音识别系统，用于识别日常对话、命令词、智能家居控制指令等离线语音文本，另一套线形麦克风阵列和在线语音识别系统，用于除开离线语音文本的所有应用内容、人工大脑等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时，不进行任何人机交互，仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息。

Description

带独立麦克风阵列的服务机器人双语音识别方法

技术领域

本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统，其中一套为环形麦克风阵列+离线语音识别系统，用于识别日常对话、命令词、智能家居控制指令等离线语音文本，另一套线形麦克风阵列+在线语音识别系统，用于除开离线语音文本的所有应用内容、自由对话等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列+在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时，不进行任何人机交互，仅将指令文本内容发送给麦克风阵列+离线语音识别系统作为语音识别内容的补充信息。

背景技术

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务，产生了不同的研究领域。这些领域包括：根据对说话人说话方式的要求，可分为孤立字(词)、连接词和连续语音识别系统；根据对说话人的依赖程度，可分为特定人和非特定人语音识别系统；根据词汇量的大小，可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

语音识别系统本质上是一种多维模式识别系统，对于不同的语音识别系统，人们所采用的具体识别方法及技术不同，但其基本原理都是相同的，即将采集到的语音信号送到特征提取模块处理，将所得到的语音特征参数送入模型库模块，由声音模式匹配模块根据模型库对该段语音进行识别，最后得出识别结果。

当前在服务机器人本体上普遍采用一套语音识别系统，而且都是在线语音识别为主，需要都良好的网络环境支持，如果服务机器人出现网络连接故障或者在线的语音云出口带宽影响，都会出现语音识别系统失效、延迟，影响人机交互效果。尽管一些语音识别方案公司意识到这个问题，辅助了离线识别功能，即当在线语音识别无法提供在线的语音云识别服务时，切换到离线语音识别模式，但由于离线语音识别并未根据场景进行优化，离线识别效果差，这种先在线后离线同一时间只有一种语音识别系统的方案并不能很好地满足现实需求，需要有更合适的在线语音识别和离线语音识别的结合方案。

发明内容

本发明拟解决在线语音识别和离线语音识别的结合问题，通过两套各自独立的麦克风阵列，同时启用在线语音识别和离线语音识别方案，实现日常交互、命令词、智能家居控制交互的稳定的离线语音识别和其它所有内容交互的在线语音识别，达到更加流畅、更加可靠的交互效果，从而提升服务机器人的人机交互体验效果，增强服务机器人的可用性和易用性。

本发明采用的技术方案是，一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统，其中一套为环形麦克风阵列和离线语音识别系统，用于识别日常对话、命令词、智能家居控制指令等离线语音文本，另一套线形麦克风阵列和在线语音识别系统，用于除开离线语音文本库的所有应用内容、人工大脑等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时，不进行任何人机交互，仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息。何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由环形麦克风和离线语音识别系统处理，如不在这个范围中，交由线形麦克风阵列和在线语音识别系统进行处理。

本发明的有益效果是，很好地解决在线语音识别和离线语音识别的结合应用问题，通过两套各自独立的麦克风阵列，同时启用在线语音识别和离线语音识别方案，这样做的好处在于让高频使用的、重要的交互内容（日常对话、命令词、智能家居控制指令）能够持续稳定地语音识别和人机交互，提升服务机器人的实际体验效果，增强服务机器人的可用性和易用性。

附图说明

下面结合附图和实施例对本发明专利进一步说明。

图1是环形分布麦克风阵列和离线语音识别系统示意图。

图2是正面线形排列的麦克风阵列和在线语音识别系统示意图。

图3是离线语音识别和在线语音识别结合应用流程图。

图中1.环形分布麦克风阵列，2.音源方向测定，3.数据融合，4.自动语音识别，5.自动说话人识别，6. 形排列麦克风阵列。

具体实施方式

在服务机器人本体上，分别安装两套独立麦克风阵列和对应的语音识别系统，其中包括一套环形分布的五个或七个麦克风组成的麦克风阵列和离线语音识别系统，用于日常对话、命令词、智能家居控制指令，另一套为前置安装的线形排列的两个或四个麦克风的麦克风阵列和在线语音识别系统，用于所有内容交互。

在图1中，环形分布麦克风阵列和离线语音识别系统：

环形分布的五个或七个麦克风组成的麦克风阵列和离线语音识别系统，主要用于识别日常对话、命令词、智能家居控制指令。其特点是多个麦克风中有一个麦克风部署在模组的中央，其它的麦克风沿圆形外圈均匀角度间隔分布，如五个麦克风方案中的其它四个麦克风，角度间隔90度沿圆形外圈分布，如七个麦克风方案中的其它六个麦克风，角度间隔60度沿圆形外圈分布。

环形分布麦克风阵列（1）采用音源定位方法，音源定位是自动语音识别和自动说话人识别系统的一个重要环节，对于提高语音识别系统的性能至关重要。环形分布麦克风阵列可360度捕捉从不同方向传来的声音，通过算法运算使麦克风指向某一个特定方向（360度角度中的一个），放大从该方向捕捉到的音频信号（如下图中主说话人的声音），同时衰减从其它方向捕捉的音频信号（如下图中次说话人的声音），整个动作就像一个智能麦克风。

整个系统由以下几个子系统组成：音源方向测定（2）、数据融合（3）（DataFusion）、自动语音识别（4）（ASR）和自动说话人（5）（ASI）确认。其中，音频方向测定子系统基于麦克风阵列（1），运行多个不同的音频方向估算算法；数据融合子（3）系统负责推断方向，自动语音识别（4）子系统利用传入的音频信号增强主音源信号强度，衰减主音源周围的其它音频信号。最后，自动说话人识别（5）确认子系统识别某些关键词汇，再利用相关特征与说话人匹配。

如果自动语音识别（4）任务没有成功，则反馈给数据融合（3）系统，估算新方向传入的语音，然后驱动麦克风阵列指向该方向。

环形分布麦克风阵列（1）和离线语音识别系统用于日常对话、命令词、智能家居控制指令的识别，采用离线识别的方式，系统预先将需要交互的日常对话库、命令词条、智能家居控制指令集以穷举方式全部列出，并且关联给出具有同样表达内容的词库，形成最终的离线识别语音文本库。

尽管环形分布麦克风阵列（1）会采集所获得的语音信号，但只会对离线识别语音文本库对应的语音进行反馈，如日常对话时，机器人按照预设的语音内容回答；下达命令时，进行一个响应的操作并执行对应的命令，例如通过语音控制机器人移动的命令；智能家居控制指令下达时，机器人连接和控制对应的智能家居系统。环形分布麦克风阵列（1）和语音识别系统不对超出离线识别语音文本库的任何内容进行反馈，类似没有听见的效果。对于超出离线识别语音文本库的内容，交由正面线形排列的麦克风阵列和在线语音识别系统来处理。

图2中，正面线形排列的麦克风阵列（6）和在线语音识别系统：

正面线形排列的麦克风阵列（6）和在线语音识别系统，主要用于识别所有的内容交互时人的语音内容，但不包括日常对话词条、命令词、智能家居控制指令。其特点是多个麦克风呈线形均匀间隔排列，数量为8个以下的偶数，最常见的是两个或四个麦克风。

正面线形排列的麦克风阵列采用音源定位方法，音源定位是自动语音识别（4）和自动说话人识别（5）系统的一个重要环节，对于提高语音识别系统的性能至关重要。正面线形排列的麦克风阵列（6）可捕捉从正面不同方向（左侧与右侧）传来的声音，通过算法运算使麦克风指向正面的某一个特定方向，放大从该方向捕捉到的音频信号，同时衰减从其它方向捕捉的音频信号，整个动作就像一个智能麦克风。

整个系统由以下几个子系统组成：音源方向测定（2）、数据融合（3）、自动语音识别（4）和自动说话人识别（5）确认。其中，音频方向测定子系统基于麦克风阵列（6），运行多个不同的音频方向估算算法;数据融合（3）子系统负责推断方向，自动语音识别（4）子系统利用传入的音频信号增强主音源信号强度，衰减主音源周围的其它音频信号。最后，自动说话人识别（5）确认子系统识别某些关键词汇，再利用相关特征与说话人匹配。

尽管线形分布麦克风阵列（6）会采集所获得的语音信号，但只会对在线识别语音文本库对应的语音进行反馈，这是一个基于云端支持机器学习的语义库，系统无法也无需穷举需要交互的词库，而是作一个筛选排查操作，凡是离线识别语音文本库（日常对话词条、命令词、智能家居控制指令）之外的任何交互内容词条，都是正面线形排列的麦克风阵列（6）和在线语音识别系统需要识别的内容。这些内容未作限定，可能是自由语言交流，也可能是儿童教学、老年陪伴、音乐等。

离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态的文本库，由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义词、近音词组成。

因此，正面线形排列的麦克风阵列（6）和在线语音识别系统正常工作时，接收到一条语音信号后，启用语音识别，当获得的语音文本内容在离线识别语音文本库（日常对话词条、命令词、智能家居控制指令）清单中时，语音识别系统不进行下一步处理，没有人机交互产生，只会将该获得的文本信息抄送一份给环形分布麦克风阵列（1）和离线语音识别系统作为交叉验证：如果离线语音识别系统已经识别到了同样的语音文本，则系统仅记录这一结果不进行任何处理；如果离线语音识别系统未能识别到这个语音内容，根据系统设定允许在线语音识别作为补充识别时，这条识别的文本内容将传递给离线语音识别系统，执行相应的人机交互操作。

正面线形排列的麦克风阵列（6）和在线语音识别系统未能识别的语音内容，不会交给环形分布麦克风阵列（1）和离线语音识别系统进行二次处理。

在图3中，本发明的使用流程：

在服务机器人本体上安装好两套带独立麦克风阵列的语音识别系统，包括一套环形分布（1）的五个或七个麦克风组成的麦克风阵列和离线语音识别系统，用于日常对话、命令词、智能家居控制指令，另一套为前置安装的线形排列（6）的两个或四个麦克风的麦克风阵列和在线语音识别系统，用于所有内容交互。

每套麦克风阵列连接语音识别模块（硬件），然后再与服务机器人操作平台系统连接。离线语音文本库（日常对话、命令词、智能家居控制指令）保存在服务机器人操作平台系统上，以一个可编辑的离线语音识别应用软件的数据库的形式存在。无论是在线语音识别系统，还是离线语音识别系统都需要随时访问这个数据库。在线语音识别系统访问这个数据库，是为了明确这些语音内容不需要提供交互反馈，离线语音识别系统访问这个数据库，是为了明确可进行人机交互的语音文本范围。

当人在服务机器人周围说话时，一方面服务机器人的环形麦克风阵列（1）通过音源方向测定（2）判断出人的方位，经机器人控制系统驱动服务机器人底盘转向，正面朝向人，数据融合（3）系统负责推断方向，另一方面自动语音识别（4）子系统利用传入的音频信号增强主音源信号强度，衰减主音源周围的其它音频信号，自动说话人确认（5）子系统识别某些关键词汇，此时环形麦克风阵列（1）和离线语音识别系统、线形麦克风阵列（6）和在线语音识别系统同时开始语音识别工作，将识别的语音内容转换成文本，由于两套语音识别系统的识别的精准度、模式方式都区别，因此，可能识别获得的文本有差别，我们并不要求保存一致。

环形麦克风阵列（1）和离线语音识别系统、线形麦克风阵列（6）和在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库（日常对话、命令词、智能家居控制指令）进行比对，如果出现匹配，环形麦克风阵列（1）和离线语音识别系统开始进行人机交互及相应的指令操作，线形麦克风阵列（6）和在线语音识别系统保持沉默，不进行任何语音交互处理。如果不匹配，环形麦克风和离线语音识别系统保持沉默，不进行任何语音交互处理，线形麦克风阵列和在线语音识别系统启用语音交互流程。

这两种麦克风阵列及两种语音识别系统的结合使用方法，何时使用环形麦克风阵列（1）和离线语音识别系统、何时使用线形麦克风阵列（6）和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由环形麦克风阵列（1）和离线语音识别系统处理，如不在这个范围中，交由线形麦克风阵列（6）和在线语音识别系统进行处理。这样做的好处在于让高频使用的、重要的交互内容（日常对话、命令词、智能家居控制指令）能够持续稳定地语音识别和人机交互，提升服务机器人的实际体验效果。

Claims

1.本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法，其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统，其中一套为环形麦克风阵列和离线语音识别系统，用于识别日常对话、命令词、智能家居控制指令等离线语音文本，另一套线形麦克风阵列和在线语音识别系统，用于除开离线语音文本库的所有应用内容、人工大脑等方面的语音识别；两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时，不进行任何人机交互，仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息；何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由环形麦克风和离线语音识别系统处理，如不在这个范围中，交由线形麦克风阵列和在线语音识别系统进行处理。

2.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：在服务机器人本体上安装有两套独立的麦克风阵列，其中一套是环形麦克风阵列，另一套是线形麦克风阵列。

3.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：环形麦克风阵列由环形分布的五个或七个麦克风组成，其中有一个麦克风部署在连接这些麦克风的模组的中央，其它的麦克风沿圆形外圈均匀角度间隔分布，如五个麦克风方案中的其它四个麦克风，角度间隔90度沿圆形外圈分布，如七个麦克风方案中的其它六个麦克风，角度间隔60度沿圆形外圈分布。

4.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：线形麦克风阵列安装在服务机器人的正面位置，多个麦克风呈线形均匀间隔排列，数量为8个以下的偶数，最常见的是两个或四个麦克风。

5.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：环形麦克风阵列连接离线语音识别系统，主要用于识别日常对话、命令词、智能家居控制指令。

6.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：线形麦克风阵列连接在线语音识别系统，主要用于识别除开日常对话、命令词、智能家居控制指令外的所有内容；线形麦克风和在线语音识别系统通过语音识别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库（日常对话、命令词、智能家居控制指令）进行比对，如果出现匹配，线形麦克风阵列和在线语音识别系统保持沉默，不进行任何语音交互处理；如果不匹配，线形麦克风阵列和在线语音识别系统启用语音交互流程。

7.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：每套麦克风阵列连接语音识别模块（硬件），然后再与服务机器人操作平台系统连接；离线语音文本库（日常对话、命令词、智能家居控制指令）保存在服务机器人操作平台系统上，以一个可编辑的离线语音识别应用软件的数据库的形式存在；无论是在线语音识别系统，还是离线语音识别系统都需要随时访问这个数据库。

8.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法，其特征是：何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由环形麦克风和离线语音识别系统处理，如不在这个范围中，交由线形麦克风阵列和在线语音识别系统进行处理。