CN106920551A

CN106920551A - 共用一套麦克风阵列的服务机器人双语音识别方法

Info

Publication number: CN106920551A
Application number: CN201610483689.7A
Authority: CN
Inventors: 向忠宏
Original assignee: Guangzhou Robotzero Software Technology Co Ltd
Current assignee: Guangzhou Robotzero Software Technology Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2017-07-04

Abstract

本发明涉及一种共用一套麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统，其中麦克风阵列为环形麦克风阵列或线形麦克风阵列，两套语音识别系统分别为离线语音识别系统和在线语音识别系统。其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统，让两套语音识别系统分别进行语音识别并转换成文本，而且各自获得的文本内容与离线语音文本库（日常对话、命令词、智能家居控制指令）匹配，则执行相应操作：离线语音识别系统识别获得的文本与离线语音文本库匹配时，使用离线语音识别进行交互；离线语音识别系统识别获得的文本与离线语音文本库不匹配时，使用在线语音识别进行交互。

Description

共用一套麦克风阵列的服务机器人双语音识别方法

技术领域

这样做的好处在于让高频使用的、重要的交互内容（日常对话、命令词、智能家居控制指令）能够持续稳定地语音识别和人机交互，提升服务机器人的实际体验效果，增强服务机器人的可用性和易用性。

背景技术

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务，产生了不同的研究领域。这些领域包括：根据对说话人说话方式的要求，可分为孤立字(词)、连接词和连续语音识别系统；根据对说话人的依赖程度，可分为特定人和非特定人语音识别系统；根据词汇量的大小，可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

语音识别系统本质上是一种多维模式识别系统，对于不同的语音识别系统，人们所采用的具体识别方法及技术不同，但其基本原理都是相同的，即将采集到的语音信号送到特征提取模块处理，将所得到的语音特征参数送入模型库模块，由声音模式匹配模块根据模型库对该段语音进行识别，最后得出识别结果。

当前在服务机器人本体上普遍采用一套语音识别系统，而且都是在线语音识别为主，需要都良好的网络环境支持，如果服务机器人出现网络连接故障或者在线的语音云出口带宽影响，都会出现语音识别系统失效、延迟，影响人机交互效果。尽管一些语音识别方案公司意识到这个问题，辅助了离线识别功能，即当在线语音识别无法提供在线的语音云识别服务时，切换到离线语音识别模式，但由于离线语音识别并未根据场景进行优化，离线识别效果差，这种先在线后离线同一时间只有一种语音识别系统的方案并不能很好地满足现实需求，需要有更合适的在线语音识别和离线语音识别的结合方案。

发明内容

本发明拟解决在线语音识别和离线语音识别的结合问题，在线语音识别和离线语音识别方案均通过使用一套麦克风阵列来获得语音信号，实现日常对话、命令词、智能家居控制交互的稳定的离线语音识别和其它所有内容交互的在线语音识别，达到更加流畅、更加可靠的交互效果，从而提升服务机器人的人机交互体验效果，增强服务机器人的可用性和易用性。

本发明采用的技术方案是：一种共用一套麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统，其中麦克风阵列为环形麦克风阵列或线形麦克风阵列，两套语音识别系统分别为离线语音识别系统和在线语音识别系统。其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统，让两套语音识别系统分别进行语音识别并转换成文本，而且各自获得的文本内容与离线语音文本库（日常对话、命令词、智能家居控制指令）匹配，则执行相应操作：离线语音识别系统识别获得的文本与离线语音文本库匹配时，使用离线语音识别进行交互；离线语音识别系统识别获得的文本与离线语音文本库不匹配时，使用在线语音识别进行交互。

本发明的有益效果是，很好地解决在线语音识别和离线语音识别的结合应用问题，通过一套麦克风阵列为在线语音识别系统和离线语音识别系统同时提供语音信息，其各自语音识别后与离线语音文本库进行比对来决定最终交由哪一种语音识别系统进行交互。这样做的好处在于让高频使用的、重要的交互内容（日常对话、命令词、智能家居控制指令）能够持续稳定地语音识别和人机交互，提升服务机器人的实际体验效果，增强服务机器人的可用性和易用性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是离线语音识别和在线语音识别结合应用流程图。

具体实施方式

在图1中，当人在服务机器人周围说话时，一方面麦克风阵列判断出人的方位，经机器人控制系统驱动服务机器人底盘转向，正面朝向人，另一方面离线语音识别系统和在线语音识别系统同时开始语音识别工作，将识别的语音内容转换成文本，由于两套语音识别系统的识别的精准度、模式方式都区别，因此，可能识别获得的文本有差别，我们并不要求保存一致。

离线语音识别系统、在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库（日常对话、命令词、智能家居控制指令）进行比对，如果出现匹配，离线语音识别系统开始进行人机交互及相应的指令操作，在线语音识别系统保持沉默，不进行任何语音交互处理。如果不匹配，离线语音识别系统保持沉默，不进行任何语音交互处理，在线语音识别系统启用语音交互流程。

这两种语音识别系统的结合使用方法中，何时使用离线语音识别系统、何时使用在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由离线语音识别系统处理，如不在这个范围中，交由在线语音识别系统进行处理。这样做的好处在于让高频使用的、重要的交互内容（日常对话、命令词、智能家居控制指令）能够持续稳定地语音识别和人机交互，提升服务机器人的实际体验效果。

在服务机器人本体上，用于语音识别的麦克风阵列有两种形式，环形分布的五个或七个麦克风组成的麦克风阵列、前置安装的线形排列的两个或四个麦克风的麦克风阵列。

环形分布的五个或七个麦克风组成的麦克风阵列，其特点是多个麦克风中有一个麦克风部署在模组的中央，其它的麦克风沿圆形外圈均匀角度间隔分布，如五个麦克风方案中的其它四个麦克风，角度间隔90度沿圆形外圈分布，如七个麦克风方案中的其它六个麦克风，角度间隔60度沿圆形外圈分布。

正面线形排列的麦克风阵列的特点是多个麦克风呈线形均匀间隔排列，数量为8个以下的偶数，最常见的是两个或四个麦克风。正面线形排列的麦克风阵列采用音源定位方法，音源定位是自动语音识别和自动说话人识别系统的一个重要环节，对于提高语音识别系统的性能至关重要。正面线形排列的麦克风阵列可捕捉从正面不同方向（左侧与右侧）传来的声音，通过算法运算使麦克风指向正面的某一个特定方向，放大从该方向捕捉到的音频信号，同时衰减从其它方向捕捉的音频信号，整个动作就像一个智能麦克风。

无论是环形分布麦克风阵列还是线形麦克风阵列都采用音源定位方法，音源定位是自动语音识别和自动说话人识别系统的一个重要环节，对于提高语音识别系统的性能至关重要。环形分布麦克风阵列可360度捕捉从不同方向传来的声音，通过算法运算使麦克风指向某一个特定方向（360度角度中的一个），放大从该方向捕捉到的音频信号（如下图中主说话人的声音），同时衰减从其它方向捕捉的音频信号（如下图中次说话人的声音），整个动作就像一个智能麦克风。整个系统由以下几个子系统组成：音源方向测定、数据融合（DataFusion）、自动语音识别（ASR）和自动说话人（ASI）确认。其中，音频方向测定子系统基于麦克风阵列，运行多个不同的音频方向估算算法；数据融合子系统负责推断方向，自动语音识别子系统利用传入的音频信号增强主音源信号强度，衰减主音源周围的其它音频信号。最后，自动说话人确认子系统识别某些关键词汇，再利用相关特征与说话人匹配。

如果语音识别任务没有成功，则反馈给数据融合系统，估算新方向传入的语音，然后驱动麦克风阵列指向该方向。

环形分布麦克风阵列或线形麦克风阵列获得的语音信号内容，同时交给离线语音识别系统和在线语音识别系统进行使用，尤其是分别进行语音识别后与离线语音文本库进行比对，看是否能获得匹配值

离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态的文本库，由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义词、近音词组成，示例如下表1：

	日常对话词条	命令词	智能家居控制指令
				涵盖范围	日常问候、简单对话	机器人移动控制、唤醒	智能家居产品控制、场景控制
标准表达示例	晚上好	向前走	回家模式
				近义词示例	晚安	朝前走	我回家了
近音词示例	湾上好	香前走	飞家模式

表1：离线识别语音文本库。

离线识别语音文本库之外的任何交互内容词条，都是在线语音识别系统需要识别的内容。这些内容未作限定，可能是自由语言交流，也可能是儿童教学、老年陪伴、音乐等。

因此，系统工作大批量是，麦克风阵列接收到一条语音信号后，离线语音识别系统和在线语音识别系统同时启动进行识别，当各自获得的语音文本内容在离线识别语音文本库（日常对话词条、命令词、智能家居控制指令）清单中时，会进入如下的处理流程：

离线语音识别系统对语音识别获得的文本与离线识别语音文本库匹配时，离线识别语音系统继续进行语音交互和执行相应操作。离线语音识别系统对语音识别获得的文本与离线识别语音文本库不匹配时，离线语音识别系统不进行任何语音交互和后续操作。

在线语音识别系统对语音识别获得的文本与离线识别语音文本库匹配时，在线识别语音系统保持沉默不进行任何语音交互，只会将该获得的文本信息抄送一份给离线语音识别系统作为交叉验证，如果离线语音识别系统未能识别到这个语音内容，根据系统设定允许在线语音识别作为补充识别时，这条识别的文本内容将传递给离线语音识别系统，执行相应的人机交互操作。离线语音识别系统对语音识别获得的文本与离线识别语音文本库不匹配时，在线语音识别系统进行语音交互和执行相应操作。

Claims

1.本发明涉及一种共用一套麦克风阵列的服务机器人双语音识别方法，其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统，其中麦克风阵列为环形麦克风阵列或线形麦克风阵列，两套语音识别系统分别为离线语音识别系统和在线语音识别系统；其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统，让两套语音识别系统分别进行语音识别并转换成文本，而且各自获得的文本内容与离线语音文本库（日常对话、命令词、智能家居控制指令）匹配，则执行相应操作：离线语音识别系统识别获得的文本与离线语音文本库匹配时，使用离线语音识别进行交互；离线语音识别系统识别获得的文本与离线语音文本库不匹配时，使用在线语音识别进行交互。

2.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：在服务机器人本体上安装有一套麦克风阵列，可以是环形麦克风阵列，也可以是线形麦克风阵列。

3.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：麦克风阵列连接语音识别模块（硬件），然后再与服务机器人操作平台系统连接；离线语音文本库（日常对话、命令词、智能家居控制指令）保存在服务机器人操作平台系统上，以一个可编辑的离线语音识别应用软件的数据库的形式存在。

4.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态的文本库，由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义词、近音词组成。

5.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：当人在服务机器人周围说话时，一方面麦克风阵列判断出人的方位，经机器人控制系统驱动服务机器人底盘转向，正面朝向人，另一方面离线语音识别系统和在线语音识别系统同时开始语音识别工作，将识别的语音内容转换成文本。

6.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：离线语音识别系统、在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库（日常对话、命令词、智能家居控制指令）进行比对，如果出现匹配，离线语音识别系统开始进行人机交互及相应的指令操作，在线语音识别系统保持沉默，不进行任何语音交互处理；如果不匹配，离线语音识别系统保持沉默，不进行任何语音交互处理，在线语音识别系统启用语音交互流程。

7.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法，其特征是：何时使用离线语音识别系统、何时使用在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境，而是取决于识别内容是否在离线语音文本库（日常对话、命令词、智能家居控制指令）的范围，如在这个范围中，交由离线语音识别系统处理，如不在这个范围中，交由在线语音识别系统进行处理。