CN106920551A - 共用一套麦克风阵列的服务机器人双语音识别方法 - Google Patents

共用一套麦克风阵列的服务机器人双语音识别方法 Download PDF

Info

Publication number
CN106920551A
CN106920551A CN201610483689.7A CN201610483689A CN106920551A CN 106920551 A CN106920551 A CN 106920551A CN 201610483689 A CN201610483689 A CN 201610483689A CN 106920551 A CN106920551 A CN 106920551A
Authority
CN
China
Prior art keywords
speech recognition
microphone array
offline
text
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610483689.7A
Other languages
English (en)
Inventor
向忠宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Robotzero Software Technology Co Ltd
Original Assignee
Guangzhou Robotzero Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Robotzero Software Technology Co Ltd filed Critical Guangzhou Robotzero Software Technology Co Ltd
Priority to CN201610483689.7A priority Critical patent/CN106920551A/zh
Publication of CN106920551A publication Critical patent/CN106920551A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种共用一套麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统,其中麦克风阵列为环形麦克风阵列或线形麦克风阵列,两套语音识别系统分别为离线语音识别系统和在线语音识别系统。其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统,让两套语音识别系统分别进行语音识别并转换成文本,而且各自获得的文本内容与离线语音文本库(日常对话、命令词、智能家居控制指令)匹配,则执行相应操作:离线语音识别系统识别获得的文本与离线语音文本库匹配时,使用离线语音识别进行交互;离线语音识别系统识别获得的文本与离线语音文本库不匹配时,使用在线语音识别进行交互。

Description

共用一套麦克风阵列的服务机器人双语音识别方法
技术领域
本发明涉及一种共用一套麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统,其中麦克风阵列为环形麦克风阵列或线形麦克风阵列,两套语音识别系统分别为离线语音识别系统和在线语音识别系统。其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统,让两套语音识别系统分别进行语音识别并转换成文本,而且各自获得的文本内容与离线语音文本库(日常对话、命令词、智能家居控制指令)匹配,则执行相应操作:离线语音识别系统识别获得的文本与离线语音文本库匹配时,使用离线语音识别进行交互;离线语音识别系统识别获得的文本与离线语音文本库不匹配时,使用在线语音识别进行交互。
这样做的好处在于让高频使用的、重要的交互内容(日常对话、命令词、智能家居控制指令)能够持续稳定地语音识别和人机交互,提升服务机器人的实际体验效果,增强服务机器人的可用性和易用性。
背景技术
语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果。
当前在服务机器人本体上普遍采用一套语音识别系统,而且都是在线语音识别为主,需要都良好的网络环境支持,如果服务机器人出现网络连接故障或者在线的语音云出口带宽影响,都会出现语音识别系统失效、延迟,影响人机交互效果。尽管一些语音识别方案公司意识到这个问题,辅助了离线识别功能,即当在线语音识别无法提供在线的语音云识别服务时,切换到离线语音识别模式,但由于离线语音识别并未根据场景进行优化,离线识别效果差,这种先在线后离线同一时间只有一种语音识别系统的方案并不能很好地满足现实需求,需要有更合适的在线语音识别和离线语音识别的结合方案。
发明内容
本发明拟解决在线语音识别和离线语音识别的结合问题,在线语音识别和离线语音识别方案均通过使用一套麦克风阵列来获得语音信号,实现日常对话、命令词、智能家居控制交互的稳定的离线语音识别和其它所有内容交互的在线语音识别,达到更加流畅、更加可靠的交互效果,从而提升服务机器人的人机交互体验效果,增强服务机器人的可用性和易用性。
本发明采用的技术方案是:一种共用一套麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统,其中麦克风阵列为环形麦克风阵列或线形麦克风阵列,两套语音识别系统分别为离线语音识别系统和在线语音识别系统。其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统,让两套语音识别系统分别进行语音识别并转换成文本,而且各自获得的文本内容与离线语音文本库(日常对话、命令词、智能家居控制指令)匹配,则执行相应操作:离线语音识别系统识别获得的文本与离线语音文本库匹配时,使用离线语音识别进行交互;离线语音识别系统识别获得的文本与离线语音文本库不匹配时,使用在线语音识别进行交互。
本发明的有益效果是,很好地解决在线语音识别和离线语音识别的结合应用问题,通过一套麦克风阵列为在线语音识别系统和离线语音识别系统同时提供语音信息,其各自语音识别后与离线语音文本库进行比对来决定最终交由哪一种语音识别系统进行交互。这样做的好处在于让高频使用的、重要的交互内容(日常对话、命令词、智能家居控制指令)能够持续稳定地语音识别和人机交互,提升服务机器人的实际体验效果,增强服务机器人的可用性和易用性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是离线语音识别和在线语音识别结合应用流程图。
具体实施方式
在图1中,当人在服务机器人周围说话时,一方面麦克风阵列判断出人的方位,经机器人控制系统驱动服务机器人底盘转向,正面朝向人,另一方面离线语音识别系统和在线语音识别系统同时开始语音识别工作,将识别的语音内容转换成文本,由于两套语音识别系统的识别的精准度、模式方式都区别,因此,可能识别获得的文本有差别,我们并不要求保存一致。
离线语音识别系统、在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库(日常对话、命令词、智能家居控制指令)进行比对,如果出现匹配,离线语音识别系统开始进行人机交互及相应的指令操作,在线语音识别系统保持沉默,不进行任何语音交互处理。如果不匹配,离线语音识别系统保持沉默,不进行任何语音交互处理,在线语音识别系统启用语音交互流程。
这两种语音识别系统的结合使用方法中,何时使用离线语音识别系统、何时使用在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由离线语音识别系统处理,如不在这个范围中,交由在线语音识别系统进行处理。这样做的好处在于让高频使用的、重要的交互内容(日常对话、命令词、智能家居控制指令)能够持续稳定地语音识别和人机交互,提升服务机器人的实际体验效果。
在服务机器人本体上,用于语音识别的麦克风阵列有两种形式,环形分布的五个或七个麦克风组成的麦克风阵列、前置安装的线形排列的两个或四个麦克风的麦克风阵列。
环形分布的五个或七个麦克风组成的麦克风阵列 ,其特点是多个麦克风中有一个麦克风部署在模组的中央,其它的麦克风沿圆形外圈均匀角度间隔分布,如五个麦克风方案中的其它四个麦克风,角度间隔90度沿圆形外圈分布,如七个麦克风方案中的其它六个麦克风,角度间隔60度沿圆形外圈分布。
正面线形排列的麦克风阵列的特点是多个麦克风呈线形均匀间隔排列,数量为8个以下的偶数,最常见的是两个或四个麦克风。正面线形排列的麦克风阵列采用音源定位方法,音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。正面线形排列的麦克风阵列可捕捉从正面不同方向(左侧与右侧)传来的声音,通过算法运算使麦克风指向正面的某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。
无论是环形分布麦克风阵列还是线形麦克风阵列都采用音源定位方法,音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。环形分布麦克风阵列可360度捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向(360度角度中的一个),放大从该方向捕捉到的音频信号(如下图中主说话人的声音),同时衰减从其它方向捕捉的音频信号(如下图中次说话人的声音),整个动作就像一个智能麦克风。整个系统由以下几个子系统组成:音源方向测定、数据融合(DataFusion)、自动语音识别(ASR)和自动说话人(ASI)确认。其中,音频方向测定子系统基于麦克风阵列,运行多个不同的音频方向估算算法;数据融合子系统负责推断方向,自动语音识别子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。
如果语音识别任务没有成功,则反馈给数据融合系统,估算新方向传入的语音,然后驱动麦克风阵列指向该方向。
环形分布麦克风阵列或线形麦克风阵列获得的语音信号内容,同时交给离线语音识别系统和在线语音识别系统进行使用,尤其是分别进行语音识别后与离线语音文本库进行比对,看是否能获得匹配值
离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态 的文本库,由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义 词、近音词组成,示例如下表1:
日常对话词条 命令词 智能家居控制指令
涵盖范围 日常问候、简单对话 机器人移动控制、唤醒 智能家居产品控制、场景控制
标准表达示例 晚上好 向前走 回家模式
近义词示例 晚安 朝前走 我回家了
近音词示例 湾上好 香前走 飞家模式
表1:离线识别语音文本库。
离线识别语音文本库之外的任何交互内容词条,都是在线语音识别系统需要识别的内容。这些内容未作限定,可能是自由语言交流,也可能是儿童教学、老年陪伴、音乐等。
因此,系统工作大批量是,麦克风阵列接收到一条语音信号后,离线语音识别系统和在线语音识别系统同时启动进行识别,当各自获得的语音文本内容在离线识别语音文本库(日常对话词条、命令词、智能家居控制指令)清单中时,会进入如下的处理流程:
离线语音识别系统对语音识别获得的文本与离线识别语音文本库匹配时,离线识别语音系统继续进行语音交互和执行相应操作。离线语音识别系统对语音识别获得的文本与离线识别语音文本库不匹配时,离线语音识别系统不进行任何语音交互和后续操作。
在线语音识别系统对语音识别获得的文本与离线识别语音文本库匹配时,在线识别语音系统保持沉默不进行任何语音交互,只会将该获得的文本信息抄送一份给离线语音识别系统作为交叉验证,如果离线语音识别系统未能识别到这个语音内容,根据系统设定允许在线语音识别作为补充识别时,这条识别的文本内容将传递给离线语音识别系统,执行相应的人机交互操作。离线语音识别系统对语音识别获得的文本与离线识别语音文本库不匹配时,在线语音识别系统进行语音交互和执行相应操作。

Claims (7)

1.本发明涉及一种共用一套麦克风阵列的服务机器人双语音识别方法,其特点是在服务机器人本体上安装一套麦克风阵列和两套语音识别系统,其中麦克风阵列为环形麦克风阵列或线形麦克风阵列,两套语音识别系统分别为离线语音识别系统和在线语音识别系统;其工作方法是麦克风阵列将获得的语音信息同时发给两套语音识别系统,让两套语音识别系统分别进行语音识别并转换成文本,而且各自获得的文本内容与离线语音文本库(日常对话、命令词、智能家居控制指令)匹配,则执行相应操作:离线语音识别系统识别获得的文本与离线语音文本库匹配时,使用离线语音识别进行交互;离线语音识别系统识别获得的文本与离线语音文本库不匹配时,使用在线语音识别进行交互。
2.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:在服务机器人本体上安装有一套麦克风阵列,可以是环形麦克风阵列,也可以是线形麦克风阵列。
3.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:麦克风阵列连接语音识别模块(硬件),然后再与服务机器人操作平台系统连接;离线语音文本库(日常对话、命令词、智能家居控制指令)保存在服务机器人操作平台系统上,以一个可编辑的离线语音识别应用软件的数据库的形式存在。
4.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态的文本库,由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义词、近音词组成。
5.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:当人在服务机器人周围说话时,一方面麦克风阵列判断出人的方位,经机器人控制系统驱动服务机器人底盘转向,正面朝向人,另一方面离线语音识别系统和在线语音识别系统同时开始语音识别工作,将识别的语音内容转换成文本。
6.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:离线语音识别系统、在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库(日常对话、命令词、智能家居控制指令)进行比对,如果出现匹配,离线语音识别系统开始进行人机交互及相应的指令操作,在线语音识别系统保持沉默,不进行任何语音交互处理;如果不匹配,离线语音识别系统保持沉默,不进行任何语音交互处理,在线语音识别系统启用语音交互流程。
7.根据权利要求1所述的共用一套麦克风阵列的服务机器人双语音识别方法,其特征是:何时使用离线语音识别系统、何时使用在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由离线语音识别系统处理,如不在这个范围中,交由在线语音识别系统进行处理。
CN201610483689.7A 2016-06-28 2016-06-28 共用一套麦克风阵列的服务机器人双语音识别方法 Pending CN106920551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610483689.7A CN106920551A (zh) 2016-06-28 2016-06-28 共用一套麦克风阵列的服务机器人双语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610483689.7A CN106920551A (zh) 2016-06-28 2016-06-28 共用一套麦克风阵列的服务机器人双语音识别方法

Publications (1)

Publication Number Publication Date
CN106920551A true CN106920551A (zh) 2017-07-04

Family

ID=59453214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610483689.7A Pending CN106920551A (zh) 2016-06-28 2016-06-28 共用一套麦克风阵列的服务机器人双语音识别方法

Country Status (1)

Country Link
CN (1) CN106920551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883126A (zh) * 2020-07-27 2020-11-03 珠海格力电器股份有限公司 数据处理方式的选择方法、装置及电子设备
CN112420042A (zh) * 2020-11-19 2021-02-26 国网北京市电力公司 电力系统的控制方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN204332356U (zh) * 2014-12-30 2015-05-13 杭州微纳科技有限公司 一种语音命令识别装置
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN104899002A (zh) * 2015-05-29 2015-09-09 深圳市锐曼智能装备有限公司 机器人基于对话预测的在线与离线的识别切换方法及系统
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN204332356U (zh) * 2014-12-30 2015-05-13 杭州微纳科技有限公司 一种语音命令识别装置
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN104899002A (zh) * 2015-05-29 2015-09-09 深圳市锐曼智能装备有限公司 机器人基于对话预测的在线与离线的识别切换方法及系统
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883126A (zh) * 2020-07-27 2020-11-03 珠海格力电器股份有限公司 数据处理方式的选择方法、装置及电子设备
CN112420042A (zh) * 2020-11-19 2021-02-26 国网北京市电力公司 电力系统的控制方法及装置

Similar Documents

Publication Publication Date Title
CN106919059A (zh) 带独立麦克风阵列的服务机器人双语音识别方法
Chen et al. The first multimodal information based speech processing (misp) challenge: Data, tasks, baselines and results
JP6810232B2 (ja) 画像処理装置及び方法
CN105913039B (zh) 基于视觉和语音的对话数据交互处理方法及装置
US11087763B2 (en) Voice recognition method, apparatus, device and storage medium
CN113035227B (zh) 一种多模态语音分离方法及系统
CN112088315A (zh) 多模式语音定位
CN102194456A (zh) 信息处理设备、信息处理方法和程序
CN110333952B (zh) 基于人工智能的数据处理方法及系统
CN110248021A (zh) 一种智能设备音量控制方法及系统
CN205438579U (zh) 智能机器人系统
CN110265013A (zh) 语音的识别方法及装置、计算机设备、存储介质
CN106920551A (zh) 共用一套麦克风阵列的服务机器人双语音识别方法
EP3869505A3 (en) Method, apparatus, system, electronic device for processing information and storage medium
CN208724111U (zh) 基于电视设备的远场语音控制系统
CN208284230U (zh) 一种语音识别装置、语音识别系统及智能设备
CN109584864A (zh) 图像处理装置和方法
WO2021031811A1 (zh) 一种语音增强方法和装置
CN110277093B (zh) 音频信号的检测方法及装置
Zhang et al. Development of a voice-control smart home environment
CN110288996A (zh) 一种语音识别装置和语音识别方法
CN107180629B (zh) 一种语音采集识别方法与系统
CN110491372A (zh) 一种反馈信息生成方法、装置、存储介质和智能设备
CN109605373A (zh) 基于机器人的语音交互方法
CN110992966B (zh) 一种人声分离方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170704