CN106919059A - 带独立麦克风阵列的服务机器人双语音识别方法 - Google Patents
带独立麦克风阵列的服务机器人双语音识别方法 Download PDFInfo
- Publication number
- CN106919059A CN106919059A CN201610483687.8A CN201610483687A CN106919059A CN 106919059 A CN106919059 A CN 106919059A CN 201610483687 A CN201610483687 A CN 201610483687A CN 106919059 A CN106919059 A CN 106919059A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- microphone array
- offline
- recognition system
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 230000003203 everyday effect Effects 0.000 claims abstract description 25
- 210000004556 brain Anatomy 0.000 claims abstract description 3
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000003491 array Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 241000209140 Triticum Species 0.000 claims description 4
- 235000021307 Triticum Nutrition 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 description 9
- 230000004927 fusion Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B15/00—Systems controlled by a computer
- G05B15/02—Systems controlled by a computer electric
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/26—Pc applications
- G05B2219/2642—Domotique, domestic, home control, automation, smart house
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Manufacturing & Machinery (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统,其中一套为环形麦克风阵列和离线语音识别系统,用于识别日常对话、命令词、智能家居控制指令等离线语音文本,另一套线形麦克风阵列和在线语音识别系统,用于除开离线语音文本的所有应用内容、人工大脑等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时,不进行任何人机交互,仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息。
Description
技术领域
本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统,其中一套为环形麦克风阵列+离线语音识别系统,用于识别日常对话、命令词、智能家居控制指令等离线语音文本,另一套线形麦克风阵列+在线语音识别系统,用于除开离线语音文本的所有应用内容、自由对话等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列+在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时,不进行任何人机交互,仅将指令文本内容发送给麦克风阵列+离线语音识别系统作为语音识别内容的补充信息。
背景技术
语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果。
当前在服务机器人本体上普遍采用一套语音识别系统,而且都是在线语音识别为主,需要都良好的网络环境支持,如果服务机器人出现网络连接故障或者在线的语音云出口带宽影响,都会出现语音识别系统失效、延迟,影响人机交互效果。尽管一些语音识别方案公司意识到这个问题,辅助了离线识别功能,即当在线语音识别无法提供在线的语音云识别服务时,切换到离线语音识别模式,但由于离线语音识别并未根据场景进行优化,离线识别效果差,这种先在线后离线同一时间只有一种语音识别系统的方案并不能很好地满足现实需求,需要有更合适的在线语音识别和离线语音识别的结合方案。
发明内容
本发明拟解决在线语音识别和离线语音识别的结合问题,通过两套各自独立的麦克风阵列,同时启用在线语音识别和离线语音识别方案,实现日常交互、命令词、智能家居控制交互的稳定的离线语音识别和其它所有内容交互的在线语音识别,达到更加流畅、更加可靠的交互效果,从而提升服务机器人的人机交互体验效果,增强服务机器人的可用性和易用性。
本发明采用的技术方案是,一种带独立麦克风阵列的服务机器人双语音识别方法。其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统,其中一套为环形麦克风阵列和离线语音识别系统,用于识别日常对话、命令词、智能家居控制指令等离线语音文本,另一套线形麦克风阵列和在线语音识别系统,用于除开离线语音文本库的所有应用内容、人工大脑等方面的语音识别。两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时,不进行任何人机交互,仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息。何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由环形麦克风和离线语音识别系统处理,如不在这个范围中,交由线形麦克风阵列和在线语音识别系统进行处理。
本发明的有益效果是,很好地解决在线语音识别和离线语音识别的结合应用问题,通过两套各自独立的麦克风阵列,同时启用在线语音识别和离线语音识别方案,这样做的好处在于让高频使用的、重要的交互内容(日常对话、命令词、智能家居控制指令)能够持续稳定地语音识别和人机交互,提升服务机器人的实际体验效果,增强服务机器人的可用性和易用性。
附图说明
下面结合附图和实施例对本发明专利进一步说明。
图1是环形分布麦克风阵列和离线语音识别系统示意图。
图2是正面线形排列的麦克风阵列和在线语音识别系统示意图。
图3是离线语音识别和在线语音识别结合应用流程图。
图中1.环形分布麦克风阵列,2.音源方向测定,3.数据融合,4.自动语音识别,5.自动说话人识别,6. 形排列麦克风阵列。
具体实施方式
在服务机器人本体上,分别安装两套独立麦克风阵列和对应的语音识别系统,其中包括一套环形分布的五个或七个麦克风组成的麦克风阵列和离线语音识别系统,用于日常对话、命令词、智能家居控制指令,另一套为前置安装的线形排列的两个或四个麦克风的麦克风阵列和在线语音识别系统,用于所有内容交互。
在图1中,环形分布麦克风阵列和离线语音识别系统:
环形分布的五个或七个麦克风组成的麦克风阵列和离线语音识别系统,主要用于识别日常对话、命令词、智能家居控制指令。其特点是多个麦克风中有一个麦克风部署在模组的中央,其它的麦克风沿圆形外圈均匀角度间隔分布,如五个麦克风方案中的其它四个麦克风,角度间隔90度沿圆形外圈分布,如七个麦克风方案中的其它六个麦克风,角度间隔60度沿圆形外圈分布。
环形分布麦克风阵列(1)采用音源定位方法,音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。环形分布麦克风阵列可360度捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向(360度角度中的一个),放大从该方向捕捉到的音频信号(如下图中主说话人的声音),同时衰减从其它方向捕捉的音频信号(如下图中次说话人的声音),整个动作就像一个智能麦克风。
整个系统由以下几个子系统组成:音源方向测定(2)、数据融合(3)(DataFusion)、自动语音识别(4)(ASR)和自动说话人(5)(ASI)确认。其中,音频方向测定子系统基于麦克风阵列(1),运行多个不同的音频方向估算算法;数据融合子(3)系统负责推断方向,自动语音识别(4)子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人识别(5)确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。
如果自动语音识别(4)任务没有成功,则反馈给数据融合(3)系统,估算新方向传入的语音,然后驱动麦克风阵列指向该方向。
环形分布麦克风阵列(1)和离线语音识别系统用于日常对话、命令词、智能家居控制指令的识别,采用离线识别的方式,系统预先将需要交互的日常对话库、命令词条、智能家居控制指令集以穷举方式全部列出,并且关联给出具有同样表达内容的词库,形成最终的离线识别语音文本库。
尽管环形分布麦克风阵列(1)会采集所获得的语音信号,但只会对离线识别语音文本库对应的语音进行反馈,如日常对话时,机器人按照预设的语音内容回答;下达命令时,进行一个响应的操作并执行对应的命令,例如通过语音控制机器人移动的命令;智能家居控制指令下达时,机器人连接和控制对应的智能家居系统。环形分布麦克风阵列(1)和语音识别系统不对超出离线识别语音文本库的任何内容进行反馈,类似没有听见的效果。对于超出离线识别语音文本库的内容,交由正面线形排列的麦克风阵列和在线语音识别系统来处理。
图2中,正面线形排列的麦克风阵列(6)和在线语音识别系统:
正面线形排列的麦克风阵列(6)和在线语音识别系统,主要用于识别所有的内容交互时人的语音内容,但不包括日常对话词条、命令词、智能家居控制指令。其特点是多个麦克风呈线形均匀间隔排列,数量为8个以下的偶数,最常见的是两个或四个麦克风。
正面线形排列的麦克风阵列采用音源定位方法,音源定位是自动语音识别(4)和自动说话人识别(5)系统的一个重要环节,对于提高语音识别系统的性能至关重要。正面线形排列的麦克风阵列(6)可捕捉从正面不同方向(左侧与右侧)传来的声音,通过算法运算使麦克风指向正面的某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。
整个系统由以下几个子系统组成:音源方向测定(2)、数据融合(3)、自动语音识别(4)和自动说话人识别(5)确认。其中,音频方向测定子系统基于麦克风阵列(6),运行多个不同的音频方向估算算法;数据融合(3)子系统负责推断方向,自动语音识别(4)子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人识别(5)确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。
尽管线形分布麦克风阵列(6)会采集所获得的语音信号,但只会对在线识别语音文本库对应的语音进行反馈,这是一个基于云端支持机器学习的语义库,系统无法也无需穷举需要交互的词库,而是作一个筛选排查操作,凡是离线识别语音文本库(日常对话词条、命令词、智能家居控制指令)之外的任何交互内容词条,都是正面线形排列的麦克风阵列(6)和在线语音识别系统需要识别的内容。这些内容未作限定,可能是自由语言交流,也可能是儿童教学、老年陪伴、音乐等。
离线识别语音文本库是包含了日常对话词条、命令词、智能家居控制指令的一个静态的文本库,由标准的日常对话词条、严谨的命令词、标准的智能家居控制指令和相关的近义词、近音词组成。
因此,正面线形排列的麦克风阵列(6)和在线语音识别系统正常工作时,接收到一条语音信号后,启用语音识别,当获得的语音文本内容在离线识别语音文本库(日常对话词条、命令词、智能家居控制指令)清单中时,语音识别系统不进行下一步处理,没有人机交互产生,只会将该获得的文本信息抄送一份给环形分布麦克风阵列(1)和离线语音识别系统作为交叉验证:如果离线语音识别系统已经识别到了同样的语音文本,则系统仅记录这一结果不进行任何处理;如果离线语音识别系统未能识别到这个语音内容,根据系统设定允许在线语音识别作为补充识别时,这条识别的文本内容将传递给离线语音识别系统,执行相应的人机交互操作。
正面线形排列的麦克风阵列(6)和在线语音识别系统未能识别的语音内容,不会交给环形分布麦克风阵列(1)和离线语音识别系统进行二次处理。
在图3中,本发明的使用流程:
在服务机器人本体上安装好两套带独立麦克风阵列的语音识别系统,包括一套环形分布(1)的五个或七个麦克风组成的麦克风阵列和离线语音识别系统,用于日常对话、命令词、智能家居控制指令,另一套为前置安装的线形排列(6)的两个或四个麦克风的麦克风阵列和在线语音识别系统,用于所有内容交互。
每套麦克风阵列连接语音识别模块(硬件),然后再与服务机器人操作平台系统连接。离线语音文本库(日常对话、命令词、智能家居控制指令)保存在服务机器人操作平台系统上,以一个可编辑的离线语音识别应用软件的数据库的形式存在。无论是在线语音识别系统,还是离线语音识别系统都需要随时访问这个数据库。在线语音识别系统访问这个数据库,是为了明确这些语音内容不需要提供交互反馈,离线语音识别系统访问这个数据库,是为了明确可进行人机交互的语音文本范围。
当人在服务机器人周围说话时,一方面服务机器人的环形麦克风阵列(1)通过音源方向测定(2)判断出人的方位,经机器人控制系统驱动服务机器人底盘转向,正面朝向人,数据融合(3)系统负责推断方向,另一方面自动语音识别(4)子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号,自动说话人确认(5)子系统识别某些关键词汇,此时环形麦克风阵列(1)和离线语音识别系统、线形麦克风阵列(6)和在线语音识别系统同时开始语音识别工作,将识别的语音内容转换成文本,由于两套语音识别系统的识别的精准度、模式方式都区别,因此,可能识别获得的文本有差别,我们并不要求保存一致。
环形麦克风阵列(1)和离线语音识别系统、线形麦克风阵列(6)和在线语音识别系统分别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库(日常对话、命令词、智能家居控制指令)进行比对,如果出现匹配,环形麦克风阵列(1)和离线语音识别系统开始进行人机交互及相应的指令操作,线形麦克风阵列(6)和在线语音识别系统保持沉默,不进行任何语音交互处理。如果不匹配,环形麦克风和离线语音识别系统保持沉默,不进行任何语音交互处理,线形麦克风阵列和在线语音识别系统启用语音交互流程。
这两种麦克风阵列及两种语音识别系统的结合使用方法,何时使用环形麦克风阵列(1)和离线语音识别系统、何时使用线形麦克风阵列(6)和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由环形麦克风阵列(1)和离线语音识别系统处理,如不在这个范围中,交由线形麦克风阵列(6)和在线语音识别系统进行处理。这样做的好处在于让高频使用的、重要的交互内容(日常对话、命令词、智能家居控制指令)能够持续稳定地语音识别和人机交互,提升服务机器人的实际体验效果。
Claims (8)
1.本发明涉及一种带独立麦克风阵列的服务机器人双语音识别方法,其特点是在服务机器人本体上安装两套各自包含麦克风阵列的独立的语音识别系统,其中一套为环形麦克风阵列和离线语音识别系统,用于识别日常对话、命令词、智能家居控制指令等离线语音文本,另一套线形麦克风阵列和在线语音识别系统,用于除开离线语音文本库的所有应用内容、人工大脑等方面的语音识别;两套语音识别系统的联系在于当麦克风阵列和在线语音识别系统通过语音识别获得的文本与离线语音文本库匹配时,不进行任何人机交互,仅将指令文本内容发送给麦克风阵列和离线语音识别系统作为语音识别内容的补充信息;何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由环形麦克风和离线语音识别系统处理,如不在这个范围中,交由线形麦克风阵列和在线语音识别系统进行处理。
2.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:在服务机器人本体上安装有两套独立的麦克风阵列,其中一套是环形麦克风阵列,另一套是线形麦克风阵列。
3.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:环形麦克风阵列由环形分布的五个或七个麦克风组成,其中有一个麦克风部署在连接这些麦克风的模组的中央,其它的麦克风沿圆形外圈均匀角度间隔分布,如五个麦克风方案中的其它四个麦克风,角度间隔90度沿圆形外圈分布,如七个麦克风方案中的其它六个麦克风,角度间隔60度沿圆形外圈分布。
4.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:线形麦克风阵列安装在服务机器人的正面位置,多个麦克风呈线形均匀间隔排列,数量为8个以下的偶数,最常见的是两个或四个麦克风。
5.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:环形麦克风阵列连接离线语音识别系统,主要用于识别日常对话、命令词、智能家居控制指令。
6.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:线形麦克风阵列连接在线语音识别系统,主要用于识别除开日常对话、命令词、智能家居控制指令外的所有内容;线形麦克风和在线语音识别系统通过语音识别获得的语音文本内容与离线语音识别应用软件数据库中的离线语音文本库(日常对话、命令词、智能家居控制指令)进行比对,如果出现匹配,线形麦克风阵列和在线语音识别系统保持沉默,不进行任何语音交互处理;如果不匹配,线形麦克风阵列和在线语音识别系统启用语音交互流程。
7.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:每套麦克风阵列连接语音识别模块(硬件),然后再与服务机器人操作平台系统连接;离线语音文本库(日常对话、命令词、智能家居控制指令)保存在服务机器人操作平台系统上,以一个可编辑的离线语音识别应用软件的数据库的形式存在;无论是在线语音识别系统,还是离线语音识别系统都需要随时访问这个数据库。
8.根据权利要求1所述的带独立麦克风阵列的服务机器人双语音识别方法,其特征是:何时使用环形麦克风和离线语音识别系统、何时使用线形麦克风阵列和在线语音识别系统进行语音内容交互并不取决于网络连接质量和现场环境,而是取决于识别内容是否在离线语音文本库(日常对话、命令词、智能家居控制指令)的范围,如在这个范围中,交由环形麦克风和离线语音识别系统处理,如不在这个范围中,交由线形麦克风阵列和在线语音识别系统进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610483687.8A CN106919059A (zh) | 2016-06-28 | 2016-06-28 | 带独立麦克风阵列的服务机器人双语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610483687.8A CN106919059A (zh) | 2016-06-28 | 2016-06-28 | 带独立麦克风阵列的服务机器人双语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106919059A true CN106919059A (zh) | 2017-07-04 |
Family
ID=59453213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610483687.8A Pending CN106919059A (zh) | 2016-06-28 | 2016-06-28 | 带独立麦克风阵列的服务机器人双语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919059A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107454157A (zh) * | 2017-07-26 | 2017-12-08 | 上海与德通讯技术有限公司 | 机器人交互方法及系统 |
CN108573707A (zh) * | 2017-12-27 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN109215419A (zh) * | 2018-10-25 | 2019-01-15 | 重庆鲁班机器人技术研究院有限公司 | 教育机器人及体验式教学系统 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN111883126A (zh) * | 2020-07-27 | 2020-11-03 | 珠海格力电器股份有限公司 | 数据处理方式的选择方法、装置及电子设备 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112382292A (zh) * | 2020-12-11 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于语音的控制方法和装置 |
CN112863522A (zh) * | 2021-01-12 | 2021-05-28 | 重庆邮电大学 | 一种基于ros的智能机器人语音交互系统及交互方法 |
CN113096665A (zh) * | 2019-12-23 | 2021-07-09 | 上海浩宜信息科技有限公司 | 一种智能麦克风阵列 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN204695292U (zh) * | 2015-05-29 | 2015-10-07 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换装置 |
-
2016
- 2016-06-28 CN CN201610483687.8A patent/CN106919059A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
CN204695292U (zh) * | 2015-05-29 | 2015-10-07 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107454157A (zh) * | 2017-07-26 | 2017-12-08 | 上海与德通讯技术有限公司 | 机器人交互方法及系统 |
CN108573707A (zh) * | 2017-12-27 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN109215419A (zh) * | 2018-10-25 | 2019-01-15 | 重庆鲁班机器人技术研究院有限公司 | 教育机器人及体验式教学系统 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN110853639B (zh) * | 2019-10-23 | 2023-09-01 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN113096665A (zh) * | 2019-12-23 | 2021-07-09 | 上海浩宜信息科技有限公司 | 一种智能麦克风阵列 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN111883126A (zh) * | 2020-07-27 | 2020-11-03 | 珠海格力电器股份有限公司 | 数据处理方式的选择方法、装置及电子设备 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112382292A (zh) * | 2020-12-11 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于语音的控制方法和装置 |
CN112863522A (zh) * | 2021-01-12 | 2021-05-28 | 重庆邮电大学 | 一种基于ros的智能机器人语音交互系统及交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919059A (zh) | 带独立麦克风阵列的服务机器人双语音识别方法 | |
US20210174812A1 (en) | Audio data processing method, apparatus, and device, and storage medium | |
WO2021159688A1 (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
JP2021021955A (ja) | 声紋の作成・登録の方法及び装置 | |
CN110298252A (zh) | 会议纪要生成方法、装置、计算机设备及存储介质 | |
WO2019062931A1 (zh) | 图像处理装置及方法 | |
Christensen et al. | Combining in-domain and out-of-domain speech data for automatic recognition of disordered speech | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN109147768A (zh) | 一种基于深度学习的语音识别方法及系统 | |
CN106486122A (zh) | 一种智能语音交互机器人 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN107845381A (zh) | 一种机器人语义处理的方法及系统 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN106557164A (zh) | 应用于智能机器人的多模态输出方法和装置 | |
CN111128175B (zh) | 口语对话管理方法及系统 | |
CN108908377A (zh) | 说话人识别方法、装置和机器人 | |
US10847154B2 (en) | Information processing device, information processing method, and program | |
CN106920551A (zh) | 共用一套麦克风阵列的服务机器人双语音识别方法 | |
CN208284230U (zh) | 一种语音识别装置、语音识别系统及智能设备 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN102376304B (zh) | 文本朗读系统及其文本朗读方法 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
US20040181407A1 (en) | Method and system for creating speech vocabularies in an automated manner | |
KR20190059381A (ko) | 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 | |
CN110288996A (zh) | 一种语音识别装置和语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170704 |