CN115273850A - 一种自主移动设备语音控制方法及系统 - Google Patents
一种自主移动设备语音控制方法及系统 Download PDFInfo
- Publication number
- CN115273850A CN115273850A CN202211188342.1A CN202211188342A CN115273850A CN 115273850 A CN115273850 A CN 115273850A CN 202211188342 A CN202211188342 A CN 202211188342A CN 115273850 A CN115273850 A CN 115273850A
- Authority
- CN
- China
- Prior art keywords
- autonomous mobile
- distance
- text
- mobile device
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 11
- 230000001629 suppression Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 15
- 238000010408 sweeping Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000002567 autonomic effect Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001061225 Arcos Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请公开了一种自主移动设备语音控制方法及系统,自主移动设备与基站通信,自主移动设备上设置有第一麦克风设备,基站上设置有第二麦克风设备,在实现语音控制过程中,获取第一、第二麦克风设备各自采集的原始语音信号,基于两种原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。相比于自主移动设备,基站周围的噪声和干扰相对较弱,因此基站上的第二麦克风设备所采集的原始语音信号的信噪比更大,在同时利用两种原始语音信号进行语音指令识别时,其语音指令识别准确度更高,能够更加准确的识别用户的语音指令,方便用户的控制操作。
Description
技术领域
本申请涉及智能设备控制技术领域,更具体的说,是涉及一种自主移动设备语音控制方法及系统。
背景技术
随着科技水平的提升,对机器人等自主移动设备的研究也逐步深入。自主移动设备能够感知外部环境信息,并与外部环境进行交互,执行设定的操作。常见的自主移动设备如扫地机器人、搬运机器人、无人车等。在人工智能飞速发展的浪潮下,越来越多的自主移动设备具备语音控制功能。
对自主移动设备的语音控制通常有两个阶段。首先需要将自主移动设备唤醒,使自主移动设备进入接收命令词的状态,然后再通过命令词指令对自主移动设备做进一步的控制。而在实际应用中,部分自主移动设备在工作时具有很强的自噪声,示例如扫地机器人内部马达的噪声、外部滚轮、清扫部件的噪声等。鉴于自主移动设备所存在的自噪声,将会影响其语音指令识别准确率,进而影响用户的语音控制操作。
发明内容
鉴于上述问题,提出了本申请以便提供一种自主移动设备语音控制方法及系统,以便降低自主移动设备的自噪声对语音指令识别的不利影响,提升设备语音指令识别准确率,便于用户语音控制操作。具体方案如下:
第一方面,提供了一种自主移动设备语音控制方法,所述自主移动设备与基站通信,在所述自主移动设备上设置有第一麦克风设备,在所述基站上设置有第二麦克风设备,该方法包括:
获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对所述声源采集的第二原始语音信号;
基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
优选地,所述获取第二麦克风设备对所述声源采集的第二原始语音信号,包括:
获取所述自主移动设备相对于所述基站的相对位置信息;
基于所述相对位置信息,控制所述第二麦克风设备对所述声源采集时进行降噪,以得到所述第二麦克风设备采集的对所述自主移动设备的自噪声抑制后的第二原始语音信号。
优选地,所述设定语音指令条件为设定唤醒条件时;所述控制所述自主移动设备执行与所满足的语音指令匹配的动作,包括:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段。
优选地,还包括:
基于所述第一原始语音信号,计算所述自主移动设备与所述声源间的第一夹角;
基于所述第二原始语音信号,计算所述基站与所述声源间的第二夹角;
获取所述自主移动设备上的第一麦克风设备与所述基站上的第二麦克风设备间的第三夹角及第一距离;
基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述自主移动设备间的第二距离。
优选地,还包括:
基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述基站间的第三距离。
优选地,所述设定语音指令条件为设定的自主移动设备处于指令识别阶段时所需执行的任务指令条件;
所述控制所述自主移动设备执行与所满足的语音指令匹配的动作,包括:
对指令识别阶段所述第一麦克风设备采集的第一原始语音信号进行文本识别,得到第一文本,对指令识别阶段所述第二麦克风设备采集的第二原始语音信号进行文本识别,得到第二文本;
若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离,和所述声源与所述基站间的第三距离的大小关系;
若第二距离小于第三距离,则将所述第一文本作为最终识别文本,若第三距离小于第二距离,则将所述第二文本作为最终识别文本;
控制所述自主移动设备执行与所述最终识别文本匹配的任务操作。
优选地,所述基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述自主移动设备间的第二距离,包括:
在以自主移动设备、基站及所述声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L2/sin(90+Θ3-Θ2)=L1/sin(90+Θ2-Θ1)
基于此,得到L2= L1* sin(90+Θ3-Θ2)/sin(90+Θ2-Θ1)
其中,L2为所述第二距离,L1为所述第一距离,Θ1为所述第一夹角,Θ2为所述第二夹角,Θ3为所述第三夹角。
优选地,所述基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述基站间的第三距离,包括:
在以自主移动设备、基站及所述声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L3/sin(Θ1-Θ3)=L1/sin(90+Θ2-Θ1)
基于此,得到L3= L1* sin(Θ1-Θ3)/sin(90+Θ2-Θ1)
其中,L3为所述第三距离,L1为所述第一距离,Θ1为所述第一夹角,Θ2为所述第二夹角,Θ3为所述第三夹角。
第二方面,提供了一种自主移动设备语音控制系统,所述自主移动设备与基站通信,在所述自主移动设备上设置有第一麦克风设备,在所述基站上设置有第二麦克风设备,该系统包括:
信号获取单元,用于获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对所述声源采集的第二原始语音信号;
语音指令条件判断单元,用于基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件;
设备控制单元,用于在所述语音指令条件判断单元判断满足设定语音指令条件时,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
优选地,在所述设定语音指令条件为设定唤醒条件时;所述设备控制单元具体用于:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段;
在所述设定语音指令条件为设定的自主移动设备处于指令识别阶段时所需执行的任务指令条件时;所述设备控制单元具体用于:
对指令识别阶段所述第一麦克风设备采集的第一原始语音信号进行文本识别,得到第一文本,对指令识别阶段所述第二麦克风设备采集的第二原始语音信号进行文本识别,得到第二文本;
若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离,和所述声源与所述基站间的第三距离的大小关系;
若第二距离小于第三距离,则将所述第一文本作为最终识别文本,若第三距离小于第二距离,则将所述第二文本作为最终识别文本;
控制所述自主移动设备执行与所述最终识别文本匹配的任务操作。
优选地,所述自主移动设备为扫地机器人、搬运机器人、可移动的空气净化器、无人车或无人机。
借由上述技术方案,本申请的自主移动设备与基站通信,在自主移动设备上设置有第一麦克风设备,在基站上设置有第二麦克风设备,在实现语音控制过程中,获取第一麦克风设备对声源采集的第一原始语音信号,以及获取第二麦克风设备对声源采集的第二原始语音信号,基于两种原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。本申请中借助基站与自主移动设备处于同一空间可以同时接收到声源发出的语音信号,并且,相比于自主移动设备,基站周围的噪声和干扰相对较弱,因此基站上的第二麦克风设备所采集的第二原始语音信号的信噪比更大,本申请同时利用第一、第二原始语音信号进行语音指令条件的判断,相比于现有技术仅依据自主移动设备上的麦克风设备所采集的单一语音信号进行语音指令条件的判断,其语音指令识别准确度更高,能够更加准确的识别用户的语音指令,方便用户的控制操作。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例示例的一种自主移动设备语音控制方法示意图;
图2为本申请实施例示例的一种单麦克风阵列声源方向计算过程示意图;
图3为本申请实施例示例的一种计算声源与自主移动设备、基站间距离的过程示意图;
图4为本申请实施例示例的一种自主移动设备语音控制系统结构示意图;
图5为本申请实施例示例的一种自主移动设备或基站的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请介绍的自主移动设备配备有对应的基站,用于供自主移动设备进行充电、维护等。自主移动设备为能够采集环境信息,并与周围环境进行交互,以完成指定任务操作的设备。其可以是机器人,如扫地机器人、搬运机器人等,还可以是可移动的空气净化器、无人车、无人机等。
为了提升自主移动设备的语音指令识别准确率,本申请创造性的在自主移动设备和基站上分别部署麦克风设备,组成分布式麦克风设备。其中,设置在自主移动设备上的麦克风设备定义为第一麦克风设备,设置在基站上的麦克风设备定义为第二麦克风设备。两个麦克风设备可以单独采集环境的语音信号。其中,第一麦克风设备可以是麦克风阵列形式,也可以是单麦克风。第二麦克风设备可以是麦克风阵列形式,也可以是单麦克风。
为了同时利用两个麦克风设备采集的语音信号进行语音控制,本申请提供了一套语音控制系统,通过该语音控制系统,来实现语音控制算法的逻辑,进而实现对自主移动设备的语音控制功能。语音控制系统可以单独部署在自主移动设备上,也可以单独部署在基站上,当然还可以同时部署在自主移动设备和基站上,也即,语音控制算法的处理逻辑可以单独由自主移动设备执行,也可以单独由基站执行,还可以由自主移动设备和基站配合执行。除此之外,语音控制系统还可以是部署在服务器、云端等。
接下来,从语音控制系统的角度,对自主移动设备语音控制方法进行介绍,结合图1所示,该方法可以包括如下步骤:
步骤S100、获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对声源采集的第二原始语音信号。
具体地,第一和第二麦克风设备各自由一定数目的声学传感器组成,用于对声场的空间特性进行采样。定义第一麦克风设备采集的原始语音信号为第一原始语音信号,第二麦克风设备采集的原始语音信号为第二原始语音信号。
步骤S110、基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件,若满足,执行下述步骤S120。
具体地,设定的语音指令条件可以是用于唤醒自主移动设备的唤醒条件。或者,语音指令条件还可以是,对于唤醒后处于指令识别阶段的自主移动设备所需执行的任务指令条件。
基于此可以理解的是,若当前获取的第一、第二原始语音信号是在自主移动设备处于未唤醒状态下所采集,则本步骤中的设定语音指令条件可以是设定唤醒条件,如判断语音信号中是否包含设定唤醒词等。
若当前获取的第一、第二原始语音信号是在自主移动设备被唤醒后处于指令识别阶段所采集,则本步骤中的设定语音指令条件可以是设定任务指令条件,如打开照明、清扫指定区域、返回基站等。
在基于第一、第二原始语音信号进行设定语音指令条件判断时,可以首先对第一、第二原始语音信号进行降噪处理,进而基于降噪后信号进行设定语音指令条件判断。其中,设定语音专利条件判断时,可以是通过预先训练的语音指令识别模型。
步骤S120、控制所述自主移动设备执行与所满足的语音指令匹配的动作。
具体地,若设定语音指令条件为设定唤醒条件,则控制所述自主移动设备执行与所满足的语音指令匹配的动作的过程,具体包括:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段。
若设定语音指令条件为设定任务指令条件,则控制所述自主移动设备执行与所满足的语音指令匹配的动作的过程,具体包括:
控制所述自主移动设备执行与所满足的任务指令匹配的任务操作。
本申请的自主移动设备与基站通信,在自主移动设备上设置有第一麦克风设备,在基站上设置有第二麦克风设备,在实现语音控制过程中,获取第一麦克风设备采集的第一原始语音信号,以及获取第二麦克风设备采集的第二原始语音信号,基于两种原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。本申请中借助基站与自主移动设备处于同一空间可以同时接收到声源发出的语音信号,并且,相比于自主移动设备,基站周围的噪声和干扰相对较弱,因此基站上的第二麦克风设备所采集的第二原始语音信号的信噪比更大,本申请同时利用第一、第二原始语音信号进行语音指令条件的判断,相比于现有技术仅依据自主移动设备上的麦克风设备所采集的单一语音信号进行语音指令条件的判断,其语音识别准确度更高,能够更加准确的识别用户的语音指令,方便用户的控制操作。
可以理解的是,对于唤醒阶段,由于本申请同时利用第一、第二原始语音信号进行唤醒识别,只要任意一个信号满足唤醒条件即可控制唤醒自主移动设备,从而大大提升了唤醒成功率。
对于任务指令识别阶段,由于本申请同时利用第一、第二原始语音信号进行任务指令的识别,相比于单纯依据第一原始语音信号进行任务指令的识别,任务指令识别时的参考语音信号更加丰富,从而能够大幅提升任务指令识别的准确度。
可选的,本申请中可以设置第一麦克风设备和第二麦克风设备实时均处于开启状态。当然,若考虑到自主移动设备处于基站时其上设置的第一麦克风设备可能被基站遮挡,导致收音较差,也可以设置在自主移动设备处于基站时,仅开启基站上设置的第二麦克风设备。当自主移动设备离开基站后,第一、第二麦克风设备均处于开启状态。
在本申请的一些实施例中,对上述步骤S100中获取第二麦克风设备采集的第二原始语音信号的过程进行介绍。
由于自主移动设备和基站之间可以相互通信,因此可以实时获取到自主移动设备相对于基站的相对位置信息。在此基础上,为了提升第二麦克风设备采集的第二原始语音信号的信噪比,可以基于自主移动设备相对于基站的相对位置信息,控制所述第二麦克风设备对声源采集时进行降噪,以采集到对自主移动设备的自噪声抑制后的第二原始语音信号。
具体地,可以控制第二麦克风设备对自主移动设备方向进行噪声抑制,以采集到对自主移动设备的自噪声抑制后的第二原始语音信号。示例如,可以将第二麦克风设备的波束图的零点对准自主移动设备所处方向,从而有效抑制自主移动设备产生的自噪声,基于此得到的第二原始语音信号的信噪比更高。
使用该信噪比更高的第二原始语音信号进行语音指令识别判断时,其语音指令识别准确率更高。
考虑到现有的自主移动设备一般仅在设备自身上部署麦克风设备,并未在基站上部署麦克风设备。这种集中式的麦克风设备仅能够定位声源的方向,而无法定位声源的位置,也即声源与自主移动设备的距离。这就导致自主移动设备无法执行与声源定位相关的任务。
以扫地机器人为例,若用户想要通过指令控制扫地机器人前往用户当前位置进行清扫,示例如用户下达如下指令:“把我在的位置清扫一下”,这就要求扫地机器人能够准确得到用户当前的位置,也即用户当前位置与扫地机器人间的距离和方向。按照现有的技术,仅在扫地机器人上设置麦克风设备的话,是无法确定出声源与扫地机器人间的距离,也就无法实现相关功能。
本申请提供的方案中,由于在基站上额外部署了第二麦克风设备,由自主移动设备上的第一麦克风设备和基站上的第二麦克风设备形成分布式麦克风设备,基于此能够实现声源的精准定位。本实施例中,对声源定位过程进行说明,具体可以包括如下步骤:
S1、基于所述第一原始语音信号,计算所述自主移动设备与声源间的第一夹角Θ1。
S2、基于所述第二原始语音信号,计算所述基站与所述声源间的第二夹角Θ2。
需要说明的是,上述声源定位过程可以在自主移动设备处于唤醒状态之前实施,也可以在自主移动设备被唤醒后处于任务指令识别阶段时实施。也即,上述计算第一、第二夹角时所用到的第一、第二原始语音信号,其可以是在自主移动设备处于唤醒状态之前采集的,也可以是在自主移动设备被唤醒后处于任务指令识别阶段时采集的,对此本申请不做严格要求。
上述步骤S1、S2中可以采用单麦克风阵列的声源方向计算方法得到声源与单麦克风阵列所在主体间的夹角。接下来,结合图2,介绍单麦克风阵列的声源方向计算方法:
对于第一麦克风设备、第二麦克风设备,二者各自均可以作为单麦克风阵列。
单麦克风阵列可以包括两个以上的麦克风,为了便于表示,图2中以2麦为例进行说明。
两个麦克风y1和y2之间的间距可以表示为d。当声音与麦克风阵列的距离远大于阵列间麦克风的间距时,可以认为声源到达麦克风阵列的声波为波阵面Plane wavefront。假设波阵面与麦克风的连线形成的角度定义为Θ,范围为0°~180°,声速表示为C,那么y2麦克风接收到的信号相对于y1麦克风的时延为τ,则:
Θ=arcos(τ*C/d)
将上述角度Θ作为单麦克风阵列所在主体与声源间的夹角。
其中,时延为τ可以采用多种算法计算得到,如互相关法、MUSAN法、神经网络算法等。
S3、获取所述自主移动设备上的第一麦克风设备与所述基站上的第二麦克风设备间的第三夹角Θ3及第一距离L1。
具体地,自主移动设备与基站间可以相互通信,基站可以实时获取自主移动设备的当前位置,进而能够确定出二者间的夹角Θ3及距离L1,如图3所示。
S4、基于所述第一夹角Θ1、所述第二夹角Θ2、所述第三夹角Θ3及所述第一距离L1,计算所述声源与所述自主移动设备间的第二距离L2。
如图3所示,利用三角函数关系,可以基于第一夹角Θ1、第二夹角Θ2、第三夹角Θ3及第一距离L1,计算声源与所述自主移动设备间的第二距离L2。
具体地,在以自主移动设备、基站及声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L2/sin(90+Θ3-Θ2)=L1/sin(90+Θ2-Θ1)
基于此,得到L2= L1* sin(90+Θ3-Θ2)/sin(90+Θ2-Θ1)。
按照本实施例提供的方法,可以实现声源的精准定位,即计算得到声源与自主移动设备间的距离和方向。在此基础上,能够实现一些与声源定位相关的任务,如控制自主移动设备移动至声源所在位置、控制自主移动设备在行进路径中对声源位置进行自动规避等。
进一步可选的,上述对声源定位过程还可以包括如下步骤:
S5、基于所述第一夹角Θ1、所述第二夹角Θ2、所述第三夹角Θ3及所述第一距离L1,计算所述声源与所述基站间的第三距离L3。
如图3所示,在以自主移动设备、基站及声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L3/sin(Θ1-Θ3)=L1/sin(90+Θ2-Θ1)
基于此,得到L3= L1* sin(Θ1-Θ3)/sin(90+Θ2-Θ1)。
在本申请的一些实施例中,进一步对本申请的自主移动设备的语音控制方法进行介绍。
当自主移动设备被唤醒之后,进入任务指令识别阶段。
为了提升对任务指令识别的准确度,自主移动设备在唤醒后可以处于待机状态,即停止工作,以降低自噪声。
对于自主移动设备被唤醒后处于任务指令识别阶段,本申请可以设置仅通过第一麦克风设备采集的信号进行文本识别,并以文本识别结果作为最终识别文本。还可以设置仅通过第二麦克风设备采集的信号进行文本识别,并以文本识别结果作为最终识别文本。
进一步地,还可以设置同时对第一麦克风设备采集的信号进行文本识别,得到第一文本,对第二麦克风设备采集的信号进行文本识别,得到第二文本。基于该第一文本和第二文本,确定最终识别文本,并控制自主移动设备执行与最终识别文本匹配的任务操作。
通过综合考虑第一文本和第二文本,能够提升最终识别文本的准确性,也即提升任务指令识别的准确度。
本实施例中介绍了一种综合第一文本和第二文本,确定最终识别文本的可选实现方式,具体可以包括:
1)、若所述第一文本和所述第二文本相同,则选择其中任意一个作为最终识别文本;
2)、若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离L2,和所述声源与所述基站间的第三距离L3的大小关系。
若第二距离L2小于第三距离L3,则说明当前时刻自主移动设备更靠近声源,因此可以将第一文本作为最终识别文本。
若第三距离L3小于第二距离L2,则说明当前时刻基站更靠近声源,因此可以将第二文本作为最终识别文本。
当然,上述仅仅是示例的一种确定最终识别文本的可选方式,本申请还可以采用其它方式,来结合第一文本和第二文本,确定最终识别文本,示例如基于第一文本和第二文本各自的识别准确度、或文本通顺度等,选取识别准确度、文本通顺度更高的一个文本,作为最终识别文本。
下面对本申请实施例提供的自主移动设备语音控制系统进行描述,下文描述的自主移动设备语音控制系统与上文描述的自主移动设备语音控制方法可相互对应参照。
参见图4,图4为本申请实施例公开的一种自主移动设备语音控制系统结构示意图。
如图4所示,该系统可以包括:
信号获取单元11,用于获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对声源采集的第二原始语音信号;
语音指令条件判断单元12,用于基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件;
设备控制单元13,用于在所述语音指令条件判断单元判断满足设定语音指令条件时,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
可选的,上述信号获取单元获取第二麦克风设备采集的第二原始语音信号的过程,可以包括:
获取所述自主移动设备相对于所述基站的相对位置信息;
基于所述相对位置信息,控制所述第二麦克风设备进行降噪,以得到所述第二麦克风设备采集的对所述自主移动设备的自噪声抑制后的第二原始语音信号。
可选的,本申请的系统还可以包括:声源定位单元,用于:
基于所述第一原始语音信号,计算所述自主移动设备与声源间的第一夹角;
基于所述第二原始语音信号,计算所述基站与所述声源间的第二夹角;
获取所述自主移动设备上的第一麦克风设备与所述基站上的第二麦克风设备间的第三夹角及第一距离;
基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述自主移动设备间的第二距离。
可选的,上述声源定位单元还可以用于:基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述基站间的第三距离。
可选的,在所述设定语音指令条件为设定唤醒条件时;所述设备控制单元具体用于:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段;
在所述设定语音指令条件为设定的自主移动设备处于指令识别阶段时所需执行的任务指令条件时;所述设备控制单元具体用于:
对指令识别阶段所述第一麦克风设备采集的第一原始语音信号进行文本识别,得到第一文本,对指令识别阶段所述第二麦克风设备采集的第二原始语音信号进行文本识别,得到第二文本;
若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离,和所述声源与所述基站间的第三距离的大小关系;
若第二距离小于第三距离,则将所述第一文本作为最终识别文本,若第三距离小于第二距离,则将所述第二文本作为最终识别文本;
控制所述自主移动设备执行与所述最终识别文本匹配的任务操作。
本申请实施例提供的自主移动设备语音控制系统可部署于自主移动设备上或基站上,或同时部署在自主移动设备和基站上,亦或者部署在服务器、云端,以自主移动设备或基站为例,图5示例了一种自主移动设备或基站的硬件结构框图,参照图5,该硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3、至少一个通信总线4和至少一个麦克风设备5;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4、麦克风阵列5的数量为至少一个,且处理器1、通信接口2、存储器3、麦克风设备5通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对声源采集的第二原始语音信号;
基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对声源采集的第二原始语音信号;
基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
在本申请的一些实施例中,进一步还提供了一种自主移动设备的基站,该基站上设置有第二麦克风设备和处理器;所述第二麦克风设备用于采集第二原始语音信号;所述处理器获取第二麦克风设备采集的第二原始语音信号,基于所述第二原始语音信号确定是否满足设定语音指令条件,若满足,则向自主移动设备发送所满足的语音指令,以控制所述自主移动设备执行与所满足的语音指令匹配的动作。
其中,所述处理器获取第二麦克风设备采集的第二原始语音信号的过程,可以包括:
获取所述自主移动设备相对于所述基站的相对位置信息;
基于所述相对位置信息,控制所述第二麦克风设备进行降噪,以得到所述第二麦克风设备采集的对所述自主移动设备的自噪声抑制后的第二原始语音信号。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种自主移动设备语音控制方法,其特征在于,所述自主移动设备与基站通信,在所述自主移动设备上设置有第一麦克风设备,在所述基站上设置有第二麦克风设备,该方法包括:
获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对所述声源采集的第二原始语音信号;
基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件,若满足,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
2.根据权利要求1所述的方法,其特征在于,所述获取第二麦克风设备对所述声源采集的第二原始语音信号,包括:
获取所述自主移动设备相对于所述基站的相对位置信息;
基于所述相对位置信息,控制所述第二麦克风设备对所述声源采集时进行降噪,以得到所述第二麦克风设备采集的对所述自主移动设备的自噪声抑制后的第二原始语音信号。
3.根据权利要求1所述的方法,其特征在于,所述设定语音指令条件为设定唤醒条件时;所述控制所述自主移动设备执行与所满足的语音指令匹配的动作,包括:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于所述第一原始语音信号,计算所述自主移动设备与所述声源间的第一夹角;
基于所述第二原始语音信号,计算所述基站与所述声源间的第二夹角;
获取所述自主移动设备上的第一麦克风设备与所述基站上的第二麦克风设备间的第三夹角及第一距离;
基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述自主移动设备间的第二距离。
5.根据权利要求4所述的方法,其特征在于,还包括:
基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述基站间的第三距离。
6.根据权利要求1所述的方法,其特征在于,所述设定语音指令条件为设定的自主移动设备处于指令识别阶段时所需执行的任务指令条件;
所述控制所述自主移动设备执行与所满足的语音指令匹配的动作,包括:
对指令识别阶段所述第一麦克风设备采集的第一原始语音信号进行文本识别,得到第一文本,对指令识别阶段所述第二麦克风设备采集的第二原始语音信号进行文本识别,得到第二文本;
若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离,和所述声源与所述基站间的第三距离的大小关系;
若第二距离小于第三距离,则将所述第一文本作为最终识别文本,若第三距离小于第二距离,则将所述第二文本作为最终识别文本;
控制所述自主移动设备执行与所述最终识别文本匹配的任务操作。
7.根据权利要求4所述的方法,其特征在于,所述基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述自主移动设备间的第二距离,包括:
在以自主移动设备、基站及所述声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L2/sin(90+Θ3-Θ2)=L1/sin(90+Θ2-Θ1)
基于此,得到L2= L1* sin(90+Θ3-Θ2)/sin(90+Θ2-Θ1)
其中,L2为所述第二距离,L1为所述第一距离,Θ1为所述第一夹角,Θ2为所述第二夹角,Θ3为所述第三夹角。
8.根据权利要求5所述的方法,其特征在于,所述基于所述第一夹角、所述第二夹角、所述第三夹角及所述第一距离,计算所述声源与所述基站间的第三距离,包括:
在以自主移动设备、基站及所述声源作为顶点组成的三角形中,基于正弦定理得到如下公式:
L3/sin(Θ1-Θ3)=L1/sin(90+Θ2-Θ1)
基于此,得到L3= L1* sin(Θ1-Θ3)/sin(90+Θ2-Θ1)
其中,L3为所述第三距离,L1为所述第一距离,Θ1为所述第一夹角,Θ2为所述第二夹角,Θ3为所述第三夹角。
9.一种自主移动设备语音控制系统,其特征在于,所述自主移动设备与基站通信,在所述自主移动设备上设置有第一麦克风设备,在所述基站上设置有第二麦克风设备,该系统包括:
信号获取单元,用于获取第一麦克风设备对声源采集的第一原始语音信号,获取第二麦克风设备对所述声源采集的第二原始语音信号;
语音指令条件判断单元,用于基于所述第一原始语音信号及所述第二原始语音信号确定是否满足设定语音指令条件;
设备控制单元,用于在所述语音指令条件判断单元判断满足设定语音指令条件时,则控制所述自主移动设备执行与所满足的语音指令匹配的动作。
10.根据权利要求9所述的系统,其特征在于,在所述设定语音指令条件为设定唤醒条件时;所述设备控制单元具体用于:
控制唤醒所述自主移动设备,唤醒后的自主移动设备进入指令识别阶段;
在所述设定语音指令条件为设定的自主移动设备处于指令识别阶段时所需执行的任务指令条件时;所述设备控制单元具体用于:
对指令识别阶段所述第一麦克风设备采集的第一原始语音信号进行文本识别,得到第一文本,对指令识别阶段所述第二麦克风设备采集的第二原始语音信号进行文本识别,得到第二文本;
若所述第一文本和所述第二文本不同,则判断当前时刻所述声源与所述自主移动设备间的第二距离,和所述声源与所述基站间的第三距离的大小关系;
若第二距离小于第三距离,则将所述第一文本作为最终识别文本,若第三距离小于第二距离,则将所述第二文本作为最终识别文本;
控制所述自主移动设备执行与所述最终识别文本匹配的任务操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211188342.1A CN115273850A (zh) | 2022-09-28 | 2022-09-28 | 一种自主移动设备语音控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211188342.1A CN115273850A (zh) | 2022-09-28 | 2022-09-28 | 一种自主移动设备语音控制方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273850A true CN115273850A (zh) | 2022-11-01 |
Family
ID=83757569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211188342.1A Pending CN115273850A (zh) | 2022-09-28 | 2022-09-28 | 一种自主移动设备语音控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273850A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017218234A1 (en) * | 2016-06-15 | 2017-12-21 | Irobot Corporation | Systems and methods to control an autonomous mobile robot |
WO2018037643A1 (ja) * | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN108674344A (zh) * | 2018-03-30 | 2018-10-19 | 斑马网络技术有限公司 | 基于方向盘的语音处理系统及其应用 |
CN109309607A (zh) * | 2018-10-15 | 2019-02-05 | 珠海格力电器股份有限公司 | 家电设备操作执行方法、装置、家电设备及可读存储介质 |
CN110085233A (zh) * | 2019-04-08 | 2019-08-02 | 广东美的制冷设备有限公司 | 语音控制方法及其装置、电子设备和计算机可读存储介质 |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
US20190389073A1 (en) * | 2019-07-16 | 2019-12-26 | Lg Electronics Inc. | Robot capable of conversation with another robot and method of controlling the same |
CN110907895A (zh) * | 2019-12-05 | 2020-03-24 | 重庆商勤科技有限公司 | 噪声监测识别定位方法、系统及计算机可读存储介质 |
CN111968642A (zh) * | 2020-08-27 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音数据处理方法、装置及智能车辆 |
CN214595740U (zh) * | 2021-01-04 | 2021-11-05 | 美智纵横科技有限责任公司 | 一种基站和清洁系统 |
CN114121024A (zh) * | 2020-08-31 | 2022-03-01 | 华为技术有限公司 | 一种唤醒识别方法、音频装置以及音频装置组 |
CN114172757A (zh) * | 2021-12-13 | 2022-03-11 | 海信视像科技股份有限公司 | 服务器、智能家居系统及多设备语音唤醒方法 |
CN114220450A (zh) * | 2021-11-18 | 2022-03-22 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种空基指控环境强噪音抑制方法 |
CN114566171A (zh) * | 2020-11-27 | 2022-05-31 | 华为技术有限公司 | 一种语音唤醒方法及电子设备 |
-
2022
- 2022-09-28 CN CN202211188342.1A patent/CN115273850A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017218234A1 (en) * | 2016-06-15 | 2017-12-21 | Irobot Corporation | Systems and methods to control an autonomous mobile robot |
WO2018037643A1 (ja) * | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN108674344A (zh) * | 2018-03-30 | 2018-10-19 | 斑马网络技术有限公司 | 基于方向盘的语音处理系统及其应用 |
CN109309607A (zh) * | 2018-10-15 | 2019-02-05 | 珠海格力电器股份有限公司 | 家电设备操作执行方法、装置、家电设备及可读存储介质 |
CN110085233A (zh) * | 2019-04-08 | 2019-08-02 | 广东美的制冷设备有限公司 | 语音控制方法及其装置、电子设备和计算机可读存储介质 |
US20190389073A1 (en) * | 2019-07-16 | 2019-12-26 | Lg Electronics Inc. | Robot capable of conversation with another robot and method of controlling the same |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN110907895A (zh) * | 2019-12-05 | 2020-03-24 | 重庆商勤科技有限公司 | 噪声监测识别定位方法、系统及计算机可读存储介质 |
CN111968642A (zh) * | 2020-08-27 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音数据处理方法、装置及智能车辆 |
CN114121024A (zh) * | 2020-08-31 | 2022-03-01 | 华为技术有限公司 | 一种唤醒识别方法、音频装置以及音频装置组 |
CN114566171A (zh) * | 2020-11-27 | 2022-05-31 | 华为技术有限公司 | 一种语音唤醒方法及电子设备 |
CN214595740U (zh) * | 2021-01-04 | 2021-11-05 | 美智纵横科技有限责任公司 | 一种基站和清洁系统 |
CN114220450A (zh) * | 2021-11-18 | 2022-03-22 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种空基指控环境强噪音抑制方法 |
CN114172757A (zh) * | 2021-12-13 | 2022-03-11 | 海信视像科技股份有限公司 | 服务器、智能家居系统及多设备语音唤醒方法 |
Non-Patent Citations (2)
Title |
---|
MARKUS VINCZE: "What Older Adults would Like a robot to Do in Their Homes - First results from a User Study in the Homes of Users", 《PROCEEDINGS OF ISR 2016: 47ST INTERNATIONAL SYMPOSIUM ON ROBOTICS》 * |
马可: "基于语音交互的家用智能扫地机器人体验设计研究", 《包装工程》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767769B (zh) | 一种语音识别方法、装置、存储介质及空调 | |
CN108632761B (zh) | 一种基于粒子滤波算法的室内定位方法 | |
CN107643509B (zh) | 定位方法、定位系统及终端设备 | |
US20200047687A1 (en) | Exterior speech interface for vehicle | |
US20180374494A1 (en) | Sound source separation information detecting device capable of separating signal voice from noise voice, robot, sound source separation information detecting method, and storage medium therefor | |
CN105979442B (zh) | 噪声抑制方法、装置和可移动设备 | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
CN104991573A (zh) | 一种基于声源阵列的定位跟踪方法及其装置 | |
US20060245601A1 (en) | Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering | |
Mumolo et al. | Algorithms for acoustic localization based on microphone array in service robotics | |
JP2018165759A (ja) | 音声検出装置、音声検出方法、及びプログラム | |
CN110858488A (zh) | 语音活动检测方法、装置、设备及存储介质 | |
Nakadai et al. | Robust tracking of multiple sound sources by spatial integration of room and robot microphone arrays | |
CN106028446B (zh) | 室内停车场定位方法 | |
KR20130096539A (ko) | 자율 이동장치 및 그 제어 방법 | |
CN110795523A (zh) | 车辆定位方法、装置以及智能车辆 | |
US11290977B1 (en) | System for localizing wireless transmitters with an autonomous mobile device | |
CN109273020A (zh) | 音频信号处理方法、装置、设备和存储介质 | |
CN110087451A (zh) | 情绪改善装置以及情绪改善方法 | |
CN108733059A (zh) | 一种导览方法及机器人 | |
CN110087450A (zh) | 工作系统以及工作方法 | |
CN111323753A (zh) | 定位汽车内语音源的方法 | |
JPH07218614A (ja) | 音源位置算出方法およびその装置 | |
CN113566820B (zh) | 一种基于位置指纹和pdr算法的融合人行定位方法 | |
US11310593B2 (en) | Voice input device and method for estimation of utterance direction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |