CN211529608U - 机器人及其语音识别装置 - Google Patents

机器人及其语音识别装置 Download PDF

Info

Publication number
CN211529608U
CN211529608U CN201921877935.2U CN201921877935U CN211529608U CN 211529608 U CN211529608 U CN 211529608U CN 201921877935 U CN201921877935 U CN 201921877935U CN 211529608 U CN211529608 U CN 211529608U
Authority
CN
China
Prior art keywords
signal
voice signal
voice
microphone array
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201921877935.2U
Other languages
English (en)
Inventor
蒲东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Chengdu Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Chengdu Technologies Co ltd filed Critical Cloudminds Chengdu Technologies Co ltd
Priority to CN201921877935.2U priority Critical patent/CN211529608U/zh
Application granted granted Critical
Publication of CN211529608U publication Critical patent/CN211529608U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本公开涉及一种机器人及其语音识别装置,属于语音处理领域,能够在各种场景下准确地进行语音识别。一种应用于机器人的语音识别装置,包括:分布式麦克风阵列,该分布式麦克风阵列包括位于所述机器人的正面上的第一麦克风阵列和位于所述机器人的背面上的第二麦克风阵列,用于分别获取第一语音信号和第二语音信号;语音处理器,用于融合所述第一语音信号和所述第二语音信号进行语音识别。

Description

机器人及其语音识别装置
技术领域
本公开涉及语音处理领域,具体地,涉及一种机器人及其语音识别装置。
背景技术
目前,通常会在机器人身上安装单麦、线性麦克风,以进行语音识别。然而,当将机器人应用到诸如会展、营业厅等环境中时,由于环境嘈杂而且机器人是不断运动的,所以语音识别准确率差。
实用新型内容
本公开的目的是提供一种机器人及其语音识别装置,能够在各种场景下准确地进行语音识别。
根据本公开的第一实施例,提供一种应用于机器人的语音识别装置,包括:分布式麦克风阵列,该分布式麦克风阵列包括位于所述机器人的正面上的第一麦克风阵列和位于所述机器人的背面上的第二麦克风阵列,用于分别获取第一语音信号和第二语音信号;语音处理器,用于融合所述第一语音信号和所述第二语音信号进行语音识别。
可选地,所述第一麦克风阵列和所述第二麦克风阵列分别是下述中的一者:线性麦克风阵列、环形麦克风阵列和球面麦克风阵列。
可选地,所述第一麦克风阵列位于所述机器人的前胸上,所述第二麦克风阵列位于所述机器人的后背上。
可选地,所述语音处理器包括:音源方向确定单元,用于基于所述第一语音信号确定第一音源方向,基于所述第二语音信号确定第二音源方向;波束成形单元,用于对确定出所述第一音源方向的所述第一语音信号执行波束成形,对确定出所述第二音源方向的所述第二语音信号执行波束成形;信噪比计算单元,用于分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比;降噪处理单元,用于将信噪比优的语音信号用作噪声参考信号,并利用所述噪声参考信号对信噪比差的语音信号进行降噪处理;以及语音识别单元,用于基于降噪处理后的语音信号进行语音识别。
可选地,所述波束成形单元用于:利用所述第一麦克风阵列所对应的第一面阵计算所述第一语音信号的第一空间延迟,利用所述第二麦克风阵列所对应的第二面阵计算所述第二语音信号的第二空间延迟;根据所述第一空间延迟计算所述第一语音信号的方向向量的权重并更新相对应的阻止矩阵,根据所述第二空间延迟计算所述第二语音信号的方向向量的权重并更新相对应的阻止矩阵。
可选地,所述语音处理器还包括最终音源方向确定单元,用于将信噪比优的语音信号的音源方向确定为最终音源方向。
可选地,所述语音处理器还包括回声消除单元,用于在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。
根据本公开的第二实施例,提供一种机器人,包括根据本公开第一实施例所述的语音识别装置。
根据本公开的第三实施例,提供一种应用于机器人的语音识别方法,包括:由位于所述机器人的正面上的第一麦克风阵列获取第一语音信号,由位于所述机器人的背面上的第二麦克风阵列获取第二语音信号;融合所述第一语音信号和所述第二语音信号进行语音识别。
可选地,所述融合所述第一语音信号和所述第二语音信号进行语音识别,包括:基于所述第一语音信号确定第一音源方向,基于所述第二语音信号确定第二音源方向;对确定出所述第一音源方向的所述第一语音信号执行波束成形,对确定出所述第二音源方向的所述第二语音信号执行波束成形;分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比;将信噪比优的语音信号用作噪声参考信号,并利用所述噪声参考信号对信噪比差的语音信号进行降噪处理;以及基于降噪处理后的语音信号进行语音识别。
可选地,所述对确定出所述第一音源方向的所述第一语音信号执行波束成形,对确定出所述第二音源方向的所述第二语音信号执行波束成形,包括:利用所述第一麦克风阵列所对应的第一环形面阵计算所述第一语音信号的第一空间延迟,利用所述第二麦克风阵列所对应的第二环形面阵计算所述第二语音信号的第二空间延迟;根据所述第一空间延迟计算所述第一语音信号的方向向量的权重并更新相对应的阻止矩阵,根据所述第二空间延迟计算所述第二语音信号的方向向量的权重并更新相对应的阻止矩阵。
可选地,所述方法还包括:将信噪比优的语音信号的音源方向确定为最终音源方向。
可选地,所述方法还包括:在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。
通过采用上述技术方案,由于根据本公开实施例的语音识别装置和方法是利用位于机器人正面和背面上的分布式麦克风阵列进行拾音并融合第一语音信号和第二语音信号进行语音识别,因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中,能够进行360度定位和拾音,准确地进行语音识别,增强了语音交互的鲁棒性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1示出根据本公开一种实施例的应用于机器人的语音识别装置的示意框图。
图2示出了第一麦克风阵列和第二麦克风阵列分别位于机器人的前胸和后背上并且均是8麦环形麦克风阵列的示意图。
图3a和3b分别示出了平着和竖着放置的环形麦克风阵列的示意图。
图4示出根据本公开一种实施例的应用于机器人的语音识别方法的流程图。
图5示出如何融合第一语音信号和第二语音信号进行语音识别的流程图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1示出根据本公开一种实施例的应用于机器人的语音识别装置的示意框图。如图1所示,该语音识别装置包括:分布式麦克风阵列1,该分布式麦克风阵列1包括位于机器人的正面上的第一麦克风阵列11和位于机器人的背面上的第二麦克风阵列12,用于分别获取第一语音信号和第二语音信号;语音处理器2,用于融合第一语音信号和第二语音信号进行语音识别。
第一麦克风阵列11可以布置在机器人的前胸、腿的正面等至少一个位置上,优选布置在前胸上。第二麦克风阵列12可以布置在机器人的后背、后脑勺、腿的背面等至少一个位置上,优选布置在后背上。
第一麦克风阵列11和第二麦克风阵列12可以分别是下述中的一者:线性麦克风阵列、环形麦克风阵列和球面麦克风阵列。例如,第一麦克风阵列11和第二麦克风阵列12可以均由环形麦克风阵列实现,也可以是第一麦克风阵列11由线性麦克风阵列实现而第二麦克风阵列12由环形麦克风阵列实现,等等。另外,线性麦克风阵列可以是n行m列的阵列,其中n和m均为大于2的正整数,以便实现360度的语音识别;环形麦克风阵列可以是j麦麦克风阵列,其中j是大于4的正整数,例如可以是4麦环形麦克风阵列、5麦环形麦克风阵列、8麦环形麦克风阵列等等。
借助第一麦克风阵列11,实现了机器人正面空间的三维定位拾音,借助第二麦克风阵列12,实现了机器人背面空间的三维定位拾音,通过低压麦克风阵列11和第二麦克风阵列12的结合则可以实现整个机器人四面八方、无死角的空间定位拾音,能够实现更为聚焦的波束成形,提升降噪效果。而且,通过分布式麦克风阵列的布置,能够解决机器人的身体不平滑有起伏导致麦克风孔径深度不一致的问题以及机器人产品体态导致的无法部署麦克风来有效接收任意方向的语音的问题。
图2示出了第一麦克风阵列11和第二麦克风阵列12分别位于机器人的前胸和后背上并且均是8麦环形麦克风阵列的示意图。图2中的双箭头表示标号12所指示的8麦环形麦克风阵列位于机器人的后背上。则,第一麦克风阵列11获取到的第一语音信号就是8通道的语音信号,第二麦克风阵列12获取到的第二语音信号也是8通道的语音信号。
通过采用上述技术方案,由于根据本公开实施例的语音识别装置包括位于机器人正面和背面上的分布式麦克风阵列,而且语音处理器2是融合第一语音信号和第二语音信号进行语音识别,因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中,能够进行360度定位和拾音,准确地进行语音识别,增强了语音交互的鲁棒性。
在一种实施方式中,语音处理器2可以包括音源方向确定单元、波束成形单元、信噪比计算单元、降噪处理单元和语音识别单元。
音源方向确定单元用于基于第一语音信号确定第一音源方向,基于第二语音信号确定第二音源方向,例如可以使用到达方向(Direction of Arrival,DOA)估计算法来确定音源方向。
波束成形单元用于对确定出第一音源方向的第一语音信号执行波束成形,对确定出第二音源方向的第二语音信号执行波束成形。
信噪比计算单元用于分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比。
降噪处理单元,用于将信噪比优的语音信号用作噪声参考信号,并利用噪声参考信号对信噪比差的语音信号进行降噪处理,例如,如果第一语音信号的信噪比优于第二语音信号的信噪比,则降噪处理单元会将第一语音信号用作噪声参考信号,也即在波束成形后的后置滤波处理过程中会将第一语音信号用作后置滤波的噪声谱输入,然后基于例如维纳滤波或者统计模型或其他方法等来完成对第二语音信号中的稳态噪声的消除。在实际应用场景中,由于机器人体态的原因,在交互的过程中,必然会有一面阵列背向实际音源而立,因此,可将正对着实际音源的麦克风阵列用于拾音降噪,将背向实际音源的麦克风阵列用做参考信号。降噪处理单元可以采用各种合适的滤波器来实现。
语音识别单元,用于基于降噪处理后的语音信号进行语音识别。仍以上面所举示例为例,在将第一语音信号用作噪声谱输入来对第二语音信号中的稳态噪声进行消除的情况下,语音识别单元会基于降噪处理后的第二语音信号进行语音识别。
在现有技术中,只采用单一的麦克风阵列进行拾音,因此只需要定位一个音源方向,在进行降噪处理时需要采用利用统计模型得到的噪声谱作为噪声参考信号。而在本申请中,通过由分布式麦克风阵列从机器人的正面和背面分别拾取语音信号,因此需要对各个麦克风阵列所拾取的语音信号分别进行音源方向定位,并且在降噪处理时,是将信噪比优的语音信号用作噪声参考信号,并利用该噪声参考信号来对信噪比差的语音信号进行降噪处理,因此,相比于现有技术,能够进一步避免在较强噪声环境中因采用统计模型带来的噪声谱估计不准确而导致降噪后非线性失真的问题,进而提高了语音识别率及其准确率。
在一种实施方式中,语音处理器2还包括最终音源方向确定单元,用于将信噪比优的语音信号的音源方向确定为最终音源方向。这样,有利于提升机器人移动过程中目标跟踪的准确性。
在现有技术中,诸如平面麦克风阵列、环形麦克风阵列等都是平着放置的,因此在进行波束成形处理时是采用线阵、环阵的计算方式。而在本公开中,麦克风阵列是被竖着布置在机器人身上的。图3a和3b分别示出了平着和竖着放置的环形麦克风阵列的示意图。发明人发现,现有由的线阵、环阵计算方式不再适用,否则会导致波束成形处理结果不准确。因此,需要对现有的波束成形进行改进,才能实现对竖着放置的麦克风阵列拾取的语音信号进行波束成形处理。也即,波束成形单元用于:利用第一麦克风阵列11所对应的第一面阵计算第一语音信号的第一空间延迟,利用第二麦克风阵列12所对应的第二面阵计算第二语音信号的第二空间延迟,例如,当第一麦克风阵列11和第二麦克风阵列12都是环形麦克风阵列时,第一面阵和第二面阵均是环形面阵;根据第一空间延迟计算第一语音信号的方向向量的权重并更新相对应的阻止矩阵,根据第二空间延迟计算第二语音信号的方向向量的权重并更新相对应的阻止矩阵。通过采用上述技术方案,能够使波束成形处理的结果更准确,进而使语音识别准确率更高。
在一种实施方式中,语音处理器2还包括回声消除单元,用于在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。在会展、营业厅等场所中,喇叭播放的声音会弥漫全场,因此选择哪个麦克风阵列作为回声消除其效果基本一致,原则上是选择距离喇叭远一些的麦克风阵列进行回声消除,原因是受喇叭腔体的震动或者非线性变化影响最小,同时波束成形的优势会发挥的更好。
根据本公开的又一实施例,提供一种机器人,该机器人包括根据本公开实施例的语音识别装置。
图4示出根据本公开一种实施例的应用于机器人的语音识别方法的流程图。如图4所示,该方法包括:
在步骤S41中,由位于机器人的正面上的第一麦克风阵列获取第一语音信号,由位于机器人的背面上的第二麦克风阵列获取第二语音信号;
在步骤S42中,融合第一语音信号和第二语音信号进行语音识别。
通过采用上述技术方案,由于根据本公开实施例的语音识别方法利用位于机器人正面和背面上的分布式麦克风阵列进行拾音并融合第一语音信号和第二语音信号进行语音识别,因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中,能够进行360度定位和拾音,准确地进行语音识别,增强了语音交互的鲁棒性。
图5示出如何融合第一语音信号和第二语音信号进行语音识别的流程图。如图5所示,包括:
在步骤S42a中,基于第一语音信号确定第一音源方向,基于第二语音信号确定第二音源方向;
在步骤S42b中,对确定出第一音源方向的第一语音信号执行波束成形,对确定出第二音源方向的第二语音信号执行波束成形;
在步骤S42c中,分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比;
在步骤S42d中,将信噪比优的语音信号用作噪声参考信号,并利用噪声参考信号对信噪比差的语音信号进行降噪处理;以及
在步骤S42e中,基于降噪处理后的语音信号进行语音识别。
可选地,步骤S42b中所述的对确定出第一音源方向的第一语音信号执行波束成形,对确定出第二音源方向的第二语音信号执行波束成形,包括:利用第一麦克风阵列所对应的第一环形面阵计算第一语音信号的第一空间延迟,利用第二麦克风阵列所对应的第二环形面阵计算第二语音信号的第二空间延迟;根据第一空间延迟计算第一语音信号的方向向量的权重并更新相对应的阻止矩阵,根据第二空间延迟计算第二语音信号的方向向量的权重并更新相对应的阻止矩阵。
可选地,根据本公开实施例的方法还包括:将信噪比优的语音信号的音源方向确定为最终音源方向。
可选地,根据本公开实施例的方法还包括:在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。
根据本公开实施例的语音识别方法中所涉及的各个步骤的具体实现方式已经在根据本公开实施例的装置中进行了详细描述,此处不再赘述。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (7)

1.一种应用于机器人的语音识别装置,其特征在于,包括:
分布式麦克风阵列,该分布式麦克风阵列包括位于所述机器人的正面上的第一麦克风阵列和位于所述机器人的背面上的第二麦克风阵列,用于分别获取第一语音信号和第二语音信号;
语音处理器,用于融合所述第一语音信号和所述第二语音信号进行语音识别。
2.根据权利要求1所述的装置,其特征在于,所述第一麦克风阵列和所述第二麦克风阵列分别是下述中的一者:线性麦克风阵列、环形麦克风阵列和球面麦克风阵列。
3.根据权利要求1或2所述的装置,其特征在于,所述语音处理器包括:
音源方向确定单元,用于基于所述第一语音信号确定第一音源方向,基于所述第二语音信号确定第二音源方向;
波束成形单元,用于对确定出所述第一音源方向的所述第一语音信号执行波束成形,对确定出所述第二音源方向的所述第二语音信号执行波束成形;
信噪比计算单元,用于分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比;
降噪处理单元,用于将信噪比优的语音信号用作噪声参考信号,并利用所述噪声参考信号对信噪比差的语音信号进行降噪处理;以及
语音识别单元,用于基于降噪处理后的语音信号进行语音识别。
4.根据权利要求3所述的装置,其特征在于,所述波束成形单元用于:
利用所述第一麦克风阵列所对应的第一面阵计算所述第一语音信号的第一空间延迟,利用所述第二麦克风阵列所对应的第二面阵计算所述第二语音信号的第二空间延迟;
根据所述第一空间延迟计算所述第一语音信号的方向向量的权重并更新相对应的阻止矩阵,根据所述第二空间延迟计算所述第二语音信号的方向向量的权重并更新相对应的阻止矩阵。
5.根据权利要求4所述的装置,其特征在于,所述语音处理器还包括最终音源方向确定单元,用于将信噪比优的语音信号的音源方向确定为最终音源方向。
6.根据权利要求4所述的装置,其特征在于,所述语音处理器还包括回声消除单元,用于在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。
7.一种机器人,其特征在于,包括根据权利要求1至6中任一权利要求所述的语音识别装置。
CN201921877935.2U 2019-11-01 2019-11-01 机器人及其语音识别装置 Active CN211529608U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201921877935.2U CN211529608U (zh) 2019-11-01 2019-11-01 机器人及其语音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201921877935.2U CN211529608U (zh) 2019-11-01 2019-11-01 机器人及其语音识别装置

Publications (1)

Publication Number Publication Date
CN211529608U true CN211529608U (zh) 2020-09-18

Family

ID=72442690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201921877935.2U Active CN211529608U (zh) 2019-11-01 2019-11-01 机器人及其语音识别装置

Country Status (1)

Country Link
CN (1) CN211529608U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751946A (zh) * 2019-11-01 2020-02-04 达闼科技成都有限公司 机器人及其语音识别装置和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751946A (zh) * 2019-11-01 2020-02-04 达闼科技成都有限公司 机器人及其语音识别装置和方法

Similar Documents

Publication Publication Date Title
US10097921B2 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
RU2663343C2 (ru) Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций
US9641929B2 (en) Audio signal processing method and apparatus and differential beamforming method and apparatus
KR101724514B1 (ko) 사운드 신호 처리 방법 및 장치
JP5728094B2 (ja) 到来方向推定から幾何学的な情報の抽出による音取得
US8229134B2 (en) Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
US9973848B2 (en) Signal-enhancing beamforming in an augmented reality environment
KR101761312B1 (ko) 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
US20100123785A1 (en) Graphic Control for Directional Audio Input
KR20140099536A (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
O'Donovan et al. Microphone arrays as generalized cameras for integrated audio visual processing
Padois et al. Acoustic source localization using a polyhedral microphone array and an improved generalized cross-correlation technique
JP2007235334A (ja) オーディオ装置及び指向音生成方法
CN211529608U (zh) 机器人及其语音识别装置
US11044555B2 (en) Apparatus, method and computer program for obtaining audio signals
JP2013110633A (ja) トランスオーラルシステム
CN110751946A (zh) 机器人及其语音识别装置和方法
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Ding et al. DOA estimation of multiple speech sources by selecting reliable local sound intensity estimates
US11895478B2 (en) Sound capture device with improved microphone array
US20190306618A1 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
CN108845292A (zh) 一种声源定位的方法及装置
CN113450769A (zh) 语音提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210309

Address after: 201111 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee after: Dalu Robot Co.,Ltd.

Address before: 610094 West Section of Fucheng Avenue, Chengdu High-tech District, Sichuan Province

Patentee before: CLOUDMINDS (CHENGDU) TECHNOLOGIES Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 201111 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.