CN105096956A - 基于人工智能的智能机器人的多声源判断方法及装置 - Google Patents

基于人工智能的智能机器人的多声源判断方法及装置 Download PDF

Info

Publication number
CN105096956A
CN105096956A CN201510475592.7A CN201510475592A CN105096956A CN 105096956 A CN105096956 A CN 105096956A CN 201510475592 A CN201510475592 A CN 201510475592A CN 105096956 A CN105096956 A CN 105096956A
Authority
CN
China
Prior art keywords
sound
mistiming
microphone
sound source
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510475592.7A
Other languages
English (en)
Other versions
CN105096956B (zh
Inventor
王昕煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510475592.7A priority Critical patent/CN105096956B/zh
Publication of CN105096956A publication Critical patent/CN105096956A/zh
Application granted granted Critical
Publication of CN105096956B publication Critical patent/CN105096956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Manipulator (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种基于人工智能的智能机器人的多声源判断方法及装置,其中,该方法包括:将麦克风阵列接收到的声源信号进行分帧;计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息;以及根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。该实施例的方法,可准确定位出多个声源的位置,并对声源进行准确追踪,并可准确分流出声源信号中每个声源的语音信号。

Description

基于人工智能的智能机器人的多声源判断方法及装置
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于人工智能的智能机器人的多声源判断方法及装置。
背景技术
人工智能(ArtificialIntelligence,简称AI),是指由人工制造出来的系统所表现出来的智能,人工智能是研究如何制造出人造的智能机器或者智能系统,来模拟人类智能活动的能力。人工智能的核心就是令机器具有人的智慧。
随着人工智能技术和计算机技术软硬件的发展,人们对智能机器人(例如家庭型智能机器人)要求的不断提高,人们希望智能机器人能够实现更多的智能操作,例如,可通过声源定位技术定位出声音的源头,并模拟人的行为与用户进行交互,或者根据听到的声音改变自己的行为。也就是说,人们希望智能机器人能够具有人的声觉感官功能,能够对声源定位和追踪,以及可根据用户声源做出对应地反应。
为了使得智能机器人具有声觉感官功能,通常会在智能机器人中放置麦克风,以通过麦克风来定位声源。家庭型智能机器人主要使用2个麦克风来定位声源,具体地,通过计算声源信号与两个麦克风之间的时间差来判断声源。然而,由于麦克风并不能实现人耳的所有功能,仅靠双声道麦克风阵列只能定位前后或左右或上下,其不能准确对多个维度上的方向进行定位,由此将导致智能机器人的运动形式单一,双声道麦克风阵列不适合使用于家庭型机器人中。虽然可通过增加麦克风的数量来提高定位的准确性,但由于智能机器人的体型限制,阵列的排布方式必须非常精确并且与其运动方式相得益彰,过多的麦克风占据了不合理的内部空间,会影响智能机器人他功能的设计与生产。另外,现有的产品中对于动态声源的追踪多处于单一声源并且没有将定位功能有机的融合在一起,不能准确对多声源进行定位且实时追踪。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种基于人工智能的智能机器人的多声源判断方法,该方法可准确定位出声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
本发明的第二个目的在于提出一种基于人工智能的智能机器人的多声源判断装置。
本发明的第三个目的在于提出一种智能机器人。
为实现上述目的,本发明第一方面实施例的基于人工智能的智能机器人的多声源判断方法,包括:将麦克风阵列接收到的声源信号进行分帧,其中,所述麦克风阵列由多个麦克风组成,所述声源信号中包含至少一个声源所发出的语音信号;计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据所述相关值和预设阈值确定所述当前帧声源信号中声源的个数和位置信息;以及根据所述声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和所述麦克风阵列的位置信息对所述声源信号进行分流,以获得所述声源信号中的每个声源的语音信号。
本发明实施例的基于人工智能的智能机器人的多声源判断方法,将麦克风阵列接收到的声源信号进行分帧,其中,麦克风阵列由多个麦克风组成,声源信号中包含至少一个声源所发出的语音信号;计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息;以及根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。由此,准确定位出了声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
为实现上述目的,本发明第二方面实施例的基于人工智能的智能机器人的多声源判断装置,包括:第一预处理模块,用于将麦克风阵列接收到的声源信号进行分帧,其中,所述麦克风阵列由多个麦克风组成,所述声源信号中包含至少一个声源所发出的语音信号;计算模块,用于计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;声源定位模块,用于计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据所述相关值和预设阈值确定所述当前帧声源信号中声源的个数和位置信息;以及分流模块,用于根据所述声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和所述麦克风阵列的位置信息对所述声源信号进行分流,以获得所述声源信号中的每个声源的语音信号。
本发明实施例的基于人工智能的智能机器人的多声源判断装置,通过第一预处理模块将麦克风阵列接收到的声源信号进行分帧,然后计算模块计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理,声源定位模块计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息,以及处理模块根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。由此,准确定位出了声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
为了实现上述目的,本发明第三方面实施例的智能机器人,包括本发明第二方面实施例的基于人工智能的智能机器人的多声源判断装置。
根据本发明实施例的智能机器人,可准确定位出声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
附图说明
图1是根据本发明一个实施例的基于人工智能的智能机器人的多声源判断方法的流程图。
图2是麦克风阵列中的麦克风位置关系的示意图。
图3是当前空间中两个声源和球体空间的位置示例图。
图4是根据本发明一个实施例的基于人工智能的智能机器人的多声源判断装置的结构示意图。
图5是根据本发明另一个实施例的基于人工智能的智能机器人的多声源判断装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的智能机器人的多声源判断方法、装置和智能机器人。
图1是根据本发明一个实施例的基于人工智能的智能机器人的多声源判断方法的流程图。
如图1所示,该基于人工智能的智能机器人的多声源判断方法包括:
S101,将麦克风阵列接收到的声源信号进行分帧,其中,麦克风阵列由多个麦克风组成。
上述声源信号中包含当前空间中至少一个声源所发出的语音信号。
在本发明的一个实施例中,为了可以实现对声源三维定位,组成麦克风阵列的麦克风数量至少为4个,如果要对四个声源进行定位和追踪,理论上至少需要7个麦克风才组成麦克风阵列,优选地,可由8个麦克风组成麦克风阵列,该麦克风阵列的位置排列关系为:4个麦克风分布在一个平行于底盘,边长为10厘米的正方形的4个顶点上,两层麦克风上下竖直对齐,相距为6厘米。其中,由8个麦克风组成麦克风阵列的位置排列关系的示意图如图2所示,需要时需要说明的是,该图中的黑点表示麦克风。
S102,计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理。
为了减少噪声对计算过程中的影响,在计算当前帧声源信号到每个麦克风对的时间差之前,还可以对麦克风阵列收集到的信息进行加权、降噪、快速傅里叶变换等预处理。
具体地,对麦克风阵列收集到的连续声源信号进行采样,其中,采样率为48kHz,每次采样分成1024份并有50%的相交的数字化数据,在一次定位使用4帧的数据(即40ms)进行计算。
将声源信号从时域采样变换为其在离散傅里叶变换的频域采样,以在频域上对每个频率点进行离散计算和互相关计算。离散傅里叶变换将声音信号从时域转换为1024个频率点在频域上的离散数值。
由于未经加权降噪的计算结果,每一个频率点对于声音数据的总互相关的贡献(即权重)是一样的,即使在某个频率点上占主导地位的是噪声,其对总互相关已然是平等的作用。为使系统对噪声更加稳定,对不同频率点进行加权降噪以减小噪声对总互相关的影响。
其中,加权过程中的所依据的加权公式如下:
w i n = p i n ( k ) p i n ( k ) + 1
其中,公式中的为麦克风i在第n帧时间,频率点为k的先验信噪比,为麦克风i在第n帧时间的加权系数,其中,先验信噪比可通过现有技术计算得到,例如,可通过Ephraim和Malah在"Speechenhancementusingminimummean-squareerrorshort-timespectralamplitudeestimator"中提出的决定指向方法计算先验信噪比。
S103,计算归一化的时间差与预先保存的归一化的时间差之间的相关值,并根据相关值和预设阈值确定当前帧声源信号中潜在声源的位置信息。
在本发明的一个实施例中,在计算归一化的时间差与预先保存的时间差之间的相关值之前,还可以建立以麦克风阵列的位置中心为圆心,半径为1m的球体,并对球面进行均匀划分以在球面上形成预定数量个顶点,以及计算球面上每个顶点到每个麦克风对的时间差,对计算出的时间差进行归一化处理,并保存归一化的时间差。
例如,8个麦克风相互组合,可以得到28个麦克风对,当前麦克风阵列的位置排列关系如图2所示,建立一个以该麦克风阵列的位置中心,且为1m的类球形的边界,球形边界上的顶点即为声音的可能来源方向,初始20个四面体每次切分为4个更小的三角形,切分四次后球面上一共是5120个三角形和2562个顶点。声音从每个顶点到28个麦克风对中的每一对的两个麦克风的时间差(延时)都是不同的,时间差为采样率除以声速再乘以顶点到麦克风对的直线距离,预先计算出每个顶点到每个麦克风对的时间差,并对计算出的时间差进行归一化处理,以及保存2562X28个归一化的时间差,以方便后续根据预设保存的归一化的时间差,确定声源信号中声源的方向和位置。
在本发明的一个实施例中,针对球面上的每个顶点,计算当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的相关值,然后,判断球面上的当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的相关值是否大于预设阈值;如果球面上的当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的相关值大于预设阈值,则确定当前帧声源信号中潜在声源的位置与当前顶点、圆心在同一条直线上;以及根据当前顶点到麦克风对的时间差与当前帧声源信号到对应麦克风对的时间差之间的比例关系以及当前顶点确定声源的位置。
其中,上述声源可以为静态声源和运动声源。
例如,对于球面边界上的一个点a,以及一个麦克风对b,由预计算可以得到点a的声音到达麦克风对b的到达时间延迟t,麦克风收集到的信号进行1024采样的快速傅立叶变换得到信号在频域上的数值,对每个频率域的数值进行离散傅里叶变换、最小控制递归平均噪声估测(MCRA)以及混响因素,再带入延时t,得到点a对麦克风对b的加权和,遍历所有28个麦克风对得到位置a的总加权和。最后比较所有2562个点的总加权和,按从大到小排序并依次分配该声源是在对应点发生的概率。通过加权和与设定的能量阈值的比例得到该点声源是否是需求声源的概率。
再例如,假定当前空间中有两个声源,对应的位置分别如图3所示,需要说明的是,球体的圆心与麦克风阵列的中心位置相同,该麦克风阵列使用了8个麦克风,麦克风阵列的位置关系如图2所示,假定用麦克风0、……、麦克风对27表示这28个麦克风对,此时,在对麦克风阵列中收集的声源信号进行分帧后,对于当前帧声源信号,可计算出当前帧声源信号到28个麦克风对的归一化时间差,然后遍历球面上所有的顶点,计算每个顶点到28个麦克风对的归一化的时间差与计算出的归一化的时间差之间的相关值,并从中找到相关值大于预设阈值的顶点,通过计算可以确定相关值大于预设阈值的顶点为顶点C和顶点D,同时可确定声源A的位置与球面体上的C点和球心o在同一个条直线上,然后,声源A的位置的计算过程为:获得顶点C到麦克风对0的时间差与声源A与麦克风对0的时间差,计算这两个时间差之间的比例关系(即用声源A与麦克风对0的时间差除以顶点C到麦克风对0之后,所获得的计算结果),通过比例关系以及顶点C的位置可以确定出声源A的位置。其中,C点到球心o的方向即为声源A的方向。声源B的位置与球面上的D点和球心o在同一条直线上,通过同样的方式可计算出声源B的位置,其中,D点到球心o的方向即为声源B的方向。需要说明的是,顶点C和顶点D与声源信号之间的能量值比较的大,计算球面上的顶点与声源信号之间的能量值的计算过程相同,下面以顶点C为例对计算过程进行说明。具体地,查出点C到麦克风对0、……、麦克风对27的时间延时(即时间差)pi(i=0,……,27),然后将pi带入互相关计算公式中得到基于延迟pi和声源的频域数值的互相关值R0(pi),遍历全部28个麦克风对,得到对于点C的总能量值E(C)。
S104,根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。
在本发明的一个实施例中,在根据声源的位置信息对每个声源进行追踪之前,还可以通过过滤器对每个潜在声源进行过滤,以获得每个潜在声源的过滤结果。具体地,对于每个潜在声源都有一个由N=2562个粒子组成的过滤器,每个粒子的状态向量是由三维位置及其导数所组成的六维向量。每次预测根据阻尼和刺激系数以及位置,更新其位置及速度(位置导数)状态向量。位置和速度均会归一话为单位球面上的位置和速度。每一轮观察向量结果为"错误观测","尚未追踪到的新声源"和"已追踪的声源"。通过转化方程讲向量结果转化为以上三个假设,再通过条件概率最后计算出过滤结果。
另外,在对声源进行追踪的过程中,对每一个声源进行判断"错误观测","尚未追踪到的新声源"和"已追踪的声源"中的其中一个,再将已追踪过的多个声源和麦克风位置传入到分流模块。
其中,需要说明的是,通过对多帧声源信号进行分析,以及根据分析出的声源的位置信息和速度,以及时间差可以预测出潜在的声源的运动轨迹。
在分流模块中,先由多个追踪声源和麦克风位置构成矩阵并以最小化独立及几何负担为目标优化矩阵,再通过对矩阵进行几何声源分流,通过调整率和自适应率对矩阵进行更新,得到麦克风的协方差矩阵和分流声源的协方差矩阵,并通过反混合矩阵运算以准确获得声源信号中的每个声源的语音信号,以方便后续根据分流出的语音信号进行语音识别,以及还可以将识别出的语音信号与智能机器人的其他功能例如人脸识别相结合,以增加智能机器人的功能,更好的完善智能机器人的使用场景。
其中,上述自适应率是根据最小控制递归平均噪声估测(MCRA)所推算的。
本发明实施例的基于人工智能的智能机器人的多声源判断方法,将麦克风阵列接收到的声源信号进行分帧,其中,麦克风阵列由多个麦克风组成,声源信号中包含至少一个声源所发出的语音信号;计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息;以及根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。由此,准确定位出了声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
为了实现上述实施例,本发明还提出一种基于人工智能的智能机器人的多声源判断装置。
图4是根据本发明一个实施例的基于人工智能的智能机器人的多声源判断装置的结构示意图。
如图4所示,该基于人工智能的智能机器人的多声源判断装置包括第一预处理模块100、计算模块200、声源定位模块300和分流模块400,其中:
第一预处理模块100用于将麦克风阵列接收到的声源信号进行分帧,其中,麦克风阵列由多个麦克风组成,声源信号中包含至少一个声源所发出的语音信号;计算模块200用于计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;声源定位模块300用于计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息;以及分流模块400用于根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。
其中,上述声源信号中包含当前空间中至少一个声源所发出的语音信号。上述声源为静态声源和运动声源。
在本发明的一个实施例中,为了可以实现对声源三维定位,组成麦克风阵列的麦克风数量至少为4个,如果要对四个声源进行定位和追踪,理论上至少需要7个麦克风才组成麦克风阵列,优选地,可由8个麦克风组成麦克风阵列,该麦克风阵列的位置排列关系为:4个麦克风分布在一个平行于底盘,边长为10厘米的正方形的4个顶点上,两层麦克风上下竖直对齐,相距为6厘米。其中,由8个麦克风组成麦克风阵列的位置排列关系的示意图如图2所示。
为了减少噪声对计算过程中的影响,在通过计算模块200计算当前帧声源信号到每个麦克风对的时间差之前,还可以对麦克风阵列收集到的信息进行加权、降噪、快速傅里叶变换等预处理。
具体地,对麦克风阵列收集到的连续声源信号进行采样,其中,采样率为48kHz,每次采样分成1024份并有50%的相交的数字化数据,在一次定位使用4帧的数据(即40ms)进行计算。
将声源信号从时域采样变换为其在离散傅里叶变换的频域采样,以在频域上对每个频率点进行离散计算和互相关计算。离散傅里叶变换将声音信号从时域转换为1024个频率点在频域上的离散数值。
由于未经加权降噪的计算结果,每一个频率点对于声音数据的总互相关的贡献(即权重)是一样的,即使在某个频率点上占主导地位的是噪声,其对总互相关已然是平等的作用。为使系统对噪声更加稳定,对不同频率点进行加权降噪以减小噪声对总互相关的影响。
其中,加权过程中的所依据的加权公式如下:
w i n = p i n ( k ) p i n ( k ) + 1
其中,公式中的为麦克风i在第n帧时间,频率点为k的先验信噪比,为麦克风i在第n帧时间的加权系数,其中,先验信噪比可通过现有技术计算得到,例如,可通过Ephraim和Malah在"Speechenhancementusingminimummean-squareerrorshort-timespectralamplitudeestimator"中提出的决定指向方法计算先验信噪比。
另外,如图5所示,上述装置还可以包括第二预处理模块500,该第二预处理模块500用于在声源定位模块300计算归一化的时间差与预先保存的归一化时间差之间的相关值之前,建立以麦克风阵列的位置中心为圆心,半径为1m的球体,并对球面进行均匀划分以在球面上形成预定数量个顶点;以及计算并存储每个顶点到每个麦克风对的归一化的时间差。
上述声源定位模块300具体用于:计算球面上的当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的当前相关值;判断当前相关值是否大于预设阈值;如果当前相关值大于预设阈值,则确定当前帧声源信号中声源的位置与当前顶点、圆心在同一条直线上;以及根据当前顶点到麦克风对的时间差与当前帧声源信号到对应麦克风对的时间差之间的比例关系以及当前顶点的位置确定声源的位置。
处理模块400在根据声源的位置信息对每个声源进行追踪之前,还可以通过过滤器对每个潜在声源进行过滤,以获得每个潜在声源的过滤结果。具体地,对于每个潜在声源都有一个由N=2562个粒子组成的过滤器,每个粒子的状态向量是由三维位置及其导数所组成的六维向量。每次预测根据阻尼和刺激系数以及位置,更新其位置及速度(位置导数)状态向量。位置和速度均会归一化为单位球体上的位置和速度。每一轮观察向量结果为"错误观测","尚未追踪到的新声源"和"已追踪的声源"。通过转化方程讲向量结果转化为以上三个假设,再通过条件概率最后计算出过滤结果。
另外,在处理模块400对声源进行追踪的过程中,对每一个声源进行判断"错误观测","尚未追踪到的新声源"和"已追踪的声源"中的其中一个,再将已追踪过的多个声源和麦克风位置传入到分流模块。
其中,需要说明的是,处理模块400还可以通过对多帧声源信号进行分析,以及根据分析出的声源的位置信息和速度,以及时间差可以预测出潜在的声源的运动轨迹。
需要说明的是,前述对智能机器人的多声源判断方法实施例的解释说明也适用于该实施例的智能机器人的多声源判断装置,此处不再赘述。
本发明实施例的基于人工智能的智能机器人的多声源判断装置,通过第一预处理模块将麦克风阵列接收到的声源信号进行分帧,然后计算模块计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理,声源定位模块计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据相关值和预设阈值确定当前帧声源信号中声源的个数和位置信息,以及处理模块根据声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和麦克风阵列的位置信息对声源信号进行分流,以获得声源信号中的每个声源的语音信号。由此,准确定位出了声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
为了实现上述实施例,本发明还提出了一种智能机器人,包括本发明第二方面实施例的基于人工智能的智能机器人的多声源判断装置。
根据本发明实施例的智能机器人,可准确定位出声源信号的多个声源的位置,以及可对声源进行追踪,并根据已经追踪过的声源信号和麦克风阵列的位置信息可以准确分流出声源信号中每个声源的语音信号,方便后续根据分流出的语音信号进行语音识别,以及方便了智能机器人根据语音信号进行多维度运动,增加了智能机器人的运动形式,更好的完善智能机器人的使用场景。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种基于人工智能的智能机器人的多声源判断方法,其特征在于,包括以下步骤:
将麦克风阵列接收到的声源信号进行分帧,其中,所述麦克风阵列由多个麦克风组成,所述声源信号中包含至少一个声源所发出的语音信号;
计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;
计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据所述相关值和预设阈值确定所述当前帧声源信号中声源的个数和位置信息;以及
根据所述声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和所述麦克风阵列的位置信息对所述声源信号进行分流,以获得所述声源信号中的每个声源的语音信号。
2.如权利要求1所述的方法,其特征在于,在所述计算归一化的时间差与预先保存的归一化时间差之间的相关值之前,还包括:
建立以所述麦克风阵列的位置中心为圆心,半径为1m的球体,并对球面进行均匀划分以在所述球面上形成预定数量个顶点;
计算并存储每个顶点到每个麦克风对的归一化的时间差。
3.如权利要求1所述的方法,其特征在于,所述多个麦克风包括8个麦克风,所述麦克风阵列的位置排列关系为:4个麦克风分布在一个平行于底盘,边长为10厘米的正方形的4个顶点上,两层麦克风上下竖直对齐,相距为6厘米。
4.如权利要求2所述的方法,其特征在于,所述根据所述相关值和预设阈值确定所述当前帧声源信号中声源的位置信息,包括:
计算所述球面上的当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的当前相关值;
判断所述当前相关值是否大于所述预设阈值;
如果所述当前相关值大于所述预设阈值,则确定所述当前帧声源信号中声源的位置与所述当前顶点、所述圆心在同一条直线上;以及
根据当前顶点到麦克风对的时间差与当前帧声源信号到对应麦克风对的时间差之间的比例关系以及所述当前顶点的位置确定所述声源的位置。
5.如权利要求2所述的方法,其特征在于,所述声源为静态声源和运动声源。
6.一种基于人工智能的智能机器人的多声源判断装置,其特征在于,包括:
第一预处理模块,用于将麦克风阵列接收到的声源信号进行分帧,其中,所述麦克风阵列由多个麦克风组成,所述声源信号中包含至少一个声源所发出的语音信号;
计算模块,用于计算当前帧声源信号到每个麦克风对的时间差,并对计算出的时间差进行归一化处理;
声源定位模块,用于计算归一化的时间差与预先保存的归一化的时间差之间对应的相关值,并根据所述相关值和预设阈值确定所述当前帧声源信号中声源的个数和位置信息;以及
分流模块,用于根据所述声源的位置信息对每个声源进行追踪,并根据已经追踪过的多个声源和所述麦克风阵列的位置信息对所述声源信号进行分流,以获得所述声源信号中的每个声源的语音信号。
7.如权利要求6所述的装置,其特征在于,还包括:
第二预处理模块,用于在所述计算归一化的时间差与预先保存的归一化时间差之间的相关值之前,建立以所述麦克风阵列的位置中心为圆心,半径为1m的球体,并对球面进行均匀划分以在所述球面上形成预定数量个顶点;以及计算并存储每个顶点到每个麦克风对的归一化的时间差。
8.如权利要求6所述的装置,其特征在于,所述多个麦克风包括8个麦克风,所述麦克风阵列的位置排列关系为:4个麦克风分布在一个平行于底盘,边长为10厘米的正方形的4个顶点上,两层麦克风上下竖直对齐,相距为6厘米。
9.如权利要求7所述的装置,其特征在于,所述声源定位模块,具体用于:
计算所述球面上的当前顶点到每个麦克风对的归一化的时间差与计算出的归一化的时间差之间的当前相关值;
判断所述当前相关值是否大于所述预设阈值;
如果所述当前相关值大于所述预设阈值,则确定所述当前帧声源信号中声源的位置与所述当前顶点、所述圆心在同一条直线上;以及
根据当前顶点到麦克风对的时间差与当前帧声源信号到对应麦克风对的时间差之间的比例关系以及所述当前顶点的位置确定所述声源的位置。
10.如权利要求7所述的装置,其特征在于,所述声源为静态声源和运动声源。
11.一种智能机器人,其特征在于,包括:权利要求6-10中任一项所述的基于人工智能的智能机器人的多声源判断装置。
CN201510475592.7A 2015-08-05 2015-08-05 基于人工智能的智能机器人的多声源判断方法及装置 Active CN105096956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510475592.7A CN105096956B (zh) 2015-08-05 2015-08-05 基于人工智能的智能机器人的多声源判断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510475592.7A CN105096956B (zh) 2015-08-05 2015-08-05 基于人工智能的智能机器人的多声源判断方法及装置

Publications (2)

Publication Number Publication Date
CN105096956A true CN105096956A (zh) 2015-11-25
CN105096956B CN105096956B (zh) 2018-11-20

Family

ID=54577239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510475592.7A Active CN105096956B (zh) 2015-08-05 2015-08-05 基于人工智能的智能机器人的多声源判断方法及装置

Country Status (1)

Country Link
CN (1) CN105096956B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959872A (zh) * 2016-04-21 2016-09-21 歌尔股份有限公司 智能机器人和用于智能机器人的声源方向辨别方法
CN106205106A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于声学的智能移动器及其移动方法、定位移动方法
CN106341665A (zh) * 2016-09-30 2017-01-18 浙江宇视科技有限公司 一种跟踪监控方法及装置
CN106872944A (zh) * 2017-02-27 2017-06-20 海尔优家智能科技(北京)有限公司 一种基于麦克风阵列的声源定位方法及装置
CN107346014A (zh) * 2017-06-09 2017-11-14 宇龙计算机通信科技(深圳)有限公司 一种定位方法、装置及终端
CN107863106A (zh) * 2017-12-12 2018-03-30 长沙联远电子科技有限公司 语音识别控制方法及装置
CN108538320A (zh) * 2018-03-30 2018-09-14 广东欧珀移动通信有限公司 录音控制方法和装置、可读存储介质、终端
CN108733420A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、智能设备和存储介质
CN108962263A (zh) * 2018-06-04 2018-12-07 百度在线网络技术(北京)有限公司 一种智能设备控制方法及系统
CN109116301A (zh) * 2018-08-14 2019-01-01 中国电子科技集团公司第三十八研究所 一种基于置信度估计的到达时间差测量方法
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN109760061A (zh) * 2019-03-05 2019-05-17 上海岚豹智能科技有限公司 基于离线语音的机器人控制方法及设备
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110082724A (zh) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN110459220A (zh) * 2019-08-26 2019-11-15 杭州涂鸦信息技术有限公司 一种语音唤醒方法和系统以及可读存储介质、计算机
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN111599380A (zh) * 2020-05-14 2020-08-28 陕西金蝌蚪智能科技有限公司 子弹计数方法、装置、终端及存储介质
CN111933182A (zh) * 2020-08-07 2020-11-13 北京字节跳动网络技术有限公司 声源跟踪方法、装置、设备和存储介质
CN113109764A (zh) * 2021-04-15 2021-07-13 北方工业大学 一种声源定位方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505496A1 (en) * 2005-04-27 2006-10-27 Universite De Sherbrooke Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering
US7254241B2 (en) * 2003-05-28 2007-08-07 Microsoft Corporation System and process for robust sound source localization
CN103426434A (zh) * 2012-05-04 2013-12-04 索尼电脑娱乐公司 结合源方向信息通过独立分量分析的源分离
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
WO2015049199A1 (fr) * 2013-10-01 2015-04-09 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254241B2 (en) * 2003-05-28 2007-08-07 Microsoft Corporation System and process for robust sound source localization
CA2505496A1 (en) * 2005-04-27 2006-10-27 Universite De Sherbrooke Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering
CN103426434A (zh) * 2012-05-04 2013-12-04 索尼电脑娱乐公司 结合源方向信息通过独立分量分析的源分离
WO2015049199A1 (fr) * 2013-10-01 2015-04-09 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959872B (zh) * 2016-04-21 2019-07-02 歌尔股份有限公司 智能机器人和用于智能机器人的声源方向辨别方法
CN105959872A (zh) * 2016-04-21 2016-09-21 歌尔股份有限公司 智能机器人和用于智能机器人的声源方向辨别方法
CN106205106A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于声学的智能移动器及其移动方法、定位移动方法
CN106341665A (zh) * 2016-09-30 2017-01-18 浙江宇视科技有限公司 一种跟踪监控方法及装置
CN106872944A (zh) * 2017-02-27 2017-06-20 海尔优家智能科技(北京)有限公司 一种基于麦克风阵列的声源定位方法及装置
CN107346014A (zh) * 2017-06-09 2017-11-14 宇龙计算机通信科技(深圳)有限公司 一种定位方法、装置及终端
CN107863106A (zh) * 2017-12-12 2018-03-30 长沙联远电子科技有限公司 语音识别控制方法及装置
CN108733420A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、智能设备和存储介质
CN108538320A (zh) * 2018-03-30 2018-09-14 广东欧珀移动通信有限公司 录音控制方法和装置、可读存储介质、终端
CN108538320B (zh) * 2018-03-30 2020-09-11 Oppo广东移动通信有限公司 录音控制方法和装置、可读存储介质、终端
CN108962263B (zh) * 2018-06-04 2019-09-20 百度在线网络技术(北京)有限公司 一种智能设备控制方法及系统
CN108962263A (zh) * 2018-06-04 2018-12-07 百度在线网络技术(北京)有限公司 一种智能设备控制方法及系统
CN109116301A (zh) * 2018-08-14 2019-01-01 中国电子科技集团公司第三十八研究所 一种基于置信度估计的到达时间差测量方法
CN109116301B (zh) * 2018-08-14 2023-02-28 中国电子科技集团公司第三十八研究所 一种基于置信度估计的到达时间差测量方法
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN109709518B (zh) * 2018-12-25 2021-07-20 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN109760061A (zh) * 2019-03-05 2019-05-17 上海岚豹智能科技有限公司 基于离线语音的机器人控制方法及设备
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110082724A (zh) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN110082724B (zh) * 2019-05-31 2021-09-21 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN110459220A (zh) * 2019-08-26 2019-11-15 杭州涂鸦信息技术有限公司 一种语音唤醒方法和系统以及可读存储介质、计算机
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN110648678B (zh) * 2019-09-20 2022-04-22 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN111599380A (zh) * 2020-05-14 2020-08-28 陕西金蝌蚪智能科技有限公司 子弹计数方法、装置、终端及存储介质
CN111933182A (zh) * 2020-08-07 2020-11-13 北京字节跳动网络技术有限公司 声源跟踪方法、装置、设备和存储介质
CN111933182B (zh) * 2020-08-07 2024-04-19 抖音视界有限公司 声源跟踪方法、装置、设备和存储介质
CN113109764A (zh) * 2021-04-15 2021-07-13 北方工业大学 一种声源定位方法及系统
CN113109764B (zh) * 2021-04-15 2023-02-14 北方工业大学 一种声源定位方法及系统

Also Published As

Publication number Publication date
CN105096956B (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN105096956A (zh) 基于人工智能的智能机器人的多声源判断方法及装置
Marković et al. Speaker localization and tracking with a microphone array on a mobile robot using von Mises distribution and particle filtering
Woodruff et al. Binaural localization of multiple sources in reverberant and noisy environments
Ferrer et al. A noise-robust system for NIST 2012 speaker recognition evaluation.
Mumolo et al. Algorithms for acoustic localization based on microphone array in service robotics
GB2552885A (en) Training algorithm for collision avoidance using auditory data
US20090310802A1 (en) Virtual sound source positioning
CN105409247A (zh) 用于音频信号处理的多声道直接-周围分解的装置及方法
Desai et al. A review on sound source localization systems
CN110400572A (zh) 音频增强方法及系统
Saffari et al. Ava (a social robot): Design and performance of a robotic hearing apparatus
Martinez et al. DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters
Liu et al. Azimuthal source localization using interaural coherence in a robotic dog: modeling and application
Bezzam et al. A study on more realistic room simulation for far-field keyword spotting
Traa et al. Blind multi-channel source separation by circular-linear statistical modeling of phase differences
Qayyum et al. DOANet: a deep dilated convolutional neural network approach for search and rescue with drone-embedded sound source localization
Kwak et al. Convolutional neural network trained with synthetic pseudo-images for detecting an acoustic source
Zhang et al. Data augmentation and class-based ensembled CNN-Conformer networks for sound event localization and detection
Laufer-Goldshtein et al. Speaker tracking on multiple-manifolds with distributed microphones
Wang et al. Salient environmental sound detection framework for machine awareness
WO2015009854A2 (en) Sound propagation and perception for autonomous agents in dynamic environments
CN116647780A (zh) 一种用于蓝牙耳机的降噪控制系统及方法
Fuchs et al. Monaural sound localization
Ghamdan et al. Position estimation of binaural sound source in reverberant environments
Papathanasopoulou et al. Flexible car-following models incorporating information from adjacent lanes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant