CN112363112A - 一种基于线性麦克风阵列的声源定位方法及装置 - Google Patents

一种基于线性麦克风阵列的声源定位方法及装置 Download PDF

Info

Publication number
CN112363112A
CN112363112A CN202011093171.5A CN202011093171A CN112363112A CN 112363112 A CN112363112 A CN 112363112A CN 202011093171 A CN202011093171 A CN 202011093171A CN 112363112 A CN112363112 A CN 112363112A
Authority
CN
China
Prior art keywords
sound source
angle
source angle
information
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011093171.5A
Other languages
English (en)
Other versions
CN112363112B (zh
Inventor
陈浩磊
毕永建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202011093171.5A priority Critical patent/CN112363112B/zh
Publication of CN112363112A publication Critical patent/CN112363112A/zh
Application granted granted Critical
Publication of CN112363112B publication Critical patent/CN112363112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC‑PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对初步声源角度进行噪声信息过滤,得到最终的声源定位结果。本发明通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。

Description

一种基于线性麦克风阵列的声源定位方法及装置
技术领域
本发明涉及声源定位技术领域,尤其是涉及一种基于线性麦克风阵列的声源定位方法及装置。
背景技术
声源定位技术主要用于测定声源方位方面,目前在智能音箱、智能机器人、视频会议等领域均有着重要的应用。其中在视频会议场景中,要求对说话人进行特写,目前通常使用阵列算法来提升音质效果,如比较常用的MVDR和DS等波束形成算法,但都非常依赖DOA的精度和时效性。
现有技术中利用麦克风阵列进行声源定位的估计方法可大致分成三类:基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于时延估计的声源定位技术。但考虑到计算复杂度及实时性,目前主要使用基于时延估计的方法进行声源定位,该方法基本思路为先估计时间差,然后根据时间差计算声源方位信息。
但是,在对现有技术的研究与实践的过程中,本发明的发明人发现,现有的声源定位方法存在如下缺陷,例如基于最大输出功率的可控波束形成技术的计算复杂度很高,定位效率低且成本高;基于高分辨率谱图估计技术则需要达成噪声和语音信号完全不相关的前提要求,且计算复杂度高;而基于时延估计的声源定位技术则在多声源场景中定位效果不佳,且抗噪和抗混响效果较差。因此,亟需能够克服至少上述一种缺陷的声源定位方法。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于线性麦克风阵列的声源定位方法及装置,能够优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题。
为解决上述问题,本发明的一个实施例提供了一种基于线性麦克风阵列的声源定位方法,至少包括如下步骤:
采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
作为优选方案,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。
作为优选方案,所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:
对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;
在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。
作为优选方案,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:
分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;
转到频域后计算得到所述两路时域数据的互相关函数;
采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。
作为优选方案,所述根据预设的统计算法计算出初步声源角度,具体为:
将0°至180°均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;
计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;
判断该区间对应的置信度是否满足预设第一阈值;
若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;
若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。
作为优选方案,所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果,具体为:
采集并判断当前场景是否存在超过预设能量阈值的噪声,若是,则进行噪声信息过滤;
利用VAD算法模块计算当前场景的VAD信息,在根据所述VAD信息判断当前帧为噪声时,采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出当前帧每组麦克风组合的声源角度信息;
将所述当前帧每组麦克风组合的声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法选取出峰值高度最大的中心位置,以该中心位置对应的角度作为噪声角度;
根据所述初步声源角度和噪声角度进行声源角度的二次判断,得到最终的声源定位结果。
作为优选方案,所述根据所述初步声源角度和噪声角度进行声源角度的二次判断,具体为:
判断所述初步声源角度与所述噪声角度是否处于同一区间时;若否,则以所述初步声源角度作为最终声源角度;
若是,则选取声源角度信息个数第二多的区间并计算其对应的置信度;
判断该区间对应的置信度是否满足预设第二阈值;
若是,则对所述声源角度信息个数第二多的区间的各个声源角度进行平均值统计,以统计得出的平均值作为最终声源角度;
若否,则以声源角度信息个数最多的区间对应的所述初步声源角度作为最终声源角度。
本发明的一个实施例提供了一种基于线性麦克风阵列的声源定位装置,包括:
声源角度计算模块,用于采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
声源角度统计模块,用于将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
噪声过滤模块,用于在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
本发明的一个实施例提供了一种基于线性麦克风阵列的声源定位的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于线性麦克风阵列的声源定位方法。
本发明的一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于线性麦克风阵列的声源定位方法。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
与现有技术相比,本发明实施例通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。
附图说明
图1为本发明第一实施例提供的一种基于线性麦克风阵列的声源定位方法的流程示意图;
图2为本发明第一实施例提供的计算声源角度信息的流程示意图;
图3为本发明第一实施例提供的统计声源角度的流程示意图;
图4为本发明第一实施例提供的噪声信息过滤的流程示意图;
图5为本发明第二实施例提供的一种基于线性麦克风阵列的声源定位装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
首先介绍本发明可以提供的应用场景,如在视频会议中给出主讲人的定位角度,实现主讲人声音特写的效果。
本发明第一实施例:
请参阅图1-4。
如图1所示,本实施例提供了一种基于线性麦克风阵列的声源定位方法,至少包括如下步骤:
S1、采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息。
在优选的实施例中,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。
具体的,对于步骤S1,如图2所示,首先基于GCC-PHAT的方法,对多组麦克风组合进行计算,得出每帧(10ms)每组的声源角度信息CSmat1、CSmat2、CSmat3……CSmatN;其中,若干组麦克风为均匀分布的线性阵列,即每个麦克风间间距相同,选取合适距离的任意两个麦克风作为一组,在具体实施时,也可以选取多组以增加空间信息量;并且,若干组麦克风中的麦克风可以是重复的,即一个麦克风可以出现在多个组合中。
S2、将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度。
具体的,对于步骤S2,将得到的CSmat1-CSmatN一起放在一个时间窗内进行统计,利用统计算法得出声源角度。其中,所述时间窗可以理解为一个时间段,如以0.5s作为时间窗,即对每0.5s的数据做一次统计,统计一次时间窗内每帧每组的总共数据,例如选取5组麦克风组合,时间窗为0.5s,每帧是10ms,即0.01s,则一次统计总共是5*(0.5/0.01)=250的声源角度信息。
在优选的实施例中,步骤S2中的所述根据预设的统计算法计算出初步声源角度,具体为:
将0°至180°均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;
计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;
判断该区间对应的置信度是否满足预设第一阈值;
若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;
若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。
具体的,预设的统计算法的具体步骤如下:
如图3所示,首先将0°-180°,均匀分成18个区间,如0-10°、10°-20°等,对0.5s内的声源角度信息CSmat1-CSmatN放入对应区间做计数;其次,统计得到各个区间的计数个数,找出其中个数最多的区间A,计算出置信度,其中,置信度=A区间个数/总个数;最后,判断置信度是否满足预设阈值,若置信度满足一定阈值(本实施例中设为50%),则对A区间各角度做一个平均值统计,得出平均值即为声源角度;如不满足则声源角度跟着前一时刻的值。
需要说明的是,由于统计是实时进行的,每一个时间窗内都在进行数据统计,比如时间窗为0.5s,则每个0.5s都会得出一个声源角度,可以保存下来前面几个时间窗的输出。
S3、在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
具体的,对于步骤S3,判断场景下是否存在稳定的能量大的噪声,若是则认为需要过滤噪声,过滤后的得到最终的声源定位结果;若否,则不需要过滤。
在优选的实施例中,步骤S3中的所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果,具体为:
S31、采集并判断当前场景是否存在超过预设能量阈值的噪声,若是,则进行噪声信息过滤;
S32、利用VAD算法模块计算当前场景的VAD信息,在根据所述VAD信息判断当前帧为噪声时,采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出当前帧每组麦克风组合的声源角度信息;
S33、将所述当前帧每组麦克风组合的声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法选取出峰值高度最大的中心位置,以该中心位置对应的角度作为噪声角度;
S34、根据所述初步声源角度和噪声角度进行声源角度的二次判断,得到最终的声源定位结果。
在优选的实施例中,步骤S34中的所述根据所述初步声源角度和噪声角度进行声源角度的二次判断,具体为:
判断所述初步声源角度与所述噪声角度是否处于同一区间时;若否,则以所述初步声源角度作为最终声源角度;
若是,则选取声源角度信息个数第二多的区间并计算其对应的置信度;执行下一步;
判断该区间对应的置信度是否满足预设第二阈值;
若是,则对所述声源角度信息个数第二多的区间的各个声源角度进行平均值统计,以统计得出的平均值作为最终声源角度;
若否,则以声源角度信息个数最多的区间对应的所述初步声源角度作为最终声源角度。
在具体的实施例中,首先通过判断场景是否存在稳定的能量大的噪声;如是,则认为需要过滤噪声信息,否则认为噪声角度为NULL,不进行该操作;利用VAD信息,当判断当前帧为噪声时,进行步骤S1,得到噪声角度信息CNmat1-CNmatN;进行步骤S2,找出峰值高度最大的中心位置,该角度即认为是噪声角度;如图4所示,如果判定出的声源角度和噪声角度是在同一区间,则对个数第二多的B区间,统计置信度,若置信度满足预设第二阈值(本实施例中设为25%),则对B区间各角度做一个平均值统计,得出平均值即为声源角度,否则还是认为A区间统计的平均值为声源角度,此时认为说话人和噪声在同一角度。
其中,在判断场景时需要进行一个能量统计,结合VAD信息,得到在噪声段的能量,如果能量超过某个阈值,并且统计出的能量呈现一定的稳定性,则认为当前场景存在稳定的能量大的噪声,需要过滤噪声信息。根据VAD信息来进行判断,VAD作为一个分类器,把信号分成语音和噪声两类。
在优选的实施例中,步骤S1中所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:
对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;
在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。
具体的,对于GCC-PHAT方法,首先通过两个信号的广义相关函数估计出时间差,由得到的时间差可计算得到角度信息。在此基础上,利用频域加权函数对信号进行归一化处理,尽量减少噪声和混响的影响,突出峰值。
选取两个麦克风,计算x1(k)和x2(k)的时间差,可以计算两个信号的互相关函数,找到使互相关函数最大的值即是这两个信号的时间差,
R(τ)=E[x1(k)·x2(k+τ)];
求时间差就是找到互相关函数最大时的点:
D=argmaxR(τ);
其中,x1(k)和x2(k)是代表两个麦克风上的信号,是一个数组。τ是时延,相当于对x2(k)进行左右移位。
在优选的实施例中,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:
分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;
转到频域后计算得到所述两路时域数据的互相关函数;
采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。
具体的,由于按照时域卷积的方式求互相关函数的方法计算复杂度较大,所以将在频域进行操作(通过傅里叶变换和傅里叶逆变换),互相关函数的频域等于x1信号频域的共轭乘以x2信号的频域。
故先对两路时域数据(x1、x2)进行加窗分帧处理,并做短时傅里叶变换,转到频域,计算得到互相关函数,利用加权函数凸显峰值,再进行傅里叶逆变换,得到广义互相关函数,在此记为
Figure BDA0002721908320000101
再从
Figure BDA0002721908320000102
中寻找出高度前三的峰值位置,换算成实际角度组成Cmat
其中
Figure BDA0002721908320000103
为加权函数,可用相位变换加权函数,其表达式为:
Figure BDA0002721908320000104
其中,X1、X2是时域数据(x1、x2)经过短时傅里叶变换,得到的频域信息。
具体的,由峰值位置换算得到具体角度的计算过程如下:
1、最大时延为:Δt=dx/vs;dx为两个麦克风的距离,vs为声速,即340m/s。
两个麦克风间最大相差点数为:Nd=Fs*Δt;Fs为采样率;
即两个麦克风A、B,采样点的相对差值范围在[-Nd,Nd]。本实施例以两个麦克风连线的法线方向设定为90°,此时相差0个点;声源从平行麦克风连线的左侧入射,设定为0°,时相差Nd点;声源从平行麦克风连线的右侧入射,设定为180°,此时相差-Nd点。
2、假设现相差n个点,每个点的时间间隔为:1/Fs,故声源相对两个麦克风A、B的距离差为:n*vs/Fs;则角度为:
Figure BDA0002721908320000111
本实施例提供的一种基于线性麦克风阵列的声源定位方法,包括:采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
本实施例首先基于GCC-PHAT方案计算得出多组麦克风的相对角度;再利用统计算法做后处理,找出声源位置,定位说话人;与传统的声源定位算法相比,本实施例通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。
本发明第二实施例:
请参阅图5。
如图5所示,本实施例提供了一种基于线性麦克风阵列的声源定位装置,包括:
声源角度计算模块100,用于采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息。
具体的,对于声源角度计算模块100,首先基于GCC-PHAT的方法,对多组麦克风组合进行计算,得出每帧(10ms)每组的声源角度信息CSmat1、CSmat2、CSmat3……CSmatN;其中,若干组麦克风为均匀分布的线性阵列,即每个麦克风间间距相同,选取合适距离的任意两个麦克风作为一组,在具体实施时,也可以选取多组以增加空间信息量;并且,若干组麦克风中的麦克风可以是重复的,即一个麦克风可以出现在多个组合中。
声源角度统计模块200,用于将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度。
具体的,对于声源角度统计模块200,将得到的CSmat1-CSmatN一起放在一个时间窗内进行统计,利用统计算法得出声源角度。其中,所述时间窗可以理解为一个时间段,如以0.5s作为时间窗,即对每0.5s的数据做一次统计,统计一次时间窗内每帧每组的总共数据,例如选取5组麦克风组合,时间窗为0.5s,每帧是10ms,即0.01s,则一次统计总共是5*(0.5/0.01)=250的声源角度信息。
噪声过滤模块300,用于在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
具体的,对于噪声过滤模块300,判断场景下是否存在稳定的能量大的噪声,若是则认为需要过滤噪声,过滤后的得到最终的声源定位结果;若否,则不需要过滤,以所述初步角度作为最终声源定位结果。
本实施例能够通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。
本发明的一个实施例提供了一种基于线性麦克风阵列的声源定位的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于线性麦克风阵列的声源定位方法。
本发明的一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于线性麦克风阵列的声源定位方法。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (10)

1.一种基于线性麦克风阵列的声源定位方法,其特征在于,至少包括如下步骤:
采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
2.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。
3.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:
对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;
在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。
4.根据权利要求3所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:
分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;
转到频域后计算得到所述两路时域数据的互相关函数;
采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。
5.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述根据预设的统计算法计算出初步声源角度,具体为:
将0°至180°均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;
计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;
判断该区间对应的置信度是否满足预设第一阈值;
若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;
若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。
6.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果,具体为:
采集并判断当前场景是否存在超过预设能量阈值的噪声,若是,则进行噪声信息过滤;
利用VAD算法模块计算当前场景的VAD信息,在根据所述VAD信息判断当前帧为噪声时,采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出当前帧每组麦克风组合的声源角度信息;
将所述当前帧每组麦克风组合的声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法选取出峰值高度最大的中心位置,以该中心位置对应的角度作为噪声角度;
根据所述初步声源角度和噪声角度进行声源角度的二次判断,得到最终的声源定位结果。
7.根据权利要求6所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述根据所述初步声源角度和噪声角度进行声源角度的二次判断,具体为:
判断所述初步声源角度与所述噪声角度是否处于同一区间时;若否,则以所述初步声源角度作为最终声源角度;
若是,则选取声源角度信息个数第二多的区间并计算其对应的置信度;
判断该区间对应的置信度是否满足预设第二阈值;
若是,则对所述声源角度信息个数第二多的区间的各个声源角度进行平均值统计,以统计得出的平均值作为最终声源角度;
若否,则以声源角度信息个数最多的区间对应的所述初步声源角度作为最终声源角度。
8.一种基于线性麦克风阵列的声源定位装置,其特征在于,包括:
声源角度计算模块,用于采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
声源角度统计模块,用于将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
噪声过滤模块,用于在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
9.一种基于线性麦克风阵列的声源定位的终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于线性麦克风阵列的声源定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于线性麦克风阵列的声源定位方法。
CN202011093171.5A 2020-10-13 2020-10-13 一种基于线性麦克风阵列的声源定位方法及装置 Active CN112363112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011093171.5A CN112363112B (zh) 2020-10-13 2020-10-13 一种基于线性麦克风阵列的声源定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011093171.5A CN112363112B (zh) 2020-10-13 2020-10-13 一种基于线性麦克风阵列的声源定位方法及装置

Publications (2)

Publication Number Publication Date
CN112363112A true CN112363112A (zh) 2021-02-12
CN112363112B CN112363112B (zh) 2024-04-09

Family

ID=74507210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011093171.5A Active CN112363112B (zh) 2020-10-13 2020-10-13 一种基于线性麦克风阵列的声源定位方法及装置

Country Status (1)

Country Link
CN (1) CN112363112B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687305A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 声源方位的定位方法、装置、设备及计算机可读存储介质
EP4325489A1 (en) * 2022-08-17 2024-02-21 Caterpillar Inc. Detection of audio communication signals present in a high noise environment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108802690A (zh) * 2018-05-30 2018-11-13 大连民族大学 一种基于麦克风阵列的机器人声源定位系统及装置
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN110794368A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108802690A (zh) * 2018-05-30 2018-11-13 大连民族大学 一种基于麦克风阵列的机器人声源定位系统及装置
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN110794368A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG LI: ""Continuous Sound Source Localization based on microphone Array for Mobile Robots"", 《THE 2010 IEEE INTERNATIONAL CONFERENCE》, pages 4332 - 4337 *
J.M PEREZ: ""Evaluation of Generalized Cross-correlation methods for direction"", 《ELSEVIER》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687305A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 声源方位的定位方法、装置、设备及计算机可读存储介质
EP4325489A1 (en) * 2022-08-17 2024-02-21 Caterpillar Inc. Detection of audio communication signals present in a high noise environment

Also Published As

Publication number Publication date
CN112363112B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111025233B (zh) 一种声源方向定位方法和装置、语音设备和系统
CN106251877B (zh) 语音声源方向估计方法及装置
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及系统
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN108109617A (zh) 一种远距离拾音方法
US11869481B2 (en) Speech signal recognition method and device
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN111429939A (zh) 一种双声源的声音信号分离方法和拾音器
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN113514801A (zh) 基于深度学习的麦克风阵列声源定位方法及声源识别方法
CN113903353A (zh) 一种基于空间区分性检测的定向噪声消除方法及装置
CN110111802A (zh) 基于卡尔曼滤波的自适应去混响方法
Rascon et al. Lightweight multi-DOA tracking of mobile speech sources
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN111883153B (zh) 一种基于麦克风阵列的双端讲话状态检测方法及装置
CN109901114B (zh) 一种适用于声源定位的时延估计方法
Abutalebi et al. Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
CN115620739A (zh) 指定方向的语音增强方法及电子设备和存储介质
Ihara et al. Multichannel speech separation and localization by frequency assignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant