CN110726972A - 干扰及高混响环境下使用传声器阵列的语音声源定位方法 - Google Patents

干扰及高混响环境下使用传声器阵列的语音声源定位方法 Download PDF

Info

Publication number
CN110726972A
CN110726972A CN201910998291.0A CN201910998291A CN110726972A CN 110726972 A CN110726972 A CN 110726972A CN 201910998291 A CN201910998291 A CN 201910998291A CN 110726972 A CN110726972 A CN 110726972A
Authority
CN
China
Prior art keywords
frequency
representing
time
formula
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910998291.0A
Other languages
English (en)
Other versions
CN110726972B (zh
Inventor
王浩
卢晶
刘晓峻
狄敏
邵治英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd
Nanjing University
Original Assignee
Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd, Nanjing University filed Critical Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd
Priority to CN201910998291.0A priority Critical patent/CN110726972B/zh
Publication of CN110726972A publication Critical patent/CN110726972A/zh
Application granted granted Critical
Publication of CN110726972B publication Critical patent/CN110726972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders

Abstract

本发明公开了一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,步骤如下:(1)设定参数;(2)短时傅里叶变换,得到时‑频域信号;(3)对时‑频域信号的每个时‑频点,计算对数化的交叉谱幅度均值,获得“能量”包络;(4)对时‑频域信号的每个时‑频点,计算“能量”包络的“变化率”;(5)利用瞬态噪声特征,判断并定位瞬态噪声;(6)选择直达声对应的时‑频点,并忽略瞬态噪声部分;(7)对选中的时‑频点,应用加权SRP‑PHAT方法,得到定位结果。本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。

Description

干扰及高混响环境下使用传声器阵列的语音声源定位方法
技术领域
本发明涉及一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,属于语音信号处理的技术领域。
背景技术
语音信号声源定位(Speech Source Localization , SSL)目的是估计语音信号到达传声器阵列时的角度(Direction-of-Arrival , DOA)。使用一个传声器阵列,对语音信号进行声源定位,或者说DOA估计,在声信号处理中是一个非常重要也是非常热点的话题。在很多应用场景对声音的捕捉有非常重要的作用,比如智能设备的人机语音交互、镜头追踪以及智能监控。这个问题的困难之处在于语音信号是一个宽带的非平稳随机过程,同时还存在本底噪声、混响和其他干扰声源。
经典的声源定位的方法可分为TDOA(Time Delay Of Arrival)、SRP (SteeredResponse Power)和Spatial Spectrum三大类。在大量的应用场景中,不仅存在混响,还存在噪声干扰,目前绝大多数方法都无法在这样的复杂环境保持很高的准确性和鲁棒性。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,包括以下步骤:
步骤1,直达声选取
步骤1.1,在房间中布置1个声源,使用I个传声器构成的传声器阵列来采集信号,采集信号的交叉谱幅度均值表示为:
Figure 980738DEST_PATH_IMAGE001
(1)
并对数化表示为:
Figure 299724DEST_PATH_IMAGE002
(2)
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,
Figure 546029DEST_PATH_IMAGE003
表示采集信号的交叉谱 幅度均值,
Figure 557847DEST_PATH_IMAGE004
表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对值, *表示共轭操作,P(n,k)是信号在频率内的功率包络;
步骤1.2,根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的变化率:
Figure 317173DEST_PATH_IMAGE006
(3)
式中,
Figure 542618DEST_PATH_IMAGE007
表示对数化的交叉谱幅度均值的变化率,
Figure 600704DEST_PATH_IMAGE008
表示用于计算“变化率”的 帧数范围,P(nt,k)是比P(n,k)早t帧的对应于帧数nt频率为k的功率包络;
步骤1.3,由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来,认为其通过直达声选取(DPD)测试,组成一个直达声候选集合:
Figure 177179DEST_PATH_IMAGE009
(4)
其中,
Figure 733841DEST_PATH_IMAGE010
表示直达声候选集合,
Figure 813793DEST_PATH_IMAGE011
表示第n帧第k频带对应的时-频点;
步骤2,瞬态噪声的判定与消除
步骤2.1,通过以下两个判定准则判别瞬态噪声:
1),计算每一帧的“能量”
Figure 308359DEST_PATH_IMAGE012
, 寻找“能量”局部极大值的帧
Figure 106551DEST_PATH_IMAGE013
(5)
2),判断
Figure 711976DEST_PATH_IMAGE014
(6)
Figure 646434DEST_PATH_IMAGE015
(7)
式中,
Figure 311901DEST_PATH_IMAGE016
表示每一帧的“能量”,n v 表示“能量”局部极大值的帧,dn表示“能量变化率” 计算范围,Δn表示“局部”的范围,V 1V 2分别为“能量”的上升和下降的阈值;
步骤2.2,如果全部满足步骤2.1的两个判定准则,n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式改写为
Figure 597389DEST_PATH_IMAGE017
(8)
式中
Figure 740926DEST_PATH_IMAGE018
(9)
步骤3,利用选取的直达声进行语音声源定位
采用加权SRP-PHAT方法对选中的时-频点进行定位,表示为:
Figure 795469DEST_PATH_IMAGE019
(10)
式中
Figure 631838DEST_PATH_IMAGE020
(11)
Figure 139043DEST_PATH_IMAGE021
(12)
式中,
Figure 883008DEST_PATH_IMAGE022
表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为 0,
Figure 933004DEST_PATH_IMAGE023
表示信号交叉谱,
Figure 799328DEST_PATH_IMAGE024
表示频域信号,上标“H”和“T”分别表示复数共轭转置和 转置;g(k,θ)表示为θ方向的导向向量。
优选的:传声器阵列可为任意适合阵列,通常使用线阵列或环阵列。
优选的:如果传声器阵列为线阵列,g(k,θ)表示为:
Figure 931845DEST_PATH_IMAGE025
(13)
式中,
Figure 541818DEST_PATH_IMAGE026
表示以自然对数e为底的指数,
Figure 180741DEST_PATH_IMAGE027
表示虚度变量,
Figure 483546DEST_PATH_IMAGE028
表示声速, d是麦克风阵 列的间距向量,ω k 是频带k对应的角频率。
本发明相比现有技术,具有以下有益效果:
本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。
附图说明
图1为仿真中不同方法的RMSE比较。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,适用于干扰和高混响环境,同时计算量相比同类别算法较小,包括如下步骤:
1.直达声选取(DPD)
在房间中布置1个声源,使用I个传声器来采集信号。本发明中可使用线阵列、环阵列等,不限于阵列形状。用x i (k,l)分别表示第i个传声器在频带k内第l帧的信号,采集信号的交叉谱幅度均值可以表示为:
(1)
并对数化表示为:
Figure 519952DEST_PATH_IMAGE030
(2)
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,
Figure 13382DEST_PATH_IMAGE031
表示采集信号的交叉 谱幅度均值,
Figure 487088DEST_PATH_IMAGE032
表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对 值, *表示共轭操作,P(n,k)是信号在频率内的功率包络。
受到优先效应的启发(Litovsky R Y, Colburn H S, Yost W A, et al. Theprecedence effect[J]. The Journal of the Acoustical Society of America, 1999,106(4): 1633-1654.),语音起始端的时-频点可以被认为主要由直达声组成,此部分包含准确的声源位置信息。此部分功率包络会快速增加,因此我们定义对数化的交叉谱幅度均值的变化率为:
(3)
式中,
Figure 162417DEST_PATH_IMAGE034
表示对数化的交叉谱幅度均值的变化率,
Figure 541446DEST_PATH_IMAGE035
表示用于计算“变化率”的 帧数范围,P(nt,k)是比P(n,k)早t帧的对应于帧数nt频率为k的功率包络。由(3)式计算 出的变化率较大的K(预置的阈值)个时-频点被选择出来,认为其通过直达声选取(DPD)测 试,组成一个直达声候选集合
Figure 873201DEST_PATH_IMAGE036
(4)
其中,
Figure 300772DEST_PATH_IMAGE037
表示直达声候选集合,
Figure 159006DEST_PATH_IMAGE038
表示第n帧第k频带对应的时-频点。很明显,如果 帧移越短,可被选中的点越多,更有利于提高DOA估计的准确度。
2.瞬态噪声的判定与消除
在实际场景中,总会有一些环境干扰。常见的干扰噪声可分为以下几类:稳态噪声,如风机噪声和电气噪声;瞬态噪声,如门的砰砰声、敲击声、键盘声;其他非稳态噪声,如音乐干扰和电视伴音。稳态噪声可以忽略,因为它们的声功率变化不快。目标语音的平均声功率通常大于环境干扰,因此一般情况下期望语音直达声是功率增长较快的时-频点的主要组成部分,但瞬态噪声对直达声判断影响最大,因为瞬态噪声在时-频域中具有较高的功率变化率,大大增加直达声判断中的误判率。瞬态噪声具有功率高、时间间隔短的特点,可以通过以下两个判定准则判别。
(1)计算每一帧的“能量”
Figure 846952DEST_PATH_IMAGE039
, 寻找“能量”局部极大值的帧
Figure 525058DEST_PATH_IMAGE040
(5)
(2)判断
Figure 694002DEST_PATH_IMAGE041
(6)
Figure 406743DEST_PATH_IMAGE042
(7)
式中,
Figure 268520DEST_PATH_IMAGE043
表示每一帧的“能量”,n v 表示“能量”局部极大值的帧,
Figure 699502DEST_PATH_IMAGE044
表示“能量变化 率”计算范围,Δn表示“局部”的范围,V 1V 2分别为“能量”的上升和下降的阈值。
如果上述两个标准全部满足,帧数n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式可以改写为:
Figure 468874DEST_PATH_IMAGE045
(8)
式中
(9)
1.利用选取的直达声进行语音声源定位
我们可以借助常用的定位方法,SRP-PHAT方法,对选中的时-频点进行定位。由于需要对时-频点进行筛选,这里采用加权SRP-PHAT方法,表示为:
Figure 68800DEST_PATH_IMAGE047
(10)
式中
Figure 862444DEST_PATH_IMAGE048
(11)
Figure 497824DEST_PATH_IMAGE049
(12)
式中,表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为 0,
Figure 795262DEST_PATH_IMAGE051
表示信号交叉谱,
Figure 935256DEST_PATH_IMAGE052
表示频域信号,上标“H”和“T”分别表示复数共轭转置和转 置;当(n,k)在集合Π内时,W(n,k)为1,否则为0;g(k,θ)表示为θ方向的导向向量,如果阵列 为线阵列,可表示为:
(13)
式中,d是麦克风阵列的间距向量,ω k 是频带k对应的角频率。若阵列为其他形式的阵列,导向向量可根据具体形状给出。
至此,语音声源定位结果得出。
仿真实例
1.仿真混合语音生成
本发明实施以仿真信号定位为例。仿真时采用Image model生成房间冲激响应与干净语音卷积生成混响环境下的语音,并与相同房间参数,不同声源位置处的Image model生成房间冲激响应与干净干扰卷积叠加,得到混合信号。使用Image model仿真时,传声器阵列单元间距为3.5 cm,房间大小设为7 × 5 × 3 m3;目标声源环绕阵列一周,与阵列中心距离为2 m,干扰声源与目标声源相对阵列中心夹角不小于120°;房间混响时间取0.4 s和1.0s两种情况。每个语音样本的长度为2 s。混响时间为0.4 s和1.0 s各生成2300个混合语音。信号的采样频率为16 KHz。
2.方法处理流程
a)参数设定
首先在表1中给出所提出方法的参数。需要注意的是,所提出的方法在不同的环境中不需对参数进行调整,及所给出参数的可以在各种环境下适用。
表 1 各个参数
Figure 54183DEST_PATH_IMAGE054
b)短时傅里叶变换
对传声器采集到的时域信号做离散短时傅里叶变换得到时-频域信号,所用窗函数为汉宁窗,窗长为32 ms,窗移为0.5 ms。
c)计算“能量”包络
对时-频域信号的每个时-频点:使用(1)(2)式计算对数化的交叉谱幅度均值。
d)估计“能量变化率”
对时-频域信号的每个时-频点:使用(3)式计算“能量”包络的“变化率”。
e)判断并定位瞬态噪声
对时-频域信号的每帧:
1.计算每一帧的“能量”
Figure 428664DEST_PATH_IMAGE055
, 使用(5)式寻找“能量”局部极大值的 帧;
2.对于“能量”局部极大值的帧,使用(6-7)式判断其能量的出现及耗散速率,满足过快的阈值,该帧即可对应于瞬态噪声。
f)选择直达声对应的时-频点,并忽略瞬态噪声部分
对时-频域信号的每个时-频点:使用(8-9)式选择“能量”包络的“变化率”较大的K个时-频点作为直达声筛选的结果,记为集合Π。
g)对选中的时-频点,应用加权SRP-PHAT方法,得到定位结果
对时-频域信号的每个时-频点:使用(10)式对最终的定位结果进行估计。需要注意的是,当时-频点(n,k)在集合Π内时,W(n,k)为1,否则为0。
为了说明本发明算法的优点,以下利用仿真和实验对本发明中提出方法与传统方法进行比较验证。
在不同的方法表示中,DPD-D-FR (PHAT)为本发明中提出的方法,DPD-D-FR(MUSIC)为将所提出方法的第三步中的加权SRP-PHAT定位方法改为加权MUSIC方法,DPD-MUSIC为Rafaely等在(Rafaely B, Kolossa D. Speaker localization in reverberantrooms based on direct path dominance test statistics[C]//Acoustics, Speechand Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE,2017: 6120-6124)中提出的借助矩阵的特征值分解的DPD-test方法,MUSIC方法为经典多信号分类方法 (Multiple Signal classification),SRP-PHAT为经典SRP-PHAT方法。
在仿真条件下,我们使用6通道环阵列,对50个语音样本与46个常见室内噪声和非稳态干扰样本两两混合后进行采样录音。6通道环阵列比较容易在智能设备顶端安装。测试房间为7 × 5 × 3 m3,包括不同的混响:Room 1, T60 = 0.4 s; Room 2, T60 = 1.0 s。阵列中心坐标(3.5 m, 2.2 m, 1.5 m),语音声源在周围10个方向,间隔36°,干扰声源与语音声源相对阵列中心夹角不小于120°,到传声器阵列的距离均为2米,高度相同,信扰比(Signal-to-interference ratio, SIR)为5 dB。声速取344 m/s。不含干扰条件下不同方法定位均方根误差(Root-mean-square error, RMSE)的对比结果见图1。在此定义两个用于比较的指标:P s,定位估计更接近干扰的概率;R s:定位估计更接近目标说话人的数据对应的均方根误差。含干扰的不同方法的P sR s比较见表2。
表2 仿真中不同方法的Ps和Rs比较
Figure 55954DEST_PATH_IMAGE056
在实验中,我们在三个房间中测试:Room 1是视听室,体积4.5 × 7.4 × 3 m3 ,T60= 0.32 s;Room 2是一个小型教室,体积3.6 × 5.2 × 3 m3 ,T60 = 1.20 s;Room 3是混响室,体积7.35 × 5.9 × 5.22 m3 ,T60 ≈ 5 s。使用4通道线阵列对35个语音样本进行录制,录音环境中同时用包含20个不同的常见噪声的干扰样本循环播放,期望声源和干扰源到传声器阵列距离均为2米,高度相同。采样率为16 KHz。语音声源分别在30°和60°处,干扰声源在−45°处。不同方法对应的均方根误差对比见表3。
表3 实验中不同方法的RMSE(°)比较
通过仿真和实验可以看出,本发明中提出的方法在准确性和鲁棒性上优于大多数其它常见方法,DPD-D-FR (PHAT)方法在高混响情况下更稳定,实验中无干扰时最大RMSE为1.2°,存在干扰时,对结果的影响也较小,鲁棒性同样较高。对比DPD-MUSIC方法,有一定优势,不仅如此本发明中方法运算需求量远小于基于矩阵空间分解的直达声判断方法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,其特征在于在高混响条件下有精确的定位效果,并且有效避免冲击噪声对定位效果的影响,包括以下步骤:
步骤1,直达声选取
步骤1.1,在房间中布置1个声源,使用I个传声器构成的传声器阵列来采集信号,采集信号的交叉谱幅度均值表示为:
Figure 824510DEST_PATH_IMAGE001
(1)
并对数化表示为:
(2)
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,
Figure 313053DEST_PATH_IMAGE003
表示采集信号的交叉谱 幅度均值,
Figure 322466DEST_PATH_IMAGE004
表示帧序数,ξ是用来降低背景噪音的影响的正则化项,
Figure DEST_PATH_IMAGE005
表示复数绝对值, * 表示共轭操作,P(n,k)是信号在频率内的功率包络;
步骤1.2,根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的“变化率” :
Figure 291297DEST_PATH_IMAGE006
(3)
式中,
Figure 769158DEST_PATH_IMAGE007
表示对数化的交叉谱幅度均值的“变化率”,表示用于计算“变化率”的 帧数范围,P(nt,k)是比P(n,k)早t帧的对应于帧数nt频率为k的功率包络;
步骤1.3,由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来,认为其通过直达声选取,组成一个直达声候选集合:
(4)
其中,表示直达声候选集合,
Figure 968747DEST_PATH_IMAGE011
表示第n帧第k频带对应的时-频点;
步骤2,瞬态噪声的判定与消除
步骤2.1,通过以下两个判定准则判别瞬态噪声:
1),计算每一帧的“能量”
Figure 210241DEST_PATH_IMAGE012
, 寻找“能量”局部极大值的帧
Figure 801539DEST_PATH_IMAGE013
; (5)
2),判断
(6)
Figure 193654DEST_PATH_IMAGE015
(7)
式中,表示每一帧的“能量”,
Figure 264302DEST_PATH_IMAGE017
“能量”局部极大值的帧,表示“能量变化率”计 算范围,Δn表示“局部”的范围,V 1V 2分别为“能量”的上升和下降的阈值;
步骤2.2,如果全部满足步骤2.1的两个判定准则,n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式改写为:
Figure 540879DEST_PATH_IMAGE019
(8)
式中
Figure 366753DEST_PATH_IMAGE020
(9)
步骤3,利用选取的直达声进行语音声源定位
采用加权SRP-PHAT方法对选中的时-频点进行定位,表示为:
Figure 826815DEST_PATH_IMAGE021
(10)
式中
Figure 43033DEST_PATH_IMAGE022
(11)
(12)
式中,
Figure 137077DEST_PATH_IMAGE024
表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为 0,
Figure 345204DEST_PATH_IMAGE025
表示信号交叉谱,
Figure 189664DEST_PATH_IMAGE026
表示频域信号,上标“H”和“T”分别表示复数共轭转置和转 置;g(k,θ)表示为θ方向的导向向量。
2.根据权利要求1所述干扰及高混响环境下使用传声器阵列的语音声源定位方法,其特征在于:传声器阵列为线阵列或环阵列。
3.根据权利要求2所述干扰及高混响环境下使用传声器阵列的语音声源定位方法,其特征在于:如果传声器使用线阵列,g(k,θ)表示为:
Figure 407018DEST_PATH_IMAGE027
(13)
式中,
Figure 565074DEST_PATH_IMAGE028
表示以自然对数e为底的指数,
Figure 85048DEST_PATH_IMAGE029
Figure 275858DEST_PATH_IMAGE030
表示声速, d是麦克风阵列的间距 向量,ω k 是频带k对应的角频率。
CN201910998291.0A 2019-10-21 2019-10-21 干扰及高混响环境下使用传声器阵列的语音声源定位方法 Active CN110726972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910998291.0A CN110726972B (zh) 2019-10-21 2019-10-21 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910998291.0A CN110726972B (zh) 2019-10-21 2019-10-21 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Publications (2)

Publication Number Publication Date
CN110726972A true CN110726972A (zh) 2020-01-24
CN110726972B CN110726972B (zh) 2022-09-16

Family

ID=69221631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910998291.0A Active CN110726972B (zh) 2019-10-21 2019-10-21 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Country Status (1)

Country Link
CN (1) CN110726972B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445920A (zh) * 2020-03-19 2020-07-24 西安声联科技有限公司 一种多声源的语音信号实时分离方法、装置和拾音器
CN111723415A (zh) * 2020-06-15 2020-09-29 中科上声(苏州)电子有限公司 一种车辆降噪系统的性能评估方法及装置
CN112269158A (zh) * 2020-10-14 2021-01-26 南京南大电子智慧型服务机器人研究院有限公司 一种基于unet结构利用传声器阵列语音源定位方法
CN112799019A (zh) * 2021-01-26 2021-05-14 安徽淘云科技股份有限公司 声源定位方法、装置、电子设备及存储介质
CN113655440A (zh) * 2021-08-09 2021-11-16 西南科技大学 一种自适应折中预白化的声源定位方法
CN113687304A (zh) * 2021-07-07 2021-11-23 浙江大华技术股份有限公司 直达声检测方法、系统以及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100290316A1 (en) * 2007-09-03 2010-11-18 Universite Du Sud Toulon Var Real-time robust method for determining the trajectory of one or more cetaceans by means of passive acoustics, using a laptop computer
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
CN102540137A (zh) * 2011-12-28 2012-07-04 浙江大学 一种基于信号相位差的无线声传感器网络目标定位方法
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
CN103308889A (zh) * 2013-05-13 2013-09-18 辽宁工业大学 复杂环境下被动声源二维doa估计方法
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN110111802A (zh) * 2018-02-01 2019-08-09 南京大学 基于卡尔曼滤波的自适应去混响方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100290316A1 (en) * 2007-09-03 2010-11-18 Universite Du Sud Toulon Var Real-time robust method for determining the trajectory of one or more cetaceans by means of passive acoustics, using a laptop computer
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
CN102540137A (zh) * 2011-12-28 2012-07-04 浙江大学 一种基于信号相位差的无线声传感器网络目标定位方法
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
CN103308889A (zh) * 2013-05-13 2013-09-18 辽宁工业大学 复杂环境下被动声源二维doa估计方法
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN110111802A (zh) * 2018-02-01 2019-08-09 南京大学 基于卡尔曼滤波的自适应去混响方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙长伟等: "混响环境下改进的球谐波域L1-SVD声源定位算法", 《武汉大学学报(理学版)》 *
谭颖等: "改进的SRP-PHAT声源定位方法", 《电子与信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445920A (zh) * 2020-03-19 2020-07-24 西安声联科技有限公司 一种多声源的语音信号实时分离方法、装置和拾音器
CN111445920B (zh) * 2020-03-19 2023-05-16 西安声联科技有限公司 一种多声源的语音信号实时分离方法、装置和拾音器
CN111723415A (zh) * 2020-06-15 2020-09-29 中科上声(苏州)电子有限公司 一种车辆降噪系统的性能评估方法及装置
CN111723415B (zh) * 2020-06-15 2024-02-27 中科上声(苏州)电子有限公司 一种车辆降噪系统的性能评估方法及装置
CN112269158A (zh) * 2020-10-14 2021-01-26 南京南大电子智慧型服务机器人研究院有限公司 一种基于unet结构利用传声器阵列语音源定位方法
CN112799019A (zh) * 2021-01-26 2021-05-14 安徽淘云科技股份有限公司 声源定位方法、装置、电子设备及存储介质
CN112799019B (zh) * 2021-01-26 2023-07-07 安徽淘云科技股份有限公司 声源定位方法、装置、电子设备及存储介质
CN113687304A (zh) * 2021-07-07 2021-11-23 浙江大华技术股份有限公司 直达声检测方法、系统以及计算机可读存储介质
CN113655440A (zh) * 2021-08-09 2021-11-16 西南科技大学 一种自适应折中预白化的声源定位方法

Also Published As

Publication number Publication date
CN110726972B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN110726972B (zh) 干扰及高混响环境下使用传声器阵列的语音声源定位方法
CN109839612B (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
US10026399B2 (en) Arbitration between voice-enabled devices
CN108538310B (zh) 一种基于长时信号功率谱变化的语音端点检测方法
Li et al. Online direction of arrival estimation based on deep learning
JP4912778B2 (ja) 信号源の軌跡をモデル化する方法及びシステム
CN110491403A (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN110544490B (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
Raykar et al. Speaker localization using excitation source information in speech
A Al-Karawi et al. Automatic speaker recognition system in adverse conditions—implication of noise and reverberation on system performance
CN107863099A (zh) 一种新型双麦克风语音检测和增强方法
CN112485761B (zh) 一种基于双麦克风的声源定位方法
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
Nelke et al. Measurement, analysis and simulation of wind noise signals for mobile communication devices
CN109859769A (zh) 一种掩码估计方法及装置
Ganguly et al. Real-time Smartphone implementation of noise-robust Speech source localization algorithm for hearing aid users
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
CN110333484A (zh) 基于环境背景声感知与分析的室内区域级定位方法
Mohammed et al. Mitigate the reverberant effects on speaker recognition via multi-training
CN105791530B (zh) 输出音量调节方法和装置
Pirhosseinloo et al. A new feature set for masking-based monaural speech separation
CN112269158B (zh) 一种基于unet结构利用传声器阵列语音源定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant