CN110726972A - 干扰及高混响环境下使用传声器阵列的语音声源定位方法 - Google Patents
干扰及高混响环境下使用传声器阵列的语音声源定位方法 Download PDFInfo
- Publication number
- CN110726972A CN110726972A CN201910998291.0A CN201910998291A CN110726972A CN 110726972 A CN110726972 A CN 110726972A CN 201910998291 A CN201910998291 A CN 201910998291A CN 110726972 A CN110726972 A CN 110726972A
- Authority
- CN
- China
- Prior art keywords
- frequency
- representing
- time
- formula
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008859 change Effects 0.000 claims abstract description 23
- 230000001052 transient effect Effects 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 150000001875 compounds Chemical class 0.000 claims description 14
- 230000004807 localization Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000004088 simulation Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 102220054093 rs147698935 Human genes 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
Abstract
本发明公开了一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,步骤如下:(1)设定参数;(2)短时傅里叶变换,得到时‑频域信号;(3)对时‑频域信号的每个时‑频点,计算对数化的交叉谱幅度均值,获得“能量”包络;(4)对时‑频域信号的每个时‑频点,计算“能量”包络的“变化率”;(5)利用瞬态噪声特征,判断并定位瞬态噪声;(6)选择直达声对应的时‑频点,并忽略瞬态噪声部分;(7)对选中的时‑频点,应用加权SRP‑PHAT方法,得到定位结果。本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。
Description
技术领域
本发明涉及一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,属于语音信号处理的技术领域。
背景技术
语音信号声源定位(Speech Source Localization , SSL)目的是估计语音信号到达传声器阵列时的角度(Direction-of-Arrival , DOA)。使用一个传声器阵列,对语音信号进行声源定位,或者说DOA估计,在声信号处理中是一个非常重要也是非常热点的话题。在很多应用场景对声音的捕捉有非常重要的作用,比如智能设备的人机语音交互、镜头追踪以及智能监控。这个问题的困难之处在于语音信号是一个宽带的非平稳随机过程,同时还存在本底噪声、混响和其他干扰声源。
经典的声源定位的方法可分为TDOA(Time Delay Of Arrival)、SRP (SteeredResponse Power)和Spatial Spectrum三大类。在大量的应用场景中,不仅存在混响,还存在噪声干扰,目前绝大多数方法都无法在这样的复杂环境保持很高的准确性和鲁棒性。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,包括以下步骤:
步骤1,直达声选取
步骤1.1,在房间中布置1个声源,使用I个传声器构成的传声器阵列来采集信号,采集信号的交叉谱幅度均值表示为:
并对数化表示为:
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,表示采集信号的交叉谱
幅度均值,表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对值,
*表示共轭操作,P(n,k)是信号在频率内的功率包络;
步骤1.2,根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的变化率:
步骤1.3,由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来,认为其通过直达声选取(DPD)测试,组成一个直达声候选集合:
步骤2,瞬态噪声的判定与消除
步骤2.1,通过以下两个判定准则判别瞬态噪声:
2),判断
步骤2.2,如果全部满足步骤2.1的两个判定准则,n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式改写为
式中
步骤3,利用选取的直达声进行语音声源定位
采用加权SRP-PHAT方法对选中的时-频点进行定位,表示为:
式中
式中,表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg
max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为
0,表示信号交叉谱,表示频域信号,上标“H”和“T”分别表示复数共轭转置和
转置;g(k,θ)表示为θ方向的导向向量。
优选的:传声器阵列可为任意适合阵列,通常使用线阵列或环阵列。
优选的:如果传声器阵列为线阵列,g(k,θ)表示为:
本发明相比现有技术,具有以下有益效果:
本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。
附图说明
图1为仿真中不同方法的RMSE比较。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,适用于干扰和高混响环境,同时计算量相比同类别算法较小,包括如下步骤:
1.直达声选取(DPD)
在房间中布置1个声源,使用I个传声器来采集信号。本发明中可使用线阵列、环阵列等,不限于阵列形状。用x i (k,l)分别表示第i个传声器在频带k内第l帧的信号,采集信号的交叉谱幅度均值可以表示为:
(1)
并对数化表示为:
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,表示采集信号的交叉
谱幅度均值,表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对
值, *表示共轭操作,P(n,k)是信号在频率内的功率包络。
受到优先效应的启发(Litovsky R Y, Colburn H S, Yost W A, et al. Theprecedence effect[J]. The Journal of the Acoustical Society of America, 1999,106(4): 1633-1654.),语音起始端的时-频点可以被认为主要由直达声组成,此部分包含准确的声源位置信息。此部分功率包络会快速增加,因此我们定义对数化的交叉谱幅度均值的变化率为:
(3)
式中,表示对数化的交叉谱幅度均值的变化率,表示用于计算“变化率”的
帧数范围,P(n−t,k)是比P(n,k)早t帧的对应于帧数n−t频率为k的功率包络。由(3)式计算
出的变化率较大的K(预置的阈值)个时-频点被选择出来,认为其通过直达声选取(DPD)测
试,组成一个直达声候选集合
2.瞬态噪声的判定与消除
在实际场景中,总会有一些环境干扰。常见的干扰噪声可分为以下几类:稳态噪声,如风机噪声和电气噪声;瞬态噪声,如门的砰砰声、敲击声、键盘声;其他非稳态噪声,如音乐干扰和电视伴音。稳态噪声可以忽略,因为它们的声功率变化不快。目标语音的平均声功率通常大于环境干扰,因此一般情况下期望语音直达声是功率增长较快的时-频点的主要组成部分,但瞬态噪声对直达声判断影响最大,因为瞬态噪声在时-频域中具有较高的功率变化率,大大增加直达声判断中的误判率。瞬态噪声具有功率高、时间间隔短的特点,可以通过以下两个判定准则判别。
(2)判断
如果上述两个标准全部满足,帧数n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式可以改写为:
式中
(9)
1.利用选取的直达声进行语音声源定位
我们可以借助常用的定位方法,SRP-PHAT方法,对选中的时-频点进行定位。由于需要对时-频点进行筛选,这里采用加权SRP-PHAT方法,表示为:
式中
式中,表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg
max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为
0,表示信号交叉谱,表示频域信号,上标“H”和“T”分别表示复数共轭转置和转
置;当(n,k)在集合Π内时,W(n,k)为1,否则为0;g(k,θ)表示为θ方向的导向向量,如果阵列
为线阵列,可表示为:
(13)
式中,d是麦克风阵列的间距向量,ω k 是频带k对应的角频率。若阵列为其他形式的阵列,导向向量可根据具体形状给出。
至此,语音声源定位结果得出。
仿真实例
1.仿真混合语音生成
本发明实施以仿真信号定位为例。仿真时采用Image model生成房间冲激响应与干净语音卷积生成混响环境下的语音,并与相同房间参数,不同声源位置处的Image model生成房间冲激响应与干净干扰卷积叠加,得到混合信号。使用Image model仿真时,传声器阵列单元间距为3.5 cm,房间大小设为7 × 5 × 3 m3;目标声源环绕阵列一周,与阵列中心距离为2 m,干扰声源与目标声源相对阵列中心夹角不小于120°;房间混响时间取0.4 s和1.0s两种情况。每个语音样本的长度为2 s。混响时间为0.4 s和1.0 s各生成2300个混合语音。信号的采样频率为16 KHz。
2.方法处理流程
a)参数设定
首先在表1中给出所提出方法的参数。需要注意的是,所提出的方法在不同的环境中不需对参数进行调整,及所给出参数的可以在各种环境下适用。
表 1 各个参数
b)短时傅里叶变换
对传声器采集到的时域信号做离散短时傅里叶变换得到时-频域信号,所用窗函数为汉宁窗,窗长为32 ms,窗移为0.5 ms。
c)计算“能量”包络
对时-频域信号的每个时-频点:使用(1)(2)式计算对数化的交叉谱幅度均值。
d)估计“能量变化率”
对时-频域信号的每个时-频点:使用(3)式计算“能量”包络的“变化率”。
e)判断并定位瞬态噪声
对时-频域信号的每帧:
2.对于“能量”局部极大值的帧,使用(6-7)式判断其能量的出现及耗散速率,满足过快的阈值,该帧即可对应于瞬态噪声。
f)选择直达声对应的时-频点,并忽略瞬态噪声部分
对时-频域信号的每个时-频点:使用(8-9)式选择“能量”包络的“变化率”较大的K个时-频点作为直达声筛选的结果,记为集合Π。
g)对选中的时-频点,应用加权SRP-PHAT方法,得到定位结果
对时-频域信号的每个时-频点:使用(10)式对最终的定位结果进行估计。需要注意的是,当时-频点(n,k)在集合Π内时,W(n,k)为1,否则为0。
为了说明本发明算法的优点,以下利用仿真和实验对本发明中提出方法与传统方法进行比较验证。
在不同的方法表示中,DPD-D-FR (PHAT)为本发明中提出的方法,DPD-D-FR(MUSIC)为将所提出方法的第三步中的加权SRP-PHAT定位方法改为加权MUSIC方法,DPD-MUSIC为Rafaely等在(Rafaely B, Kolossa D. Speaker localization in reverberantrooms based on direct path dominance test statistics[C]//Acoustics, Speechand Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE,2017: 6120-6124)中提出的借助矩阵的特征值分解的DPD-test方法,MUSIC方法为经典多信号分类方法 (Multiple Signal classification),SRP-PHAT为经典SRP-PHAT方法。
在仿真条件下,我们使用6通道环阵列,对50个语音样本与46个常见室内噪声和非稳态干扰样本两两混合后进行采样录音。6通道环阵列比较容易在智能设备顶端安装。测试房间为7 × 5 × 3 m3,包括不同的混响:Room 1, T60 = 0.4 s; Room 2, T60 = 1.0 s。阵列中心坐标(3.5 m, 2.2 m, 1.5 m),语音声源在周围10个方向,间隔36°,干扰声源与语音声源相对阵列中心夹角不小于120°,到传声器阵列的距离均为2米,高度相同,信扰比(Signal-to-interference ratio, SIR)为5 dB。声速取344 m/s。不含干扰条件下不同方法定位均方根误差(Root-mean-square error, RMSE)的对比结果见图1。在此定义两个用于比较的指标:P s,定位估计更接近干扰的概率;R s:定位估计更接近目标说话人的数据对应的均方根误差。含干扰的不同方法的P s和R s比较见表2。
表2 仿真中不同方法的Ps和Rs比较
在实验中,我们在三个房间中测试:Room 1是视听室,体积4.5 × 7.4 × 3 m3 ,T60= 0.32 s;Room 2是一个小型教室,体积3.6 × 5.2 × 3 m3 ,T60 = 1.20 s;Room 3是混响室,体积7.35 × 5.9 × 5.22 m3 ,T60 ≈ 5 s。使用4通道线阵列对35个语音样本进行录制,录音环境中同时用包含20个不同的常见噪声的干扰样本循环播放,期望声源和干扰源到传声器阵列距离均为2米,高度相同。采样率为16 KHz。语音声源分别在30°和60°处,干扰声源在−45°处。不同方法对应的均方根误差对比见表3。
表3 实验中不同方法的RMSE(°)比较
通过仿真和实验可以看出,本发明中提出的方法在准确性和鲁棒性上优于大多数其它常见方法,DPD-D-FR (PHAT)方法在高混响情况下更稳定,实验中无干扰时最大RMSE为1.2°,存在干扰时,对结果的影响也较小,鲁棒性同样较高。对比DPD-MUSIC方法,有一定优势,不仅如此本发明中方法运算需求量远小于基于矩阵空间分解的直达声判断方法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,其特征在于在高混响条件下有精确的定位效果,并且有效避免冲击噪声对定位效果的影响,包括以下步骤:
步骤1,直达声选取
步骤1.1,在房间中布置1个声源,使用I个传声器构成的传声器阵列来采集信号,采集信号的交叉谱幅度均值表示为:
并对数化表示为:
(2)
式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,表示采集信号的交叉谱
幅度均值,表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对值, *
表示共轭操作,P(n,k)是信号在频率内的功率包络;
步骤1.2,根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的“变化率” :
步骤1.3,由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来,认为其通过直达声选取,组成一个直达声候选集合:
(4)
步骤2,瞬态噪声的判定与消除
步骤2.1,通过以下两个判定准则判别瞬态噪声:
2),判断
(6)
步骤2.2,如果全部满足步骤2.1的两个判定准则,n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式改写为:
式中
步骤3,利用选取的直达声进行语音声源定位
采用加权SRP-PHAT方法对选中的时-频点进行定位,表示为:
式中
(12)
2.根据权利要求1所述干扰及高混响环境下使用传声器阵列的语音声源定位方法,其特征在于:传声器阵列为线阵列或环阵列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910998291.0A CN110726972B (zh) | 2019-10-21 | 2019-10-21 | 干扰及高混响环境下使用传声器阵列的语音声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910998291.0A CN110726972B (zh) | 2019-10-21 | 2019-10-21 | 干扰及高混响环境下使用传声器阵列的语音声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110726972A true CN110726972A (zh) | 2020-01-24 |
CN110726972B CN110726972B (zh) | 2022-09-16 |
Family
ID=69221631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910998291.0A Active CN110726972B (zh) | 2019-10-21 | 2019-10-21 | 干扰及高混响环境下使用传声器阵列的语音声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110726972B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445920A (zh) * | 2020-03-19 | 2020-07-24 | 西安声联科技有限公司 | 一种多声源的语音信号实时分离方法、装置和拾音器 |
CN111723415A (zh) * | 2020-06-15 | 2020-09-29 | 中科上声(苏州)电子有限公司 | 一种车辆降噪系统的性能评估方法及装置 |
CN112269158A (zh) * | 2020-10-14 | 2021-01-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于unet结构利用传声器阵列语音源定位方法 |
CN112799019A (zh) * | 2021-01-26 | 2021-05-14 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN113655440A (zh) * | 2021-08-09 | 2021-11-16 | 西南科技大学 | 一种自适应折中预白化的声源定位方法 |
CN113687304A (zh) * | 2021-07-07 | 2021-11-23 | 浙江大华技术股份有限公司 | 直达声检测方法、系统以及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100290316A1 (en) * | 2007-09-03 | 2010-11-18 | Universite Du Sud Toulon Var | Real-time robust method for determining the trajectory of one or more cetaceans by means of passive acoustics, using a laptop computer |
CN102103200A (zh) * | 2010-11-29 | 2011-06-22 | 清华大学 | 一种分布式非同步声传感器的声源空间定位方法 |
CN102540137A (zh) * | 2011-12-28 | 2012-07-04 | 浙江大学 | 一种基于信号相位差的无线声传感器网络目标定位方法 |
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
CN103308889A (zh) * | 2013-05-13 | 2013-09-18 | 辽宁工业大学 | 复杂环境下被动声源二维doa估计方法 |
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN110111802A (zh) * | 2018-02-01 | 2019-08-09 | 南京大学 | 基于卡尔曼滤波的自适应去混响方法 |
-
2019
- 2019-10-21 CN CN201910998291.0A patent/CN110726972B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100290316A1 (en) * | 2007-09-03 | 2010-11-18 | Universite Du Sud Toulon Var | Real-time robust method for determining the trajectory of one or more cetaceans by means of passive acoustics, using a laptop computer |
CN102103200A (zh) * | 2010-11-29 | 2011-06-22 | 清华大学 | 一种分布式非同步声传感器的声源空间定位方法 |
CN102540137A (zh) * | 2011-12-28 | 2012-07-04 | 浙江大学 | 一种基于信号相位差的无线声传感器网络目标定位方法 |
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
CN103308889A (zh) * | 2013-05-13 | 2013-09-18 | 辽宁工业大学 | 复杂环境下被动声源二维doa估计方法 |
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN110111802A (zh) * | 2018-02-01 | 2019-08-09 | 南京大学 | 基于卡尔曼滤波的自适应去混响方法 |
Non-Patent Citations (2)
Title |
---|
孙长伟等: "混响环境下改进的球谐波域L1-SVD声源定位算法", 《武汉大学学报(理学版)》 * |
谭颖等: "改进的SRP-PHAT声源定位方法", 《电子与信息学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445920A (zh) * | 2020-03-19 | 2020-07-24 | 西安声联科技有限公司 | 一种多声源的语音信号实时分离方法、装置和拾音器 |
CN111445920B (zh) * | 2020-03-19 | 2023-05-16 | 西安声联科技有限公司 | 一种多声源的语音信号实时分离方法、装置和拾音器 |
CN111723415A (zh) * | 2020-06-15 | 2020-09-29 | 中科上声(苏州)电子有限公司 | 一种车辆降噪系统的性能评估方法及装置 |
CN111723415B (zh) * | 2020-06-15 | 2024-02-27 | 中科上声(苏州)电子有限公司 | 一种车辆降噪系统的性能评估方法及装置 |
CN112269158A (zh) * | 2020-10-14 | 2021-01-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于unet结构利用传声器阵列语音源定位方法 |
CN112799019A (zh) * | 2021-01-26 | 2021-05-14 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN112799019B (zh) * | 2021-01-26 | 2023-07-07 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN113687304A (zh) * | 2021-07-07 | 2021-11-23 | 浙江大华技术股份有限公司 | 直达声检测方法、系统以及计算机可读存储介质 |
CN113655440A (zh) * | 2021-08-09 | 2021-11-16 | 西南科技大学 | 一种自适应折中预白化的声源定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110726972B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110726972B (zh) | 干扰及高混响环境下使用传声器阵列的语音声源定位方法 | |
CN109839612B (zh) | 基于时频掩蔽和深度神经网络的声源方向估计方法及装置 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
US10026399B2 (en) | Arbitration between voice-enabled devices | |
CN108538310B (zh) | 一种基于长时信号功率谱变化的语音端点检测方法 | |
Li et al. | Online direction of arrival estimation based on deep learning | |
JP4912778B2 (ja) | 信号源の軌跡をモデル化する方法及びシステム | |
CN110491403A (zh) | 音频信号的处理方法、装置、介质和音频交互设备 | |
CN111445920B (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN110544490B (zh) | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 | |
Raykar et al. | Speaker localization using excitation source information in speech | |
A Al-Karawi et al. | Automatic speaker recognition system in adverse conditions—implication of noise and reverberation on system performance | |
CN107863099A (zh) | 一种新型双麦克风语音检测和增强方法 | |
CN112485761B (zh) | 一种基于双麦克风的声源定位方法 | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
Nelke et al. | Measurement, analysis and simulation of wind noise signals for mobile communication devices | |
CN109859769A (zh) | 一种掩码估计方法及装置 | |
Ganguly et al. | Real-time Smartphone implementation of noise-robust Speech source localization algorithm for hearing aid users | |
CN114171041A (zh) | 基于环境检测的语音降噪方法、装置、设备及存储介质 | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
CN110333484A (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
Mohammed et al. | Mitigate the reverberant effects on speaker recognition via multi-training | |
CN105791530B (zh) | 输出音量调节方法和装置 | |
Pirhosseinloo et al. | A new feature set for masking-based monaural speech separation | |
CN112269158B (zh) | 一种基于unet结构利用传声器阵列语音源定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |