CN110275138B - 一种利用优势声源成分移除的多声源定位方法 - Google Patents

一种利用优势声源成分移除的多声源定位方法 Download PDF

Info

Publication number
CN110275138B
CN110275138B CN201910640408.8A CN201910640408A CN110275138B CN 110275138 B CN110275138 B CN 110275138B CN 201910640408 A CN201910640408 A CN 201910640408A CN 110275138 B CN110275138 B CN 110275138B
Authority
CN
China
Prior art keywords
sound source
frame
dominant
angle
dominant sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910640408.8A
Other languages
English (en)
Other versions
CN110275138A (zh
Inventor
吴宇轩
杨淇善
贾懋珅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910640408.8A priority Critical patent/CN110275138B/zh
Publication of CN110275138A publication Critical patent/CN110275138A/zh
Application granted granted Critical
Publication of CN110275138B publication Critical patent/CN110275138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种利用优势声源成分移除的多声源定位方法,通过移除优势声源成分使声场景内各声源的波达方向估计更准确。首先,将声场麦克风采集信号变换到频域获得频率系数,对频域信号按频率范围进行子带划分并计算声场麦克风各通路间相同频率范围子带的归一化互相关系数;其次,检测单声源子带,对单声源子带内各时‑频点对应角度进行估计;再次,利用各个历史帧的帧内优势声源确定全局候选优势声源,结合时‑频点角度估计值和全局候选优势声源确定全局优势声源角度并设立移除区间,对当前帧角度估计值落入移除区间的时‑频点成分进行移除;最后,对若干帧经过移除处理后的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。

Description

一种利用优势声源成分移除的多声源定位方法
技术领域
本发明属于声学领域的声源定位部分,尤其涉及多声源复杂声场景下的各声源定位技术。
背景技术
声源定位是音频信号处理领域中的一个研究热点,其目标是通过分析麦克风阵列采集信号对场景内所有声源相对于麦克风阵列的波达(到达)方向进行估计。大多数现有的声源定位技术主要针对超定场景(即麦克风数大于声源数声场景)下的声源定位。随着声源数的上升,需要不断增加麦克风数量以保证定位精度。为了解决上述局限性,通过对信号在频域中的稀疏特性进行研究,从而将多声源定位问题转化为单声源定位问题,进而突破了超定场景的限制。由于各声源在麦克风阵列采集信号中稀疏性的强弱存在差异,与稀疏性较强的声源相比,稀疏性较弱的声源难以被检测到。针对此问题,本发明设定稀疏性较强声源在定位统计中优势明显,即为统计优势声源,简称为优势声源,设计了一种利用优势声源成分移除的多声源定位方法,对四通道声场麦克风采集信号中各声源的稀疏性进行分析,确定优势声源,通过移除优势声源成分以更准确地估计各个声源的波达方向。
多声源定位技术有多种应用环境。如:远程会议场景中,利用此技术可以有效识别各参会者所在方向,进而实现各参会者发言内容的高质量拾音,从而提升远程会议的沉浸感;虚拟课堂场景中,利用此技术可以确定各声源的方位信息,从而为虚拟课堂场景中各声源的高质量重放提供了必要的基础。本设计的目的是利用四通路声场麦克风(也称作:B格式麦克风或一阶Ambisonics麦克风)在多声源场景下对各声源的方位信息进行准确估计。而现有的声源定位技术一般受制于麦克风数大于声源数的约束条件且依赖于各声源稀疏性相似的假设。
目前,大多数现有的多声源定位方法要求声场景内的声源数要小于麦克风数,这一条件在实际场景中,尤其限制麦克风数量的场景中难以满足。考虑到信号本身在频域的稀疏性以及四通路声场麦克风小巧灵活,能够准确反映声场变化的特点,本设计选用四通路声场麦克风,在频域对其采集信号进行处理以实现多声源定位。此外,考虑到声源间稀疏性的差异给声源定位带来的影响,本设计通过移除优势声源成分以实现各个声源波达方向的准确估计。
发明内容
本发明针对于现有声源定位技术受制于麦克风数大于声源数的约束条件且依赖于各声源稀疏性相似假设的问题,设计了一种利用统计优势声源成分移除的多声源定位方法,结合声场麦克风采集信号的稀疏性,检测并移除优势声源成分,实现声场景内各声源波达方向的准确估计。
设计的总体流程中,首先对分帧后的声场麦克风信号利用短时傅里叶变换得到频域系数,对其进行子带划分并求得各通道间的互相关系数,随后判断单声源子带,对单声源子带内各时-频点进行角度估计,利用各个历史帧的帧内优势声源确定全局候选优势声源,结合时-频点角度估计值和全局候选优势声源确定全局优势声源角度并设立移除区间,对当前帧落入移除区间的时-频点角度估计值进行移除,最后对经过移除处理后的若干帧时-频点的角度估计值进行后处理获得各声源角度的准确估计。
本发明的技术方案为解决多声源定位问题,主要分为以下几个步骤:
步骤1,对采集信号进行分帧处理,利用短时傅里叶变换对声场麦克风采集信号进行时-频变换,获得信号的频率系数。
步骤2,将当前帧频域信号按频率划分为若干子带,计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数。
步骤3,根据归一化互相关系数检测单声源子带,对单声源子带内的各时-频点进行角度估计值。
步骤4,确定各帧的帧内优势声源。
步骤5,利用历史帧的帧内优势声源确定全局候选优势声源。
步骤6,根据时-频点的角度估计值和全局候选优势声源判断得到全局优势声源。
步骤7,根据确定的全局优势声源角度设立移除区间,对角度估计值落入移除区间的当前帧时-频点进行移除。
步骤8,对若干帧经过移除处理后的时-频点的角度估计值进行后处理以获得声源角度估计。
1.而且步骤1的实现方式为,首先将声场麦克风采集的四路信号xi(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure BDA0002131658810000021
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Xi(n,k)为频域系数。X1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;X2(n,k)、X3(n,k)、X4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
2.而且每帧信号有K个频域系数,设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为:
Figure BDA0002131658810000031
以Ωnm表示第n帧的第m个子带内各时-频点索引的集合,其中m=1,2,…,M,
Figure BDA0002131658810000032
为向上取整运算。则在同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数可由下式表达:
Figure BDA0002131658810000033
其中
Figure BDA0002131658810000034
i,j为麦克风编号。
3.在步骤3中,根据步骤2中求出的归一化互相关系数检测单声源子带。该过程的判决条件可表示为:
Figure BDA0002131658810000035
其中,ε是一个值很小的预设参数。满足上式的子带为单声源子带,本设计只对单声源子带内各时-频点角度进行估计,子带内各时-频点(n,k)的角度估计值
Figure BDA0002131658810000036
n代表帧数,k代表频点,可由下式计算:
Figure BDA0002131658810000037
其中Re代表取实部运算,*代表共轭运算。
4.在步骤4中,本设计只对单声源子带的角度粗估计进行计算。若子带(Ωnm)为单声源子带,则该子带的角度粗估计值
Figure BDA0002131658810000038
可由下式计算:
Figure BDA0002131658810000039
将每一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,则相邻角度的角度差大于θ则表示两个角度分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景中共有Q个真实声源,则第q个声源在第n帧的出现概率Pnq可由下式计算:
Figure BDA0002131658810000041
其中q=1,2,…,Q,Bnq为第n帧属于第q个声源的单声源子带个数,
Figure BDA0002131658810000042
为第n帧单声源子带总个数。若Pnq大于预设阈值σ,则认为第q个声源是第n帧的帧内优势声源。对于判断得到的帧内优势声源,将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值(即帧内优势声源角度)。
5.在步骤5中,选取H个历史帧信息进行当前帧信息判别,首先计算第n-1,n-2,...,n-H帧中的帧内优势声源,利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息,则全局候选优势声源角度集合Θn可由下式表示
Figure BDA0002131658810000043
其中,
Figure BDA0002131658810000044
h=1,2,…,H。Qn-h为第n-h帧的帧内优势声源个数。
Figure BDA0002131658810000045
为第n-h帧的第qn-h个帧内优势声源角度。qn-h=1,2,…,Qn-h
6.步骤5得到的全局候选优势声源只代表在部分信号(历史帧)中这些声源表现出较强的稀疏性,而步骤6对全局候选优势声源在整体信号中的稀疏性进行判断,以最终确定全局优势声源角度。在确定全局优势声源时,本设计选用了H′帧的信息进行处理,根据全局候选优势声源角度集合Θn以及第n-1,n-2,...,n-H′帧中经移除处理后的时频点角度估计值集合
Figure BDA0002131658810000046
其中h′=1,2,…,H′,Φn-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合,其中,移除区间设定方法同下文,则第n-h帧的第qn-h个帧内优势声源(该帧内优势声源角度为
Figure BDA0002131658810000047
)在Πn中的出现概率
Figure BDA0002131658810000048
可由下式计算:
Figure BDA0002131658810000049
其中B为Πn中时-频点角度估计值总数量,
Figure BDA0002131658810000051
为Πn中属于第n-h帧的第qn-h个帧内优势声源时-频点角度估计值的数量。时-频点角度估计值
Figure BDA0002131658810000052
属于第n-h帧第qn-h个帧内优势声源的判决条件为:
Figure BDA0002131658810000053
其中
Figure BDA0002131658810000054
为预设阈值。若
Figure BDA0002131658810000055
大于预设阈值ξ,则第n-h帧的第qn-h个帧内优势声源确定为全局优势声源(即,最终确定的优势声源)。对Θn内所有全局候选优势声源进行判断,保留满足判决条件的声源角度,则这些保留的声源角度即为全局优势声源角度。
7.步骤7根据全局优势声源角度设立移除区间,对步骤3得到的当前帧内所有单声源子带中的时-频点的角度估计值进行筛选。对落入移除区间的时-频点角度估计值进行移除处理,即不对其进行步骤8中的后处理过程。设当前帧有D个全局优势声源,则移除区间的设立可由下式得到:
Figure BDA0002131658810000056
8.步骤8对经过若干帧移除处理后保留的时-频点的角度估计值进行后处理,包括直方图统计,均值滤波以及峰值搜索过程,最后获得声场景内所有声源角度的准确估计。
在由各个单声源区域内时-频点角度估计值得到的归一化统计直方图中,某一声源在其真实角度或其真实角度附近的某个角度上应具有明显的峰值。对归一化统计直方图进行峰值搜索即可估计出场景内声源的数量以及各个声源的角度。如果大量的时-频点角度估计值映射到某一声源(即本设计中的优势声源)时,会导致归一化统计直方图中其余各声源所在角度上不能表现出明显的峰值,进而无法检测到这些声源并估计这些声源的角度。考虑到有大量的时-频点角度估计值映射到优势声源上,与之相对应,优势声源一定具有较多的单声源子带。因此本设计利用属于某一声源的单声源子带在帧内的出现概率来对优势声源进行初步判断,获得帧内优势声源,即帧内优势声源对应的单声源子带在帧内具有较高的出现概率。但是帧内出现概率较高和优势声源之间不是充分必要条件,即优势声源一定是某些帧的帧内优势声源,而帧内优势声源不一定是优势声源。所以本设计将若干历史帧的各个时-频点角度估计值映射到各个帧内优势声源上,如果有大量的时-频点角度估计值映射到某一个帧内优势声源,即全局优势声源,则该全局优势声源大概率为真正的优势声源,对当前帧映射到全局优势声源上的时-频点角度估计值进行移除处理即可使映射到各声源的时-频点角度估计值数量更加接近或近似相等,进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。
有益效果
与传统定位技术相比,本发明提高了多声源定位方法的鲁棒性,尤其对声场景中的非优势声源表现出良好的定位性能,使复杂声场景下各个声源都能够获得准确的方向估计。
附图说明
图1是本设计方法整体框图
图2是帧内优势声源检测示意图
图3a未经过移除处理归一化直方图
图3b移除处理后归一化直方图
具体实施方法
本实施例用于检测7个声源,声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m,声源距声场麦克风距离均为1m,相邻声源角度间隔45°,第一个声源位于70°,第七个声源位于340°。信号处理软件为Matlab2014a。
实施时,本发明是算法镶嵌进软件中实现各个流程的自动运行,下面以具体实施步骤结合附图对本发明做进一步说明:具体的工作流程如下:
步骤1:声场麦克风采集信号的时-频变换。
将声场麦克风采集的四路信号xi(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure BDA0002131658810000061
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Xi(n,k)为频域系数。X1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;X2(n,k)、X3(n,k)、X4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
步骤2:划分子带并计算归一化互相关系数。
每帧信号有K个频域系数,设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为:
Figure BDA0002131658810000062
以Ωnm表示第n帧的第m个子带内各时-频点索引的集合,其中m=1,2,…,M,
Figure BDA0002131658810000063
为向上取整运算。则在同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数可由下式表达:
Figure BDA0002131658810000071
其中
Figure BDA0002131658810000072
i,j为麦克风编号。
步骤3:检测单声源子带并对其中的各时-频点进行角度估计。
单声源子带的判决条件可表示为:
Figure BDA0002131658810000073
其中,ε是一个值很小的预设参数,本实施例中取0.05。满足上式的子带为单声源子带,本设计只对单声源子带内各时-频点角度进行估计,子带内各时-频点(n,k)的角度估计值
Figure BDA0002131658810000074
可由下式计算:
Figure BDA0002131658810000075
其中Re代表取实部运算,*代表共轭运算。
步骤4:确定各帧(包含当前及历史帧)的帧内优势声源。
本设计只对单声源子带的角度粗估计进行计算。若子带(Ωnm)为单声源子带,则该子带的角度粗估计值
Figure BDA0002131658810000076
可由下式计算:
Figure BDA0002131658810000077
将每一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,本实施例中取30度,则相邻角度的角度差大于θ则表示两个角度分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景中共有Q个真实声源,则第q个声源在第n帧的出现概率Pnq可由下式计算:
Figure BDA0002131658810000078
其中q=1,2,…,Q,Bnq为第n帧属于第q个声源的单声源子带个数,
Figure BDA0002131658810000081
为第n帧单声源子带总个数。若Pnq大于预设阈值σ,本实施例中预设阈值σ取0.2Bn,则认为第q个声源是第n帧的帧内优势声源。对于判断得到的帧内优势声源,将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值(即帧内优势声源角度)。图2为帧内优势声源检测的示意图。
步骤5:确定全局候选优势声源。
选取H个历史帧信息进行当前帧信息判别,首先计算第n-1,n-2,...,n-H帧中的帧内优势声源,利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息,则全局候选优势声源角度集合Θn可由下式表示
Figure BDA0002131658810000082
其中,
Figure BDA0002131658810000083
h=1,2,…,H。Qn-h为第n-h帧的帧内优势声源个数。
Figure BDA0002131658810000084
为第n-h帧的第qn-h个帧内优势声源角度。qn-h=1,2,…,Qn-h
步骤6:确定全局优势声源。
在确定全局优势声源时,本设计选用了H′帧的信息进行处理,根据全局候选优势声源角度集合Θn以及第n-1,n-2,...,n-H′帧中经移除处理后的时频点角度估计值集合
Figure BDA0002131658810000085
其中h′=1,2,…,H′。Φn-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合,则第n-h帧的第qn-h个帧内优势声源(该帧内优势声源角度为
Figure BDA0002131658810000086
)在Πn中的出现概率
Figure BDA0002131658810000087
可由下式计算:
Figure BDA0002131658810000088
其中B为Πn中时-频点角度估计值总数量,
Figure BDA0002131658810000089
为Πn中属于第n-h帧的第qn-h个帧内优势声源时-频点角度估计值的数量。时-频点角度估计值
Figure BDA00021316588100000810
属于第n-h帧第qn-h个帧内优势声源的判决条件为:
Figure BDA00021316588100000811
其中
Figure BDA00021316588100000812
为预设阈值,一般取5-8度。若
Figure BDA00021316588100000813
大于预设阈值ξ,本实施例中取0.2,则第n-h帧的第qn-h个帧内优势声源确定为全局优势声源(即,最终确定的优势声源)。对Θn内所有全局候选优势声源进行判断,保留满足判决条件的声源角度,则这些保留的声源角度即为全局优势声源角度。
步骤7:设立移除区间移除部分时-频点角度估计值。
步骤7根据全局优势声源角度设立移除区间,对步骤3得到的当前帧内所有单声源子带中的时-频点的角度估计值进行筛选。对落入移除区间的时-频点角度估计值进行移除处理,即不对其进行步骤8中的后处理过程。设当前帧有D个全局优势声源,则移除区间的设立可由下式得到:
Figure BDA0002131658810000091
步骤8:利用后处理获得各声源波达方向估计
对经过若干帧移除处理后保留的时-频点的角度估计值进行后处理,包括直方图统计,均值滤波以及峰值搜索过程,最后获得声场景内所有声源角度的准确估计。
图3是移除处理前后由时-频点得到的归一化统计直方图的效果对比图。其中,a为未经过移除处理的归一化直方图,b为经过移除处理的归一化直方图。真实声源角度位于70°、115°、160°、205°、250°、295°和340°,共计7个相邻声源角度间隔为45°的声源。从图a中可以看出,未经移除处理的直方图中,70°、115°、160°、205°和295°附近有明显峰值,即利用后处理过程可对位于上面5个角度附近的声源进行方向估计,而250°和340°附近没有明显峰值,即不能通过后处理对这两个声源进行方向估计。从图b中可以看出,经过移除处理后,归一化直方图中在7个真实声源角度附近都有明显的峰值,即经过后处理过程可以获得全部声源的方向估计。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种利用优势声源成分移除的多声源定位方法,其特征在于包括以下步骤:
步骤1,对采集信号进行分帧处理,利用短时傅里叶变换对声场麦克风采集信号进行时-频变换,获得信号的频率系数;
步骤2,将当前帧频域信号按频率划分为若干子带,计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数;
步骤3,根据归一化互相关系数检测单声源子带,对单声源子带内的各时-频点进行角度估计;
步骤4,确定各帧的帧内优势声源,并计算帧内优势声源角度;
步骤5,利用历史帧的帧内优势声源确定全局候选优势声源;
步骤6,选择H′个经移除处理后的历史帧,根据这些历史帧中的时频点角度估计值属于各个全局候选优势声源的数量计算出现概率,根据出现概率对全局候选优势声源进行筛选并最终确定全局优势声源,其中H′个历史帧中的时频点角度估计值可由集合Πn表达,
Figure FDA0002922185270000011
其中h′=1,2,…,H′,Φn-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合;
步骤7,根据确定的全局优势声源角度设立移除区间,对角度估计值落入移除区间的当前帧时-频点进行移除;
步骤8,对若干帧经过移除处理后的时-频点的角度估计值进行后处理以获得声源角度估计。
2.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法,其特征在于:步骤1具体为首先将声场麦克风采集的四路信号xi(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure FDA0002922185270000012
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Xi(n,k)为频域系数;X1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;X2(n,k)、X3(n,k)、X4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
3.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法,其特征在于:步骤4所述的帧内优势声源的判别方法如下:
4.1)计算所有单声源子带Ωnm对应的角度粗估计值
Figure FDA0002922185270000021
其中角度粗估计值
Figure FDA0002922185270000022
的计算公式如下:
Figure FDA0002922185270000023
4.2)根据角度粗估计值将单声源子带映射到若干个声源上,具体为:将每一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,则相邻角度的角度差大于θ则表示两个角度分属两个声源,否则表示属于一个声源;
4.3)计算每个声源在各帧内的出现概率,其中,第q个声源在第n帧的出现概率Pnq可由下式计算:
Figure FDA0002922185270000024
其中q=1,2,…,Q,Bnq为第n帧属于第q个声源的单声源子带个数,
Figure FDA0002922185270000025
为第n帧单声源子带总个数;
4.4)判断帧内优势声源,判断条件为:若Pnq大于预设阈值σ,则认为第q个声源是第n帧的帧内优势声源;
4.5)计算帧内优势声源角度,具体为:对于判断得到的帧内优势声源,将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值。
4.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法,其特征在于:步骤5中所述的全局候选优势声源的确定方法如下:选取H个历史帧信息进行当前帧信息判别,首先计算第n-1,n-2,...,n-H帧中的帧内优势声源,利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息,即全局候选优势声源角度集合Θn,具体可由下式表示
Figure FDA0002922185270000026
其中,
Figure FDA0002922185270000027
Qn-h为第n-h帧的帧内优势声源个数,
Figure FDA0002922185270000028
为第n-h帧的第qn-h个帧内优势声源角度,qn-h=1,2,…,Qn-h
5.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法,其特征在于:步骤6所述的全局优势声源的判别方法如下:
6.1)时-频点角度估计值
Figure FDA0002922185270000031
属于第n-h帧第qn-h个帧内优势声源的判决条件为:
Figure FDA0002922185270000032
其中,
Figure FDA0002922185270000033
为预设阈值,
Figure FDA0002922185270000034
为集合Φn-h′中的元素,
Figure FDA0002922185270000035
为帧内优势声源角度,且为全局候选优势声源角度;
6.2)利用Πn计算全局候选优势声源的出现概率,其中,第n-h帧的第qn-h个帧内优势声源在Πn中的出现概率
Figure FDA0002922185270000036
可由下式计算:
Figure FDA0002922185270000037
其中B为Πn中时-频点角度估计值总数量,
Figure FDA0002922185270000038
为Πn中属于第n-h帧的第qn-h个帧内优势声源时-频点角度估计值的数量;
6.3)判断全局优势声源,判断条件为:若
Figure FDA0002922185270000039
大于预设阈值ξ,则第n-h帧的第qn-h个帧内优势声源确定为全局优势声源,即最终确定的优势声源;
6.4)对Θn内所有全局候选优势声源进行判断,保留满足判决条件的声源,则这些保留的声源即为全局优势声源。
6.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法,其特征在于:步骤7所述的移除区间由下式得到:
Figure FDA00029221852700000310
其中,
Figure FDA00029221852700000311
为当前帧第d个全局优势声源的角度,d=1,2,…,D,D为当前帧全局优势声源的总个数。
CN201910640408.8A 2019-07-16 2019-07-16 一种利用优势声源成分移除的多声源定位方法 Active CN110275138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910640408.8A CN110275138B (zh) 2019-07-16 2019-07-16 一种利用优势声源成分移除的多声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910640408.8A CN110275138B (zh) 2019-07-16 2019-07-16 一种利用优势声源成分移除的多声源定位方法

Publications (2)

Publication Number Publication Date
CN110275138A CN110275138A (zh) 2019-09-24
CN110275138B true CN110275138B (zh) 2021-03-23

Family

ID=67964605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910640408.8A Active CN110275138B (zh) 2019-07-16 2019-07-16 一种利用优势声源成分移除的多声源定位方法

Country Status (1)

Country Link
CN (1) CN110275138B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法
CN113189544B (zh) * 2021-04-23 2023-06-30 北京工业大学 一种利用活动强度矢量加权移除野点的多声源定位方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551588A (zh) * 2003-03-07 2004-12-01 ���ǵ�����ʽ���� 处理音频信号的装置和方法及存储计算机程序的记录介质
CN102866385A (zh) * 2012-09-10 2013-01-09 上海大学 一种基于球麦克风阵列的多声源定位方法
CN105224075A (zh) * 2009-10-28 2016-01-06 数字标记公司 基于传感器的移动搜索、相关方法和系统
CN106226739A (zh) * 2016-07-29 2016-12-14 太原理工大学 融合子带分析的双声源定位方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN109001680A (zh) * 2018-06-25 2018-12-14 大连大学 声源定位中的块稀疏优化算法
WO2019080705A1 (zh) * 2017-10-23 2019-05-02 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法
CN109856598A (zh) * 2019-02-26 2019-06-07 黑龙江迈普斯企业管理中心(有限合伙) 一种新型超短基线定位系统和方法
CN109886071A (zh) * 2018-12-25 2019-06-14 仁福宜康(天津)科技有限公司 一种基于声源定位和人脸检测的人体定位方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551588A (zh) * 2003-03-07 2004-12-01 ���ǵ�����ʽ���� 处理音频信号的装置和方法及存储计算机程序的记录介质
CN105224075A (zh) * 2009-10-28 2016-01-06 数字标记公司 基于传感器的移动搜索、相关方法和系统
CN102866385A (zh) * 2012-09-10 2013-01-09 上海大学 一种基于球麦克风阵列的多声源定位方法
CN106226739A (zh) * 2016-07-29 2016-12-14 太原理工大学 融合子带分析的双声源定位方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
WO2019080705A1 (zh) * 2017-10-23 2019-05-02 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法
CN109001680A (zh) * 2018-06-25 2018-12-14 大连大学 声源定位中的块稀疏优化算法
CN109886071A (zh) * 2018-12-25 2019-06-14 仁福宜康(天津)科技有限公司 一种基于声源定位和人脸检测的人体定位方法和系统
CN109856598A (zh) * 2019-02-26 2019-06-07 黑龙江迈普斯企业管理中心(有限合伙) 一种新型超短基线定位系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Parallel Audio Features Extraction for Sound Indexing and Retrieval Systems》;Tomasz Maka et.al;《55th International Symposium ELMAR-2013》;20130930;第185-189页 *
《基于信号稀疏特性的多声源定位及分离技术研究》;孙俊岱;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190515(第05期);正文第11-22页 *

Also Published As

Publication number Publication date
CN110275138A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
US9595259B2 (en) Sound source-separating device and sound source-separating method
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US6792118B2 (en) Computation of multi-sensor time delays
US20180262832A1 (en) Sound Signal Processing Apparatus and Method for Enhancing a Sound Signal
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
EP2162757A1 (en) Joint position-pitch estimation of acoustic sources for their tracking and separation
JP4910568B2 (ja) 紙擦れ音除去装置
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
CN102074236A (zh) 一种分布式麦克风的说话人聚类方法
CN110275138B (zh) 一种利用优势声源成分移除的多声源定位方法
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
CN104036786A (zh) 一种语音降噪的方法及装置
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN113189544B (zh) 一种利用活动强度矢量加权移除野点的多声源定位方法
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
Jleed et al. Acoustic environment classification using discrete hartley transform features
CN110398716B (zh) 一种利用声源间稀疏成分均衡的多声源定位方法
CN112992175B (zh) 一种语音区分方法及其语音记录装置
KR101184394B1 (ko) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
Xiang et al. Distributed Microphones Speech Separation by Learning Spatial Information With Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant