CN113281707B - 一种强噪声下基于加窗lasso的声源定位方法 - Google Patents

一种强噪声下基于加窗lasso的声源定位方法 Download PDF

Info

Publication number
CN113281707B
CN113281707B CN202110575547.4A CN202110575547A CN113281707B CN 113281707 B CN113281707 B CN 113281707B CN 202110575547 A CN202110575547 A CN 202110575547A CN 113281707 B CN113281707 B CN 113281707B
Authority
CN
China
Prior art keywords
lasso
sound source
operators
windowed
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110575547.4A
Other languages
English (en)
Other versions
CN113281707A (zh
Inventor
蒋三新
滕繁
王新宇
郑亚睿
李阳
时瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN202110575547.4A priority Critical patent/CN113281707B/zh
Publication of CN113281707A publication Critical patent/CN113281707A/zh
Application granted granted Critical
Publication of CN113281707B publication Critical patent/CN113281707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种强噪声下基于加窗LASSO的声源定位方法,包括,通过麦克风阵列获得麦克通道的音频信号;基于LASSO算子设计两种不同的加窗的LASSO算子,并利用两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分;将音调成分和瞬态成分同时进行最大空间似然估计,得到音频信号的空间定位结果,完成目标声源定位的初步估计;对空间定位结果进行滑动平均,以平滑空间定位结果,获得最终定位结果;本发明提出了一种结构收缩算子,使得空间定位时所需的计算复杂度将大为减少,同时抗噪能力也将显著提高。

Description

一种强噪声下基于加窗LASSO的声源定位方法
技术领域
本发明涉及的技术领域,尤其涉及一种强噪声下基于加窗LASSO的声源定位方法。
背景技术
随着机器人对音频智能化需求的发展,尤其是机器听觉的出现,声源定位(Direction Of Arrive DOA)需求不再仅仅要求到达方向的平面(二维)估计,进而要求到达方向的空间(三维)估计。为此,最近提出了多种声源空间定位算法,如:基于三维伪矢量的声源三维DOA估计方法,基于最优格搜索和基于强度矢量与波束成形相结合的三维定位DOA方法。这两种方法均在空间谐波域构造出一个伪方向矢量,使其指向声源空间方位反方向,并在此基础之上实现最优格搜索。此类方法计算复杂度适中,但定位精度有限,多适用于无噪声或低噪声的理想场景。对于强噪声场景,声源信号有可能完全被背景噪声所掩盖。此外,为了适应强噪声场景,有人在传统MUSIC(Multiple Signal Classification MUSIC)方法的基础上提出了基于噪声协相关矩阵估计的定位算法,但此类方法具有较高的计算复杂度,难以实现实时定位。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种强噪声下基于加窗LASSO的声源定位方法,能够解决现有技术在低信噪比(强噪声)场景中或麦克阵列的通道数较多时难以准确定位或不能进行定位的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,通过麦克风阵列获得麦克通道的音频信号;基于LASSO算子设计两种不同的加窗的LASSO算子,并利用所述两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分;将所述音调成分和瞬态成分同时进行最大空间似然估计,得到音频信号的空间定位结果,完成目标声源定位的初步估计;对所述空间定位结果进行滑动平均,以平滑空间定位结果,获得最终定位结果。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述两种不同的加窗的LASSO算子包括,采用二维高斯加权矩形窗函数W(k)用于惩罚项;根据所述惩罚项,并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗,分别获得不同的水平窗函数Wton和垂直窗函数Wtra;将所述水平窗函数Wton和所述垂直窗函数Wtra分别引入LASSO算子,进而获得两种不同的加窗的LASSO算子。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述二维高斯加权矩形窗函数W(k)包括,所述二维高斯加权矩形窗W(k)如下:
Figure BDA0003084172890000021
其中,u=(u1,u2)为各维变量的均值,表征的是各维变量的中心;K=(k1,k2)为二维变量,表示相对于中心(u1,u2)的偏移量;T为转置符号;∑为协方差矩阵,描述变量k1,k2之间的相关度。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述协方差矩阵包括,
Figure BDA0003084172890000022
其中,σ为各维变量的标准差。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述音调成分与瞬态成分包括,根据两种不同的加窗的LASSO算子获得的结构化收缩算子如下,即所述音调成分与瞬态成分:
Figure BDA0003084172890000023
其中,zk,k=1,...,N,表示s在字典Φ中稀疏估计前的系数;
Figure BDA0003084172890000024
Figure BDA0003084172890000025
为新的加权邻域,k′∈I为索引,
Figure BDA0003084172890000026
为权重;zk'是由所索引的系数形成的向量。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述最大空间似然估计包括,构建空间似然函数γTF(k,l,θ):
Figure BDA0003084172890000031
其中xtm和xrm表示第m个麦克接收到的音调与暂态成分的频域表示;k和l分别是音频快速傅立叶变换后对应的频率和索引;τ是两个麦克之间对于来自θ方向的时延;当麦克相位差的理论值和测量值相等时,似然函数取得最大值。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:其特征还包括,在所述空间似然函数γTF(k,l,θ)计算时,设置阈值β,当频谱幅度小于β时置0,即满足如下公式:
Figure BDA0003084172890000032
寻找使得似然函数最大的
Figure BDA0003084172890000033
该值即为目标声源的空间方位。
作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案,其中:所述滑动平均包括,计算方式如下:
vt=βvt-1+(1-β)θt
Figure BDA0003084172890000034
其中,β为衰减率,vt-1,vt分别为上一个时刻和当前时刻滑动平均模块的输出,vt′为vt的修正值。
本发明的有益效果:本发明提出了一种结构收缩算子,并在其惩罚项中引入二维加权邻域窗,可充分利用音频信号的群体稀疏性,将其分解为音调分量和瞬态分量;然后,将所得的两个分量用于音频信号的空间定位;由于音频信号的群体稀疏分解过程中去掉了噪声及其它非主要成分,为此,空间定位时所需的计算复杂度将大为减少,同时抗噪能力也将显著提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的总体架构示意图;
图2为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的声源定位测试环境示意图;
图3为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始测试音频的波形及频谱示意图;
图4为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR=0时)示意图;
图5为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR=-10dB时)示意图;
图6为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR=-20dB时)示意图;
图7为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的邻域窗k1、k2示意图;
图8为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始音频信号中WG-Lasso算子提取出的音调成分示意图;
图9为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始音频信号中WG-Lasso算子提取出的暂态成分示意图;
图10为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR=0dB时)示意图;
图11为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR=0dB时)示意图;
图12为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR=-10dB时)示意图;
图13为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR=-10dB时)示意图;
图14为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR=-20dB时)示意图;
图15为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR=-20dB时)示意图;
图16为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的连续帧中SRP与WGL两种方法定位结果比较示意图;
图17为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的同一帧中SRP的声源定位结果统计分布示意图;
图18为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的同一帧中WGL的声源定位结果统计分布示意图;
图19为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的添加滑动平均模块后连续帧中SRP与WGL两种方法定位结果比较示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
为了在强噪声或存在一定混响的场景中实现目标声源的空间定位,通常利用麦克风阵列采集多路音频信号,然后基于TDOA(Time Difference of Arrival TDOA)、基于最大可控响应功率的波束形成或基于高分辨率谱估计等方法实现目标声源的空间定位;这类算法在定位过程中需要同时利用多路音频信号,计算量巨大,难以实现实时处理;针对这一难点,我们提出了一种基于加窗LASSO的声源定位方法,该方法利用音频信号的稀疏特性,可显著提升定位算法的鲁棒性,同时还可明显降低定位算法的计算复杂度。
研究表明,音频信号具有一定的群体稀疏性(Social Sparsity),它主要由频域稀疏的音调分量和时域稀疏的瞬态分量两部分组成;为了提取音频信号的稀疏分量,可将其建模为凸优化问题并采用LASSO(Least Absolute Shrinkage and Selection OperatorLASSO)算法实现;为了实现音频信号的稀疏分解,在LASSO算法中我们首先选择合适的稀疏字典,然后,引入合适的惩罚项,用于保证音调分量或瞬态分量的稀疏性;在此过程中,惩罚项的设计是音频信号高质量稀疏分解的关键。
参照图1,为本发明的第一个实施例,该实施例提供了一种强噪声下基于加窗LASSO的声源定位方法,包括:
S1:通过麦克风阵列获得麦克通道的音频信号。
声源经过麦克风阵列可以产生多个麦克通道的音频信号。
S2:基于LASSO算子设计两种不同的加窗的LASSO算子,并利用两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分。
设计两种不同的加窗的LASSO算子的步骤如下:
(1)采用二维高斯加权矩形窗函数W(k)用于惩罚项;
考虑到音频信号的群体稀疏性,也即音频信号的频谱能量多集中于水平的音调部分和垂直的瞬态部分,本方法提出用于惩罚项加权的窗,其形状也应该是水平或垂直的,以便同时提取音频谱中的音调成分和暂态成分;此外,窗中各频谱点的权重应与他们相对位置相关;通常来说,距离越近的邻近点与当前频谱点的相似程度越大,关联性越强;为此,本方法采用二维高斯加权矩形窗函数W(k)用于惩罚项,二维高斯加权矩形窗函数W(k)的表达式如下:
Figure BDA0003084172890000071
其中,u=(u1,u2)为各维变量的均值,表征的是各维变量的中心;K=(k1,k2)为二维变量,表示相对于中心(u1,u2)的偏移量;T为转置符号;∑为协方差矩阵,描述变量k1,k2之间的相关度。
协方差矩阵如下:
Figure BDA0003084172890000072
其中,σ为各维变量的标准差。
(2)根据惩罚项,并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗,分别获得不同的水平窗函数Wton和垂直窗函数Wtra
(3)将水平窗函数Wton和垂直窗函数Wtra分别引入LASSO算子,进而获得两种不同的加窗的LASSO算子。
进一步的,根据两种不同的加窗的LASSO算子获得的结构化收缩算子如下,即音调成分与瞬态成分:
Figure BDA0003084172890000081
其中,zk,k=1,...,N,表示s在字典Φ中稀疏估计前的系数;
Figure BDA0003084172890000082
Figure BDA0003084172890000083
为新的加权邻域,k′∈I为索引,
Figure BDA0003084172890000084
为权重;zk'是由所索引的系数形成的向量。
S3:将音调成分和瞬态成分同时进行最大空间似然估计,得到音频信号的空间定位结果,完成目标声源定位的初步估计。
同时利用音频谱中的音调成分和暂态成分这两种成分进行定位,能够增强算法的鲁棒性;因此本方法将分解得到的两种分量同时用于音频信号的空间定位,与原有的空间似然函数相结合,构建出一个新的空间似然函数。
构建的空间似然函数γTF(k,l,θ)如下:
Figure BDA0003084172890000085
其中xtm和xrm表示第m个麦克接收到的音调与暂态成分的频域表示;k和l分别是音频快速傅立叶变换后对应的频率和索引;τ是两个麦克之间对于来自θ方向的时延;当麦克相位差的理论值和测量值相等时,似然函数取得最大值。
在空间似然函数γTF(k,l,θ)计算时,设置阈值β,当频谱幅度小于β时置0,即满足如下公式:
Figure BDA0003084172890000086
寻找使得似然函数最大的
Figure BDA0003084172890000087
该值即为目标声源的空间方位。
S4:对空间定位结果进行滑动平均,以平滑空间定位结果,获得最终定位结果。
经过最大空间似然函数的计算可以实现目标DOA的初步估计,但得到的结果可能会产生数据抖动;为了消除似然函数输出的抖动,平滑估计结果,本发明采用了滑动平均模块(Exponential Moving Average EMA),或者叫做指数加权平均(ExponentiallyWeighted Moving Average EWMA),该方法是一种用滑动平均来估计变量的局部均值法,具体计算方式如下:
vt=βvt-1+(1-β)θt
Figure BDA0003084172890000091
其中,β为衰减率,vt-1,vt分别为上一个时刻和当前时刻滑动平均模块的输出,vt′为vt的修正值。
实施例2
为了对本方法中采用的技术效果加以验证说明,本实施例选择SRP-PHAT声源定位方法和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
SRP-PHAT声源定位方法在低信噪比(强噪声)场景中,难以准确定位或不能进行定位;且当麦克阵列的通道数较多时,计算复杂度高,难以进行实时定位;
为验证本方法相对SRP-PHAT声源定位方法能够在强噪声场景中目标声源的准确定位且实现目标声源的实时定位,本实施例中将采用SRP-PHAT声源定位方法和本方法分别对声源进行定位。
测试环境为8*8*3m3的房间,使用一个半径为12cm、高度为24cm的圆柱形16麦克风阵列来接收信号,麦克风阵列的原点坐标为(4m,4m,0.6m),也是图2下部圆形麦克风阵列的中心。
目标声源为一段约5秒的音频信号,其高度为1.7m,距离麦克阵列中心2m,环境的混响时间为20ms,将声源分别置于0°,60°,120°和150°,具体测试环境如图2所示。
先对本方法进行参数设定:
(1)输入音频信号到麦克风阵列
原始音频的波形及频谱如图4所示;在0,-10及-20dB信噪比条件下,麦克阵列通道0接收到的含噪波形及其对应频谱图分别如图4、图5和图6所示。
(2)音频信号的结构化分解
①测试过程中,将邻域窗的宽度设置为3,用于音调成分提取的横向窗长度设置为9,而用于暂态成分提取的纵向窗,其高度设置为5,两种窗的形状如图7所示。
窗内各频谱点的权重服从二维高斯分布,其均值向量和协方差矩阵分别如下式所示:
Figure BDA0003084172890000101
Figure BDA0003084172890000102
此时,邻域窗中各谱点的权重分布分别为:
音调窗的权重矩阵:
Figure BDA0003084172890000103
暂态窗的权重矩阵:
Figure BDA0003084172890000104
②音频分解
目标声源经16路麦克阵列采样后将得到16通道的音频信号,对每个音频通道分别采用加窗分组LASSO算子,提取音调成分和暂态成分;音频信号的时频变换采用Gabor变换,对于音调成分采用4096点,平移步长1024点,对于暂态成分,采用256点,平移步长64点。
无噪声条件下,通道0的提取结果分别如图8和图9所示(实验参数:音调层λ=0.13,瞬态层λ=0.05)。
在0,-10及-20dB信噪比条件下,通道0提取的结果分别如图10、11、12、13、14、15所示,其中,SNR=0dB时,音调层λ=0.35,瞬态层λ=0.35;SNR=-10dB,音调层λ=1,瞬态层λ=0.8;,SNR=-20dB时,音调层λ=1.2,瞬态层λ=1.2。
(3)最大似然函数估计DOA
对本方法设计加窗的LASSO算子输出所得的16通道频谱幅度分别与阈值β=0.005比较,若频谱幅度大于β则保留,否则频谱点置0;
将频谱逐帧似然估计,并将θ线性增加,似然函数最大即为目标声源DOA,SRP-PHAT声源定位方法(SRP-DOA)和本方法(WGL-DOA)获得的定位结果如图16所示;其中每帧有效频点的定位结果分别如图17、18所示。
(4)滑动平均
选取衰减率为0.9,此时,滑动平均的计算方法为:
vt=0.9vt-1+0.1θt
Figure BDA0003084172890000111
得到的输出曲线如图19所示,由图可见,本方法最终得到DOA的平均值为146°,接近真实值150°。
(5)复杂度的计算
超参数λ设为0时,本方法的加窗的Lasso(WG-Lasso)算子不对音频信号进行提取,此时采用SRP-PHAT声源定位方法;当λ设为其他非零值时,WG-Lasso算子对音频信号的有效成分进行不同程度的提取,去除不必要的其它成分,此时使用的是本方法的声源定位;因此可以通过设置不同的λ值来选择不同的定位方法;在这里,我们分别设置λ=0和λ=0.05,比较两种方法的每帧执行时间和总执行时间;计算复杂度的对比如下表所示。
表1:两种方法的复杂度的对比。
方法 总执行时间(s) 每帧执行时间(s)
SRP-PHAT声源定位方法 1608.841396 33.517529
本方法 696.322258 14.506714
由上表可见,本方法的执行时间明显低于SRP-PHAT的声源定位方法。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种强噪声下基于加窗LASSO的声源定位方法,其特征在于:包括,
通过麦克风阵列获得麦克通道的音频信号;
基于LASSO算子设计两种不同的加窗的LASSO算子,并利用所述两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分;其中所述两种不同的加窗的LASSO算子包括,采用二维高斯加权矩形窗函数W(k)用于惩罚项,根据所述惩罚项,并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗,分别获得不同的水平窗函数Wton和垂直窗函数Wtra,将所述水平窗函数Wton和所述垂直窗函数Wtra分别引入LASSO算子,进而获得两种不同的加窗的LASSO算子;
将所述音调成分和瞬态成分同时进行最大空间似然估计,得到音频信号的空间定位结果,完成目标声源定位的初步估计;
对所述空间定位结果进行滑动平均,以平滑空间定位结果,获得最终定位结果。
2.如权利要求1所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:还包括,
所述二维高斯加权矩形窗函数W(k)如下:
Figure FDA0003788886260000011
其中,u=(u1,u2)为各维变量的均值,表征的是各维变量的中心;K=(k1,k2)为二维变量,表示相对于中心(u1,u2)的偏移量;T为转置符号;∑为协方差矩阵,描述变量k1,k2之间的相关度。
3.如权利要求2所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:所述协方差矩阵包括,
Figure FDA0003788886260000012
其中,σ为各维变量的标准差。
4.如权利要求3所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:所述音调成分与瞬态成分包括,
根据两种不同的加窗的LASSO算子获得的结构化收缩算子如下,即所述音调成分与瞬态成分:
Figure FDA0003788886260000021
其中,zk,k=1,...,N,表示s在字典Φ中稀疏估计前的系数;
Figure FDA0003788886260000022
Figure FDA0003788886260000023
为新的加权邻域,k′∈I为索引,
Figure FDA0003788886260000024
为权重;Zk′是由所索引的系数形成的向量。
5.如权利要求1或4所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:所述最大空间似然估计包括,
构建空间似然函数γTF(k,l,θ):
Figure FDA0003788886260000025
其中xtmm和xrm表示第m个麦克接收到的音调与暂态成分的频域表示;k和l分别是音频快速傅立叶变换后对应的频率和索引;τ是两个麦克之间对于来自θ方向的时延;当麦克相位差的理论值和测量值相等时,似然函数取得最大值。
6.如权利要求5所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:还包括,
在所述空间似然函数γTF(k,l,θ)计算时,设置阈值β,当频谱幅度小于β时置0,即满足如下公式:
Figure FDA0003788886260000026
寻找使得似然函数最大的
Figure FDA0003788886260000027
该值即为目标声源的空间方位。
7.如权利要求1或6所述的强噪声下基于加窗LASSO的声源定位方法,其特征在于:所述滑动平均包括,
计算方式如下:
vt=βvt-1+(1-β)θt
Figure FDA0003788886260000031
其中,β为衰减率,vt-1,vt分别为上一个时刻和当前时刻滑动平均模块的输出,vt′为vt的修正值。
CN202110575547.4A 2021-05-26 2021-05-26 一种强噪声下基于加窗lasso的声源定位方法 Active CN113281707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575547.4A CN113281707B (zh) 2021-05-26 2021-05-26 一种强噪声下基于加窗lasso的声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575547.4A CN113281707B (zh) 2021-05-26 2021-05-26 一种强噪声下基于加窗lasso的声源定位方法

Publications (2)

Publication Number Publication Date
CN113281707A CN113281707A (zh) 2021-08-20
CN113281707B true CN113281707B (zh) 2022-10-21

Family

ID=77281657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575547.4A Active CN113281707B (zh) 2021-05-26 2021-05-26 一种强噪声下基于加窗lasso的声源定位方法

Country Status (1)

Country Link
CN (1) CN113281707B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115326193B (zh) * 2022-10-12 2023-08-25 江苏泰洁检测技术股份有限公司 一种工厂作业环境智能监测与评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
CN110133596A (zh) * 2019-05-13 2019-08-16 南京林业大学 一种基于频点信噪比和偏置软判决的阵列声源定位方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694306B1 (en) * 2012-05-04 2014-04-08 Kaonyx Labs LLC Systems and methods for source signal separation
US9615172B2 (en) * 2012-10-04 2017-04-04 Siemens Aktiengesellschaft Broadband sensor location selection using convex optimization in very large scale arrays
CN106405501B (zh) * 2015-07-29 2019-05-17 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
JP6584930B2 (ja) * 2015-11-17 2019-10-02 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP6788272B2 (ja) * 2017-02-21 2020-11-25 オンフューチャー株式会社 音源の検出方法及びその検出装置
CN107102296B (zh) * 2017-04-27 2020-04-14 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN110596644B (zh) * 2019-09-24 2022-03-08 中国科学院声学研究所 一种使用移动环形传声器阵列的声源定位方法及系统
CN110784423A (zh) * 2019-11-08 2020-02-11 江苏科技大学 一种基于稀疏约束的水声信道估计方法
CN112419263B (zh) * 2020-11-20 2023-04-14 上海电力大学 一种基于类间覆盖比的多类别非极大抑制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
CN110133596A (zh) * 2019-05-13 2019-08-16 南京林业大学 一种基于频点信噪比和偏置软判决的阵列声源定位方法

Also Published As

Publication number Publication date
CN113281707A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及系统
Sawada et al. A robust and precise method for solving the permutation problem of frequency-domain blind source separation
Duong et al. Under-determined reverberant audio source separation using a full-rank spatial covariance model
CN109490822B (zh) 基于ResNet的语音DOA估计方法
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
Koldovsky et al. Time-domain blind separation of audio sources on the basis of a complete ICA decomposition of an observation space
CN110867181A (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Wang et al. Combining superdirective beamforming and frequency-domain blind source separation for highly reverberant signals
CN111239680A (zh) 一种基于差分阵列的波达方向估计方法
CN111986695A (zh) 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN113281707B (zh) 一种强噪声下基于加窗lasso的声源定位方法
CN109637554A (zh) 基于cdr的mclp语音去混响方法
Orovi et al. Time-frequency analysis and singular value decomposition applied to the highly multicomponent musical signals
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
Li et al. Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis.
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
CN111341339A (zh) 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN113805139A (zh) 基于聚焦变换的宽带信号稀疏表示波达方向估计方法
CN113724727A (zh) 基于波束形成的长短时记忆网络语音分离算法
CN113593596A (zh) 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法
CN117765969A (zh) 一种EMD风噪抑制下的Mel谱多维特征空间的声音识别方法
CN113257270A (zh) 一种基于参考麦克风优化的多通道语音增强方法
Maazaoui et al. Adaptive blind source separation with HRTFs beamforming preprocessing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant