CN116859336A - 一种声源定位的高精度实现方法 - Google Patents
一种声源定位的高精度实现方法 Download PDFInfo
- Publication number
- CN116859336A CN116859336A CN202310862367.3A CN202310862367A CN116859336A CN 116859336 A CN116859336 A CN 116859336A CN 202310862367 A CN202310862367 A CN 202310862367A CN 116859336 A CN116859336 A CN 116859336A
- Authority
- CN
- China
- Prior art keywords
- sound source
- feature
- icosahedron
- srp
- implementation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004807 localization Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004913 activation Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 13
- 230000003068 static effect Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003491 array Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明属于声源定位的技术领域,公开了一种声源定位的高精度实现方法,包括利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;通过构建二十面体特征注意力网络模型进行特征提取;对特征进行学习,实现高精度声源定位。本发明提供的一种声源定位的高精度实现方法,通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求,减少目前高精度声源定位的实现成本,有着很好的实用性。
Description
技术领域
本发明涉及声源定位的技术领域,尤其涉及一种声源定位的高精度实现方法。
背景技术
语音的基本目的是为了人类沟通,即说话人与听者之间的信息传递。随着科技产品的落地化布局,人机交互已覆盖人们生活的各方各面。在人机交互过程中,机器需要完成语音信号的采集、前处理、识别等操作,进而完成人类发出的相应指令。实际环境中,无处不在的各种干扰对信号传输产生很大的影响,例如背景噪声、室内混响以及其他说话人的干扰声等。在阵列信号处理领域中,声源定位估计技术是一项关键的技术。它所需解决的问题是如何在嘈杂的室内环境下,根据麦克风的接收信号估计出目标说话人的入射方向。一旦说话人波束确定后,即可对信号做指定波束的语音增强等处理。在传统算法中,许多研究者不断优化算法来提升定位性能,在一些比较理想的室内环境下,具有良好的估计性能,但在低信噪比或高混响环境下,传统算法无法适应这类嘈杂环境,其性能受到显著性的影响,且实时性也欠佳。
近年来,随着硬件的不断更新换代,深度学习得到了突飞猛进的发展。不管是在图像、语音或视频领域,深度学习都成为主要研究工具。相较于传统算法,基于深度学习的声源定位估计能有效提升嘈杂环境下的估计性能,但其在低信噪比和强混响下的性能仍亟待提升。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有技术在定位精度上仍具有优化空间,以及环境鲁棒性有待提升的问题。
为解决上述技术问题,本发明提供如下技术方案:一种声源定位的高精度实现方法,包括:
利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;
通过构建二十面体特征注意力网络模型进行特征提取;
对特征进行学习,实现高精度声源定位。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述声源估计算法,包括最小均方自适应算法LMS;
根据麦克风阵列信号模型,接收的信号表示为x1(n)和x2(n);
所述最小均方自适应算法将x1(n)经过滤波器h(n)后的输出信号无限逼近目标信号x2(n),所述输出信号表示为:
其中,hopt(n)为最优滤波器,表示为:
当取最小均方误差时,滤波器的时间延迟表示为:
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述声源估计算法,还包括基于相位变换加权的可控响应功率的声源定位算法;
所述声源定位算法SRP-PHAT输出功率表示为:
其中,M为麦克风总数,θ为声源的方向矢量,τm,n表示从声源到麦克风相对于参考麦克风的延迟差;
所述声源定位算法SRP-PHAT表示为:
通过对波束输出功率进行峰值检测得到声源的方位信息。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS,所述形成方法SRP-LMS的输出功率表示为:
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块;
通过特征提取模块得出两个特征值作为整个系统提取的特征,随后进入特征残差学习模块、特征注意权值模块和特征融合学习模块,通过对提取的特征进行学习训练,提升定位精度。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中,得到相应的二十面体SRP功率谱图;
将二十面体SRP功率谱图输入特征提取模块,得到二十面体特征1和二十面体特征2。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图,输入特征是维度为B×T×C×R×5×H×W的七维张量;
其中,B为批量大小,T为时间维度,C是通道维数,R是二十面体卷积所需的六个通道,开始时输入特征标量R的值为1,5是图表的数量,H和W分别为输入特征的二十面体网格的长度和宽度。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述特征残差学习模块包括卷积层、Relu激活层和残差结构;
对特征残差学习模块的输入二十面体特征1和二十面体特征2得到增强特征1和增强特征2。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:所述特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层;
所述特征注意力权重模块的输入为所述特征残差学习模块的输入和输出特征;
对增强特征采用二十面体层归一化层得到输入通道维度和二十面体卷积通道维度上相对应的描述符,所述描述符f表示为:
f=LNormIco(增强特征)
所述描述符f经过两个卷积层以及一个ReLU函数激活,最后结合sigmod层,反馈两类特征在不同环境下的自适应权系数,所述自适应权系数w表示为:
w=Sigmoid(IcoConv(ρ(IcoConv(f))))
其中,Sigmoid为Sigmoid激活函数,ρ表示ReLU激活函数,IcoConv为二十面体卷积。
作为本发明所述的声源定位的高精度实现方法的一种优选方案,其中:将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征;
将输入的二十面体特征1和二十面体特征2与自适应特征相加结合得到融合特征;
所述融合特征结合了二十面体卷积核和一维卷积的学习前一帧信息;
将所述融合特征输入特征学习模块,得到静态和动态声源定位信息。
本发明的有益效果:本发明提供的一种声源定位的高精度实现方法,通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求,减少目前高精度声源定位的实现成本,有着很好的实用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例所述的声源定位的高精度实现方法的整体流程图;
图2为本发明一个实施例所述的声源定位的高精度实现方法的模块流程示意图;
图3为本发明一个实施例所述的声源定位的高精度实现方法的特征残差学习模块示意图;
图4为本发明一个实施例所述的声源定位的高精度实现方法的特征注意力权重模块示意图;
图5为本发明一个实施例所述的声源定位的高精度实现方法的特征学习模块示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1—5,为本发明的第一个实施例,该实施例提供了一种声源定位的高精度实现方法,包括:
S1:利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;
更进一步的,声源估计算法,包括最小均方自适应算法LMS;
根据麦克风阵列信号模型,接收的信号表示为x1(n)和x2(n);
所述最小均方自适应算法将x1(n)经过滤波器h(n)后的输出信号无限逼近目标信号x2(n),所述输出信号表示为:
其中,hopt(n)为最优滤波器,表示为:
当取最小均方误差时,滤波器的时间延迟表示为:
更进一步的,声源估计算法,还包括基于相位变换加权的可控响应功率的声源定位算法;
所述声源定位算法SRP-PHAT输出功率表示为:
其中,M为麦克风总数,θ为声源的方向矢量,τm,n表示从声源到麦克风相对于参考麦克风的延迟差;
应说明的是,在室内环境,真正的混响往往比理想的混响条件复杂得多,LMS延迟估计容易出现误差。因此,本发明提出利用双通道特性,分别采用GCC算法与LMS算法计算各麦克风阵列之间的特征系数,然后对两对麦克风之间的函数进行累加。
所述声源定位算法SRP-PHAT表示为:
通过对波束输出功率进行峰值检测得到声源的方位信息。
更进一步的,结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS,所述形成方法SRP-LMS的输出功率表示为:
S2:通过构建二十面体特征注意力网络模型进行特征提取;
更进一步的,二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块;
通过特征提取模块得出两个特征值作为整个系统提取的特征,随后进入特征残差学习模块、特征注意权值模块和特征融合学习模块,通过对提取的特征进行学习训练,提升定位精度。
更进一步的,将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中,得到相应的二十面体SRP功率谱图;
将二十面体SRP功率谱图输入特征提取模块,得到二十面体特征1和二十面体特征2。
所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图,输入特征是维度为B×T×C×R×5×H×W的七维张量;
其中,B为批量大小,T为时间维度,C是通道维数,R是二十面体卷积所需的六个通道,开始时输入特征标量R的值为1,5是图表的数量,H和W分别为输入特征的二十面体网格的长度和宽度。
应说明的是,由一个二十面体层卷积的输入二十面体特征分别称为二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图,其通道维数扩展为16,R为6。这一步作为整个系统的特征提取部分。此外,用于声源定位的模型由特征残差学习模块、特征权重注意力模块和融合特征学习模块组成。
S3:对特征进行学习,实现高精度声源定位。
更进一步的,特征残差学习模块包括卷积层、Relu激活层和残差结构;
对特征残差学习模块的输入二十面体特征1和二十面体特征2得到增强特征1和增强特征2。
应说明的是,残差模块的加入,可以让网络忽略输入特征中不太重要的信息,如二十面体特征中非峰值区域的信息。通过残差模块,输入特征转化为更深层次的特征,提升特征对DOA的表征能力。为了适应输入特征张量的维度信息,本模块采用二十面体卷积作为卷积层。
更进一步的,特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层;
所述特征注意力权重模块的输入为所述特征残差学习模块的输入和输出特征;
对增强特征采用二十面体层归一化层得到输入通道维度和二十面体卷积通道维度上相对应的描述符,所述描述符f表示为:
f=LNormIco(增强特征)
所述描述符f经过两个卷积层以及一个ReLU函数激活,最后结合sigmod层,反馈两类特征在不同环境下的自适应权系数,所述自适应权系数w表示为:
w=Sigmoid(IcoConv(ρ(IcoConv(f))))
其中,Sigmoid为Sigmoid激活函数,ρ表示ReLU激活函数,IcoConv为二十面体卷积。
更进一步的,将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征;
将输入的二十面体特征1和二十面体特征2与自适应特征相加结合得到融合特征;
所述融合特征结合了二十面体卷积核和一维卷积的学习前一帧信息;
将所述融合特征输入特征学习模块,得到静态和动态声源定位信息。
应说明的是,sigmod函数后输出一个权重值,这个权重值通过网络学习反馈得到。所以权重值是自适应的。对不同的输入数据适应。权重值再与原本的输入特征乘积,就可以得到该输入数据在两个特征上哪个更为有效。权重便可以表示有效的一个量化值。所以,在不同信噪比,不同混响下,学习到的权重系数是不同的,所以最后输出的特征比例也是不同的。
实施例2
参照表1—3,为本发明的一个实施例,该实施例提供了一种声源定位的高精度实现方法,为了验证本发明的有益效果,通过具体的实施方式以及实施效果进行科学论证。
本实施例具体如下,
①高精度声源定位技术实现步骤:
将声学信号输入,采用基于广义互相关算法(GCC)和最小均方算法(LMS)分别得到功率特征值(SRP)和类SRP特征值,将两个声源特征值通过特征残差学习模块和特征注意力权重模块输入到基于规范等变卷积网络的特征学习模块,实现对声源到达方向(DOA)估计,在嘈杂的环境中实现精准的声源定位。
②具体设备:(硬件设施)
具有12个麦克风的伪球形麦克风阵列和R818降噪板采集声音信号,然后通过串口接口与连接linux系统,通过声源定位的高精度实现方法来确定声源位置,在工业应用等相关领域具有重要作用。
③实验结果:
在实际声环境中,声源的定位精度受到室内混响、噪声、声源的干扰和静默期等诸多因素的影响。此外,实践中使用的声学场景通常是动态的,声源或麦克风阵列处于移动状态。但是,需要连续记录声源的真实位置来判断算法的性能。IEEE-AASP声源定位和跟踪挑战数据库(LOCATA)能够提供真实世界的数据来评估定位和跟踪算法的性能。该挑战包括六个任务,声源从单个到多个,从静态到动态,如表1所示。这些任务有效地低估了声源定位和跟踪算法的性能。本发明使用的算法仅适用于单源任务,因此评估测试集。
表1任务1-3实验环境说明
声源 | 麦克风阵列 | 说话者 | |
任务1 | 单个 | 静态 | 静态 |
任务2 | 单个 | 静态 | 移动 |
任务3 | 单个 | 移动 | 移动 |
为了有效地评价本发明算法的性能,测试数据集与基线中使用的数据集一致。使用LOCATA的eval子集,任务1包含13个录音,任务2和任务3各有5个录音。本文提出的输入特征的分辨率为R=2。表2将通过该方法测试的DOA的平均RMSAE与二十面体CNN和cross3D模型进行了比较,其中cross3D只比较其最高精度的结果。表3给出了不含静音帧的DOA估计误差结果。
表2 LOCATA声源跟踪球面距离均方根误差(含静音帧)
表3 LOCATA声源跟踪球面距离均方根误差(不含静音帧)
表中的数据可以看出,本文提出的声源定位与跟踪模型在实际场景中具有优异的性能。该方法的性能优于目前基于深度学习的混响声源定位模型。在包含静音帧的情况下,该方法将三个任务的准确率平均提高了20.16%。特别是在静态任务中,误差保持在5°以内。比较表2和表3,静音帧对静态任务1没有显著影响。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种声源定位的高精度实现方法,其特征在于,包括:
利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;
通过构建二十面体特征注意力网络模型进行特征提取;
对特征进行学习,实现高精度声源定位。
2.如权利要求1所述的声源定位的高精度实现方法,其特征在于:所述声源估计算法,包括最小均方自适应算法LMS;
根据麦克风阵列信号模型,接收的信号表示为x1(n)和x2(n);
所述最小均方自适应算法将x1(n)经过滤波器h(n)后的输出信号无限逼近目标信号x2(n),所述输出信号表示为:
其中,hopt(n)为最优滤波器,表示为:
当取最小均方误差时,滤波器的时间延迟表示为:
3.如权利要求2所述的声源定位的高精度实现方法,其特征在于:所述声源估计算法,还包括基于相位变换加权的可控响应功率的声源定位算法;
所述声源定位算法SRP-PHAT输出功率表示为:
其中,M为麦克风总数,θ为声源的方向矢量,τm,n表示从声源到麦克风相对于参考麦克风的延迟差;
所述声源定位算法SRP-PHAT表示为:
通过对波束输出功率进行峰值检测得到声源的方位信息。
4.如权利要求3所述的声源定位的高精度实现方法,其特征在于:结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS,所述形成方法SRP-LMS的输出功率表示为:
5.如权利要求4所述的声源定位的高精度实现方法,其特征在于:所述二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块;
通过特征提取模块得出两个特征值作为整个系统提取的特征,随后进入特征残差学习模块、特征注意权值模块和特征融合学习模块,通过对提取的特征进行学习训练,提升定位精度。
6.如权利要求5所述的声源定位的高精度实现方法,其特征在于:将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中,得到相应的二十面体SRP功率谱图;
将二十面体SRP功率谱图输入特征提取模块,得到二十面体特征1和二十面体特征2。
7.如权利要求5或6所述的声源定位的高精度实现方法,其特征在于:所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图,输入特征是维度为B×T×C×R×5×H×W的七维张量;
其中,B为批量大小,T为时间维度,C是通道维数,R是二十面体卷积所需的六个通道,开始时输入特征标量R的值为1,5是图表的数量,H和W分别为输入特征的二十面体网格的长度和宽度。
8.如权利要求7所述的声源定位的高精度实现方法,其特征在于:所述特征残差学习模块包括卷积层、Relu激活层和残差结构;
对特征残差学习模块的输入二十面体特征1和二十面体特征2得到增强特征1和增强特征2。
9.如权利要求8所述的声源定位的高精度实现方法,其特征在于:所述特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层;
所述特征注意力权重模块的输入为所述特征残差学习模块的输入和输出特征;
对增强特征采用二十面体层归一化层得到输入通道维度和二十面体卷积通道维度上相对应的描述符,所述描述符f表示为:
f=LNormIco(增强特征)
所述描述符f经过两个卷积层以及一个ReLU函数激活,最后结合sigmod层,反馈两类特征在不同环境下的自适应权系数,所述自适应权系数w表示为:
w=Sigmoid(IcoConv(ρ(IcoConv(f))))
其中,Sigmoid为Sigmoid激活函数,ρ表示ReLU激活函数,IcoConv为二十面体卷积。
10.如权利要求9所述的声源定位的高精度实现方法,其特征在于:将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征;
将输入的二十面体特征1和二十面体特征2与自适应特征相加结合得到融合特征;
所述融合特征结合了二十面体卷积核和一维卷积的学习前一帧信息;
将所述融合特征输入特征学习模块,得到静态和动态声源定位信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862367.3A CN116859336A (zh) | 2023-07-14 | 2023-07-14 | 一种声源定位的高精度实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862367.3A CN116859336A (zh) | 2023-07-14 | 2023-07-14 | 一种声源定位的高精度实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116859336A true CN116859336A (zh) | 2023-10-10 |
Family
ID=88235551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310862367.3A Pending CN116859336A (zh) | 2023-07-14 | 2023-07-14 | 一种声源定位的高精度实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116859336A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496997A (zh) * | 2023-12-27 | 2024-02-02 | 湘江实验室 | 基于惩罚机制的声源检测方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107219512A (zh) * | 2017-03-29 | 2017-09-29 | 北京大学 | 一种基于声传递函数的声源定位方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
CN112700794A (zh) * | 2021-03-23 | 2021-04-23 | 北京达佳互联信息技术有限公司 | 一种音频场景分类方法、装置、电子设备和存储介质 |
CN113345421A (zh) * | 2020-02-18 | 2021-09-03 | 中国科学院声学研究所 | 一种基于角度谱特征的多通道远场的目标语音识别方法 |
CN115951305A (zh) * | 2022-12-22 | 2023-04-11 | 四川启睿克科技有限公司 | 一种基于srp-phat空间谱和gcc的声源定位方法 |
-
2023
- 2023-07-14 CN CN202310862367.3A patent/CN116859336A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107219512A (zh) * | 2017-03-29 | 2017-09-29 | 北京大学 | 一种基于声传递函数的声源定位方法 |
CN113345421A (zh) * | 2020-02-18 | 2021-09-03 | 中国科学院声学研究所 | 一种基于角度谱特征的多通道远场的目标语音识别方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
CN112700794A (zh) * | 2021-03-23 | 2021-04-23 | 北京达佳互联信息技术有限公司 | 一种音频场景分类方法、装置、电子设备和存储介质 |
CN115951305A (zh) * | 2022-12-22 | 2023-04-11 | 四川启睿克科技有限公司 | 一种基于srp-phat空间谱和gcc的声源定位方法 |
Non-Patent Citations (3)
Title |
---|
D. DIAZ-GUERRA, A. MIGUEL, AND J. R. BELTRAN: "Direction of arrival estimation of sound sources using icosahedral CNNs", 《IEEE/ACM TRANS. AUDIO, SPEECH, LANGUAGE PROCESS.》, 23 November 2022 (2022-11-23), pages 313 * |
林志斌、徐柏龄: "基于传声器阵列的声源定位", 《电声技术》, 17 May 2004 (2004-05-17), pages 19 - 23 * |
邓艳容;景新幸;任华娟: "基于麦克风阵列的声源定位研究", 《电子技术应用》, 6 February 2010 (2010-02-06), pages 87 - 90 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496997A (zh) * | 2023-12-27 | 2024-02-02 | 湘江实验室 | 基于惩罚机制的声源检测方法、装置及存储介质 |
CN117496997B (zh) * | 2023-12-27 | 2024-04-05 | 湘江实验室 | 基于惩罚机制的声源检测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN111239687B (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN110068795A (zh) | 一种基于卷积神经网络的室内麦克风阵列声源定位方法 | |
CN112904279B (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
CN108877827A (zh) | 一种语音增强交互方法及系统、存储介质及电子设备 | |
CN107221336A (zh) | 一种增强目标语音的装置及其方法 | |
CN109164415B (zh) | 一种基于卷积神经网络的双耳声源定位方法 | |
CN116859336A (zh) | 一种声源定位的高精度实现方法 | |
CN110444220B (zh) | 一种多模态远程语音感知方法及装置 | |
US20220270631A1 (en) | Audio signal processing method, apparatus and device, and storage medium | |
CN113129918A (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
CN115565550A (zh) | 基于特征图轻量卷积变换的婴儿哭声情感识别方法 | |
Jiang et al. | Deep and CNN fusion method for binaural sound source localisation | |
CN114339539A (zh) | 一种采用麦克风阵列拾音的多通道语音增强方法 | |
CN117173365B (zh) | 基于声音ai模型的虚拟场景生成方法及系统 | |
CN111948609B (zh) | 基于Soft-argmax回归器的双耳声源定位方法 | |
CN113111765A (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN115426055B (zh) | 一种基于解耦卷积神经网络的含噪水声信号盲源分离方法 | |
Zhou et al. | Binaural Sound Source Localization Based on Convolutional Neural Network. | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN115762544A (zh) | 基于动态卷积和窄带Conformer的语音增强方法 | |
CN113643710A (zh) | 自组织麦克风阵列下基于注意力的多通道说话人确认方法 | |
Gonzalez et al. | Spherical decomposition of arbitrary scattering geometries for virtual acoustic environments | |
Molés-Cases et al. | Providing spatial control in personal sound zones using graph signal processing | |
Yang et al. | A Review of Sound Source Localization Research in Three-Dimensional Space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |