CN116631438A - 一种基于最小p范数的宽度学习及二次相关的声源定位方法 - Google Patents
一种基于最小p范数的宽度学习及二次相关的声源定位方法 Download PDFInfo
- Publication number
- CN116631438A CN116631438A CN202310485152.4A CN202310485152A CN116631438A CN 116631438 A CN116631438 A CN 116631438A CN 202310485152 A CN202310485152 A CN 202310485152A CN 116631438 A CN116631438 A CN 116631438A
- Authority
- CN
- China
- Prior art keywords
- data set
- sound source
- width learning
- minimum
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000004807 localization Effects 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000002474 experimental method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000005314 correlation function Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000005441 aurora Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及声源定位技术领域,具体涉及一种基于最小p范数的宽度学习及二次相关的声源定位方法,通过采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集;将原始音频数据集进行预处理,得到数据集;构建麦克风阵列基于数据集收集声源,得到测试集和训练集;将训练集和实验需求构建宽度学习系统网络模型,得到训练模型;将测试集代入训练后的训练模型,得到预测位置,解决了现有算法计算量大、其稳定性以及抗干扰能力不足,从而导致计算时间较长的问题。
Description
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于最小p范数的宽度学习及二次相关的声源定位方法。
背景技术
近几年来,随着科学技术和智能领域的不断发展与需求增加,声源定位技术被广泛应用,例如智能机器人领域和视频会议当中声源定位技术会使其变得更加智能化和人性化。
传统声源定位算法大体可分3类,基于到达时延估计(Time Difference ofArrival,TDOA)的声源定位算法、基于最大输出功率的可控波束形成声源定位算法和基于高分辨率谱估计的声源定位算法。在声源定位的应用中,基于到达时间差的方法是比较常用的,这个方法是根据估计出两个信号源的时延进而求出声源的位置,TDOA算法的复杂度低、实时性高、精度高、硬件成本低,进而被广泛的应用。时延估计作为TDOA声源定位的第一步是至关重要的,时延微小的误差都会导致定位结果的偏离。广义互相关时延估计算法(Generalized Cross-Correlation,GCC)是较为经典的时延估计方法GCC方法通过添加加权函数提高了语音信号中的有效成分,进而提高了时延估计精度。但是在信噪比进一步降低时,该算法的抗噪性能有限,所以选择利用二次相关算法来进一步有效抑制噪声的干扰,以提高抗噪性能。
科技的进步和更新,让越来越多的学者开始探索新的算法在声源定位中的应用。例如基于压缩感知的声源定位算法、基于机器学习的声源定位算法逐渐被提出,研究者将神经网络模型应用于移动机器人的声源定位,定位精度得到了一定的提高,但仍然存在计算量大、其稳定性以及抗干扰能力不足从而导致计算时间过长。
发明内容
本发明的目的在于提供一种基于最小p范数的宽度学习及二次相关的声源定位方法,旨在解决现有算法计算量大、其稳定性以及抗干扰能力不足,从而导致计算时间较长的问题。
为实现上述目的,本发明提供了一种基于最小p范数的宽度学习及二次相关的声源定位方法,包括以下步骤:
采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集;
将所述原始音频数据集进行预处理,得到数据集;
构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集;
将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型;
将所述测试集代入训练后的训练模型,得到预测位置。
其中,所述采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集,包括:
通过所述实验室噪声语音语料库下载30个IEEE句子,得到原始音频数据集;
其中,所述将所述原始音频数据集进行预处理,得到数据集,包括:
将所述原始音频数据集进行滤波、分帧、加窗、语音活动检测的预处理,得到数据集。
其中,所述构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集,包括:
构建麦克风阵列;
将所述数据集的音频信号设置在指定位置,且声源与所述麦克风阵列设定为同一高度;并设定不同的信噪比,将同一信噪比下的所述音频信号分别放置于设定的位置上;
通过模拟所述麦克风阵列对所述音频信号进行接收和采集,得到测试集和训练集。
其中,所述将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型,包括:
将选取的基准麦克风和其余麦克风接收到的音频信号分别进行自相关和广义互相关处理,得到相关函数;
然后再将所述相关函数进行二次广义互相关处理,得到二次广义互相关函数;
提取所述二次广义互相关函数中的浅层特征和深层特征,分别映射为宽度学习的特征结点和增强结点,共同作为神经网络的输入;
将所述训练集和实验需求构建基于最小p范数的宽度学习系统网络结构,得到网络模型;
将所述训练集输入到网络模型中,此时的模型具有最优的参数权重,并对真实声源的位置进行预测。
本发明的一种基于最小p范数的宽度学习及二次相关的声源定位方法,通过采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集;将所述原始音频数据集进行预处理,得到数据集;构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集;将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型;将所述测试集代入训练后的训练模型,得到预测位置,解决了现有算法计算量大、其稳定性以及抗干扰能力不足,从而导致计算时间较长的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法流程图。
图2是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的流程示意图。
图3是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的模型示意图。
图4是是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的特征提取示意图。
图5是是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法中的二次广义互相关示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图5,本发明提供一种基于最小p范数的宽度学习及二次相关的声源定位方法,包括以下步骤:
S1采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集;
具体的,
通过所述实验室噪声语音语料库下载30个IEEE句子,得到原始音频数据集;所述噪声语音语料库中的语音数据为30个所述IEEE句子被不同信噪比下的八个不同的现实世界噪音所破坏;
所述八个不同的现实世界噪音取自AURORA数据库,其中有郊区火车噪音、嘟嘟声、汽车、展览厅、餐馆、街道、机场和火车站噪音;。
S2将所述原始音频数据集进行预处理,得到数据集;
具体的,
将所述原始音频数据集进行滤波、分帧、加窗、语音活动检测的预处理,得到数据集。
S3构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集;
具体的,
S31将所述数据集的音频信号设置在指定位置,且声源与所述麦克风阵列设定为同一高度,因此,声源的俯仰角为0°,方位角的范围选取范围为[0°-180°],并设定不同的信噪比,将同一信噪比下的所述音频信号分别放置于设定的位置上。
S32通过模拟所述麦克风阵列对所述音频信号进行接收和采集,得到测试集和训练集。
S4将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型;
S41将选取的基准麦克风和其余麦克风接收到的音频信号分别进行自相关和广义互相关处理,得到相关函数;
具体的,
对麦克风阵列接受的语音信号做改进后的广义互相关的具体计算方式为:
基于时延估计的声源定位算法主要分为两个步骤:第一步,估计声源信号到达各个麦克风之间的时间差;第二步,利用上一步所得到的时间差和声源与麦克风阵列之间的几何关系来估计声源位置;
假设S为声源;阵元分别为Mi和Mj;对于麦克风阵列中阵元Mi和Mi接接收到的信号模型为
其中,s(t)表示声源信号;αiαj表示衰减因子;τ表示时间延迟;ni(t)、nj(t)表示环境噪声;假设声源信号s(t)和噪声n(t),噪声ni(t)和噪声nj(t)之间互不相关
信号xi(t)和nj(t)的互相关函数表示为
Rij=E[xi(t)xj(t-τ)] (2)
将式(1)代入式(2)得
Rij=αiαjE[s(t-τi)s(t-τi-τ)]+αiE[s(t-τi)n(t-τ)]+αjE[s(t-τi-τ)nj(t)]+E[ni(t)nj(t-τ)] (3)
因为假设声源信号s(t)和噪声n(t)不相关,式(3)可以简化为
Rij=αiαjRij(τ-τij)+Rn1n2(τ) (4)
又由于噪声ni(t)和噪声nj(t)之间互不相关,式(4)可以简化为
Rij=αiαjRij(τ-τij) (5)
在上式中,τij=τi-τj;当τ=τij时,Rij取最大值,此时对应的τ为麦克风的延迟时间。然而当噪声不相互独立,或者信噪比较低时,互相关函数Rij的峰值将不明显,此时估计出来的时差将会产生明显的误差,从而得不到正确的估计值,影响定位的精确性。因此,为了减少峰值的弱化对后续计算造成的影响,对Rij进行加权,将式(5)转换为功率谱
其中,表示加权函数;若/>采用相位变换的加权函数(PHAT)由上式可得
其中,Xi(ω)是麦克风Mi采集到的信号xi(t)的快速傅里叶变换(FFT);/>表示麦克风Mj采集到信号xj(t)的FFT的复数共轭。
二次相关算法是基本互相关算法的改进,该算法第一步先对信号分别进行自相关和互相关运算,然后把得到的自相关和互相关函数再进行相关运算,以此来提高信号的信噪比。原理如下:
在对互功率谱函数进行加权处理之前,先对接收信号xi(t)和xj(t)做一次二次相关,然后再将功率谱函数做傅里叶逆变换,得到广义互相关函数,再进行峰值检测,从而得到时差的准确估计。
S42然后再将所述相关函数进行二次广义互相关处理,得到二次广义互相关函数;
S43提取所述二次广义互相关函数中的浅层特征和深层特征,分别映射为宽度学习的特征结点和增强结点,共同作为神经网络的输入;
具体的,
所述神经网络的设计思路为:首先,利用提取到的二次广义互相关特征作为网络的“特征结点”,特征结点再一次映射为“增强结点”。其次,将所有映射的特征和增强结点共同作为网络的输入一起连接到输出端,利用岭回归的方式计算出模型的连接权重W。
S44将所述训练集和实验需求构建基于最小p范数的宽度学习系统网络结构,得到网络模型;
具体的,
在原始的宽度学习系统中,利用正则化的最小二乘法求解最优的W,虽然会极大地方便求解的过程,但是也降低了宽度学习系统的鲁棒性。这是因为正则化的最小二乘法采用误差矢量的2范数构造损失函数,在实验中很难抑制非高斯噪声污染或异常值带来的负面影响,因此本发明采用误差矢量p范数来构造损失函数,以增强系统的鲁棒性。具体如下:对于具有采用N个样本的最小p范数的宽度学习系统模型,其输出为误差估计描述为
同时,待求解的权重为一个L×1的矢量,表示为w;ai表示第i个样本的误差,那么有
其中,yi是第i个样本的实际位置;是矩阵B中的第i行。根据p范数的定义,那么,误差矢量p范数可以表示为
那么,优化目标函数可以表示为
令求梯度,可得
其中,为加权对角矩阵,令/>求得W为
当p=2,ΛwB=I时,基于最小p范数的宽度学习系统模型就退化为宽度学习系统模型,可以发现该模型是通过p值来抑制异常值的影响,进而提高模型的鲁棒性,在不同的噪声环境下,能够实现对不确定数据的建模任务。当|p-2|<1时,可以将误差过大的值进行限制,减小异常值对模型的影响。固定点迭代时一种通过迭代方程求解隐式方程的手段,本发明采用固定点迭代来更新W,令
那么W的更新过程为
W(t)=ψ(W(t-1)) (15)
其中,W(t)表示为第t次迭代过程,在预测任务中,随机产生W(0),设定的迭代次数T为终止条件,经过T次迭代后得到W。
S45将所述测试集输入到网络模型中,此时的模型具有最优的参数权重,并对真实声源的位置进行预测。
S5将所述测试集代入训练后的训练模型,得到预测位置。
以上所揭露的仅为本发明一种基于最小p范数的宽度学习及二次相关的声源定位方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (5)
1.一种基于最小p范数的宽度学习及二次相关的声源定位方法,其特征在于,
采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集;
将所述原始音频数据集进行预处理,得到数据集;
构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集;
将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型;
将所述测试集代入训练后的训练模型,得到预测位置。
2.如权利要求1所述的基于最小p范数的宽度学习及二次相关的声源定位方法,其特征在于,
所述采用并下载实验室噪声语音语料库中的音频,得到原始音频数据集,包括:
通过所述实验室噪声语音语料库下载30个IEEE句子,得到原始音频数据集。
3.如权利要求2所述的基于最小p范数的宽度学习及二次相关的声源定位方法,其特征在于,
所述将所述原始音频数据集进行预处理,得到数据集,包括:
将所述原始音频数据集进行滤波、分帧、加窗、语音活动检测的预处理,得到数据集。
4.如权利要求3所述的基于最小p范数的宽度学习及二次相关的声源定位方法,其特征在于,
所述构建麦克风阵列基于所述数据集收集声源,得到测试集和训练集,包括:
构建麦克风阵列;
将所述数据集的音频信号设置在指定位置,且声源与所述麦克风阵列设定为同一高度;并设定不同的信噪比,将同一信噪比下的所述音频信号分别放置于设定的位置上;
通过模拟所述麦克风阵列对所述音频信号进行接收和采集,得到测试集和训练集。
5.如权利要求所述的基于最小p范数的宽度学习及二次相关的声源定位方法,其特征在于,
所述将所述训练集和实验需求构建宽度学习系统网络模型,得到训练模型,包括:
将选取的基准麦克风和其余麦克风接收到的音频信号分别进行自相关和广义互相关处理,得到相关函数;
然后再将所述相关函数进行二次广义互相关处理,得到二次广义互相关函数;
提取所述二次广义互相关函数中的浅层特征和深层特征,分别映射为宽度学习的特征结点和增强结点,共同作为神经网络的输入;
将所述训练集和实验需求构建基于最小p范数的宽度学习系统网络结构,得到网络模型;
将所述测试集输入到网络模型中,此时的模型具有最优的参数权重,并对真实声源的位置进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485152.4A CN116631438A (zh) | 2023-04-28 | 2023-04-28 | 一种基于最小p范数的宽度学习及二次相关的声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485152.4A CN116631438A (zh) | 2023-04-28 | 2023-04-28 | 一种基于最小p范数的宽度学习及二次相关的声源定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116631438A true CN116631438A (zh) | 2023-08-22 |
Family
ID=87620411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485152.4A Pending CN116631438A (zh) | 2023-04-28 | 2023-04-28 | 一种基于最小p范数的宽度学习及二次相关的声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631438A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117825898A (zh) * | 2024-03-04 | 2024-04-05 | 国网浙江省电力有限公司电力科学研究院 | 一种gis分布式振声联合监测方法、装置及介质 |
CN118191734A (zh) * | 2024-05-16 | 2024-06-14 | 杭州爱华仪器有限公司 | 一种多声源定位方法、装置、程序、存储介质及电子设备 |
-
2023
- 2023-04-28 CN CN202310485152.4A patent/CN116631438A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117825898A (zh) * | 2024-03-04 | 2024-04-05 | 国网浙江省电力有限公司电力科学研究院 | 一种gis分布式振声联合监测方法、装置及介质 |
CN117825898B (zh) * | 2024-03-04 | 2024-06-11 | 国网浙江省电力有限公司电力科学研究院 | 一种gis分布式振声联合监测方法、装置及介质 |
CN118191734A (zh) * | 2024-05-16 | 2024-06-14 | 杭州爱华仪器有限公司 | 一种多声源定位方法、装置、程序、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110082725B (zh) | 基于麦克风阵列的声源定位时延估计方法、声源定位系统 | |
CN105068048B (zh) | 基于空间稀疏性的分布式麦克风阵列声源定位方法 | |
CN111415676B (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN109782231B (zh) | 一种基于多任务学习的端到端声源定位方法及系统 | |
CN108318862B (zh) | 一种基于神经网络的声源定位方法 | |
CN108957403B (zh) | 一种基于广义互相关的高斯拟合包络时延估计方法及系统 | |
CN102411138A (zh) | 一种机器人声源定位方法 | |
WO2020024816A1 (zh) | 音频信号处理方法、装置、设备和存储介质 | |
CN111798869B (zh) | 一种基于双麦克风阵列的声源定位方法 | |
CN113111765B (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN112014791B (zh) | 存在阵列误差的阵列pca-bp算法的近场源定位方法 | |
Moreira et al. | A graph signal processing approach to direction of arrival estimation | |
CN116631438A (zh) | 一种基于最小p范数的宽度学习及二次相关的声源定位方法 | |
CN114171041A (zh) | 基于环境检测的语音降噪方法、装置、设备及存储介质 | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN111580042A (zh) | 一种基于相位优化的深度学习测向方法 | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及系统 | |
CN112037813B (zh) | 一种针对大功率目标信号的语音提取方法 | |
CN109212472B (zh) | 一种面向噪声环境下的室内无线定位方法及装置 | |
CN115980668A (zh) | 一种基于宽度神经网络的广义互相关的声源定位方法 | |
CN115578425A (zh) | 一种应用在鱼苗计数器中基于无际卡尔曼滤波的动态追踪的方法 | |
CN113689870B (zh) | 一种多通道语音增强方法及其装置、终端、可读存储介质 | |
CN111880146B (zh) | 声源定向方法和装置及存储介质 | |
CN109239665B (zh) | 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置 | |
Yang et al. | A Review of Sound Source Localization Research in Three-Dimensional Space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |