CN110047507B - 一种声源识别方法及装置 - Google Patents
一种声源识别方法及装置 Download PDFInfo
- Publication number
- CN110047507B CN110047507B CN201910157659.0A CN201910157659A CN110047507B CN 110047507 B CN110047507 B CN 110047507B CN 201910157659 A CN201910157659 A CN 201910157659A CN 110047507 B CN110047507 B CN 110047507B
- Authority
- CN
- China
- Prior art keywords
- sound source
- source signal
- frequency
- signal
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 228
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000006243 chemical reaction Methods 0.000 claims abstract description 51
- 230000009466 transformation Effects 0.000 claims description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PHTXVQQRWJXYPP-UHFFFAOYSA-N ethyltrifluoromethylaminoindane Chemical compound C1=C(C(F)(F)F)C=C2CC(NCC)CC2=C1 PHTXVQQRWJXYPP-UHFFFAOYSA-N 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Stereophonic System (AREA)
Abstract
本申请提供了一种声源识别方法及装置,涉及声源识别技术领域,包括首先接收声源信号,其中,所述声源信号包含至少一种频率的信号,然后将声源信号由时域转换为频域,得到声源信号的信号频谱集合,利用预设的频谱变换倍数分别对信号频谱集合中的振幅频谱集合和相位频谱集合进行变换处理,将变换处理后的振幅频谱集合和相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别,解决了现有技术中输出信号对某一指定方向入射的信号最大,达到空域滤波效果,但是声源识别性能较差的技术问题,可以提高声源识别准确性的技术效果。
Description
技术领域
本申请涉及声源识别技术领域,尤其是涉及一种声源识别方法及装置。
背景技术
声源识别方法是听觉系统对发声物体位置的判断过程,声源识别有助于从背景声中锁定声学目标,分离有用信息。
现有技术中声源识别方法主要是对入射声源中的声源信号进行延时、加权、求和处理,使得输出信号对某一指定方向入射的信号最大,达到空域滤波效果,但是该方法声源识别性能较差。
而且,声源识别方法在通过麦克风阵列中的麦克风或多个声学传感器进行采集数据,分析声源位置方法时,声源的频率大小会影响到声源识别的分辨率,进而导致声源识别结果不准确。
发明内容
有鉴于此,本申请的目的在于提供一种声源识别方法及装置,以提高对声源识别的准确性。
第一方面,本申请提供了一种声源识别方法,其中,包括:
接收声源信号,其中,所述声源信号包含至少一种频率的信号;
将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合;
基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数;
根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;
将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
本申请的一实施例中,所述根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,包括:
选择所述相位频谱集合中的任一相位频谱作为参考相位频谱,计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱,得到相位差频谱集合;
计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。
本申请的一实施例中,根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;包括:
将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合。
本申请的一实施例中,所述将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合,包括:
利用傅里叶变换算法将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合。
本申请的一实施例中,所述将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,包括:
利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理,得到处理后的声源信号。
第二方面,本申请还提供一种声源识别装置,其中,包括:
接收模块,用于接收声源信号,其中,所述声源信号包含至少一种频率的信号;
转换模块,用于将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合;
处理模块,用于基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数;
根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;
识别模块,用于将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
本申请的一实施例中,所述处理模块,包括:
选择单元,用于选择所述相位频谱集合中的任一相位频谱作为参考相位频谱,计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱,得到相位差频谱集合;
计算单元,用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。本申请的一实施例中,所述处理模块,具体用于:
将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合。
本申请的一实施例中,所述转换模块,具体用于:
利用傅里叶变换算法将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合。
本申请的一实施例中,所述识别模块,具体用于:
利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理,得到处理后的声源信号。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本申请实施例提供的声源识别方法中,首先接收声源信号,其中,所述声源信号包含至少一种频率的信号,然后将声源信号由时域转换为频域,得到声源信号的信号频谱集合,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数,根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,将变换处理后的振幅频谱集合和相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别,从而可以达到提高声源识别的准确性。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种声源识别方法的流程图;
图2为本申请实施例提供的另一种声源识别方法的部分流程图;
图3为本申请实施例提供的一种声源识别装置的结构示意图;
图4为本申请实施例提供的一种计算机设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前现有技术中声源识别方法主要是对入射声源中的声源信号进行延时、加权、求和处理,使得输出信号对某一指定方向入射的信号最大,达到空域滤波效果,但是该方法声源识别性能较差,基于此,本申请实施例提供的一种声源识别方法及装置,可以提高对声源识别的准确性。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种声源识别方法进行详细介绍,图1为本申请实施例提供的一种声源识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤101,接收声源信号。
具体的,接收需要进行声源识别的声源信号,其中,对不同类型的声源信号,经过声源识别检测实验得到其类型中可以达到较高识别声源的固定声源信号,将该固定声源信号作为预设声源信号,上述接收的声源信号可以是相对该预设声源信号的低频声源信号,也可以是相对该预设声源信号的高频声源信号。
上述声源信号可以是通过固体、液体或者气体中的任意一种作为传播声音介质得到的声源信号。声源信号可以是识别具有多种声源信号环境中的一种声源信号,也可以是单一声源信号环境中识别该声源信号。其中,声源信号可以是各种乐器、扬声器或爆炸声等产生的声源信号,但不限于上述声源信号。
示例性的,声源信号作为入射声源传输到由不同数量的声学传感器组成的各信号采集通道阵列后,采集该声源信号传输至计算机设备,通过计算机设备对该声源信号进行延迟、加权、求和计算,使得各信号采集通道阵列的输出信号可以聚集到指定声源位置,在该指定声源位置处的信号达到最大值,例如,入射声源信号为p1、p2...pi,该信号进入到由i个声学传感器组成的阵列通道中,对该声源信号进行延迟、加权、求和计算,得到如下表达式:
其中,ki-各通道加权系数;τi-各通道延迟时间,与声学传感器位置有关;f-声源信号的频率。
步骤102,将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合。
示例性的,上述公式(1)通过傅里叶变换算法,得到阵列输出的频域表达式:
其中,ω-声源信号中声源的角频率;ηi-各个声学传感器相对于预设的参考位置的时间差,且ωηi为第i个声学传感器与预设的参考位置第r个声学传感器之间的相位差。
假设第i个声学传感器到预设的参考位置第r个声学传感器的距离为Rir,那么第1个声学传感器到预设的参考位置第r个声学传感器的距离为R1r,将第1个声学传感器和第i个声学传感器到预设的参考位置第r个声学传感器的距离差设定为di,那么ηi的计算公式如下所示:
其中,c-声的传播速度。
若阵列的输出信号方向和声源信号的方向相同时,阵列的输出信号将声源信号扩大∑ki倍,在对声源信号进行延迟、加权、求和过程中,需要进行归一化处理,其中具体公式为:
其中,Pt-t时刻阵元接收到的信号。
当阵列的输出信号方向与声源信号的方向处于完全相同时,阵列的响应达到最大值,此时在阵列方向图中会出现主瓣,主瓣的宽度也即主瓣半功率点之间的宽度,也可以称为半功率带宽,对于等间距有N阵元的线阵列,半功率带宽的表达式如下:
K≈0.886λ/Ndi (5)
其中,λ-声源信号的波长。
当阵列的位置固定不变时,主瓣的宽度与声源信号频率的高低有关,声源识别中分辨率的高低与主瓣的宽度的大小变化一致,其中,声源信号频率变高时,主瓣宽度会变小,从而分辨率变低,声源信号频率变低时,主瓣宽度会变大,从而分辨率变高。
步骤103,基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数。
步骤104,根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合。
具体的,信号频谱集合包括振幅频谱集合和相位频谱集合,选择相位频谱集合中的任一相位频谱作为参考相位频谱,计算相位频谱集合中除参考相位频谱外的每一个相位频谱与参考相位频谱的相位差频谱,得到相位差频谱集合。
其中,振幅频谱包括幅值和频率,相位频谱包括各信号采集通道采集的相位。
如图2所示,上述步骤104具体还包括如下步骤:
步骤201,针对所述振幅频谱集合,将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合。
步骤202,针对所述相位频谱集合,计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。
示例性的,假设接收到的一种声源信号由时域转换为频域后,得到声源信号的频率值f1、相位差值φ1以及幅值A1,其中保持幅值A1不变,将声源信号的频率值f1和相位差值φ1分别变换为m倍数后,得到变换后的频率值f2和相位差值φ2,其中,f2即为经过声源识别检测实验得到其类型中可以达到较高识别声源的固定声源信号经过时域到频域的转换后得到的频率,且f2=m*f1,φ2=m*φ1。
例如,假设声源信号的频率为f1,通过对f1进行频率变换倍数m倍的变换,得到预设的固定频率f2,那么上述公式(2)变为:
式中:m-频率变换倍数,且m=f2/f1,当声源信号频率值f1大于相对预设的固定频率值f2时,m取值范围为(0,1),当声源信号频率值f1小于相对预设的固定频率值f2时,m的取值大于1。
将ω=2πf及上述公式(3)代入公式(6)得:
式中ωηi=2πfdi/c指第i个声学传感器与预设的参考位置第r个声学传感器之间的相位差,频率变换后相位差变为(2πfdi/c)m=2πmfdi/c。
步骤105,将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
示例性的,利用傅里叶逆变换算法对处理后的声源信号进行逆变换处理;对逆变换处理后的声源信号进行识别。
识别方法可以是高分辨率算法、波束形成迭代反卷积算法、高阶累计循环量方法中的一种或多种。
其中,当声源信号是相对该预设声源信号的低频声源信号时,根据预设的频谱倍数进行的变换后,对于阵列中点扩散函数矩阵的元素差异会增大,从而可以通过减小逆向求解的病态,达到提高声源识别的准确性。
当声源信号是相对该预设声源信号的高频声源信号时,根据预设的频谱倍数进行的变换后,可以抑制“鬼影”(即其他杂音),达到提高声源识别的准确性。
本申请通过对声源信号由时域转换为频域的变换,得到该信号的频率值、相位值以及幅值,保持该信号的幅值不变,将该信号的频率值和相位值扩大至m倍数后进行傅里叶逆变换得到变化后的声源信号。
本申请实施例提供了一种声源识别装置,如图3所示,该装置包括以下模块:
接收模块301,用于接收声源信号,其中,所述声源信号包含至少一种频率的信号;
转换模块302,用于将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合;
处理模块303,用于基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数;
根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;
识别模块304,用于将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
可选地,所述处理模块303,包括:
选择单元,用于选择所述相位频谱集合中的任一相位频谱作为参考相位频谱,计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱,得到相位差频谱集合;
计算单元,用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。可选地,所述处理模块,具体用于:
将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合;
可选地,所述转换模块302,具体用于:
利用傅里叶变换算法将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合。
可选地,所述识别模块304,具体用于:
利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理,得到处理后的声源信号。
对应于图1中的声源识别方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述声源识别方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述声源识别方法,解决现有技术中声源识别通过麦克风阵列中的麦克风或多个声学传感器进行采集数据,分析声源位置方法时,声源的频率大小会影响到声源识别的分辨率,进而导致声源识别结果不准确的问题,其中,本申请通过接收声源信号,对声源信号进行傅里叶变换后得到声源信号的频率、相位以及幅值,通过保持幅值不变,将频率、相位差扩大至m倍数后,将变换后的频率、相位以及保持不变的幅值进行傅里叶逆变换,得到变换后的声源信号,对该变换后的声源信号进行识别,以提高对声源识别的准确性。
对应于图1中的声源识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述声源识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述声源识别方法,解决现有技术中声源识别通过麦克风阵列中的麦克风或多个声学传感器进行采集数据,分析声源位置方法时,声源的频率大小会影响到声源识别的分辨率,进而导致声源识别结果不准确的问题,其中,本申请通过接收声源信号,对声源信号进行傅里叶变换后得到声源信号的频率、相位以及幅值,通过保持幅值不变,将频率、相位差扩大至m倍数后,将变换后的频率、相位以及保持不变的幅值进行傅里叶逆变换,得到变换后的声源信号,对该变换后的声源信号进行识别,以提高对声源识别的准确性。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (12)
1.一种声源识别方法,其特征在于,包括:
接收声源信号,其中,所述声源信号包含至少一种频率的信号;
将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合;
基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数;
根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;
将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
2.根据权利要求1所述的方法,其特征在于,根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,包括:
选择所述相位频谱集合中的任一相位频谱作为参考相位频谱,计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱,得到相位差频谱集合;
计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。
3.根据权利要求1所述的方法,其特征在于,根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;包括:
将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合。
4.根据权利要求1所述的方法,其特征在于,所述将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合,包括:
利用傅里叶变换算法将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合。
5.根据权利要求4所述的方法,其特征在于,所述将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,包括:
利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理,得到处理后的声源信号。
6.一种声源识别装置,其特征在于,包括:
接收模块,用于接收声源信号,其中,所述声源信号包含至少一种频率的信号;
转换模块,用于将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合;其中,所述信号频谱集合包括振幅频谱集合和相位频谱集合;
处理模块,用于基于所述声源信号所属的类型,查找与所述声源信号相匹配的固定声源信号,根据所述固定声源信号的频率,以及所述振幅频谱集合中每个信号的频率,确定所述声源信号中每个信号对应的频谱变换倍数;
根据所述声源信号中每个信号对应的频谱变换倍数,对所述相位频谱集合进行变换处理,得到变换处理后的相位频谱集合,并且根据所述固定声源信号的频率,对所述振幅频谱集合进行变换处理,得到变换处理后的振幅频谱集合;
识别模块,用于将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后,得到处理后的声源信号,并对处理后的声源信号进行识别。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,包括:
选择单元,用于选择所述相位频谱集合中的任一相位频谱作为参考相位频谱,计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱,得到相位差频谱集合;
计算单元,用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积,得到变换处理后的相位频谱集合。
8.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
将所述振幅频谱集合的每一个幅值保持不变,将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率,得到变换处理后的振幅频谱集合。
9.根据权利要求6所述的装置,其特征在于,所述转换模块,具体用于:
利用傅里叶变换算法将所述声源信号由时域转换为频域,得到所述声源信号的信号频谱集合。
10.根据权利要求9所述的装置,其特征在于,所述识别模块,具体用于:
利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理,得到处理后的声源信号。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157659.0A CN110047507B (zh) | 2019-03-01 | 2019-03-01 | 一种声源识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157659.0A CN110047507B (zh) | 2019-03-01 | 2019-03-01 | 一种声源识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047507A CN110047507A (zh) | 2019-07-23 |
CN110047507B true CN110047507B (zh) | 2021-03-30 |
Family
ID=67274501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910157659.0A Active CN110047507B (zh) | 2019-03-01 | 2019-03-01 | 一种声源识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047507B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3879507A1 (en) * | 2020-03-12 | 2021-09-15 | Hexagon Technology Center GmbH | Visual-acoustic monitoring system for event detection, localization and classification |
CN112116917B (zh) * | 2020-09-15 | 2023-02-07 | 国网吉林省电力有限公司超高压公司 | 基于相位跃变度的电抗器本体与风机声信号分离方法 |
CN113514799A (zh) * | 2021-06-02 | 2021-10-19 | 普联国际有限公司 | 基于麦克风阵列的声源定位方法、装置、设备及存储介质 |
CN113608167B (zh) * | 2021-10-09 | 2022-02-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 声源定位方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079267A (zh) * | 2006-05-26 | 2007-11-28 | 富士通株式会社 | 定向集音装置、定向集音方法以及存储器产品 |
EP1953734A2 (en) * | 2007-01-30 | 2008-08-06 | Fujitsu Ltd. | Sound determination method and sound determination apparatus |
CN106052849A (zh) * | 2016-05-20 | 2016-10-26 | 西南交通大学 | 一种汽车车内非平稳异常噪声源识别方法 |
EP3276621A1 (en) * | 2016-07-27 | 2018-01-31 | Fujitsu Limited | Noise suppression device and noise suppressing method |
EP2755204B1 (en) * | 2013-01-15 | 2018-10-10 | Fujitsu Limited | Noise suppression device and method |
CN109243491A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106405501B (zh) * | 2015-07-29 | 2019-05-17 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
CN105675126B (zh) * | 2016-01-31 | 2019-01-01 | 柳州市展虹科技有限公司 | 一种用于检测多频多源复杂稳定声场声压的新方法 |
-
2019
- 2019-03-01 CN CN201910157659.0A patent/CN110047507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079267A (zh) * | 2006-05-26 | 2007-11-28 | 富士通株式会社 | 定向集音装置、定向集音方法以及存储器产品 |
EP1953734A2 (en) * | 2007-01-30 | 2008-08-06 | Fujitsu Ltd. | Sound determination method and sound determination apparatus |
EP2755204B1 (en) * | 2013-01-15 | 2018-10-10 | Fujitsu Limited | Noise suppression device and method |
CN106052849A (zh) * | 2016-05-20 | 2016-10-26 | 西南交通大学 | 一种汽车车内非平稳异常噪声源识别方法 |
EP3276621A1 (en) * | 2016-07-27 | 2018-01-31 | Fujitsu Limited | Noise suppression device and noise suppressing method |
CN109243491A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
基于波叠加法高速列车声场重构研究;吴清坤;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20140715(第07期);1-77 * |
基于相控麦克风阵列的逆向噪声源识别原理与技术研究;宋雷鸣;《中国博士学位论文全文数据库 信息科技辑》;20110215(第02期);1-147 * |
Also Published As
Publication number | Publication date |
---|---|
CN110047507A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047507B (zh) | 一种声源识别方法及装置 | |
KR101238362B1 (ko) | 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치 | |
Brandt et al. | Integrating time signals in frequency domain–Comparison with time domain integration | |
JP4660773B2 (ja) | 信号到来方向推定装置、信号到来方向推定方法、および信号到来方向推定用プログラム | |
CN102147458B (zh) | 一种针对宽带声源的波达方向估计方法及其装置 | |
JP2020038123A (ja) | 音響処理装置、音響処理方法、およびプログラム | |
Huang et al. | Two-step spherical harmonics ESPRIT-type algorithms and performance analysis | |
Ocker et al. | Calculation of the cross spectral matrix with Daniell’s method and application to acoustical beamforming | |
EP3847642B1 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
WO2018003158A1 (ja) | 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置 | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
US10966024B2 (en) | Sound source localization device, sound source localization method, and program | |
JP2017151076A (ja) | 音源探査装置、音源探査方法およびそのプログラム | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
Candy | Environmentally adaptive processing for shallow ocean applications: A sequential Bayesian approach | |
Candy | Multipaper Spectral Estimation: An Alternative to the Welch Periodogram Approach | |
JP4095348B2 (ja) | 雑音除去システムおよびプログラム | |
EP4248231A1 (fr) | Localisation perfectionnée d'une source acoustique | |
Su et al. | Beyond 10log10m array gain: A beamforming method under non-gaussian noise and multi-sources | |
Coventry et al. | Polynomial root-music algorithm for efficient broadband direction of arrival estimation | |
Shi et al. | DOA Estimation for Non‐Gaussian Signals: Three‐Level Nested Array and a Successive SS‐MUSIC Algorithm | |
JP2011139409A (ja) | 音響信号処理装置、音響信号処理方法、及びコンピュータプログラム | |
JP4676920B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 | |
KR101534781B1 (ko) | 음원 방향 추정 장치 | |
JP7056739B2 (ja) | 波源方向推定装置、波源方向推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |