CN114299994A - 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 - Google Patents
激光多普勒远距离侦听语音的爆音检测方法、设备及介质 Download PDFInfo
- Publication number
- CN114299994A CN114299994A CN202210003757.0A CN202210003757A CN114299994A CN 114299994 A CN114299994 A CN 114299994A CN 202210003757 A CN202210003757 A CN 202210003757A CN 114299994 A CN114299994 A CN 114299994A
- Authority
- CN
- China
- Prior art keywords
- voice
- interval
- intercepted
- frequency
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种激光多普勒远距离侦听语音的爆音检测方法、设备及介质,其中爆音检测方法为:对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间。本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息,是一种重要的激光设备侦听语音信号的预处理工作。
Description
技术领域
本发明涉及激光侦听和信号处理领域,特别是涉及一种激光多普勒远距离侦听语音的爆音检测方法、设备及介质。
背景技术
激光音频解析技术的理论研究已经有了有效成果,且在激光语音侦听领域已经形成了相应的产品,实现了远距离非可视目标语音侦听功能。目前,国内外激光音频解析技术的实现方法包括光杠杆法(反射式光斑移动法)、半导体激光自混频干涉法和激光多普勒频移干涉法。但是目前利用激光设备进行远距离侦听时,激光设备或者目标物体的轻微抖动会使得语音信号中夹杂着大量的时变噪声,也就是爆音。爆音的存在会影响降噪时对噪声的估计的准确性,进而导致降噪后的语音信号质量较低,做后续时差估计或者语音识别的效果变差。
发明内容
本发明提供一种激光多普勒远距离侦听语音的爆音检测方法,对激光多普勒远距离侦听语音中的爆音进行检测,以便对后续的侦听语音信号的降噪和时差估计提供有效信息。
为实现上述技术目的,本发明采用如下技术方案:
一种激光多普勒远距离侦听语音的爆音检测方法,对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间。
进一步地,短时平均过零率的计算方法为:
式中,Zn表示侦听语音信号x(n)在采样点n的短时平均过零率,x(m-1)和x(m)分别为侦听语音信号x(n)在相邻采样点m-1和m的语音幅度,sgn[·]是符号函数,w(n-m)为窗函数w(n)在采样点m的输出。
进一步地,预设过零率阈值为80。
进一步地,所述在频域检测其高频区间幅值高于预设幅度阈值的语音区间,具体检测方法为:
对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;
计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值;
选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;
对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
进一步地,高频区间范围为3000Hz以上的频率范围,低频区间为300Hz到600Hz的频率范围。
进一步地,缩放因子的大小为0.3。
进一步地,所述预设比例为70%。
进一步地,对侦听语音信号进行分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果为:本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息,是一种重要的激光设备侦听语音信号的预处理工作。
附图说明
图1是本发明的爆音检测方法的总体流程图。
图2是本发明实施例时域爆音检测方法中短时平均过零率的计算过程图。
图3是本发明实施例语谱图爆音检测方法的流程图;
图4是本发明实施例激光设备实采语音信号时域波形图;
图5是本发明实施例时域爆音检测方法检测出爆音的结果图。
图6是本发明实施例的语音侦听语谱图。
图7是本发明实施例语谱图爆音检测方法的检测爆音结果图。
图8是本发明实施例的最终检测出爆音区间结果图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本发明提供一种激光多普勒远距离侦听语音的爆音检测方法,参考图1所示,针对其中爆音数据的特点,选择时域和时频域(语谱图)上的特征进行综合检测。爆音时域的特征为数据在短时间内变化剧烈且通常幅度值高于正常的语音数据;在语谱图上爆音通常表现为在某个时间段或者时刻,整个频率域都有一个较高的强度,若语谱图的横轴为时间纵轴为频率,爆音的存在位置会有一条颜色很深的一条“竖线”。本发明以这两种方式相结合的方法,对激光多普勒远距离侦听语音中的爆音进行检测,提高检测爆音的准确性和鲁棒性。
具体在本实施例中,基于时域的爆音检测,采用基于短时平均过零率的方法。对有时间横轴的连续的侦听语音信号,可以观察到语音的时域波形通过横轴的情况,而在离散时间的侦听语音信号,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以通过计算离散的侦听语音信号在单位时间内的过零次数,来确定短时平均过零率。
离散的侦听语音信号的短时平均过零率的计算方法为:
其中sgn[·]是符号函数,即
其中w(n)是长度为L的窗函数,即
参照图2,短时平均过零率计算过程如下:
首先对离散的侦听语音信号序列x(n)进行成对处理,检查是否有过零现象,若符合有变化,则表示有一次过零现象;
然后进行一阶差分计算,并取其绝对值。
最后使用窗函数w(n)进行低通滤波得到最后的短时平均过零率。
基于爆音存在的区间短时平均过零率较大的特点,本实施例通过判断侦听语音信号的短时平均过零率的变化,将短时平均过零率高于预设过零率阈值的语音区间,确定为基于时域检测的、侦听语音信号中存在爆音的语音区间。本实施例中将预设过零率阈值设置为80。
另一方面,本发明基于时频域(语谱图)检测侦听语音信号中存在爆音的语音区间。具体利用爆音的存在位置在高频区间会有一条颜色很深的“竖线”,从而完成检测。参考图3所示,检测过程如下:
首先,对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;具体到本实施例分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
然后,计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值φ;具体到本实施例中,将300Hz到600Hz的频率范围确定为低频区间,缩放因子λ一般取0.3。
再选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;具体到本实施例中,将3000Hz以上的频率范围确定为高频区间,预设比例rate设为70%,因此,当3000Hz以上的高频区间内,超过阈值φ的频率点超过70%则认为该帧侦听语音信号中存在爆音。
最后,对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
将上述基于时域检测到的存在爆音的语音区间,与基于频域检测到的存在爆音的语音区间,取两个语音区间的并集,即可确定为最终的存在爆音的语音区间。
本实施例对激光多普勒无距离侦听语音中的爆音检测方法包括以下步骤:
步骤1:获取激光设备侦听到带爆音的侦听语音信号的时域图,请参阅图4;
步骤2:将该侦听语音信号送入时域爆音检测模块,进行短时平均过零率检测,检测结果如图5所示,取短时平均过零率幅值超过80的认定为爆音存在的区间。
步骤3:将侦听语音信号进行分帧,每一帧语音信号为512个采样点,帧移为128个采样点。
步骤4:将每一帧侦听语音信号进行短时傅里叶变换得到语谱图,如图6所示。
步骤5:将语谱图送入语谱图爆音检测模块,检测出的结果如图7所示,图中的亮线表示该语音帧包含爆音,并将其转换到时间区间。
步骤6:综合时域爆音检测模块和语谱图爆音检测模块检测出的爆音区间,采用并集的方式得到最终的爆音存在的区间,如图8所示。该图只展示了一部分的结果,区间是用第M个采样点到第P个采样点。
本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (10)
1.一种激光多普勒远距离侦听语音的爆音检测方法,其特征在于,对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间。
3.根据权利要求1所述的方法,其特征在于,预设过零率阈值为80。
4.根据权利要求1所述的方法,其特征在于,所述在频域检测其高频区间幅值高于预设幅度阈值的语音区间,具体检测方法为:
对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;
计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值;
选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;
对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
5.根据权利要求4所述的方法,其特征在于,高频区间范围为3000Hz以上的频率范围,低频区间为300Hz到600Hz的频率范围。
6.根据权利要求4所述的方法,其特征在于,缩放因子的大小为0.3。
7.根据权利要求4所述的方法,其特征在于,所述预设比例为70%。
8.根据权利要求4所述的方法,其特征在于,对侦听语音信号进行分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
9.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003757.0A CN114299994B (zh) | 2022-01-04 | 2022-01-04 | 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003757.0A CN114299994B (zh) | 2022-01-04 | 2022-01-04 | 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114299994A true CN114299994A (zh) | 2022-04-08 |
CN114299994B CN114299994B (zh) | 2024-06-18 |
Family
ID=80975228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210003757.0A Active CN114299994B (zh) | 2022-01-04 | 2022-01-04 | 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114299994B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090076805A1 (en) * | 2007-09-15 | 2009-03-19 | Huawei Technologies Co., Ltd. | Method and device for performing frame erasure concealment to higher-band signal |
CN102332269A (zh) * | 2011-06-03 | 2012-01-25 | 陈威 | 呼吸面具中呼吸噪声的消除方法 |
US20140142931A1 (en) * | 2011-06-22 | 2014-05-22 | Huawei Technologies Co., Ltd. | Pitch detection method and apparatus |
CN104143341A (zh) * | 2013-05-23 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 爆音检测方法和装置 |
CN110265064A (zh) * | 2019-06-12 | 2019-09-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频爆音检测方法、装置和存储介质 |
CN112466328A (zh) * | 2020-10-29 | 2021-03-09 | 北京百度网讯科技有限公司 | 呼吸音检测方法、装置和电子设备 |
-
2022
- 2022-01-04 CN CN202210003757.0A patent/CN114299994B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090076805A1 (en) * | 2007-09-15 | 2009-03-19 | Huawei Technologies Co., Ltd. | Method and device for performing frame erasure concealment to higher-band signal |
CN102332269A (zh) * | 2011-06-03 | 2012-01-25 | 陈威 | 呼吸面具中呼吸噪声的消除方法 |
US20140142931A1 (en) * | 2011-06-22 | 2014-05-22 | Huawei Technologies Co., Ltd. | Pitch detection method and apparatus |
CN104143341A (zh) * | 2013-05-23 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 爆音检测方法和装置 |
CN110265064A (zh) * | 2019-06-12 | 2019-09-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频爆音检测方法、装置和存储介质 |
CN112466328A (zh) * | 2020-10-29 | 2021-03-09 | 北京百度网讯科技有限公司 | 呼吸音检测方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
刘超;庄圣贤;: "高脉冲噪声坏境中双门限法语音端点检测研究", 电子科技, no. 04, 15 April 2013 (2013-04-15) * |
柳春;: "一种改进的基于短时平均幅度的语音端点检测算法研究", 西北民族大学学报(自然科学版), no. 01, 15 March 2009 (2009-03-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114299994B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3703052B1 (en) | Echo cancellation method and apparatus based on time delay estimation | |
US8311819B2 (en) | System for detecting speech with background voice estimates and noise estimates | |
JP5668553B2 (ja) | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム | |
CN101494049B (zh) | 一种用于音频监控系统中的音频特征参数的提取方法 | |
CN104157295B (zh) | 用于检测及抑制瞬态噪声的方法 | |
US11315591B2 (en) | Voice activity detection method | |
EP2413313B1 (en) | Method and device for audio signal classification | |
US20090216530A1 (en) | Interference detector | |
CN104464722A (zh) | 基于时域和频域的语音活性检测方法和设备 | |
CN111398909B (zh) | 一种基于倒谱分析的杂波环境无人机检测方法 | |
CN108962285B (zh) | 一种基于人耳掩蔽效应划分子带的语音端点检测方法 | |
CN106504760B (zh) | 宽频带背景噪声与语音分离检测系统及方法 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
CN114487733A (zh) | 一种基于声纹的局部放电检测方法 | |
CN114093385A (zh) | 一种无人机检测方法及装置 | |
CN114299994B (zh) | 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 | |
CN114242085A (zh) | 旋转设备的故障诊断方法、装置 | |
TWI684912B (zh) | 語音喚醒裝置及方法 | |
CN110179492B (zh) | 基于自适应双阈值的肠鸣音智能识别算法 | |
WO2019100327A1 (zh) | 一种信号处理方法、装置及终端 | |
CN107017006B (zh) | 基于无限冲击响应滤波器的模拟亚音尾音检测方法及系统 | |
CN110610724A (zh) | 基于非均匀子带分离方差的语音端点检测方法及装置 | |
CN114333880B (zh) | 一种信号处理方法、装置、设备及存储介质 | |
Wu et al. | A time domain estimation algorithm for speech signal pitch period | |
CN114638262B (zh) | 基于时频二维特征学习的雷达对海杂波智能抑制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |