CN110838299A - 一种瞬态噪声的检测方法、装置及设备 - Google Patents
一种瞬态噪声的检测方法、装置及设备 Download PDFInfo
- Publication number
- CN110838299A CN110838299A CN201911107575.2A CN201911107575A CN110838299A CN 110838299 A CN110838299 A CN 110838299A CN 201911107575 A CN201911107575 A CN 201911107575A CN 110838299 A CN110838299 A CN 110838299A
- Authority
- CN
- China
- Prior art keywords
- signal
- audio
- wavelet decomposition
- audio frame
- wavelet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 233
- 238000001514 detection method Methods 0.000 title abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 419
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 367
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000009826 distribution Methods 0.000 claims abstract description 65
- 230000005236 sound signal Effects 0.000 claims description 101
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 97
- 238000009499 grossing Methods 0.000 claims description 85
- 230000006870 function Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 48
- 230000001629 suppression Effects 0.000 claims description 42
- 238000009432 framing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 description 105
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 description 15
- 229940083712 aldosterone antagonist Drugs 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 9
- 238000009825 accumulation Methods 0.000 description 7
- 230000037433 frameshift Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
- G10L19/0216—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及音频技术领域,提供一种瞬态噪声的检测方法,该方法包括:获取预设时长的音频帧信号;针对第一音频帧信号进行小波分解,得到与第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号中包含多个子小波分解信号;根据第一子小波分解信号中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。实施本实施例,通过对小波包分解信号中样点进行统计,提高对瞬态噪声检测的准确性。
Description
技术领域
本申请涉及音频技术领域,尤其是一种瞬态噪声的检测方法、装置及设备。
背景技术
语音作为一种人机交互的手段,但噪声干扰时时刻刻存在工作环境中,这些噪声会影响语音的应用效果,所以需要对噪声进行检测,以便进一步的处理。
在现有技术中,对瞬态噪声的检测方法主要是根据瞬态噪声的短时能量剧烈增加的特点,对一段时间内信号的能量进行分析,若出现信号能量的陡变,将该段时间内的信号检测为瞬态噪声。但是,语音信号的开始位置,即语音发生的位置点,也具有类似的在某一时间段出现能量陡变的特性,采样现有技术的方案,准确性不够高。
发明内容
本申请提供了一种瞬态噪声的检测方法、装置以及设备,通过对音频帧信号对应的小波分解信号中的子小波分解信号的预设数量个连续样点进行统计,在更精细的时间维度上确定所述音频帧信号为瞬态噪声的概率,提高了对瞬态噪声检测的准确性。
第一方面,本申请提供了一种瞬态噪声的检测方法,所述方法包括:
获取预设时长的音频帧信号,所述音频帧信号包括多个样点以及每个样点的音频强度值;
针对第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号中包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
根据第一子小波分解信号中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述获取预设时长的多个音频帧信号包括:
获取第一音频信号,所述第一音频信号包括至少一个音频帧信号,针对所述每个音频帧信号进行小波分解,得到分别与每个音频帧信号对应的多个小波分解信号;
按照所述音频帧信号在第一音频信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列;
所述方法还包括:
获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点中的第一最小音频强度值,获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值,根据所述第一最小音频强度值和所述第二最小音频强度值,确定所述目标样点的第二参考音频强度值;
根据所述第一小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值;
根据所述第一音频帧信号的平均参考音频强度值确定第一概率;
所述根据所述第一小波分解信号的能量分布信息,确定所述第一小波分解信号对应的第一音频帧信号为瞬态噪声的概率包括:
根据所述第一小波分解信号的能量分布信息得到第二概率;
根据所述第一概率与所述第二概率,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述获取预设时长的多个音频帧信号包括:
获取第一音频信号,所述第一音频信号包括至少一个音频帧信号;
所述方法还包括:
将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号;
根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值;
根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数;
根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。
在一种可能的实现方式中,获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;
根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实现方式中,所述根据所述小波信号序列中所有样点的第二参考音频强度值,确定所述第一音频信号的平均参考音频强度值还包括:
将所述小波信号序列划分得到多个待平滑信号,每个待平滑信号包括第四预设数量个连续样点和每个样点音频强度值,每个待平滑信号对应一个平滑函数,所述平滑函数定义域的时间宽度不大于所述待平滑信号的时间宽度,所述平滑函数中的第一平滑函数的最大值在所述第一平滑函数定义域的中心处;
将所述第一待平滑信号中所有样点音频强度的平均值,作为所述第一平滑信号中所有样点的第一平均参考音频强度值;
将所述小波信号序列中各个待平滑信号的所有样点的第一平均参考音频强度值和对应的平滑函数值进行卷积运算,将所述卷积运算的结果,作为所述第一音频信号的平均参考音频强度值,其中所述平滑函数值根据所述平滑函数以及对应样点的时间得到。
可选的,所述获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点之前还包括:
将所述小波信号序列中所述目标样点前一样点的音频强度值乘以平滑系数,得到所述目标样点的第三参考音频强度;
将所述小波信号序列中包括所述目标样点在内,且在所述小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数,得到所述目标样点的第四参考音频强度值;
将所述第三参考音频强度值和所述第四参考音频强值相加得到的数值,作为所述目标样点的音频强度值。
在一种可能的实现方式中,所述参考音频强度值包括第五预设数量个连续样点的音频强度值的平均值和方差。
在一种可能的实现方式中,所述第一音频帧信号为瞬态噪声的概率
其中result(n)表征所述第n音频帧信号对应的分解信号的能量分布信息,n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,若result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
可选的,所述第一音频帧信号对应的第一小波分解信号的能量分布信息
其中l为所述第一小波分解信号包括的子小波分解信号的个数,N为每个子小波分解信号中包括的样点数量,n为帧索引,表征第n个音频帧信号,xl(i)表示第l个子小波分解信号在小波分解信号中的第i个样点的音频强度值,表示第l个子小波分解信号中到达第i-1个样点音频强度值的平均值,表示第l个子小波分解信号中到达第i-1个样点的音频强度值的方差。
在一种可能的实现方式中,所述根据所述第一小波分解的能量分布信息确定所述第一音频帧信号为瞬态噪声的概率包括:
获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;
根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述第二概率为
其中thrg为第二预设阈值,thrs为第三预设阈值,n为帧索引,表征第n音频帧信号,Sc(n)为所述第一音频信号的平均参考音频强度值。
可选的,所述获取第一音频信号之前包括:
将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。
在一种可能的实施例中,所述针对所述每个音频帧信号进行小波分解包括:
针对所述每个音频帧信号进行小波包分解,将小波包分解后得到的信号作为所述小波分解信号。
第二方面,本申请提供了一种瞬态噪声的检测装置,包括:
获取模块,用于获取预设时长的音频帧信号,所述音频帧信号包括多个样点以及每个样点的音频强度值;
分解模块,用于针对第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号中包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
确定模块,用于根据第一子小波分解信号中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
所述确定模块,还用于根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
所述确定模块,还用于根据根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
第三方面,本申请提供了一种有效语音信号的检测设备,所述设备包括收发器、处理器和存储器,所述收发器与所述处理器以及所述存储器连接,所述处理器还与所述存储器连接,其中:
所述处理器用于执行所述存储器中存储的计算机程序,实现上述各方面及其任一种可能的实施例中所述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述可读存储介质中存储有指令,所述指令被处理器执行,以实现上面所述各方面所述方法的步骤。
实施本实施例,通过对音频帧信号对应的小波分解信号中的预设数量个连续样点进行统计,利用小波分解或小波包分解的局部显微特性,在不提高音频帧的采样频率的基础上,实现在更精细的时间维度对音频帧信号进行检测,提高了对瞬态噪声检测的准确性。
附图说明
图1为本申请实施例提供的一种瞬态噪声的检测方法的流程示意图;
图2为本申请实施例提供的一种小波分解的结构示意图;
图3为本申请实施例提供的一种高低通滤波器的幅频特性曲线;
图4为本申请实施例提供的一种小波分解处理过程的示意图;
图5为本申请实施例提供的一种小波包分解的结构示意图;
图6为本申请实施例提供的一种小波包分解处理过程的示意图;
图7为申请本实施例提供的一种瞬态噪声概率确定曲线的示意图;
图8为本申请实施例提供的一种瞬态噪声抑制的方法流程示意图;
图9为本申请实施例提供的另一种瞬态噪声的检测方法的流程示意图;
图10为本申请实施例提供的又一种瞬态噪声的检测方法的流程示意图;
图11为本申请实施例提供的一种跟踪信号能量分布的流程示意图;
图12为本申请实施例提供的一种瞬态噪声检测以及抑制的效果示意图;
图13为本申请实施例提供的一种瞬态噪声检测以及抑制的效果示意图;
图14为本申请实施例提供的一种瞬态噪声的检测装置的结构框图;
图15为本申请实施例提供的一种瞬态噪声的检测设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图来对本申请的技术方案的实施作进一步的详细描述。
首先,下面对本申请提供的一种瞬态噪声的检测方法进行介绍,参见图1至图7。
首先参见图1,图1为本申请实施例提供的一种瞬态噪声的检测方法的流程示意图。如图1所示,本实施例的具体执行步骤如下:
100、获取预设时长的音频帧信号,所述音频帧信号包括多个样点以及每个样点的音频强度值。具体的,瞬态噪声的检测装置获取预设时长的音频帧信号,所述预设时长可以理解为所述音频帧信号的帧长。瞬态噪声的检测装置获取原始语音信号,由于口腔肌肉运动相对于语音频率来说比较缓慢,语音信号在一个短时间范围内相对稳定,所以语音信号具有短时稳定性,可以根据语音信号的短时稳定性,将语音信号进行分帧,分成一段段预设时长的音频帧信号来进行检测,可选的,所述音频帧信号之间没有重叠,帧移的大小即为帧长的大小,可以理解的是,帧移为上一帧信号与下一帧信号的交叠部分,当帧长等于帧移时,音频帧之间无交叠。在一种可能的实施例中,所述瞬态噪声的检测装置以32kHz的频率进行语音信号的采样,即1秒钟采集32k个样点,将语音信号按照帧长为10ms,帧移为10ms进行分帧,获取一段预设时长为10ms音频帧信号,每一个音频帧信号包括320个采样样点以及样点对应的音频强度值。
101、针对第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号中包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值。具体的,由步骤100获取所述音频帧信号,对第一音频帧信号进行小波分解,下面结合附图对小波分解进行详细介绍。
参见图2至图4,首先参见图2,图2为本申请实施例提供的一种小波分解的结构示意图,如图2所示,将语音信号分帧后得到的音频帧信号进行小波分解,本实施例以第一音频帧信号进行示例性说明。可以理解的是,小波分解的过程可以认为是高低通滤波的过程,具体的高低通滤波特性可以参见图3,图3为本申请实施例提供的一种高低通滤波器的幅频特性曲线,可以理解的是,所述高低通滤波特性根据选用的滤波器型号不同而不同,示例性的,可以选用16抽头Daubechies8小波。通过如图3所示的高低通滤波器得到第1级小波分解信号,第1级小波分解信号中包括低频信息L1和高频信息H1,继续对第1级小波分解信号中的低频信息L1进行高低通滤波得到第2级小波分解信号中的低频信息L2和高频信息H2,对第2级小波分解信号中的低频信息L2进行高低通滤波得到第3级小波分解信号中的低频信息L3和高频信息H3,以此类推,可以对输入信号进行多级小波分解,此处只是作示例性说明。可以理解的是,L3和H3包含着L2的全部信息,L2和H2包含着L1的全部信息,L1和H1包含着所述第一音频帧信号的全部信息,所以L3、H3、H2和H1通过拼接组成的子小波信号序列可以代表着所述第一音频帧信号,将多个音频帧信号的子小波信号序列,按照所述第一音频信号的分帧顺序进行拼接,形成小波信号序列代表着所述语音信号。由此可见,所述第一音频帧信号中的低频成分经过小波分解后得到细化分析,分辨率有所提高,在低频段具有比较宽的分析窗口,具有优良的局部显微特性。
下面对本实施例中小波分解的具体处理过程进行详细介绍,示例性的,本实施例以一个音频帧信号进行小波分解进行示例性说明。具体的,参见图4,图4为本申请实施例提供的一种小波分解处理过程的示意图,如图4所示,针对所述第一音频帧信号进行小波分解,在一种可能的实现方式中,为了使小波分解后的样点个数可以保持和原来音频帧信号的样点个数一致,可以对进行高通滤波和低通滤波之后的信号进行降采样,以32kHz为所述语音信号的采样频率,以10ms为帧移,10ms为帧长,对所述语音信号进行分帧,每一个音频帧信号包括320个样点,针对每个音频帧信号进行小波分解,第一高通滤波后的样点个数为320个,第一低通滤波后的样点个数也为320个,组成第1级小波分解信号,将所述第一低通滤波后的信号进行降采样,第一低通滤波后的采样频率为所述第一音频帧信号采样频率的一半,则所述第一低通滤波降采样后的样点个数为160;同理的,所述第一高通滤波降采样后的样点个数为160,则第1级小波分解信号中的样点个数为第一低通滤波降采样和第一高通滤波降采样后样点个数加起来的320,与一个音频帧信号的样点个数一致,依此类推,将所述第一低通滤波降采样后的信号进行第二高通滤波和第二低通滤波,并降采样,得到的样点的个数之和为所述第一低通滤波降采样后的点数;将所述第二低通滤波降采样后的信号进行第三高通滤波和第三低通滤波,并降采样,得到的样点个数之和为所述第二低通滤波降采样后的点数,由此可知,第一音频帧信号进行小波分解后得到的子小波信号序列包括的样点数目为所述第一音频帧信号的样点数目。可以理解的是,根据两倍采样定理,采样频率为语音信号最高频率的两倍,则以32kHz的采样频率采集到的语音信号,对应的最高频率为16kHz,将所述第一音频帧信号进行第1级小波分解得到第1级小波分解信号,所述第1级小波分解信号包括第一高通滤波降采样后得到的信号和第一低通滤波降采样后得到的信号,所述第一低通滤波降采样后得到的信号对应频段为0至8kHz,所述第一高通滤波降采样后得到的子小波分解信号H1对应的频段为8kHz至16kHz;将所述第1级小波分解信号进行第2级小波分解得到第2级小波分解信号,具体的,将所述第一低通滤波降采样后得到的信号进行第二高通滤波和第二低通滤波,所述第二高通滤波降采样后得到的子小波分解信号H2对应的频段为4kHz至8kHz,所述第二低通滤波降采样后得到的信号对应频段为0至4kHz;将第2级小波分解信号进行第3级小波分解得到第3级小波分解信号,具体的,将所述第二低通滤波降采样后得到的信号进行第三高通滤波和第三低通滤波,所述第三高通滤波降采样后得到的子小波分解信号H3对应的频段为2kHz至4kHz,所述第三低通滤波降采样后得到的子小波分解信号L3对应的频段为0至2kHz,以此类推,本实施例对3级小波分解进行示例性说明,在一种可能的实现方式中,所述第1级小波分解信号、所述第2级小波分解信号和所述第3级小波分解信号均可以由同一种滤波器类型进行高低通滤波得到的。子小波分解信号H1、H2、H3和L3可以拼接成子小波信号序列,作为所述第一音频帧信号的小波分解信号。
在一种可能的实施例中,所述针对所述每个音频帧信号进行小波分解包括:针对所述每个音频帧信号进行小波包分解,将小波包分解后得到的信号作为所述小波分解信号。
下面对小波包分解进行详细介绍,小波包分解可以参见图5至图6,首先参见图5,图5为本申请实施例提供的一种小波包分解的结构示意图,如图5所示,将语音信号分帧后得到的音频帧信号进行小波包分解,本实施例以第一音频帧信号进行示例性说明,可以理解的是,小波包分解的过程也可以认为是高低通滤波的过程,具体的高低通滤波特性也可以参见前文的图3,可选的,滤波器类型可以选用16抽头Daubechies8小波。小波包分解与小波分解不一样的是,小波包分解既可以对低频部分信号进行分解,也可以对高频部分进行分解,所以对包含大量中频和高频信息的信号,小波包分解信号能够进行更好的时频局部化分析。通过高低通滤波器得到第1级小波分解信号,所述第1级小波分解信号中包括低频信息lp1和高频信息hp1,继续对第1级小波分解信号中的低频信息lp1进行高低通滤波得到低频信息lp2和高频信息hp2,与小波分解不同的是,小波包分解还会对分解后的高频信息进行高低通滤波,所以对所述第1级小波分解信号中高频信息hp1进行高低通滤波,得到低频信息lp3和hp3,第2级小波分解信号中的低频信息包括lp2和lp3,高频信息包括hp2和hp3;对所述第2级小波分解信号中的低频信息lp2和lp3以及高频信息hp2和hp3分别进行高低通滤波,得到第3级小波分解信号,第3级小波分解信号中包括低频信息lp4、lp5、lp6和lp7,以及高频信息hp4、hp5、hp6和hp7,以此类推,可以对输入信号进行多级小波分解,此处作示例性说明。如图5所示,lp4和hp4包含着lp2的全部信息,lp5和hp5包含着hp2的全部信息,而lp2和hp2包含着lp1的全部信息,可以理解的是,lp4、hp4、lp5和hp5包含着lp1的全部信息;lp6和hp6包含着lp3的全部信息,lp7和lp7包含着hp3的全部信息,而lp3和hp3包含着hp1的全部信息,可以理解的是,lp6、hp6、lp7和hp7包含着hp1的全部信息;由于lp1和hp1包含所述第一音频帧信号的全部信息,所以lp4、hp4、lp5、hp5、lp6、hp6、lp7和hp7拼接起来组成的子小波信号序列可以代表所述第一音频帧信号,将所有音频帧信号的子小波信号序列,按照音频帧在所述第一音频信号中的分帧顺序进行拼接,得到代表着所述语音信号的小波信号序列,由此可见,第一音频帧信号经过小波分解后,无论是高频段还是低频段的分辨率都有所提高。
下面对本实施例中小波包分解的具体处理过程进行详细介绍,示例性的,本实施例以一个音频帧信号进行小波包分解进行示例性说明。具体的,参见图6,图6为本申请实施例提供的一种小波包分解处理过程的示意图,如图6所示,针对所述第一音频帧信号进行小波包分解,在一种可能的实现方式中,为了使小波包分解后的样点个数可以保持和原来音频帧信号一致,可以对进行高通滤波和低通滤波之后的信号进行降采样,以32kHz为语音信号的采样频率,以10ms为帧移,10ms为帧长,对所述语音信号进行分帧,每一个音频帧信号包括320个样点,针对每个音频帧信号进行小波包分解,第一高通滤波后的样点个数为320个,第一低通滤波后的样点个数也为320个,所述第一高通滤波和所述第一低通滤波后的信号组成小波包分解的第1级小波分解信号,将所述第一低通滤波后的信号进行降采样,所述第一低通滤波后的采样频率为所述第一音频帧信号采样频率的一半,则所述第一低通滤波降采样后的样点个数为160;同理的,所述第一高通滤波降采样后的样点个数为160,则所述第1级小波分解信号中的样点个数为所述第一低通滤波降采样和所述第一高通滤波降采样后样点个数加起来的320,与一个音频帧信号的样点个数一致,依此类推,将所述第一低通滤波降采样后的信号进行第二高通滤波和第二低通滤波,并降采样,得到的样点个数之和为所述第一低通滤波降采样后的点数;将所述第一高通滤波降采样后的信号进行第三高通滤波和第三低通滤波,并降采样,得到的样点个数之和为所述第一高通滤波降采样后的点数;将所述第二低通滤波降采样后的信号进行第四高通滤波和第四低通滤波,并降采样,得到的样点个数之和为所述第二低通滤波降采样后的点数;将所述第二高通滤波降采样后的信号进行第五高通滤波和第五低通滤波,并降采样,得到的样点个数之和为所述第二高通滤波降采样后的点数;将所述第三低通滤波降采样后的信号进行第六高通滤波和第六低通滤波,并降采样,得到的样点个数之和为所述第三低通滤波降采样后的点数;将所述第三高通滤波降采样后的信号进行第七高通滤波和第七低通滤波,并降采样,得到的样点个数之和为所述第三高通滤波降采样后的点数,由此可知,第一音频帧信号进行小波包分解后得到的子小波信号序列包括的样点数目为所述第一音频帧的样点数目。可以理解的是,根据两倍采样定理,采样频率为语音信号最高频率的两倍,则以32kHz的采样频率采集到的语音信号,对应的最高频率为16kHz,将所述第一音频帧信号进行第1级小波包分解得到第1级小波分解信号,所述第1级小波分解信号包括第一高通滤波降采样后的信号和第一低通滤波降采样后的信号,所述第一低通滤波降采样后得到的信号对应频段为0至8kHz,所述第一高通滤波降采样后得到的信号对应频段为8kHz至16kHz;将所述第1级小波分解信号进行第2级小波包分解得到第2级小波分解信号,所述第2级小波分解信号包括第二低通滤波降采样后的信号、第二高通滤波降采样后的信号、第三低通滤波降采样后的信号以及第三高通降采样后的信号,具体的,将所述一低通滤波降采样后得到的信号进行第二高通滤波和第二低通滤波,所述第二高通滤波降采样后得到的信号对应频段为4kHz至6kHz,所述第二低通滤波降采样后得到的信号对应频段为0至4kHz,将所述第一高通滤波降采样后得到的信号进行第三高通滤波和第三低通滤波,所述第三高通滤波降采样后得到的信号对应频段为12kHz至16kHz,所述第三低通滤波降采样后得到的信号对应频段为8kHz至12kHz;将所述第2级小波分解信号进行第3级小波包分解得到第3级小波分解信号,所述第3级小波分解信号包括第四低通滤波降采样后的信号、第四高通滤波降采样后的信号、第五低通滤波降采样后的信号、第五高通滤波降采样后的信号、第六低通滤波降采样后的信号、第六高通滤波降采样后的信号、第七低通滤波降采样后的信号以及第七高通滤波降采样后的信号,具体的,将所述第二低通滤波降采样后得到的信号进行第四低通滤波和第四高通滤波,所述第四低通滤波降采样后得到的子小波分解信号lp4对应频段为0至2kHz,所述第四高通滤波降采样后得到的子小波分解信号hp4对应频段为2kHz至4kHz,将所述第二高通滤波降采样后得到的小波包信号进行第五低通滤波和第五高通滤波,所述第五低通滤波降采样后得到的子小波分解信号lp5对应频段为4kHz至6kHz,所述第五高通滤波降采样后得到的子小波分解信号hp5对应频段为6kHz至8kHz,同理的,将所述第三低通滤波降采样后得到的信号进行第六低通滤波和第六高通滤波,所述第六低通滤波降采样后得到的子小波分解信号lp6对应频段为8kHz至10kHz,所述第六高通滤波降采样后得到的子小波分解信号hp6对应频段为10kHz至12kHz,将所述第三高通滤波降采样后得到的信号进行第七低通滤波和第七高通滤波,所述第七低通滤波降采样后得到的子小波分解信号lp7对应频段为12kHz至14kHz,所述第七高通滤波降采样后得到的子小波分解信号hp7对应频段为14kHz至16kHz,以此类推,本实施例对3级小波包分解进行示例性说明,与小波分解不同的是,小波包分解会继续对高通滤波得到的每一级信号中的高频信号再次进行高低通滤波。第3级小波分解信号中的子小波分解信号lp4、hp4、lp5、hp5、lp6、hp6、lp7和hp7可以拼接成子小波信号序列,作为所述第一音频帧信号的小波分解信号。在一种可能的实现方式中,所述第1级小波分解信号、所述第2级小波分解信号和所述第3级小波分解信号均可以由同一种滤波器类型进行高低通滤波得到的。可以理解的是,本申请中所述的子小波分解信号为进行最后一级小波分解或小波包分解的子信号,每一个子小波分解信号均映射一个频段。
102、根据第一子小波分解信号中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值。具体的,所述参考音频强度值包括第五预设数量个连续样点的音频强度值的平均值和方差。
其中,l为所述第一小波分解信号包括的子小波分解信号的个数,N为每个子小波分解信号中的所有样点数目,可选的,以32kHz为所述第一音频帧信号的采样频率,音频帧的帧长为10ms,样点数目为320,经过3级小波分解或小波包分解,每个子小波分解信号中的所有样点数目N=40;xl(j)表示第l个子小波分解信号拼接成子小波信号序列后,第j个样点的音频强度值,j为子小波信号序列中的样点索引,从j=i-(3N-1)加到第i个样点,表示从第i个样点的前3N-1个样点的音频强度值开始求平均值和方差,代表着进行了三个子小波分解信号的累积;可以理解成在第l个子小波分解信号,到达第i样点的位置上所有样点的短时平均值;可以理解成在第l个子小波分解信号,到达第i样点的位置上所有样点的短时方差。需要说明的是,代表的方差,为广义上的方差,不是数学严格意义上减去均值的方差。在本实施例中,简单的将样点的音频强度值进行平方获取样点之间的离散程度。表示第l个子小波分解信号中到达第i个样点的音频强度值的平均值,在数学上代表着变量期望值的一阶矩,在本申请中可以理解成与一样;表示第l个子小波分解信号中到达第i个样点的音频强度值的方差,在数学上代表着变量期望值的二阶矩,在本申请中可以理解成与与一样。根据第一子小波分解信号中所有样点音频强度值的平均值和方差确定所述第一子小波分解信号的第一参考音频强度值monentn(l)为:
其中,xl(i)表示第l个子小波分解信号在小波分解信号中的第i个样点的音频强度值,i为小波信号序列中的样点索引,可以理解的是,j表示的是子小波信号序列中的样点索引,是一个临时变量,而i表示的是小波信号序列中的样点索引,可选的,i大于或等于j。
103、根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息。具体的,通过计算所述第一子小波分解信号内所有样点的样点分布情况来估计第一音频帧信号的分布集中程度,由步骤102获取所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,可选的,根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值的平均值,确定所述第一小波分解信号的能量分布信息。
在一种可能的实现方式中,以所述第一音频帧信号进行3级小波分解信号为例,所述第一音频帧信号对应的第一级小波分解信号包括8个子小波分解信号,根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值momentn(l),确定所述第一小波分解信号的能量分布信息result(n)为:
其中l为所述第一小波分解信号包括的子小波分解信号的个数,可选的,l=8。N为每个子小波分解信号中包括的样点数量,n为帧索引,表征第n个音频帧信号,xl(i)表示第l个子小波分解信号中到达第i个样点的音频强度值,表示第l个子小波分解信号中到达第i-1个样点音频强度值的平均值,表示第l个子小波分解信号中到达第i-1个样点的音频强度值的方差。
104、根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。具体的,由步骤103获取到所述第一小波分解信号的能量分布信息,所述能量分布信息代表着所述第一小波分解信号对应的第一音频帧信号为瞬态噪声的可能程度,所述能量分布信息为一个值,可能超过1,需要根据所述第一小波分解信号的能量分布信息将所述第一音频帧信号为瞬态噪声的概率定义在0至1的范围内。
在一种可能的实现方式中,根据所述第一小波分解信号的能量分布信息result(n),确定所述第一音频帧信号为瞬态噪声的概率res(n)为:
其中n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,result(n)为一个具体的值,表征所述第n音频帧信号对应的小波分解信号的能量分布信息,result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
在另外一种可能的实现方式中,根据所述第一小波分解信号的能量分布信息result(n),确定所述第一音频帧信号为瞬态噪声的概率res(n)为
其中n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,result(n)为一个具体的值,表征着所述第一小波分解信号的能量分布信息,result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
公式5和公式6的差别在于,公式5相对于公式6进行了平方运算,曲线的陡变情况不一样,上述两种可能的实现方式中,都可以将所述第一音频帧信号为瞬态噪声的概率定义在0至1的范围内,效果如图7所示,图7为本申请实施例提供的一种瞬态噪声概率确定曲线的示意图,如图7所示,横轴表示的是第一小波分解信号的能量分布信息,纵轴表示的是第一音频帧信号为瞬态噪声的概率,曲线1标识的是公式6的曲线,由图中可知,在所述第一小波分解信号的能量分布信息result(n)的值大于第一预设阈值时,所述第一音频帧信号为瞬态噪声的概率开始下降,接近1,示例性的,如图7所示,所述第一预设阈值可以为16,则定义当所述第一小波分解信号的能量分布信息result(n)的值大于所述第一预设阈值时,所述第一音频帧信号为瞬态噪声的概率为1,可选的,其中λ=16,将曲线1变成曲线2。可选的,为了让瞬态噪声的概率变化得更加陡峭,拉开所述第一小波分解信号的能量分布信息与所述第一音频帧信号为瞬态噪声的概率的分布,在公式6的基础上进行平方运算,将曲线2变成曲线3,使得所述第一音频帧为瞬态噪声的概率随着所述第一小波分解信号的能量分布信息变化得更加明显。
在一种可能的实施例中,一种瞬态噪声的检测方法还可以为:获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。具体的,所述第一子小波分解信号和所述第二子小波分解信号对应音频帧信号的频段是不一样的,而人声信号的主要频段主要集中在300Hz至3400Hz,瞬态噪声在全频段的分布相对均衡,示例性的,所述第一子小波分解信号对应的频段为0至2kHz,所述第二子小波分解信号对应的频段为2kHz至4kHz,获取所述第一子小波分解信号中所有样点的音频强度值的平均值与所述第二子小波分解信号中所有样点的音频强度值的平均值之间的比值,根据所述第一子小波分解信号与所述第二子小波分解信号之间的比值,确定所述音频帧为瞬态噪声的概率,在一种可能的实现方式中,音频帧信号对应的小波分解信号中包括多个子小波分解信号,可选的,获取所述小波分解信号中的所有子小波分解信号中两两子小波分解信号之间的比值,根据获取到的比值的平均值来确定音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。具体的,为了减少瞬态噪声概率分布的毛刺影响,确保瞬态噪声检测出来就相对稳定的出现,对瞬态噪声的概率进行平滑。示例性的,若所述第二音频帧信号为瞬态噪声的概率大于所述第一音频帧信号为瞬态噪声的概率,则根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,所述第一音频帧信号为瞬态噪声的概率表示为res(n),Ds(n)为定义的一个变量,记录着所述第一音频帧为瞬态噪声的概率,所述第一音频帧信号的前一音频帧信号的第二音频帧信号为瞬态噪声的概率为Ds(n-1),经过平滑后的概率为:
其中,当n=0时,Ds(0)=0,将所述瞬态噪声概率Ds(n)作为所述第一平滑概率。
可选的,所述音频帧信号为原始音频信号进行分帧后的信号,在一种可能的实施例中,将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。具体的,由于口唇发音或麦克风录音的过程中,语音信号损失了高频成分,并且随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,在一种可能的实现方式中,对所述预设时长的原始音频信号进行预加重,使用y(n)=x(n)-ax(n-1)对样点的音频强度值进行处理,其中x(n)为第n时刻所述第一音频信号的样点的音频强度值,x(n-1)为第n-1时刻所述第一音频信号的样点的音频强度值,a为预加重系数,示例性的,a大于0.9小于1,可以理解为所述第一预设阈值,y(n)为经过预加重处理的信号。可以理解为,所述预加重处理可以认为将所述第一音频信号通过一个高通滤波器,对高频成分进行补偿,减少了口唇发音或麦克风录音的过程带来的高频损失。
实施本实施例,通过对音频帧信号对应的小波包分解信号中的子小波分解信号的预设数量个连续样点进行统计,利用小波分解或小波包分解的局部显微特性,确定所述音频帧信号为瞬态噪声的概率,提高了对瞬态噪声检测的准确性。
确定所述第一音频帧信号为瞬态噪声的概率之后,根据所述第一音频帧信号为瞬态噪声的概率对所述第一音频帧信号进行抑制。在一种可能的实现方式中,参见图8,图8为本申请实施例提供的一种瞬态噪声抑制的方法流程示意图,如图8所示,对所述第一音频帧信号进行抑制的具体步骤如下:
801、获取第一音频信号,所述第一音频信号包括至少一个音频帧信号。具体的,瞬态噪声的检测装置获取第一音频信号,可以理解的是,所述瞬态噪声概率确定装置将所述第一音频信号进行分帧,得到所述第一音频帧信号,然后进行前文结合图1至图7所描述的实施例,将所述第一音频帧信号进行小波分解或小波包分解,确定所述第一音频帧信号为瞬态噪声的概率。
802、将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号。具体的,为了平稳的得到噪声抑制的结果,对所述第一音频信号进行短时傅里叶变换,示例性的,对所述第一音频信号进行分帧,然后加上窗函数,这里的分帧和前文所述的分帧所起的作用一样,都是为了将所述第一音频信号分成一段段的信号来进行处理,上文是为将信号进行小波分解,这里是为了对信号加上窗函数,可选的,将所述第一音频信号进行分帧的帧长为16ms,帧移为10ms,可以理解的是,此时的帧与帧之间存在重叠部分。可选的,所述窗函数可以为汉明窗,表示公式为:
其中i表示所述第一音频信号的样点索引,N表示所述汉明窗的窗长,可选的,N=512。
加上窗函数后的信号表示为:
yn(i)=y(Ln+i)×w(i)公式9
其中n表示帧索引,yn(i)表示第n帧第i个样点的音频强度值,是时域上的表示方式,i表示所述第一音频信号的样点索引,L为帧移的时间段内包括的样点数目,可选的,以第一音频信号的采样频率是32kHz为例,L=320。
将加窗后的信号yn(i)进行傅里叶变换,得到的结果为:
其中n表示帧索引,k表示频率,j表示傅里叶变换公式中的虚部,i表示所述第一音频信号的样点索引,N为所述汉明窗的窗长,也可以理解为所述第三预设数量。对傅里叶变换后得到的复数序列进行范数取模,得到第n帧频率为k的样点的幅度表示为Ya(n,k)=||Y(n,k)||,所述幅度可以理解为样点的音频强度值。将所述幅度谱Ya(n,k)进行指数平均,得到Ys(n,k),作为所述处理信号。
可以理解的是,所述处理信号包括多个连续样点、每个样点的音频强度值和频率值,Ys(n,k)代表在所述处理信号中第n帧频率为k的样点的音频强度值。
803、根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值。具体的,由步骤802获取目标样点的音频强度值Ya(n,k),所述目标样点的频率为k,所述目标样点所在的第一处理信号表示为Ys(n,k),所述目标样点所在的第一处理信号的前一处理信号的音频强度值为Ys(n-1,k),确定所述目标样点的第一平滑音频强度值为(1-αa)×Ys(n-1,k)+αa×Ya(n,k),将所述第一平滑强度值作为所述目标样点在所述第一处理信号的音频强度值,表示为Ys(n,k)=(1-αa)×Ys(n-1,k)+αa×Ya(n,k),根据所述第一处理信号中所有样点的第一平滑音频强度值确定所述第一处理信号,这个平滑过程,可以理解为前面步骤802所述的指数平均。可选的,αa在0至1的范围内,示例性的,αa=0.5。
804、根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数。具体的,由前文结合图1至图7所描述的实施例确定所述目标样点所在音频帧信号为瞬态噪声的概率为res(n),由步骤803获取所述目标样点的第一平滑强度值为Ys(n,k),由步骤802获取所述目标样点对应的音频强度值为Ya(n,k),示例性的,确定所述目标样点的抑制系数为:
需要说明的是,res(n)代表的音频帧为瞬态噪声的概率,而所述第一平滑强度值Ys(n,k)和所述音频强度值Ya(n,k)在一个音频帧信号中与样点一一对应,一个音频帧中可以包括多个样点,每个样点包括所述第一平滑强度值Ys(n,k)和所述音频强度值Ya(n,k),而一个音频帧为瞬态噪声的概率res(n)为一个值,与所述第一平滑强度值Ys(n,k)和所述音频强度值Ya(n,k)是一对多的关系。
在一种可能的实施例中,若瞬态噪声的检测装置对瞬态噪声的概率进行平滑处理,根据公式7,所述目标样点为瞬态噪声平滑后的概率为Ds(n),替换公式11中的res(n),所述目标样点的抑制系数表示为:
805、根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。具体的,由步骤804获取所述目标样点的抑制系数,公式11可以理解为根据同一频率的样点的音频强度值与所述目标样点所在的处理信号与前一处理信号的音频强度值的偏离程度来确定抑制系数。当所述目标样点存在信号幅度时,即Ya(n,k)>0时,所述目标样点的音频强度值大于所述目标样点在所述处理信号中的音频强度值,即Ya(n,k)>Ys(n,k)时,对步骤802中所述傅里叶变换的结果Y(n,k)进行抑制;否则在其他的情况下,Ya(n,k)>Ys(n,k)或Ya(n,k)>0不成立时,对傅里叶变换的结果Y(n,k)不采取抑制措施,乘以1保持目标样点的原来幅度值。因此,经过抑制处理的音频信号为Z(n,k)=Y(n,k)×G(n,k),这是频域上面的表示方式,为了得到时域上面的音频信息,将经过抑制处理的音频信号进行傅里叶逆变换,得到时域信号表示为:
其中z(n,i)表示第n帧信号中的第i个样点的音频强度值。由于步骤802对第一音频信号加上了汉明窗的窗函数,可选的,可以对经过抑制后的信号进行汉明窗的逆变换,输出信号z(Ln+i)=z(n,i)×winv(i),作为在时域上经过抑制处理的音频信号,其中L为帧移的时间段内包括的样点数目,可选的,以第一音频帧信号的采样频率是32kHz为例,L=320;winv(i)是汉明窗w(i)的逆变换表示形式,可以类比傅里叶变换与傅里叶逆变换。
在一种可能的实施例中,将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。具体的,由于口唇发音或麦克风录音的过程中,语音信号损失了高频成分,并且随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,在一种可能的实现方式中,对所述预设时长的原始音频信号进行预加重,使用y(n)=x(n)-ax(n-1)对样点的音频强度值进行处理,其中x(n)为第n时刻所述第一音频信号的样点的音频强度值,x(n-1)为第n-1时刻所述第一音频信号的样点的音频强度值,a为预加重系数,示例性的,a大于0.9小于1,可以理解为所述第一预设阈值,y(n)为经过预加重处理的信号。可以理解为,所述预加重处理可以认为将所述第一音频信号通过一个高通滤波器,对高频成分进行补偿,减少了口唇发音或麦克风录音的过程带来的高频损失。
实施本实施例,根据瞬态噪声的概率,确定瞬态噪声的抑制系数,前文结合图1至图7所描述的实施例提高了对瞬态噪声检测的准确性,本实施例在准确确定瞬态噪声的概率的基础上,对信号帧所有样点的音频强度值在频谱阈上进行平滑处理,准确确定所述瞬态噪声的抑制系数,实现对瞬态噪声进行有效的抑制。
下面对本申请实施例提供的另一种瞬态噪声的检测方法的流程示意图,参见图9,图9为本申请实施例提供的另一种瞬态噪声的检测方法的流程示意图,如图9所示,具体执行步骤如下:
901、获取第一音频信号,所述第一音频信号包括至少一个音频帧信号,针对所述每个音频帧信号进行小波分解,得到分别与每个音频帧信号对应的多个小波分解信号。具体的,瞬态噪声的检测装置获取预设时长的第一音频信号,将所述第一音频信号进行分帧,得到音频帧信号。
902、按照所述音频帧信号在第一音频信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列。
需要说明的是,针对音频帧信号进行小波分解,以及将小波分解后的信号进行拼接形成小波信号序列,具体的实现过程参见前文结合图1至图7所描述的实施例,此处不作赘述。
903、获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点中的第一最小音频强度值,获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值,根据所述第一最小音频强度值和所述第二最小音频强度值,确定所述目标样点的第二参考音频强度值。具体的,为了避免将语音信号的发语端误判断为瞬态噪声,瞬态噪声的检测装置除了实施前文结合图1至图7所描述的实施例对当前帧信号来进行瞬态噪声的概率之外,还对一段平稳时长的语音信号进行跟踪观察。
示例性的,预设需要跟踪信号的时长,可以理解的是,向前跟踪的信号时长包括所述第一预设数量个连续样点,向后跟踪的信号时长包括所述第二预设数量个连续样点,可选的,所述第一预设数量和所述第二预设数量可以相同。将小波信号序列中排序在所述目标样点之前的所有样点划分为一段一段预设时长的跟踪信号,记录第一段时长中所有样点的音频强度值的最小值,并传递至下一段预设时长的跟踪信号,将上一段预设时长传递下来的所有样点的最小值和该段预设时长中的第一样点的音频强度值进行比较,记录下两者中的相对较小值,并将两者中相对较小值与所述第一样点的下一个样点的音频强度值进行比较,以此类推,每次都是记录两者中的相对较小值与下一个样点的音频强度值进行比较,由此获得所述第一预设数量个连续样点中的第一最小音频强度值。同理的,将小波信号序列中排序在所述目标样点之后的第二预设数量个连续样点记录下来,并划分为一段一段预设时长的跟踪信号,重新启动与获取所述第一最小音频强度值的流程步骤,记录第一段时长中所有样点的音频强度值的最小值,并传递至下一段预设时长的跟踪信号,将上一段预设时长传递下来的所有样点的最小值和该段中的第一样点的音频强度值进行比较,记录下两者中的相对较小值,并将两者中相对较小值与该时段的下一样点的音频强度值进行比较,以此类推,每次都是记录两者中的相对较小值与下一个样点的音频强度值进行比较,由此获得所述第二预设数量个连续样点中的第二最小音频强度值,将所述第一最小音频强度值和所述第二最小音频强度值中的较大值,作为所述目标样点的第二参考音频强度值。下文将结合附图对向前和向后跟踪语音信号的实现进行示例性说明。
904、根据所述第一小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值。具体的,由步骤903确定所述目标样点的第二参考音频强度值,计算所述第一小波分解信号中所有样点的第二参考音频强度值的平均值,得到所述第一音频帧信号的平均参考音频强度值。
905、根据所述第一音频帧信号的平均参考音频强度值确定第一概率。具体的,由步骤904确定所述第一音频帧信号的平均参考音频强度值,可选的,所述第一概率为:
其中thrg为第二预设阈值,thrs为第三预设阈值,n为帧索引,表征第n音频帧信号,Sc(n)为所述第n音频帧信号的平均参考音频强度值。示例性的,thrg=2000,thrs=0.02。可以理解的是,所述第一概率为所述第一音频帧信号为语音信号的概率,所述第一音频帧信号为语音信号的概率与所述第一音频帧信号为瞬态噪声的概率之和为1。
906、根据所述第一小波分解信号的能量分布信息得到第二概率。具体的,所述第二概率为所述第一音频帧信号为瞬态噪声的概率,由前文结合图1至图7所描述的实施例中的步骤104确定所述第二概率为res(n),具体实现过程参考前文所描述的实施例,此处不作赘述。
907、根据所述第一概率与所述第二概率确定所述第一音频帧信号为瞬态噪声的概率。具体的,所述第一概率表示第一音频帧信号为语音信号的概率ps(n),所述第二概率表示第一音频帧信号为瞬态噪声的概率res(n),示例性的,根据语音信号的概率和瞬态噪声的概率共同确定第一音频帧信号为瞬态噪声的概率ydetect=res(n)×(1-ps(n))。
在一种可能的实施例中,为了降低音频帧信号之间的毛刺影响,对帧信号进行平滑处理。可选的,瞬态噪声的检测装置将所述小波信号序列划分得到多个待平滑信号,每个待平滑信号包括第四预设数量个连续样点和每个样点音频强度值,每个待平滑信号对应一个平滑函数,所述平滑函数定义域的时间宽度不大于所述待平滑信号的时间宽度,所述平滑函数中的第一平滑函数的最大值在所述第一平滑函数定义域的中心处。具体的,所述待平滑信号也可以理解成分帧,这里的帧信号是可以移动的,随着平滑函数的移动而改变,可以理解的是,所述待平滑函数具有定义域,通过移动所述待平滑函数实现对小波信号序列中各个带平滑信号的所有样点的平滑。示例性的,所述待平滑函数为:
其中M=2B+1,M为奇数,在中心点m=B处所述平滑函数sb(m)的函数值最大。可选的,B=3,代表着30ms。根据公式15可知所述平滑函数的定义域为0至M。
将所述第一待平滑信号中所有样点音频强度值的平均值,作为所述第一平滑信号中所有样点的第一平均参考音频强度值。具体的,以Sm(i)代表所述小波信号序列中第i个样点的第二参考音频强度值,计算所述第一待平滑信号中所有样点的第二参考音频强度值的平均值,所述第一平滑信号中所有样点的第一平均参考音频强度值具体表示为:
其中n为帧索引,表征第n个音频帧信号,N代表子小波分解信号的所有样点的数量。
将所述小波信号序列中各个待平滑信号的所有样点的第一平均参考音频强度值和对应的平滑函数值进行卷积运算,将所述卷积运算的结果,作为所述第一音频帧信号的平均参考音频强度值,其中所述平滑函数值根据所述平滑函数以及对应样点的时间得到。具体的,所述平滑函数自变量为m,因变量为sb(m),所述第一平均参考音频强度值表示为Sfrm(n),在平滑函数的中心点处取得最大值的样点的第一平均参考音频强度值表示为Sfrm(n-m),示例性的,所述第一音频帧信号的平均参考音频强度值
在一种可能的实施例中,对所述小波序列中的样点进行时域幅度平滑,以使语音信号的前后样点之间可以圆滑过渡,减少毛刺对语音信号的影响。在一种可能的实现方式中,瞬态噪声的检测装置将所述小波信号序列中所述目标样点前一样点的音频强度值乘以平滑系数,得到所述目标样点的第三参考音频强度。具体的,以S(i)表示所述目标样点的音频强度值,S(i-1)表示所述目标样点前一样点的音频强度值,αs代表所述平滑系数,将所述小波信号序列中所述目标样点前一样点的音频强度值S(i-1)乘以平滑系数αs得到所述目标样点的第三参考音频强度值,所述目标样点的第三参考音频强度值为αs×S(i-1)。
将所述小波信号序列中包括所述目标样点在内,且在所述小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数,得到所述目标样点的第四参考音频强度值。具体的,所述第三参考音频强度值为时域平滑结果的一部分,将所述小波信号序列中包括所述目标样点在内,且在所述小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数作为时域平滑结果的另一部分。示例性的,以将所述第一音频信号进行3级小波包分解为例进行说明,所述小波信号序列中包括8个小波包分解信号,排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值M(i)为:
其中,公式17中i为小波信号序列中的第i个样点,l代表着第l个子小波分解信号,可以理解的是,i小于小波信号序列中所有样点的数目总数。将所述小波信号序列中包括所述目标样点在内,且在所述小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值M(i)乘以剩余的平滑系数1-αs,得到所述目标样点的第四参考音频强度值,所述第四参考音频强度值为M(i)×(1-αs)。
将所述第三参考音频强度值和所述第四参考音频强值相加得到的数值,作为所述目标样点的音频强度值。具体的,所述第三参考音频强度值为αs×S(i-1),所述第四参考音频强度值为M(i)×(1-αs),将所述第三参考音频强度值和所述第四参考音频强值相加得到所述目标样点的音频强度值S(i)=αs×S(i-1)+M(i)×(1-αs)。
在一种可能的实施例中,获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。具体的,为了减少瞬态噪声概率分布的毛刺影响,确保瞬态噪声检测出来就相对稳定的出现,对瞬态噪声的概率进行平滑。示例性的,若所述第二音频帧信号为瞬态噪声的概率大于所述第一音频帧信号为瞬态噪声的概率,则根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,所述第一音频帧信号为瞬态噪声的概率表示为ydetect(n),Ds(n)为定义的一个变量,记录着所述第一音频帧为瞬态噪声的概率,所述第一音频帧信号的前一音频帧信号的第二音频帧信号为瞬态噪声的概率为Ds(n-1),经过平滑后的概率为:
其中,当n=0时,Ds(0)=0,将所述瞬态噪声概率Ds(n)作为所述第一平滑概率。
在一种可能的实施例中,瞬态噪声的检测方法可以为:获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。具体的,所述第一子小波分解信号和所述第二子小波分解信号对应音频帧信号的频段是不一样的,而人声信号的主要频段主要集中在300Hz至3400Hz,瞬态噪声在全频段的分布相对均衡,示例性的,所述第一子小波分解信号对应的频段为0至2kHz,所述第二子小波分解信号对应的频段为2kHz至4kHz,获取所述第一子小波分解信号中所有样点的音频强度值的平均值与所述第二子小波分解信号中所有样点的音频强度值的平均值之间的比值,根据所述第一子小波分解信号与所述第二子小波分解信号之间的比值,确定所述音频帧为瞬态噪声的概率,在一种可能的实现方式中,音频帧信号对应的小波分解信号中包括多个子小波分解信号,可选的,获取所述小波分解信号中的所有子小波分解信号中两两子小波分解信号之间的比值,根据获取到的比值的平均值来确定音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。具体的,由于口唇发音或麦克风录音的过程中,语音信号损失了高频成分,并且随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,在一种可能的实现方式中,对所述预设时长的原始音频信号进行预加重,使用公式y(n)=x(n)-ax(n-1),其中x(n)为第n时刻所述第一音频信号的样点的音频强度值,x(n-1)为第n-1时刻所述第一音频信号的样点的音频强度值,a为预加重系数,示例性的,a大于0.9小于1,可以理解为所述第一预设阈值,y(n)为经过预加重处理的信号。可以理解为,所述预加重处理可以认为将所述第一音频信号通过一个高通滤波器,对高频成分进行补偿,减少了口唇发音或麦克风录音的过程带来的高频损失。
实施本实施例,通过向前和向后跟踪预设时长的语音信号的音频强度值的分布情况,确定语音信号的概率,根据音频帧信号为语音信号的概率和瞬态噪声的概率共同决定所述音频帧信号为瞬态噪声的概率,避免将语音信号的发声起始位置误检测为瞬态噪声,更进一步的提高了瞬态噪声概率的准确性。
在一种可能的实施例中,确定所述第一音频帧信号为瞬态噪声的概率之后,根据所述第一音频帧信号为瞬态噪声的概率对所述第一音频帧信号进行抑制。在一种可能的实现方式中,可以实施前文结合图8所描述的实施例,对所述第一音频帧信号进行抑制的具体步骤如下:
获取第一音频信号,所述第一音频信号包括至少一个音频帧信号;
将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号;
根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值;
根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数;具体的,由前文结合图9所描述的实施例确定所述目标样点所在音频帧信号为瞬态噪声的概率为ydetect(n),根据公式11,将语音信号概率和瞬态噪声概率确定的瞬态噪声概率ydetect(n)替换公式11中的res(n),抑制系数表示如公式19所示:
在一种可能的实施例中,若瞬态噪声的检测装置对瞬态噪声的概率进行平滑处理,根据公式18确定所述目标样点为瞬态噪声平滑后的概率为Ds(n),根据公式12确定所述目标样点的抑制系数为G(n,k)。
根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。
可以理解的是,瞬态噪声的抑制具体实现方式可以参考前文结合图8所描述的实施例,此处不作赘述。
实施本实施例,对小波信号序列的目标样点之前和之后预设数量个连续样点的音频强度值,在频谱阈上进行跟踪平滑处理,根据音频帧对应的小波分解信号中所有样点确定所述音频帧为语音信号的概率,根据音频帧为语音信号的概率来影响音频帧为瞬态噪声的概率,进一步提高瞬态噪声概率的准确性,从而提高对瞬态噪声检测的准确性。
下面结合附图对向前和向后跟踪语音信号的实现进行示例性说明,参见图10至图11,图10为本申请实施例提供的又一种瞬态噪声的检测方法的流程示意图,如图10所示,具体执行步骤如下:
1000a、获取小波信号序列中排序顺序在目标样点之前的第一预设数量个连续样点的音频强度值。具体的,根据目标样点在小波信号序列中的位置,获取在所述目标样点之前的样点的音频强度值,进行步骤1001a。
1000b、获取小波信号序列中排序顺序在目标样点之后的第二预设数量个连续样点的音频强度值。具体的,根据目标样点在小波信号序列中的位置,获取在所述目标样点之后的样点的音频强度值,进行步骤1001b。
1001a、第一最小受控递归MCRA。具体的,所述第一最小受控递归的输入是小波信号序列在所述目标样点之前的第一预设数量个样点的音频强度值,目的是为了得到所述第一预设数量个样点的音频强度值的最小值,下面将结合附图对最小受控递归MCRA进行介绍,请参见下文所描述的实施例。
1001b、第二最小受控递归MCRA。具体的,所述第二最小受控递归的输入是小波信号序列在所述目标样点之后的第二预设数量个样点的音频强度值,目的是为了得到所述第二预设数量个样点的音频强度值的最小值,可以理解的是,所述第一受控递归MCRA和所述第二受控递归MCRA可以理解为同样的流程,只是输入量不一样,导致输出量也不一样,但是两者实现的目的是一样的,都是为了得到预设数量个样点的音频强度值的最小值,下面将结合附图对最小受控递归MCRA进行介绍,请参见下文所描述的实施例。
1002a、确定Smin为第一预设数量个连续样点的第一最小音频强度值。具体的,步骤1001a中的所述第一受控递归MCRA的结果为确定Smin为第一预设数量个连续样点的第一最小音频强度值。
1002b、确定Suc_min为第二预设数量个连续样点的第二最小音频强度值。具体的,步骤1001b中的所述第二受控递归MCRA的结果为确定Suc_mio为第二预设数量个连续样点的第二最小音频强度值
1003、获取所述第一最小音频强度值和所述第二最小音频强度值中的较大值,作为所述目标样点的第二参考音频强度值。
1004、根据第一音频帧信号中所有样点的第二参考音频强度值,确定所述第一音频帧为语音信号的概率,从而确定所述第一音频帧为瞬态噪声的概率。具体的,可以参考前文结合图9所描述实施例,以及公式14,此处不作赘述。
下面对最小受控递归MCRA作详细的介绍,参见图11,图11为本申请实施例提供的一种跟踪信号能量分布的流程示意图,如图11所示,具体执行步骤如下:
10011、瞬态噪声的检测装置定义样点索引i=0,初始化样点的音频强度值S(0)=M(0),样点累积索引imod=0。具体的,i=0,S(0)=M(0),imod=0,可以理解成所述瞬态噪声的检测装置的初始状态,定义需要遍历的样点初始值,以及对应的音频强度值,样点累积索引用于控制预设时长,当样点累积索引imod的值达到一定值时,进行数据更新,完成一段预设时长的信号跟踪。
10012、i=i+1,第i个样点的音频强度值S(i)=αs×S(i-1)+M(i)×(1-αs)。具体的,开始进行样点的音频强度值跟踪,也可以理解为能量分布情况的跟踪,i=i+1,对每一个遍历过的样点进行幅度平滑,平滑后的第i个样点的音频强度值为S(i)=αs×S(i-1)+M(i)×(1-αs),可选的αs=0.7。
10013、判断i是否小于累加样点数目Vwin。具体的,本实施例是对一段时长的语音信号进行跟踪,所以需要对样点进行累加,预先定义累加的样点数目Vwin,可选的Vwin=20,当在第0至19个样点时,进行步骤10013a,当遍历至第20个样点时,进行步骤10013b。
10013a、若i小于累加样点数目Vwin,定义Emin=S(i),Emact=S(i)。具体的,当i从小波信号序列中的第1个样点开始遍历,进行样点的音频强度平滑,若i小于累加样点数目Vwin时,将S(i)的值赋予给Emin和Emact,即Emin=S(i),Emact=S(i),进行步骤10014开始进行样点累加。示例性的,i=i+1,可以理解成瞬态噪声的检测装置一直在对样点的音频强度值进行跟踪,i小于累加数目Vwin表示所述第一音频信号的前Vwin个样点,例如Vwin=20,当遍历至第19个样点时Emin=S(19),Emact=S(19),Emin和Emact记录着第19个样点的音频强度值。
10013b、获取第Vwin个样点到第i个样点的音频强度值最小值,Emin=min(Emin,S(i)),Emact=min(Emact,S(i))。具体的,若i大于或等于累加样点数目Vwin,当遍历至第Vwin个样点时,以Vwin=20为例进行说明,示例性的,当步骤10013遍历至第20个样点时,获取第19个样点与第20个样点之间的较小值赋给Emin,Emin=min(Emin,S(20)),遍历至第20个样点的前一步骤10013中Emin记录着S(19)的值。
10014、imod=imod+1。具体的,在样点i遍历的过程中,样点累积imod也在不断的累加,imod=imod+1,imod控制着矩阵SW是否进行数据更新,将所述小波信号序列划分为预设时长的语音信号来进行跟踪。可以理解的是,i代表着所述小波信号序列中的样点位置与顺序,而imod代表着i样点在所述预设时长中的位置与顺序,在达到预设时长时,imod会被重置,重新开始记录下一个小波信号序列中的样点在下一段预设时长中的位置。
10015、判断imod是否等于Vmin。具体的,对imod与Vmin进行比较,判断对样点的跟踪是否达到了预设时长。示例性的,以32kHz为所述第一音频信号的采样频率,进行3级小波包分解并降采样,则小波信号序列中为每隔0.25ms进行一次采样,样点累加数目Vwin=20,跟踪时长为Vwin×0.25=5ms。若imod等于Vmin,代表达到了跟踪预设时长,进行步骤10017a;若imod不等于Vmin,可选的,若imod小于Vmin,进行步骤10017b。
10016、imod=0。具体的,在imod每次达到累加样点数目Vwin时,释放imod,重置imod=0,以进行下一次样点累加。
10017、判断i是否等于Vmin。具体的,当i等于Vmin时,进行步骤10017a,初始化矩阵数据;当i不等于Vmin时,进行步骤10017b。
10017a、初始化矩阵SW。具体的,定义SW:
当i等于Vmin时,定义Nwin行,1列的矩阵SW,可选的,Nwin=2。可以理解的是,该步骤是在一段语音的开始部分执行的,i一直在累加,Vwin是一个预设的固定值,在i遍历至第Vwin个样点时,对矩阵SW进行初始化设置,以提供矩阵来存储本实施例的数据。
10017b、进行矩阵SW中的数据更新,并记录矩阵中的最小值Emin=min{SW},重置Emact=S(i)。具体的,SW为:
当i不等于Vmin时,并且imod累加达到预设时长时,更新矩阵SW的值,将当前时段的所有样点的最小值与上一时段的最小值放在矩阵SW中,实现对目标样点前面预设时长包括的样点的能量跟踪,获取两者中的较小值,记录在Emin中,Emin=min{SW},可以理解的是,Emin记录着从Vmin前一样点开始的所有样点的最小值,释放Emact,重置Emact=S(i)。示例性的,以跟踪时长为5ms为例进行说明,Emact记录着最新的5ms中的所有样点的音频强度值的最小值,将相邻5ms的最小值放在长度为2矩阵SW中,获取两者中的较小值,记录在Emin中,Emin=min{SW}。至此,在所述第一受控递归MCRA中,Emin代表的是第一预设数量个连续样点的第一最小音频强度值Smin。
在所述第二受控递归MCRA中,从目标样点累积跟踪第二预设数量个连续样点,每一个样点重新开始执行一次最小受控递归MCRA的过程,得到Emin代表第二预设数量个样点的第二最小音频强度值Suc_min。具体的,在累积样点之前,需要先对样点在小波信号序列中的位置进行判断,判断样点i后面是否还有第二预设数量个连续样点,示例性的,判断条件为:
i<Ls-Nnc公式22
其中Ls为小波信号序列中所有样点的数量,以32kHz为所述第一音频的采样频率,进行3级小波分解为例,1秒中内,Ls=4000;Nuc代表第二预设数量个连续样点的数量,可选的,Nuc=160。
若i<Ls-Nnc成立,从目标样点开始累积跟踪第二预设个连续样点,记录第二预设数量个连续样点对应的音频强度值,作为独立的短时序列,表示为:
其中,Nuc代表第二预设数量个连续样点的数目,可选的,Nuc=160,M(i)代表着第i个样点的音频强度值。可以理解成,向后跟踪Nuc个样点的能量分布情况,得到第二预设数量个样点的第二最小音频强度值Suc_min,表示为:
公式24可以理解成,将最小受控递归的输出Emin赋值给Suc_min,作为所述第二预设数量个连续样点的第二最小音频强度值。由此可得,所述第二受控递归MCRA获取了所述目标样点之后的第二预设数量个样点的第二最小音频强度值。
10018、判断i是否大于或等于样点总数。具体的,在执行步骤10011中重新开始跟踪预设时段的信号之前,需要对小波信号序列的样点位置进行判断,判断第i个样点中的i是否大于或等于小波信号序列中样点的总数,因为i一直在加1,在不停的向后移动进行样点的遍历,若i小于小波信号序列中样点总数,则继续进行信号跟踪,若第i个样点已经遍历至所有样点中的最后一个,即i等于或大于样点总数时,结束上述流程,完成对所述小波信号序列中信号的跟踪。
10019、确定Emin为最小音频强度值。具体的,通过矩阵记录预设数量个样点的音频强度值,获取矩阵中的最小值,并赋值给Emin,由此获得第一最小音频强度值和第二最小音频强度值。由步骤10017b得知,在第一受控递归MCRA的过程中,根据公式21获取小波信号序列中排序顺序在所述目标样点之前的第一预设数量个样点的第一最小音频强度值,Emin的值为Smin,在第二受控递归MCRA的过程中,根据公式23和公式24可知,输出的Emin值为Suc_min,代表小波信号序列中排序顺序在所述目标样点之后的第二预设数量个样点的第二最小音频强度值。至此完成对所述目标样点前面和后面样点的能量分布的跟踪。
进一步的,进行前文结合图10所描述的实施例中的步骤1003和步骤1004,获取第一最小音频强度值Smin和第二最小音频强度值Suc_min的较大值,作为目标样点的第二参考音频强度值,根据第一音频帧信号中所有样点的第二参考音频强度值确定所述第一音频帧信号为语音信号的概率,从而确定所述第一音频帧为瞬态噪声的概率。具体的,对目标样点的前面和后面一段时长包括的样点进行最小值的跟踪,然后将在所述目标样点前面和后面的最小值进行比较,确定两者中的较大值,作为所述目标样点的第二参考音频强度值,表示为:
Sm(i)=max{Suc_min,Smin}公式25
若样点i后面没有第二预设数量个连续样点,将第一最小音频强度值作为目标样点的第二参考音频强度值。具体的,当样点i不断遍历时,在样点i后面的样点数量在不断的减少,当公式22中的i<Ls-Nnc不成立时,所述目标样点的第二参考音频强度值为:
Sm(i)=Smin公式26
根据所述目标样点的第二参考音频强度值为Sm(i),根据公式16确定所述第一平均参考音频强度值,从而确定所述第一音频帧信号的平均参考音频强度值,再通过公式14确定所述第一音频帧为语音信号的概率,根据语音信号的概率和瞬态噪声的概率共同确定第一音频帧信号为瞬态噪声的概率ydetect=res(n)×(1-ps(n))。
本实施例通过矩阵将上一跟踪时长的所有样点的音频强度值的最小值Smin传递到当前跟踪时长中,Smin与当前跟踪时长的第一个样点的音频强度值进行比较,再将两者中的较小值与所述第一样点的后一样点的音频强度值进行比较,以此类推,获取包括目标样点在内,且在小波信号序列中排序顺序在所述目标样点之前的第一预设数量个样点的第一最小音频强度值;本实施例还通过对小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值,通过对所述第二预设数量个连续样点进行累积记录,形成一个独立的短时序列,启动跟踪流程,通过矩阵对短时序列中记录的所述第二预设数量个连续样点的音频强度值进行跟踪,具体实现过程与跟踪小波信号序列中拼接在所述目标样点前面的第一预设数量个连续样点的原理一样,当前跟踪时长的第二最小音频强度值Suc_min传递到下一跟踪时长,Suc_min与下一跟踪时长的第一个样点的音频强度值进行比较,再将两者中的较小值与所述第一样点的后一样点的音频强度值进行比较,以此类推,获取包括目标样点在内,且在小波信号序列中排序顺序在所述目标样点之后的第二预设数量个样点的第二最小音频强度值,获取所述第一音频强度值和所述第二音频强度值中的较大值,作为所述目标样点的第二参考音频强度值Sm(i),Sm(i)构成的样点序列可以描述语音信号的音频强度值的分布情况,也可以理解为语音信号的能量分布趋势,根据音频帧中所有样点的第二参考音频强度值,确定所述音频帧为语音信号的概率,从而确定所述语音帧为瞬态噪声的概率。
实施本实施例,通过对稳定时长的信号的能量分布进行跟踪,对音频帧信号为语音信号的概率进行检测,利用信号帧为语音信号的概率和所述信号帧为瞬态噪声的概率共同确定所述音频帧为瞬态噪声的概率,避免将语音信号的音频帧误检为瞬态噪声,可以进一步地提高对瞬态噪声检测的准确性。
下面结合附图对本实施例实现的效果进行示例性介绍,参见图12至图13,
参见图12,图12为本申请实施例提供的一种瞬态噪声检测以及抑制的效果示意图,如图12所示,12a为时域上的原始录音音频信号,12b为噪声抑制后的信号,实施前文结合图1至图7所描述的实施例,确定12a中为瞬态噪声信号的概率,实施前文结合图8所描述的实施例,对12a中的信号进行不同程度的削弱,特别是方框内的信号,从图中可以明显看到瞬态的毛刺上升,实施瞬态噪声的抑制可以有效的将12a中的瞬态噪声抑制至12b中方框内的信号幅度,由于频谱图具有更加细腻的表示效果,颜色的深浅代表帧信号幅度的强弱,12a对应的频域显示是12c原始录音频谱,12b对应的频域显示是12d瞬态噪声抑制后的频域显示,由12c可以清楚的看到方框内瞬态噪声的存在,经过抑制后,12d中将瞬态噪声的幅度大大削弱至不足以影响原始录音信号。图12是实施前文结合图1至图8所描述的实施例达到的效果示意图。参见图13,图13为本申请实施例提供的另一种瞬态噪声检测以及抑制的效果示意图,如图13所示,瞬态噪声和语音发语上冲onset的开始端都具有幅度突然上升的特点,为了将两者进行区分,实施前文结合图9至图11所描述的实施例,可以有效的避免将语音发语上冲onset的开始端误检测为瞬态噪声,在极大程度上保留语音发语上冲onset开始端的信号特征的基础上,对瞬态噪声进行有效的抑制。
下面结合附图对本实施例提供的一种瞬态噪声的检测装置进行介绍,参见图14,图14为本申请实施例提供的一种瞬态噪声的检测装置的结构框图,如图14所示,一种瞬态噪声的检测装置14包括:
获取模块1401,用于获取预设时长的音频信号,所述音频信号包括多个样点以及每个样点的音频强度值;
分解模块1402,用于针对所述第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
确定模块1403,用于根据第一子小波分解中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
所述确定模块1403,还用于根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
所述确定模块1403,还用于根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述获取模块1401,还用于获取第一音频信号,所述第一音频信号包括至少一个音频帧信号,针对所述每个音频帧信号进行小波分解,得到分别与每个音频帧信号对应的多个小波分解信号;
所述装置14还包括拼接模块1404,所述拼接模块1404用于按照所述音频帧信号在第一音频信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列;
所述获取模块1401,还用于获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点中的第一最小音频强度值,获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值;
所述确定模块1403,还用于根据所述获取模块1401中的所述第一最小音频强度值和所述第二最小音频强度值,确定所述目标样点的第二参考音频强度值;
所述确定模块1403,还用于根据所述第一小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值;
所述确定模块1403,还用于根据所述第一音频帧信号的平均参考音频强度值确定第一概率;
所述确定模块1403,还用于根据所述第一小波分解信号的能量分布信息得到第二概率;
所述确定模块1403,还用于根据所述第一概率与所述第二概率,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述获取获取模块1401,还用于获取第一音频信号,所述第一音频信号包括至少一个音频帧信号;
所述装置14还包括划分模块1405,用于将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号;
所述确定模块1403,还用于根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值;
所述确定模块1403,还用于根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数;
所述装置14还包括抑制模块1406,所述抑制模块1406,用于根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。
在一种可能的实现方式中,所述获取模块1401,还用于获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;
所述获取模块1401,还用于根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实现方式中,所述划分模块1405,还用于将所述小波信号序列划分得到多个待平滑信号,每个待平滑信号包括第四预设数量个连续样点和每个样点音频强度值,每个待平滑信号对应一个平滑函数,所述平滑函数定义域的时间宽度不大于所述待平滑信号的时间宽度,所述平滑函数中的第一平滑函数的最大值在所述第一平滑函数定义域的中心处;
所述确定模块1403,还用于将所述第一待平滑信号中所有样点音频强度的平均值,作为所述第一平滑信号中所有样点的第一平均参考音频强度值;
所述确定模块1403,还用于将所述小波信号序列中各个待平滑信号的所有样点的第一平均参考音频强度值和对应的平滑函数值进行卷积运算,将所述卷积运算的结果,作为所述第一音频信号的平均参考音频强度值,其中所述平滑函数值根据所述平滑函数以及对应样点的时间得到。
可选的,所述装置14还包括计算模块1407,所述计算模块1407,用于将所述小波信号序列中所述目标样点前一样点的音频强度值乘以平滑系数,得到所述目标样点的第三参考音频强度;
所述计算模块1407,还用于将所述小波信号序列中包括所述目标样点在内,且在小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数,得到所述目标样点的第四参考音频强度值;
所述计算模块1407,还用于将所述第三参考音频强度值和所述第四参考音频强值相加得到的数值,作为所述目标样点的音频强度值。
在一种可能的实现方式中,所述参考音频强度值包括第五预设数量个连续样点的音频强度值的平均值和方差。
其中result(n)表征所述第n音频帧信号对应的分解信号的能量分布信息,n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,若result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
可选的,所述确定模块1403,还用于确定所述第一音频帧信号对应的第一小波分解信号的能量分布信息
其中l为所述第一小波分解信号包括的子小波分解信号的个数,N为每个子小波分解信号中包括的样点数量,n为帧索引,表征第n个音频帧信号,xl(l)表示第l个子小波分解信号在小波分解信号中的第i个样点的音频强度值,表示第l个子小波分解信号中到达第i-1个样点音频强度值的平均值,表示第l个子小波分解信号中到达第i-1个样点的音频强度值的方差。
在一种可能的实现方式中,所述获取模块1401,还用于获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;
所述确定模块1403,还用于根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述确定模块1403,还用于确定所述第二概率为
其中thrg为第二预设阈值,thrs为第三预设阈值,n为帧索引,表征第n音频帧信号,Sc(n)为所述第一音频信号的平均参考音频强度值。
可选的,所述装置14还包括补偿模块1408,所述补偿模块1408,用于将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。
在一种可能的实施例中,所述分解模块1402,还用于针对所述每个音频帧信号进行小波包分解,将小波包分解后得到的信号作为所述小波分解信号。
可以理解的是,本实施例中对有效语音信号检测的具体实现过程可以参考前文结合图1至图13所描述的实施例,此处不作赘述。
实施本实施例,通过对音频帧信号对应的小波包分解信号中的预设数量个连续样点进行统计,利用小波分解或小波包分解的局部显微特性,提高了对瞬态噪声检测的准确性
下面对本申请实施例提供的一种瞬态噪声的检测设备进行说明,参见图15,图15为本申请实施例提供的一种瞬态噪声的检测设备的结构框图,如图15所示,一种瞬态噪声的检测设备15包括:收发器1500、处理器1501和存储器1502,所述收发器1500与所述处理器1501以及所述存储器1502连接,所述处理器1501还与所述存储器1502连接,其中:
所述收发器1500,用于获取预设时长的音频信号,所述音频信号包括多个样点以及每个样点的音频强度值;
所述处理器1501,用于针对所述第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
所述处理器1501,用于根据第一子小波分解中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
所述处理器1501,还用于根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
所述处理器1501,还用于根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述收发器1500,还用于获取第一音频信号,所述第一音频信号包括至少一个音频帧信号,针对所述每个音频帧信号进行小波分解,得到分别与每个音频帧信号对应的多个小波分解信号;
所述处理器1501,还用于按照所述音频帧信号在第一音频信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列;
所述收发器1500,还用于获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点中的第一最小音频强度值,获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值;
所述处理器1501,还用于:
根据所述获取模块1401中的所述第一最小音频强度值和所述第二最小音频强度值,确定所述目标样点的第二参考音频强度值;
根据所述第一小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值;
根据所述第一音频帧信号的平均参考音频强度值确定第一概率;
根据所述第一小波分解信号的能量分布信息得到第二概率;
根据所述第一概率与所述第二概率,确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述收发器1500,还用于获取第一音频信号,所述第一音频信号包括至少一个音频帧信号;
所述处理器1501还用于:
将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号;
根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值;
根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数;
根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。
在一种可能的实现方式中,所述收发器1500,还用于获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;
所述处理器1501还用于:
根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实现方式中,所述处理器1501还用于:
将所述小波信号序列划分得到多个待平滑信号,每个待平滑信号包括第四预设数量个连续样点和每个样点音频强度值,每个待平滑信号对应一个平滑函数,所述平滑函数定义域的时间宽度不大于所述待平滑信号的时间宽度,所述平滑函数中的第一平滑函数的最大值在所述第一平滑函数定义域的中心处;
将所述第一待平滑信号中所有样点音频强度的平均值,作为所述第一平滑信号中所有样点的第一平均参考音频强度值;
将所述小波信号序列中各个待平滑信号的所有样点的第一平均参考音频强度值和对应的平滑函数值进行卷积运算,将所述卷积运算的结果,作为所述第一音频信号的平均参考音频强度值,其中所述平滑函数值根据所述平滑函数以及对应样点的时间得到。
可选的,所述处理器1501还用于:
将所述小波信号序列中所述目标样点前一样点的音频强度值乘以平滑系数,得到所述目标样点的第三参考音频强度;
将所述小波信号序列中包括所述目标样点在内,且在所述小波信号序列中排序顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数,得到所述目标样点的第四参考音频强度值;
将所述第三参考音频强度值和所述第四参考音频强值相加得到的数值,作为所述目标样点的音频强度值。
在一种可能的实现方式中,所述参考音频强度值包括第五预设数量个连续样点的音频强度值的平均值和方差。
其中result(n)表征所述第n音频帧信号对应的分解信号的能量分布信息,n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,若result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
可选的,所述处理器1501,还用于确定所述第一音频帧信号对应的第一小波分解信号的能量分布信息
其中l为所述第一小波分解信号包括的子小波分解信号的个数,N为每个子小波分解信号中包括的样点数量,n为帧索引,表征第n个音频帧信号,xl(i)表示第l个子小波分解信号在小波分解信号中的第i个样点的音频强度值,表示第l个子小波分解信号中到达第i-1个样点音频强度值的平均值,表示第l个子小波分解信号中到达第i-1个样点的音频强度值的方差。
在一种可能的实现方式中,所述处理器1501还用于:
获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;
根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。
在一种可能的实施例中,所述处理器1501,还用于确定所述第二概率为
其中thrg为第二预设阈值,thrs为第三预设阈值,n为帧索引,表征第n音频帧信号,Sc(n)为所述第一音频信号的平均参考音频强度值。
可选的,所述处理器1501,还用于将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。
在一种可能的实施例中,所述处理器1501,还用于针对所述每个音频帧信号进行小波包分解,将小波包分解后得到的信号作为所述小波分解信号。
可以理解的是,所述有效信号检测设备14可通过其内置的各个功能模块执行如上述图1至图12中各个步骤所提供的实现方式,具体可参见上述图1至图12中各个步骤所提供的实现方式,在此不再赘述。
实施本实施例,通过对音频帧信号对应的小波包分解信号中的预设数量个连续样点进行统计,利用小波分解或小波包分解的局部显微特性,提高了所述音频帧信号为瞬态噪声的概率的准确性,从而提高了对瞬态噪声检测的准确性。
本申请还提供了一种计算机可读存储介质,所述可读存储介质中存储有指令,所述指令被处理器执行,以实现上面所述各方面所述方法的步骤。
需要说明的是,上述术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本申请的实施例可以通过对音频帧信号对应的小波包分解信号中的子小波分解信号的预设数量个连续样点进行统计,利用小波分解或小波包分解的局部显微特性,提高了确定所述音频帧信号为瞬态噪声的概率的准确性,从而提高了对瞬态噪声检测的准确性;进一步的,还可以通过向前和向后跟踪预设时长的语音信号的音频强度值的分布情况,确定信号帧为语音信号的概率,根据信号帧为语音信号的概率和瞬态噪声的概率共同决定所述信号帧为瞬态噪声的概率,避免将语音信号的发声起始位置误检测为瞬态噪声,更进一步的提高了瞬态噪声检测的准确性,更进一步的,根据信号帧为瞬态噪声的概率,确定瞬态噪声的抑制系数,在极大程度上信号帧中语音信号的信号特征的基础上,对瞬态噪声进行有效的抑制。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置以及系统,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种瞬态噪声的检测方法,其特征在于,所述方法包括:
获取预设时长的音频帧信号,所述音频帧信号包括多个样点以及每个样点的音频强度值;
针对第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号中包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
根据第一子小波分解信号中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
2.根据权利要求1所述的方法,其特征在于,所述获取预设时长的多个音频帧信号包括:
获取第一音频信号,所述第一音频信号包括至少一个音频帧信号,针对所述每个音频帧信号进行小波分解,得到分别与每个音频帧信号对应的多个小波分解信号;
按照所述音频帧信号在第一音频信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列;
所述方法还包括:
获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点中的第一最小音频强度值,获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之后的第二预设数量个连续样点中的第二最小音频强度值,根据所述第一最小音频强度值和所述第二最小音频强度值,确定所述目标样点的第二参考音频强度值;
根据所述第一小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值;
根据所述第一音频帧信号的平均参考音频强度值确定第一概率;
所述根据所述第一小波分解信号的能量分布信息,确定所述第一小波分解信号对应的第一音频帧信号为瞬态噪声的概率包括:
根据所述第一小波分解信号的能量分布信息得到第二概率;
根据所述第一概率与所述第二概率,确定所述第一音频帧信号为瞬态噪声的概率。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述获取预设时长的多个音频帧信号包括:
获取第一音频信号,所述第一音频信号包括至少一个音频帧信号;
所述方法还包括:
将所述第一音频信号划分得到多个处理信号,每个处理信号包括第三预设数量个连续样点、每个样点的音频强度值和频率值,其中所述第一音频信号包括多个音频帧信号;
根据目标样点所在的第一处理信号的前一处理信号中与所述目标样点频率值相同的样点的音频强度值,以及所述目标样点的音频强度值,确定所述目标样点的第一平滑音频强度值;
根据所述目标样点所在音频帧信号为瞬态噪声的概率、所述目标样点的第一平滑强度值以及所述目标样点对应的音频强度值,确定所述目标样点的抑制系数;
根据所述目标样点所在音频帧信号中所有样点的抑制系数对所述目标样点所在音频帧信号中相应样点的音频强度值进行抑制处理,得到经过抑制处理的音频帧信号。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
获取所述第一音频帧信号为瞬态噪声的概率与第二音频帧信号为瞬态噪声的概率,所述第二音频帧信号为所述第一音频帧信号前一音频帧信号;
根据所述第二音频帧信号为瞬态噪声的概率和所述第一音频帧信号为瞬态噪声的概率获取第一平滑概率,作为所述第一音频帧信号为瞬态噪声的概率。
5.根据权利要求2所述的方法,其特征在于,所述根据所述小波分解信号中所有样点的第二参考音频强度值,确定所述第一音频帧信号的平均参考音频强度值还包括:
将所述小波信号序列划分得到多个待平滑信号,每个待平滑信号包括第四预设数量个连续样点和每个样点音频强度值,每个待平滑信号对应一个平滑函数,所述平滑函数定义域的时间宽度不大于所述待平滑信号的时间宽度,所述平滑函数中的第一平滑函数的最大值在所述第一平滑函数定义域的中心处;
将所述第一待平滑信号中所有样点音频强度值的平均值,作为所述第一平滑信号中所有样点的第一平均参考音频强度值;
将所述小波信号序列中各个待平滑信号的所有样点的第一平均参考音频强度值和对应的平滑函数值进行卷积运算,将所述卷积运算的结果,作为所述第一音频帧信号的平均参考音频强度值,其中所述平滑函数值根据所述平滑函数以及对应样点的时间得到。
6.根据权利要求2所述的方法,其特征在于,所述获取所述小波信号序列中包括所述目标样点,且在所述小波信号序列中排序顺序在所述目标样点之前的第一预设数量个连续样点之前还包括:
将所述小波信号序列中所述目标样点前一样点的音频强度值乘以平滑系数,得到所述目标样点的第三参考音频强度;
将所述小波信号序列中包括所述目标样点在内,且拼接顺序在所述目标样点之前的所有连续样点的音频强度值的平均值乘以剩余的平滑系数,得到所述目标样点的第四参考音频强度值;
将所述第三参考音频强度值和所述第四参考音频强值相加得到的数值,作为所述目标样点的音频强度值。
7.根据权利要求1所述的方法,其特征在于,所述参考音频强度值包括第五预设数量个连续样点的音频强度值的平均值和方差。
8.根据权利要求1所述的方法,其特征在于,所述第一音频帧信号为瞬态噪声的概率
其中result(n)表征所述第n音频帧信号对应的小波分解信号的能量分布信息,n为帧索引,表征第n个音频帧信号,λ为第一预设阈值,若result(n)的值大于所述第一预设阈值,则所述第一音频帧信号为瞬态噪声的概率为1。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一小波分解的能量分布信息确定所述第一音频帧信号为瞬态噪声的概率包括:
获取所述第一子小波分解信号中所有样点的音频强度值的第一平均值和第二子小波分解信号中所有样点的音频强度值的第二平均值;
根据所述第一平均值与第二平均值之间的比值确定所述第一音频帧信号为瞬态噪声的概率。
12.根据权利要求2-3任一项所述的方法,其特征在于,所述获取第一音频信号之前包括:
将所述预设时长的原始音频信号中的第一预设阈值的高频成分进行补偿,从而得到所述第一音频信号。
13.根据权利要求1所述的方法,其特征在于,所述针对所述每个音频帧信号进行小波分解包括:
针对所述每个音频帧信号进行小波包分解,将小波包分解后得到的信号作为所述小波分解信号。
14.一种瞬态噪声的检测装置,其特征在于,包括:
获取模块,用于获取预设时长的音频信号,所述音频信号包括多个样点以及每个样点的音频强度值;
分解模块,用于针对所述第一音频帧信号进行小波分解,得到与所述第一音频帧信号对应的第一小波分解信号,所述第一小波分解信号包含多个子小波分解信号,每个子小波分解信号包括多个样点以及每个样点的音频强度值;
确定模块,用于根据第一子小波分解中所有样点的参考音频强度值,确定所述第一子小波分解信号的第一参考音频强度值;
所述确定模块,还用于根据所述第一小波分解信号中所有子小波分解信号的第一参考音频强度值,确定所述第一小波分解信号的能量分布信息;
所述确定模块,还用于根据所述第一小波分解信号的能量分布信息,确定所述第一音频帧信号为瞬态噪声的概率。
15.一种瞬态噪声的检测设备,其特征在于,所述设备包括收发器、处理器和存储器,其中所述处理器用于执行所述存储器中存储的计算机程序,实现如权利要求1至13中任意一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911107575.2A CN110838299B (zh) | 2019-11-13 | 2019-11-13 | 一种瞬态噪声的检测方法、装置及设备 |
PCT/CN2020/128372 WO2021093807A1 (zh) | 2019-11-13 | 2020-11-12 | 一种瞬态噪声的检测方法、装置及设备 |
US17/728,405 US12057132B2 (en) | 2019-11-13 | 2022-04-25 | Method, apparatus, and device for transient noise detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911107575.2A CN110838299B (zh) | 2019-11-13 | 2019-11-13 | 一种瞬态噪声的检测方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110838299A true CN110838299A (zh) | 2020-02-25 |
CN110838299B CN110838299B (zh) | 2022-03-25 |
Family
ID=69576304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911107575.2A Active CN110838299B (zh) | 2019-11-13 | 2019-11-13 | 一种瞬态噪声的检测方法、装置及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12057132B2 (zh) |
CN (1) | CN110838299B (zh) |
WO (1) | WO2021093807A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341347A (zh) * | 2020-03-11 | 2020-06-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法及相关设备 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
CN112613705A (zh) * | 2020-12-14 | 2021-04-06 | 中广核研究院有限公司 | 部件质量获取方法、装置、计算机设备和存储介质 |
WO2021093807A1 (zh) * | 2019-11-13 | 2021-05-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
CN113035223A (zh) * | 2021-03-12 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115985337A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1385150A1 (en) * | 2002-07-24 | 2004-01-28 | STMicroelectronics Asia Pacific Pte Ltd. | Method and system for parametric characterization of transient audio signals |
US20080183466A1 (en) * | 2007-01-30 | 2008-07-31 | Rajeev Nongpiur | Transient noise removal system using wavelets |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
US20160343385A1 (en) * | 2003-02-21 | 2016-11-24 | 2236008 Ontario, Inc. | Method and apparatus for suppressing wind noise |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013067714A1 (zh) * | 2011-11-12 | 2013-05-16 | Liv Runchun | 一种降低突发噪音的方法 |
FR3000328A1 (fr) * | 2012-12-21 | 2014-06-27 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
CN103117066B (zh) * | 2013-01-17 | 2015-04-15 | 杭州电子科技大学 | 基于时频瞬时能量谱的低信噪比语音端点检测方法 |
US9520141B2 (en) * | 2013-02-28 | 2016-12-13 | Google Inc. | Keyboard typing detection and suppression |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN105374367B (zh) * | 2014-07-29 | 2019-04-05 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN104157295B (zh) * | 2014-08-22 | 2018-03-09 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
US10049678B2 (en) * | 2014-10-06 | 2018-08-14 | Synaptics Incorporated | System and method for suppressing transient noise in a multichannel system |
JP6668372B2 (ja) * | 2015-02-26 | 2020-03-18 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 |
US10319390B2 (en) * | 2016-02-19 | 2019-06-11 | New York University | Method and system for multi-talker babble noise reduction |
WO2017197123A1 (en) * | 2016-05-11 | 2017-11-16 | Cornell University | Systems, methods and programs for denoising signals using wavelets |
CN110838299B (zh) * | 2019-11-13 | 2022-03-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
-
2019
- 2019-11-13 CN CN201911107575.2A patent/CN110838299B/zh active Active
-
2020
- 2020-11-12 WO PCT/CN2020/128372 patent/WO2021093807A1/zh active Application Filing
-
2022
- 2022-04-25 US US17/728,405 patent/US12057132B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1385150A1 (en) * | 2002-07-24 | 2004-01-28 | STMicroelectronics Asia Pacific Pte Ltd. | Method and system for parametric characterization of transient audio signals |
US20160343385A1 (en) * | 2003-02-21 | 2016-11-24 | 2236008 Ontario, Inc. | Method and apparatus for suppressing wind noise |
US20080183466A1 (en) * | 2007-01-30 | 2008-07-31 | Rajeev Nongpiur | Transient noise removal system using wavelets |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
Non-Patent Citations (1)
Title |
---|
孙鹏等: "瞬态信号检测方法的研究", 《舰船科学技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093807A1 (zh) * | 2019-11-13 | 2021-05-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
US12057132B2 (en) | 2019-11-13 | 2024-08-06 | Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. | Method, apparatus, and device for transient noise detection |
CN111341347A (zh) * | 2020-03-11 | 2020-06-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法及相关设备 |
CN111341347B (zh) * | 2020-03-11 | 2023-07-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法及相关设备 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
CN112613705A (zh) * | 2020-12-14 | 2021-04-06 | 中广核研究院有限公司 | 部件质量获取方法、装置、计算机设备和存储介质 |
CN113035223A (zh) * | 2021-03-12 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
CN113035223B (zh) * | 2021-03-12 | 2023-11-14 | 北京字节跳动网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115985337A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
CN115985337B (zh) * | 2023-03-20 | 2023-09-22 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US12057132B2 (en) | 2024-08-06 |
CN110838299B (zh) | 2022-03-25 |
WO2021093807A1 (zh) | 2021-05-20 |
US20220284909A1 (en) | 2022-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838299B (zh) | 一种瞬态噪声的检测方法、装置及设备 | |
CN110827852B (zh) | 一种有效语音信号的检测方法、装置及设备 | |
JP5068653B2 (ja) | 雑音のある音声信号を処理する方法および該方法を実行する装置 | |
CA2153170C (en) | Transmitted noise reduction in communications systems | |
US8073689B2 (en) | Repetitive transient noise removal | |
JP3484757B2 (ja) | 音声信号の雑音低減方法及び雑音区間検出方法 | |
EP2244254B1 (en) | Ambient noise compensation system robust to high excitation noise | |
JPH1074099A (ja) | 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 | |
US8326621B2 (en) | Repetitive transient noise removal | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
FR3012928A1 (fr) | Modificateurs reposant sur un snr estime exterieurement pour des calculs internes de mmse | |
CN107248411B (zh) | 丢帧补偿处理方法和装置 | |
KR20110068637A (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
EP2936488B1 (fr) | Atténuation efficace de pré-échos dans un signal audionumérique | |
CN111292758B (zh) | 语音活动检测方法及装置、可读存储介质 | |
EP2257034B1 (en) | Measuring double talk performance | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
EP3192073A1 (fr) | Discrimination et atténuation de pré-échos dans un signal audionumérique | |
JPH11265199A (ja) | 送話器 | |
KR101176207B1 (ko) | 음성통신 시스템 및 음성통신 방법 | |
CN108848435B (zh) | 一种音频信号的处理方法和相关装置 | |
KR102718917B1 (ko) | 음성 신호에서의 마찰음의 검출 | |
CN109346106B (zh) | 一种基于子带信噪比加权的倒谱域基音周期估计方法 | |
CN117037808A (zh) | 语音信号处理方法、装置、设备及存储介质 | |
Shah et al. | Robust pitch estimation using an event based adaptive gaussian derivative filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |