CN115346514A - 一种面向智能驾驶测评的音频预警智能识别方法 - Google Patents
一种面向智能驾驶测评的音频预警智能识别方法 Download PDFInfo
- Publication number
- CN115346514A CN115346514A CN202210947191.7A CN202210947191A CN115346514A CN 115346514 A CN115346514 A CN 115346514A CN 202210947191 A CN202210947191 A CN 202210947191A CN 115346514 A CN115346514 A CN 115346514A
- Authority
- CN
- China
- Prior art keywords
- voice
- formula
- speech
- wavelet
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 38
- 238000000354 decomposition reaction Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000010410 layer Substances 0.000 claims description 15
- 238000009432 framing Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims 1
- 238000012795 verification Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种面向智能驾驶测评的音频预警智能识别方法,该方法对采集到的音频预警语音进行分析,确定音频预警的发出时间,从而对音频预警的时效性进行公正评测。首先,通过软阈值小波降噪,将语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出音频预警信号所在的语音段,该语音段的起始位置就是音频预警的发出时间。
Description
技术领域
本发明涉及一种面向智能驾驶测评的音频预警智能识别方法,该方法对收集到的音频预警语音进行分析,确定音频预警的发出时间,从而对音频预警的时效性进行公正评测,属于智能驾驶测评领域。
背景技术
随着车辆智能化技术的飞速发展,越来越多的引导/预警功能可以有效辅助驾驶员,从而提高驾驶安全和通行效率,这些功能开始逐渐从工程开发走向落地应用。对预警类功能进行测试评价是其推广应用的前提,而对预警信号的准确识别是开展预警功能测评的关键。
智能车路系统测评场景中,语音预警信息的识别主要包括两个方面:一是预警语音的识别;二是预警时刻的判断。目前语音预警识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。
目前,对于上述应用尚未有一个完整的测评体系或测评设备,本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础数据,对数据高精度处理,分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。
发明内容
本发明提出了一种面向智能驾驶测评的音频预警智能识别方法,对麦克风采集到的音频,通过软阈值小波降噪,将录制的语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出目标语音(音频预警信号)所在的语音段,对语音识别的结果进行测评指标分析。具体步骤包括:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解。选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
其中j表示小波系数分解层数。cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c0(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n)。
接着对分解得到的小波系数进行阈值去噪。在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小。因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪。采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
其中为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值。阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由确定。通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
最后对去噪后的小波系数进行重构得到降噪语音X(n)。利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
其中与分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器。cj+1(n)为近似分量,从cJ(n)开始迭代;为去噪后的细节分量系数。经过层层迭代后得到的即为去噪后的语音信号X(n),至此小波去噪完成。
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧。以t秒为一帧(t一般可取20ms),对语音进行分帧,得到xi(n)。假设一段语音可以得到m帧。若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f。分帧可以看成对语音进行加窗,使用的窗口函数为矩形窗。
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测。
一帧语音信号的短时能量定义如式(4)所示:
一帧语音信号的短时过零率定义如式(5)所示:
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth。
Ehigh为一个较高的短时能量阈值,利用该阈值可以区分出语音的浊音部分。Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示。将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大。
Elow为一个较低的短时能量阈值,利用该阈值可以将能量较低的语音也选中,扩展语音段。Elow取前10帧短时能量均值与Ehigh的之和,其取值如式(7)所示。将短时能量大于Elow的语音段添加至语音段a,得到语音段b。
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示。将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c。
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即可完成语音段的端点检测,在待测语音中标注出效语音片段的起始点。
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音为s(n),提取流程如下。
(1)预加重。对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (30)
其中μ可取0.9~1.0,一般可取0.97。
(2)分帧。分帧选用端点检测过程中的分帧结果。
(3)加窗。对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (31)
其中,w(n)一般可取汉明窗,如式(11)所示,其中K为一帧中的采样点数量。
(4)离散傅里叶变化。对每一帧语音信号进行DFT,计算公式如式(12)。
(5)三角滤波器组。定义一组梅尔三角滤波器,一般滤波器数量T=26,滤波器定义如式(13):
其中f(m)的定义取值如式(14):
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率。floor(x)函数表示向下取整,K为一帧语音的采样点长度。
(6)计算滤波器输出的对数能量。将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
(7)离散余弦变化。将对数能量经过离散余弦变化,计算公式如式(16):
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,L一般可取13。
(8)动态差分参数。语音的静态特性可以用v(n)表示,而动态特性可以用其差分谱表示,计算公式如式(17)。
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练。
RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出。
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot。
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18)。其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项。
ft=σ(Wf·[ht-1,xt]+bf) (39)
更新细胞状态Ct,计算表达式如式(20)。
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21)。其中Wo为权重矩阵,bo为偏置项
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止。
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
附图说明
图1是音频预警识别总体流程图;
图2是小波分解系统框图;
图3是小波重构系统框图;
图4是端点检测流程图;
图5是MFCC特征提取流程图;
图6是LSTM循环体模型结构;
图7是搭建的LSTM网络结构图。
具体实施方式
随着车辆智能化技术的飞速发展,越来越多的引导/预警功能可以有效辅助驾驶员,从而提高驾驶安全和通行效率,这些功能开始逐渐从工程开发走向落地应用。对预警类功能进行测试评价是其推广应用的前提,而对预警信号的准确识别是开展预警功能测评的关键。
智能车路系统测评场景中,语音预警信息的识别主要包括两个方面:一是预警语音的识别;二是预警时刻的判断。目前对语音预警信息的识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。
目前,对于上述应用尚未有一个完整的测评体系或测评设备,本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础语音数据,结合汽车预警系统接口采集到的数据,在数据高精度处理的基础上,分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。具体步骤包括:
对麦克风采集到的音频,通过软阈值小波降噪,将录制的语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出目标语音(音频预警信号)所在的语音段,对语音识别的结果进行测评指标分析,总体流程图见图1。具体步骤包括:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解。选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
其中j表示小波系数分解层数。cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c0(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n)。小波分解的系统框图如图2所示,其中L与H分别表示低通滤波器与高通滤波器。
接着对分解得到的小波系数进行阈值去噪。在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小。因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪。采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
其中为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值。阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由确定。通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
最后对去噪后的小波系数进行重构得到降噪语音X(n)。利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
其中与分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器。cj+1(n)为近似分量,从cJ(n)开始迭代;为去噪后的细节分量系数。小波重构的系统框图如图3所示。经过层层迭代后得到的即为去噪后的语音信号X(n),至此小波去噪完成。
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧。以t秒为一帧(t一般可取20ms),对语音进行分帧,得到xi(n)。假设一段语音可以得到m帧。若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f。分帧可以看成对语音进行加窗,使用的窗口函数为矩形窗。
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测。
一帧语音信号的短时能量定义如式(4)所示:
一帧语音信号的短时过零率定义如式(5)所示:
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth。
Ehigh为一个较高的短时能量阈值,利用该阈值可以区分出语音的浊音部分。Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示。将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大。
Elow为一个较低的短时能量阈值,利用该阈值可以将能量较低的语音也选中,扩展语音段。Elow取前10帧短时能量均值与Ehigh的之和,其取值如式(7)所示。将短时能量大于Elow的语音段添加至语音段a,得到语音段b。
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示。将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c。
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即可完成语音段的端点检测,在待测语音中标注出效语音片段的起始点。
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音片段为s(n),提取流程如下。
(1)预加重。对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (51)
其中μ可取0.9~1.0,一般可取0.97。
(2)分帧。分帧选用端点检测过程中的分帧结果。
(3)加窗。对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (52)
其中,w(n)一般可取汉明窗,如式(11)所示,其中K为一帧中的采样点数量。
(4)离散傅里叶变化。对每一帧语音信号进行DFT,计算公式如式(12)。
(5)三角滤波器组。定义一组梅尔三角滤波器,一般滤波器数量T=26,滤波器定义如式(13):
其中f(m)的定义取值如式(14):
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率。floor(x)函数表示向下取整,K为一帧语音的采样点长度。
(6)计算滤波器输出的对数能量。将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
(7)离散余弦变化。将对数能量经过离散余弦变化,计算公式如式(16):
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,L一般可取13。
(8)动态差分参数。语音的静态特性可以用v(n)表示,而动态特性可以用其差分谱表示,计算公式如式(17)。
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练。
RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出,如图7所示。
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot。
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18)。其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项。
ft=σ(Wf·[ht-1,xt]+bf) (60)
更新细胞状态Ct,计算表达式如式(20)。
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21)。其中Wo为权重矩阵,bo为偏置项
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止。
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
Claims (1)
1.一种面向智能驾驶测评的音频预警智能识别方法,其特征在于:包括以下步骤:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解;选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
其中j表示小波系数分解层数;cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值;l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数;式(1)中的c0(n)即为原始语音信号S(n);通过式(1)的计算得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n);
接着对分解得到的小波系数进行阈值去噪;在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小;因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪;采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
其中为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值;阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由确定;通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
最后对去噪后的小波系数进行重构得到降噪语音X(n);利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
其中与分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器;cj+1(n)为近似分量,从cJ(n)开始迭代;为去噪后的细节分量系数;经过层层迭代后得到的即为去噪后的语音信号X(n),至此小波去噪完成;
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧;以t秒为一帧,t取20ms,对语音进行分帧,得到xi(n);假设一段语音得到m帧;若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f;分帧看成对语音进行加窗,使用的窗口函数为矩形窗;
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测;
一帧语音信号的短时能量定义如式(4)所示:
一帧语音信号的短时过零率定义如式(5)所示:
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth;
Ehigh为一个较高的短时能量阈值,利用该阈值区分出语音的浊音部分;Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示;将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大;
Elow为一个较低的短时能量阈值,利用该阈值将能量较低的语音也选中,扩展语音段;Elow取前10帧短时能量均值与Ehigh的之和,其取值如式(7)所示;将短时能量大于Elow的语音段添加至语音段a,得到语音段b;
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示;将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c;
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即完成语音段的端点检测,在待测语音中标注出效语音片段的起始点;
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音片段为s(n),提取流程如下;
(1)预加重,对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (9)
其中μ取0.9~1.0,优选取0.97;
(2)分帧,分帧选用端点检测过程中的分帧结果;
(3)加窗,对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (10)
其中,w(n)取汉明窗,如式(11)所示,其中K为一帧中的采样点数量;
(4)离散傅里叶变化,对每一帧语音信号进行DFT,计算公式如式(12):
(5)三角滤波器组,定义一组梅尔三角滤波器,滤波器数量T=26,滤波器定义如式(13):
其中f(m)的定义取值如式(14):
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率;floor(x)函数表示向下取整,K为一帧语音的采样点长度;
(6)计算滤波器输出的对数能量,将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
(7)离散余弦变化,将对数能量经过离散余弦变化,计算公式如式(16):
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,取13;
(8)动态差分参数;语音的静态特性用v(n)表示,而动态特性用其差分谱表示,计算公式如式(17):
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练;
RNN采用单层LSTM结构;输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出;
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot;
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18);其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项;
ft=σ(Wf·[ht-1,xt]+bf) (18)
更新细胞状态Ct,计算表达式如式(20):
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21);其中Wo为权重矩阵,bo为偏置项
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止;
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210947191.7A CN115346514A (zh) | 2022-08-08 | 2022-08-08 | 一种面向智能驾驶测评的音频预警智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210947191.7A CN115346514A (zh) | 2022-08-08 | 2022-08-08 | 一种面向智能驾驶测评的音频预警智能识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115346514A true CN115346514A (zh) | 2022-11-15 |
Family
ID=83949956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210947191.7A Pending CN115346514A (zh) | 2022-08-08 | 2022-08-08 | 一种面向智能驾驶测评的音频预警智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346514A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862530A (zh) * | 2023-06-25 | 2023-10-10 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和系统 |
-
2022
- 2022-08-08 CN CN202210947191.7A patent/CN115346514A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862530A (zh) * | 2023-06-25 | 2023-10-10 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和系统 |
CN116862530B (zh) * | 2023-06-25 | 2024-04-05 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alim et al. | Some commonly used speech feature extraction algorithms | |
CN110120218B (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
US9020816B2 (en) | Hidden markov model for speech processing with training method | |
CN110310666B (zh) | 一种基于se卷积网络的乐器识别方法及系统 | |
US20070088548A1 (en) | Device, method, and computer program product for determining speech/non-speech | |
CN109346087B (zh) | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 | |
JP5922263B2 (ja) | 特定の対象音を検出するシステム及び方法 | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
Kim et al. | Hierarchical approach for abnormal acoustic event classification in an elevator | |
EP3504708B1 (en) | A device and method for classifying an acoustic environment | |
Al-Kaltakchi et al. | Thorough evaluation of TIMIT database speaker identification performance under noise with and without the G. 712 type handset | |
CN112541533A (zh) | 一种基于神经网络与特征融合的改装车识别方法 | |
CN115346514A (zh) | 一种面向智能驾驶测评的音频预警智能识别方法 | |
CN116741148A (zh) | 一种基于数字孪生的语音识别系统 | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN109903749B (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN117457031A (zh) | 基于语音全局声学特征和局部频谱特征的情绪识别方法 | |
CN113555038A (zh) | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
Sobreira-Seoane et al. | Automatic classification of traffic noise | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |