CN115346514A - 一种面向智能驾驶测评的音频预警智能识别方法 - Google Patents

一种面向智能驾驶测评的音频预警智能识别方法 Download PDF

Info

Publication number
CN115346514A
CN115346514A CN202210947191.7A CN202210947191A CN115346514A CN 115346514 A CN115346514 A CN 115346514A CN 202210947191 A CN202210947191 A CN 202210947191A CN 115346514 A CN115346514 A CN 115346514A
Authority
CN
China
Prior art keywords
voice
formula
speech
wavelet
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210947191.7A
Other languages
English (en)
Inventor
陈泽华
葛迅
袁奡
徐启敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210947191.7A priority Critical patent/CN115346514A/zh
Publication of CN115346514A publication Critical patent/CN115346514A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向智能驾驶测评的音频预警智能识别方法,该方法对采集到的音频预警语音进行分析,确定音频预警的发出时间,从而对音频预警的时效性进行公正评测。首先,通过软阈值小波降噪,将语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出音频预警信号所在的语音段,该语音段的起始位置就是音频预警的发出时间。

Description

一种面向智能驾驶测评的音频预警智能识别方法
技术领域
本发明涉及一种面向智能驾驶测评的音频预警智能识别方法,该方法对收集到的音频预警语音进行分析,确定音频预警的发出时间,从而对音频预警的时效性进行公正评测,属于智能驾驶测评领域。
背景技术
随着车辆智能化技术的飞速发展,越来越多的引导/预警功能可以有效辅助驾驶员,从而提高驾驶安全和通行效率,这些功能开始逐渐从工程开发走向落地应用。对预警类功能进行测试评价是其推广应用的前提,而对预警信号的准确识别是开展预警功能测评的关键。
智能车路系统测评场景中,语音预警信息的识别主要包括两个方面:一是预警语音的识别;二是预警时刻的判断。目前语音预警识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。
目前,对于上述应用尚未有一个完整的测评体系或测评设备,本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础数据,对数据高精度处理,分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。
发明内容
本发明提出了一种面向智能驾驶测评的音频预警智能识别方法,对麦克风采集到的音频,通过软阈值小波降噪,将录制的语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出目标语音(音频预警信号)所在的语音段,对语音识别的结果进行测评指标分析。具体步骤包括:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解。选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
Figure BDA0003786826340000021
其中j表示小波系数分解层数。cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c0(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n)。
接着对分解得到的小波系数进行阈值去噪。在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小。因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪。采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
Figure BDA0003786826340000022
其中
Figure BDA0003786826340000023
为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值。阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由
Figure BDA0003786826340000024
确定。通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
Figure BDA0003786826340000025
最后对去噪后的小波系数进行重构得到降噪语音X(n)。利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
Figure BDA0003786826340000026
其中
Figure BDA0003786826340000027
Figure BDA0003786826340000028
分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器。cj+1(n)为近似分量,从cJ(n)开始迭代;
Figure BDA0003786826340000031
为去噪后的细节分量系数。经过层层迭代后得到的
Figure BDA0003786826340000032
即为去噪后的语音信号X(n),至此小波去噪完成。
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧。以t秒为一帧(t一般可取20ms),对语音进行分帧,得到xi(n)。假设一段语音可以得到m帧。若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f。分帧可以看成对语音进行加窗,使用的窗口函数为矩形窗。
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测。
一帧语音信号的短时能量定义如式(4)所示:
Figure BDA0003786826340000033
一帧语音信号的短时过零率定义如式(5)所示:
Figure BDA0003786826340000034
其中
Figure BDA0003786826340000035
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth
Ehigh为一个较高的短时能量阈值,利用该阈值可以区分出语音的浊音部分。Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示。将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大。
Figure BDA0003786826340000036
Elow为一个较低的短时能量阈值,利用该阈值可以将能量较低的语音也选中,扩展语音段。Elow取前10帧短时能量均值与Ehigh
Figure BDA0003786826340000037
之和,其取值如式(7)所示。将短时能量大于Elow的语音段添加至语音段a,得到语音段b。
Figure BDA0003786826340000041
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示。将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c。
Figure BDA0003786826340000042
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即可完成语音段的端点检测,在待测语音中标注出效语音片段的起始点。
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音为s(n),提取流程如下。
(1)预加重。对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (30)
其中μ可取0.9~1.0,一般可取0.97。
(2)分帧。分帧选用端点检测过程中的分帧结果。
(3)加窗。对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (31)
其中,w(n)一般可取汉明窗,如式(11)所示,其中K为一帧中的采样点数量。
Figure BDA0003786826340000043
(4)离散傅里叶变化。对每一帧语音信号进行DFT,计算公式如式(12)。
Figure BDA0003786826340000044
(5)三角滤波器组。定义一组梅尔三角滤波器,一般滤波器数量T=26,滤波器定义如式(13):
Figure BDA0003786826340000051
其中f(m)的定义取值如式(14):
Figure BDA0003786826340000052
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率。floor(x)函数表示向下取整,K为一帧语音的采样点长度。
(6)计算滤波器输出的对数能量。将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
Figure BDA0003786826340000053
(7)离散余弦变化。将对数能量经过离散余弦变化,计算公式如式(16):
Figure BDA0003786826340000054
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,L一般可取13。
(8)动态差分参数。语音的静态特性可以用v(n)表示,而动态特性可以用其差分谱表示,计算公式如式(17)。
Figure BDA0003786826340000061
其中,Ω可取1或2。
Figure BDA0003786826340000062
即为一阶差分参数,一般也为13个系数。
将标准梅尔倒谱参数v(n)与一阶差分参数
Figure BDA0003786826340000063
合并为向量λ,λ即为语音片段s(n)的MFCC特征,为26维。
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练。
RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出。
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18)。其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项。
ft=σ(Wf·[ht-1,xt]+bf) (39)
输入门it与长时记忆候选态
Figure BDA0003786826340000064
决定在细胞状态中存储哪些信息,具体表达式如式(19)。Wi与WC为权重矩阵,bi与bC为偏置项。
Figure BDA0003786826340000065
更新细胞状态Ct,计算表达式如式(20)。
Figure BDA0003786826340000071
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21)。其中Wo为权重矩阵,bo为偏置项
Figure BDA0003786826340000072
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止。
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
附图说明
图1是音频预警识别总体流程图;
图2是小波分解系统框图;
图3是小波重构系统框图;
图4是端点检测流程图;
图5是MFCC特征提取流程图;
图6是LSTM循环体模型结构;
图7是搭建的LSTM网络结构图。
具体实施方式
随着车辆智能化技术的飞速发展,越来越多的引导/预警功能可以有效辅助驾驶员,从而提高驾驶安全和通行效率,这些功能开始逐渐从工程开发走向落地应用。对预警类功能进行测试评价是其推广应用的前提,而对预警信号的准确识别是开展预警功能测评的关键。
智能车路系统测评场景中,语音预警信息的识别主要包括两个方面:一是预警语音的识别;二是预警时刻的判断。目前对语音预警信息的识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。
目前,对于上述应用尚未有一个完整的测评体系或测评设备,本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础语音数据,结合汽车预警系统接口采集到的数据,在数据高精度处理的基础上,分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。具体步骤包括:
对麦克风采集到的音频,通过软阈值小波降噪,将录制的语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出目标语音(音频预警信号)所在的语音段,对语音识别的结果进行测评指标分析,总体流程图见图1。具体步骤包括:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解。选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
Figure BDA0003786826340000081
其中j表示小波系数分解层数。cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c0(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n)。小波分解的系统框图如图2所示,其中L与H分别表示低通滤波器与高通滤波器。
接着对分解得到的小波系数进行阈值去噪。在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小。因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪。采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
Figure BDA0003786826340000091
其中
Figure BDA0003786826340000092
为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值。阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由
Figure BDA0003786826340000093
确定。通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
Figure BDA0003786826340000094
最后对去噪后的小波系数进行重构得到降噪语音X(n)。利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
Figure BDA0003786826340000095
其中
Figure BDA0003786826340000096
Figure BDA0003786826340000097
分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器。cj+1(n)为近似分量,从cJ(n)开始迭代;
Figure BDA0003786826340000098
为去噪后的细节分量系数。小波重构的系统框图如图3所示。经过层层迭代后得到的
Figure BDA0003786826340000099
即为去噪后的语音信号X(n),至此小波去噪完成。
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧。以t秒为一帧(t一般可取20ms),对语音进行分帧,得到xi(n)。假设一段语音可以得到m帧。若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f。分帧可以看成对语音进行加窗,使用的窗口函数为矩形窗。
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测。
一帧语音信号的短时能量定义如式(4)所示:
Figure BDA00037868263400000910
一帧语音信号的短时过零率定义如式(5)所示:
Figure BDA0003786826340000101
其中
Figure BDA0003786826340000102
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth
Ehigh为一个较高的短时能量阈值,利用该阈值可以区分出语音的浊音部分。Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示。将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大。
Figure BDA0003786826340000103
Elow为一个较低的短时能量阈值,利用该阈值可以将能量较低的语音也选中,扩展语音段。Elow取前10帧短时能量均值与Ehigh
Figure BDA0003786826340000104
之和,其取值如式(7)所示。将短时能量大于Elow的语音段添加至语音段a,得到语音段b。
Figure BDA0003786826340000105
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示。将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c。
Figure BDA0003786826340000106
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即可完成语音段的端点检测,在待测语音中标注出效语音片段的起始点。
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音片段为s(n),提取流程如下。
(1)预加重。对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (51)
其中μ可取0.9~1.0,一般可取0.97。
(2)分帧。分帧选用端点检测过程中的分帧结果。
(3)加窗。对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (52)
其中,w(n)一般可取汉明窗,如式(11)所示,其中K为一帧中的采样点数量。
Figure BDA0003786826340000111
(4)离散傅里叶变化。对每一帧语音信号进行DFT,计算公式如式(12)。
Figure BDA0003786826340000112
(5)三角滤波器组。定义一组梅尔三角滤波器,一般滤波器数量T=26,滤波器定义如式(13):
Figure BDA0003786826340000113
其中f(m)的定义取值如式(14):
Figure BDA0003786826340000114
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率。floor(x)函数表示向下取整,K为一帧语音的采样点长度。
(6)计算滤波器输出的对数能量。将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
Figure BDA0003786826340000121
(7)离散余弦变化。将对数能量经过离散余弦变化,计算公式如式(16):
Figure BDA0003786826340000122
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,L一般可取13。
(8)动态差分参数。语音的静态特性可以用v(n)表示,而动态特性可以用其差分谱表示,计算公式如式(17)。
Figure BDA0003786826340000123
其中,Ω可取1或2。
Figure BDA0003786826340000124
即为一阶差分参数,一般也为13个系数。
将标准梅尔倒谱参数v(n)与一阶差分参数
Figure BDA0003786826340000125
合并为向量λ,λ即为语音片段s(n)的MFCC特征,为26维。
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练。
RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出,如图7所示。
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18)。其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项。
ft=σ(Wf·[ht-1,xt]+bf) (60)
输入门it与长时记忆候选态
Figure BDA0003786826340000131
决定在细胞状态中存储哪些信息,具体表达式如式(19)。Wi与WC为权重矩阵,bi与bC为偏置项。
Figure BDA0003786826340000132
更新细胞状态Ct,计算表达式如式(20)。
Figure BDA0003786826340000133
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21)。其中Wo为权重矩阵,bo为偏置项
Figure BDA0003786826340000134
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止。
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。

Claims (1)

1.一种面向智能驾驶测评的音频预警智能识别方法,其特征在于:包括以下步骤:
步骤1:基于小波变换的阈值去噪
首先,对原始语音信号S(n)进行离散小波分解;选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cj(n)和细节分量的小波系数dj(n),具体表达式如式(1)所示:
Figure FDA0003786826330000011
其中j表示小波系数分解层数;cj+1(m)表示近似小波系数cj+1(n)的第m个值,dj+1(m)表示细节小波系数dj+1(n)的第m个值;l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数;式(1)中的c0(n)即为原始语音信号S(n);通过式(1)的计算得到近似分量cJ(n)与不同尺度下的细节分量d1(n),d2(n),……,dJ(n);
接着对分解得到的小波系数进行阈值去噪;在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小;因此将近似分量cJ(n)保留,对细节分量d1(n),d2(n),……,dJ(n)进行阈值降噪;采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式(2)所示:
Figure FDA0003786826330000012
其中
Figure FDA0003786826330000013
为更新后的细节分量系数,dj(n)为原始细节分量系数,λ为去噪阈值;阈值λ由公式λ=σ(0.3936+0.1829×log2 N)确定,N为原始信号S(n)的长度,σ由
Figure FDA0003786826330000014
确定;通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数
Figure FDA0003786826330000015
最后对去噪后的小波系数进行重构得到降噪语音X(n);利用阈值去噪后的小波系数进行重构,小波重构表达式如式(3)所示:
Figure FDA0003786826330000021
其中
Figure FDA0003786826330000022
Figure FDA0003786826330000023
分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为l(n)与h(n)的镜像滤波器;cj+1(n)为近似分量,从cJ(n)开始迭代;
Figure FDA0003786826330000024
为去噪后的细节分量系数;经过层层迭代后得到的
Figure FDA0003786826330000025
即为去噪后的语音信号X(n),至此小波去噪完成;
步骤2:基于双门限的语音端点检测
首先对降噪得到的语音X(n)进行分帧;以t秒为一帧,t取20ms,对语音进行分帧,得到xi(n);假设一段语音得到m帧;若语音X(n)的采样频率为f,则一帧语音的采样点数量为K=t×f;分帧看成对语音进行加窗,使用的窗口函数为矩形窗;
现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测;
一帧语音信号的短时能量定义如式(4)所示:
Figure FDA0003786826330000026
一帧语音信号的短时过零率定义如式(5)所示:
Figure FDA0003786826330000027
其中
Figure FDA0003786826330000028
接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth
Ehigh为一个较高的短时能量阈值,利用该阈值区分出语音的浊音部分;Ehigh取所有帧的短时能量平均值的一半,其取值如式(6)所示;将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大;
Figure FDA0003786826330000031
Elow为一个较低的短时能量阈值,利用该阈值将能量较低的语音也选中,扩展语音段;Elow取前10帧短时能量均值与Ehigh
Figure FDA0003786826330000032
之和,其取值如式(7)所示;将短时能量大于Elow的语音段添加至语音段a,得到语音段b;
Figure FDA0003786826330000033
Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式(8)所示;将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c;
Figure FDA0003786826330000034
将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即完成语音段的端点检测,在待测语音中标注出效语音片段的起始点;
步骤3:提取语音MFCC特征
对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音片段为s(n),提取流程如下;
(1)预加重,对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式(9)所示:
s′(n)=s(n)-μs(n-1) (9)
其中μ取0.9~1.0,优选取0.97;
(2)分帧,分帧选用端点检测过程中的分帧结果;
(3)加窗,对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式(10)所示:
g(n)=s′(n)×w(n) (10)
其中,w(n)取汉明窗,如式(11)所示,其中K为一帧中的采样点数量;
Figure FDA0003786826330000041
(4)离散傅里叶变化,对每一帧语音信号进行DFT,计算公式如式(12):
Figure FDA0003786826330000042
(5)三角滤波器组,定义一组梅尔三角滤波器,滤波器数量T=26,滤波器定义如式(13):
Figure FDA0003786826330000043
其中f(m)的定义取值如式(14):
Figure FDA0003786826330000044
式(14)中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率;floor(x)函数表示向下取整,K为一帧语音的采样点长度;
(6)计算滤波器输出的对数能量,将经过DFT得到的G(k)经过梅尔三角滤波器组,并得到其对数能量,计算公式如式(15):
Figure FDA0003786826330000045
(7)离散余弦变化,将对数能量经过离散余弦变化,计算公式如式(16):
Figure FDA0003786826330000046
其中,T为梅尔三角滤波器的数量,L表示得到的v(n)为L阶MFCC系数,取13;
(8)动态差分参数;语音的静态特性用v(n)表示,而动态特性用其差分谱表示,计算公式如式(17):
Figure FDA0003786826330000051
其中,Ω取1或2;
Figure FDA0003786826330000052
即为一阶差分参数,也为13个系数;
将标准梅尔倒谱参数v(n)与一阶差分参数
Figure FDA0003786826330000053
合并为向量λ,λ即为语音片段s(n)的MFCC特征,为26维;
步骤4:基于RNN的语音识别
对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练;
RNN采用单层LSTM结构;输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出;
LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot
遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式(18);其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项;
ft=σ(Wf·[ht-1,xt]+bf) (18)
输入门it与长时记忆候选态
Figure FDA0003786826330000054
决定在细胞状态中存储哪些信息,具体表达式如式(19);Wi与WC为权重矩阵,bi与bC为偏置项;
Figure FDA0003786826330000061
更新细胞状态Ct,计算表达式如式(20):
Figure FDA0003786826330000062
基于细胞状态Ct与输出门ot输出ht,计算表达式如式(21);其中Wo为权重矩阵,bo为偏置项
Figure FDA0003786826330000063
设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止;
利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
CN202210947191.7A 2022-08-08 2022-08-08 一种面向智能驾驶测评的音频预警智能识别方法 Pending CN115346514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210947191.7A CN115346514A (zh) 2022-08-08 2022-08-08 一种面向智能驾驶测评的音频预警智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210947191.7A CN115346514A (zh) 2022-08-08 2022-08-08 一种面向智能驾驶测评的音频预警智能识别方法

Publications (1)

Publication Number Publication Date
CN115346514A true CN115346514A (zh) 2022-11-15

Family

ID=83949956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210947191.7A Pending CN115346514A (zh) 2022-08-08 2022-08-08 一种面向智能驾驶测评的音频预警智能识别方法

Country Status (1)

Country Link
CN (1) CN115346514A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862530A (zh) * 2023-06-25 2023-10-10 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862530A (zh) * 2023-06-25 2023-10-10 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统
CN116862530B (zh) * 2023-06-25 2024-04-05 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统

Similar Documents

Publication Publication Date Title
Alim et al. Some commonly used speech feature extraction algorithms
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
US9020816B2 (en) Hidden markov model for speech processing with training method
CN110310666B (zh) 一种基于se卷积网络的乐器识别方法及系统
US20070088548A1 (en) Device, method, and computer program product for determining speech/non-speech
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
JP5922263B2 (ja) 特定の対象音を検出するシステム及び方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN109300470B (zh) 混音分离方法和混音分离装置
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
Kim et al. Hierarchical approach for abnormal acoustic event classification in an elevator
EP3504708B1 (en) A device and method for classifying an acoustic environment
Al-Kaltakchi et al. Thorough evaluation of TIMIT database speaker identification performance under noise with and without the G. 712 type handset
CN112541533A (zh) 一种基于神经网络与特征融合的改装车识别方法
CN115346514A (zh) 一种面向智能驾驶测评的音频预警智能识别方法
CN116741148A (zh) 一种基于数字孪生的语音识别系统
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
CN115273904A (zh) 一种基于多特征融合的愤怒情绪识别方法及装置
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN109903749B (zh) 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN117457031A (zh) 基于语音全局声学特征和局部频谱特征的情绪识别方法
CN113555038A (zh) 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN113345443A (zh) 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
Sobreira-Seoane et al. Automatic classification of traffic noise
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination