CN115346514A

CN115346514A - 一种面向智能驾驶测评的音频预警智能识别方法

Info

Publication number: CN115346514A
Application number: CN202210947191.7A
Authority: CN
Inventors: 陈泽华; 葛迅; 袁奡; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-15

Abstract

本发明公开了一种面向智能驾驶测评的音频预警智能识别方法，该方法对采集到的音频预警语音进行分析，确定音频预警的发出时间，从而对音频预警的时效性进行公正评测。首先，通过软阈值小波降噪，将语音中的噪声信息滤除；接着，使用基于双门限法的端点检测，标注出待测语音中的有效语音段；然后，对有效语音段的每帧语音提取MFCC特征；最后，用MFCC特征对LSTM网络进行训练，训练完成后可以检测出音频预警信号所在的语音段，该语音段的起始位置就是音频预警的发出时间。

Description

一种面向智能驾驶测评的音频预警智能识别方法

技术领域

本发明涉及一种面向智能驾驶测评的音频预警智能识别方法，该方法对收集到的音频预警语音进行分析，确定音频预警的发出时间，从而对音频预警的时效性进行公正评测，属于智能驾驶测评领域。

背景技术

随着车辆智能化技术的飞速发展，越来越多的引导/预警功能可以有效辅助驾驶员，从而提高驾驶安全和通行效率，这些功能开始逐渐从工程开发走向落地应用。对预警类功能进行测试评价是其推广应用的前提，而对预警信号的准确识别是开展预警功能测评的关键。

智能车路系统测评场景中，语音预警信息的识别主要包括两个方面：一是预警语音的识别；二是预警时刻的判断。目前语音预警识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。

目前，对于上述应用尚未有一个完整的测评体系或测评设备，本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础数据，对数据高精度处理，分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。

发明内容

本发明提出了一种面向智能驾驶测评的音频预警智能识别方法，对麦克风采集到的音频，通过软阈值小波降噪，将录制的语音中的噪声信息滤除；接着，使用基于双门限法的端点检测，标注出待测语音中的有效语音段；然后，对有效语音段的每帧语音提取MFCC特征；最后，用MFCC特征对LSTM网络进行训练，训练完成后可以检测出目标语音(音频预警信号)所在的语音段，对语音识别的结果进行测评指标分析。具体步骤包括：

步骤1：基于小波变换的阈值去噪

首先，对原始语音信号S(n)进行离散小波分解。选取N阶Daubechies小波系作为小波基函数，简记为dbN；对语音信号进行J层小波分解，得到近似分量的小波系数c_j(n)和细节分量的小波系数d_j(n)，具体表达式如式(1)所示：

其中j表示小波系数分解层数。c_j+1(m)表示近似小波系数c_j+1(n)的第m个值，d_j+1(m)表示细节小波系数d_j+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c₀(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量c_J(n)与不同尺度下的细节分量d₁(n)，d₂(n)，……，d_J(n)。

接着对分解得到的小波系数进行阈值去噪。在小波域中，有效信号所对应的小波系数的模值往往较大；而噪声在时间域中具有随机性，在小波域中其对应的小波系数的模值往往较小。因此将近似分量c_J(n)保留，对细节分量d₁(n)，d₂(n)，……，d_J(n)进行阈值降噪。采用软阈值函数来对细节分量系数进行更新，软阈值函数表达式如式(2)所示：

其中

为更新后的细节分量系数，d_j(n)为原始细节分量系数，λ为去噪阈值。阈值λ由公式λ＝σ(0.3936+0.1829×log₂ N)确定，N为原始信号S(n)的长度，σ由

确定。通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数

最后对去噪后的小波系数进行重构得到降噪语音X(n)。利用阈值去噪后的小波系数进行重构，小波重构表达式如式(3)所示：

其中

与

分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数，为l(n)与h(n)的镜像滤波器。c_j+1(n)为近似分量，从c_J(n)开始迭代；

为去噪后的细节分量系数。经过层层迭代后得到的

即为去噪后的语音信号X(n)，至此小波去噪完成。

步骤2：基于双门限的语音端点检测

首先对降噪得到的语音X(n)进行分帧。以t秒为一帧(t一般可取20ms)，对语音进行分帧，得到x_i(n)。假设一段语音可以得到m帧。若语音X(n)的采样频率为f，则一帧语音的采样点数量为K＝t×f。分帧可以看成对语音进行加窗，使用的窗口函数为矩形窗。

现对每帧语音定义两个语音特征量：短时能量与短时过零率，再用这两个语音特征量进行端点检测。

一帧语音信号的短时能量定义如式(4)所示：

一帧语音信号的短时过零率定义如式(5)所示：

其中

接着，定义两个短时能量阈值E_high与E_low，和一个短时过零率阈值Z_th。

E_high为一个较高的短时能量阈值，利用该阈值可以区分出语音的浊音部分。E_high取所有帧的短时能量平均值的一半，其取值如式(6)所示。将短时能量大于E_high的帧选中判定为语音段a，这部分语音主要为浊音，短时能量较大。

E_low为一个较低的短时能量阈值，利用该阈值可以将能量较低的语音也选中，扩展语音段。E_low取前10帧短时能量均值与E_high的

之和，其取值如式(7)所示。将短时能量大于E_low的语音段添加至语音段a，得到语音段b。

Z_th为短时过零率的阈值，其取值为前10帧短时过零率之和的三倍，如式(8)所示。将短时过零率大于Z_th的清音部分添加至语音段b，得到语音段c。

将语音段c中帧数较少的部分剔除，剩余选中片段即为语音片段，即可完成语音段的端点检测，在待测语音中标注出效语音片段的起始点。

步骤3：提取语音MFCC特征

对端点检测后得到的有效语音片段提取MFCC特征，假设某一段语音为s(n)，提取流程如下。

(1)预加重。对语音片段进行预加重，提升高频部分，使信号的频谱变得平坦，计算公式如式(9)所示：

s′(n)＝s(n)-μs(n-1) (30)

其中μ可取0.9～1.0，一般可取0.97。

(2)分帧。分帧选用端点检测过程中的分帧结果。

(3)加窗。对每一帧语音进行加窗，提高帧左右端的连续性，其计算公式如式(10)所示：

g(n)＝s′(n)×w(n) (31)

其中，w(n)一般可取汉明窗，如式(11)所示，其中K为一帧中的采样点数量。

(4)离散傅里叶变化。对每一帧语音信号进行DFT，计算公式如式(12)。

(5)三角滤波器组。定义一组梅尔三角滤波器，一般滤波器数量T＝26，滤波器定义如式(13)：

其中f(m)的定义取值如式(14)：

式(14)中的f_l与f_h为根据语音采样频率f_s定义的最低与最高频率，f_mel为梅尔频率。floor(x)函数表示向下取整，K为一帧语音的采样点长度。

(6)计算滤波器输出的对数能量。将经过DFT得到的G(k)经过梅尔三角滤波器组，并得到其对数能量，计算公式如式(15)：

(7)离散余弦变化。将对数能量经过离散余弦变化，计算公式如式(16)：

其中，T为梅尔三角滤波器的数量，L表示得到的v(n)为L阶MFCC系数，L一般可取13。

(8)动态差分参数。语音的静态特性可以用v(n)表示，而动态特性可以用其差分谱表示，计算公式如式(17)。

其中，Ω可取1或2。

即为一阶差分参数，一般也为13个系数。

将标准梅尔倒谱参数v(n)与一阶差分参数

合并为向量λ，λ即为语音片段s(n)的MFCC特征，为26维。

步骤4：基于RNN的语音识别

对步骤3得到的MFCC特征进行标签标注，分为两大类：含目标语音与不含目标语音，并且按照4：1的比例随机分派给训练集和验证集，使用循环神经网络进行训练。

RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征，LSTM网络隐藏单元的维度设置为40，最后经过全连接层，通过softmax函数分类输出。

LSTM模型通过细胞状态C_t来记录长时记忆，通过隐藏层状态h_t来记录短时记忆，包含有三个“门”：遗忘门f_t，输入门i_t与输出门o_t。

遗忘门f_t决定从细胞状态中丢弃哪些信息，由h_t-1与x_t输出，计算表达如式(18)。其中σ表示sigmoid函数，W_f为权重矩阵，b_f为偏置项。

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (39)

输入门i_t与长时记忆候选态

决定在细胞状态中存储哪些信息，具体表达式如式(19)。W_i与W_C为权重矩阵，b_i与b_C为偏置项。

更新细胞状态C_t，计算表达式如式(20)。

基于细胞状态C_t与输出门o_t输出h_t，计算表达式如式(21)。其中W_o为权重矩阵，b_o为偏置项

设置好LSTM网络结构后，权重矩阵选择正交初始化，偏置项选择零初始化，使用BPTT更新策略进行训练，直至网络参数收敛为止。

利用训练好的神经网络模型对待测语音的MFCC特征进行判别，判断哪一段语音含有目标语音，该语音分段的起始位置就是音频预警的发出时间。

附图说明

图1是音频预警识别总体流程图；

图2是小波分解系统框图；

图3是小波重构系统框图；

图4是端点检测流程图；

图5是MFCC特征提取流程图；

图6是LSTM循环体模型结构；

图7是搭建的LSTM网络结构图。

具体实施方式

智能车路系统测评场景中，语音预警信息的识别主要包括两个方面：一是预警语音的识别；二是预警时刻的判断。目前对语音预警信息的识别只能依靠人工识别或者阈值标定的方法确定报警语音发出的时刻。

目前，对于上述应用尚未有一个完整的测评体系或测评设备，本发明方法的目的在于为上述测评提供一种方法。利用麦克风传感器获取测评所需的基础语音数据，结合汽车预警系统接口采集到的数据，在数据高精度处理的基础上，分析得到测评结果。测评主要判断系统能否及时发出音频预警消息。具体步骤包括：

对麦克风采集到的音频，通过软阈值小波降噪，将录制的语音中的噪声信息滤除；接着，使用基于双门限法的端点检测，标注出待测语音中的有效语音段；然后，对有效语音段的每帧语音提取MFCC特征；最后，用MFCC特征对LSTM网络进行训练，训练完成后可以检测出目标语音(音频预警信号)所在的语音段，对语音识别的结果进行测评指标分析，总体流程图见图1。具体步骤包括：

步骤1：基于小波变换的阈值去噪

其中j表示小波系数分解层数。c_j+1(m)表示近似小波系数c_j+1(n)的第m个值，d_j+1(m)表示细节小波系数d_j+1(n)的第m个值。l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数。式(1)中的c₀(n)即为原始语音信号S(n)。通过式(1)的计算可以得到近似分量c_J(n)与不同尺度下的细节分量d₁(n)，d₂(n)，……，d_J(n)。小波分解的系统框图如图2所示，其中L与H分别表示低通滤波器与高通滤波器。

其中

其中

与

为去噪后的细节分量系数。小波重构的系统框图如图3所示。经过层层迭代后得到的

即为去噪后的语音信号X(n)，至此小波去噪完成。

步骤2：基于双门限的语音端点检测

一帧语音信号的短时能量定义如式(4)所示：

一帧语音信号的短时过零率定义如式(5)所示：

其中

步骤3：提取语音MFCC特征

对端点检测后得到的有效语音片段提取MFCC特征，假设某一段语音片段为s(n)，提取流程如下。

s′(n)＝s(n)-μs(n-1) (51)

其中μ可取0.9～1.0，一般可取0.97。

(2)分帧。分帧选用端点检测过程中的分帧结果。

g(n)＝s′(n)×w(n) (52)

其中f(m)的定义取值如式(14)：

其中，Ω可取1或2。

即为一阶差分参数，一般也为13个系数。

将标准梅尔倒谱参数v(n)与一阶差分参数

合并为向量λ，λ即为语音片段s(n)的MFCC特征，为26维。

步骤4：基于RNN的语音识别

RNN采用单层LSTM结构。输入为步骤3得到的26维MFCC语音特征，LSTM网络隐藏单元的维度设置为40，最后经过全连接层，通过softmax函数分类输出，如图7所示。

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (60)

输入门i_t与长时记忆候选态

更新细胞状态C_t，计算表达式如式(20)。

Claims

1.一种面向智能驾驶测评的音频预警智能识别方法，其特征在于：包括以下步骤：

步骤1：基于小波变换的阈值去噪

首先，对原始语音信号S(n)进行离散小波分解；选取N阶Daubechies小波系作为小波基函数，简记为dbN；对语音信号进行J层小波分解，得到近似分量的小波系数c_j(n)和细节分量的小波系数d_j(n)，具体表达式如式(1)所示：

其中j表示小波系数分解层数；c_j+1(m)表示近似小波系数c_j+1(n)的第m个值，d_j+1(m)表示细节小波系数d_j+1(n)的第m个值；l(n)与h(n)分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数；式(1)中的c₀(n)即为原始语音信号S(n)；通过式(1)的计算得到近似分量c_J(n)与不同尺度下的细节分量d₁(n)，d₂(n)，……，d_J(n)；

接着对分解得到的小波系数进行阈值去噪；在小波域中，有效信号所对应的小波系数的模值往往较大；而噪声在时间域中具有随机性，在小波域中其对应的小波系数的模值往往较小；因此将近似分量c_J(n)保留，对细节分量d₁(n)，d₂(n)，……，d_J(n)进行阈值降噪；采用软阈值函数来对细节分量系数进行更新，软阈值函数表达式如式(2)所示：

其中

为更新后的细节分量系数，d_j(n)为原始细节分量系数，λ为去噪阈值；阈值λ由公式λ＝σ(0.3936+0.1829×log₂ N)确定，N为原始信号S(n)的长度，σ由

确定；通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数

最后对去噪后的小波系数进行重构得到降噪语音X(n)；利用阈值去噪后的小波系数进行重构，小波重构表达式如式(3)所示：

其中

与

分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数，为l(n)与h(n)的镜像滤波器；c_j+1(n)为近似分量，从c_J(n)开始迭代；

为去噪后的细节分量系数；经过层层迭代后得到的

即为去噪后的语音信号X(n)，至此小波去噪完成；

步骤2：基于双门限的语音端点检测

首先对降噪得到的语音X(n)进行分帧；以t秒为一帧，t取20ms，对语音进行分帧，得到x_i(n)；假设一段语音得到m帧；若语音X(n)的采样频率为f，则一帧语音的采样点数量为K＝t×f；分帧看成对语音进行加窗，使用的窗口函数为矩形窗；

现对每帧语音定义两个语音特征量：短时能量与短时过零率，再用这两个语音特征量进行端点检测；

一帧语音信号的短时能量定义如式(4)所示：

一帧语音信号的短时过零率定义如式(5)所示：

其中

接着，定义两个短时能量阈值E_high与E_low，和一个短时过零率阈值Z_th；

E_high为一个较高的短时能量阈值，利用该阈值区分出语音的浊音部分；E_high取所有帧的短时能量平均值的一半，其取值如式(6)所示；将短时能量大于E_high的帧选中判定为语音段a，这部分语音主要为浊音，短时能量较大；

E_low为一个较低的短时能量阈值，利用该阈值将能量较低的语音也选中，扩展语音段；E_low取前10帧短时能量均值与E_high的

之和，其取值如式(7)所示；将短时能量大于E_low的语音段添加至语音段a，得到语音段b；

Z_th为短时过零率的阈值，其取值为前10帧短时过零率之和的三倍，如式(8)所示；将短时过零率大于Z_th的清音部分添加至语音段b，得到语音段c；

将语音段c中帧数较少的部分剔除，剩余选中片段即为语音片段，即完成语音段的端点检测，在待测语音中标注出效语音片段的起始点；

步骤3：提取语音MFCC特征

对端点检测后得到的有效语音片段提取MFCC特征，假设某一段语音片段为s(n)，提取流程如下；

(1)预加重，对语音片段进行预加重，提升高频部分，使信号的频谱变得平坦，计算公式如式(9)所示：

s′(n)＝s(n)-μs(n-1) (9)

其中μ取0.9～1.0，优选取0.97；

(2)分帧，分帧选用端点检测过程中的分帧结果；

(3)加窗，对每一帧语音进行加窗，提高帧左右端的连续性，其计算公式如式(10)所示：

g(n)＝s′(n)×w(n) (10)

其中，w(n)取汉明窗，如式(11)所示，其中K为一帧中的采样点数量；

(4)离散傅里叶变化，对每一帧语音信号进行DFT，计算公式如式(12)：

(5)三角滤波器组，定义一组梅尔三角滤波器，滤波器数量T＝26，滤波器定义如式(13)：

其中f(m)的定义取值如式(14)：

式(14)中的f_l与f_h为根据语音采样频率f_s定义的最低与最高频率，f_mel为梅尔频率；floor(x)函数表示向下取整，K为一帧语音的采样点长度；

(6)计算滤波器输出的对数能量，将经过DFT得到的G(k)经过梅尔三角滤波器组，并得到其对数能量，计算公式如式(15)：

(7)离散余弦变化，将对数能量经过离散余弦变化，计算公式如式(16)：

其中，T为梅尔三角滤波器的数量，L表示得到的v(n)为L阶MFCC系数，取13；

(8)动态差分参数；语音的静态特性用v(n)表示，而动态特性用其差分谱表示，计算公式如式(17)：

其中，Ω取1或2；

即为一阶差分参数，也为13个系数；

将标准梅尔倒谱参数v(n)与一阶差分参数

合并为向量λ，λ即为语音片段s(n)的MFCC特征，为26维；

步骤4：基于RNN的语音识别

对步骤3得到的MFCC特征进行标签标注，分为两大类：含目标语音与不含目标语音，并且按照4：1的比例随机分派给训练集和验证集，使用循环神经网络进行训练；

RNN采用单层LSTM结构；输入为步骤3得到的26维MFCC语音特征，LSTM网络隐藏单元的维度设置为40，最后经过全连接层，通过softmax函数分类输出；

LSTM模型通过细胞状态C_t来记录长时记忆，通过隐藏层状态h_t来记录短时记忆，包含有三个“门”：遗忘门f_t，输入门i_t与输出门o_t；

遗忘门f_t决定从细胞状态中丢弃哪些信息，由h_t-1与x_t输出，计算表达如式(18)；其中σ表示sigmoid函数，W_f为权重矩阵，b_f为偏置项；

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (18)

输入门i_t与长时记忆候选态

决定在细胞状态中存储哪些信息，具体表达式如式(19)；W_i与W_C为权重矩阵，b_i与b_C为偏置项；

更新细胞状态C_t，计算表达式如式(20)：

基于细胞状态C_t与输出门o_t输出h_t，计算表达式如式(21)；其中W_o为权重矩阵，b_o为偏置项

设置好LSTM网络结构后，权重矩阵选择正交初始化，偏置项选择零初始化，使用BPTT更新策略进行训练，直至网络参数收敛为止；