CN105741842A

CN105741842A - 一种基于食品安全语料数据的语音匹配方法

Info

Publication number: CN105741842A
Application number: CN201610009314.7A
Authority: CN
Inventors: 郑丽敏; 黄斌; 杨璐; 王炳蔚
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2016-07-06

Abstract

本发明公开了一种基于食品安全语料数据的语音匹配方法，实现了方便、快速且准确的从语音提取到语音匹配的过程。本发明的语音匹配方法，包括：包括音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于改进的DTW语音识别别算法。本发明使用食品安全语料库完成音频数据的语音匹配过程，较文本匹配方式更为快捷、方便，且准确率较高，且能给出音频数据与食品事件的一个评价分，可以作为先进的技术运用于食品检测等领域。

Description

一种基于食品安全语料数据的语音匹配方法

技术领域

本发明涉及一种基于食品安全语料数据的语音匹配方法，尤其是一种针对食品安全领域的语音匹配方法。

背景技术

随着经济的不断发展，食品安全问题表现的尤为突出，每年我国因食品安全事件造成的损失日益严重，食品安全事件已成为我国高度重视的重大安全事件。

伴随着网络的快速发展，传统的新闻报道也大量的出现在网络中，语音数据作为传统的新闻载体，承载了广泛的信息量，从广泛的音频数据中挖掘出有意义的食品安全信息显得尤为重要。传统的识别方法大多数针对文本进行，音频类的数据常常优先转换为文本信息，在进行匹配识别，匹配速度较慢，本发明针对食品安全方面的音频数据，实现方便、快捷的基于语音的匹配方法。

发明内容

本发明公布了一种基于食品安全语料数据的语音匹配方法，主要实现了对音频数据的语义识别过程。

本发明采用以下技术方案：一种基于食品安全语料数据的语音匹配方法，所述语音匹配方法，包括音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于一种改进的DTW语音识别算法。

音频信号的预处理，采用谱减法去噪、一阶滤波器进行预加重处理和使用汉明窗加窗分帧。

语音信号的特征提取采用倒谱方法提取基频，按原则归并特征序列，语音信号的特征通过梅尔倒频参数(MFCC)及其一阶差分系数提取。

所述食品安全语料库，食品分类标准参照GB2760-2014标准，将食品主要分为肉蛋奶三个大类，一百多个小类，这些关键词是对这三大类的详细分类，语料库还包含食品添加剂、食品违禁项等相关的关键词。构建一个评价公式，对每个识别的音频进行一个评价。根据这个评价得分的高低来判断这一个音频与食品事件的相关程度。

所述语音识别算法为基于动态时间规整(DWT)的改进算法，不断地计算两矢量之间的距离以寻找最优的匹配路径。同时建立多个模型以提高匹配成功率。

本发明使用食品安全语料库完成音频数据的语音匹配过程，较文本匹配方式更为快捷、方便，且准确率较高，设置音频数据与食品事件的关联度评分，可以准确的评价音频与食品的相关程度。本发明可以作为先进的技术运用于食品检测等领域。

附图说明

图1为本发明的技术路线

图2为本发明Mel频率与实际频率的对应转换关系图

具体实施方式

本发明使用一种基于食品安全语料数据的语音匹配方法，对音频进行预处理，提取语音信号的特征，构建食品安全语料库，使用语料库进行匹配。以下就本发明作具体的说明。

本发明包含音频信号的预处理、语音信号的特征提取、食品安全语料库的构建。

附图1示出了本发明的技术路线。

音频信号的预处理包含去噪、预加重、加窗分帧。

去噪采用谱减法进行去噪，减少语音中噪声的干扰。

预加重的目的是提高语音信号的高频部分，使信号的频谱变得平坦，便于后续的分析。预加重使用6dB/倍频程的提高高频特性的预加重数字滤波器实现，它是一个一阶FIR滤波器：

H(z)＝1-a*z^-1

其中，系数a一般选择[0，9.1]之间的数值，经多次实验分析，本发明选取a＝0.9375。

加窗分帧是通过加窗来截取一段语音信号进行分析。同时相邻两帧要设置交叠，称为帧移，本发明采用汉明窗进行加窗分帧，采用256个采样点的窗口长度，帧移位窗口长度的50％，即128个采样点。

特征提取采用梅尔频率倒谱系数作为音频识别特征，Mel频率与实际频率的对应转换关系如图2，公式：

Mel(f)＝2595lg(1+f/700)

MFCC系数具体计算如下：

(1)对经过预处理的语音信号求其短时傅里叶变换得到其频谱。

(2)求取它的能量谱，并利用一组三角形滤波器在频域范围内进行滤波；将每个滤波器频带内的能量进行叠加，得到输出。

(3)将滤波器组的输出取对数，得到相对应的对数功率谱，进行反离散余弦变换DCT得到MFCC系数，如下式：

\begin{matrix} C_{n} = Σ_{k = 1}^{M} {logx}^{'} (k) c o s [π (k - 0.5) n / M] & n = 1, 2... L \end{matrix}

上式中，x′(k)为第k个滤波器滤波后输出的功率谱，M为三角滤波器组中滤波器的个数，L为MFCC系数的阶数。

(4)通过已求的MFCC系数进行差分，得到语音信号的动态特征，差分方程如下：

d (k) = (1 / \sqrt{Σ_{i = - n}^{n} i^{2}}) Σ_{i = - n}^{n} i * c (k + i)

最后，将MFCC系数和各阶差分系数合并，得到语音信号的特征系数。

语音识别的算法采用改进的DTW算法，设两个特征序列需进行计算，待匹配特征序列为X＝{x₁，x₂…x_n}，模板特征序列为Y＝{y₁，y₂…y_n}。改进的动态规划时间算法如下：

D(i，j)＝min{D(i-2,j-1)+d_i-2,j-1；D(i-1,j-1)+d_i-1，j-1；D(i-1,j-2)+d_i-1，j-2}

上述公式中，d是改进的代价函数，具体计算如下：

d_{i - 1, j - 1} = \sqrt{a b s (x_{r} - y_{j})}

d_{i - 1, j - 2} = \sqrt{a b s (y_{j - 1} + y_{i} - x_{i})}

其中，D为计算X和Y之间累积距离的矩阵，使用改进的DTW算法计算特征序列的距离，对距离进行开平方处理，原本很小的距离影响不大，对稍微小一点的距离能使结果变得更近，针对食品相关词汇较短的特点，在准确率有较好的保证的前提下极大的提高匹配的成功率。

食品安全语料库的建立参考GB2760-2014标准，基于食品分类各个词汇以及相应安全方面的词法规则建立语音匹配库，使用上述方法进行语音匹配。评价分采用自定义评价公式进行，公式如下：

y = l o g [(Σ_{i = 1}^{n} c_{i} * d_{i}) * s + 1]

其中c_i表示食品事件带来的负面效果的关键词，例如：死亡、腹泻、呕吐等。d_i表示负面效果关键词的权重，例如死亡权重最高，将其定义为10，s表示音频中食品各类词汇的数量。当音频中未出现食品各类词汇时，评价分为0，可判断出此音频与食品事件无关，评价分越高，说明食品事件的严重性越高。

本发明完成了食品安全相关音频数据的语音匹配方法，对食品安全相关的语音数据进行匹配采集，为相关方面的数据获取提供了一个新的思路，本发明使用的语音匹配便捷、快速，能较好的完成语音匹配工作，对食品事件的匹配给予一个评价分的参考。适用于食品等领域的音频匹配识别工程。

Claims

1.音频数据在食品安全方面的语音匹配方法，其特征在于：音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于DTW的语音识别算法。

音频信号的预处理包含去噪、预加重、加窗分帧。

去噪采用谱减法进行去噪，减少语音中噪声的干扰。

预加重的目的是提高语音信号的高频部分，使信号的频谱变得平坦，便于后续的分析。预加重使用6dB/倍频程的提高高频特性的预加重数字滤波器实现。

语音信号的特征提取采用梅尔频率倒谱系数作为音频识别特征，同时计算器一阶差分系数。

特征距离的计算采用改进的动态时间规整算法，针对食品安全相关词汇，能极大的提高匹配成功率。

食品安全语料库的构建，参照GB2760-2014标准，构建食品分类信息语料库。进行音频数据匹配识别，得到本音频与食品事件相关程度的得分。

2.根据权利要求1所述音频信号预处理，其特征针对所选音频进行去噪等处理，使识别工作根据精准。

3.根据权利要求1所述的语音识别算法，其特征在于针对食品安全相关语音，改进基于动态时间规整的算法，设两个特征序列需进行计算，待匹配特征序列为X＝{x₁，x₂…x_n}，模板特征序列为Y＝{y₁，y₂…y_n}。改进的动态规划时间算法如下：

上述公式中，d是改进的代价函数，具体计算如下：

。

4.根据权利要求1所述的语音识别算法，其特征在于构建食品相关语料库，完成本发明的语音匹配库，进行负面效果关键词库的搭建，各个负面效果关键词权重的设计。

5.根据权利要求1所述的语音识别算法，其特征在于为食品相关语料库构建多个语音匹配模板，提高匹配的成功率。

6.根据权利要求4所述的语音匹配方法，其特征在于依据食品事件带来的负面效果的关键词、负面效果关键词的权重、音频中包含的食品各类词汇的数量，得到一个食品关联性评价分,评分公式如下：

7.根据权利要求1所述的语音匹配方法，其特征在于对音频数据进行食品相关的准确匹配，得到音频与食品相关程度的一个得分，较好的完成食品安全相关的语音的匹配采集工作。