CN113411456A

CN113411456A - 一种基于语音识别的话音质量评估方法及装置

Info

Publication number: CN113411456A
Application number: CN202110727171.4A
Authority: CN
Inventors: 崔建岭; 沈思连; 王满喜; 乔会东; 李�浩; 董树理; 王得旺; 戴幻尧; 王莉; 李林; 王雷钢; 王建路
Original assignee: UNIT 63892 OF PLA
Current assignee: UNIT 63892 OF PLA
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-17
Anticipated expiration: 2041-06-29
Also published as: CN113411456B

Abstract

本发明公开一种基于语音识别的话音质量评估方法，其包括以下步骤：对预先录制的原始话音和受扰话音数据集分别进行语音识别，统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值，由识别正确率和受扰话音的MOS主观评价值构成训练样本数据集；针对训练样本数据集，建立受扰话音识别正确率与受扰话音MOS主观评价值之间的BP神经网络回归模型；代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练，得到网络参数确定的BP神经网络话音质量评估模型；基于训练好的BP神经网络对受扰话音进行话音质量评估，BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。本发明能够显著提高话音质量评估的准确性。

Description

一种基于语音识别的话音质量评估方法及装置

技术领域

本发明涉及通信技术领域，尤其是涉及一种基于语音识别的话音质量评估方法及装置。

背景技术

随着5G技术的应用，移动通信在人们生活中变得越来越普遍。大量用频设备的使用对无线通信造成的无形干扰越来越严重，而话音通信是人们日常生活中广泛使用的一种通信业务，这些无意干扰的增加会严重影响人们正常的话音通信质量，因此通过有效评估当前话音通信质量，自适应调整通信频谱调用，提升通信系统的服务质量，是网络运营商需要解决的关键技术之一。而在军用领域，特别是在通信对抗过程中，对抗双方都会通过通信干扰设备对对方的通信设备实施干扰，如何通过话音通信质量评估来考核通信干扰设备的干扰效果也是一个重要的研究方向。因此，无论是在民用领域还是在军用领域，对受干扰后在低信噪比下的话音质量进行科学、客观、有效的评估具有重大意义。

话音质量评估主要包括主观评估和客观评估两大类，主观评估是以平均意见得分法(Mean Opinion Score，MOS)为主，它采用五级评分制，评价标准如表1所示。

表1基于MOS的主观评估等级表

MOS得分	话音质量	失真觉察程度	收听注意力等级
				5	优	不觉察失真	可完全放松，不需要注意力
4	良	刚觉察失真	需要注意，但不需要明显集中
				3	一般	稍微讨厌	中等程度的注意力
2	差	讨厌但不令人反感	需要集中注意力
				1	劣	及其讨厌令人反感	即使努力去听，也很难听懂

主观评估主要基于人耳对话音质量的主官感觉来进行判断，评估方法受人为因素影响较大，且评估过程费时费力、使用不便。现有技术中的客观评估技术主要通过受扰语音与原始语音进行信号特征匹配得到受扰话音质量等级，该技术通常需要原始语音与受扰语音严格时间同步才能得到较好的评估结果；然而在实际应用中，时间同步往往很难实现，得到的评估结果也很不理想。

发明内容

为解决现有技术中话音客观评估方法的应用条件较为理想、工程实现较为困难的问题，本发明的目的是提供一种低信噪比下基于语音识别的话音质量评估方法及装置，其以原始话音和受扰话音的识别结果为基础，建立话音质量评估模型，评估结果给人较好的感官效果，同时避免了时间同步问题，提高了话音质量评估的准确性。

为实现上述发明目的，本发明采用如下技术方案：

一种基于语音识别的话音质量评估方法，其包括以下步骤：

S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别，统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值，由识别正确率x_i和受扰话音的MOS主观评价值y_i构成训练样本数据集

n表示原始话音或受扰话音的总条数；

S2、针对训练样本数据集，建立受扰话音识别正确率x_i与受扰话音MOS主观评价值y_i之间的回归模型；所述的回归模型采用BP神经网络；

S3、代入训练样本

对低信噪比下话音质量评估的BP神经网络回归模型进行训练，得到网络参数确定的BP神经网络话音质量评估模型；

S4、基于训练好的BP神经网络对受扰话音进行话音质量评估，BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。

进一步地，上述的步骤S2中，BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元，其中，输出层第j个神经元的阈值用θ_j表示，隐层第i个神经元的阈值用γ_i表示，输入层神经元与隐层第i个神经元之间的连接权重为v_i，隐层第i个神经元与输出层第j个神经元之间的连接权重为w_ij；记隐层第i个神经元接收到的输入为α_i＝v_ix，输出层第j个神经元接收到的输入为

其中，b_i为隐层第i个神经元的输出；隐层和输出层神经元都使用Sigmoid函数

进一步地，上述的步骤S3中，利用误差逆传播算法对BP神经网络参数进行求解，算法步骤如下：

S3.1、网络参数初始化：在(0,1)范围内随机初始化神经网络中所有连接权重v_i(i＝1,2,…,L)、w_ij(i＝1,2,…,L；j＝1,2,…,5)和各神经元阈值γ_i(i＝1,2,…,L)、θ_j(j＝1,2,…,5)，确定学习率ε；

S3.2、将训练数据集

第k个样本(x_k，y_k)中的输入x_k代入神经网络，计算当前时刻神经网络的输出

其中，

S3.3、计算神经网络输出与样本(x_k，y_k)的均方误差，即

计算输出层神经元的梯度项gj＝yjk1-yjkyjk-yjk，计算隐层神经元的梯度项

S3.4、更新网络参数：按照下面的公式，更新神经网络的连接权重w_ij、v_i和阈值θ_j、γ_i；

S3.5、判断是否满足收敛条件，即判断是否满足E_k＜＜Δ或迭代次数是否超过K次，Δ为可容忍的误差常数，K为允许迭代的最大次数；若满足，执行步骤S3.6；若不满足，执行步骤S3.2；

S3.6、判断训练数据集

中的样本是否执行完毕；若满足，训练结束，输出连接权重和阈值确定的多层BP神经网络模型；若不满足，k←k+1，执行步骤S3.2。

进一步地，上述的步骤S4中，话音评估过程为：

S4.1、对受扰话音进行数字采样、分帧、加窗预处理；

S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理；

S4.3、将降噪后的话音信号利用语音识别模块进行语音识别，并统计识别正确率；将识别正确率代入已训练好的BP神经网络模型，BP神经网络模型的输出即为话音质量评估等级。

进一步地，上述的基于语音识别的话音质量评估方法，其回归模型采用支持向量机、最小二乘回归、或随机森林，替换BP神经网络。

一种基于语音识别的话音质量评估装置，其包括：

话音采集模块，用于对原始话音和受扰话音分别进行采集，得到音频文件；

降噪模块，用于实现对采集的受扰话音信号进行降噪处理，提高受扰话音信号的信噪比；

语音识别模块，用于对采集的原始话音及降噪后的受扰话音信号进行语音识别，得到相应的语音识别文本；

识别正确率统计模块，用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率；

话音质量评估模块，基于识别正确率统计模块得到的识别正确率，用于实现对受扰话音质量进行评估。

由于采用如上所述的技术方案，本发明具有如下优越性：

该基于语音识别的话音质量评估方法，其无需和原始话音进行时间同步，能够显著提高低信噪比下话音质量客观评估结果的准确性，且评估结果能够直观显示，工程实现较为容易；建立的话音质量评估模型更加符合人耳真实听觉模型，能够客观评价用户的真实通话质量效果。

附图说明

图1是本发明基于语音识别的话音质量评估方法的流程示意图；

图2是本发明基于语音识别的话音质量评估方法的原理流程图；

图3是本发明基于语音识别的话音质量评估方法中BP神经网络的结构图；

图4是本发明基于语音识别的话音质量评估方法中BP神经网络模型参数求解算法的流程图；

图5是本发明基于语音识别的话音质量评估装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步详细说明。

如图1所示，一种基于语音识别的话音质量评估方法，其包括以下步骤：

S1、训练话音数据集准备：原始话音采用TIMIT、ITU-T P501、hkust、thchs30、gale_mandarin、或AISHELL-1语料库中不同发声者录制的清晰话音，或自己录制，自行录制时参照GJB 4405B-2017中的相关要求进行录制；噪声采用NoiseX-92、NOIZEUS、DEMAND、或TUT噪声库中的噪声；将原始话音和噪声话音进行叠加得到n条受扰话音，对n条受扰话音进行主观评估，并将MOS主观评价值y_i作为话音标注值；

S2、训练话音转化为训练样本集：如图2所示，对预先录制的原始话音和受扰话音数据集分别进行语音识别，语音识别准确率不低于95％，针对每组话音利用识别正确率计算公式

计算受扰话音相对于原始话音的识别正确率x_i；统计受扰话音的MOS主观评价值y_i；由识别正确率x_i和受扰话音的MOS主观评价值y_i构成了训练数据集

n表示原始话音或受扰话音的总条数；

S3、构建如图3所示的BP(Back Propagation)神经网络，BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元，其中，输出层第j个神经元的阈值用θ_j表示，隐层第i个神经元的阈值用γ_i表示，输入层神经元与隐层第i个神经元之间的连接权重为v_i，隐层第i个神经元与输出层第j个神经元之间的连接权重为w_ij；记隐层第i个神经元接收到的输入为α_i＝v_ix，输出层第j个神经元接收到的输入为

S4、如图4所示，代入训练样本

数据，利用误差逆传播算法对BP神经网络参数进行求解，求解算法步骤如下：

S4.1、网络参数初始化：在(0,1)范围内随机初始化神经网络中所有连接权重v_i(i＝1,2,…,L)、w_ij(i＝1,2,…,L；j＝1,2,…,5)和各神经元阈值γ_i(i＝1,2,…,L)、θ_j(j＝1,2,…,5)，确定学习率ε；

S4.2、将训练数据集

其中，

S4.3、计算神经网络输出与样本(x_k，y_k)的均方误差，即

yjjk2，计算输出层神经元的梯度项gj＝yjk1-yjkyjk-yjk，计算隐层神经元的梯度项

S4.4、更新网络参数：按照下面的公式，更新神经网络的连接权重w_ij、v_i和阈值θ_j、γ_i；

S4.5、判断是否满足收敛条件，即判断是否满足E_k＜＜Δ或迭代次数是否超过K次，Δ为可容忍的误差常数，K为允许迭代的最大次数；若满足，执行步骤S4.6；若不满足，执行步骤S4.2；

S4.6、判断训练数据集

中的样本是否执行完毕；若满足，训练结束，输出连接权重和阈值确定的多层BP神经网络模型；若不满足，k←k+1，执行步骤S4.2；

S5、如图2所示，利用步骤S4中训练好的BP神经网络模型对低信噪比下的受扰话音质量进行评估，评估过程为：

S5.1、对受扰话音进行数字采样、分帧、加窗预处理；

S5.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理；

S5.3、将降噪后的话音信号利用语音识别模块进行语音识别，并统计识别正确率；将识别正确率代入已训练好的BP神经网络模型，BP神经网络模型的输出即为话音质量评估等级。

本发明基于语音识别的话音质量评估方法，其回归模型也可以采用支持向量机、最小二乘回归、或随机森林，替换BP神经网络。

如图5所示，一种基于语音识别的话音质量评估装置，其包括：

话音采集模块201，用于对原始话音和受扰话音分别进行采集，得到音频文件；

降噪模块202，用于实现对采集的受扰话音信号进行降噪处理，提高受扰话音信号的信噪比；

语音识别模块203，用于对采集的原始话音及降噪后的受扰话音信号进行语音识别，得到相应的语音识别文本；

识别正确率统计模块204，用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率；

话音质量评估模块205，基于识别正确率统计模块204得到的识别正确率，用于实现对受扰话音质量进行评估。

本发明基于语音识别的话音质量评估方法及装置，其适用于移动通信3G、4G、5G网络VoLET话音质量评估以及军用领域通信设备的通信话音质量评估。

以上所述仅为本发明的较佳实施例，而非对本发明的限制，在不脱离本发明的精神和范围的情况下，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明的专利保护范围之内。

Claims

1.一种基于语音识别的话音质量评估方法，其特征是：其包括以下步骤：

n表示原始话音或受扰话音的总条数；

S3、代入训练样本

2.根据权利要求1所述的基于语音识别的话音质量评估方法，其特征是：其步骤S2中，BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元，其中，输出层第j个神经元的阈值用θ_j表示，隐层第i个神经元的阈值用γ_i表示，输入层神经元与隐层第i个神经元之间的连接权重为v_i，隐层第i个神经元与输出层第j个神经元之间的连接权重为w_ij；记隐层第i个神经元接收到的输入为α_i＝v_ix，输出层第j个神经元接收到的输入为