CN113593551A

CN113593551A - 一种基于命令词识别的语音通信干扰效果客观评估方法

Info

Publication number: CN113593551A
Application number: CN202110746311.2A
Authority: CN
Inventors: 董树理; 王建路; 崔建岭; 王岩; 赵琳锋; 刘敏; 王琼; 孙丹辉; 徐娜娜
Original assignee: UNIT 63892 OF PLA
Current assignee: UNIT 63892 OF PLA
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-11-02
Anticipated expiration: 2041-07-01
Also published as: CN113593551B

Abstract

本发明属于电子对抗技术领域，公开的一种基于命令词识别的语音通信干扰效果客观评估方法，首先基于深度学习法，针对通信报文、命令词进行模型训练，建立命令词识别模型；其次，将原始语音、受扰语音信号作为输入进行命令词识别，将原始语音识别结果作为正确结果，统计受扰语音的识别准确率；最后，通过识别准确率与主观评估值之间的映射关系曲线，将识别准确率转换为主观评估值，并确定干扰等级和干扰效果；本发明解决了低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题，对传统的人机交互系统能够形成很好的补充，有利于改善操作者的交互体验，提高人机工效。

Description

一种基于命令词识别的语音通信干扰效果客观评估方法

技术领域

本发明属于电子对抗技术领域，提出了一种基于命令词识别的语音通信干扰效果客观评估方法，适用于低信噪比、复杂环境下语音通信干扰效果的评估与鉴定。

背景技术

语音通信是通信设备的主要通信方式之一。语音通信干扰效果评估是通信和通信对抗设备性能测试的主要内容，评估方法的性能和效率直接影响通信和通信对抗装备的性能评价和测试效率。

语音通信干扰效果客观评估是建立在原始语音信号和被干扰语音信号的数学对比上的，通过对语音信号波形的特性和物理参数的测量预测语音的干扰效果。一般说来，希望客观评估方法能给出与主观评估方法相同的结果，或者寻找客观评估算法，使其在相当宽的范围内都能很好地接近主观评估的性能。客观评估具有方便快捷、省时省力的优点，尤其是在对通信和通信对抗设备进行大规模、成体系评测时优势更为明显，客观评估在语音干扰效果评估中可以解决完全靠人工判读所带来的主观评估偏差大的问题，可以在通信及通信对抗性能测试中发挥重要的作用。

命令词识别主要是针对孤立词、行业术语、通信报文、短句等特定使用环境的语音进行识别。命令词识别具有高效性、自然性、灵活性、敏感性、信息呈现快等特点，如果能够将命令词识别技术用于相关测试场景，就可以发挥命令词识别这些特点中的优势。通过命令词识别技术实现操作者指令语音识别，对传统的人机交互系统能够形成很好的补充，有利于改善操作者的交互体验，提高人机工效。

发明内容

为解决低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题，本发明提供一种基于命令词识别的语音通信干扰效果客观评估方法。本方法适用低信噪比、存在干扰情况下的语音通信干扰效果客观评估，具有良好的适应性和可信度。

为实现上述发明目的，本发明采用如下技术方案：

一种基于命令词识别的语音通信干扰效果客观评估方法，首先基于深度学习方法，针对通信报文、命令词等进行模型训练，建立命令词识别模型；其次，将原始语音、受扰语音信号作为输入进行命令词识别，将原始语音识别结果作为正确结果，统计受扰语音的识别准确率；最后，通过识别准确率与主观评估值之间的映射关系曲线，将识别准确率转换为主观评估值，并确定干扰等级和干扰效果。

步骤一：建立基于深度学习方法的命令词识别模型

在通信对抗的低信噪比环境下，采用基于深度学习框架的命令词识别方法较基于GMM-HMM等识别方法可以取得更好的适应性和识别性能。基于前馈型序列记忆网络FSMN(Feed-forward Sequential Memory Network)建立命令词识别模型，通过语音特征层面引入中文调型、建模方案上采用数字独立整字建模、识别解码采用多遍解码架构等方法提高低信噪比环境下的识别率，基于不同信噪比的训练数据集对模型进行训练。要求安静环境下识别准确率优于92％，在测试集上主客观评估的相关系数优于0.90。

步骤二：统计受扰语音的识别准确率

将原始语音信号的识别结果或者原始的语音文本作为正确结果，将受扰语音输入训练好的命令词识别模型，得到对应的识别结果。将受扰语音的识别结果与正确结果进行比对，统计受扰语音的识别准确率。识别准确率定义为：

其中：N表示参与测试的所有词数量；I表示插入错误的词数量；D表示识别结果相对于标注的正确结果发生的删除错误的词数量；S表示发生替换错误的词数量。

步骤三：建立识别准确率与主观评估值的映射

针对不同类型干扰、不同信噪比，根据受扰语音的识别准确率，将识别准确率映射为主观评估的干扰等级分，确定干扰等级和干扰效果。

由于采用如上所述的技术方案，本发明具有如下优越性：

一种基于命令词识别的语音通信干扰效果客观评估方法，适用低信噪比、存在干扰情况下的语音通信干扰效果客观评估，具有良好的适应性和可信度。通过将命令词识别技术用于相关测试场景，发挥命令词识别这些特点中的优势。通过命令词识别技术实现操作者指令语音识别，解决了低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题，对传统的人机交互系统能够形成很好的补充，有利于改善操作者的交互体验，提高人机工效。

附图说明

图1给出了本发明的工作流程；

图2是命令词识别的FSMN结构框图；

图3是将识别准确率进行主客观评估映射的关系曲线。

具体实施方式：

下面结合附图对本发明做进一步说明。

图1是本发明的工作流程。首先基于深度学习框架建立命令词识别模型，并利用语音数据和文本数据对模型进行训练。为满足低信噪比条件下的应用要求，训练用语音数据需要针对不同类别、不同信噪比水平的受扰语音进行训练。

工作时，将采集到的原始语音信号和受扰语音信号输入命令词识别模型，模型输出原始语音和受扰语音的识别结果；将语音语音识别结果作为正确结果，根据受扰语音的识别结果，统计受扰语音的识别准确率；根据识别准确率，进行主客观评估的映射，并依据映射的主观评估分数，进行干扰等级判定。

图2是命令词识别的FSMN结构框图。其中图(a)是FSMN的结构示意，相比较于传统的深度神经网络，FSMN在隐层中添加了一个模块用于对当前语音帧中的历史和未来信息进行存储和判断。图(b)是添加的记忆模块的时序展开示意图，左右各记忆1帧的信息，并可以根据实际需要调整记忆帧的长度。FSMN采用的是前馈结构，在对历史信息进行记忆时，不需要等待语音输入的结束，可以只采集有限长度的语音帧即可，可以将延迟控制在0.2s以内，就可以获得较好的效果。FSMN基于前馈的记忆网络在训练过程中按照隐层与记忆模块的连接关系将权重进行回传即可，这些权重确定了输入与当前语音信号的相互影响，这种梯度传播在任何时刻的衰减都是可训练的常数，可以有效解决梯度消失问题，在模型的稳定性和训练效率上，FSMN的并行程度较高，可以充分发挥GPU的计算性能。

图3是将识别准确率进行主客观评估映射的关系曲线。将待评估的语音数据输入命令词识别模型，输出识别结果，将识别结果与正确结果进行对比和统计，其识别准确率计算公式为：

图3中主客观评估映射曲线的横坐标是识别准确率，纵坐标是经过拟合计算的主观评估值，通过该映射曲线，将识别准确率转换为主观评估值，当评估值大于等于3时，判定干扰有效；当评估值小于3时，判定干扰无效。

Claims

1.一种基于命令词识别的语音通信干扰效果客观评估方法，其特征是：首先基于深度学习法，针对通信报文、命令词进行模型训练，建立命令词识别模型；其次，将原始语音、受扰语音信号作为输入进行命令词识别，将原始语音识别结果作为正确结果，统计受扰语音的识别准确率；最后，通过识别准确率与主观评估值之间的映射关系曲线，将识别准确率转换为主观评估值，并确定干扰等级和干扰效果；具体实施步骤如下：

步骤一：建立基于深度学习方法的命令词识别模型，在通信对抗的低信噪比环境下，采用基于深度学习框架的命令词的识别，基于GMM-HMM识别的适应性和识别性能，基于前馈型序列记忆网络FSMN(Feed-forward Sequential Memory Network)建立命令词识别模型，通过语音特征层面引入中文调型、建模方案上采用数字独立整字建模、识别解码采用多遍解码架构的方法提高低信噪比环境下的识别率，基于不同信噪比的训练数据集对模型进行训练；

要求安静环境下识别准确率优于92％，在测试集上主客观评估的相关系数优于0.90；

步骤二：统计受扰语音的识别准确率，将原始语音信号的识别结果或者原始的语音文本作为正确结果，将受扰语音输入训练好的命令词识别模型，得到对应的识别结果；将受扰语音的识别结果与正确结果进行比对，统计受扰语音的识别准确率，识别准确率定义为：

其中：N表示参与测试的所有词数量；I表示插入错误的词数量；D表示识别结果相对于标注的正确结果发生的删除错误的词数量；S表示发生替换错误的词数量；

步骤三：建立识别准确率与主观评估值的映射，针对不同类型干扰、不同信噪比，根据受扰语音的识别准确率，将识别准确率映射为主观评估的干扰等级分，确定干扰等级和干扰效果。