CN113593551B - 一种基于命令词识别的语音通信干扰效果客观评估方法 - Google Patents

一种基于命令词识别的语音通信干扰效果客观评估方法 Download PDF

Info

Publication number
CN113593551B
CN113593551B CN202110746311.2A CN202110746311A CN113593551B CN 113593551 B CN113593551 B CN 113593551B CN 202110746311 A CN202110746311 A CN 202110746311A CN 113593551 B CN113593551 B CN 113593551B
Authority
CN
China
Prior art keywords
recognition
voice
command word
accuracy
disturbed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110746311.2A
Other languages
English (en)
Other versions
CN113593551A (zh
Inventor
董树理
王建路
崔建岭
王岩
赵琳锋
刘敏
王琼
孙丹辉
徐娜娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UNIT 63892 OF PLA
Original Assignee
UNIT 63892 OF PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UNIT 63892 OF PLA filed Critical UNIT 63892 OF PLA
Priority to CN202110746311.2A priority Critical patent/CN113593551B/zh
Publication of CN113593551A publication Critical patent/CN113593551A/zh
Application granted granted Critical
Publication of CN113593551B publication Critical patent/CN113593551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明属于电子对抗技术领域,公开的一种基于命令词识别的语音通信干扰效果客观评估方法,首先基于深度学习法,针对通信报文、命令词进行模型训练,建立命令词识别模型;其次,将原始语音、受扰语音信号作为输入进行命令词识别,将原始语音识别结果作为正确结果,统计受扰语音的识别准确率;最后,通过识别准确率与主观评估值之间的映射关系曲线,将识别准确率转换为主观评估值,并确定干扰等级和干扰效果;本发明解决了低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题,对传统的人机交互系统能够形成很好的补充,有利于改善操作者的交互体验,提高人机工效。

Description

一种基于命令词识别的语音通信干扰效果客观评估方法
技术领域
本发明属于电子对抗技术领域,提出了一种基于命令词识别的语音通信干扰效果客观评估方法,适用于低信噪比、复杂环境下语音通信干扰效果的评估与鉴定。
背景技术
语音通信是通信设备的主要通信方式之一。语音通信干扰效果评估是通信和通信对抗设备性能测试的主要内容,评估方法的性能和效率直接影响通信和通信对抗装备的性能评价和测试效率。
语音通信干扰效果客观评估是建立在原始语音信号和被干扰语音信号的数学对比上的,通过对语音信号波形的特性和物理参数的测量预测语音的干扰效果。一般说来,希望客观评估方法能给出与主观评估方法相同的结果,或者寻找客观评估算法,使其在相当宽的范围内都能很好地接近主观评估的性能。客观评估具有方便快捷、省时省力的优点,尤其是在对通信和通信对抗设备进行大规模、成体系评测时优势更为明显,客观评估在语音干扰效果评估中可以解决完全靠人工判读所带来的主观评估偏差大的问题,可以在通信及通信对抗性能测试中发挥重要的作用。
命令词识别主要是针对孤立词、行业术语、通信报文、短句等特定使用环境的语音进行识别。命令词识别具有高效性、自然性、灵活性、敏感性、信息呈现快等特点,如果能够将命令词识别技术用于相关测试场景,就可以发挥命令词识别这些特点中的优势。通过命令词识别技术实现操作者指令语音识别,对传统的人机交互系统能够形成很好的补充,有利于改善操作者的交互体验,提高人机工效。
发明内容
为解决低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题,本发明提供一种基于命令词识别的语音通信干扰效果客观评估方法。本方法适用低信噪比、存在干扰情况下的语音通信干扰效果客观评估,具有良好的适应性和可信度。
为实现上述发明目的,本发明采用如下技术方案:
一种基于命令词识别的语音通信干扰效果客观评估方法,首先基于深度学习方法,针对通信报文、命令词等进行模型训练,建立命令词识别模型;其次,将原始语音、受扰语音信号作为输入进行命令词识别,将原始语音识别结果作为正确结果,统计受扰语音的识别准确率;最后,通过识别准确率与主观评估值之间的映射关系曲线,将识别准确率转换为主观评估值,并确定干扰等级和干扰效果。
步骤一:建立基于深度学习方法的命令词识别模型
在通信对抗的低信噪比环境下,采用基于深度学习框架的命令词识别方法较基于GMM-HMM等识别方法可以取得更好的适应性和识别性能。基于前馈型序列记忆网络FSMN(Feed-forward Sequential Memory Network)建立命令词识别模型,通过语音特征层面引入中文调型、建模方案上采用数字独立整字建模、识别解码采用多遍解码架构等方法提高低信噪比环境下的识别率,基于不同信噪比的训练数据集对模型进行训练。要求安静环境下识别准确率优于92%,在测试集上主客观评估的相关系数优于0.90。
步骤二:统计受扰语音的识别准确率
将原始语音信号的识别结果或者原始的语音文本作为正确结果,将受扰语音输入训练好的命令词识别模型,得到对应的识别结果。将受扰语音的识别结果与正确结果进行比对,统计受扰语音的识别准确率。识别准确率定义为:
其中:N表示参与测试的所有词数量;I表示插入错误的词数量;D表示识别结果相对于标注的正确结果发生的删除错误的词数量;S表示发生替换错误的词数量。
步骤三:建立识别准确率与主观评估值的映射
针对不同类型干扰、不同信噪比,根据受扰语音的识别准确率,将识别准确率映射为主观评估的干扰等级分,确定干扰等级和干扰效果。
由于采用如上所述的技术方案,本发明具有如下优越性:
一种基于命令词识别的语音通信干扰效果客观评估方法,适用低信噪比、存在干扰情况下的语音通信干扰效果客观评估,具有良好的适应性和可信度。通过将命令词识别技术用于相关测试场景,发挥命令词识别这些特点中的优势。通过命令词识别技术实现操作者指令语音识别,解决了低信噪比条件下语音通信干扰效果客观评估中同步困难、主客观评估相关系数低的难题,对传统的人机交互系统能够形成很好的补充,有利于改善操作者的交互体验,提高人机工效。
附图说明
图1给出了本发明的工作流程;
图2是命令词识别的FSMN结构框图;
图3是将识别准确率进行主客观评估映射的关系曲线。
具体实施方式:
下面结合附图对本发明做进一步说明。
图1是本发明的工作流程。首先基于深度学习框架建立命令词识别模型,并利用语音数据和文本数据对模型进行训练。为满足低信噪比条件下的应用要求,训练用语音数据需要针对不同类别、不同信噪比水平的受扰语音进行训练。
工作时,将采集到的原始语音信号和受扰语音信号输入命令词识别模型,模型输出原始语音和受扰语音的识别结果;将语音语音识别结果作为正确结果,根据受扰语音的识别结果,统计受扰语音的识别准确率;根据识别准确率,进行主客观评估的映射,并依据映射的主观评估分数,进行干扰等级判定。
图2是命令词识别的FSMN结构框图。其中图(a)是FSMN的结构示意,相比较于传统的深度神经网络,FSMN在隐层中添加了一个模块用于对当前语音帧中的历史和未来信息进行存储和判断。图(b)是添加的记忆模块的时序展开示意图,左右各记忆1帧的信息,并可以根据实际需要调整记忆帧的长度。FSMN采用的是前馈结构,在对历史信息进行记忆时,不需要等待语音输入的结束,可以只采集有限长度的语音帧即可,可以将延迟控制在0.2s以内,就可以获得较好的效果。FSMN基于前馈的记忆网络在训练过程中按照隐层与记忆模块的连接关系将权重进行回传即可,这些权重确定了输入与当前语音信号的相互影响,这种梯度传播在任何时刻的衰减都是可训练的常数,可以有效解决梯度消失问题,在模型的稳定性和训练效率上,FSMN的并行程度较高,可以充分发挥GPU的计算性能。
图3是将识别准确率进行主客观评估映射的关系曲线。将待评估的语音数据输入命令词识别模型,输出识别结果,将识别结果与正确结果进行对比和统计,其识别准确率计算公式为:
其中:N表示参与测试的所有词数量;I表示插入错误的词数量;D表示识别结果相对于标注的正确结果发生的删除错误的词数量;S表示发生替换错误的词数量。
图3中主客观评估映射曲线的横坐标是识别准确率,纵坐标是经过拟合计算的主观评估值,通过该映射曲线,将识别准确率转换为主观评估值,当评估值大于等于3时,判定干扰有效;当评估值小于3时,判定干扰无效。

Claims (1)

1.一种基于命令词识别的语音通信干扰效果客观评估方法,其特征是:首先基于深度学习法,针对通信报文、命令词进行模型训练,建立命令词识别模型;其次,将原始语音、受扰语音信号作为输入进行命令词识别,将原始语音识别结果作为正确结果,统计受扰语音的识别准确率;最后,通过识别准确率与主观评估值之间的映射关系曲线,将识别准确率转换为主观评估值,并确定干扰等级和干扰效果;具体实施步骤如下:
步骤一:建立基于深度学习方法的命令词识别模型,在通信对抗的低信噪比环境下,采用基于深度学习框架的命令词的识别,基于GMM-HMM识别的适应性和识别性能,基于前馈型序列记忆网络FSMN(Feed-forward Sequential Memory Network)建立命令词识别模型,通过语音特征层面引入中文调型、建模方案上采用数字独立整字建模、识别解码采用多遍解码架构的方法提高低信噪比环境下的识别率,基于不同信噪比的训练数据集对模型进行训练;
要求安静环境下识别准确率优于92%,在测试集上主客观评估的相关系数优于0.90;
步骤二:统计受扰语音的识别准确率,将原始语音信号的识别结果或者原始的语音文本作为正确结果,将受扰语音输入训练好的命令词识别模型,得到对应的识别结果;将受扰语音的识别结果与正确结果进行比对,统计受扰语音的识别准确率,识别准确率定义为:
其中:N表示参与测试的所有词数量;I表示插入错误的词数量;D表示识别结果相对于标注的正确结果发生的删除错误的词数量;S表示发生替换错误的词数量;
步骤三:建立识别准确率与主观评估值的映射,针对不同类型干扰、不同信噪比,根据受扰语音的识别准确率,将识别准确率映射为主观评估的干扰等级分,确定干扰等级和干扰效果。
CN202110746311.2A 2021-07-01 2021-07-01 一种基于命令词识别的语音通信干扰效果客观评估方法 Active CN113593551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110746311.2A CN113593551B (zh) 2021-07-01 2021-07-01 一种基于命令词识别的语音通信干扰效果客观评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110746311.2A CN113593551B (zh) 2021-07-01 2021-07-01 一种基于命令词识别的语音通信干扰效果客观评估方法

Publications (2)

Publication Number Publication Date
CN113593551A CN113593551A (zh) 2021-11-02
CN113593551B true CN113593551B (zh) 2023-07-25

Family

ID=78245432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110746311.2A Active CN113593551B (zh) 2021-07-01 2021-07-01 一种基于命令词识别的语音通信干扰效果客观评估方法

Country Status (1)

Country Link
CN (1) CN113593551B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法
CN101609686A (zh) * 2009-07-28 2009-12-23 南京大学 基于语音增强算法主观评估的客观评估方法
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
CN111681642A (zh) * 2020-06-03 2020-09-18 北京字节跳动网络技术有限公司 语音识别评估方法、装置、存储介质及设备
CN113411456A (zh) * 2021-06-29 2021-09-17 中国人民解放军63892部队 一种基于语音识别的话音质量评估方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法
CN101609686A (zh) * 2009-07-28 2009-12-23 南京大学 基于语音增强算法主观评估的客观评估方法
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
CN111681642A (zh) * 2020-06-03 2020-09-18 北京字节跳动网络技术有限公司 语音识别评估方法、装置、存储介质及设备
CN113411456A (zh) * 2021-06-29 2021-09-17 中国人民解放军63892部队 一种基于语音识别的话音质量评估方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Evaluation of noise in hearing instruments caused by GSMand DECTmobile telephone";Hanse MO;《Scandinavivan Audiology》;全文 *
宋玉凤 等."语义客观报文生成方法及干扰效果评估系统".《电声技术》.2009,全文. *
樊云鹏."Speex中噪声抑制模块的性能评估与ARM平台移植".《中国优秀硕士学位论文全文数据库(信息科技辑)》.2012,全文. *

Also Published As

Publication number Publication date
CN113593551A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN112149316B (zh) 基于改进的cnn模型的航空发动机剩余寿命预测方法
CN103400577B (zh) 多语种语音识别的声学模型建立方法和装置
CN108665058A (zh) 一种基于分段损失的生成对抗网络方法
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
EP3594940A1 (en) Training method for voice data set, computer device and computer readable storage medium
CN110349597A (zh) 一种语音检测方法及装置
CN108562811A (zh) 基于双向长短期记忆的复杂电能质量扰动分析方法
CN101510423B (zh) 一种分层次、交互式发音质量评估与诊断系统
CN108986788A (zh) 一种基于后验知识监督的噪声鲁棒声学建模方法
CN111914705A (zh) 提升电抗器健康状态评估准确率的信号生成方法及装置
CN109949821A (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN113593551B (zh) 一种基于命令词识别的语音通信干扰效果客观评估方法
CN110415685A (zh) 一种语音识别方法
CN111554318A (zh) 一种手机端发音可视化系统的实现方法
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
CN116306079A (zh) 一种应用于海洋细长柔性结构动态响应预测模型构建方法
CN112598065B (zh) 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN112381056B (zh) 一种融合多个源域的跨域行人重识别方法及系统
Jiang et al. Application of dynamic time warping optimization algorithm in speech recognition of machine translation
CN110619886A (zh) 一种针对低资源土家语的端到端语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant