CN113411456A - 一种基于语音识别的话音质量评估方法及装置 - Google Patents

一种基于语音识别的话音质量评估方法及装置 Download PDF

Info

Publication number
CN113411456A
CN113411456A CN202110727171.4A CN202110727171A CN113411456A CN 113411456 A CN113411456 A CN 113411456A CN 202110727171 A CN202110727171 A CN 202110727171A CN 113411456 A CN113411456 A CN 113411456A
Authority
CN
China
Prior art keywords
voice
disturbed
neural network
recognition
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110727171.4A
Other languages
English (en)
Other versions
CN113411456B (zh
Inventor
崔建岭
沈思连
王满喜
乔会东
李�浩
董树理
王得旺
戴幻尧
王莉
李林
王雷钢
王建路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UNIT 63892 OF PLA
Original Assignee
UNIT 63892 OF PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UNIT 63892 OF PLA filed Critical UNIT 63892 OF PLA
Priority to CN202110727171.4A priority Critical patent/CN113411456B/zh
Publication of CN113411456A publication Critical patent/CN113411456A/zh
Application granted granted Critical
Publication of CN113411456B publication Critical patent/CN113411456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开一种基于语音识别的话音质量评估方法,其包括以下步骤:对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率和受扰话音的MOS主观评价值构成训练样本数据集;针对训练样本数据集,建立受扰话音识别正确率与受扰话音MOS主观评价值之间的BP神经网络回归模型;代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。本发明能够显著提高话音质量评估的准确性。

Description

一种基于语音识别的话音质量评估方法及装置
技术领域
本发明涉及通信技术领域,尤其是涉及一种基于语音识别的话音质量评估方法及装置。
背景技术
随着5G技术的应用,移动通信在人们生活中变得越来越普遍。大量用频设备的使用对无线通信造成的无形干扰越来越严重,而话音通信是人们日常生活中广泛使用的一种通信业务,这些无意干扰的增加会严重影响人们正常的话音通信质量,因此通过有效评估当前话音通信质量,自适应调整通信频谱调用,提升通信系统的服务质量,是网络运营商需要解决的关键技术之一。而在军用领域,特别是在通信对抗过程中,对抗双方都会通过通信干扰设备对对方的通信设备实施干扰,如何通过话音通信质量评估来考核通信干扰设备的干扰效果也是一个重要的研究方向。因此,无论是在民用领域还是在军用领域,对受干扰后在低信噪比下的话音质量进行科学、客观、有效的评估具有重大意义。
话音质量评估主要包括主观评估和客观评估两大类,主观评估是以平均意见得分法(Mean Opinion Score,MOS)为主,它采用五级评分制,评价标准如表1所示。
表1基于MOS的主观评估等级表
MOS得分 话音质量 失真觉察程度 收听注意力等级
5 不觉察失真 可完全放松,不需要注意力
4 刚觉察失真 需要注意,但不需要明显集中
3 一般 稍微讨厌 中等程度的注意力
2 讨厌但不令人反感 需要集中注意力
1 及其讨厌令人反感 即使努力去听,也很难听懂
主观评估主要基于人耳对话音质量的主官感觉来进行判断,评估方法受人为因素影响较大,且评估过程费时费力、使用不便。现有技术中的客观评估技术主要通过受扰语音与原始语音进行信号特征匹配得到受扰话音质量等级,该技术通常需要原始语音与受扰语音严格时间同步才能得到较好的评估结果;然而在实际应用中,时间同步往往很难实现,得到的评估结果也很不理想。
发明内容
为解决现有技术中话音客观评估方法的应用条件较为理想、工程实现较为困难的问题,本发明的目的是提供一种低信噪比下基于语音识别的话音质量评估方法及装置,其以原始话音和受扰话音的识别结果为基础,建立话音质量评估模型,评估结果给人较好的感官效果,同时避免了时间同步问题,提高了话音质量评估的准确性。
为实现上述发明目的,本发明采用如下技术方案:
一种基于语音识别的话音质量评估方法,其包括以下步骤:
S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率xi和受扰话音的MOS主观评价值yi构成训练样本数据集
Figure BDA0003137932120000021
n表示原始话音或受扰话音的总条数;
S2、针对训练样本数据集,建立受扰话音识别正确率xi与受扰话音MOS主观评价值yi之间的回归模型;所述的回归模型采用BP神经网络;
S3、代入训练样本
Figure BDA0003137932120000022
对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;
S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。
进一步地,上述的步骤S2中,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θj表示,隐层第i个神经元的阈值用γi表示,输入层神经元与隐层第i个神经元之间的连接权重为vi,隐层第i个神经元与输出层第j个神经元之间的连接权重为wij;记隐层第i个神经元接收到的输入为αi=vix,输出层第j个神经元接收到的输入为
Figure BDA0003137932120000031
其中,bi为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
Figure BDA0003137932120000032
进一步地,上述的步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:
S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S3.2、将训练数据集
Figure BDA0003137932120000033
第k个样本(xk,yk)中的输入xk代入神经网络,计算当前时刻神经网络的输出
Figure BDA0003137932120000034
其中,
Figure BDA0003137932120000035
S3.3、计算神经网络输出与样本(xk,yk)的均方误差,即
Figure BDA0003137932120000036
Figure BDA0003137932120000037
计算输出层神经元的梯度项gj=yjk1-yjkyjk-yjk,计算隐层神经元的梯度项
Figure BDA0003137932120000038
S3.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi
Figure BDA0003137932120000039
Figure BDA00031379321200000310
Figure BDA00031379321200000311
Figure BDA00031379321200000312
S3.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S3.6;若不满足,执行步骤S3.2;
S3.6、判断训练数据集
Figure BDA0003137932120000041
中的样本是否执行完毕;若满足,训练结束,输出连接权重和阈值确定的多层BP神经网络模型;若不满足,k←k+1,执行步骤S3.2。
进一步地,上述的步骤S4中,话音评估过程为:
S4.1、对受扰话音进行数字采样、分帧、加窗预处理;
S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S4.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
进一步地,上述的基于语音识别的话音质量评估方法,其回归模型采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
一种基于语音识别的话音质量评估装置,其包括:
话音采集模块,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块,基于识别正确率统计模块得到的识别正确率,用于实现对受扰话音质量进行评估。
由于采用如上所述的技术方案,本发明具有如下优越性:
该基于语音识别的话音质量评估方法,其无需和原始话音进行时间同步,能够显著提高低信噪比下话音质量客观评估结果的准确性,且评估结果能够直观显示,工程实现较为容易;建立的话音质量评估模型更加符合人耳真实听觉模型,能够客观评价用户的真实通话质量效果。
附图说明
图1是本发明基于语音识别的话音质量评估方法的流程示意图;
图2是本发明基于语音识别的话音质量评估方法的原理流程图;
图3是本发明基于语音识别的话音质量评估方法中BP神经网络的结构图;
图4是本发明基于语音识别的话音质量评估方法中BP神经网络模型参数求解算法的流程图;
图5是本发明基于语音识别的话音质量评估装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步详细说明。
如图1所示,一种基于语音识别的话音质量评估方法,其包括以下步骤:
S1、训练话音数据集准备:原始话音采用TIMIT、ITU-T P501、hkust、thchs30、gale_mandarin、或AISHELL-1语料库中不同发声者录制的清晰话音,或自己录制,自行录制时参照GJB 4405B-2017中的相关要求进行录制;噪声采用NoiseX-92、NOIZEUS、DEMAND、或TUT噪声库中的噪声;将原始话音和噪声话音进行叠加得到n条受扰话音,对n条受扰话音进行主观评估,并将MOS主观评价值yi作为话音标注值;
S2、训练话音转化为训练样本集:如图2所示,对预先录制的原始话音和受扰话音数据集分别进行语音识别,语音识别准确率不低于95%,针对每组话音利用识别正确率计算公式
Figure BDA0003137932120000051
计算受扰话音相对于原始话音的识别正确率xi;统计受扰话音的MOS主观评价值yi;由识别正确率xi和受扰话音的MOS主观评价值yi构成了训练数据集
Figure BDA0003137932120000052
n表示原始话音或受扰话音的总条数;
S3、构建如图3所示的BP(Back Propagation)神经网络,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θj表示,隐层第i个神经元的阈值用γi表示,输入层神经元与隐层第i个神经元之间的连接权重为vi,隐层第i个神经元与输出层第j个神经元之间的连接权重为wij;记隐层第i个神经元接收到的输入为αi=vix,输出层第j个神经元接收到的输入为
Figure BDA0003137932120000061
其中,bi为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
Figure BDA0003137932120000062
S4、如图4所示,代入训练样本
Figure BDA0003137932120000063
数据,利用误差逆传播算法对BP神经网络参数进行求解,求解算法步骤如下:
S4.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S4.2、将训练数据集
Figure BDA0003137932120000064
第k个样本(xk,yk)中的输入xk代入神经网络,计算当前时刻神经网络的输出
Figure BDA0003137932120000065
其中,
Figure BDA0003137932120000066
S4.3、计算神经网络输出与样本(xk,yk)的均方误差,即
Figure BDA0003137932120000067
yjjk2,计算输出层神经元的梯度项gj=yjk1-yjkyjk-yjk,计算隐层神经元的梯度项
Figure BDA0003137932120000068
S4.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi
Figure BDA0003137932120000069
Figure BDA00031379321200000610
Figure BDA00031379321200000611
Figure BDA00031379321200000612
S4.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S4.6;若不满足,执行步骤S4.2;
S4.6、判断训练数据集
Figure BDA0003137932120000071
中的样本是否执行完毕;若满足,训练结束,输出连接权重和阈值确定的多层BP神经网络模型;若不满足,k←k+1,执行步骤S4.2;
S5、如图2所示,利用步骤S4中训练好的BP神经网络模型对低信噪比下的受扰话音质量进行评估,评估过程为:
S5.1、对受扰话音进行数字采样、分帧、加窗预处理;
S5.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S5.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
本发明基于语音识别的话音质量评估方法,其回归模型也可以采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
如图5所示,一种基于语音识别的话音质量评估装置,其包括:
话音采集模块201,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块202,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块203,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块204,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块205,基于识别正确率统计模块204得到的识别正确率,用于实现对受扰话音质量进行评估。
本发明基于语音识别的话音质量评估方法及装置,其适用于移动通信3G、4G、5G网络VoLET话音质量评估以及军用领域通信设备的通信话音质量评估。
以上所述仅为本发明的较佳实施例,而非对本发明的限制,在不脱离本发明的精神和范围的情况下,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明的专利保护范围之内。

Claims (6)

1.一种基于语音识别的话音质量评估方法,其特征是:其包括以下步骤:
S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率xi和受扰话音的MOS主观评价值yi构成训练样本数据集
Figure FDA0003137932110000011
n表示原始话音或受扰话音的总条数;
S2、针对训练样本数据集,建立受扰话音识别正确率xi与受扰话音MOS主观评价值yi之间的回归模型;所述的回归模型采用BP神经网络;
S3、代入训练样本
Figure FDA0003137932110000012
对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;
S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。
2.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S2中,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θj表示,隐层第i个神经元的阈值用γi表示,输入层神经元与隐层第i个神经元之间的连接权重为vi,隐层第i个神经元与输出层第j个神经元之间的连接权重为wij;记隐层第i个神经元接收到的输入为αi=vix,输出层第j个神经元接收到的输入为
Figure FDA0003137932110000013
其中,bi为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
Figure FDA0003137932110000014
3.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:
S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S3.2、将训练数据集
Figure FDA0003137932110000021
第k个样本(xk,yk)中的输入xk代入神经网络,计算当前时刻神经网络的输出
Figure FDA0003137932110000022
其中,
Figure FDA0003137932110000023
S3.3、计算神经网络输出与样本(xk,yk)的均方误差,即
Figure FDA0003137932110000024
Figure FDA0003137932110000025
计算输出层神经元的梯度项gj=yjk1-yjkyjk-yjk,计算隐层神经元的梯度项
Figure FDA0003137932110000026
S3.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi
Figure FDA0003137932110000027
Figure FDA0003137932110000028
Figure FDA0003137932110000029
Figure FDA00031379321100000210
S3.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S3.6;若不满足,执行步骤S3.2;
S3.6、判断训练数据集
Figure FDA00031379321100000211
中的样本是否执行完毕;若满足,训练结束,输出连接权重和阈值确定的多层BP神经网络模型;若不满足,k←k+1,执行步骤S3.2。
4.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S4中,话音评估过程为:
S4.1、对受扰话音进行数字采样、分帧、加窗预处理;
S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S4.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
5.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其回归模型采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
6.一种基于语音识别的话音质量评估装置,其特征是:其包括:
话音采集模块,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块,基于识别正确率统计模块得到的识别正确率,用于实现对受扰话音质量进行评估。
CN202110727171.4A 2021-06-29 2021-06-29 一种基于语音识别的话音质量评估方法及装置 Active CN113411456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110727171.4A CN113411456B (zh) 2021-06-29 2021-06-29 一种基于语音识别的话音质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727171.4A CN113411456B (zh) 2021-06-29 2021-06-29 一种基于语音识别的话音质量评估方法及装置

Publications (2)

Publication Number Publication Date
CN113411456A true CN113411456A (zh) 2021-09-17
CN113411456B CN113411456B (zh) 2023-05-02

Family

ID=77680235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727171.4A Active CN113411456B (zh) 2021-06-29 2021-06-29 一种基于语音识别的话音质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN113411456B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593551A (zh) * 2021-07-01 2021-11-02 中国人民解放军63892部队 一种基于命令词识别的语音通信干扰效果客观评估方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN103281555A (zh) * 2013-04-24 2013-09-04 北京邮电大学 基于半参考评估的视频流业务QoE客观评估方法
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法
CN104575521A (zh) * 2014-12-26 2015-04-29 大连理工大学 一种lte通信系统语音质量的评估方法
US20160210984A1 (en) * 2013-09-30 2016-07-21 Huawei Technologies Co., Ltd. Voice Quality Evaluation Method and Apparatus
CN106816158A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 一种语音质量评估方法、装置及设备
CN108322346A (zh) * 2018-02-09 2018-07-24 山西大学 一种基于机器学习的语音质量评价方法
CN108346434A (zh) * 2017-01-24 2018-07-31 中国移动通信集团安徽有限公司 一种语音质量评估的方法和装置
CN108389592A (zh) * 2018-02-27 2018-08-10 上海讯飞瑞元信息技术有限公司 一种语音质量评价方法及装置
CN109496334A (zh) * 2016-08-09 2019-03-19 华为技术有限公司 用于评估语音质量的设备和方法
US20190180771A1 (en) * 2016-10-12 2019-06-13 Iflytek Co., Ltd. Method, Device, and Storage Medium for Evaluating Speech Quality
CN110176226A (zh) * 2018-10-25 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
WO2019191251A1 (en) * 2018-03-28 2019-10-03 Telepathy Labs, Inc. Text-to-speech synthesis system and method
CN110797046A (zh) * 2018-08-02 2020-02-14 中国移动通信集团广东有限公司 语音质量mos值的预测模型建立方法及装置
US20200327884A1 (en) * 2019-04-12 2020-10-15 Adobe Inc. Customizable speech recognition system
CN112542161A (zh) * 2020-12-10 2021-03-23 长春工程学院 一种双层pid优化的bp神经网络语音识别方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN103281555A (zh) * 2013-04-24 2013-09-04 北京邮电大学 基于半参考评估的视频流业务QoE客观评估方法
US20160210984A1 (en) * 2013-09-30 2016-07-21 Huawei Technologies Co., Ltd. Voice Quality Evaluation Method and Apparatus
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法
CN104575521A (zh) * 2014-12-26 2015-04-29 大连理工大学 一种lte通信系统语音质量的评估方法
CN106816158A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 一种语音质量评估方法、装置及设备
CN109496334A (zh) * 2016-08-09 2019-03-19 华为技术有限公司 用于评估语音质量的设备和方法
US20190180771A1 (en) * 2016-10-12 2019-06-13 Iflytek Co., Ltd. Method, Device, and Storage Medium for Evaluating Speech Quality
CN108346434A (zh) * 2017-01-24 2018-07-31 中国移动通信集团安徽有限公司 一种语音质量评估的方法和装置
CN108322346A (zh) * 2018-02-09 2018-07-24 山西大学 一种基于机器学习的语音质量评价方法
CN108389592A (zh) * 2018-02-27 2018-08-10 上海讯飞瑞元信息技术有限公司 一种语音质量评价方法及装置
WO2019191251A1 (en) * 2018-03-28 2019-10-03 Telepathy Labs, Inc. Text-to-speech synthesis system and method
CN110797046A (zh) * 2018-08-02 2020-02-14 中国移动通信集团广东有限公司 语音质量mos值的预测模型建立方法及装置
CN110176226A (zh) * 2018-10-25 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
US20200327884A1 (en) * 2019-04-12 2020-10-15 Adobe Inc. Customizable speech recognition system
CN112542161A (zh) * 2020-12-10 2021-03-23 长春工程学院 一种双层pid优化的bp神经网络语音识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HADI LARIJANI; KAPILAN RADHAKRISHNAN: "Voice Quality in VoIP Networks Based on Random Neural Networks", 《2010 NINTH INTERNATIONAL CONFERENCE ON NETWORKS》, 1 June 2010 (2010-06-01) *
吴金亮等: "语音干扰效果客观评估模板优化分析", 《电声技术》, no. 06, 17 June 2007 (2007-06-17) *
李忠强等: "BP网络在语音干扰效果客观评估方法优化中的应用", 《通信对抗》, no. 01, 15 March 2007 (2007-03-15) *
杨云升等: "线性神经网络在语音干扰效果评估中的应用", 《电声技术》, no. 11, 17 November 2008 (2008-11-17) *
杨佳俊: "网络音频质量无参考客观评估", 《中国优秀硕士学位论文全文数据库》, 15 March 2017 (2017-03-15) *
赵凌伟等: "基于Mel尺度的语音干扰效果评估方法研究", 《无线电工程》, no. 02, 5 February 2017 (2017-02-05) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593551A (zh) * 2021-07-01 2021-11-02 中国人民解放军63892部队 一种基于命令词识别的语音通信干扰效果客观评估方法
CN113593551B (zh) * 2021-07-01 2023-07-25 中国人民解放军63892部队 一种基于命令词识别的语音通信干扰效果客观评估方法

Also Published As

Publication number Publication date
CN113411456B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN105611477B (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN108346434B (zh) 一种语音质量评估的方法和装置
CN105261359B (zh) 手机麦克风的消噪系统和消噪方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN101901602B (zh) 一种利用受损听力的听阈进行降噪的方法
CN105872275B (zh) 一种用于回声消除的语音信号时延估计方法及系统
Zhang et al. FT-LSTM based complex network for joint acoustic echo cancellation and speech enhancement
Ren et al. A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement.
CN103544961B (zh) 语音信号处理方法及装置
CN109147808A (zh) 一种言语增强助听方法
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
Chiea et al. New insights on the optimality of parameterized Wiener filters for speech enhancement applications
CN106161820B (zh) 一种用于立体声声学回声抵消的通道间去相关方法
Tu et al. A two-stage end-to-end system for speech-in-noise hearing aid processing
CN113411456B (zh) 一种基于语音识别的话音质量评估方法及装置
CN116364109A (zh) 一种语音增强网络信噪比估计器及损失优化方法
Sang et al. Speech quality evaluation of a sparse coding shrinkage noise reduction algorithm with normal hearing and hearing impaired listeners
Lin et al. A composite objective measure on subjective evaluation of speech enhancement algorithms
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
CN106997768A (zh) 一种语音出现概率的计算方法、装置及电子设备
Wang et al. Interference quality assessment of speech communication based on deep learning
Xu et al. Does a PESQNet (Loss) require a clean reference input? The original PESQ does, but ACR listening tests don’t
Liang et al. A Non-Intrusive speech quality evaluation algorithm for hearing aids via an auxiliary training task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant