CN113411456A - 一种基于语音识别的话音质量评估方法及装置 - Google Patents
一种基于语音识别的话音质量评估方法及装置 Download PDFInfo
- Publication number
- CN113411456A CN113411456A CN202110727171.4A CN202110727171A CN113411456A CN 113411456 A CN113411456 A CN 113411456A CN 202110727171 A CN202110727171 A CN 202110727171A CN 113411456 A CN113411456 A CN 113411456A
- Authority
- CN
- China
- Prior art keywords
- voice
- disturbed
- neural network
- recognition
- neuron
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001303 quality assessment method Methods 0.000 title claims description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 238000013441 quality evaluation Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 10
- 210000002569 neuron Anatomy 0.000 claims description 42
- 230000009467 reduction Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 210000002364 input neuron Anatomy 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开一种基于语音识别的话音质量评估方法,其包括以下步骤:对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率和受扰话音的MOS主观评价值构成训练样本数据集;针对训练样本数据集,建立受扰话音识别正确率与受扰话音MOS主观评价值之间的BP神经网络回归模型;代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。本发明能够显著提高话音质量评估的准确性。
Description
技术领域
本发明涉及通信技术领域,尤其是涉及一种基于语音识别的话音质量评估方法及装置。
背景技术
随着5G技术的应用,移动通信在人们生活中变得越来越普遍。大量用频设备的使用对无线通信造成的无形干扰越来越严重,而话音通信是人们日常生活中广泛使用的一种通信业务,这些无意干扰的增加会严重影响人们正常的话音通信质量,因此通过有效评估当前话音通信质量,自适应调整通信频谱调用,提升通信系统的服务质量,是网络运营商需要解决的关键技术之一。而在军用领域,特别是在通信对抗过程中,对抗双方都会通过通信干扰设备对对方的通信设备实施干扰,如何通过话音通信质量评估来考核通信干扰设备的干扰效果也是一个重要的研究方向。因此,无论是在民用领域还是在军用领域,对受干扰后在低信噪比下的话音质量进行科学、客观、有效的评估具有重大意义。
话音质量评估主要包括主观评估和客观评估两大类,主观评估是以平均意见得分法(Mean Opinion Score,MOS)为主,它采用五级评分制,评价标准如表1所示。
表1基于MOS的主观评估等级表
MOS得分 | 话音质量 | 失真觉察程度 | 收听注意力等级 |
5 | 优 | 不觉察失真 | 可完全放松,不需要注意力 |
4 | 良 | 刚觉察失真 | 需要注意,但不需要明显集中 |
3 | 一般 | 稍微讨厌 | 中等程度的注意力 |
2 | 差 | 讨厌但不令人反感 | 需要集中注意力 |
1 | 劣 | 及其讨厌令人反感 | 即使努力去听,也很难听懂 |
主观评估主要基于人耳对话音质量的主官感觉来进行判断,评估方法受人为因素影响较大,且评估过程费时费力、使用不便。现有技术中的客观评估技术主要通过受扰语音与原始语音进行信号特征匹配得到受扰话音质量等级,该技术通常需要原始语音与受扰语音严格时间同步才能得到较好的评估结果;然而在实际应用中,时间同步往往很难实现,得到的评估结果也很不理想。
发明内容
为解决现有技术中话音客观评估方法的应用条件较为理想、工程实现较为困难的问题,本发明的目的是提供一种低信噪比下基于语音识别的话音质量评估方法及装置,其以原始话音和受扰话音的识别结果为基础,建立话音质量评估模型,评估结果给人较好的感官效果,同时避免了时间同步问题,提高了话音质量评估的准确性。
为实现上述发明目的,本发明采用如下技术方案:
一种基于语音识别的话音质量评估方法,其包括以下步骤:
S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率xi和受扰话音的MOS主观评价值yi构成训练样本数据集n表示原始话音或受扰话音的总条数;
S2、针对训练样本数据集,建立受扰话音识别正确率xi与受扰话音MOS主观评价值yi之间的回归模型;所述的回归模型采用BP神经网络;
S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。
进一步地,上述的步骤S2中,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θj表示,隐层第i个神经元的阈值用γi表示,输入层神经元与隐层第i个神经元之间的连接权重为vi,隐层第i个神经元与输出层第j个神经元之间的连接权重为wij;记隐层第i个神经元接收到的输入为αi=vix,输出层第j个神经元接收到的输入为其中,bi为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
进一步地,上述的步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:
S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S3.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi;
S3.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S3.6;若不满足,执行步骤S3.2;
进一步地,上述的步骤S4中,话音评估过程为:
S4.1、对受扰话音进行数字采样、分帧、加窗预处理;
S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S4.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
进一步地,上述的基于语音识别的话音质量评估方法,其回归模型采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
一种基于语音识别的话音质量评估装置,其包括:
话音采集模块,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块,基于识别正确率统计模块得到的识别正确率,用于实现对受扰话音质量进行评估。
由于采用如上所述的技术方案,本发明具有如下优越性:
该基于语音识别的话音质量评估方法,其无需和原始话音进行时间同步,能够显著提高低信噪比下话音质量客观评估结果的准确性,且评估结果能够直观显示,工程实现较为容易;建立的话音质量评估模型更加符合人耳真实听觉模型,能够客观评价用户的真实通话质量效果。
附图说明
图1是本发明基于语音识别的话音质量评估方法的流程示意图;
图2是本发明基于语音识别的话音质量评估方法的原理流程图;
图3是本发明基于语音识别的话音质量评估方法中BP神经网络的结构图;
图4是本发明基于语音识别的话音质量评估方法中BP神经网络模型参数求解算法的流程图;
图5是本发明基于语音识别的话音质量评估装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步详细说明。
如图1所示,一种基于语音识别的话音质量评估方法,其包括以下步骤:
S1、训练话音数据集准备:原始话音采用TIMIT、ITU-T P501、hkust、thchs30、gale_mandarin、或AISHELL-1语料库中不同发声者录制的清晰话音,或自己录制,自行录制时参照GJB 4405B-2017中的相关要求进行录制;噪声采用NoiseX-92、NOIZEUS、DEMAND、或TUT噪声库中的噪声;将原始话音和噪声话音进行叠加得到n条受扰话音,对n条受扰话音进行主观评估,并将MOS主观评价值yi作为话音标注值;
S2、训练话音转化为训练样本集:如图2所示,对预先录制的原始话音和受扰话音数据集分别进行语音识别,语音识别准确率不低于95%,针对每组话音利用识别正确率计算公式计算受扰话音相对于原始话音的识别正确率xi;统计受扰话音的MOS主观评价值yi;由识别正确率xi和受扰话音的MOS主观评价值yi构成了训练数据集n表示原始话音或受扰话音的总条数;
S3、构建如图3所示的BP(Back Propagation)神经网络,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θj表示,隐层第i个神经元的阈值用γi表示,输入层神经元与隐层第i个神经元之间的连接权重为vi,隐层第i个神经元与输出层第j个神经元之间的连接权重为wij;记隐层第i个神经元接收到的输入为αi=vix,输出层第j个神经元接收到的输入为其中,bi为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
S4.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S4.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi;
S4.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S4.6;若不满足,执行步骤S4.2;
S5、如图2所示,利用步骤S4中训练好的BP神经网络模型对低信噪比下的受扰话音质量进行评估,评估过程为:
S5.1、对受扰话音进行数字采样、分帧、加窗预处理;
S5.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S5.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
本发明基于语音识别的话音质量评估方法,其回归模型也可以采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
如图5所示,一种基于语音识别的话音质量评估装置,其包括:
话音采集模块201,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块202,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块203,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块204,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块205,基于识别正确率统计模块204得到的识别正确率,用于实现对受扰话音质量进行评估。
本发明基于语音识别的话音质量评估方法及装置,其适用于移动通信3G、4G、5G网络VoLET话音质量评估以及军用领域通信设备的通信话音质量评估。
以上所述仅为本发明的较佳实施例,而非对本发明的限制,在不脱离本发明的精神和范围的情况下,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明的专利保护范围之内。
Claims (6)
1.一种基于语音识别的话音质量评估方法,其特征是:其包括以下步骤:
S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率xi和受扰话音的MOS主观评价值yi构成训练样本数据集n表示原始话音或受扰话音的总条数;
S2、针对训练样本数据集,建立受扰话音识别正确率xi与受扰话音MOS主观评价值yi之间的回归模型;所述的回归模型采用BP神经网络;
S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。
3.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:
S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重vi(i=1,2,…,L)、wij(i=1,2,…,L;j=1,2,…,5)和各神经元阈值γi(i=1,2,…,L)、θj(j=1,2,…,5),确定学习率ε;
S3.4、更新网络参数:按照下面的公式,更新神经网络的连接权重wij、vi和阈值θj、γi;
S3.5、判断是否满足收敛条件,即判断是否满足Ek<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S3.6;若不满足,执行步骤S3.2;
4.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S4中,话音评估过程为:
S4.1、对受扰话音进行数字采样、分帧、加窗预处理;
S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
S4.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
5.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其回归模型采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
6.一种基于语音识别的话音质量评估装置,其特征是:其包括:
话音采集模块,用于对原始话音和受扰话音分别进行采集,得到音频文件;
降噪模块,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
语音识别模块,用于对采集的原始话音及降噪后的受扰话音信号进行语音识别,得到相应的语音识别文本;
识别正确率统计模块,用于统计受扰话音语音识别文本相对于原始话音语音识别文本的识别正确率;
话音质量评估模块,基于识别正确率统计模块得到的识别正确率,用于实现对受扰话音质量进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727171.4A CN113411456B (zh) | 2021-06-29 | 2021-06-29 | 一种基于语音识别的话音质量评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727171.4A CN113411456B (zh) | 2021-06-29 | 2021-06-29 | 一种基于语音识别的话音质量评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113411456A true CN113411456A (zh) | 2021-09-17 |
CN113411456B CN113411456B (zh) | 2023-05-02 |
Family
ID=77680235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110727171.4A Active CN113411456B (zh) | 2021-06-29 | 2021-06-29 | 一种基于语音识别的话音质量评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113411456B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044247A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
CN103281555A (zh) * | 2013-04-24 | 2013-09-04 | 北京邮电大学 | 基于半参考评估的视频流业务QoE客观评估方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
US20160210984A1 (en) * | 2013-09-30 | 2016-07-21 | Huawei Technologies Co., Ltd. | Voice Quality Evaluation Method and Apparatus |
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN108322346A (zh) * | 2018-02-09 | 2018-07-24 | 山西大学 | 一种基于机器学习的语音质量评价方法 |
CN108346434A (zh) * | 2017-01-24 | 2018-07-31 | 中国移动通信集团安徽有限公司 | 一种语音质量评估的方法和装置 |
CN108389592A (zh) * | 2018-02-27 | 2018-08-10 | 上海讯飞瑞元信息技术有限公司 | 一种语音质量评价方法及装置 |
CN109496334A (zh) * | 2016-08-09 | 2019-03-19 | 华为技术有限公司 | 用于评估语音质量的设备和方法 |
US20190180771A1 (en) * | 2016-10-12 | 2019-06-13 | Iflytek Co., Ltd. | Method, Device, and Storage Medium for Evaluating Speech Quality |
CN110176226A (zh) * | 2018-10-25 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
WO2019191251A1 (en) * | 2018-03-28 | 2019-10-03 | Telepathy Labs, Inc. | Text-to-speech synthesis system and method |
CN110797046A (zh) * | 2018-08-02 | 2020-02-14 | 中国移动通信集团广东有限公司 | 语音质量mos值的预测模型建立方法及装置 |
US20200327884A1 (en) * | 2019-04-12 | 2020-10-15 | Adobe Inc. | Customizable speech recognition system |
CN112542161A (zh) * | 2020-12-10 | 2021-03-23 | 长春工程学院 | 一种双层pid优化的bp神经网络语音识别方法 |
-
2021
- 2021-06-29 CN CN202110727171.4A patent/CN113411456B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044247A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
CN103281555A (zh) * | 2013-04-24 | 2013-09-04 | 北京邮电大学 | 基于半参考评估的视频流业务QoE客观评估方法 |
US20160210984A1 (en) * | 2013-09-30 | 2016-07-21 | Huawei Technologies Co., Ltd. | Voice Quality Evaluation Method and Apparatus |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN109496334A (zh) * | 2016-08-09 | 2019-03-19 | 华为技术有限公司 | 用于评估语音质量的设备和方法 |
US20190180771A1 (en) * | 2016-10-12 | 2019-06-13 | Iflytek Co., Ltd. | Method, Device, and Storage Medium for Evaluating Speech Quality |
CN108346434A (zh) * | 2017-01-24 | 2018-07-31 | 中国移动通信集团安徽有限公司 | 一种语音质量评估的方法和装置 |
CN108322346A (zh) * | 2018-02-09 | 2018-07-24 | 山西大学 | 一种基于机器学习的语音质量评价方法 |
CN108389592A (zh) * | 2018-02-27 | 2018-08-10 | 上海讯飞瑞元信息技术有限公司 | 一种语音质量评价方法及装置 |
WO2019191251A1 (en) * | 2018-03-28 | 2019-10-03 | Telepathy Labs, Inc. | Text-to-speech synthesis system and method |
CN110797046A (zh) * | 2018-08-02 | 2020-02-14 | 中国移动通信集团广东有限公司 | 语音质量mos值的预测模型建立方法及装置 |
CN110176226A (zh) * | 2018-10-25 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
US20200327884A1 (en) * | 2019-04-12 | 2020-10-15 | Adobe Inc. | Customizable speech recognition system |
CN112542161A (zh) * | 2020-12-10 | 2021-03-23 | 长春工程学院 | 一种双层pid优化的bp神经网络语音识别方法 |
Non-Patent Citations (6)
Title |
---|
HADI LARIJANI; KAPILAN RADHAKRISHNAN: "Voice Quality in VoIP Networks Based on Random Neural Networks", 《2010 NINTH INTERNATIONAL CONFERENCE ON NETWORKS》, 1 June 2010 (2010-06-01) * |
吴金亮等: "语音干扰效果客观评估模板优化分析", 《电声技术》, no. 06, 17 June 2007 (2007-06-17) * |
李忠强等: "BP网络在语音干扰效果客观评估方法优化中的应用", 《通信对抗》, no. 01, 15 March 2007 (2007-03-15) * |
杨云升等: "线性神经网络在语音干扰效果评估中的应用", 《电声技术》, no. 11, 17 November 2008 (2008-11-17) * |
杨佳俊: "网络音频质量无参考客观评估", 《中国优秀硕士学位论文全文数据库》, 15 March 2017 (2017-03-15) * |
赵凌伟等: "基于Mel尺度的语音干扰效果评估方法研究", 《无线电工程》, no. 02, 5 February 2017 (2017-02-05) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
CN113593551B (zh) * | 2021-07-01 | 2023-07-25 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113411456B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105611477B (zh) | 数字助听器中深度和广度神经网络相结合的语音增强算法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN108346434B (zh) | 一种语音质量评估的方法和装置 | |
CN105261359B (zh) | 手机麦克风的消噪系统和消噪方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN101901602B (zh) | 一种利用受损听力的听阈进行降噪的方法 | |
CN105872275B (zh) | 一种用于回声消除的语音信号时延估计方法及系统 | |
Zhang et al. | FT-LSTM based complex network for joint acoustic echo cancellation and speech enhancement | |
Ren et al. | A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement. | |
CN103544961B (zh) | 语音信号处理方法及装置 | |
CN109147808A (zh) | 一种言语增强助听方法 | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
Chiea et al. | New insights on the optimality of parameterized Wiener filters for speech enhancement applications | |
CN106161820B (zh) | 一种用于立体声声学回声抵消的通道间去相关方法 | |
Tu et al. | A two-stage end-to-end system for speech-in-noise hearing aid processing | |
CN113411456B (zh) | 一种基于语音识别的话音质量评估方法及装置 | |
CN116364109A (zh) | 一种语音增强网络信噪比估计器及损失优化方法 | |
Sang et al. | Speech quality evaluation of a sparse coding shrinkage noise reduction algorithm with normal hearing and hearing impaired listeners | |
Lin et al. | A composite objective measure on subjective evaluation of speech enhancement algorithms | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN106997768A (zh) | 一种语音出现概率的计算方法、装置及电子设备 | |
Wang et al. | Interference quality assessment of speech communication based on deep learning | |
Xu et al. | Does a PESQNet (Loss) require a clean reference input? The original PESQ does, but ACR listening tests don’t | |
Liang et al. | A Non-Intrusive speech quality evaluation algorithm for hearing aids via an auxiliary training task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |