CN107358966A - 基于深度学习语音增强的无参考语音质量客观评估方法 - Google Patents
基于深度学习语音增强的无参考语音质量客观评估方法 Download PDFInfo
- Publication number
- CN107358966A CN107358966A CN201710498188.0A CN201710498188A CN107358966A CN 107358966 A CN107358966 A CN 107358966A CN 201710498188 A CN201710498188 A CN 201710498188A CN 107358966 A CN107358966 A CN 107358966A
- Authority
- CN
- China
- Prior art keywords
- signal
- speech
- model
- voice
- coefficients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 34
- 239000004568 cement Substances 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000005728 strengthening Methods 0.000 claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 230000002708 enhancing effect Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001994 activation Methods 0.000 claims description 2
- 230000006698 induction Effects 0.000 claims description 2
- 238000001303 quality assessment method Methods 0.000 abstract description 4
- 238000013210 evaluation model Methods 0.000 abstract description 3
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- TZRHLKRLEZJVIJ-UHFFFAOYSA-N parecoxib Chemical compound C1=CC(S(=O)(=O)NC(=O)CC)=CC=C1C1=C(C)ON=C1C1=CC=CC=C1 TZRHLKRLEZJVIJ-UHFFFAOYSA-N 0.000 description 1
- 229960004662 parecoxib Drugs 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价技术领域。本方法分为三个步骤:首先将待测语音经过已经训练好的基于深度信念网络的语音增强模型,得到增强后的语音信号;然后,分别提取出增强前后信号的梅尔倒谱系数,做两个系数的差;最后将这个参数作为输入,通过第二层的BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价。与以往的无参考语音质量评价模型相比,本发明方法与主观质量评分的相关度更好,均方误差也更小。
Description
技术领域
本发明涉及基于深度信念网络的语音增强技术以及人工神经网络客观评估指标映射技术,尤其涉及基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价技术领域。
背景技术
随着科技的发展,语音通信已经成为通信学必不可少的一部分了。从电话通信到VoIP,语音通信渗透到了我们生活的很多方面。由于在语音通信的传输过程中,信道对于语音的压缩,调制解调以及噪声干扰都会大大降低语音质量,从而降低人的听觉感受。为了能够设计出传输性能良好的通信系统,判断语音通信系统的性能就成为了很关键的环节。
语音质量评价方法根据评价主体的不同分为客观评价和主观评价方法。主观评价方法是人为判断一段语音的优劣并对其评分。一般的,我们将主观评价方法分为以下几种,ITU-TP.800和P.830建议书中给出的平均意见分方法(MOS),ANSI S3.2-1989标准判别音韵测试方法(DRT),以及Dynastat公司推出的判别满意度测试方法(DAM)。语音质量主观评价方法在很多场合都有应用,尤其是语音编码以及语音合成。虽然主观评价往往可以提供准确的结果,但是实现主观评价需要大量的实验人员,并对他们进行培训,操作复杂,耗时耗力。
由于语音主观评价遇到的种种困难,研究人员将研究重心放在了只利用机器就可以进行语音评价的客观评价方法。客观评价方法主要分为有参考的基于输入-输出的评价模型,以及无参考的基于输出的评价模型。近几十年来,研究者一直集中研究有参考的评价算法上并获得了飞速的进展。
PESQ算法是由英国电信(BT)和KPN共同开发的,2001年是被认定为ITU-TP.862规范,是一种评价网络语音传输质量的比较好的标准。通过模拟人耳听觉特性,将输入输出信号转换成感知上的形式,比较贴合听众的听觉感受。2010年ITU-T颁布的P.863标准,即POLQA算法,对PESQ进行了改进,成为下一代宽带网络的语音质量客观评价的主流标准。POLQA与主观分数之间的相关系数是目前最高的,但是由于其是基于输入-输出的评价方法,且运算复杂度较高,在使用时不具备灵活性和实时性。
近年来,研究者们开始着重研究能够不依赖于输出信号的无参考评价算法,目前受到广泛使用的无参考语音质量评价模型是基于窄带电话网络的P.563协议,P.563协议是第一个经过ITU认可的基于输出的语音客观评价标准。P.563将失真类型分为不同级别,利用逻辑分类器逐级对失真信号进行分类,直到符合其中一级的失真标准,再依据不同的失真种类建立映射模型,对提取出的特征进行线性加权组合最终得到客观话音质量结果。这种方法相对于有参考评价方法具有更高的灵活性,但是相关度较低。
我国授权公开号为CN 102881289 A(公开日:2013年1月15日)的专利“一种基于听觉感知特性的语音质量客观评价算法”,公开了一种简单有效的基于听觉感知特性的语音质量客观评价算法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC特征参数提取过程,有效提高了客观评价结果和主观评价算法之间的相关度。但是这种方法是基于输入-输出信号的评价方法,不适用于无参考信号的情况。目前无参考的语音质量客观评估方法,相比有参考的方法由于没有输入纯净信号作参考,准确度还不高,亟待进一步研究。
发明内容
本发明的目的是为了解决现有的无参考语音客观评价算法结果与主观评价得分相关性过低的问题,提供基于深度学习语音增强的无参考语音质量客观评估方法,提高了客观评价方法的准确性。
为了实现上述目的,本发明方法的基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价。深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数。
本发明方法的具体实施步骤如下:
步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;
其中,待测失真语音信号又称为增强前信号;
步骤一具体为:
步骤1.1通过数学变换提取待测失真语音信号特征;
步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练,输出训练好的模型,又称为语音增强模型;
其中,进行训练的深度信念网络模型含有两个隐含层,训练过程主要分为两个阶段:预训练和微调;
步骤1.2A预训练阶段,将纯净语音和失真语音的特征作为训练集,模型初始化过程使用贪婪无监督逐层训练算法训练;
步骤1.2B微调阶段是有监督训练,采用传统的反向传播BP算法来学习模型的参数;
步骤1.3经过步骤1.2得到训练好的模型各项参数后,将失真语音的特征输入语音增强模型即可得到增强后语音的对应特征;
步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;
步骤二具体为:
步骤2.1对增强前信号和增强后信号进行分帧处理;
步骤2.2将经过步骤2.1分帧处理后的每一帧信号的频率通过如下公式(1)
将每一帧信号的频率映射到梅尔频率mel(f)上来;
其中,步骤2.2操作的原因是人对频率的听觉感应是非线性的;
步骤2.3将增强前信号和增强后信号分别经过带通滤波器分别得到滤波器后输出信号的能量;
其中,带通滤波器是一组自低频至高频由密到疏的滤波器;经滤波器输出的信号能量是梅尔特征的基本形式;
步骤2.4再对步骤2.3输出信号的能量求取倒数得到MFCC系数,即梅尔倒谱系数;
其中,MFCC系数是一个K维的向量,优选的K取值为39;也可以是其他整数值;
其中,梅尔倒谱系数完全基于听觉模型,不依赖于信号本身的特性,具有很好的鲁棒性,符合人耳的听觉感受;
步骤2.5对增强前信号及增强后信号中的每条语音所有帧的MFCC系数做均值,得到一组MFCC系数;
其中,一组MFCC系数中包含两个均值,即增强前信号及增强后信号中的每条语音所有帧的MFCC系数均值;
步骤2.6再将步骤2.5输出的一组MFCC系数中的增强后信号MFCC系数减去增强前信号MFCC系数,将这个值作为后续映射阶段输入参数步骤三、将步骤2.6中得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;
其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;
至此,从步骤一到步骤三,完成了基于深度学习语音增强的无参考语音质量客观评估方法。
有益效果
本发明基于深度学习语音增强的无参考的语音质量客观评估方法,对比现有的技术,有如下的有益效果:
1.本发明所述的方法提出了基于深度学习语音增强的无参考语音质量客观评估方法,利用深度学习语音增强技术将失真语音进行增强后,再与待测失真信号进行参数比较,模拟有参考评价方法中纯净语音与测试语音之间的失真量,与其他的无参考模型相比,具有与主观评价更高的相关性以及更小的均方根误差,甚至达到了有参考评价方法的性能;
2.本发明所述方法虽然模拟了有参考评价方法中失真量的概念,但是只需向模型输入语音通信系统的输出信号即可,不需要原始纯净语音作参考,与其他有参考评价方法相比具有更高的适应性,实时性以及灵活性。
附图说明
图1为本发明基于深度学习语音增强的无参考语音质量客观评估方法的流程框图;
图2为本发明基于深度学习语音增强的无参考语音质量客观评估方法使用的深度信念网络流程图;
图3为本发明基于深度学习语音增强的无参考语音质量客观评估方法深度学习语音增强的流程图;
图4为基于深度学习语音增强的无参考语音质量客观评估方法步骤二MFCC系数提取流程图;
图5为本发明基于深度学习语音增强的无参考语音质量客观评估方法实施例中的得分结果散点图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
实施例
本实例中采用是窄带纯净语音信号以及它们在20种失真条件下的失真信号作为语音增强模型的训练数据。对这些失真语音用MOS方法进行主观测试评分,作为最终映射环节的训练集和测试集。
本发明方法步骤如图1所示,具体如下:
步骤a、将待测的失真语音信号经过训练好的基于深度信念网络(DBN)的语音增强模型,得到增强后的信号,对应图1中的(1);
在这一步中,分为两个阶段,训练阶段和增强阶段。在训练阶段,首先对纯净语音信号和失真语音信号提取对数功率谱信息和相位信息,然后将失真信号参数输入深度信念网络中,深度信念网络含有两个隐含层,每层对应一个RBM。模型用贪婪无监督逐层训练算法进行预训练,传统的反向传播BP算法进行微调,结构如图2所示。RBM是一种特殊的马尔可夫随机场,包含一个由随机的隐单元构成的隐层和一个由随机可见单元构成的可见层。对于一个RBM,v表示所有可见单元,h表示所有隐单元,假设模型参数为θ,可见单元和隐单元的联合概率分布p(v,h;θ)可以用能量函数E(v,h;θ)定义为式中,是归一化因子,其中exp为指数运算;RBM关于可见向量v的边缘分布为本发明中提出的深度信念网络模型模型中第一层RBM是高斯-伯努利分布,可见层为实值,隐藏层为(0,1)二值分布;第二层为伯努利-伯努利分布,隐藏层可见层均为(0,1)二值分布;
对于高斯分布-伯努利分布RBM,它的能量函数为 wij表示可见单元vi和隐单元hj之间的对称连接权值,bi和aj分别为表示偏置项,I和J分别是可见单元和隐单元的数目。条件概率的计算公式可用下式表示: 式中,vi取实值,服从均值为方差为1的高斯分布;
对于伯努利分布-伯努利分布的RBM,能量函数定义为 条件概率的计算公式可用下式表示:
训练过程中使用对比散度算法近似计算对数似然logp(v;θ)的梯度,更新RBM层与层之间的权重以及节点的阈值。将可见层设置为训练样本,并利用上面的条件概率公式计算隐藏层单元的二值状态,在所有隐藏单元状态确定了之后,再确定每个可见单元取值为1的概率,进而得到可见层的一个重构。然后将重构的可见层作为真实的模型代入RBM中,就可以进行梯度下降算法了;
RBM训练结束后,仅是进行了网络的预训练,然后需要利用反向BP神经网络算法联合纯净语音对数功率谱和增强语音的对数功率谱特征的最小均方差函数来精调网络的权值。均方根误差的公式为其中分别表示样本指数为n,第d个增强语音和纯净语音的对数功率谱特征。N是“迷你批量”的大小,D是对数功率谱特征向量的大小。L为隐藏层的总数量,L+1层代表的为输出层,(Wl,bl)是l层的权重和偏置。如果学习率为λ的话,权重W和偏置b按公式更新;
在增强阶段,将待测语音信号提取出的对数功率谱信息通过训练好的深度信念网络,得到增强信号对数功率谱信息,然后需要对增强信号波形进行重建,进行傅里叶逆变换即可,重建过程中所需的相位信息即为增强前失真语音提取的相位信息。整个语音增强部分如图3所示;
步骤b、计算出增强前后信号的MFCC系数(梅尔倒谱系数),做两个系数的差,对应于图1中的(2);
在这一步中,对失真信号和增强信号进行特征参数提取,这里选择的参数是反映了人耳对频率听觉感受的MFCC系数,提取过程如图4所示。首先进行语音信号的预加重滤去低频分量,再对信号进行分帧加窗,在实例中选择25ms作为帧长,15ms作为帧移,利用快速傅里叶变换将语音信号变换在频域后,经过一组从低频至高频由密到疏的梅尔滤波器组,最终进行对数运算和离散余弦变换后得到每一帧的MFCC系数,求取平均值即为这条语音信号的MFCC系数。然后增强前后语音的MFCC系数对应相减即可获得映射步骤的输入参数;
步骤c、将增强前后信号MFCC系数差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评估;
在这一步中,将上述环节中得到的MFCC系数差值作为输入训练BP神经网络映射模型,神经网络为3层结构,隐藏层激励函数为sigmoid函数,输出层为线性函数,输入特征参数拟合主观评价分数,如图1中的(3)。在测试和实际使用中,将三个环节连接在一起即可得到整体模型,输入待测语音最终得到语音客观质量评价分数;
图5为模型在本实例中的测试结果散点图。图中横坐标表示待测语音的主观评价分数,纵坐标表示模型预测分数,图中的趋势线为y=x线(主客观分数完全相等)。由图中可以看出,图中散点分布的趋势线较接近于y=x线,与主观分数相关系数达0.92,均方根误差为0.35;而P.563的相关系数为0.6,均方根误差1.27。反映出本实例算法所得到的客观分数与主观评分的相关性比较高,且均方根误差更小。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数;具体实施步骤如下:
步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;
其中,待测失真语音信号又称为增强前信号;待测失真语音信号,即增强前信号中包含很多条语音信号;相应的增强后信号中也包含多条语音信号;
步骤一到步骤三均以单条语音为处理单位进行整体处理;
步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;
步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;
其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;
至此,就完成了基于深度学习语音增强的无参考语音质量客观评估方法。
2.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:步骤一具体为:
步骤1.1通过数学变换提取待测失真语音信号特征;
步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练,输出训练好的模型,又称为语音增强模型;
其中,进行训练的深度信念网络模型含有两个隐含层,训练过程主要分为两个阶段:预训练和微调;
步骤1.2A预训练阶段,将纯净语音和失真语音的特征作为训练集,模型初始化过程使用贪婪无监督逐层训练算法训练;
步骤1.2B微调阶段是有监督训练,采用传统的反向传播BP算法来学习模型的参数;
步骤1.3经过步骤1.2得到训练好的模型各项参数后,将失真语音的特征输入语音增强模型即可得到增强后语音的对应特征。
3.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:步骤二具体为:
步骤2.1对增强前信号和增强后信号进行分帧处理;
步骤2.2将经过步骤2.1分帧处理后的每一帧信号的频率通过如下公式(1)将每一帧信号的频率映射到梅尔频率mel(f)上来;
<mrow>
<mi>m</mi>
<mi>e</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>2595</mn>
<mo>*</mo>
<msub>
<mi>log</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mi>f</mi>
<mn>700</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,步骤2.2操作的原因是人对频率的听觉感应是非线性的;
步骤2.3将增强前信号和增强后信号分别经过带通滤波器分别得到滤波器后输出信号的能量;
其中,带通滤波器是一组自低频至高频由密到疏的滤波器;经滤波器输出的信号能量是梅尔特征的基本形式;
步骤2.4再对步骤2.3输出信号的能量求取倒数得到MFCC系数,即梅尔倒谱系数;
其中,MFCC系数是一个K维的向量,优选的K取值为39;也可以是其他整数值;
其中,梅尔倒谱系数完全基于听觉模型,不依赖于信号本身的特性,具有很好的鲁棒性,符合人耳的听觉感受;
步骤2.5对增强前信号及增强后信号中的每条语音所有帧的MFCC系数做均值,得到一组MFCC系数;
其中,一组MFCC系数中包含两个均值,即增强前信号及增强后信号中的每条语音所有帧的MFCC系数均值;
步骤2.6再将步骤2.5输出的一组MFCC系数中的增强后信号MFCC系数减去增强前信号MFCC系数,将这个值作为后续映射阶段输入参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710498188.0A CN107358966B (zh) | 2017-06-27 | 2017-06-27 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710498188.0A CN107358966B (zh) | 2017-06-27 | 2017-06-27 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107358966A true CN107358966A (zh) | 2017-11-17 |
CN107358966B CN107358966B (zh) | 2020-05-12 |
Family
ID=60273932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710498188.0A Active CN107358966B (zh) | 2017-06-27 | 2017-06-27 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358966B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN108615533A (zh) * | 2018-03-28 | 2018-10-02 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
CN108806725A (zh) * | 2018-06-04 | 2018-11-13 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109151692A (zh) * | 2018-07-13 | 2019-01-04 | 南京工程学院 | 基于深度学习网络的助听器自验配方法 |
CN109671440A (zh) * | 2019-01-09 | 2019-04-23 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN110010144A (zh) * | 2019-04-24 | 2019-07-12 | 厦门亿联网络技术股份有限公司 | 语音信号增强方法及装置 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
WO2019233362A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN111354375A (zh) * | 2020-02-25 | 2020-06-30 | 咪咕文化科技有限公司 | 一种哭声分类方法、装置、服务器和可读存储介质 |
CN111370028A (zh) * | 2020-02-17 | 2020-07-03 | 厦门快商通科技股份有限公司 | 一种语音失真检测方法及系统 |
CN111599349A (zh) * | 2020-04-01 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种训练语言模型的方法及系统 |
CN111653272A (zh) * | 2020-06-01 | 2020-09-11 | 重庆科技学院 | 一种基于深度信念网络的车载语音增强算法 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN112466335A (zh) * | 2020-11-04 | 2021-03-09 | 吉林体育学院 | 基于重音突现度的英语发音质量评价方法 |
CN112562724A (zh) * | 2020-11-30 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 语音质量的评估模型、训练评估方法、系统、设备及介质 |
CN112634946A (zh) * | 2020-12-25 | 2021-04-09 | 深圳市博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN114242044A (zh) * | 2022-02-25 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 语音质量评估方法、语音质量评估模型训练方法及装置 |
CN114374924A (zh) * | 2022-01-07 | 2022-04-19 | 上海纽泰仑教育科技有限公司 | 录音质量检测方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
CN102881289A (zh) * | 2012-09-11 | 2013-01-16 | 重庆大学 | 一种基于听觉感知特性的语音质量客观评价方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN106531190A (zh) * | 2016-10-12 | 2017-03-22 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
-
2017
- 2017-06-27 CN CN201710498188.0A patent/CN107358966B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
CN102881289A (zh) * | 2012-09-11 | 2013-01-16 | 重庆大学 | 一种基于听觉感知特性的语音质量客观评价方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN106531190A (zh) * | 2016-10-12 | 2017-03-22 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
Non-Patent Citations (1)
Title |
---|
赵凌伟 等: "基于Mel尺度的语音干扰效果评估方法研究", 《无线电工程》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN108615533A (zh) * | 2018-03-28 | 2018-10-02 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
CN108806725A (zh) * | 2018-06-04 | 2018-11-13 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
WO2019233362A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN109151692A (zh) * | 2018-07-13 | 2019-01-04 | 南京工程学院 | 基于深度学习网络的助听器自验配方法 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109065067B (zh) * | 2018-08-16 | 2022-12-06 | 福建星网智慧科技有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN109671440B (zh) * | 2019-01-09 | 2020-08-14 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN109671440A (zh) * | 2019-01-09 | 2019-04-23 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN109872730B (zh) * | 2019-03-14 | 2021-01-12 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN110010144A (zh) * | 2019-04-24 | 2019-07-12 | 厦门亿联网络技术股份有限公司 | 语音信号增强方法及装置 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
CN111370028A (zh) * | 2020-02-17 | 2020-07-03 | 厦门快商通科技股份有限公司 | 一种语音失真检测方法及系统 |
CN111354375A (zh) * | 2020-02-25 | 2020-06-30 | 咪咕文化科技有限公司 | 一种哭声分类方法、装置、服务器和可读存储介质 |
CN111599349A (zh) * | 2020-04-01 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种训练语言模型的方法及系统 |
CN111653272A (zh) * | 2020-06-01 | 2020-09-11 | 重庆科技学院 | 一种基于深度信念网络的车载语音增强算法 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN111968677B (zh) * | 2020-08-21 | 2021-09-07 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN112466335A (zh) * | 2020-11-04 | 2021-03-09 | 吉林体育学院 | 基于重音突现度的英语发音质量评价方法 |
CN112466335B (zh) * | 2020-11-04 | 2023-09-29 | 吉林体育学院 | 基于重音突现度的英语发音质量评价方法 |
CN112562724A (zh) * | 2020-11-30 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 语音质量的评估模型、训练评估方法、系统、设备及介质 |
CN112562724B (zh) * | 2020-11-30 | 2024-05-17 | 携程计算机技术(上海)有限公司 | 语音质量的评估模型、训练评估方法、系统、设备及介质 |
CN112634946A (zh) * | 2020-12-25 | 2021-04-09 | 深圳市博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN112634946B (zh) * | 2020-12-25 | 2022-04-12 | 博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN114374924A (zh) * | 2022-01-07 | 2022-04-19 | 上海纽泰仑教育科技有限公司 | 录音质量检测方法及相关装置 |
CN114374924B (zh) * | 2022-01-07 | 2024-01-19 | 上海纽泰仑教育科技有限公司 | 录音质量检测方法及相关装置 |
CN114242044A (zh) * | 2022-02-25 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 语音质量评估方法、语音质量评估模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107358966B (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358966A (zh) | 基于深度学习语音增强的无参考语音质量客观评估方法 | |
CN102881289B (zh) | 一种基于听觉感知特性的语音质量客观评价方法 | |
CN108417228B (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN109524014A (zh) | 一种基于深度卷积神经网络的声纹识别分析方法 | |
CN107293286B (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN111653289B (zh) | 一种回放语音检测方法 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN101527141B (zh) | 基于径向基神经网络的耳语音转换为正常语音的方法 | |
CN106941005A (zh) | 一种基于语音声学特征的声带异常检测方法 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
Kressner et al. | Evaluating the generalization of the hearing aid speech quality index (HASQI) | |
CN109727608A (zh) | 一种基于中文语音的病态嗓音评估方法 | |
CN106997765B (zh) | 人声音色的定量表征方法 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
CN101452698B (zh) | 一种自动嗓音谐噪比分析方法 | |
CN108335702A (zh) | 一种基于深度神经网络的音频降噪方法 | |
CN103054586B (zh) | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN110085254A (zh) | 基于beta-VAE和i-vector的多对多语音转换方法 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN110189766A (zh) | 一种基于神经网络的语音风格转移方法 | |
Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
Qian et al. | Combining equalization and estimation for bandwidth extension of narrowband speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |