CN111968677A - 面向免验配助听器的语音质量自评估方法 - Google Patents
面向免验配助听器的语音质量自评估方法 Download PDFInfo
- Publication number
- CN111968677A CN111968677A CN202010854269.1A CN202010854269A CN111968677A CN 111968677 A CN111968677 A CN 111968677A CN 202010854269 A CN202010854269 A CN 202010854269A CN 111968677 A CN111968677 A CN 111968677A
- Authority
- CN
- China
- Prior art keywords
- voice
- layer
- output
- neural network
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000000306 recurrent effect Effects 0.000 claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 22
- 208000032041 Hearing impaired Diseases 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 241001672694 Citrus reticulata Species 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 206010011878 Deafness Diseases 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000010370 hearing loss Effects 0.000 claims description 2
- 231100000888 hearing loss Toxicity 0.000 claims description 2
- 208000016354 hearing loss disease Diseases 0.000 claims description 2
- 238000012076 audiometry Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013441 quality evaluation Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Fuzzy Systems (AREA)
- Neurosurgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种面向免验配助听器的语音质量自评估方法,包括:构建并训练语音质量自评估网络:待测语音通过卷积神经网络提取并输出待测语音的帧级特征;待测语音的帧级特征通过循环神经网络得到并输出待测语音的段级特征;待测语音的段级特征输入至线性映射模型和Softmax分类器,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。本发明公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络、循环神经网络和Softmax分类器有机地结合成一个整体,结合卷积神经网络的特征挖掘能力和循环神经网络的时序建模能力,提高无参考语音质量客观评价方法准确度,大大简化了处理过程。
Description
技术领域
本发明涉及语音质量评价技术领域,尤其涉及一种面向免验配助听器的语音质量自评估方法。
背景技术
传统助听器主要通过放大声信号来补偿患者缺失的声波能量和频率成分,并依靠听力专家的验配经验和专业技能来调配算法参数以尽可能达到最佳的工作状态。依靠听力专家来调配参数的本质是通过大量的知识学习和验配工作来使听力专家获得经验,使其达到一定的专业水准。很显然,这种完全依靠专家水平的验配方法低效且难以有效传承,具有很大的局限性。改善这一情况的策略之一是研究一种可以取代听力专家进行助听器调配的方法,比如助听器根据患者情况,自动评估语音质量,从而自动更新算法参数。
在语音质量评价方面,根据评价主体的不同,语音质量评价方法可分为主观评价方法和客观评价方法两大类。主观评价方法就是评测人员按照特定的规则对语音质量进行打分,常见的主观评价方法包括平均意见得分(MOS)、诊断韵字测试(DRT)、诊断满意度测量(DAM)等。主观评价结果能够真实反映人对语音质量的主观感受,具有较高的准确度。但是这种方法需要耗费大量的时间和人力,并且需要严格地控制测试条件和主观因素,因此评测结果的重复性和稳定性差。客观评价方法则是通过算法自动评测语音质量,它具有省时省力、实时性高、结果可重复等优势,但是可靠性和准确度不及主观评价方法。在实时应用中,人们一般用客观评价方法来实现语音质量的自动评估。
根据是否需要原始参考信号,语音质量客观评价模型可分为单端模式和双端模式。双端模式的语音质量评价算法需要同时提供待测失真信号和原始参考信号,目前国际电信联盟(ITU)标准化的双端客观评价算法有ITU-T P.861(MNB)、ITU-T P.862(PESQ)、ITU-T P.863(POLQA)等,其他常用的客观评价算法还有短时客观可懂度(STOI)等。在这些客观评价算法中,一般都是计算失真信号和原始信号在感知域上的差异,从而得到评价结果。双端评价方法一般具有较高的准确性,但在某些应用场合中无法获取参考信号,这极大地限制了它的应用范围。单端评价方法不需要原始信号作为参考,它直接从失真信号中提取特征参数,并利用预先建立的先验知识将其映射成评价结果。被标准化的语音质量单端评价方法有ITU-T P.563和ITU-T G.107(E-Model)等。近年来,由于深度学习的兴起,一些基于深度学习的单端语音质量评价方法也被提出,比如AutoMOS、QualityNet、NISQA、MOSNet等。相比于双端评价方法,单端评价方法的灵活性更强,但由于缺乏参考,其准确度相对较低,有待进一步改进和提高。
发明内容
发明目的:针对现有技术中无参考语音质量客观评价方法准确度不高的缺陷,本发明公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络(CNNs)、循环神经网络(RNNs)和Softmax分类器有机地结合成一个整体,利用了CNNs的特征挖掘能力和RNNs的时序建模能力,充分发挥了不同网络模型的优势,提高无参考语音质量客观评价方法准确度,不需要任何预处理和人工特征提取操作,大大简化了处理过程。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种面向免验配助听器的语音质量自评估方法,包括以下步骤:
S1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;
S2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;
S3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;
S4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。
优选地,所述步骤S1中利用主观测试数据进行训练,直至训练完成的具体过程为:所述主观测试数据为语音时域数据,语音质量自评估网络输出主观MOS评分,训练过程中计算语音质量自评估网络的损失函数,直至语音质量自评估网络的损失函数小于阈值,语音质量自评估网络训练完成;所述语音质量自评估网络的损失函数为:
其中,B表示批大小,MOSo,i表示预测的客观MOS评分,MOSs,i表示主观MOS评分。
优选地,所述语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。
优选地,所述步骤S2具体过程为:
S21、待测语音进行分帧处理:对待测语音信号进行分帧,得到语音数据矩阵S∈RT ×N,其中R表示实数集,T表示帧数,N表示帧长;
S21、提取待测语音的帧级特征:将语音数据矩阵S输入至卷积神经网络中的语音输入层,语音数据矩阵S经过语音输入层和第一Reshape层转为三维矩阵S′∈RT×N×1,再输入至二维卷积层、池化层和第二Reshape层,最终输出待测语音的帧级特征,所述帧级特征为二维矩阵F∈RT×M,其中M表示帧级特征维度;帧级特征F通过帧级特征输出层输出,并作为整个卷积神经网络的输出。
优选地,所述步骤S3具体过程为:
S31、将卷积神经网络输出的帧级特征F输入至循环神经网络中,先经过帧级特征输入层并输出;
S32、帧级特征输入层输出的帧级特征F在每个行注意力-LSTM层中计算当前时间步t的输出:在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其中hi(i=1,2,...,t)为第i时间步的隐藏输出列向量,ht对于hi的权重定义为:
其中,W为权重矩阵,上标T表示矩阵转置;对各时间步的隐藏输出进行加权求和得到当前时间步t的输出为:
S33、所有行注意力-LSTM层的输出结果输入至Dense-ReLU层计算段级特征:所有行注意力-LSTM层的输出结果输入至Dense-ReLU层中,Dense-ReLU层在最后一个时间步的输出为u∈RK,其中u∈RK是一个信息高度压缩的矢量,K表示Dense-ReLU层的节点,将矢量u作为描述整段语音特性的段级特征。
优选地,所述步骤S4具体过程为:
S41:将段级特征u通过Softmax分类器,得到输出矢量o;所述输出矢量o=(o1,o2,...,o6)为6种语音失真类型的预测概率分布;
S42、对输出矢量o进行判决,得到失真类型r,计算公式为:
其中,i∈{1,2,3,4,5,6},代表6种语音失真类型;
S43、将段级特征矢量u、Softmax分类器输出的失真类型r和听障患者的11维听力图信息输入至线性映射模型,得到中间评分结果s;
S44、结合失真类型r和中间评分结果s得到最终的客观评分MOSo=sr;其中,sr是中间评分结果s的第r个分量。
优选地,所述6种语音失真类型为根据P.563得到的分类类型,具体为:强背景噪声、信号静音与间断、乘性噪声、话音机械化、不自然的男声和不自然的女声。
优选地,所述步骤S41中获取输出矢量o的具体过程为:
所述Softmax分类器包括一个Dense层和一个Softmax层,Dense层和Softmax层的节点数设为6,对应6种设定的语音失真类型;假设Softmax层的输入为z,其第i(i∈{1,2,3,4,5,6})个节点的输出为:
Softmax层的输出矢量o=(o1,o2,...,o6)可以看作6种失真类型的概率分布,其中oi对应失真类型为第i种的预测概率。
优选地,所述步骤S43中获取中间评分结果s的具体过程为:
所述线性映射模型包括一个节点数为6的线性Dense层,用于对段级特征矢量u的各分量结合听损信息进行线性组合,每种失真类型对应一组不同的线性系数,所述系数为Dense层的权重Wcoeff∈R32×6,Wcoeff的第i(i∈{1,2,3,4,5,6})列即第i种失真类型的线性系数。
优选地,步骤S1中主观测试数据为ITU-T规范的P系列语音数据库或听障患者验听后的汉语普通话言语测听材料。
有益效果:
1、本发明的面向免验配助听器的语音质量自评估方法,相比于其他无参考的语音质量评价方法,不需要任何预处理和人工特征提取操作,大大简化了处理过程,适用于听障患者进行语音质量评估;
2、本发明将卷积神经网络(CNNs)、循环神经网络(RNNs)和Softmax分类器有机地结合成一个整体,利用了CNNs的特征挖掘能力和RNNs的时序建模能力,充分发挥了不同网络模型的优势,提高无参考语音质量客观评价方法准确度;
3、本发明在传统的LSTM模型中融入行注意力机制,使循环单元能够从隐藏输出中筛选出丰富的有用信息;
4、本发明利用段级特征判断失真类型,再根据失真类型选择相应的线性系数将特征映射成客观评分;本发明中方法构思新颖,实时性和适用性强,具有良好的应用价值。
附图说明
图1是本发明面向免验配助听器的语音质量自评估方法的流程图;
图2是本发明实施例的结构图;
图3是本发明实施例中所使用的卷积神经网络结构示意图;
图4是本发明实施例中所使用的循环神经网络结构示意图;
图5是本发明与P.563在测试集上的预测结果散点图。
具体实施方式
以下结合附图和实施例对本发明做进一步的说明和解释。
实施例:
如附图1所示,本发明的一种面向免验配助听器的语音质量自评估方法,包括以下步骤:
步骤1:如附图2所示,构建一个由卷积神经网络、循环神经网络和线性映射模型构成的混合网络,利用主观测试数据进行训练。
主观测试数据来自ITU-T规范的P系列的补充材料23被用作编码语音数据库。数据库中的源语音由两男两女录制而成,涵盖了英语、日语、法语和意大利语四种语言,以多种编解码条件对源语音进行处理。数据库中共包含1328个带有人工评分的编码语音样本,每个样本由24人打分,取其平均值作为样本的主观MOS标签。从中随机选取250个样本用于测试,选取时确保测试样本和训练样本不会来自同一条源语音。由于每个样本包含两个独立的句子,我们使用VAD将每个样本分成两个子样本,这些子样本与原始样本具有相同的MOS标签。这样一共得到2156个训练样本和500个测试样本。
针对听障患者的主观测试集的原始测听数据来自于国内第一套标准化的汉语普通话言语测听材料——普通话单音节识别率测听CD。在验配过程中,验配专家会根据听障患者的听力状况和语音评价反馈调节助听器参数,同时播放修改后的语音给听力患者进行试听,听障患者对声音进行评价后,反馈给验配专家进行下一轮调配。除了实际验配过程中的测试数据,本发明还将普通话单音节识别率测听CD中的语音样本叠加15种NoiseX92库中的噪声,信噪比从-10dB到20dB,间隔5dB,然后使用助听器语音质量指数(HASQI)获得语音评价指标。针对听障患者的主观测试数据一共有1500个训练样本和250个测试样本。
构建并训练一个由卷积神经网络、循环神经网络和线性映射模型构成的混合网络,其输入是语音时域数据,目标输出是主观MOS评分;采用MMSE准则对网络进行优化,损失函数具体如下:
其中,B表示批大小,即batch size,MOSo,i表示预测的客观评分,MOSs,i表示主观评分,即主观测试数据中的主观MOS标签。
其中,语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。本发明将卷积神经网络(CNNs)、循环神经网络(RNNs)和Softmax分类器有机地结合成一个整体,利用了CNNs的特征挖掘能力和RNNs的时序建模能力,充分发挥了不同网络模型的优势,提高无参考语音质量客观评价方法准确度。
步骤2:将待测语音输入卷积神经网络,提取待测语音的帧级特征:对待测语音信号进行分帧,得到语音数据矩阵S∈RT×N,其中R表示实数集,T表示帧数,N表示帧长;
首先对待测语音信号进行分帧,本实施例设置采样率为16kHz,帧长为320点,帧移为帧长的一半,得到语音数据矩阵S∈RT×320,其中R表示实数集,T表示帧数;假设语音点数为L,则其中表示向下取整;然后将矩阵S作为卷积神经网络的输入,提取其隐含的深层特征;上述卷积神经网络结构如附图3所示,语音数据矩阵S首先经过第一Reshape层转为三维矩阵S′∈RT×320×1,然后依次经过二维卷积和平均池化,5个二维卷积层的卷积核大小(kernel size)均为3×5,第一个卷积层采用线性激活函数,其他卷积层采用ReLU激活函数,扩张率(di1ation rate)分别为1×1、1×2、1×4、1×8、1×16,通道数分别为32、32、64、64、1,用0填充边界以使卷积前后矩阵前两维大小不变;5个池化层的池化窗口大小均为1×5,移动步长(strides)均为[1,1];最后经过第二Reshape层转为二维特征矩阵F0∈RT×300;顶层每个单元的感受野大小为11×145,也就是说,矩阵F0的一个元素最多由输入语音数据的11×145个样点决定;考虑到卷积过程中的补零操作,舍弃F0首尾各62列,最终输入到下一级的特征矩阵为F∈RT×176,即帧级特征F;
步骤3:将卷积神经网络提取的帧级特征F经过一个结合行注意力机制的基于LSTM的循环神经网络,得到语音的段级特征;
将上述帧级特征F作为输入,通过一个循环神经网络,本实施例中,该循环神经网络结构如附图4所示,循环神经网络包含4个行注意力-LSTM层和一个Dense-ReLU层,每个隐层即行注意力-LSTM层的节点数为128;输出层即Dense-ReLU的节点数为32,激活函数为ReLU函数;在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其中hi(i=1,2,...,t)为第i时间步的隐藏输出列向量,ht对于hi的权重定义为:
其中,score(ht,hi)按照乘性注意力定义为:
其中,W为权重矩阵,上标T表示矩阵转置;对各时间步的隐藏输出进行加权求和得到当前时间步的输出为:
输出层在最后一个时间步的输出u∈RK是一个信息高度压缩的低维矢量,可将其看作能够描述整段语音特性的段级特征,其中K表示Dense-ReLU层的节点;本实施例中节点K为32,因此段级特征为u∈R32。
本发明在传统的LSTM模型中融入行注意力机制,使循环单元能够从隐藏输出中筛选出丰富的有用信息。
步骤4:将循环神经网络输出的段级特征u作为输入,分别通过Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分;
步骤4包含以下分步骤:
步骤4.1,将段级特征u通过一个Softmax分类器,得到输出矢量o;
该分类器由一个Dense层和一个Softmax层构成,鉴于P.563将失真类型分为6种,具体为:强背景噪声、信号静音与间断、乘性噪声、话音机械化、不自然的男声和不自然的女声。将Dense层和Softmax层的节点数也设为6;假设Softmax层的输入为z,其第i(i∈{1,2,3,4,5,6})个节点的输出为:
步骤4.2,对输出矢量o进行判决,得到失真类型r;
具体地,判决原理是取使概率最大的失真类型作为判决结果,即:
步骤4.3,将段级特征矢量u、Softmax分类器输出的失真类型r和听障患者的11维听力图信息通过一个线性映射模型,得到中间评分结果s;
其中11维听力图信息包括听障患者在125Hz,250Hz,500Hz,750Hz,1kHz,1.5kHz,2kHz,3kHz,4kHz,6kHz,8kHz的听阈,该11维听力图信息由听障患者通过听力测试得到。
线性映射模型是一个节点数为6的线性Dense层,其作用就是对u的各分量和11维听力图信息进行线性组合,每种失真类型对应一组不同的线性系数,这些系数就是Dense层的权重Wcoeff∈R32×6,Wcoeff的第i(i∈{1,2,3,4,5,6})列即第i种失真类型的线性系数;线性Dense层输出中间评分结果s;
步骤4.4,结合失真类型和中间评分结果s得到最终的客观评分MOSo;具体地,MOSo=sr,其中,sr是s的第r个分量。
本发明利用段级特征判断失真类型,再根据失真类型选择相应的线性系数将特征映射成客观评分;本发明中方法构思新颖,实时性和适用性强,具有良好的应用价值。本发明的面向免验配助听器的语音质量自评估方法,相比于其他无参考的语音质量评价方法,不需要任何预处理和人工特征提取操作,大大简化了处理过程。
为验证本发明的语音质量自评估准确度,在同一测试集上,分别采用本发明中所述方法和P.563对结果进行预测,如附图5所示,其中横坐标为真实MOS评分,纵坐标为预测MOS评分,曲线为y=x线;从附图5中可以看出,本发明所述方法(SEOESQ)获取的各散点相较于P.563,集散密度更接近曲线,即本发明的语音质量自评估准确度更高。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种面向免验配助听器的语音质量自评估方法,其特征在于,包括以下步骤:
S1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;
S2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;
S3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;
S4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。
3.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。
4.根据权利要求3所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S2具体过程为:
S21、待测语音进行分帧处理:对待测语音信号进行分帧,得到语音数据矩阵S∈RT×N,其中R表示实数集,T表示帧数,N表示帧长;
S21、提取待测语音的帧级特征:将语音数据矩阵S输入至卷积神经网络中的语音输入层,语音数据矩阵S经过语音输入层和第一Reshape层转为三维矩阵S′∈RT×N×1,再输入至二维卷积层、池化层和第二Reshape层,最终输出待测语音的帧级特征,所述帧级特征为二维矩阵F∈RT×M,其中M表示帧级特征维度;帧级特征F通过帧级特征输出层输出,并作为整个卷积神经网络的输出。
5.根据权利要求4所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S3具体过程为:
S31、将卷积神经网络输出的帧级特征F输入至循环神经网络中,先经过帧级特征输入层并输出;
S32、帧级特征输入层输出的帧级特征F在每个行注意力-LSTM层中计算当前时间步t的输出:在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其中hi(i=1,2,...,t)为第i时间步的隐藏输出列向量,ht对于hi的权重定义为:
其中,W为权重矩阵,上标T表示矩阵转置;对各时间步的隐藏输出进行加权求和得到当前时间步t的输出为:
S33、所有行注意力-LSTM层的输出结果输入至Dense-ReLU层计算段级特征:所有行注意力-LSTM层的输出结果输入至Dense-ReLU层中,Dense-ReLU层在最后一个时间步的输出为u∈RK,其中u∈RK是一个信息高度压缩的矢量,K表示Dense-ReLU层的节点,将矢量u作为描述整段语音特性的段级特征。
6.根据权利要求5所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S4具体过程为:
S41:将段级特征u通过Softmax分类器,得到输出矢量o;所述输出矢量o=(o1,o2,...,o6)为6种语音失真类型的预测概率分布;
S42、对输出矢量o进行判决,得到失真类型r,计算公式为:
其中,i∈{1,2,3,4,5,6},代表6种语音失真类型;
S43、将段级特征矢量u、Softmax分类器输出的失真类型r和听障患者的11维听力图信息输入至线性映射模型,得到中间评分结果s;
S44、结合失真类型r和中间评分结果s得到最终的客观评分MOSo=sr;其中,sr是中间评分结果s的第r个分量。
7.根据权利要求6所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述6种语音失真类型为根据P.563得到的分类类型,具体为:强背景噪声、信号静音与间断、乘性噪声、话音机械化、不自然的男声和不自然的女声。
9.根据权利要求6所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S43中获取中间评分结果s的具体过程为:
所述线性映射模型包括一个节点数为6的线性Dense层,用于对段级特征矢量u的各分量和听损信息进行线性组合,每种失真类型对应一组不同的线性系数,所述系数为Dense层的权重Wcoeff∈R32×6,Wcoeff的第i(i∈{1,2,3,4,5,6})列即第i种失真类型的线性系数;线性Dense层输出中间评分结果s。
10.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S1中主观测试数据为ITU-T规范的P系列语音数据库或听障患者验听后的汉语普通话言语测听材料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010854269.1A CN111968677B (zh) | 2020-08-21 | 2020-08-21 | 面向免验配助听器的语音质量自评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010854269.1A CN111968677B (zh) | 2020-08-21 | 2020-08-21 | 面向免验配助听器的语音质量自评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968677A true CN111968677A (zh) | 2020-11-20 |
CN111968677B CN111968677B (zh) | 2021-09-07 |
Family
ID=73391167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010854269.1A Active CN111968677B (zh) | 2020-08-21 | 2020-08-21 | 面向免验配助听器的语音质量自评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968677B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686295A (zh) * | 2020-12-28 | 2021-04-20 | 南京工程学院 | 一种个性化听力损失建模方法 |
CN112904279A (zh) * | 2021-01-18 | 2021-06-04 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN113140228A (zh) * | 2021-04-14 | 2021-07-20 | 广东工业大学 | 一种基于图神经网络的声乐打分方法 |
CN113436644A (zh) * | 2021-07-16 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090085914A1 (en) * | 2007-09-28 | 2009-04-02 | Caviedes Jorge E | No-reference video quality model |
CN103957216A (zh) * | 2014-05-09 | 2014-07-30 | 武汉大学 | 基于音频信号特性分类的无参考音频质量评价方法和系统 |
CN104053112A (zh) * | 2014-06-26 | 2014-09-17 | 南京工程学院 | 一种助听器自验配方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
US9277208B2 (en) * | 2013-11-12 | 2016-03-01 | Oovoo, Llc | System and method for estimating quality of video with frame freezing artifacts |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN110223714A (zh) * | 2019-06-03 | 2019-09-10 | 杭州哲信信息技术有限公司 | 一种基于语音的情绪识别方法 |
CN110401622A (zh) * | 2018-04-25 | 2019-11-01 | 中国移动通信有限公司研究院 | 一种语音质量评估方法、装置、电子设备和存储介质 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
WO2019236560A1 (en) * | 2018-06-04 | 2019-12-12 | The Regents Of The University Of California | Pair-wise or n-way learning framework for error and quality estimation |
CN111479107A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于自然音视频统计的无参考音视频联合质量评价方法 |
CN111479108A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于神经网络的视频及音频联合质量评价方法和装置 |
CN111508528A (zh) * | 2020-03-12 | 2020-08-07 | 上海交通大学 | 基于自然音频统计特性的无参考音频质量评价方法和装置 |
-
2020
- 2020-08-21 CN CN202010854269.1A patent/CN111968677B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090085914A1 (en) * | 2007-09-28 | 2009-04-02 | Caviedes Jorge E | No-reference video quality model |
US9277208B2 (en) * | 2013-11-12 | 2016-03-01 | Oovoo, Llc | System and method for estimating quality of video with frame freezing artifacts |
CN103957216A (zh) * | 2014-05-09 | 2014-07-30 | 武汉大学 | 基于音频信号特性分类的无参考音频质量评价方法和系统 |
CN104053112A (zh) * | 2014-06-26 | 2014-09-17 | 南京工程学院 | 一种助听器自验配方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN110401622A (zh) * | 2018-04-25 | 2019-11-01 | 中国移动通信有限公司研究院 | 一种语音质量评估方法、装置、电子设备和存储介质 |
WO2019236560A1 (en) * | 2018-06-04 | 2019-12-12 | The Regents Of The University Of California | Pair-wise or n-way learning framework for error and quality estimation |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN110223714A (zh) * | 2019-06-03 | 2019-09-10 | 杭州哲信信息技术有限公司 | 一种基于语音的情绪识别方法 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
CN111479107A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于自然音视频统计的无参考音视频联合质量评价方法 |
CN111479108A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于神经网络的视频及音频联合质量评价方法和装置 |
CN111508528A (zh) * | 2020-03-12 | 2020-08-07 | 上海交通大学 | 基于自然音频统计特性的无参考音频质量评价方法和装置 |
Non-Patent Citations (2)
Title |
---|
VARGA, D: ""No-reference video quality assessment via pretrained CNN and LSTM networks "", 《SIGNAL IMAGE AND VIDEO PROCESSING》 * |
李洪滔: ""语音质量客观评价技术及系统研制"", 《中国优秀硕士学位论文全文数据库 信息科技辑 》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686295A (zh) * | 2020-12-28 | 2021-04-20 | 南京工程学院 | 一种个性化听力损失建模方法 |
CN112686295B (zh) * | 2020-12-28 | 2021-08-24 | 南京工程学院 | 一种个性化听力损失建模方法 |
CN112904279A (zh) * | 2021-01-18 | 2021-06-04 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN112904279B (zh) * | 2021-01-18 | 2024-01-26 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN113140228A (zh) * | 2021-04-14 | 2021-07-20 | 广东工业大学 | 一种基于图神经网络的声乐打分方法 |
CN113436644A (zh) * | 2021-07-16 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
CN113436644B (zh) * | 2021-07-16 | 2023-09-01 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111968677B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968677B (zh) | 面向免验配助听器的语音质量自评估方法 | |
CN107358966B (zh) | 基于深度学习语音增强的无参考语音质量客观评估方法 | |
US10964337B2 (en) | Method, device, and storage medium for evaluating speech quality | |
US5715372A (en) | Method and apparatus for characterizing an input signal | |
CN107818797B (zh) | 语音质量评价方法、装置及其系统 | |
Falk et al. | Single-ended speech quality measurement using machine learning methods | |
US6446038B1 (en) | Method and system for objectively evaluating speech | |
EP2232488B1 (en) | Objective measurement of audio quality | |
CN109327785B (zh) | 一种基于言语测听的助听增益适配方法及设备 | |
CN106558308B (zh) | 一种互联网音频数据质量自动打分系统及方法 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
US20060200346A1 (en) | Speech quality measurement based on classification estimation | |
US20110288865A1 (en) | Single-Sided Speech Quality Measurement | |
CN112562698B (zh) | 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法 | |
Liang et al. | Output-based objective speech quality | |
CN108877831A (zh) | 基于多标准融合频点筛选的盲源分离快速方法及系统 | |
CN115457980A (zh) | 一种无参考语音的自动化语音质量评估方法及系统 | |
Gelderblom et al. | Subjective intelligibility of deep neural network-based speech enhancement | |
CN109545198A (zh) | 一种基于卷积神经网络的英语口语母语度判断方法 | |
CN111554325B (zh) | 一种嗓音识别方法及系统 | |
CN116075890A (zh) | 结合标记数据和未标记数据学习音频质量指标的方法 | |
CN116453547A (zh) | 基于听损分类的助听器语音质量自评价方法 | |
Huber et al. | Single-ended speech quality prediction based on automatic speech recognition | |
WO2022103290A1 (en) | Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems | |
Salehi et al. | On nonintrusive speech quality estimation for hearing aids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |