CN109979486A - 一种语音质量评估方法及装置 - Google Patents
一种语音质量评估方法及装置 Download PDFInfo
- Publication number
- CN109979486A CN109979486A CN201711462465.9A CN201711462465A CN109979486A CN 109979486 A CN109979486 A CN 109979486A CN 201711462465 A CN201711462465 A CN 201711462465A CN 109979486 A CN109979486 A CN 109979486A
- Authority
- CN
- China
- Prior art keywords
- signature identification
- signal
- assessed
- collection
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001303 quality assessment method Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000008447 perception Effects 0.000 claims abstract description 42
- 230000010354 integration Effects 0.000 claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000013441 quality evaluation Methods 0.000 claims abstract description 19
- 238000003066 decision tree Methods 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 239000000654 additive Substances 0.000 claims description 15
- 230000000996 additive effect Effects 0.000 claims description 15
- 238000011084 recovery Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000012141 concentrate Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音质量评估方法及装置,用以在进行语音质量评估时提高灵活性和普遍适用性。方法包括:提取待评估信号的特征标识集,特征标识集用于指示待评估信号的特征;对特征标识集进行整合重建,得到强特征标识集;将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种语音质量评估方法及装置。
背景技术
随着通信技术的发展,语音通信作为主要的通信手段之一,越来越多地应用于多种场景。如何对通信过程中传输的语音信号进行质量评估一直是业内的研究热点。
现有技术中,对语音信号进行质量评估的方法通常是:采用全参考信号评估的方法,即通过比较参考信号(没有经过传输损伤的发送端的起始语音信号)和损伤信号(通信系统传输后带有网络失真的接收语音信号),从而得知损伤信号与真实信号之间的差异,并以此为凭据对损伤信号的等级进行划分。常见的全参考语音评价标准有ITU-T P.862(Perceptual evaluation of speech quality,PESQ)、ITU-T P.863(PerceptualObjective Listening Quality Analysis,POLQA)等。
在上述方法中,由于进行语音信号质量评估时需要参考信号作为参照,因此在实现时只能将评估装置集成在特定的测试仪表或设备上,只能评估特定网络位置的特定的通话过程的质量,灵活性和普遍适用性不足。
综上,现有的语音质量评估方法中存灵活性和普遍适用性不足的问题。
发明内容
本发明实施例提供一种语音质量评估方法及装置,用以在进行语音质量评估时提高灵活性和普遍适用性。
第一方面,本发明实施例提供一种语音质量评估方法,该方法包括如下步骤:提取待评估信号的特征标识集,特征标识集用于指示待评估信号的特征;对特征标识集进行整合重建,得到强特征标识集;将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
可选地,提取待评估信号的特征标识集,具体包括:对待评估信号进行声道建模,得到待评估信号的第一特征标识,第一特征标识用于指示待评估信号的声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信号的第三特征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
可选地,第一特征标识包括发音腔系数、线性预测系数和倒谱系数;第二特征标识包含话音基本质量、加性噪声和乘性噪声;第三特征标识包含语音中断时长、静音时长和电平骤降。
可选地,将特征标识集进行整合重建,得到强特征标识集,具体包括:对特征标识集进行归一化处理;对经过归一化处理的特征标识集进行标识冗余校验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知映射模型的输入需求。
可选地,针对特征标识集中的任一特征标识x,采用如下公式对特征标识集进行归一化处理:
其中,x'为x经过归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
可选地,对经过归一化处理的特征标识集进行标识冗余校验,具体包括:对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验,得到多个特征标识分别对应的互信息值;选取多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
可选地,将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,具体包括:将强特征标识集输入感知映射模型,感知映射模型包含多个决策数以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的质量评估值。
可选地,在分别根据多个决策树和强特征标识得到多个评估结果之前,还包括:针对多个决策树中的任一决策树,通过如下步骤对决策树进行模型训练:设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是决策树的预测输入值,a和b为决策树的待训练参数,a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;根据损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
第二方面,本发明实施例提供一种语音质量评估装置,该装置包括:提取模块,用于提取待评估信号的特征标识集,特征标识集用于指示待评估信号的特征;整合重建模块,用于对特征标识集进行整合重建,得到强特征标识集;确定模块,用于将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
可选地,提取模块在提取待评估信号的特征标识集时,具体用于:对待评估信号进行声道建模,得到待评估信号的第一特征标识,第一特征标识用于指示待评估信号的声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信号的第三特征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
可选地,第一特征标识包括发音腔系数、线性预测系数和倒谱系数;第二特征标识包含话音基本质量、加性噪声和乘性噪声;第三特征标识包含语音中断时长、静音时长和电平骤降。
可选地,整合重建模块在将特征标识集进行整合重建,得到强特征标识集时,具体用于:对特征标识集进行归一化处理;对经过归一化处理的特征标识集进行标识冗余校验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知映射模型的输入需求。
可选地,整合重建模块在针对特征标识集中的任一特征标识x时,采用如下公式对特征标识集进行归一化处理:
其中,x'为x经过归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
可选地,整合重建模块在对经过归一化处理的特征标识集进行标识冗余校验时,具体用于:对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验,得到多个特征标识分别对应的互信息值;选取多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
可选地,确定模块在将强特征标识集输入感知映射模型,确定待评估信号的质量评估值时,具体用于:将强特征标识集输入感知映射模型,感知映射模型包含多个决策数以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的质量评估值。
可选地,该装置还包括:模型训练模块,用于在确定模块分别根据多个决策树和强特征标识得到多个评估结果之前,针对多个决策树中的任一决策树,通过如下步骤对决策树进行模型训练:设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是决策树的预测输入值,a和b为决策树的待训练参数,a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;根据损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
第三方面,提供一种通信装置,包括处理器、存储器和收发机;处理器,用于读取存储器中的程序,执行上述任一方法的步骤。
第四方面,提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述任一方法的步骤。
采用本发明实施例提供的语音质量评估方法,通过提取待评估信号的特征标识集,可以得到表征待评估信号的特征;通过对特征标识集进行归一化、去冗余和重组等整合重建操作,可以得到对待评估信号的描述能力更强的强特征标识集;最后,通过感知映射模型的映射,可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与MOS值相同或相近的待评估信号的质量评估值,该方法具有灵活性和普遍适用性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明实施例提供的一种语音质量评估方法的流程示意图;
图2为本发明实施例提供的一种提取第一特征标识的方法示意图;
图3为本发明实施例提供的一种确定第二特征标识的方法示意图;
图4为本发明实施例提供的一种确定语音中断时长的方法示意图;
图5为本发明实施例提供的一种使用GBDT算法对待评估信号的特征标识集进行建模分析的流程示意图;
图6为本发明实施例提供的一种确定待评估信号的质量评估值的方法流程图;
图7为本发明实施例提供的一种语音质量评估装置的结构示意图;
图8为本发明实施例提供的另一种语音质量评估装置的结构示意图。
具体实施方式
现有技术中,从语音信号的评价测试手段来说,语音信号的质量评估可分为两大类:主观评价和客观评价。主观评价又称为人群测试,通过召集志愿者对待测语音进行打分,并需要保证一定的实验环境,同时需要考虑志愿者的职业、性别、年龄等因素。人群测试的打分结果一般称为MOS(Mean Opinion Score,平均主观意见得分),分值在0-5分之间。一般认为主观评价的得分是最真实可靠的数据。客观评价则是通过在语音信号和主观评价得到的MOS之间建立相应的感知映射模型来得到语音信号的质量评估值。由于人群测试的精力消耗巨大,在实际使用中仍然以客观评价为主。
本发明实施例提供的语音质量评估方法从语音信号的评价测试手段来说,属于客观评价。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明实施例提供的语音质量评估方法的流程示意图,可以包括以下步骤:
S101:提取待评估信号的特征标识集。
本发明实施例中,待评估信号的类型可以有多种。示例性地,待评估信号可以是VoLTE信号。
其中,特征标识集用于指示待评估信号的特征。
示例性地,特征标识集包括但不限于发音腔系数、线性预测系数、倒谱系数、话音基本质量、加性噪声、乘性噪声、语音中断时长、静音时长和电平骤降。
具体地,S101中提取待评估信号的特征标识集,具体可通过如下方式实现:对待评估信号进行声道建模,得到待评估信号的第一特征标识,第一特征标识用于指示待评估信号的声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信号的第三特征标识。其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
示例性地,第一特征标识包括发音腔系数、线性预测系数和倒谱系数;第二特征标识包含话音基本质量、加性噪声和乘性噪声;第三特征标识包含语音中断时长、静音时长和电平骤降。
需要说明的是,第一特征标识、第二特征标识和第三特征标识不限于上述举例中列举的标识。第一特征标识中还可包含除发音腔系数、线性预测系数和倒谱系数之外的其他标识;第二特征标识中还可包含除话音基本质量、加性噪声和乘性噪声之外的其他标识;第三特征标识中还可包含除语音中断时长、静音时长和电平骤降之外的其他标识。
下面分别详细介绍如何得到待评估信号的第一特征标识、第二特征标识和第三特征标识。
一、对待评估信号进行声道建模,得到待评估信号的第一特征标识
首先根据人类的声音产生系统对待评估信号进行声道建模,得到待评估信号的声道特征并分析不自然变化造成的话音失真,其中不自然的变化包括机器化噪声、帧重复和非自然的哔哔声等因素。这种话音失真会表现在待评估信号的波形上,如机器化噪声会使信号的浊音部分具有高度周期性,从而使声音听上去机械化,而非自然的哔哔声会导致频谱出现不平滑的峰值,帧重复则会导致信号重叠。
由于人的声道形状变化是通过肌肉控制的,对于非失真话音,声道参数变化较为平缓;而遇到失真话音时,声道参数变化会显得不自然,待评估信号的声道模型中的不合理状态和变化表示待评估信号的失真。
通过声道建模提取的第一特征标识主要是基于人类的发声系统。示例性地,一种提取第一特征标识的方法可参见图2所示。首先对预处理后的待评估信号做语音活动检测,由于基音周期具有时变性和准周期性,对其中的语音部分使用短时自相关函数法提取极大值位置来确定基音周期,根据基音周期来标记浊音部分的音高位置,然后对语音信号上的音高标记做舒尔回归来计算线性预测系数和映射系数,声道截面矩阵可以根据映射系数求解,将声道以8个串联的声管建模,根据声管面积得到发音腔系数矩阵。
除了计算发音腔系数矩阵等声道特征标识外,还可通过高阶统计方法计算线性预测系数和倒谱系数的峰态值和偏态值作为第一特征标识,其中峰态系数可以表征待评估信号的集中程度,偏态系数可以表征待评估信号的偏斜程度。
二、通过比较待评估信号和恢复信号的差异,得到待评估信号的第二特征标识
对待评估信号进行话音重建,可以得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,可以得到待评估信号的第二特征标识。
参见图3,通过比较待评估信号和恢复信号的差异,可以得到话音基本质量、加性噪声以及与信号包络相关的乘性噪声等第二特征标识。
话音失真会引入语音不自然的失真,利用声道建模提取的第一特征标识可以恢复出一个理想的无失真语音,即恢复语音。然后,通过构建一个全参考的双端语音评价模型可以提取出话音基本质量和噪声干扰(加性噪声、乘性噪声)等第二特征标识。通过衡量待评估信号和恢复信号可以量化出当前待评估信号被损伤的程度。其中,语音评价模型可基于P.862算法修改得到。通过语音评价模型将失真信号(即待评估信号)和准原始信号(即恢复信号)转换到感知域,在感知域上基于两种信号的差异可以计算话音基本质量。
示例性地,通过话音重建得到待评估信号中的话音基本质量等失真成分的方式可以是:对包含40个采样点的话音帧做预测分析,利用Levinson-Durbin算法求得信号残差以及10阶线性预测系数;修改线性预测系数,使其符合典型的人类声道模型特征;通过切比雪夫多项式将线性预测系数转变为线谱频率(Line Spectrum Frequency,LSF)表示,使用4阶滑动平均(Moving Average,MA)预测方法对LSF参数做量化,利用量化系数完成话音重建。这通过这种方法可以检测到待评估信号中的话音基本质量,因此其结果反应待评估信号的整体失真情况。对于反应具体话音失真的第二特征标识,如加性噪声和乘性噪声,则需要其他具体的算法来计算。
三、提取待评估信号中的失真标识,作为待评估信号的第三特征标识
第三特征标识主要用于衡量的是信号的突变性,主要由传输过程中的丢包等因素造成的。但是,本发明实施例中,并不直接通过测量网络参数来获得网络传输过程中的丢包、断续、单通情况,而是通过评价用户最终接收到的待评估信号的话音质量来侧面反映网络质量。
其中,第三特征标识中的三个重要指标是语音中断时长、静音时长和电平骤降。其中,语音中断和静音的区别是:语音中断前后的话音可以被连接成完整的语句;而静音前后的话音无法被连接成完整的句子。
具体地,语音中断时长是指待评估信号信息的丢失的持续时间。语音中断是通过判断单词是否正常结束来进行统计的,通过检测连续两个话音帧是否正常结束来检测待评估信号的中断。单词正常结束时,话音帧的电平会从最大值逐渐衰弱,而中断会导致话音信息直接消失。示例性地,确定语音中断时长的方法可以如图4所示:针对连续两个32ms的话音帧,移除其中的直流分量;然后计算话音帧的基音周期,并根据基音周期的大小将话音帧分成更小的子帧;机损每个子帧的电平最大值,判断可能的中断帧;计算可能的中断帧的平均级别,作为判断的阈值;根据得到的阈值判断中断帧,并得到语音中断时长。
具体地,静音时长是指当某部分信号的电平值很低,但是它两端的信号电平具有较高幅值的话音时长。通过设定阈值,在待评估信号中搜索电平快速衰落和上升的位置来判断静音段的起点和终点,从而得到静音时长。
具体地,电平骤降指的是信号电平突然的衰弱。在正常的话音信号中,电平不会有突然的衰弱,它在每个句子的开始和结尾处都应有一个自然的衔接。通过检测待评估信号前后帧的功率比可以判断待评估信号在何处发生了电平骤降。
S102:对特征标识集进行整合重建,得到强特征标识集。
从待评估信号直接提取出的信号特征标识集信息含量不集中,冗余信息较多,维度较大,信号描述能力较弱,难以利用。因此,可通过对待评估信号进行整合重建,得到强特征标识集,便于后续确定待评估信号的质量评估值时进行使用和处理。
具体地,S102中,将特征标识集进行整合重建,得到强特征标识集,可通过如下方式实现:对特征标识集进行归一化处理;对经过归一化处理的特征标识集进行标识冗余校验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知映射模型的输入需求。
归一化,即把不重要的,不具可比性的集合中的元素的属性去掉,保留人们关心的那些属性,这样,本来不具有可比性的对象或是事物,就可以归一,即归为一类,然后就可以进行比较。这些,从数学角度来看,可以认为是把有量纲变成了无量纲了。对特征标识集进行归一化处理,就是将所有特征标识集中包含的所有特征标识无量纲化,便于使用和处理。
具体实现时,针对所述特征标识集中的任一特征标识x,可采用如下公式对特征标识集进行归一化处理:
其中,x'为x经过归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
其中,样本保存在数据库中,数据库中记录有多个语音信号的特征标识集的信息,以及多个语音信号的MOS值,其中MOS值为通过人群测试获取。所有样本中与x属于同一类型的特征标识可以有如下理解:若x标识加性噪声这一特征标识,假设数据库中有1000个样本,每个样本记录有一个语音信号的特征标识集以及该语音信号的MOS值,由于每个语音信号的特征标识集中均包含该信号的加性噪声,那么数据库中就记录有1000个加性噪声的数值。X可以是这1000个加性噪声的数值的平均值,S可以是这1000个加性噪声的数值的标准差。
需要说明的是,本发明实施例中,若待评估信号为VoLTE信号,那么数据库也为VoLTE实网数据库,即数据库中的样本为实网中对VoLTE信号进行人群测试后得到的MOS值,以及实网中的VoLTE信号的特征标识集。
此外,针对特征标识集中的任一特征标识x,还可对x进行标准化处理。标准化是将x按比例缩放,使之落入一个小的特定区间。由于不同的特征标识的度量单位是不同的,为了使得不同的特征标识在同一度量单位上参与信号评估计算,需要对特征标识x进行规范化处理,通过函数变换将特征标识x映射到某个数值区间。
具体实现时,针对所述特征标识集中的任一特征标识x,可采用如下公式对特征标识集进行标准化(区间缩放)处理:
其中,x'为x经过标准化处理后得到的特征标识,Min是所有样本中与x属于同一类型的特征标识的数值的最小值,Max为所有样本中与x属于同一类型的特征标识的数值的最大值。
通过上述标准化(区间缩放)处理,得到的是一个[0,1]区间的数据。因此,全局背景噪声,局部背景噪声,语音强度级别等数值较大的特征标识可以通过这种区间缩放的方式将数值一一映射到0到1区间内。
需要说明的是,本发明实施例中,归一化处理和标准化处理可以选择其一执行,也可以都执行。
冗余检验(例如可以是互信息检验、相关性检验、基于树的权重大小检测等)的含义是:选出特征标识集中权重较高、特征信息含量较大、价值较高的特征标识,舍弃不重要的、冗余的特征标识,即简化特征标识集,增强特征标识集对待评估信号的描述能力。例如,特征标识集中静音、语音中断、不自然声音、乘性噪声等参数在大部分样本中为零,因此可以舍弃。
具体地,对经过归一化处理的特征标识集进行标识冗余校验,具体可通过如下方式实现:
首先,对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验,得到多个特征标识分别对应的互信息值。
然后,选取多个特征标识中互信息值大于预设值的至少一个特征标识,将该至少一个特征标识作为经过标识冗余校验的特征标识集;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1,将该N个特征标识作为经过标识冗余校验的特征标识集。
其中,互信息校验可通过如下公式实现:
依次对所有特征标识做互信息检验,其中,p为概率密度函数,将特征标识的数值作为x代入到上式,将最终的MOS值作为y代入上式,最终计算出一个互信息值I。然后选择特征标识集中I值较大的16个特征标识做保留,丢弃其他信息含量低的特征标识。
选择的16个特征标识可以是:
1、fSpecLevelDev。频谱等级标准差,每一活动语音帧的过窗频谱密度求标准差;
2、fSpecLevelRange。频谱等级范围,它是从给定的分布向量计算百分位数值。*在此样本值以下的样本数占总样本数的百分比.比如样本值是50,PR=90,意思是说,值小于50的样本点总样本数的90%;
3、fRelNoiseFloor。相对噪声基底,相对噪声基底的计算。噪声电平计算估计语音活动期间变化的本底噪声。用于确定估计的分段信噪比,主要由平均频谱距离计算;
4、fNoiseLevel。噪声级别;
5、fSnr。信噪比;
6、fHiFreqVar。高频平坦度分析,语音高频频谱的模值的标准差;
7、fLocalMeanDistSamp。包含背景噪声的样本占比,假设任何1s语音信号包含4个音素的开始或停止,少于四个认为包含局部背景噪声;
8、fFinalVtpAverage。最后一个声道的平均截面;
9、fVtpPeakTracker。声道振幅变化,声道振幅变化为每个声道矩阵最大值提取函数数组的导数平均值;
10、fArtAverage。后腔的平均截面;
11、fVtpVadOverlap。浊音占语音部分比例;
12、fCepSkew。倒频谱偏度系数,倒谱偏度系数以与倒谱峰度系数相似的方式描述语音信号的失真等级。0-1表示失真严重,2-4表示无失真典型。倒频谱偏度系数可以反映偏离对称的程度;
13、fLPCSkew。LPC偏度系数,线性预测系数的偏度系数;
14、fSpeechLevel。语音级别;
15、fSpeechSectionLevelVar。语音级别变化,语言级别最大值和最小值差值;
16、fBasicVoiceQualityAsym。平均语音信号频谱的非对称干扰值,用于评估基本语音质量评估,介于20HZ到120HZ之间。基本语音质量等级位于1到11之间。
对特征标识集进行标识冗余校验后,可针对感知映射模型对特征标识集进行重组,针对感知映射模型的输入接口需求,将特征标识集重组为映射过程中可以直接使用的形式,便于通过感知映射模型进行映射运算,实现对待评估信号的质量评估。
S103:将强特征标识集输入映射模型,确定待评估信号的质量评估值。
其中,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
需要说明的是,本发明实施中,待评估信号的质量评估值可以理解为MOS-LQO,即一种通过客观评价的、与MOS值相同或接近的、用于评价语音质量的数值。也就是说,通过图1所示的客观评价的方法,可以在不进行人群测试的情况下得到与MOS值相同或接近的质量评估值。
具体地,将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,具体可通过如下方式实现:将强特征标识集输入感知映射模型,感知映射模型包含多个决策数以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的质量评估值。
本发明实施例中,使用决策树可以快速并且准确的将特征标识集映射到语音质量评估的打分上。同时,使用决策树可以很方便的进行多次迭代形成渐进提升的组合树来对映射性能做出优化。映射采用的决策树可以使用机器学习等方法来获得。
梯度提升决策树(Gradient Boosting Decision Tree,GBDT),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终答案。它在被提出之初就被认为是泛化能力较强的算法。GBDT的思想使其具有天然优势,可以发现多种有区分性的特征以及特征组合。在业界中被广泛使用。使用GBDT算法对待评估信号的特征标识集进行建模分析,其过程示例可如图5所示。
采用决策树作为模型后,需要设计一个损失函数来不断优化模型:
设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是决策树的预测输入值,a和b为决策树的待训练参数,a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;根据损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
需要说明的是,a+b·xi为一种具体示例;实际实现时,根据决策树和预测输入值得到的语音信号的质量评估值的计算公式不限定为a+b·xi,计算公式中的待训练参数也不限于a和b两个。
具体地,多个决策树可通过学习器进行训练,从而使得根据决策树得到的评估结果更为准确。如图6所示,待评估信号的质量评估值可以由多个学习器的评估结果进行加权求和得到:
其中,为学习器的评估结果,θj为学习器的权重值。
对于每个学习器来说,在函数空间中的优化方式可以是:
根据如上的函数空间中的优化可知,每次对每一个样本的训练的值为:
采用本发明实施例提供的语音质量评估方法,通过提取待评估信号的特征标识集,可以得到表征待评估信号的特征;通过对特征标识集进行归一化、去冗余和重组等整合重建操作,可以得到对待评估信号的描述能力更强的强特征标识集;最后,通过感知映射模型的映射,可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与MOS值相同或相近的待评估信号的质量评估值,该方法具有灵活性和普遍适用性。
基于同一发明构思,本发明实施例中还分别提供了一种语音质量评估装置,该语音质量评估装置可用于执行图1所示的语音质量评估方法。由于该语音质量评估装置解决问题的原理与图1所示的语音质量评估方法相似,因此该语音质量评估装置的实施可以参见方法的实施,重复之处不再赘述。
参见图7,该语音质量评估装置包括:
提取模块701,用于提取待评估信号的特征标识集,特征标识集用于指示待评估信号的特征;
整合重建模块702,用于对特征标识集进行整合重建,得到强特征标识集;
确定模块703,用于将强特征标识集输入感知映射模型,确定待评估信号的质量评估值,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
可选地,提取模块701在提取待评估信号的特征标识集时,具体用于:对待评估信号进行声道建模,得到待评估信号的第一特征标识,第一特征标识用于指示待评估信号的声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信号的第三特征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
可选地,第一特征标识包括发音腔系数、线性预测系数和倒谱系数;第二特征标识包含话音基本质量、加性噪声和乘性噪声;第三特征标识包含语音中断时长、静音时长和电平骤降。
可选地,整合重建模块702在将特征标识集进行整合重建,得到强特征标识集时,具体用于:对特征标识集进行归一化处理;对经过归一化处理的特征标识集进行标识冗余校验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知映射模型的输入需求。
可选地,整合重建模块702在针对特征标识集中的任一特征标识x时,采用如下公式对特征标识集进行归一化处理:
其中,x'为x经过归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
可选地,整合重建模块702在对经过归一化处理的特征标识集进行标识冗余校验时,具体用于:对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验,得到多个特征标识分别对应的互信息值;选取多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
可选地,确定模块703在将强特征标识集输入感知映射模型,确定待评估信号的质量评估值时,具体用于:将强特征标识集输入感知映射模型,感知映射模型包含多个决策数以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的质量评估值。
可选地,该装置还包括:模型训练模块,用于在确定模块703分别根据多个决策树和强特征标识得到多个评估结果之前,针对多个决策树中的任一决策树,通过如下步骤对决策树进行模型训练:
设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是决策树的预测输入值,a和b为决策树的待训练参数,a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;
根据损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于相同的技术构思,本发明实施例还提供了一种语音质量评估装置,该语音质量评估装置可用于执行图1所示的语音质量评估方法,可以是与图7所示的语音质量评估装置相同的装置。
参见图8,为本发明实施例提供的语音质量评估装置的结构示意图,如图8所示,该语音质量评估装置可包括:处理器801、存储器802、收发机803以及总线接口。
处理器801负责管理总线架构和通常的处理,存储器802可以存储处理器801在执行操作时所使用的数据。收发机803用于在处理器801的控制下接收和发送数据。
总线架构可以包括任意数量的互联的总线和桥,具体由处理器801代表的一个或多个处理器和存储器802代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器801负责管理总线架构和通常的处理,存储器802可以存储处理器801在执行操作时所使用的数据。
本发明实施例揭示的流程,可以应用于处理器801中,或者由处理器801实现。在实现过程中,信号处理流程的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。处理器801可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成信号处理流程的步骤。
具体地,所述处理器801,用于读取存储器中的程序,执行图1所示的语音质量评估方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (18)
1.一种语音质量评估方法,其特征在于,包括:
提取所述待评估信号的特征标识集,所述特征标识集用于指示所述待评估信号的特征;
对所述特征标识集进行整合重建,得到强特征标识集;
将所述强特征标识集输入感知映射模型,确定所述待评估信号的质量评估值,所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。
2.如权利要求1所述的方法,其特征在于,提取待评估信号的特征标识集,具体包括:
对所述待评估信号进行声道建模,得到所述待评估信号的第一特征标识,所述第一特征标识用于指示所述待评估信号的声道特征;
对所述待评估信号进行话音重建,得到重建后的恢复信号,通过比较所述待评估信号和所述恢复信号的差异,得到所述待评估信号的第二特征标识;
提取所述待评估信号中的失真标识,作为所述待评估信号的第三特征标识;
其中,所述特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识。
3.如权利要求2所述的方法,其特征在于,所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数;
所述第二特征标识包含话音基本质量、加性噪声和乘性噪声;
所述第三特征标识包含语音中断时长、静音时长和电平骤降。
4.如权利要求1~3任一项所述的方法,其特征在于,将所述特征标识集进行整合重建,得到强特征标识集,具体包括:
对所述特征标识集进行归一化处理;
对经过所述归一化处理的所述特征标识集进行标识冗余校验;
对经过所述标识冗余校验的所述特征标识集进行重组,得到所述强特征标识集,所述强特征标识集符合所述感知映射模型的输入需求。
5.如权利要求4所述的方法,其特征在于,针对所述特征标识集中的任一特征标识x,采用如下公式对所述特征标识集进行归一化处理:
其中,x'为x经过所述归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
6.如权利要求4或5所述的方法,其特征在于,对经过所述归一化处理的所述特征标识集进行标识冗余校验,具体包括:
对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验,得到所述多个特征标识分别对应的互信息值;
选取所述多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择所述多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
7.如权利要求1~6任一项所述的方法,其特征在于,将所述强特征标识集输入所述感知映射模型,确定所述待评估信号的质量评估值,具体包括:
将所述强特征标识集输入所述感知映射模型,所述感知映射模型包含多个决策数以及与所述多个决策树一一对应的多个权重值;
分别根据所述多个决策树和所述强特征标识得到多个评估结果;
分别将所述多个评估结果与对应的所多个权重值进行加权求和运算,确定所述待评估信号的质量评估值。
8.如权利要求7所述的方法,其特征在于,在分别根据所述多个决策树和所述强特征标识得到多个评估结果之前,还包括:
针对所述多个决策树中的任一决策树,通过如下步骤对所述决策树进行模型训练:
设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是所述决策树的预测输入值,a和b为所述决策树的待训练参数,a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值;
根据所述损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
9.一种语音质量评估装置,其特征在于,包括:
提取模块,用于提取所述待评估信号的特征标识集,所述特征标识集用于指示所述待评估信号的特征;
整合重建模块,用于对所述特征标识集进行整合重建,得到强特征标识集;
确定模块,用于将所述强特征标识集输入感知映射模型,确定所述待评估信号的质量评估值,所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。
10.如权利要求9所述的装置,其特征在于,所述提取模块在提取待评估信号的特征标识集时,具体用于:
对所述待评估信号进行声道建模,得到所述待评估信号的第一特征标识,所述第一特征标识用于指示所述待评估信号的声道特征;
对所述待评估信号进行话音重建,得到重建后的恢复信号,通过比较所述待评估信号和所述恢复信号的差异,得到所述待评估信号的第二特征标识;
提取所述待评估信号中的失真标识,作为所述待评估信号的第三特征标识;
其中,所述特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识。
11.如权利要求10所述的装置,其特征在于,所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数;
所述第二特征标识包含话音基本质量、加性噪声和乘性噪声;
所述第三特征标识包含语音中断时长、静音时长和电平骤降。
12.如权利要求9~11任一项所述的装置,其特征在于,所述整合重建模块在将所述特征标识集进行整合重建,得到强特征标识集时,具体用于:
对所述特征标识集进行归一化处理;
对经过所述归一化处理的所述特征标识集进行标识冗余校验;
对经过所述标识冗余校验的所述特征标识集进行重组,得到所述强特征标识集,所述强特征标识集符合所述感知映射模型的输入需求。
13.如权利要求12所述的装置,其特征在于,所述整合重建模块在针对所述特征标识集中的任一特征标识x时,采用如下公式对所述特征标识集进行归一化处理:
其中,x'为x经过所述归一化处理后得到的特征标识,是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
14.如权利要求12或13所述的装置,其特征在于,所述整合重建模块在对经过所述归一化处理的所述特征标识集进行标识冗余校验时,具体用于:
对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验,得到所述多个特征标识分别对应的互信息值;
选取所述多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择所述多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
15.如权利要求9~14任一项所述的装置,其特征在于,所述确定模块在将所述强特征标识集输入所述感知映射模型,确定所述待评估信号的质量评估值时,具体用于:
将所述强特征标识集输入所述感知映射模型,所述感知映射模型包含多个决策数以及与所述多个决策树一一对应的多个权重值;
分别根据所述多个决策树和所述强特征标识得到多个评估结果;
分别将所述多个评估结果与对应的所多个权重值进行加权求和运算,确定所述待评估信号的质量评估值。
16.如权利要求15所述的装置,其特征在于,还包括:
模型训练模块,用于在所述确定模块分别根据所述多个决策树和所述强特征标识得到多个评估结果之前,针对所述多个决策树中的任一决策树,通过如下步骤对所述决策树进行模型训练:
设定损失函数为其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是所述决策树的预测输入值,a和b为所述决策树的待训练参数,a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值;
根据所述损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
17.一种计算装置,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~8任一权利要求所述方法的步骤。
18.一种计算机可读介质,其特征在于,其存储有可由计算装置执行的计算机程序,当所述程序在计算装置上运行时,使得所述计算装置执行权利要求1~8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711462465.9A CN109979486B (zh) | 2017-12-28 | 2017-12-28 | 一种语音质量评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711462465.9A CN109979486B (zh) | 2017-12-28 | 2017-12-28 | 一种语音质量评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109979486A true CN109979486A (zh) | 2019-07-05 |
CN109979486B CN109979486B (zh) | 2021-07-09 |
Family
ID=67074814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711462465.9A Active CN109979486B (zh) | 2017-12-28 | 2017-12-28 | 一种语音质量评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979486B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428847A (zh) * | 2019-08-28 | 2019-11-08 | 南京梧桐微电子科技有限公司 | 一种线谱频率参数量化比特分配方法及系统 |
CN110782918A (zh) * | 2019-10-12 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律评估方法及装置 |
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112561153A (zh) * | 2020-12-08 | 2021-03-26 | 南京莱斯信息技术股份有限公司 | 一种基于模型集成的景区人群聚集预测方法 |
CN112767968A (zh) * | 2020-12-09 | 2021-05-07 | 华南理工大学 | 基于区分性互补信息的语音客观评价最优特征组筛选方法 |
CN114486286A (zh) * | 2022-01-12 | 2022-05-13 | 中国重汽集团济南动力有限公司 | 一种车辆关门声品质评价方法及设备 |
CN115512697A (zh) * | 2022-09-30 | 2022-12-23 | 贵州小爱机器人科技有限公司 | 语音敏感词的识别方法、装置、电子设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020101886A1 (en) * | 2000-12-12 | 2002-08-01 | Jagadeesan Ramanathan T. | Devices, software and methods for measuring packet loss burstiness to determine quality of voice data transmission through a network |
US20040107090A1 (en) * | 2002-11-29 | 2004-06-03 | Samsung Electronics Co., Ltd. | Audio decoding method and apparatus for reconstructing high frequency components with less computation |
CN101246685A (zh) * | 2008-03-17 | 2008-08-20 | 清华大学 | 计算机辅助语言学习系统中的发音质量评价方法 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
CN102044248A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对流媒体音频质量的客观评测方法 |
US20110216651A1 (en) * | 2010-03-04 | 2011-09-08 | Microsoft Corporation | Selectively Disabling Reliability Mechanisms on a Network Connection |
CN103384374A (zh) * | 2012-05-03 | 2013-11-06 | 中国移动通信集团公司 | 一种语音业务质量的评估方法和设备 |
US20140032212A1 (en) * | 2011-04-11 | 2014-01-30 | Orange | Evaluation of the voice quality of a coded speech signal |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104485114A (zh) * | 2014-11-27 | 2015-04-01 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
CN104952444A (zh) * | 2015-04-27 | 2015-09-30 | 桂林电子科技大学 | 一种文本无关的中国人英语口语质量评估方法 |
CN105656931A (zh) * | 2016-03-01 | 2016-06-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
CN105989849A (zh) * | 2015-06-03 | 2016-10-05 | 乐视致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
CN106448673A (zh) * | 2016-09-18 | 2017-02-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
CN106531190A (zh) * | 2016-10-12 | 2017-03-22 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
JP2017083621A (ja) * | 2015-10-27 | 2017-05-18 | 日本電信電話株式会社 | 合成音声品質評価装置、スペクトルパラメータ推定器学習装置、合成音声品質評価方法、スペクトルパラメータ推定器学習方法、プログラム |
-
2017
- 2017-12-28 CN CN201711462465.9A patent/CN109979486B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020101886A1 (en) * | 2000-12-12 | 2002-08-01 | Jagadeesan Ramanathan T. | Devices, software and methods for measuring packet loss burstiness to determine quality of voice data transmission through a network |
US20040107090A1 (en) * | 2002-11-29 | 2004-06-03 | Samsung Electronics Co., Ltd. | Audio decoding method and apparatus for reconstructing high frequency components with less computation |
CN101246685A (zh) * | 2008-03-17 | 2008-08-20 | 清华大学 | 计算机辅助语言学习系统中的发音质量评价方法 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
CN102044248A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对流媒体音频质量的客观评测方法 |
US20110216651A1 (en) * | 2010-03-04 | 2011-09-08 | Microsoft Corporation | Selectively Disabling Reliability Mechanisms on a Network Connection |
US20140032212A1 (en) * | 2011-04-11 | 2014-01-30 | Orange | Evaluation of the voice quality of a coded speech signal |
CN103384374A (zh) * | 2012-05-03 | 2013-11-06 | 中国移动通信集团公司 | 一种语音业务质量的评估方法和设备 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104485114A (zh) * | 2014-11-27 | 2015-04-01 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
CN104952444A (zh) * | 2015-04-27 | 2015-09-30 | 桂林电子科技大学 | 一种文本无关的中国人英语口语质量评估方法 |
CN105989849A (zh) * | 2015-06-03 | 2016-10-05 | 乐视致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
JP2017083621A (ja) * | 2015-10-27 | 2017-05-18 | 日本電信電話株式会社 | 合成音声品質評価装置、スペクトルパラメータ推定器学習装置、合成音声品質評価方法、スペクトルパラメータ推定器学習方法、プログラム |
CN105656931A (zh) * | 2016-03-01 | 2016-06-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
CN106448673A (zh) * | 2016-09-18 | 2017-02-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
CN106531190A (zh) * | 2016-10-12 | 2017-03-22 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
Non-Patent Citations (1)
Title |
---|
LUDOVIC MALFAIT ET AL.: "P.563—The ITU-T Standard for Single-Ended Speech Quality Assessment", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428847A (zh) * | 2019-08-28 | 2019-11-08 | 南京梧桐微电子科技有限公司 | 一种线谱频率参数量化比特分配方法及系统 |
CN110428847B (zh) * | 2019-08-28 | 2021-08-24 | 南京梧桐微电子科技有限公司 | 一种线谱频率参数量化比特分配方法及系统 |
CN110782918A (zh) * | 2019-10-12 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律评估方法及装置 |
CN110782918B (zh) * | 2019-10-12 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律评估方法及装置 |
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112561153A (zh) * | 2020-12-08 | 2021-03-26 | 南京莱斯信息技术股份有限公司 | 一种基于模型集成的景区人群聚集预测方法 |
CN112767968A (zh) * | 2020-12-09 | 2021-05-07 | 华南理工大学 | 基于区分性互补信息的语音客观评价最优特征组筛选方法 |
CN114486286A (zh) * | 2022-01-12 | 2022-05-13 | 中国重汽集团济南动力有限公司 | 一种车辆关门声品质评价方法及设备 |
CN114486286B (zh) * | 2022-01-12 | 2024-05-17 | 中国重汽集团济南动力有限公司 | 一种车辆关门声品质评价方法及设备 |
CN115512697A (zh) * | 2022-09-30 | 2022-12-23 | 贵州小爱机器人科技有限公司 | 语音敏感词的识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109979486B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109979486A (zh) | 一种语音质量评估方法及装置 | |
CN101826263B (zh) | 基于客观标准的自动化口语评估系统 | |
Morrison | A comparison of procedures for the calculation of forensic likelihood ratios from acoustic–phonetic data: Multivariate kernel density (MVKD) versus Gaussian mixture model–universal background model (GMM–UBM) | |
CN103559892B (zh) | 口语评测方法及系统 | |
CN101740024B (zh) | 基于广义流利的口语流利度自动评估方法 | |
CN101411171B (zh) | 非侵入信号质量评测的方法和设备 | |
CN102568475B (zh) | 用于普通话水平测评的系统和方法 | |
CN109065027B (zh) | 语音区分模型训练方法、装置、计算机设备及存储介质 | |
CN103559894B (zh) | 口语评测方法及系统 | |
CN109147765A (zh) | 音频质量综合评测方法及系统 | |
CN109272992A (zh) | 一种口语测评方法、装置及一种生成口语测评模型的装置 | |
CN102129860B (zh) | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 | |
CN103594087B (zh) | 提高口语评测性能的方法及系统 | |
CN110544481B (zh) | 一种基于声纹识别的s-t分类方法、装置及设备终端 | |
CN108305619A (zh) | 语音数据集训练方法和装置 | |
Petry et al. | Speaker identification using nonlinear dynamical features | |
CN108206027A (zh) | 一种音频质量评价方法及系统 | |
CN104240706A (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN103578480B (zh) | 负面情绪检测中的基于上下文修正的语音情感识别方法 | |
Rose | Where the science ends and the law begins: likelihood ratio-based forensic voice comparison in a $150 million telephone fraud. | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
Usman et al. | Artificial neural network (ANN) model for predicting students’ academic performance | |
KR101893684B1 (ko) | 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법 및 장치 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
KR102064681B1 (ko) | 비단어 따라 말하기를 이용한 작업 기억능력 측정 방법, 이를 수행하기 위한 장치 및 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |