CN112767968B - 基于区分性互补信息的语音客观评价最优特征组筛选方法 - Google Patents
基于区分性互补信息的语音客观评价最优特征组筛选方法 Download PDFInfo
- Publication number
- CN112767968B CN112767968B CN202011425818.XA CN202011425818A CN112767968B CN 112767968 B CN112767968 B CN 112767968B CN 202011425818 A CN202011425818 A CN 202011425818A CN 112767968 B CN112767968 B CN 112767968B
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- optimal
- quality
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012216 screening Methods 0.000 title claims abstract description 39
- 238000011156 evaluation Methods 0.000 title claims abstract description 33
- 238000013441 quality evaluation Methods 0.000 claims abstract description 40
- 230000006872 improvement Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 claims 1
- 230000018199 S phase Effects 0.000 abstract 1
- 238000010187 selection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于区分性互补信息的语音客观评价最优特征组筛选方法,包括先提取语音样本的多种特征来构成样本特征集;计算特征集的互补信息熵和单一特征的区分性;根据特征集中单一特征与主观评分的相关性,以及单一特征的区分性,选择第一个使二者之和最大的特征;根据候选特征集中单一特征与主观评分的相关性,以及候选特征集的互补信息熵,选择其他使二者之和最大的特征;最后采用皮尔逊相系数作为语音客观质量评价指标,根据岭回归模型的性能提升指数判断最优特征组是否收敛。本发明解决了单一特征难以实现理想的语音客观评价,多特征组合容易造成模型过拟合、计算复杂度高的问题,有效选择出实现语音客观质量评价的最佳特征组合。
Description
技术领域
本发明涉及数据特征选择技术领域,特别涉及一种基于区分性互补信息的语音客观评价最优特征组筛选方法。
背景技术
随着通信技术的高速发展,多种多样的编解码技术层出不穷,不同种类的编解码技术和传输技术都会给语音质量造成不同程度的损伤,由于语音质量的下降会降低获取信息的准确性,语音质量的优劣直接影响着用户的体验。在移动网络环境中,如果能实时进行终端用户语音质量的评估工作,就可根据其结果而进行质量调整,因此寻找有效、可靠和灵活的语音质量评价方法是十分迫切的。
文献上用于语音客观质量评价的语音特征达数十多种,例如语音的基频、基频扰动、关键频带能量、LSP、谱偏态等特征,由于单一特征难以实现理想的语音客观质量评价,因此通常采用多种特征组合。在已有的研究中,只是选择几种特征组合来用于语音质量评价,缺乏对各特征之间的组合效益分析,无法保证所选特征组是最优特征组。在多个语音特征中如何选择最优特征组合用于语音质量评价还是一个未解的问题,其涉及到需要在多特征联合使用时,选择最小特征子集使语音客观评价模型具有最佳的性能。
现有的特征选择方法主要有过滤式选择方法,包裹式选择方法和嵌入式选择方法。其中过滤式方法先对数据集进行特征选择,然后再训练学习器,但是其特征选择与学习器无关,所以在性能上不能保证所选特征集使得学习器具有最佳性能。包裹式选择方法直接把最终选择要使用的学习器性能作为特征子集的评价准则,从学习器性能来看,包裹式特征选择会比其它选择方法好,但是由于在特征选择过程中需要多次训练学习器,会导致算法复杂度太大。嵌入式是将选择特征过程与学习器训练过程融为一体,同样在特征选择过程中需要多次训练学习器,算法复杂度太大,且存在模型过拟合的风险。因此需要找到一种能够更加方便有效的语音客观评价最优特征组选择方法。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于区分性互补信息的语音客观评价最优特征组筛选方法,该方法解决了单一特征难以实现理想的语音客观评价,多特征组合容易造成模型过拟合、计算复杂度高的问题,能有效选择出实现语音客观质量评价的最佳特征组合。
本发明的第二目的在于提供一种基于区分性互补信息的语音客观评价最优特征组筛选装置。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第四目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于区分性互补信息的语音客观评价最优特征组筛选方法,包括如下步骤:
S1、获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,构成样本特征集;
S2、计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR;
S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
S4、计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
S5、遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集,计算候选特征集的互补信息熵,根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到最优特征组;
S6、以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;
以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,若是,则判定当前的最优特征组构建完成,可用于实现语音客观质量评价;若否,则需要返回步骤S5继续拓展最优特征组。
优选的,在步骤S1中,每个样本提取的多种待选特征,构成样本特征集,具体为:
S11、对样本进行滤波预处理,然后采用语音端点检测方法标注每个样本中的浊音帧、清音帧、无声帧;
S12、提取浊音帧的韵律特征的高阶统计量,以及频谱特征的高阶统计量,构建集合D={(fn,sn),n=1,2,...,N};
其中,fn表示第n个样本提取的特征;fn是一个M维的向量;M是单个样本的特征总数;韵律特征包括基频和基频抖动,频谱特征包括共振峰特征和高维的MFCC特征、高维的LPC特征、高维的LPCC特征、高维的LSP特征、线性预测信号的高维MFCC特征、线性预测残差信号的高维MFCC特征,高阶统计量包括均值、方差、偏峰和峰度;
S13、所有样本的第i个特征构成的集合表示为Fi={fin,i=1,2...,M;n=1,2...,N},fin代表第n个样本的第i个特征,样本特征集表示为F={F1,F2,...,FM}。
更进一步的,步骤S2的过程如下:
S21、考虑到不同特征在数值上的差异较大,这里先对特征集F={F1,F2,...,FM}中的每一类特征进行归一化和中心化,得到处理后的特征集合使得每一类特征Fi的均值为0,方差为1,从而消除量纲和数量级影响;
其中,rij代表样本特征集中的Fi和Fj之间的协方差,i=1,2...,M,j=1,2...,M;M代表需计算互补信息熵的特征集中的特征个数;协方差表征两个特征之间的相关性;
其中,0≤HR≤1,如果HR为1,则各特征之间的协方差为0,相关性为0,样本特征集中不含有冗余信息,此时特征集的互补信息最大;如果HR<1,则样本特征集中含有冗余信息;HR值越大,特征集中的冗余信息越小,互补信息越大,各特征之间的区分性越好。
更进一步的,步骤S3具体为:
删除特征Fi后,如果互补信息熵增大,则说明特征Fi的冗余性较大;如果互补信息熵减小,则说明特征Fi的区分性较好。
更进一步的,步骤S4具体如下:
S41、计算样本特征集F中单个特征Fi与其所属样本对应的质量主观评分的相关性:
得到样本特征集中所有特征与质量主观评分的相关性{ρi,i=1,2,…M};
如果ρi的值越大,说明单个特征Fi与质量主观评分的相关性越好,如果ρi的值为0,则单个特征Fi与质量主观评分无相关性;
S42、计算特征Fi与质量主观评分的相关性以及特征Fi的区分性的和:
更进一步的,步骤S5过程如下:
S53、根据候选特征集Fi′中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集Fi′的互补性信息熵,求二者之和:
更进一步的,步骤S6的过程如下:
以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组的各个特征所属样本的质量客观评分,对于第t步最优特征组采用岭回归模型计算其质量客观评分;对于第t+1步最优特征组采用岭回归模型计算其质量客观评分;
以样本的质量客观评分与质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,计算第t步最优特征组的质量客观评分和质量主观评分之间的皮尔逊相关系数R(t),计算第t+1步最优特征组的质量客观评分和质量主观评分之间的第t+1步的皮尔逊相关系数R(t+1),基于皮尔逊相关系数计算岭回归模型性能提升指数α:
当连续2次的α值小于设定阈值,则说明最优特征组收敛,判定当前的最优特征组构建完成,可用于实现语音客观质量评价;否则,需要返回步骤S5继续拓展最优特征组。
本发明的第二目的通过下述技术方案实现:一种基于区分性互补信息的语音客观评价最优特征组筛选装置,包括:
样本特征集构建模块,用于获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,以构成样本特征集;
互补信息熵计算模块,用于计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR,以及用于计算候选特征集的互补信息熵;
区分性计算模块,用于计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
相关性计算模块,用于计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性;
初始最优特征组构建模块,用于根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
候选特征集构建模块,用于遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集;
最优特征组拓展模块,用于根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及互补信息熵计算模块所计算的候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到初始最优特征组构建模块所构建的最优特征组;
评价模块,用于以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,在收敛情况下的最优特征组为可用于实现语音客观质量评价的最优特征组,在未收敛情况下最优特征组拓展模块需要继续拓展最优特征组。
本发明的第三目的通过下述技术方案实现:一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。
本发明的第四目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明提供了一种基于区分性互补信息的语音客观评价最优特征组筛选方法,能够解决实现语音客观质量评价时多特征组合的选择问题,以及特征过多造成学习器过拟合和的问题。每次选择时只使用到一次学习器,相比于嵌入式特征选择方法,大大降低了算法复杂度。同时也保证了岭回归模型对语音客观质量分数进行较好的预测。
(2)本发明定义了特征集的互补信息熵、单一特征相对其他特征的区分性以及单一特征与质量主观评分的相关性计算方法,根据特征集中单一特征与主观评分的相关性,以及单一特征的区分性,选择第一个使二者之和最大的特征,根据剩余特征集中单一特征与主观评分的相关性,以及候选特征集的互补信息熵,选择第t个使二者之和最大的特征,实现了对特征之间的组合效益进行分析,通过这一自定义的特征选择方法逐步选择第一个和第t个特征,能够有效可靠地挑选出最优特征。最后采用岭回归模型性能提升指数检验最优特征组是否达到收敛,既有利于最优特征组合中的冗余信息最少,又能降低算法复杂度,提高筛选效率。
(3)本发明在计算每个样本的各待选特征之间的相关性之前,先对每一类特征进行归一化和中心化,能够消除量纲和数量级影响,避免不同特征在数值上的差异较大导致计算出来的相关性具有较大的误差。
附图说明
图1是本发明基于区分性互补信息的语音客观评价最优特征组筛选方法的流程图。
图2是构建样本特征集的流程图。
图3是选择最优特征的流程图。
图4是最优特征组收敛判断的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种基于区分性互补信息的语音客观评价最优特征组筛选方法,用于从语音的多种表达特征中选择若干种,构建获得最优性能的特征组合,如图1所示,包括如下步骤:
S1、获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号。
然后如图2,对每个样本Xn提取多种待选特征,构成样本特征集:
S11、对样本进行滤波预处理,然后采用语音端点检测方法(VAD)标注每个样本中的浊音帧、清音帧、无声帧;这里具体是利用带通滤波器进行滤波,利用短时能量和过零率的双门限法对样本端点进行检测;
S12、提取浊音帧的韵律特征的高阶统计量,以及频谱特征的高阶统计量,构建集合D={(fn,sn),n=1,2,...,N};其中,fn表示第n个样本提取的特征;fn是一个M维的向量;M是单个样本的特征总数。
这里,韵律特征包括基频和基频抖动,频谱特征包括共振峰特征和高维的MFCC特征、高维的LPC特征、高维的LPCC特征、高维的LSP特征、线性预测信号的高维MFCC特征、线性预测残差信号的高维MFCC特征,高阶统计量包括均值、方差、偏峰和峰度。因此,提取多种待选特征,即是指对韵律特征中的子特征和频谱特征中的子特征分别转换成对应的四个高阶统计量。
S13、所有样本的第i个特征构成的集合表示为Fi={fin,i=1,2...,M;n=1,2...,N},fin代表第n个样本的第i个特征,样本特征集表示为F={F1,F2,...,FM}。
S2、计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR:
S21、考虑到不同特征在数值上的差异较大,这里先对特征集F={F1,F2,...,FM}中的每一类特征进行归一化和中心化,得到处理后的特征集合使得每一类特征Fi的均值为0,方差为1,从而消除量纲和数量级影响;
其中,rij代表样本特征集中的Fi和Fj之间的协方差,i=1,2...,M,j=1,2...,M;M代表需计算互补信息熵的特征集中的特征个数;协方差表征两个特征之间的相关性;
这里,互补信息熵的计算方法根据信息论中的信息熵的定义更改而来,采用以所有特征值的和作为对数的底,从而使得互补信息熵0≤HR≤1。
如果HR为1,则各特征之间的协方差为0,相关性为0,样本特征集中不含有冗余信息,此时特征集的互补信息最大;如果HR<1,则样本特征集中含有冗余信息;HR值越大,特征集中的冗余信息越小,互补信息越大,各特征之间的区分性越好。
S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息。
具体来说,按照步骤S2,先分别计算样本特征集在删除不同的单个特征Fi情况下的互补信息熵再计算HR与之间的差值,并将其作为特征Fi在样本特征集中相对于其它特征的区分性大小。删除特征Fi后,如果样本特征集的互补信息熵增大,则说明特征Fi的冗余性较大;如果样本特征集的互补信息熵减小,则说明特征Fi的区分性较好。
S4、如图3,计算样本特征集F中单个特征Fi与其所属样本对应的质量主观评分的相关性:
得到样本特征集中所有特征与质量主观评分的相关性{ρi,i=1,2,…M}。
其中,M是单个样本的特征总数;是Fi的均值;代表所有样本主观评分的均值,yn是第n个样本的主观评分;如果ρi的值越大,说明单个特征Fi与质量主观评分的相关性越好,特征Fi能更好的表征语音质量;如果ρi的值为0,则单个特征Fi与质量主观评分无相关性。
然后计算特征Fi与质量主观评分的相关性以及特征Fi的区分性的和:
根据候选特征集Fi′中的每个特征与其所属样本对应的质量主观评分之间的相关性(相关性已在步骤S4计算得到)以及候选特征集Fi′的互补性信息熵,求两者之和:
S6、如图4,以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组的各个特征所属样本的质量客观评分,对于第t步最优特征组采用岭回归模型计算其质量客观评分;对于第t+1步最优特征组采用岭回归模型计算其质量客观评分;
以样本的质量客观评分与质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,计算第t步最优特征组的质量客观评分和质量主观评分之间的皮尔逊相关系数R(t),计算第t+1步最优特征组的质量客观评分和质量主观评分之间的第t+1步的皮尔逊相关系数R(t+1),基于皮尔逊相关系数计算岭回归模型性能提升指数α:
根据性能提升指数判断最优特征组是否收敛:
在本实施例中,为更好地描述本实施例,使用国际电信联盟录制的P_Suppl_23_DB数据库中的数据作为语音样本集来进行说明。
该语音样本集包括编码失真和信道失真两种低质量语音样本,且每个样本有相应的质量主观评分,一共包含1326条语句,每条语句时长为8s,采样率为16KHz。将所有样本随机打乱后,根据3:1的比例划分测试集和训练集,分别执行步骤S1~S6。其中,训练集用于训练岭回归模型,测试集用于验证本实施例方法。
这里,在步骤S1中,所提取的频谱特征包含13维的MFCC特征、13维的LPC特征、12维的LPCC特征、12维的LSP特征、共振峰特征、线性预测信号的13维MFCC特征、线性预测残差信号的13维MFCC特征,最终每个样本所提取的特征总数M为32。在步骤S6中,为了解决特征选择前期,由于特征太少造成的模型不稳定,以及特征选择后期,特征过多导致模型性能出现平稳、增长缓慢的情况,采用当连续两次α的值小于0.01时选取的最优特征组作为实现语音客观质量评价的最优特征组。
在利用测试集验证本实施例方法时,最终确定的最优特征组包含的特征个数为16个,测试集的最优特征组在岭回归模型获得的质量客观评分和质量主观评分的皮尔逊相关系数R(16)=0.8596,而测试集的样本特征集F在岭回归模型获得的质量客观评分和质量主观评分的皮尔逊相关系数R=0.8560。可见,最优特征组的皮尔逊相关系数相对较高,这说明筛选出来的最优特征组相较于所有特征的集合F,更适用于语音客观质量评价,也说明通过筛选最优特征组,能有效去除冗余信息。
实施例2
本实施例公开了一种基于区分性互补信息的语音客观评价最优特征组筛选装置,可实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,包括:
样本特征集构建模块,用于获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,以构成样本特征集;
互补信息熵计算模块,用于计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR,以及用于计算候选特征集的互补信息熵;
区分性计算模块,用于计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
相关性计算模块,用于计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性;
初始最优特征组构建模块,用于根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
候选特征集构建模块,用于遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集;
最优特征组拓展模块,用于根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及互补信息熵计算模块所计算的候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到初始最优特征组构建模块所构建的最优特征组;
评价模块,用于以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,在收敛情况下的最优特征组为可用于实现语音客观质量评价的最优特征组,在未收敛情况下最优特征组拓展模块需要继续拓展最优特征组。
在此需要说明的是,本实施例的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3
本实施例公开了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,具体如下:
S1、获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,构成样本特征集;
S2、计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR;
S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
S4、计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
S5、遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集,计算候选特征集的互补信息熵,根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到最优特征组;
S6、以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;
以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,若是,则判定当前的最优特征组构建完成,可用于实现语音客观质量评价;若否,则需要返回步骤S5继续拓展最优特征组。
本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,具体如下:
S1、获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,构成样本特征集;
S2、计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR;
S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
S4、计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
S5、遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集,计算候选特征集的互补信息熵,根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到最优特征组;
S6、以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;
以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,若是,则判定当前的最优特征组构建完成,可用于实现语音客观质量评价;若否,则需要返回步骤S5继续拓展最优特征组。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,包括如下步骤:
S1、获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,构成样本特征集;
S2、计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR;
S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
S4、计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
S5、遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集,计算候选特征集的互补信息熵,根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到最优特征组;
S6、以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;
以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,若是,则判定当前的最优特征组构建完成,可用于实现语音客观质量评价;若否,则需要返回步骤S5继续拓展最优特征组。
2.根据权利要求1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,在步骤S1中,每个样本提取的多种待选特征,构成样本特征集,具体为:
S11、对样本进行滤波预处理,然后采用语音端点检测方法标注每个样本中的浊音帧、清音帧、无声帧;
S12、提取浊音帧的韵律特征的高阶统计量,以及频谱特征的高阶统计量,构建集合D={(fn,sn),n=1,2,...,N};
其中,fn表示第n个样本提取的特征;fn是一个M维的向量;M是单个样本的特征总数;韵律特征包括基频和基频抖动,频谱特征包括共振峰特征和高维的MFCC特征、高维的LPC特征、高维的LPCC特征、高维的LSP特征、线性预测信号的高维MFCC特征、线性预测残差信号的高维MFCC特征,高阶统计量包括均值、方差、偏峰和峰度;
S13、所有样本的第i个特征构成的集合表示为Fi={fin,i=1,2...,M;n=1,2...,N},fin代表第n个样本的第i个特征,样本特征集表示为F={F1,F2,...,FM}。
3.根据权利要求2所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,步骤S2的过程如下:
S21、考虑到不同特征在数值上的差异较大,这里先对特征集F={F1,F2,...,FM}中的每一类特征进行归一化和中心化,得到处理后的特征集合使得每一类特征Fi的均值为0,方差为1,从而消除量纲和数量级影响;
其中,rij代表样本特征集中的Fi和Fj之间的协方差,i=1,2...,M,j=1,2...,M;M代表需计算互补信息熵的特征集中的特征个数;协方差表征两个特征之间的相关性;
其中,0≤HR≤1,如果HR为1,则各特征之间的协方差为0,相关性为0,样本特征集中不含有冗余信息,此时特征集的互补信息最大;如果HR<1,则样本特征集中含有冗余信息;HR值越大,特征集中的冗余信息越小,互补信息越大,各特征之间的区分性越好。
5.根据权利要求2所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,步骤S4具体如下:
S41、计算样本特征集F中单个特征Fi与其所属样本对应的质量主观评分的相关性:
得到样本特征集中所有特征与质量主观评分的相关性{ρi,i=1,2,…M};
如果ρi的值越大,说明单个特征Fi与质量主观评分的相关性越好,如果ρi的值为0,则单个特征Fi与质量主观评分无相关性;
S42、计算特征Fi与质量主观评分的相关性以及特征Fi的区分性的和:
6.根据权利要求5所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,步骤S5过程如下:
S53、根据候选特征集Fi′中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及候选特征集Fi′的互补性信息熵,求二者之和:
7.根据权利要求6所述的基于区分性互补信息的语音客观评价最优特征组筛选方法,其特征在于,步骤S6的过程如下:
以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组的各个特征所属样本的质量客观评分,对于第t步最优特征组采用岭回归模型计算其质量客观评分;对于第t+1步最优特征组采用岭回归模型计算其质量客观评分;
以样本的质量客观评分与质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,计算第t步最优特征组的质量客观评分和质量主观评分之间的皮尔逊相关系数R(t),计算第t+1步最优特征组的质量客观评分和质量主观评分之间的第t+1步的皮尔逊相关系数R(t+1),基于皮尔逊相关系数计算岭回归模型性能提升指数α:
当连续2次的α值小于设定阈值,则说明最优特征组收敛,判定当前的最优特征组构建完成,可用于实现语音客观质量评价;否则,需要返回步骤S5继续拓展最优特征组。
8.一种基于区分性互补信息的语音客观评价最优特征组筛选装置,其特征在于,包括:
样本特征集构建模块,用于获取语音样本集X={(Xn,sn),n=1,2,...,N},语音样本集中的每个样本Xn都有对应的质量主观评分sn,N为语音样本集的样本量,n为样本序号,对每个样本提取多种待选特征,以构成样本特征集;
互补信息熵计算模块,用于计算每个样本的各待选特征之间的相关性,得到样本特征集的互补信息熵HR,以及用于计算候选特征集的互补信息熵;
区分性计算模块,用于计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量,作为该单个特征的区分性大小,即该单个特征相对其他特征的区分性互补信息;
相关性计算模块,用于计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性;
初始最优特征组构建模块,用于根据每个特征与质量主观评分的相关性以及每个特征的区分性,选择第一个使二者之和最大的特征,构建初始的最优特征组;
候选特征集构建模块,用于遍历剩余样本特征集,将剩余样本特征集的单个特征增补到最优特征组中,得到对应的候选特征集;
最优特征组拓展模块,用于根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性,以及互补信息熵计算模块所计算的候选特征集的互补信息熵,选择第t个使二者之和最大的特征,并加入到初始最优特征组构建模块所构建的最优特征组;
评价模块,用于以岭回归模型作为语音客观质量评价模型,每一步筛选得到的最优特征组作为模型输入,模型输出该最优特征组所对应的样本的质量客观评分;以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标,基于皮尔逊相关系数计算岭回归模型的性能提升指数,根据性能提升指数判断最优特征组是否收敛,在收敛情况下的最优特征组为可用于实现语音客观质量评价的最优特征组,在未收敛情况下最优特征组拓展模块需要继续拓展最优特征组。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至7中任一项所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至7中任一项所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425818.XA CN112767968B (zh) | 2020-12-09 | 2020-12-09 | 基于区分性互补信息的语音客观评价最优特征组筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425818.XA CN112767968B (zh) | 2020-12-09 | 2020-12-09 | 基于区分性互补信息的语音客观评价最优特征组筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767968A CN112767968A (zh) | 2021-05-07 |
CN112767968B true CN112767968B (zh) | 2022-09-16 |
Family
ID=75693485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011425818.XA Active CN112767968B (zh) | 2020-12-09 | 2020-12-09 | 基于区分性互补信息的语音客观评价最优特征组筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767968B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114662897A (zh) * | 2022-03-17 | 2022-06-24 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115406670B (zh) * | 2022-08-16 | 2024-10-11 | 中国第一汽车股份有限公司 | 车辆性能的测试方法、装置、电子设备以及一种车辆 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730131B (zh) * | 2012-10-12 | 2016-12-07 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN105679335B (zh) * | 2015-12-21 | 2019-08-13 | 南京华苏科技有限公司 | 基于无线分析的语音质量评估方法及系统 |
WO2019051119A1 (en) * | 2017-09-06 | 2019-03-14 | InfoVista Sweden AB | SYSTEM AND METHOD FOR PREDICTING QOE BASED ON MACHINE LEARNING OF VOICE / VIDEO SERVICES IN WIRELESS NETWORKS |
CN109979486B (zh) * | 2017-12-28 | 2021-07-09 | 中国移动通信集团北京有限公司 | 一种语音质量评估方法及装置 |
CN108877839B (zh) * | 2018-08-02 | 2021-01-12 | 南京华苏科技有限公司 | 基于语音语义识别技术的语音质量感知评估的方法及系统 |
CN111383657A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团辽宁有限公司 | 语音质量评估方法、装置、设备及介质 |
-
2020
- 2020-12-09 CN CN202011425818.XA patent/CN112767968B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112767968A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
CN108831445A (zh) | 四川方言识别方法、声学模型训练方法、装置及设备 | |
CN111311327A (zh) | 基于人工智能的服务评价方法、装置、设备及存储介质 | |
CN112767968B (zh) | 基于区分性互补信息的语音客观评价最优特征组筛选方法 | |
CN102810311B (zh) | 说话人估计方法和说话人估计设备 | |
CN111400540A (zh) | 一种基于挤压和激励残差网络的歌声检测方法 | |
CN114613387A (zh) | 语音分离方法、装置、电子设备与存储介质 | |
CN114187894A (zh) | 一种意图识别方法、装置及其相关设备 | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
CN113823257B (zh) | 语音合成器的构建方法、语音合成方法及装置 | |
CN112035700B (zh) | 一种基于cnn的语音深度哈希学习方法及系统 | |
US20080189109A1 (en) | Segmentation posterior based boundary point determination | |
Seki et al. | Diversity-based core-set selection for text-to-speech with linguistic and acoustic features | |
CN114299920A (zh) | 用于语音识别的语言模型的训练、语音识别方法及装置 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN112309398A (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Hanifa et al. | Comparative analysis on different cepstral features for speaker identification recognition | |
Nahar et al. | Arabic dialect identification using different machine learning methods | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Lei et al. | Multilingual customized keyword spotting using similar-pair contrastive learning | |
Hlaing et al. | Word Representations for Neural Network Based Myanmar Text-to-Speech S. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |