CN112767968B

CN112767968B - 基于区分性互补信息的语音客观评价最优特征组筛选方法

Info

Publication number: CN112767968B
Application number: CN202011425818.XA
Authority: CN
Inventors: 贺前华; 阳平; 苏健彬; 周密; 陈国强; 任丹丹; 李冬梅
Original assignee: China Assistive Devices And Technology Centre For Persons With Disabilities; Guangzhou Voicebook Technology Co ltd; South China University of Technology SCUT
Current assignee: China Assistive Devices And Technology Centre For Persons With Disabilities; Guangzhou Voicebook Technology Co ltd; South China University of Technology SCUT
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-09-16
Anticipated expiration: 2040-12-09
Also published as: CN112767968A

Abstract

本发明公开了一种基于区分性互补信息的语音客观评价最优特征组筛选方法，包括先提取语音样本的多种特征来构成样本特征集；计算特征集的互补信息熵和单一特征的区分性；根据特征集中单一特征与主观评分的相关性，以及单一特征的区分性，选择第一个使二者之和最大的特征；根据候选特征集中单一特征与主观评分的相关性，以及候选特征集的互补信息熵，选择其他使二者之和最大的特征；最后采用皮尔逊相系数作为语音客观质量评价指标，根据岭回归模型的性能提升指数判断最优特征组是否收敛。本发明解决了单一特征难以实现理想的语音客观评价，多特征组合容易造成模型过拟合、计算复杂度高的问题，有效选择出实现语音客观质量评价的最佳特征组合。

Description

基于区分性互补信息的语音客观评价最优特征组筛选方法

技术领域

本发明涉及数据特征选择技术领域，特别涉及一种基于区分性互补信息的语音客观评价最优特征组筛选方法。

背景技术

随着通信技术的高速发展，多种多样的编解码技术层出不穷，不同种类的编解码技术和传输技术都会给语音质量造成不同程度的损伤，由于语音质量的下降会降低获取信息的准确性，语音质量的优劣直接影响着用户的体验。在移动网络环境中，如果能实时进行终端用户语音质量的评估工作，就可根据其结果而进行质量调整，因此寻找有效、可靠和灵活的语音质量评价方法是十分迫切的。

文献上用于语音客观质量评价的语音特征达数十多种，例如语音的基频、基频扰动、关键频带能量、LSP、谱偏态等特征，由于单一特征难以实现理想的语音客观质量评价，因此通常采用多种特征组合。在已有的研究中，只是选择几种特征组合来用于语音质量评价，缺乏对各特征之间的组合效益分析，无法保证所选特征组是最优特征组。在多个语音特征中如何选择最优特征组合用于语音质量评价还是一个未解的问题，其涉及到需要在多特征联合使用时，选择最小特征子集使语音客观评价模型具有最佳的性能。

现有的特征选择方法主要有过滤式选择方法，包裹式选择方法和嵌入式选择方法。其中过滤式方法先对数据集进行特征选择，然后再训练学习器，但是其特征选择与学习器无关，所以在性能上不能保证所选特征集使得学习器具有最佳性能。包裹式选择方法直接把最终选择要使用的学习器性能作为特征子集的评价准则，从学习器性能来看，包裹式特征选择会比其它选择方法好，但是由于在特征选择过程中需要多次训练学习器，会导致算法复杂度太大。嵌入式是将选择特征过程与学习器训练过程融为一体，同样在特征选择过程中需要多次训练学习器，算法复杂度太大，且存在模型过拟合的风险。因此需要找到一种能够更加方便有效的语音客观评价最优特征组选择方法。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于区分性互补信息的语音客观评价最优特征组筛选方法，该方法解决了单一特征难以实现理想的语音客观评价，多特征组合容易造成模型过拟合、计算复杂度高的问题，能有效选择出实现语音客观质量评价的最佳特征组合。

本发明的第二目的在于提供一种基于区分性互补信息的语音客观评价最优特征组筛选装置。

本发明的第三目的在于提供一种计算机可读存储介质。

本发明的第四目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于区分性互补信息的语音客观评价最优特征组筛选方法，包括如下步骤：

S1、获取语音样本集X＝{(X_n,s_n),n＝1,2,...,N}，语音样本集中的每个样本X_n都有对应的质量主观评分s_n，N为语音样本集的样本量，n为样本序号，对每个样本提取多种待选特征，构成样本特征集；

S2、计算每个样本的各待选特征之间的相关性，得到样本特征集的互补信息熵H_R；

S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量，作为该单个特征的区分性大小，即该单个特征相对其他特征的区分性互补信息；

S4、计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性，根据每个特征与质量主观评分的相关性以及每个特征的区分性，选择第一个使二者之和最大的特征，构建初始的最优特征组；

S5、遍历剩余样本特征集，将剩余样本特征集的单个特征增补到最优特征组中，得到对应的候选特征集，计算候选特征集的互补信息熵，根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性，以及候选特征集的互补信息熵，选择第t个使二者之和最大的特征，并加入到最优特征组；

S6、以岭回归模型作为语音客观质量评价模型，每一步筛选得到的最优特征组作为模型输入，模型输出该最优特征组所对应的样本的质量客观评分；

以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标，基于皮尔逊相关系数计算岭回归模型的性能提升指数，根据性能提升指数判断最优特征组是否收敛，若是，则判定当前的最优特征组构建完成，可用于实现语音客观质量评价；若否，则需要返回步骤S5继续拓展最优特征组。

优选的，在步骤S1中，每个样本提取的多种待选特征，构成样本特征集，具体为：

S11、对样本进行滤波预处理，然后采用语音端点检测方法标注每个样本中的浊音帧、清音帧、无声帧；

S12、提取浊音帧的韵律特征的高阶统计量，以及频谱特征的高阶统计量，构建集合D＝{(f_n,s_n),n＝1,2,...,N}；

其中，f_n表示第n个样本提取的特征；f_n是一个M维的向量；M是单个样本的特征总数；韵律特征包括基频和基频抖动，频谱特征包括共振峰特征和高维的MFCC特征、高维的LPC特征、高维的LPCC特征、高维的LSP特征、线性预测信号的高维MFCC特征、线性预测残差信号的高维MFCC特征，高阶统计量包括均值、方差、偏峰和峰度；

S13、所有样本的第i个特征构成的集合表示为F_i＝{f_in,i＝1,2...,M；n＝1,2...,N}，f_in代表第n个样本的第i个特征，样本特征集表示为F＝{F₁,F₂,...,F_M}。

更进一步的，步骤S2的过程如下：

S21、考虑到不同特征在数值上的差异较大，这里先对特征集F＝{F₁,F₂,...,F_M}中的每一类特征进行归一化和中心化，得到处理后的特征集合

使得每一类特征F_i的均值为0，方差为1，从而消除量纲和数量级影响；

S22、计算各特征之间的协方差矩阵

其中，r_ij代表样本特征集中的F_i和F_j之间的协方差，i＝1,2...,M，j＝1,2...,M；M代表需计算互补信息熵的特征集中的特征个数；协方差表征两个特征之间的相关性；

S23、由协方差矩阵

的计算方法和矩阵性质得到，R为正定矩阵，所以对于R的任意的特征值λ_i＞0，且

λ_i是f_n归一化和中心化之后的结果，计算样本特征集的互补信息熵H_R：

其中，0≤H_R≤1，如果H_R为1，则各特征之间的协方差为0，相关性为0，样本特征集中不含有冗余信息，此时特征集的互补信息最大；如果H_R＜1，则样本特征集中含有冗余信息；H_R值越大，特征集中的冗余信息越小，互补信息越大，各特征之间的区分性越好。

更进一步的，步骤S3具体为：

按照步骤S2分别计算样本特征集在删除其不同的单个特征F_i情况下的互补信息熵

计算H_R与

之间的差值，并将其作为特征F_i在样本特征集中相对于其它特征的区分性大小；

删除特征F_i后，如果互补信息熵增大，则说明特征F_i的冗余性较大；如果互补信息熵减小，则说明特征F_i的区分性较好。

更进一步的，步骤S4具体如下：

S41、计算样本特征集F中单个特征F_i与其所属样本对应的质量主观评分的相关性：

得到样本特征集中所有特征与质量主观评分的相关性{ρ_i,i＝1,2,…M}；

其中，M是单个样本的特征总数；

是F_i的均值；

代表所有样本主观评分的均值，y_n是第n个样本的主观评分；

如果ρ_i的值越大，说明单个特征F_i与质量主观评分的相关性越好，如果ρ_i的值为0，则单个特征F_i与质量主观评分无相关性；

S42、计算特征F_i与质量主观评分的相关性以及特征F_i的区分性的和：

选择使二者之和最大的特征作为第一个最优特征，该特征的类别为

构建初始的最优特征组

更进一步的，步骤S5过程如下：

S51、遍历剩余样本特征集

将剩余样本特征集的单个特征F_i∈F_left增补到最优特征组

中，得到对应的候选特征集

其中，

代表在当前第t步选择时前面t-1步已选的最优特征的集合，t∈[2,M]；

S52、按照步骤S2计算候选特征集F_i′的互补信息熵

S53、根据候选特征集F_i′中的每个特征与其所属样本对应的质量主观评分之间的相关性，以及候选特征集F_i′的互补性信息熵，求二者之和：

选择使二者之和最大的特征作为第t步的最优特征，即第t个最优特征，该特征的类别为：

此时第t步最优特征组

按照上述步骤进行第t+1步筛选，获得第t+1个最优特征，即第t+1步最优特征组

更进一步的，步骤S6的过程如下：

以岭回归模型作为语音客观质量评价模型，每一步筛选得到的最优特征组作为模型输入，模型输出该最优特征组的各个特征所属样本的质量客观评分，对于第t步最优特征组

采用岭回归模型计算其质量客观评分；对于第t+1步最优特征组

采用岭回归模型计算其质量客观评分；

以样本的质量客观评分与质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标，计算第t步最优特征组

的质量客观评分和质量主观评分之间的皮尔逊相关系数R^(t)，计算第t+1步最优特征组

的质量客观评分和质量主观评分之间的第t+1步的皮尔逊相关系数R^(t+1)，基于皮尔逊相关系数计算岭回归模型性能提升指数α：

当连续2次的α值小于设定阈值，则说明最优特征组收敛，判定当前的最优特征组构建完成，可用于实现语音客观质量评价；否则，需要返回步骤S5继续拓展最优特征组。

本发明的第二目的通过下述技术方案实现：一种基于区分性互补信息的语音客观评价最优特征组筛选装置，包括：

样本特征集构建模块，用于获取语音样本集X＝{(X_n,s_n),n＝1,2,...,N}，语音样本集中的每个样本X_n都有对应的质量主观评分s_n，N为语音样本集的样本量，n为样本序号，对每个样本提取多种待选特征，以构成样本特征集；

互补信息熵计算模块，用于计算每个样本的各待选特征之间的相关性，得到样本特征集的互补信息熵H_R，以及用于计算候选特征集的互补信息熵；

区分性计算模块，用于计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量，作为该单个特征的区分性大小，即该单个特征相对其他特征的区分性互补信息；

相关性计算模块，用于计算样本特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性；

初始最优特征组构建模块，用于根据每个特征与质量主观评分的相关性以及每个特征的区分性，选择第一个使二者之和最大的特征，构建初始的最优特征组；

候选特征集构建模块，用于遍历剩余样本特征集，将剩余样本特征集的单个特征增补到最优特征组中，得到对应的候选特征集；

最优特征组拓展模块，用于根据候选特征集中的每个特征与其所属样本对应的质量主观评分之间的相关性，以及互补信息熵计算模块所计算的候选特征集的互补信息熵，选择第t个使二者之和最大的特征，并加入到初始最优特征组构建模块所构建的最优特征组；

评价模块，用于以岭回归模型作为语音客观质量评价模型，每一步筛选得到的最优特征组作为模型输入，模型输出该最优特征组所对应的样本的质量客观评分；以样本的质量客观评分与样本的质量主观评分之间的皮尔逊相关系数作为语音客观质量评价指标，基于皮尔逊相关系数计算岭回归模型的性能提升指数，根据性能提升指数判断最优特征组是否收敛，在收敛情况下的最优特征组为可用于实现语音客观质量评价的最优特征组，在未收敛情况下最优特征组拓展模块需要继续拓展最优特征组。

本发明的第三目的通过下述技术方案实现：一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。

本发明的第四目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的基于区分性互补信息的语音客观评价最优特征组筛选方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明提供了一种基于区分性互补信息的语音客观评价最优特征组筛选方法，能够解决实现语音客观质量评价时多特征组合的选择问题，以及特征过多造成学习器过拟合和的问题。每次选择时只使用到一次学习器，相比于嵌入式特征选择方法，大大降低了算法复杂度。同时也保证了岭回归模型对语音客观质量分数进行较好的预测。

(2)本发明定义了特征集的互补信息熵、单一特征相对其他特征的区分性以及单一特征与质量主观评分的相关性计算方法，根据特征集中单一特征与主观评分的相关性，以及单一特征的区分性，选择第一个使二者之和最大的特征，根据剩余特征集中单一特征与主观评分的相关性，以及候选特征集的互补信息熵，选择第t个使二者之和最大的特征，实现了对特征之间的组合效益进行分析，通过这一自定义的特征选择方法逐步选择第一个和第t个特征，能够有效可靠地挑选出最优特征。最后采用岭回归模型性能提升指数检验最优特征组是否达到收敛，既有利于最优特征组合中的冗余信息最少，又能降低算法复杂度，提高筛选效率。

(3)本发明在计算每个样本的各待选特征之间的相关性之前，先对每一类特征进行归一化和中心化，能够消除量纲和数量级影响，避免不同特征在数值上的差异较大导致计算出来的相关性具有较大的误差。

附图说明

图1是本发明基于区分性互补信息的语音客观评价最优特征组筛选方法的流程图。

图2是构建样本特征集的流程图。

图3是选择最优特征的流程图。

图4是最优特征组收敛判断的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开了一种基于区分性互补信息的语音客观评价最优特征组筛选方法，用于从语音的多种表达特征中选择若干种，构建获得最优性能的特征组合，如图1所示，包括如下步骤：

S1、获取语音样本集X＝{(X_n,s_n),n＝1,2,...,N}，语音样本集中的每个样本X_n都有对应的质量主观评分s_n，N为语音样本集的样本量，n为样本序号。

然后如图2，对每个样本X_n提取多种待选特征，构成样本特征集：

S11、对样本进行滤波预处理，然后采用语音端点检测方法(VAD)标注每个样本中的浊音帧、清音帧、无声帧；这里具体是利用带通滤波器进行滤波，利用短时能量和过零率的双门限法对样本端点进行检测；

S12、提取浊音帧的韵律特征的高阶统计量，以及频谱特征的高阶统计量，构建集合D＝{(f_n,s_n),n＝1,2,...,N}；其中，f_n表示第n个样本提取的特征；f_n是一个M维的向量；M是单个样本的特征总数。

这里，韵律特征包括基频和基频抖动，频谱特征包括共振峰特征和高维的MFCC特征、高维的LPC特征、高维的LPCC特征、高维的LSP特征、线性预测信号的高维MFCC特征、线性预测残差信号的高维MFCC特征，高阶统计量包括均值、方差、偏峰和峰度。因此，提取多种待选特征，即是指对韵律特征中的子特征和频谱特征中的子特征分别转换成对应的四个高阶统计量。

S2、计算每个样本的各待选特征之间的相关性，得到样本特征集的互补信息熵H_R：

S22、计算各特征之间的协方差矩阵

S23、由协方差矩阵

这里，互补信息熵的计算方法根据信息论中的信息熵的定义更改而来，采用以所有特征值的和作为对数的底，从而使得互补信息熵0≤H_R≤1。

如果H_R为1，则各特征之间的协方差为0，相关性为0，样本特征集中不含有冗余信息，此时特征集的互补信息最大；如果H_R＜1，则样本特征集中含有冗余信息；H_R值越大，特征集中的冗余信息越小，互补信息越大，各特征之间的区分性越好。

S3、计算样本特征集在缺少其中任意单个特征情况下的互补信息熵减少量，作为该单个特征的区分性大小，即该单个特征相对其他特征的区分性互补信息。

具体来说，按照步骤S2，先分别计算样本特征集在删除不同的单个特征F_i情况下的互补信息熵

再计算H_R与

之间的差值，并将其作为特征F_i在样本特征集中相对于其它特征的区分性大小。删除特征F_i后，如果样本特征集的互补信息熵增大，则说明特征F_i的冗余性较大；如果样本特征集的互补信息熵减小，则说明特征F_i的区分性较好。

S4、如图3，计算样本特征集F中单个特征F_i与其所属样本对应的质量主观评分的相关性：

得到样本特征集中所有特征与质量主观评分的相关性{ρ_i,i＝1,2,…M}。

其中，M是单个样本的特征总数；

是F_i的均值；

代表所有样本主观评分的均值，y_n是第n个样本的主观评分；如果ρ_i的值越大，说明单个特征F_i与质量主观评分的相关性越好，特征F_i能更好的表征语音质量；如果ρ_i的值为0，则单个特征F_i与质量主观评分无相关性。

然后计算特征F_i与质量主观评分的相关性以及特征F_i的区分性的和：

构建初始的最优特征组(也可称为最优特征序列)

S5、如图3，遍历剩余样本特征集

将剩余样本特征集的单个特征F_i∈F_left增补到最优特征组

中，得到对应的候选特征集

其中，

按照步骤S2，计算候选特征集F_i′的互补信息熵

根据候选特征集F_i′中的每个特征与其所属样本对应的质量主观评分之间的相关性(相关性已在步骤S4计算得到)以及候选特征集F_i′的互补性信息熵，求两者之和：

此时第t步最优特征组

S6、如图4，以岭回归模型作为语音客观质量评价模型，每一步筛选得到的最优特征组作为模型输入，模型输出该最优特征组的各个特征所属样本的质量客观评分，对于第t步最优特征组

采用岭回归模型计算其质量客观评分；

根据性能提升指数判断最优特征组是否收敛：

当连续2次的α值小于设定阈值，则说明最优特征组收敛，判定当前的最优特征组构建完成，

作为实现语音客观质量评价的最优特征组；否则，需要返回步骤S5继续拓展最优特征组。

在本实施例中，为更好地描述本实施例，使用国际电信联盟录制的P_Suppl_23_DB数据库中的数据作为语音样本集来进行说明。

该语音样本集包括编码失真和信道失真两种低质量语音样本，且每个样本有相应的质量主观评分，一共包含1326条语句，每条语句时长为8s，采样率为16KHz。将所有样本随机打乱后，根据3:1的比例划分测试集和训练集，分别执行步骤S1～S6。其中，训练集用于训练岭回归模型，测试集用于验证本实施例方法。

这里，在步骤S1中，所提取的频谱特征包含13维的MFCC特征、13维的LPC特征、12维的LPCC特征、12维的LSP特征、共振峰特征、线性预测信号的13维MFCC特征、线性预测残差信号的13维MFCC特征，最终每个样本所提取的特征总数M为32。在步骤S6中，为了解决特征选择前期，由于特征太少造成的模型不稳定，以及特征选择后期，特征过多导致模型性能出现平稳、增长缓慢的情况，采用当连续两次α的值小于0.01时选取的最优特征组

作为实现语音客观质量评价的最优特征组。

在利用测试集验证本实施例方法时，最终确定的最优特征组包含的特征个数为16个，测试集的最优特征组

在岭回归模型获得的质量客观评分和质量主观评分的皮尔逊相关系数R⁽¹⁶⁾＝0.8596，而测试集的样本特征集F在岭回归模型获得的质量客观评分和质量主观评分的皮尔逊相关系数R＝0.8560。可见，最优特征组的皮尔逊相关系数相对较高，这说明筛选出来的最优特征组相较于所有特征的集合F，更适用于语音客观质量评价，也说明通过筛选最优特征组，能有效去除冗余信息。

实施例2

本实施例公开了一种基于区分性互补信息的语音客观评价最优特征组筛选装置，可实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法，包括：

在此需要说明的是，本实施例的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3

本实施例公开了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法，具体如下：

本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的基于区分性互补信息的语音客观评价最优特征组筛选方法，具体如下：

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。