CN110782876A

CN110782876A - 一种用于语音情感计算的无监督主动学习方法

Info

Publication number: CN110782876A
Application number: CN201910999055.0A
Authority: CN
Inventors: 伍冬睿; 刘子昂
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-11
Anticipated expiration: 2039-10-21
Also published as: CN110782876B

Abstract

本发明公开了一种用于语音情感计算的无监督主动学习方法，属于情感计算领域。相比于现有的用于语音情感计算的有监督主动学习方法需要已知少量真实标签并需要和人工专家多次交互，本发明通过多步迭代优化，每轮迭代依次优化待打标样本集S_c中的样本，每次只优化一个样本，每轮迭代中每个样本只优化一次，来选择少量最有价值的待打标样本，使得这些样本能够更好地代表样本集中的所有样本，不需要任何已知标签或现有回归模型，适用于完全无标签的语音数据集，也不需要与专家多次交互，可以一次性向专家提供所有待打标语音样本，限制条件更少，适用范围更广，使用更方便。

Description

一种用于语音情感计算的无监督主动学习方法

技术领域

本发明属于情感计算领域，更具体地，涉及一种用于语音情感计算的无监督主动学习方法。

背景技术

情感计算是一种通过计算机来自动识别人类情感的人工智能技术，语音情感计算是指，给计算机输入人们说的话，然后计算机对原始语音信号进行特征提取后，输入机器学习模型获得预测输出，再通过情感解码获取这句话中的情感。语音情感的编码一般是使用连续值来对情感的程度进行编码(例如用0-1表示平静到很愤怒)，因此所用的机器学习模型是回归模型。这项技术能够让计算机理解人类语音中蕴藏的情感，从而扩展人机交互的功能。

目前，语音情感计算技术遇到的主要挑战之一是，训练一个语音情感计算的机器学习模型需要大量带标签的语音数据，这导致人工专家的打标劳动量很大。因为，虽然原始语音数据很容易采集，但是要获取这些语音数据中的真实情感，则十分困难，需要多名专家仔细聆听多次，才能给出相对可靠的结果。所以，减少人工专家的打标劳动量能使得语音情感计算模型的训练成本大大降低。主动学习是常用的减少打标劳动的机器学习算法，将其运用到回归问题中，便是主动学习回归算法。其基本思想是，从未打标的样本池中选择出最有价值的少量样本来交给人工专家打标，从而训练出与给所有语音样本打标后训练出的回归模型性能相当的回归模型。其关键在于如何找到最有价值的少量样本。

D.Wu等人提出了一种用于语音情感计算的有监督主动学习回归算法，它的基本思想是，利用已有的少量真实标签和现有的回归模型，找到下一个最有价值的未打标样本交给专家打标，然后再更新回归模型，如此往复直到已经给指定数量的样本打标。该算法的性能大大优于随机采样。但是它的使用需要两个条件：1.已知少量真实标签。2.需要和人工专家多次交互。正因为这两个限制条件的存在，使得这些该算法在实际应用中存在局限性。

发明内容

针对现有的用于语音情感计算的有监督主动学习方法需要已知少量真实标签并需要和人工专家多次交互的问题，本发明提供了一种用于语音情感计算的无监督主动学习方法，其目的在于解除现有的用于语音情感计算的有监督主动学习回归算法在使用时需要已知少量真实标签，以及需要和人工专家多次交互的这两个条件限制。

为实现上述目的，按照本发明的第一方面，提供了一种用于语音情感计算的无监督主动学习方法，该方法包括以下步骤：

S1.获取提取特征后语音样本的特征维度d，设定交给专家打标的语音样本个数M、迭代次数c的最大值c_max、步数索引i的最大值S、第i步需要获取的待打标样本数目M_i、第i步使用的优化方法，要求

初始化步数索引i为1；

S2.初始化迭代次数c为1，从语音样本集中选取M_i个样本初始化待打标样本集S_ic，将S_ic存入待打标样本集库SL_i中，其中，S_ic表示第i步的第c轮迭代对应的待打标样本集；

S3.从待打标样本集S_ic中选择一个第c轮迭代中未被优化的待打标样本，固定其余(M_i-1)个样本和之前所有步选出的样本，通过第i步使用的优化方法，从排除固定样本后的语音样本集中选择一个最有价值的样本替换待优化的待打标样本，更新S_ic；

S4.如果第c轮迭代中，待打标样本集S_ic中的所有样本都被优化了一次，则进入步骤S5，否则，返回步骤S3；

S5.如果第c轮迭代的待打标样本集S_ic已经存在于待打标样本集库SL_i中，或者已经达到最大迭代次数c_max，则进入步骤S6；否则，将当前迭代的待打标样本集S_ic存入待打标样本集库SL_i中，下一轮迭代的待打标样本集S_i(c+1)初始化为S_ic，c＝c+1，返回步骤S3；

S6.如果i＝S，则输出这i步选出的共计M个待打标样本给专家，结束；否则，i＝i+1，返回步骤S2。

具体地，根据打标成本预算与回归模型的期望精度，设定交给专家打标的语音样本个数M；根据期望的运算代价，设定最大迭代次数c_max；根据待打标的语音样本个数M和语音样本的特征向量的维度d，设定步数索引i的最大值S。

具体地，当M≤d+1时，使用一步优化，当M＞d+1时，使用两步优化。

具体地，每一步使用的优化方法不同。

具体地，从语音样本集中聚类选取出M_i个样本作为初始待打标样本集S_ic。

具体地，第一步优化第c轮迭代中的第i次优化使用线性流形法，i＝1，…，M₁，该方法包括以下步骤：

(1)固定待打标样本集S_1c中除待优化的待打标样本x_i外的其他(M₁-1)个样本，这些固定的样本可以确定一个(M₁-2)维的超平面H；

(2)计算待优化的待打标样本x_i所在的聚类C_i中所有样本点到超平面H的距离然后计算聚类C_i中每个样本与聚类C_i中所有样本的平均距离

其中，

表示聚类C_i中的样本个数；

(3)计算聚类C_i中每个样本的重要性度量

(4)选择V值最大的样本，作为当前的最优样本替换待优化的待打标样本x_i，从而更新S_1c。

具体地，第二步优化第c轮迭代中的第i次优化使用贪婪搜索法，i＝1，…，M₂，该方法包括以下步骤：

(1)固定待打标样本集S_2c中除待优化的待打标样本x_i外的其他(M₂-1)个样本，加上第一步选出的样本S₁，形成含有(M-1)个固定样本的集合S_t；

(2)计算待优化的待打标样本x_i所在的聚类

中所有样本点到固定样本的集合S_t的贪婪距离

计算聚类

中每个样本与聚类

中所有样本的平均距离其中，

表示聚类

中的样本个数；

(3)计算聚类

中每个样本的重要性度量

(4)选择V值最大的样本，作为当前的最优样本替换待优化的待打标样本x_i，从而更新S_2c。

为实现上述目的，按照本发明的第二方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的用于语音情感计算的无监督主动学习方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

相比于现有的用于语音情感计算的有监督主动学习方法，本发明通过多步迭代优化，每轮迭代依次优化待打标样本集S_c中的样本，每次只优化一个样本，每轮迭代中每个样本只优化一次，来选择少量最有价值的待打标样本，使得这些样本能够更好地代表样本集中的所有样本，不需要任何已知标签或现有回归模型，适用于完全无标签的语音数据集，也不需要与专家多次交互，可以一次性向专家提供所有待打标语音样本，限制条件更少，适用范围更广，使用更方便。

附图说明

图1为本发明实施例1提供的一种用于语音情感计算的无监督主动学习方法流程图；

图2为本发明实施例2提供的一种用于语音情感计算的无监督主动学习方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种用于语音情感计算的无监督主动学习方法，该方法包括以下步骤：

步骤S1.获取提取特征后语音样本的特征维度d，设定交给专家打标的语音样本个数M、迭代次数c的最大值c_max、步数索引i的最大值S、第i步需要获取的待打标样本数目M_i、第i步使用的优化方法，要求

初始化步数索引i为1。

采集到的语音数据集共有N个样本

对语音数据集预处理后进行特征提取(例如音调特征、音长特征、能量特征和梅尔频率倒谱系数特征)，得到N个特征向量{x₁，x₂，...，x_N}，提取特征后每个样本的特征维度是d。

用户根据打标成本预算与回归模型的期望精度，设定交给专家打标的语音样本个数M。M越大，打标成本越高，模型的期望精度也越高。

用户根据期望的运算代价，设定最大迭代次数c_max。c_max越大，计算代价越大，回归模型的期望精度可能会提升(若已收敛则不再提升)。

使用一步、两步还是多步优化，取决于语音数据集以及所使用的优化方法。

设定每一步使用的优化方法，用于选出当前步的M_i个待打标样本。由于上一步确定的待打标样本参与到当前待打标样本的优化，因此，每一步的优化方法不同。

第i步需要获取的待打标样本数目M_i由用户设定，必须保证

步骤S2.初始化迭代次数c为1，从语音样本集中选取M_i个样本初始化待打标样本集S_ic，将S_ic存入待打标样本集库SL_i中，其中，S_ic表示第i步的第c轮迭代对应的待打标样本集。

从语音样本集中选取M_i个样本作为初始待打标样本集S_ic，选取方式可以不同，例如，随机选取或者聚类选取。聚类选取具体如下：对经过特征提取后的语音数据集中的全部样本使用k-mea聚类，其中，k＝M₁＝d+1，选取每个类中距离类中心最近的样本作为初始待打标样本集S_1c，将S_1c存入待打标样本集库SL_i中。

步骤S3.从待打标样本集S_ic中选择一个第c轮迭代中未被优化的待打标样本，固定其余(M_i-1)个样本和之前所有步选出的样本，使用第i步的优化方法，从排除固定样本后的语音样本集中选择一个最有价值的样本替换待优化的待打标样本，更新S_ic。

步骤S4.如果第c轮迭代中，待打标样本集S_ic中的所有样本都被优化了一次，则进入步骤S5，否则，返回步骤S3。

步骤S5.如果第c轮迭代的待打标样本集S_ic已经存在于待打标样本集库SL_i中：S_ic∈SL_i，或者已经达到最大迭代次数c＝c_max，则进入步骤S6；否则，将当前迭代的待打标样本集S_ic存入待打标样本集库SL_i中，下一轮迭代的待打标样本集S_i(c+1)初始化为S_ic，c＝c+1，回到步骤S3开始下一轮的迭代。

若S_ic∈SL_i，则S_ic已经收敛。

步骤S6.如果i＝S，则输出这i步选出的共计M个待打标样本给专家，结束；否则，i＝i+1，返回步骤S2。

本发明的所有实施例中均使用德国视听即兴演讲数据集(德文为The Vera amMittag，英文为German Audio-Visual Spontaneous Speech Database)，后文均简称为VAM数据集。该数据集包含947个语音样本，已经对原始语音信号进行了特征提取，生成的特征向量维度为46，包括：9个音调特征、5个时间特征、6个能量特征和26个梅尔频率倒谱系数(MFCC)特征。每个样本拥有三个标签，分别代表三个情感维度：效价(valence)、唤醒度(arousal)、优势度(dominance)，它们都是连续值。在46维的样本空间中，每个特征向量对应一个点，后文称它为样本点。本发明的所有实施例选择效价(valence)作为标签。

实施例1——一步优化

如图1所示，该方法包括以下步骤：

步骤S1.获取VAM数据集中样本的特征向量的维度d＝46，交给专家打标的语音样本个数设定为M＝1，迭代次数c的最大值设定为c_max＝5，优化方法设定为线性流形法(详见后文叙述)。

本实施例优选c_max＝5。

步骤S2.对VAM数据集使用主成分分析法(PCA)降维到d＝M-1＝9维。

这是对VAM数据集的进行特征处理，以便线性流形法的执行，实施例1之后的步骤都是基于降维后的VAM数据集来运算。M₁＝M＝d+1＝10。

步骤S3.迭代次数c初始化为1，第c轮迭代对应的待打标样本集表示为S_c：{x₁，x₂，...，x₁₀}，对VAM数据集中的全部样本使用k均值聚类算法(k-means)获得k个聚类{C₁，C₂，...，C₁₀}，其中，k＝M＝10，选取每个类中距离类中心最近的样本作为初始待打标样本集S₁，将S₁存入库SL中。本实施例选用欧氏距离。

待打标样本集中样本的下标与对应的聚类的下标相同，即聚类C_i中的待打标样本为x_i，i＝1，2，...，10。各待优化的样本会一直处在其对应的聚类中，每个聚类中只会有一个待打标样本。库P的作用是判断每轮迭代后算法是否收敛。

步骤S4.依次优化待打标样本集S_c中的样本，每次只优化一个样本，每轮迭代中每个样本只优化一次，每次优化所使用的方法为线性流形法。

令正在优化的样本为x_i，i＝1，2，...，10，每次优化所使用的线性流形法的具体过程如下：

(1)固定待打标样本集S_c中除x_i外的其他M-1＝9个样本，这些固定的样本可以确定一个M-2＝8维的超平面H。

计算待优化样本x_i所在的聚类C_i中所有样本点到超平面H的距离

计算聚类C_i中每个样本与聚类C_i中所有样本的平均距离

其中，

表示聚类C_i中的样本个数。

(3)计算聚类C_i中每个样本的重要性度量

(4)选择V最大的样本作为当前的最优样本，替换待优化的待打标样本x_i，从而更新S_c。

步骤S5.如果待打标样本集S_c已经存在于库SL中(代表算法已经收敛)，或者已经达到最大迭代次数c＝c_max＝5，那么算法结束，输出当前待打标样本集S_c，否则，将S_c存入库SL，令下一轮迭代的初始待打标样本集S_c+1＝S_c，然后c加一，返回步骤S4。

实施例2——两步优化。

如图2所示，该方法包括以下步骤：

步骤S1.获取VAM数据集中样本的特征向量的维度d＝46，交给专家打标的语音样本个数设定为M＝60，迭代次数c的最大值设定为c_max＝5，第一步的优化方法设定为线性流形法，第二步的优化方法设定为贪婪搜索法(详见后文叙述)，第一步选择出M₁＝d+1＝47个待打标样本，第二步选择出M₂＝M-M₁＝13个样本。

各步选出的待打标样本数量之和必须等于M，即M₁+M₂＝M。

步骤S2.开始执行算法的第一步优化。迭代次数c初始化为1，第c轮迭代对应的待打标样本集表示为S_1c：{x₁，x₂，...，x₄₇}，对VAM数据集中的全部样本使用k均值聚类算法(k-means算法，这里k＝M₁＝47)获得47个聚类{C₁，C₂，...，C₄₇}，选取每个类中距离类中心最近的样本作为初始待打标样本集S₁₁，将S₁₁存入库SL₁中。

待打标样本集中样本的下标与对应的聚类的下标相同，即聚类C_i中的待打标样本为x_i，i＝1，2，...，47。各待优化的样本会一直处在其对应的聚类中，每个聚类中只会有一个待打标样本。库SL_i的作用是判断第i轮迭代后算法是否收敛。

步骤S3.依次优化待打标样本集S_1c中的样本，每次只优化一个样本，每轮迭代中每个样本只优化一次，每次优化所使用的方法为线性流形法。令正在优化的样本为x_i，i＝1，2，...，47，每次优化所使用的线性流形法的具体过程如下：

(1)固定待打标样本集S_1c中除x_i外的其他M₁-1＝46个样本，这些固定的样本可以确定一个M₁-2＝45维的超平面H。

(2)计算待优化样本x_i所在的聚类C_i中所有样本点到超平面H的距离

然后计算聚类C_i中每个样本与聚类C_i中所有样本的平均距离

其中，表示聚类C_i中的样本个数。

(3)计算聚类C_i中每个样本的重要性度量

步骤S4.如果待打标样本集S_1c已经存在于库SL₁中(代表算法已经收敛)，或者已经达到最大迭代次数c＝c_max＝5，那么第一步优化结束，第一步选出的M₁＝47个待打标样本就是当前的待打标样本集S_1c，将其记为S₁，进入步骤S5；否则，将S_1c存入库SL₁，令下一轮迭代的初始待打标样本集S_1(c+1)＝S_1c，然后c加一，返回步骤S3。

步骤S5.开始执行算法的第二步优化。对VAM数据集中去除第一步已经找到的待打标样本集合S₁后的样本使用k均值聚类算法(k-means算法，这里k＝M₂＝13)获得13个聚类

选取每个类中距离类中心最近的样本作为初始待打标样本集S₂₁：{x₁，x₂，...，x₁₃}，将S₂₁存入库SL₂中。

步骤S6.依次优化待打标样本集S_2c中的样本，每次只优化一个样本，每轮迭代中每个样本只优化一次，每次优化所使用的方法为贪婪搜索法。

令正在优化的样本为x_i，i＝1，2，...，1，每次优化所使用的贪婪搜索法的具体过程如下：

(1)固定待打标样本集S_2c中除x_i外的其他M₂-1＝12个样本，加上第一步选择的47个样本S₁，形成含有59个固定样本的集合S_t。

(2)计算待优化样本x_i所在的聚类

中所有样本点到固定样本的集合S_t的贪婪距离

(贪婪距离定义为x_j到S_t中每个样本点的59个距离中的最小值)，计算聚类

和每个样本与聚类中所有样本的平均距离

(

表示聚类

中的样本个数)。

(3)计算聚类

中每个样本的重要性度量

步骤S7.如果待打标样本集S_2c已经存在于库SL₂中(代表算法已经收敛)，或者已经达到最大迭代次数c＝c_max＝5，那么第二步优化结束，第二步选出的M₂＝13个待打标样本就是当前的待打标样本集S_2c，将其记为S₂，进入步骤S8；否则，将S_2c存入库SL₂，令下一轮迭代的初始待打标样本集S_2(c+1)＝S_2c，然后c加一，返回步骤S6。

步骤S8.将第一步选出的M₁＝4个待打标样本的集合S₁与第二步选出的M₂＝13个待打标样本的集合S₂合并为最终得出的M＝60个样本作为算法最终得到的待打标样本集S输出。

将待打标样本集S交给人工专家打标后，即可训练并获得VAM数据集的回归模型。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。