CN110147843A

CN110147843A - 基于度量学习的语音时序数据相似性度量方法

Info

Publication number: CN110147843A
Application number: CN201910430437.1A
Authority: CN
Inventors: 王念滨; 刘鹏; 张毅; 王红滨; 周连科; 张海彬; 崔琎
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-20

Abstract

本发明提供基于度量学习的语音时序数据相似性度量方法，属于数据分类技术领域。本发明首先获取语音时序数据；结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离，然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式；再根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数；求解损失函数计算出针对当前训练集样本的马氏矩阵；最后将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式，得到每两个语音时序数据样本的相似性度量。本发明解决了现有语音时序数据相似性度量不准确的问题。本发明可用于语音时序数据的相似性度量。

Description

基于度量学习的语音时序数据相似性度量方法

技术领域

本发明涉及语音时序数据相似性度量方法，属于数据分类技术领域。

背景技术

多变量时序数据数据分析是语音识别领域研究非常重要的工作。目前大部分主流的时序数据分析方法一般都只适用于单变量时序数据的数据分析，在多变量时序数据分析领域目前的研究不够完善(林珠,邢延.数据挖掘中适用于分类的时序数据特征提取方法[J].计算机系统应用,2012,21(10):224-229.)。相比于单变量时序方法，多变量时序数据分析方法适用领域更加多样，应用范围也更加广泛。目前常用的多变量时序数据相似性度量方法大多都是基于传统方法改进而来。例如：基于欧氏距离的动态时间弯曲(Mahalanobis Distance-Based Dynamic Time Wraping，ED-DTW)方法、基于马氏距离的动态时间弯曲(Mahalanobis Distance-Based Dynamic Time Wraping，MD-DTW)方法(Mei J,Liu M,Wang Y F,et al.Learning a Mahalanobis Distance-Based Dynamic TimeWarping Measure for Multivariate Time Series Classification[J].IEEETransactions on Cybernetics,2016,46(6):1363-1374.)。另外，Abdullah Mueen在2017年针对在稀疏时间序列数据上使用动态时间弯曲方法效率非常低的特点，提出了AWarp度量方法(Mueen A,Chavoshi N,Abuelrub N,et al.Fast Warping Distance for SparseTime Series[C]//IEEE International Conference on Data Mining.IEEE,2017.)。Boghrati Reihance提出了会话水平的语法相似性度量(Conversation level SyntaxSimilarity Metric，CSSM)(Boghrati R,Hoover J,Johnson K M,et al.Conversationlevel syntax similarity metric[J].Behavior Research Methods,2017.)。马氏距离是经常使用的时序数据相似性度量方法，但是单独使用的话只能应用于维度相同的时序数据。但是语音时序数据的长度并不相同，而且由于外部因素影响，语音时序数据可能在时间轴上产生偏移和伸缩。动态时间弯曲(Dynamic Time Wraping，DTW)是目前可以比较好的解决时序数据的偏移和伸缩的方法，而且该方法动态时间弯曲也适用于长度不同的时序数据。基于马氏距离的动态时间弯曲算法(MD-DTW)是目前非常流行的，该方法使用马氏距离来计算时序数据的局部距离，再使用动态时间弯曲来计算时序数据的全局距离；虽然MD-DTW方法引入马氏距离后使得动态时间弯曲在计算局部距离的过程得到了优化，但是在计算局部距离时，马氏距离仅仅考虑的是数据内部变量与变量的关系，对于两个变量整体的相关性缺乏考虑，导致相似性度量结果不够准确，进而影响分析结果。度量学习(metriclearning)可以根据指定的分类或聚类任务，从训练集样本空间学习出一个优秀的距离度量参数，从而更加准确快速的表示测试机样本的相似性度量。常见的度量学习方法有基于概率的全局度量学习方法(Probabilistic global Distance metric learning，PGDM)(Xing E P,Ng A Y,Jordan M I,et al.Distance Metric Learning with Applicationto Clustering with Side-Information.[C]//International Conference on NeuralInformation Processing Systems.MIT Press,2002.)、信息理论在线度量学习方法(Information Theoretic Metric Learning，ITML)(Davis J V,Kulis B,Jain P,etal.Information-theoretic metric learning[C]//Icml 07:International Conferenceon Machine Learning.2007.)、基于大间隔理论的度量学习方法(Large Margin NearestNeighbor，LMNN)(Weinberger K Q,Saul L K.Distance Metric Learning for LargeMargin Nearest Neighbor Classification[M].JMLR.org,2009.10(1):207-244.)等；但是传统度量学习算法一般都只能直接应用于单变量时序数据的数据分析任务，因此也不能直接运用于语音时序数据的相似性度量。

发明内容

本发明为解决现有语音时序数据相似性度量不准确的问题，提供了基于度量学习的语音时序数据相似性度量方法。

本发明所述基于度量学习的语音时序数据相似性度量方法，通过以下技术方案实现：

步骤一、获取语音时序数据；

步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离，然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式；

步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数；

步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵；

步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式，得到每两个语音时序数据样本的相似性度量。

作为对上述技术方案的进一步阐述：

进一步的，步骤二中所述语音时序数据的局部距离具体为：

D_local(X_i,Y_j)＝D_M(X_i,Y_j)/1+ρ(X_i,Y_j) (1)

其中，D_local(X_i,Y_j)为局部距离；D_M(X_i.Y_j)为马氏距离，ρ(X_i,Y_j)为斯皮尔曼线性相关性系数，X_i、Y_j分别为两个时序数据分别在i、j两个时刻的向量。

进一步的，步骤二中所述动态时间弯曲距离的表达式为：

其中，DTW(T₁,T₂)为动态时间弯曲距离；上标T表示转置，k＝1,2,…,t；t表示表示动态时间弯曲(DTW规整)后的最优路径长度；时序数据T₁＝{X₁,X₂,...,X_m1}，时序数据T₂＝{Y₁,Y₂,...,Y_m2}，X_i、Y_j每个时刻记录的变量个数均n，M表示马氏矩阵。

进一步的，步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括：

步骤二一、根据局部距离计算动态时间弯曲的最优路径：

r(i,j)＝D_local(X_i,Y_j)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)

其中，r(i,j)表示从动态时间弯曲的距离成本矩阵的起始点(1,1)到(i,j)的累积最小距离；

步骤二二、根据动态时间弯曲的最优路径，两个时序数据T₁和T₂能够扩展为长度为t的新的时序数据和表示为：

其中，为在k时刻的数据向量、为在k时刻的数据向量；分别为T₁、T₂的动态规划路径；

步骤二三、则多变量时间序列数据T₁和T₂的动态时间弯曲距离DTW(T₁,T₂)能够表示为：

进一步的，步骤三中所述以马氏矩阵为参数的损失函数具体为：

其中，S表示训练样本中属于同一类别的样本数据集，D表示训练样本中属于不同类别的样本数据集；p∈1,2,...,m；q∈1,2,...,m；T_p为第p个时序数据，T_q为第q个时序数据；Y_j(k)表示时序数据在j时刻的向量中的第k个元素；X_k(k)表示时序数据在k时刻的向量中的第k个元素；X_i(k)表示时序数据在i时刻的向量中的第k个元素；ρ_s(X_i(k),Y_j(k))表示斯皮尔曼相关系数，c为参数可调。

进一步的，步骤二中所述马氏距离具体为：

本发明最为突出的特点和显著的有益效果是：

本发明所涉及的基于度量学习的语音时序数据相似性度量方法，在局部距离的计算上融合斯皮尔曼线性相关性系数，使得在计算多变量语音时序数据的局部距离时考虑变量之间的线性相关性，可以得到更好的语音时序数据之间得相似性度量；并引入度量学习技术可以在训练集样本的基础上，使用最优化学习方法，学习出一个针对当前任务的马氏矩阵，使计算出的时序数据相似性度量的效果更好；因此本发明方法能够得到准确度语音时序数据相似性度量，相比传统方法，准确率约提高5％。。

附图说明

图1为本发明流程图；

图2为线性相关性对距离度量影响原理说明的样本数据空间图。

具体实施方式

具体实施方式一：结合图1对本实施方式进行说明，本实施方式给出的基于度量学习的语音时序数据相似性度量方法，具体包括以下步骤：

步骤一、获取语音时序数据；

虽然MD-DTW方法引入马氏距离后使得动态时间弯曲在计算局部距离的过程得到了优化，但是在计算局部距离时，马氏距离仅仅考虑的是数据内部变量与变量的关系，对于两个变量整体的相关性缺乏考虑，因此步骤二对基于马氏距离的动态时间弯曲方法进行了改进，并将其命名为：融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)；

多变量时序数据的相似性度量度分析中，要求计算两个多变量时序数据在某一个时间点的距离，也就是局部距离。由于多变量时序数据每一个时间点记录了多个变量，所以多变量时序数据的局部距离是两个向量间的距离。基于马氏距离的动态时间弯曲算法使用马氏距离来计算时序数据的局部距离，虽然由于有马氏矩阵的存在，可以更好的体现向量中变量与变量之间的关系，表示两个样本的相似性度量。但是如果能在计算局部相似性度量时考虑两个列向量的线性趋势，那么相似性度量方法的性能会得到提升。

斯皮尔曼线性相关性系数(张文耀.用斯皮尔曼系数衡量网络的度相关[D].中国科学技术大学,2016.)是根据皮尔森相关性系数的概念推导而来的。不同于皮尔森相关性系数适用于正态分布的数据，斯皮尔曼线性相关性系数不仅适用于正态分布也适用于非正态分布，是一种适用更加广泛的非参数统计方法。由于斯皮尔曼线性相关性系数可以对向量的线性相关性进行描述，因此可以在多变量时序数据分析中引入斯皮尔曼线性相关性系数是很有必要的。

具体实施方式二：本实施方式与具体实施方式一不同的是，步骤二中所述语音时序数据的局部距离具体为：

D_local(X_i,Y_j)＝D_M(X_i,Y_j)/1+ρ(X_i,Y_j) (1)

其中，D_local(X_i,Y_j)为局部距离；D_M(X_i.Y_j)为马氏距离，ρ(X_i,Y_j)为斯皮尔曼线性相关性系数，X_i、Y_j为两个时序数据分别在i、j两个时刻的向量；

对于多变量语音时序数据T₁＝{X₁,X₂,...,X_m1}和T₂＝{Y₁,Y₂,...,Y_m2}，i∈1,2,...,m1，j∈1,2,...,m2；T₁的长度为m1，T₂的长度为m2，X_i、Y_j每个时刻记录的变量个数均n。对于动态时间弯曲算法来说，其第一步是计算两个时序数据分别在两个时刻的向量X_i和Y_j的局部距离D_local(X_i,Y_j)，无论欧式距离还是马氏距离表达的都是通过两个向量在空间上距离的远近程度来描述两个向量的相似度，无法描述两个向量的线性相关性。如图2所示样本数据空间中，待分类样本为圆心处的实心圆型，在1-NN分类算法(即K最近邻算法，K取1)中，会将待分类样本分为A类。在3-NN分类算法(即K最近邻算法，K取3)中，则会将待分类样本分为B类。假设A类是和样本数据线性相关性差异比较大的类，而B类是和样本数据线性相关性差异比较小的类。可以根据线性相关性差异对两类数据的距离度量进行调整，对线性相关性差异较大的A类和待分类样本的距离做放大处理，对线性相关性差异较小的B类和待分类样本的距离做缩小处理。调整之后使得1-NN算法和3-NN算法都能得到更准确的分类效果。

引入斯皮尔曼线性相关性系数来重新构造局部距离的表达式，使新的表达式不仅能从空间距离上描述相似度，还能从线性相关性上描述多变量时序数据的相似度度量，以得到一个更好的距离度量。由此构建新的局部距离公式为上式(3)。

由式(3)中可以看出，局部距离D_lo_cal(X_i,Y_j)会随着ρ(X_i,Y_j)的增大而减小，随着ρ(X_i,Y_j)的减小而增大。因此该公式可以作为基于马氏距离的动态时间弯曲的局部距离计算公式。使用此公式计算出局部距离后，再使用动态时间弯曲算法时，可以得到一个更好的局部距离度量，从而计算出更好的最优路径。

在两个向量的马氏距离相近的情况下，相关性系数越大即越是接近于线性相关，则局部距离越小。相关性系数越小即越不接近于线性相关，则局部距离越大。使用斯皮尔曼线性相关性系数可以优化原来基于马氏距离计算的局部距离。根据新构建的局部距离公式，再计算两个时间序列数据T₁和T₂的动态时间弯曲距离。

上述局部距离可以采用以下伪代码实现：

其他步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，步骤二中所述动态时间弯曲距离的表达式为：

其中，DTW(T₁,T₂)为动态时间弯曲距离；上标T表示转置，k＝1,2,…,t；t表示表示动态时间弯曲(DTW规整)后的最优路径长度；T₁＝{X₁,X₂,...,X_m1}，T₂＝{Y₁,Y₂,...,Y_m2}，T₁的长度为m1，T₂的长度为m2，X_i、Y_j每个时刻记录的变量个数均n，M表示马氏矩阵。

将斯皮尔曼线性相关性系数和基于马氏距离的动态时间弯曲算法融合得到的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)算法，使得相似性度量的准确性得到了提升。

其他步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式三不同的是，步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括：

步骤二一、根据局部距离计算动态时间弯曲的最优路径：

r(i,j)＝D_local(X_i,Y_j)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)

动态时间弯曲的动态规划的过程就是求从(1,1)到(m1,m2)最优路径的过程。而求最优路径的过程其实就是使两个时序数据对齐的过程。进一步的说，这个最优弯曲路径就是两个时间序列数据T₁和T₂如何在时间轴上收缩或者拉伸的，是两个时间序列之间最短距离的映射。

其中，

上述融合斯皮尔曼线性相关性系数的MD-DTW算法可以采用以下伪代码实现：

其他步骤及参数与具体实施方式三相同。

具体实施方式五：本实施方式与具体实施方式四不同的是，步骤三中所述以马氏矩阵为参数的损失函数具体为：

其中，S表示训练样本中属于同一类别的样本数据集，D表示训练样本中属于不同类别的样本数据集；p∈1,2,...,m；q∈1,2,...,m；T_p为第p个时序数据，T_q为第q个时序数据；ρ_s(X_i(k),Y_j(k))表示斯皮尔曼相关系数，c为参数可调。

大多数常用的度量学习都是基于马氏距离的。传统的相似性度量方法比如MD-DTW方法，一般只采用指定的马氏矩阵作为度量参数。而度量学习的损失函数是以马氏矩阵作为参数，通过最优化学习，学习出一个适用于当前任务的马氏矩阵，再将其应用于任务的相似性度量，以得到更好的度量效果。传统度量学习算法一般只能直接应用于单变量时序数据的数据分析任务，应用于多变量时序数据时需要做出一定的改动。本发明选择度量学习中最基本的基于概率的全局度量学习方法(PGDM)，将其与前面提出的Sp-MD-DTW算法融合，使其适用于多变量时序数据的相似性度量。具体是通过将Sp-MD-DTW算法计算出的局部距离代入损失函数公式(7)，其中||T_p-T_q||＝DTW(T_p,T_q)，代表两个时序数据的动态时间弯曲距离：

得到以马氏矩阵为参数的损失函数：

Y_j(k)表示时序数据在j时刻的向量中的第k个元素；X_k(k)表示时序数据在k时刻的向量中的第k个元素；X_i(k)表示时序数据在i时刻的向量中的第k个元素。

根据PGDM度量学习思想，需求解得一个马氏矩阵可以使g(M)最小，即马氏矩阵M的求解过程就是对g(M)的最小化的过程。由于损失函数在计算局部距离时使用的是基于动态时间弯曲的Sp-MD-DTW方法，由于有动态规划过程的存在，损失函数并不可导，因此该损失函数无法直接使用。因此在这里可以采用如下最优化算法求解方法求解损失函数：

首先将马氏矩阵初始化为符合正态分布的对角矩阵。在初始化的马氏矩阵情况下，求解得最优路径。固定此最优路径，使用拟牛顿法来求解以马氏矩阵M为参数的损失函数。重复以上步骤，直到收敛或者达到迭代次数。

本发明的PGDM度量学习过程可以采用以下伪代码实现：

其他步骤及参数与具体实施方式四相同。

具体实施方式六：本实施方式与具体实施方式五不同的是，步骤二中所述马氏距离具体为：

其他步骤及参数与具体实施方式五相同。

实施例

采用以下实施例验证本发明的有益效果：

采用通用的UCI(University of CaliforniaIrvine)机器学习库中的Japanesevowels数据集和Spoken Arabic Digit数据集作为实验数据集。本实施例首先把Sp-MD-DTW方法和传统的ED-DTW、MD-DTW方法做对比实验。通过对三种多变量时序数据相似性度量方法进行对比，来验证Sp-MD-DTW方法的效果。然后将PGDM度量学习方法和Sp-MD-DTW方法相结合(即本发明方法)，将结合后的本发明方法与前面的相似性度量学习算法做对比实验。继续验证度量学习对相似性度量学习方法具有改进作用。由于相似性度量算法可以直接影响到基于距离的数据分类算法的准确率。因此，将待测试的相似性度量算法和1-NN分类方法结合，通过数据分类方法的准确率的高低来评估相似性度量学习方法的好坏。

首先分别使用基于欧氏距离的动态时间弯曲方法(ED-DTW)、基于马氏距离的动态时间弯曲方法(MD-DTW)、以及本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW方法(Sp-MD-DTW)和1-NN分类方法结合，对Japanese vowels数据集和Spoken Arabic Digit数据集进行分类仿真实验。以分类结果的准确率作为评价相似性度量方法的好坏。实验结果如表1所示：

表1 分类错误率表

由表1可以看出，使用欧氏距离来计算局部距离的基于欧氏距离的动态时间弯曲(ED-DTW)是三种相似性度量方法中分类效果最差的方法。而基于马氏距离的动态时间弯曲(MD-DTW)使用马氏距离来计算局部距离，考虑了各个变量之间的关系，因此分类效果要明显好于ED-DTW算法。本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)在计算机局部距离时考虑了两个向量的线性相关性，因而局部距离度量更加准确，因此数据分类的的效果也好于MD-DTW算法。因此可以验证，本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)相比于目前常用的MD-DTW算法，在相似性度量的性能方面有了提升。

将Sp-MD-DTW方法和PGDM度量学习方法结合(即本发明方法)。通过PGDM度量学习算法计算出一个好的马氏矩阵，使得MD-DTW方法计算出的全局度量更好。实验结果如表2所示：

表2 分类错误率表

可知，将Sp-MD-DTW算法与PGDM算法结合后，分类算法的性能得到进一步的提升，这就意味着相似性度量的准确度得到了进一步的提升。虽然使用最优化方法求解的度量学习算法时间复杂度比较高，但是对于分类准确度要求比较高的任务，该方法还是比较适用的。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于度量学习的语音时序数据相似性度量方法，其特征在于，具体包括以下步骤：

步骤一、获取语音时序数据；

2.根据权利要求1所述基于度量学习的语音时序数据相似性度量方法，其特征在于，步骤二中所述语音时序数据的局部距离具体为：

D_local(X_i,Y_j)＝D_M(X_i,Y_j)/1+ρ(X_i,Y_j) (1)

3.根据权利要求1或2所述基于度量学习的语音时序数据相似性度量方法，其特征在于，步骤二中所述动态时间弯曲距离的表达式为：

4.根据权利要求3所述基于度量学习的语音时序数据相似性度量方法，其特征在于，步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括：

步骤二一、根据局部距离计算动态时间弯曲的最优路径：

r(i,j)＝D_local(Xi,Y_j)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)

5.根据权利要求4所述基于度量学习的语音时序数据相似性度量方法，其特征在于，步骤三中所述以马氏矩阵为参数的损失函数具体为：

6.根据权利要求5所述基于度量学习的语音时序数据相似性度量方法，其特征在于，步骤二中所述马氏距离具体为：