CN110147843A - 基于度量学习的语音时序数据相似性度量方法 - Google Patents

基于度量学习的语音时序数据相似性度量方法 Download PDF

Info

Publication number
CN110147843A
CN110147843A CN201910430437.1A CN201910430437A CN110147843A CN 110147843 A CN110147843 A CN 110147843A CN 201910430437 A CN201910430437 A CN 201910430437A CN 110147843 A CN110147843 A CN 110147843A
Authority
CN
China
Prior art keywords
time series
distance
series data
data
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910430437.1A
Other languages
English (en)
Inventor
王念滨
刘鹏
张毅
王红滨
周连科
张海彬
崔琎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910430437.1A priority Critical patent/CN110147843A/zh
Publication of CN110147843A publication Critical patent/CN110147843A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于度量学习的语音时序数据相似性度量方法,属于数据分类技术领域。本发明首先获取语音时序数据;结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;再根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;求解损失函数计算出针对当前训练集样本的马氏矩阵;最后将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。本发明解决了现有语音时序数据相似性度量不准确的问题。本发明可用于语音时序数据的相似性度量。

Description

基于度量学习的语音时序数据相似性度量方法
技术领域
本发明涉及语音时序数据相似性度量方法,属于数据分类技术领域。
背景技术
多变量时序数据数据分析是语音识别领域研究非常重要的工作。目前大部分主流的时序数据分析方法一般都只适用于单变量时序数据的数据分析,在多变量时序数据分析领域目前的研究不够完善(林珠,邢延.数据挖掘中适用于分类的时序数据特征提取方法[J].计算机系统应用,2012,21(10):224-229.)。相比于单变量时序方法,多变量时序数据分析方法适用领域更加多样,应用范围也更加广泛。目前常用的多变量时序数据相似性度量方法大多都是基于传统方法改进而来。例如:基于欧氏距离的动态时间弯曲(Mahalanobis Distance-Based Dynamic Time Wraping,ED-DTW)方法、基于马氏距离的动态时间弯曲(Mahalanobis Distance-Based Dynamic Time Wraping,MD-DTW)方法(Mei J,Liu M,Wang Y F,et al.Learning a Mahalanobis Distance-Based Dynamic TimeWarping Measure for Multivariate Time Series Classification[J].IEEETransactions on Cybernetics,2016,46(6):1363-1374.)。另外,Abdullah Mueen在2017年针对在稀疏时间序列数据上使用动态时间弯曲方法效率非常低的特点,提出了AWarp度量方法(Mueen A,Chavoshi N,Abuelrub N,et al.Fast Warping Distance for SparseTime Series[C]//IEEE International Conference on Data Mining.IEEE,2017.)。Boghrati Reihance提出了会话水平的语法相似性度量(Conversation level SyntaxSimilarity Metric,CSSM)(Boghrati R,Hoover J,Johnson K M,et al.Conversationlevel syntax similarity metric[J].Behavior Research Methods,2017.)。马氏距离是经常使用的时序数据相似性度量方法,但是单独使用的话只能应用于维度相同的时序数据。但是语音时序数据的长度并不相同,而且由于外部因素影响,语音时序数据可能在时间轴上产生偏移和伸缩。动态时间弯曲(Dynamic Time Wraping,DTW)是目前可以比较好的解决时序数据的偏移和伸缩的方法,而且该方法动态时间弯曲也适用于长度不同的时序数据。基于马氏距离的动态时间弯曲算法(MD-DTW)是目前非常流行的,该方法使用马氏距离来计算时序数据的局部距离,再使用动态时间弯曲来计算时序数据的全局距离;虽然MD-DTW方法引入马氏距离后使得动态时间弯曲在计算局部距离的过程得到了优化,但是在计算局部距离时,马氏距离仅仅考虑的是数据内部变量与变量的关系,对于两个变量整体的相关性缺乏考虑,导致相似性度量结果不够准确,进而影响分析结果。度量学习(metriclearning)可以根据指定的分类或聚类任务,从训练集样本空间学习出一个优秀的距离度量参数,从而更加准确快速的表示测试机样本的相似性度量。常见的度量学习方法有基于概率的全局度量学习方法(Probabilistic global Distance metric learning,PGDM)(Xing E P,Ng A Y,Jordan M I,et al.Distance Metric Learning with Applicationto Clustering with Side-Information.[C]//International Conference on NeuralInformation Processing Systems.MIT Press,2002.)、信息理论在线度量学习方法(Information Theoretic Metric Learning,ITML)(Davis J V,Kulis B,Jain P,etal.Information-theoretic metric learning[C]//Icml 07:International Conferenceon Machine Learning.2007.)、基于大间隔理论的度量学习方法(Large Margin NearestNeighbor,LMNN)(Weinberger K Q,Saul L K.Distance Metric Learning for LargeMargin Nearest Neighbor Classification[M].JMLR.org,2009.10(1):207-244.)等;但是传统度量学习算法一般都只能直接应用于单变量时序数据的数据分析任务,因此也不能直接运用于语音时序数据的相似性度量。
发明内容
本发明为解决现有语音时序数据相似性度量不准确的问题,提供了基于度量学习的语音时序数据相似性度量方法。
本发明所述基于度量学习的语音时序数据相似性度量方法,通过以下技术方案实现:
步骤一、获取语音时序数据;
步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;
步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;
步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;
步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。
作为对上述技术方案的进一步阐述:
进一步的,步骤二中所述语音时序数据的局部距离具体为:
Dlocal(Xi,Yj)=DM(Xi,Yj)/1+ρ(Xi,Yj) (1)
其中,Dlocal(Xi,Yj)为局部距离;DM(Xi.Yj)为马氏距离,ρ(Xi,Yj)为斯皮尔曼线性相关性系数,Xi、Yj分别为两个时序数据分别在i、j两个时刻的向量。
进一步的,步骤二中所述动态时间弯曲距离的表达式为:
其中,DTW(T1,T2)为动态时间弯曲距离;上标T表示转置,k=1,2,…,t;t表示表示动态时间弯曲(DTW规整)后的最优路径长度;时序数据T1={X1,X2,...,Xm1},时序数据T2={Y1,Y2,...,Ym2},Xi、Yj每个时刻记录的变量个数均n,M表示马氏矩阵。
进一步的,步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括:
步骤二一、根据局部距离计算动态时间弯曲的最优路径:
r(i,j)=Dlocal(Xi,Yj)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)
其中,r(i,j)表示从动态时间弯曲的距离成本矩阵的起始点(1,1)到(i,j)的累积最小距离;
步骤二二、根据动态时间弯曲的最优路径,两个时序数据T1和T2能够扩展为长度为t的新的时序数据表示为:
其中,在k时刻的数据向量、在k时刻的数据向量;分别为T1、T2的动态规划路径;
步骤二三、则多变量时间序列数据T1和T2的动态时间弯曲距离DTW(T1,T2)能够表示为:
进一步的,步骤三中所述以马氏矩阵为参数的损失函数具体为:
其中,S表示训练样本中属于同一类别的样本数据集,D表示训练样本中属于不同类别的样本数据集;p∈1,2,...,m;q∈1,2,...,m;Tp为第p个时序数据,Tq为第q个时序数据;Yj(k)表示时序数据在j时刻的向量中的第k个元素;Xk(k)表示时序数据在k时刻的向量中的第k个元素;Xi(k)表示时序数据在i时刻的向量中的第k个元素;ρs(Xi(k),Yj(k))表示斯皮尔曼相关系数,c为参数可调。
进一步的,步骤二中所述马氏距离具体为:
本发明最为突出的特点和显著的有益效果是:
本发明所涉及的基于度量学习的语音时序数据相似性度量方法,在局部距离的计算上融合斯皮尔曼线性相关性系数,使得在计算多变量语音时序数据的局部距离时考虑变量之间的线性相关性,可以得到更好的语音时序数据之间得相似性度量;并引入度量学习技术可以在训练集样本的基础上,使用最优化学习方法,学习出一个针对当前任务的马氏矩阵,使计算出的时序数据相似性度量的效果更好;因此本发明方法能够得到准确度语音时序数据相似性度量,相比传统方法,准确率约提高5%。。
附图说明
图1为本发明流程图;
图2为线性相关性对距离度量影响原理说明的样本数据空间图。
具体实施方式
具体实施方式一:结合图1对本实施方式进行说明,本实施方式给出的基于度量学习的语音时序数据相似性度量方法,具体包括以下步骤:
步骤一、获取语音时序数据;
步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;
虽然MD-DTW方法引入马氏距离后使得动态时间弯曲在计算局部距离的过程得到了优化,但是在计算局部距离时,马氏距离仅仅考虑的是数据内部变量与变量的关系,对于两个变量整体的相关性缺乏考虑,因此步骤二对基于马氏距离的动态时间弯曲方法进行了改进,并将其命名为:融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW);
多变量时序数据的相似性度量度分析中,要求计算两个多变量时序数据在某一个时间点的距离,也就是局部距离。由于多变量时序数据每一个时间点记录了多个变量,所以多变量时序数据的局部距离是两个向量间的距离。基于马氏距离的动态时间弯曲算法使用马氏距离来计算时序数据的局部距离,虽然由于有马氏矩阵的存在,可以更好的体现向量中变量与变量之间的关系,表示两个样本的相似性度量。但是如果能在计算局部相似性度量时考虑两个列向量的线性趋势,那么相似性度量方法的性能会得到提升。
斯皮尔曼线性相关性系数(张文耀.用斯皮尔曼系数衡量网络的度相关[D].中国科学技术大学,2016.)是根据皮尔森相关性系数的概念推导而来的。不同于皮尔森相关性系数适用于正态分布的数据,斯皮尔曼线性相关性系数不仅适用于正态分布也适用于非正态分布,是一种适用更加广泛的非参数统计方法。由于斯皮尔曼线性相关性系数可以对向量的线性相关性进行描述,因此可以在多变量时序数据分析中引入斯皮尔曼线性相关性系数是很有必要的。
步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;
步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;
步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。
具体实施方式二:本实施方式与具体实施方式一不同的是,步骤二中所述语音时序数据的局部距离具体为:
Dlocal(Xi,Yj)=DM(Xi,Yj)/1+ρ(Xi,Yj) (1)
其中,Dlocal(Xi,Yj)为局部距离;DM(Xi.Yj)为马氏距离,ρ(Xi,Yj)为斯皮尔曼线性相关性系数,Xi、Yj为两个时序数据分别在i、j两个时刻的向量;
对于多变量语音时序数据T1={X1,X2,...,Xm1}和T2={Y1,Y2,...,Ym2},i∈1,2,...,m1,j∈1,2,...,m2;T1的长度为m1,T2的长度为m2,Xi、Yj每个时刻记录的变量个数均n。对于动态时间弯曲算法来说,其第一步是计算两个时序数据分别在两个时刻的向量Xi和Yj的局部距离Dlocal(Xi,Yj),无论欧式距离还是马氏距离表达的都是通过两个向量在空间上距离的远近程度来描述两个向量的相似度,无法描述两个向量的线性相关性。如图2所示样本数据空间中,待分类样本为圆心处的实心圆型,在1-NN分类算法(即K最近邻算法,K取1)中,会将待分类样本分为A类。在3-NN分类算法(即K最近邻算法,K取3)中,则会将待分类样本分为B类。假设A类是和样本数据线性相关性差异比较大的类,而B类是和样本数据线性相关性差异比较小的类。可以根据线性相关性差异对两类数据的距离度量进行调整,对线性相关性差异较大的A类和待分类样本的距离做放大处理,对线性相关性差异较小的B类和待分类样本的距离做缩小处理。调整之后使得1-NN算法和3-NN算法都能得到更准确的分类效果。
引入斯皮尔曼线性相关性系数来重新构造局部距离的表达式,使新的表达式不仅能从空间距离上描述相似度,还能从线性相关性上描述多变量时序数据的相似度度量,以得到一个更好的距离度量。由此构建新的局部距离公式为上式(3)。
由式(3)中可以看出,局部距离Dlocal(Xi,Yj)会随着ρ(Xi,Yj)的增大而减小,随着ρ(Xi,Yj)的减小而增大。因此该公式可以作为基于马氏距离的动态时间弯曲的局部距离计算公式。使用此公式计算出局部距离后,再使用动态时间弯曲算法时,可以得到一个更好的局部距离度量,从而计算出更好的最优路径。
在两个向量的马氏距离相近的情况下,相关性系数越大即越是接近于线性相关,则局部距离越小。相关性系数越小即越不接近于线性相关,则局部距离越大。使用斯皮尔曼线性相关性系数可以优化原来基于马氏距离计算的局部距离。根据新构建的局部距离公式,再计算两个时间序列数据T1和T2的动态时间弯曲距离。
上述局部距离可以采用以下伪代码实现:
其他步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,步骤二中所述动态时间弯曲距离的表达式为:
其中,DTW(T1,T2)为动态时间弯曲距离;上标T表示转置,k=1,2,…,t;t表示表示动态时间弯曲(DTW规整)后的最优路径长度;T1={X1,X2,...,Xm1},T2={Y1,Y2,...,Ym2},T1的长度为m1,T2的长度为m2,Xi、Yj每个时刻记录的变量个数均n,M表示马氏矩阵。
将斯皮尔曼线性相关性系数和基于马氏距离的动态时间弯曲算法融合得到的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)算法,使得相似性度量的准确性得到了提升。
其他步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式三不同的是,步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括:
步骤二一、根据局部距离计算动态时间弯曲的最优路径:
r(i,j)=Dlocal(Xi,Yj)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)
其中,r(i,j)表示从动态时间弯曲的距离成本矩阵的起始点(1,1)到(i,j)的累积最小距离;
动态时间弯曲的动态规划的过程就是求从(1,1)到(m1,m2)最优路径的过程。而求最优路径的过程其实就是使两个时序数据对齐的过程。进一步的说,这个最优弯曲路径就是两个时间序列数据T1和T2如何在时间轴上收缩或者拉伸的,是两个时间序列之间最短距离的映射。
步骤二二、根据动态时间弯曲的最优路径,两个时序数据T1和T2能够扩展为长度为t的新的时序数据表示为:
其中,在k时刻的数据向量、在k时刻的数据向量;分别为T1、T2的动态规划路径;
步骤二三、则多变量时间序列数据T1和T2的动态时间弯曲距离DTW(T1,T2)能够表示为:
其中,
上述融合斯皮尔曼线性相关性系数的MD-DTW算法可以采用以下伪代码实现:
其他步骤及参数与具体实施方式三相同。
具体实施方式五:本实施方式与具体实施方式四不同的是,步骤三中所述以马氏矩阵为参数的损失函数具体为:
其中,S表示训练样本中属于同一类别的样本数据集,D表示训练样本中属于不同类别的样本数据集;p∈1,2,...,m;q∈1,2,...,m;Tp为第p个时序数据,Tq为第q个时序数据;ρs(Xi(k),Yj(k))表示斯皮尔曼相关系数,c为参数可调。
大多数常用的度量学习都是基于马氏距离的。传统的相似性度量方法比如MD-DTW方法,一般只采用指定的马氏矩阵作为度量参数。而度量学习的损失函数是以马氏矩阵作为参数,通过最优化学习,学习出一个适用于当前任务的马氏矩阵,再将其应用于任务的相似性度量,以得到更好的度量效果。传统度量学习算法一般只能直接应用于单变量时序数据的数据分析任务,应用于多变量时序数据时需要做出一定的改动。本发明选择度量学习中最基本的基于概率的全局度量学习方法(PGDM),将其与前面提出的Sp-MD-DTW算法融合,使其适用于多变量时序数据的相似性度量。具体是通过将Sp-MD-DTW算法计算出的局部距离代入损失函数公式(7),其中||Tp-Tq||=DTW(Tp,Tq),代表两个时序数据的动态时间弯曲距离:
得到以马氏矩阵为参数的损失函数:
Yj(k)表示时序数据在j时刻的向量中的第k个元素;Xk(k)表示时序数据在k时刻的向量中的第k个元素;Xi(k)表示时序数据在i时刻的向量中的第k个元素。
根据PGDM度量学习思想,需求解得一个马氏矩阵可以使g(M)最小,即马氏矩阵M的求解过程就是对g(M)的最小化的过程。由于损失函数在计算局部距离时使用的是基于动态时间弯曲的Sp-MD-DTW方法,由于有动态规划过程的存在,损失函数并不可导,因此该损失函数无法直接使用。因此在这里可以采用如下最优化算法求解方法求解损失函数:
首先将马氏矩阵初始化为符合正态分布的对角矩阵。在初始化的马氏矩阵情况下,求解得最优路径。固定此最优路径,使用拟牛顿法来求解以马氏矩阵M为参数的损失函数。重复以上步骤,直到收敛或者达到迭代次数。
本发明的PGDM度量学习过程可以采用以下伪代码实现:
其他步骤及参数与具体实施方式四相同。
具体实施方式六:本实施方式与具体实施方式五不同的是,步骤二中所述马氏距离具体为:
其他步骤及参数与具体实施方式五相同。
实施例
采用以下实施例验证本发明的有益效果:
采用通用的UCI(University of CaliforniaIrvine)机器学习库中的Japanesevowels数据集和Spoken Arabic Digit数据集作为实验数据集。本实施例首先把Sp-MD-DTW方法和传统的ED-DTW、MD-DTW方法做对比实验。通过对三种多变量时序数据相似性度量方法进行对比,来验证Sp-MD-DTW方法的效果。然后将PGDM度量学习方法和Sp-MD-DTW方法相结合(即本发明方法),将结合后的本发明方法与前面的相似性度量学习算法做对比实验。继续验证度量学习对相似性度量学习方法具有改进作用。由于相似性度量算法可以直接影响到基于距离的数据分类算法的准确率。因此,将待测试的相似性度量算法和1-NN分类方法结合,通过数据分类方法的准确率的高低来评估相似性度量学习方法的好坏。
首先分别使用基于欧氏距离的动态时间弯曲方法(ED-DTW)、基于马氏距离的动态时间弯曲方法(MD-DTW)、以及本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW方法(Sp-MD-DTW)和1-NN分类方法结合,对Japanese vowels数据集和Spoken Arabic Digit数据集进行分类仿真实验。以分类结果的准确率作为评价相似性度量方法的好坏。实验结果如表1所示:
表1 分类错误率表
由表1可以看出,使用欧氏距离来计算局部距离的基于欧氏距离的动态时间弯曲(ED-DTW)是三种相似性度量方法中分类效果最差的方法。而基于马氏距离的动态时间弯曲(MD-DTW)使用马氏距离来计算局部距离,考虑了各个变量之间的关系,因此分类效果要明显好于ED-DTW算法。本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)在计算机局部距离时考虑了两个向量的线性相关性,因而局部距离度量更加准确,因此数据分类的的效果也好于MD-DTW算法。因此可以验证,本发明提出的融合斯皮尔曼线性相关性系数的MD-DTW算法(Sp-MD-DTW)相比于目前常用的MD-DTW算法,在相似性度量的性能方面有了提升。
将Sp-MD-DTW方法和PGDM度量学习方法结合(即本发明方法)。通过PGDM度量学习算法计算出一个好的马氏矩阵,使得MD-DTW方法计算出的全局度量更好。实验结果如表2所示:
表2 分类错误率表
可知,将Sp-MD-DTW算法与PGDM算法结合后,分类算法的性能得到进一步的提升,这就意味着相似性度量的准确度得到了进一步的提升。虽然使用最优化方法求解的度量学习算法时间复杂度比较高,但是对于分类准确度要求比较高的任务,该方法还是比较适用的。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.基于度量学习的语音时序数据相似性度量方法,其特征在于,具体包括以下步骤:
步骤一、获取语音时序数据;
步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;
步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;
步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;
步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。
2.根据权利要求1所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述语音时序数据的局部距离具体为:
Dlocal(Xi,Yj)=DM(Xi,Yj)/1+ρ(Xi,Yj) (1)
其中,Dlocal(Xi,Yj)为局部距离;DM(Xi.Yj)为马氏距离,ρ(Xi,Yj)为斯皮尔曼线性相关性系数,Xi、Yj分别为两个时序数据分别在i、j两个时刻的向量。
3.根据权利要求1或2所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述动态时间弯曲距离的表达式为:
其中,DTW(T1,T2)为动态时间弯曲距离;上标T表示转置,k=1,2,…,t;t表示表示动态时间弯曲(DTW规整)后的最优路径长度;时序数据T1={X1,X2,...,Xm1},时序数据T2={Y1,Y2,...,Ym2},Xi、Yj每个时刻记录的变量个数均n,M表示马氏矩阵。
4.根据权利要求3所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括:
步骤二一、根据局部距离计算动态时间弯曲的最优路径:
r(i,j)=Dlocal(Xi,Yj)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)} (3)
其中,r(i,j)表示从动态时间弯曲的距离成本矩阵的起始点(1,1)到(i,j)的累积最小距离;
步骤二二、根据动态时间弯曲的最优路径,两个时序数据T1和T2能够扩展为长度为t的新的时序数据表示为:
其中,在k时刻的数据向量、在k时刻的数据向量;分别为T1、T2的动态规划路径;
步骤二三、则多变量时间序列数据T1和T2的动态时间弯曲距离DTW(T1,T2)能够表示为:
5.根据权利要求4所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤三中所述以马氏矩阵为参数的损失函数具体为:
其中,S表示训练样本中属于同一类别的样本数据集,D表示训练样本中属于不同类别的样本数据集;p∈1,2,...,m;q∈1,2,...,m;Tp为第p个时序数据,Tq为第q个时序数据;Yj(k)表示时序数据在j时刻的向量中的第k个元素;Xk(k)表示时序数据在k时刻的向量中的第k个元素;Xi(k)表示时序数据在i时刻的向量中的第k个元素;ρs(Xi(k),Yj(k))表示斯皮尔曼相关系数,c为参数可调。
6.根据权利要求5所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述马氏距离具体为:
CN201910430437.1A 2019-05-22 2019-05-22 基于度量学习的语音时序数据相似性度量方法 Pending CN110147843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430437.1A CN110147843A (zh) 2019-05-22 2019-05-22 基于度量学习的语音时序数据相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430437.1A CN110147843A (zh) 2019-05-22 2019-05-22 基于度量学习的语音时序数据相似性度量方法

Publications (1)

Publication Number Publication Date
CN110147843A true CN110147843A (zh) 2019-08-20

Family

ID=67592763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430437.1A Pending CN110147843A (zh) 2019-05-22 2019-05-22 基于度量学习的语音时序数据相似性度量方法

Country Status (1)

Country Link
CN (1) CN110147843A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766060A (zh) * 2019-10-14 2020-02-07 中山大学 基于深度学习的时间序列相似度的计算方法、系统及介质
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111179914A (zh) * 2019-12-04 2020-05-19 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN113312959A (zh) * 2021-03-26 2021-08-27 中国科学技术大学 一种基于dtw距离的手语视频关键帧采样方法
WO2022148163A1 (zh) * 2021-01-05 2022-07-14 北京字跳网络技术有限公司 一种音乐片段的定位方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006292693A (ja) * 2005-04-14 2006-10-26 Konica Minolta Business Technologies Inc 画像評価装置及び画像形成装置
CN103761237A (zh) * 2013-12-04 2014-04-30 南京邮电大学 一种基于用户特征及其信任度的协同过滤推荐方法
CN103813355A (zh) * 2014-02-21 2014-05-21 厦门大学 一种分布式网络中协同同步的异常点的识别方法
CN104008552A (zh) * 2014-06-16 2014-08-27 南京大学 基于动态时间弯曲的时序sar影像耕地提取方法
CN105632502A (zh) * 2015-12-10 2016-06-01 江西师范大学 一种基于加权成对约束度量学习算法的说话人识别方法
CN106055689A (zh) * 2016-06-08 2016-10-26 中国科学院计算机网络信息中心 一种基于时序相关性的空间聚类方法
CN106067026A (zh) * 2016-05-30 2016-11-02 天水师范学院 一种中药材显微图像的特征提取与识别检索方法
CN104990894B (zh) * 2015-07-09 2017-11-21 南京富岛信息工程有限公司 一种基于加权吸光度及相似样本的汽油性质检测方法
CN108595803A (zh) * 2018-04-13 2018-09-28 重庆科技学院 基于递归神经网络的页岩气井生产压力预测方法
CN108989802A (zh) * 2018-08-14 2018-12-11 华中科技大学 一种利用帧间关系的hevc视频流的质量估计方法及系统
CN109614284A (zh) * 2018-10-25 2019-04-12 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109766845A (zh) * 2019-01-14 2019-05-17 首都医科大学宣武医院 一种脑电信号分类方法、装置、设备和介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006292693A (ja) * 2005-04-14 2006-10-26 Konica Minolta Business Technologies Inc 画像評価装置及び画像形成装置
CN103761237A (zh) * 2013-12-04 2014-04-30 南京邮电大学 一种基于用户特征及其信任度的协同过滤推荐方法
CN103813355A (zh) * 2014-02-21 2014-05-21 厦门大学 一种分布式网络中协同同步的异常点的识别方法
CN104008552A (zh) * 2014-06-16 2014-08-27 南京大学 基于动态时间弯曲的时序sar影像耕地提取方法
CN104990894B (zh) * 2015-07-09 2017-11-21 南京富岛信息工程有限公司 一种基于加权吸光度及相似样本的汽油性质检测方法
CN105632502A (zh) * 2015-12-10 2016-06-01 江西师范大学 一种基于加权成对约束度量学习算法的说话人识别方法
CN106067026A (zh) * 2016-05-30 2016-11-02 天水师范学院 一种中药材显微图像的特征提取与识别检索方法
CN106055689A (zh) * 2016-06-08 2016-10-26 中国科学院计算机网络信息中心 一种基于时序相关性的空间聚类方法
CN108595803A (zh) * 2018-04-13 2018-09-28 重庆科技学院 基于递归神经网络的页岩气井生产压力预测方法
CN108989802A (zh) * 2018-08-14 2018-12-11 华中科技大学 一种利用帧间关系的hevc视频流的质量估计方法及系统
CN109614284A (zh) * 2018-10-25 2019-04-12 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109766845A (zh) * 2019-01-14 2019-05-17 首都医科大学宣武医院 一种脑电信号分类方法、装置、设备和介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ERIC P. XING ET AL: "Distance metric learning, with application to clustering with side-information", 《INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
JIANGYUAN MEI ET AL: "Learning a Mahalanobis Distance-Based Dynamic Time Warping Measure for Multivariate Time Series Classification", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
MD. MASUDUR RAHMAN ET AL: "Dynamic Time Warping Assisted SVM Classifier for Bangla Speech Recognition", 《2018 INTERNATIONAL CONFERENCE ON COMPUTER, COMMUNICATION, CHEMICAL, MATERIAL AND ELECTRONIC ENGINEERING (IC4ME2)》 *
宋鹤: "基于WEB的风电场可视化监测技术研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
林文钊: "基于振荡波局部放电检测的电力电缆缺陷定位研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
黄健主审;林昊,郭锋彪,王栋主编: "《简明生物信息学》", 30 November 2014 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766060A (zh) * 2019-10-14 2020-02-07 中山大学 基于深度学习的时间序列相似度的计算方法、系统及介质
CN111179914A (zh) * 2019-12-04 2020-05-19 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111179914B (zh) * 2019-12-04 2022-12-16 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111027681B (zh) * 2019-12-09 2023-06-27 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
WO2022148163A1 (zh) * 2021-01-05 2022-07-14 北京字跳网络技术有限公司 一种音乐片段的定位方法、装置、设备及存储介质
CN113312959A (zh) * 2021-03-26 2021-08-27 中国科学技术大学 一种基于dtw距离的手语视频关键帧采样方法
CN113312959B (zh) * 2021-03-26 2022-09-02 中国科学技术大学 一种基于dtw距离的手语视频关键帧采样方法

Similar Documents

Publication Publication Date Title
CN110147843A (zh) 基于度量学习的语音时序数据相似性度量方法
Ullrich et al. Boundary Detection in Music Structure Analysis using Convolutional Neural Networks.
McFee et al. Analyzing Song Structure with Spectral Clustering.
Zhuang et al. Real-world acoustic event detection
Sharghi et al. Improving sequential determinantal point processes for supervised video summarization
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN105574547B (zh) 适应动态调整基分类器权重的集成学习方法及装置
Wang et al. CLUES: A non-parametric clustering method based on local shrinking
Prekopcsák et al. Time series classification by class-specific Mahalanobis distance measures
WO2020024396A1 (zh) 音乐风格识别方法、装置、计算机设备及存储介质
US20200075019A1 (en) System and method for neural network orchestration
CN108520752A (zh) 一种声纹识别方法和装置
Pérez-Ortiz et al. Machine learning techniques to select Be star candidates-An application in the OGLE-IV Gaia south ecliptic pole field
Quinto et al. Jazz music sub-genre classification using deep learning
Greco et al. Weighted likelihood mixture modeling and model-based clustering
Bandela et al. Speech emotion recognition using unsupervised feature selection algorithms
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
Chang et al. Hierarchical large-margin Gaussian mixture models for phonetic classification
Wang Semi-supervised learning using ensembles of multiple 1D-embedding-based label boosting
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
Ahrendt et al. Co-occurrence models in music genre classification
Zheng et al. Boundary adjusted network based on cosine similarity for temporal action proposal generation
Fujioka et al. Addressing ambiguity of emotion labels through meta-learning
CN110163888A (zh) 一种新型的运动分割模型数量检测方法
CN109447116A (zh) 一种基于低秩约束图谱学习的无监督特征选择算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination