CN103413551A - 基于稀疏降维的说话人识别方法 - Google Patents

基于稀疏降维的说话人识别方法 Download PDF

Info

Publication number
CN103413551A
CN103413551A CN2013102987579A CN201310298757A CN103413551A CN 103413551 A CN103413551 A CN 103413551A CN 2013102987579 A CN2013102987579 A CN 2013102987579A CN 201310298757 A CN201310298757 A CN 201310298757A CN 103413551 A CN103413551 A CN 103413551A
Authority
CN
China
Prior art keywords
sparse
dimension reduction
iteration
training
solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102987579A
Other languages
English (en)
Other versions
CN103413551B (zh
Inventor
杨毅
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co., Ltd.
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310298757.9A priority Critical patent/CN103413551B/zh
Publication of CN103413551A publication Critical patent/CN103413551A/zh
Application granted granted Critical
Publication of CN103413551B publication Critical patent/CN103413551B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

Description

基于稀疏降维的说话人识别方法
技术领域
本发明属于音频技术领域,特别涉及一种基于稀疏降维的说话人识别方法。
背景技术
为了提高分类或聚类等算法的性能并减少计算复杂度,通常采用将其原始特征的高维空间降维(dimension reduction)到子空间的方法。降维技术广泛应用于机器学习领域,用于进行数据压缩及在低维子空间上保持重要的信息。
主成分分析(Principal Components Analysis,PCA)技术使得高维的高斯分布采样和映射后的低维采样之间的互信息(mutual information)最大化。主成分分析法借助于正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的几个正交方向,然后对多维变量系统进行降维处理,使之能以较高精度转换成低维变量系统,通过构造适当的价值函数,进一步把低维系统转化成一维系统。主成分分析算法的基本原理如下:
假设有一组d维矢量Y=[y1y2...yn]可以表示为:
yj=Wxj+m   (1)
其中W是d×c维矩阵,xj为c维主成分矢量,m为d(c≤d≤n)维偏差矢量。主成分分析算法通过寻找合适的W、xj和m使得按照如下公式定义的代价函数C最小:
C = Σ j = 1 n | | y j - Wx j - m | | 2 - - - ( 2 )
其中yj为d维矢量,xj为c维矢量。
线性判别分析(Linear Discriminant Analysis,LDA)通过最大化类间散度(between-class scatter)和最小化类内散度(within-class scatter)来保持鉴别性信息(discriminative information)。基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大类间散度和最小类内散度,即模式在该空间中有最佳可分离性。线性判别分析算法的基本原理如下:
假设有属于整数c(c>0)类的给定数据{xi,j∈RN},其中i(1≤i≤c)表示类别,j表示第i类中的第j(1≤j≤ni)个数据,ni为第i类中的数据数,数据总数为n,第i类的平均值为mi,所有数据的整体平均值为m。线性判别分析的目标是寻找xi,j的一个最佳投影矩阵w,保证经过投影后的数据y=wT(x-m)在新的空间中具有最小类内散度和最大类间散度。类内散度矩阵Sw和类间散度矩阵Sb分别表示同类数据间的分散程度和不同类数据间的分散程度:
S w = 1 n Σ i = 1 c Σ j = 1 n i ( x i , j - m i ) ( x i , j - m i ) T - - - ( 3 )
S b = 1 n Σ i = 1 c ( m i - m ) ( m i - m ) T - - - ( 4 )
线性判别分析算法根据菲舍(Fisher)鉴别准则来找到一组最优鉴别矢量构成的投影矩阵Wopt
W opt = arg max w | W T S b W | | W T S w W | - - - ( 5 )
流形(Manifold)降维方法是一种有效的降维方法,在模式识别等领域已得到应用。流形学习算法的目标是保持数据的几何结构,将高维特征通过流形方法投影到低维空间来降低计算量。保局投影(Locality PreservingProjections,LPP)是一种无监督的流形学习方法,在学习过程中未考虑样本类别信息。保局投影算法的基本原理如下:
保局投影通过寻找一个转换矩阵A,将高维空间Rn的数据X={x1,x2,…,xm}映射到低维空间Rl的数据Y={y1,y2,…,ym},使得在高维空间邻近的点映射后在低维空间仍保持近邻。具体表示为:
xi→yi=ATxi,i=1,…,m   (6)
其目标函数定义为:
J = Σ i , j ( y i - y j ) S ij ( y i - y j ) T - - - ( 7 )
其中Sij为权重矩阵,定义为
Figure BDA00003520662800032
σ为经验参数。上式的解为:
XLXTa=λXDXTa  (8)
其中D为对角权重矩阵,L为拉普拉斯矩阵,λ为特征值向量。保局投影是一种无监督的机器学习方法,并未将样本的类别信息考虑在内。
传统的信号表示方法一般是在某个基(如傅里叶或小波函数)上展开,这种确定的基函数影响了对时频变化较大的信号的表示效果。为了实现对信号更好的表示,产生了信号稀疏(sparsity)分解理论,其基本思想是:自适应选择信号的基来获得信号的稀疏表示。这种稀疏表示一方面可以实现高效数据压缩,并可以利用冗余特征来获得原始信号的自然特征。语音信号稀疏分解已被成功应用于语音信号处理的多个方面,如语音压缩、降噪和识别等。基于过完备原子基的稀疏分解算法包括匹配追踪(Matching Pursuit,MP)算法和基追踪(Basis Pursuit,BP)算法等。
给定一个集合D={gi,i∈Γ},其元素是张成整个N维希尔伯特空间H=RN的单位矢量,如果元素个数K>N,则集合D构成一个过完备基,其元素gi为由参数i定义的原子且范数为1。任意信号S∈RN在过完备原子基D上的稀疏分解问题可以描述为:
min||α||0,s.t.S=Dα   (9)
其中||α||0为系数序列{αi}中非零元素的个数。
匹配追踪算法的具体方法如下:首先从过完备库中挑选与信号最匹配的原子
Figure BDA000035206628000410
满足:
| ⟨ g k 0 , S 0 ⟩ | = sup k ∈ Γ | ⟨ g k , S 0 ⟩ | - - - ( 10 )
其中sup为极限保持函数。将信号S分解为在最匹配的原子
Figure BDA000035206628000411
上的分量及残差ξ0,即:
S 0 = ⟨ g k 0 , S ⟩ g k 0 + ξ 0 - - - ( 11 )
随后对最佳匹配后的残余不断反复进行如上分解过程,即
S r = ⟨ g k r , S r ⟩ g k r + ξ r + 1 - - - ( 12 )
其中Sr为第r次分解后获得的信号,
Figure BDA00003520662800044
为第r次分解中挑选的最匹配原子,ξr+1为与
Figure BDA00003520662800045
对应的残差,并有:
| ⟨ g k r , S r ⟩ | = sup k ∈ Γ | ⟨ g k , S r ⟩ | - - - ( 13 )
在每一步分解中,所选取的最佳原子都要满足上式。
最后,经过m步分解后,得到信号S:
S = Σ r = 0 m - 1 ⟨ g k r , S r ⟩ g k r + ξ m - - - ( 14 )
其中为第r次分解中挑选的最匹配原子,ξm为与
Figure BDA00003520662800049
对应的残差上式中的残差。ξm随着分解进行迅速衰减,因此用与信号长度相比较而言更少数的原子即可以表示信号的主要成分,体现了信号稀疏所表示的思想。但是对于包含多个特征成分的复合信号,上述稀疏分解算法无法兼顾多个特征成分,无法实现信号的稀疏分解。
稀疏算法中的双缩模型(Double Shrinking Model,DSM)算法将l1范数引入传统的降维问题中,l1范数定义为在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。双缩模型的目的是寻找一个可以同时压缩维数(dimensionality)和基数(cardinality)的投影矩阵。双缩模型可表示为:
min x x T Px + μ | | x | | 1 s . t . x T x = 1 - - - ( 15 )
其中x代表投影矩阵,μ为权重,||x||1为x的l1范数,不同的P表示不同类型的降维算法。
双缩模型的优化求解主要困难在于l1范数求解及约束等式xTx=1两者同时满足。由于l1范数方法不可求导,因此主要的解决方法集中于解决l1范数最小二乘回归问题或带约束的l1范数最小化问题,主要分为以下几类方法:贪婪(Greedy)算法、凸优化(Convex optimization)算法、迭代阈值(Iterative thresholding)算法等。贪婪算法搜索依次选择重要的变量,通过优化这些变量来获得压缩感知问题的稀疏解;凸优化算法通过产生双倍于l1范数最小化的变量,l1范数被这些变量之和取代,解决了l1范数方法不可求导的问题;迭代阈值算法则在每个迭代步骤里循环进行软或硬阈值判决,最终得到稀疏解。
但是上述算法都存在弊端,例如贪婪算法很难保证双缩模型的最优解,附加的约束等式xTx=1使得凸优化算法中的l1范数无效,迭代阈值算法的解则无法满足双缩模型中的约束等式xTx=1。总之,大部分的l1范数优化方法不能直接应用于双缩模型。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于稀疏降维的说话人识别方法,通过对语音数据进行降维来实现说话人识别;该方法的基本思想是通过稀疏投影矩阵对高维数据进行降维,利用一种带约束的l1范数优化方法来保证在不同的稀疏水平上均能获得全局最优解,并实现同时压缩维数和基数的目标;这种方法克服了原有的非全局最优以及无法满足模型约束等式等问题;在一些说话人识别数据集上采用稀疏降维方法可以获得比主成分分析或流形降维等降维方法更好的性能。
为了实现上述目的,本发明采用的技术方案是:
一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,其中:所述求解稀疏投影矩阵方法如下:
首先,对解路径进行初始化,即对公式
Figure BDA00003520662800067
求解:
其中P定义为P=I-D1/2WD-1/2,W为邻接矩阵,D为稀疏水平矩阵,P对应的解x即稀疏投影矩阵,设上式的初始非稀疏解为x0,则有Px0=λx0,其中λ为特征值,并给定初始化拉格朗日乘数η0=-λ,初始化权重μ0=0;假设稀疏投影矩阵x中有n个非零元素,定义主集A为|λx|中的前n个最大非零元素,定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素;
然后,通过反复迭代来搜索稀疏降维投影矩阵的最优解路径,具体方法为,在第k次迭代开始时,解路径以当前解xk-1为起点,以步长a沿着▽x=(xk-xk-1)/a的方向前进,权重更新为μk,得到一个满足如下公式的局部最优解xk
( P + η k I ) x k = - μ k 2 ∂ | | x k | | 1 s . t . ( x k ) T x k = 1
其中拉格朗日乘数
Figure BDA00003520662800062
Figure BDA00003520662800068
为l1范数||xk||1的偏导,第k次迭代的迭代更新公式如下:
x A k = x A k - 1 + a ▿ x A x B k = x B k - 1 + a ▿ x B
其中
Figure BDA00003520662800064
为主集A在第k次迭代后得到的局部最优解,
Figure BDA00003520662800065
为主集A在第k-1次迭代后得到的局部最优解,
Figure BDA00003520662800066
为主集B在第k次迭代后得到的局部最优解,
Figure BDA00003520662800071
为主集B在第k-1次迭代后得到的局部最优解,
Figure BDA00003520662800072
Figure BDA00003520662800073
其中sign为符号函数,迭代步长a=min{ai},i=1,2,其中
a 1 = max x B k ▿ x B x A k = 0 a 2 = max x A k ▿ x A x B k = 0
每一次迭代都以增加主集A的变量个数,同时减少从集B的变量个数为目标,当主集A的某个变量或从集B的某个变量变为零值时该迭代停止;
迭代优化过程重复m次,直到xm的基数小于指定的基数,即到达指定的稀疏条件时停止,最终稀疏解为x*=xm,即为最终稀疏降维矩阵。
本发明通过将稀疏降维矩阵与语音信号相乘得到低维训练特征数据,进行分类器训练的方法是:首先将低维训练特征数据的所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环下去,直到所有的节点都只包含一个单独的类别为止,最终获得多类SVM分类器,类别数为说话人识别中的说话人个数。
所述声学特征为Mel频率倒谱系数或线性预测倒谱系数。
本发明中,稀疏降维矩阵是通过不停的迭代反复训练出来的,初始的时候有一个初始化的稀疏降维矩阵作为迭代的起点,最后当满足一定要求后停止迭代,获得的稀疏降维矩阵就是最终稀疏降维矩阵。
本发明的主要原理是通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,通过使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,克服了双缩模型算法的非全局最优以及无法满足模型约束等式等问题。
同时,与现有技术相比,本发明建立了一种反复迭代来优化稀疏降维投影矩阵、最终达到稀疏降维的方法。稀疏降维说话人识别可以看作一种在机器学习中用稀疏降维方法替代全局学习的通用机器学习算法,通过上述局部学习说话人识别方法,可有效地解决无法描述异构性特征空间或复杂流形结构特征空间数据集全部相关信息的问题。
附图说明
图1是本发明基于稀疏降维的说话人识别方法流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于稀疏降维的说话人识别方法,训练数据输入101包括全部具有个体身份标识(Identity,ID)的用于训练的语音信号。
训练阶段即指特征提取102、参数初始化103、迭代优化104、稀疏降维矩阵105和SVM分类106部分。在利用第一步获得语音信号后,进行特征提取102,提取声学特征作为说话人识别信息,这些声学特征可以为Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients,LPCC)等多种声学特征;
参数初始化103首先对解路径进行初始化,首先对解路径进行初始化,即对如下公式求初始非稀疏解:
min x x T Pxs . t . x T x = 1
其中P定义为P=I-D1/2WD-1/2,W为邻接矩阵,D为稀疏水平矩阵,P对应的解x就是稀疏投影矩阵。对上式的初始非稀疏解x0有Px0=λx0,其中λ为特征值。并给定初始化拉格朗日乘数η0=-λ,初始化权重μ0=0;假设稀疏投影矩阵x中有n个非零元素,定义主集A为|λx|中的前n个最大非零元素,定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素。
参数初始化完成后,迭代优化104通过反复迭代来搜索稀疏降维投影矩阵的最优解路径。具体方法为,在第k次迭代开始时,解路径以当前解xk-1为起点,以步长a沿着▽x=(xk-xk-1)/a的方向前进,权重更新为μk,得到一个满足如下公式的局部最优解xk
( P + η k I ) x k = - μ k 2 ∂ | | x k | | 1 s . t . ( x k ) T x k = 1
其中拉格朗日乘数
Figure BDA00003520662800082
Figure BDA00003520662800084
为l1范数||xk||1的偏导。第k次迭代的迭代更新公式如下:
x A k = x A k - 1 + a ▿ x A x B k = x B k - 1 + a ▿ x B
其中
Figure BDA00003520662800092
为主集A在第k次迭代后得到的局部最优解,
Figure BDA00003520662800093
为主集A在第k-1次迭代后得到的局部最优解,
Figure BDA00003520662800094
为主集B在第k次迭代后得到的局部最优解,
Figure BDA00003520662800095
为主集B在第k-1次迭代后得到的局部最优解,
Figure BDA00003520662800096
Figure BDA00003520662800097
其中sign为符号函数,迭代步长a=min{ai},i=1,2,其中
a 1 = max x B k ▿ x B x A k = 0 a 2 = max x A k ▿ x A x B k = 0
每一次迭代都以增加主集A的变量个数,同时减少从集B的变量个数为目标,当主集A的某个变量或从集B的某个变量变为零值时该迭代停止,迭代的步长大小由这两者的变化共同决定,其中任何一个条件不满足都会造成迭代停止。相比于第k-1次迭代,第k次迭代后的解更加稀疏,因此本发明中的迭代求解稀疏降维投影矩阵最优解路径的方法就是使得解越来越稀疏的过程。
迭代优化过程重复m次,直到xm的基数小于指定的基数,即到达指定的稀疏条件时停止,最终稀疏降维矩阵105为xm
特征降维后采用支持向量机进行分类器训练,支持向量机(SupportVector Machine,SVM)方法是建立在统计学习理论基础上的一种机器学习方法,最初是针对二类别分类而提出的。SVM是一种有监督的分类和回归方法。在一个n维空间中输入两类数据,SVM在该空间中构造一个超平面用来区分两类数据,这个超平面距离两类数据的边界最大,SVM在模式识别中的应用十分广泛。目前应用SVM处理多类问题的思路,一是在经典SVM的基础上,重新构造多类分类模型,通过SVM方法对目标函数进行优化,实现多类分类。但是这种方法目标函数十分复杂,难于对其求解,在工程应用领域很少被采用;二是将多类问题归结为多个两类问题,组合多个二分类支持向量机实现多类分类,这类方法通过将多类问题分解为多个两类问题,同时将一个复杂问题转化若干个简单问题,常用的方法有一对多、一对一、导向无环图、二叉树。基于二叉树的多类SVM是先将所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环下去,直到所有的节点都只包含一个单独的类别为止。对于N类问题,二叉树多类SVM只需要N-1个二类SVM,决策阶段只需历经至多log2N个二类SVM,所以具有较高的训练和测试速度。
在获得稀疏降维矩阵后与训练数据输入101相乘得到低维训练特征数据,对其进行多类的SVM分类106,此处类别数即说话人识别中的说话人个数。首先将所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环下去,直到所有的节点都只包含一个单独的类别为止,最终获得多类SVM分类器。
如图1所示的待识别数据输入107包括全部需要识别的语音信号。
识别阶段即指108、109和110部分。在获得需要识别的语音信号后,进行特征提取108,提取声学特征作为说话人识别信息,这些声学特征可以为Mel频率倒谱系数或线性预测倒谱系数等多种声学特征;特征降维109通过利用稀疏降维矩阵105与待识别数据输入107相乘得到低维识别特征数据;分类判决110则利用SVM分类106获得的多类SVM分类器对全部待识别的低维数据集进行特征空间上的分类判决,将全部待识别的低维数据集的分类判别结果作为系统识别结果输出111。

Claims (4)

1.一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,其特征在于,所述求解稀疏投影矩阵方法如下:
首先,对解路径进行初始化,即对公式
Figure FDA00003520662700016
求解:
其中P定义为P=I-D1/2WD-1/2,W为邻接矩阵,D为稀疏水平矩阵,P对应的解x即稀疏投影矩阵,设上式的初始非稀疏解为x0,则有Px0=λx0,其中λ为特征值,并给定初始化拉格朗日乘数η0=-λ,初始化权重μ0=0;假设稀疏投影矩阵x中有n个非零元素,定义主集A为|λx|中的前n个最大非零元素,定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素;
然后,通过反复迭代来搜索稀疏降维投影矩阵的最优解路径,具体方法为,在第k次迭代开始时,解路径以当前解xk-1为起点,以步长a沿着▽x=(xk-xk-1)/a的方向前进,权重更新为μk,得到一个满足如下公式的局部最优解xk
( P + η k I ) x k = - μ k 2 ∂ | | x k | | 1 s . t . ( x k ) T x k = 1
其中拉格朗日乘数
Figure FDA00003520662700012
Figure FDA00003520662700017
为l1范数||xk||1的偏导,第k次迭代的迭代更新公式如下:
x A k = x A k - 1 + a ▿ x A x B k = x B k - 1 + a ▿ x B
其中
Figure FDA00003520662700014
为主集A在第k次迭代后得到的局部最优解,
Figure FDA00003520662700015
为主集A在第k-1次迭代后得到的局部最优解,
Figure FDA00003520662700021
为主集B在第k次迭代后得到的局部最优解,
Figure FDA00003520662700022
为主集B在第k-1次迭代后得到的局部最优解,
Figure FDA00003520662700024
其中sign为符号函数,迭代步长a=min{ai},i=1,2,其中
a 1 = max x B k ▿ x B x A k = 0 a 2 = max x A k ▿ x A x B k = 0
每一次迭代都以增加主集A的变量个数,同时减少从集B的变量个数为目标,当主集A的某个变量或从集B的某个变量变为零值时该迭代停止;
迭代优化过程重复m次,直到xm的基数小于指定的基数,即到达指定的稀疏条件时停止,最终稀疏解为x*=xm,即为最终稀疏降维矩阵。
2.根据权利要求1所述的基于稀疏降维的说话人识别方法,其特征在于,将稀疏降维矩阵与语音信号相乘即得低维训练特征数据。
3.根据权利要求2所述的基于稀疏降维的说话人识别方法,其特征在于,所述进行分类器训练的方法是:首先将低维训练特征数据的所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环下去,直到所有的节点都只包含一个单独的类别为止,最终获得多类SVM分类器,类别数为说话人识别中的说话人个数。
4.根据权利要求1所述的基于稀疏降维的说话人识别方法,其特征在于,所述声学特征为Mel频率倒谱系数或线性预测倒谱系数。
CN201310298757.9A 2013-07-16 2013-07-16 基于稀疏降维的说话人识别方法 Expired - Fee Related CN103413551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310298757.9A CN103413551B (zh) 2013-07-16 2013-07-16 基于稀疏降维的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310298757.9A CN103413551B (zh) 2013-07-16 2013-07-16 基于稀疏降维的说话人识别方法

Publications (2)

Publication Number Publication Date
CN103413551A true CN103413551A (zh) 2013-11-27
CN103413551B CN103413551B (zh) 2015-11-18

Family

ID=49606554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310298757.9A Expired - Fee Related CN103413551B (zh) 2013-07-16 2013-07-16 基于稀疏降维的说话人识别方法

Country Status (1)

Country Link
CN (1) CN103413551B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105786903A (zh) * 2014-12-25 2016-07-20 国家电网公司 一种对电能质量扰动事件分类的方法
CN106972967A (zh) * 2017-03-29 2017-07-21 国家计算机网络与信息安全管理中心 一种用于链路预测的深度学习降维方法和装置
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN109065059A (zh) * 2018-09-26 2018-12-21 新巴特(安徽)智能科技有限公司 用音频特征主成分建立的语音群集来识别说话人的方法
CN110010137A (zh) * 2019-04-04 2019-07-12 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN110210443A (zh) * 2019-06-11 2019-09-06 西北工业大学 一种优化投影对称性近似稀疏分类的手势识别方法
CN111210846A (zh) * 2020-01-07 2020-05-29 重庆大学 基于集成流形降维的帕金森语音识别系统
CN111833887A (zh) * 2020-07-14 2020-10-27 山东理工大学 一种基于局部保持判别投影的说话人确认方法
WO2021159772A1 (zh) * 2020-02-10 2021-08-19 腾讯科技(深圳)有限公司 语音增强方法及装置、电子设备和计算机可读存储介质
CN113554073A (zh) * 2021-07-09 2021-10-26 常州大学 一种融合稀疏学习和二分法的情绪状态特征选择优化方法
WO2022037012A1 (zh) * 2020-08-19 2022-02-24 江苏大学 一种适用于大规模数据的降维、关联分析方法
CN116347104A (zh) * 2023-05-22 2023-06-27 宁波康达凯能医疗科技有限公司 基于高效判别分析的帧内图像编码方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANYI ZHOU AND DACHENG TAO: "Double Shrinking Sparse Dimension Reduction", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
李文倩: "基于正交稀疏保留投影的特征提取与识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN105786903A (zh) * 2014-12-25 2016-07-20 国家电网公司 一种对电能质量扰动事件分类的方法
CN105786903B (zh) * 2014-12-25 2019-08-06 国家电网公司 一种对电能质量扰动事件分类的方法
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN106972967B (zh) * 2017-03-29 2020-07-24 国家计算机网络与信息安全管理中心 一种用于链路预测的深度学习降维方法和装置
CN106972967A (zh) * 2017-03-29 2017-07-21 国家计算机网络与信息安全管理中心 一种用于链路预测的深度学习降维方法和装置
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN108389576B (zh) * 2018-01-10 2020-09-01 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN109065059A (zh) * 2018-09-26 2018-12-21 新巴特(安徽)智能科技有限公司 用音频特征主成分建立的语音群集来识别说话人的方法
CN110010137B (zh) * 2019-04-04 2021-09-28 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN110010137A (zh) * 2019-04-04 2019-07-12 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN110210443A (zh) * 2019-06-11 2019-09-06 西北工业大学 一种优化投影对称性近似稀疏分类的手势识别方法
CN110210443B (zh) * 2019-06-11 2022-03-15 西北工业大学 一种优化投影对称性近似稀疏分类的手势识别方法
CN111210846A (zh) * 2020-01-07 2020-05-29 重庆大学 基于集成流形降维的帕金森语音识别系统
CN111210846B (zh) * 2020-01-07 2022-07-05 重庆大学 基于集成流形降维的帕金森语音识别系统
WO2021159772A1 (zh) * 2020-02-10 2021-08-19 腾讯科技(深圳)有限公司 语音增强方法及装置、电子设备和计算机可读存储介质
CN111833887A (zh) * 2020-07-14 2020-10-27 山东理工大学 一种基于局部保持判别投影的说话人确认方法
WO2022037012A1 (zh) * 2020-08-19 2022-02-24 江苏大学 一种适用于大规模数据的降维、关联分析方法
CN113554073A (zh) * 2021-07-09 2021-10-26 常州大学 一种融合稀疏学习和二分法的情绪状态特征选择优化方法
CN113554073B (zh) * 2021-07-09 2024-03-15 常州大学 一种融合稀疏学习和二分法的情绪状态特征选择优化方法
CN116347104A (zh) * 2023-05-22 2023-06-27 宁波康达凯能医疗科技有限公司 基于高效判别分析的帧内图像编码方法、装置及存储介质
CN116347104B (zh) * 2023-05-22 2023-10-17 宁波康达凯能医疗科技有限公司 基于高效判别分析的帧内图像编码方法、装置及存储介质

Also Published As

Publication number Publication date
CN103413551B (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN103413551B (zh) 基于稀疏降维的说话人识别方法
Nanni et al. Combining visual and acoustic features for music genre classification
Druzhkov et al. A survey of deep learning methods and software tools for image classification and object detection
Gao et al. Machine learning source separation using maximum a posteriori nonnegative matrix factorization
Rakotomamonjy Supervised representation learning for audio scene classification
Kamper et al. Fully unsupervised small-vocabulary speech recognition using a segmental bayesian model
Parthasarathy et al. Convolutional neural network techniques for speech emotion recognition
CN103035239B (zh) 一种基于局部学习的说话人识别方法
Zhang et al. Video-based action recognition using rate-invariant analysis of covariance trajectories
Dong et al. Learning graphs from signal observations under smoothness prior
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
Ahmad et al. Dimensionality reduction: Challenges and solutions
Tuncer et al. A novel spiral pattern and 2D M4 pooling based environmental sound classification method
Bassiou et al. Greek folk music classification into two genres using lyrics and audio via canonical correlation analysis
Amid et al. Unsupervised feature extraction for multimedia event detection and ranking using audio content
Richman et al. Classification and regionalization through kernel principal component analysis
Rashid et al. New hybridization of empirical mode decomposition and least squares support vector machine model in forecasting Malaysia exchange rates
Kroshchanka et al. The reduction of fully connected neural network parameters using the pre-training technique
Tanmoy et al. Introducing new feature set based on wavelets for speech emotion classification
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
Qian A music retrieval approach based on hidden markov model
He et al. Underdetermined mixing matrix estimation based on joint density-based clustering algorithms
Zhang et al. Weighted multi-view on-line competitive clustering
Godase et al. Improvised method of FAST clustering based feature selection technique algorithm for high dimensional data
Pourebrahim et al. Parallel shared hidden layers auto-encoder as a cross-corpus transfer learning approach for unsupervised persian speech emotion recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181114

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Patentee after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Beijing Haidian District 100084 box 82 box, Tsinghua University Patent Office

Patentee before: Tsinghua University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151118

Termination date: 20200716