CN110265039B - 一种基于字典学习和低秩矩阵分解的说话人识别方法 - Google Patents

一种基于字典学习和低秩矩阵分解的说话人识别方法 Download PDF

Info

Publication number
CN110265039B
CN110265039B CN201910475010.3A CN201910475010A CN110265039B CN 110265039 B CN110265039 B CN 110265039B CN 201910475010 A CN201910475010 A CN 201910475010A CN 110265039 B CN110265039 B CN 110265039B
Authority
CN
China
Prior art keywords
dictionary
sub
vector
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910475010.3A
Other languages
English (en)
Other versions
CN110265039A (zh
Inventor
王昕�
李宗晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910475010.3A priority Critical patent/CN110265039B/zh
Publication of CN110265039A publication Critical patent/CN110265039A/zh
Application granted granted Critical
Publication of CN110265039B publication Critical patent/CN110265039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM‑UBM模型;步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;步骤4,得到对应每个说话人语句的i‑vector;步骤5,从训练集中提取M维度的i‑vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i‑vector后端处理和打分模块,为最终判别提供依据;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。

Description

一种基于字典学习和低秩矩阵分解的说话人识别方法
技术领域
本发明涉及说话人识别领域,具体的说是一种用于用于对说话人识别系统的后端i-vector字典判别方法。
背景技术
话人识别(Speaker Recognition,SR)又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明,在对说话人语音的因子分析中,通常信道子空间中会包含说话人的信息。因此,i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。
在过去的几年里,稀疏信号表示已广泛应用于数字信号处理领域,例如:压缩感知和图像恢复。近年来,人们发现基于分类的稀疏表示的实验结果比较好,因此被广泛使用。稀疏编码是通过构建过完备字典对任意一个信号进行最紧凑的线性表示。构建稀疏编码字典的方法有两种,分别是标准的数据模型法和和数据驱动方法。
进入21世纪以来,稀疏信号表示在信号处理方向得到了较为广泛的运用,典型的使用案例包括压缩感知、损坏图像恢复。近年来人们又发现稀疏编码在分类方面有很大的拓展空间,它通过建立一个过完备字典,以达到对每个待分类信号做线性表示的目的。
稀疏表示已经在语音处理的部分研究领域起到一些显著的作用,例如互联网环境下基于移动终端的语音接入中采用稀疏表示的方法,可以大大节省通信传输的特征数据,除此之外,稀疏分解对语音信号去噪也有着一定的显著作用,其中,基于字典学习和稀疏分解算法已经在图像识别领域得到了较好的使用。在非约束条件下,算法的稳定性很难得到保障,特别是当噪声污染过大时,会使训练出的字典可识别能力下降。
发明内容
本发明所要解决的技术问题是,在非约束条件下,算法的稳定性很难得到保障。特别是当噪声污染过大时,会使训练出的字典可识别能力下降,为了克服现有技术的不足而提供一种基于字典学习和低秩矩阵分解的说话人识别方法。
本发明提供一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据。
作为本发明的进一步技术方案,所述步骤5的具体内容如下:设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
Figure BDA0002081970480000021
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
作为本发明的进一步技术方案,所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;
Figure BDA0002081970480000031
表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中
Figure BDA0002081970480000032
表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
作为本发明的进一步技术方案,所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
Figure BDA0002081970480000033
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
Figure BDA0002081970480000034
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数Xii,得到简化后的字典模型方程为:
Figure BDA0002081970480000041
Figure BDA0002081970480000042
Figure BDA0002081970480000043
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
Figure BDA0002081970480000044
式中:x=[x1;x2;x3……xc],xi是对应于子字典Di的编码系数,根据式计算出第i类的残差
Figure BDA0002081970480000045
作为本发明的进一步技术方案,所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:可以有效处理i-vector中的共性部分,将i-vector统计量中说话人共有的部分单独分离出来,并对字典中的说话人子字典都进行了低秩处理以尽可能降低说话人i-vector共性部分对最后打分结果的影响,从而使最后生成的字典识别力更强;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。
附图说明
图1为本发明的系统结构图。
图2本发明中MFCC特征提取流程图。
图3为本发明中算法流程图。
具体实施方式
下面结合附图1-3对本发明的技术方案做进一步的详细说明:
本实施例提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据;
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
Figure BDA0002081970480000051
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;
Figure BDA0002081970480000061
表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中
Figure BDA0002081970480000062
表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
Figure BDA0002081970480000063
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
Figure BDA0002081970480000064
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数
Figure BDA0002081970480000065
得到简化后的字典模型方程为:
Figure BDA0002081970480000066
Figure BDA0002081970480000067
Figure BDA0002081970480000071
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
Figure BDA0002081970480000072
式中:x=[x1;x2;x3……xc],xi是对应于子字典Di的编码系数,根据式计算出第i类的残差
Figure BDA0002081970480000073
训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明中,选择TIMIT语音开源数据库的100个说话人来进行相关实验。TIMIT语音库共有630个说话人(192个女性说话人和438个男性说话人),来自美国8个方言地区。每个说话人10条语音,每条语音平均时长为3秒。数据采样频率为16kHz,采样精度为单通道16bits。
每个说话人选取其中的10条语音,用来训练UBM、生成相应的i-vector以及训练字典。其中,每个说话人的9句语音作为注册语音,1句语音作为测试语音,加起来共10000句语音。
特征提取阶段,说话人语音段经过VAD去除静音、预加重处理、加汉明窗分帧(帧长为25ms,帧移10ms)后,分别提取22维的MFCC和GFCC静态特征。
测试语音的特征维数为39,MFCC特征帧长为25ms、帧移为10ms。高斯背景模型的混合数为512。i-vector维度为400,PCA子空间矩阵维度为200,帧长为25ms、帧移为10ms。
选取1000条纯净语音的i-vector作为判别字典的训练集,100条纯净语音的i-vector作为测试集。在未加噪声条件下,我们将LRSDL与FDDL方法进行数据对比,通过多次实验得到的平均系统识别率(acc)表现表1所示:
表1 FDDL与LRSDL方法在测试纯净语音环境下的性能表现
Figure BDA0002081970480000081
Acc代表该方法在该实验条件下的识别率,我们通过多次实验取均值,结果发现FDDL识别率的均值要略优于LRSDL。将Noise92X噪声库中的babble(嘈杂的人群)噪声按不同信噪比添加进语音信号中。
表2 FDDL与LRSDL方法在babble噪声环境下的性能表现(0dB)
Figure BDA0002081970480000082
表3 FDDL与LRSDL方法在babble噪声环境下的性能表现(5dB)
Figure BDA0002081970480000083
表4 FDDL与LRSDL方法在babble噪声环境下的性能表现(15dB)
Figure BDA0002081970480000084
从上表中发现,在噪声环境下,LRSDL的识别率要明显优于FDDL,其原因是低秩部分包含了噪声字典,系统最后打分时会将噪声字典部分单独抛离进行打分,因此结果有明显优。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵, 根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据,具体内容如下:
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
Figure 213876DEST_PATH_IMAGE001
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏系数,其中X i 是对应子字 典D i 的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏系数表示,子字典D i 为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好 表示;字典D i (i≠j)对应的编码系数为0;结构化稀疏对应为
Figure 917390DEST_PATH_IMAGE002
,其 中q i 表示对应于训练样本y i 的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本y i 属于第M类,结构化稀疏系数Q满足q i 对应子字典D i 的所有系数都为1,其余均为0,结构化稀疏系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
2.根据权利要求1所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特 征在于:所述步骤5的算法流程包括如下内容:给定训练样本,其中样本
Figure 931482DEST_PATH_IMAGE003
, 包 含c个类别的n 个样本;
Figure 872893DEST_PATH_IMAGE004
表示第i类的样本,d表示每个样本向量的维数,n i 表示第 i类样本的样本个数;每类样本学习一个子字典,最终整合成字典
Figure 330551DEST_PATH_IMAGE005
,其中
Figure 724623DEST_PATH_IMAGE006
表示对第i类样本进行学习后得到的子字典,D表示每个子字典原子的维数,Ni表 示第i类子字典的原子个数。
3.根据权利要求2所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Y i 降维,得到的新向量作为子字典D i 的初始原子;
b.得到相关编码系数X i (i=1,2,…,c),并保持x j ( j≠i ) 不变,依序对编码系数进行更新,字典模型表达式为:
Figure 276827DEST_PATH_IMAGE007
从式中可以得出,子字典已经能表征训练样本,其中,
Figure 807165DEST_PATH_IMAGE008
是样本重新构建后产 生的偏差项,D i 是第i类训练样本的子字典;
Figure 357095DEST_PATH_IMAGE009
为是稀疏分类的约束项,F(X)是K-SVD判别 式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
Figure 612365DEST_PATH_IMAGE010
上式由迭代投影方法求得;
c.更新子字典D i (i=1,2,…,c):同时固定D j ( j≠i )、系数X,同步更新子字典D i (i= 1,2,…,c)和样本Y在子字典上对应的编码系数
Figure 109205DEST_PATH_IMAGE011
,得到简化后的字典模型方程为:
Figure 618684DEST_PATH_IMAGE012
Figure 73936DEST_PATH_IMAGE013
Figure 442601DEST_PATH_IMAGE014
d.迭代:J (D , X) 大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b;
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
Figure 352919DEST_PATH_IMAGE015
式中:
Figure 857850DEST_PATH_IMAGE016
x i 是对应于子字典D i 的编码系数,根据式计算出第i类的 残差
Figure 811899DEST_PATH_IMAGE017
4.根据权利要求3所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
CN201910475010.3A 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法 Active CN110265039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910475010.3A CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910475010.3A CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Publications (2)

Publication Number Publication Date
CN110265039A CN110265039A (zh) 2019-09-20
CN110265039B true CN110265039B (zh) 2021-07-02

Family

ID=67916410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910475010.3A Active CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Country Status (1)

Country Link
CN (1) CN110265039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110579967B (zh) * 2019-09-23 2020-06-30 中南大学 基于同时降维和字典学习的过程监控方法
CN112489678B (zh) * 2020-11-13 2023-12-05 深圳市云网万店科技有限公司 一种基于信道特征的场景识别方法及装置
CN115512708B (zh) * 2022-10-05 2024-05-07 哈尔滨理工大学 基于区分性字典与分类器联合学习的说话人识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN104298977A (zh) * 2014-10-24 2015-01-21 西安电子科技大学 一种基于不相关性约束的低秩表示人体行为识别方法
CN105718934A (zh) * 2016-01-25 2016-06-29 无锡中科富农物联科技有限公司 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法
EP3166022A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image search using sparsifying analysis operators
CN107832747A (zh) * 2017-12-05 2018-03-23 广东技术师范学院 一种基于低秩字典学习算法的人脸识别方法
CN108446589A (zh) * 2018-02-07 2018-08-24 杭州电子科技大学 复杂环境下基于低秩分解和辅助字典的人脸识别方法
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN104298977A (zh) * 2014-10-24 2015-01-21 西安电子科技大学 一种基于不相关性约束的低秩表示人体行为识别方法
EP3166022A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image search using sparsifying analysis operators
CN105718934A (zh) * 2016-01-25 2016-06-29 无锡中科富农物联科技有限公司 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法
CN107832747A (zh) * 2017-12-05 2018-03-23 广东技术师范学院 一种基于低秩字典学习算法的人脸识别方法
CN108446589A (zh) * 2018-02-07 2018-08-24 杭州电子科技大学 复杂环境下基于低秩分解和辅助字典的人脸识别方法
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Discriminative Dictionary Learning With Two-Level Low Rank and Group Sparse Decomposition For Image Classification";Zaidao Wen;《IEEE transaction》;20171231;第47卷(第11期);全文 *
"Forensic Evidence reporting using Gmm-UBM,JFA and I-vector methods";Z.Boulkenafet;《ISPA 2013》;20130906;全文 *
"Reducing the Computational Complexity of the Gmm-Ubm Speaker recognition approach";Farnaz Ganieizadeh;《IJERT》;20140331;第3卷(第3期);全文 *
"Robust Projective Low-Rank and Sparse Representation by Robust Dictionary Learning";Jiahuan Ren;《ICPR》;20180824;全文 *
"Speech Enhancement Based on Dictionary Learning and Low-Rank Matrix Decomposition";YUNYUNJI;《IEEE Access》;20181217;全文 *
"基于低秩矩阵和字典学习的超分辨率重建";杨帅锋;《计算机研究与发展》;20160430(第04期);全文 *

Also Published As

Publication number Publication date
CN110265039A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
US20040230420A1 (en) Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
CN110265039B (zh) 一种基于字典学习和低秩矩阵分解的说话人识别方法
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
Lung Improved wavelet feature extraction using kernel analysis for text independent speaker recognition
Sarma et al. Robust Mizo digit recognition using data augmentation and tonal information
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Ziedan et al. A unified approach for arabic language dialect detection
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Kuhne et al. Towards the use of full covariance models for missing data speaker recognition
Pandharipande et al. Front-end feature compensation for noise robust speech emotion recognition
Gurbuz et al. Speech spectrogram based model adaptation for speaker identification
Li Speech recognition of mandarin monosyllables
Nazreen et al. A joint enhancement-decoding formulation for noise robust phoneme recognition
Naing et al. Using double-density dual tree wavelet transform into MFCC for noisy speech recognition
US20240153494A1 (en) Techniques for generating training data for acoustic models using domain adaptation
Khan Audio-visual speaker separation
Pentapati et al. Log-MelSpectrum and Excitation features based Speaker Identification using Deep Learning
Sundaram Effects of Transcription Errors on Supervised Learning in Speech Recognition
Remes et al. Missing feature reconstruction and acoustic model adaptation combined for large vocabulary continuous speech recognition
Helali et al. Automatic Speech Recognition System Based on Hybrid Feature Extraction Techniques Using TEO-PWP for in Real Noisy Environment
Daqrouq et al. An investigation of wavelet average framing LPC for noisy speaker identification environment
Wang et al. Robust Speaker Verification Against Additive Noise.
Kumar Feature normalisation for robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant