CN110265039A - 一种基于字典学习和低秩矩阵分解的说话人识别方法 - Google Patents

一种基于字典学习和低秩矩阵分解的说话人识别方法 Download PDF

Info

Publication number
CN110265039A
CN110265039A CN201910475010.3A CN201910475010A CN110265039A CN 110265039 A CN110265039 A CN 110265039A CN 201910475010 A CN201910475010 A CN 201910475010A CN 110265039 A CN110265039 A CN 110265039A
Authority
CN
China
Prior art keywords
dictionary
sample
sub
vector
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910475010.3A
Other languages
English (en)
Other versions
CN110265039B (zh
Inventor
王昕�
李宗晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910475010.3A priority Critical patent/CN110265039B/zh
Publication of CN110265039A publication Critical patent/CN110265039A/zh
Application granted granted Critical
Publication of CN110265039B publication Critical patent/CN110265039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM‑UBM模型;步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;步骤4,得到对应每个说话人语句的i‑vector;步骤5,从训练集中提取M维度的i‑vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i‑vector后端处理和打分模块,为最终判别提供依据;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。

Description

一种基于字典学习和低秩矩阵分解的说话人识别方法
技术领域
本发明涉及说话人识别领域,具体的说是一种用于用于对说话人识别系统的后端i-vector字典判别方法。
背景技术
话人识别(Speaker Recognition,SR)又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明,在对说话人语音的因子分析中,通常信道子空间中会包含说话人的信息。因此,i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。
在过去的几年里,稀疏信号表示已广泛应用于数字信号处理领域,例如:压缩感知和图像恢复。近年来,人们发现基于分类的稀疏表示的实验结果比较好,因此被广泛使用。稀疏编码是通过构建过完备字典对任意一个信号进行最紧凑的线性表示。构建稀疏编码字典的方法有两种,分别是标准的数据模型法和和数据驱动方法。
进入21世纪以来,稀疏信号表示在信号处理方向得到了较为广泛的运用,典型的使用案例包括压缩感知、损坏图像恢复。近年来人们又发现稀疏编码在分类方面有很大的拓展空间,它通过建立一个过完备字典,以达到对每个待分类信号做线性表示的目的。
稀疏表示已经在语音处理的部分研究领域起到一些显著的作用,例如互联网环境下基于移动终端的语音接入中采用稀疏表示的方法,可以大大节省通信传输的特征数据,除此之外,稀疏分解对语音信号去噪也有着一定的显著作用,其中,基于字典学习和稀疏分解算法已经在图像识别领域得到了较好的使用。在非约束条件下,算法的稳定性很难得到保障,特别是当噪声污染过大时,会使训练出的字典可识别能力下降。
发明内容
本发明所要解决的技术问题是,在非约束条件下,算法的稳定性很难得到保障。特别是当噪声污染过大时,会使训练出的字典可识别能力下降,为了克服现有技术的不足而提供一种基于字典学习和低秩矩阵分解的说话人识别方法。
本发明提供一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据。
作为本发明的进一步技术方案,所述步骤5的具体内容如下:设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
作为本发明的进一步技术方案,所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
作为本发明的进一步技术方案,所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数Xii,得到简化后的字典模型方程为:
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
式中:x=[x1;x2;x3……xc],xi是对应于子字典Di的编码系数,根据式计算出第i类的残差
作为本发明的进一步技术方案,所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:可以有效处理i-vector中的共性部分,将i-vector统计量中说话人共有的部分单独分离出来,并对字典中的说话人子字典都进行了低秩处理以尽可能降低说话人i-vector共性部分对最后打分结果的影响,从而使最后生成的字典识别力更强;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。
附图说明
图1为本发明的系统结构图。
图2本发明中MFCC特征提取流程图。
图3为本发明中算法流程图。
具体实施方式
下面结合附图1-3对本发明的技术方案做进一步的详细说明:
本实施例提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据;
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数得到简化后的字典模型方程为:
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
式中:x=[x1;x2;x3……xc],xi是对应于子字典Di的编码系数,根据式计算出第i类的残差
训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明中,选择TIMIT语音开源数据库的100个说话人来进行相关实验。TIMIT语音库共有630个说话人(192个女性说话人和438个男性说话人),来自美国8个方言地区。每个说话人10条语音,每条语音平均时长为3秒。数据采样频率为16kHz,采样精度为单通道16bits。
每个说话人选取其中的10条语音,用来训练UBM、生成相应的i-vector以及训练字典。其中,每个说话人的9句语音作为注册语音,1句语音作为测试语音,加起来共10000句语音。
特征提取阶段,说话人语音段经过VAD去除静音、预加重处理、加汉明窗分帧(帧长为25ms,帧移10ms)后,分别提取22维的MFCC和GFCC静态特征。
测试语音的特征维数为39,MFCC特征帧长为25ms、帧移为10ms。高斯背景模型的混合数为512。i-vector维度为400,PCA子空间矩阵维度为200,帧长为25ms、帧移为10ms。
选取1000条纯净语音的i-vector作为判别字典的训练集,100条纯净语音的i-vector作为测试集。在未加噪声条件下,我们将LRSDL与FDDL方法进行数据对比,通过多次实验得到的平均系统识别率(acc)表现表1所示:
表1 FDDL与LRSDL方法在测试纯净语音环境下的性能表现
Acc代表该方法在该实验条件下的识别率,我们通过多次实验取均值,结果发现FDDL识别率的均值要略优于LRSDL。将Noise92X噪声库中的babble(嘈杂的人群)噪声按不同信噪比添加进语音信号中。
表2 FDDL与LRSDL方法在babble噪声环境下的性能表现(0dB)
表3 FDDL与LRSDL方法在babble噪声环境下的性能表现(5dB)
表4 FDDL与LRSDL方法在babble噪声环境下的性能表现(15dB)
从上表中发现,在噪声环境下,LRSDL的识别率要明显优于FDDL,其原因是低秩部分包含了噪声字典,系统最后打分时会将噪声字典部分单独抛离进行打分,因此结果有明显优。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据。
2.根据权利要求1所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述步骤5的具体内容如下:
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
3.根据权利要求2所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
4.根据权利要求3所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数得到简化后的字典模型方程为:
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
式中:x=[x1;x2;x3……xc],xi是对应于子字典Di的编码系数,根据式计算出第i类的残差
5.根据权利要求4所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
CN201910475010.3A 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法 Active CN110265039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910475010.3A CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910475010.3A CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Publications (2)

Publication Number Publication Date
CN110265039A true CN110265039A (zh) 2019-09-20
CN110265039B CN110265039B (zh) 2021-07-02

Family

ID=67916410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910475010.3A Active CN110265039B (zh) 2019-06-03 2019-06-03 一种基于字典学习和低秩矩阵分解的说话人识别方法

Country Status (1)

Country Link
CN (1) CN110265039B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110579967A (zh) * 2019-09-23 2019-12-17 中南大学 基于同时降维和字典学习的过程监控方法
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置
CN115512708A (zh) * 2022-10-05 2022-12-23 哈尔滨理工大学 基于区分性字典与分类器联合学习的说话人识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN104298977A (zh) * 2014-10-24 2015-01-21 西安电子科技大学 一种基于不相关性约束的低秩表示人体行为识别方法
CN105718934A (zh) * 2016-01-25 2016-06-29 无锡中科富农物联科技有限公司 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法
EP3166022A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image search using sparsifying analysis operators
CN107832747A (zh) * 2017-12-05 2018-03-23 广东技术师范学院 一种基于低秩字典学习算法的人脸识别方法
CN108446589A (zh) * 2018-02-07 2018-08-24 杭州电子科技大学 复杂环境下基于低秩分解和辅助字典的人脸识别方法
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN104298977A (zh) * 2014-10-24 2015-01-21 西安电子科技大学 一种基于不相关性约束的低秩表示人体行为识别方法
EP3166022A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image search using sparsifying analysis operators
CN105718934A (zh) * 2016-01-25 2016-06-29 无锡中科富农物联科技有限公司 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法
CN107832747A (zh) * 2017-12-05 2018-03-23 广东技术师范学院 一种基于低秩字典学习算法的人脸识别方法
CN108446589A (zh) * 2018-02-07 2018-08-24 杭州电子科技大学 复杂环境下基于低秩分解和辅助字典的人脸识别方法
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
FARNAZ GANIEIZADEH: ""Reducing the Computational Complexity of the Gmm-Ubm Speaker recognition approach"", 《IJERT》 *
JIAHUAN REN: ""Robust Projective Low-Rank and Sparse Representation by Robust Dictionary Learning"", 《ICPR》 *
YUNYUNJI: ""Speech Enhancement Based on Dictionary Learning and Low-Rank Matrix Decomposition"", 《IEEE ACCESS》 *
Z.BOULKENAFET: ""Forensic Evidence reporting using Gmm-UBM,JFA and I-vector methods"", 《ISPA 2013》 *
ZAIDAO WEN: ""Discriminative Dictionary Learning With Two-Level Low Rank and Group Sparse Decomposition For Image Classification"", 《IEEE TRANSACTION》 *
杨帅锋: ""基于低秩矩阵和字典学习的超分辨率重建"", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110579967A (zh) * 2019-09-23 2019-12-17 中南大学 基于同时降维和字典学习的过程监控方法
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置
CN112489678B (zh) * 2020-11-13 2023-12-05 深圳市云网万店科技有限公司 一种基于信道特征的场景识别方法及装置
CN115512708A (zh) * 2022-10-05 2022-12-23 哈尔滨理工大学 基于区分性字典与分类器联合学习的说话人识别方法
CN115512708B (zh) * 2022-10-05 2024-05-07 哈尔滨理工大学 基于区分性字典与分类器联合学习的说话人识别方法

Also Published As

Publication number Publication date
CN110265039B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
EP0549265A2 (en) Neural network-based speech token recognition system and method
CN110265039A (zh) 一种基于字典学习和低秩矩阵分解的说话人识别方法
CN108648760B (zh) 实时声纹辨识系统与方法
EP1800293A1 (en) Spoken language identification system and methods for training and operating same
CN111785275A (zh) 语音识别方法及装置
Shi et al. H-vectors: Utterance-level speaker embedding using a hierarchical attention model
CN113889090A (zh) 一种基于多任务学习的多语种识别模型的构建和训练方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Shakil et al. Feature based classification of voice based biometric data through Machine learning algorithm
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
CN112614510B (zh) 一种音频质量评估方法及装置
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Nyodu et al. Automatic identification of Arunachal language using K-nearest neighbor algorithm
Ziedan et al. A unified approach for arabic language dialect detection
CN114970695B (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
Pentapati et al. Dilated Convolution and MelSpectrum for Speaker Identification using Simple Deep Network
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Kuhne et al. Towards the use of full covariance models for missing data speaker recognition
Švec et al. Analysis of impact of emotions on target speech extraction and speech separation
Hussein et al. Arabic speaker recognition using HMM
Mingliang et al. Chinese dialect identification using clustered support vector machine
Bakir Automatic voice and speech recognition system for the German language with deep learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant