CN110265039B - 一种基于字典学习和低秩矩阵分解的说话人识别方法 - Google Patents
一种基于字典学习和低秩矩阵分解的说话人识别方法 Download PDFInfo
- Publication number
- CN110265039B CN110265039B CN201910475010.3A CN201910475010A CN110265039B CN 110265039 B CN110265039 B CN 110265039B CN 201910475010 A CN201910475010 A CN 201910475010A CN 110265039 B CN110265039 B CN 110265039B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- sub
- vector
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000000556 factor analysis Methods 0.000 claims abstract description 5
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 239000006185 dispersion Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM‑UBM模型;步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;步骤4,得到对应每个说话人语句的i‑vector;步骤5,从训练集中提取M维度的i‑vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i‑vector后端处理和打分模块,为最终判别提供依据;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。
Description
技术领域
本发明涉及说话人识别领域,具体的说是一种用于用于对说话人识别系统的后端i-vector字典判别方法。
背景技术
话人识别(Speaker Recognition,SR)又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明,在对说话人语音的因子分析中,通常信道子空间中会包含说话人的信息。因此,i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。
在过去的几年里,稀疏信号表示已广泛应用于数字信号处理领域,例如:压缩感知和图像恢复。近年来,人们发现基于分类的稀疏表示的实验结果比较好,因此被广泛使用。稀疏编码是通过构建过完备字典对任意一个信号进行最紧凑的线性表示。构建稀疏编码字典的方法有两种,分别是标准的数据模型法和和数据驱动方法。
进入21世纪以来,稀疏信号表示在信号处理方向得到了较为广泛的运用,典型的使用案例包括压缩感知、损坏图像恢复。近年来人们又发现稀疏编码在分类方面有很大的拓展空间,它通过建立一个过完备字典,以达到对每个待分类信号做线性表示的目的。
稀疏表示已经在语音处理的部分研究领域起到一些显著的作用,例如互联网环境下基于移动终端的语音接入中采用稀疏表示的方法,可以大大节省通信传输的特征数据,除此之外,稀疏分解对语音信号去噪也有着一定的显著作用,其中,基于字典学习和稀疏分解算法已经在图像识别领域得到了较好的使用。在非约束条件下,算法的稳定性很难得到保障,特别是当噪声污染过大时,会使训练出的字典可识别能力下降。
发明内容
本发明所要解决的技术问题是,在非约束条件下,算法的稳定性很难得到保障。特别是当噪声污染过大时,会使训练出的字典可识别能力下降,为了克服现有技术的不足而提供一种基于字典学习和低秩矩阵分解的说话人识别方法。
本发明提供一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据。
作为本发明的进一步技术方案,所述步骤5的具体内容如下:设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
作为本发明的进一步技术方案,所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
作为本发明的进一步技术方案,所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
c.更新子字典Di(i=1,2,…,c):同时固定Dj(j≠i)、系数X,同步更新子字典Di(i=1,2,…,c)和样本Y在子字典上对应的编码系数Xii,得到简化后的字典模型方程为:
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
作为本发明的进一步技术方案,所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:可以有效处理i-vector中的共性部分,将i-vector统计量中说话人共有的部分单独分离出来,并对字典中的说话人子字典都进行了低秩处理以尽可能降低说话人i-vector共性部分对最后打分结果的影响,从而使最后生成的字典识别力更强;适应字典学习准则的编码系数可以有效提升识别力,并通过结构化稀疏来进行最优分类。
附图说明
图1为本发明的系统结构图。
图2本发明中MFCC特征提取流程图。
图3为本发明中算法流程图。
具体实施方式
下面结合附图1-3对本发明的技术方案做进一步的详细说明:
本实施例提出了一种基于字典学习和低秩矩阵分解的说话人识别方法,包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测等处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵,根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据;
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏稀疏,其中Xi是对应子字典Di的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏稀疏表示,子字典Di为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好表示;
字典Di(i≠j)对应的编码系数为0;结构化稀疏对应为Q=[q1,q2,.....,qi]∈RN ×L,其中qi表示对应于训练样本yi的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本yi属于第M类,,结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1,其余均为0,结构化系数系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
所述步骤5的算法流程包括如下内容:给定训练样本,其中样本Y=[Y1,Y2,.....,Yi],包含c个类别的n个样本;表示第i类的样本,d表示每个样本向量的维数,ni表示第i类样本的样本个数;每类样本学习一个子字典,最终整合成字典D=[D1,D2,.....,Di],其中表示对第i类样本进行学习后得到的子字典,表示每个子字典原子的维数,表示第i类子字典的原子个数。
所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Yi降维,得到的新向量作为子字典Di的初始原子;
b.得到相关编码系数Xi(i=1,2,…,c),并保持xj(j≠i)不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,r(Yi,D,Xi)是样本重新构建后产生的偏差项,Di是第i类训练样本的子字典;||X||1为是稀疏分类的约束项,F(X)是K-SVD判别式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
d.迭代:J(D,X)大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b。
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
本发明中,选择TIMIT语音开源数据库的100个说话人来进行相关实验。TIMIT语音库共有630个说话人(192个女性说话人和438个男性说话人),来自美国8个方言地区。每个说话人10条语音,每条语音平均时长为3秒。数据采样频率为16kHz,采样精度为单通道16bits。
每个说话人选取其中的10条语音,用来训练UBM、生成相应的i-vector以及训练字典。其中,每个说话人的9句语音作为注册语音,1句语音作为测试语音,加起来共10000句语音。
特征提取阶段,说话人语音段经过VAD去除静音、预加重处理、加汉明窗分帧(帧长为25ms,帧移10ms)后,分别提取22维的MFCC和GFCC静态特征。
测试语音的特征维数为39,MFCC特征帧长为25ms、帧移为10ms。高斯背景模型的混合数为512。i-vector维度为400,PCA子空间矩阵维度为200,帧长为25ms、帧移为10ms。
选取1000条纯净语音的i-vector作为判别字典的训练集,100条纯净语音的i-vector作为测试集。在未加噪声条件下,我们将LRSDL与FDDL方法进行数据对比,通过多次实验得到的平均系统识别率(acc)表现表1所示:
表1 FDDL与LRSDL方法在测试纯净语音环境下的性能表现
Acc代表该方法在该实验条件下的识别率,我们通过多次实验取均值,结果发现FDDL识别率的均值要略优于LRSDL。将Noise92X噪声库中的babble(嘈杂的人群)噪声按不同信噪比添加进语音信号中。
表2 FDDL与LRSDL方法在babble噪声环境下的性能表现(0dB)
表3 FDDL与LRSDL方法在babble噪声环境下的性能表现(5dB)
表4 FDDL与LRSDL方法在babble噪声环境下的性能表现(15dB)
从上表中发现,在噪声环境下,LRSDL的识别率要明显优于FDDL,其原因是低秩部分包含了噪声字典,系统最后打分时会将噪声字典部分单独抛离进行打分,因此结果有明显优。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:包括以下步骤:
步骤1,对说话人音频进行预加重、分帧、加窗、端点检测处理;
步骤2,提取出对应每个说话人语句的MFCC特征,并训练GMM-UBM模型;
步骤3,通过联合因子分析(JFA)估算全局差异空间矩阵T,全局差异空间因子w;
步骤4,得到对应每个说话人语句的i-vector;
步骤5,从训练集中提取M维度的i-vector并生成特征矩阵, 根据训练集和测试集,对判别字典进行生成,得到的字典将作为i-vector后端处理和打分模块,为最终判别提供依据,具体内容如下:
设测试集的i-vector样本集合为Y,矩阵C含有说话人共性部分E和说话人个性部分DX,即Y=DX+E,那么对于训练样本Y,其在字典D上的最优稀疏表示系数应为一块对角阵,如下所示:
字典D包含c个类别的子字典,X是训练样本Y在字典D上的稀疏系数,其中X i 是对应子字
典D i 的稀疏系数;字典D具备可识别和重建的能力,从而低秩和稀疏系数表示,子字典D i 为第i类训练样本的转悠字典,达到最好的识别率;第i类i-vector样本被第i类的子字典D很好
表示;字典D i (i≠j)对应的编码系数为0;结构化稀疏对应为,其
中q i 表示对应于训练样本y i 的编码,N表示字典的尺寸大小,L表示训练样本总数;
设训练样本y i 属于第M类,结构化稀疏系数Q满足q i 对应子字典D i 的所有系数都为1,其余均为0,结构化稀疏系数Q与低秩矩阵的结合,可以对样本进行最优的分类。
3.根据权利要求2所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述算法流程中的模型具体包括如下内容:
a.生成初始字典D,将训练样本Y i 降维,得到的新向量作为子字典D i 的初始原子;
b.得到相关编码系数X i (i=1,2,…,c),并保持x j ( j≠i ) 不变,依序对编码系数进行更新,字典模型表达式为:
从式中可以得出,子字典已经能表征训练样本,其中,是样本重新构建后产
生的偏差项,D i 是第i类训练样本的子字典;为是稀疏分类的约束项,F(X)是K-SVD判别
式;方程中的F(X)的类内离散度尽量减小,类间离散度尽量增大达到更好地识别效果;
由此可得出下式:
上式由迭代投影方法求得;
d.迭代:J (D , X) 大于或等于阈值或者迭代次数已达上限,此时将自动输出稀疏编码X和字典D,否则返回步骤b;
e.分类:样本y的编码系数将根据结构化低秩矩阵D得出
4.根据权利要求3所述的一种基于字典学习和低秩矩阵分解的说话人识别方法,其特征在于:所述步骤5中的训练阶段,既可以输入纯净语音的i-vector构成训练数据对并提取相应的语音特征,也可以将纯净语音和噪声数据混合的i-vector输入字典;在分别将不同信噪比和种类的含噪语音和的语音特征作为输入和标签数据训练判别字典时,得到的低秩部分E除了含有i-vector的共性字典外还含有噪声字典,也会被单独提取出来不参与分类过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910475010.3A CN110265039B (zh) | 2019-06-03 | 2019-06-03 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910475010.3A CN110265039B (zh) | 2019-06-03 | 2019-06-03 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110265039A CN110265039A (zh) | 2019-09-20 |
CN110265039B true CN110265039B (zh) | 2021-07-02 |
Family
ID=67916410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910475010.3A Active CN110265039B (zh) | 2019-06-03 | 2019-06-03 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110265039B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110579967B (zh) * | 2019-09-23 | 2020-06-30 | 中南大学 | 基于同时降维和字典学习的过程监控方法 |
CN112489678B (zh) * | 2020-11-13 | 2023-12-05 | 深圳市云网万店科技有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN115512708B (zh) * | 2022-10-05 | 2024-05-07 | 哈尔滨理工大学 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632138A (zh) * | 2013-11-20 | 2014-03-12 | 南京信息工程大学 | 一种低秩分块稀疏表示的人脸识别方法 |
CN104298977A (zh) * | 2014-10-24 | 2015-01-21 | 西安电子科技大学 | 一种基于不相关性约束的低秩表示人体行为识别方法 |
CN105718934A (zh) * | 2016-01-25 | 2016-06-29 | 无锡中科富农物联科技有限公司 | 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法 |
EP3166022A1 (en) * | 2015-11-06 | 2017-05-10 | Thomson Licensing | Method and apparatus for image search using sparsifying analysis operators |
CN107832747A (zh) * | 2017-12-05 | 2018-03-23 | 广东技术师范学院 | 一种基于低秩字典学习算法的人脸识别方法 |
CN108446589A (zh) * | 2018-02-07 | 2018-08-24 | 杭州电子科技大学 | 复杂环境下基于低秩分解和辅助字典的人脸识别方法 |
CN109711283A (zh) * | 2018-12-10 | 2019-05-03 | 广东工业大学 | 一种联合双字典和误差矩阵的遮挡表情识别算法 |
CN107146601B (zh) * | 2017-04-07 | 2020-07-24 | 南京邮电大学 | 一种用于说话人识别系统的后端i-vector增强方法 |
-
2019
- 2019-06-03 CN CN201910475010.3A patent/CN110265039B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632138A (zh) * | 2013-11-20 | 2014-03-12 | 南京信息工程大学 | 一种低秩分块稀疏表示的人脸识别方法 |
CN104298977A (zh) * | 2014-10-24 | 2015-01-21 | 西安电子科技大学 | 一种基于不相关性约束的低秩表示人体行为识别方法 |
EP3166022A1 (en) * | 2015-11-06 | 2017-05-10 | Thomson Licensing | Method and apparatus for image search using sparsifying analysis operators |
CN105718934A (zh) * | 2016-01-25 | 2016-06-29 | 无锡中科富农物联科技有限公司 | 一种基于低秩稀疏编码技术的害虫图像特征学习与识别方法 |
CN107146601B (zh) * | 2017-04-07 | 2020-07-24 | 南京邮电大学 | 一种用于说话人识别系统的后端i-vector增强方法 |
CN107832747A (zh) * | 2017-12-05 | 2018-03-23 | 广东技术师范学院 | 一种基于低秩字典学习算法的人脸识别方法 |
CN108446589A (zh) * | 2018-02-07 | 2018-08-24 | 杭州电子科技大学 | 复杂环境下基于低秩分解和辅助字典的人脸识别方法 |
CN109711283A (zh) * | 2018-12-10 | 2019-05-03 | 广东工业大学 | 一种联合双字典和误差矩阵的遮挡表情识别算法 |
Non-Patent Citations (6)
Title |
---|
"Discriminative Dictionary Learning With Two-Level Low Rank and Group Sparse Decomposition For Image Classification";Zaidao Wen;《IEEE transaction》;20171231;第47卷(第11期);全文 * |
"Forensic Evidence reporting using Gmm-UBM,JFA and I-vector methods";Z.Boulkenafet;《ISPA 2013》;20130906;全文 * |
"Reducing the Computational Complexity of the Gmm-Ubm Speaker recognition approach";Farnaz Ganieizadeh;《IJERT》;20140331;第3卷(第3期);全文 * |
"Robust Projective Low-Rank and Sparse Representation by Robust Dictionary Learning";Jiahuan Ren;《ICPR》;20180824;全文 * |
"Speech Enhancement Based on Dictionary Learning and Low-Rank Matrix Decomposition";YUNYUNJI;《IEEE Access》;20181217;全文 * |
"基于低秩矩阵和字典学习的超分辨率重建";杨帅锋;《计算机研究与发展》;20160430(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110265039A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
US20040230420A1 (en) | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments | |
CN110265039B (zh) | 一种基于字典学习和低秩矩阵分解的说话人识别方法 | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
Lung | Improved wavelet feature extraction using kernel analysis for text independent speaker recognition | |
Sarma et al. | Robust Mizo digit recognition using data augmentation and tonal information | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Ziedan et al. | A unified approach for arabic language dialect detection | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Kuhne et al. | Towards the use of full covariance models for missing data speaker recognition | |
Pandharipande et al. | Front-end feature compensation for noise robust speech emotion recognition | |
Gurbuz et al. | Speech spectrogram based model adaptation for speaker identification | |
Li | Speech recognition of mandarin monosyllables | |
Nazreen et al. | A joint enhancement-decoding formulation for noise robust phoneme recognition | |
Naing et al. | Using double-density dual tree wavelet transform into MFCC for noisy speech recognition | |
US20240153494A1 (en) | Techniques for generating training data for acoustic models using domain adaptation | |
Khan | Audio-visual speaker separation | |
Pentapati et al. | Log-MelSpectrum and Excitation features based Speaker Identification using Deep Learning | |
Sundaram | Effects of Transcription Errors on Supervised Learning in Speech Recognition | |
Remes et al. | Missing feature reconstruction and acoustic model adaptation combined for large vocabulary continuous speech recognition | |
Helali et al. | Automatic Speech Recognition System Based on Hybrid Feature Extraction Techniques Using TEO-PWP for in Real Noisy Environment | |
Daqrouq et al. | An investigation of wavelet average framing LPC for noisy speaker identification environment | |
Wang et al. | Robust Speaker Verification Against Additive Noise. | |
Kumar | Feature normalisation for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |