CN111081261A - 一种基于lda的文本无关声纹识别方法 - Google Patents

一种基于lda的文本无关声纹识别方法 Download PDF

Info

Publication number
CN111081261A
CN111081261A CN201911356454.1A CN201911356454A CN111081261A CN 111081261 A CN111081261 A CN 111081261A CN 201911356454 A CN201911356454 A CN 201911356454A CN 111081261 A CN111081261 A CN 111081261A
Authority
CN
China
Prior art keywords
distribution
lda
text
speaker
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911356454.1A
Other languages
English (en)
Other versions
CN111081261B (zh
Inventor
贺前华
吴克乾
危卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911356454.1A priority Critical patent/CN111081261B/zh
Publication of CN111081261A publication Critical patent/CN111081261A/zh
Application granted granted Critical
Publication of CN111081261B publication Critical patent/CN111081261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种基于LDA的文本无关声纹识别方法,包括:S1,提取待识别语音样本的声学特征序列,计算所述声学特征序列在预先构建的声学特征分布空间中的分布特征矢量;S2,对所述分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维;S3,计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度,将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。本发明使用LDA对待识别语音以及语音样本的分布特征矢量中的文本内容信息进行补偿,减少文本内容不同带来的干扰。

Description

一种基于LDA的文本无关声纹识别方法
技术领域
本发明涉及说话人声音识别技术领域,特别是涉及一种基于LDA的文本无关声纹识别方法。
背景技术
说话人识别,又称声纹识别,指的是利用机器学习和模式识别等相关方法,提取语音信号中说话人的信息,对说话人身份进行鉴别的技术。在过去的几十年中,说话人识别技术快速的发展,在司法、智能家居、多媒体信息处理等领域都得到了运用,具有非常重要而广泛的前景。说话人识别利用语音信号进行身份识别,具有人机交互自然、语音信号易于提取、可实现远程识别等优势。
根据识别内容,说话人识别问题可以分成两类:文本相关说话人识别和文本无关说话人识别。文本相关的说话人识别要求用户在注册时按照规定的文本发音,为每个说话人建立精确的基于音素或单词的模型,识别时也要求用户按照规定的文本进行发音,这种约束条件下一般可以答到较好的识别效果,但是需要用户的主动配合。文本无关的说话人识别不规定说话人发音的文本内容,因此特征提取和模型建立相对困难,但是不需要太多的约束用户,使用方便,具有更广的应用范围。现有的说话人识别技术主要有两大类,一类是基于统计模型,如混合高斯模型GMM、GMM-UBM、 ivector、MFCC等,比如:论文《Front-EndFactor Analysis for Speaker Verification》中提到的方法,具有较高的计算复杂度并且没有考虑语音中文本内容带来的影响;另一类是基于深度神经网络的方法,如CNN、RNN等,比如:谷歌公司的论文《X VECTORS:ROBUST DNN EMBEDDINGS FOR SPEAKERRECOGNITION》中使用神经网络对语音提取说话人特征,但是神经网络的训练需要大量的有标注语音样本,而且深度神经网络方法缺乏解释性,对于说话人特征中的文本内容信息没有进行解释。
发明内容
针对现有技术存在的没有考虑语音中文本内容差异带来的影响的问题,本发明提供一种基于LDA的文本无关声纹识别方法。
本申请的具体方案如下:
一种基于LDA的文本无关声纹识别方法,包括:
S1,提取待识别语音样本的声学特征序列,计算所述声学特征序列在预先构建的声学特征分布空间Ω1中的分布特征矢量;
S2,对所述分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维;
S3,计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度,将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。
优选地,构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括:
S21,采集S个目标说话人的语音,同一个说话人采集N段非特定文本的语音样本,提取每段语音的声学特征;S>2,N>2;
S22,计算每段声学特征在声学特征分布空间Ω1中的分布特征矢量,对所述分布特征矢量进行模规整;
S23,使用LDA对模规整后的分布特征矢量进行降维,
S24,使用单高斯分布作为同一个说话人的降维后的P个分布特征矢量的经验分布模型,得到文本无关说话人声纹模型;P>2。
优选地,步骤S21包括:获取S个说话人的经过语音活动检测的注册语音,从每段长时间的注册语音中截取N次,得到N段非特定文本的语音样本,每次的截取长度为c秒,每段语音的文本是任意的内容。
优选地,在步骤S22中,计算得到S×N个分布特征矢量Ls,n
Figure BDA0002336052870000031
其中,s表示说话人的编号,n表示语音段的编号,K表示分布特征矢量的维度;
对所述分布特征矢量进行模规整的步骤包括:
将每个分布特征矢量的模规整到统一的常数Len:
Figure BDA0002336052870000032
求出规整后的分布特征矢量集{L′s,n}的平均值:
Figure BDA0002336052870000033
将每个分布特征矢量上减去平均值得到模规整后的分布特征矢量:
L”s,n=L’s,n-V
其中,模规整保留单个音频分布特征矢量在空间分布中的独特性,去掉音频分布的相似性。
优选地,在步骤S23中,使用LDA对模规整后的分布特征矢量进行降维的公式为:
L”’s,n=L”s,n×Mat
其中,Mat降维矩阵的维度为K×J。
优选地,步骤S24包括:
一个说话人的N个K维分布特征矢量,经过降维后得到N个J维的分布特征矢量,用一个J维的单高斯分布来表示N个J维的分布特征矢量的经验分布,将这个单高斯分布作为该说话人的文本无关声纹模型:
Figure BDA0002336052870000034
其中,μs表示第s个人的N个分布特征矢量的均值矢量,
Figure BDA0002336052870000041
表示第s个人的N个分布特征矢量的方差矢量。
优选地,步骤S3中计算得到的分布特征矢量为:
Figure BDA0002336052870000042
经过模规整后的分布特征矢量为:
L”x=L’x-V
步骤S4中使用LDA对模规整后的分布特征矢量进行降维后得到:
L”’x=L”x×Mat。
优选地,步骤S5包括:计算J维分布特征矢量L”’x与每个说话人文本无关声纹模型mods的评分scores,选择评分最高的文本无关声纹模型mods对应的声纹作为识别结果:
Figure BDA0002336052870000043
优选地,预先构建声学特征分布空间Ω1包括:使用无说话人标注的语音构建声学特征分布空间Ω1,其中声学特征分布空间Ω1为:
Ω1={gi,i=1,2,...,K}
其中,gi表示特征分布空间中的标识子。
优选地,所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据,aishell中文语料库中一共包含400个说话人,选择每个人的 60个wav文件用来训练声学特征分布空间Ω1,提取非特定文本的语音样本的12维MFCC特征,训练一个混合度为K的GMM,保留每个高斯分量作为语音特征空间的标识子集合Ω1={gi,i=1,2,...,K},其中,K为特征空间标识子的数量,标识子数量K选择4096。
与现有技术相比,本发明具有如下有益效果:
本发明通过对分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维(映射),使用LDA对待识别语音以及语音样本的分布特征矢量中的文本内容信息进行补偿,减少文本内容不同带来的干扰,同时,对于每个人的多个样本的分布特征矢量,采用经验分布建模的方式,比计算余弦距离的判决准则,具有更好的识别效果,解决了说话人识别中语音文本内容不一致的问题。具体如下:
(1)、本发明提供的一种基于LDA的文本无关声纹识别方法,其中,一个语音样本的分布特征矢量包含说话人的特征与文本内容信息的特征,同一个人的语音属于同一个类,其中不同样本的文本内容信息是不同,利用LDA矩阵映射后,同一个人的分布特征矢量之间的间距变小,减少了文本内容差异带来的干扰;同时不同说话人的分布特征矢量间距变大,突显了不同说话人之间的区分性。通过LDA映射,能够提取出与文本无关的说话人分布特征矢量,实现对分布特征矢量中的文本内容信息进行补偿,降低了其与特定文本的关联度,在现有方法中,使用MFCC作为特征,通过LBG算法得到特征的量化码本及说话人模型,对待识别样本的MFCC 特征序列进行矢量量化后计算与说话人模型的评分,没有考虑语音样本中文本内容差异带来的影响,本方法通过LDA映射,解决了此问题。
(2)、本发明提供的一种基于LDA的文本无关声纹识别方法,其中,模规整保留单个音频分布特征矢量在空间分布中的独特性,去掉音频分布特征的相似性,语音的分布特征矢量是分布在整个特征空间中的,它们之间存在着一定的相似性,通过模规整的方法,减少语音分布特征矢量中存在的共性,对比不使用模规整的建模方法,经过模规整后具有更好的识别效果。
(3)、本发明提供的一种基于LDA的文本无关声纹识别方法,其中,单高斯分布用来作为经验分布,对说话人的文本无关声纹模型进行表达,在已有方法中,将说话人的多个分布特征矢量求取平均矢量作为说话人的模型,或者将说话人的多个分布特征矢量当做多模型,对异常的分布特征矢量比较敏感,异常的分布特征矢量容易造成错误的识别,使用单高斯分布作为说话人特征经验分布的表达,能够解决这个问题,具有更好的识别效果。
附图说明
图1为本发明的基于LDA的文本无关声纹识别方法的示意性流程图;
图2为本发明的构建多个基于模规整和LDA映射分布特征的文本无关说话人声纹模型的示意性流程图;
图3为本发明的模规整及LDA映射的步骤流程图。
图4为本发明实施例中对待识别语音进行特征提取并识别的步骤流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
在实施本方案进行文本无关声纹识别之前,需要预先构建声学特征分布空间Ω1和多个基于模规整和LDA映射分布特征的文本无关说话人声纹模型。其中构建声学特征分布空间Ω1的步骤包括:
使用无说话人标注的语音构建声学特征分布空间Ω1,构建语音特征空间Ω1的过程中,使用任何纯净语音样本,采用K-means或其它聚类方法将语音特征样本在特征空间进行聚类,本实施例所述语音特征空间分布Ω1={gi,i=1,2,...,K}使用高斯分布函数作为特征空间的标识子。
其中,gi表示特征分布空间中的标识子。在本实施例,所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据,aishell中文语料库中一共包含400个说话人,选择每个人的60个wav文件用来训练声学特征分布空间Ω1,提取非特定文本的语音样本的12维MFCC特征,训练一个混合度为K的GMM,保留每个高斯分量作为语音特征空间的标识子集合Ω1={gi,i=1,2,...,K},其中,K为特征空间标识子的数量,标识子数量 K选择4096。
参见图2-3,构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括:
S21,采集S个目标说话人的语音(说话人注册语音或者预先采集的非目标说话人集的有标注语音),同一个说话人采集N段非特定文本的语音样本,提取每段语音的声学特征;S>2,N>2;具体地,步骤S21包括:获取S个说话人的经过语音活动检测的注册语音,从每段长时间的注册语音中截取N次,得到N段非特定文本的语音样本,每次的截取长度为c秒,每段语音的文本是任意的内容。在本实施例,每个目标说话人的语音时长 120秒,经过语音活动检测,从语音部分中截取15次,每次包含5秒长度的语音。提取这些语音样本的12维MFCC特征(声学特征的其中一个特征),计算语音样本在特征空间中的分布特征矢量,将这些分布特征矢量进行模规整,然后通过LDA矩阵进行映射,得到每个说话人的15个文本无关的分布特征矢量,计算这15个分布特征矢量的均值矢量和方差矢量,用单高斯分布来作为它们的经验分布表示,单高斯分布即是该说话人的文本无关声纹模型。
S22,计算每段声学特征在声学特征分布空间Ω1中的分布特征矢量,对所述分布特征矢量进行模规整;一共400个目标说话人,每个说话人15 个分布特征矢量,对分布特征矢量进行模规整。具体地,在步骤S22中,计算得到S×N个分布特征矢量Ls,n
Figure BDA0002336052870000071
其中,s表示说话人的编号,n表示语音段的编号,K表示分布特征矢量的维度;
如图3所示,对所述分布特征矢量进行模规整的步骤包括:
将每个分布特征矢量的模规整到统一的常数Len:
Figure BDA0002336052870000072
求出规整后的分布特征矢量集{L′s,n}的平均值:
Figure BDA0002336052870000081
将每个分布特征矢量上减去平均值得到模规整后的分布特征矢量:
L”s,n=L’s,n-V
其中Len选取20,模规整保留单个音频分布特征矢量在空间分布中的独特性,去掉音频分布的相似性。
S23,使用LDA对模规整后的分布特征矢量进行降维,一个语音样本的分布特征矢量包含说话人的特征与文本内容信息的特征,利用LDA映射矩阵,对分布特征矢量进行映射,实现对分布特征矢量中的文本内容信息进行补偿,降低其与特定文本的关联度。具体地,在步骤S23中,使用 LDA对模规整后的分布特征矢量进行降维的公式为:
L”’s,n=L”s,n×Mat
其中,Mat降维矩阵的维度为K×J;LDA投影矩阵(Mat)能够使得投影后同类样本间距离尽可能地小,不同类样本间距离尽可能地大,利用该特性,同一个人的语音样本的分布特征矢量包含该说话人的特征与文本内容的特征,其中的文本内容特征是不同,经过映射后,同一个人的分布特征矢量之间的间距变小,减少了文本内容差异带来的干扰;不同说话人的分布特征矢量间距变大,强化了不同说话人之间的区别。通过LDA映射,提取出了与文本无关的说话人分布特征矢量。
用于训练矩阵Mat的数据来自于:
根据S×N个经过了模规整的分布特征矢量及相应的说话人标注,计算映射矩阵Mat;这些数据来自目标说话人集,可以直接用来训练映射矩阵 Mat;
或者根据有说话人标注的语音得到模规整后的分布特征矢量,计算模规整后的分布特征矢量的映射矩阵Mat,这些数据中的说话人与目标说话人不相同,需要额外多一些说话人的数据来训练映射矩阵,其中,已标注说话人的人数为目标说话人集人数的3倍以上。
得到经过了模规整的分布特征矢量,及其相应的说话人标签(说话人标注),计算每个说话人分布特征矢量的类内散度矩阵:
Figure BDA0002336052870000091
其中,L″表示模规整后的分布特征矢量,L″i,j表示第i个说话人的第j 个分布特征矢量,C表示共有C个说话人,μi表示第i个说话人的分布特征矢量的均值,Mi表示第i个说话人的分布特征矢量的个数。
计算不同说话人分布特征矢量的类间散度矩阵:
Figure BDA0002336052870000092
其中,C表示共有C个说话人,μi表示第i个说话人的分布特征矢量的均值,μ表示所有分布特征矢量的均值,在这里μ=0。
得到优化目标为Sw和Sb的广义瑞利商:
Figure BDA0002336052870000093
通过拉格朗日乘子法求解ω,得到特征值和特征向量,将特征向量构成映射矩阵Mat。
对分布特征矢量进行LDA映射,得到文本无关的分布特征矢量:
L”’s,n=L”s,n×Mat
S24,使用单高斯分布作为同一个说话人的降维后的P个分布特征矢量的经验分布模型,得到文本无关说话人声纹模型;P>2。具体地,步骤 S24包括:一个说话人的N个K维分布特征矢量,经过降维后得到N个J维的分布特征矢量,用一个J维的单高斯分布来表示N个J维的分布特征矢量的经验分布,将这个单高斯分布作为该说话人的文本无关声纹模型:
Figure BDA0002336052870000101
其中,μs表示第s个人的N个分布特征矢量的均值矢量,
Figure BDA0002336052870000102
表示第s个人的N个分布特征矢量的方差矢量。使用单高斯分布作为经验分布比多个分布知识矢量求平均值或者多个分布知识矢量作为多模型具有更好的表达效果。
基于上述已经构建的声学特征分布空间Ω1和多个文本无关说话人声纹模型,在本实施例,参见图1和4、一种基于LDA的文本无关声纹识别方法,包括:
S1,提取待识别语音样本的声学特征序列,计算所述声学特征序列在预先构建的声学特征分布空间Ω1中的分布特征矢量;在本实施例,计算待识别语音样本的12维MFCC特征,通过语音特征空间分布Ω1={gi,i=1,2,...,K},求出待识别语音的分布特征矢量:步骤S1中计算得到的分布特征矢量为:
Figure BDA0002336052870000103
S2,对所述分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维;将4096维的矢量用投影矩阵Mat映射到399维。经过模规整后的分布特征矢量为:
L”X=L’X-V
步骤S2中使用LDA对模规整后的分布特征矢量进行降维后得到:
L”’x=L”x×Mat。
S3,计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型(来自目标说话人模型集合)之间的似然度,将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。具体地,步骤S3包括:
计算399维分布特征矢量L”’x与每个说话人文本无关声纹模型mods的评分scores,选择评分最高的文本无关声纹模型mods对应的声纹作为识别结果:
Figure BDA0002336052870000111
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于LDA的文本无关声纹识别方法,其特征在于,包括:
S1,提取待识别语音样本的声学特征序列,计算所述声学特征序列在预先构建的声学特征分布空间Ω1中的分布特征矢量;
S2,对所述分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维;
S3,计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度,将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。
2.根据权利要求1所述的基于LDA的文本无关声纹识别方法,其特征在于,构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括:
S21,采集S个目标说话人的语音,同一个说话人采集N段非特定文本的语音样本,提取每段语音的声学特征;S>2,N>2;
S22,计算每段声学特征在声学特征分布空间Ω1中的分布特征矢量,对所述分布特征矢量进行模规整;
S23,使用LDA对模规整后的分布特征矢量进行降维,
S24,使用单高斯分布作为同一个说话人的降维后的P个分布特征矢量的经验分布模型,得到文本无关说话人声纹模型;P>2。
3.根据权利要求2所述的基于LDA的文本无关声纹识别方法,其特征在于,步骤S21包括:获取S个说话人的经过语音活动检测的注册语音,从每段长时间的注册语音中截取N次,得到N段非特定文本的语音样本,每次的截取长度为c秒,每段语音的文本是任意的内容。
4.根据权利要求3所述的基于LDA的文本无关声纹识别方法,其特征在于,在步骤S22中,计算得到S×N个分布特征矢量Ls,n
Figure FDA0002336052860000011
其中,s表示说话人的编号,n表示语音段的编号,K表示分布特征矢量的维度;
对所述分布特征矢量进行模规整的步骤包括:
将每个分布特征矢量的模规整到统一的常数Len:
Figure FDA0002336052860000021
求出规整后的分布特征矢量集{L′s,n}的平均值:
Figure FDA0002336052860000022
将每个分布特征矢量上减去平均值得到模规整后的分布特征矢量:
L”s,n=L’s,n-V
其中,模规整保留单个音频分布特征矢量在空间分布中的独特性,去掉音频分布的相似性。
5.根据权利要求4所述的基于LDA的文本无关声纹识别方法,其特征在于,在步骤S23中,使用LDA对模规整后的分布特征矢量进行降维的公式为:
L”’s,n=L”s,n×Mat
其中,Mat降维矩阵的维度为K×J。
6.根据权利要求5所述的基于LDA的文本无关声纹识别方法,其特征在于,步骤S24包括:
一个说话人的N个K维分布特征矢量,经过降维后得到N个J维的分布特征矢量,用一个J维的单高斯分布来表示N个J维的分布特征矢量的经验分布,将这个单高斯分布作为该说话人的文本无关声纹模型:
Figure FDA0002336052860000023
其中,μs表示第s个人的N个分布特征矢量的均值矢量,
Figure FDA0002336052860000031
表示第s个人的N个分布特征矢量的方差矢量。
7.根据权利要求6所述的基于LDA的文本无关声纹识别方法,其特征在于,步骤S3中计算得到的分布特征矢量为:
Figure FDA0002336052860000032
经过模规整后的分布特征矢量为:
L”x=L’x-V
步骤S4中使用LDA对模规整后的分布特征矢量进行降维后得到:
L”’x=L”x×Mat。
8.根据权利要求7所述的基于LDA的文本无关声纹识别方法,其特征在于,步骤S5包括:
计算J维分布特征矢量L”’x与每个说话人文本无关声纹模型mods的评分scores,选择评分最高的文本无关声纹模型mods对应的声纹作为识别结果:
Figure FDA0002336052860000033
9.根据权利要求1所述的基于LDA的文本无关声纹识别方法,其特征在于,预先构建声学特征分布空间Ω1包括:
使用无说话人标注的语音构建声学特征分布空间Ω1,其中声学特征分布空间Ω1为:
Ω1={gi,i=1,2,...,K}
其中,gi表示特征分布空间中的标识子。
10.根据权利要求9所述的基于LDA的文本无关声纹识别方法,其特征在于,所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据,aishell中文语料库中一共包含400个说话人,选择每个人的60个wav文件用来训练声学特征分布空间Ω1,提取非特定文本的语音样本的12维MFCC特征,训练一个混合度为K的GMM,保留每个高斯分量作为语音特征空间的标识子集合Ω1={gi,i=1,2,...,K},其中,K为特征空间标识子的数量,标识子数量K选择4096。
CN201911356454.1A 2019-12-25 2019-12-25 一种基于lda的文本无关声纹识别方法 Active CN111081261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911356454.1A CN111081261B (zh) 2019-12-25 2019-12-25 一种基于lda的文本无关声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911356454.1A CN111081261B (zh) 2019-12-25 2019-12-25 一种基于lda的文本无关声纹识别方法

Publications (2)

Publication Number Publication Date
CN111081261A true CN111081261A (zh) 2020-04-28
CN111081261B CN111081261B (zh) 2023-04-21

Family

ID=70317596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911356454.1A Active CN111081261B (zh) 2019-12-25 2019-12-25 一种基于lda的文本无关声纹识别方法

Country Status (1)

Country Link
CN (1) CN111081261B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364009A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种用于检索目标对象相似数据的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置
CN109545229A (zh) * 2019-01-11 2019-03-29 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置
CN109545229A (zh) * 2019-01-11 2019-03-29 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364009A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种用于检索目标对象相似数据的方法

Also Published As

Publication number Publication date
CN111081261B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN108198574B (zh) 变声检测方法及装置
Dileep et al. GMM-based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines
CN106250400B (zh) 一种音频数据处理方法、装置以及系统
CN105261367B (zh) 一种说话人识别方法
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
TWI395201B (zh) 情緒語音辨識方法及系統
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计系统
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
Zhong et al. DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances.
CN109036466A (zh) 面向情感语音识别的情感维度pad预测方法
CN110211594A (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Sarkar et al. Time-contrastive learning based deep bottleneck features for text-dependent speaker verification
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
CN111081261B (zh) 一种基于lda的文本无关声纹识别方法
Srinivasan et al. A partial least squares framework for speaker recognition
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Nemati et al. RETRACTED CHAPTER: A Novel Text-Independent Speaker Verification System Using Ant Colony Optimization Algorithm
TWI778234B (zh) 語者驗證系統
Lin An improved GMM-based clustering algorithm for efficient speaker identification
Harrag et al. GA-based feature subset selection: Application to Arabic speaker recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant