CN103077720A - 一种说话人识别方法及系统 - Google Patents
一种说话人识别方法及系统 Download PDFInfo
- Publication number
- CN103077720A CN103077720A CN2012105551529A CN201210555152A CN103077720A CN 103077720 A CN103077720 A CN 103077720A CN 2012105551529 A CN2012105551529 A CN 2012105551529A CN 201210555152 A CN201210555152 A CN 201210555152A CN 103077720 A CN103077720 A CN 103077720A
- Authority
- CN
- China
- Prior art keywords
- vector
- matrix
- neighborhood
- pca
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000000513 principal component analysis Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000012706 support-vector machine Methods 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 7
- 238000000556 factor analysis Methods 0.000 abstract description 5
- 239000000203 mixture Substances 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000007812 deficiency Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Rehabilitation Tools (AREA)
Abstract
本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。
Description
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种说话人识别方法及系统。
背景技术
说话人识别技术,简单来说,就是根据语音来自动对说话人进行区分,从而进行说话人身份鉴别与认证的技术。说话人识别在国家安全方面一直有着重要的意义。另外,随着通信以及互联网技术的发展,说话人识别技术在多媒体信息处理及检索方面也开始得到应用。
当前在实验室环境中,由于语音的传输信道比较单一、信噪比较高,在这种情况下,说话人识别系统可以取得良好的识别性能。但是在实际应用中,语音环境的复杂多变,例如环境噪声以及信道调制的干扰等,使系统的识别性能急剧下降,这对说话人识别系统的鲁棒性提出了很大的挑战。因此,如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响,从而提高说话人识别系统的鲁棒性,成为了该领域研究的热点及重点之一。
近年来,复杂信道下基于高斯混合模型GMM-通用背景模型UBM的总变化因子分析方法得到了广泛的应用。总变化因子分析技术在建模过程中用一个单独的总变化空间来代替说话人空间和信道空间,即不区分GMM超向量空间中说话人的影响以及信道的影响。但是,总变化因子分析技术存在一定的不足,一方面在总变化空间的训练过程中没有考虑训练数据中说话人的标注信息;另一方面总变化因子技术实质是主成分分析的一种,只能够反映数据的整体结构。
发明内容
针对上述问题,本发明实施例提出一种说话人识别方法及系统。
在第一方面,本发明实施例提出一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵(Neighborhood-Preserving Embedding,NPE);基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。
在第二方面,本发明实施例提出一种说话人识别系统,所述系统包括:空间矩阵生成模块,用于通过训练得到邻域保持嵌入空间矩阵;识别模块,用于基于所述邻域保持嵌入空间矩阵进行说话人识别;其中,所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。
本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,可以进一步提高说话人识别性能。
附图说明
以下,结合附图来详细说明本发明实施例,其中:
图1是基于邻域保持嵌入因子分析的说话人识别算法框图;
图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图;
图3是本发明实施例的说话人识别方法示意图;
图4是本发明实施例的说话人识别系统示意图。
具体实施方式
图1是基于邻域保持嵌入因子分析的说话人识别算法框图,它描述了基于邻域保持嵌入因子分析说话人识别算法的核心组成成分,主要由几个部分构成:GMM均值超向量、主成分分析(PCA)、邻域保持嵌入(NPE)因子分析、支持向量机(SVM)建模和打分。图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图。
下面结合图1以及图2对本发明实施例的具体实施方式做进一步详细描述:
邻域保持嵌入空间矩阵的训练过程包括如下步骤:
1)对主成分分析和空间矩阵的训练语音数据进行特征提取,并通过最大后验概率(Maximum a posteriori,MAP)说话人自适应得到对应的GMM超向量
其中,λi表示高斯混合模型中高斯分量的权重,而xi,∑i则表示高斯分量的均值和方差。
2)主成分分析训练数据的GMM超向量对应的散布矩阵S如下
其中,n为训练样本数,m为训练数据的均值向量。通过计算S最大的L个特征值对应的特征向量,得到主成分分析矩阵APCA。
3)给定n句带有说话人标注信息的空间矩阵训练数据,第i句对应的GMM超向量为xi,对其进行如下主成分分析(PCA)降维得到向量wi,则训练数据集W={w1,w2,…wn}
x→w=APCAx
4)构建邻接图G:图的第i个顶点对应wi,如果wi和wj属于同一个说话人,则第i个顶点和第j个顶点之间有边;
5)计算邻接图G第i个顶点和第j个顶点之间边上的权重Eij,如果第i个顶点和第j个顶点之间没有边,则Eij为0,得到权值矩阵E
6)通过求解下面广义特征值问题
WNWTa=λWWTa
其中
W=(w1,w2,...wm)
N=(I-E)T(I-E)
I=diag(1,...,1)
得到邻域保持嵌入空间矩阵
ANPE=(a1,a2,...aK)T
其中a1,a2,...aK是上述问题的前K个最大特征值对应的特征向量。
基于邻域保持嵌入的说话人识别过程步骤如下:
1)对说话人训练数据、测试语音数据和背景数据进行特征提取,并通过最大后验概率说话人自适应得到对应的GMM超向量
2)通过前面的主成分分析矩阵APCA对GMM超向量进行主成分分析(PCA)降维
x→w=APCAx
3)对PCA降维后的向量w进行邻域保持嵌入映射得到向量w’
w→w'=ANPEw
4)w’作为支持向量机(SVM)的输入特征进行后端分类建模。用目标说话人对应的向量作为正样本,背景数据对应的向量作为负样本,训练目标人与背景说话人的最优分类超平面,即目标说话人的SVM模型。
5)SVM打分判决,根据输出得分进行说话人识别的判决。将测试语音对应的向量与目标说话人SVM模型通过内积的方式进行得分计算,根据系统门限来决定是否接受该测试语音为目标说话人,即做出“True”或者“False”的判决。
图3是本发明实施例的说话人识别方法示意图。如图3所示,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别。所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。
优选地,所述通过训练得到邻域保持嵌入空间矩阵具体为:选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;计算邻接图边的权重,得到权值矩阵E;根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵。
优选地,所述计算邻接图边的权重,包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1,将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。
优选地,所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa,其中,N=(I-E)T(I-E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNWTa=λWWTa,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a1,a2,...aK得到邻域保持嵌入空间矩阵ANPE=(a1,a2,...aK)T。
优选地,所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w,具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。
图4是本发明实施例的说话人识别系统示意图。如图4所示,所述系统包括:空间矩阵生成模块,用于通过训练得到邻域保持嵌入空间矩阵;识别模块,用于基于所述邻域保持嵌入空间矩阵进行说话人识别。其中,所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。
优选地,所述通过训练得到邻域保持嵌入空间矩阵具体为:选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;计算邻接图边的权重,得到权值矩阵E;根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵。
优选地,所述计算邻接图边的权重,包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1,将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。
优选地,所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa,其中,N=(I-E)T(I-E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNWTa=λWWTa,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a1,a2,...aK得到邻域保持嵌入空间矩阵ANPE=(a1,a2,...aK)T。
优选地,所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w,具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。
本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。具体地,本发明实施例具有如下技术效果:与现有说话人识别中的总变化因子分析技术相比,本发明采用了一种新型的基于邻域保持嵌入(NPE)的因子分析技术。一方面,该发明作为一种流行学习方法,可以通过构建邻接图获取数据局部邻域结构信息;另一方面,该发明进行有监督训练,能够有效地利用训练数据中的说话人标注信息。因此,该发明能够有效地克服现有总变化因子分析技术存在的不足,可以进一步提高说话人识别性能。
本领域技术人员应该进一步意识到,结合本文中所公开的实施例描述的各示例模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
需要指出的是,以上仅为本发明较佳实施例,并非用来限定本发明的实施范围,具有专业知识基础的技术人员可以由以上实施实例实现本发明,因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进,都被本发明的专利范围所覆盖。即,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种说话人识别方法,其特征在于,所述方法包括:
通过训练得到邻域保持嵌入空间矩阵;
基于所述邻域保持嵌入空间矩阵进行说话人识别;
所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:
对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;
使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;
将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;
借助支持向量机SVM打分,根据打分结果识别说话人。
2.如权利要求1所述的说话人识别方法,其特征在于,所述通过训练得到邻域保持嵌入空间矩阵具体为:
选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;
根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;
计算邻接图边的权重,得到权值矩阵E;
根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵。
3.如权利要求2所述的说话人识别方法,其特征在于,所述计算邻接图边的权重,包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1,将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。
4.如权利要求2所述的说话人识别方法,其特征在于,所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:
根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa,
其中,N=(I-E)T(I-E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNWTa=λWWTa,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a1,a2,...aK得到邻域保持嵌入空间矩阵ANPE=(a1,a2,...aK)T。
5.如权利要求1所述的说话人识别方法,其特征在于,所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w,具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。
6.一种说话人识别系统,其特征在于,所述系统包括:
空间矩阵生成模块,用于通过训练得到邻域保持嵌入空间矩阵;
识别模块,用于基于所述邻域保持嵌入空间矩阵进行说话人识别;
其中,所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:
对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;
使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;
将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;
借助支持向量机SVM打分,根据打分结果识别说话人。
7.如权利要求6所述的说话人识别系统,其特征在于,所述通过训练得到邻域保持嵌入空间矩阵具体为:
选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;
根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;
计算邻接图边的权重,得到权值矩阵E;
根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵。
8.如权利要求7所述的说话人识别系统,其特征在于,所述计算邻接图边的权重,包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1,将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。
9.如权利要求7所述的说话人识别系统,其特征在于,所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:
根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa,
其中,N=(I-E)T(I-E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNWTa=λWWTa,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a1,a2,...aK得到邻域保持嵌入空间矩阵ANPE=(a1,a2,...aK)T。
10.如权利要求6所述的说话人识别系统,其特征在于,所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w,具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210555152.9A CN103077720B (zh) | 2012-12-19 | 2012-12-19 | 一种说话人识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210555152.9A CN103077720B (zh) | 2012-12-19 | 2012-12-19 | 一种说话人识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103077720A true CN103077720A (zh) | 2013-05-01 |
CN103077720B CN103077720B (zh) | 2015-02-11 |
Family
ID=48154228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210555152.9A Expired - Fee Related CN103077720B (zh) | 2012-12-19 | 2012-12-19 | 一种说话人识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103077720B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN105118510A (zh) * | 2015-07-23 | 2015-12-02 | 中山火炬职业技术学院 | 语音多级身份验证方法 |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN105810199A (zh) * | 2014-12-30 | 2016-07-27 | 中国科学院深圳先进技术研究院 | 一种说话人的身份确认方法和装置 |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
CN106448681A (zh) * | 2016-09-12 | 2017-02-22 | 南京邮电大学 | 一种超矢量的说话人辨认方法 |
CN108109612A (zh) * | 2017-12-07 | 2018-06-01 | 苏州大学 | 一种基于自适应降维的语音识别分类方法 |
US10909991B2 (en) | 2018-04-24 | 2021-02-02 | ID R&D, Inc. | System for text-dependent speaker recognition and method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
-
2012
- 2012-12-19 CN CN201210555152.9A patent/CN103077720B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
Non-Patent Citations (1)
Title |
---|
XIAOFEI HE等: "Neighborhood preserving embedding", 《TENTH IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION,2005》, 21 October 2005 (2005-10-21), pages 1 - 6 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261367B (zh) * | 2014-07-14 | 2019-03-15 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104538035B (zh) * | 2014-12-19 | 2018-05-01 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN105810199A (zh) * | 2014-12-30 | 2016-07-27 | 中国科学院深圳先进技术研究院 | 一种说话人的身份确认方法和装置 |
CN105118510A (zh) * | 2015-07-23 | 2015-12-02 | 中山火炬职业技术学院 | 语音多级身份验证方法 |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN105139856B (zh) * | 2015-09-02 | 2019-07-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
CN106448681A (zh) * | 2016-09-12 | 2017-02-22 | 南京邮电大学 | 一种超矢量的说话人辨认方法 |
CN108109612A (zh) * | 2017-12-07 | 2018-06-01 | 苏州大学 | 一种基于自适应降维的语音识别分类方法 |
US10909991B2 (en) | 2018-04-24 | 2021-02-02 | ID R&D, Inc. | System for text-dependent speaker recognition and method thereof |
Also Published As
Publication number | Publication date |
---|---|
CN103077720B (zh) | 2015-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103077720B (zh) | 一种说话人识别方法及系统 | |
WO2020073714A1 (zh) | 训练样本获取方法,账户预测方法及对应装置 | |
CN109033305A (zh) | 问题回答方法、设备及计算机可读存储介质 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
CN105656887A (zh) | 基于人工智能的声纹认证方法以及装置 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN103229233B (zh) | 用于识别说话人的建模设备和方法、以及说话人识别系统 | |
CN112102813B (zh) | 基于用户评论中上下文的语音识别测试数据生成方法 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN103474072B (zh) | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN113657896A (zh) | 一种基于图神经网络的区块链交易拓扑图分析方法和装置 | |
CN110085217A (zh) | 语音导航方法、装置及终端设备 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
Wang et al. | Query-efficient adversarial attack with low perturbation against end-to-end speech recognition systems | |
CN106372237A (zh) | 欺诈邮件识别方法及装置 | |
CN101876985A (zh) | 基于混合模型的web文本情感主题识别方法 | |
CN104575495A (zh) | 一种采用总变化量因子的语种识别方法及系统 | |
CN103219008A (zh) | 基于基状态矢量加权的短语音说话人识别方法 | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
CN104199811A (zh) | 短句解析模型建立方法及系统 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |