CN1302456C - 一种声纹识别方法 - Google Patents

一种声纹识别方法 Download PDF

Info

Publication number
CN1302456C
CN1302456C CNB2005100599131A CN200510059913A CN1302456C CN 1302456 C CN1302456 C CN 1302456C CN B2005100599131 A CNB2005100599131 A CN B2005100599131A CN 200510059913 A CN200510059913 A CN 200510059913A CN 1302456 C CN1302456 C CN 1302456C
Authority
CN
China
Prior art keywords
vector sequence
mentioned
model
sequence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100599131A
Other languages
English (en)
Other versions
CN1652206A (zh
Inventor
郑方
熊振宇
宋战江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing D Ear Technologies Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2005100599131A priority Critical patent/CN1302456C/zh
Publication of CN1652206A publication Critical patent/CN1652206A/zh
Application granted granted Critical
Publication of CN1302456C publication Critical patent/CN1302456C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出的声纹识别方法,属于基于生物特征的身份识别技术领域。该方法首先从多个说话人的声音波形中提取声学特征,形成多个说话人的特征矢量序列;根据特征矢量序列构建一个通用背景模型,根据通用背景模型,构建高斯混合树,并训练每个说话人的概率模型;从待识别的语音中提取声学特征,形成待识别语音的特征矢量序列,并重新排序,得到重排序特征矢量序列,为重排序特征矢量序列中的每个矢量,从高斯混合树中挑选核心的高斯混合,并计算待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数;计算待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和,并进行剪枝,取分数最大的为识别结果。

Description

一种声纹识别方法
技术领域
本发明涉及一种声纹识别方法,属于基于生物特征的身份识别技术领域。
背景技术
在已有技术中,基于通用背景模型(Universal Background Model,以下简称UBM)的文本无关的声纹识别(Voiceprint Recognition)方法包括通用背景模型UBM的训练方法,说话人模型的训练方法和声纹的识别方法三个部分。
通用背景模型UBM的训练方法为:
(1)从多个说话人的声音波形中提取声学特征,形成多个说话人的特征矢量序列;
(2)根据多个说话人的特征矢量序列构建一个通用背景模型。其方法是对所有的说话人的特征矢量序列采用某种已有的聚类算法(如传统的LBG算法)进行聚类,得到K个高斯分布的混合,其中第k个高斯分布均值矢量为μk、对角方差矩阵为∑k;记聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为wk,则通用背景模型为
UBM = { μ k ubm , Σ k ubm , w k ubm | 1 ≤ k ≤ K } .
其中说话人模型的训练方法为:
(1)从每个说话人的声音波形中提取声学特征,形成该说话人的特征矢量序列;
(2)将通用背景模型分别根据每个说话人的特征矢量序列进行自适应,得到每个人的声纹模型,把各个人的声纹模型放在一起组成一个模型库。其自适应方法可采用任何已有的自适应方法(如传统的MAP自适应方法),说话人声纹模型M={μk,∑k,wk|1≤k≤K}中的高斯混合与通用背景模型 UBM = { μ k ubm , Σ k ubm , w k ubm | 1 ≤ k ≤ K } 中的高斯混合具有一一对应的关系。
其中声纹的识别方法为:
(1)从待识别的人的声音中提取声学特征形成待识别的特征矢量序列;
(2)将该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较,得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分,或似然得分,或得分),并进行判决;计算特征矢量序列与说话人模型匹配分数的方法是:对待识别的特征矢量序列X={X1,…,XT}中的每一帧Xt,1≤t≤T,首先与通用背景模型匹配,找到通用背景模型 UBM = { μ k ubm , Σ k ubm , w k ubm | 1 ≤ k ≤ K } 中与Xt最匹配的N个高斯混合k1,…,kN,然后用说话人声纹模型M={μk,∑k,wk|1≤k≤K}中对应的高斯混合计算该说话人模型的匹配分数 S = ( X 1 | M ) = ln Σ n = 1 N w k n · p ( X 1 | μ k n , Σ k n ) ; 整个序列的分数则为: S ( X ‾ | M ) = Σ t = 1 T S ( X t | M ) ;
(3)根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认),在需要的时候进行拒识判决,从而得出结果。
缺点:基于通用背景模型的声纹识别方法的主要问题在于识别的计算量太大,其计算包括:(1)对每一帧语音特征矢量Xt,1≤t≤T,要从通用背景模型中选出最匹配的N个混合;而通用背景模型的混合数通常很大,一般为1,024或者2,048,导致计算量很大;(2)对所有说话人模型计算匹配分数;虽然每个说话人模型只需要计算N个高斯混合的分数(通常N=4),但是很大的说话人模型数同样会导致很大的计算量。
发明内容
本发明的目的是提出一种声纹识别方法,以克服现有基于通用背景模型的声纹识别方法运算量太大的缺点,提高声纹识别的运算速度。
本发明提出的声纹识别方法,包括以下步骤:
(1)从多个说话人的声音波形中提取声学特征,形成多个说话人的特征矢量序列;
(2)根据上述特征矢量序列构建一个通用背景模型;
(3)根据上述通用背景模型,构建高斯混合树;
(4)根据上述通用背景模型,训练每个说话人的概率模型;
(5)从待识别的语音中提取声学特征,形成待识别语音的特征矢量序列,将该特征矢量重新排序,得到重排序特征矢量序列;
(6)为上述重排序特征矢量序列中的每个矢量,从上述构建的高斯混合树中挑选核心的高斯混合;
(7)根据上述核心高斯混合,计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数;
(8)计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和,并进行剪枝,取分数最大的为识别结果。
上述方法中,步骤(5)将特征矢量重新排序,得到重排序特征矢量序列的方法包括以下步骤:
(1)在特征矢量序列X={X1,...XT}中,以间隔n从中挑选出矢量,形成矢量序O={X1,X1+n,X1+2n,…},建立序列Y,使Y=O;
(2)在序列Y中从左往右依次取相邻矢量的序号的算术平均值,若离该平均值最近的序号对应的矢量不在上述Y中,则从X中取出该矢量加入到一个新的矢量序列Q中;
(3)将上述得到的矢量序列Q添加到矢量序列Y的后面;
(4)重复步骤(2)和(3),直到矢量序列X={X1,...XT}中所有矢量全部重排到矢量序列Y中。
上述方法中,为每个特征矢量,从构建的高斯混合树中挑选核心高斯混合的方法,包括如下步骤:
(1)设高斯混合树的根节点的所有子节点为候选节点集合;
(2)对所述的每个特征矢量,计算候选节点集合中每个高斯分布的似然分数;
(3)若候选节点为叶节点,则选择似然分数最高的N个高斯分布作为核心高斯混合;若候选节点不是叶节点,则选出似然分数最高的K个节点,将K个节点的所有子节点作为候选节点集合,重复上述步骤(2)和(3)。
上述方法中,步骤(8)对概率似然分数的总和进行剪枝,取分数最大的为识别结果的方法,包括以下步骤:
(1)设所有说话人的概率模型集合为候选集合;
(2)依次对所述的重排序矢量序列中的每个矢量,计算候选集合中所有概率模型的似然分数,并设置阈值Θτ=S(τ)-B,其中,S(τ)为计算重排序矢量序列中第τ帧后,候选集合中模型的最高似然分数,B为根据识别要求设定的常数;
(3)将所有似然分数小于上述阈值的说话人模型从候选集合中删除;
(4)重复步骤(2)和(3),直到候选集合中只剩下一个模型,或所有矢量均被计算完。
本发明提出的声纹识别方法,提出了基于树的核心挑选(Tree-based Kemel Selection,TBKS)方法和基于观测矢量重排序的剪枝(Observation Reordering based Pruning,ORBP)方法用于基于通用背景模型的声纹识别系统,在基本不降低识别率的前提下,大幅度减少声纹识别所需的计算量,提高声纹识别的速度。本发明的声纹识别方法和一般的基于通用背景模型的声纹识别方法在一个有1031个说话人,1816条测试语句的的语音数据库上进行了测试。一般的基于通用背景模型的声纹识别方法识别正确率为95.32%,本发明的声纹识别方法识别正确率95.26%,运行速度提高了16倍。
附图说明
图1是本发明方法中涉及的高斯混合树的结构示意图。
具体实施方式
本发明提出的声纹识别方法,首先从从多个说话人的声音波形中提取声学特征,形成多个说话人的特征矢量序列;根据上述特征矢量序列构建一个通用背景模型;根据上述通用背景模型,构建高斯混合树;根据上述通用背景模型,训练每个说话人的概率模型;从待识别的语音中提取声学特征,形成待识别语音的特征矢量序列,将该特征矢量重新排序,得到重排序特征矢量序列;为上述重排序特征矢量序列中的每个矢量,从上述构建的高斯混合树中挑选核心的高斯混合;根据上述核心高斯混合,计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数;计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和,并进行剪枝,取分数最大的为识别结果。
以下介绍本发明的一个实施例。
本发明的声纹识别方法实施例,包括通用背景模型的训练,通用背景模型高斯混合树的构建,说话人模型的训练和声纹识别,说明如下:
本实施例的通用背景模型训练具体步骤包括:
(1)取60个男说话人和60个女说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
(2)以32毫秒帧宽和帧宽的一半为帧移,对每一帧提取16维的线性预测倒谱参数(LPCC),并计算其自回归分析参数,组成32维的特征矢量;所有帧的特征矢量组成特征矢量序列;
(3)构建该说话人的声纹模型:对说话人的特征矢量序列采用传统的LBG算法进行聚类,得到1,024个高斯分布的混合,其中第k个高斯分布均值矢量为μk、对角方差矩阵为∑k;记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为wk,则通用背景模型为:UBM={μk,∑k,wk|1≤k≤K}。
本实施例的通用背景模型高斯混合树的构建具体步骤包括:
(1)指定树形结构为5层,第一层根节点有16个子节点,第二层每个节点有4个子节点,第三层每个节点有4个字节点,第四层节点数由高斯混合树的构建方法确定;
(2)采用前述高斯混合树的构建方法构建高斯混合树;
本实施例的说话人模型训练具体步骤包括:
(1)取1个说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
(2)以32毫秒帧宽和帧宽的一半为帧移,对每一帧提取16维的线性预测倒谱参数(LPCC),并计算其自回归分析参数,组成32维的特征矢量;所有帧的特征矢量组成特征矢量序列;
(3)用说话人的特征矢量序列对通用背景模型采用传统的MAP方法进行自适应,得到说话人模型;
(4)如果还有说话人没有训练,则转步骤1)进行下一个说话人的训练;否则训练过程结束。
本实施例的声纹识别包括以下步骤:
(1)采集待鉴别说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
(2)以与声纹模型训练时相同的帧宽和帧移,对每一帧提取16维的线性预测倒谱参数(LPCC),并计算其自回归分析参数矢量,组成待识别的32维特征矢量;所有帧的待识别的特征矢量组成待识别的特征矢量序列X={X1,…,XT};
(3)采用基于观测矢量重排序的剪枝方法,对X={X1,…,XT}进行重新排序,得到新的序列Y={Y1,…,YT};
(4)设定声纹模型库中所有说话人的声纹模型为候选者集合;
(5)对于每一帧语音特征Yτ,1≤τ≤T,采用前述最匹配混合的搜索方法,找到通用背景模型中与这一帧语音特征最匹配的4个高斯混合,其标号为k1,k2,k3,k4,;
(6)从候选者集合中取一个说话人的声纹模型M={μk,∑k,wk|1≤k≤K},计算其匹配得分 S ( Y τ | M ) = Σ t = 1 4 ( w k t · p ( Y τ | μ k t , Σ k t ) ) ; 并计算该模型的累积得分 S ( M ) = Σ t = 1 τ ln S ( Y τ | M ) ;
(7)找到候选者集合累积得分最高的说话人模型,其累积得分为Smax(τ),设定剪枝阈值Θτ=Smax(τ)-B,将候选者集合中所有匹配分数低于阈值Θτ的声纹模型删除;
(8)重复以上步骤,直到候选者集合集合中只剩下一个说话人模型或者全部语音特征矢量序列都已经处理过;
(9)取出候选者集合中累积得分最大的分数Smax(T)和对应的说话人模型Mmax作为识别结果;输出结果,声纹识别过程结束。

Claims (3)

1、一种声纹识别方法,其特征在于该方法包括以下步骤:
(1)从多个说话人的声音波形中提取声学特征,形成多个说话人的特征矢量序列;
(2)根据上述特征矢量序列构建一个通用背景模型;
(3)根据上述通用背景模型,构建高斯混合树;
(4)根据上述通用背景模型,训练每个说话人的概率模型;
(5)从待识别的语音中提取声学特征,形成待识别语音的特征矢量序列,将该特征矢量重新排序,得到重排序特征矢量序列,其方法包括以下步骤;
(a)在特征矢量序列X={X1,...,XT}中,以间隔n从中挑选出矢量,形成矢量序列O={X1,X1+n,X1+2n,...},建立序列Y,使Y=O;
(b)在序列Y中从左往右依次取相邻矢量的序号的算术平均值,若离该平均值最近的序号对应的矢量不在上述Y中,则从X中取出该矢量加入到一个新的矢量序列Q中;
(c)将上述得到的矢量序列Q添加到矢量序列Y的后面;
(d)重复步骤(b)和(c),直到矢量序列X={X1,...,XT}中所有矢量全部重排到矢量序列Y中;
(6)为上述重排序特征矢量序列中的每个矢量,从上述构建的高斯混合树中挑选核心的高斯混合;
(7)根据上述核心高斯混合,计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数;
(8)计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和,并进行剪枝,取分数最大的为识别结果。
2、如权利要求1所述的方法,其特征在于其中为每个特征矢量,从构建的高斯混合树中挑选核心高斯混合的方法,包括如下步骤:
(1)设高斯混合树的根节点的所有子节点为候选节点集合;
(2)对所述的每个特征矢量,计算候选节点集合中每个高斯分布的似然分数;
(3)若候选节点为叶节点,则选择似然分数最高的N个高斯分布作为核心高斯混合;若候选节点不是叶节点,则选出似然分数最高的K个节点,将K个节点的所有子节点作为候选节点集合,重复上述步骤(2)和(3)。
3、如权利要求1所述的方法,其特征在于其中步骤(8)对概率似然分数的总和进行剪枝,取分数最大的为识别结果的方法,包括以下步骤:
(1)设所有说话人的概率模型集合为候选集合;
(2)依次对所述的重排序矢量序列中的每个矢量,计算候选集合中所有概率模型的似然分数,并设置阈值Θτ=S(τ)-B,其中,S(τ)为计算重排序矢量序列中第τ帧后,候选集合中模型的最高似然分数,B为根据识别要求设定的常数;
(3)将所有似然分数小于上述阈值的说话人模型从候选集合中删除;
(4)重复步骤(2)和(3),直到候选集合中只剩下一个模型,或所有矢量均被计算完。
CNB2005100599131A 2005-04-01 2005-04-01 一种声纹识别方法 Expired - Fee Related CN1302456C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100599131A CN1302456C (zh) 2005-04-01 2005-04-01 一种声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100599131A CN1302456C (zh) 2005-04-01 2005-04-01 一种声纹识别方法

Publications (2)

Publication Number Publication Date
CN1652206A CN1652206A (zh) 2005-08-10
CN1302456C true CN1302456C (zh) 2007-02-28

Family

ID=34876833

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100599131A Expired - Fee Related CN1302456C (zh) 2005-04-01 2005-04-01 一种声纹识别方法

Country Status (1)

Country Link
CN (1) CN1302456C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420438B (zh) * 2008-11-18 2011-06-22 北京航空航天大学 一种基于序列联配的三阶段渐进式网络攻击特征提取方法
CN102968990B (zh) * 2012-11-15 2015-04-15 朱东来 说话人识别方法和系统
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN105261367B (zh) * 2014-07-14 2019-03-15 中国科学院声学研究所 一种说话人识别方法
CN105702263B (zh) * 2016-01-06 2019-08-30 清华大学 语音重放检测方法和装置
CN107610708B (zh) * 2017-06-09 2018-06-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN108986791B (zh) * 2018-08-10 2021-01-05 南京航空航天大学 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN109545229B (zh) * 2019-01-11 2023-04-21 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
CN111081261B (zh) * 2019-12-25 2023-04-21 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111222005B (zh) * 2020-01-08 2023-01-13 科大讯飞股份有限公司 声纹数据重排序方法、装置、电子设备及存储介质
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN113140222B (zh) * 2021-05-10 2023-08-01 科大讯飞股份有限公司 一种声纹向量提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
CN1403953A (zh) * 2002-09-06 2003-03-19 浙江大学 掌上声纹验证系统
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
CN1521727A (zh) * 2003-01-27 2004-08-18 北京天朗语音科技有限公司 基于高斯相似度分析的说话人自适应方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
CN1403953A (zh) * 2002-09-06 2003-03-19 浙江大学 掌上声纹验证系统
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1521727A (zh) * 2003-01-27 2004-08-18 北京天朗语音科技有限公司 基于高斯相似度分析的说话人自适应方法

Also Published As

Publication number Publication date
CN1652206A (zh) 2005-08-10

Similar Documents

Publication Publication Date Title
CN1302456C (zh) 一种声纹识别方法
CN111243602B (zh) 基于性别、国籍和情感信息的声纹识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
CN109493874A (zh) 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN1188804C (zh) 一种声纹识别方法
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
CN106228980A (zh) 数据处理方法和装置
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN1750121A (zh) 一种基于语音识别及语音分析的发音评估方法
CN101046959A (zh) 基于唇语特征的身份认证方法
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN102194455A (zh) 一种与说话内容无关的声纹鉴别认证方法
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN1655234A (zh) 用于区别口声和其它声音的装置和方法
CN110600054A (zh) 基于网络模型融合的声场景分类方法
CN105654947A (zh) 一种获取交通广播语音中路况信息的方法及系统
CN1787077A (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN1157711C (zh) 自适应语音识别器的生成装置及方法
CN1556522A (zh) 电话信道说话人声纹识别系统
CN1174374C (zh) 并发进行语音识别、说话者分段和分类的方法
Lasseck Improving Bird Identification using Multiresolution Template Matching and Feature Selection during Training.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING D-EAR TECHNOLOGIES CO., LTD.

Free format text: FORMER OWNER: ZHENG FANG

Effective date: 20121231

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20121231

Address after: 100084 room 1005, B building, Tsinghua Science and Technology Park, Haidian District, Beijing

Patentee after: BEIJING D-EAR TECHNOLOGIES Co.,Ltd.

Address before: 100084 Haidian District Tsinghua Yuan, Beijing, Tsinghua University, West 14-4-202

Patentee before: Zheng Fang

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Mi Qingshan

Document name: payment instructions

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: BEIJING D-EAR TECHNOLOGIES Co.,Ltd. Person in charge of patents

Document name: Notice of Termination of Patent Rights

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070228