CN1447278A - 一种声纹识别方法 - Google Patents

一种声纹识别方法 Download PDF

Info

Publication number
CN1447278A
CN1447278A CN 02149384 CN02149384A CN1447278A CN 1447278 A CN1447278 A CN 1447278A CN 02149384 CN02149384 CN 02149384 CN 02149384 A CN02149384 A CN 02149384A CN 1447278 A CN1447278 A CN 1447278A
Authority
CN
China
Prior art keywords
sound
model
speaker
groove
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 02149384
Other languages
English (en)
Other versions
CN1188804C (zh
Inventor
郑方
宋战江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing D Ear Technologies Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB021493847A priority Critical patent/CN1188804C/zh
Publication of CN1447278A publication Critical patent/CN1447278A/zh
Application granted granted Critical
Publication of CN1188804C publication Critical patent/CN1188804C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机及信息服务技术领域,特别涉及通过人类的声纹信息对身份进行鉴别和确认的方法。包括模型的训练方法和声纹的识别方法两个部分,其特点为:每个说话人构建声纹模型为M={μk,∑k,wk|1≤k≤K};待识别的特征矢量序列X={X1,…,XT}与说话人声纹模型M={μk,∑k,wk|1≤k≤K}的匹配得分(对数似然得分)如式1:本发明可按不同的应用需求调整操作点阈值,使最终准确率达到最高或使错误率降到最低。本发明可用于保安、财经、国防、公安司法等领域通过人类的声纹信息对身份进行鉴别和确认。

Description

一种声纹识别方法
技术领域
本发明属于计算机及信息服务技术领域,特别涉及通过人类的声纹信息对身份进行鉴别和确认的方法。
背景技术
声纹识别(Voiceprint Recognition),即说话人识别(Speaker Recognition),就是要根据人的声音中所蕴涵的说话人的生物特征,识别出说某段语音的人是谁,即所谓“闻声知人”。声纹识别可以在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。例如:(1)声纹鉴别:刑侦破案、罪犯跟踪、国防监听、个性化应用等;(2)声纹确认:证券交易、银行交易、公安取证、个人电脑和汽车声控锁、身份证、信用卡等等。
众所周知,每个人的指纹都是唯一的,与此类似,每个人的声纹也具有一定的唯一性,很难找到两个声纹完全一样的人,这就从理论上为可靠的声纹识别提供了依据。一般声纹识别方法包括模型的训练过程(或称学习过程)1和声纹的识别过程2两个部分,如图1所示。模型训练过程是从声音波形中提取出声学特征矢量(或称声学特征、特征矢量、特征)--这就是特征提取,并把每个人的声学特征建立成为一个声学模型,称为声纹模型,从而形成一个模型库的过程;而声纹的识别过程就是将待识别人声音提取的声学特征与模型库中的声纹模型进行匹配比较,从而得出判决结果的过程。
声纹识别方法包括文本相关的和文本无关的两种类型。前者要求在识别过程中说话人必须说预先约定的句子、词组、词或字等特定内容;而后者对说话人所说的内容没有任何限制,无论训练还是识别,说话人都可以随意说任何语言的任何内容。显然,后者难度大,但使用方便,应用范围广。
一个声纹识别系统的性能取决于很多因素,但特征提取的好坏和声学模型的描述能力的强弱是两个非常重要的方面。
目前声纹识别方法中常用的提取声学特征的方法包括:(1)线性预测倒谱(LPCC)参数;(2)美化倒谱参数(MFCC);等等。
而声学模型有以下几种常用的建模方法:
(1)模板匹配方法:采用动态时间弯折(DTW)算法以对准训练和识别(测试)特征序列,主要针对词组固定的应用(通常为文本相关任务)。
(2)最近邻方法:在训练时需要保留所有的声学特征矢量;在识别/测试时,对每个矢量都找到训练矢量中最近的K个,并据此进行识别判决。使用这种方法,模型的存储量和相似度的计算量都很大。
(3)神经网络方法:有很多种形式,包括多层感知、径向基函数(RBF)等。它通过显式的训练去扩大说话人模型和其他模型之间的差异,以试图达到最大可分性。其缺点是训练量很大,训练收敛速度慢,且模型的可推广性不好。
(4)隐式马尔可夫模型(Hidden Markov Model,HMM)方法:它假定人的声音是由两个过程控制,一个是状态转移过程,一个是声学特征矢量输出过程。该方法是刻划人的发音机理较好的数学模型。通常,声学特征矢量输出过程用混合高斯分布去刻划。
(5)高斯混合模型(Gaussian Mixture Model,GMM)方法:高斯混合模型实际上是单状态的隐式马尔可夫模型。假定声学特征矢量序列为 X={X1,…,XT},那么识别时需计算的观察特征序列相对于说话人模型M的对数似然分(简称似然分、匹配得分、得分)用下式计算: S ( X ‾ | M ) = log P ( X ‾ | M ) = 1 T Σ t = 1 T log P ( X t | M ) . . . . . . . ( 1 )
以上诸多常用方法中,以隐式马尔可夫模型方法和高斯混合模型方法的效果为最好。但它们的总体性能并不令人满意,并且在文本无关的声纹识别中也不能达到最佳效果。另外,这些方法也通常需要较长的语音才能对说话人给出准确的鉴别或确认。
声纹的识别方法包括两种类型,即声纹鉴别或辨认(Voiceprint Identification)和声纹确认(Voiceprint Verification)。其中,声纹确认用以确认某段语音是否真正就是宣称的某个特定的人所说的,属于1-1判决问题;该类型如图2(a)所示,其步骤包括:用经过前端处理的待确认语音的特征矢量序列与宣称说话人模型匹配得分减去该特征矢量序列与宣称说话人相应的背景模型的匹配得分,得到结果Λ,然后将Λ与一个预先设定的阈值θ进行判决,如果Λ>θ,则接受该确认结果,即认为该待确认语音是宣称说话人说的;如果Λ<θ,则拒识该确认结果,即认为该待确认语音不是宣称说话人说的。这里所说的拒识就是把错误的结果拒绝掉,因此声纹确认也就是声纹拒识判决。
声纹鉴别用以判断某段语音是若干人中的哪一位所说的,属于N-1选择问题;其中声纹鉴别又分为闭集和开集两种情形。闭集声纹鉴别,如图2(b)所示,是把经过前端处理的待鉴别语音的特征矢量序列与模型库中的所有说话人模型逐一进行匹配比较,求出最大(MAX)的匹配得分S及相应的说话人编号,即认为该段待鉴别语音就是匹配得分最大的那个说话人所说,闭集声纹鉴别不检查说该段语音的说话人是否真的就是声纹模型库中的这个人。而开集声纹鉴别则在完成闭集声纹鉴别得到声纹模型库中的一个说话人后,需要进一步利用声纹确认方法判决应该接受还是拒识该鉴别结果。
在实际应用中,相对于闭集声纹鉴别,声纹确认和开集声纹鉴别有更大的需求,而在这两个方面的应用中,拒识问题是关键。为了进行拒识,通常需要背景(Background)模型或称假冒者(Impostor)模型。背景模型的构建有两种方式,一是任何一个说话人M都有一个或一组相应的背景模型Bkg(M);二是使用一个与说话人无关的通用背景模型UBM(Universal Background Model),即对任意说话人M,其背景模型都是Bkg(M)=UMB。在此基础上,当有一个特征序列 X={X1,…,XT}时,可以求出它相对于说话人M的似然分数Λ( X|M)为: Λ ( X ‾ | M ) = log S ( X ‾ | M ) - log S ( X ‾ | Bkg ( M ) ) = 1 T Σ t = 1 T [ log P ( X t | M ) - log P ( X t | Bkg ( M ) ) ] . . . . . . . ( 2 ) 其中P(X|M)按标准的混合高斯密度计算公式进行计算。然后,根据似然分数Λ( X|M)和一个预先设定的阈值θ之间的关系可以确定这段语音是说话人M的声音(Λ( X|M)>θ),或不是说话人M的声音(Λ( X|M)<θ)。很明显,阈值θ的设定对拒识非常关键,而由于它通常是预先设定的,因而有时不能适应实际应用的要求。
现有拒识方法的主要问题在于,拒识阈值是固定的,因而给阈值的设定和声纹识别系统在不同硬件和软件环境下的应用带来困难。
发明内容
本发明的目的是为克服现有技术的不足之处,提出一种新的声纹识别方法,本发明通过采用矢量量化聚类、最大局部模板匹配、自动阈值估计、多级准则判决等一系列方法,很好地消除了声纹识别性能对文本内容的相关性,很好地消除了声纹识别性能对语音长度的依赖性,并使拒识阈值可以通过训练自动获得。
本发明提出一种声纹识别方法,包括模型的训练方法和声纹的识别方法两个部分,该模型训练方法的步骤为:
1)从每个说话人的声音波形中提取声学特征,形成该说话人的特征矢量序列;
2)根据每个说话人的特征矢量序列分别为每个人构建一个声纹模型,把各个人的声纹模型放在一起组成一个模型库;
该声纹的识别方法为:
3)从待识别的人的声音中提取声学特征形成待识别的特征矢量序列;
4)该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较,得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分,或似然得分,或得分),进行判决;
5)根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认),在需要的时候进行拒识判决,从而得出结果;
其特征在于:所说的步骤2)中为每个说话人构建声纹模型的方法是:对所说的说话人的特征矢量序列采用传统的LBG算法进行聚类,得到K个高斯分布的混合,其中第k个高斯分布均值矢量为μk、对角方差矩阵为∑k;记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为wk,则该说话人的声纹模型为M={μk,∑k,wk|1≤k≤K};
所说的第4)步中的待识别的特征矢量序列 X={X1,…,XT}与说话人声纹模型M={μk,∑k,wk|1≤k≤K}的匹配得分(对数似然得分)S( X|M)是利用基于局部最大模板匹配的概率计算方法得到,即: S ( X ‾ | M ) = 1 T Σ t = 1 T max 1 ≤ k ≤ K ln ( w k · p ( X t | μ k , Σ k ) ) . . . . . . . . ( 3 )
本发明具有以下特征:
1)声纹识别的性能与所说的文本和所用的语言无关;
2)声纹鉴别可以工作在开集识别模式,即:可对假冒说话人进行拒识;
3)能够以无监督的方式对开集识别的拒识阈值进行可靠的自动估计;
4)对语音的长度没有特殊的要求,只需要很短的几秒语音,就可以进行可靠的训练和识别;
5)具有很高的识别精度:说话人辨认和确认的正确率不小于98%;声纹拒识的错误接受率和错误拒绝率均低于1%;
6)模型存储所需空间小:每个说话人的声纹模型存储空间均小于5KB;
7)声纹识别的操作点阈值调整方便:根据“准确率+不确定率+错误率=100%”,可按不同的应用需求调整操作点阈值,使最终准确率(接受的首选正确率)达到最高或使错误率(错误接受率或错误拒绝率)降到最低。
本发明可用于在电子商务、自动信息检索、个性化服务等,包括保安(包括门禁、加密信用卡等)、财经(包括银行自动转帐、查询及出纳等)、国防(包括电话监听追踪、敌我指战员身份鉴别等)、公安司法(包括刑侦追踪、取证、身份鉴别等)等领域。
附图说明
图1是已有的声纹识别方法的总体框图。
图2是已有声纹的识别方法的两个类型:声纹鉴别和声纹确认方法框图。
图3是本发明声纹识别方法的实施例总体框图。
图4是本发明方法的拒识训练方法实施例框图。
具体实施方式
本发明提出的一种的声纹识别方法结合附图及实施例,以及应用详细说明如下:
本发明的声纹识别方法实施例,如图3(a)-图3(c)所示,包括模型训练方法和声纹鉴别与声纹确认的两种类型的声纹的识别方法,分别结合附图说明如下:
本实施例的模型训练方法如图3(a)所示,其具体步骤包括:
1)取一个说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
2)以32毫秒帧宽和帧宽的一半为帧移,对每一帧提取16维的线性预测倒谱参数(LPCC),并计算其自回归分析参数,组成32维的特征矢量;所有帧的特征矢量组成特征矢量序列;
3)构建该说话人的声纹模型:
对说话人的特征矢量序列采用传统的LBG算法进行聚类,得到K个高斯分布的混合,其中第k个高斯分布均值矢量为μk、对角方差矩阵为∑k;记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为wk,则该说话人的声纹模型为:
M={μk,∑k,wk|1≤k≤K},并存入声纹模型库;
4)如果还有说话人没有训练,则转步骤1)进行下一个说话人的训练;否则训练过程结束。
本实施例的声纹鉴别方法如图3(b)所示,具体包括以下步骤:
1)采集待鉴别说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
2)以与声纹模型训练时相同的帧宽和帧移,对每一帧提取16维的线性预测倒谱参数(LPCC),并计算其自回归分析参数矢量,组成待识别的32维特征矢量;所有帧的待识别的特征矢量组成待识别的特征矢量序列 X={X1,…,XT};
3)从声纹模型库中取一个说话人的声纹模型M;
4)利用基于局部最大模板匹配的概率计算方法得到待识别的特征矢量序列X={X1,…,XT}与说话人声纹模型M={μk,∑k,wk|1≤k≤K}的匹配得分(对数似然得分)S( X|M),即: S ( X ‾ | M ) = 1 T Σ t = 1 T max 1 ≤ k ≤ K ln ( w k · p ( X t | μ k , Σ k ) ) . . . . . . ( 3 ) 并记录下来;
5)如果还有说话人的匹配得分没有计算,则转步骤3);
6)取出待识别的特征矢量与所有说话人的声纹模型中匹配得分最大的分数Smax及相应的说话人Mmax作为识别结果候选;
7)如果是闭集声纹鉴别,则Mmax就是鉴别结果;否则以Mmax作为宣称说话人、以通用背景模型作为背景模型,利用声纹确认技术对结果进行拒识判决;
8)输出结果,声纹鉴别过程结束。
本实施例的声纹确认方法如图3(c)所示,具体包括以下步骤:
1)采集待确认说话人的声音数据,对其原始语音波形数据进行分析,抛除其中的各个静音段;
2)以与声纹模型训练时相同的帧宽和帧移,对每一帧提取32的线性预测倒谱参数(LPCC),并计算其自回归分析参数矢量,组成32维的特征矢量;所有帧的特征矢量组成特征矢量序列;
3)取出宣称说话人的声纹模型及其背景模型;
4)进行拒识判决;
5)输出结果,声纹确认过程结束。
本发明的拒识判决方法实施例,如图4(a)-4(d)所示,可包括拒识的训练和拒识的判决两个部分,该拒识训练,包括以下步骤:
1)训练背景模型;
2)训练拒识阈值;
3)训练声纹模型,具体包括:
(1)取一个说话人的声音数据,计算其有效的特征矢量序列;
(2)训练该说话人的声纹模型;
(3)为该说话人选择Q个背景模型;
(4)将该说话人的声纹模型以及与Q个背景声纹模型相关的参数存入声纹模型库;
(5)重复步骤(1)到(4),直到所有说话人的声纹模型训练完成。
上述的训练背景模型的实施例,如图4(a)所示,必须在首次使用声纹识别前进行,具体包括:收集N个背景说话人的声音数据,并按声纹模型的训练方法分别训练出背景说话人的声纹模型,共N个,它们称为背景声纹模型,并存入背景声纹模型库。
上述的训练拒识阈值的实施例,如图4(b)所示,具体包括以下步骤:
(1)取第n个背景模型Mn={μnk,∑nk,wnk|1≤k≤K}及其相应的特征矢量序列 X ‾ n = { X n 1 , . . . , X nT n } , 按公式(3)计算它们之间的匹配得分 S TOP ( n ) = S ( X ‾ n | M n ) ;
(2)计算高斯分布临界区落入的待识别声音的特征矢量的百分比CAP: CAP ( X &OverBar; n | M n ) = 1 KT n &Sigma; t = 1 T n ( &Sigma; k = 1 K ( 1 2 ( X nt - &mu; nk ) T &Sigma; nk - 1 ( X nt - &mu; nk ) ) < TSH 2 1 ) . . . . ( 4 )
其中TSH是用以表示混合高斯密度临界区域大小的阈值(通常TSH可以取1.0,值越小则临界区域越小,控制也越严格;
(3)按公式(3)分别计算该特征矢量序列 Xn与除Mn之外的各个背景模型的匹配得分,按得分从大到小的顺序取前Q个背景模型,其得分为
Figure A0214938400104
(4)重复步骤(1)~(3),直到所有的n=1~N个背景模型的上述值均计算完毕;
(5)求出所有背景模型中最小的 值,乘上一个小于1.0的系数,作为似然得分的阈值;
(6)求出所有背景模型中最小的CAP值,乘上一个小于1.0的系数,作为CAP的阈值;
(7)求出所有背景模型中最小的 | S TOP ( n ) - S I nl | 值,乘上一个小于1.0的系数,作为似然得分差值的阈值;
(8)由公式(5)计算出得分总畸变值的阈值,其中β是大于1.0的系数: TSH DIV = max 1 &le; q &le; Q - 1 ( 1 N &Sigma; n = 1 N ( S I nq - S I n , q + 1 ) ) &CenterDot; &beta; . . . . . ( 5 )
上述阈值估算过程中所乘的系数不是固定的,均可以随“操作点”阈值的调整而浮动,以满足具体应用的要求。
上述的选择Q个背景模型的实施例,如图4(c)所示。该选择过程用于背景模型训练后对说话人进行声纹训练的过程中,具体包括以下步骤:
(1)当用该说话人的特征矢量序列 X={X1,…,XT}训练出其声纹模型M={μk,∑k,wk|1≤k≤K}后,利用公式(3)计算出 X与M的匹配得分STOP=S( X|M);
(2)用公式(3)计算出 X与N个背景模型的匹配得分,按从大到小的顺序选出匹配得分最大的前Q名背景模型的分数 及其索引I1,…,IO
(3)将STOP
Figure A0214938400114
及I1,…,IO存入该说话人声纹模型中。
上述的拒识的判决的实施例,如图4(d)所示。该判决过程用于声纹确认或开集声纹鉴别中,对待识别声音的特征矢量序列 X={X1,…,XT}和目标说话人M={μk,∑k,wk|1≤k≤K}进行一致性判决,其中目标说话人M可能是声纹鉴别的结果候选或声纹确认中的宣称说话人。具体包括以下步骤:
(1)按公式(3)计算特征矢量序列 X与目标说话人的声纹模型M的匹配似然得分为RTOP
(2)按公式(3)分别计算 X与M的Q个背景模型的匹配得分
Figure A0214938400115
并按公式(6)计算总畸变值: DIV ( X &OverBar; | M ) = &Sigma; q = 1 Q | | S I q - R I q | - | S TOP - R TOP | | . . . . . . . ( 6 )
(3)按公式(4)计算高斯分布临界区落入的待识别声音数据的特征矢量百分比,即CAP分数:
(4)进行拒识判决:
g)若似然得分RTOP低于似然得分阈值则拒绝识别结果;
h)若得分CAP( X|M)低于CAP阈值则拒绝识别结果;
i)若RTOP一起按从大到小排序后,RTOP的排名名次太靠后(如排名低于第2名)则拒绝识别结果;
j)若RTOP
Figure A0214938400122
中低于它的最大得分的差值的绝对值小于得分差值阈值则拒绝识别结果;
k)若总畸变值DIV( X|M)大于总畸变值阈值则拒绝识别结果;
l)以上均没有拒绝时则接受识别结果。

Claims (6)

1、一种声纹识别方法,包括模型的训练方法和声纹的识别方法两个部分,该模型训练方法为:
1)从每个说话人的声音波形中提取声学特征,形成该说话人的特征矢量序列;
2)根据每个说话人的特征矢量序列分别为每个人构建一个声纹模型,把各个人的声纹模型放在一起组成一个模型库;
该声纹的识别方法为:
3)从待识别的人的声音中提取声学特征形成待识别的特征矢量序列;
4)将该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较,得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分,或似然得分,或得分),进行判决;
5)再根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认),在需要的时候进行拒识判决,从而得出结果;
其特征在于:所说的步骤2)中为每个说话人构建声纹模型的方法是:对所说的说话人的特征矢量序列采用传统的LBG算法进行聚类,得到K个高斯分布的混合,其中第k个高斯分布均值矢量为μk、对角方差矩阵为∑k;记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为wk,则该说话人的声纹模型为M={μk,∑k,wk|1≤k≤K};
所说的第4)步中的待识别的特征矢量序列 X={X1,…,XT}与说话人声纹模型M={μk,∑k,wk|1≤k≤K}的匹配得分(对数似然得分)S( X|M)是利用基于局部最大模板匹配的概率计算方法得到,即: S ( X &OverBar; | M ) = 1 T &Sigma; t = 1 T max 1 &le; k &le; L ln ( w k &CenterDot; p ( X t | &mu; k , &Sigma; k ) ) . . . . . . . ( 3 )
2、如权利要求1所述的声纹识别方法,其特征在于,所说的拒识判决方法,包括拒识的训练和拒识的判决两个部分,该拒识训练包括以下步骤:
1)训练背景模型;
2)训练拒识阈值;
3)训练声纹模型:
(1)取一个说话人的声音数据,计算其有效的特征矢量序列;
(2)训练该说话人的声纹模型;
(3)为该说话人选择Q个背景模型;
(4)将该说话人的声纹模型以及与Q个背景声纹模型相关的参数存入声纹模型库;
(5)重复步骤(1)到(4),直到所有说话人的声纹模型训练完成。
3、如权利要求2所述的声纹识别方法,其特征在于,所说的训练背景模型具体包括:收集N个背景说话人的声音数据,并按声纹模型的训练方法分别训练出背景说话人的声纹模型,共N个,存入背景声纹模型库。
4、如权利要求2所述的声纹识别方法,其特征在于,所说的训练拒识阈值具体包括以下步骤:
(1)取第n个背景模型Mn={μnk,∑nk,wnk|1≤k≤K}及其相应的特征矢量序列 X &OverBar; n = { X n 1 , . . . , X nT n } , 按所说的公式(3)计算它们之间的匹配得分 S TOP ( n ) = S ( X &OverBar; n | M n ) ;
(2)计算高斯分布临界区落入的待识别声音的特征矢量的百分比CAP: CAP ( X &OverBar; n | M n ) = 1 KT n &Sigma; t = 1 T n ( &Sigma; k = 1 K ( 1 2 ( X nt - &mu; nk ) T &Sigma; nk - 1 ( X nt - &mu; nk ) ) < TSH 2 1 ) . . . ( 4 )
其中TSH是用以表示混合高斯密度临界区域大小的阈值(通常TSH可以取1.0;
(3)按所说的公式(3)分别计算该特征矢量序列 Xn与除Mn之外的各个背景模型的匹
   配得分,按得分从大到小的顺序取前Q个背景模型,其得分为
Figure A0214938400034
(4)重复步骤(1)~(3),直到所有的n=1~N个背景模型的上述值均计算完毕;
(5)求出所有背景模型中最小的
Figure A0214938400035
值,乘上一个小于1.0的系数,作为似然得分
   的阈值;
(6)求出所有背景模型中最小的CAP值,乘上一个小于1.0的系数,作为CAP的阈
   值;
(7)求出所有背景模型中最小的 | S TOP ( n ) - S I nl | 值,乘上一个小于1.0的系数,作为似然
   得分差值的阈值;
(8)计算出得分总畸变值的阈值,其中β是大于1.0的系数: TSH DIV = max 1 &le; q &le; Q - 1 ( 1 N &Sigma; n = 1 N ( S I nq - S I n , q + 1 ) ) &CenterDot; &beta; . . . . ( 5 )
5、如权利要求2所述的声纹识别方法,其特征在于,所说的选择Q个背景模型具体包括以下步骤:
(1)当用该说话人的特征矢量序列 X={X1,…,XT}训练出其声纹模型
   M={μk,∑k,wk|1≤k≤K}后,利用所说的公式(3)计算出 X与M的匹配得分
   STOP=S( X|M);
(2)用所说的公式(3)计算出 X与N个背景模型的匹配得分,按从大到小的顺序选出
   匹配得分最大的前Q名背景模型的分数
Figure A0214938400041
及其索引I1,…,IQ
(3)将STOP
Figure A0214938400042
及I1,…,IQ存入该说话人声纹模型中。
6、如权利要求2所述的声纹识别方法,其特征在于,所说的拒识的判决具体包括以下步骤:
(1)按所说的公式(3)计算特征矢量序列 X与目标说话人的声纹模型M的匹配似然
   得分为RTOP
(2)按所说的公式(3)分别计算 X与M的Q个背景模型的匹配得分
Figure A0214938400043
,并按
   公式(6)计算总畸变值: DIV ( X &OverBar; | M ) = &Sigma; q = 1 Q | | S I q - R I q | - | S TOP - R TOP | | . . . . . . . . . . . ( 6 )
(3)按所说的公式(4)计算高斯分布临界区落入的待识别声音数据的特征矢量百分
   比,即CAP分数:
(4)进行拒识判决:
   a)若似然得分RTOP低于似然得分阈值则拒绝识别结果;
   b)若得分CAP( X|M)低于CAP阈值则拒绝识别结果;
   c)若RTOP
Figure A0214938400045
一起按从大到小排序后,如RTOP的排名名次低于第2名,
     则拒绝识别结果;
   d)若RTOP
Figure A0214938400046
中低于它的最大得分的差值的绝对值小于得分差值阈值
     则拒绝识别结果;
   e)若总畸变值DIV( X|M)大于总畸变值阈值则拒绝识别结果;
   f)以上均没有拒绝时则接受识别结果。
CNB021493847A 2002-11-15 2002-11-15 一种声纹识别方法 Expired - Lifetime CN1188804C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021493847A CN1188804C (zh) 2002-11-15 2002-11-15 一种声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021493847A CN1188804C (zh) 2002-11-15 2002-11-15 一种声纹识别方法

Publications (2)

Publication Number Publication Date
CN1447278A true CN1447278A (zh) 2003-10-08
CN1188804C CN1188804C (zh) 2005-02-09

Family

ID=28048695

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021493847A Expired - Lifetime CN1188804C (zh) 2002-11-15 2002-11-15 一种声纹识别方法

Country Status (1)

Country Link
CN (1) CN1188804C (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302456C (zh) * 2005-04-01 2007-02-28 郑方 一种声纹识别方法
CN100454388C (zh) * 2004-06-01 2009-01-21 佳能株式会社 信息处理设备和信息处理方法
CN102088520A (zh) * 2009-12-03 2011-06-08 株式会社日立制作所 使用呼叫控制及通话录音功能的通话录音系统
CN102223367A (zh) * 2011-06-10 2011-10-19 安徽科大讯飞信息科技股份有限公司 移动用户访问网站的方法、设备及系统
CN101673544B (zh) * 2009-10-10 2012-07-04 上海电虹软件有限公司 一种基于声纹识别和定位跟踪的交叉监控方法和系统
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN104765996A (zh) * 2014-01-06 2015-07-08 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN106792140A (zh) * 2016-12-12 2017-05-31 合肥华耀广告传媒有限公司 一种基于声音识别的广播电视广告监测系统
CN106971733A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 基于语音降噪的声纹识别的方法及系统以及智能终端
CN107154259A (zh) * 2017-04-27 2017-09-12 江门市新会区博上科技有限公司 一种声音接收模块以及应用该模块的声纹识别门锁
CN107274236A (zh) * 2017-08-09 2017-10-20 无锡北斗星通信息科技有限公司 身份信息分析装置
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN110838294A (zh) * 2019-11-11 2020-02-25 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN111081261A (zh) * 2019-12-25 2020-04-28 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN113593580A (zh) * 2021-07-27 2021-11-02 中国银行股份有限公司 一种声纹识别方法及装置
CN114093370A (zh) * 2022-01-19 2022-02-25 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100454388C (zh) * 2004-06-01 2009-01-21 佳能株式会社 信息处理设备和信息处理方法
CN1302456C (zh) * 2005-04-01 2007-02-28 郑方 一种声纹识别方法
CN101673544B (zh) * 2009-10-10 2012-07-04 上海电虹软件有限公司 一种基于声纹识别和定位跟踪的交叉监控方法和系统
CN102088520A (zh) * 2009-12-03 2011-06-08 株式会社日立制作所 使用呼叫控制及通话录音功能的通话录音系统
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
US9595260B2 (en) 2010-12-10 2017-03-14 Panasonic Intellectual Property Corporation Of America Modeling device and method for speaker recognition, and speaker recognition system
CN103229233B (zh) * 2010-12-10 2015-11-25 松下电器(美国)知识产权公司 用于识别说话人的建模设备和方法、以及说话人识别系统
CN102223367A (zh) * 2011-06-10 2011-10-19 安徽科大讯飞信息科技股份有限公司 移动用户访问网站的方法、设备及系统
CN102223367B (zh) * 2011-06-10 2014-04-23 安徽科大讯飞信息科技股份有限公司 移动用户访问网站的方法、设备及系统
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
CN104765996A (zh) * 2014-01-06 2015-07-08 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN106971733A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 基于语音降噪的声纹识别的方法及系统以及智能终端
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN106792140A (zh) * 2016-12-12 2017-05-31 合肥华耀广告传媒有限公司 一种基于声音识别的广播电视广告监测系统
CN107154259A (zh) * 2017-04-27 2017-09-12 江门市新会区博上科技有限公司 一种声音接收模块以及应用该模块的声纹识别门锁
CN107274236A (zh) * 2017-08-09 2017-10-20 无锡北斗星通信息科技有限公司 身份信息分析装置
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
WO2019237518A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN110838294A (zh) * 2019-11-11 2020-02-25 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN110838294B (zh) * 2019-11-11 2022-03-04 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN111081261A (zh) * 2019-12-25 2020-04-28 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111081261B (zh) * 2019-12-25 2023-04-21 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN113593580A (zh) * 2021-07-27 2021-11-02 中国银行股份有限公司 一种声纹识别方法及装置
CN114093370A (zh) * 2022-01-19 2022-02-25 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质
CN114093370B (zh) * 2022-01-19 2022-04-29 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN1188804C (zh) 2005-02-09

Similar Documents

Publication Publication Date Title
CN1188804C (zh) 一种声纹识别方法
Gomez-Alanis et al. A light convolutional GRU-RNN deep feature extractor for ASV spoofing detection
Hansen et al. Speaker recognition by machines and humans: A tutorial review
US6519561B1 (en) Model adaptation of neural tree networks and other fused models for speaker verification
Liu et al. A Spearman correlation coefficient ranking for matching-score fusion on speaker recognition
US20030009333A1 (en) Voice print system and method
CN112863521B (zh) 一种基于互信息估计的说话人识别方法
EP1417677A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
CN111816203A (zh) 基于音素级分析抑制音素影响的合成语音检测方法
US20190325880A1 (en) System for text-dependent speaker recognition and method thereof
Poddar et al. Quality measures for speaker verification with short utterances
Sabatier et al. Measurement of the impact of identical twin voices on automatic speaker recognition
Karthikeyan Adaptive boosted random forest-support vector machine based classification scheme for speaker identification
CN1787077A (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
US20050232470A1 (en) Method and apparatus for determining the identity of a user by narrowing down from user groups
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
Yerramreddy et al. Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier
Imam et al. Speaker recognition using automated systems
Jin et al. Humming-based human verification and identification
CN111652178A (zh) 鲁棒性好且不易复制的心音特征身份识别方法
Tsang et al. Speaker verification using type-2 fuzzy gaussian mixture models
Alwahed et al. ARABIC SPEECH RECOGNITION BASED ON KNN, J48, AND LVQ
Manor et al. Voice trigger system using fuzzy logic
Khennouf et al. Speaker discrimination based on fuzzy fusion and feature reduction techniques
CN117390557B (zh) 一种多功能进阶语言沟通辅助训练数据管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING DEYI YINTONG TECHNOLOGY CO.,LTD.

Free format text: FORMER OWNER: ZHENG FANG; SONG ZHANJIANG

Effective date: 20051209

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20051209

Address after: 100085, room 505, building D, 2 information road, Haidian District, Beijing

Patentee after: BEIJING D-EAR TECHNOLOGIES Co.,Ltd.

Address before: 100084 Haidian District Tsinghua Yuan, Beijing, Tsinghua University, West 14-4-202

Co-patentee before: Song Zhanjiang

Patentee before: Zheng Fang

CX01 Expiry of patent term

Granted publication date: 20050209

CX01 Expiry of patent term