CN101154380A - 说话人认证的注册及验证的方法和装置 - Google Patents

说话人认证的注册及验证的方法和装置 Download PDF

Info

Publication number
CN101154380A
CN101154380A CNA2006101412413A CN200610141241A CN101154380A CN 101154380 A CN101154380 A CN 101154380A CN A2006101412413 A CNA2006101412413 A CN A2006101412413A CN 200610141241 A CN200610141241 A CN 200610141241A CN 101154380 A CN101154380 A CN 101154380A
Authority
CN
China
Prior art keywords
acoustic feature
mentioned
vector
feature sequence
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101412413A
Other languages
English (en)
Other versions
CN101154380B (zh
Inventor
栾剑
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2006101412413A priority Critical patent/CN101154380B/zh
Priority to US11/859,358 priority patent/US7962336B2/en
Publication of CN101154380A publication Critical patent/CN101154380A/zh
Application granted granted Critical
Publication of CN101154380B publication Critical patent/CN101154380B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。上述说话人认证的注册方法,包括:根据说话人说出的包含相同内容的多个语音,分别生成多个声学特征向量序列;根据上述多个声学特征向量序列生成一个参考模板;根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。

Description

说话人认证的注册及验证的方法和装置
技术领域
本发明涉及信息处理技术,具体地涉及说话人认证(speakerauthentication)的技术。
背景技术
利用每个人说话时的发音特点可以识别出不同的说话人,从而可以进行说话人的认证。在K.Yu,J.Mason,J.Oglesby发表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-18)中介绍了常见的三种说话人识别引擎技术:HMM,DTW和VQ。
通常,说话人认证的过程包括注册(enrollment)和验证(verification)两个阶段。在注册阶段,根据说话人(用户)本人朗读的包含密码的语音,生成该说话人的说话人模板;在验证阶段,根据说话人模板判断测试语音是否为该说话人本人说出的相同密码的语音。因此,说话人模板的质量对于整个认证过程非常重要。
对于一个基于动态时间弯折技术的说话人验证系统,需要从每帧语音提取出一定数量的特征以获得可靠的性能。通常对于所有说话人都是用相同的方法提取特征而忽视了各个说话人的不同特性。因此,出现了为每个说话人定制一套最优特征的方案。这种最优特征集是通过在特征里选取合适的特征子集实现的。通过这种方法,系统的性能可以得到提高,而同时存储说话人模板需要的空间也降低了。然而制定特征选择的有效标准常常是个难题,尤其在可使用的信息非常少的时候。
已知一种最优化方法可以根据其两个组成部分来唯一确定:性能标准和搜索方式。对于性能标准,通常需要一个冒充者数据库,例如B.Sabac的文章“Speaker recognition using discriminative features selection”(发表于ICSLP-2002,pp.2321-2324)中使用的错误接受率。即,需要用大量的用户数据和冒充者数据来测试不同特征组合的识别性能来做判断并最终找到最优的组合。然而,冒充者的数据并不总是存在的。在一个密码可以自由选择的说话人验证系统中,就很难为所有可能的密码准备冒充者的数据。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。
根据本发明的一个方面,提供了一种说话人认证的注册方法,包括:根据说话人说出的包含相同内容的多个语音,分别生成多个声学特征向量序列;根据上述多个声学特征序列生成一个参考模板;根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
根据本发明的另一个方面,提供了一种说话人认证的验证方法,包括:根据测试语音,生成测试声学特征向量序列;根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的;根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。
根据本发明的另一个方面,提供了一种说话人认证的注册装置,包括:声学特征提取单元,其根据说话人说出的语音,生成声学特征向量序列;模板生成单元,其根据说话人说出的包含相同内容的多个语音的多个声学特征序列,生成参考模板;伪冒充者数据生成单元,其根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及优化单元,其根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
根据本发明的另一个方面,提供了一种说话人认证的验证装置,包括:测试声学特征提取单元,其根据测试语音,生成测试声学特征向量序列;测试优化单元,根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的;判断单元,其根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。
根据本发明的另一个方面,提供了一种说话人认证系统,包括:前面所述的说话人认证的注册装置;以及前面所述的说话人认证的验证装置。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的说话人认证的注册方法的流程图;
图2是根据本发明另一个实施例的说话人认证的注册方法的流程图;
图3是根据本发明一个实施例的说话人认证的验证方法的流程图;
图4是根据本发明的一个实施例的说话人认证的注册装置的框图;
图5是根据本发明的一个实施例的说话人认证的验证装置的框图;以及
图6是根据本发明一个实施例的说话人认证系统的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的说话人认证的注册方法的流程图。如图1所示,首先在步骤101,根据说话人说出的包含相同内容的多个语音,分别生成多个声学特征向量序列。每个声学特征向量可以包含,例如,多个MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)的方式来表示语音的声学特征。但是,本发明对此并没有特别的限制,也可以采用已知的和未来的其它方式来表示语音的声学特征,例如,LPCC(Linear Predictive Cepstrum Coefficient,线性预测倒谱系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等,以及音高(pitch)和时长(duration)等信息,以及它们在时间轴上的一阶差分(firstdifferential)和二阶差分(second differential)等等。所有被认为适用于说话人识别的特征都可以合并在一起作为特征全集,然后,利用后面描述的特征选择方法,在注册过程中自动地针对各说话人的特色,从特征全集中选择特征,为说话人定制一套优化的特征子集。
接着,在步骤105,根据上述多个声学特征向量序列生成一个参考模板。例如,首先选定一个声学特征向量序列作为初始模板,然后用DTW的方法将第二个声学特征向量序列与之时间对齐,并用两个声学特征向量序列中相对应的特征向量的平均来生成一个新的模板,然后再将第三个声学特征向量序列与新模板时间对齐,如此循环直到所有的声学特征向量序列都结合到一个独立的模板中,即所谓的模板合并。详细内容可以参考W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-words referencetemplate for DTW-based speech recognition systems”(IEEE TENCON2003,pp.1576-1579)。应当指出,本发明对于生成参考模板的方式没有特别的限制。
接着,在步骤110,根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列。在本实施例中使用的码本是在整个应用的声学空间中训练出的码本,例如,对于中文语言应用环境来说,该码本需要能够涵盖中文语音的声学空间;对于英文语言应用环境来说,该码本则需要能够涵盖英文语音的声学空间。当然,对于一些特殊用途的应用环境,也可以相应的改变码本所涵盖的声学空间。
本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下,码字的数量越小,压缩比例越高;码字的数量越大,压缩的模板质量越高。根据本发明的一个优选实施例,在普通中文语音的声学空间下,码字的数量优选为256至512。当然,根据不同需要,可以适当调节码本的码字数量和涵盖的声学空间。
具体地,本步骤中,首先为该声学特征向量序列中的每个特征向量指定一个码字,从而将该声学特征向量序列转换为一个对应的码字序列。例如,可以通过计算该声学特征向量序列中的该特征向量和码本中每个特征向量的距离(例如,欧氏距离),来找出最接近的特征向量。将码本中与该最接近的特征向量对应的码字指定给该声学特征向量序列中的该特征向量。
然后,根据上述码本中的码字和对应的特征向量,将上述码字序列转换为对应的特征向量序列,作为上述伪冒充者声学特征向量序列。
接着,在步骤115,根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。具体地,遍历每一种可能的声学特征子集,并且选择使得相对于上述多个伪冒充者声学特征向量序列上述参考模板的识别率最高的声学特征子集作为上述优化的声学特征子集。
根据本发明的一个实施例,按照每个可能的声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i)(在此被称为说话人内距离),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)(在此被称为说话人间距离)。选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的比值最小的声学特征子集,作为上述优化的声学特征子集。
根据本发明的另一个实施例,按照每个可能的声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)。选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的差、除以上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的和的比值最小的声学特征子集,作为上述优化的声学特征子集。
另外,根据本发明的一个实施例,上述遍历每一种可能的声学特征子集的步骤是在指定的范围内进行的。上述指定的范围,例如,是声学特征的个数大于一个指定的数的可能的声学特征子集。
通过以上说明可以看出,本实施例的说话人认证的注册方法可以在没有冒充者数据库的情况下选择优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合将比传统方法更具有分辨力。将它应用在与文本相关的说话人验证系统中,系统的性能得到显著提高。
图2是根据本发明另一个实施例的说话人认证的注册方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,本实施例的说话人认证的注册方法的步骤101至115与图1所示的实施例相同,在此不再重复。
与前面描述的实施例相比,本实施例还包括步骤220,压缩参考模板。具体地,可以包括:根据上述优化的声学特征子集,对上述参考模板中的声学特征向量的维数进行压缩;或者,根据上述码本,对上述参考模板中的声学特征向量的个数进行压缩。
其中,根据上述码本,对上述参考模板中的声学特征向量的个数进行压缩方式可以参考本申请人在2005年11月11日提交的中国专利申请200510115300.5(发明名称为“说话人模板的压缩、合并装置和方法,以及说话人认证”)。将参考模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。例如,首先,计算上述相邻且码字相同的一组特征向量的平均向量,然后,用计算的平均向量代替上述相邻且码字相同的一组特征向量。
如果在参考模板中存在有多组这样的相邻且码字相同的多个特征向量,则可以按照上述方式逐一地进行替换。这样,逐一地将多个特征向量替换为一个特征向量,参考模板中的特征向量的数量就减少了,模板也就被压缩了。
通过以上说明可以看出,本实施例的说话人认证的注册方法不仅可以在没有冒充者数据库的情况下选择优化的声学特征子集,而且参考模板也被相应地压缩,使得模板所需的存储量下降,同时,计算量也得到了降低。将它应用在与文本相关的说话人验证系统中,系统的性能得到显著提高。
在同一发明构思下,图3是根据本发明一个实施例的说话人认证的验证方法的流程图。下面就结合图3,对该实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先在步骤301,根据测试语音,生成测试声学特征向量序列。与前面描述的图1的步骤101类似,每个声学特征向量可以包含,例如,多个MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)的方式来表示语音的声学特征。但是,本发明对此并没有特别的限制,也可以采用已知的和未来的其它方式来表示语音的声学特征,例如,LPCC(Linear Predictive Cepstrum Coefficient,线性预测倒谱系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等,以及音高(pitch)和时长(duration)等信息,以及它们在时间轴上的一阶差分(firstdifierential)和二阶差分(second differential)等等。所有被认为适用于说话人识别的特征都可以合并在一起作为特征全集。
接着,在步骤305,根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的。前面实施例中已经对如何选择优化的声学特征子集进行了说明,在此不再重复。
接着,在步骤310,根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。具体地,例如,首先计算上述参考模板和上述优化的测试声学特征向量序列的DTW匹配得分;然后比较上述计算出的DTW匹配得分和一个分辨阈值,判断输入的语音是否为说话人本人说出的注册语音。
需要指出,已知的和未来的各种计算参考模板和测试声学特征向量序列的DTW匹配得分的方式都可以适用于本发明。而且,已知的和未来的各种分辨阈值的设定方式也都可以适用于本发明。
通过以上说明可以看出,本实施例的说话人认证的验证方法可以利用在注册阶段选择的优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合,比传统方法更具有分辨力。系统的性能可以得到显著提高。
在同一发明构思下,图4是根据本发明的一个实施例的说话人认证的注册装置的框图。下面就结合图4,对该实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的说话人认证的注册装置400,包括:声学特征提取单元401,其根据说话人说出的语音,生成声学特征向量序列;模板生成单元402,其根据说话人说出的包含相同内容的多个语音的多个声学特征向量序列,生成参考模板;伪冒充者数据生成单元403,其根据一个码本704,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本704包含多个码字以及每个码字对应的特征向量;以及优化单元405,其根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
其中,伪冒充者数据生成单元403包括:向量-码字转换单元4031,其为该声学特征向量序列中的每个特征向量指定一个码字,构成一个与该声学特征向量序列对应的码字序列;码字-向量转换单元4032,其根据上述码本中的码字和对应的特征向量,将上述码字序列转换为对应的特征向量序列,作为上述伪冒充者声学特征向量序列。
根据本发明的一个实施例,向量-码字转换单元4031,为该声学特征向量序列中的每个上述特征向量查找码本中与之最接近的特征向量;并且将上述最接近的特征向量对应的码字指定给该声学特征向量序列中的该特征向量。
根据本发明的一个实施例,优化单元405,遍历每一种可能的声学特征子集;以及选择使得相对于上述多个伪冒充者声学特征向量序列上述参考模板的识别率最高的声学特征子集作为上述优化的声学特征子集。
根据本发明的另一个实施例,优化单元405,遍历每一种可能的声学特征子集;按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的比值最小的声学特征子集,作为上述优化的声学特征子集。
根据本发明的另一个实施例,优化单元405,遍历每一种可能的声学特征子集;按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的差、除以上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的和的比值最小的声学特征子集,作为上述优化的声学特征子集。
根据本发明的另一个实施例,优化单元405在指定的范围内遍历每一种可能的声学特征子集。上述指定的范围,例如,是声学特征的个数大于一个指定的数的可能的声学特征子集。
如图4所示,本实施例的说话人认证的注册装置400,进一步包括:压缩单元406,其根据上述优化的声学特征子集,对上述参考模板中的声学特征向量的维数进行压缩。
根据本发明的另一个实施例,压缩单元406进一步根据上述码本,对上述参考模板中的声学特征向量的个数进行压缩。
通过以上说明可以看出,本实施例的说话人认证的注册装置操作上可以实现前面实施例描述的说话人认证的注册方法,可以在没有冒充者数据库的情况下选择优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合将比传统方法更具有分辨力。将它应用在与文本相关的说话人验证系统中,系统的性能得到显著提高。
另外,参考模板也可以被相应地压缩,使得模板所需的存储量下降,同时,计算量也得到了降低。
在同一发明构思下,图5是根据本发明的一个实施例的说话人认证的验证装置的框图。下面就结合图5,对该实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的说话人认证的验证装置500,包括:测试声学特征提取单元501,其根据测试语音,生成测试声学特征向量序列;测试优化单元502,根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的;判断单元503,其根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。
其中,判断单元503包括:DTW计算单元5031,其计算上述参考模板和上述优化的测试声学特征向量序列的DTW匹配得分。判断单元503,比较上述计算出的DTW匹配得分和一个阈值,判断输入的语音是否为说话人本人说出的注册语音。
通过以上说明可以看出,通过以上说明可以看出,本实施例的说话人认证的验证装置操作上可以实现前面实施例描述的说话人认证的验证方法,可以利用在注册阶段选择的优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合,比传统方法更具有分辨力。系统的性能可以得到显著提高。
在同一发明构思下,图6是根据本发明一个实施例的说话人认证系统的框图。下面就结合图6,对该实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的说话人认证系统包括:注册装置400,其可以为前面实施例描述的说话人认证的注册装置;以及验证装置500,其可以为前面实施例描述的说话人认证的验证装置。由注册装置400生成的参考模板和优化的特征子集,通过任意的通信方式,例如,网络、内部信道、磁盘等记录媒体等,传递给验证装置500。
通过以上说明可以看出,本实施例的说话人认证系统,在注册阶段,可以在没有冒充者数据库的情况下选择优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合;在验证阶段,可以利用在注册阶段选择的优化的声学特征子集,根据每个说话人的特点选择的最佳特征组合。因此,比传统方法更具有分辨力,系统的性能可以得到显著提高。另外,参考模板也可以被相应地压缩,使得模板所需的存储量下降,同时,计算量也得到了降低。
需要指出,本发明上述各个实施例的说话人认证的注册装置400、说话人认证的验证装置500及其各个组成部分,可以由专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
以上虽然通过一些示例性的实施例对本发明的说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (25)

1.一种说话人认证的注册方法,包括:
根据说话人说出的包含相同内容的多个语音,分别生成多个声学特征向量序列;
根据上述多个声学特征向量序列生成一个参考模板;
根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及
根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
2.根据权利要求1所述的说话人认证的注册方法,其中,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列的步骤包括:
为该声学特征向量序列中的每个特征向量指定一个码字,构成一个与该声学特征向量序列对应的码字序列;以及
根据上述码本中的码字和对应的特征向量,将上述码字序列转换为对应的特征向量序列,作为上述伪冒充者声学特征向量序列。
3.根据权利要求2所述的说话人认证的注册方法,其中,为该声学特征向量序列中的每个特征向量指定一个码字的步骤包括:
为该声学特征向量序列中的每个上述特征向量查找码本中与之最接近的特征向量;以及
将上述最接近的特征向量对应的码字指定给该声学特征向量序列中的该特征向量。
4.根据权利要求1所述的说话人认证的注册方法,其中,选择优化的声学特征子集的步骤包括:
遍历每一种可能的声学特征子集;以及
选择使得相对于上述多个伪冒充者声学特征向量序列上述参考模板的识别率最高的声学特征子集作为上述优化的声学特征子集。
5.根据权利要求1所述的说话人认证的注册方法,其中,选择优化的声学特征子集的步骤包括:
遍历每一种可能的声学特征子集;
按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及
选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的比值最小的声学特征子集,作为上述优化的声学特征子集。
6.根据权利要求1所述的说话人认证的注册方法,其中,选择优化的声学特征子集的步骤包括:
遍历每一种可能的声学特征子集;
按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及
选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的差、除以上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的和的比值最小的声学特征子集,作为上述优化的声学特征子集。
7.根据权利要求4-6的任意一项所述的说话人认证的注册方法,其中,上述遍历每一种可能的声学特征子集的步骤,是在指定的范围内进行的。
8.根据权利要求7所述的说话人认证的注册方法,其中,上述指定的范围是声学特征的个数大于一个指定的数的可能的声学特征子集。
9.根据权利要求1所述的说话人认证的注册方法,进一步包括:
根据上述优化的声学特征子集,对上述参考模板中的声学特征向量的维数进行压缩。
10.根据权利要求1所述的说话人认证的注册方法,进一步包括:
根据上述码本,对上述参考模板中的声学特征向量的个数进行压缩。
11.一种说话人认证的验证方法,包括:
根据测试语音,生成测试声学特征向量序列;
根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的;
根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。
12.根据权利要求11所述的说话人认证的验证方法,其中,判断该输入的测试语音是否为说话人本人说出的注册语音的步骤包括:
计算上述参考模板和上述优化的测试声学特征向量序列的DTW匹配得分;以及
比较上述计算出的DTW匹配得分和一个阈值,判断输入的语音是否为说话人本人说出的注册语音。
13.一种说话人认证的注册装置,包括:
声学特征提取单元,其根据说话人说出的语音,生成声学特征向量序列;
模板生成单元,其根据说话人说出的包含相同内容的多个语音的多个声学特征向量序列,生成参考模板;
伪冒充者数据生成单元,其根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及
优化单元,其根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
14.根据权利要求13所述的说话人认证的注册装置,其中,伪冒充者数据生成单元包括:
向量-码字转换单元,其为该声学特征向量序列中的每个特征向量指定一个码字,构成一个与该声学特征向量序列对应的码字序列;
码字-向量转换单元,其根据上述码本中的码字和对应的特征向量,将上述码字序列转换为对应的特征向量序列,作为上述伪冒充者声学特征向量序列。
15.根据权利要求14所述的说话人认证的注册装置,其中,向量-码字转换单元,为该声学特征向量序列中的每个上述特征向量查找码本中与之最接近的特征向量;并且将上述最接近的特征向量对应的码字指定给该声学特征向量序列中的该特征向量。
16.根据权利要求13所述的说话人认证的注册装置,其中,优化单元,遍历每一种可能的声学特征子集;以及选择使得相对于上述多个伪冒充者声学特征向量序列上述参考模板的识别率最高的声学特征子集作为上述优化的声学特征子集。
17.根据权利要求13所述的说话人认证的注册装置,其中,优化单元,遍历每一种可能的声学特征子集;按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的比值最小的声学特征子集,作为上述优化的声学特征子集。
18.根据权利要求13所述的说话人认证的注册装置,其中,优化单元,遍历每一种可能的声学特征子集;按照该声学特征子集,分别计算上述多个声学特征向量序列和上述参考模板的DTW距离de(i),以及上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i);以及选择上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的差、除以上述多个声学特征向量序列和上述参考模板的DTW距离de(i)与上述多个伪冒充者声学特征向量序列和上述参考模板的DTW距离dp(i)的和的比值最小的声学特征子集,作为上述优化的声学特征子集。
19.根据权利要求16-18的任意一项所述的说话人认证的注册装置,其中,优化单元,在指定的范围内遍历每一种可能的声学特征子集。
20.根据权利要求19所述的说话人认证的注册装置,其中,上述指定的范围是声学特征的个数大于一个指定的数的可能的声学特征子集。
21.根据权利要求13所述的说话人认证的注册装置,进一步包括:
压缩单元,其根据上述优化的声学特征子集,对上述参考模板中的声学特征向量的维数进行压缩。
22.根据权利要求13所述的说话人认证的注册装置,进一步包括:
压缩单元,其根据上述码本,对上述参考模板中的声学特征向量的个数进行压缩。
23.一种说话人认证的验证装置,包括:
测试声学特征提取单元,其根据测试语音,生成测试声学特征向量序列;
测试优化单元,根据优化的声学特征子集,对上述测试声学特征向量序列进行优化得到优化的测试声学特征向量序列,其中,上述优化的声学特征子集是在注册过程中生成的;
判断单元,其根据参考模板和上述优化的测试声学特征向量序列,判断该输入的测试语音是否为说话人本人说出的注册语音。
24.根据权利要求23所述的说话人认证的验证装置,其中,判断单元包括:DTW计算单元,其计算上述参考模板和上述优化的测试声学特征向量序列的DTW匹配得分;
上述判断单元,比较上述计算出的DTW匹配得分和一个阈值,判断输入的语音是否为说话人本人说出的注册语音。
25.一种说话人认证系统,包括:
根据权利要求13-22的任意一项所述的说话人认证的注册装置;以及
根据权利要求23~24的任意一项所述的说话人认证的验证装置。
CN2006101412413A 2006-09-29 2006-09-29 说话人认证的注册及验证的方法和装置 Expired - Fee Related CN101154380B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006101412413A CN101154380B (zh) 2006-09-29 2006-09-29 说话人认证的注册及验证的方法和装置
US11/859,358 US7962336B2 (en) 2006-09-29 2007-09-21 Method and apparatus for enrollment and evaluation of speaker authentification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101412413A CN101154380B (zh) 2006-09-29 2006-09-29 说话人认证的注册及验证的方法和装置

Publications (2)

Publication Number Publication Date
CN101154380A true CN101154380A (zh) 2008-04-02
CN101154380B CN101154380B (zh) 2011-01-26

Family

ID=39255998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101412413A Expired - Fee Related CN101154380B (zh) 2006-09-29 2006-09-29 说话人认证的注册及验证的方法和装置

Country Status (2)

Country Link
US (1) US7962336B2 (zh)
CN (1) CN101154380B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN113611284A (zh) * 2021-08-06 2021-11-05 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及系统
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
IL145285A0 (en) * 1999-03-11 2002-06-30 British Telecomm Speaker recognition
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
DE60231617D1 (de) * 2001-06-19 2009-04-30 Speech Sentinel Ltd Sprecherverifikation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN113611284A (zh) * 2021-08-06 2021-11-05 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统
CN113611284B (zh) * 2021-08-06 2024-05-07 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统

Also Published As

Publication number Publication date
CN101154380B (zh) 2011-01-26
US7962336B2 (en) 2011-06-14
US20080082331A1 (en) 2008-04-03

Similar Documents

Publication Publication Date Title
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
US5167004A (en) Temporal decorrelation method for robust speaker verification
CN101465123B (zh) 说话人认证的验证方法和装置以及说话人认证系统
US6401063B1 (en) Method and apparatus for use in speaker verification
US6571210B2 (en) Confidence measure system using a near-miss pattern
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
CN101051463B (zh) 说话人认证的验证方法及装置
US20050065789A1 (en) System and method with automated speech recognition engines
JPH10214095A (ja) 話者認識装置
US7490043B2 (en) System and method for speaker verification using short utterance enrollments
US5677991A (en) Speech recognition system using arbitration between continuous speech and isolated word modules
KR20010102549A (ko) 화자 인식 방법 및 장치
Campbell Speaker recognition
Mohammed et al. Advantages and disadvantages of automatic speaker recognition systems
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
CN1963918A (zh) 说话人模板的压缩、合并装置和方法,以及说话人认证
US7509257B2 (en) Method and apparatus for adapting reference templates
JP2009116278A (ja) 話者認証の登録及び評価のための方法及び装置
JPH1020883A (ja) ユーザ認証装置
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
Vergin et al. On the use of some divergence measures in speaker recognition
Liu et al. Supra-Segmental Feature Based Speaker Trait Detection.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110126

Termination date: 20160929