CN1188828C - 基于本征话音的说话者检验和说话者识别 - Google Patents

基于本征话音的说话者检验和说话者识别 Download PDF

Info

Publication number
CN1188828C
CN1188828C CNB991183894A CN99118389A CN1188828C CN 1188828 C CN1188828 C CN 1188828C CN B991183894 A CNB991183894 A CN B991183894A CN 99118389 A CN99118389 A CN 99118389A CN 1188828 C CN1188828 C CN 1188828C
Authority
CN
China
Prior art keywords
speaker
training
check
eigen space
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB991183894A
Other languages
English (en)
Other versions
CN1247363A (zh
Inventor
罗兰德·库恩
帕特里克·贵恩
吉恩-克劳德·琼克瓦
罗伯特·博曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1247363A publication Critical patent/CN1247363A/zh
Application granted granted Critical
Publication of CN1188828C publication Critical patent/CN1188828C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Collating Specific Patterns (AREA)

Abstract

对已知的客户说话者(在说话者检验的情形下,还对冒名顶替说话者)构造并训练语音模型。连接来自这些模型的参数以定义超向量,并对这些超向量作线性变换其结果为维数降低,产生称为本征空间的低维空间。然后训练说话者被表示为本征空间中的点或分布。此后把来自测试说话者新的语音数据通过类似的线性变换放置在本征空间中,并且测试说话者对训练说话者在本征空间中的接近程度用来鉴别或识别测试说话者。

Description

基于本征话音的说话者检验和说话者识别
技术领域
本发明一般涉及语音技术,并特别涉及用于进行说话者检验或说话者识别的系统和方法。
背景技术
授权问题处于几乎每一项交易的核心。成百万的人通过电话进行保密的金融交易,诸如访问他们的银行帐户或使用他们的信用卡。当前实际进行的授权远非完全安全的。各方面交换认为秘密的信息的某种形式,诸如社会保险号码,母亲未婚前娘家的姓等。显然,这种信息可能受到侵犯,其结果是伪冒的授权。
本发明的一方面是要通过提供用于进行说话者检验的系统和方法解决上述问题。说话者检验涉及确定给定的话音是属于一定说话者(这里称为“客户”)还是冒名顶替者(客户以外的任何人)。
与说话者检验相关的问题是说话者识别问题。说话者识别涉及把给定的话音与一组已知的话音之一匹配。类似于说话者检验,说话者识别具有一些有吸引力的应用。例如,说话者识别系统可用于对话音样本可得的一组说话者发出的话音邮件进行分类。这种功能允许计算机实现的电话系统在计算机屏幕上显示已经在话音邮件系统上留言的呼叫者的身份。
虽然说话者检验和说话者识别的应用实际上是无限的,但迄今进行这两个任务的解决方法证明是困难的。识别人类语音、特别是从其它说话者鉴别一说话者是一个复杂的问题。由于人类语音是如此产生的,即使是单独一个词一个人很少以相同的方式说出两次。
人类语音是空气在压力下从肺脏用力通过声带的产物,并受到声门的调制产生声波,然后该声波在由舌头、颌部、牙齿和嘴唇清晰发音之前,在口腔和鼻腔中共鸣。许多因素影响这些声音产生机制如何相互作用。例如,通常的感冒就会大大改变鼻腔的共鸣以及声带音调的质量。
由于人类产生语音的复杂性和多变性,通过比较新的说话者与先前的记录语音样本并不能容易地进行说话者检验和说话者识别。为了排除冒名顶替者而采用高相似性阈值,但当他或她患感冒时,可能会排除授权的说话者。另一方面,采用低相似性阈值能够使系统倾向于作出错误的检验。
发明内容
本发明提供用于对预定客户说话者执行说话者检验或说话者识别的方法,包括:对来自多个训练说话者的语音训练一组语音模型,该多个训练说话者包括至少一个客户说话者;通过对所述语音模型组进行维数降低来构造表示所述多个训练说话者的本征空间,以便产生定义所述本征空间的一组基向量;把所述客户说话者表示为所述本征空间中的第一位置;根据来自新说话者的语音输入数据训练新的语音模型;对所述新的语音模型进行维数降低,以产生所述新的说话者作为本征空间中第二位置的表示;估计所述第一和第二位置之间的接近程度,并使用所述估计作为新的说话者是否为客户说话者的指示。
本发明对说话者检验和说话者识别使用基于模型的分析方法。对已知的客户说话者的语音(并在说话者检验的情形下还对一个或多个冒名顶替者的语音)构造模型并进行训练。这些说话者模型一般采用复合参数(诸如隐藏马尔科夫模型参数)。不是直接使用这些参数,而是把参数连接在一起形成超向量。这些超向量,每个说话者一个,表示整个训练数据的说话者分布。
对超训练进行结果为维数降低的线性变换,这产生我们称为本征空间的低维空间。这一本征空间的基向量我们称为“本征话音”向量或“本征向量”。如果需要,能够通过抛弃某些本征向量项在维数上进一步降低本征空间。
然后,在本征空间中表示出包含训练数据的每一说话者,或者作为本征空间中的一个点,或者作为本征空间中的概率分布。前者精确度稍低,在于这方法把来自每一说话者的语音相对不变地处理。后者反映出每一说话者的语音将随发音发生变化。
在本征空间中对每一说话者表示出训练数据后,系统可用于进行说话者检验或说话者识别。
获得新的说话者数据并用于构造超向量,然后其维数降低并在本征空间中表示。估计新的说话者数据对本征空间中先前数据的近似程度,进行说话者检验或说话者识别。如果其在本征空间内的对应点或分布在对该客户说话者的训练数据的阈值近似度之内,则确认来自说话者的新的语音。如果其放置在本征空间中落在比较接近冒名顶替者语音,则系统在进行授权时可能会拒绝新的语音。
说话者识别以类似的方式进行。新的语音数据放置在本征空间中,并对分布的本征向量点最接近的训练说话者进行识别。
估计本征空间中新的语音数据和训练数据的近似程度具有数个优点。首先,本征空间以精确的低维方式表示出每一完整的说话者,不只是选择每一说话者少量特性。在本征空间中进行近似程度的计算能够相当快速地进行,因为与原始说话者模型空间或特征向量空间中相比,在本征空间中一般只需对相当少的维数进行处理。而且系统不需要新语音数据每一包含在构造原始训练数据所使用的每一例子或发音。通过这里所述的技术,能够对超向量进行维数降低,抛弃其某些成分。然而这样产生的分布在本征空间的点将能非常好地表示说话者。
为了完整地理解本发明、其目的和优点,请参见以下说明及附图。
附图说明
图1表示理解本发明使用的示例性的隐藏马尔科夫模型(HMM);
图2是表示如何构造本征空间以实现说话者识别系统的流程图,其中已知的客户说话者表示为本征空间中的一个点;
图3是表示如何构造本征空间以实现说话者检验系统的流程图,其中客户说话者和潜在的冒名顶替者按本征空间中的分布来表示;
图4是表示使用在训练期间形成的本征空间可进行说话者识别或说话者检验的过程的流程图;
图5是如何实施极大似然技术的示意图;
图6是表示如何基于极大似然运算将来自说话者的观测数据放置到本征空间中的数据结构图。
具体实施方式
本发明所采用的本征话音技术将对许多不同的语音模型有效。我们说明与隐藏马尔科夫模型识别器相关的优选实施例,因为其在当今的语音识别技术中具有普遍性。然而应当理解,本发明能够使用任何其它类型的基于模型的识别器实现,诸如音素相似性识别器。
为了更好地理解本发明的说话者识别和检验技术,对语音识别系统基本的理解是有帮助的。迄今当前大多数语音识别器采用隐藏马尔科夫模型(HMM)表示语音,这里将说明HMM技术使读者熟悉。
隐藏马尔科夫模型是涉及状态图的建模方法。任何语音单元(诸如短语、词、半词、音素等)都能够以包含在该模型中的所有知识源被建模。HMM表示产生离散区间可观测的输出序列一种未知的过程,输出是某些有限的字母表成员(对应于语音单元预定的集合)。这些模型被称为“隐藏的”,因为产生可观测输出的状态序列是未知的。
如图1所示,HMM 10由状态集合(S1,S2,…S5)、定义图1中箭头所示的某些状态对之间的转移的向量以及概率数据集合来表示。特别地,隐藏马尔科夫模型包括与转移向量相关的转移概率集合12以及与每一状态观测的输出相关的向量和输出概率集合14。对模型从一个状态到另一状态按规则间隔、离散区间定时。按时钟时间,模型可以从其当前状态变为对其转移向量存在的任何状态。如图所示,转移可从给定的状态返回到自身。
转移概率表示当对模型计时时从一个状态向另一状态转移将发生的似然率。于是如图1所示,每一转移与一概率值(0与1之间)相联系。处于任意状态的所有概率之和等于1。举例来说,在转移概率表格12中给出了示例性转移概率值集合。应当理解,在一有效的实施例中,这些值将由训练数据产生,其限制是处于任意状态的所有概率之和等于1。
每次进行转移时,可以把模型设想为发出或输出其字母表的一个成员。在图1所示的实施例中,假设基于音素的语音单元。这样在输出概率表14中定义的符号对应于标准英语中找到的音素。在每一转移时发出哪一个字母表成员取决于输出概率值或训练期间学习的函数。这样发出的输出表示观测的序列(基于训练数据),并且每一字母表成员有一被发出的概率。
在对语音建模中,通常实际的作法是把输出作为与离散字母表符号序列相对的连续向量序列。这需要输出概率表示为与单个数值相对的连续概率函数。这样,HMM常常基于包括一个或多个高斯分布的概率函数。当使用多个高斯函数时,如在16处所示,它们一般相加地混合在一起以定义一复合的概率分布。
无论表示为单一高斯函数还是表示为高斯函数的混合,概率分布能够由多个参数描述。如同转移概率值(表12)那样,这些输出概率参数可能包含浮点数。参数表18标识一般用来基于来自训练说话者的观测数据表示概率密度函数(pdf)。由图1中高斯函数16的方程式所示,要进行建模的观测向量O的概率密度函数是乘以由高斯密度N的每一混合分量的混合系数的叠代和,其中高斯密度具有平均向量uj,以及从倒谱或滤波器组系数语音参数计算的协方差矩阵Uj
隐藏马尔科夫模型识别器实现的细节从一个应用到另一应用可以有很大变化。图1所示的HMM例子只是要解释隐藏马尔科夫模型是如何构造的,并不是作为对本发明范围的限制。就此而言,有许多各种不同的隐藏马尔科夫建模概念。正如从以下说明能够更允分理解那样,本发明的本征话音适应技术能够很好地适用于每一种不同的隐藏马尔科夫模型变形,以及其它基于参数的语音建模系统。
图2和3分别表示,使用本发明的技术如何进行说话者识别和说话者检验。作为进行说话者识别或说话者检验的第一步,要构造本征空间。要构造的具体的本征空间与应用有关。在图2所示的说话者识别的情形下,使用一组已知的客户说话者20提供对其生成本征空间的训练数据22。另一方面,对于如图3所示的说话者检验,从希望对其进行检验的客户说话者21a,以及还从一个或多个潜在的冒名顶替者21b提供训练数据。对说话者识别和说话者检验应用,除了训练数据源的这一区别外,用于产生本征空间的过程基本上相同。于是对图2和3使用了类似的标号。
参照图2和3,通过对在训练数据22中表示的每一说话者形成并训练说话者模型而构造本征空间。这一步骤示于24,并对每一说话者产生一组模型26。虽然这里已经解释隐藏马尔科夫模型,但是本发明不限于隐藏马尔科夫模型。而是可使用具有适于连接的参数的任何语音模型。模型26最好使用足够的训练数据训练,使得由模型所定义的所有声音单元由每一说话者实际的语音至少一个例子训练。虽然在图2和3中没有明显示出,但模型训练步骤24能够包含适当的辅助说话者适应处理,以便加细模型。这种辅助处理的例子包括极大A后验估计(MAP)及其它基于变换的方法,诸如极大似然线性回归(MLLR)。生成说话者模型26的目的是要精确地表示训练数据语料库,因为这个语料库要用来定义每一训练说话者被放置在其中,并对其测试每一新的语音发音的本征空间的界线和边界。
在构造模型26之后,在步骤28使用每一说话者的模型构造超向量。30处所示的超向量可通过连接每一说话者模型的参数形成。在使用隐藏马尔科夫模型时,每一说话者的超向量可组成参数(一般为浮点数)的一有序列表,这些参数对应于该说话者隐藏马尔科夫模型的至少一部分参数。对应于每一声音单元的参数包含在给定的说话者超向量中。这些参数可以任何方便的顺序组织起来。顺序不是重要的;然而一旦采用一种顺序,则对所有的训练说话者必须遵从。
用来构造超向量的模型参数的选择将取决于计算机系统可用的处理能力。当使用隐藏马尔科夫模型参数时,我们通过从高斯均值构造超向量而获得了良好的结果。如果可使用更大的处理能力,超向量还可包括其它的参数,诸如转移概率(图1表12),或协方差矩阵参数(图1参数18)。如果隐藏马尔科夫模型产生离散输出(与概率密度相反),则这些输出值可用来组成超向量。
在构造超向量之后,在步骤32进行维数降低操作。维数降低能够通过把原来的高维超向量降低为基向量的任何线性变换实现。例子的非穷尽列表包括:
主成分分析(PCA),独立成分分析(ICA),
线性鉴别分析(LDA),因素分析(FA),单值分解(SVD)。
具体来说,在实现本发明中使用的维数降低技术的分类定义如下。考虑从用于语音识别的说话者相关模型获得的一组T个训练超向量。设这些超向量的每一个具有维数V;这样,我们能够把每一超向量标记为X=[x1,x2,…,xV]^T(V*1向量)。考虑能够施加到超向量(即施加到维数V的任何向量)以产生新的维E的向量(E小于或等于训练超向量数目T);每一变换后的向量可标记为W=[w1,w2,…,wV]^T。以某种方式从T个训练超向量的组计算M的参数值。
这样,我们具有线性变换W=M*X。M有维数E*V,且W具有维数E*1,其中E<=T;对于特定的训练超向量组,M将是固定不变的。可使用几种维数降低技术从T个训练超向量的组计算线性变换M,使W具有维数E<=T。
例子包括主成分分析、独立成分分析、线性鉴别分析、因素分析、单值分解。在输入向量为从说话者相关建模导出的训练超向量、并且M用来实施上述技术的具体情形下,可使用任何用于找出这种固定线性变换M的方法(不仅是那些列出的)实现本发明。
在步骤32产生的基向量定义由本征向量覆盖的一本征空间。维数降低对每一训练的说话者产生一本征向量。这样,如果有T个训练说话者,则维数降低步骤32产生T个本征向量。这些本征向量定义了所谓本征话音空间或本征空间。
如34处所示,形成本征话音空间的本征向量每一表示可通过其区分不同说话者的不同维。原始训练集中每一超向量可被表示为这些本征向量的线性组合。本征向量按它们在对数据建模中的的重要性排序:第一本征向量比第二本征向量重要,第二本征向量比第三本征向量重要等等。至此我们对这一技术的经验表明,第一本征向量似乎对应于性别维。
虽然在步骤32产生的极大T个本征向量,实际上能够抛弃这些向量的几个,仅保留前N个本征向量。这样在步骤36我们可选地抽取T个本征向量的N个,在步骤38组成降低的参数本征空间。较高阶的本征向量可被抛弃,因为它们一般包含用于在说话者之间进行鉴别的次要信息。把本征话音空间降低到少于训练说话者总数就提供了本质的数据压缩,这在以有限的存储器和处理器资源构造实际系统时能够有帮助。
在从训练数据产生了本征向量之后,在本征空间中表示出训练数据中的每一说话者。在说话者识别的情形下,如步骤40a所示及42a处图示,在本征空间中表示出每一已知的客户说话者。在说话者检验的情形下,如步骤40b所示及42b处所示,在本征空间中表示出客户说话者和潜在的冒名顶替说话者。说话者可以表示为本征空间中的点(如图2中42a处所示)或表示为本征空间中的概率分布(如图3中42b处所示)。
使用说话者识别或说话者检验系统
寻求说话者识别或检验的用户在44提供新的语音数据,且如步骤46处所示,这些语音数据用来训练说话者相关模型。然后在步骤50使用模型48构造超向量52。注意,新的语音数据可能不需要包含每一声音单元的例子。例如,新的语音发音可能太短而不能包含所有声音单元的例子。如以下将充分说明的,系统将处理这种情形。
在步骤54对超向量52进行维数降低,其结果是如步骤56所示及58处所示可在本征空间中表示的新的数据点。在58的图示中本征空间(基于训练说话者)中先前所需的点表示为圆点,而新的语音数据点表示为星号。
把新的数据点放置到本征空间之后,现在可以估计其对其它先前的数据点逼近程度,或对应于训练说话者的数据分布。图4示出说话者识别和说话者检验的两者的一示例性实施例。
对于说话者识别,把新的语音数据指定给本征空间中最接近的训练说话者,步骤62图示在64处。这样系统将把新的语音标识为其数据点或数据分布在本征空间中最接近新的语音的先前的训练说话者的语音。
对于说话者检验,系统在步骤66测试新的数据点以确定它是否与本征空间中客户说话者处于预定的阈值接近程度。如果新的说话者数据在本征空间中更为接近冒名顶替者而不是客户说话者,则作为安全措施在步骤68,系统可以拒绝新的说话者数据。这图示在69处,其中描绘出对客户说话者的接近程度和对最接近的冒名顶替者的接近程度。
极大似然本征空间分解(MLED)技术
一个用于把新的说话者放置在本征空间内的简单的技术是使用简单的投影运算。投影运算寻找尽可能接近对应于新的说话者输入语音本征空间之外的点的本征空间内的点。请记住,这些点实际上是从其能够重新构造一组HMM的超向量。
投影运算是比较粗糙的技术,它不能保证本征空间内的点对新的说话者最优。此外,投影运算要求对新的说话者超向量包含完整的数据集,以表示对该说话者整个的HMM组。这一要求引起实施上相当大的限制。当使用投影把新的说话者约束到本征空间时,说话者必须提供足够的输入语音,使所有的语音单元能在数据中表示。例如,如果隐藏马尔科夫模型指定表示英语中所有的音素,则在使用简单投影技术之前,训练说话者必须提供所有音素的例子。在许多应用中,这一约束简直是不实际的。
本发明的极大似然技术要解决简单投影的上述两个缺陷。本发明的极大似然技术寻求本征空间内的一点,该点表示对应于具有产生由新说话者提供的语音的最大概率的一组隐藏马尔科夫模型的超向量。
简单的投影运算把所有的超向量成员作为具有同等重要性对待,而最大似然技术是基于从实际适应数据引起的概率的,这样更可能的数据权重越重。与简单投影技术不同,即使新的说话者没有提供完全的训练数据集合(即对某些声音单元的数据缺失),极大似然技术仍将有效。实际上,极大似然技术把构造超向量的场合考虑在内,即从涉及一定模型比另外的模型更可能产生由新说话者提供的输入语音的概率的隐藏马尔科夫模型进行构造。
实际上,极大似然技术将在本征空间内选择与新的说话者输入语音最一致的超向量,而不论实际上究竟有多少输入语音可得。为了说明,假设新的说话者是Alabama当地人的年轻女性。在收到来自这一说话者发出的一些音节时,极大似然技术将在本征空间内选择表示与说话者的当地Alabama女性口音一致的所有音素(即使那些在输入语音中还没有表示的音素)的点。
图5表示极大似然技术如何工作。来自新说话者的语音输入用来构造超向量70。如上所述,超向量包括对应于倒谱系数等语音参数的连接列表。在所示的实施例中,这些参数是表示从对应于新说话者的隐藏马尔科夫模型集合抽取的高斯均值的浮点数。其它的HMM参数也可使用。在图示中,这些HMM均值作为如72处的圆点所示。当以数据完全分布时,超向量70将对每一HMM均值包含对应于由HMM模型表示的每一声音单元的浮点数。为了进行说明,这里假设音素“ah”的参数出现,而音素“iy”的参数缺失。
本征空间38由本征向量74、76和78的集合表示。对应于来自新说话者的观测数据的超向量70可在本征空间中由每一本征向量乘以标记为W1,W2,…Wn的对应的本征值表示。这些本征值起初是未知的。极大似然技术寻找这些未知本征值的值。如将以下更充分说明那样,通过寻找将能在本征空间中最佳表示新说话者的优化解而选择这些值。
在使本征值与对应的本征空间38的本征向量相乘并对结果乘积求和之后,产生一个适应模型80。由于输入语音的超向量(超向量70)可能已有某些缺失的参数值(例如“iy”参数),表示适应模型的超向量80以数值完全分布。此即本发明的一个好处。此外,超向量80中的值表示优化解,即它在本征空间中具有表示新说话者的极大似然。
各本征值W1,W2,…Wn可看作为构成极大似然向量,这里称为极大似然向量。图5在82处图示出向量。如图示所示,极大似然向量82组成本征值W1,W2,…Wn的集合。
图6中示出使用极大似然技术进行适应的过程。来自新说话者组成观测数据的语音用来构造如100处所示的HMM集合。然后HMM集合102用于构成如104处所示的超向量。如图所示,超向量106构成从HMM模型102抽取的HMM参数的连接的列表。
使用超向量106,在108构造概率函数Q。当前优选的实施例采用一种概率函数,该函数表示对HMM模型102的预定集合产生被观测数据的概率。如果函数包含的不只是概率项P,而且还有这项的对数logP,则易于进行概率函数Q的后继操作。
然后在步骤110通过分别对每一本征值W1,W2,…Wn取概率函数的导数,得到概率函数最大值。例如,如果本征空间维数为100,这一系统计算概率函数Q的100个导数,置每一个为零并对各个W求解。虽然这好象是很大的计算量,但是比传统的MAP或MLLR技术进行一般所需的成千次的计算在计算耗费上要小得多。
这样获得的Ws结果集合表示标识本征空间中对应于极大似然点的点所需的本征值。这样,Ws的集合构成本征空间中极大似然向量。就此而言,每一本征向量(图5中的本征向量74、76和78)定义了一组正交向量或坐标,本征值乘以该坐标而定义约束在本征空间内的点。在112示出的这一极大似然向量用来构造对应于本征空间中最优点(图4中的点66)的超向量114。然后在步骤116超向量114可用来构造对新说话者的适应模型118。
在本发明的极大似然结构的场合中,我们希望使观测O=o1…oT的似然关于模型λ最大化。这可通过叠代求辅助函数Q(以下)的最大值进行,其中λ是叠代处的当前模型,而λ^是估计的模型。我们有:
Q ( λ , λ ^ ) = Σ θ ∈ states P ( O , θ | λ ) lo
作为最初的逼近,我们可希望只对均值进行最大化。在概率P由HMM集合给出的场合下,我们获得以下结果:
Q ( λ , λ ^ ) = const - 1 2 P ( O | λ ) Σ states inλ S λ Σ mixt gauss inS M s Σ time t T { γ m ( s ) ( t ) [ n log ( 2 π ) + log | C m ( s ) | + h ( o t , m , s ) ] }
其中:
h ( o t , m , s ) = ( o t - μ ^ m ( s ) ) T C m ( s ) - 1 ( o t - μ ^ m ( s ) )
并设:
ot          为时间t处的特征向量
Cm (S)-1    为状态s的混合高斯逆协方差
μ^m (S)    为对状态s的逼近的适应均值,混合分量m
γm (S)(t)  为P(使用混合高斯m|λsot)
设新说话者的HMM的高斯均值位于本征空间中。设这一空间是由均值超向量μj覆盖的空间,j=1…E,
 (原文P20公式1)
μ ‾ j = μ ‾ 1 ( 1 ) ( j ) μ ‾ 2 ( 1 ) ( j ) · · μ ‾ m ( s ) ( j ) μ ‾ Ms λ ( S λ ) ( j )
其中μm (s)(j)表示在本征向量(本征模型)j的状态s下混合高斯m的均值向量。
然后我需要:
μ ^ = Σ j = 1 E w j μ ‾ j
μj为正交的,且Wj是我们的说话者模型的本征值。这里我们假设,可对任何新的说话者建模为被观测的说话者的数据库的线性组合。然后
μ ^ m ( s ) = Σ j = 1 E w j μ ‾ m ( s ) ( j )
s是M的混合高斯值中的λ、m的状态。
由于我们需要使Q最大化,我们只需设定
∂ O ∂ w e = 0 , e = 1 . . E .
(注意,因为本征向量是正交的,故 ∂ w i ∂ w j = 0 , i ≠ j . . )
因而我们有
∂ Q ∂ w e = 0 = Σ states inλ S λ Σ mixt gauss inS M s Σ time t T { ∂ ∂ w e γ m ( s ) ( t ) h ( o t , s ) } , e = 1 . . . E .
计算以上的导数,我们有:
0 = Σ s Σ m Σ t γ m ( s ) ( t ) { - μ ‾ m ( s ) T ( e ) C m ( s ) - 1 O t + Σ j = 1 E w j μ ‾ m ( s ) T ( j ) C m ( s ) - 1 μ ‾ m ( s ) ( e ) }
由此我们求得线性方程式组
Σ s Σ m Σ t γ m ( s ) ( t ) μ ‾ m ( s ) T ( e ) C m ( s ) - 1 O t = Σ s Σ m Σ t γ m ( s ) ( t ) Σ j = 1 E w j μ ‾ m ( s ) T ( j ) C m ( s ) - 1 μ ‾ m ( s ) ( e ) , e = 1 . . E .
估计本征空间中的接近程度
当把说话者表示为本征空间中的点时,能够使用简单的几何距离计算识别哪一个训练数据说话者最靠近新的说话者。当把说话者表示为本征空间中的分布时,通过把新的说话者数据作为观测O并然后通过测试每一分布候选项(表示训练说话者)估计接近程度,以确定候选项产生观测数据的概率如何。具有最高概率的候选项被估计为具有最接近的程度。在某些高度安全的应用中,如最可能的候选项具有低于预定阈值的概率,可能希望拒绝认证。这样可使用一价值函数区分出缺乏高度确定性的候选项。
如以上所述,估计新的说话者对训练说话者的接近程度可完全在本征空间内进行。另外,可对更高精确性情形使用贝叶斯估计技术。
为了使用贝叶斯估计强化接近程度的估计,本征空间内训练说话者高斯密度乘以正交互补空间中,表示通过维数降低而被抛弃的说话者数据的估计的边际密度。就此而言,要认识到,对说话者模型进行维数降低的结果是从高维空间向低维空间显著的数据压缩。虽然维数降低保留了大部分重要的基向量,但某些抛弃了某些较高阶的信息。贝叶斯估计技术估计对应于这一被抛弃信息的边际高斯密度。
为了说明,假设原始的本征空间是通过维数降低过程由超向量的线性变换构造的,从而从所有分量较大的数目N中抽取M个分量。较小的所抽取的M个分量表示对应于极大本征值的变换基的较低维子空间。这样,本征空间由分量i=1…M定义,其中抛弃的次要分量对应于i=M+1…N。这两组分量定义了两个相互排斥并互补的子空间,主子空间表示有用的本征空间,而其正交分量表示通过维数降低被抛弃的数据。
我们可以通过以下方程式作为这两个彼此正交的空间中的高斯密度的乘积计算似然估计:
P ^ ( x | Ω ) = P E ( x | Ω ) * P E · · ( x | Ω )
在以上方程式中,第一项是本征空间E中单一高斯密度,而第二项是与本征空间正交的空间中单一高斯密度。由此得出,只使用到本征空间的投影和残值即可从训练数据向量集合完全估计这两项。

Claims (11)

1.用于对预定客户说话者执行说话者检验或说话者识别的方法,包括:
对来自多个训练说话者的语音训练一组语音模型,该多个训练说话者包括至少一个客户说话者;
通过对所述语音模型组进行维数降低来构造表示所述多个训练说话者的本征空间,以便产生定义所述本征空间的一组基向量;
把所述客户说话者表示为所述本征空间中的第一位置;
根据来自新说话者的语音输入数据训练新的语音模型;
对所述新的语音模型进行维数降低,以产生所述新的说话者作为本征空间中第二位置的表示;
估计所述第一和第二位置之间的接近程度,并使用所述估计作为新的说话者是否为客户说话者的指示。
2.根据权利要求1的说话者检验或识别方法,其中,所述多个训练说话者包括多个不同的客户说话者,并且其中,所述方法还包括:
把所述多个客户说话者中的每一个表示为所述本征空间中的训练说话者位置,以及
估计所述第二位置和所述训练说话者位置之间的接近程度,并至少部分地基于所述接近程度的估计,把所述新的说话者识别为所述多个客户说话者中选择的一个。
3.根据权利要求1的说话者检验或识别方法,其中,所述多个训练说话者包括被表示为本征空间中第三位置的至少一个冒名顶替说话者。
4.根据权利要求3的说话者检验或识别方法,还包括附加估计所述第二和第三位置之间的接近程度,并使用所述附加估计作为对新的说话者是否为客户说话者的进一步指示。
5.权利要求1的说话者检验或识别方法,其中,估计接近程度的所述步骤通过确定所述第一和第二位置之间的距离进行。
6.权利要求1的说话者检验或识别方法,其中,所述训练说话者被表示为所述本征空间中的位置。
7.权利要求1的说话者检验或识别方法,其中,所述训练说话者被表示为所述本征空间中的点。
8.权利要求1的说话者检验或识别方法,其中,所述训练说话者被表示为所述本征空间中的分布。
9.权利要求1的说话者检验或识别方法,其中,执行维数降低还包括使用所述输入数据产生一概率函数,并且然后使所述概率函数极大化以确定位于所述本征空间内的一个极大似然向量。
10.权利要求1的说话者检验或识别方法,其中,所述多个训练说话者包括多个客户说话者和至少一个冒名顶替说话者。
11.权利要求1的说话者检验或识别方法,还包括周期地估计所述第一和第二位置之间的接近程度,并使用所述估计作为新的说话者是否为客户说话者的指示,以便确定所述新的说话者身份是否有变化。
CNB991183894A 1998-09-04 1999-09-03 基于本征话音的说话者检验和说话者识别 Expired - Fee Related CN1188828C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/148,911 US6141644A (en) 1998-09-04 1998-09-04 Speaker verification and speaker identification based on eigenvoices
US09/148,911 1998-09-04

Publications (2)

Publication Number Publication Date
CN1247363A CN1247363A (zh) 2000-03-15
CN1188828C true CN1188828C (zh) 2005-02-09

Family

ID=22527990

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991183894A Expired - Fee Related CN1188828C (zh) 1998-09-04 1999-09-03 基于本征话音的说话者检验和说话者识别

Country Status (7)

Country Link
US (2) US6141644A (zh)
EP (1) EP0984431B1 (zh)
JP (1) JP2000081894A (zh)
CN (1) CN1188828C (zh)
DE (1) DE69914839T2 (zh)
ES (1) ES2214815T3 (zh)
TW (1) TW448416B (zh)

Families Citing this family (237)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2001073756A1 (en) * 2000-03-31 2001-10-04 Centre For Signal Processing Of The Nanyang Technological University School Of Electrical & Electronic Engineering Speaker verification from a projection matrix
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
ES2239650T3 (es) * 2000-07-05 2005-10-01 Matsushita Electric Industrial Co., Ltd. Identificacion y verificacion de interlocutores.
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7620547B2 (en) * 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
WO2004064040A1 (en) * 2003-01-15 2004-07-29 Siemens Corporate Research Inc. A method for processing speech
US7299177B2 (en) * 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
EP1639579A1 (fr) * 2003-07-01 2006-03-29 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
US7224786B2 (en) * 2003-09-11 2007-05-29 Capital One Financial Corporation System and method for detecting unauthorized access using a voice signature
US7212613B2 (en) * 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
WO2005055200A1 (en) * 2003-12-05 2005-06-16 Queensland University Of Technology Model adaptation system and method for speaker recognition
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
US7636855B2 (en) * 2004-01-30 2009-12-22 Panasonic Corporation Multiple choice challenge-response user authorization system and method
US20050192973A1 (en) * 2004-02-12 2005-09-01 Smith Micro Software, Inc. Visual database management system and method
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7565292B2 (en) * 2004-09-17 2009-07-21 Micriosoft Corporation Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US7565284B2 (en) * 2004-11-05 2009-07-21 Microsoft Corporation Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
US20070201443A1 (en) * 2006-02-09 2007-08-30 Debanjan Saha VoIP caller authentication by voice signature continuity
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US20090106025A1 (en) * 2006-03-24 2009-04-23 Pioneer Corporation Speaker model registering apparatus and method, and computer program
EP1843325B1 (en) * 2006-04-03 2009-11-18 Voice.Trust Ag Speaker authentication in digital communication networks
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
DE602006018795D1 (de) * 2006-05-16 2011-01-20 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
EP1860647B1 (en) * 2006-05-24 2009-12-23 Voice.Trust Ag Robust speaker recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154380B (zh) 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US20080195395A1 (en) * 2007-02-08 2008-08-14 Jonghae Kim System and method for telephonic voice and speech authentication
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8817964B2 (en) * 2008-02-11 2014-08-26 International Business Machines Corporation Telephonic voice authentication and display
WO2009110613A1 (ja) * 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719191B2 (en) * 2010-03-01 2014-05-06 International Business Machines Corporation Training and verification using a correlated boosted entity model
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
US8442823B2 (en) * 2010-10-19 2013-05-14 Motorola Solutions, Inc. Methods for creating and searching a database of speakers
US9318114B2 (en) 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20130243207A1 (en) * 2010-11-25 2013-09-19 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9336775B2 (en) 2013-03-05 2016-05-10 Microsoft Technology Licensing, Llc Posterior-based feature with partial distance elimination for speech recognition
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US9258425B2 (en) 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10709388B2 (en) 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10056076B2 (en) * 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
EP3637414B1 (en) 2016-11-07 2024-01-03 Google LLC Recorded media hotword trigger suppression
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
KR102622356B1 (ko) 2017-04-20 2024-01-08 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102364853B1 (ko) 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
EP3553773B1 (en) 2018-04-12 2020-06-03 Spotify AB Training and testing utterance-based frameworks
EP3553775B1 (en) 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
EP1058926A1 (en) * 1998-03-03 2000-12-13 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices

Also Published As

Publication number Publication date
JP2000081894A (ja) 2000-03-21
DE69914839D1 (de) 2004-03-25
DE69914839T2 (de) 2005-01-05
TW448416B (en) 2001-08-01
CN1247363A (zh) 2000-03-15
EP0984431A3 (en) 2000-11-29
ES2214815T3 (es) 2004-09-16
EP0984431A2 (en) 2000-03-08
US6697778B1 (en) 2004-02-24
EP0984431B1 (en) 2004-02-18
US6141644A (en) 2000-10-31

Similar Documents

Publication Publication Date Title
CN1188828C (zh) 基于本征话音的说话者检验和说话者识别
Hansen et al. Speaker recognition by machines and humans: A tutorial review
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN1178202C (zh) 用于执行说话者适应或规范化的方法
CN101393740B (zh) 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN107680600A (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Jang et al. Learning statistically efficient features for speaker recognition
US20030110038A1 (en) Multi-modal gender classification using support vector machines (SVMs)
Lataifeh et al. Arabic audio clips: Identification and discrimination of authentic cantillations from imitations
CN1298172A (zh) 用于中等或大词汇量语音识别的上下文相关声模型
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
Noroozi et al. Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN1144172C (zh) 包括最大似然方法的基于本征音的发言者适应方法
CN1253851C (zh) 基于事先知识的说话者检验及说话者识别系统和方法
JP5029648B2 (ja) 演算装置及びプログラム
Nemala et al. A joint acoustic and phonological approach to speech intelligibility assessment
CN114091662B (zh) 一种文本图像生成方法、装置及电子设备
Yang et al. Robust speaker identification using ensembles of kernel principal component analysis
Omar et al. Maximum conditional mutual information projection for speech recognition.
CN112487816B (zh) 一种基于网络分类的命名实体识别方法
Khandekar et al. Steganography for text messages using image
Yelure et al. Machine Learning based Voice Authentication and Identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee