CN1178202C - 用于执行说话者适应或规范化的方法 - Google Patents

用于执行说话者适应或规范化的方法 Download PDF

Info

Publication number
CN1178202C
CN1178202C CNB991183916A CN99118391A CN1178202C CN 1178202 C CN1178202 C CN 1178202C CN B991183916 A CNB991183916 A CN B991183916A CN 99118391 A CN99118391 A CN 99118391A CN 1178202 C CN1178202 C CN 1178202C
Authority
CN
China
Prior art keywords
speaker
model
vector
group
eigen space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB991183916A
Other languages
English (en)
Other versions
CN1253353A (zh
Inventor
¡
罗兰德·库恩
�ˡ����˶�������˹
帕特里克·贵恩
���͵¡����߶���˾
吉恩-克劳德·琼克瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1253353A publication Critical patent/CN1253353A/zh
Application granted granted Critical
Publication of CN1178202C publication Critical patent/CN1178202C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于执行说话者适应或规范化的方法,该方法包括以下步骤:通过对训练的说话者提供一组模型,来构造表示多个所述训练说话者的本征空间,并对所述模型组执行维数降低,以产生定义所述本征空间的一组基向量;产生适应模型,使用来自新的说话者的输入语音以训练所述适应模型,同时使用所述基向量组来约束所述适应模型,使所述适应模型位于所述本征空间内。

Description

用于执行说话者适应或规范化的方法
技术领域
本发明一般涉及语音识别,并特别涉及说话者适应,从而修改语音识别模型参数以便更好地识别新的说话者语音。
背景技术
语音识别系统可以是说话者相关的或说话者无关的。通过给出由个人发出的大量词语例子(这些例子称为“训练数据”)说话者相关系统受到训练,以便理解单独的个人说的是什么。说话者相关系统对于它们所针对训练的个人可能是很精确,而对于其它每一个人是不精确的。说话者无关系统设计为由讲应用语言的任何人使用;一般来说,他们就来自许多不同的人的数据受到训练。对不在训练数据内说话者执行识别,说话者无关系统的错误率,与可比的说话者相关系统对系统被训练的说话者执行识别的错误率相比大约为二到三倍高。
为了改进性能,许多语音识别系统包括用于执行说话者适应的装置,从而语音识别系统在使用中被调节以降低错误率。在当前的技术文献中所描述的基本有三种说话者适应方法。它们是:
(1)说话者规范化(也称为“变换”)--对由新的说话者特征向量产生的数字化信号的观测被变换,以便更接近来自说话者相关系统为其被训练的基准说话者的观测。在某些情形下,变换以相反方向执行:基准模式被变换而更加接近于来自新的说话者数据。
(2)说话者分簇--使用新的说话者的观测,以便选择训练说话者的簇;每一簇与只对这一簇中的说话者训练的隐藏马尔科夫模型(HMM)完全集相关。一旦选择到最适合该说话者的簇,则使用仅来自这一簇的HMM执行识别。
(3)模型适应--更新一定的HMM参数以反映适应数据的各方面。两个最普遍的模型适应技术是极大后验估计(MAP)及极大似然线性回归(MLLR)。
虽然已经证明这些适应技术每一个都是有益的,但每一个都有某些缺陷。一般来说,比较有效的适应技术倾向于需要可观的计算资源,并还要求对说话者个人方面很多的训练。
本发明带来了全新的技术,使用这种技术可执行说话者规范化及说话者与环境适应。该技术使最初的说话者无关识别系统能够快速获得对新的说话者及接近说话者相关系统的新的声音环境的性能水平,而无需对每一新的说话者大量的训练数据。我们称我们的技术为“本征话音适应”。我们已经发现本征话音适应能够用于各种不同的场合,这些场合将通过某些特定的例子说明。
一般来说,本征话音适应涉及能够大大改进执行说话者与环境适应的速度和效率的先进的维数降低。维数降低是指高维空间到低维空间的映射。可使用各种不同的技术实现维数降低。这些技术包括主成分分析(PCA),线性鉴别分析(LDA),因素分析(FA),单值分解(SVD)及其它使用基于方差的降低准则的变换。
与文献中描述的其它适应技术不同,我们的本征话音适应技术将维数降低用于完全说话者模型集,以便找到覆盖这些说话者模型空间的基向量。作为说明,使用维数降低在脱机步骤分析大量收集的说话者模型,以产生我们称为“本征话音向量”或“本征话音”的本征向量集合。这一脱机步骤计算上是相当密集的,虽然只需要执行一次。这之后,每次使用语音识别系统时,对从新的说话者获得的适应数据执行计算上耗费不大的操作,以获得由本征话音覆盖的空间中的向量。这一新的向量对新的说话者给出了适应模型。
发明内容
本发明的能力的一部分从训练说话者的收集集合及识别系统要对得其适应新的个别说话者的本征话音表示导出。换言之,在维数降低步骤形成的本征空间表示所有的训练说话者集合的语音特性。定义这一n维空间的各本征向量每一个包含不同的信息,并例如能够表示为有序的列表或阵列的成员。
根据本发明的一个方面,提供了一种用于执行说话者适应或规范化的方法,该方法包括以下步骤:
通过对训练的说话者提供一组模型,来构造表示多个所述训练说话者的本征空间,并对所述模型组执行维数降低,以产生定义所述本征空间的一组基向量;
产生适应模型,使用来自新的说话者的输入语音以训练所述适应模型,同时使用所述基向量组来约束所述适应模型,使所述适应模型位于所述本征空间内。
根据本发明的另一个方面,提供了一种执行说话者适应或规范化的方法,所述方法包括步骤:
通过对训练的说话者提供一组模型,构造表示多个所述训练说话者的本征空间,并对所述模型组执行维数降低,以产生定义所述本征空间的一组基向量;
产生适应模型,使用来自新的说话者的输入语音以便在定义所述适应模型的本征空间中找出极大似然向量,使所述适应模型位于所述本征空间内。
根据本发明的再一个方面,提供了一种执行说话者适应或规范化的方法,该方法包括步骤:
将多个训练说话者表示为第一组变换矩阵,以及变换矩阵所适用的模型;
通过对所述第一组变换矩阵执行维数降低而构造表示多个训练说话者的本征空间,以产生一组定义所述本征空间的基向量;
使用来自新的说话者的输入语音产生第二组变换矩阵,同时使用所述基向量组来约束所述第二组变换矩阵,使得所述第二组变换矩阵位于所述本征空间内。
使用本发明大大降低了计算负担,因为本征向量是正交的,允许通过解一组线性方程式执行计算机能够易于执行的随后的计算。
能够以数种不同的方式实现将新的说话者放入本征空间内。虽然能够使用简单的几何投影,将新的说话者放入本征空间中,但我们已经研发了一种我们称为极大似然本征话音分解(MLED)这样一种改进的技术,用于将新的向量放入由本征话音覆盖的空间。极大似然技术涉及基于来自新的说话者的观测数据并还基于如何构造隐藏马尔科夫模型的知识而构造概率函数。使用这一概率函数,通过取导数并求局部极大值而获得极大似然向量。这样这一极大似然向量被固有地约束到由本征话音覆盖的空间内,并在该空间内成为对给出可用的输入语音数据新的说话者良好的表示。
当使用精确的说话者相关模型良好的训练集合作为维数降低的基础时,我们的本征话音适应技术给出出色的结果。因而根据本发明的一个方面,在使用辅助的适应技术使维数降低之前可获得说话者相关模型并使之加强。这类技术包括极大A后验估计(MAP)及其它基于变换的方法,诸如极大似然线性回归(MLLR)。
根据本发明的另一方面,本征话音适应技术用来开发初始适应模型,并且这一模型后来使用诸如上述那些辅助技术进而被改进。通过首先使用MLED技术并然后使用这些辅助适应技术之一,可以获得最好的结果。
到此所讨论的本征话音适应技术已经涉及施加给训练说话者集合的维数降低。本发明的另一方面涉及将维数降低应用于从诸如MLLR这种基于变换的适应技术所得到的变换矩阵。这种方法中,使用每一训练说话者估计来自说话者无关模型(例如使用MLLR)的变换矩阵集合。然后对于每一训练说话者的变换矩阵集合向量化(转换为高维超向量)。然后对超向量集合应用维数降低技术以产生我们称为“本征变换向量”或“本征变换”的低维本征向量集合。
为了快速适应新的说话者,系统假设新的说话者的变换矩阵位于由本征变换覆盖的子空间中,并对说话者无关模型施加结果变换。
维数降低跳跃到本征空间提供了相当的灵活性及计算上的经济性。例如我们发现,统计处理技术可用于低维本征空间本身。因而,根据本发明的另一方面,诸如贝叶斯估计这样的统计过程可在本征空间中执行,以便作为更好定位新的说话者处于本征空间中处何的方法。关于说话者空间什么区域密集或稀疏分布的先验知识(例如来自训练说话者)用来加细在本征空间内何处定位新的说话者的估计。
实际上,这里所述的本征话音适应技术将允许基于很短的、并潜在不完整的训练周期的卤棒性适应模型的构成。这样这些技术有助于在不能获得大量适应数据的场合的说话者和环境适应应用。例如,这些技术将能在语音可用交互式市场系统中很好地工作,其中新的说话者通过电话响应系统导航提示,并且在说话者通过系统导航提交定单时系统自动地适应新的说话者。
附图说明
为了更完整理解本发明、其目的和先进性,请参照以下说明和附图。
图1示出了有助于理解本发明的示例性隐藏马尔科夫模型(HMM);
图2是表示如何由多个训练说话者构造本征空间的数据流程图;
图3是表示根据本发明如何使用本征话音构造适应模型的数据流程图;
图4是本征空间简化(二维的)说明,比较投影运算与本发明的MLED极大似然运算;
图5是表示根据本发明来自新说话者的观测数据如何通过本征空间变换为适应模型的数据结构图示;
图6是表示本发明的极大似然本征空间适应过程的流程图;
图7是表示用于基于变换矩阵定义本征空间的维数降低过程数据流程图;
图8是用于理解贝叶斯估计技术的框图;
图9是总结说明书中所述各种本征话音适应技术的数据流程图。
具体实施方式
为了更好地理解本发明的说话者适应技术,对语音识别系统基本的理解是有帮助的。当前大多数语音识别器采用隐藏马尔科夫模型(HMM)表示语音。隐藏马尔科夫模型是涉及状态图的建模方法。任何语音单元(诸如短语、词、半词、音素等)都能够以包含在该模型中的所有知识源被建模。HMM表示产生离散区间可观测的输出序列一种未知的过程,输出是某些有限的字母成员(对应于语音单元预定的集合)。这些模型被称为“隐藏的”,因为产生可观测输出的状态序列是未知的。
如图1所示,HMM10由状态集合(S1,S2,...S5)、定义图1中箭头所示的某些状态对之间的转移的向量以及概率数据集合来表示。特别地,隐藏马尔科夫模型包括与转移向量相关的转移概率集合12及与每一状态观测的输出相关的输出概率集合14。对模型从一个状态到另一状态按规则间隔、离散区间定时。按时钟时间,模型可以从其当前状态变为对其转移向量存在的任何状态。如图所示,转移可从给定的状态返回到自身。
转移概率表示当对模型计时时从一个状态向另一状态转移将发生的似然率。于是如图1所示,每一转移与一概率值(0与1之间)相联系。处于任意状态的所有概率之和等于1。举例来说,在转移概率表格12中给出了示例性转移概率值集合。应当理解,在一有效的实施例中,这些值将由训练数据产生,其限制是处于任意状态的所有概率之和等于1。
每次执行转移时,可以将模型设想为发出或输出其字母表的一个成员。在图1所示的实施例中,假设基于音素的语音单元。这样在输出概率表14中定义的符号对应于标准英语中找到的音素。在每一转移时发出哪一个字母表成员取决于输出概率值或训练期间学习的函数。这样发出的输出表示观测的序列(基于训练数据),并且每一字母表成员有一被发出的概率。
在对语音建模中,通常实际的作法是将输出作为与离散字母表符号序列相对的连续向量序列。这需要输出概率表示为与单个数值相对的连续概率函数。这样,HMM常常基于包括一个或多个高斯分布的概率函数。当使用多个高斯函数时,如在16处所示,它们一般相加地混合在一起以定义一复合的概率分布。
无论表示为单一高斯函数还是表示高斯函数的混合,概率分布能够由多个参数描述。如同转移概率值(表12)那样,这些输出概率参数可能包含浮点数。参数表18标识一般用来基于来自训练说话者的观测数据表示概率密度函数(pdf)。由图1中高斯函数16的方程式所示,要执行建模的观测向量O的概率密度函数是乘以高斯密度N的每一混合分量的混合系数的叠代和,其中高斯密度具有平均向量uj,以及从倒谱或滤波器组系数语音参数计算的协方差矩阵Uj
隐藏马尔科夫模型识别器实现的细节从一个应用到另一应用可以有很大变化。图1所示的HMM例子只是要解释隐藏马尔科夫模型是如何构造的,并不是作为对本发明范围的限制。就此而言,有许多各种不同的隐藏马尔科夫建模概念。正如从以下说明能够更充分理解那样,本发明的本征话音适应技术能够很好地适用于每一种不同的隐藏马尔科夫模型变形,以及其它基于参数的语音建模系统。
构造本征话音空间
构造表示多个训练说话者的本征空间的过程示于图2。说明假设训练说话者20的数目T提供了本征空间将在其上构造的一训练数据22语料库。最好有合理的大量说话者(数量级100到200)提供训练数据。然后这些训练数据用来训练如24所示的说话者相关(SD)模型。在步骤24对每一说话者构造一模型,每一模型表示要由识别系统理解的声音单元的整个库存。根据以上由图1提供的说明,每一模型可以是HMM的一个集合,对每一声音单元一个HMM。这表示在图2中26处。
在训练集合表示精确的说话者相关模型时可以得到出色的结果。因而,如果需要,可以使用辅助的适应技术加强说话者相关模型。这种技术包括极大A后验估计(MAP)及其它基于变换的方法,诸如极大似然线性回归(MLLR)。这一可选的辅助适应处理示于图2中27处。当构造大词汇量应用时,其中对给定的说话者每个参数训练数据量可能是低的,这样加强说话者相关模型特别占优势。
在来自T个说话者的所有训练数据已经用于训练相应的说话者相关模型之后,在28处构造T个超向量的集合。这样对T个说话者每一个将有一个超向量30。每一说话者的超向量包括对应于该说话者隐藏马尔科夫模型的参数18至少一部分的参数(一般是浮点数)的一有序列表。对应于声音单元的参数包含在给定的说话者超向量中。参数可以按任何方便的顺序组织。顺序是不重要的;然而,一旦采用了一种顺序,则必须对所有的T个说话者遵循该顺序。
然后有序的隐藏马尔科夫模型参数被连接起来以形成超向量。选择哪些HMM参数包含在超向量中可取决于可用的处理能力。我们发现,从高斯均值构造超向量给出良好的结果。如果可使用较大的处理能力,则超向量也可以包含其它HMM参数,诸如转移概率(图1,表12)或协方差矩阵参数(图1,参数18)。当然,如果隐藏马尔科夫模型产生离散输出(与概率密度相反),那么这些输出值可用来组成超向量。
在对每一训练说话者已经构造了超向量之后,在步骤32执行维数降低。维数降低是通过将高维空间映射到低维空间而实现的。可使用各种不同技术实现维数降低。这些技术包括主成分分析(PCA)、线性鉴别分析(LDA)、因素分析(FA)、独立成分分析(ICA)、单值分解(SVD)及其它使用基于方差的降低准则的变换。
更具体来说,实现本发明中使用的维数降低技术的类型定义如下。考虑从用于语音识别的说话者相关模型获得的T个训练超向量的集合。设这些超向量的每一个有维数V;这样,我们能够将每一超向量标记为X=[x1,x2,...xV]^T(V*1向量)。考虑可施加到超向量(即施加到任何维数V的向量)以产生新的维数E的向量(E小于或等于T,训练超向量数目)的线性变换M;每一被变换的向量能够标记为W=[w1,w2,...wE]^T。以某种方法从T个训练超向量集合计算M的参数值。
这样,我们有了线性变换W=M*X。M有维数E*V,而W有维数E*1,其中E<=T;对于T个训练超向量的特定集合,M将是常数。可用使用几种维数降低技术从T个训练超向量集合计算线性变换M,使得W有维数E<=T。
例子包含主成分分析,独立成分分析,线性鉴别分析、因素分析及单值分解。在输入向量是从说话者相关建模推导的训练超向量,且M用来执行实现上述技术的特定情形下,本发明可以使用寻找这种固定线性变换M的任何方法(不只是列出的方法)实现。
如在34处那样,对T个超向量维数降低产生T个本征向量。这样,如果已经使用了120个训练说话者,则系统将产生120个本征向量。这些本征向量定义我们称之为本征话音空间或本征空间的东西。
形成本征话音空间的本征向量包含不同的信息;它们每一个表示不同的维,通过这些维可以区分不同的说话者。原始训练集合中每一超向量能够表示为这些本征向量的线性组合。本征向量按它们在对数据建模中的重要性来排序:第一个本征向量比第二个重要,第二个比第三个重要,等等。至此我们对这一技术的经验表明,第一本征向量好象对应于性别维。
既然在步骤32产生了极大T个本征向量,实际上能够抛弃这些向量中的几个,而只保留前N个本征向量。这样在步骤36我们可选地抽取T个本征向量中的N个,在步骤38组成减少参数的本征空间。能够舍弃较高阶的本征向量,是因为它们包含在说话者之中执行鉴别的较次要信息。降低本征话音空间到少于训练说话者总数,提供了能够有助于在以有限的存储器和处理器资源构造实用系统时的内在的数据压缩。
执行适应
一旦构造了本征话音空间,能够易于实现说话者规范化、说话者适应或环境适应。虽然构造本征空间计算上有些烦琐,并一般是脱机执行的,但在新的说话者正在使用系统时适应还是能够执行的比较简单的计算操作。参见图3,在步骤42使用来自新的说话者40的语音以训练说话者相关模型,构造HMM集合44(每一声音单元一个)。说话者相关模型能够或者以监视模式训练,其中训练系统事先知道训练语音的内容,或者以非监视模式训练,其中语音识别系统使用说话者无关模型确定适应语音的内容。
对这一新的说话者训练的说话者相关模型通常至少在开始很不适用于执行识别。然而,模型却可能用来构造超向量。在步骤46构造超向量,使得强制超向量(超向量48)落入先前从训练说话者生成的本征话音空间38。以强加的约束构造超向量48,使得用于识别的HMM模型必须是构成本征话音空间38的本征话音的线性组合。
说话者相关模型44用来估算将组成对新的说话者适应模型的系数的线性组合。这样在步骤50,基于超向量48构造新的HMM集合以产生适应模型52。如果需要,可以在54执行可选的叠代过程,以便从适应的模型52构造新的超向量,并此后构造HMM的另一集合,从该集合可构造进一步的适应模型。
图4以二维空间示出约束新的说话者语音模型处于本征空间38内的过程。如上所述,本征空间是阶数等于通过维数降低而产生的本征向量数的多维空间。
图4中为了简化表示只示出两维,但是应当理解,本征空间38的阶一般比两维高得多。
新的说话者是通过数据点60图示出的。数据点60将对应于图3中所示的超向量48。注意,60处新的说话者位于本征空间38之外。如上所讨论,适应过程涉及在本征空间内寻找表示对这一新的说话者良好适应模型的点。适应模型基于由新的说话者发出的输入语音,但约束处于本征空间38内。
用于在本征空间内置位新的说话者的一个简单技术要使用线条62所示的简单投影运算。投影运算在本征空间内寻找尽可能靠近本征空间之外对应于新的说话者输入语音的点。这样的简单投影将将新的说话者置位于本征空间38内的点64。应当记住,这些点实际上是从其能够重新组成HMM集合的超向量。
投影运算是不能保证本征空间中的点对新的说话者是优化的比较粗糙的技术。此外,投影运算要求新的说话者的超向量包含数据的完全集合,以便表示该说话者HMM的整个集合。这一要求引起相当大的实用上的限制。当使用投影约束新的说话者到本征空间时,该说话者必须提供足够的输入语音,以使在数据中表示出所有的语音单元。例如,如果指定隐藏马尔科夫模型表示英语语言中所有的音素,则在能够使用简单投影技术之前,训练说话者必须提供所有音素的例子。在很多应用中这一限制完全是不实际的。
极大似然本征话音分解(MLED)技术
本发明的极大似然技术是为了解决上述简单投影的两缺陷。本发明的极大似然技术在本征空间38内寻找表示对应于隐藏马尔科夫模型的超向量的点66,该隐藏马尔科夫模型具有产生由新的说话者提供的语音的最大概率。为了示例,极大似然过程由图4中的线条68表示。
而简单的投影运算将所有的超向量成员作为具有同等重要性对待,最大似然技术是基于从实际适应数据引起的概率的,使信息越多的数据权重越重。与简单投影技术不同,即使新的说话者没有提供完全的训练数据集合(即对某些声音单元的数据缺失),极大似然技术仍将有效。实际上,极大似然技术将构造超向量的上下文考虑在内,即从涉及一定模型比另外的模型更可能产生由新说话者提供的输入语音的概率的隐藏马尔科夫模型执行构造。
实际上,极大似然技术将在本征空间内选择与新的说话者输入语音最一致的超向量,而不论实际上究竟有多少输入语音可得。为了说明,假设新的说话者是Alabama的当地人年轻女性。在收到来自这一说话者发出的一些音节时,极大似然技术将在本征空间内选择表示与说话者的当地Alabama女性口音一致的所有音素(即使那些在输入语音中还没有表示的音素)的点。
图5表示极大似然技术如何工作。来自新的说话者的语音输入用来构造超向量70。如上所述,超向量包括对应于倒谱系数等语音参数的连接列表。在所示的实施例中,这些参数为表示从对应于新说话者的隐藏马尔科夫模型集合抽取的高斯均值的浮点数。其它的HMM参数也可使用。在图示中,这些HMM均值作为如72处的点示出。当以数据完全分布时,超向量70将对每一HMM均值包含对应于由HMM模型表示的每一声音单元的浮点数。为了执行说明,这里假设音素“ah”的参数出现,而音素“iy”的参数缺失。
本征空间38由本征向量74、76和78的集合表示。对应于来自新说话者的观测数据的超向量70可在本征空间中由每一本征向量乘以标记为W1,W2,...Wn的对应的本征值表示。这些本征值起初是未知的。极大似然技术寻找这些未知本征值的值。如将以下更充分说明那样,通过寻找将能在本征空间中最佳表示新说话者的优化解选择这些值。
在使本征值与对应的本征空间38的本征向量相乘并对结果乘积求和之后,产生一个适应模型80。由于输入语音的超向量(超向量70)可能已有某些缺失的参数值(例如“yi”参数),表示适应模型的超向量80以数值完全分布。此即本发明的一个好处。此外,超向量80中的值表示优化解,即它在本征空间中具有表示新说话者的极大似然值。
各本征值W1,W2,...Wn可看作为构成极大似然向量,这里称为极大似然向量。图5在82处图示出向量。如图示所示,极大似然向量82组成本征值W1,W2,...Wn的集合。
图6中示出使用极大似然技术执行适应的过程。来自新说话者组成观测数据的语音用来构造如100处所示的HMM集合。然后HMM集合102用于构成如104处所示的超向量。如图所示,超向量106构成从HMM模型102抽取的HMM参数的连续的列表。
使用超向量106,在108构造概率函数Q。当前优选的实施例采用一种概率函数,该函数表示对HMM模型102的预定集合产生被观测数据的概率。如果函数包含的不只是概率项P,而且还有这项的对数logP,则易于执行概率函数Q的后继操作。
然后在步骤110通过分别对每一本征值W1,W2,...Wn取概率函数的导数,得到概率函数最大值。例如,如果本征空间维数为100,这一系统计算概率函数Q的100个导数,置每一个为零并对各个W求解。虽然这好象是很大的计算量,但是比传统的MAP或MLLR技术执行一般所需的成千次的计算在计算耗费上要小得多。
这样获得的Ws结果集合表示标识本征空间中对应于极大似然点的点所需的本征值。这样,Ws的集合构成本征空间中极大似然向量。就此而言,每一本征向量(图5中的本征向量74、76和78)定义了一组正交向量或坐标,本征值乘以该坐标而定义约束在本征空间内的点。在112示出的这一极大似然向量用来构造对应于本征空间中最优点(图4中的点66)的超向量114。然后在步骤116超向量114可用来构造对新说话者的适应模型118。
在本发明的极大似然结构的上下文中,我们希望使观测O=o1...oT的似然关于模型λ最大化。这可通过叠代求辅助函数Q的最大值(以下)执行,其中λ是叠代处的当前模型,而 是估计的模型。我们有:
Figure C9911839100192
作为最初的逼近,我们可希望只对均值进行最大化。在概率P由HMM集合给出的场合下,我们获得以下结果:
其中:
h ( o t , m , s ) = ( o t - μ ^ m ( s ) ) T C m ( s ) - 1 ( o t - μ ^ m ( s ) )
并设:
ot        为时间t处的特征向量
Cm (S)-1  为状态s的混合高斯逆协方差
Figure C9911839100201
       为对状态s的逼近的适应均值,混合分量m
γm (S)(t)  为P(使用混合高斯m|λsot)
设新说话者的HMM的高斯均值位于本征空间中。设这一空间是由均值超向量μj覆盖的空间,j=1...E,
μ ‾ j = μ ‾ 2 ( 1 ) ( j ) μ ‾ 2 ( 1 ) ( j ) · · μ ‾ m ( s ) ( j ) μ ‾ Ms λ ( S λ ) ( j )
其中μm (s)(j)表示在本征向量(本征模型)j的状态s下混合高斯m的均值向量。
然后我需要:
μ ^ = Σ j = 1 E w j μ ‾ j
μj为正交的,且Wj是我们的说话者模型的本征值。这里我们假设,可对任何新的说话者建模为被观测的说话者数据库的线性组合。然后
μ ^ m ( s ) = Σ j = 1 E w j μ ‾ m ( s ) ( j )
s是M的混合高斯值中的λ、m的状态。
由于我们需要使Q最大化,我们只需设定
∂ Q ∂ w e = 0 , - - - e = 1 . . . E .
(注意,因为本征向量是正交的,故 ∂ w i ∂ w j = 0 , i ≠ j . . )
因而我们有
计算以上的导数,我们有:
0 = Σ s Σ m Σ t γ m ( s ) ( t ) { - μ ‾ m ( s ) T ( e ) C m ( s ) - 1 o t + Σ j = 1 E w j μ ‾ m ( s ) T ( j ) C m ( s ) - 1 μ ‾ m ( s ) ( e )
由此我们求得线性方程式组
Σ s Σ m Σ t γ m ( s ) ( t ) μ ‾ m ( s ) T ( e ) C m ( s ) - 1 o t = Σ s Σ m Σ t γ m ( s ) ( t ) Σ j = 1 E w j μ ‾ m ( s ) T ( j ) C m ( s ) - 1 μ ‾ m ( s ) ( e ) , e = 1 . . . E
在本征空间求得说话者模型之后的辅助适应
上述的本征话音适应技术发展了对新的说话者的初始适应模型。如果需要,然后可使用辅助适应技术进一步改进这一模型,以便进一步细化适应模型。适用的辅助适应技术包括极大A后验估计(MAP)及其它基于变换的方法,诸如极大似然线性回归(MLLR)。在至今的实验中我们发现,如图所示,最好的结果常常是通过首先采用MLED技术并然后采用这些辅助适应技术之一而获得的。
本征话音技术试图估计新的说话者在本征空间中的位置。然而,除非新的说话者也是训练的说话者,否则他或她不大可能精确位于这一子空间中。如果新的说话者接近本征话音空间中被估计的位置,则本征话音技术很有效,但是不可能总是这样。于是一般来说,仅仅使用本征话音技术不大可能对新的说话者提供“真正”的模型。本征话音技术不能表示出新的说话者特有的音素(即在训练的说话者之中没有看到的)。本征话音技术的优点在于,它们能快速对新的说话者提供合理的逼近模型。
另一方面,MAP和其它诸如MLLR基于变换的方法颇为能够求得对新的说话者“真正”的模型;但是它们如果从说话者无关模型开始(通常的方法),这些方法达到模型是缓慢的。MLED或某些其它本征话音技术,后跟诸如MAP或其它诸如MLLR这种基于变换的方法的辅助处理,提供了两方面的最佳效果:对新的说话者合理良好模型的快速估计,后跟向“真正”模型的收敛。
将维数降低用于变换矩阵
诸如MLLR这种基于变换的辅助适应技术,也能够对维数降低提供原始资料。这种情形下,对与维数降低模型参数相反的维数降低变换矩阵执行本征话音适应。
在到此所呈现的例子中,说话者模型用来构造超向量,并然后使这些超向量维数降低以产生本征空间。在根据本发明一个方面的另外的技术中,使训练的说话者数据通过变换过程,并然后使用产生的变换矩阵产生本征空间。
为了说明参见图7,其中在130处的T个说话者提供训练数据132,并然后通过基于变换的适应技术,诸如MLLR,对这些训练数据执行运算,以便在134处估计变换矩阵,每一说话者一个。这产生如136处所示的每一说话者一个的一组变换矩阵W1。这组变换矩阵将施加到表示每一说话者的说话者模型137。
然后这组变换矩阵在步骤138用来构造T个超向量140。类似于前面的例子中连接说话者模型参数的方式,这些超向量可通过连接变换矩阵参数构造。然后在步骤142执行维数降低,产生T个“本征变换”向量的本征空间144。如果需要,如146处所示,该过程可以可选地抽取T个本征变换的子集N。这一结果得到N个本征变换的本征空间148。
为了快速适应新的说话者,系统假设对该新的说话者适当的变换Wi位于由这些本征变换覆盖的子空间中。系统使用简单投影或其它诸如上述MLED技术这样的技术估计本征变换适当的线性组合。这一结果是对新的说话者的一个本征变换向量,这向量可用于说话者
无关模型,以便达到对新的说话者适应的模型。
在本征空间内使用贝叶斯估计
来自训练的说话者通过维数降低处理的数据定义了本征空间的分界和边界。一般来说,训练的说话者本身不是在本征空间中均匀分布的。而是有一概率分布,本征空间内某些区域稀疏分布,而其它区域稠密分布。由于这一概率分布来源于训练的说话者并在训练之后即被得知,故在本征空间中益使用贝叶斯估计。
贝叶斯估计即考虑(原有的训练说话者)先验的概率分布,又考虑来自新的说话者的观测数据。形式上,假设对说话者模型λ先验的概率分布为g(λ)。对新的说话者给出观测O,贝叶斯估计试图求得使以下关系式最大化的λ:
L(O|λ)*g(λ)
即我们使用关于说话者空间什么区域为密集或稀疏分布这样的先验的知识(从训练的说话者推测),来加细我们的估计∧帽:
λ ^
即在这空间中新的说话者的位置。这样的贝叶斯估计涉及使用新的观测数据调和先验概率分布,其中对新的估计寻求极大概率。
有几种方法在本征空间中进行贝叶斯估计。以下将讨论这些方法中的一些方法,但是这一讨论并不是要包括所有的方法。
一项技术使用以上讨论的MLED技术在本征话音空间中估计新说话者,其中w是在以下等式中定义的本征话音权重向量:
Figure C9911839100232
在以上等式中Aw=b是解方程获得MLED估计。∧帽是对新说话者模型(例如说话者无关模型)初始估计,v是从先验概率对数的一阶导数获得的向量,τ是时间因子。时间因子τ对说话者就时间的可变性建模-具体的本征维数时间变化越多,在该维先验概率上放置的权重越大。
在本征话音空间中结合先验概率并执行贝叶斯估计的另一方法是使用这种数据到低维本征空间的投影估计高维数据的高斯密度。如果x是从类别Ω画出的观测向量,而E是通过选择前K个本征向量获得的本征空间,这前K个本征向量是从对来自Ω的训练数据执行维数降低导出的,这时以下等式成立:
P ^ ( x | Ω ) = P E ( x | Ω ) * P E ‾ ( x | Ω )
在以上等式中本征空间E中的单高斯密度由以下项表示:
PE(x|Ω)
在对偶空间即在与本征空间正交的空间中单一高斯分布由以下项表示:
PE(x|Ω)
能够仅使用到E的投影和残差从训练数据向量集完全估计这两项。
计入先验概率的一个简单、近似的方法是假设每一本征维大体是独立的。然后每一维能够划分为小的数目的簇,每一簇具有单一高斯输出分布及先验概率(从训练的说话者计算)。然后适应涉及基于从新的说话者的观测,在每一维中选择最可能的分布。这一方法在训练数据中有高置信度并在来自新说话者的数据中有较低置信度的情形下是有吸引力的。
另外,训练的说话者能够划分为本征话音空间中有限数目的输出分布,每一带有先验概率。然后适应在于找到与新的观测最佳匹配的簇。这一技术在先验概率上比新的观测数据放置更多的权重。
图8总结了施加于本征话音空间的基本贝叶斯估计技术。参见图8,训练数据产生在150所示的模型∧。这些模型对应于本征空间152。模型在本征空间中不是均匀分布,而是有稠密分布区域及稀疏分布区域。这已经以“拓扑”图的形式示出。这些模型∧具有在154图示的概率分布,并在156由概率函数g(∧)示出。
新的说话者160提供在162图示的观测数据O。概率分布156和观测值O在贝叶斯方程164中相乘,且这一乘积用来寻找使贝叶斯方程164最大化的新的说话者模型∧。注意,方程164包括与遇到的观测值O的概率相关的给出模型∧参数的第一项;以及与原始训练数据的概率分布相关的第二项。这样,第一项表示新的说话者而第二项表示先验概率。
环境适应
虽然到此对本发明作为说话者适应技术已经执行了说明,该技术可易于扩展到环境适应。例如许多语音识别系统对环境条件,诸如麦克风位置、空间声学、背景噪声及音频信号信道质量是相当敏感的。本征向量能够用来对不同的说话环境建模,这正如它们用来对不同的说话者建模那样。
在大多数情形下,希望协调说话者适应和环境适应的需要。为了做到这点,我们只需保证在环境广泛的变化中记录训练的说话者。为了获得良好的性能,训练的说话者数目和记忆的本征话音数目可能需要比对于安静环境中本征话音适应必须的数目大。否则,过程与上述相同。
为了产生适应环境而不是说话者的说话者无关系统,适应与上述技术稍微不同的变形。首先,训练E个说话者无关模型,其中E是训练数据中不同环境数。E个模型的每一个对相同的环境中许多不同的说话者训练。理想地,E个不同的记录环境将尽可能多样化。然后,本征话音过程如上述执行。这种情形下,本征话音向量将表示环境之间的变化成分。这样,第一本征向量可能或可能不象说话者适应例子中所作的表示性别维。
所提供的本征话音技术总结
本发明的本征话音适应技术能够用于各种不同的场合。它们可单独使用或与以上概述的其它适应技术一同使用。图9总结了本征话音适应技术的某些可能的应用和实现。参见图9,训练的说话者200对用来产生说话者模型204的初始集合的模型构造器202提供输入。在这点可采取几种不同的方法。
如206所示,可对说话者模型204执行维数降低,以便产生本征空间208。
另外,可使用辅助适应过程210加细说话者模型204,以产生加细的或加强的模型集合212。如以上所指出,辅助适应过程能够实现MAP估计或其它诸如MLLR基于变换的方法。然后维数降低206可施加到这些加强的模型上,基于训练的说话者200加强的模型产生本征空间208。
诸如新的说话者214这样的新的说话者的适应是通过适应过程216执行的,该过程通过任何上述技术将新的说话者放置到本征空间208中。当前优选的实施例使用极大似然技术MLED用于将新的说话者放置到本征空间。
如上所讨论,本征空间内每一向量对应于一说话者模型。这样向本征空间放置新的说话者214的结果是得到本征空间中表示对这新的说话者适应模型的向量。图9中,这一适应模型在218处标记。
如果需要,如220处所示,新的说话者214到本征空间中的放置能够通过贝叶斯估计加强。贝叶斯估计使用来自训练的说话者200关于说话者空间区域哪些是密集的或哪些是稀疏分布的这样的先验概率知识,且这一知识用来加细在该空间内在哪里放置新的说话者的估计。
在适应模型218已经产生之后,可对其执行辅助适应过程222以产生在224所示的更为加细的适应模型。辅助适应过程222能够采用MAP估计或诸如MLLR某些基于变换的方法。与使用过程216结合使用辅助适应过程222提供了双重优点:适应过程216快速达到对新的说话者适应模型的估计;适应过程222对估计加细以找到最佳适应模型。
到此在这一总结讨论中,已经对说话者模型204执行维数降低步骤。回忆起维数降低过程涉及使用诸如隐藏马尔科夫模型参数这样的适当模型参数形成对每一训练的说话者相连的超向量。然而维数降低不限于说话者模型。维数降低还能够用于使用其它说话者适应技术产生的变换矩阵,诸如在210所示的辅助适应过程。
于是,图9还示出维数降低技术的替代使用。辅助适应过程210作为其运算的副产品产生变换矩阵。这些变换矩阵示于图9中226处。例如,辅助适应过程210可以是诸如MLLR基于变换的运算,这种运算从一说话者无关(SI)模型产生一组变换矩阵Wi。然后将对每一训练的说话者的这一组矩阵如通过连接向量化,以产生高维超向量。然后在步骤228执行维数降低以产生对应于一组“本征变换”向量的本征空间230。
为了适应新的说话者,诸如说话者232,适应过程234假设对该新的说话者适当的变换Wi位于由本征变换覆盖的子空间(本征空间230)中。例如使用MLED方法,已经估计了本征变换的适当的线性组合,然后系统将产生的变换Wi施加到说话者无关模型,以产生对新的说话者适应模型236。
在重新查看图9时,请记住,图9是要总结这一文献中其它地方所描述的数个不同的本征话音适应技术。这样,图9中的解释只是要表示这些技术在各种场合中的应用。根据本发明给出的实现可以使用这里所示的某些过程,但是不是完全必须的。此外,图9不是要包括一切。在所附权利要求中所述本发明范围内还可生成许多其它组合。
虽然对本发明就其当前优选实施例执行了说明,但是应当理解,本发明能够适用于各种不同的应用。于是,上述的例子是要说明本发明的构思,而不是限制权利要求的范围。

Claims (32)

  1. (修改)
    1.一种用于执行说话者适应或规范化的方法,该方法包括以下步骤:
    通过对训练的说话者提供一组模型,来构造表示多个所述训练说话者的本征空间,并对所述模型组执行维数降低,以产生定义所述本征空间的一组基向量;
    产生适应模型,使用来自新的说话者的输入语音以训练所述适应模型,同时使用所述基向量组来约束所述适应模型,使所述适应模型位于所述本征空间内。
  2. 2.根据权利要求1的方法,其中通过连接从所述模型组抽取的多个模型参数,并通过对所述模型参数执行线性变换,执行所述维数降低。
  3. 3.根据权利要求1的方法,其中通过从由主成分分析、线性鉴别分析、因素分析、独立成分分析以及单值分解组成的组中选择的变换过程执行所述维数降低。
  4. 4.根据权利要求1的方法,其中用于所述训练说话者的模型定义多个模型参数,且所述构造本征空间的步骤包括连接用于所述训练说话者的模型参数以便构造一组超向量,并对所述超向量执行线性维数降低变换,从而产生所述基向量。
  5. 5.根据权利要求4的方法,其中用于每一所述训练说话者的模型对应于一组不同的语音单元,且其中每一超向量被定义为对应于按预定顺序分类的语音单元的模型参数的连接。
  6. 6.根据权利要求4的方法,其中所述模型参数为倒谱系数。
  7. 7.根据权利要求1的方法,其中所述执行维数降低的步骤产生一组数目等于训练说话者数目的基向量。
  8. 8.根据权利要求1的方法,其中所述执行维数降低的步骤产生基向量的有序列表,并且其中所述构造本征空间的步骤包括放弃所述有序列表的预定部分,以降低所述本征空间阶数。
  9. 9.根据权利要求1的方法,其中所述约束所述适应模型的步骤通过向所述本征空间投影所述输入语音执行。
  10. 10.根据权利要求1的方法,其中所述说话者模型组定义多个参数,并且所述方法还包括通过调节所述模型的至少某些参数来强化所述说话者模型,以定义一组强化的说话者模型的步骤。
  11. 11.根据权利要求10的方法,其中使用极大后验估计执行所述强化步骤。
  12. 12.根据权利要求10的方法,其中使用基于变换的估计过程执行所述强化步骤。
  13. 13.根据权利要求10的方法,其中使用极大似然线性回归估计执行所述强化步骤。
  14. 14.根据权利要求10的方法,其中所述产生适应模型的步骤包括使用来自所述新的说话者的输入语音以产生极大似然向量,以及利用所述极大似然向量来构造所述适应模型,使得所述适应模型位于所述本征空间内。
  15. 15.根据权利要求1的方法,还包括步骤:
    通过从所述适应模型抽取模型参数而强化所述适应模型,并基于来自所述新的说话者的输入语音来至少调节某些所述参数。
  16. 16.根据权利要求15的方法,其中使用极大后验估计执行所述强化步骤。
  17. 17.根据权利要求15的方法,其中使用基于变换的估计过程执行所述强化步骤。
  18. 18.根据权利要求15的方法,其中使用极大似然线性回归估计执行所述强化步骤。
  19. 19.根据权利要求15的方法,其中所述产生适应模型的步骤包括使用来自所述新的说话者的输入语音以产生极大似然向量,以及利用所述极大似然向量来构造所述适应模型,使得所述适应模型位于所述本征空间内。
  20. 20.根据权利要求19的方法,其中使用极大后验估计执行所述强化步骤。
  21. 21.根据权利要求19的方法,其中使用基于变换的估计过程执行所述强化步骤。
  22. 22.根据权利要求19的方法,其中使用极大似然线性回归估计执行所述强化步骤。
  23. 23.根据权利要求1的方法,其中所述模型组定义第一概率分布,且所述输入语音定义观测数据,且其中所述适应模型的产生使得所述观测数据和所述第一概率分布的乘积最大化。
  24. 24.根据权利要求23的方法,还包括向所述第一概率分布及所述第二概率分布施加置信因子,以反映由所述分布提供的信息置信度对时间如何变化。
  25. 25.一种执行说话者适应或规范化的方法,所述方法包括步骤:
    通过对训练的说话者提供一组模型,构造表示多个所述训练说话者的本征空间,并对所述模型组执行维数降低,以产生定义所述本征空间的一组基向量;
    产生适应模型,使用来自新的说话者的输入语音以便在定义所述适应模型的本征空间中找出极大似然向量,使所述适应模型位于所述本征空间内。
  26. 26.根据权利要求25的方法,其中所述产生极大似然向量的步骤包括:
    定义表示对预定的一组模型产生观测数据的概率的概率函数,其中所述输入语音提供所述观测数据;以及
    最大化所述概率函数以找出所述极大似然向量。
  27. 27.根据权利要求25的方法,其中所述适应模型通过使极大似然向量系数乘以所述基向量,而根据所述极大似然向量导出。
  28. 28.根据权利要求26的方法,其中所述最大化步骤通过以下执行:
    将所述极大似然向量表示为一组本征值变量;
    对于所述本征值变量取所述概率函数的一阶导数;以及
    当所述一阶导数等于零时,求出所述本征值变量对应的值。
  29. 29.一种执行说话者适应或规范化的方法,该方法包括步骤:
    将多个训练说话者表示为第一组变换矩阵,以及变换矩阵所适用的模型;
    通过对所述第一组变换矩阵执行维数降低而构造表示多个训练说话者的本征空间,以产生一组定义所述本征空间的基向量;
    使用来自新的说话者的输入语音产生第二组变换矩阵,同时使用所述基向量组来约束所述第二组变换矩阵,使得所述第二组变换矩阵位于所述本征空间内。
  30. 30.根据权利要求29的方法,其中所述第一组变换矩阵是通过极大似然线性回归产生的。
  31. 31.根据权利要求29的方法,还包括使所述第一组变换矩阵每一个向量化以定义一组超向量,并对所述超向量执行维数降低以定义所述本征空间。
  32. 32.根据权利要求29的方法,还包括使用来自新说话者的输入语音产生所述第二组变换矩阵,以产生极大似然向量,使用所述极大似然向量确定所述本征空间内的位置。
CNB991183916A 1998-09-04 1999-09-03 用于执行说话者适应或规范化的方法 Expired - Lifetime CN1178202C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/148,753 1998-09-04
US09/148,753 US6343267B1 (en) 1998-04-30 1998-09-04 Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques

Publications (2)

Publication Number Publication Date
CN1253353A CN1253353A (zh) 2000-05-17
CN1178202C true CN1178202C (zh) 2004-12-01

Family

ID=22527202

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991183916A Expired - Lifetime CN1178202C (zh) 1998-09-04 1999-09-03 用于执行说话者适应或规范化的方法

Country Status (6)

Country Link
US (1) US6343267B1 (zh)
EP (1) EP0984429B1 (zh)
JP (1) JP2000081893A (zh)
CN (1) CN1178202C (zh)
DE (1) DE69916951T2 (zh)
TW (1) TW452758B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7658794B2 (en) 2000-03-14 2010-02-09 James Hardie Technology Limited Fiber cement building materials with low density additives
US7704316B2 (en) 2001-03-02 2010-04-27 James Hardie Technology Limited Coatings for building products and methods of making same
US8209927B2 (en) 2007-12-20 2012-07-03 James Hardie Technology Limited Structural fiber cement building materials

Families Citing this family (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
EP1159734B1 (de) * 1999-03-08 2004-05-19 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6868381B1 (en) * 1999-12-21 2005-03-15 Nortel Networks Limited Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
JP5105682B2 (ja) * 2000-02-25 2012-12-26 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 基準変換手段を伴なう音声認識装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7050969B2 (en) * 2001-11-27 2006-05-23 Mitsubishi Electric Research Laboratories, Inc. Distributed speech recognition with codec parameters
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
US7165026B2 (en) 2003-03-31 2007-01-16 Microsoft Corporation Method of noise estimation using incremental bayes learning
US7516157B2 (en) * 2003-05-08 2009-04-07 Microsoft Corporation Relational directory
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US20080208581A1 (en) * 2003-12-05 2008-08-28 Queensland University Of Technology Model Adaptation System and Method for Speaker Recognition
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
GB2414328A (en) * 2004-05-17 2005-11-23 Mitsubishi Electric Inf Tech Discrimination transforms applied to frequency domain derived feature vectors
US7496509B2 (en) * 2004-05-28 2009-02-24 International Business Machines Corporation Methods and apparatus for statistical biometric model migration
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
WO2006076661A2 (en) * 2005-01-14 2006-07-20 Tremor Media Llc Dynamic advertisement system and method
US20070049367A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Methods for game augmented interactive marketing
US20070050243A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Multi-unit system and methods for game augmented interactive marketing
US20070050242A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Solo-unit system and methods for game augmented interactive marketing
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
JP2009521736A (ja) * 2005-11-07 2009-06-04 スキャンスカウト,インコーポレイテッド リッチメディアと共に広告をレンダリングするための技術
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2010539085A (ja) * 2007-09-07 2010-12-16 バイオノボ・インコーポレーテッド マメ科ファミリーのキバナオウギのエストロゲン性抽出物およびその使用
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8775416B2 (en) * 2008-01-09 2014-07-08 Yahoo!Inc. Adapting a context-independent relevance function for identifying relevant search results
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090259552A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for providing advertisements from multiple ad servers using a failover mechanism
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
US8374867B2 (en) * 2009-11-13 2013-02-12 At&T Intellectual Property I, L.P. System and method for standardized speech recognition infrastructure
EP2502195A2 (en) * 2009-11-20 2012-09-26 Tadashi Yonezaki Methods and apparatus for optimizing advertisement allocation
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US9008329B1 (en) * 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8972312B2 (en) 2012-05-29 2015-03-03 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9679556B2 (en) * 2012-08-24 2017-06-13 Interactive Intelligence Group, Inc. Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
CN106462772B (zh) 2014-02-19 2019-12-13 河谷控股Ip有限责任公司 对象识别特征的基于不变量的维数缩减、系统和方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3553775B1 (en) * 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN113505801B (zh) * 2021-09-13 2021-11-30 拓小拓科技(天津)有限公司 一种用于超维计算的图像编码方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903035A (en) 1983-12-20 1990-02-20 Bsh Electronics, Ltd. Electrical signal separating device having isolating and matching circuitry
US4718088A (en) 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
JPS62231993A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4817156A (en) 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5127055A (en) 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH0636156B2 (ja) 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
DE3931638A1 (de) 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
JP3014177B2 (ja) 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
US5280562A (en) * 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
DE69322894T2 (de) 1992-03-02 1999-07-29 At & T Corp Lernverfahren und Gerät zur Spracherkennung
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5473728A (en) 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
JPH075892A (ja) 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5664059A (en) 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
WO1995009416A1 (en) 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP2692581B2 (ja) 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
US5793891A (en) 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5806029A (en) 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JP2871561B2 (ja) 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5787394A (en) 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US5778342A (en) 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JP3302266B2 (ja) 1996-07-23 2002-07-15 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
TW436758B (en) 1998-04-30 2001-05-28 Matsushita Electric Ind Co Ltd Speaker and environment adaptation based on eigenvoices including maximum likelihood method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7658794B2 (en) 2000-03-14 2010-02-09 James Hardie Technology Limited Fiber cement building materials with low density additives
US7727329B2 (en) 2000-03-14 2010-06-01 James Hardie Technology Limited Fiber cement building materials with low density additives
US8182606B2 (en) 2000-03-14 2012-05-22 James Hardie Technology Limited Fiber cement building materials with low density additives
US8603239B2 (en) 2000-03-14 2013-12-10 James Hardie Technology Limited Fiber cement building materials with low density additives
US7704316B2 (en) 2001-03-02 2010-04-27 James Hardie Technology Limited Coatings for building products and methods of making same
US8209927B2 (en) 2007-12-20 2012-07-03 James Hardie Technology Limited Structural fiber cement building materials

Also Published As

Publication number Publication date
TW452758B (en) 2001-09-01
DE69916951D1 (de) 2004-06-09
EP0984429A2 (en) 2000-03-08
CN1253353A (zh) 2000-05-17
DE69916951T2 (de) 2005-06-23
US6343267B1 (en) 2002-01-29
EP0984429A3 (en) 2000-11-22
EP0984429B1 (en) 2004-05-06
JP2000081893A (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
CN1178202C (zh) 用于执行说话者适应或规范化的方法
CN1188828C (zh) 基于本征话音的说话者检验和说话者识别
CN100347741C (zh) 移动语音合成方法
Tam et al. Dynamic language model adaptation using variational Bayes inference.
CN1229773C (zh) 语音识别对话装置
CN1150515C (zh) 语音识别方法和装置
CN1234109C (zh) 语调生成方法、语音合成装置、语音合成方法及语音服务器
CN1591570A (zh) 用于紧凑声学建模的泡分裂法
CN101051215A (zh) 学习设备、学习方法和程序
CN101079266A (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1750120A (zh) 索引设备和索引方法
CN1129485A (zh) 信号分析装置
CN1298172A (zh) 用于中等或大词汇量语音识别的上下文相关声模型
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
CN1681002A (zh) 语音合成系统及方法及程序产品
CN1870130A (zh) 音调模式生成方法及其装置
CN1461463A (zh) 语音合成设备
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1144172C (zh) 包括最大似然方法的基于本征音的发言者适应方法
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1253851C (zh) 基于事先知识的说话者检验及说话者识别系统和方法
CN1787074A (zh) 基于情感迁移规则及语音修正的说话人识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140714

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140714

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20041201

CX01 Expiry of patent term