CN1342969A - 用于识别语音的方法 - Google Patents
用于识别语音的方法 Download PDFInfo
- Publication number
- CN1342969A CN1342969A CN01132580A CN01132580A CN1342969A CN 1342969 A CN1342969 A CN 1342969A CN 01132580 A CN01132580 A CN 01132580A CN 01132580 A CN01132580 A CN 01132580A CN 1342969 A CN1342969 A CN 1342969A
- Authority
- CN
- China
- Prior art keywords
- acoustic model
- function
- component
- pattern function
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 37
- 230000000694 effects Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 244000309464 bull Species 0.000 claims description 2
- 239000013604 expression vector Substances 0.000 claims description 2
- 101150082661 MFM1 gene Proteins 0.000 claims 1
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 abstract description 9
- 230000006978 adaptation Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 57
- 230000006399 behavior Effects 0.000 description 11
- 238000004088 simulation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
Abstract
这里给出了一种用于识别语音的方法,其中识别过程以下述方式开始:采用开始声学模型(SAM)并且通过除去或消除对于描述说话行为和当前说话者质量无用的模型函数混合分量(MFMjk),当前声学模型(CAM)被修正。因此,通过适应当前说话者,声学模型(SAM,CAM)的尺寸被减少,因此使得执行速度加快,并提高识别效率。
Description
技术领域
本发明涉及根据权利要求1的序言部分识别语音的方法,特别涉及用于识别语音的方法,由此通过说话者自适应,用于声学模型的模型函数混合的数量被降低,更特别的是,涉及降低基于HMM的说话者自适应语音识别系统中的高斯混合数。
背景技术
现在,用于自动语音识别的方法变的越来越重要。用于识别语音的传统方法中的特殊问题是不得不同时实现相反的目标。一方面,该方法和设备应该尽可能灵活以便处理大量的说话者行为,特别是有多种发音,口音,语调等等的发音行为。然而,另一方面,用于识别语音的方法和设备应该很小以便很容易实现,以具有快速的性能和较高的识别效率,特别是具有低成本。
现有技术中用于识别语音的方法利用说话者自适应方法来变换所依据的声学模型以更好地适应声学属性以及当前或特定说话者的发音行为。每个声学模型的基础基本上是一组模型函数的混合。需要很多模型函数混合来覆盖大量的,变化的声学行为,特别是涉及音素,音位,子字单元,音节,字或其它的声学特性。在传统用于识别语音的方法中,通过在识别过程中,特别基于至少一个已经获得的识别结果,至少部分改变模型函数混合的模型函数混合分量,当前声学模型被调整。
这些传统的用于识别语音的说话者自适应方法的一个主要缺点是这些模型实际上采用了大量的模型函数混合和模型函数混合分量。因此,这些用于识别语音的普通方法必须执行等价的大量检查、比较和判断工作以便使得当前声学模型适合当前说话者,由于计算和检查的负担,用于识别语音的传统方法的实现必须基于具有高容量存储设备和快速计算单元的高性能计算机。
本发明的一个目标是给出一种用于识别语音的方法,该方法具有快速性能,并且计算负担降低而且具有较高的识别率。
发明内容
该目标是通过根据权利要求的一般性部分结合权利要求1特征部分的特征的语音识别方法实现的。用于识别语音的本发明方法的优选和有利实施方案是从属权利要求的主题。
根据本发明用于识别语音的方法的特征在于识别过程是从使用一个开始声学模型作为所述当前声学模型而开始的。此外,在给定的所执行识别步骤和/或所获得识别结果之后,基于所述当前声学模型可以产生一个修正后的声学模型,其方式是消除或除去涉及至少给定数量的已获得识别结果的具有可忽略效应的模型函数混合分量。此外,在每种情况下,利用所述修正后的声学模型作为所述当前声学模型的识别过程会继续-特别是到下一个识别步骤。
因此,本发明的一个基本思想是利用大量的混合,采用一个开始声学模型来覆盖大量的、变化的说话者声学属性。通过从当前声学模型中除去或消除对描述或模拟当前说话者的说话或声学行为和/或特性不起作用或仅起很小作用的模型函数混合分量,模型函数组、特别是必须参考其作用来检查的模型函数混合以及其分量被减少。如果特定的模型函数混合分量基本上不对实现或描述识别结果起作用和/或不对获得特定识别结果起作用,它被跳过。因此,当前识别过程中的下述识别步骤在不用检查这些跳过的模型函数混合分量的情况下被实现,其中的分量被分类为在过去的识别过程中可忽略的。
与用于识别语音的现有技术或传统方法相比,在识别过程刚开始时,本发明方法可以为给定当前说话者使用与传统方法相同的声学模型。但是随着识别结果增多,并且因此有更多的识别步骤,根据本发明,模型函数混合分量的数量被降低,因此,消除了为当前识别过程中下面识别步骤计算调整后的当前声学模型中的剩余模型函数混合分量的负担。其结果是,本发明方法可以执行的更快,同时需要更少的存储容量,特别是不需要降低识别率或效率。
根据本发明的优选实施方案,在每个固定和/或预定的所执行识别步骤之后,和/或获得识别结果之后,特别是在每个单一识别步骤和/或结果之后,修正后的声学模型被重复产生。基于瞬时更新的当前声学模型,在其后执行当前声学模型自适应的步骤数可以被选择用于平衡期望的本发明方法的快速性能和所期望的高可靠识别。
与预定和/或固定一些识别步骤/结果,并在其后执行自适应的做法不同的是,根据本发明的特定优选实施方案,识别步骤的数目或结果的数目可以被确定和/或在识别和/或自适应过程中改变。
根据本发明方法的优选实施方案,一种声学模型被使用,特别是用作每种情况中的所述开始声学模型和/或所述当前声学模型-其中,模型函数混合至少包括分布函数或类似函数。特别的,高斯类型的函数为优选函数,因为它们适于模拟说话者的声学特性。
在用于识别语音的本发明方法的另一个有利实施方案中,在每种情况中,模型函数混合基于一个函数矢量和/或加权因子矢量,每个矢量特别具有有限或相等数量的分量。这样做的特别优越之处是,每个函数矢量分量被分配一个特殊的加权因子矢量,当模拟当前说话者的声学特性时,该矢量描述其幅度或作用。对于不同的模型函数混合,可以选择独立数量的函数矢量或加权因子矢量分量。最好的是,对于所有模型函数混合,函数矢量和加权因子矢量,分量数相同。
一个特殊的优点是,对于不同的模型函数混合是如何构造的给出了一个特殊的简单描述。最好的是,每种情况中的模型函数混合被表示为被其加权因子矢量分量加权的矢量函数分量的线性组合或重叠。特别是,模型函数混合可以由加权因子矢量和函数矢量的标量积或内积,特别是根据下面公式表示:
其中MFMj表示第j个模型函数混合,aj表示第j个加权因子矢量,aj,k是其第k个矢量,fj表示第j个函数矢量,fj,k是其第k个分量,aj T表示aj的转置,·表示矢量的标量积或内积。这种结构使得能够对涉及说话行为的模型函数混合很容易估计,计算和重构,并且很容易地在当前声学模型中估计其作用。
用于识别的本发明方法的基础是为了描述当前说话者声学特性而定义模型函数混合分量和其作用。根据另一个优选实施方案,模型函数混合分量在下面情况下被划分为可忽略不计的:其加权因子矢量分量的绝对值超过了给定阈值。该阈值定义了一个限制值,该限制值必须由模型函数混合分量的幅值即,适当的加权因子矢量分量来达到,使得不同的模型函数混合分量被认为对于当前说话者的声学特性的描述和模拟起作用。
一般来说,仅有一次低于某个阈值并不足以将其分类为可忽略。因此,有利的是,当不同的加权因子矢量分量超过给定阈值给定次数时,将其作用划分为可忽略的,尤其是在识别结果和/或识别步骤分别已经获得或执行时会这样。这意味着在说话行为的评估和当前声学模型的自适应中,将会检测特定的加权因子矢量分量低于给定阈值的次数是否超过给定的次数。
此外,有必要将低于给定阈值的情况与给定数量的其中模型函数混合分量对于当前说话者的说话行为的描述和模拟起作用的情况区分开。发生点或偶发时间可能不会导致划分成可忽略。在这些情况中,如果低于给定阈值的情况是相连或相关,就可能给出(其)可忽略的分类。
在用于识别语音的本发明方法的另一个优选实施方案中,阈值被预定,特别是在识别过程开始之前和/或每个所述模型函数混合分量独立设立。该种手段使得在其自适应和评估过程中,可以对开始声学模型和其行为进行特殊设计。基于特殊的阈值组,一些模型函数混合分量或该模型函数混合可以用特殊的方法评估。
在当前声学模型的自适应和评估过程中,有必要在识别过程中调整、确定和/或修正阈值而不是保持其固定。可以基于涉及流入语音流并特别涉及特定统计和/或噪声数据的信号质量信息来调整和修正阈值。
本发明可以进一步总结如下:
传统上,说话者自适应方法变换语音识别器或语音识别方法的基础声学模型,使得它们很好地适应声学特性以及当前说话者的说话行为。声学模型的基础是大量的模型函数混合,特别是高斯型的函数混合。有必要捕捉大量的这种模型函数混合,并覆盖涉及口呼音素,音节,符号,字,子字单元或类似元素的声学变量。
尽管,根据上面描述的方法,传统的语音识别方法至少可以部分处理所述的大量的说话行为变化。它们却苦于在当前识别过程中对大量模型函数混合和其分量进行计算,即使这些对于描述当前说话者是不必要的。在几个自适应步骤之后,这些模型被调整,使得更好地与新说话者的声学特性匹配。因此,对于该特定说话者,这些模型会被调整的更多。这意味着,不再需要使用很多混合,因为其变化性变的很小了。这一点由下面事实表示:即,对于该说话者的混合作用的加权将更高。
因此,本发明方法建议将当前声学模型中的模型函数混合和混合分量数降低到实际需要用于描述当前说话者的这种模型函数混合分量数。这节省了执行时间,使得执行的更快,因此降低了存储容量的负担。
在对当前说话者的自适应之后,涉及所有可能说话者的当前声学模型,特别是开始声学模型的大量变化不再需要。因此,作为当前模型的调整后声学模型中的较少的模型函数混合和模型函数混合分量足以描述并模拟当前说话者。只有这些模型函数混合分量在自适应过程中保持并对于获得正确的识别结果是必要的。
对于模型函数混合分量,例如高斯分量或类似分量,它们经常存在于识别过程或语音信号中-即它们在过去的识别步骤中匹配的很好,所获得的识别结果或观察的语音帧-混合加权或加权因子矢量分量缓慢增加。对于其它没有观察的模型函数混合分量,加权因子矢量分量被降低。如果模型函数混合分量的这种混合加权低于上面描述的阈值,所述模型函数混合分量被抛弃。因此,它将不会在以后计算。因此,节省了执行时间和内存。
下面,基于优选实施方案并参考通过方框图描述所述优选实施方案的附图,用于识别语音的本发明方法被更详细地描述。
附图简介
附图的方框图给出用于识别语音的本发明方法10的优选实施方案。
优选实施例详述
在第一步11中,语音信号被从当前说话者接收并预处理。为连续接收语音流一部分的语音信号被传送给语音识别处理12的核心,在步骤13中,可从此获得识别结果。根据识别步骤12并根据步骤13的识别结果,在线说话者自适应被初始化。在在线说话者自适应14过程中,均值矢量,方差和混合加权aj,即高斯混合的加权因子矢量分量aj被修正。
在下一个步骤15中,根据已经执行的当前识别过程的识别步骤12,混合加权aj被计算。在计算过程中,高斯或一般的模型函数混合分量被抛弃并从当前声学模型中除去,该模型具有低于给定阈值Cj,k的加权因子矢量aj,k。
在下面步骤16中,剩下的加权因子矢量分量被归一化以便为每个模型函数混合给出相加值1。
在下面步骤17中,当前声学模型CAM的内部结构和数据被调整并更新,包括隐马尔可夫模型等的内部数据结构,使得形成修正后的声学模型MAM。
在下面步骤18中,当前模型CAM被设置成步骤17的修正后的声学模型MAM。在步骤19,最后,当前声学模型CAM被准备指导识别过程10的下一个识别步骤12。
根据本发明的另一个优选实施方案,在用于说话者自适应的修正后声学模型MAM的其它分量中,加权因子矢量aj,k被修正,特别是减少某些低于某个阈值的加权因子矢量aj,k。
Claims (10)
1.用于识别语音的方法,
其中对于识别过程使用了基于一组模型函数混合(MFM1,…,MFMn)的当前声学模型(CAM),
其中在识别过程中,所述当前声学模型(CAM)被调整,其方式是基于至少一个已经得到的识别结果,至少部分改变模型函数混合(MFMj)的模型函数混合分量(MFMjk)的作用,其特征在于:
识别过程是从将起始声学模型(SAM)用作所述当前声学模型(CAM)开始的,
在执行了给定数量的执行步骤和/或获得识别结果之后,基于所述当前声学模型(CAM)修正的声学模型(MAM)被产生,其方式是根据已经获得的至少给定数量的识别结果,消除具有可忽略作用的模型函数混合分量(MFMjk),
在每种情况中,利用所述修正的声学模型(MAM)作为所述当前声学模型(CAM)使识别过程继续。
2.权利要求1的方法,其中
在每个固定和/或预定数量的识别步骤执行之后和/或获得识别结果之后,特别是在执行单个识别步骤和/或获得单个识别结果之后重复产生修正后的声学模型(MAM)。
3.根据任何一个前述权利要求的方法,其中
其后产生修正声学模型(MAM)的识别步骤和/或识别结果的数目是在当前识别过程和/或自适应过程中确定和/或改变。
4.根据任何一个前述权利要求的方法,
其中,在每种情况下,声学模型被用作所述开始声学模型(SAM)和/或作为所述当前声学模型(CAM),至少包含特别是高斯型分布函数的模型函数混合(MFMj)作为所述模型函数混合分量(MFMjk)。
5.根据前面任何一个权利要求的方法,
其中每个所述模型函数混合(MFMj)是基于函数矢量(fj)和加权因子(aj)的,每个矢量都有有限和/或相等数量(nj)的分量。
6.权利要求5的方法,
其中每个所述模型函数混合(MFMj)是被加权因子矢量分量(aj,k)加权的矢量函数分量(fj,k)的线性组合和重叠,特别地由加权因子矢量(aj)和函数矢量(fj)的标量积:
其中MFMj表示第j个模型函数混合,aj表示第j个加权因子矢量,其中aj,k是第k个分量,fj表示第j个函数分量,其中fj,k是第k个分量,aj T表示aj的转置,·表示矢量的标量积和内积。
7.权利要求5或6的方法,其中
如果其加权因子矢量分量(aj,k)的绝对值(|aj,k|)超过给定的阈值(cj,k),特别是对于已经执行的给定次数(mj,k)的识别步骤和/或已经获得的给定数量(mj,k)的识别结果,每个所述模型函数混合分量(MFMj,k)被划分为可忽略。
8.权利要求7的方法,
其中每个所述阈值(cj,k)是预定的和/或固定的,特别对于每个独立的模型函数混合分量(MFMjk)以及在开始识别过程之前是这样。
9.权利要求7或8的方法,其中
在识别过程中,其中所述每个阈值(Cj,k)被确定和/或修正,特别是基于语音输入的信号质量信息和/或特别根据统计数据和/或噪声数据。
10.根据前面任何一个权利要求的方法,其中
在用于说话者自适应的修正声学模型(MAM)的其它分量中,加权因子矢量分量(aj,k)被修正,特别是减少某些低于某些阈值的加权因子矢量分量(aj,k)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00119278.0 | 2000-09-06 | ||
EP00119278A EP1187096A1 (en) | 2000-09-06 | 2000-09-06 | Speaker adaptation with speech model pruning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1342969A true CN1342969A (zh) | 2002-04-03 |
CN1183511C CN1183511C (zh) | 2005-01-05 |
Family
ID=8169765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011325801A Expired - Fee Related CN1183511C (zh) | 2000-09-06 | 2001-09-06 | 用于识别语音的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6999929B2 (zh) |
EP (1) | EP1187096A1 (zh) |
JP (1) | JP2002123286A (zh) |
KR (1) | KR20020020237A (zh) |
CN (1) | CN1183511C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915733A (zh) * | 2011-11-17 | 2013-02-06 | 微软公司 | 交互式语音识别 |
CN103295575A (zh) * | 2012-02-27 | 2013-09-11 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
CN108292507A (zh) * | 2015-08-24 | 2018-07-17 | 福特全球技术公司 | 车辆动态声学模型 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4220449B2 (ja) * | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
US20070260459A1 (en) * | 2006-05-04 | 2007-11-08 | Texas Instruments, Incorporated | System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models |
US20080004876A1 (en) * | 2006-06-30 | 2008-01-03 | Chuang He | Non-enrolled continuous dictation |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
US8386254B2 (en) * | 2007-05-04 | 2013-02-26 | Nuance Communications, Inc. | Multi-class constrained maximum likelihood linear regression |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
AU7802194A (en) * | 1993-09-30 | 1995-04-18 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
DE60007637T2 (de) * | 2000-10-10 | 2004-11-18 | Sony International (Europe) Gmbh | Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung |
-
2000
- 2000-09-06 EP EP00119278A patent/EP1187096A1/en not_active Withdrawn
-
2001
- 2001-09-05 US US09/947,109 patent/US6999929B2/en not_active Expired - Fee Related
- 2001-09-06 CN CNB011325801A patent/CN1183511C/zh not_active Expired - Fee Related
- 2001-09-06 JP JP2001270944A patent/JP2002123286A/ja not_active Withdrawn
- 2001-09-06 KR KR1020010054836A patent/KR20020020237A/ko not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915733A (zh) * | 2011-11-17 | 2013-02-06 | 微软公司 | 交互式语音识别 |
CN103295575A (zh) * | 2012-02-27 | 2013-09-11 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
CN103295575B (zh) * | 2012-02-27 | 2019-01-25 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
CN108292507A (zh) * | 2015-08-24 | 2018-07-17 | 福特全球技术公司 | 车辆动态声学模型 |
Also Published As
Publication number | Publication date |
---|---|
EP1187096A1 (en) | 2002-03-13 |
US6999929B2 (en) | 2006-02-14 |
US20020046024A1 (en) | 2002-04-18 |
JP2002123286A (ja) | 2002-04-26 |
CN1183511C (zh) | 2005-01-05 |
KR20020020237A (ko) | 2002-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schwarz et al. | Hierarchical structures of neural networks for phoneme recognition | |
CN111243602B (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
US7702503B2 (en) | Voice model for speech processing based on ordered average ranks of spectral features | |
CN101833951B (zh) | 用于说话人识别的多背景模型建立方法 | |
CN102446506B (zh) | 音频信号的分类识别方法及装置 | |
Yu et al. | Word-level emphasis modelling in HMM-based speech synthesis | |
Satoh et al. | A robust speaker verification system against imposture using an HMM-based speech synthesis system | |
NZ331431A (en) | Speech processing via voice recognition | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN102486922B (zh) | 说话人识别方法、装置和系统 | |
WO2007114605A1 (en) | Acoustic model adaptation methods based on pronunciation variability analysis for enhancing the recognition of voice of non-native speaker and apparatuses thereof | |
CN1835074A (zh) | 一种结合高层描述信息和模型自适应的说话人转换方法 | |
CN1183511C (zh) | 用于识别语音的方法 | |
Meignier et al. | Evolutive HMM for multi-speaker tracking system | |
Rouvier et al. | Review of different robust x-vector extractors for speaker verification | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
McAuley et al. | Subband correlation and robust speech recognition | |
CN101178895A (zh) | 基于生成参数听感误差最小化的模型自适应方法 | |
US20080059183A1 (en) | Parsimonious modeling by non-uniform kernel allocation | |
Novotney12 et al. | Analysis of low-resource acoustic model self-training | |
Li et al. | Speaker embedding extraction with multi-feature integration structure | |
JP2001083986A (ja) | 統計モデル作成方法 | |
Martinčić-Ipšić et al. | Croatian large vocabulary automatic speech recognition | |
Qin et al. | Improving the performance of HMM-based voice conversion using context clustering decision tree and appropriate regression matrix format | |
Korkmazskiy et al. | Discriminative adaptation for speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050105 |