CN101027716B - 健壮的说话者相关的语音识别系统 - Google Patents
健壮的说话者相关的语音识别系统 Download PDFInfo
- Publication number
- CN101027716B CN101027716B CN2005800322589A CN200580032258A CN101027716B CN 101027716 B CN101027716 B CN 101027716B CN 2005800322589 A CN2005800322589 A CN 2005800322589A CN 200580032258 A CN200580032258 A CN 200580032258A CN 101027716 B CN101027716 B CN 101027716B
- Authority
- CN
- China
- Prior art keywords
- speaker
- sequence
- characteristic vector
- speech recognition
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001419 dependent effect Effects 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 187
- 230000014509 gene expression Effects 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000000203 mixture Substances 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000006978 adaptation Effects 0.000 claims abstract description 15
- 230000002596 correlated effect Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000005055 memory storage Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 20
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种将说话者相关的表达并入说话者无关的语音识别系统的方法,该说话者无关的语音识别系统提供用于多个环境条件和用于多个说话者的训练数据。将该说话者相关的表达转换为特征向量序列,并且确定说话者无关的训练数据集合的具有到生成的特征向量序列的最小距离的混合密度。然后将确定的混合密度分配给说话者相关表达的隐含马尔克夫模型(HMM)状态。因此,说话者相关的训练数据和参考不再必须明确地存储于语音识别系统中。此外,通过由说话者无关的训练数据代表说话者相关的表达,内在地提供环境适应。此外,本发明基于说话者相关的表达提供人工特征向量的生成,切实的改善了语音识别系统相对于变换的环境条件的健壮性。
Description
技术领域
本发明涉及语音识别系统领域,特别涉及并且不限于随着环境条件变化的健壮的自适应语音识别系统。
背景技术
语音识别系统将口头命令转换为书面文本。从语音生成文本的过程通常分成接收声音信号、预处理和执行信号分析、识别被分析的信号和输出所识别文本的步骤。
由任何记录工具如麦克风提供声音信号的接收。在信号分析步骤中,典型地将接收的声音信号分割成时间窗,该时间窗典型地覆盖数毫秒范围的时间间隔。使用快速傅里叶变换(FFT)计算时间窗的功率谱。此外,通常具有三角形内核的平滑函数应用于功率谱并且生成特征向量。特征向量的单个分量代表语音内容特有的功率谱的不同部分,并且因此理想地适合语音识别目的。此外对数函数应用于特征向量的所有分量,导致生成对数频域的特征向量。信号分析步骤可进一步包括环境适应和附加步骤,例如,对特征向量应用对数倒谱变换或增加导数和回归增量。
在识别步骤中,将被分析的信号与参考信号相比较,该参考信号从分配给词汇表的训练语音序列中导出。此外,在最后一步,输出被识别文本之前,可执行语法规则和上下文相关的指令。
环境适应是信号分析程序的重要步骤。特别地,当记录的已训练语音参考具有高信噪比(SNR),但稍后将该系统应用于嘈杂的环境中例如在快速行驶的车中时,语音识别过程的性能和可靠性可能受到严重影响,因为已训练参考语音信号和要识别的被记录语音信号具有不同级别的背景噪音并且因此具有不同的SNR。在训练程序和语音识别系统的应用期间信噪比的变化仅是环境不匹配的一个例子。一般地,环境条件之间的不匹配可能由于不同背景噪音等级、不同级别的输入语音、不同语音速率和由于不同的说话者。通常,在训练程序和应用或识别程序之间的任何环境不匹配可使得语音识别的性能严重降级。
说话者无关(speaker-independent)的语音识别的概念提供了一个使得自动语音识别通用的一般方法。这里,为大量不同说话者和不同环境条件记录预训练语音参考。这种说话者无关的语音识别参考允许用户直接应用自动语音识别系统,无需提前执行训练程序。
但是,这种主要用于说话者无关的语音识别的应用程序可能也需要进一步训练。特别地,当系统必须识别用户的特殊表达,如用户想插入系统的独特名字的时候。典型地,用户将用户或说话者相关(speaker-dependent)的表达输入自动语音识别系统时所处的环境条件不同于稍后的普通识别条件。因此,已训练语音参考可以具有两个分离的部分,一个部分代表说话者无关的参考,并且一个部分代表说话者相关的参考。因为说话者相关的参考通常仅表示单个用户和单个环境条件,所以语音识别程序的一般性能可能有点恶化。
只有当识别条件符合训练条件时,说话者相关的词汇可以被正确识别。此外,在说话者相关的词汇的训练条件和使用该自动语音识别系统的条件之间的不匹配,也可对说话者无关的词汇的识别产生负面的影响。
一般地,存在各种方法把说话者相关的词汇并入说话者无关的词汇表词汇组中。例如,可以在各种环境条件下,如在静止的汽车和快速行驶的汽车中,训练说话者相关的词汇表词汇。这可提供相当健壮的语音识别,但要求相当广泛的训练,并且因此是终端用户不可接受的。
例如,US 6,633,842提供了另一种方法,其公开了假定提供噪音观察结果的情况下,获得干净语音特征向量的估计的方法。这个方法使用两个高斯混合,其中第一个是脱机训练的干净语音,并且第二个是使用一些噪音样本从第一个高斯混合导出。这个方法给出干净语音特征向量的估计,作为在给定观察到的噪音向量情况下对干净语音的条件预期。这个方法使用根据噪音观察结果的干净特征向量的估计和概率密度函数。
原则上,这能够改善性能,但是必须提供噪音样本并且将之与干净的语音组合,因此内在地要求可观的计算和存储容量。
因此本发明的目的是提供一种将说话者相关的词汇表词汇并入语音识别系统,使其在各种环境条件下能被正确识别而无需明确地存储说话者相关的参考数据的方法。
发明内容
本发明提供一种在说话者相关的表达的语音示例的帮助下训练说话者无关的语音识别系统的方法。说话者无关的语音识别系统具有数据库,该数据库提供代表用于各种训练条件的词汇表的混合密度的集合。这个训练说话者无关的语音识别系统的发明方法包括,生成说话者相关的表达的至少第一特征向量序列,和确定该混合密度集合的具有与该至少第一特征向量序列的最小距离的混合密度序列。
最后,将所述说话者相关的表达分配给所述混合密度序列。以此方式,本发明提供将说话者相关的表达分配给,代表用于各种训练条件的词汇表的说话者无关的混合密度集合的混合密度和混合密度序列。特别地,在混合密度和代表说话者相关的表达的至少第一特征向量序列之间的分配的基础上,执行将混合密度分配给用户相关的表达的操作。
该分配优选在基于分配程序的特征向量上执行。因此,对于特征向量序列的每个特征向量,选择最匹配的混合密度,即提供到该特征向量的最小距离或得分的混合密度。然后,通过例如指向被选择的混合密度的指针,将每个特征向量单独分配给它最匹配的混合密度。这样,可由一组指针代表特征向量序列,该组指针的每一个从特征向量指向相应的混合密度。
因此,可以用说话者无关的训练数据的混合密度来表示说话者相关的表达。因而,语音识别系统不必明确地存储说话者相关的参考数据。这里,仅仅通过指定指向说话者无关的语音识别系统的数据库中已存在的混合密度的一组指针,来执行说话者的特殊表达和最匹配的混合密度序列之间的分配,最匹配的混合密度序列即那些具有到至少第一特征向量序列的该特征向量的最小距离或得分的混合密度。这样,说话者无关的语音识别系统能扩展到各种说话者相关的表达,而无需提供用于该说话者相关表达的专用存储容量。作为代替,确定足以代表说话者相关的表达的说话者无关的混合。
根据本发明的优选实施例,训练该说话者无关的语音识别系统的方法进一步包括生成说话者相关的表达的至少第二特征向量序列。此至少第二特征向量序列适合匹配与第一特征向量序列不同的环境条件。因此,此第二特征向量序列人工地代表该说话者相关的表达已针对其被记录并且反射到第一特征向量序列中的环境条件不同的环境条件。该至少第二特征向量序列通常是基于第一特征向量序列产生的,或直接基于被记录的说话者相关的表达产生的。例如,这个第二特征向量序列对应于具有不同信噪比的第一特征向量序列。例如,可使用提供预定义的信噪比、目标信噪比的生成的噪音和通道适应模块,生成该第二特征向量序列。
从第一特征向量序列生成人工(artificial)特征向量或人工特征向量序列决不被限制到噪音和通道适应,并且不被限制到仅仅生成单个人工特征向量或单个人工特征向量序列。例如,基于第一特征向量序列,能人工地生成整个特征向量序列集合,其中的每一个代表不同的目标信噪比。
根据本发明进一步的优选实施例,至少第二特征向量序列的生成基于第一特征向量序列的对应于说话者相关表达的语音区间(speechinterval)的特征向量集合。因此,仅对第一特征向量序列的那些对应于被记录的说话者相关表达的语音帧的特征向量执行人工特征向量的生成。这典型地由端点检测程序执行,该程序确定说话者相关的训练发声在哪一帧开始和结束。这样,丢弃训练发声的那些代表安静的帧,不用于人工特征向量的生成。因此,能有效地减少人工特征向量生成的计算开销。此外,通过提取第一特征向量序列的代表语音的特征向量,能提高将至少第一特征向量序列分配给说话者无关的混合密度的一般可靠性和性能。
根据本发明进一步的优选实施例,可使用噪音适应程序生成至少第二特征向量序列。
特别地,通过使用两步噪音适应程序,通常能提高一般的语音识别用于具有低SNR的语音通道的性能。
在第一步中,基于每一个具有不同信噪比的原始获得的特征向量生成各种特征向量。因此,将不同的噪音等级叠加到原始特征向量上。在第二步中,具有不同噪音等级的各种人工特征向量受消除噪声程序的支配,消除噪声程序最终导致各种人工特征向量具有相同目标信噪比。通过噪音污染和随后的消除噪声的这两步过程,各种人工特征向量能被有效地组合并且与存储的参考数据相比较。可替换地,基于频谱相减也可生成人工特征向量,频谱相减更复杂,并且需要比已描述的两步噪音污染和消除噪声程序更高等级的计算资源。
根据本发明进一步的优选实施例,通过语音速率适应程序和/或使用动态时间偏差程序能生成至少第二特征向量序列。这样,至少第二特征向量序列代表具有不同于第一特征向量序列的语音速率的人工特征向量序列。以此方式,说话者相关表达能适应各种等级语音速率。因此,也能仿真差异很大的说话者,其语音具有不同的频谱合成并且具有不同的语音速率。
此外,该至少第二特征向量序列可代表各种不同的记录通道,因此模拟各种不同的技术记录概率,该不同的概率由于应用各种麦克风而导致。此外,根据代表依赖于说话者、噪音等级和噪音类型的非线性失真的Lombard效果,能执行基于被记录的第一特征向量序列人工生成至少第二特征向量序列。
根据本发明进一步的优选实施例,所述至少第一特征向量序列对应于说话者相关表达的隐含马尔克夫模型(HMM)状态序列。此外,由HMM状态代表说话者相关的表达,并且通过将混合密度分配给对应的HMM状态,将确定的混合密度分配给说话者相关表达。通常,通过线性映射将第一特征向量序列映射到HMM状态。在HMM状态和特征向量序列之间的这种映射能进一步用于人工特征向量的生成。特别地,在线性对准(linear alignment)程序中仅从映射到特殊的HMM状态的帧生成那些特征向量是充分的。这样,能有效地减少人工特征向量的生成。
根据本发明进一步的优选实施例,有效地使用维特比近似法,来确定具有到至少第一特征向量序列的特征向量的最小距离的混合密度。这种维特比近似法提供最大概率来代替,所述至少第一特征向量集合的一个特征向量能够通过该混合包括的密度集合的一个密度分量来生成的概率之和。然后,通过计算平均概率,可确定代表一个HMM状态的混合密度,该平均概率是能利用这个包括相应特征向量的几何平均最大概率的混合来生成属于这种HMM状态的人工生成特征向量的集合的平均概率。此外,代替使用概率自身,使用概率的负对数表示能有效地确定混合密度的最小距离。
根据本发明进一步的优选实施例,将说活者相关的表达分配给混合密度序列包括存储一组指向该混合密度序列的混合密度的指针。混合密度集合内在地由存储在语音识别系统中的说话者无关的参考数据提供。因此,对于用户指定的表达,不需要提供附加的存储容量。仅必须存储在由一系列HMM状态表示的说话者相关的表达和具有到这些HMM状态的最小距离或得分的混合密度序列之间的分配。通过以指针的形式存储该分配来代替明确地存储说话者相关的参考数据,能有效地降低对语音识别系统存储容量的需求。
在另一方面,本发明提供了一种说话者无关的语音识别系统,该识别系统具有数据库,该数据库提供代表用于各种训练条件的词汇表的混合密度集合。说话者无关的语音识别系统可扩展到用户提供的说话者相关表达。该说话者无关的语音识别系统包括记录用户提供的说话者相关表达的装置、生成说话者相关表达的至少第一特征向量序列的装置、确定到至少第一特征相量序列距离最小的混合密度序列的处理装置和存储说话者相关表达和确定的混合密度序列之间的分配的存储装置。
在另一个方面,本发明提供了用于训练具有说话者相关表达的说话者无关的语音识别系统的计算机程序产品。该语音识别系统具有数据库,该数据库提供代表用于各种训练条件的词汇表的混合密度集合。本发明的计算机程序产品包含用于生成说话者相关表达的至少第一特征向量序列的程序装置、确定具有到该至少第一特征向量序列的最小距离的混合密度序列的程序装置、和将该说话者相关表达分配给混合密度序列的程序装置。
此外,要注意权利要求中的任何参考符号不构成对本发明的范围的限制。
附图说明
通过参考附图将更详细地说明本发明的以下优选实施例,其中:
图1示出语音识别系统的流程图,
图2示出该语音识别系统的框图,
图3例释生成人工特征向量集合的流程图,
图4示出确定具有到所提供的特征向量序列的最小距离的混合密度的流程图。
具体实施方式
图1示意性地示出语音识别系统的流程图。在第一步100中,使用某种记录设备,如常规的麦克风,将语音输入系统。在下一步102中,通过执行下列步骤,分析被记录的信号:将被记录的信号分割成以帧为单位的时间窗,执行功率密度计算,生成对数谱域(log-spectraldomain)中的特征向量,执行环境适应步骤和可选地执行附加的步骤。
在信号分析102的第一步中,记录的语音信号被分成覆盖不同的时间间隔的时间窗。然后使用快速傅里叶变换(FFT)计算每个时间窗的功率频谱。基于功率频谱,特征向量描述该语音内容特有的频谱的最相关频率部分。在信号分析102的下一步中,为了减少被记录的信号和参考信号之间的不匹配,执行根据本发明的环境适应,参考信号是从存储在系统中的训练语音中提取出来的。
此外,可选择地执行另外的附加步骤,如对数倒频谱变换。在下一步104中,基于在根据训练数据的特征向量和根据实际信号分析加上环境适应的特征向量之间的比较,执行语音识别。步骤106提供已训练语音参考的形式的训练数据作为给语音识别步骤104的输入。然后在步骤108输出所识别的文本。可以用多种不同的方法来执行对所识别的文本的输出,例如,在某种图形用户接口上显示文本、在某种存储媒介上存储文本或使用某种打印设备简单打印文本。
图2示出语音识别系统200的框图。这里,语音识别系统200的组件专门用于支持在图1的步骤102中执行的信号分析和将说话者相关的词汇表中词汇分配给预训练的参考数据。如在图2的框图所示,语音202被输入语音识别系统200。语音202对应于没被词汇表或语音识别系统2 00的预训练语音参考覆盖的说话者相关表达或短语。此外,语音识别系统200具有特征向量模块204、数据库206、处理模块208、分配存储模块210、端点检测模块216和人工特征向量模块218。
特征向量模块204用于从被输入的语音202生成特征向量序列。数据库206提供存储混合212、214的存储容量,每个混合提供加权谱密度,该谱密度用于代表说话者无关特征向量,即代表各种说话者和训练数据的各种环境条件的特征向量。端点确定模块216用于识别由特征向量模块204生成的特征向量序列中那些对应于所提供的语音202的语音区间的特征向量。因此,端点确定模块216用于抛弃所记录的语音信号的对应于静止或语音停顿的那些帧。
人工特征向量模块218响应于从特征向量模块204或从端点确定模块216接收到特征向量或特征向量序列,提供人工特征向量的生成。优选地,人工特征向量模块218为那些对应于所提供的语音202的语音区间的特征向量提供各种人工特征向量。由人工特征向量生成模块218生成的人工特征向量被提供给处理模块208。处理模块208分析该多个人工生成的特征向量,并且执行与存储在数据库206中的参考数据的比较。
处理模块208提供混合212、214的混合密度的确定,该混合密度关于由特征向量模块204生成的特征向量序列的一个特征向量,或关于由人工特征向量生成模块218提供的各种人工生成特征向量,具有最小的距离或得分。因此,可以在语音202的原始生成的特征向量或人工生成的特征向量的基础上,执行对最佳匹配的说话者无关混合密度的确定。
这样,可以将语音202提供的说话者相关词汇表的词汇分配给说话者无关的混合密度序列,并且能省略对说话者相关的参考数据的明确存储。若已经确定混合密度集合中关于所提供的特征向量序列具有最小得分的若干混合密度,则允许将该特征向量序列分配给该若干混合密度。通常使用分配存储模块210存储这些分配。与说话者无关的语音识别系统的常规说话者相关适应相比,分配存储模块210仅必须存储混合密度和说话者相关的HMM状态序列之间的指针。这样,能够显著减少说话者相关的适应的存储要求。
此外,通过将说话者相关的短语或表达分配给数据库206提供的说话者无关的参考数据,内在地执行环境适应。分配给由特征向量模块204生成的特征向量序列的混合212、214的混合密度序列内在地代表各种环境条件,如不同的说话者、不同的信噪比、不同的语音速率和不同的记录信道属性。
此外,即使已经在特殊的环境条件下记录说话者相关的表达,通过使用人工特征向量生成模块218生成人工特征向量集合,能模拟和生成所有种类的不同环境条件。通过将多个人工特征向量和人工特征向量序列组合,能有效地提高用于变化环境条件的语音识别过程的性能。此外,基于由人工特征向量生成模块218提供的各种人工生成的特征向量,也能执行混合密度212、214和说话者相关的表达之间的分配。
图3例释生成各种人工特征向量的流程图。在第一步300中,基于输入的语音202生成特征向量序列。通常使用特征向量模块204,或者结合端点确定模块216,来执行步骤300的特征向量生成。根据是否执行了端点确定,步骤300中生成的特征向量序列表示全部的输入语音202,或代表输入语音202的语音区间。
由多个连续步骤302、304、306、308和316以并行的方式处理步骤300提供的特征向量序列。在步骤302中,基于原始特征向量序列,通过叠加导致第一目标信噪比的第一人工噪音,来执行噪音和通道适应。例如,在步骤302中,应用5dB的第一信噪比。在步骤304中,可以相似的方式生成具有第二目标信噪比的第二人工特征向量。例如,这个第二目标SNR等于10dB。以相似的方式,步骤306和308可分别生成如15dB和30dB信噪比的人工特征向量。该方法决不限于通过步骤302,......,308仅生成四个不同的人工特征向量。所例释的四个人工特征向量集合的生成仅是多个可想到的例子中的一个。因此,当仅生成一个人工特征向量时,本发明可能也已经提供充分的改进。
但是,在执行步骤302到步骤308之后,能应用第二组步骤310、312、314。在步骤302之后执行步骤310,在步骤304之后执行步骤312,和在步骤306之后执行步骤314。步骤310、312、314的每一个用于生成具有共同目标信噪比的人工特征向量。例如,三个步骤310、312、314用于生成30dB的目标信噪比。以这种方式,在步骤300中生成的原始特征向量序列的单个特征向量被变换成四个不同的特征向量,其中每个具有相同的目标信噪比。特别地,例如在步骤302中叠加人工噪音和随后的对生成的人工特征向量消除噪声的两步程序,使得特别对于静态通道的入射语音信号获得较好信号对比度。此外,在连续的步骤318中能有效地组合由步骤310、312、314和308生成的四个结果特征向量,在该步骤中将该多个人工生成的特征向量组合。
除了生成人工特征向量,在步骤316中还执行对隐含马尔克夫模型状态的排列(alignment)。优选地,在步骤316中执行的这个排列是参考词汇和原始提供的特征向量序列之间的线性排列。基于这个对给定HMM状态的排列,在步骤320中能执行映射。这个映射有效地将HMM状态分配给步骤318提供的特征向量组合。以此方式,代表各种环境条件的所有各种特征向量能被映射到代表说话者相关表达的HMM状态序列中的给定HMM状态。使用图4解释映射程序的细节。
优选地,由图2的处理模块208执行在步骤316中执行的排列和步骤320中执行的映射。通常使用人工特征向量模块218执行在步骤302到步骤314中执行的各种人工特征向量的生成。应注意的是,人工特征向量的生成决不被限制到如由步骤302和步骤310实现的连续特征向量生成所示的这个两步过程。可替换地,在步骤318中也能直接组合由步骤302、304、306和308生成的特征向量。此外,人工特征向量生成不被限制到噪音和通道适应。通常,可以关于Lombard效果、语音速率适应、动态时间偏差等等来相应应用人工特征向量生成。
图4例释了确定说话者无关的参考数据的混合密度序列的流程图,该混合密度序列具有到原始特征向量序列或到人工生成的特征向量序列集合的最小的距离或最小得分。这里,在第一步400中,也生成属于说话者相关表达的HMM状态的人工特征向量集合(i=1......n)。在连续的步骤402中,确定能由混合mj的密度dj,m生成特征向量Vi的概率Pj,m,i。索引m表示混合j的密度m。因此,对于特征向量集合的每一个特征向量,确定能由混合的密度代表该特征向量的概率。例如,该概率能被表达为:
这里C是仅根据特征向量分量c的变化的固定常数,并且abs{}代表绝对值运算。
此后,在步骤404中,计算可由混合mj生成特征向量Vi的概率Pj,i。因此,确定可由不同混合生成该特征向量的概率。优选地,Pj,i的这个计算包括维特比近似法的应用。因此,计算混合mj的所有密度dm的最大概率。这个计算如下执行:
这里,wj,m表示混合j中第m个密度的权重。使用维特比近似法,可以避免对于概率的求和,并且以最大值运算max{...}来代替。因此:
P(j,vi)=maxm{Pj,m,i·wj,m}
在连续的步骤406中,确定可由混合mj生成属于HMM状态s的人工特征向量集合的概率Pj。因此,对于存储于数据库206中的所有混合212、214执行这个计算。因此,相关的数学表达式可估计为:
这里i表示从1到n的连续索引。应注意的是,这个特征向量序列涉及该特征向量序列的单个原始获得的特征向量的人工特征向量集合。使用高斯和/或拉普拉斯(Laplacian)统计,利用概率的负对数表示是有利的。这样,能有效地避免求幂,上面例释的表达式中的乘积转变成求和,并且最大值程序转变为最小值程序。因此可由下式获得这样的也称为距离ds,j或得分的表示:
ds,j=-logPs[j]
在连续的步骤408中,基于计算出的ds,j的集合执行这个最小化程序。那么最佳匹配的混合mj′对应于最小的得分或距离。因此它是数据库206提供的所有混合中的最好选择,代表说话者相关表达的特征向量。
在步骤408中确定该最佳匹配的混合mj′之后,在步骤410中这个最佳的混合mj′被分配给该说话者相关表达的HMM状态。通过步骤412存储在步骤410中执行的分配,这里使用分配存储模块210存储该用户相关表达的HMM状态和最好的混合mj′之间的指针。
Claims (8)
1.一种训练具有说话者相关的表达(202)的说话者无关的语音识别系统(200)的方法,该语音识别系统具有数据库(206),该数据库提供代表用于各种训练条件的词汇表的混合密度(212,214)的集合,该训练说话者无关的语音识别系统的方法包含步骤:
生成说话者相关表达的至少第一特征向量序列,
确定具有到该至少第一特征向量序列的特征向量的最小距离的混合密度序列,
将该说话者相关的表达分配给该混合密度序列,
所述方法进一步包括生成所述说话者相关表达(202)的至少第二特征向量序列,该至少第二特征向量序列适合匹配不同于第一特征向量序列的不同环境条件。
2.根据权利要求1的方法,其中所述至少第二特征向量序列的生成基于第一特征向量序列的对应于说话者相关表达的语音区间的特征向量的集合。
3.根据权利要求1的方法,其中使用噪音适应程序生成所述至少第二特征向量序列。
4.根据权利要求1的方法,其中使用语音速率适应程序和/或使用动态时间偏差程序生成所述至少第二特征向量序列。
5.根据权利要求1的方法,其中所述至少第一特征向量序列对应于说话者相关表达的隐含马尔克夫模型(HMM)状态。
6.根据权利要求1的方法,其中使用维特比近似法确定混合密度,提供可使用混合密度集合的混合密度生成至少第一特征向量的集合的特征向量的最大概率。
7.根据权利要求1的方法,其中将说话者相关的表达分配给混合密度包括存储一组指向该混合密度序列的指针。
8.一种具有数据库(206)的说话者无关的语音识别系统(200),该数据库提供代表用于各种训练条件的词汇表的混合密度(212,214)的集合,该说话者无关的语音识别系统被扩展到说话者相关的表达(202),该说话者无关的语音识别系统包含:
-记录用户提供的说话者相关表达的装置,
-生成说话者相关表达的至少第一特征向量序列的装置(204),
-确定具有到至少第一特征向量序列的特征向量的最小距离的混合密度序列的处理装置(208),
-存储说话者相关表达和混合密度序列之间的分配的存储装置(210);
该说话者无关的语音识别系统进一步包含用于生成说话者相关表达的至少第二特征向量序列的装置(218),该至少第二特征向量序列适合模拟不同的记录条件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04104627.7 | 2004-09-23 | ||
EP04104627 | 2004-09-23 | ||
PCT/IB2005/052986 WO2006033044A2 (en) | 2004-09-23 | 2005-09-13 | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101027716A CN101027716A (zh) | 2007-08-29 |
CN101027716B true CN101027716B (zh) | 2011-01-26 |
Family
ID=35840193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800322589A Expired - Fee Related CN101027716B (zh) | 2004-09-23 | 2005-09-13 | 健壮的说话者相关的语音识别系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080208578A1 (zh) |
EP (1) | EP1794746A2 (zh) |
JP (1) | JP4943335B2 (zh) |
CN (1) | CN101027716B (zh) |
WO (1) | WO2006033044A2 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4854032B2 (ja) * | 2007-09-28 | 2012-01-11 | Kddi株式会社 | 音声認識における音響尤度並列計算装置及びそのプログラム |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US9009039B2 (en) * | 2009-06-12 | 2015-04-14 | Microsoft Technology Licensing, Llc | Noise adaptive training for speech recognition |
US9026444B2 (en) | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
GB2482874B (en) * | 2010-08-16 | 2013-06-12 | Toshiba Res Europ Ltd | A speech processing system and method |
CN102290047B (zh) * | 2011-09-22 | 2012-12-12 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
CN102522086A (zh) * | 2011-12-27 | 2012-06-27 | 中国科学院苏州纳米技术与纳米仿生研究所 | 一种有序序列相似性对比方法的声纹识别应用 |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
KR101579533B1 (ko) * | 2014-10-16 | 2015-12-22 | 현대자동차주식회사 | 차량 및 그 제어 방법 |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
KR102550598B1 (ko) * | 2018-03-21 | 2023-07-04 | 현대모비스 주식회사 | 음성 화자 인식 장치 및 그 방법 |
US11322156B2 (en) * | 2018-12-28 | 2022-05-03 | Tata Consultancy Services Limited | Features search and selection techniques for speaker and speech recognition |
CA3129884A1 (en) | 2019-03-12 | 2020-09-17 | Cordio Medical Ltd. | Diagnostic techniques based on speech-sample alignment |
DE102020208720B4 (de) * | 2019-12-06 | 2023-10-05 | Sivantos Pte. Ltd. | Verfahren zum umgebungsabhängigen Betrieb eines Hörsystems |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5528728A (en) * | 1993-07-12 | 1996-06-18 | Kabushiki Kaisha Meidensha | Speaker independent speech recognition system and method using neural network and DTW matching technique |
CN1153567A (zh) * | 1995-05-03 | 1997-07-02 | 菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
CN1167950A (zh) * | 1996-03-19 | 1997-12-17 | 西门子公司 | 语音识别计算机模块及基于音素的数字语音信号变换方法 |
CN1336634A (zh) * | 2000-07-28 | 2002-02-20 | 国际商业机器公司 | 根据基音信息识别声调语言的方法与设备 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450523A (en) * | 1990-11-15 | 1995-09-12 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems |
US5452397A (en) * | 1992-12-11 | 1995-09-19 | Texas Instruments Incorporated | Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list |
US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
JPH075892A (ja) * | 1993-04-29 | 1995-01-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
US5604839A (en) * | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
KR100383353B1 (ko) * | 1994-11-01 | 2003-10-17 | 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 | 음성인식장치및음성인식장치용어휘발생방법 |
DE19510083C2 (de) * | 1995-03-20 | 1997-04-24 | Ibm | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
AU5359498A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
US6134527A (en) * | 1998-01-30 | 2000-10-17 | Motorola, Inc. | Method of testing a vocabulary word being enrolled in a speech recognition system |
JP3412496B2 (ja) * | 1998-02-25 | 2003-06-03 | 三菱電機株式会社 | 話者適応化装置と音声認識装置 |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
GB2349259B (en) * | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
US7283964B1 (en) * | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US6535580B1 (en) * | 1999-07-27 | 2003-03-18 | Agere Systems Inc. | Signature device for home phoneline network devices |
US7120582B1 (en) * | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US6778959B1 (en) * | 1999-10-21 | 2004-08-17 | Sony Corporation | System and method for speech verification using out-of-vocabulary models |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6535850B1 (en) * | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
ATE239966T1 (de) * | 2000-11-07 | 2003-05-15 | Ericsson Telefon Ab L M | Anwendung von referenzdaten für spracherkennung |
DE10122087C1 (de) * | 2001-05-07 | 2002-08-29 | Siemens Ag | Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem |
ATE335195T1 (de) * | 2001-05-10 | 2006-08-15 | Koninkl Philips Electronics Nv | Hintergrundlernen von sprecherstimmen |
JP4858663B2 (ja) * | 2001-06-08 | 2012-01-18 | 日本電気株式会社 | 音声認識方法及び音声認識装置 |
US7054811B2 (en) * | 2002-11-06 | 2006-05-30 | Cellmax Systems Ltd. | Method and system for verifying and enabling user access based on voice parameters |
JP4275353B2 (ja) * | 2002-05-17 | 2009-06-10 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US20040181409A1 (en) * | 2003-03-11 | 2004-09-16 | Yifan Gong | Speech recognition using model parameters dependent on acoustic environment |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7516069B2 (en) * | 2004-04-13 | 2009-04-07 | Texas Instruments Incorporated | Middle-end solution to robust speech recognition |
-
2005
- 2005-09-13 EP EP05801704A patent/EP1794746A2/en not_active Withdrawn
- 2005-09-13 US US11/575,703 patent/US20080208578A1/en not_active Abandoned
- 2005-09-13 JP JP2007531910A patent/JP4943335B2/ja not_active Expired - Fee Related
- 2005-09-13 CN CN2005800322589A patent/CN101027716B/zh not_active Expired - Fee Related
- 2005-09-13 WO PCT/IB2005/052986 patent/WO2006033044A2/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5528728A (en) * | 1993-07-12 | 1996-06-18 | Kabushiki Kaisha Meidensha | Speaker independent speech recognition system and method using neural network and DTW matching technique |
CN1153567A (zh) * | 1995-05-03 | 1997-07-02 | 菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
CN1167950A (zh) * | 1996-03-19 | 1997-12-17 | 西门子公司 | 语音识别计算机模块及基于音素的数字语音信号变换方法 |
CN1336634A (zh) * | 2000-07-28 | 2002-02-20 | 国际商业机器公司 | 根据基音信息识别声调语言的方法与设备 |
Non-Patent Citations (1)
Title |
---|
L. De Vos, B. Kammerer.Algorithm and DSP-Implementation for a Speaker-Independent Single-Word Speech Recognizer with AdditionalSpeaker-Dependent Say-in Facility.Third IEEE Workshop on Interactive Voice Technology for Telecommunications Applications, 1996, Proceedings.1996,53-56. * |
Also Published As
Publication number | Publication date |
---|---|
JP2008513825A (ja) | 2008-05-01 |
WO2006033044A3 (en) | 2006-05-04 |
US20080208578A1 (en) | 2008-08-28 |
EP1794746A2 (en) | 2007-06-13 |
WO2006033044A2 (en) | 2006-03-30 |
CN101027716A (zh) | 2007-08-29 |
JP4943335B2 (ja) | 2012-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101027716B (zh) | 健壮的说话者相关的语音识别系统 | |
JP4218982B2 (ja) | 音声処理 | |
US5651094A (en) | Acoustic category mean value calculating apparatus and adaptation apparatus | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
US20080300875A1 (en) | Efficient Speech Recognition with Cluster Methods | |
Kim et al. | Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments | |
US9245524B2 (en) | Speech recognition device, speech recognition method, and computer readable medium | |
CN101136199A (zh) | 语音数据处理方法和设备 | |
CN104685562A (zh) | 用于从嘈杂输入信号中重构目标信号的方法和设备 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
Yu et al. | Adversarial network bottleneck features for noise robust speaker verification | |
Higuchi et al. | Adversarial training for data-driven speech enhancement without parallel corpus | |
Kim et al. | Feature compensation in the cepstral domain employing model combination | |
Zou et al. | Improved voice activity detection based on support vector machine with high separable speech feature vectors | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
Mohammed et al. | Mitigate the reverberant effects on speaker recognition via multi-training | |
Pandharipande et al. | Robust front-end processing for emotion recognition in noisy speech | |
Zhao | Frequency-domain maximum likelihood estimation for automatic speech recognition in additive and convolutive noises | |
Erell et al. | Energy conditioned spectral estimation for recognition of noisy speech | |
Tomar et al. | Noise aware manifold learning for robust speech recognition | |
Yang et al. | VACE-WPE: Virtual acoustic channel expansion based on neural networks for weighted prediction error-based speech dereverberation | |
US20070124143A1 (en) | Adaptation of environment mismatch for speech recognition systems | |
Chehresa et al. | MMSE speech enhancement using GMM | |
Milner et al. | Applying noise compensation methods to robustly predict acoustic speech features from MFCC vectors in noise | |
Panda | A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110126 Termination date: 20130913 |