CN101165776B

CN101165776B - 用于生成语音谱的方法

Info

Publication number: CN101165776B
Application number: CN2006101356625A
Authority: CN
Inventors: 曹振海; 祖漪清
Original assignee: Nuance Communications Inc
Current assignee: Serenes Operations
Priority date: 2006-10-20
Filing date: 2006-10-20
Publication date: 2012-04-25
Anticipated expiration: 2026-10-20
Also published as: CN101165776A

Abstract

一种用于从输入文字生成语音谱的方法可用于有效地提供涉及话音识别处理的音频反馈。该方法包括：将与输入文字关联的音素的长度与多个模型状态相调准(步骤315)。其后，通过为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成状态序列(步骤320)。接下来，通过使用状态序列为输入文字生成语音参数序列(步骤325)。其后，将语音参数序列转换为语音谱(步骤330)。

Description

用于生成语音谱的方法

技术领域

本发明通常涉及一种语音合成。具体来说，但并不是排他的，本发明涉及使用与语音识别系统关联的、诸如隐马尔可夫模型(HMM)状态的模型状态来提供合成的语音反馈。

背景技术

许多语音识别系统将输入言语匹配于存储在数据库中的声学模型。其后，匹配的声学模型与词典数据库中的条目关联，从而完成文字和语句识别。声学模型通常包括隐马尔可夫模型(HMM)。HMM是统计描述，包括均值和方差矢量，其描述诸如文字和音素的语音单元。其后，HMM模式匹配用于确定语音识别数据库中的声学模型是否匹配于输入言语。HMM通常是基于包括被称为高斯混合的一些复高斯概率分布函数(PDF)的概率函数的。因此，HMM模式匹配可包括匹配高斯混合的处理。

通常将语音识别系统分类为与扬声器无关的或与扬声器相关的。扬声器无关系统被设计为识别许多扬声器的语音；而扬声器相关系统被训练为识别一个扬声器或仅少量扬声器的语音。扬声器无关系统通常包括包含从多个训练扬声器的语音得到的HMM的声学数据库。从训练扬声器的语音得到的HMM期望表示在较大的一组扬声器中发现的语音模式。这样的系统通常比扬声器相关系统的精度低，因为必须在语音模型中进行折衷以容纳大量语音属性，并且扬声器无关系统没有被调谐到任意特定扬声器的特有语音属性上。

扬声器相关系统被调谐为识别特定语音模式和各个扬声器的特有语音属性。通常扬声器在训练程序期间将包括各种语音模式的脚本读入系统。其后，训练语音与脚本进行调准(align)，从而系统可调谐到扬声器的特有语音属性，因此，系统将在语音识别期间更精确的识别扬声器的语音。然而，在许多人可能需要使用特定语音识别系统的情况下，扬声器相关系统通常是不期望的。例如，扬声器无关语音识别系统可以是在诸如移动电话的电子设备中是优选的，以使多个用户能发布口头命令，从而呼叫特定电话号码，或指示其后由电话识别的口语消息。

存在用于改进扬声器无关语音识别系统的性能的各种技术。例如，在线扬声器适配技术使扬声器无关声学模型能够在用于特定个人的语音特性期间被调谐。在使用期间的在线扬声器适配可与离线扬声器适配对照，例如扬声器相关系统的上述训练处理，其中，用户将预先定义的脚本写入系统，从而在使用之前训练系统来识别其语音。

然而，在运行在移动电话中的语音识别系统的上述示例中，因为用户可使用仅用于非常简短的周期的电话的语音识别特征，例如发布短的口头命令或指示单个短文本消息，所以在线扬声器视频可能是无效的。在这样的情况下，在线扬声器适配处理在完成识别任务之前可能没有时间进行收敛。因此，在线扬声器适配处理没有改进移动电话的语音识别系统。此外，诸如交通和人群噪声的、通常与移动电话关联的噪声背景环境可使得在线扬声器适配处理难以收敛。

用于改善扬声器无关语音识别系统的另一技术涉及听觉反馈处理，其中，用户可听见由语音识别系统识别的说出的文字或短语的合成的语音回放。因此，用户能够立即得知系统是否已经精确地接收并识别语音输入。这些听觉反馈处理通常涉及将用于语音识别的隐马尔可夫模型(HMM)转换为可在扬声器上播放的合成语音谱。然而，为了通过使用诸如移动电话的最紧致的电子设备的有限处理和存储能力来有效地进行工作，听觉反馈处理需要高效且低复杂性的算法。

发明内容

根据一方面，本发明是一种用于从输入文字生成语音谱的方法。该方法包括：将与输入文字关联的音素的长度与多个模型状态相调准。其后，通过为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成状态序列。接下来，通过使用状态序列为输入文字生成语音参数序列。其后，将语音参数序列转换为语音谱。

因此，本发明的实施例用于通过启用涉及输入文字的有效音频反馈来改进语音识别系统的值和语音识别精度。本发明的实施例例如可结合到各种类型的语音识别系统中，并且在结合有语音识别能力的、诸如扬声器无关移动电话或个人数字助理(PDA)的手持电子设备中尤其有用。高效算法的使用节约了手持电子设备的有限的电源、存储器和处理器资源。

附图说明

为了容易理解本发明并将其付诸实践效果，现将对参照附图示出的示例性实施例进行描述，其中，在所有的各个示图中，相同的标号指的是相同或功能相似的部件。根据本发明，以下的附图和详细描述被合并到此并形成说明书的一部分，并用于进一步示出实施例并解释各种原理和优点，其中：

图1是示出根据本发明的一些实施例的用于从输入文字生成语音谱的方法的复合流程图；

图2是示出根据本发明的一些实施例的将语音参数序列转换为语音谱的一般流程图；以及

图3是示出根据本发明的一些实施例的从输入文字生成语音谱的方法一般流程图。

本领域技术人员应理解，为了简单和简明而示出附图中的部件，所述部件无需按比例绘制。例如，可将附图中的一些部件的尺寸相对于其它部件进行放大，以有助于增进对本发明的实施例的理解。

具体实施方式

在详细描述根据本发明的实施例之前，应注意，实施例主要在于涉及从输入文字生成语音谱的方法步骤和装置组件的组合。因此，已经通过附图中的传统符号适当地表示装置组件和方法步骤，仅示出与理解本发明的实施例有关的那些具体细节，从而不会因为对于受益于此处的描述的本领域普通技术人员显而易见的细节而使该公开模糊。

在该文档中，诸如左和右、第一和第二等的关系术语可仅用于对一个实体或行动与另一实体或行动进行区分，而无需要求或暗示在这些实体或行动之间的任何实际的这种关系或顺序。术语“包括”或其任意其它变化倾向于覆盖非排他的包含，从而包括一列元素的处理、方法、物品或设备不仅包括那些元素，而且可包括对于这些处理、方法、物品或设备来说未明显列出或固有的其它元素。在没有更多约束的情况下，在“包括......”之后的元素并不排除在包括该元素的处理、方法、物品或设备中的其它相同元素的存在。

本发明提供一种可将从模型状态生成的语音参数序列转换为可用于生成可理解的合成语音的逐帧谱的低复杂性算法。该算法可包括用于对与隐马尔可夫模型(HMM)状态关联的数据进行操作的逆快速傅立叶变换(IFFT)。合成的语音例如可播放为对电子设备的用户的反馈，以确认语音识别系统的精度。本发明的一些实施例还包括比现有技术更少处理器强度的高效算法，因此节约了诸如移动电话、个人数字助理(PDA)和笔记本计算机的手持电子设备的有限的功率、存储器和处理器资源。高效算法用于将与输入文字关联的音素的长度与多个隐马尔可夫模型(HMM)状态进行调准，从多混合高斯密度HMM状态中选择合适的混合，并将语音参数序列转换为语音谱，该算法使得本发明的实施例能够提供比现有技术改进的性能。下面详细描述该算法的元素。

参照图1，这是根据本发明一些实施例示出用于从输入文字生成语音谱的方法100的复合流程图。首先，在步骤105，将输入文字转换为诸如HMM序列的模型序列。可从语音识别声学模型中选择合适的HMM。基于在输入文字中的每一音素的持续时间，可将HMM逐帧扩展为HMM序列。

例如，考虑文字“Mary”，可将其划分为以下音素/m eh r iy/。可从诸如“k-m+ih”、“m-eh+r”、“r+iy”、“r-iy”的声学模型中选择涉及文字Mary的合适的HMM。其后确定每一音素的持续时间。例如，音素“m”具有九帧的持续时间，以及音素“eh”具有十一帧的持续时间。因此，可构造逐帧HMM序列，例如“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“m-eh+r”、等，其中，与音素“eh”关联的HMM“m-eh+r”重复11帧。其后，HMM序列提供用于生成语音谱的算法的输入。

在步骤110，将与输入文字关联的音素的长度与多个HMM状态相调准。例如，可在扬声器无关语音识别(SISR)声学模型中使用简单的左到右(left-to-right)模型。通常，关于依赖于上下文的音素HMM，“状态2”可表示从左音素到当前音素的过渡状态，“状态4”可表示从当前音素到右音素的过渡状态。图1中以圆圈115示出这些状态。

HMM的状态2或状态4的持续时间可取决于左清晰度或右清晰度。例如，“k-m+ih”可用于输入文字Mary中的当前音素“m”。在当前音素“m”之前的左上下文与当前音素“m”有很大不同，在当前音素“m”之后的右上下文与当前音素“m”相似。因此，状态2可比正常长度短，而状态4可等于正常长度。因此，HMM“k-m+ih”三个状态的可以分别是一帧、五帧和三帧。其后，可将逐帧HMM序列如下转换为HMM状态序列：“k-m+ih”状态2；“k-m+ih”状态3；“k-m+ih”状态3；“k-m+ih”状态3；“k-m+ih”状态3；“k-m+ih”状态3；“k-m+ih”状态4；“k-m+ih”状态4；“k-m+ih”状态4；“m-eh+r”状态2；......

在步骤120，为每一多混合高斯密度HMM状态选择混合。HMM状态通常包括六个或十二个混合。在HMM中，每一混合例如表示不同的扬声器、不同的环境、不同的上下文或其它类型的变量。通常，仅有一些混合可合成可接受的质量的语音。因此，本发明的实施例为每一HMM状态从数据库125中预先选择默认的混合以保证有可接受的质量的合成语音。例如，基于经验数据，具有最大混合权重的混合可被选择用于状态3。对于状态2和状态4，可在大的文字语料(corpus)中通过自动计算为每一状态2和状态4定义默认状态。

状态2和状态4分别定义从左音素到当前音素的过渡状态和从当前音素到右音素的状态。为了实现可接受的质量的合成的语音，对于某些HMM，不同的状态2和状态4混合可用于不同的上下文。它们被称为例外状态2和例外状态4混合。通过使用在大的文字语料中的自动计算，可为各个HMM对定义例外状态2和例外状态4混合。图1中以圆圈130示出这些混合。

在步骤135，在HMM状态序列中为每一HMM选择合适的HMM状态和适合的混合之后，从单个高斯密度混合中通过使用统计特性为输入文字生成诸如Mel频率倒谱系数(MFCC)序列的语音参数序列。如本领域所知，MFCC序列是表示声音的特征，图1中以矩形140示出该情况。

在步骤145，通过使用逐帧音调和能量信息将语音参数序列转换为语音谱。图1示出语音谱的曲线表示150。下面提供涉及语音参数序列的的转换的进一步的细节。

参照图2，根据本发明一些实施例，普通流程图示出用于将语音参数序列转换为语音谱的步骤145的细节。在步骤205，使用先前帧的相位以及当前帧的音调来合成与谐波频率对应的谐波相位。在步骤210，根据当前帧的MFCC序列以及根据当前帧的音调来估计谐波幅度。使用对数和离散余弦变换(DCT)运算的数学逆运算(即反对数和逆离散余弦变换(IDCT)运算)来估计幅度。可由预先定义的韵律(prosodic)模型来提供诸如音素持续时间、逐帧音调以及逐帧能量的韵律信息。

在步骤215，使用与来自步骤205和210的相位和幅度结合的复谐波来得到线性预测编码(LPC)模型。在步骤220，使用从全极点(all-pole)谱包络建模输出的LPC模型参数将后滤波应用于当前帧的谐波幅度。可将LPC谱平滑用于移除多个模型状态中的状态之间的不连续性。

在步骤225，使用来自从全极点谱包络建模输出的当前帧的LPC模型参数的线性插值，并使用来自先前帧的LPC模型参数，而生成经插值和平滑的LPC参数。在步骤230，经插值和平滑的LPC参数用于生成平滑的复谐波。

在步骤235，确定当前帧是否是状态边界帧，例如在处于状态3的帧之前的处于状态2的最后的帧，或在处于状态3的帧之后的处于状态4的第一帧。在步骤240，根据帧能量对谐波幅度进行比例调整和归一化。如果在步骤235确定当前帧是状态边界帧，则在步骤240，对从步骤230输出的平滑的复谐波进行比例调整和归一化。然而，如果在步骤235确定当前帧不是状态边界帧，则在步骤240，对从步骤220输出的复谐波进行比例调整和归一化。

在步骤245，使用具有汉明(Hamming)窗的卷积从由步骤240输出的经比例调整和归一化的复谐波的正弦波来构造短时傅立叶变换(STFT)谱。其后，可在诸如移动电话、个人数字助理(PDA)或笔记本计算机的电子设备的扬声器上播放得到的STFT谱，从而生成合成的语音信号。

参照图3，根据本发明的一些实施例，普通流程图示出用于从输入文字生成语音谱的方法。在步骤305，基于在电子设备的麦克风处接收的说出的言语生成输入文字。例如，在诸如移动电话的手持电子设备中使用扬声器无关语音识别(SISR)系统来生成输入文字。

在步骤310，使用本领域公知的传统语音识别技术将输入文字转换为模型序列。例如，基于输入文字中的每一音素的持续时间，可将HMM逐帧扩展为HMM序列。

在步骤315，将与输入文字关联的音素的长度与多个模型状态相调准。例如，如上所述，简单左到右模型可用于将输入文字与多个HMM状态相调准的SISR声学模型。

在步骤320，通过从多混合高斯密度模型状态中为多个模型状态中的每一状态选择混合来生成状态序列。例如，可为每一HMM状态从数据库中预先选择具有特定混合权重的默认混合，从而确保合成的语音有可接受的质量。

在步骤325，通过使用状态序列为输入文字生成语音参数序列。例如，在为HMM状态序列中的每一HMM选择合适的HMM状态和合适的混合之后，通过使用来自单个高斯密度混合的统计特性为输入文字生成诸如MFCC序列的语音参数序列。

在步骤330，将语音参数序列转换为语音谱。例如，根据以上描述的步骤145使用逐帧音调和能量信息将语音参数序列转换为语音谱。

最后，在步骤335，在电子设备的扬声器上播放语音谱。例如，在移动电话上将输入文字播放为对语音识别应用的用户的反馈，从而改善并确认语音识别精度。

因此，本发明的实施例可用于通过能够进行涉及输入文字的有效音频反馈来改进语音识别系统的值和语音识别精度。本发明的实施例例如可合并到各种类型的语音识别系统中，并且对于结合扬声器无关语音识别能力的、诸如移动电话和个人数字助理(PDA)的手持电子设备尤其有用。使用在此描述的有效算法节约了手持电子设备的有限功率、存储器和处理器资源。

以上的详细描述仅提供示例性实施例，并非期望限制本发明的范围、应用性或配置。此外，示例性实施例的详细描述向本领域技术人员提供能够用于实现本发明示例性实施例的描述。应理解，在不脱离所附权利要求阐述的本发明的精神和范围的情况下，可在元件和步骤的功能和布置上进行各种改变。应理解，在此描述的本发明的实施例可包括一个或多个传统的处理器和结合特定非处理器电路控制一个或多个处理器的唯一存储的程序，从而实现在此描述的从输入文字生成语音谱的一些、大部分或所有功能。非处理器电路可包括无线电接收机、无线地发送器、信号驱动器、时钟电路、电源电路以及用户输入设备，但不限于此。这样，这些功能可解释为用于从输入文字生成语音谱的方法的步骤。此外，可由不具有存储的程序指令的状态机或以一个或多个专用集成电路来实现一些或全部功能，在所述集成电路中，将特定功能中的每一功能或某些组合实现为用户逻辑。当然，可使用两种方法的组合。因此，已经在此描述了用于这些功能的方法和装置。此外，虽然例如可能由可用时间、当前技术和经济考虑来激发可能重大的努力和许多设计选择，但期望本领域技术人员当由在此公开的概念和原理教导时能够容易地以最少的实验生成这些软件指令。

在前述说明书中，已经描述了本发明的特定实施例。然而，本领域技术人员应理解，在不脱离在下面的权利要求中阐述的本发明的范围的情况下，可进行各种修改和改变。因此，说明书和附图将被看作是示例性的，而不是限制性的，所有这些修改都期望被包括在本发明的范围中。可导致任何利益、优点或解决方案产生或变得更加明确的利益、优点、问题解决方案以及任何元素都不应理解为是对于任意或所有权利要求的关键的、要求的或必需的特征或元素。本发明仅由包括在该申请的未决期间进行的任意修改的所附权利要求以及权利要求的等同物来限定。

Claims

1.一种用于从输入文字生成语音谱序列、确认来自用户的语音的识别精确性的方法，该方法包括：

从用户接收语音输入；

使用语音识别应用来识别语音输入中的每一个输入文字；

将输入文字转换为模型序列；

通过将与输入文字关联的音素的长度与多个模型状态相调准来生成状态序列；

通过为使用文字语料所计算的每一模型状态定义默认混合而为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成混合序列；

通过使用混合序列为输入文字生成语音参数序列；

将语音参数序列转换为语音谱序列；以及

将所述输入文字播放为对所述语音识别应用的用户的音频反馈，从而改善并确认语音识别精度。

2.如权利要求1所述的方法，其中，所述多个模型状态包括隐马尔可夫模型状态。

3.如权利要求1所述的方法，其中，将语音参数序列转换为语音谱序列的步骤包括：使用线性预测编码谱平滑来消除所述多个模型状态中的状态之间的不连续性。

4.如权利要求1所述的方法，其中，所述语音参数序列是Mel频率倒谱系数序列。

5.如权利要求1所述的方法，其中，将语音参数序列转换为语音谱序列的步骤包括：使用逐帧音调和能量信息。

6.如权利要求1所述的方法，其中，将语音参数序列转换为语音谱序列的步骤包括：得到线性预测编码模型。

7.如权利要求1所述的方法，其中，将语音参数序列转换为语音谱序列的步骤包括：处理先前帧的相位、当前帧的音调以及当前帧的Mel频率倒谱系数。

8.如权利要求1所述的方法，其中，从多混合高斯密度模型状态中选择的混合包括最大混合权重。

9.如权利要求1所述的方法，还包括：

基于在电子设备的麦克风处接收的话语发音生成输入文字；以及

在电子设备的扬声器上播放语音谱序列。