CN101165776B - 用于生成语音谱的方法 - Google Patents

用于生成语音谱的方法 Download PDF

Info

Publication number
CN101165776B
CN101165776B CN2006101356625A CN200610135662A CN101165776B CN 101165776 B CN101165776 B CN 101165776B CN 2006101356625 A CN2006101356625 A CN 2006101356625A CN 200610135662 A CN200610135662 A CN 200610135662A CN 101165776 B CN101165776 B CN 101165776B
Authority
CN
China
Prior art keywords
speech
sequence
state
input characters
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101356625A
Other languages
English (en)
Other versions
CN101165776A (zh
Inventor
曹振海
祖漪清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes Operations
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Priority to CN2006101356625A priority Critical patent/CN101165776B/zh
Publication of CN101165776A publication Critical patent/CN101165776A/zh
Application granted granted Critical
Publication of CN101165776B publication Critical patent/CN101165776B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

一种用于从输入文字生成语音谱的方法可用于有效地提供涉及话音识别处理的音频反馈。该方法包括:将与输入文字关联的音素的长度与多个模型状态相调准(步骤315)。其后,通过为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成状态序列(步骤320)。接下来,通过使用状态序列为输入文字生成语音参数序列(步骤325)。其后,将语音参数序列转换为语音谱(步骤330)。

Description

用于生成语音谱的方法
技术领域
本发明通常涉及一种语音合成。具体来说,但并不是排他的,本发明涉及使用与语音识别系统关联的、诸如隐马尔可夫模型(HMM)状态的模型状态来提供合成的语音反馈。
背景技术
许多语音识别系统将输入言语匹配于存储在数据库中的声学模型。其后,匹配的声学模型与词典数据库中的条目关联,从而完成文字和语句识别。声学模型通常包括隐马尔可夫模型(HMM)。HMM是统计描述,包括均值和方差矢量,其描述诸如文字和音素的语音单元。其后,HMM模式匹配用于确定语音识别数据库中的声学模型是否匹配于输入言语。HMM通常是基于包括被称为高斯混合的一些复高斯概率分布函数(PDF)的概率函数的。因此,HMM模式匹配可包括匹配高斯混合的处理。
通常将语音识别系统分类为与扬声器无关的或与扬声器相关的。扬声器无关系统被设计为识别许多扬声器的语音;而扬声器相关系统被训练为识别一个扬声器或仅少量扬声器的语音。扬声器无关系统通常包括包含从多个训练扬声器的语音得到的HMM的声学数据库。从训练扬声器的语音得到的HMM期望表示在较大的一组扬声器中发现的语音模式。这样的系统通常比扬声器相关系统的精度低,因为必须在语音模型中进行折衷以容纳大量语音属性,并且扬声器无关系统没有被调谐到任意特定扬声器的特有语音属性上。
扬声器相关系统被调谐为识别特定语音模式和各个扬声器的特有语音属性。通常扬声器在训练程序期间将包括各种语音模式的脚本读入系统。其后,训练语音与脚本进行调准(align),从而系统可调谐到扬声器的特有语音属性,因此,系统将在语音识别期间更精确的识别扬声器的语音。然而,在许多人可能需要使用特定语音识别系统的情况下,扬声器相关系统通常是不期望的。例如,扬声器无关语音识别系统可以是在诸如移动电话的电子设备中是优选的,以使多个用户能发布口头命令,从而呼叫特定电话号码,或指示其后由电话识别的口语消息。
存在用于改进扬声器无关语音识别系统的性能的各种技术。例如,在线扬声器适配技术使扬声器无关声学模型能够在用于特定个人的语音特性期间被调谐。在使用期间的在线扬声器适配可与离线扬声器适配对照,例如扬声器相关系统的上述训练处理,其中,用户将预先定义的脚本写入系统,从而在使用之前训练系统来识别其语音。
然而,在运行在移动电话中的语音识别系统的上述示例中,因为用户可使用仅用于非常简短的周期的电话的语音识别特征,例如发布短的口头命令或指示单个短文本消息,所以在线扬声器视频可能是无效的。在这样的情况下,在线扬声器适配处理在完成识别任务之前可能没有时间进行收敛。因此,在线扬声器适配处理没有改进移动电话的语音识别系统。此外,诸如交通和人群噪声的、通常与移动电话关联的噪声背景环境可使得在线扬声器适配处理难以收敛。
用于改善扬声器无关语音识别系统的另一技术涉及听觉反馈处理,其中,用户可听见由语音识别系统识别的说出的文字或短语的合成的语音回放。因此,用户能够立即得知系统是否已经精确地接收并识别语音输入。这些听觉反馈处理通常涉及将用于语音识别的隐马尔可夫模型(HMM)转换为可在扬声器上播放的合成语音谱。然而,为了通过使用诸如移动电话的最紧致的电子设备的有限处理和存储能力来有效地进行工作,听觉反馈处理需要高效且低复杂性的算法。
发明内容
根据一方面,本发明是一种用于从输入文字生成语音谱的方法。该方法包括:将与输入文字关联的音素的长度与多个模型状态相调准。其后,通过为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成状态序列。接下来,通过使用状态序列为输入文字生成语音参数序列。其后,将语音参数序列转换为语音谱。
因此,本发明的实施例用于通过启用涉及输入文字的有效音频反馈来改进语音识别系统的值和语音识别精度。本发明的实施例例如可结合到各种类型的语音识别系统中,并且在结合有语音识别能力的、诸如扬声器无关移动电话或个人数字助理(PDA)的手持电子设备中尤其有用。高效算法的使用节约了手持电子设备的有限的电源、存储器和处理器资源。
附图说明
为了容易理解本发明并将其付诸实践效果,现将对参照附图示出的示例性实施例进行描述,其中,在所有的各个示图中,相同的标号指的是相同或功能相似的部件。根据本发明,以下的附图和详细描述被合并到此并形成说明书的一部分,并用于进一步示出实施例并解释各种原理和优点,其中:
图1是示出根据本发明的一些实施例的用于从输入文字生成语音谱的方法的复合流程图;
图2是示出根据本发明的一些实施例的将语音参数序列转换为语音谱的一般流程图;以及
图3是示出根据本发明的一些实施例的从输入文字生成语音谱的方法一般流程图。
本领域技术人员应理解,为了简单和简明而示出附图中的部件,所述部件无需按比例绘制。例如,可将附图中的一些部件的尺寸相对于其它部件进行放大,以有助于增进对本发明的实施例的理解。
具体实施方式
在详细描述根据本发明的实施例之前,应注意,实施例主要在于涉及从输入文字生成语音谱的方法步骤和装置组件的组合。因此,已经通过附图中的传统符号适当地表示装置组件和方法步骤,仅示出与理解本发明的实施例有关的那些具体细节,从而不会因为对于受益于此处的描述的本领域普通技术人员显而易见的细节而使该公开模糊。
在该文档中,诸如左和右、第一和第二等的关系术语可仅用于对一个实体或行动与另一实体或行动进行区分,而无需要求或暗示在这些实体或行动之间的任何实际的这种关系或顺序。术语“包括”或其任意其它变化倾向于覆盖非排他的包含,从而包括一列元素的处理、方法、物品或设备不仅包括那些元素,而且可包括对于这些处理、方法、物品或设备来说未明显列出或固有的其它元素。在没有更多约束的情况下,在“包括......”之后的元素并不排除在包括该元素的处理、方法、物品或设备中的其它相同元素的存在。
本发明提供一种可将从模型状态生成的语音参数序列转换为可用于生成可理解的合成语音的逐帧谱的低复杂性算法。该算法可包括用于对与隐马尔可夫模型(HMM)状态关联的数据进行操作的逆快速傅立叶变换(IFFT)。合成的语音例如可播放为对电子设备的用户的反馈,以确认语音识别系统的精度。本发明的一些实施例还包括比现有技术更少处理器强度的高效算法,因此节约了诸如移动电话、个人数字助理(PDA)和笔记本计算机的手持电子设备的有限的功率、存储器和处理器资源。高效算法用于将与输入文字关联的音素的长度与多个隐马尔可夫模型(HMM)状态进行调准,从多混合高斯密度HMM状态中选择合适的混合,并将语音参数序列转换为语音谱,该算法使得本发明的实施例能够提供比现有技术改进的性能。下面详细描述该算法的元素。
参照图1,这是根据本发明一些实施例示出用于从输入文字生成语音谱的方法100的复合流程图。首先,在步骤105,将输入文字转换为诸如HMM序列的模型序列。可从语音识别声学模型中选择合适的HMM。基于在输入文字中的每一音素的持续时间,可将HMM逐帧扩展为HMM序列。
例如,考虑文字“Mary”,可将其划分为以下音素/m eh r iy/。可从诸如“k-m+ih”、“m-eh+r”、“r+iy”、“r-iy”的声学模型中选择涉及文字Mary的合适的HMM。其后确定每一音素的持续时间。例如,音素“m”具有九帧的持续时间,以及音素“eh”具有十一帧的持续时间。因此,可构造逐帧HMM序列,例如“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“k-m+ih”、“m-eh+r”、等,其中,与音素“eh”关联的HMM“m-eh+r”重复11帧。其后,HMM序列提供用于生成语音谱的算法的输入。
在步骤110,将与输入文字关联的音素的长度与多个HMM状态相调准。例如,可在扬声器无关语音识别(SISR)声学模型中使用简单的左到右(left-to-right)模型。通常,关于依赖于上下文的音素HMM,“状态2”可表示从左音素到当前音素的过渡状态,“状态4”可表示从当前音素到右音素的过渡状态。图1中以圆圈115示出这些状态。
HMM的状态2或状态4的持续时间可取决于左清晰度或右清晰度。例如,“k-m+ih”可用于输入文字Mary中的当前音素“m”。在当前音素“m”之前的左上下文与当前音素“m”有很大不同,在当前音素“m”之后的右上下文与当前音素“m”相似。因此,状态2可比正常长度短,而状态4可等于正常长度。因此,HMM“k-m+ih”三个状态的可以分别是一帧、五帧和三帧。其后,可将逐帧HMM序列如下转换为HMM状态序列:“k-m+ih”状态2;“k-m+ih”状态3;“k-m+ih”状态3;“k-m+ih”状态3;“k-m+ih”状态3;“k-m+ih”状态3;“k-m+ih”状态4;“k-m+ih”状态4;“k-m+ih”状态4;“m-eh+r”状态2;......
在步骤120,为每一多混合高斯密度HMM状态选择混合。HMM状态通常包括六个或十二个混合。在HMM中,每一混合例如表示不同的扬声器、不同的环境、不同的上下文或其它类型的变量。通常,仅有一些混合可合成可接受的质量的语音。因此,本发明的实施例为每一HMM状态从数据库125中预先选择默认的混合以保证有可接受的质量的合成语音。例如,基于经验数据,具有最大混合权重的混合可被选择用于状态3。对于状态2和状态4,可在大的文字语料(corpus)中通过自动计算为每一状态2和状态4定义默认状态。
状态2和状态4分别定义从左音素到当前音素的过渡状态和从当前音素到右音素的状态。为了实现可接受的质量的合成的语音,对于某些HMM,不同的状态2和状态4混合可用于不同的上下文。它们被称为例外状态2和例外状态4混合。通过使用在大的文字语料中的自动计算,可为各个HMM对定义例外状态2和例外状态4混合。图1中以圆圈130示出这些混合。
在步骤135,在HMM状态序列中为每一HMM选择合适的HMM状态和适合的混合之后,从单个高斯密度混合中通过使用统计特性为输入文字生成诸如Mel频率倒谱系数(MFCC)序列的语音参数序列。如本领域所知,MFCC序列是表示声音的特征,图1中以矩形140示出该情况。
在步骤145,通过使用逐帧音调和能量信息将语音参数序列转换为语音谱。图1示出语音谱的曲线表示150。下面提供涉及语音参数序列的的转换的进一步的细节。
参照图2,根据本发明一些实施例,普通流程图示出用于将语音参数序列转换为语音谱的步骤145的细节。在步骤205,使用先前帧的相位以及当前帧的音调来合成与谐波频率对应的谐波相位。在步骤210,根据当前帧的MFCC序列以及根据当前帧的音调来估计谐波幅度。使用对数和离散余弦变换(DCT)运算的数学逆运算(即反对数和逆离散余弦变换(IDCT)运算)来估计幅度。可由预先定义的韵律(prosodic)模型来提供诸如音素持续时间、逐帧音调以及逐帧能量的韵律信息。
在步骤215,使用与来自步骤205和210的相位和幅度结合的复谐波来得到线性预测编码(LPC)模型。在步骤220,使用从全极点(all-pole)谱包络建模输出的LPC模型参数将后滤波应用于当前帧的谐波幅度。可将LPC谱平滑用于移除多个模型状态中的状态之间的不连续性。
在步骤225,使用来自从全极点谱包络建模输出的当前帧的LPC模型参数的线性插值,并使用来自先前帧的LPC模型参数,而生成经插值和平滑的LPC参数。在步骤230,经插值和平滑的LPC参数用于生成平滑的复谐波。
在步骤235,确定当前帧是否是状态边界帧,例如在处于状态3的帧之前的处于状态2的最后的帧,或在处于状态3的帧之后的处于状态4的第一帧。在步骤240,根据帧能量对谐波幅度进行比例调整和归一化。如果在步骤235确定当前帧是状态边界帧,则在步骤240,对从步骤230输出的平滑的复谐波进行比例调整和归一化。然而,如果在步骤235确定当前帧不是状态边界帧,则在步骤240,对从步骤220输出的复谐波进行比例调整和归一化。
在步骤245,使用具有汉明(Hamming)窗的卷积从由步骤240输出的经比例调整和归一化的复谐波的正弦波来构造短时傅立叶变换(STFT)谱。其后,可在诸如移动电话、个人数字助理(PDA)或笔记本计算机的电子设备的扬声器上播放得到的STFT谱,从而生成合成的语音信号。
参照图3,根据本发明的一些实施例,普通流程图示出用于从输入文字生成语音谱的方法。在步骤305,基于在电子设备的麦克风处接收的说出的言语生成输入文字。例如,在诸如移动电话的手持电子设备中使用扬声器无关语音识别(SISR)系统来生成输入文字。
在步骤310,使用本领域公知的传统语音识别技术将输入文字转换为模型序列。例如,基于输入文字中的每一音素的持续时间,可将HMM逐帧扩展为HMM序列。
在步骤315,将与输入文字关联的音素的长度与多个模型状态相调准。例如,如上所述,简单左到右模型可用于将输入文字与多个HMM状态相调准的SISR声学模型。
在步骤320,通过从多混合高斯密度模型状态中为多个模型状态中的每一状态选择混合来生成状态序列。例如,可为每一HMM状态从数据库中预先选择具有特定混合权重的默认混合,从而确保合成的语音有可接受的质量。
在步骤325,通过使用状态序列为输入文字生成语音参数序列。例如,在为HMM状态序列中的每一HMM选择合适的HMM状态和合适的混合之后,通过使用来自单个高斯密度混合的统计特性为输入文字生成诸如MFCC序列的语音参数序列。
在步骤330,将语音参数序列转换为语音谱。例如,根据以上描述的步骤145使用逐帧音调和能量信息将语音参数序列转换为语音谱。
最后,在步骤335,在电子设备的扬声器上播放语音谱。例如,在移动电话上将输入文字播放为对语音识别应用的用户的反馈,从而改善并确认语音识别精度。
因此,本发明的实施例可用于通过能够进行涉及输入文字的有效音频反馈来改进语音识别系统的值和语音识别精度。本发明的实施例例如可合并到各种类型的语音识别系统中,并且对于结合扬声器无关语音识别能力的、诸如移动电话和个人数字助理(PDA)的手持电子设备尤其有用。使用在此描述的有效算法节约了手持电子设备的有限功率、存储器和处理器资源。
以上的详细描述仅提供示例性实施例,并非期望限制本发明的范围、应用性或配置。此外,示例性实施例的详细描述向本领域技术人员提供能够用于实现本发明示例性实施例的描述。应理解,在不脱离所附权利要求阐述的本发明的精神和范围的情况下,可在元件和步骤的功能和布置上进行各种改变。应理解,在此描述的本发明的实施例可包括一个或多个传统的处理器和结合特定非处理器电路控制一个或多个处理器的唯一存储的程序,从而实现在此描述的从输入文字生成语音谱的一些、大部分或所有功能。非处理器电路可包括无线电接收机、无线地发送器、信号驱动器、时钟电路、电源电路以及用户输入设备,但不限于此。这样,这些功能可解释为用于从输入文字生成语音谱的方法的步骤。此外,可由不具有存储的程序指令的状态机或以一个或多个专用集成电路来实现一些或全部功能,在所述集成电路中,将特定功能中的每一功能或某些组合实现为用户逻辑。当然,可使用两种方法的组合。因此,已经在此描述了用于这些功能的方法和装置。此外,虽然例如可能由可用时间、当前技术和经济考虑来激发可能重大的努力和许多设计选择,但期望本领域技术人员当由在此公开的概念和原理教导时能够容易地以最少的实验生成这些软件指令。
在前述说明书中,已经描述了本发明的特定实施例。然而,本领域技术人员应理解,在不脱离在下面的权利要求中阐述的本发明的范围的情况下,可进行各种修改和改变。因此,说明书和附图将被看作是示例性的,而不是限制性的,所有这些修改都期望被包括在本发明的范围中。可导致任何利益、优点或解决方案产生或变得更加明确的利益、优点、问题解决方案以及任何元素都不应理解为是对于任意或所有权利要求的关键的、要求的或必需的特征或元素。本发明仅由包括在该申请的未决期间进行的任意修改的所附权利要求以及权利要求的等同物来限定。

Claims (9)

1.一种用于从输入文字生成语音谱序列、确认来自用户的语音的识别精确性的方法,该方法包括:
从用户接收语音输入;
使用语音识别应用来识别语音输入中的每一个输入文字;
将输入文字转换为模型序列;
通过将与输入文字关联的音素的长度与多个模型状态相调准来生成状态序列;
通过为使用文字语料所计算的每一模型状态定义默认混合而为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成混合序列;
通过使用混合序列为输入文字生成语音参数序列;
将语音参数序列转换为语音谱序列;以及
将所述输入文字播放为对所述语音识别应用的用户的音频反馈,从而改善并确认语音识别精度。
2.如权利要求1所述的方法,其中,所述多个模型状态包括隐马尔可夫模型状态。
3.如权利要求1所述的方法,其中,将语音参数序列转换为语音谱序列的步骤包括:使用线性预测编码谱平滑来消除所述多个模型状态中的状态之间的不连续性。
4.如权利要求1所述的方法,其中,所述语音参数序列是Mel频率倒谱系数序列。
5.如权利要求1所述的方法,其中,将语音参数序列转换为语音谱序列的步骤包括:使用逐帧音调和能量信息。
6.如权利要求1所述的方法,其中,将语音参数序列转换为语音谱序列的步骤包括:得到线性预测编码模型。
7.如权利要求1所述的方法,其中,将语音参数序列转换为语音谱序列的步骤包括:处理先前帧的相位、当前帧的音调以及当前帧的Mel频率倒谱系数。
8.如权利要求1所述的方法,其中,从多混合高斯密度模型状态中选择的混合包括最大混合权重。
9.如权利要求1所述的方法,还包括:
基于在电子设备的麦克风处接收的话语发音生成输入文字;以及
在电子设备的扬声器上播放语音谱序列。
CN2006101356625A 2006-10-20 2006-10-20 用于生成语音谱的方法 Expired - Fee Related CN101165776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101356625A CN101165776B (zh) 2006-10-20 2006-10-20 用于生成语音谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101356625A CN101165776B (zh) 2006-10-20 2006-10-20 用于生成语音谱的方法

Publications (2)

Publication Number Publication Date
CN101165776A CN101165776A (zh) 2008-04-23
CN101165776B true CN101165776B (zh) 2012-04-25

Family

ID=39334442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101356625A Expired - Fee Related CN101165776B (zh) 2006-10-20 2006-10-20 用于生成语音谱的方法

Country Status (1)

Country Link
CN (1) CN101165776B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739508B (zh) * 2020-08-07 2020-12-01 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0689192A1 (en) * 1994-06-22 1995-12-27 International Business Machines Corporation A speech synthesis system
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0689192A1 (en) * 1994-06-22 1995-12-27 International Business Machines Corporation A speech synthesis system
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
David T. Chappell et al..A comparison of spectral smoothing methods for segment concatenation based speech synthesis.《Speech Communication》.2002,第36卷(第3-4期),343-374. *
JP特开2002-268660A 2002.09.20
JP特开2002-62890A 2002.02.28
Keiichi Tokuda et al..AN HMM-BASED SPEECH SYNTHESIS SYSTEM APPLIED TO ENGLISH.《Proceedings of 2002 IEEE Workshop on Speech Synthesis,2002》.2002,227-230. *
Keiichi Tokuda et al..SPEECH PARAMETER GENERATION ALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS.《Proceedings.2000 IEEE International Conference on Acoustic,Speech and Signal Processing,2000.ICASSP"00》.2000,第3卷1315-1318. *

Also Published As

Publication number Publication date
CN101165776A (zh) 2008-04-23

Similar Documents

Publication Publication Date Title
US11564090B1 (en) Audio verification
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
CN1280782C (zh) 给用户提供声音反馈的可扩展语音识别系统
US7113909B2 (en) Voice synthesizing method and voice synthesizer performing the same
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US7689417B2 (en) Method, system and apparatus for improved voice recognition
US8438027B2 (en) Updating standard patterns of words in a voice recognition dictionary
US20140249815A1 (en) Method, apparatus and computer program product for providing text independent voice conversion
EP1994529B1 (en) Communication device having speaker independent speech recognition
KR20080049826A (ko) 음성 인식 방법 및 장치
KR20050122274A (ko) 휴대용 장치에서 텍스트 음성 변환 처리를 위한 시스템 및방법
US20060287867A1 (en) Method and apparatus for generating a voice tag
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
WO2008147649A1 (en) Method for synthesizing speech
US10079011B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
US7181397B2 (en) Speech dialog method and system
CN101165776B (zh) 用于生成语音谱的方法
US20050108013A1 (en) Phonetic coverage interactive tool
Odell et al. Architecture, user interface, and enabling technology in Windows Vista's speech systems
KR20060056406A (ko) 발화 파형 코퍼스에 대한 개선들
CN111696530B (zh) 一种目标声学模型获取方法及装置
Bharthi et al. Unit selection based speech synthesis for converting short text message into voice message in mobile phones
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Gouvêa et al. The AT&t speech API: a study on practical challenges for customized speech to text service.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20100909

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS, UNITED STATES TO: MASSACHUSETTS, UNITED STATES

TA01 Transfer of patent application right

Effective date of registration: 20100909

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: Illinois Instrunment

Applicant before: Motorola, Inc.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200922

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts, USA

Patentee before: Nuance Communications, Inc.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120425