CN103635960A - 从统计文本到语音合成系统输出的语音的统计增强 - Google Patents

从统计文本到语音合成系统输出的语音的统计增强 Download PDF

Info

Publication number
CN103635960A
CN103635960A CN201280033177.0A CN201280033177A CN103635960A CN 103635960 A CN103635960 A CN 103635960A CN 201280033177 A CN201280033177 A CN 201280033177A CN 103635960 A CN103635960 A CN 103635960A
Authority
CN
China
Prior art keywords
designator
vector
distortion
parameter
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280033177.0A
Other languages
English (en)
Other versions
CN103635960B (zh
Inventor
A·索林
S·谢克特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103635960A publication Critical patent/CN103635960A/zh
Application granted granted Critical
Publication of CN103635960B publication Critical patent/CN103635960B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

描述一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示。所述方法包括:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;以及定义一个特征向量或多个特征向量的失真指示符。所述方法还包括:接收所述系统输出的特征向量;以及通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;以及从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例。可以将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。

Description

从统计文本到语音合成系统输出的语音的统计增强
背景技术
本发明涉及合成语音领域。具体地说,本发明涉及从统计文本到语音(TTS)合成系统输出的合成语音的统计增强。
合成语音是人工产生的人类语音,其由计算机软件或硬件生成。TTS系统将语言文本转换为适合于数字到模拟转换和回放的语音信号或波形。
一种形式的TTS系统使用连接合成,其中从数据库选择记录的语音片段并连接以便形成传达输入文本的语音信号。通常,存储的语音片段表示语音单位,例如在特定语音-语言上下文中出现的次音素、音素和双音素。
另一种类别的语音合成(称为“统计TTS”)通过人类话音的统计建模而产生合成语音信号。现有的统计TTS系统基于具有高斯混合发出概率分布的隐马尔可夫模型(HMM),因此“HMM TTS”和“统计TTS”有时可以同义使用。但是,原则上统计TTS系统可以采用其它类型的模型。因此,本发明的描述通常解决统计TTS,而HMM TTS被视为前者的特定实例。
在基于HMM的系统中,可以通过HMM同时对语音的频谱(声道)、基频(声源)和持续时间(韵律)进行建模。可以根据最大似然准则从HMM生成语音波形。
基于HMM的TTS系统在工业和语音研究团体中越来越受欢迎,因为这种方法比连接合成模式具有一些优点。但是,通常认为HMM TTS系统产生模糊质量的语音,缺少存在于自然语音中并且在连接TTS输出中很大程度上保留的清脆性和生动性。通常,基于HMM系统中的模糊质量归因于频谱形状模糊,并且具体归因于统计建模导致的共振峰变宽,这种统计建模包括对表示语音帧的大量(例如,数千)特征向量进行平均。
多年来,共振峰模糊效应已经在语音编码领域中为人所知,然而在HMM TTS中,这种效应对输出的感知质量具有更强烈的负面影响。已经针对语音编解码器开发一些语音增强技术(也称为后置滤波),以便在解码阶段补偿量化噪声并且锐化共振峰。一些TTS系统遵循这种方法,并且采用旨在部分补偿频谱模糊效应的后处理增强步骤。
发明内容
根据本发明的第一方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示,所述方法包括:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;定义一个特征向量或多个特征向量的失真指示符;接收所述系统输出的特征向量;通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
根据本发明的第二方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的计算机程序产品,所述系统在声学特征向量空间中采用语音的参数表示,所述计算机程序产品包括:具有随其包含的计算机可读程序代码的计算机可读非瞬时性存储介质,所述计算机可读程序代码包括:被配置为执行以下操作的计算机可读程序代码:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;定义一个特征向量或多个特征向量的失真指示符;接收所述系统输出的特征向量;通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
根据本发明的第三方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的系统,所述TTS系统在声学特征向量空间中采用语音的参数表示,所述系统包括:处理器;声学特征向量输入组件,其用于接收语音单位发出的声学特征向量;纠正变换定义组件,其用于定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;增强参数集组件,其包括:失真指示符参考组件,其用于计算失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;失真指示符实际值组件,其用于计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;以及其中所述增强参数集组件根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而计算增强参数值;纠正变换应用组件,其用于将所述纠正变换的实例应用于所述特征向量以提供增强的特征向量。
附图说明
现在仅通过实例的方式参考附图描述本发明的实施例(多个),这些附图是:
图1是示出从与用于实际和合成语音的同一上下文相关语音单位关联的倒谱向量获得的频谱包络模糊效应的图;
图2是上下文相关语音单位的比率向量分量与根据倒频率(quefrency)绘制的比率向量分量的枝图(stemmed plot);
图3是根据本发明的系统的第一实施例的框图;
图4是根据本发明的系统的第二实施例的框图;
图5是其中可以实现本发明的计算机系统的框图;
图6是根据本发明的方法的流程图;
图7是根据本发明的以在线操作模式应用的方法的第一实施例的流程图;以及
图8是根据本发明的以离线/在线操作模式应用的方法的第二实施例的流程图。
应该理解,为了使附图简单和清晰,附图中所示的元素不一定按比例绘制。例如,为清晰起见,可以相对于其它元素扩大一些元素的尺寸。进一步,如果认为适当,则可以在附图中重复参考标号以便指示对应或类似的特性。
具体实施方式
在以下详细描述中,提供了大量特定的细节以便彻底理解本发明。但是,所属技术领域的技术人员将理解,可以在没有这些特定的细节的情况下实现本发明。在其它情况下,未详细描述公知的方法、过程和组件以避免使本发明变得模糊不清。
在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。还将理解,当在此说明书中使用时,术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在,但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组的存在或增加。
下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本发明的描述,但所述描述并非旨在是穷举的或是将本发明限于所公开的形式。在不偏离本发明的范围和精神的情况下,对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用,并且当适合于所构想的特定使用时,使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。
描述了其中针对从统计TTS系统输出的语音使用统计补偿方法的方法、系统和计算机程序产品。可以通过补偿统计TTS系统固有的频谱模糊效应来减小合成语音中的失真,并且通过向系统生成的声学特征向量应用纠正变换来减小其它失真。
在统计TTS系统中,对语音的瞬时频谱包络进行参数化,即,由声学特征向量表示。在一些系统中,频谱包络可以组合声道和声门脉冲相关分量。在这种情况下,通常忽略声门脉冲对频谱包络的影响,并且频谱包络被视为与声道相关。在其它系统中,可以分别建模和生成声门脉冲和声道。在用作特定描述的主要实例的一个实施例中,将所述方法应用于单个频谱包络的情况。在其它实施例中,可以将所述方法分别应用于声道和声门脉冲相关分量。
在统计TTS系统中,通过单独的概率分布对与每个不同语音单位关联的参数化频谱包络进行建模。这些不同的单位通常是在某个语音-语言上下文中获得的音素的各部分。例如,在典型的基于3状态HMM的系统中,通过3状态HMM对在某个语音和语言上下文中获得的每个音素进行建模。在这种情况下,语音单位表示在上下文中获得的音素的三分之一(开头、中间或结尾)部分,并且通过多变量高斯混合概率密度函数进行建模。对于使用半马尔可夫模型(HSMM)的系统同样如此,在这些系统中,不使用状态转变概率,并且直接对单位持续时间进行建模。对于可以应用所述方法的其它统计TTS方法,可以使用HMM状态之外的模型,并且通过高斯之外的概率分布对发出概率进行建模。
在统计TTS系统中,可以使用不同类型的声音特征进行频谱包络参数化。在用作特定描述的主要实例的一个实施例中,使用倒谱向量形式的声学特征向量。但是,可以使用其它形式的声学特征向量,例如线谱频率(LSF),也称为线谱对(LSP)。
在倒谱特征的上下文中,功率倒谱(或简称倒谱)是对对数频谱进行逆傅里叶变换的结果。通常在语音处理中,并且具体在TTS系统中,在倒谱计算之前弯折(warp)频率轴。一种常用的频率弯折变换是梅尔刻度弯折,其反映人类听觉系统的感知特性。从具有准周期性的浊化(voiced)语音信号,不能立即获得连续频谱包络。因此,具有多种广泛使用的技术以便进行倒谱估计,每种技术基于不同的频谱包络估计方法。这些技术的实例包括:梅尔频率倒谱系数(MFCC)、感知线性预测(PLP)倒谱、梅尔刻度正规化倒谱系数(MRCC)。针对统计TTS系统中的每个语音单位,计算有限数量的倒谱样本(也称为倒谱系数)以便形成倒谱参数向量,该向量通过特定概率分布进行建模。
倒谱信号的参数和倒谱向量分量的指数称为倒频率(quefrency)。倒谱是离散信号,即,无限的值(系数)序列c(n)=c(0),c(1),c(2),…,n是倒频率。例如,c(2)是倒频率2时的倒谱值。在TTS中使用的倒谱向量是截断倒谱:V=[c1,c2,…,cN]。每个分量具有称为倒频率的指数。例如,c2分量与倒频率2关联。
建议的方法没有利用马尔可夫模型的特定特性或高斯混合模型的特性。因此,所述方法适用于任何统计TTS系统,这种系统通过在声学特征向量空间中定义的概率分布对语音单位的频谱包络进行建模。
下面提供的研究和分析使用美国英语5状态HSMM TTS系统执行,该系统采用33维MRCC倒谱向量进行频谱包络参数化。[有关MRCC的参考:Shechtman,S.和Sorin,A.的“Sinusoidal model parameterization forHMM-based TTS system(基于HMM的TTS系统的正弦模型参数化)”,Interspeech2010会议记录。]因此,每个语音单位由某个HMM的某个状态表示。通过不同的多变量高斯概率分布,对与每个单位关联的倒谱向量进行建模。
针对训练语句集训练语音模型之后,收集聚集到某个语音单位的所有倒谱向量。在语音模型训练期间,使用该倒谱向量集合(此后称为实际群集)估计该单位的高斯均值和方差。然后合成所有训练语句,并且收集从该单位的高斯模型发出的所有合成倒谱向量。这第二个集合称为合成群集。
统计TTS系统生成的语音的过度平滑性质由于频谱形状模糊导致,而频谱形状模糊由每个语音单位的倒谱向量(或其它声学特征向量)的统计建模产生。
图1中示出模糊效应的一个实例。图1是示出频谱包络的振幅101与频率102的图100,频谱包络从与某个单位关联的实际群集103和合成群集104选择的倒谱向量获得,分别以虚线和实线绘制。与实际向量103相比,合成向量104示出更平坦的频谱,具有更低的峰值和更高的谷值。频谱平坦化与具有倒频率的倒谱的衰减增加密切相关。可以使用声道传递函数的有理表示了解这种关系:
S ( z ) = &Pi; m ( 1 - z - 1 z m ) &Pi; k ( 1 - z - 1 p k ) | p k | < 1 , | z k | < 1 - - - ( 1 )
其中{pk}和{zm}分别是S(z)的极点和零点。对(1)的右侧取对数并且向添加的对数项应用麦克劳林级数展开,声道脉冲响应的倒谱可以表示如下:
c ( n ) = 1 n ( &Sigma; k p k n - &Sigma; m z m n ) n = 1,2 , &CenterDot; &CenterDot; &CenterDot; - - - ( 2 )
从(2)中,可以得出结论:当传递函数的极点和零点远离单位圆而朝向Z平面的原点时—平坦化频谱峰值和谷值—倒谱衰减增加。
因此,预计与某个单位关联的合成倒谱向量相比于与该单位关联的实际向量,在倒频率方面具有更高的衰减。以下统计观察支持这种假设:这些观察通过针对实际和合成群集测量的倒谱向量分量比较L2正态分布。
具体地说,计算从完整的33维倒谱向量[C(1),C(2),…,C(33)]提取的子向量的L2正态分布。分析包含最低倒频率系数[C(1)…C(11)]、中间倒频率系数[C(12)…C(22)]和最高倒频率系数[C(23)…C(33)]的子向量。可以看到,中间倒频率和最高倒频率子向量的L正态在合成群集中比在实际群集中系统地低。同时,最低倒频率子向量的L2正态在实际群集和合成群集之间没有明显变化。
在实际群集和合成群集上计算的平均值中,观察到相同的现象。对于给定单位,L2正态比率向量R定义为:
R ( n ) = M real 2 ( n ) / M syn 2 ( n ) , n = 1 , &CenterDot; &CenterDot; &CenterDot; , N - - - ( 3 )
其中
Figure BDA0000452684310000082
相应地是实际向量和合成向量的逐分量经验二阶矩。在计算比率向量(3)之前,使用5抽头移动平均算子沿着倒频率轴平滑二阶矩向量。
参考图2,枝图200表示针对图1分析的同一单位计算的L2正态比率向量R的分量与根据倒频率202绘制的L2正态比率201的分量。比率向量分量展现沿着倒频率轴202的增加趋势,这意味着合成向量比实际向量具有更强的平均衰减。根据多个男性和女性语音模型的所有单位验证了这种统计观察,这些模型采用三种语言总计大约7000个HMM状态。
在呈现合成语音波形之前,使用上面的分析补偿合成向量的这种更强的衰减。在上面的研究和分析中,考虑倒频率方面的倒谱系数衰减。可以针对其它形式的声学特征向量(例如线谱频率)使用其它声学失真指示符。失真指示符可以指示(或者能够获得)频谱平滑程度或其它频谱失真。
在所述方法的一个实例实施例中,将补偿变换表示为失真的合成倒谱向量C=[C(1),…,C(N)]与具有正分量的纠正向量W=[W(1),…,W(N)]的逐分量相乘,称为同态滤波(liftering)。然后增强的输出向量O为:
Figure BDA0000452684310000084
此后,采用纠正向量的双重处理。一方面,将其视为向量,即,有序值集。另一方面,将其视为在网格n=[1,2,…,N]对函数W(n)进行采样的结果。
上面描述的观察建议纠正同态滤波函数W(n)的n通常应该增加,尽管不一定单调增加。可以针对纠正函数强加两个要求,以便防止增强后的合成语音中的可听失真:
可以选择同态滤波函数的形式,以便频谱峰值和谷值的频率不会由于同态滤波操作而明显变化。具体地说,这意味着同态滤波函数应该在倒频率方面是平滑的。
通过纠正同态滤波操作实现的频谱锐化程度可以在与对应语音单位关联的实际群集中观察到的范围内。
所述方法的总体思路是定义一系列参数平滑正纠正函数Wp(n)(例如,指数),其依赖于参数集p,并且针对每个语音单位或每个发出的倒谱向量计算参数值,以便同态滤波之后的倒谱衰减程度(和对应的频谱锐化程度)与在对应实际群集中观察到的平均水平匹配。
所述方法以统计方式控制纠正同态滤波以便大幅提高合成语音的质量,同时防止引入可听失真的过度同态滤波。
建议的方法的描述
假设:Wp(n)是一系列参数纠正同态滤波函数,其依赖于增强参数集p;C=[C(n),n=1,…,N]是从统计TTS系统的语音单位模型L发出的合成倒谱向量;以及H(X)是倒谱向量X的指示其衰减的向量函数。此后H(X)称为衰减指示符。
可以针对单位L计算衰减指示符的参考值Hreal,方法是在与该单位关联的实际群集上对H(X)进行平均:
Hreal=E{H(X),X∈rawclusterL}    (5)
可以通过在针对单位L预先创建的合成群集上对H(X)进行平均,计算衰减指示符的实际值Hsyn
Hsyn=E{H(X),X∈syntheticclusterL}    (6.1)
备选地,可以从要处理的同一个合成向量C计算实际值Hsyn
Hsyn=H(C)    (6.2)
可以计算增强参数的最佳值,这些值提供衰减指示符的参考值的最佳近似:
p opt = p opt ( H real , H syn ) = arg min p D ( H real , H syn , W p ) - - - ( 7 )
其中D(Hreal,Hsyn,Wp)是增强准则,其衡量衰减指示符的参考值与应用纠正同态滤波Wp之后的衰减指示符的预测实际值之间的差异。
最后,可以将最佳同态滤波应用于向量C,从而产生增强后的向量O:
O = W p opt &CircleTimes; C = [ W p opt ( n ) &CenterDot; C ( n ) , n = 1 , &CenterDot; &CenterDot; &CenterDot; , N ] - - - ( 8 )
这可以进一步用于输出语音波形,该波形根据针对原始统计TTS系统采用的正则概型(regular scheme)而呈现。
上面描述的过程可以应用于从原始统计TTS系统输出的每个倒谱向量。
参考由两个替代公式(6.1)和(6.2)给出的衰减指示符的实际值Hsyn的计算,可以注意到,替代选择产生类似的结果。这可以通过以下事实解释:在HMM TTS系统中,合成群集展现低方差,因此每个向量(例如C)接近于群集的平均值。但是,(6.1)和(6.2)导致增强的系统的两种不同操作模式。
在第一种情况(6.1)下,可以在利用增强的系统之前,离线计算并存储与每个单位关联的最佳增强参数集p和纠正同态滤波向量Wp。在合成时,可以将对应的预存储同态滤波函数应用于每个合成向量C。这种选择将简化增强的系统的运行时组件的实现。
在第二种情况(6.2)下,可以在运行时针对从统计模型发出的每个向量C执行最佳纠正同态滤波向量Wp的计算。仅可以离线计算并存储参考值Hreal。在合成时,可以将与对应单位关联的参考值Hreal传递给增强算法。这种选择不需要针对每个单位构建合成群集。此外,如下面描述的那样正确选择衰减指示符H(X)之后,不需要存储Hreal向量。相反,很容易从统计模型参数获得这些向量,并且可以将建议的方法应用于针对原始TTS系统构建的已有语音模型。
一般地说,参考下面的实例实施例,将更好地理解上面描述的方法,这些实施例解决算法的特定要点。
选择纠正同态滤波函数族。
关系(2)建议一种简单并且以数学方式处理的指数纠正函数:
Wα(n)=αn,α>1    (9)
在这种情况下,增强参数集p可以包括一个标量指数底数α。在极点-零点模型(2)中,指数同态滤波导致极点和零点向直接与频谱锐化相关的复平面的单位圆进行均匀径向迁移,而不改变频率轴上的峰值和谷值的位置:
O ( n ) = &alpha; n &CenterDot; C ( n ) = 1 n ( &Sigma; k ( &alpha; p k ) n - &Sigma; m ( &alpha; z m ) n ) , 1 < &alpha; < 1 / max ( | p k | , | z m | ) - - - ( 10 )
频谱锐化程度取决于选择的指数底数α值。过高的α可能过分强调频谱共振峰,并且甚至致使逆倒谱变换不稳定。另一方面,过低的α可能不会产生预期的增强效应。这就是对同态滤波参数进行统计控制很重要的原因。
对L2正态比率向量的典型形状(由图2中的枝图示出)的研究促成一种替代的不容易以数学方式处理的纠正函数,其采取两个连接指数的形式:
W &alpha; , &beta; , &gamma; ( n ) = &alpha; n , 1 &le; n &le; &gamma; &alpha; &gamma; &CenterDot; b ( n - &gamma; ) , &gamma; < n &le; N - - - ( 11 )
在这种情况下,增强参数集可以包括三个参数:第一指数的底数α、第二指数的底数β和整数连接点γ,即,发生连接的向量分量的指数。
选择衰减指示符H(X)
下面描述的建议的方法的实施例可以基于衰减指示符,其定义为:
H(X)=[X2(n),n=1,...,N]    (12)
然后,由(5)给出的参考值Hreal是与语音单位L关联的实际群集的二阶矩
Figure BDA0000452684310000113
实际上,不需要构建实际群集以便计算向量
Figure BDA0000452684310000114
在许多情况下,可以很容易从倒谱向量概率分布计算该向量。例如,在用于HMMTTS系统的高斯混合模型的情况下,参考值可以计算为:
M real 2 ( n ) = &Sigma; i = 1 I &lambda; i &CenterDot; [ &sigma; i 2 ( n ) + &mu; i 2 ( n ) ] n = 1 , N &OverBar; - - - ( 13 )
其中μi
Figure BDA0000452684310000122
和λi分别是与个体高斯关联的均值向量、方差向量和权重。
衰减指示符的实际值Hsyn可以是通过合成群集计算的倒谱向量的经验二阶矩或者是要增强的平方向量C,具体取决于在(6.1)和(6.2)之间的选择。
可以可选地由短滤波器(例如5抽头移动平均滤波器)平滑向量Hreal和Hsyn的分量。此后,平滑版本的向量保留相同的符号以避免公式复杂。
选择增强准则
在建议的方法的一个实施例中,在(7)中出现的增强准则D(Hreal,Hsyn,Wp)可以定义为:
D ( H real , H syn , W p ) = &Sigma; n { log [ W p ( n ) &CenterDot; H syn ( n ) ] - log H real ( n ) } 2 - - - ( 14 )
其中H(X)由(12)定义,增强准则(14)表示纠正向量Wp与L2正态比率向量
Figure BDA0000452684310000124
之间的差异,或者换言之,增强准则表示应用增强之后的L2正态比率向量的预测平坦度。
在另一个实施例中,增强准则可以定义为:
D ( H real , H syn , W p ) = | &Sigma; n n 2 W p 2 ( n ) H syn ( n ) - &Sigma; n n 2 H real ( n ) | - - - ( 15 )
注意当H(X)由(12)定义时
&Sigma; n n 2 H ( n ) = &Sigma; n n 2 X 2 ( n ) = Const &CenterDot; &Integral; 0 &pi; ( d ( log S ( &omega; ) ) d&omega; ) 2 d&omega; - - - ( 16 )
其中是S(ω)是对应于倒谱向量X的频谱包络。因此,增强准则(15)预测实际向量和增强的合成向量之间的频谱平滑度差异。
计算最佳增强参数
实例1.
在指数纠正同态滤波函数(9)和增强准则(14)的情况下,最佳增强参数α的计算(7)可以通过对数线性回归实现:
log &alpha; opt = &Sigma; n n &CenterDot; log R ( n ) / &Sigma; n n 2 R ( n ) = M real 2 ( n ) / H syn ( n ) - - - ( 17 )
参考图2,粗实线210绘制根据(17)计算的最佳纠正同态滤波函数的一个实例。由纠正同态滤波产生的增强的频谱包络在图1中通过粗虚线110示出。可以看到,增强的频谱包络展现突出的峰值和谷值,并且比原始合成频谱更好地类似于实际频谱。
实例2.
在两个连接指数(11)和增强准则(14)的情况下,最佳增强参数集可以计算如下:固定连接点γ,α和β的值可以计算为:
log &alpha; ( &gamma; ) = &Sigma; n &le; &gamma; n &CenterDot; log R ( n ) / &Sigma; n &le; &gamma; n 2 log &beta; ( &gamma; ) = &Sigma; n > &gamma; ( n - y ) &CenterDot; ( log R ( n ) - &gamma; log &alpha; ( &gamma; ) ) / &Sigma; n > &gamma; ( n - &gamma; ) 2 - - - ( 18 )
然后可以通过在预定义范围内扫描所有整数值γ获得三个参数的最佳值:
&gamma; opt = arg min &gamma; &Element; [ min &gamma; , max &gamma; ] D ( M real 2 , H syn , W &alpha; ( &gamma; ) , &beta; ( &gamma; ) , &gamma; )
log &alpha; opt = log &alpha; ( &gamma; opt ) - - - ( 19 )
log &beta; opt = log &beta; ( &gamma; opt )
其中1<minγ<maxγ<N,例如minγ=0.5*N和maxγ=0.75*N。
在图2中通过粗虚线220绘制根据(18)和(19)计算的最佳纠正同态滤波函数的实例。
实例3.
在指数纠正同态滤波函数(9)和增强准则(15)的情况下,指数底数α的最佳值可以通过求解以下方程获得:
&Sigma; n &alpha; 2 n &CenterDot; n 2 &CenterDot; H syn ( n ) = &Sigma; n n 2 &CenterDot; M real 2 ( n ) , &alpha; > 0 - - - ( 20 )
(20)的左侧是α的无限单调增加函数,对于α=0,其小于右侧值。因此,方程具有唯一解,并且可以通过所属技术领域中公知的方法之一进行数值求解。
定制增强参数
最佳增强参数使合成倒谱向量的衰减程度达到在对应实际群集中观察到的平均水平。因此,可以相对于最佳水平在某种程度上对增强进行强化或软化,以便优化增强的合成语音的感知质量。在建议的方法的一些实施例中,可以根据发出要增强的合成向量的对应语音单位的某些特性,改变按上面描述计算的最佳增强参数。例如,针对从HMM TTS系统的某个单位发出的向量计算的最佳指数底数(17)可以修改为:
αfinal=1+(αopt-1)·F(state_number,phone,voicing_class)    (21)
其中预定义因数F依赖于表示该单位的HMM状态编号、该HMM表示的音素的类别以及该状态表示的片段的浊化分类。例如F(3,”AH”,1)=1.2意味着假设聚集到该单位的大多数帧是浊化帧,则相对于表示音素“AH”的状态编号3的所有单位的最佳水平,增强将强化大约20%。
然后最终值αfinal可以用于致使将纠正同态滤波向量应用于对应的合成倒谱向量。
参考图3和4,框图示出其中应用所述合成语音统计增强的系统300、400的实例实施例。
参考图3,系统300包括统计TTS系统310的在线增强机构340。系统300包括统计TTS系统310,例如基于HMM的系统,其接收文本输入301并且合成文本以便提供语音输出302。
在一个实施例中,TTS系统310是基于HMM的系统,其通过具有未观察到(隐藏)的状态(具有高斯混合发出概率分布)的一系列马尔可夫过程对参数化语音进行建模。在其它实施例中,可以使用其它形式的统计建模。
统计TTS系统310可以包括语音单位模型组件320,其包括声学特征向量输出组件321以便从该单位模型输出生成的合成声学特征向量。在一个实施例中,声学特征向量可以是倒谱向量。在另一个实施例中,声学特征向量可以是线谱频率向量。
可以提供初始化单元330,其包括纠正变换定义组件331以便定义要用于获得纠正变换实例的参数纠正变换。纠正变换定义组件331还可以包括增强参数集组件332以便定义要使用的增强参数集。初始化单元330还可以包括失真指示符组件333以便定义要使用的失真指示符,以及增强准则组件334以便定义要使用的增强准则。初始化单元330还可以包括增强定制组件335,其依赖于单位属性和增强参数。在声学特征向量是倒谱向量的实施例中,失真指示符是衰减指示符。
提供在线增强机构340,其可以包括以下组件以便通过应用纠正变换的实例,在语音单位模型组件320输出失真的声学特征向量时增强这些向量。
在线增强机构340可以包括输入组件341。输入组件341可以包括声学特征向量输入组件342以便从语音单位模型组件320接收输出。例如,一系列N维倒谱向量。
输入组件341还可以包括实际发出统计组件343,以便从语音单位模型组件320的统计模型接收实际发出统计。
输入组件341还可以包括单位属性组件344,以便接收语音单位模型组件320的单位属性。
在线增强机构340还可以包括增强参数集组件350。增强参数集组件350可以包括失真指示符参考组件351和失真指示符实际值组件352,以便应用失真指示符定义并且计算实际值和参考值以用于获得增强参数集。
增强参数集组件350还可以包括增强准则应用组件353,以便应用定义的增强准则以测量失真指示符的参考值和预测实际值之间的差异。
增强参数集组件350可以包括定制组件354,以便根据单位属性改变最佳增强参数集值。所述属性可以包括产生统计模型的音素类别和用于统计模型训练的大多数语音帧的浊化分类(voicing class)。
在线增强机构340可以包括纠正变换生成组件360和纠正变换应用组件365,以便将从增强参数集值获得的参数变换的实例应用于声学特征向量,从而产生增强的向量。
在线增强机构340可以包括输出组件370以便输出增强的向量输出371,以用于统计TTS系统310的语音波形合成组件380。
参考图4,系统400示出图3的一个备选实施例,其中离线生成纠正变换。在可能的情况下,使用与图3相同的参考标号。
与图3中一样,系统400包括统计TTS系统410,例如基于HMM的系统,其接收文本输入401并且合成文本以便提供语音输出402。统计TTS系统410可以包括语音单位模型组件420,其包括声学特征向量输出组件421以便从该单位模型输出生成的合成声学特征向量。
与图3中一样,可以提供初始化单元430,其包括纠正变换定义组件431以便定义要用于获得纠正变换实例的参数纠正变换。纠正变换定义组件431还可以包括参数集组件432以便定义要使用的增强参数集。初始化单元430还可以包括失真指示符组件433以便定义要使用的失真指示符,以及增强准则组件434以便定义要使用的增强准则。初始化单元430还可以包括增强定制组件435,其依赖于单位属性和增强参数。
在该实施例中,可以提供离线增强计算机构440,以便生成和存储纠正变换实例。可以提供在线增强机构450,以便在语音合成期间检索和应用纠正变换的实例。
离线增强计算机构440可以包括输入组件441。输入组件441可以包括合成群集向量组件442,以便针对从语音单位模型组件420发出的每个语音单位收集声学特征向量的合成群集。输入组件441还可以包括实际发出统计组件443,以便从语音单位模型组件420的统计模型接收实际发出统计。输入组件441还可以包括单位属性组件444,以便接收语音单位模型组件420的单位属性。
离线增强计算机构440还可以包括增强参数集组件450。增强参数集组件450可以包括失真指示符参考组件451和失真指示符实际值组件452,以便应用失真指示符定义并且计算实际值和参考值以用于获得增强参数集。增强参数集组件450还可以包括增强准则应用组件453,以便应用定义的增强准则以测量失真指示符的参考值与预测实际值之间的差异。增强参数集组件450可以包括定制组件454,以便根据单位属性改变最佳增强参数集值。
离线增强计算机构440可以包括纠正变换生成和存储组件460。
在线增强机构470可以包括纠正变换检索和应用组件471,以便将从增强参数集值获得的参数纠正变换的实例应用于声学特征向量,从而产生增强后的向量。在线增强机构470可以包括输出组件472以便输出增强的向量输出473,以用于统计TTS系统410的语音波形合成组件480。
参考图5,用于实现本发明各个方面的示例性系统包括适合于存储和/或执行程序代码的数据处理系统500,其包括至少一个通过总线系统503直接或间接连接到存储元件的处理器501。存储元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。
存储元件可以包括只读存储器(ROM)504和随机存取存储器(RAM)505形式的系统存储器502。可以将基本输入/输出系统(BIOS)506存储在ROM504中。可以将包括操作系统软件508的系统软件507存储在RAM505中。还可以将软件应用510存储在RAM505中。
系统500还可以包括诸如硬磁盘驱动器之类的主存储器511以及诸如磁盘驱动器和光盘驱动器之类的辅助存储器512。驱动器及其关联的计算机可读介质为系统500提供计算机可执行指令、数据结构、程序模块和其它数据的非易失性存储。可以将软件应用存储在主存储器和辅助存储器511、512以及系统存储器502中。
计算系统500可以使用通过网络适配器516与一个或多个远程计算机的逻辑连接,在联网环境中运行。
输入/输出设备513可以直接或通过中间I/O控制器与所述系统相连。用户可以通过诸如键盘、指点设备之类的输入设备或其它输入设备(例如,麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪等)将命令和信息输入到系统500。输出设备可以包括扬声器、打印机等。显示设备514也通过诸如视频适配器515之类的接口连接到系统总线503。
参考图6,流程图600示出所描述的方法。定义一系列参数纠正变换,所述纠正变换工作在声学特征向量空间中并依赖于一组增强参数(601)。还可以定义特征向量的失真指示符(602)。接收从所述系统的语音单位发出的特征向量(603)。可以通过应用一组优化的增强参数值以减小可听失真而从参数纠正变换生成纠正变换的实例(604)。
可以通过以下步骤生成纠正变换的实例。计算失真指示符的参考值,所述参考值由发出特征向量的语音单位的统计模型产生(605),并且计算失真指示符的实际值,所述实际值由发出特征向量的语音单位的统计模型所发出的特征向量产生(606),并且根据失真指示符的参考值、失真指示符的实际值和参数纠正变换,计算一组增强参数值(607)。
可以将纠正变换的实例应用于特征向量以便提供增强的向量以用于语音合成(608)。
参考图7和8,流程图700、800示出纠正同态滤波向量上下文中的所述方法的实例实施例,其应用于倒谱向量,并且失真指示符采取衰减指示符的形式以便平滑频谱失真。
参考图7,流程图700示出所述方法的一个实例实施例的步骤,其对应于以下情况:其中使用倒谱声学特征向量和同态滤波纠正变换,并且在合成操作期间在线计算纠正同态滤波向量。
第一初始化阶段710可以包括定义(711):依赖于增强参数集P的一系列参数纠正同态滤波函数WP(N);衰减指示符H;增强准则D(H,H,WP);以及依赖于单位属性和增强参数的增强定制机制F。
第二阶段720是使用增强的合成操作。可以从统计模型应用倒谱向量生成(721)。可以接收以下各项(722):从语音单位U发出的合成倒谱向量C;来自U的统计模型的发出统计REALS(例如,均值和方差);以及语音单位U的单位属性UA。
可以计算衰减指示符的参考值HREAL=H(REALS)以及实际值HSYN=H(C)(723)。可以计算最佳增强参数值P*,从而优化增强准则: P * = arg min P D ( H REAL , H SYN , W P ) (724)。
可以应用定制机制,根据单位属性改变最佳增强参数值P**=F(P*,UA)(725)。可以计算对应于P**的纠正同态滤波向量WP**(726),并且将其应用于向量C从而产生增强的向量O(727)。可以将增强的向量O用于语音的波形合成(728)。
参考图8,流程图800示出所述方法的一个实例实施例的步骤,其对应于以下情况:其中使用倒谱声学特征向量和同态滤波纠正变换,并且离线计算和存储纠正同态滤波向量,从而将其链接到对应的语音单位。
第一初始化阶段810可以包括定义:依赖于增强参数集P的一系列参数纠正同态滤波函数WP(N);衰减指示符H;增强准则D(H,H,WP);以及依赖于单位属性和增强参数的增强定制机制F。
第二阶段820是离线计算单位相关纠正向量。可以从统计模型应用倒谱向量生成(821)。对于每个语音单位U,可以收集从语音单位U发出的倒谱向量的合成群集(822)。可以计算合成群集统计(例如,均值和方差)SYNS(823)。可以连同语音单位U的单位属性UA一起从U的统计模型取回发出统计(例如,均值和方差)REALS(824)。
可以计算衰减指示符的参考值HREAL=H(REALS)以及实际值HSYN=H(SYNS)(825)。可以计算最佳增强参数值P*,从而优化增强准则: P * = arg min P D ( H REAL , H SYN , W P ) (826)。可以应用定制机制,根据单位属性改变最佳增强参数值P**=F(P*,UA)(827)。
计算对应于P**的纠正同态滤波向量WP**(828)。存储同态滤波向量WP**,从而将其链接到单位U(829)。
在使用增强的合成的在线操作830中,接收合成倒谱向量C以及对应于发出C的单位的纠正同态滤波向量WP**(831)。将纠正同态滤波向量WP**应用于向量C,从而产生增强的向量O(832)。将增强的向量O用于语音的波形合成(833)。
所述增强方法通过强烈减小频谱模糊效应,提高合成语音的感知质量。这种增强技术的效应包括朝向Z平面的单位圆移动对应于合成频谱包络的传递函数的极点和零点,这导致锐化频谱峰值和谷值。
通常,它适用于各种基于HMM的TTS系统和各种统计TTS系统。大多数HMM TTS系统在倒谱空间中(即,使用倒谱特征向量)对帧的频谱包络进行建模。所述增强技术工作在倒谱域,并且直接适用于采用倒谱特征的任何统计系统。
所述方法没有引入可听失真,因为它在统计TTS系统中利用提供的统计信息自适应地工作。计算应用于从原始TTS系统输出的合成向量的纠正变换,以使增强的向量的某些特性值达到在从实际语音获得的相关特征向量中观察到的该特性的平均水平。
所述方法不需要构建新的话音模型。可以与已有话音模型一起采用所述方法。可以根据很容易在现有话音模型中获得的倒谱均值和方差向量,计算用作纠正变换计算的参考的实际向量统计。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上面参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (25)

1.一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示,所述方法包括:
定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;
定义一个特征向量或多个特征向量的失真指示符;
接收所述系统输出的特征向量;
通过以下操作生成所述纠正变换的实例:
计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;
计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;
根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;
从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及
将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
2.根据权利要求1的方法,其中所述声学特征向量是倒谱向量,所述失真指示符是衰减指示符,所述参数纠正变换是倒频率的参数纠正函数,并且应用所述纠正变换的所述实例是所述特征向量与所述纠正函数的逐分量相乘。
3.根据权利要求2的方法,其中针对每个发出的倒谱向量或每个语音单位而执行生成所述纠正变换的实例。
4.根据权利要求2的方法,其中计算衰减指示符的参考值的步骤在所述语音单位指定的发出概率分布上求平均值。
5.根据权利要求2的方法,其中基于从所述系统输出的合成倒谱向量而计算衰减指示符的实际值。
6.根据权利要求2的方法,其中在接收从所述系统输出的倒谱向量之前离线地执行生成所述纠正变换的实例,并且基于所述系统离线地生成并从所述语音单位发出的多个倒谱向量而计算所述衰减指示符的实际值。
7.根据权利要求1的方法,其中计算一组所述增强参数值包括根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和参数纠正函数而最小化增强准则,以及表示参考失真指示符与由增强的合成向量产生的所述失真指示符的预测值之间的差异。
8.根据权利要求1的方法,其中所述统计TTS系统是采用高斯混合发出概率分布的基于隐马尔可夫模型(HMM)的TTS系统。
9.根据权利要求2的方法,其中所述参数纠正函数是指数函数,并且所述一组增强参数包括指数底数。
10.根据权利要求2的方法,其中所述参数纠正函数是逐段指数函数,并且所述一组增强参数包括个体指数的底数值和连接点。
11.根据权利要求2的方法,其中所述衰减指示符是逐分量平方的倒谱向量。
12.根据权利要求11的方法,包括通过对称正滤波器平滑衰减指示符分量。
13.根据权利要求7的方法,还包括根据发出所述倒谱向量的所述统计模型的属性改变一组增强参数值。
14.根据权利要求13的方法,其中所述属性包括产生所述统计模型的音素类别和用于统计模型训练的大多数语音帧的浊化分类。
15.一种用于增强由统计文本到语音(TTS)系统合成的语音的计算机程序产品,所述系统在声学特征向量空间中采用语音的参数表示,所述计算机程序产品包括:
计算机可读非瞬时性存储介质,其包含计算机可读程序代码,所述计算机可读程序代码包括:
可执行以便执行任一上述权利要求的步骤的计算机可读程序代码。
16.一种用于增强由统计文本到语音(TTS)系统合成的语音的系统,所述TTS系统在声学特征向量空间中采用语音的参数表示,所述系统包括:
处理器;
声学特征向量输入组件,其用于接收语音单位发出的声学特征向量;
纠正变换定义组件,其用于定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;
增强参数集组件,其包括:
失真指示符参考组件,其用于计算失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;
失真指示符实际值组件,其用于计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;以及
其中所述增强参数集组件根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而计算增强参数值;
纠正变换应用组件,其用于将所述纠正变换的实例应用于所述特征向量以提供增强的特征向量。
17.根据权利要求16的系统,其中所述声学特征向量是倒谱向量,所述失真指示符是衰减指示符,所述参数纠正变换是倒频率的参数纠正函数,并且应用所述纠正变换的所述实例是所述特征向量与所述纠正函数的逐分量相乘。
18.根据权利要求17的系统,其中所述失真指示符参考组件是衰减指示符参考组件,其用于计算在由所述语音单位指定的发出概率分布上平均的所述衰减指示符的参考值。
19.根据权利要求17的系统,其中所述失真指示符实际值组件是衰减指示符实际值组件,其用于基于从所述系统输出的合成倒谱向量而计算所述衰减指示符的实际值。
20.根据权利要求17的系统,包括:
离线增强计算机构,其用于在接收从所述语音单位发出的倒谱向量之前离线地获得所述增强参数,并且
其中所述失真指示符实际值组件是衰减指示符实际值组件,其用于基于从统计模型离线地生成的多个合成向量而计算衰减指示符的实际值。
21.根据权利要求16的系统,其中所述增强参数集组件包括增强准则应用组件,其用于计算所述增强参数值,包括根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而最小化增强准则,以及表示参考失真指示符与由增强的合成向量产生的所述失真指示符的预测值之间的差异。
22.根据权利要求16的系统,其中所述统计TTS系统是采用高斯混合发出概率分布的基于隐马尔可夫模型(HMM)的TTS系统。
23.根据权利要求17的系统,其中所述参数纠正函数是指数函数,并且所述一组增强参数包括指数底数。
24.根据权利要求17的系统,其中所述参数纠正函数是逐段指数函数,并且所述一组增强参数包括个体指数的底数值和连接点。
25.根据权利要求16的系统,还包括定制组件,其用于根据发出所述特征向量的所述统计模型的属性改变一组增强参数值。
CN201280033177.0A 2011-07-07 2012-06-28 从统计文本到语音合成系统输出的语音的统计增强 Expired - Fee Related CN103635960B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/177,577 2011-07-07
US13/177,577 US8682670B2 (en) 2011-07-07 2011-07-07 Statistical enhancement of speech output from a statistical text-to-speech synthesis system
PCT/IB2012/053270 WO2013011397A1 (en) 2011-07-07 2012-06-28 Statistical enhancement of speech output from statistical text-to-speech synthesis system

Publications (2)

Publication Number Publication Date
CN103635960A true CN103635960A (zh) 2014-03-12
CN103635960B CN103635960B (zh) 2016-04-13

Family

ID=47439189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280033177.0A Expired - Fee Related CN103635960B (zh) 2011-07-07 2012-06-28 从统计文本到语音合成系统输出的语音的统计增强

Country Status (6)

Country Link
US (1) US8682670B2 (zh)
JP (1) JP2014522998A (zh)
CN (1) CN103635960B (zh)
DE (1) DE112012002524B4 (zh)
GB (1) GB2507674B (zh)
WO (1) WO2013011397A1 (zh)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN109313894A (zh) * 2016-06-21 2019-02-05 索尼公司 信息处理装置与信息处理方法
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1894739A (zh) * 2003-05-09 2007-01-10 思科技术公司 依赖于源的文本到语音系统
US20080091428A1 (en) * 2006-10-10 2008-04-17 Bellegarda Jerome R Methods and apparatus related to pruning for concatenative text-to-speech synthesis

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3472964A (en) * 1965-12-29 1969-10-14 Texas Instruments Inc Vocal response synthesizer
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US6430522B1 (en) * 2000-03-27 2002-08-06 The United States Of America As Represented By The Secretary Of The Navy Enhanced model identification in signal processing using arbitrary exponential functions
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7103539B2 (en) 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
KR100612843B1 (ko) 2004-02-28 2006-08-14 삼성전자주식회사 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
WO2007058121A1 (ja) * 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8757490B2 (en) * 2010-06-11 2014-06-24 Josef Bigun Method and apparatus for encoding and reading optical machine-readable data codes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1894739A (zh) * 2003-05-09 2007-01-10 思科技术公司 依赖于源的文本到语音系统
US20080091428A1 (en) * 2006-10-10 2008-04-17 Bellegarda Jerome R Methods and apparatus related to pruning for concatenative text-to-speech synthesis

Also Published As

Publication number Publication date
US20130013313A1 (en) 2013-01-10
JP2014522998A (ja) 2014-09-08
DE112012002524T5 (de) 2014-03-13
GB2507674B (en) 2015-04-08
DE112012002524B4 (de) 2018-05-30
WO2013011397A1 (en) 2013-01-24
GB2507674A (en) 2014-05-07
US8682670B2 (en) 2014-03-25
GB201400493D0 (en) 2014-02-26
CN103635960B (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN103635960B (zh) 从统计文本到语音合成系统输出的语音的统计增强
Shen et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions
Marafioti et al. A context encoder for audio inpainting
JP6423420B2 (ja) 帯域幅拡張方法および装置
JP6272619B2 (ja) オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法
CN104969290A (zh) 用于对音频帧丢失隐藏进行控制的方法和设备
US20230317056A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Gu et al. Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension.
Wu et al. Quasi-periodic WaveNet: An autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network
CN103918028B (zh) 基于自回归系数的有效表示的音频编码/解码
CN115867966A (zh) 用于确定生成神经网络的参数的方法和装置
CN102812512B (zh) 处理音频信号的方法和装置
Yeh et al. An efficient complexity reduction algorithm for G. 729 speech codec
Gueham et al. Packet loss concealment method based on hidden Markov model and decision tree for AMR-WB codec
US6192336B1 (en) Method and system for searching for an optimal codevector
Wu et al. Relational data selection for data augmentation of speaker-dependent multi-band melgan vocoder
Wu et al. Statistical voice conversion with quasi-periodic wavenet vocoder
Natsiou et al. A sinusoidal signal reconstruction method for the inversion of the mel-spectrogram
WO2024069726A1 (ja) 学習装置、変換装置、学習方法、変換方法及びプログラム
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
Ai et al. Low-Latency Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses for Speech Generation Tasks
Kim et al. CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech
Wang et al. Combined Generative and Predictive Modeling for Speech Super-resolution
JP2023045835A (ja) 音声合成装置およびプログラム
Nagaraja et al. Advancements in encoded speech data by background noise suppression under uncontrolled environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160413

Termination date: 20200628