CN103635960A - 从统计文本到语音合成系统输出的语音的统计增强 - Google Patents
从统计文本到语音合成系统输出的语音的统计增强 Download PDFInfo
- Publication number
- CN103635960A CN103635960A CN201280033177.0A CN201280033177A CN103635960A CN 103635960 A CN103635960 A CN 103635960A CN 201280033177 A CN201280033177 A CN 201280033177A CN 103635960 A CN103635960 A CN 103635960A
- Authority
- CN
- China
- Prior art keywords
- designator
- vector
- distortion
- parameter
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Abstract
描述一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示。所述方法包括:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;以及定义一个特征向量或多个特征向量的失真指示符。所述方法还包括:接收所述系统输出的特征向量;以及通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;以及从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例。可以将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
Description
背景技术
本发明涉及合成语音领域。具体地说,本发明涉及从统计文本到语音(TTS)合成系统输出的合成语音的统计增强。
合成语音是人工产生的人类语音,其由计算机软件或硬件生成。TTS系统将语言文本转换为适合于数字到模拟转换和回放的语音信号或波形。
一种形式的TTS系统使用连接合成,其中从数据库选择记录的语音片段并连接以便形成传达输入文本的语音信号。通常,存储的语音片段表示语音单位,例如在特定语音-语言上下文中出现的次音素、音素和双音素。
另一种类别的语音合成(称为“统计TTS”)通过人类话音的统计建模而产生合成语音信号。现有的统计TTS系统基于具有高斯混合发出概率分布的隐马尔可夫模型(HMM),因此“HMM TTS”和“统计TTS”有时可以同义使用。但是,原则上统计TTS系统可以采用其它类型的模型。因此,本发明的描述通常解决统计TTS,而HMM TTS被视为前者的特定实例。
在基于HMM的系统中,可以通过HMM同时对语音的频谱(声道)、基频(声源)和持续时间(韵律)进行建模。可以根据最大似然准则从HMM生成语音波形。
基于HMM的TTS系统在工业和语音研究团体中越来越受欢迎,因为这种方法比连接合成模式具有一些优点。但是,通常认为HMM TTS系统产生模糊质量的语音,缺少存在于自然语音中并且在连接TTS输出中很大程度上保留的清脆性和生动性。通常,基于HMM系统中的模糊质量归因于频谱形状模糊,并且具体归因于统计建模导致的共振峰变宽,这种统计建模包括对表示语音帧的大量(例如,数千)特征向量进行平均。
多年来,共振峰模糊效应已经在语音编码领域中为人所知,然而在HMM TTS中,这种效应对输出的感知质量具有更强烈的负面影响。已经针对语音编解码器开发一些语音增强技术(也称为后置滤波),以便在解码阶段补偿量化噪声并且锐化共振峰。一些TTS系统遵循这种方法,并且采用旨在部分补偿频谱模糊效应的后处理增强步骤。
发明内容
根据本发明的第一方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示,所述方法包括:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;定义一个特征向量或多个特征向量的失真指示符;接收所述系统输出的特征向量;通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
根据本发明的第二方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的计算机程序产品,所述系统在声学特征向量空间中采用语音的参数表示,所述计算机程序产品包括:具有随其包含的计算机可读程序代码的计算机可读非瞬时性存储介质,所述计算机可读程序代码包括:被配置为执行以下操作的计算机可读程序代码:定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;定义一个特征向量或多个特征向量的失真指示符;接收所述系统输出的特征向量;通过以下操作生成所述纠正变换的实例:计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
根据本发明的第三方面,提供一种用于增强由统计文本到语音(TTS)系统合成的语音的系统,所述TTS系统在声学特征向量空间中采用语音的参数表示,所述系统包括:处理器;声学特征向量输入组件,其用于接收语音单位发出的声学特征向量;纠正变换定义组件,其用于定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;增强参数集组件,其包括:失真指示符参考组件,其用于计算失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;失真指示符实际值组件,其用于计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;以及其中所述增强参数集组件根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而计算增强参数值;纠正变换应用组件,其用于将所述纠正变换的实例应用于所述特征向量以提供增强的特征向量。
附图说明
现在仅通过实例的方式参考附图描述本发明的实施例(多个),这些附图是:
图1是示出从与用于实际和合成语音的同一上下文相关语音单位关联的倒谱向量获得的频谱包络模糊效应的图;
图2是上下文相关语音单位的比率向量分量与根据倒频率(quefrency)绘制的比率向量分量的枝图(stemmed plot);
图3是根据本发明的系统的第一实施例的框图;
图4是根据本发明的系统的第二实施例的框图;
图5是其中可以实现本发明的计算机系统的框图;
图6是根据本发明的方法的流程图;
图7是根据本发明的以在线操作模式应用的方法的第一实施例的流程图;以及
图8是根据本发明的以离线/在线操作模式应用的方法的第二实施例的流程图。
应该理解,为了使附图简单和清晰,附图中所示的元素不一定按比例绘制。例如,为清晰起见,可以相对于其它元素扩大一些元素的尺寸。进一步,如果认为适当,则可以在附图中重复参考标号以便指示对应或类似的特性。
具体实施方式
在以下详细描述中,提供了大量特定的细节以便彻底理解本发明。但是,所属技术领域的技术人员将理解,可以在没有这些特定的细节的情况下实现本发明。在其它情况下,未详细描述公知的方法、过程和组件以避免使本发明变得模糊不清。
在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。还将理解,当在此说明书中使用时,术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在,但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组的存在或增加。
下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本发明的描述,但所述描述并非旨在是穷举的或是将本发明限于所公开的形式。在不偏离本发明的范围和精神的情况下,对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用,并且当适合于所构想的特定使用时,使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。
描述了其中针对从统计TTS系统输出的语音使用统计补偿方法的方法、系统和计算机程序产品。可以通过补偿统计TTS系统固有的频谱模糊效应来减小合成语音中的失真,并且通过向系统生成的声学特征向量应用纠正变换来减小其它失真。
在统计TTS系统中,对语音的瞬时频谱包络进行参数化,即,由声学特征向量表示。在一些系统中,频谱包络可以组合声道和声门脉冲相关分量。在这种情况下,通常忽略声门脉冲对频谱包络的影响,并且频谱包络被视为与声道相关。在其它系统中,可以分别建模和生成声门脉冲和声道。在用作特定描述的主要实例的一个实施例中,将所述方法应用于单个频谱包络的情况。在其它实施例中,可以将所述方法分别应用于声道和声门脉冲相关分量。
在统计TTS系统中,通过单独的概率分布对与每个不同语音单位关联的参数化频谱包络进行建模。这些不同的单位通常是在某个语音-语言上下文中获得的音素的各部分。例如,在典型的基于3状态HMM的系统中,通过3状态HMM对在某个语音和语言上下文中获得的每个音素进行建模。在这种情况下,语音单位表示在上下文中获得的音素的三分之一(开头、中间或结尾)部分,并且通过多变量高斯混合概率密度函数进行建模。对于使用半马尔可夫模型(HSMM)的系统同样如此,在这些系统中,不使用状态转变概率,并且直接对单位持续时间进行建模。对于可以应用所述方法的其它统计TTS方法,可以使用HMM状态之外的模型,并且通过高斯之外的概率分布对发出概率进行建模。
在统计TTS系统中,可以使用不同类型的声音特征进行频谱包络参数化。在用作特定描述的主要实例的一个实施例中,使用倒谱向量形式的声学特征向量。但是,可以使用其它形式的声学特征向量,例如线谱频率(LSF),也称为线谱对(LSP)。
在倒谱特征的上下文中,功率倒谱(或简称倒谱)是对对数频谱进行逆傅里叶变换的结果。通常在语音处理中,并且具体在TTS系统中,在倒谱计算之前弯折(warp)频率轴。一种常用的频率弯折变换是梅尔刻度弯折,其反映人类听觉系统的感知特性。从具有准周期性的浊化(voiced)语音信号,不能立即获得连续频谱包络。因此,具有多种广泛使用的技术以便进行倒谱估计,每种技术基于不同的频谱包络估计方法。这些技术的实例包括:梅尔频率倒谱系数(MFCC)、感知线性预测(PLP)倒谱、梅尔刻度正规化倒谱系数(MRCC)。针对统计TTS系统中的每个语音单位,计算有限数量的倒谱样本(也称为倒谱系数)以便形成倒谱参数向量,该向量通过特定概率分布进行建模。
倒谱信号的参数和倒谱向量分量的指数称为倒频率(quefrency)。倒谱是离散信号,即,无限的值(系数)序列c(n)=c(0),c(1),c(2),…,n是倒频率。例如,c(2)是倒频率2时的倒谱值。在TTS中使用的倒谱向量是截断倒谱:V=[c1,c2,…,cN]。每个分量具有称为倒频率的指数。例如,c2分量与倒频率2关联。
建议的方法没有利用马尔可夫模型的特定特性或高斯混合模型的特性。因此,所述方法适用于任何统计TTS系统,这种系统通过在声学特征向量空间中定义的概率分布对语音单位的频谱包络进行建模。
下面提供的研究和分析使用美国英语5状态HSMM TTS系统执行,该系统采用33维MRCC倒谱向量进行频谱包络参数化。[有关MRCC的参考:Shechtman,S.和Sorin,A.的“Sinusoidal model parameterization forHMM-based TTS system(基于HMM的TTS系统的正弦模型参数化)”,Interspeech2010会议记录。]因此,每个语音单位由某个HMM的某个状态表示。通过不同的多变量高斯概率分布,对与每个单位关联的倒谱向量进行建模。
针对训练语句集训练语音模型之后,收集聚集到某个语音单位的所有倒谱向量。在语音模型训练期间,使用该倒谱向量集合(此后称为实际群集)估计该单位的高斯均值和方差。然后合成所有训练语句,并且收集从该单位的高斯模型发出的所有合成倒谱向量。这第二个集合称为合成群集。
统计TTS系统生成的语音的过度平滑性质由于频谱形状模糊导致,而频谱形状模糊由每个语音单位的倒谱向量(或其它声学特征向量)的统计建模产生。
图1中示出模糊效应的一个实例。图1是示出频谱包络的振幅101与频率102的图100,频谱包络从与某个单位关联的实际群集103和合成群集104选择的倒谱向量获得,分别以虚线和实线绘制。与实际向量103相比,合成向量104示出更平坦的频谱,具有更低的峰值和更高的谷值。频谱平坦化与具有倒频率的倒谱的衰减增加密切相关。可以使用声道传递函数的有理表示了解这种关系:
其中{pk}和{zm}分别是S(z)的极点和零点。对(1)的右侧取对数并且向添加的对数项应用麦克劳林级数展开,声道脉冲响应的倒谱可以表示如下:
从(2)中,可以得出结论:当传递函数的极点和零点远离单位圆而朝向Z平面的原点时—平坦化频谱峰值和谷值—倒谱衰减增加。
因此,预计与某个单位关联的合成倒谱向量相比于与该单位关联的实际向量,在倒频率方面具有更高的衰减。以下统计观察支持这种假设:这些观察通过针对实际和合成群集测量的倒谱向量分量比较L2正态分布。
具体地说,计算从完整的33维倒谱向量[C(1),C(2),…,C(33)]提取的子向量的L2正态分布。分析包含最低倒频率系数[C(1)…C(11)]、中间倒频率系数[C(12)…C(22)]和最高倒频率系数[C(23)…C(33)]的子向量。可以看到,中间倒频率和最高倒频率子向量的L正态在合成群集中比在实际群集中系统地低。同时,最低倒频率子向量的L2正态在实际群集和合成群集之间没有明显变化。
在实际群集和合成群集上计算的平均值中,观察到相同的现象。对于给定单位,L2正态比率向量R定义为:
参考图2,枝图200表示针对图1分析的同一单位计算的L2正态比率向量R的分量与根据倒频率202绘制的L2正态比率201的分量。比率向量分量展现沿着倒频率轴202的增加趋势,这意味着合成向量比实际向量具有更强的平均衰减。根据多个男性和女性语音模型的所有单位验证了这种统计观察,这些模型采用三种语言总计大约7000个HMM状态。
在呈现合成语音波形之前,使用上面的分析补偿合成向量的这种更强的衰减。在上面的研究和分析中,考虑倒频率方面的倒谱系数衰减。可以针对其它形式的声学特征向量(例如线谱频率)使用其它声学失真指示符。失真指示符可以指示(或者能够获得)频谱平滑程度或其它频谱失真。
在所述方法的一个实例实施例中,将补偿变换表示为失真的合成倒谱向量C=[C(1),…,C(N)]与具有正分量的纠正向量W=[W(1),…,W(N)]的逐分量相乘,称为同态滤波(liftering)。然后增强的输出向量O为:
此后,采用纠正向量的双重处理。一方面,将其视为向量,即,有序值集。另一方面,将其视为在网格n=[1,2,…,N]对函数W(n)进行采样的结果。
上面描述的观察建议纠正同态滤波函数W(n)的n通常应该增加,尽管不一定单调增加。可以针对纠正函数强加两个要求,以便防止增强后的合成语音中的可听失真:
可以选择同态滤波函数的形式,以便频谱峰值和谷值的频率不会由于同态滤波操作而明显变化。具体地说,这意味着同态滤波函数应该在倒频率方面是平滑的。
通过纠正同态滤波操作实现的频谱锐化程度可以在与对应语音单位关联的实际群集中观察到的范围内。
所述方法的总体思路是定义一系列参数平滑正纠正函数Wp(n)(例如,指数),其依赖于参数集p,并且针对每个语音单位或每个发出的倒谱向量计算参数值,以便同态滤波之后的倒谱衰减程度(和对应的频谱锐化程度)与在对应实际群集中观察到的平均水平匹配。
所述方法以统计方式控制纠正同态滤波以便大幅提高合成语音的质量,同时防止引入可听失真的过度同态滤波。
建议的方法的描述
假设:Wp(n)是一系列参数纠正同态滤波函数,其依赖于增强参数集p;C=[C(n),n=1,…,N]是从统计TTS系统的语音单位模型L发出的合成倒谱向量;以及H(X)是倒谱向量X的指示其衰减的向量函数。此后H(X)称为衰减指示符。
可以针对单位L计算衰减指示符的参考值Hreal,方法是在与该单位关联的实际群集上对H(X)进行平均:
Hreal=E{H(X),X∈rawclusterL} (5)
可以通过在针对单位L预先创建的合成群集上对H(X)进行平均,计算衰减指示符的实际值Hsyn:
Hsyn=E{H(X),X∈syntheticclusterL} (6.1)
备选地,可以从要处理的同一个合成向量C计算实际值Hsyn:
Hsyn=H(C) (6.2)
可以计算增强参数的最佳值,这些值提供衰减指示符的参考值的最佳近似:
其中D(Hreal,Hsyn,Wp)是增强准则,其衡量衰减指示符的参考值与应用纠正同态滤波Wp之后的衰减指示符的预测实际值之间的差异。
最后,可以将最佳同态滤波应用于向量C,从而产生增强后的向量O:
这可以进一步用于输出语音波形,该波形根据针对原始统计TTS系统采用的正则概型(regular scheme)而呈现。
上面描述的过程可以应用于从原始统计TTS系统输出的每个倒谱向量。
参考由两个替代公式(6.1)和(6.2)给出的衰减指示符的实际值Hsyn的计算,可以注意到,替代选择产生类似的结果。这可以通过以下事实解释:在HMM TTS系统中,合成群集展现低方差,因此每个向量(例如C)接近于群集的平均值。但是,(6.1)和(6.2)导致增强的系统的两种不同操作模式。
在第一种情况(6.1)下,可以在利用增强的系统之前,离线计算并存储与每个单位关联的最佳增强参数集p和纠正同态滤波向量Wp。在合成时,可以将对应的预存储同态滤波函数应用于每个合成向量C。这种选择将简化增强的系统的运行时组件的实现。
在第二种情况(6.2)下,可以在运行时针对从统计模型发出的每个向量C执行最佳纠正同态滤波向量Wp的计算。仅可以离线计算并存储参考值Hreal。在合成时,可以将与对应单位关联的参考值Hreal传递给增强算法。这种选择不需要针对每个单位构建合成群集。此外,如下面描述的那样正确选择衰减指示符H(X)之后,不需要存储Hreal向量。相反,很容易从统计模型参数获得这些向量,并且可以将建议的方法应用于针对原始TTS系统构建的已有语音模型。
一般地说,参考下面的实例实施例,将更好地理解上面描述的方法,这些实施例解决算法的特定要点。
选择纠正同态滤波函数族。
关系(2)建议一种简单并且以数学方式处理的指数纠正函数:
Wα(n)=αn,α>1 (9)
在这种情况下,增强参数集p可以包括一个标量指数底数α。在极点-零点模型(2)中,指数同态滤波导致极点和零点向直接与频谱锐化相关的复平面的单位圆进行均匀径向迁移,而不改变频率轴上的峰值和谷值的位置:
频谱锐化程度取决于选择的指数底数α值。过高的α可能过分强调频谱共振峰,并且甚至致使逆倒谱变换不稳定。另一方面,过低的α可能不会产生预期的增强效应。这就是对同态滤波参数进行统计控制很重要的原因。
对L2正态比率向量的典型形状(由图2中的枝图示出)的研究促成一种替代的不容易以数学方式处理的纠正函数,其采取两个连接指数的形式:
在这种情况下,增强参数集可以包括三个参数:第一指数的底数α、第二指数的底数β和整数连接点γ,即,发生连接的向量分量的指数。
选择衰减指示符H(X)
下面描述的建议的方法的实施例可以基于衰减指示符,其定义为:
H(X)=[X2(n),n=1,...,N] (12)
然后,由(5)给出的参考值Hreal是与语音单位L关联的实际群集的二阶矩实际上,不需要构建实际群集以便计算向量在许多情况下,可以很容易从倒谱向量概率分布计算该向量。例如,在用于HMMTTS系统的高斯混合模型的情况下,参考值可以计算为:
衰减指示符的实际值Hsyn可以是通过合成群集计算的倒谱向量的经验二阶矩或者是要增强的平方向量C,具体取决于在(6.1)和(6.2)之间的选择。
可以可选地由短滤波器(例如5抽头移动平均滤波器)平滑向量Hreal和Hsyn的分量。此后,平滑版本的向量保留相同的符号以避免公式复杂。
选择增强准则
在建议的方法的一个实施例中,在(7)中出现的增强准则D(Hreal,Hsyn,Wp)可以定义为:
在另一个实施例中,增强准则可以定义为:
注意当H(X)由(12)定义时
其中是S(ω)是对应于倒谱向量X的频谱包络。因此,增强准则(15)预测实际向量和增强的合成向量之间的频谱平滑度差异。
计算最佳增强参数
实例1.
在指数纠正同态滤波函数(9)和增强准则(14)的情况下,最佳增强参数α的计算(7)可以通过对数线性回归实现:
参考图2,粗实线210绘制根据(17)计算的最佳纠正同态滤波函数的一个实例。由纠正同态滤波产生的增强的频谱包络在图1中通过粗虚线110示出。可以看到,增强的频谱包络展现突出的峰值和谷值,并且比原始合成频谱更好地类似于实际频谱。
实例2.
在两个连接指数(11)和增强准则(14)的情况下,最佳增强参数集可以计算如下:固定连接点γ,α和β的值可以计算为:
然后可以通过在预定义范围内扫描所有整数值γ获得三个参数的最佳值:
其中1<minγ<maxγ<N,例如minγ=0.5*N和maxγ=0.75*N。
在图2中通过粗虚线220绘制根据(18)和(19)计算的最佳纠正同态滤波函数的实例。
实例3.
在指数纠正同态滤波函数(9)和增强准则(15)的情况下,指数底数α的最佳值可以通过求解以下方程获得:
(20)的左侧是α的无限单调增加函数,对于α=0,其小于右侧值。因此,方程具有唯一解,并且可以通过所属技术领域中公知的方法之一进行数值求解。
定制增强参数
最佳增强参数使合成倒谱向量的衰减程度达到在对应实际群集中观察到的平均水平。因此,可以相对于最佳水平在某种程度上对增强进行强化或软化,以便优化增强的合成语音的感知质量。在建议的方法的一些实施例中,可以根据发出要增强的合成向量的对应语音单位的某些特性,改变按上面描述计算的最佳增强参数。例如,针对从HMM TTS系统的某个单位发出的向量计算的最佳指数底数(17)可以修改为:
αfinal=1+(αopt-1)·F(state_number,phone,voicing_class) (21)
其中预定义因数F依赖于表示该单位的HMM状态编号、该HMM表示的音素的类别以及该状态表示的片段的浊化分类。例如F(3,”AH”,1)=1.2意味着假设聚集到该单位的大多数帧是浊化帧,则相对于表示音素“AH”的状态编号3的所有单位的最佳水平,增强将强化大约20%。
然后最终值αfinal可以用于致使将纠正同态滤波向量应用于对应的合成倒谱向量。
参考图3和4,框图示出其中应用所述合成语音统计增强的系统300、400的实例实施例。
参考图3,系统300包括统计TTS系统310的在线增强机构340。系统300包括统计TTS系统310,例如基于HMM的系统,其接收文本输入301并且合成文本以便提供语音输出302。
在一个实施例中,TTS系统310是基于HMM的系统,其通过具有未观察到(隐藏)的状态(具有高斯混合发出概率分布)的一系列马尔可夫过程对参数化语音进行建模。在其它实施例中,可以使用其它形式的统计建模。
统计TTS系统310可以包括语音单位模型组件320,其包括声学特征向量输出组件321以便从该单位模型输出生成的合成声学特征向量。在一个实施例中,声学特征向量可以是倒谱向量。在另一个实施例中,声学特征向量可以是线谱频率向量。
可以提供初始化单元330,其包括纠正变换定义组件331以便定义要用于获得纠正变换实例的参数纠正变换。纠正变换定义组件331还可以包括增强参数集组件332以便定义要使用的增强参数集。初始化单元330还可以包括失真指示符组件333以便定义要使用的失真指示符,以及增强准则组件334以便定义要使用的增强准则。初始化单元330还可以包括增强定制组件335,其依赖于单位属性和增强参数。在声学特征向量是倒谱向量的实施例中,失真指示符是衰减指示符。
提供在线增强机构340,其可以包括以下组件以便通过应用纠正变换的实例,在语音单位模型组件320输出失真的声学特征向量时增强这些向量。
在线增强机构340可以包括输入组件341。输入组件341可以包括声学特征向量输入组件342以便从语音单位模型组件320接收输出。例如,一系列N维倒谱向量。
输入组件341还可以包括实际发出统计组件343,以便从语音单位模型组件320的统计模型接收实际发出统计。
输入组件341还可以包括单位属性组件344,以便接收语音单位模型组件320的单位属性。
在线增强机构340还可以包括增强参数集组件350。增强参数集组件350可以包括失真指示符参考组件351和失真指示符实际值组件352,以便应用失真指示符定义并且计算实际值和参考值以用于获得增强参数集。
增强参数集组件350还可以包括增强准则应用组件353,以便应用定义的增强准则以测量失真指示符的参考值和预测实际值之间的差异。
增强参数集组件350可以包括定制组件354,以便根据单位属性改变最佳增强参数集值。所述属性可以包括产生统计模型的音素类别和用于统计模型训练的大多数语音帧的浊化分类(voicing class)。
在线增强机构340可以包括纠正变换生成组件360和纠正变换应用组件365,以便将从增强参数集值获得的参数变换的实例应用于声学特征向量,从而产生增强的向量。
在线增强机构340可以包括输出组件370以便输出增强的向量输出371,以用于统计TTS系统310的语音波形合成组件380。
参考图4,系统400示出图3的一个备选实施例,其中离线生成纠正变换。在可能的情况下,使用与图3相同的参考标号。
与图3中一样,系统400包括统计TTS系统410,例如基于HMM的系统,其接收文本输入401并且合成文本以便提供语音输出402。统计TTS系统410可以包括语音单位模型组件420,其包括声学特征向量输出组件421以便从该单位模型输出生成的合成声学特征向量。
与图3中一样,可以提供初始化单元430,其包括纠正变换定义组件431以便定义要用于获得纠正变换实例的参数纠正变换。纠正变换定义组件431还可以包括参数集组件432以便定义要使用的增强参数集。初始化单元430还可以包括失真指示符组件433以便定义要使用的失真指示符,以及增强准则组件434以便定义要使用的增强准则。初始化单元430还可以包括增强定制组件435,其依赖于单位属性和增强参数。
在该实施例中,可以提供离线增强计算机构440,以便生成和存储纠正变换实例。可以提供在线增强机构450,以便在语音合成期间检索和应用纠正变换的实例。
离线增强计算机构440可以包括输入组件441。输入组件441可以包括合成群集向量组件442,以便针对从语音单位模型组件420发出的每个语音单位收集声学特征向量的合成群集。输入组件441还可以包括实际发出统计组件443,以便从语音单位模型组件420的统计模型接收实际发出统计。输入组件441还可以包括单位属性组件444,以便接收语音单位模型组件420的单位属性。
离线增强计算机构440还可以包括增强参数集组件450。增强参数集组件450可以包括失真指示符参考组件451和失真指示符实际值组件452,以便应用失真指示符定义并且计算实际值和参考值以用于获得增强参数集。增强参数集组件450还可以包括增强准则应用组件453,以便应用定义的增强准则以测量失真指示符的参考值与预测实际值之间的差异。增强参数集组件450可以包括定制组件454,以便根据单位属性改变最佳增强参数集值。
离线增强计算机构440可以包括纠正变换生成和存储组件460。
在线增强机构470可以包括纠正变换检索和应用组件471,以便将从增强参数集值获得的参数纠正变换的实例应用于声学特征向量,从而产生增强后的向量。在线增强机构470可以包括输出组件472以便输出增强的向量输出473,以用于统计TTS系统410的语音波形合成组件480。
参考图5,用于实现本发明各个方面的示例性系统包括适合于存储和/或执行程序代码的数据处理系统500,其包括至少一个通过总线系统503直接或间接连接到存储元件的处理器501。存储元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。
存储元件可以包括只读存储器(ROM)504和随机存取存储器(RAM)505形式的系统存储器502。可以将基本输入/输出系统(BIOS)506存储在ROM504中。可以将包括操作系统软件508的系统软件507存储在RAM505中。还可以将软件应用510存储在RAM505中。
系统500还可以包括诸如硬磁盘驱动器之类的主存储器511以及诸如磁盘驱动器和光盘驱动器之类的辅助存储器512。驱动器及其关联的计算机可读介质为系统500提供计算机可执行指令、数据结构、程序模块和其它数据的非易失性存储。可以将软件应用存储在主存储器和辅助存储器511、512以及系统存储器502中。
计算系统500可以使用通过网络适配器516与一个或多个远程计算机的逻辑连接,在联网环境中运行。
输入/输出设备513可以直接或通过中间I/O控制器与所述系统相连。用户可以通过诸如键盘、指点设备之类的输入设备或其它输入设备(例如,麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪等)将命令和信息输入到系统500。输出设备可以包括扬声器、打印机等。显示设备514也通过诸如视频适配器515之类的接口连接到系统总线503。
参考图6,流程图600示出所描述的方法。定义一系列参数纠正变换,所述纠正变换工作在声学特征向量空间中并依赖于一组增强参数(601)。还可以定义特征向量的失真指示符(602)。接收从所述系统的语音单位发出的特征向量(603)。可以通过应用一组优化的增强参数值以减小可听失真而从参数纠正变换生成纠正变换的实例(604)。
可以通过以下步骤生成纠正变换的实例。计算失真指示符的参考值,所述参考值由发出特征向量的语音单位的统计模型产生(605),并且计算失真指示符的实际值,所述实际值由发出特征向量的语音单位的统计模型所发出的特征向量产生(606),并且根据失真指示符的参考值、失真指示符的实际值和参数纠正变换,计算一组增强参数值(607)。
可以将纠正变换的实例应用于特征向量以便提供增强的向量以用于语音合成(608)。
参考图7和8,流程图700、800示出纠正同态滤波向量上下文中的所述方法的实例实施例,其应用于倒谱向量,并且失真指示符采取衰减指示符的形式以便平滑频谱失真。
参考图7,流程图700示出所述方法的一个实例实施例的步骤,其对应于以下情况:其中使用倒谱声学特征向量和同态滤波纠正变换,并且在合成操作期间在线计算纠正同态滤波向量。
第一初始化阶段710可以包括定义(711):依赖于增强参数集P的一系列参数纠正同态滤波函数WP(N);衰减指示符H;增强准则D(H,H,WP);以及依赖于单位属性和增强参数的增强定制机制F。
第二阶段720是使用增强的合成操作。可以从统计模型应用倒谱向量生成(721)。可以接收以下各项(722):从语音单位U发出的合成倒谱向量C;来自U的统计模型的发出统计REALS(例如,均值和方差);以及语音单位U的单位属性UA。
可以计算衰减指示符的参考值HREAL=H(REALS)以及实际值HSYN=H(C)(723)。可以计算最佳增强参数值P*,从而优化增强准则: (724)。
可以应用定制机制,根据单位属性改变最佳增强参数值P**=F(P*,UA)(725)。可以计算对应于P**的纠正同态滤波向量WP**(726),并且将其应用于向量C从而产生增强的向量O(727)。可以将增强的向量O用于语音的波形合成(728)。
参考图8,流程图800示出所述方法的一个实例实施例的步骤,其对应于以下情况:其中使用倒谱声学特征向量和同态滤波纠正变换,并且离线计算和存储纠正同态滤波向量,从而将其链接到对应的语音单位。
第一初始化阶段810可以包括定义:依赖于增强参数集P的一系列参数纠正同态滤波函数WP(N);衰减指示符H;增强准则D(H,H,WP);以及依赖于单位属性和增强参数的增强定制机制F。
第二阶段820是离线计算单位相关纠正向量。可以从统计模型应用倒谱向量生成(821)。对于每个语音单位U,可以收集从语音单位U发出的倒谱向量的合成群集(822)。可以计算合成群集统计(例如,均值和方差)SYNS(823)。可以连同语音单位U的单位属性UA一起从U的统计模型取回发出统计(例如,均值和方差)REALS(824)。
可以计算衰减指示符的参考值HREAL=H(REALS)以及实际值HSYN=H(SYNS)(825)。可以计算最佳增强参数值P*,从而优化增强准则: (826)。可以应用定制机制,根据单位属性改变最佳增强参数值P**=F(P*,UA)(827)。
计算对应于P**的纠正同态滤波向量WP**(828)。存储同态滤波向量WP**,从而将其链接到单位U(829)。
在使用增强的合成的在线操作830中,接收合成倒谱向量C以及对应于发出C的单位的纠正同态滤波向量WP**(831)。将纠正同态滤波向量WP**应用于向量C,从而产生增强的向量O(832)。将增强的向量O用于语音的波形合成(833)。
所述增强方法通过强烈减小频谱模糊效应,提高合成语音的感知质量。这种增强技术的效应包括朝向Z平面的单位圆移动对应于合成频谱包络的传递函数的极点和零点,这导致锐化频谱峰值和谷值。
通常,它适用于各种基于HMM的TTS系统和各种统计TTS系统。大多数HMM TTS系统在倒谱空间中(即,使用倒谱特征向量)对帧的频谱包络进行建模。所述增强技术工作在倒谱域,并且直接适用于采用倒谱特征的任何统计系统。
所述方法没有引入可听失真,因为它在统计TTS系统中利用提供的统计信息自适应地工作。计算应用于从原始TTS系统输出的合成向量的纠正变换,以使增强的向量的某些特性值达到在从实际语音获得的相关特征向量中观察到的该特性的平均水平。
所述方法不需要构建新的话音模型。可以与已有话音模型一起采用所述方法。可以根据很容易在现有话音模型中获得的倒谱均值和方差向量,计算用作纠正变换计算的参考的实际向量统计。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上面参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (25)
1.一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示,所述方法包括:
定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;
定义一个特征向量或多个特征向量的失真指示符;
接收所述系统输出的特征向量;
通过以下操作生成所述纠正变换的实例:
计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;
计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;
根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;
从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及
将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
2.根据权利要求1的方法,其中所述声学特征向量是倒谱向量,所述失真指示符是衰减指示符,所述参数纠正变换是倒频率的参数纠正函数,并且应用所述纠正变换的所述实例是所述特征向量与所述纠正函数的逐分量相乘。
3.根据权利要求2的方法,其中针对每个发出的倒谱向量或每个语音单位而执行生成所述纠正变换的实例。
4.根据权利要求2的方法,其中计算衰减指示符的参考值的步骤在所述语音单位指定的发出概率分布上求平均值。
5.根据权利要求2的方法,其中基于从所述系统输出的合成倒谱向量而计算衰减指示符的实际值。
6.根据权利要求2的方法,其中在接收从所述系统输出的倒谱向量之前离线地执行生成所述纠正变换的实例,并且基于所述系统离线地生成并从所述语音单位发出的多个倒谱向量而计算所述衰减指示符的实际值。
7.根据权利要求1的方法,其中计算一组所述增强参数值包括根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和参数纠正函数而最小化增强准则,以及表示参考失真指示符与由增强的合成向量产生的所述失真指示符的预测值之间的差异。
8.根据权利要求1的方法,其中所述统计TTS系统是采用高斯混合发出概率分布的基于隐马尔可夫模型(HMM)的TTS系统。
9.根据权利要求2的方法,其中所述参数纠正函数是指数函数,并且所述一组增强参数包括指数底数。
10.根据权利要求2的方法,其中所述参数纠正函数是逐段指数函数,并且所述一组增强参数包括个体指数的底数值和连接点。
11.根据权利要求2的方法,其中所述衰减指示符是逐分量平方的倒谱向量。
12.根据权利要求11的方法,包括通过对称正滤波器平滑衰减指示符分量。
13.根据权利要求7的方法,还包括根据发出所述倒谱向量的所述统计模型的属性改变一组增强参数值。
14.根据权利要求13的方法,其中所述属性包括产生所述统计模型的音素类别和用于统计模型训练的大多数语音帧的浊化分类。
15.一种用于增强由统计文本到语音(TTS)系统合成的语音的计算机程序产品,所述系统在声学特征向量空间中采用语音的参数表示,所述计算机程序产品包括:
计算机可读非瞬时性存储介质,其包含计算机可读程序代码,所述计算机可读程序代码包括:
可执行以便执行任一上述权利要求的步骤的计算机可读程序代码。
16.一种用于增强由统计文本到语音(TTS)系统合成的语音的系统,所述TTS系统在声学特征向量空间中采用语音的参数表示,所述系统包括:
处理器;
声学特征向量输入组件,其用于接收语音单位发出的声学特征向量;
纠正变换定义组件,其用于定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;
增强参数集组件,其包括:
失真指示符参考组件,其用于计算失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;
失真指示符实际值组件,其用于计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;以及
其中所述增强参数集组件根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而计算增强参数值;
纠正变换应用组件,其用于将所述纠正变换的实例应用于所述特征向量以提供增强的特征向量。
17.根据权利要求16的系统,其中所述声学特征向量是倒谱向量,所述失真指示符是衰减指示符,所述参数纠正变换是倒频率的参数纠正函数,并且应用所述纠正变换的所述实例是所述特征向量与所述纠正函数的逐分量相乘。
18.根据权利要求17的系统,其中所述失真指示符参考组件是衰减指示符参考组件,其用于计算在由所述语音单位指定的发出概率分布上平均的所述衰减指示符的参考值。
19.根据权利要求17的系统,其中所述失真指示符实际值组件是衰减指示符实际值组件,其用于基于从所述系统输出的合成倒谱向量而计算所述衰减指示符的实际值。
20.根据权利要求17的系统,包括:
离线增强计算机构,其用于在接收从所述语音单位发出的倒谱向量之前离线地获得所述增强参数,并且
其中所述失真指示符实际值组件是衰减指示符实际值组件,其用于基于从统计模型离线地生成的多个合成向量而计算衰减指示符的实际值。
21.根据权利要求16的系统,其中所述增强参数集组件包括增强准则应用组件,其用于计算所述增强参数值,包括根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换而最小化增强准则,以及表示参考失真指示符与由增强的合成向量产生的所述失真指示符的预测值之间的差异。
22.根据权利要求16的系统,其中所述统计TTS系统是采用高斯混合发出概率分布的基于隐马尔可夫模型(HMM)的TTS系统。
23.根据权利要求17的系统,其中所述参数纠正函数是指数函数,并且所述一组增强参数包括指数底数。
24.根据权利要求17的系统,其中所述参数纠正函数是逐段指数函数,并且所述一组增强参数包括个体指数的底数值和连接点。
25.根据权利要求16的系统,还包括定制组件,其用于根据发出所述特征向量的所述统计模型的属性改变一组增强参数值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/177,577 | 2011-07-07 | ||
US13/177,577 US8682670B2 (en) | 2011-07-07 | 2011-07-07 | Statistical enhancement of speech output from a statistical text-to-speech synthesis system |
PCT/IB2012/053270 WO2013011397A1 (en) | 2011-07-07 | 2012-06-28 | Statistical enhancement of speech output from statistical text-to-speech synthesis system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103635960A true CN103635960A (zh) | 2014-03-12 |
CN103635960B CN103635960B (zh) | 2016-04-13 |
Family
ID=47439189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280033177.0A Expired - Fee Related CN103635960B (zh) | 2011-07-07 | 2012-06-28 | 从统计文本到语音合成系统输出的语音的统计增强 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8682670B2 (zh) |
JP (1) | JP2014522998A (zh) |
CN (1) | CN103635960B (zh) |
DE (1) | DE112012002524B4 (zh) |
GB (1) | GB2507674B (zh) |
WO (1) | WO2013011397A1 (zh) |
Families Citing this family (141)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9697820B2 (en) * | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN109313894A (zh) * | 2016-06-21 | 2019-02-05 | 索尼公司 | 信息处理装置与信息处理方法 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
EP3625791A4 (en) * | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379391A (zh) * | 2001-04-06 | 2002-11-13 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
CN1894739A (zh) * | 2003-05-09 | 2007-01-10 | 思科技术公司 | 依赖于源的文本到语音系统 |
US20080091428A1 (en) * | 2006-10-10 | 2008-04-17 | Bellegarda Jerome R | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3472964A (en) * | 1965-12-29 | 1969-10-14 | Texas Instruments Inc | Vocal response synthesizer |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US5940791A (en) * | 1997-05-09 | 1999-08-17 | Washington University | Method and apparatus for speech analysis and synthesis using lattice ladder notch filters |
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US6430522B1 (en) * | 2000-03-27 | 2002-08-06 | The United States Of America As Represented By The Secretary Of The Navy | Enhanced model identification in signal processing using arbitrary exponential functions |
US20020026253A1 (en) * | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
US7103539B2 (en) | 2001-11-08 | 2006-09-05 | Global Ip Sound Europe Ab | Enhanced coded speech |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
KR100612843B1 (ko) | 2004-02-28 | 2006-08-14 | 삼성전자주식회사 | 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
WO2007058121A1 (ja) * | 2005-11-15 | 2007-05-24 | Nec Corporation | 残響抑圧の方法、装置及び残響抑圧用プログラム |
US20100004931A1 (en) * | 2006-09-15 | 2010-01-07 | Bin Ma | Apparatus and method for speech utterance verification |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
US8757490B2 (en) * | 2010-06-11 | 2014-06-24 | Josef Bigun | Method and apparatus for encoding and reading optical machine-readable data codes |
-
2011
- 2011-07-07 US US13/177,577 patent/US8682670B2/en not_active Expired - Fee Related
-
2012
- 2012-06-28 CN CN201280033177.0A patent/CN103635960B/zh not_active Expired - Fee Related
- 2012-06-28 WO PCT/IB2012/053270 patent/WO2013011397A1/en active Application Filing
- 2012-06-28 DE DE112012002524.5T patent/DE112012002524B4/de not_active Expired - Fee Related
- 2012-06-28 GB GB1400493.1A patent/GB2507674B/en not_active Expired - Fee Related
- 2012-06-28 JP JP2014518027A patent/JP2014522998A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379391A (zh) * | 2001-04-06 | 2002-11-13 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
CN1894739A (zh) * | 2003-05-09 | 2007-01-10 | 思科技术公司 | 依赖于源的文本到语音系统 |
US20080091428A1 (en) * | 2006-10-10 | 2008-04-17 | Bellegarda Jerome R | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
Also Published As
Publication number | Publication date |
---|---|
US20130013313A1 (en) | 2013-01-10 |
JP2014522998A (ja) | 2014-09-08 |
DE112012002524T5 (de) | 2014-03-13 |
GB2507674B (en) | 2015-04-08 |
DE112012002524B4 (de) | 2018-05-30 |
WO2013011397A1 (en) | 2013-01-24 |
GB2507674A (en) | 2014-05-07 |
US8682670B2 (en) | 2014-03-25 |
GB201400493D0 (en) | 2014-02-26 |
CN103635960B (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103635960B (zh) | 从统计文本到语音合成系统输出的语音的统计增强 | |
Shen et al. | Natural tts synthesis by conditioning wavenet on mel spectrogram predictions | |
Marafioti et al. | A context encoder for audio inpainting | |
JP6423420B2 (ja) | 帯域幅拡張方法および装置 | |
JP6272619B2 (ja) | オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 | |
CN104969290A (zh) | 用于对音频帧丢失隐藏进行控制的方法和设备 | |
US20230317056A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
Gu et al. | Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension. | |
Wu et al. | Quasi-periodic WaveNet: An autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network | |
CN103918028B (zh) | 基于自回归系数的有效表示的音频编码/解码 | |
CN115867966A (zh) | 用于确定生成神经网络的参数的方法和装置 | |
CN102812512B (zh) | 处理音频信号的方法和装置 | |
Yeh et al. | An efficient complexity reduction algorithm for G. 729 speech codec | |
Gueham et al. | Packet loss concealment method based on hidden Markov model and decision tree for AMR-WB codec | |
US6192336B1 (en) | Method and system for searching for an optimal codevector | |
Wu et al. | Relational data selection for data augmentation of speaker-dependent multi-band melgan vocoder | |
Wu et al. | Statistical voice conversion with quasi-periodic wavenet vocoder | |
Natsiou et al. | A sinusoidal signal reconstruction method for the inversion of the mel-spectrogram | |
WO2024069726A1 (ja) | 学習装置、変換装置、学習方法、変換方法及びプログラム | |
US20220392458A1 (en) | Methods and system for waveform coding of audio signals with a generative model | |
Ai et al. | Low-Latency Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses for Speech Generation Tasks | |
Kim et al. | CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech | |
Wang et al. | Combined Generative and Predictive Modeling for Speech Super-resolution | |
JP2023045835A (ja) | 音声合成装置およびプログラム | |
Nagaraja et al. | Advancements in encoded speech data by background noise suppression under uncontrolled environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160413 Termination date: 20200628 |