CN106688034A

CN106688034A - 具有情感内容的文字至语音转换

Info

Publication number: CN106688034A
Application number: CN201580048224.2A
Authority: CN
Inventors: 栾剑; 何磊; M·梁
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-09-11
Filing date: 2015-09-07
Publication date: 2017-05-17
Anticipated expiration: 2035-09-07
Also published as: EP3192070A1; US20160078859A1; EP3192070B1; CN106688034B; US9824681B2; WO2016040209A1

Abstract

本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中，使用中性模型针对脚本预测情感中性声轨迹，并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中，通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

Description

具有情感内容的文字至语音转换

技术领域

本公开涉及用于具有情感内容的文字至语音转换的技术。

背景技术

计算机语音合成是在现代计算设备中找到的越来越普遍的人机界面特征。在许多应用中，由合成语音传达的情感表达对于总体的用户体验来说是很重要的。语音的感知情感内容可以通过诸如合成语音的节奏和韵律的因素来影响。

文字至语音转换技术通常仅通过生成给定脚本的情感“中性”再现而忽视整个合成语音的情感内容。可替换地，文字至语音转换技术可以利用独立的声音模型来用于独立的情感类型，导致与在对应于许多情感类型的存储器中存储独立的声音模型相关联的相对较高的成本。在用于生成具有还不存在声音模型的情感内容的语音时，这些技术还是不灵活的。

因此，期望提供一种新颖且有效的技术来用于具有情感内容的文字至语音转换。

发明内容

本发明内容部分用于以简化的形式引入概念的选择，这将在下文的具体实施方式部分进一步进行描述。本发明内容部分不用于确定所要求主题的关键特征或重要特征，也不用于限制所要求主题的范围。

简而言之，本文所述主题的各个方面在于用于生成具有情感内容的语音输出的技术。在一个方面中，使用情感中性模型来准备脚本的“中性”表示。基于用于语音输出的期望情感类型，针对脚本独立地准备情感特有(emotion-specific)调整，并且情感特有调整被应用于中性表示以生成变换表示。在一个方面中，情感特有调整可基于每个音素(phoneme)、基于每个状态或者基于每个帧来应用，并且可以通过独立的情感特有判定树或其他分群方案来进行存储和分类(或分群)。用于每个情感类型的分群方案可以相互不同并且与用于中性模型参数的分群方案不同。

其他优势可以根据以下详细描述和附图而变得显而易见。

附图说明

图1示出了采用智能手机的场景，其中可应用本公开的技术。

图2示出了可由用于实施语音对话系统的设备的处理器和其他元件执行的处理的示例性实施例。

图3示出了用于生成具有预定情感类型的语音输出的文字至语音(TTS)转换技术的示例性实施例。

图4示出了图3中的块的示例性实施例，其中，使用情感特有调整来修改中性声轨迹。

图5示出了图3中的块的示例性实施例，其中，使用情感特有调整来改编HMM状态模型参数。

图6示出了根据本公开的判定树集群(decision tree clustering)的示例性实施例。

图7示出了用于存储可在文字至语音系统中指定的多个情感类型中的每一个的独立判定树的方案的示例性实施例。

图8A和图8B示出了根据本公开的得到情感特有调整因子的技术的示例性实施例。

图9示出了根据本公开的方法的示例性实施例。

图10示意性示出了可执行一个或多个上述方法和处理的非限制性计算系统。

图11示出了根据本公开的用于文字至语音转换的装置的示例性实施例。

具体实施方式

本文所述技术的各个方面总的来说目的在于用于生成具有给定情感类型的语音输出的技术。以下结合附图给出的详细描述用作本发明的示例性方面的描述而不用于仅表示可以实践本发明的示例性方面。本说明书中使用的术语“示例性”表示“用作实例、示例或例证”，并且不是必须解释为相对于其他示例性方面是优选或有利的。详细描述包括具体的细节，用于提供本发明的示例性方面的完整理解。本领域技术人员将明白，在不具有这些具体细节的情况下也可以实践本发明的示例性方面。在一些情况下，以框图形式示出已知的结构和设备，以避免模糊本文表示的示例性方面的新颖性。

图1示出了采用智能手机的场景，其中可应用本公开的技术。注意，仅为了说明的目的示出图1，并且不用于将本公开的范围限制于仅将本公开应用于智能手机。例如，本文描述的技术可以容易地应用于其他场景，例如笔记本或桌上型计算机的人机界面系统、汽车导航系统等。这些可替换的应用预期包括在本公开的范围内。

在图1中，用户110与计算设备120(例如，手持电话)通信。用户110可以向设备120上的麦克风124提供语音输入122。设备120内的一个或多个处理器125可以处理由麦克风124接收的语音信号，例如执行下文进一步参照图2描述的功能。应注意，用于执行这些功能的处理器125不需要具有任何特定的形式、形状或功能划分。

基于处理器125执行的处理，设备120可以使用音频扬声器128响应于语音输入122生成语音输出126。注意，在替换处理场景中，设备120还可以生成与语音输入122无关的语音输出126，例如设备120可以独立地以语音输出126的形式从其他用户(未示出)向用户110提供警告或中继消息。

图2示出了可由用于实施语音对话系统200的设备120的处理器125或其他元件执行的处理的示例性实施例。应注意，仅为了说明的目的示出处理200，并且不表示将本公开的范围限于图2所示的任何具体序列或操作的集合。例如，在替换示例性实施例中，可以与图2所示处理200独立地应用用于执行具有给定情感类型的文字至语音转换的特定技术。例如，可以在指定脚本和情感类型的任何场景中应用本文公开的技术。此外，根据系统中的具体功能划分，可以组合或省略图2所示的一个或多个块，因此图2不表示建议所示块的任何功能依赖性或独立性。在替换示例性实施例中，块的序列可以不同于图2所示。这种替换示例性实施例被预期包括在本公开的范围内。

在图2中，对语音输入122执行语音识别210。语音输入122例如可以从设备120上的麦克风124得到，并且例如可以对应于从麦克风124接收的音频波形。

语音识别210生成语音输入122中的口头语言的文字再现。用于语音识别的技术可以利用例如具有从文字数据库训练的统计参数的隐马尔科夫模块(HMM)。

对语音识别210的输出执行语言理解220。在示例性实施例中，可以执行诸如语法分析和文法分析的功能以根据自然语言理解技术得到语音的预期含义。

情感响应判定230生成由语言理解220确定的用户语音输入的适当情感响应。例如，如果通过对话系统200确定用户的语音输入要求“快乐”情感响应，则输出情感判定230可以指定对应于“快乐”的情感类型230a。

输出脚本生成240响应于由语言理解220确定的用户语音输入220a并且还基于由情感响应判定230确定的情感类型230a生成适当的输出脚本240a。输出脚本生成240以自然语言格式呈现生成的响应脚本240a，例如顺从词汇和语法规则，用于用户的快速理解。脚本生成240的输出脚本240a例如可以为目标语言的句子的形式，以自然语言格式将适当响应传输给用户。

文字至语音(TTS)转换250合成具有由输出脚本240a确定的本文内容和由情感类型230a确定的情感内容的语音输出126。文字至语音转换250的语音输出126可以是音频波形，并且可以经由编码解码器(图2中未示出)、设备120的扬声器128和/或其他元件提供给收听者(例如，图1中的用户110)。

如上所述，期望在特定应用中语音输出126不仅被生成为文字的情感中性再现，而且语音输出126进一步将特定的情况内容传输给用户110。用于生成具有情感内容的人工语音的技术依赖于传输具有预定情感类型的语音的扬声器的文字记录，或者另外要求针对每个情感类型训练完整的语音模型，导致用于模型的禁止存储要求并且还导致情感输出表达的受限范围。因此，期望提供有效率和起作用的技术来用于具有情感内容的文字至语音转换。

图3示出了具有情感内容的文字至语音(TTS)转换250的示例性实施例250.1。注意，仅为了说明的目的示出图3，并且不表示将本公开的范围限制于文字至语音转换的任何特定示例性实施例。

在图3中，脚本240a被输入至TTS转换250.1的块310，其根据脚本240a创建音素(phoneme)序列310a。具体地，块310可以构造音素序列310a以对应于脚本240a中找到的文字的发音。

在块320中，从脚本240a中进一步提取语境特征，以修改音素序列310a并生成语言语境特征序列320a作为(p₁,…,p_t,…,p_T)，其中，p_t表示序列中的特征，t＝1至T。例如，对音素序列310a的调整可以在块320中进行来说明由于脚本的音素和语言语境特征所引起的语音变化，从而生成语言语境特征序列320a。注意，序列320a可以基于每个音素的识别以及其他语境信息(诸如每个音素所属的词语的语音部分、当前音素所属的前一词语的音节的数量等)。因此，序列320a的每个元素在本文通常可称为“语言语境”音素。

序列320a被提供给块330，其中预测序列320a的声轨迹330a。具体地，声轨迹330a指定用于序列320a的声参数的集合，包括持续时间(Dur)、基频或间距(F0)和频谱(Spectrum或谱系数)。在示例性实施例中，可以针对序列320a中的每个特征指定Dur(p_t)，同时可以针对特征p_t的F_t帧中的每一帧f指定F0(f)和Spectrum(f)。在示例性实施例中，持续时间模型预测音素的每个状态可以持续多少帧。声轨迹330a中的声参数的序列随后被提供给声码器350，其可以合成对应于语音输出126的语音波形。

如图3所示，块330中的声轨迹的预测参照中性声音模型332和情感特有模型334来执行。具体地，为了生成声轨迹330a中的声参数，序列320a可以被指定给中性声音模型332。中性声音模型332可以返回与序列320a的情感中性再现相对应的声和/或模型参数332a。在示例性实施例中，基于统计参数语音合成技术，可以从模型参数中得到声参数。

一种这样的技术包括基于隐马尔科夫模型(HMM)的语音合成，其中，语音输出被建模为由统计参数(诸如初始状态概率、状态转换概率和状态输出概率)表征的多个状态。可以从训练HMM中得到中性声音模型332的基于HMM的实施的统计参数，以建模在具有已知语音内容的一个或多个语音数据库中找到的语音样本。统计参数可以存储在存储器(图3中未示出)中来用于语音合成期间的检索。

在示例性实施例中，情感特有模型334生成情感特有调整334a，将情感特有调整334a施加于从中性声音模型334a中得到的参数以改编合成语音来具有给定情感类型23a0的特性。具体地，基于具有在一个或多个语音数据库(其具有已知语音内容和情感类型)中找到的预定情感类型的语音样本，从训练模型中得到情感特有调整334a。在示例性实施例中，情感特有调整334a被提供作为对中性声音模型332的输出参数332a的调整而非独立地足以产生用于每个情感类型的声轨迹的情感特有统计或声参数。如此，调整通常将要求较少的存储器来存储独立充分的情感特有参数，当根据本公开生成具有预定情感类型的语音时可以保藏存储资源。在示例性实施例中，可以针对由系统指定的每个情感类型独立地训练和存储情感特有调整334a。

在示例性实施例中，例如基于每个音素、每个状态或每个帧，可以存储情感特有调整334a并施加于中性声音模型332。例如，在示例性实施例中，对于具有三个状态的音素HMM来说，可以存储三个情感特有调整334a并基于每个状态施加于每个音素。可替换地，如果三状态音素的每个状态对应于两帧(例如，每一帧具有10毫秒的持续时间)，则可以基于每帧存储六个情感特有调整334a并施加于每个音素。注意，根据由情感特有模型334指定的情感特有调整334a，通常可以基于情感类型针对每个对应的音素明显地调整声或模型参数。

图4示出了图3的块330中的示例性实施例330.1，其中，使用情感特有调整来改编中性声参数。注意，仅为了说明的目的示出图4，并且不表示将本公开的范围限于仅将情感特有调整应用于声参数。

在图4中，序列320a被输入至块410，用于预测序列320a的中性声轨迹。具体地，序列320a被指定给中性声音模型332.1。与情感类型230a一起，序列320a被进一步指定给情感特有模型334.1。基于中性声音模型332.1的持续时间参数332.1a，针对序列320a预测中性持续时间Dur_n(p_t)或405a。应注意，与音素p_t的单个状态s相关联的每个声参数通常可以是矢量，例如在每音素三状态模型中，Dur_n(p_t)可以表示与第t个情感中性音素相关联的三状态持续时间的矢量等。

情感特有模型334.1生成情感类型230a和序列320a特有的持续时间调整参数Dur_adj_e(p₁),…,Dur_adj_e(p_T)或334.1a。持续时间调整块410向中性持续时间405a施加持续时间调整参数334.1a以生成调整的持续时间序列Dur(p₁),…,Dur(p_T)或410a。

基于调整的持续时间序列410a，在块420中预测用于F0和频谱的中性轨迹420a。具体地，基于中性声音模型332.1的F0和频谱参数332.1b以及之前从410a得到的调整的持续时间参数Dur(p₁),…,Dur(p_T)，中性声轨迹420a包括用于声参数F0_n(f)和Spectrum_n(f)的预测。

在块430中，情感特有F0和频谱调整334.1b被施加于420a的对应中性F0和频谱参数。具体地，基于序列320a和情感类型230a，通过情感特有模型334.1生成F0和频谱调整F0_adj_e(1),…,F0_adj_e(F_T),Spectrum_adj(1),…,Spectrum_adj(F_T)334.1b。块430的输出330.1a包括情感特有调整持续时间、F0和频谱参数。

在示例性实施例中，块410和430处施加的调整可以对应于以下等式：

Dur(p_t)＝Dur_n(p_t)+Dur_adj_e(p_t) (等式1)

F0(f)＝F0_n(f)+F0_adj_e(f) (等式2)以及

Spectrum(f)＝Spectrum_n(f)+Spectrum_adj_e(f) (等式3)

其中，例如，等式1可以通过块410来应用，以及等式2和3可以通过块430来应用。所得到的声参数330.1a(包括Dur(p_t)、F0(f)和Spectrum(f))可以被提供给声码器用于语音合成。

注意，在通过等式1-3描述的示例性实施例中，情感特有调整被应用为将在语音合成期间与中性声参数组合的附加调整因子。将理解，在可选示例性实施例中，情感特有调整可以容易地以可选方式来存储和/或应用，例如，乘法地、使用仿射变换地、非线性地等。这些替换的示例性实施例预期包括在本公开的范围内。

进一步注意，虽然在等式1中持续时间调整被示为基于每个音素来应用以及在等式2和3中F0和频谱调整被示为基于每帧来应用，但将理解，替换的示例性实施例可以基于任何每状态、每音素或每帧来调整任何声参数。这种替换的示例性实施例预期包括在本公开的范围内。

图5示出了图3中的块330的替换示例性实施例330.2，其中使用情感特有调整来改编中性HMM状态参数。应注意，示出图5仅是为了说明的目的，而不表示将本公开的范围限于HMM状态参数的情感特有改编。

在图5中，块510使用中性声音模型332.2生成由序列320a构建的中性HMM序列510a。中性HMM序列510a指定中性HMM的每状态模型参数(表示为λ_n)，包括与每个音素的状态相关联的平均矢量的序列μ_n(p₁,s₁),…,μ_n(p_t,s_m),…,μ_n(p_T,s_M)以及协方差矩阵的对应序列Σ_n(p₁,s₁),…,Σ_n(p_t,s_m),…,Σ_n(p_T,s_M)，其中，(p_t,s_m)表示第p_t个音素的(M个状态中的)第m个状态，其中M可以依赖于音素。中性HMM序列510a进一步指定中性每音素持续时间Dur_n(p₁),…,Dur_n(p_T)。在示例性实施例中，每个平均矢量μ_n(p_t,s_m)都可以包括对应状态的观测矢量的频谱部分(例如，Spectrum)的平均值作为元素，包括C_t(统计特征系数，例如mel-cepstral系数)、Δc_t(第一阶动态特征系数)和Δ²c_t(第二阶动态特征系数)，而每个协方差矩阵Σ_n(p_t,s_m)可以指定这些特征的协方差。

与情感类型230a一起，序列320a进一步被指定作为情感特有模型334.2的输入。情感特有模型334.2的输出334.2a指定情感特有模型调整因子。在示例性实施例中，调整因子334.2a包括基于每状态的模型调整因子α_e(p₁,s₁),…,α_e(p_T,s_M),β_e(p₁,s₁),…,β_e(p_T,s_M),γ_e(p₁,s₁),…,γ_e(p_T,s_M)以及基于每音素的情感特有持续时间调整因子a_e(p₁),…,a_e(p_T),b_e(p₁),…,b_e(p_T)。

块520向中性HMMλ_n的对应参数施加由块334.2指定的情感特有模型调整因子334.2a，以生成输出520a。在示例性实施例中，可以如下施加调整：

μ(p_t,s_m)＝α_e(p_t,s_m)μ_n(p_t,s_m)+β_e(p_t,s_m) (等式4)

Σ(p_t,s_m)＝γ_e(p_t,s_m)Σ_n(p_t,s_m) (等式5)以及

Dur(p_t)＝a_e(p_t)Dur_n(p_t)+b_e(p_t) (等式6)

其中μ(p_t,s_m)、μ_n(p_t,s_m)和β_e(p_t,s_m)是矢量，α_e(p_t,s_m)是矩阵，以及α_e(p_t,s_m)μ_n(p_t,s_m)表示μ_n(p_t,s_m)与α_e(p_t,s_m)的左乘法(left-multiplication)，而Σ(p_t,s_m)、γ_e(p_t,s_m)和Σ_n(p_t,s_m)都是矩阵，以及γ_e(p_t,s_m)Σ_n(p_t,s_m)表示Σ_n(p_t,s_m)与γ_e(p_t,s_m)的左乘法。将理解，等式4和6的调整有效地向中性平均矢量μ_n(p_t,s_m)和持续时间Dur_n(p_t)施加仿射变换(即，线性变换并添加常数)，以生成新模型参数μ(p_t,s_m)和Dur(p_t)。在该说明书和权利要求中，μ(p_t,s_m)、Σ(p_t,s_m)和Dur(p_t)通常表示“变换”模型参数。应注意，替换的示例性实施例不需要施加仿射变换来生成变换模型参数，并且还可以采用诸如非线性变换的其他变换。这些替换的示例性实施例预期包括在本公开的范围内。

基于变换的模型参数，声轨迹(例如，F0和频谱)随后可以在块530中被预测，并且预测的声轨迹330.2a被输出至声码器以生成语音波形。基于情感特有调整因子的选择，应理解，声参数330.2a被有效地改编以生成具有情感特有特性的语音。

在示例性实施例中，集群技术可用于减少存储情感特有状态模型或声参数所需的存储资源以及使能训练数据不可用或稀疏(sparse)的状态的模型参数的估计。在采用判定树集群的示例性实施例中，判定树可以针对每个情感类型而独立地建立，从而使情感特有调整集群。应理解，以这种方式提供独立的情感特有判定树可以更加精确地建模与目标情感类型相关联的特有韵律特性，因为可以针对每个情感类型具体地选择和优化用于集群情感特有状态的问题。在示例性实施例中，情感特有判定树的结构可以不同于用于存储中性模型或声参数的判定树的结构。

图6示出了根据本公开的判定树集群的示例性实施例600。将理解，仅为了说明的目的示出图6，并且不表示将本公开的范围限于所示判定树的任何特定结构或其他特性。此外，图6不用于将本公开的范围仅限于用于集群所示模型参数的判定树集群，可以使用判定树技术容易地集群其他参数(诸如用于F0、Spectrum和Duration的情感特有调整值)。进一步地，图6不表示将本公开的范围限于用于集群的判定树的使用，还可以使用其他集群技术，诸如条件随机域(CRF)、人工神经网络(ANN)等。例如，在替换示例性实施例中，每个情感类型都可以与不同的CRF相关联。这种替换的示例性实施例被预期包括在本公开的范围内。

在图6中，由(p，s)表示的音素的状态s被提供给两个独立的判定树：中性判定树610和情感特有判定树620。中性判定树610基于施加于状态s及其语境的多个中性问题q1_n、q2_n等将状态s分为多个中性叶节点N1、N2、N3等中的一个。与中性判定树610的每个叶节点相关联的是对应的模型参数，例如指定中性平均矢量μ_n(p,s)、中性协方差矩阵Σ_n(p,s)等的高斯模型参数。

另一方面，情感特有判定树620基于施加于状态s及其语境的多个情感特有问题q1_e、q2_e等将状态分为多个情感特有叶节点E1、E2、E3等中的一个。与情感特有判定树610的每个叶节点相关联的可以是对应的情感特有调整因子，例如α_e(p,s)、β_e(p,s)、γ_e(p,s)和/或将被施加为情感特有调整的其他因子，例如如等式1-6所指定的。应注意，情感特有叶节点的结构和用于情感特有判定树620的情感特有问题的选择通常可以完全不同于中性叶节点的结构以及用于中性判定树610的中性问题的选择，即中性和情感特有判定树可以是“不同的”。判定树的结构的差异例如使得每个情感特有判定树针对给定的情感类型进行优化构造，以更加精确地捕获情感特有调整因子。

在示例性实施例中，每个变换判定树都可以基于用于选择问题的各种标准来构造，例如一系列问题可以被选择以最大化模型辅助函数(诸如用于叶节点的对数似然函数的加权和)，其中所施加的权重可以基于对应状态的状态占用概率。按照用于构造判定树已知的迭代算法，问题的选择可以基于诸如由最小描述长度(MDL)和其他交叉验证方法指定的度量来前进和终止。

图7示出了用于针对可以在系统中指定的多个情感类型中的每一个存储独立的判定树的方案的示例性实施例700，其中该系统用于将文字合成为具有情感内容的语音。将理解，图7所示的技术例如可以应用于图5所示块510、332.2、334.2和520的具体实施。

在图7中，由(p，s)索引的音素的状态s被提供给中性判定树710和选择块720。中性判定树710输出用于状态s的中性参数710a，而选择块720基于给定情感类型230a从多个情感特有判定树730.1至730.N中进行选择。例如，情感类型1判定树730.1可以存储用于第一情感类型的情感调整因子(例如，“欢乐”)，而情感类型2判定树730.2可以存储用于第二情感类型的情感调整因子(例如，“悲哀”)等。每个情感特有判定树730.1可以包括例如参照图6中的情感特有判定树620选择和构造的问题和叶节点。

情感特有判定树730.1至730.N中的所选一个的输出被设置为730a，其包括用于给定情感类型230a的情感特有调整因子。

调整块740向中性模型参数710a应用调整因子730a，例如先前参照等式4和5所描述的，从而生成变换模型或声参数。

图8A和图8B示出了根据本公开的得到用于单个情感类型的情感特有调整因子的技术的示例性实施例800。应注意，仅为了说明的目的示出图8A和图8B，并且不用于将本公开的范围限于用于得到情感特有调整因子的任何具体技术。在以下描述中，训练音频802和训练脚本802不需要对应于语音的单个部分或者来自单个扬声器的语音的多个部分，而是可以对应于具有预定情感类型的语音的任何语料库(corpus)。

在图8A中，训练脚本801被提供给块810，其从训练脚本801中提取语境特征。例如，可以提取音素的语言语境以优化状态模型。在块820中，根据情感中性声音模型825合成对应于训练脚本801的中性语音模型的参数。块820的输出820a例如包括训练脚本中的文字的情感中性再现的模型参数，还表示为

对应于训练脚本801的训练音频802被进一步提供给块830。训练音频820对应于具有预定情感类型802a的训练脚本801的文字的再现(rendition)。例如，可以通过预先记录被构造为读取具有给定情感类型802a的训练脚本801的人类扬声器来生成训练音频802。在块830处，从训练音频802中提取声特征830a。声特征830a的示例例如可以包括持续时间、F0、频谱系数等。

提取的声特征830a被提供给块840(例如，作为观测矢量)，其生成与具有预定情感类型802a的训练音频802相对应的用于语音模型的参数的集合，本文也表示为“初始情感模型”。应注意，块840对提取的声特征830a执行分析以得到初始情感模型参数，因为块840可以不直接提供有对应于训练音频802的训练脚本801。应理解，例如可以使用迭代过程(诸如期望最大化(EM)算法(Baum-Welch算法)或最大似然(ML)算法)执行用于训练音频802的模型参数的优化集合(例如，HMM输出概率和状态转换概率等)。为了帮助收敛，用于初始化块840中的迭代算法的参数集合可以从中性模型参数820a中得到。

对于每个状态s，块840生成情感特有模型参数λ^μ，∑(p,s)840a以及状态占用概率840b，例如：

用于状态s的占用统计＝Occ[s]＝P(O，s|λ^μ，∑(p，s)) (等式7)

其中，O表示观测矢量的总集合。在示例性实施例中，如上文所描述的，占用统计840b可以帮助生成用于情感特有模型参数的判定树。

在块850中，针对情感特有调整的语境集群来构建判定树。应理解，考虑到本公开，可以使用用于集群情感特有调整的任何适当技术来构建判定树。在示例性实施例中，可以直接使用情感特有模型参数λ^μ，∑(p,s)840a来构建判定树。在替换示例性实施例中，可以使用变换模型的版本来构建判定树，例如通过将上文的等式4-6中指定的等式应用于中性模型的参数820a来生成变换模型参数。在这种示例性实施例中，根据需要，可以通过应用线性回归技术来估计将应用于变换的对应调整因子(例如，α_e(p_t,s_m)、β_e(p_t,s_m)和γ_e(p,s)以及持续时间调整)，以得到针对情感特有模型λ^μ，∑(p,s)840a的中性模型820a的变换参数的最佳线性拟合。

将理解，判定树的构建(例如基于情感特有模型或变换模型)例如可以通过选择适当的问题来进行，以使树的叶节点的对数似然比的加权和最大化。在示例性实施例中，在加权和中应用的权重可以包括占用统计Occ[s]840b。可以进行分支和叶节点的添加，直到例如基于度量(诸如由最小描述长度(MDL)或其他交叉验证技术指定的)而终止。

参照作为图8A的继续的图8B，块850的输出850a指定包括一系列问题q1_t、q2_t、q3_t等的判定树，用于将(p，s)的状态集群为多个叶节点。这种输出850a被进一步提供给训练块860，其得到用于判定树的每个叶节点的调整因子的单个集合，例如α_e(p_t,s_m)、β_e(p_t,s_m)、γ_e(p,s)和持续时间调整。在示例性实施例中，可以使用最大似然线性回归(MLLR)技术来生成调整因子的单个集合，例如通过使用仿射或线性变换将叶节点状态的中性模型参数最佳地适应(fitting)到对应的情感模型参数。

在块870中，在存储器中存储所构建判定树的结构以及用于每个叶节点的调整因子，例如用于稍后用作情感特有模型334.3。块870的在存储器中存储该信息完成了训练阶段。在语音合成期间，例如根据图5所示的示例性实施例，情感特有调整可以从存储器中检索在训练阶段的块870中存储的调整因子作为情感特有模型334.3。

图9示出了根据本公开的方法900的示例性实施例。应注意，仅为了说明的目的示出图9，并且不用于将本公开的范围限于所示的任何特定方法。

在图9中，在块910中，生成脚本的情感中性表示。该情感中性表示可以包括与多个音素相关联的至少一个参数。

在块920中，基于情感类型针对多个音素中的每个音素区别地调整至少一个参数，以生成变换表示。

图10示意性示出了可以执行一个或多个上述方法和处理的非限制性计算系统1000。以简化形式示出了计算系统1000。将理解，实际上，在不背离本公开的范围的情况下可以使用任何计算机架构。在不同的实施例中，计算系统1000可以采用大型计算机、服务器计算机、桌上型计算机、笔记本电脑、平板电脑、家庭娱乐计算机、网络计算设备、移动计算设备、移动通信设备、智能手机、游戏设备等的形式。

计算系统1000包括处理器1010和存储器1020。计算系统1000可以任选地包括显示子系统、通信子系统、传感器子系统、相机子系统和/或图10中未示出的其他部件。计算系统1000还可以任选地包括用户输入设备，诸如键盘、鼠标、游戏控制器、相机、麦克风和/或触摸屏。

处理器1010可以包括被配置为执行一个或多个指令的一个或多个物理设备。例如，处理器可以被配置为执行作为一个或多个应用程序、服务、程序、线程、库、对象、部件、数据结构或其他逻辑结构的一部分的一个或多个指令。这种指令可以被实施以执行任务、实现数据类型、变换一个或多个设备的状态或者以其他方式达到期望的结果。

处理器可以包括被配置为执行软件指令的一个或多个处理器。附加地或可选地，处理器可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机。处理器可以是单核或多核，并且其上执行的程序可以被配置用于并行或分布式处理。处理器可以任选地包括在两个或更多个设备中分布的对应部件，其可以远程地定位和/或配置用于协调处理。处理器的一个或多个方面可以被虚拟化并且被在云计算结构中配置的远程访问网络计算设备执行。

存储器1020可以包括一个或多个物理设备，其被配置为保持可由处理器执行的数据和/或指令以实施本文描述的方法和处理。当实施这些方法和处理时，可以变换存储器1020的状态(以例如保持不同的数据)。

存储器1020可以包括可移除介质和/或内置设备。存储器1020可以包括光学存储设备(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储设备(例如，RAM、EPROM、EEPROM等)和/或磁性存储设备(例如，硬盘驱动器、软盘驱动器、带驱动器、MRAM等)等。存储器1020可以包括具有一个或多个以下特性的设备：易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和内容可寻址。在一些实施例中，处理器1010和存储器1020可以集成到一个或多个普通设备中，诸如专用集成电路或芯片上系统。

存储器1020还可以采用可移除计算机可读存储介质的形式，其可用于存储和/或传输可被执行以实施本文描述的方法和处理的数据和/或指令。可移除计算机可读存储介质1030可以采用CD、DVD、HD-DVD、蓝光盘、EEPROM和/或软盘等的形式。

应理解，存储器1020包括用于存储信息的一个或多个物理设备。术语“模块”、“程序”和“引擎”可用于描述被实施以执行一个或多个特定功能的计算系统1000的方面。在一些情况下，这种模块、程序或引擎可以经由执行由存储器1020保持的指令的处理器1010来实例化。应理解，不同的模块、程序和/或引擎可以由相同的应用程序、服务、代码块、对象、库、线程、API、函数等来实例化。类似地，可以通过不同的应用程序、服务、代码块、对象、线程、API、函数等来实例化相同的模块、程序和/或引擎。术语“模块”、“程序”和“引擎”用于包括可执行文件、数据文件、库、驱动器、脚本、数据库记录等的个体或组。

在一个方面中，计算系统1000可以对应于包括存储器1020的计算设备，存储器保持可由处理器1010执行的指令以生成脚本的情感中性表示，情感中性表示包括与多个音素相关联的至少一个参数。存储器1020可以进一步保持可由处理器1010执行的指令，以基于情感类型针对多个音素中的每个音素区别地调整至少一个参数，从而生成变换表示。应注意，这种计算设备将理解为对应于处理、机器、制造或物质组成。

图11示出了根据本公开的用于文字至语音转换的装置的示例性实施例1100。在图11中，中性生成块1110被配置为生成脚本1101的情感中性表示1110a。情感中性表示1110a包括与多个音素相关联的至少一个参数。在示例性实施例中，至少一个参数例如可以包括以下参数中的任何一个或所有：每帧的每个音素的持续时间、每个音素的每帧的基频、每帧的频谱系数或者与每个音素的隐马尔科夫模型的状态相关联的统计参数(诸如平均矢量或协方差矩阵)。在示例性实施例中，中性生成块1110可以被配置为从中性判定树中检索HMM的状态的参数。

调整块1120被配置为基于情感类型1120b针对多个帧中的每个音素区别地调整情感中性表示1110a中的至少一个参数。调整块1120的输出对应于变换表示1120a。在示例性实施例中，调整块1120可以例如参照块440或520等向上述至少一个参数应用例如线性或仿射变换。变换表示例如可以对应于变换模型参数(诸如上文参照图4-6所描述的)或者变换声参数(诸如上文参照等式1-3所描述的)。变换表示1120a可以进一步提供给块(例如，图5中的块530)，用于预测声轨迹(如果变换表示1120a对应于模型参数)，或者提供给声码器(图11中未示出)(如果变换表示1120a对应于声轨迹)。

在示例性实施例中，调整块1120可以被配置为从情感特有判定树中检索对应于HMM的状态的调整因子。

在该说明书和权利要求中，应理解，当元件被称为“连接至”或“耦合至”另一元件，则其可以直接连接或耦合至另一元件或者可以存在中间元件。相反，当元件被称为“直接连接至”或“直接耦合至”另一元件，则不存在中间元件。此外，当元件被称为“电连接”至另一元件时，这表示在这些元件之间存在低阻的路径，而当元件被简称为“耦合”至另一元件时，可以在这些元件之间存在或者可以不存在低阻的路径。

可以至少部分地通过一个或多个硬件和/或软件逻辑部件来执行本文描述的功能。例如但不限制，可以使用的硬件逻辑部件的所示类型包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

虽然本发明受各种修改和替换构造影响，但其特定的所示实施例在附图中示出并且在上文详细描述。然而，应该理解，不将本发明限制于所公开的特定形式，而是相反地覆盖落入本发明的精神和范围内的所有修改、替换构造和等效物。

Claims

1.一种用于文字至语音转换的装置，包括：

中性生成块，被配置为生成脚本的情感中性表示，所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数；以及

调整块，被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数，以生成变换表示。

2.根据权利要求1所述的装置，还包括：声码器，被配置为根据所述变换表示合成语音波形。

3.根据权利要求1所述的装置，每个音素包括多个帧，所述至少一个参数包括与每个音素的每帧相关联的频谱系数，所述调整块被配置为基于所述情感类型和每个音素的语言语境识别通过添加调整因子来调整所述频谱系数。

4.根据权利要求1所述的装置，还包括：存储器，存储中性判定树和不同于所述中性判定树的情感特有判定树，所述中性生成块进一步被配置为从所述中性判定树中检索所述至少一个参数，并且所述调整块被配置为从所述情感特有判定树中检索用于调整所述至少一个参数中的每个参数的情感特有调整因子。

5.根据权利要求4所述的装置，所述至少一个参数包括与每个音素相关联的隐马尔科夫模型(HMM)的每个状态的参数，所述中性生成块进一步被配置为从所述中性判定树中检索所述HMM的每个状态的参数，并且所述调整块被配置为从所述情感特有判定树中检索对应于所述HMM的每个状态的调整因子。

6.根据权利要求5所述的装置，所述HMM的状态的参数包括用于每个状态的平均矢量，所述调整块被配置为通过使用所检索的调整因子向每个状态的所述平均矢量应用仿射变换来针对所述多个音素中的每个音素区别地调整所述至少一个参数，所述仿射变换基于所述情感类型以及每个音素的语言语境识别。

7.根据权利要求5所述的装置，所述HMM的状态的参数包括用于每个状态的协方差矩阵，所述调整块被配置为使用所检索的调整因子向每个状态的所述协方差矩阵应用线性变换，所述线性变换基于所述情感类型以及每个音素的语言语境识别。

8.根据权利要求5所述的装置，所述情感特有判定树包括多个叶节点，每个叶节点与所述HMM的至少一个集群状态相对应，所述情感特有判定树进一步包括被选择以最大化所述HMM的集群状态的对数似然函数的加权和的问题。

9.一种用于文字至语音转换的方法，包括：

生成脚本的情感中性表示，所述情感中性表示包括与多个音素相关联的至少一个参数；以及

基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数，以生成变换表示。

10.根据权利要求9所述的方法，每个音素包括多个帧，与所述多个音素相关联的所述至少一个参数包括与所述多个音素中的每个音素的每帧相关联的至少一个参数，针对所述多个音素中的每个音素区别地调整所述至少一个参数包括：针对所述多个帧中的每帧区别地调整所述至少一个参数。