CN110718209B

CN110718209B - 语音字体说话者以及韵律插值

Info

Publication number: CN110718209B
Application number: CN201910916818.0A
Authority: CN
Inventors: 栾剑; L·何; M·梁
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-02-26
Filing date: 2015-02-23
Publication date: 2023-07-18
Anticipated expiration: 2035-02-23
Also published as: CN106062867B; WO2015130581A1; EP3111442B1; US9472182B2; US10262651B2; US20160379623A1; CN106062867A; EP3111442A1; CN110718209A; US20150243275A1

Abstract

提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值，而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型，多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数，通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪，同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体，或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

Description

语音字体说话者以及韵律插值

本申请是申请日为2015/02/23、申请号为201580010713.9的中国专利申请的分案申请。

背景技术

传统的文本话音转换(TTS)技术使用单个语音字体(voice font)。该语音字体是利用从一个配音员获得的录音语料库而训练的。所得到的语音字体强烈地与当录制语料库时该配音员所使用的韵律和特性相对应。从而，当被录音时，配音员必须使用在TTS语音中所期望的相同的风格和情绪。

随着TTS的使用变得越来越普遍，在各种应用场景中TTS语音的灵活性变得日益重要。例如，利用TTS来与用户进行通信的交互式应用应该给用户提供从能够表达丰富的情绪类型和说话风格的多种语音个性中进行选择的功能。随着TTS应用变得更加具有对话性和个性，TTS应用适配单个语音的说话风格和/或说话的情绪以与具有对话性的内容相匹配的功能也是令人期望的。

使得录音覆盖针对甚至单个语音的多个情绪和风格是昂贵的。获得令人期望的针对多个语音的多个录音不仅是昂贵的，而且是不切实际的。使用传统的语音适配技术来将情绪或说话风格从一个录音/语音字体移植至其它语音字体的尝试得出了低质量的语音字体，该低质量的语音字体不能够传达期望的情绪和/或风格，并且突出了原始的录音与配音员所使用的情绪和/或风格之间的紧密的关系。关于这些和其它考虑而实现了本发明。尽管已经讨论了相对具体的问题，但应当理解的是，在本文中所公开的实施例不应该限于解决在背景技术中所标识的具体的问题。

发明内容

提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征，也不旨在用于限制所要求保护的主题的范围。

多语音字体插值引擎的实施例包括文本解析器、一个或多个特性预测器、一个或多个特性插值器、以及标准化器。多语音字体插值引擎将来自语音字体仓库的多个语音字体装载或以其他方式接收至存储器中。文本解析器将待说出的文本解析成音素序列，当该音素序列与语音字体相结合时，产生具有由语音字体所指定的声音、风格、和情绪的计算机生成的话音，并且提供对预测自然声学特征而言有用的其它信息。针对自然声学特征的特性预测器(例如，持续时间预测器、V/UV预测器、基本频率(f0)预测器、以及频谱预测器)使用对应的参数预测模型来预测针对源语音字体中的每一个字体的特性值。特性插值器(例如，持续时间插值器、V/UV插值器、基本频率(f0)插值器、以及频谱插值器)采用不同的权重集合以用于根据每个源语音字体的所选择的特性来对多语音字体的特性进行插值。

由多语音字体插值引擎所执行的插值方法使用由每个源语音字体所提供的特性预测模型来预测输入文本的成分(例如，音素序列中的每个音素或帧)的特性值。接下来，将一个或多个特性的相对权重因子分配至对多语音字体有贡献的每个源语音字体。在各种实施例中，将权重因子中的每个集合的和设置为一。多语音字体插值引擎通过对从源语音字体所预测的加权的特性值进行求和而对每个输入文本成分的最终持续时间进行插值，并且对音素序列的经插值的f0值进行标准化。经插值的持续时间值、经插值的频谱轨迹值、经插值的V/UV判定、以及经标准化的经插值的f0值可以在话音同步操作中使用和/或被保存为多语音字体以供以后使用，其中该话音同步操作使用所得到的具有所选择的说话者和/或韵律特性的多语音字体来生成可以由音频输出换能器所使用以产生话音的信号。

附图说明

通过参考以下附图，将更好地理解本公开的进一步的特征、方面、和优点，其中，元素不是按比例的以便更加清楚地示出细节，并且其中，在几个视图通篇中相同的附图标记指代相同的元素：

图1是在合适的计算环境中实现的语音字体插值系统的一个实施例的系统图；

图2A-2C共同地形成了由多语音字体插值引擎所采用的插值方法的一个实施例的高级流程图；

图3是调节工具的一个实施例，该调节工具提供在客户端设备上运行的多语音字体插值引擎的用户界面。

图4是示出了利用其可以实践本发明的实施例的计算设备的物理组件的一个实施例的框图；

图5A和图5B是利用其可以实践本发明的实施例的移动计算设备的简化的框图；并且

图6是其中可以实践本发明的实施例的分布式计算系统的简化的框图。

具体实施方式

参考形成了本文的一部分并且示出了具体的示例性实施例的附图以在下文中更加充分地描述了各种实施例。然而，实施例可以以不同的形式来实现，并且不应该被理解为限于在本文中所阐述的实施例；相反，提供了这些实施例以使得该公开将是彻底的和完整的，并且将会向本领域技术人员完全传达实施例的范围。实施例可以被实践为方法、系统、或设备。从而，实施例可以采取硬件实现、完全软件实现、或组合了软件和硬件方面的实现的形式。因此，以下的详细描述将不被理解为限制意义。

在本文中描述并在附图中示出了多语音字体插值引擎的实施例。多语音字体插值引擎通过根据现有的字体对说话者特性和韵律进行插值来允许产生具有宽泛地多种说话者特性和/或韵律的计算机生成的话音。多语音字体插值引擎使用来自多个语音字体的预测模型来预测对待说出的文本所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数，通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变话音的风格和/或情绪，同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体，或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

图1是在合适的计算环境中实现的语音字体插值系统的一个实施例的系统图。语音字体插值系统100包括在客户端设备104上运行的多语音字体插值引擎102。多语音字体插值引擎是用于生成具有期望的说话者特性和韵律的经插值的语音字体的计算机程序。可以以诸如应用、服务、和库之类的各种形式来实现多语音字体插值引擎。例如，可以将多语音字体插值引擎实现为独立的应用。在其它实施例中，可以将多语音字体插值引擎实现为通过应用程序接口(API)可获取的支持应用，或者用于向渲染文本话音转换(TTS)输出的其它程序提供语音字体插值的模块或库。

语音字体存储106保存多个现有的语音字体108。语音字体存储可以是本地存储(例如，硬盘驱动器或者客户端设备上的其它辅助存储)或远程存储(例如，通过网络可访问的存储设备)。现有的语音字体通常是但不限于是根据从配音员收集的录音语料库而训练的原始语音字体。每个现有的语音字体都具有定义了用于渲染计算机生成的话音的语音的声音、风格、和情绪的多个相关联的参数。通常而言，语音字体包括针对持续时间、基本频率(f0)、频谱包络、以及浊音/清音(V/UV)判定的预测模型。持续时间主要影响语音的节奏。f0的轮廓影响语音的语调。频谱包络、f0的范围、以及浊音/清音判定与说话者特性和韵律更相关。换句话说，频谱包络、f0的范围、以及浊音/清音参数主要控制使用该语音字体而产生的话音的风格和情绪。现有的语音字体表示多种情绪和说话风格。

多语音字体插值引擎包括文本解析器110、持续时间插值器112、f0插值器114、标准化器116、V/UV判定插值器118、频谱插值器120、以及语音编码器126。多语音字体插值引擎将来自语音字体仓库的多个语音字体装载或以其他方式接收至存储器中。文本解析器将待说出的输入文本122解析成音素序列，当该音素序列与语音字体相结合时，产生具有由语音字体所指定的声音、风格、和情绪的计算机生成的话音。在各种实施例中，文本解析器执行额外的功能，例如但不限于，标识输入文本中的话音的部分、语段的分割、以及语义成分。由文本解析器所提供的额外的信息对于预测自然声学特征(例如但不限于，持续时间、V/UV、f0、以及频谱特性)是有用的。

持续时间插值器、V/UV插值器、f0插值器、以及频谱插值器使用对应的参数预测模型来预测针对所装载的语音字体中的每个语音字体的值。多语音字体插值引擎采用不同的权重集合以用于对这四个特性进行插值。在各种实施例中，使用三个权重集合。第一权重集合124a与持续时间相关联(即，持续时间权重)。第二权重集合124b与f0相关联(即，f0权重)。每个权重集合包括针对由多语音字体插值引擎所使用的语音字体中的每个语音字体的加权因子。第三权重集合124c与频谱相关联(即，频谱权重)，并且也与V/UV判定相关联，这是因为V/UV判定与频谱轨迹紧密联系(即，直接成比例)，并且独立地对值进行改变倾向于显著地降低语音质量。针对输入文本的每个增量，经插值的值是所预测的值与语音字体的相关联的加权因子的乘积的总和，并且求和以产生经插值的参数值。调整给予对经插值的值有影响的每个语音字体的权重改变计算机生成的话音的说话者特性和/或韵律。

标准化器使用所预测的f0值以及经插值的f0值的f0范围的经插值的上限和下限来标准化经插值的f0值。在所示出的实施例中，多语音字体插值引擎包括使用经插值的值将输入文本渲染成话音的语音编码器(即，声码器)126。在各种实施例中，通过客户端设备的音频输出换能器(即，扬声器)128来播放计算机生成的话音。

产生具有经插值的说话者特性和/或韵律的计算机生成的话音的语音字体和权重集合共同定义了多语音字体。通常而言，选择与期望的说话者特性和/或韵律最为相似的源语音字体并且调节权重以接近期望的语音。在各种实施例中，多语音字体插值引擎将多语音字体保存为配置文件，该配置文件指定三个权重集合中的源语音字体以及相关联的加权因子。在一些实施例中，配置文件可以是包括源语音字体的封装器的一部分。在其它实施例中，将源语音字体单独地存储，并且从配置文件中的参考装载。

图2A-2C共同地形成了由多语音字体插值引擎所采用的插值方法的一个实施例的高级流程图。插值方法200开始于将多个源语音字体装载到存储器中的源语音字体装载操作202。源语音字体提供所使用的参考参数，其中根据所述参考参数而对多语音字体进行插值。文本输入操作204接收待转换成话音的文本。文本解析操作206从输入文本建立音素序列。

语音字体特性预测操作208使用由每个源语音字体所提供的特性预测模型来预测输入文本(例如，音素序列中的每个音素或帧)的成分(即，语言单元)的特性值。在各种实施例中，语音字体特性预测操作208包括持续时间预测操作208a、V/UV判定预测操作208b、f0预测操作208c、以及频谱预测操作208d。持续时间预测操作208a使用由每个源语音字体所提供的持续时间预测模型来预测音素序列中的每个音素的持续时间值。V/UV判定预测操作208b使用由每个源语音字体所提供的V/UV预测模型来预测音素序列中的每个音素的V/UV概率。不必要使用每个源语音字体来针对音素进行实际的V/UV判定，这是因为将根据音素的经插值V/UV概率值来进行最终的V/UV判定。f0预测操作208c使用由每个源语音字体所提供的f0预测模型来预测每一帧的f0值。每一帧表示固定长度的时间。频谱预测操作208d使用由每个源语音字体所提供的频谱预测模型来预测每一帧的频谱轨迹值。在所示出的实施例中，预测操作中的一些操作被示出为在并列的分支中发生，这是因为频谱轨迹预测与V/UV判定或f0预测无关。

特性权重设置操作210将一个或多个特性的相对加权因子分配至对多语音字体有贡献的源语音字体中的每个字体。在各种实施例中，特性权重设置操作210包括持续时间权重设置操作210a、f0权重设置操作210b、以及频谱权重设置操作210c。持续时间权重设置操作210a将相对加权因子分配至对多语音字体有贡献的源语音字体中的每个字体。f0权重设置操作210b将f0加权因子/>分配至对多语音字体有贡献的源语音字体中的每个字体。频谱权重设置操作210c将相对频谱加权因子/>分配至对多语音字体有贡献的源语音字体中的每个字体。在各种实施例中，将加权因子的每个集合的总和设置为一，如在以下的等式中数学地表达的：

其中，j是源语音字体的指数，而N是源语音字体的总数。

持续时间加权因子和f0加权因子/>主要控制多语音字体的韵律，而频谱加权因子/>主要控制说话者特性。可以独立地控制持续时间、f0、以及频谱加权因子以在多语音字体中获得期望的风格和/或情绪效果。

特性插值操作214通过对从源语音字体所预测的加权的特性值进行求和来对每个输入文本成分的最终持续时间进行插值。在各种实施例中，特性插值操作214包括持续时间插值操作214a、频谱轨迹插值操作214b、V/UV判定插值操作214c、以及f0插值操作214d。

持续时间插值操作214a通过对从源语音字体所预测的加权的持续时间值进行求和来对每个音素的最终持续时间进行插值。换句话说，持续时间插值操作对由每个源语音字体持续时间预测模型所预测的持续时间值与针对每个音素而分配至源语音字体的持续时间加权因子的乘积进行求和。数学上，将来自输入文本的第i个音素的经插值的持续时间表达为：

其中，j是源语音字体的指数，N是源语音字体的数量，是针对第j语音字体的持续时间权重，而dur_j(i)是由第j持续时间预测模块所预测的第i音素的持续时间。

频谱轨迹插值操作214b对音素序列中的每一帧的最终频谱轨迹进行插值。在各种实施例中，使用相关联的预测模型来预测每个源语音字体的频谱轨迹，并且接着使用频谱加权因子来进行插值。换句话说，频谱轨迹插值操作对由每个源语音字体频谱轨迹预测模型所预测的频谱轨迹值与分配至源语音字体的频谱加权因子的乘积进行求和。数学上，将来自输入文本的第f帧的经插值的频谱轨迹表达为：

其中，j是源语音字体的指数，N是源语音字体的数量，是针对第j语音字体的频谱权重，而spec_j(f)是由第j f0频谱轨迹预测模型所预测的第f帧的频谱轨迹。在其它实施例中，首先使用对应的加权因子来对针对每个源语音字体的基础的特性预测模型的值进行插值，以生成用于计算经插值的频谱轨迹的经插值的频谱预测模型。

V/UV判定插值操作214c通过将组合的、从源语音字体所预测的加权的V/UV概率值与阈值进行比较来进行插值，而无论每个音素是浊音还是清音。换句话说，V/UV判定插值操作对由每个源语音字体V/UV判定预测模型所预测的V/UV概率值与针对每个音素而分配至源语音字体的加权因子的乘积进行求和，并且将总和与参考值(即，阈值)进行比较。如果总和大于或等于阈值，则在多语音字体中该音素是浊音。否则，在多语音字体中该音素是清音。尽管被描述为阈值，但可以使用用于进行V/UV判定的替代逻辑而不脱离本发明的范围和精神。例如，可以将参考值视为上限，其中，总和小于该上限指示在多语音字体中该音素是浊音。数学上，将来自输入文本的第i音素的V/UV判定表达为：

其中，j是源语音字体的指数，N是源语音字体的数量，是针对第j语音字体的频谱权重，而uv_j(i)是由第jV/UV判定预测模型所预测的第i音素的V/UV概率。

f0插值操作214d通过对来自源语音字体的加权的所预测的f0值进行求和来对音素序列中的每一帧的最终f0值进行插值。换句话说，f0插值操作对由每个源语音字体f0预测模型所预测的f0值与分配至源语音字体的f0加权因子的乘积进行求和。数学上，将第f帧的经插值的f0表达为：

其中，j是源语音字体的指数，N是源语音字体的数量，是针对第j语音字体的f0权重，并且f0_j(f)是由第j f0预测模型所预测的第f帧的f0。

f0标准化操作216针对每个音素序列的经插值的f0值进行标准化。为了对经插值的f0值进行标准化，使用对每个源语音字体的f0范围的上限和下限的加权的估计来对目标f0范围和经插值的f0范围的上限和下限进行插值。在各种实施例中，f0标准化操作包括f0范围限制估计操作216a，该操作基于所预测的f0范围的值来对目标f0范围的上限和下限进行估计。例如，可以将所估计的最终f0范围的上限和下限计算为针对源语音字体中的每个字体所预测的f0范围的平均上限和下限。

目标f0限制插值操作216b使用频谱权重来对目标f0范围的上限和下限进行插值。经插值的f0限制插值操作216c使用f0权重对经插值的f0范围的上限和下限进行插值。数学上将目标f0范围的上限f0^u和下限f0^b以及经插值的f0范围的上限f0^u′和下限f0^b′表达为：

其中，j是源语音字体的指数，N是源语音字体的数量，是针对第j语音字体的频谱权重，/>是针对第j语音字体的f0权重，其中，/>和/>是已经提前确定的所估计的第j字体上限和下限。最终，标准化的值计算操作216d使用f0范围的两对上限和下限来对经插值的f0值进行计算和标准化。数学上，将标准化的基本频率F0的函数表达为：

在话音同步操作218中使用经插值的持续时间值、经插值的频谱轨迹值、经插值的V/UV判定、以及标准化的经插值的F0值，该话音同步操作218使用所得到的具有所选择的说话者和/或韵律特性的多语音字体来生成可以由音频输出换能器所使用以产生话音的信号。多语音字体存储操作220保存所得到的多语音字体以供再次使用。

图3是调节工具的一个实施例，该调节工具提供在客户端设备上运行的多语音字体插值引擎的用户界面。在所示出的实施例中，将用户界面300显示在客户端设备104(其由平板计算机或其它手持计算设备所表示)的显示屏302上。源语音字体选择控件(例如，按钮)304允许装载所选择的源语音字体。一个或多个文本输入控件允许使用源语音字体或者从源语音字体所得出的多语音字体中的任何一个将输入的文本转换成话音。在各种实施例中，文本输入控件可以包括允许输入文本的即时输入的即时文本输入控件306a或者允许装载之前保存的文本以用作输入文本的经保存的文本输入控件306b。

一个或多个源语音字体权重选择控件(例如，滑块)308允许对分配至每个源语音字体的各种特性的相对权重进行调整，以用于如在插值方法200中所描述的那样进行使用。可以通过访问对应的特性选择控件(例如，栏)310来独立地调整各种特性。一个或多个多语音字体属性控件(例如，滑块)312允许对整体的属性(例如，音量、话音速率、音高水平、或者音高范围)进行调整。

渲染字体选择控件(例如，按钮)314允许对用于将输入文档渲染成计算机生成的话音的语音字体进行选择。回放控件(例如，播放、暂停、和停止按钮)316允许使用源语音字体或经插值的多语音字体中的任何一个字体来将输入文本渲染成计算机生成的话音。可以经由客户端设备音频输出换能器(即，扬声器)126来播放所渲染的话音。

字体保存控件(例如，按钮)318允许对多语音字体进行保存以供再次使用。话音保存控件(例如，按钮)320允许将使用多语音字体所渲染的计算机生成的话音保存为音频文件。

可以在多种实施例中将该申请的主题实践为系统、设备、和其它制品或方法。可以将实施例实现为硬件、软件、计算机可读介质、或其组合。在本文中所描述的实施例和功能可以经由多个计算系统来操作，所述计算系统包括但不限于：台式计算机系统、有线和无线计算系统、移动计算系统(例如，移动电话、上网本、平板(tablet or slate)类计算机、笔记本计算机、以及膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费型电子产品、小型计算机、以及大型计算机。

可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示用户界面和各种类型的信息。例如，可以在其上投影有用户界面和各种类型的信息的墙面上来显示用户界面和各种类型的信息，并与其进行交互。与利用其可以实践本发明的实施例的多个计算系统的交互包括：击键输入、触摸屏输入、语音或其他音频输入、手势输入(在相关联的计算设备装备有用于捕获和解译用于控制计算设备的功能的用户手势的检测(例如，相机)功能的情况下)等。

图4和图5以及相关联的说明提供了对其中可以实践本发明的实施例的多种操作环境的讨论。然而，所示出并讨论的设备和系统是出于示例和说明的目的的，而不限于在上文中所描述的、可以利用以实践本发明的实施例的大量的计算设备的配置。

图4是示出了可以利用其实践本发明的实施例的计算设备400的物理组件(即，硬件)的框图。以下所描述的计算设备组件可以适用于实施计算设备，包括但不限于：个人计算机、平板计算机、平面计算机、以及智能电话、或在本文中所讨论的任何其它计算设备。在基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括但不限于：易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器、或者这样的存储器的任何组合。系统存储器404可以包括操作系统405以及适用于运行软件应用420(例如，多语音字体插值引擎102或多语音字体调节工具300)的一个或多个程序模块406。例如，操作系统405可以适用于控制计算设备400的操作。此外，本发明的实施例可以结合图形库、其他操作系统、或者任何其他应用程序来实践，并且不限于任何特定的应用或系统。由虚线408内的那些部件示出了该基本配置。计算设备400可以具有额外的特征或功能。例如，计算设备400还可以包括额外的数据存储设备(可移动的和/或不可移动的)，例如磁盘、光盘或磁带。由可移动存储设备409和不可移动存储设备410示出了这样的额外的存储设备。

如上所述，可以将多个程序模块和数据文件存储在系统存储器404中。当在处理单元402上执行时，软件应用420可以执行包括但不限于插值方法200的阶段中的一个或多个阶段的过程。根据本发明的实施例可以使用的其他程序模块可以包括：电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图应用等。

此外，可以在包括分立的电子元件的电气电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单片机上实践本发明的实施例。例如，可以经由片上系统(SOC)来实践本发明的实施例，其中在片上系统中，可以将所示出的组件中的每个或许多个集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，其全部都作为单集成电路而集成(或“烧”)到芯片基板上。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备400的其他组件集成的专用逻辑，来对在本文中关于软件应用420所描述的功能进行操作。例如，还可以使用能够执行逻辑操作(例如，AND、OR和NOT)的其他技术来实践本发明的实施例，所述其它技术包括但不限于机械、光学、流体、和量子技术。另外，可以在通用计算机内或在任何其他电路或系统中实践本发明的实施例。

计算设备400还可以具有一个或多个输入设备412，例如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括输出设备414，例如显示器、扬声器、打印机等。前述设备是示例，并且也可以使用其他设备。计算设备400可以包括允许与其他计算设备418进行通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于：RF发射机、接收机、和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块之类的信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动的介质。系统存储器404、可移动存储设备409、以及不可移动存储设备410全都是计算机存储介质的示例(即，存储器存储)。计算机存储介质可以包括：随机存取存储器(RAM)、只读存储器(ROM)、电可擦除只读存储器(EEPROM)、闪速存储器或其他存储器技术、光盘只读存储器(CD-ROM)、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储信息并且可以由计算设备400所访问的任何其他制品。任何这样的计算机存储介质都可以是计算设备400的一部分。

图5A和5B示出了可以利用其实践本发明的实施例的移动计算设备500。合适的移动计算设备的示例包括但不限于：移动电话、智能电话、平板计算机、平面计算机、以及膝上型计算机。在基本配置中，移动计算设备500是既具有输入元件又具有输出元件的手持计算机。移动计算设备500通常包括显示器505和允许用户将信息输入到移动计算设备500中的一个或多个输入按钮510。移动计算设备500的显示器505也可以充当输入设备(例如，触摸屏显示器)。如果被包括，则可选的侧输入元件515允许进一步的用户输入。侧输入元件515可以是旋转开关、按钮、或任何其他类型的手动输入元件。在可替代的实施例中，移动计算设备500可以包含更多或更少的输入元件。例如，在一些实施例中，显示器505可以不是触摸屏。在另一个可替代的实施例中，移动计算设备500是便携式电话系统，例如蜂窝电话。移动计算设备500还可以包括可选的小键盘535。可选的小键盘535可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中，输出元件包括用于示出图形用户界面的显示器505、视觉指示器520(例如，发光二极管)、和/或音频换能器525(例如，扬声器)。在一些实施例中，移动计算设备500包含用于给用户提供触觉反馈的振动换能器。在另一个实施例中，移动计算设备500包含用于向外部设备发送信号或从外部设备接收信号的输入和/或输出端口，例如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)、和视频输出(例如，HDMI端口)。

图5B是示出了移动计算设备的一个实施例的架构的框图。即，移动计算设备500可以包含用于实现一些实施例的系统(即，架构)502。在一个实施例中，可以将系统502实现为能够运行一个或多个应用(例如，浏览器、电子邮件客户端、笔记、联系人管理器、消息发送客户端、游戏、和媒体客户端/播放器)的“智能电话”。在一些实施例中，将系统502集成为计算设备，例如集成的个人数字助理(PDA)和无线电话。

可以将一个或多个应用程序565装载到存储器562中，并且在操作系统564上运行或者与操作系统564相关联地运行。应用程序的示例包括：电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息发送程序等。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以用于存储在系统502断电时不应丢失的永久信息。应用程序565可以使用信息并将信息存储在非易失性存储区域568中，例如电子邮件应用程序所使用的电子邮件或其他消息等。同步应用(未示出)也驻留在系统502上，并且被编程为与驻留在主机计算机上的对应的同步应用进行交互，以保持存储在非易失性存储区域568中的信息与存储在主机计算机上的对应的信息进行同步。应当理解的是，其他应用(包括在本文中所描述的软件应用420)可以被装载到存储器562中并且在移动计算设备500上运行。

系统502具有电源570，其可以被实现为一个或多个电池。电源570还可以包括外部电源，例如，AC适配器或者对电池供电或充电的加电对接托架。

系统502还可以包括执行发送和接收射频通信的功能的无线电设备572。无线电设备572可以经由通信运营商或服务提供商来促成系统502与“外部世界”之间的无线连通性。到无线电设备572和来自无线电设备572的传输是在操作系统564的控制下进行的。换句话说，可以经由操作系统564将由无线电设备572所接收到的通信散播至应用程序565，反之亦然。

视觉指示器520可以用于提供视觉通知和/或音频接口574可以用于经由音频换能器525来产生可听见的通知。在所示出的实施例中，视觉指示器520是发光二极管(LED)，而音频换能器525是扬声器。这些设备可以直接被耦合至电源570，以使得当被激活时，即使为了保存电池电量可以关闭处理器560和其他组件，它们也在由通知机制所规定的一段时间内保持通电。LED可以被编程为保持无限期地通电以指示设备的通电状态，直到用户采取动作为止。音频接口574用于向用户提供可听见的信号并从用户处接收可听见的信号。例如，除了耦合至音频换能器525之外，音频接口574还可以耦合至麦克风以接收可听见的输入，从而例如促成电话交谈。根据本发明的实施例，麦克风也可以充当音频传感器以促进对通知的控制，如将在下文中所描述的。系统502还可以包括支持操作板载相机530来记录静止的图像、视频流等的视频接口576。

实现系统502的移动计算设备500可以具有额外的特征或功能。例如，移动计算设备500还可以包括其他的数据存储设备(可移动的和/或不可移动的)，例如，磁盘、光盘、或磁带。由非易失性存储区域568示出了这样额外的存储。

由移动计算设备500所生成或捕获的、并且经由系统502所存储的数据/信息可以如在上文中所描述的那样本地地存储在移动计算设备500上，或者所述数据可以存储在可以由设备通过无线电设备572或者经由移动计算设备500和与移动计算设备500相关联的分离的计算设备之间的有线连接来访问的任何数量的存储介质中，例如，分布式计算网络(例如，互联网)中的服务器计算机。应当理解的是，这样的数据/信息可以通过移动计算设备500经由无线电设备572或者经由分布式计算网络来访问。类似地，这样的数据/信息可以根据公知的数据/信息传输和存储单元(包括电子邮件和协作数据/信息共享系统)容易地在计算设备之间进行存储和使用。

图6示出了用于向如上文所述的一个或多个客户端设备提供多语音字体插值功能的系统的架构一个实施例。可以将与软件应用420相关联地开发、交互、或编辑的内容存储在不同的通信信道中或其他存储器类型中。例如，可以使用目录服务622、门户网站624、邮箱服务626、即时消息存储628、或社交网站630来存储各种文档。如在本文中所描述的，软件应用420可以使用这些类型的系统中的任何一个等以用于支持数据利用。服务器620可以向客户端提供软件应用420。作为一个示例，服务器620可以是在网络上提供软件应用420的网络服务器。服务器620可以通过网络615在网络上提供软件应用420。作为示例，客户端计算设备可以被实现为计算设备400，并且在个人计算机605a、平板计算设备605b、和/或移动计算设备605c(例如，智能电话)、或者其他计算设备中被实施。客户端设备的这些实施例中的任何一个实施例都可以从存储616中获取内容。

在该申请中所提供的对一个或多个实施例的描述和说明旨在向本领域技术人员提供对主题的完整范围的完全彻底和完整的公开，而不旨在以任何方式限制或约束本发明的所要求保护的范围。在该申请中所提供的实施例、示例、和细节被认为足以表达所有权，并且使得本领域技术人员能够实践所要求保护的发明的最佳模式。被认为是本领域技术人员所公知的对结构、资源、操作、和动作的描述可以是简短的或者可以被省略，以避免使得该申请的主题的较少人知道的方面或独特的方面难以理解。除非在本文中明确地指出，否则，所要求保护的发明都不应该被解释为限于在该申请中所提供的任何实施例、示例、或细节。无论是共同还是单独地被示出和描述，各种特征(包括结构和方法两者)都旨在被选择性地包括或省略，以产生具有一组特定特征的实施例。此外，任何或所有示出或描述的功能和动作可以以任意顺序执行或同时执行。在已经提供了本申请的描述和说明之后，本领域技术人员可设想变型、修改和替代实施例，这些实施例落入到在该申请中所实施的一般发明概念的更宽泛的方面的精神内，而不脱离所要求保护的发明的更宽泛的范围。

Claims

1.一种用于呈现用户界面以针对从源语音字体推导的计算机生成的话音生成多语音字体的方法，所述方法包括以下步骤：

标识多个源语音字体；

生成用户界面，所述用户界面包括与所述多语音字体的语音字体特性相关联的源语音字体权重选择控件，所述源语音字体权重选择控件允许基于所述源语音字体权重选择控件针对所述多个源语音字体中的每个源语音字体的位置来向所述多个源语音字体中的每个源语音字体分配相对于其它源语音字体中的每个源语音字体的相对权重，以便控制所述多个源语音字体中的每个源语音字体对所述多语音字体的所述语音字体特性的贡献；以及

显示所述用户界面。

2.根据权利要求1所述的方法，其中，所述用户界面还包括：允许调整所述多语音字体的整体属性的多语音字体属性控件。

3.根据权利要求2所述的方法，其中，所述多语音字体属性控件是与从包括话音速率、音高水平和音高范围的一群多语音字体属性中选择的多语音字体属性相关联的。

4.根据权利要求1所述的方法，其中，所述用户界面还包括：允许标识所述多个源语音字体的语音字体选择控件。

5.根据权利要求1所述的方法，还包括以下步骤：

获得待被渲染成计算机生成的话音的文本；以及

使用所述多语音字体来将所述文本渲染成计算机生成的话音。

6.根据权利要求5所述的方法，其中，使用所述多语音字体来将所述文本渲染成话音包括：

针对每个源语音字体来预测所述文本的特性值；

基于被分配给所述多个源语音字体中的每个源语音字体的相对权重来合并所预测的特性值以产生经插值的特性值；以及

使用所述经插值的特性来将所述文本渲染成计算机生成的话音。

7.根据权利要求5所述的方法，其中，所述用户界面还包括：允许输入文本以用于文本话音转换渲染的文本输入控件，并且其中，获得待被渲染成计算机生成的话音的文本的步骤包括：从所述文本输入控件获得所述文本。

8.根据权利要求5所述的方法，还包括以下步骤：经由音频输出换能器来播放所述经渲染的文本。

9.根据权利要求5所述的方法，其中，所述用户界面还包括话音保存控件，并且所述方法还包括以下步骤：响应于对所述话音保存控件的致动而将所述经渲染的文本保存为音频文件。

10.根据权利要求1所述的方法，其中，所述用户界面还包括：包含多个语音字体特性标签选择器的语音字体特性标签选择控件，所述多个语音字体特性标签选择器中的每个语音字体特性标签选择器与包括用于不同语音字体特性的源语音字体权重选择控件的语音字体特性标签相关联，并且其中，所述方法还包括以下步骤：

接收对语音字体特性标签选择器的用户选择；以及

响应于接收对所述语音字体特性标签选择器的所述用户选择，显示与所选择的语音字体特性标签选择器相关联的语音字体特性标签。

11.根据权利要求1所述的方法，其中，所述源语音字体权重选择控件是与从包括以下各项的一群语音字体特性中选择的语音字体特性相关联的：持续时间语音字体特性、f0语音字体特性、以及频谱语音字体特性。

12.根据权利要求1所述的方法，其中，所述用户界面还包括：允许保存所述多语音字体以供再次使用的字体保存控件。

13.一种用于针对从源语音字体推导的计算机生成的话音生成多语音字体的基于网络的系统，包括：

至少一个处理器；以及

存储器，所述存储器操作地连接到所述至少一个处理器并存储指令，所述指令在由所述至少一个处理器执行时使得所述至少一个处理器进行以下操作：

标识多个源语音字体；

将所述用户界面发送给客户端计算设备。

14.根据权利要求13所述的系统，其中，所述用户界面还包括：允许调整所述多语音字体的整体属性的多语音字体属性控件，其中，所述多语音字体属性控件与从包括话音速率、音高水平和音高范围的一群多语音字体属性中选择的多语音字体属性相关联。

15.根据权利要求13所述的系统，其中，所述用户界面还包括：允许标识源语音字体的语音字体选择控件。

16.根据权利要求13所述的系统，其中，所述存储器还存储在由所述至少一个处理器执行时使得所述至少一个处理器进行以下操作的指令：

从所述客户端计算设备接收待被渲染成计算机生成的话音的文本；以及

17.根据权利要求13所述的系统，其中，所述存储器还存储在由所述至少一个处理器执行时使得所述至少一个处理器进行以下操作的指令：

针对每个源语音字体来预测文本的特性值；

18.根据权利要求13所述的系统，其中，所述用户界面还包括：允许输入文本以用于文本话音转换渲染的文本输入控件。

19.根据权利要求13所述的系统，还包括：向所述客户端计算设备发送包括经渲染的文本的音频文件。

20.一种包含计算机可执行指令的有形计算机可读存储介质，所述计算机可执行指令在由计算机执行时执行呈现用户界面以解决常规理解系统中的模糊性的方法，所述方法包括：

标识多个源语音字体；

生成用户界面，所述用户界面包括：

与多语音字体的语音字体特性相关联的源语音字体权重选择控件，所述源语音字体权重选择控件允许基于所述源语音字体权重选择控件针对所述多个源语音字体中的每个源语音字体的位置来向所述多个源语音字体中的每个源语音字体分配相对权重，以便控制所述多个源语音字体中的每个源语音字体对所述多语音字体的所述语音字体特性的贡献；

允许调整所述多语音字体的整体属性的多语音字体属性控件；

允许标识源语音字体的语音字体选择控件；以及

允许输入文本以用于文本话音转换渲染的文本输入控件；以及显示所述用户界面；

经由所述文本输入控件来接收待被渲染成计算机生成的话音的文本；

针对每个源语音字体来预测所述文本的特性值；

基于被分配给所述多个源语音字体中的每个源语音字体的相对权重来合并所经预测的特性值以产生经插值的特性值；以及