CN106575500A

CN106575500A - 基于面部结构合成话音的方法和装置

Info

Publication number: CN106575500A
Application number: CN201580045327.3A
Authority: CN
Inventors: S.贝甘; A.A.奥加内佐夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-09-25
Filing date: 2015-08-28
Publication date: 2017-04-19
Anticipated expiration: 2035-08-28
Also published as: WO2016048579A1; EP3198589A1; US10056073B2; JP6336676B2; US9607609B2; EP3198589B1; EP3198589A4; US20170287464A1; KR20170034409A; US20160093284A1; JP2017530393A; US20180322862A1; CN106575500B; KR102361389B1; US10621968B2

Abstract

所公开的是用于使用在基于发音的文本到语音转换系统中的实施例，所述系统配置成基于定义人员的话音的外部可视发音语音合成模型参数的面部特性和基于从预定义的模型的储存库之中选择的预定义的发音语音合成模型而建立人员的话音的发音语音合成模型。

Description

基于面部结构合成话音的方法和装置

技术领域

本文所描述的实施例一般涉及文本到语音（TTS）系统，并且更特别地涉及用于基于所选个体的外部可视面部结构定制语音合成的基于发音的TTS系统。

背景技术

通用语音合成已经广泛地使用在许多应用中，包括可以读取电子邮件消息或其它文本的那些。在给定文本输入的情况下，TTS系统人工产生人类语音。TTS系统的性能由自然性、智能性和其实现的复杂性来表征。自然语言接口一般地正在计算设备中变得普遍，并且特别地在移动计算设备中，诸如智能电话、平板电脑和膝上型计算机。

附图说明

图1是根据实施例的包括基于发音的语音合成的TTS系统的框图。

图2是根据实施例的包括使用面部到话音系统定制的基于发音的语音合成的TTS系统的框图。

图3是根据实施例的存储预处理的面部图像连同对应的发音参数值的数据库的表格视图。

图4是根据实施例的采用基于图像的匹配方案以从图3的数据库获取用于模仿给定个体的话音以用于语音合成的发音参数的图2的TTS系统的框图。

图5是根据实施例的存储发音参数值的数据库的表格视图。

图6是根据实施例的采用基于发音的匹配方案以从图5的数据库获取用于模仿给定个体的话音以用于语音合成的发音参数的图2的TTS系统的框图。

图7是移动用户装备设备的示例的框图。

具体实施方式

各方面和优点将从参照前述附图进行的优选实施例的以下详细描述是明显的。

1. 引言

改进TTS特性的学术和工业界中的尝试包括例如使用发音语音合成模型的语音合成系统，其是用于基于人类声道模型合成语音的计算技术和发生在其中的发音过程。然而，这样的在先系统使用不一定匹配用户希望将其听为使用语音合成产生的模仿话音的特定人员的那些的发音参数值。另外，这些早前的尝试尚未基于从个体的面部图像导出的外部可视发音参数来合成给定个体的语音。因此，从这些发音语音合成模型产生的声音听起来不像从特定人员自身的话音产生的语音。

由Shunji Awazu在针对第75届日本心理协会年度大会的“Inference fromUnfamiliar Voices to Unfamiliar Faces - Influence of Gender Difference”第607页，2011年中所描述的最新心理研究断定，具有类似话音的人们具有类似的面部特征。Escoto等人也在针对2012年的第八届信号图像技术和基于互联网的系统国际会议的“WhoSaid That The Crossmodal Matching Identity for Inferring Unfamiliar Facesfrom Voices”中描述了该观察。

本公开解释了类似的面部特征产生类似发声的话音，因为面部特征（其可以根据可视发音参数来定义）在它们行进通过人类语音产生系统时给予声音频率的类似成形。在本公开中阐述的实施例使用面部特征（例如在可视发音参数之间）与由个体生成的声音频率之间的相关性以便基于他或她的面部结构合成该个体的话音。

本文所描述的发音语音合成系统的实施例采用发音参数与话音之间的这种相关性以便合成任何给定个体的语音。例如，发音语音合成系统实施例基于示出人员面部的图像而生成在图像中描绘的人员的话音的近似。图1和2提供了TTS实施例的概览，并且图4和6提供了两个具体方案：基于图像的匹配方案，和基于发音的匹配方案。这些实施例基于个体的面部图像和基线数据库记录的集合而动态地实时合成给定个体的语音，所述基线数据库记录具有针对该记录的对应发音语音模型。

2. TTS实施例的概览

图1示出TTS系统100的实施例。TTS系统100一般基于在S. Levinson, D. Davis, S.Simon, J. Huang的“Articulatory Speech Synthesis from the Fluid Dynamics ofthe Vocal Apparatus”（Morgan & Claypool 出版商，2012年7月发行）中描述的框架。例如，AT&T已经实现了描述在前述Levison等人的参考文献的第2章第2.1节中描绘的并且在图2.1中描绘的TTS系统。

系统100接收文本输入104，其由文本分析模块106分析以从文本输入104提取文字110。文字110通过将包含比如数字和缩写那样的符号的原始文本转换成拼出来的文字的等同物来获取。该过程通常被称为文本标准化、预处理或标记化（tokenization）。

文字110然后由语言分析模块116进一步处理成对文字110中的每一个的音素表音。语言分析模块116将文本拆分和标记成韵律单元，比如短语、从句和句子。向文字分配音素标音的过程被称为文本到音素或字素到音素转换。音素标音和韵律信息一起构成被输出的符号语言表示，并且将其称为字素120。

字素120被输入到波形合成模块130中，其还从发音系统模型140接收声音频率信息134（例如声音频率）。由发音系统模型140和字素120生成的信息134使用波形合成模块130（例如波合成器）合成以产生语音输出150。在Levison等人的参考文献的第6章中描述和在图6.1-6.6中示出波形合成。

发音系统模型140包括用于对话音建模的发音模型160。发音模型的示例也在Levison等人的参考文献中描述。例如，第2章第2.3.3节描述了并且图2.12示出了开创性的Mermelstein发音模型，其提供用于发音系统模型140的一般架构。

发音系统模型140准许对发音模型160向声道模型170提供的发音参数164（通过参数表166中列出的示例示出）的控制和调节。例如，舌半径、舌高、下颌角度、唇突度和唇高度是可以在语音产生期间进行控制以定制由声道模型170生成的声音频率的发音参数。关于声道模型170的附加信息在Levison等人的参考文献中在第2.3.4章和图2.13处可得到。

常规TTS模型不区分可视（例如唇和下颌）和不可视（例如舌、软腭）发音参数，但是发音参数164被标识为可视或不可视的。发音参数164以此方式被标识使得TTS系统100可以基于他或她的面部图像而合成个体的话音。如之前所指出的，TTS系统100采用面部特征（即可视发音参数）与由个体生成的声音频率之间的相关性。

图2示出包括TTS系统100的组件中的许多个的TTS系统200。但是，系统200还包括面部到话音系统208，其接收面部结构输入212，诸如表示示出人员（例如Alice）的容貌的面部肖像的图像数据。面部结构输入212由基于面部（图3和4）或基于参数（图5和6）的匹配系统220（一般地，面部特性匹配系统220）用于与预定义的发音模型224的基线数据库比较。面部特性匹配系统220从数据库224获取包括与面部结构输入212相关的参数164的预定义的模型160的至少部分。TTS系统200使用这些参数164以动态地实时合成Alice的语音，如之前所描述的。

3. 基于图像的匹配方案

图3示出由与针对Amanda 312, Bob 320, Sophia 324和Catherine 330的预定义的发音模型和面部图像相关联的记录的示例表格310表示的基线数据库300。每一个人员的记录包括所存储的面部图像和根据外部可视和不可视（即从人员的嘴部或声道内的外部观察隐藏）的参数划分的预定义的发音模型。例如，Sophia的记录324包括她的图片（Image_y）；可视发音参数值（VAP_y <jaw_y, lipP_y, lipH_y, ...>）；以及不可视发音参数值（IAP_y <tongueH_y,tongueW_y, velum_y, ...>）。VAP值量化可以从Sophia的面部图片（Image_y）观察到的面部结构：她的下颌和唇面部特征<jaw_y, lipP_y, lipH_y, ...>，其中“jaw”意味着下颌角度，“lipP”意味着唇突度，并且“lipH”意味着唇高。IAP值量化不可从图片观察到的声道结构：Sophia的舌头和软腭特性<tongueH_y, tongueW_y, velum_y, ...>，其中“tongueH”意味着舌高，“tongueW”意味着舌宽，并且“velum”意味着软腭长度。在一些实施例中，其它VAP和IAP特性是可能的，并且面部图像和参数可以跨若干数据库而分布。基线数据库300可以存储在用户装备设备（图7）中或远程服务器上。

图4是使用包括面部匹配系统420的面部到话音系统408以从包含面部图像和发音参数的已知元组的数据库300（参见例如图3）获取参数164的示例基于图像的匹配TTS系统400。面部到话音系统408获得表示人员（Alice）的容貌的图像数据，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性。例如，面部到话音系统408可以通过网络连接接收图像文件，或者其可以使用利用图像捕获设备捕获到的本地存储的图像。面部匹配系统420实现使用图像数据和现有伪2D隐马尔科夫模型（PHMM）以用于实现图像中的人员与由数据库300中的图像识别的人员之间的合适面部匹配。基于PHMM的模型的示例由A.V. Nefian和M.H. Hayes III描述在针对1999年声学、语音和信号处理电气与电子工程师国际会议会报的“An Embedded HMM-Based Approach for Face Detection andRecognition”（第6卷，第3553-56页，1999年5月）中。相应地，PHMM可以用于基于图像匹配找到最佳匹配对象。

基于类似面部产生类似话音的观察，来自基线数据库300的最接近的匹配面部的发音参数将用于针对Alice的经合成的话音。例如，Alice可能紧密类似于Sophia，因此图3的第y条目（Sophia）324的VAP和IAP值或仅IAP值可以用作用于Alice的发音模型160。

使用Sophia的VAP和IAP值将产生在Sophia的话音上建模的经合成的语音。在该情况下，Alice的所生成的语音的自然个性中的一些可能有点丢失。因此，在一些实施例中，Sophia的话音的基线频率可以基于最佳匹配（Sophia）与目标人员（在该示例中，Alice）之间的视觉差异而进一步调节。例如，一个这样的调节将使用Sophia的IAP值，以及然后从面部结构输入图像212提取的Alice的VAP值。该技术在稍后的段落中参照图5和6来描述。

4. 基于发音的匹配方案

图5示出由与针对Amanda 512, Bob 520, Sophia 524和Catherine 530的预定义的发音模型相关联的记录的示例表格510表示的基线数据库500。要指出的是，没有基线对象的所存储的数据库图像被包括在数据库500中。

数据库500不具有所建模的人员的图片，因为图6的参数匹配方案依赖于以下事实：存在类似外部可视面部特征与类似话音之间的相关性。因此，从可视面部特征获取的可视发音参数充当用于获取预定义的发音模型的至少部分的直接引用。相应地，图6呈现其中对系统的输入是人员（比方说，Alice）的面部图像、文本输入和<可视发音参数，不可视发音参数>元组的基线数据库的方案。基线数据库500可以存储在用户装备设备（图7）中或远程服务器上。

图6是使用包括可视发音参数提取610和参数匹配系统620以从包含可视和不可视发音参数的已知元组的数据库500（参见例如图5）获取参数164的面部到话音系统608的示例基于图像的匹配TTS系统600。

面部到话音系统608获得表示人员（Alice）的容貌的图像数据，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性。如之前所指出的，该获得可以在用户设备上本地执行，或者其可以包括去往或来自远程服务器的数据传输。

发音参数提取610分析面部结构输入图像212以提取可视参数，其被用作找到使用在语音合成阶段中的最佳匹配的声音频率的钥匙。面部检测和特征提取的示例由Liu Zhi-fang等人描述在针对2003年第五届计算智能和多媒体应用国际会议的会报的“Facedetection and facial feature extraction in color image”中（第27-30页，2003年9月）。Shih等人在针对模式识别和人工智能国际期刊的“Extracting Faces And FacialFeatures From Color Images”（第22卷，第3刊，2008年5月）中描述了图像处理和模式识别技术以从彩色图像提取人类面部和面部特征。

参数匹配系统620然后接收所提取到的参数以用于与存储在数据库500中的那些比较。参数匹配系统620可以使用任何数目的技术来为来自数据库500的可视发音参数的最接近的匹配评分。例如，参数匹配系统620可以使用欧几里德距离、平方和计算器或找到最接近的匹配的另一技术。

在一些实施例中，面部到话音系统608还使用可视发音参数之间的delta以使数据库500的第y个条目（例如Sophia）和目标（Alice）的语音信号之间的差异偏移，并且因而能够生成Alice的语音。例如，发音模型160可以包括从Alice的图片提取到的VAP值和存储在数据库500中的Sophia的IAP值。该方案将包括计及可归因于例如肌肉和脂肪的所提取到的VAP值中的噪声的技术，该噪声可能在发音参数从面部图像的提取期间引入误差。在另一实施例中，Sophia的VAP和IAP值二者可以用于合成Alice的话音的近似。

5. 用于语音合成的示例用户装备设备

图7提供了移动用户装备设备的示例图示，诸如移动站、移动无线设备、移动通信设备、平板电脑、手机或其它类型的移动无线设备。移动设备可以包括配置成与传输站通信的一个或多个天线，所述传输站诸如基站、演进NodeB、基带单元、远程无线电头、远程无线电装备、中继站、无线电装备或其它类型的无线广域网（WWAN）接入点。移动设备可以配置成使用至少一个无线通信标准进行通信，包括3GPP LTE、WiMAX、高速分组接入、蓝牙和WiFi。移动设备可以使用针对每一个无线通信标准的分离天线或针对多个无线通信标准的共享天线进行通信。移动设备可以在无线局域网、无线个人区域网和/或WWAN中通信。

图7还提供了可以用于去往移动设备的音频输入和来自移动设备的音频输出的麦克风和一个或多个扬声器的图示。显示屏可以是液晶显示屏，或者其它类型的显示屏，诸如有机发光二极管显示器。显示屏可以配置为触摸屏。触摸屏可以使用电容、电阻或另一类型的触摸屏技术。应用处理器和图形处理器可以耦合到内部存储器以提供处理和显示能力。非易失性存储器端口还可以用于向用户提供数据输入/输出选项。非易失性存储器端口还可以用于扩展移动设备的存储器能力。键盘可以与移动设备集成或者无线连接到移动设备以提供附加的用户输入。虚拟键盘还可以使用触摸屏来提供。移动设备可以配备有数码相机或其它成像器以用于获取数字图像。

定制于个体的话音的语音合成提供潜在的新应用。例如，“母亲电子阅读器”将通过动态地实时合成母亲的话音来大声朗读电子书。存在可以使用本公开的各方面的众多使用情况和应用，包括用于比如GPS和警报那样的应用的语音合成，以及比如语音疗法那样的治疗应用。以下是用于将来产品或兴趣的一些潜在应用：母亲电子阅读器，其包括使用母亲的预先加载的图像以母亲（或任何特定人员选择）的话音朗读故事的电子阅读器应用；移动设备上的应用的个性化，例如，利用所选择的人员的消息阅读器、GPS；合成具有各种语音残疾的患者的话音（例如不能够说话的人员）；或者基于其照片图像合成已故人员的话音，其可以在不存在其话音的记录时使用。

6. 基于服务器的处理

在一些实施例中，面部到话音系统208,408和608的任何部分可以托管在用户装备或远程服务器上。例如，参数提取610可以发生在用户装备设备上或服务器上。数据库300或500的云储存可能引起隐私性和安全性顾虑二者，并且将其存储在目标系统中将使用系统中的空间和本地处理能力二者。

对于基于云的实施例，为了避免错误的数据提交，数据筛选系统用于检查数据完整性。这样的筛选系统的示例将接收已知文本连同图像（或话音合成参数的集合）的话音样本提交。基于提交的参数（或从系统608获取到的那些），将经合成的文本转换成语音样本。该样本然后与所提交的话音样本比较。明显的失配作为无效提交而被拒绝。

7. 示例实施例

示例可以包括主题，诸如方法、用于执行方法的动作的构件、包括指令的至少一个机器可读介质，所述指令在由机器执行时使机器执行方法的动作，或根据本文所描述的实施例和示例的用于基于发音的文本到语音转换的装置或系统。以下示例出于清楚的目的而被枚举。

示例1. 一种用于使用在基于发音的文本到语音转换系统中以建立人员的话音的发音语音合成模型的装置，所述装置包括：获得表示人员的容貌的图像数据的面部结构输入设备，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性；从预定义的模型储存库之中选择预定义的发音语音合成模型的面部特性匹配系统，选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者；以及将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的发音系统。

示例2. 示例1的装置，其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。

示例3. 示例2的装置，其中面部匹配相关性的度量使用隐马尔可夫模型导出。

示例4. 示例1的装置，其中面部结构输入设备配置成通过利用用户装备设备中的成像器捕获图像来获得图像数据。

示例5. 示例1至4中任何一个的装置，其中面部特性匹配系统配置成通过比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些来选择。

示例6. 示例1至4中任何一个的装置，其中面部特性匹配系统配置成通过从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较来选择。

示例7. 示例1至4中任何一个的装置，其中发音系统配置成通过使用所选预定义的发音语音合成模型的模型参数合成语音来关联所选预定义的发音语音合成模型的所述至少部分。

示例8. 一种用于使用在基于发音的文本到语音转换系统中的装置，所述系统配置成建立人员的话音的发音语音合成模型，所述装置包括：用于获得表示人员的容貌的图像数据的构件，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性；用于从预定义的模型储存库之中选择预定义的发音语音合成模型的构件，选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者；以及用于将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的构件。

示例9. 示例8的装置，其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。

示例10. 示例9的装置，其中面部匹配相关性的度量使用隐马尔可夫模型导出。

示例11. 示例8的装置，其中用于选择的构件包括用于比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的构件。

示例12. 示例8至11中任何一个的装置，其中用于获得的构件包括用于利用用户装备设备中的成像器捕获图像的构件。

示例13. 示例8的装置，其中用于选择的构件包括用于从用户装备设备向服务器传送图像数据并且从而发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较的构件。

示例14. 示例8的装置，其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于使用所选预定义的发音语音合成模型的模型参数合成语音的构件。

示例15. 示例8的装置，其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数，并且其中预定义的模型中的每一个包括由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。

示例16. 示例15的装置，其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。

示例17. 示例15的装置，其中选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。

示例18. 示例15的装置，其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用的构件。

示例19. 示例8至11中任何一个的装置，其中用于图像数据的获得的构件包括用于接收通过网络从用户装备设备传送的图像文件的构件。

示例20. 示例8的装置，其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数的构件。

示例21. 示例20的装置，还包括用于组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数的构件。

示例22. 示例8的装置，其中预定义的模型的储存库包括数据库，并且所述装置还包括：用于接收预定义的模型的提交的构件，提交包括已知文本输入的话音样本记录；以及用于确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录的构件。

示例23. 示例22的装置，其中预定义的模型的储存库包括数据库，并且所述装置还包括用于响应于经合成的语音输出不够匹配话音样本记录而拒绝提交的构件。

示例24. 一种用于语音到文本转换的方法，包括：向发音模型服务器发送人员的外部面部结构信息；从发音模型服务器接收对应于外部面部结构信息的预定义的发音模型的至少部分；以及至少部分地基于预定义的发音模型将文本输入转换成语音输出。

示例25. 示例24的方法，其中外部面部结构信息包括人员面部的图片或从图片提取的发音参数中的一个或二者。

示例26. 示例25的方法，其中预定义的发音模型的所述部分包括对应于与图片中所示的人员不同的被建模人员的不可视发音参数。

示例27. 示例25的方法，其中预定义的发音模型的所述部分包括对应于与图片中所示出的人员不同的被建模人员的可视发音参数。

示例28. 示例25的方法，其中外部面部结构信息包括人员面部的图片，并且其中所述发送使发音模型服务器从图片提取发音参数。

示例29. 示例25的方法，其中所述发送使发音模型服务器将人员的图片匹配到由预定义的发音模型表示的人员的所存储的图片。

示例30. 示例25的方法，其中所述发送使发音模型服务器将从图片提取的发音参数匹配到预定义的发音模型的那些。

示例31. 一种用于语音到文本转换的方法，包括：从用户装备设备接收人员的外部面部结构信息；基于外部面部结构信息与存储在发音模型的数据库中的外部面部结构信息的比较而确定对应于外部面部结构信息的发音模型的至少部分；以及向用户装备设备发送对应于人员的外部面部结构信息的发音模型的所述至少部分。

示例32. 示例31的方法，其中外部面部结构信息包括人员面部的图片或从图片提取的发音参数中的一个或二者。

示例33. 示例32的方法，其中预定义的发音模型的所述部分包括对应于与图片中所示的人员不同的被建模人员的不可视发音参数。

示例34. 示例32的方法，其中预定义的发音模型的所述部分包括对应于与图片中所示出的人员不同的被建模人员的可视发音参数。

示例35. 示例32的方法，其中外部面部结构信息包括人员面部的图片，并且其中所述接收使发音模型服务器从图片提取发音参数。

示例36. 示例32的方法，其中所述接收使发音模型服务器将人员的图片匹配到由预定义的发音模型表示的人员的所存储的图片。

示例37. 示例32的方法，其中所述接收使发音模型服务器将从图片提取的发音参数匹配到预定义的发音模型的那些。

示例38. 一种用于建立人员的话音的发音语音合成模型的方法，所述方法包括：获得表示人员的容貌的图像数据，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性；从预定义的模型储存库之中选择预定义的发音语音合成模型，所述选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者；以及将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联。

示例39. 示例38的方法，其中所述选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。

示例40. 示例39的方法，其中面部匹配相关性的度量使用隐马尔可夫模型导出。

示例41. 示例38的方法，其中所述获得包括利用用户装备设备中的成像器捕获图像。

示例42. 示例38的方法，其中所述选择包括比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些。

示例43. 示例38的方法，其中所述选择包括从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。

示例44. 示例38的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括使用所选预定义的发音语音合成模型的模型参数合成语音。

示例45. 示例38的方法，其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数和由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。

示例46. 示例45的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。

示例47. 示例45的方法，其中所述选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。

示例48. 示例45的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用。

示例49. 示例38的方法，其中图像数据的获得包括接收通过网络从用户装备设备传送的图像文件。

示例50. 示例49的方法，其中所述选择包括面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。

示例51. 示例38的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数。

示例52. 示例51的方法，还包括组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数。

示例53. 示例48的方法，其中预定义的模型的储存库包括数据库，并且该方法还包括：接收预定义的模型的提交，提交包括已知文本输入的话音样本记录；以及确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录。

示例54. 示例53的方法，其中预定义的模型的储存库包括数据库，并且该方法还包括响应于经合成的语音输出不够匹配话音样本记录而拒绝提交。

示例55. 至少一个计算机可读存储介质，具有存储在其上的指令，所述指令当在设备上运行时执行示例24至54中任何一个的方法。

以上描述提供众多具体细节以得到本文所描述的实施例的透彻理解。然而，本领域技术人员将认识到，可以省略具体细节中的一个或多个，或者可以使用其它方法、组件或材料。在一些情况下，未示出或详细描述公知的特征、结构或操作。

另外，所描述的特征、操作或特性可以以多种多样的不同配置来布置和设计和/或以任何合适的方式组合在一个或多个实施例中。因此，系统和方法的实施例的详细描述不意图限制如所要求保护的本公开的范围，而是仅仅表示本公开的可能实施例。此外，还将容易理解到的是，结合所公开的实施例描述的方法的步骤或动作的次序可以改变，如对本领域技术人员将是明显的那样。因此，附图或具体实施方式中的任何次序仅出于说明目的，并且不意指暗示所要求的次序，除非被指定成要求次序。

实施例可以包括各种步骤，其可以体现在机器可执行指令中以由通用或专用计算机（或其它电子设备）运行。可替换地，步骤可以通过包括用于执行步骤的特定逻辑的硬件组件或通过硬件、软件和/或固件的组合来执行。

实施例还可以提供为包括具有存储在其上的指令的计算机可读存储介质的计算机程序产品，所述指令可以用于对计算机（或其它电子设备）编程以执行本文所描述的过程。计算机可读存储介质可以包括但不限于：硬盘、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁卡或光卡、固态存储器设备或适合于存储电子指令的其它类型的介质/机器可读介质。

如本文所使用的，软件模块或组件可以包括位于存储器设备和/或计算机可读存储介质内的任何类型的计算机指令或计算机可执行代码。软件模块可以例如包括计算机指令的一个或多个物理或逻辑块，其可以被组织为例程、程序、对象、组件、数据结构等，其执行一个或多个任务或实现特定抽象数据类型。

在某些实施例中，特定软件模块可以包括存储在存储器设备的不同位置中的不同指令，其一起实现模块的所描述的功能。实际上，模块可以包括单个指令或许多指令，并且可以在若干不同的代码段之上、在不同程序之中和跨若干存储器设备分布。一些实施例可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，软件模块可以位于本地和/或远程存储器存储设备中。此外，在数据库记录中连结或一起再现的数据可以驻留在相同的存储器设备中或跨若干存储器设备，并且可以跨网络在数据库中的记录字段中链接在一起。

技术人员将理解到，可以在不脱离本发明的根本原理的情况下可以对以上描述的实施例的细节做出许多改变。因此，本发明的范围应当仅由随附权利要求确定。

Claims

1.一种用于使用在基于发音的文本到语音转换系统中以建立人员的话音的发音语音合成模型的装置，所述装置包括：

获得表示人员的容貌的图像数据的面部结构输入设备，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性；

从预定义的模型储存库之中选择预定义的发音语音合成模型的面部特性匹配系统，选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者；以及

将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的发音系统。

2.权利要求1的装置，其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。

3.权利要求2的装置，其中面部匹配相关性的度量使用隐马尔可夫模型导出。

4.权利要求1的装置，其中面部结构输入设备配置成通过利用用户装备设备中的成像器捕获图像来获得图像数据。

5.权利要求1至4中任何一个的装置，其中面部特性匹配系统配置成通过比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些来选择。

6.权利要求1至4中任何一个的装置，其中面部特性匹配系统配置成通过从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较来选择。

7.权利要求1至4中任何一个的装置，其中发音系统配置成通过使用所选预定义的发音语音合成模型的模型参数合成语音来关联所选预定义的发音语音合成模型的所述至少部分。

8.一种用于建立人员的话音的发音语音合成模型的方法，所述方法包括：

获得表示人员的容貌的图像数据，其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性；

从预定义的模型储存库之中选择预定义的发音语音合成模型，选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者；以及

将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联。

9.权利要求8的方法，其中所述选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。

10.权利要求9的方法，其中面部匹配相关性的度量使用隐马尔可夫模型导出。

11.权利要求8的方法，其中所述获得包括利用用户装备设备中的成像器捕获图像。

12.权利要求8的方法，其中选择包括比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些。

13.权利要求8的方法，其中选择包括从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。

14.权利要求8的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括使用所选预定义的发音语音合成模型的模型参数合成语音。

15.权利要求8的方法，其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数和由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。

16.权利要求15的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。

17.权利要求15的方法，其中所述选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。

18.权利要求15的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用。

19.权利要求8的方法，其中图像数据的获得包括接收通过网络从用户装备设备传送的图像文件。

20.权利要求19的方法，其中所述选择包括面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。

21.权利要求8的方法，其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数。

22.权利要求21的方法，还包括组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数。

23.权利要求18的方法，其中预定义的模型的储存库包括数据库，并且该方法还包括：

接收预定义的模型的提交，提交包括已知文本输入的话音样本记录；以及

确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录。

24.权利要求23的方法，其中预定义的模型的储存库包括数据库，并且该方法还包括响应于经合成的语音输出不够匹配话音样本记录而拒绝提交。

25.至少一个计算机可读存储介质，具有存储在其上的指令，所述指令当在设备上运行时执行权利要求8至24中任何一个的方法。