CN106575500A - 基于面部结构合成话音的方法和装置 - Google Patents
基于面部结构合成话音的方法和装置 Download PDFInfo
- Publication number
- CN106575500A CN106575500A CN201580045327.3A CN201580045327A CN106575500A CN 106575500 A CN106575500 A CN 106575500A CN 201580045327 A CN201580045327 A CN 201580045327A CN 106575500 A CN106575500 A CN 106575500A
- Authority
- CN
- China
- Prior art keywords
- phonetic synthesis
- model
- pronunciation
- predefined
- synthesis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims description 71
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 130
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 130
- 230000000007 visual effect Effects 0.000 claims description 64
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000009434 installation Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000001584 soft palate Anatomy 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- TVYLLZQTGLZFBW-ZBFHGGJFSA-N (R,R)-tramadol Chemical compound COC1=CC=CC([C@]2(O)[C@H](CCCC2)CN(C)C)=C1 TVYLLZQTGLZFBW-ZBFHGGJFSA-N 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 101150005467 lifO gene Proteins 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 101150015539 nlhH gene Proteins 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
所公开的是用于使用在基于发音的文本到语音转换系统中的实施例,所述系统配置成基于定义人员的话音的外部可视发音语音合成模型参数的面部特性和基于从预定义的模型的储存库之中选择的预定义的发音语音合成模型而建立人员的话音的发音语音合成模型。
Description
技术领域
本文所描述的实施例一般涉及文本到语音(TTS)系统,并且更特别地涉及用于基于所选个体的外部可视面部结构定制语音合成的基于发音的TTS系统。
背景技术
通用语音合成已经广泛地使用在许多应用中,包括可以读取电子邮件消息或其它文本的那些。在给定文本输入的情况下,TTS系统人工产生人类语音。TTS系统的性能由自然性、智能性和其实现的复杂性来表征。自然语言接口一般地正在计算设备中变得普遍,并且特别地在移动计算设备中,诸如智能电话、平板电脑和膝上型计算机。
附图说明
图1是根据实施例的包括基于发音的语音合成的TTS系统的框图。
图2是根据实施例的包括使用面部到话音系统定制的基于发音的语音合成的TTS系统的框图。
图3是根据实施例的存储预处理的面部图像连同对应的发音参数值的数据库的表格视图。
图4是根据实施例的采用基于图像的匹配方案以从图3的数据库获取用于模仿给定个体的话音以用于语音合成的发音参数的图2的TTS系统的框图。
图5是根据实施例的存储发音参数值的数据库的表格视图。
图6是根据实施例的采用基于发音的匹配方案以从图5的数据库获取用于模仿给定个体的话音以用于语音合成的发音参数的图2的TTS系统的框图。
图7是移动用户装备设备的示例的框图。
具体实施方式
各方面和优点将从参照前述附图进行的优选实施例的以下详细描述是明显的。
1. 引言
改进TTS特性的学术和工业界中的尝试包括例如使用发音语音合成模型的语音合成系统,其是用于基于人类声道模型合成语音的计算技术和发生在其中的发音过程。然而,这样的在先系统使用不一定匹配用户希望将其听为使用语音合成产生的模仿话音的特定人员的那些的发音参数值。另外,这些早前的尝试尚未基于从个体的面部图像导出的外部可视发音参数来合成给定个体的语音。因此,从这些发音语音合成模型产生的声音听起来不像从特定人员自身的话音产生的语音。
由Shunji Awazu在针对第75届日本心理协会年度大会的“Inference fromUnfamiliar Voices to Unfamiliar Faces - Influence of Gender Difference”第607页,2011年中所描述的最新心理研究断定,具有类似话音的人们具有类似的面部特征。Escoto等人也在针对2012年的第八届信号图像技术和基于互联网的系统国际会议的“WhoSaid That The Crossmodal Matching Identity for Inferring Unfamiliar Facesfrom Voices”中描述了该观察。
本公开解释了类似的面部特征产生类似发声的话音,因为面部特征(其可以根据可视发音参数来定义)在它们行进通过人类语音产生系统时给予声音频率的类似成形。在本公开中阐述的实施例使用面部特征(例如在可视发音参数之间)与由个体生成的声音频率之间的相关性以便基于他或她的面部结构合成该个体的话音。
本文所描述的发音语音合成系统的实施例采用发音参数与话音之间的这种相关性以便合成任何给定个体的语音。例如,发音语音合成系统实施例基于示出人员面部的图像而生成在图像中描绘的人员的话音的近似。图1和2提供了TTS实施例的概览,并且图4和6提供了两个具体方案:基于图像的匹配方案,和基于发音的匹配方案。这些实施例基于个体的面部图像和基线数据库记录的集合而动态地实时合成给定个体的语音,所述基线数据库记录具有针对该记录的对应发音语音模型。
2. TTS实施例的概览
图1示出TTS系统100的实施例。TTS系统100一般基于在S. Levinson, D. Davis, S.Simon, J. Huang的“Articulatory Speech Synthesis from the Fluid Dynamics ofthe Vocal Apparatus”(Morgan & Claypool 出版商,2012年7月发行)中描述的框架。例如,AT&T已经实现了描述在前述Levison等人的参考文献的第2章第2.1节中描绘的并且在图2.1中描绘的TTS系统。
系统100接收文本输入104,其由文本分析模块106分析以从文本输入104提取文字110。文字110通过将包含比如数字和缩写那样的符号的原始文本转换成拼出来的文字的等同物来获取。该过程通常被称为文本标准化、预处理或标记化(tokenization)。
文字110然后由语言分析模块116进一步处理成对文字110中的每一个的音素表音。语言分析模块116将文本拆分和标记成韵律单元,比如短语、从句和句子。向文字分配音素标音的过程被称为文本到音素或字素到音素转换。音素标音和韵律信息一起构成被输出的符号语言表示,并且将其称为字素120。
字素120被输入到波形合成模块130中,其还从发音系统模型140接收声音频率信息134(例如声音频率)。由发音系统模型140和字素120生成的信息134使用波形合成模块130(例如波合成器)合成以产生语音输出150。在Levison等人的参考文献的第6章中描述和在图6.1-6.6中示出波形合成。
发音系统模型140包括用于对话音建模的发音模型160。发音模型的示例也在Levison等人的参考文献中描述。例如,第2章第2.3.3节描述了并且图2.12示出了开创性的Mermelstein发音模型,其提供用于发音系统模型140的一般架构。
发音系统模型140准许对发音模型160向声道模型170提供的发音参数164(通过参数表166中列出的示例示出)的控制和调节。例如,舌半径、舌高、下颌角度、唇突度和唇高度是可以在语音产生期间进行控制以定制由声道模型170生成的声音频率的发音参数。关于声道模型170的附加信息在Levison等人的参考文献中在第2.3.4章和图2.13处可得到。
常规TTS模型不区分可视(例如唇和下颌)和不可视(例如舌、软腭)发音参数,但是发音参数164被标识为可视或不可视的。发音参数164以此方式被标识使得TTS系统100可以基于他或她的面部图像而合成个体的话音。如之前所指出的,TTS系统100采用面部特征(即可视发音参数)与由个体生成的声音频率之间的相关性。
图2示出包括TTS系统100的组件中的许多个的TTS系统200。但是,系统200还包括面部到话音系统208,其接收面部结构输入212,诸如表示示出人员(例如Alice)的容貌的面部肖像的图像数据。面部结构输入212由基于面部(图3和4)或基于参数(图5和6)的匹配系统220(一般地,面部特性匹配系统220)用于与预定义的发音模型224的基线数据库比较。面部特性匹配系统220从数据库224获取包括与面部结构输入212相关的参数164的预定义的模型160的至少部分。TTS系统200使用这些参数164以动态地实时合成Alice的语音,如之前所描述的。
3. 基于图像的匹配方案
图3示出由与针对Amanda 312, Bob 320, Sophia 324和Catherine 330的预定义的发音模型和面部图像相关联的记录的示例表格310表示的基线数据库300。每一个人员的记录包括所存储的面部图像和根据外部可视和不可视(即从人员的嘴部或声道内的外部观察隐藏)的参数划分的预定义的发音模型。例如,Sophia的记录324包括她的图片(Imagey);可视发音参数值(VAPy <jawy, lipPy, lipHy, ...>);以及不可视发音参数值(IAPy <tongueHy,tongueWy, velumy, ...>)。VAP值量化可以从Sophia的面部图片(Imagey)观察到的面部结构:她的下颌和唇面部特征<jawy, lipPy, lipHy, ...>,其中“jaw”意味着下颌角度,“lipP”意味着唇突度,并且“lipH”意味着唇高。IAP值量化不可从图片观察到的声道结构:Sophia的舌头和软腭特性<tongueHy, tongueWy, velumy, ...>,其中“tongueH”意味着舌高,“tongueW”意味着舌宽,并且“velum”意味着软腭长度。在一些实施例中,其它VAP和IAP特性是可能的,并且面部图像和参数可以跨若干数据库而分布。基线数据库300可以存储在用户装备设备(图7)中或远程服务器上。
图4是使用包括面部匹配系统420的面部到话音系统408以从包含面部图像和发音参数的已知元组的数据库300(参见例如图3)获取参数164的示例基于图像的匹配TTS系统400。面部到话音系统408获得表示人员(Alice)的容貌的图像数据,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性。例如,面部到话音系统408可以通过网络连接接收图像文件,或者其可以使用利用图像捕获设备捕获到的本地存储的图像。面部匹配系统420实现使用图像数据和现有伪2D隐马尔科夫模型(PHMM)以用于实现图像中的人员与由数据库300中的图像识别的人员之间的合适面部匹配。基于PHMM的模型的示例由A.V. Nefian和M.H. Hayes III描述在针对1999年声学、语音和信号处理电气与电子工程师国际会议会报的“An Embedded HMM-Based Approach for Face Detection andRecognition”(第6卷,第3553-56页,1999年5月)中。相应地,PHMM可以用于基于图像匹配找到最佳匹配对象。
基于类似面部产生类似话音的观察,来自基线数据库300的最接近的匹配面部的发音参数将用于针对Alice的经合成的话音。例如,Alice可能紧密类似于Sophia,因此图3的第y条目(Sophia)324的VAP和IAP值或仅IAP值可以用作用于Alice的发音模型160。
使用Sophia的VAP和IAP值将产生在Sophia的话音上建模的经合成的语音。在该情况下,Alice的所生成的语音的自然个性中的一些可能有点丢失。因此,在一些实施例中,Sophia的话音的基线频率可以基于最佳匹配(Sophia)与目标人员(在该示例中,Alice)之间的视觉差异而进一步调节。例如,一个这样的调节将使用Sophia的IAP值,以及然后从面部结构输入图像212提取的Alice的VAP值。该技术在稍后的段落中参照图5和6来描述。
4. 基于发音的匹配方案
图5示出由与针对Amanda 512, Bob 520, Sophia 524和Catherine 530的预定义的发音模型相关联的记录的示例表格510表示的基线数据库500。要指出的是,没有基线对象的所存储的数据库图像被包括在数据库500中。
数据库500不具有所建模的人员的图片,因为图6的参数匹配方案依赖于以下事实:存在类似外部可视面部特征与类似话音之间的相关性。因此,从可视面部特征获取的可视发音参数充当用于获取预定义的发音模型的至少部分的直接引用。相应地,图6呈现其中对系统的输入是人员(比方说,Alice)的面部图像、文本输入和<可视发音参数,不可视发音参数>元组的基线数据库的方案。基线数据库500可以存储在用户装备设备(图7)中或远程服务器上。
图6是使用包括可视发音参数提取610和参数匹配系统620以从包含可视和不可视发音参数的已知元组的数据库500(参见例如图5)获取参数164的面部到话音系统608的示例基于图像的匹配TTS系统600。
面部到话音系统608获得表示人员(Alice)的容貌的图像数据,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性。如之前所指出的,该获得可以在用户设备上本地执行,或者其可以包括去往或来自远程服务器的数据传输。
发音参数提取610分析面部结构输入图像212以提取可视参数,其被用作找到使用在语音合成阶段中的最佳匹配的声音频率的钥匙。面部检测和特征提取的示例由Liu Zhi-fang等人描述在针对2003年第五届计算智能和多媒体应用国际会议的会报的“Facedetection and facial feature extraction in color image”中(第27-30页,2003年9月)。Shih等人在针对模式识别和人工智能国际期刊的“Extracting Faces And FacialFeatures From Color Images”(第22卷,第3刊,2008年5月)中描述了图像处理和模式识别技术以从彩色图像提取人类面部和面部特征。
参数匹配系统620然后接收所提取到的参数以用于与存储在数据库500中的那些比较。参数匹配系统620可以使用任何数目的技术来为来自数据库500的可视发音参数的最接近的匹配评分。例如,参数匹配系统620可以使用欧几里德距离、平方和计算器或找到最接近的匹配的另一技术。
在一些实施例中,面部到话音系统608还使用可视发音参数之间的delta以使数据库500的第y个条目(例如Sophia)和目标(Alice)的语音信号之间的差异偏移,并且因而能够生成Alice的语音。例如,发音模型160可以包括从Alice的图片提取到的VAP值和存储在数据库500中的Sophia的IAP值。该方案将包括计及可归因于例如肌肉和脂肪的所提取到的VAP值中的噪声的技术,该噪声可能在发音参数从面部图像的提取期间引入误差。在另一实施例中,Sophia的VAP和IAP值二者可以用于合成Alice的话音的近似。
5. 用于语音合成的示例用户装备设备
图7提供了移动用户装备设备的示例图示,诸如移动站、移动无线设备、移动通信设备、平板电脑、手机或其它类型的移动无线设备。移动设备可以包括配置成与传输站通信的一个或多个天线,所述传输站诸如基站、演进NodeB、基带单元、远程无线电头、远程无线电装备、中继站、无线电装备或其它类型的无线广域网(WWAN)接入点。移动设备可以配置成使用至少一个无线通信标准进行通信,包括3GPP LTE、WiMAX、高速分组接入、蓝牙和WiFi。移动设备可以使用针对每一个无线通信标准的分离天线或针对多个无线通信标准的共享天线进行通信。移动设备可以在无线局域网、无线个人区域网和/或WWAN中通信。
图7还提供了可以用于去往移动设备的音频输入和来自移动设备的音频输出的麦克风和一个或多个扬声器的图示。显示屏可以是液晶显示屏,或者其它类型的显示屏,诸如有机发光二极管显示器。显示屏可以配置为触摸屏。触摸屏可以使用电容、电阻或另一类型的触摸屏技术。应用处理器和图形处理器可以耦合到内部存储器以提供处理和显示能力。非易失性存储器端口还可以用于向用户提供数据输入/输出选项。非易失性存储器端口还可以用于扩展移动设备的存储器能力。键盘可以与移动设备集成或者无线连接到移动设备以提供附加的用户输入。虚拟键盘还可以使用触摸屏来提供。移动设备可以配备有数码相机或其它成像器以用于获取数字图像。
定制于个体的话音的语音合成提供潜在的新应用。例如,“母亲电子阅读器”将通过动态地实时合成母亲的话音来大声朗读电子书。存在可以使用本公开的各方面的众多使用情况和应用,包括用于比如GPS和警报那样的应用的语音合成,以及比如语音疗法那样的治疗应用。以下是用于将来产品或兴趣的一些潜在应用:母亲电子阅读器,其包括使用母亲的预先加载的图像以母亲(或任何特定人员选择)的话音朗读故事的电子阅读器应用;移动设备上的应用的个性化,例如,利用所选择的人员的消息阅读器、GPS;合成具有各种语音残疾的患者的话音(例如不能够说话的人员);或者基于其照片图像合成已故人员的话音,其可以在不存在其话音的记录时使用。
6. 基于服务器的处理
在一些实施例中,面部到话音系统208,408和608的任何部分可以托管在用户装备或远程服务器上。例如,参数提取610可以发生在用户装备设备上或服务器上。数据库300或500的云储存可能引起隐私性和安全性顾虑二者,并且将其存储在目标系统中将使用系统中的空间和本地处理能力二者。
对于基于云的实施例,为了避免错误的数据提交,数据筛选系统用于检查数据完整性。这样的筛选系统的示例将接收已知文本连同图像(或话音合成参数的集合)的话音样本提交。基于提交的参数(或从系统608获取到的那些),将经合成的文本转换成语音样本。该样本然后与所提交的话音样本比较。明显的失配作为无效提交而被拒绝。
7. 示例实施例
示例可以包括主题,诸如方法、用于执行方法的动作的构件、包括指令的至少一个机器可读介质,所述指令在由机器执行时使机器执行方法的动作,或根据本文所描述的实施例和示例的用于基于发音的文本到语音转换的装置或系统。以下示例出于清楚的目的而被枚举。
示例1. 一种用于使用在基于发音的文本到语音转换系统中以建立人员的话音的发音语音合成模型的装置,所述装置包括:获得表示人员的容貌的图像数据的面部结构输入设备,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性;从预定义的模型储存库之中选择预定义的发音语音合成模型的面部特性匹配系统,选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者;以及将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的发音系统。
示例2. 示例1的装置,其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。
示例3. 示例2的装置,其中面部匹配相关性的度量使用隐马尔可夫模型导出。
示例4. 示例1的装置,其中面部结构输入设备配置成通过利用用户装备设备中的成像器捕获图像来获得图像数据。
示例5. 示例1至4中任何一个的装置,其中面部特性匹配系统配置成通过比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些来选择。
示例6. 示例1至4中任何一个的装置,其中面部特性匹配系统配置成通过从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较来选择。
示例7. 示例1至4中任何一个的装置,其中发音系统配置成通过使用所选预定义的发音语音合成模型的模型参数合成语音来关联所选预定义的发音语音合成模型的所述至少部分。
示例8. 一种用于使用在基于发音的文本到语音转换系统中的装置,所述系统配置成建立人员的话音的发音语音合成模型,所述装置包括:用于获得表示人员的容貌的图像数据的构件,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性;用于从预定义的模型储存库之中选择预定义的发音语音合成模型的构件,选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者;以及用于将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的构件。
示例9. 示例8的装置,其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。
示例10. 示例9的装置,其中面部匹配相关性的度量使用隐马尔可夫模型导出。
示例11. 示例8的装置,其中用于选择的构件包括用于比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的构件。
示例12. 示例8至11中任何一个的装置,其中用于获得的构件包括用于利用用户装备设备中的成像器捕获图像的构件。
示例13. 示例8的装置,其中用于选择的构件包括用于从用户装备设备向服务器传送图像数据并且从而发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较的构件。
示例14. 示例8的装置,其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于使用所选预定义的发音语音合成模型的模型参数合成语音的构件。
示例15. 示例8的装置,其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数,并且其中预定义的模型中的每一个包括由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。
示例16. 示例15的装置,其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。
示例17. 示例15的装置,其中选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。
示例18. 示例15的装置,其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用的构件。
示例19. 示例8至11中任何一个的装置,其中用于图像数据的获得的构件包括用于接收通过网络从用户装备设备传送的图像文件的构件。
示例20. 示例8的装置,其中用于所选预定义的发音语音合成模型的所述至少部分的关联的构件包括用于向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数的构件。
示例21. 示例20的装置,还包括用于组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数的构件。
示例22. 示例8的装置,其中预定义的模型的储存库包括数据库,并且所述装置还包括:用于接收预定义的模型的提交的构件,提交包括已知文本输入的话音样本记录;以及用于确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录的构件。
示例23. 示例22的装置,其中预定义的模型的储存库包括数据库,并且所述装置还包括用于响应于经合成的语音输出不够匹配话音样本记录而拒绝提交的构件。
示例24. 一种用于语音到文本转换的方法,包括:向发音模型服务器发送人员的外部面部结构信息;从发音模型服务器接收对应于外部面部结构信息的预定义的发音模型的至少部分;以及至少部分地基于预定义的发音模型将文本输入转换成语音输出。
示例25. 示例24的方法,其中外部面部结构信息包括人员面部的图片或从图片提取的发音参数中的一个或二者。
示例26. 示例25的方法,其中预定义的发音模型的所述部分包括对应于与图片中所示的人员不同的被建模人员的不可视发音参数。
示例27. 示例25的方法,其中预定义的发音模型的所述部分包括对应于与图片中所示出的人员不同的被建模人员的可视发音参数。
示例28. 示例25的方法,其中外部面部结构信息包括人员面部的图片,并且其中所述发送使发音模型服务器从图片提取发音参数。
示例29. 示例25的方法,其中所述发送使发音模型服务器将人员的图片匹配到由预定义的发音模型表示的人员的所存储的图片。
示例30. 示例25的方法,其中所述发送使发音模型服务器将从图片提取的发音参数匹配到预定义的发音模型的那些。
示例31. 一种用于语音到文本转换的方法,包括:从用户装备设备接收人员的外部面部结构信息;基于外部面部结构信息与存储在发音模型的数据库中的外部面部结构信息的比较而确定对应于外部面部结构信息的发音模型的至少部分;以及向用户装备设备发送对应于人员的外部面部结构信息的发音模型的所述至少部分。
示例32. 示例31的方法,其中外部面部结构信息包括人员面部的图片或从图片提取的发音参数中的一个或二者。
示例33. 示例32的方法,其中预定义的发音模型的所述部分包括对应于与图片中所示的人员不同的被建模人员的不可视发音参数。
示例34. 示例32的方法,其中预定义的发音模型的所述部分包括对应于与图片中所示出的人员不同的被建模人员的可视发音参数。
示例35. 示例32的方法,其中外部面部结构信息包括人员面部的图片,并且其中所述接收使发音模型服务器从图片提取发音参数。
示例36. 示例32的方法,其中所述接收使发音模型服务器将人员的图片匹配到由预定义的发音模型表示的人员的所存储的图片。
示例37. 示例32的方法,其中所述接收使发音模型服务器将从图片提取的发音参数匹配到预定义的发音模型的那些。
示例38. 一种用于建立人员的话音的发音语音合成模型的方法,所述方法包括:获得表示人员的容貌的图像数据,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性;从预定义的模型储存库之中选择预定义的发音语音合成模型,所述选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者;以及将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联。
示例39. 示例38的方法,其中所述选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。
示例40. 示例39的方法,其中面部匹配相关性的度量使用隐马尔可夫模型导出。
示例41. 示例38的方法,其中所述获得包括利用用户装备设备中的成像器捕获图像。
示例42. 示例38的方法,其中所述选择包括比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些。
示例43. 示例38的方法,其中所述选择包括从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。
示例44. 示例38的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括使用所选预定义的发音语音合成模型的模型参数合成语音。
示例45. 示例38的方法,其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数和由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。
示例46. 示例45的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。
示例47. 示例45的方法,其中所述选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。
示例48. 示例45的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用。
示例49. 示例38的方法,其中图像数据的获得包括接收通过网络从用户装备设备传送的图像文件。
示例50. 示例49的方法,其中所述选择包括面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。
示例51. 示例38的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数。
示例52. 示例51的方法,还包括组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数。
示例53. 示例48的方法,其中预定义的模型的储存库包括数据库,并且该方法还包括:接收预定义的模型的提交,提交包括已知文本输入的话音样本记录;以及确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录。
示例54. 示例53的方法,其中预定义的模型的储存库包括数据库,并且该方法还包括响应于经合成的语音输出不够匹配话音样本记录而拒绝提交。
示例55. 至少一个计算机可读存储介质,具有存储在其上的指令,所述指令当在设备上运行时执行示例24至54中任何一个的方法。
以上描述提供众多具体细节以得到本文所描述的实施例的透彻理解。然而,本领域技术人员将认识到,可以省略具体细节中的一个或多个,或者可以使用其它方法、组件或材料。在一些情况下,未示出或详细描述公知的特征、结构或操作。
另外,所描述的特征、操作或特性可以以多种多样的不同配置来布置和设计和/或以任何合适的方式组合在一个或多个实施例中。因此,系统和方法的实施例的详细描述不意图限制如所要求保护的本公开的范围,而是仅仅表示本公开的可能实施例。此外,还将容易理解到的是,结合所公开的实施例描述的方法的步骤或动作的次序可以改变,如对本领域技术人员将是明显的那样。因此,附图或具体实施方式中的任何次序仅出于说明目的,并且不意指暗示所要求的次序,除非被指定成要求次序。
实施例可以包括各种步骤,其可以体现在机器可执行指令中以由通用或专用计算机(或其它电子设备)运行。可替换地,步骤可以通过包括用于执行步骤的特定逻辑的硬件组件或通过硬件、软件和/或固件的组合来执行。
实施例还可以提供为包括具有存储在其上的指令的计算机可读存储介质的计算机程序产品,所述指令可以用于对计算机(或其它电子设备)编程以执行本文所描述的过程。计算机可读存储介质可以包括但不限于:硬盘、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁卡或光卡、固态存储器设备或适合于存储电子指令的其它类型的介质/机器可读介质。
如本文所使用的,软件模块或组件可以包括位于存储器设备和/或计算机可读存储介质内的任何类型的计算机指令或计算机可执行代码。软件模块可以例如包括计算机指令的一个或多个物理或逻辑块,其可以被组织为例程、程序、对象、组件、数据结构等,其执行一个或多个任务或实现特定抽象数据类型。
在某些实施例中,特定软件模块可以包括存储在存储器设备的不同位置中的不同指令,其一起实现模块的所描述的功能。实际上,模块可以包括单个指令或许多指令,并且可以在若干不同的代码段之上、在不同程序之中和跨若干存储器设备分布。一些实施例可以在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,软件模块可以位于本地和/或远程存储器存储设备中。此外,在数据库记录中连结或一起再现的数据可以驻留在相同的存储器设备中或跨若干存储器设备,并且可以跨网络在数据库中的记录字段中链接在一起。
技术人员将理解到,可以在不脱离本发明的根本原理的情况下可以对以上描述的实施例的细节做出许多改变。因此,本发明的范围应当仅由随附权利要求确定。
Claims (25)
1.一种用于使用在基于发音的文本到语音转换系统中以建立人员的话音的发音语音合成模型的装置,所述装置包括:
获得表示人员的容貌的图像数据的面部结构输入设备,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性;
从预定义的模型储存库之中选择预定义的发音语音合成模型的面部特性匹配系统,选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者;以及
将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联的发音系统。
2.权利要求1的装置,其中选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。
3.权利要求2的装置,其中面部匹配相关性的度量使用隐马尔可夫模型导出。
4.权利要求1的装置,其中面部结构输入设备配置成通过利用用户装备设备中的成像器捕获图像来获得图像数据。
5.权利要求1至4中任何一个的装置,其中面部特性匹配系统配置成通过比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些来选择。
6.权利要求1至4中任何一个的装置,其中面部特性匹配系统配置成通过从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较来选择。
7.权利要求1至4中任何一个的装置,其中发音系统配置成通过使用所选预定义的发音语音合成模型的模型参数合成语音来关联所选预定义的发音语音合成模型的所述至少部分。
8.一种用于建立人员的话音的发音语音合成模型的方法,所述方法包括:
获得表示人员的容貌的图像数据,其中容貌包括定义人员的话音的外部可视发音语音合成模型参数的面部特性;
从预定义的模型储存库之中选择预定义的发音语音合成模型,选择至少部分地基于面部特性或外部可视发音语音合成模型参数中的一个或二者;以及
将所选预定义的发音语音合成模型的至少部分与人员的话音的发音语音合成模型相关联。
9.权利要求8的方法,其中所述选择是基于人员的容貌的面部特性与定义预定义的模型的可视发音语音合成模型参数的面部特性之间的面部匹配相关性的度量。
10.权利要求9的方法,其中面部匹配相关性的度量使用隐马尔可夫模型导出。
11.权利要求8的方法,其中所述获得包括利用用户装备设备中的成像器捕获图像。
12.权利要求8的方法,其中选择包括比较面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些。
13.权利要求8的方法,其中选择包括从用户装备设备向服务器传送图像数据以用于发起面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。
14.权利要求8的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括使用所选预定义的发音语音合成模型的模型参数合成语音。
15.权利要求8的方法,其中预定义的模型中的每一个包括由对应建模的话音的面部特性定义的外部可视发音语音合成模型参数和由对应建模的话音的内部声道特性定义的内部隐藏的发音语音合成模型参数。
16.权利要求15的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括基于人员的话音的外部可视发音语音合成模型参数和基于所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数来合成语音。
17.权利要求15的方法,其中所述选择是基于人员的话音的外部可视发音语音合成模型参数与所选预定义的发音语音合成模型的外部可视发音语音合成模型参数之间的相关性的度量。
18.权利要求15的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数以用于结合人员的话音的外部可视发音语音合成模型参数来使用。
19.权利要求8的方法,其中图像数据的获得包括接收通过网络从用户装备设备传送的图像文件。
20.权利要求19的方法,其中所述选择包括面部特性或外部可视发音语音合成模型参数中的所述一个或二者与预定义的模型的那些的比较。
21.权利要求8的方法,其中所选预定义的发音语音合成模型的所述至少部分的关联包括向用户装备设备传送所选预定义的发音语音合成模型的内部隐藏的发音语音合成模型参数。
22.权利要求21的方法,还包括组合人员的话音的外部可视发音语音合成模型参数与内部隐藏的发音语音合成模型参数。
23.权利要求18的方法,其中预定义的模型的储存库包括数据库,并且该方法还包括:
接收预定义的模型的提交,提交包括已知文本输入的话音样本记录;以及
确定使用预定义的模型产生的经合成的语音输出是否匹配话音样本记录。
24.权利要求23的方法,其中预定义的模型的储存库包括数据库,并且该方法还包括响应于经合成的语音输出不够匹配话音样本记录而拒绝提交。
25.至少一个计算机可读存储介质,具有存储在其上的指令,所述指令当在设备上运行时执行权利要求8至24中任何一个的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/496,832 US9607609B2 (en) | 2014-09-25 | 2014-09-25 | Method and apparatus to synthesize voice based on facial structures |
US14/496832 | 2014-09-25 | ||
PCT/US2015/047465 WO2016048579A1 (en) | 2014-09-25 | 2015-08-28 | Method and apparatus to synthesize voice based on facial structures |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106575500A true CN106575500A (zh) | 2017-04-19 |
CN106575500B CN106575500B (zh) | 2021-06-01 |
Family
ID=55581779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580045327.3A Active CN106575500B (zh) | 2014-09-25 | 2015-08-28 | 基于面部结构合成话音的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (3) | US9607609B2 (zh) |
EP (1) | EP3198589B1 (zh) |
JP (1) | JP6336676B2 (zh) |
KR (1) | KR102361389B1 (zh) |
CN (1) | CN106575500B (zh) |
WO (1) | WO2016048579A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558853A (zh) * | 2018-12-05 | 2019-04-02 | 维沃移动通信有限公司 | 一种音频合成方法及终端设备 |
CN111787986A (zh) * | 2018-02-28 | 2020-10-16 | 苹果公司 | 基于面部表情的语音效果 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10102189B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US9910836B2 (en) * | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
CN107734416B (zh) * | 2017-10-11 | 2024-01-09 | 深圳市三诺数字科技有限公司 | 一种激光面纹识别降噪装置、耳机及方法 |
EP3693957A4 (en) * | 2018-10-29 | 2021-06-02 | KAINUMA, Ken-ichi | VOICE PROCESSING DEVICE AND PROGRAM |
US11289067B2 (en) * | 2019-06-25 | 2022-03-29 | International Business Machines Corporation | Voice generation based on characteristics of an avatar |
JP7356005B2 (ja) * | 2019-09-06 | 2023-10-04 | 日本電信電話株式会社 | 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN110600000B (zh) * | 2019-09-29 | 2022-04-15 | 阿波罗智联(北京)科技有限公司 | 语音播报方法、装置、电子设备及存储介质 |
JP7339151B2 (ja) | 2019-12-23 | 2023-09-05 | 株式会社 ディー・エヌ・エー | 音声合成装置、音声合成プログラム及び音声合成方法 |
US11341953B2 (en) * | 2020-09-21 | 2022-05-24 | Amazon Technologies, Inc. | Synthetic speech processing |
KR20240042461A (ko) * | 2021-08-04 | 2024-04-02 | 큐(큐) 리미티드 | 무음 음성 검지 |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001337688A (ja) * | 2000-05-26 | 2001-12-07 | Canon Inc | 音声合成装置及び音声合成方法並びに記憶媒体 |
CN1391209A (zh) * | 2001-06-11 | 2003-01-15 | 株式会社日立制作所 | 话音合成方法以及执行此方法的话音合成器 |
CN1838237A (zh) * | 2000-09-13 | 2006-09-27 | 株式会社A·G·I | 情绪探测方法及其系统 |
CN101098507A (zh) * | 2007-06-29 | 2008-01-02 | 中兴通讯股份有限公司 | 一种提供语音合成应用统一开发平台的系统和方法 |
CN101236743A (zh) * | 2007-01-30 | 2008-08-06 | 国际商业机器公司 | 生成高质量话音的系统和方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101471071A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
CN101622659A (zh) * | 2007-06-06 | 2010-01-06 | 松下电器产业株式会社 | 音质编辑装置及音质编辑方法 |
US20100211397A1 (en) * | 2009-02-18 | 2010-08-19 | Park Chi-Youn | Facial expression representation apparatus |
CN101916566A (zh) * | 2010-07-09 | 2010-12-15 | 西安交通大学 | 一种电子喉语音重建方法及其系统 |
CN102483928A (zh) * | 2009-09-04 | 2012-05-30 | 株式会社尼康 | 声音数据合成装置 |
US20120259630A1 (en) * | 2011-04-11 | 2012-10-11 | Samsung Electronics Co., Ltd. | Display apparatus and voice conversion method thereof |
CN102820030A (zh) * | 2012-07-27 | 2012-12-12 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
CN103310784A (zh) * | 2012-03-14 | 2013-09-18 | 株式会社东芝 | 文本到语音的方法和系统 |
US20140067397A1 (en) * | 2012-08-29 | 2014-03-06 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
CN103650002A (zh) * | 2011-05-06 | 2014-03-19 | 西尔股份有限公司 | 基于文本的视频生成 |
WO2014083738A1 (ja) * | 2012-11-27 | 2014-06-05 | 株式会社デンソー | テキスト読み上げ装置およびその方法 |
US20140267642A1 (en) * | 2013-03-15 | 2014-09-18 | Orcam Technologies Ltd. | Systems and methods for audible facial recognition |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE519244C2 (sv) * | 1995-12-06 | 2003-02-04 | Telia Ab | Anordning och metod vid talsyntes |
SE519679C2 (sv) * | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
CA2323421C (en) | 1998-03-11 | 2008-09-23 | Entropic, Inc. | Face synthesis system and methodology |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
JP2002156989A (ja) * | 2000-11-22 | 2002-05-31 | Minolta Co Ltd | 音声合成方法および音声合成システム |
GB0212147D0 (en) | 2002-05-27 | 2002-07-03 | King S College London | Speech processing apparatus and method |
JP2004125843A (ja) * | 2002-09-30 | 2004-04-22 | Sanyo Electric Co Ltd | 音声合成方法 |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
JP2005305007A (ja) * | 2004-04-26 | 2005-11-04 | Nintendo Co Ltd | キャラクタ再生装置およびキャラクタ再生プログラム |
JP4526934B2 (ja) * | 2004-11-24 | 2010-08-18 | 日本電信電話株式会社 | 調音運動の正規化を用いた音声合成方法および装置 |
JP2010094799A (ja) * | 2008-10-17 | 2010-04-30 | Littleisland Inc | 人型ロボット |
US8884982B2 (en) * | 2009-12-15 | 2014-11-11 | Deutsche Telekom Ag | Method and apparatus for identifying speakers and emphasizing selected objects in picture and video messages |
US20140278418A1 (en) | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Speaker-identification-assisted downlink speech processing systems and methods |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US10540975B2 (en) * | 2016-03-25 | 2020-01-21 | Intel Corporation | Technologies for automatic speech recognition using articulatory parameters |
-
2014
- 2014-09-25 US US14/496,832 patent/US9607609B2/en active Active
-
2015
- 2015-08-28 CN CN201580045327.3A patent/CN106575500B/zh active Active
- 2015-08-28 KR KR1020177004640A patent/KR102361389B1/ko active IP Right Grant
- 2015-08-28 WO PCT/US2015/047465 patent/WO2016048579A1/en active Application Filing
- 2015-08-28 JP JP2017510490A patent/JP6336676B2/ja active Active
- 2015-08-28 EP EP15843816.8A patent/EP3198589B1/en active Active
-
2017
- 2017-02-23 US US15/440,371 patent/US10056073B2/en active Active
-
2018
- 2018-07-18 US US16/039,053 patent/US10621968B2/en active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001337688A (ja) * | 2000-05-26 | 2001-12-07 | Canon Inc | 音声合成装置及び音声合成方法並びに記憶媒体 |
CN1838237A (zh) * | 2000-09-13 | 2006-09-27 | 株式会社A·G·I | 情绪探测方法及其系统 |
CN1391209A (zh) * | 2001-06-11 | 2003-01-15 | 株式会社日立制作所 | 话音合成方法以及执行此方法的话音合成器 |
CN101236743A (zh) * | 2007-01-30 | 2008-08-06 | 国际商业机器公司 | 生成高质量话音的系统和方法 |
CN101236743B (zh) * | 2007-01-30 | 2011-07-06 | 纽昂斯通讯公司 | 生成高质量话音的系统和方法 |
CN101622659A (zh) * | 2007-06-06 | 2010-01-06 | 松下电器产业株式会社 | 音质编辑装置及音质编辑方法 |
CN101098507A (zh) * | 2007-06-29 | 2008-01-02 | 中兴通讯股份有限公司 | 一种提供语音合成应用统一开发平台的系统和方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101471071A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US20100211397A1 (en) * | 2009-02-18 | 2010-08-19 | Park Chi-Youn | Facial expression representation apparatus |
CN102483928A (zh) * | 2009-09-04 | 2012-05-30 | 株式会社尼康 | 声音数据合成装置 |
CN101916566A (zh) * | 2010-07-09 | 2010-12-15 | 西安交通大学 | 一种电子喉语音重建方法及其系统 |
US20120259630A1 (en) * | 2011-04-11 | 2012-10-11 | Samsung Electronics Co., Ltd. | Display apparatus and voice conversion method thereof |
CN103650002A (zh) * | 2011-05-06 | 2014-03-19 | 西尔股份有限公司 | 基于文本的视频生成 |
CN103310784A (zh) * | 2012-03-14 | 2013-09-18 | 株式会社东芝 | 文本到语音的方法和系统 |
CN102820030A (zh) * | 2012-07-27 | 2012-12-12 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
US20140067397A1 (en) * | 2012-08-29 | 2014-03-06 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
WO2014083738A1 (ja) * | 2012-11-27 | 2014-06-05 | 株式会社デンソー | テキスト読み上げ装置およびその方法 |
US20140267642A1 (en) * | 2013-03-15 | 2014-09-18 | Orcam Technologies Ltd. | Systems and methods for audible facial recognition |
Non-Patent Citations (3)
Title |
---|
ATHANASSIOS KATSAMANIS ET AL: "Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation", 《 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
ÉVA SZÉKELY ET AL: "WinkTalk: a demonstration of a multimodal speech synthesis platform linking facial expressions to expressions synthetic voices", 《NAACL-HLT 2012 WORKSHOP ON SPEECH AND LANGUAGE PROCESSING FOR ASSISTIVE TECHNOLOGIES》 * |
王志明等: "文本-视觉语音合成综述", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111787986A (zh) * | 2018-02-28 | 2020-10-16 | 苹果公司 | 基于面部表情的语音效果 |
CN109558853A (zh) * | 2018-12-05 | 2019-04-02 | 维沃移动通信有限公司 | 一种音频合成方法及终端设备 |
CN109558853B (zh) * | 2018-12-05 | 2021-05-25 | 维沃移动通信有限公司 | 一种音频合成方法及终端设备 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2016048579A1 (en) | 2016-03-31 |
EP3198589A1 (en) | 2017-08-02 |
US10056073B2 (en) | 2018-08-21 |
JP6336676B2 (ja) | 2018-06-06 |
US9607609B2 (en) | 2017-03-28 |
EP3198589B1 (en) | 2020-02-05 |
EP3198589A4 (en) | 2018-08-22 |
US20170287464A1 (en) | 2017-10-05 |
KR20170034409A (ko) | 2017-03-28 |
US20160093284A1 (en) | 2016-03-31 |
JP2017530393A (ja) | 2017-10-12 |
US20180322862A1 (en) | 2018-11-08 |
CN106575500B (zh) | 2021-06-01 |
KR102361389B1 (ko) | 2022-02-10 |
US10621968B2 (en) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106575500A (zh) | 基于面部结构合成话音的方法和装置 | |
CN108447486A (zh) | 一种语音翻译方法及装置 | |
KR102115551B1 (ko) | 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치 | |
CN106560891A (zh) | 使用声学建模的语音识别设备和方法 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN105390141A (zh) | 声音转换方法和装置 | |
CN110491393A (zh) | 声纹表征模型的训练方法及相关装置 | |
CN110348409A (zh) | 一种基于声纹生成人脸图像的方法和装置 | |
CN111192659A (zh) | 用于抑郁检测的预训练方法和抑郁检测方法及装置 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
KR20140071070A (ko) | 음소기호를 이용한 외국어 발음 학습방법 및 학습장치 | |
Lee et al. | Smartphone-assisted pronunciation learning technique for ambient intelligence | |
Podder et al. | Design of a sign language transformer to enable the participation of persons with disabilities in remote healthcare systems for ensuring universal healthcare coverage | |
KR102222035B1 (ko) | 유아용 문자 교육 방법, 단말 및 프로그램 | |
KR102395702B1 (ko) | 문장을 이루는 단위를 단계별 확장하여 스텝화한 영어 교육 서비스 제공 방법 | |
CN108346424A (zh) | 语音合成方法和装置、用于语音合成的装置 | |
KR20200084414A (ko) | 음성 몽타주 생성 방법 및 시스템 | |
CN108665898A (zh) | 一种将手势转换为汉藏双语语音的方法 | |
KR20200002105A (ko) | 유아용 문자 교육 방법, 단말 및 프로그램 | |
Udbhasa et al. | Interactive, Visual-Learning based Tool for Hearing Impaired Children to Improve Language and Cognitive Skills | |
CN111179902B (zh) | 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 | |
CN109102810A (zh) | 声纹识别方法和装置 | |
US20230290371A1 (en) | System and method for automatically generating a sign language video with an input speech using a machine learning model | |
Orynbay et al. | Recent Advances in Synthesis and Interaction of Speech, Text, and Vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |