CN111566655A

CN111566655A - 多种语言文本语音合成方法

Info

Publication number: CN111566655A
Application number: CN201980007944.2A
Authority: CN
Inventors: 金泰洙; 李泳槿
Original assignee: Xinzhi Co ltd
Current assignee: Xinzhi Co ltd
Priority date: 2018-01-11
Filing date: 2019-01-11
Publication date: 2020-08-21
Anticipated expiration: 2039-01-11
Also published as: KR20200143659A; JP2021511536A; US11810548B2; EP3739477A1; JP7178028B2; KR20200144521A; US20200342852A1; EP3739477A4; US20200082806A1; US11217224B2; JP7500020B2; EP3739476A1; EP3739476A4; US11769483B2; KR102265972B1; JP7445267B2; US20240013771A1; CN111566656A; JP2022169714A; JP2021511534A

Abstract

本公开涉及多种语言(multilingual)文本语音合成(text‑to‑speech synthesis)方法及系统。多种语言文本语音合成方法包括：接收第一学习数据的步骤，上述第一学习数据包含第一语言的学习文本及与第一语言的学习文本相对应的第一语言的学习语音数据；接收第二学习数据的步骤，上述第二学习数据包含第二语言的学习文本及与上述第二语言的学习文本相对应的第二语言的学习语音数据；以及基于第一学习数据及第二学习数据学习第一语言的音素与第二语言的音素之间的相似信息来生成单一人工神经网络文本语音合成模型的步骤。

Description

多种语言文本语音合成方法

技术领域

本公开涉及多种语言文本语音合成方法及系统。并且，涉及基于使用第一语言的说话人员的声音特征来将第二语言的文本合成为相应说话人员的语音的方法及装置。

背景技术

通常，被称作文本语音合成(TTS，Text-To-Speech)的语音合成技术为在需要人的语音的应用程序中在未事先录音人的真实语音的情况下使所需语音再生的技术，例如广播通知、卫星导航仪、人工智能秘书等。语音合成的典型方法有连接合成方式(concatenativeTTS)和参数合成方式(parametric TTS)，在连接合成方式中，以音素等非常短的单位预先裁剪并存储语音来通过使构成所要合成的文章的多个音素相结合并合成为语音，在参数合成方式(parametric TTS)中，以参数表示语音的特征并利用声码器(vocoder)来将表示构成所要合成的文章的多个语音特征的多个参数合成为与文章相对应的语音。

另一方面，近来正在积极研究基于人工神经网络(artificial neural network)的语音合成方法，根据该语音合成方法合成的语音呈现出比现有的方法更自然的语音特征。但是，通过基于人工神经网络的语音合成方法呈现新的声音的语音合成器将需要与该声音相对应的很多数据，需使利用该数据的神经网络模型重新进行学习，因而使用人员的便利性将下降。

发明内容

要解决的技术问题

本公开的方法及装置可仅通过与多种语言有关的输入文本(text input)和输出语音(audio output)就能以端到端(end-to-end)方式生成多种语言文本语音合成机器学习模型。并且，本公开的方法及装置能够以反映出说话人员的发声特征、感情特征、韵律特征的方式由文本合成出语音。

技术方案

本公开一实施例的多种语言文本语音合成方法包括：接收第一学习数据的步骤，上述第一学习数据包含第一语言的学习文本及与第一语言的学习文本相对应的第一语言的学习语音数据；接收第二学习数据的步骤，上述第二学习数据包含第二语言的学习文本及与第二语言的学习文本相对应的第二语言的学习语音数据；以及基于第一学习数据及第二学习数据学习第一语言的音素与第二语言的音素之间的相似信息来生成单一人工神经网络文本语音合成模型的步骤。

本公开一实施例的多种语言文本语音合成方法还包括：接收与第一语言有关的说话人员的发声特征的步骤；接收第二语言的输入文本的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本及与第一语言有关的说话人员的发声特征来生成模仿说话人员的语音的与第二语言的输入文本有关的输出语音数据的步骤。

在本公开一实施例的多种语言文本语音合成方法中，与第一语言有关的说话人员的发声特征通过从说话人员以第一语言发声的语音数据提取特征向量来生成。

本公开一实施例的多种语言文本语音合成方法还包括：接收感情特征(emotionfeature)的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本、与第一语言有关的说话人员的发声特征及感情特征来生成模仿说话人员的语音的与第二语言的输入文本有关的输出语音数据的步骤。

本公开一实施例的多种语言文本语音合成方法还包括：接收韵律特征(prosodyfeature)的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本、与第一语言有关的说话人员的发声特征及韵律特征来生成模仿说话人员的语音的与第二语言的输入文本有关的输出语音数据的步骤。

在本公开一实施例的多种语言文本语音合成方法中，韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息中的至少一个。

本公开一实施例的多种语言文本语音合成方法还包括：接收第一语言的输入语音的步骤；通过从第一语言的输入语音提取特征向量来生成与第一语言有关的说话人员的发声特征的步骤；将第一语言的输入语音转换成第一语言的输入文本的步骤；将第一语言的输入文本转换成第二语言的输入文本的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本及与第一语言有关的说话人员的发声特征来生成模仿说话人员的语音的与第二语言的输入文本有关的第二语言的输出语音数据的步骤。

在本公开一实施例的多种语言文本语音合成方法中，使用字音转换(G2P，Grapheme-to-phoneme)算法将第一语言的学习文本及第二语言的学习文本转换成音素序列(phoneme sequence)。

在本公开一实施例的多种语言文本语音合成方法中，单一人工神经网络文本语音合成模型以不输入与第一语言的音素与第二语言的音素之间的发音及标记中的至少一个有关的相似信息的方式生成。

并且，用于实现如上所述的多种语言文本语音合成方法的程序可记录在计算机可读记录介质。

附图说明

图1为示出利用已对多种语言进行学习的单一人工神经网络文本语音合成模型来使得语音合成器合成英语语音的情况的图。

图2为示出利用已对多种语言进行学习的单一人工神经网络文本语音合成模型来使得语音合成器合成韩语语音的情况的图。

图3为示出生成本公开一实施例的单一人工神经网络文本语音合成模型的方法的流程图。

图4为示出本公开一实施例的机器学习部的图。

图5为示出本公开一实施例的语音合成器基于与第一语言有关的说话人员的发声特征以及第二语言的输入文本来合成输出语音数据的情况的图。

图6为示出本公开一实施例的语音合成器基于与第一语言有关的说话人员的发声特征、第二语言的输入文本以及感情特征来生成输出语音数据的情况的图。

图7为示出本公开一实施例的语音合成器基于与第一语言有关的说话人员的发声特征、第二语言的输入文本以及韵律特征(prosody feature)来生成输出语音数据的情况的图。

图8为示出本公开一实施例的语音翻译系统的结构的图。

图9为示出本公开一实施例的韵律翻译器的结构的图。

图10为示出本公开一实施例的多种语言文本语音合成器的结构的图。

图11示出国际音标(IPA，International Phonetic Alphabet)与韩语字音转换(KoG2P)音素之间的对应关系以及具有英语和韩语的共同发音的音素对应关系。

图12示出表示与韩语音素最相似的英语音素的表。

图13为示出由英语音素生成的语音与由韩语音素生成的语音之间的相似性的频谱图。

图14为示出在学习文本语音机器学习模型的过程中所使用的英语数据的基于时间变化的字错误率(character error rate，CER)的表。

图15为本公开一实施例的文本语音合成系统的框图。

具体实施方式

参照附图和一同说明的多个实施例，将明确所公开的实施例的优点、特征以及实现这些优点及特征的方法。但是，本公开并不限定于以下公开的多个实施例，能够以不同的多种实施方式来实现本发明，本实施例仅用于使本公开变得完整并使本公开所属技术领域的普通技术人员更加完整地理解本发明的范围。

简单说明在本说明书中使用的术语，将对所公开的实施例进行具体说明。

在本说明书中使用的术语在考虑本公开中的功能的情况下尽可能选择当前广泛使用的普通术语，这可根据从事相关领域的技术人员的意图、惯例以及新技术的出现等而不同。并且，在特定情况下，还有申请人任意选定的术语，在此情况下，将在相应的本发明的说明部分详细记载其含义。因此，在本公开中使用的术语应根据该术语所具有的含义和本公开的全文内容来定义，而不是单纯的术语的名称。

只要未在文脉上特别指定成单数，则本说明书中的单数的表达包括复数的表达。并且，只要未在文脉上明确特定为复数，则复数的表达包括单数的表达。

在说明书全文中，当表示某个部分“包括”某个结构要素时，只要没有特别相反的记述，则这意味着可包括其他结构要素，而不是排除其他结构要素。

并且，说明书中使用的术语“～部”表示软件结构要素或硬件结构要素，“～部”将起到某种作用。但是，“～部”并不限定于软件或硬件。“～部”能够以形成于可编址的存储介质的方式构成，可使一个或一个以上的多个处理程序再生。因此，作为一例，“～部”包括多个软件结构要素、多个对象软件结构要素、多个类结构要素以及多个任务结构要素等的多个结构要素以及多个程序、多个函数、多个属性、多个步骤、多个子程序、程序代码的多个段、多个驱动器、固件、微代码、电路、数据、数据库、多个数据结构、多个表、多个阵列、多个变数。在多个结构要素和多个“～部”中提供的功能可由数量更少的多个结构要素及“～部”相结合而成，或可分离成追加的多个结构要素和多个“～部”。

根据本公开的一实施例，可由处理器及存储器构成“～部”。术语“处理器”应以包括通用处理器、中央处理器(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等的方式进行广义解释。在某些环境中，“处理器”还可指专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编辑门阵列(FPGA)等。术语“处理器”还可指多个处理设备的组合，例如，数字信号处理器与微处理器的组合、多个微处理器的组合、与数字信号处理器芯片相结合的一个以上的微处理器的组合、任意的其他这些结构的组合。

术语“存储器”应以包括可存储电子信息的任意电子组件的方式进行广义解释。术语存储器可指随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机访问存储器(NVRAM)、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、带电可擦可编程只读存储器(EEPROM)、闪存、磁或光学数据存储装置、记录器等的处理器-可读介质的多种类型。若处理器可从存储器读取信息或可在存储器记录信息，则存储器将被视为处于与处理器之间的电子通信状态。集成在处理器的存储器将处于与处理器之间的电子通信状态。

在本公开中，“第一语言”可指韩语、日语、汉语、英语等多个国家和民族所使用的多种语言中的一种，“第二语言”可指与第一语言不同的其他国家或民族所使用的语言中的一种。

以下，参照附图，以可使本公开所属技术领域的普通技术人员轻松实施本公开的方式详细说明实施例。而且，为了明确说明本公开，在附图中省略了与说明无关的部分。

图1为示出利用已对多种语言进行学习的单一人工神经网络文本语音合成模型来使得语音合成器110合成英语语音的情况的图。在所示的实施例中，单一人工神经网络文本语音合成模型可以为对韩语和英语数据都进行学习的。语音合成器110可接收英语文本和韩国说话人员的发声特征。例如，英语文本可以为“Hello？”，韩国说话人员的发声特征可以为从韩国说话人员用韩语发声的语音数据提取的特征向量。

语音合成器110通过向单一人工神经网络文本语音合成模型输入所接收的英语文本和韩国说话人员的发声特征来模仿相应韩国说话人员的语音并在合成用英语说“Hello？”的语音后输出。即，语音合成器110输出的语音可以为相应韩国说话人员用英语发出“Hello？”的语音。

图2为示出利用已对多种语言进行学习的单一人工神经网络文本语音合成模型来使得语音合成器210合成韩语语音的情况的图。在所示的例中，单一人工神经网络文本语音合成模型可以为对韩语和英语数据都进行学习的。语音合成器210可接收韩语文本和美国说话人员的发声特征。例如，韩语文本可以为“你好？(

？)”，美国说话人员的发声特征可以为从美国说话人员用英语发声的语音数据提取的特征向量。

语音合成器210通过向单一人工神经网络文本语音合成模型输入所接收的韩语文本和美国说话人员的发声特征来模仿相应美国说话人员的语音并在合成用韩语说“你好？”的语音后输出。即，语音合成器210输出的语音可以为相应美国说话人员用韩语发出“你好？”的语音。

图3为示出生成本公开一实施例的单一人工神经网络文本语音合成模型的方法的流程图。多种语言文本语音合成系统可执行接收第一学习数据的步骤(步骤310)，上述第一学习数据包含第一语言的学习文本及与第一语言的学习文本相对应的第一语言的学习语音数据。多种语言文本语音合成系统可执行接收第二学习数据的步骤(步骤320)，上述第二学习数据包含第二语言的学习文本及与第二语言的学习文本相对应的第二语言的学习语音数据。

多种语言文本语音合成系统可执行基于第一学习数据及第二学习数据学习第一语言的音素与第二语言的音素之间的相似信息来生成单一人工神经网络文本语音合成模型的步骤(步骤330)。将参照图4详细说明单一人工神经网络文本语音合成模型生成方法。

图4为示出本公开一实施例的机器学习部420的图。机器学习部420可与图15中的数据学习部1510相对应。机器学习部420可接收多个第一语言的学习数据对411。第一语言的学习数据对411可包含第一语言的学习文本及与相应第一语言的学习文本相对应的第一语言的学习语音数据。

第一语言的学习文本可包含至少一个字，机器学习部420可通过使用字音转换算法来转换成音素序列。第一语言的学习语音数据可以为对人读第一语言的学习文本的语音进行录音的数据、从录音数据提取的声音特性(sound feature)或频谱图(spectrogram)等。第一学习数据可不包含与第一语言有关的语言标识符或语言信息。

机器学习部420可接收多个第二语言的学习数据对412。第二语言的学习数据对412可包含第二语言的学习文本及与相应第二语言的学习文本相对应的第二语言的学习语音数据。第一语言和第二语言可以为不同的语言。

第二语言的学习文本可包含至少一个字，机器学习部420可通过使用字音转换算法来转换成音素序列。第二语言的学习语音数据可以为对人读第二语言的学习文本的语音进行录音的数据、从录音数据提取的声音特性或频谱图等。第二学习数据可不包含与第二语言有关的语言标识符或语言信息。

机器学习部420可基于所接收的多个第一语言的学习数据对411及多个第二语言的学习数据对412执行机器学习来生成单一人工神经网络文本语音合成模型430。在一实施例中，机器学习部420可在没有与第一语言及第二语言有关的预先信息的情况下学习第一语言的音素与第二语言的音素之间的相似信息来生成单一人工神经网络文本语音合成模型430。例如，机器学习部420不接收与第一语言有关的语言标识符、与第二语言有关的语言标识符、与第一语言的音素与第二语言的音素之间的发音有关的相似信息、与第一语言的音素与第二语言的音素之间的标记有关的相似信息，基于多个第一语言的学习数据对411及多个第二语言的学习数据对412来学习第一语言的音素与第二语言的音素之间的相似信息，从而生成单一人工神经网络文本语音合成模型。

其中，语言标识符可以为表示韩语、日语、汉语、英语等多个国家或民族使用的多种语言中的一个的标识符。并且，与发音有关的相似信息可以为使得语言之间具有相似的发音的音素对应起来的信息，与标记相对应的相似信息可以为使得具有语言间相似标记的音素对应起来的信息。将参照图11及图12详细说明相似信息。

以往，各种语言具有不同的发音及标记，通过按各个语言准备学习数据来生成各个语言的机器学习模型或预先准备进行学习的多种语言之间的相似信息并将其和学习数据都输入进去，从容生成了单一机器学习模型。根据本公开的一实施例，可在没有进行学习的多种语言之间的相似信息的情况下以一个机器学习模型体现多语言(Multi-language)文本语音合成模型。图4示出了对于两种语言接收学习数据来生成单一人工神经网络文本语音合成模型的情况，但并不限定于此，也可对三种以上的语言接收学习数据来生成对于与三种以上的语言有关的单一人工神经网络文本语音合成模型。

在一实施例中，可利用通过机器学习部420生成的单一人工神经网络文本语音合成模型430来将文本合成为语音并输出。将参照图5至图7更详细地说明利用单一人工神经网络文本语音合成模型430来将文本合成为语音并输出的方法。

图5为示出本公开一实施例的语音合成器520基于与第一语言有关的说话人员的发声特征511以及第二语言的输入文本512来合成输出语音数据530的情况的图。语音合成器520可与图15中的数据识别部1520相对应。语音合成器520可通过接收由图4中的机器学习部420生成的单一人工神经网络文本语音合成模型来用于合成输出语音数据。如图所示，语音合成器520可接收与第一语言有关的说话人员的发声特征511以及第二语言的输入文本512。

与第一语言有关的说话人员的发声特征511可通过从说话人员以第一语言发声的语音数据提取特征向量来生成。例如，说话人员的发声特征可包含说话人员的音色或音高等。第二语言的输入文本512可包含以第二语言形成的至少一个字。

语音合成器520可通过向单一人工神经网络文本语音合成模型输入与第一语言有关的说话人员的发声特征511及第二语言的输入文本512来生成输出语音数据530。输出语音数据530可以为将第二语言的输入文本512合成为语音的语音数据，可反映与第一语言有关的说话人员的发声特征511。即，输出语音数据530可以为基于与第一语言有关的说话人员的发声特征511来模仿相应说话人员的语音并合成为相应说话人员说出第二语言的输入文本512的语音的数据。在一实施例中，输出语音数据530可通过扬声器等输出。

图6为示出本公开一实施例的语音合成器620基于与第一语言有关的说话人员的发声特征611、第二语言的输入文本612以及感情特征613来生成输出语音数据630的情况的图。语音合成器620可与图15中的数据识别部1520相对应。语音合成器620可通过接收由图4中的机器学习部420生成的单一人工神经网络文本语音合成模型来用于合成输出语音数据630。如图所示，语音合成器620可接收与第一语言有关的说话人员的发声特征611、第二语言的输入文本612以及感情特征613。由于已参照图5说明了与第一语言有关的说话人员的发声特征以及第二语言的输入文本，因而将省略重复的说明。

在一实施例中，感情特征613可表示快乐、悲伤、愤怒、恐惧、信任、厌恶、惊吓、期待中的一种。在另一实施例中，感情特征613可从语音数据提取特征向量来生成。语音合成器620可通过向单一人工神经网络文本语音合成模型输入与第一语言有关的说话人员的发声特征611、第二语言的输入文本612以及感情特征613来生成输出语音数据630。

输出语音数据630可以为将第二语言的输入文本612合成为语音的语音数据，可反映与第一语言有关的说话人员的发声特征611以及感情特征613。即，输出语音数据630可以为基于与第一语言有关的说话人员的发声特征611来模仿相应说话人员的语音并通过反映感情特征613来合成为以相应说话人员输入的感情特征613说出第二语言的输入文本612的语音的数据。例如，在感情特征613为愤怒的情况下，语音合成器620可生成相应说话人员愤怒地说出第二语言的输入文本612的输出语音数据630。在一实施例中，可通过扬声器等来对输出语音数据630进行输出。

图7为示出本公开一实施例的语音合成器720基于与第一语言有关的说话人员的发声特征711、第二语言的输入文本712以及韵律特征713来生成输出语音数据730的情况的图。语音合成器720可与图15中的数据识别部1520相对应。语音合成器720通过接收由图4中的机器学习部420生成的单一人工神经网络文本语音合成模型来用于合成输出语音数据730。如图所示，语音合成器720可接收与第一语言有关的说话人员的发声特征711、第二语言的输入文本712以及韵律特征713。由于已参照图5说明了与第一语言有关的说话人员的发声特征以及第二语言的输入文本，因而将省略重复的说明。

韵律特征713可包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息(例如，与停顿读出有关的信息)中的至少一个。在一实施例中，韵律特征713可从语音数据提取特征向量来生成。语音合成器720可通过向单一人工神经网络文本语音合成模型输入与第一语言有关的说话人员的发声特征711、第二语言的输入文本712以及韵律特征713来生成输出语音数据730。

输出语音数据730可以为将第二语言的输入文本712合成为语音的语音数据，可反映发声特征711及韵律特征713。即，输出语音数据730可以为基于与第一语言有关的说话人员的发声特征711来模仿相应说话人员的语音并通过反映韵律特征713来合成为以相应说话人员输入的韵律特征713说出第二语言的输入文本712的语音的数据。例如，语音合成器720可生成相应说话人员根据包含在韵律特征713的发生速度、发音重音、音高、与停顿区间(停顿读出)有关的信息读出第二语言的输入文本712的输出语音数据730。

在图6至图7中示出了将感情特征613或韵律特征713及与第一语言有关的说话人员的发声特征、第二语言的输入文本都输入到语音合成器的情况，但并不限定于此，还能够以将与第一语言有关的说话人员的发声特征、感情特征、韵律特征中的一个以上和第二语言的输入文本都输入的方式构成语音合成器。

图8为示出本公开一实施例的语音翻译系统800的结构的图。语音翻译系统800可包语音识别器810、机器翻译器820、语音合成器830、发声特征提取器840、感情特征提取器850、韵律特征提取器860以及韵律翻译器870(prosody translation)。语音合成器830可与图15中的数据识别部1520相对应。如图所示，语音翻译系统800可接收第一语言的输入语音。

所接收的第一语言的输入语音可向语音识别器810、发声特征提取器840、感情特征提取器850以及韵律特征提取器860传递。语音识别器810可通过接收第一语言的输入语音来转换成第一语言的输入文本。语音翻译系统800中所包括的机器翻译器820可将第一语言的输入文本转换/翻译成第二语言的输入文本来向语音合成器830传递。

发声特征提取器840可通过从第一语言的输入语音提取特征向量来生成读出第一语言的输入语音的说话人员的发声特征。语音合成器830可通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本及与第一语言有关的说话人员的发声特征来生成与模仿说话人员的语音的第二语言的输入文本相对应的第二语言的输出语音数据。在此情况下，第二语言的输出语音可以为以反映说出第一语言的输入语音的说话人员的发声特征的方式合成的语音。

感情特征提取器850可通过从第一语言的输入语音提取感情特征向语音合成器830传递。语音合成器830可通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本、与第一语言有关的说话人员的发声特征以及感情特征来模仿说话人员的语音，可生成与对第一语言的输入语音的感情特征进行反映的第二语言的输入文本相对应的第二语言的输出语音数据。在此情况下，第二语言的输出语音可以为以反映说出第一语言的输入语音的说话人员的发声特征及感情特征的方式合成的语音。

韵律特征提取器860可从第一语言的输入语音提取韵律特征。韵律特征提取器860可通过向韵律翻译器870传递所提取的韵律特征来将与第一语言有关的韵律特征翻译成与第二语言有关的韵律特征。即，韵律翻译器870可生成在第二语言的输出语音反映从第一语言的输入语音提取的韵律特征的信息。

语音合成器830可通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本、与第一语言有关的说话人员的发声特征以及所翻译的韵律特征来模仿说话人员的语音，可生成与对第一语言的输入语音的韵律特征进行反映的第二语言的输入文本相对应的第二语言的输出语音数据。在此情况下，第二语言的输出语音可以为以反映说出第一语言的输入语音的说话人员的发声特征及韵律特征的方式合成的语音。在反映韵律特征的情况下，第一语言的输入语音的语速、停顿读出、强调等的特征也可适用于第二语言的输出语音。

例如，若存在使用人员在第一语言的输入语音中强调的单词，则韵律翻译器870可生成与第一语言的被强调的单词相对应的用于强调第二语言的单词的信息。语音合成器830可基于从韵律翻译器870接收的信息来以强调与在第一语言中强调的单词相对应的第二语言的单词的方式生成语音。

在一实施例中，语音合成器830可通过向单一人工神经网络文本语音合成模型输入第二语言的输入文本、与第一语言有关的说话人员的发声特征、感情特征以及已翻译的韵律特征来模仿说话人员的语音，并生成反应第一语言的输入语音的感情特征及韵律特征的与第二语言的输入文本相对应的第二语言的输出语音数据。在此情况下，第二语言的输出语音可以为以反应说出第一语言的输入语音的说话人员的发声特征、感情特征以及韵律特征的方式合成的语音。

在从第一语言的输入语音提取说话人员的特征来用于合成已翻译的语音的情况下，即使在未预先学习相应说话人员的声音的情况下，也可模仿相应说话人员的声音来以相似的语音生成第二语言的输出语音。并且，在从第一语言的输入语音提取说话人员的感情特征的情况下，可模仿相应说话人员在相应发言中的感情来更自然地生成第二语言的输出语音。并且，在从第一语言的输入语音提取说话人员的韵律特征的情况下，可模仿相应说话人员的相应发言中的韵律来更自然地生成第二语言的输出语音。

图8示出了从第一语言的输入语音提取发声特征、感情特征以及韵律特征等全部来合成语音的情况，但并不限定于此。在其他实施例中，发声特征、感情特征及韵律特征中的至少一个还可从其他说话人员的输入语音提取。例如，感情特征及韵律特征可从第一语言的输入语音提取，发声特征可从其他输入语音(例如，名人的语音)提取，从而合成语音。在此情况下，被合成的语音中反映了说出第一语言的输入语音的说话人员的感情和韵律，但可反映说出其他输入语音的说话人员(例如名人)的声音。

图9为示出本公开一实施例的韵律翻译器870的结构的图。如图所示，韵律翻译器870可包括韵律编码器910(prosody encoder)、注意力机制层920(attention)以及韵律解码器930(prosody decoder)。韵律编码器910可从由韵律特征提取器从第一语言(原版语言)的输入语音提取的第一语言的韵律特征。

所接收的第一韵律特征将经过韵律编码器910、注意力机制层920以及韵律解码器930来转换成第二语言(将要被翻译的语言)的韵律特征。在一例中，韵律翻译器870可利用序列到序列学习模型(seq2seq，sequence-to-sequence model)来进行学习，从而可将原版语言的韵律特征转换成被翻译的语言的韵律特征。即，序列到序列学习模型可通过使基于循环神经网络(RNN，recurrent neural network)的编码器-解码器结构(encoder-decoderarchitecture，参照"Sequence to Sequence Learning with Neural Networks,"IlyaSutskever,et al.,2014)和注意力机制(attention mechanism，参照"Neural MachineTranslation by Jointly Learning to Align and Translate,"DzmitryBahdanau,atal.,2015以及"Effective Approaches to Attention-based Neural MachineTranslation,"Minh-Thang Luong,at al.,2015)相结合来体现。

图10为示出本公开一实施例的多种语言文本语音合成器1000的结构的图。如图所示，多种语言文本语音合成器1000可包括编码器1010、解码器1020以及声码器1030。编码器1010可接收输入文本。

输入文本可由多种语言形成，可不包含语言标识符或与语言有关的信息。例如，输入文本可包含“你好”或“How are you？”等的文章。编码器1010可按字母单位、字单位、音素(phoneme)单位分离所接收的输入文本。并且，编码器1010可接收按字母单位、字单位、音素单位分离的输入文本。

编码器1010可包括至少一个嵌入层(例如：EL语言1、EL语言2、……、EL语言N)。编码器1010的至少一个嵌入层可将按字母单位、字单位、音素单位分离的输入文本分贝转换成文本嵌入向量。为了将所分离的输入文本转换成文本嵌入向量，编码器1010可使用已经学习的机器学习模型。编码器可在执行机器学习的过程中更新机器学习模型。在更新机器学习模型的情况下，还可对所分离的输入文本的文本嵌入向量进行更新。

编码器1010可向由全连接层(fully-connected layer)构成的深度神经网络(DNN，Deep Neural Network)模块输入文本嵌入向量。深度神经网络可以为前馈层(feedforward layer)或线性层(linear layer)。

编码器1010可向包括卷积神经网络(CNN，convolutional neural network)和循环神经网络(RNN，Recurrent Neural Network)中的至少一个的模块输入深度神经网络的输出。在此情况下，包括卷积神经网络和循环神经网络中的至少一个的模块可接收深度神经网络的输出和解码器1020的嵌入层的输出s。卷积神经网络可捕捉基于卷积核心(convolution kernel)尺寸的区域特性，循环神经网络可捕捉长期依赖(long termdependency)。包括卷积神经网络和循环神经网络中的至少一个的模块可将编码器1010的隐藏状态h输出为自身的输出。

解码器1020的嵌入层可执行与编码器1010的嵌入层相似的运算。嵌入层可接收说话人员识别码(ID)。例如，说话人员识别码可以为独热向量。在一实施例中，可将“特朗普”的说话人员识别码设定为“1”，可将“文在寅”的说话人员识别码设定为“2”，可将“奥巴马”的说话人员识别码设定为“3”。解码器1020的嵌入层可将说话人员识别码转换成说话人员的嵌入向量s。为了将说话人员识别码转换成说话人员嵌入向量s，解码器1020可使用已学习的机器学习模型。解码器1020可在执行机器学习的过程中更新机器学习模型。在更新机器学习模型的情况下，还可对与说话人员识别码有关的说话人员嵌入向量s。

解码器1020的注意力机制可从编码器1010接收编码器的隐藏状态h。并且，解码器1020的注意力机制可从注意力循环神经网络接收信息。从注意力循环神经网络接收的信息可以为与解码器1020到之前时间步长(time-step)为止生成怎样的语音有关的信息。并且，解码器1020的注意力机制可基于从注意力循环神经网络接收的信息及编码器的隐藏状态h输出语境向量Ct。编码器的隐藏状态h可以为与所要生成语音的输入文本有关的信息。

语境向量Ct可以为用于对在当前时间步长从输入文本中的某个部分生成语音进行确定的信息。例如，解码器1020的注意力机制可输出在生成语音的初期基于文本输入的前面部分生成语音并随着逐渐生成语音逐渐基于文本输入的之后部分来生成语音的信息。

如图所示，解码器1020向包括注意力循环神经网络、解码器循环神经网络以及编码器1010的卷积神经网络和循环神经网络中的至少一个的模块输入说话人员嵌入向量s，能够以按每个说话人员进行不同译码的方式构成人工神经网络的结构。解码器1020的循环神经网络可由自回归(autoregressive)方式构成。即，可将在之前时间步长输出的r帧输出用作当前时间步长的输入。由于最初时间步长1022没有之前时间步长，因而可向深度神经网络输入多个哑帧。

解码器1022可包括由全连接层构成的深度神经网络。深度神经网络可以为前馈层或线性层。并且，解码器1022可包括由门控循环单元(GRU)构成的注意力循环神经网络。注意力循环神经网络为输出将要在注意力机制中使用的信息的层。由于在之前内容中说明了注意力机制，因而将省略详细说明。

解码器1020可包括由残差(residual)门控循环单元构成的解码器循环神经网络。解码器循环神经网络可从注意力机制接收输入文本的位置信息。即，位置信息可以为与解码器1020在将输入文本的哪个位置转换成语音有关的信息。

解码器循环神经网络可从注意力循环神经网络接收信息。从注意力循环神经网络接收的信息可以为与解码器到之前时间步长为止生成怎样的语音有关的信息以及与在当前时间步长所要生成的语音有关的信息。解码器循环神经网络可生成将要与目前为止生成的语音相连接的之后输出语音。输出语音可具有梅尔频谱(Mel-Spectrogram)，可由r个帧构成。

为了进行文本语音合成，可反复执行深度神经网络、注意力循环神经网络以及解码器循环神经网络的动作。例如，在最初时间步长1022获取的r个帧可成为之后时间步长1024的输入。并且，在时间步长1024输出的r个帧可成为之后时间步长1026的输入。

可通过如上所述的步骤来生成与文本的所有单位有关的语音。文本语音合成系统按时间顺序连接(concatenate)在每个时间步长出现的梅尔频谱并可获取与整个文本有关的梅尔频谱。可向第一声码器1030或第二声码器1040输出在解码器1020生成的与整个文本有关的梅尔频谱。

第一声码器1030可包括将卷积神经网络和循环神经网络中的至少一个包括在内的模块和Griffin-Lim复原模块。第一声码器1030的包括卷积神经网络和循环神经网络中的至少一个的模块可执行与编码器1010的包括卷积神经网络和循环神经网络中的至少一个的模块相同的动作。即，第一声码器1030的包括卷积神经网络和循环神经网络中的至少一个的模块可捕捉区域特性和长期依赖，可输出线性标度频谱(linear-scalespectrogram)。第一声码器1030可对线性标度频谱采用Griffin-Lim算法来以与说话人员识别码相对应的声音模仿与输入文本相对应的语音信号并输出。

第二声码器1040可基于机器学习模型来从梅尔频谱获取语音信号。机器学习模型可以为已对从梅尔频谱预测语音信号的网络进行学习的。例如，机器学习模型可使用WaveNet或WaveGlow等的模型。第二声码器1040可代替第一声码器1030来使用。

这种基于人工神经网络的多种语言文本语音合成器1000可利用以多个国家的学习文本和与之相对应的学习语音信号的成对方式存在的大容量数据库进行学习。多种语言文本语音合成器1000可接收学习文本，通过对所输出的语音信号和学习语音信号进行比较来定义损失函数(loss function)。语音合成器可通过误差反向传播(error backpropagation)算法学习损失函数，可最终获得当输入任意文本时输出所需语音的人工神经网络。

多种语言文本语音合成器1000可通过利用按如上所述的方法生成的单一人工神经网络文本语音合成模型来合成模仿特定说话人员的声音的语音。并且，多种语言文本语音合成器1000还能够以相应说话人员的声音模仿语言与特定说话人员的母语不同的语音并合成。即，多种语言文本语音合成器1000可合成使用第一语言的说话人员用第二语言说话的语音。例如，能够以特朗普用韩语说出所输入的韩语文本的方式合成。

图11示出国际音标与韩语字音转换音素之间的对应关系以及具有英语和韩语的共同发音的音素对应关系。不同的语言的发音可通过作为一个字母体系的国际音标来记述。与不同语言的发音有关的国际音标可用作相似信息。IPA-CMUdict和IPA-KoG2P的转换表如表1110。在国际音标层面，虽然第一语言的音素与第二语言的音素之间并未产生一对一对应，但可选择将具有第一语言和第二语言的共同发音的音素包括在其中的部分集合。例如，对具有英语和韩语的共同发音的音素进行选择的下级集合如表1120。

第一语言和第二语言可具有不同的文字体系，可具有不同的发音体系。在利用作为相同的字母体系的国际音标来表示第一语言和第二语言的情况下，可通过对多种语言进行标准化处理来获取语音合成模型。但是，国际音标仅以相同的字母体系表示各个语言，无法完整地表示不同语言的发音或标记的相似性。例如，第一语言中使用的国际音标字母有可能根本不在第二语言中使用。由于语音合成模型无法知道使仅在第一语言中使用的国际音标字母与第二语言的哪个国际音标字母相对应，在使用国际音标的情况下，可仅获取特定于各个语言的语音合成模型。即，与第一语言有关的语音合成模型仅可对与第一语言有关的数据进行处理，无法对与第二语言有关的数据进行处理。相反，与第二语言有关的语音合成模型仅可对与第二语言有关的数据进行处理，无法对与第一语言有关的数据进行处理。

图12示出表示与韩语音素最相似的英语音素的表。本公开一实施例的文本语音合成系统可基于机器学习模型来对多种语言的锚点(anchor)音素计算音素之间的余弦距离。为了计算余弦距离，可利用基于机器学习模型获取的音素嵌入向量。音素之间的余弦距离可表示音素之间的相似度。

基于所计算的音素之间的余弦距离，列举对于韩语音素的5个最相似的英语音素嵌入，则如表1210。英语音素嵌入之后的数字0、1及2分别表示“无重音”、“1次重音”以及“2次重音”。CMUdict区分被强调的发音，相反，国际音标无法区分被强调的发音。括号内的符号表示国际音标符号。

根据表1210，可确认到基于本公开一实施例的机器学习模型的对于锚点音素的5个最相似的音素嵌入与图11中的表1120相似。即，可确认到，本公开一实施例的机器学习模型即使在学习时未接收第一语言的音素与第二语言的音素之间的与发音有关的相似信息或与标记有关的相似信息、与第一语言有关的语言标识符/语言信息以及与第二语言有关的语言标识符/语言信息，也自动学习语言之间的相似的发音或标记。因此，本公开一实施例的文本语音合成系统可基于单一人工神经网络文本语音合成模型来对所学习的多种语言执行文本语音合成。

图13为示出由英语音素生成的语音与由韩语音素生成的语音之间的相似性的频谱图。频谱图1310为由英语音素序列(HH,IY1,,HH,AE1,Z,,M,EH1,N,IY0,,G,UH1,D,,F,R,EH1,N,D,Z)将“He has many good friends”这一文章合成为语音的结果。频谱图1320为以最相似的韩语音素替换相同文章的英语音素序列内的各个音素而生成的以韩语音素序列(h0,wi,,h0,ya,s0,,mf,ye,nf,ii,,kk,yo,tt,,ph,ks,ye,nf,tt,s0)合成语音的结果。

若对频谱图1310和频谱图1320进行比较，就可确认到以英语音素序列合成语音的结果和以韩语音素序列合成的语音的结果相似。因此，可确认到，即使利用多个第一语言的音素来将第二语言的文本合成为语音，也可获得高质量的语音合成结果。即，即使利用以第一语言说话的说话人员的发声特征将第二语言的文本合成为语音，也可获得母语为第一语言的相应说话人员以第二语言说话的结果。

图14为示出在学习文本语音机器学习模型的过程中所使用的英语数据的基于时间变化的字错误率(character error rate，CER)的表1410。在本实施例中，在有充足的韩语学习数据的条件下，以变换英语学习数据的量的方式学习了文本语音机器学习模型。为使语音合成质量数值化，在表1410中，示出了在听取由文本合成的语音输出物的人以文字形式进行记录并与原版文本进行比较的错误率。

根据表1410，在向文本语音机器学习模型输入英语文本和韩国说话人员的发声特征来合成相应说话人员的与英语文本相对应的英语语音的情况下，所使用的英语学习数据的时间越长，字错误率将减少。即，用于机器学习的英语学习数据的时间越长，与韩语说话人员读出的英语文本的语音相关的字错误率将减少。

另一方面，在向文本语音机器学习模型输入韩语文本和英语说话人员的发声特征来合成相应说话人员的与韩语文本相对应的韩语语音的情况下，即使所使用的英语学习数据的时间变长，字错误率没有多少区别。这是因为，用于机器学习的由韩语构成的数据量比英语的数据量大，因而可显示字错误率已经减少至临界值的状态。可确认到，在文本语音合成系统利用临界量以上的数据进行机器学习的情况下，可充分减少字错误率。并且，在利用大量的韩语学习数据和少量的英语学习数据来学习文本语音机器学习模型的情况下，可确认到，也能够以较高的质量生成将英语文本合成为语音的结果。

根据本公开，仅通过与多种语言有关的输入文本和输出语音也能够以端到端生成多种语言的文本语音机器学习模型。并且，在现有方式中，为使不同的多种语言以一个语言特征集(linguistic feature set)进行表达，需要国际音标等的可在多种语言共同使用的标记法或需要与语言之间的相似性有关的预先信息。但是，根据本公开，由于不需要语言特征(linguistic feature)，因而各个语言使用不同字母也无妨，不需要与语言之间的相似性有关的预先信息。

并且，在本公开中，以端到端方式学习模型，因而无需利用单独的模型预测音素长度(phoneme duration)等的现有文本语音合成中需要的特征(feature)，可通过单一神经网络(neural network)模型处理文本语音合成作业。并且，根据本公开，可在文本编码器(Text encoder)提取文本编码(text encoding)的过程中，根据是否使用说话人员的识别码(speaker ID)来调节侨胞语气/流畅的语气。例如，当生成第一语言的语音时，在第二语言的发音强的情况下，可在学习时给予惩罚。根据采用惩罚的机器学习模型，能够以更接近第一语言的发音的方式生成语音。

图15为本公开一实施例的文本语音合成系统1500的框图。一实施例的文本语音合成系统1500可包括数据学习部1510以及数据识别部1520。数据学习部1510可通过输入数据来获取机器学习模型。并且，数据识别部1520可通过向机器学习模型采用数据来生成输出语音。如上所述的文本语音合成系统1500可包括处理器及存储器。

数据学习部1510可进行对于文本的语音学习。数据学习部1510根据文本来学习与输出哪种语音有关的基准。并且，数据学习部1510可学习与利用哪种语音的特征输出语音有关的基准。语音的特征可包含音素的发音、使用人员的语气、语调或重音中的至少一个。数据学习部1510可获取用于学习的数据并将所获取的数据用于后述的数据学习模型，从而可学习基于文本的语音。

数据识别部1520可基于文本来输出与文本有关的语音。数据识别部1520可利用已学习的数据学习模型由规定的文本输出语音。数据识别部1520可根据基于学习的预设的基准来获取规定的文本(数据)。并且，数据识别部1520可通过将所获取的数据用作输入值并利用数据学习模型，从而可输出基于规定数据的语音。并且，将所获取的数据用作输入值并通过数据学习模型来输出的结果值可用于更新数据学习模型。

数据学习部1510或数据识别部1520中的至少一个被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据学习部1510或数据识别部1520中的至少一个还可被制造成用于人工智能(AI，artificial intelligence)的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器(CPU)或应用处理器(application processor))或图形专用处理器(例如：图形处理器(GPU))的一部分来搭载于已说明的各种电子装置。

并且，数据学习部1510及数据识别部1520还可分别单独装载于单独的电子装置。例如，数据学习部1510及数据识别部1520中的一个可装载于电子装置，剩余一个可装载于服务器。并且，数据学习部1510及数据识别部1520可通过有线或无线方式相连接并向数据识别部1520提供由数据学习部1510构建的模型信息，向数据识别部1520输入的数据可作为追加学习数据来被提供到数据学习部1510。

另一方面，数据学习部1510或数据识别部1520中的至少一个可由软件模块来体现。在数据学习部1510及数据识别部1520中的至少一个由软件模块(或者包含指令(instruction)的程序模块)体现的情况下，可将软件模块存储于存储器或非暂时性计算机可读记录介质(non-transitory computer readable media)。并且，在此情况下，至少一个软件模块可由操作系统(OS，Operating System)提供，或可由规定的应用程序提供。与之不同，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

本公开一实施例的数据学习部1510可包括数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514以及模型评价部1515。

数据获取部1511可获取机器学习所需的数据。为了进行学习，将需要很多数据，因而数据获取部1511可接收多个文本及与之相对应的语音。

为了判断使用人员的心理状态，预处理部1512能够以可将所获取的数据用到机器学习的方式对所获取的数据进行预处理。预处理部1512能够以可使后述的模型学习部1514进行使用的方式按预设的格式加工所获取的数据。例如，预处理部1512可通过对文本及语音进行语素分析来获取语素嵌入。

学习数据选择部1513可在所预处理的数据中选择学习所需的数据。可向模型学习部1514提供所选择的数据。学习数据选择部1513可根据预设基准来在所预处理的数据中选择学习所需的数据。并且，学习数据选择部1513还可通过由后述的模型学习部1514进行的学习来根据预设基准选择数据。

模型学习部1514可基于学习数据来学习与根据文本输出哪种语音有关的基准。并且，模型学习部1514可通过将根据文本输出语音的学习模型用作学习数据来进行学习。在此情况下，数据学习模型可包括预先构建的模型。例如，数据学习模型可包括通过接收基础学习数据(例如，样本图像等)来预先构建的模型。

数据学习模型可将学习模型的使用领域、学习的目的或装置的计算机性能等考虑在内来构建。例如，数据学习模型可包括基于神经网络(Neural Network)的模型。例如，可将深度神经网络、循环神经网络、长短期记忆人工神经网络模型(Long Short-Term Memorymodels，LSTM)、双向循环深度神经网络(BRDNN、Bidirectional Recurrent Deep NeuralNetwork)、卷积神经网络等的模型用作数据学习模型，但并不限定于此。

根据不同的实施例，在存在多个预先构建的数据学习模型的情况下，模型学习部1514将所输入的学习数据与基础学习数据之间的关联性最大的数据学习模型确定为所要学习的数据学习模型。在此情况下，可按照数据的类型先分类基础学习数据，可按照数据的类型先构建数据学习模型。例如，可按照生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的类型、学习数据的生成者、学习数据内的对象的种类等多种基准来先分类基础学习数据。

并且，例如，模型学习部1514可通过利用包括误差反向传播法或梯度下降法(gradient descent)在内的学习算法来学习数据学习模型。

并且，例如，模型学习部1514可通过将学习数据用作输入值的监督学习(supervised learning)来学习数据学习模型。并且，例如，模型学习部1514可为了以没有特别监督的方式判断情况而对所需的数据的种类进行自学习，从而可通过发现用于判断情况所需的基准的非监督学习(unsupervised learning)，来学习数据学习模型。并且，例如，模型学习部1514可通过将与基于学习的情况判断的结果是否准确有关的反馈利用到其中的强化学习(reinforcement learning)来学习数据学习模型。

并且，若学习到数据学习模型，则模型学习部1514可对所学习的数据学习模型进行存储。在此情况下，模型学习部1514可将所学习的数据学习模型存储于包括数据识别部1520的电子装置的存储器。或者，模型学习部1514还可将所学习的数据学习模型存储于以有线或无线网络方式与电子装置相连接的服务器的存储器。

在此情况下，例如，存储所学习的数据学习模型的存储器还可一并存储与电子装置的至少一个其他结构要素相关的指令或数据。并且，存储器还可存储软件和/或程序。例如，程序可包括内核、中间件、应用程序接口(API)和/或应用程序(或“应用”)等。

模型评价部1515向数据学习模型输入评价数据，在从评价数据输出的结果无法满足规定基准的情况下，可使模型学习部1514重新进行学习。在此情况下，评价数据可包含用于评价数据学习模型的预设的数据。

例如，在所学习的数据学习模型对于评价数据的结果中，在识别结果不正确的评价数据的数量或比率超出预设的临界值的情况下，模型评价部1515可评价为未满足规定基准。例如，在规定基准为2％的情况下，若所学习的数据学习模型对共1000个评价数据输出的识别结果中有超过20个评价数据识别结果错误，则模型评价部1515可评价为所学习的数据学习模型并不适合。

另一方面，在存在多个所学习的数据学习模型的情况下，模型评价部1515对各个所学习的视频学习模型评价是否满足规定基准，可将满足规定基准的模型确定为最终数据学习模型。在此情况下，在存在多个满足规定基准的模型的情况下，模型评价部1515可将按照评价分数高的顺序预设的一个或规定数量的模型确定为最终数据学习模型。

另一方面，数据学习部1510内的数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514或模型评价部1515中的至少一个可被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514或模型评价部1515中的至少一个还可被制造成用于人工智能的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器或应用处理器)或图形专用处理器(例如：图形处理器)的一部分来搭载于已说明的各种电子装置。

并且，数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514及模型评价部1515可装载于一个电子装置，或者还可分别装载于多个单独的电子装置。例如，数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514以及模型评价部1515中的一部分可装载于电子装置，剩余一部分可装载于服务器。

并且，数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514或模型评价部1515中的至少一个可由软件模块来体现。在数据获取部1511、预处理部1512、学习数据选择部1513、模型学习部1514或模型评价部1515中的至少一个由软件模块(或者包含指令的程序模块)体现的情况下，可将软件模块存储于非暂时性计算机可读记录介质。并且，在此情况下，至少一个软件模块可由操作系统提供，或可由规定的应用程序提供。与之不同，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

本公开的一实施例的数据识别部1520可包括数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524以及模型更新部1525。

数据获取部1521可获取输出语音所需的文本。相反，数据获取部1521可获取输出文本所需的语音。预处理部1522能够以用到为了输出语音或文本而获取的数据的方式对所获取的数据进行预处理。预处理部1522能够以可使后述的识别结果提供部1524用到为了输出语音或文本而获取的数据的方式按预设的格式加工所获取数据。

识别数据选择部1523可在所预处理的数据中选择输出语音或文本所需的数据。可向识别结果提供部1524提供所选择的数据。识别数据选择部1523可根据用于输出语音或文本的预设基准来在所预处理的数据中选择一部分或全部。并且，识别数据选择部1523还可根据通过模型学习部1514的学习预设的基准来选择数据。

识别结果提供部1524可通过向数据学习模型采用所选择的数据来输出语音或文本。识别结果提供部1524可将通过识别数据选择部1523选择的数据用作输入值，可向数据学习模型采用所选择的数据。并且，识别结果可根据数据学习模型来确定。

模型更新部1525能够以对由识别结果提供部1524提供的识别结果的评价为基础，来更新数据学习模型。例如，模型更新部1525向模型学习部1514提供由识别结果提供部1524提供的识别结果，从而可使模型学习部1514更新数据学习模型。

另一方面，数据识别部1520内的数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524或模型更新部1525中的至少一个可被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524或模型更新部1525中的至少一个还可被制造成用于人工智能的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器或应用处理器)或图形专用处理器(例如：图形处理器)的一部分来搭载于已说明的各种电子装置。

并且，数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524以及模型更新部1525可装载于一个电子装置，或者还可分别装载于多个单独的电子装置。例如，数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524以及模型更新部1525中的一部分可装载于电子装置，剩余一部分可装载于服务器。

并且，数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524或模型更新部1525中的至少一个可由软件模块来体现。在数据获取部1521、预处理部1522、识别数据选择部1523、识别结果提供部1524或模型更新部1525中的至少一个由软件模块(或者包含指令的程序模块)体现的情况下，可将软件模块存储于非暂时性计算机可读记录介质。并且，在此情况下，至少一个软件模块可由操作系统提供，或可由规定的应用程序提供。与之不同，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

以上，以多种实施例为中心进行了说明。本发明所属技术领域的普通技术人员可理解在不脱离本发明的本质特性的范围内以多种变形的实施方式实现本发明。因此，应以说明的观点看待所公开的实施例，而不是以限定性的观点看待所公开的实施例。本发明的范围由发明要求保护范围来体现，而不是以上的说明，与发明要求保护范围等同的范围内的所有不同之处应解释成属于本发明。

另一方面，能够以可在计算机中运行的程序的方式制作本发明的实施例，可利用计算机可读记录介质来在用于运行上述程序的通用数字计算机中体现本发明。上述计算机可读记录介质包括磁性存储介质(例如，只读存储器、软盘、硬盘等)、光学读取介质(例如，只读光盘(CD-ROM)、数字通用光盘(DVD)等)等的存储介质。

Claims

1.一种多种语言文本语音合成方法，其特征在于，包括：

接收第一学习数据的步骤，上述第一学习数据包含第一语言的学习文本及与上述第一语言的学习文本相对应的第一语言的学习语音数据；

接收第二学习数据的步骤，上述第二学习数据包含第二语言的学习文本及与上述第二语言的学习文本相对应的第二语言的学习语音数据；以及

基于上述第一学习数据及上述第二学习数据学习上述第一语言的音素与上述第二语言的音素之间的相似信息来生成单一人工神经网络文本语音合成模型的步骤。

2.根据权利要求1所述的多种语言文本语音合成方法，其特征在于，还包括：

接收与上述第一语言有关的说话人员的发声特征的步骤；

接收第二语言的输入文本的步骤；以及

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的输入文本及与上述第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的输入文本有关的输出语音数据的步骤。

3.根据权利要求2所述的多种语言文本语音合成方法，其特征在于，与上述第一语言有关的说话人员的发声特征通过从上述说话人员以第一语言发声的语音数据提取特征向量来生成。

4.根据权利要求2所述的多种语言文本语音合成方法，其特征在于，还包括：

接收感情特征的步骤；以及

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的输入文本、与上述第一语言有关的说话人员的发声特征及上述感情特征来生成模仿上述说话人员的语音的与上述第二语言的输入文本有关的输出语音数据的步骤。

5.根据权利要求2所述的多种语言文本语音合成方法，其特征在于，还包括：

接收韵律特征的步骤；以及

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的输入文本、与上述第一语言有关的说话人员的发声特征及上述韵律特征来生成模仿上述说话人员的语音的与上述第二语言的输入文本有关的输出语音数据的步骤。

6.根据权利要求5所述的多种语言文本语音合成方法，其特征在于，上述韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息中的至少一个。

7.根据权利要求1所述的多种语言文本语音合成方法，其特征在于，还包括：

接收第一语言的输入语音的步骤；

通过从上述第一语言的输入语音提取特征向量来生成与第一语言有关的说话人员的发声特征的步骤；

将上述第一语言的输入语音转换成第一语言的输入文本的步骤；

将上述第一语言的输入文本转换成第二语言的输入文本的步骤；以及

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的输入文本及与上述第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的输入文本有关的第二语言的输出语音数据的步骤。

8.根据权利要求1所述的多种语言文本语音合成方法，其特征在于，使用字音转换算法将上述第一语言的学习文本及上述第二语言的学习文本转换成音素序列。

9.根据权利要求1所述的多种语言文本语音合成方法，其特征在于，上述单一人工神经网络文本语音合成模型以不输入与上述第一语言的音素与上述第二语言的音素之间的发音及标记中的至少一个有关的相似信息的方式生成。

10.一种计算机可读存储介质，其特征在于，记录有包含指令的程序，上述指令用于执行权利要求1所述的多种语言文本语音合成方法的各个步骤。