CN111566656A

CN111566656A - 利用多种语言文本语音合成模型的语音翻译方法及系统

Info

Publication number: CN111566656A
Application number: CN201980007947.6A
Authority: CN
Inventors: 金泰洙; 李泳槿
Original assignee: Xinzhi Co ltd
Current assignee: Xinzhi Co ltd
Priority date: 2018-01-11
Filing date: 2019-01-11
Publication date: 2020-08-21
Anticipated expiration: 2039-01-11
Also published as: US20200342852A1; EP3739476A1; CN111566655A; US20240013771A1; US11810548B2; US11769483B2; JP7142333B2; JP2021511536A; KR20190085879A; US11217224B2; JP2021511534A; JP7178028B2; KR102246943B1; JP7445267B2; KR102199050B1; CN111566655B; KR20200143659A; KR20190085883A; JP2022153569A; KR102199067B1

Abstract

本公开涉及利用多种语言文本语音合成模型的语音翻译方法、视频翻译方法以及系统。利用多种语言文本语音合成模型的语音翻译方法包括：获取以第一语言的学习文本、与第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤；接收第一语言的输入语音数据及与第一语言有关的说话人员的发声特征的步骤；将第一语言的输入语音数据转换成第一语言的文本的步骤；将第一语言的文本转换成第二语言的文本的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的文本及说话人员的发声特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

Description

利用多种语言文本语音合成模型的语音翻译方法及系统

技术领域

本公开涉及利用多种语言文本语音合成模型的语音翻译方法及系统。并且，本公开涉及利用多种语言文本语音合成模型的视频翻译方法及系统。

背景技术

通常，还被称作文本语音合成(TTS，Text-To-Speech)的语音合成技术为在需要人的语音的应用程序中在未事先录音人的真实语音的情况下使所需语音再生的技术，例如广播通知、卫星导航仪、人工智能秘书等。语音合成的典型方法有连接合成方式(concatenative TTS)和参数合成方式(parametric TTS)，在连接合成方式中，以音素等非常短的单位预先裁剪并存储语音来通过使构成所要合成的文章的多个音素相结合并合成为语音，在参数合成方式中，以参数(parameter)表示语音的特征并利用声码器(vocoder)来将表示构成所要合成的文章的多个语音特征的多个参数合成为与文章相对应的语音。

另一方面，近来正在积极研究基于人工神经网络(artificial neural network)的语音合成方法，根据该语音合成方法合成的语音呈现出比现有的方法更自然的语音特征。但是，通过基于人工神经网络的语音合成方法呈现新的声音的语音合成部将需要与该声音相对应的很多数据，需使利用该数据的神经网络模型重新进行学习。

并且，还在研究将特定语言的文本翻译成其他语言的文本并合成为翻译后的语言的语音的方法。其中，在翻译后的语言的语音合成方面，可使用具有该语言的代表性特征的说话人员的语音数据。

发明内容

要解决的技术问题

本公开提供一种利用多种语言文本语音合成模型的语音翻译方法及系统。并且，本公开提供一种利用多种语言文本语音合成模型的视频翻译方法及系统。

技术方案

本公开一实施例的利用多种语言(multilingual)文本语音合成(text-to-speechsynthesis)模型的语音翻译方法包括：获取以第一语言的学习文本、与第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤；接收第一语言的输入语音数据及与第一语言有关的说话人员的发声特征的步骤；将第一语言的输入语音数据转换成第一语言的文本的步骤；将第一语言的文本转换成第二语言的文本的步骤；以及通过向单一人工神经网络文本语音合成模型输入第二语言的文本及说话人员的发声特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

在本公开一实施例的利用多种语言文本语音合成模型的语音翻译方法中，与第一语言有关的说话人员的发声特征通过从说话人员以第一语言发声的语音数据提取特征向量来生成。

在本公开一实施例的利用多种语言文本语音合成模型的语音翻译方法中，还包括从第一语言的输入语音数据生成与第一语言有关的说话人员的感情特征(emotionfeature)的步骤，生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤包括通过向单一人工神经网络文本语音合成模型输入第二语言的文本、与第一语言有关的说话人员的发声特征以及感情特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

在本公开一实施例的利用多种语言文本语音合成模型的语音翻译方法中，感情特征包含与说话人员的发声内容中内含的感情有关的信息。

在本公开一实施例的利用多种语言文本语音合成模型的语音翻译方法中，还包括从第一语言的输入语音数据生成与第一语言有关的说话人员的韵律特征(prosodyfeature)的步骤，生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤包括通过向单一人工神经网络文本语音合成模型输入第二语言的文本、与第一语言有关的说话人员的发声特征以及韵律特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

在本公开一实施例的利用多种语言文本语音合成模型的语音翻译方法中，韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息中的至少一个。

本公开一实施例的利用多种语言文本语音合成模型的视频翻译方法包括：获取以第一语言的学习文本、与第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤；接收包含第一语言的输入语音数据的视频数据、与第一语言的输入语音数据相对应的第一语言的文本以及与第一语言有关的说话人员的发声特征的步骤；从视频数据删除第一语言的输入语音数据的步骤；将第一语言的文本转换成第二语言的文本的步骤；通过向单一人工神经网络文本语音合成模型输入第二语言的文本以及与第一语言有关的说话人员的发声特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤；以及使输出语音数据与视频数据相结合的步骤。

在本公开一实施例的利用多种语言文本语音合成模型的视频翻译方法中，还包括从第一语言的输入语音数据生成与第一语言有关的说话人员的感情特征(emotionfeature)的步骤，生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤包括通过向单一人工神经网络文本语音合成模型输入第二语言的文本、与第一语言有关的说话人员的发声特征以及感情特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

在本公开一实施例的利用多种语言文本语音合成模型的视频翻译方法中，还包括从第一语言的输入语音数据生成与第一语言有关的说话人员的韵律特征(prosodyfeature)的步骤，生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤包括通过向单一人工神经网络文本语音合成模型输入第二语言的文本、与第一语言有关的说话人员的发声特征以及韵律特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

并且，用于实现如上所述的利用多种语言文本语音合成模型的语音翻译及视频翻译方法的程序可记录于计算机可读记录介质。

附图说明

图1为示出一实施例的语音翻译系统的框图。

图2为示出一实施例的语音翻译部的详细结构的框图。

图3为示出一实施例的语音合成部的详细结构的框图。

图4为示出一实施例的韵律翻译部(prosody translation)的详细结构的框图。

图5为示出一实施例的用于模仿特定语言下的声音的基于人工神经网络的语音合成部的结构的图。

图6为示出再一实施例的用于模仿特定语言下的声音的基于人工神经网络的语音合成部的结构的图。

图7为示出另一实施例的用于模仿特定语言下的声音的基于人工神经网络的语音合成部的结构的图。

图8为示出对用于根据一实施例来合成多国语言的语音的单一人工神经网络文本语音合成模型进行学习的方法的图。

图9为示出对用于根据一实施例来合成多国语言的语音的单一人工神经网络文本语音合成模型进行学习的方法的图。

图10为示出利用根据一实施例学习的单一人工神经网络文本语音合成模型来合成多国语言的语音的方法的图。

图11为示出利用根据一实施例学习的单一人工神经网络文本语音合成模型来合成多国语言的语音的方法的图。

图12为示出一实施例的视频翻译系统的结构的框图。

图13为示出再一实施例的视频翻译系统的结构的框图。

图14为示出另一实施例的视频翻译系统的结构的框图。

图15为示出还有一实施例的视频翻译系统的结构的框图。

图16为示出一实施例的语音翻译方法的流程图。

图17为示出一实施例的视频翻译方法的流程图。

图18为示出一实施例的文本语音合成系统的框图。

具体实施方式

参照附图和一同说明的多个实施例，将明确所公开的实施例的优点、特征以及实现这些优点及特征的方法。但是，本公开并不限定于以下公开的多个实施例，能够以不同的多种实施方式来实现本发明，本实施例仅用于使本公开变得完整并使本公开所属技术领域的普通技术人员更加完整地理解本发明的范围。

简单说明在本说明书中使用的术语，将对所公开的实施例进行具体说明。

在本说明书中使用的术语在考虑本公开中的功能的情况下尽可能选择当前广泛使用的普通术语，这可根据从事相关领域的技术人员的意图、惯例以及新技术的出现等而不同。并且，在特定情况下，还有申请人任意选定的术语，在此情况下，将在相应的本发明的说明部分详细记载其含义。因此，在本公开中使用的术语应根据该术语所具有的含义和本公开的全文内容来定义，而不是单纯的术语的名称。

只要未在文脉上特别指定成单数，则本说明书中的单数的表达包括复数的表达。并且，只要未在文脉上明确特定为复数，则复数的表达包括单数的表达。

在说明书全文中，当表示某个部分“包括”某个结构要素时，只要没有特别相反的记述，则这意味着可包括其他结构要素，而不是排除其他结构要素。

并且，说明书中使用的术语“～部”表示软件结构要素或硬件结构要素，“～部”将起到某种作用。但是，“～部”并不限定于软件或硬件。“～部”能够以形成于可编址的存储介质的方式构成，可使一个或一个以上的多个处理程序再生。因此，作为一例，“～部”包括多个软件结构要素、多个对象软件结构要素、多个类结构要素以及多个任务结构要素等的多个结构要素以及多个程序、多个函数、多个属性、多个步骤、多个子程序、程序代码的多个段、多个驱动器、固件、微代码、电路、数据、数据库、多个数据结构、多个表、多个阵列、多个变数。在多个结构要素和多个“～部”中提供的功能可由数量更少的多个结构要素及“～部”相结合而成，或可分离成追加的多个结构要素和多个“～部”。

根据本公开的一实施例，可由处理器及存储器构成“～部”。术语“处理器”应以包括通用处理器、中央处理器(CPU)、微处理器、数字信号处理器(DSP)、应用处理器(AP)、控制器、微控制器、状态机等的方式进行广义解释。在某些环境中，“处理器”还可指专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编辑门阵列(FPGA)等。术语“处理器”还可指多个处理设备的组合，例如，数字信号处理器与微处理器的组合、多个微处理器的组合、与数字信号处理器芯片相结合的一个以上的微处理器的组合、任意的其他这些结构的组合。

术语“存储器”应以包括可存储电子信息的任意电子组件的方式进行广义解释。术语存储器可指随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机访问存储器(NVRAM)、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、带电可擦可编程只读存储器(EEPROM)、闪存、磁或光学数据存储装置、记录器等的处理器可读介质的多种类型。若处理器可从存储器读取信息或可在存储器记录信息，则存储器将被视为处于与处理器之间的电子通信状态。集成在处理器的存储器将处于与处理器之间的电子通信状态。

以下，参照附图，以可使本公开所属技术领域的普通技术人员轻松实施本公开的方式详细说明实施例。而且，为了明确说明本公开，在附图中省略了与说明无关的部分。

图1为示出本公开一实施例的语音翻译系统的框图。

如图所示，语音翻译系统100可包括输入部110、语音翻译部120以及输出部130。输入部110可接收语音来向语音翻译部120发送第一语言的语音数据。输入部110可包括能够接收语音的多种单元。例如，输入部110可包括可从使用人员直接接收语音的麦克风(microphone)、录音器(voice recorder)、头戴式耳机(headset)等的多种语音输入装置或单元中的一种。在再一例中，输入部110可以为能够接收存储于存储器或数据库中的语音数据的输入装置。在另一例中，输入部110可以为能够通过蓝牙(Blutooth)、无线保真(WiFi)、互联网等的无线网络或有线网络接收语音数据的无线输入装置或有线输入装置。在还有一例中，输入部110可以为能够从存储于存储器的视频数据或视频文件、可从网上下载的视频数据或视频文件提取语音数据的处理器或语音处理装置。

语音翻译部120可将第一语言的语音数据转换成第二语言的语音数据。在本公开中，“第一语言”可指韩语、日语、汉语、英语等多个国家和民族所使用的多种语言中的一种，“第二语言”可指与第一语言不同的其他国家或民族所使用的语言中的一种。如接下来所要详细说明的内容，为了将第一语言的语音翻译成第二语言的语音，语音翻译部120可使用人工神经网络或机器学习模型。用于语音翻译部120的人工神经网络或机器学习模型可以为包括循环神经网络(RNN，recurrent neural network)、长短期记忆人工神经网络模型(LSTM，long short-term memory model)、深度神经网络(DNN，deepneural network)、卷积神经网络(CNN，convolution neural network)等在内的多种人工神经网络模型中的一个或可由它们的组合构成。

在一实施例中，在将第一语言的语音翻译成第二语言的语音的过程中，语音翻译部120能够以反映使用第一语言的说话人员的发声特征、韵律特征或感情特征中的至少一个的方式生成第二语言的语音数据。在另一实施例中，在将第一语言的语音翻译成第二语言的语音的过程中，语音翻译部120还能够以反映不是第一语言的语音的说话人员的其他说话人员的发声特征、韵律特征或感情特征中的至少一个的方式生成第二语言的语音数据。

输出部130可输出通过语音翻译部120生成的第二语言的语音数据。输出部130可包括能够输出语音的单元。例如，输出部130可包括能够将第二语言的语音数据转换成声音的扬声器、头戴式耳机、头戴式受话器、耳机等的多种语音输入装置或单元中的一种。在再一例中，输出部130可以为可向存储器或数据库传送语音数据并存储的输出装置。在另一例中，输出部130可以为能够通过蓝牙、无线保真、互联网等的无线网络或有线网络发送语音数据的无线输出装置或有线输出装置。在还有一例中，输出部130可以为能够使视频数据或视频文件与语音数据相结合来向存储器传送及存储或转换成可从网上下载的形式的处理器或语音处理装置。

图2为示出本公开一实施例的语音翻译部的详细结构的框图。

语音翻译部120可包括语音识别部210、机器翻译部220、语音合成部230、发声特征提取部240、感情特征提取部250以及韵律特征提取部260或韵律翻译部270。

语音识别部210可将第一语言的语音数据转换成第一语言的文本。为了将第一语言的语音数据转换成第一语言的文本，语音识别部210可使用本发明的技术领域中的周知的多种语音识别算法中的一个。例如，语音识别部210使用的语音识别算法可包括隐马尔可夫模型(HMM，hidden markov model)、混合高斯模型(GMM，Gaussian mixuture model)、支持向量机(SVM，support vector machine)等的统计学模式识别方法，或可包括循环神经网络、长短期记忆人工神经网络模型、深度神经网络、卷积神经网络等的人工神经网络模型中的一个或它们的组合，但并不限定于此。

机器翻译部220可通过从语音识别部210接收第一语言的文本来生成第二语言的文本。即，机器翻译部220可将第一语言的文本转换成具有相同或相似含义的第二语言的文本。例如，为了将第一语言的文本转换成第二语言的文本，机器翻译部220可使用统计学机器翻译(statistical machine translation)、人工神经网络机器翻译(neural networkmachine translation)等多种机器翻译算法中的一个，但并不限定于此。在机器翻译部220使用机器翻译算法的情况下，通过基于多个第一语言的文本、与之相对应的多个第二语言的文本来实施机器学习，从而可生成机器翻译模型。如上所述，机器翻译部220可通过向已进行学习的机器翻译模型输入第一语言的文本，来生成第二语言的文本。

语音合成部230可从机器翻译部220接收第二语言的文本并输出与之相对应的第二语言的语音数据。

在一实施例中，语音合成部230可通过接收第二语言的文本和与第一语言有关的说话人员的发声特征来生成模仿该说话人员的语音的与第二语言的文本有关的输出语音数据。其中，与第一语言有关的说话人员的发声特征可包含相应说话人员的发声的音色或说话人员的发声的音高中的至少一个。

在再一实施例中，语音合成部230可通过接收第二语言的文本和与第一语言有关的说话人员的发声特征以及与第一语言有关的说话人员的感情特征来生成模仿该说话人员的语音的与第二语言的文本有关的输出语音数据。其中，与第一语言有关的说话人员的感情特征可包含与该说话人员的发声内容中内含的感情(例如，说话人员的高兴、悲伤、愤怒、恐怖、信任、厌恶、惊吓或期待等的感情)有关的信息。

在另一实施例中，语音合成部230可通过接收第二语言的文本和与第一语言有关的说话人员的发声特征以及与第一语言有关的说话人员的韵律特征来生成模仿该说话人员的语音的与第二语言的文本有关的输出语音数据。其中，与第一语言有关的说话人员的韵律特征可包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息中的至少一个。

在语音合成部230中，与第二语言的文本一同接收的与第一语言有关的说话人员的发声特征、感情特征以及韵律特征可从与第一语言有关的任意说话人员发声的语音数据提取。在一实施例中，与第一语言有关的说话人员的发声特征、感情特征以及韵律特征可从使用第一语言的不同说话人员发声的语音数据提取。例如，与第一语言有关的感情特征和韵律特征可从第一语言的语音数据提取，与第一语言有关的发声特征可从不是第一语言的语音数据的说话人员的其他说话人员(例如，大家都知道的艺人、政治家等名人)发声的语音数据提取。这种从与第一语言有关的说话人员发声的语音数据提取的与第一语言有关的说话人员的发声特征、感情特征以及韵律特征可从语音翻译器120的外部接收，或还可从向语音翻译器120输入的第一语言的语音数据提取。

并且，与第一语言有关的说话人员的发声特征、感情特征或韵律特征可从该说话人员以第一语言发声的语音数据提取特征向量(feature vector)来生成。例如，从以第一语言发声的语音数据提取的特征向量可包括梅尔倒谱系数(MFCC，mel frequencycepstral coefficient)、线性预测系数(LPC，linear predictive coefficients)、感知线性预测(PLP，perceptual linear prediction)等的多种语音特征向量中的一个，但并不限定于此。

为了从所输入的第一语言的语音数据提取与第一语言有关的说话人员的发声特征、感情特征或韵律特征，语音翻译器120可包括发声特征提取部240、感情特征提取部250或韵律特征提取部260中的至少一个。发声特征提取部240可从第一语言的语音数据生成与第一语言有关的说话人员的发声特征。感情特征提取部250可从第一语言的语音数据生成与第一语言有关的说话人员的感情特征。并且，韵律特征提取部260可从第一语言的语音数据生成与第一语言有关的说话人员的韵律特征。语音合成部230可通过接收从机器翻译部220发送的第二语言的文本和从发声特征提取部240、感情特征提取部250或韵律特征提取部260中的至少一个发送的信息来生成模仿与第一语言有关的说话人员的语音的与第二语言的文本有关的输出语音数据。

为了将第二语言的文本转换成第二语言的语音数据，语音合成部230可使用单一人工神经网络文本语音合成模型。单一人工神经网络文本语音合成模型为以下说明的利用人工神经网络的多种文本语音合成模型中的一种，可以为以多个第一语言的学习文本、多个与第一语言的学习文本相对应的第一语言的学习语音数据、多个第二语言的学习文本以及多个与第二语言的学习文本相对应的第二语言的学习语音数据为基础来进行学习的文本语音合成模型。

在此情况下，语音合成部230可通过向多种语言文本语音合成模型输入与第一语言有关的说话人员的发声特征、感情特征或韵律特征中的至少一个来生成模仿与第一语言有关的说话人员的语音的与第二语言的文本有关的输出语音数据。

如上所述，在语音翻译部120从与第一语言有关的说话人员所发声的语音数据提取说话人员的特征来利用于从第一语言的语音数据翻译及合成为第二语言的语音数据的过程的情况下，即使语音合成部230的文本语音合成模型未事先学习相应说话人员的声音，也可模仿相应说话人员的语音来生成第二语言的输出语音数据。并且，在语音翻译部120将第一语言的语音数据翻译及合成为第二语言的语音数据的过程中，在反映与第一语言有关的说话人员的感情特征或韵律特征的情况下，可通过模仿该说话人员发声的语音中内含的感情或韵律来生成第二语言的输出语音数据。

语音翻译部120还可包括韵律翻译部270，上述韵律翻译部270可通过接收从韵律特征提取部260输出的与第一语言有关的韵律特征来生成与第二语言有关的韵律特征。如图所示，韵律翻译部270可接收通过韵律特征提取部260来从第一语言的语音数据提取的韵律特征。韵律翻译部270可将从第一语言的语音数据所提取的韵律特征转换成第二语言的输出语音的韵律特征。如上所述，在韵律翻译部270从第一语言的输入语音提取说话人员的韵律特征来翻译成第二语言的韵律特征的情况下，与第一语言的语音有关的语速、停顿读出、强调等的特征将被反映到第二语言的输出语音。

图3为示出本公开一实施例的语音合成部的详细结构的框图。如图所示，语音合成部230可包括编码器310(encoder)、注意力机制层320(attention)以及解码器330(decoder)。语音合成部230所包括的编码器310通过接收第二语言的文本来生成表示与所要合成的语音相对应的输入文本为何种的信息。并且，注意力机制层320生成需合成为语音的输入文本的位置信息。解码器330可基于从注意力机制层320接收的输入文本的位置信息来随着时间的经过生成与相应输入文本相对应的语音数据。

并且，语音合成部230所包括的编码器310及解码器330可接收说话人员的发声特征、感情特征以及韵律特征。这里的发声特征、感情特征以及韵律特征可分别为说话人员嵌入向量(speaker embedding)、感情嵌入向量(emotion embedding)、韵律嵌入向量(prosody embedding)。如以下参照图5至图7详细说明的内容，语音合成部230所包括的编码器310、注意力机制层320以及解码器330在转换成与第二语言的输入文本相对应的第二语言的语音数据的过程中，可通过反映目标说话人员的发声特征、感情特征和/或韵律特征来生成模仿目标说话人员的语音的单一人工神经网络文本语音合成模型。在本公开的一实施例中，语音合成部230构成的单一人工神经网络文本语音合成模型可以为利用序列到序列学习模型(seq2seq；sequence-to-sequence model)进行学习的。例如，序列到序列学习模型可通过使基于循环神经网络的编码器-解码器结构(encoder-decoder architecture，参照"Sequence to Sequence Learning with Neural Networks,"Ilya Sutskever,etal.,2014)和注意力机制结构(attention mechanism，参照"Neural Machine Translationby Jointly Learning to Align and Translate,"Dzmitry Bahdanau,at al.,2015以及"Effective Approaches to Attention-based Neural Machine Translation,"Minh-Thang Luong,at al.,2015)相结合来体现。

图4为示出本公开一实施例的韵律翻译部的详细结构的框图。

如图所示，韵律翻译部270可包括韵律编码器410、注意力机制层420以及韵律解码器430。韵律翻译部270所包括的编码器410通过接收第一语言的韵律特征来生成表示所要翻译的韵律特征为何种的信息。并且，注意力机制层420生成需翻译的韵律特征的位置信息。解码器430可基于从注意力机制层420接收的韵律特征的位置信息来随着时间的经过生成与相应韵律特征相对应的第二语言的韵律特征。

韵律翻译部270所包括的编码器410、注意力机制层420以及解码器430可以为利用序列到序列学习模型进行学习的。例如，序列到序列学习模型可通过使基于循环神经网络的编码器-解码器结构和注意力机制结构相结合来体现。

基于人工神经网络的语音合成部230可利用由多国语言(语言1、语言2、……、语言N)的学习文本和与之相对应的多国语言的学习语音数据对构成的数据库来学习。语音合成部230可接收文本，可对将文本适用于机器学习模型并输出的语音数据和正确语音数据进行比较来定义损失函数(loss function)。正确语音数据可以为由目标说话人员亲自录音的语音数据。语音合成部230可通过误差反向传播(error back propagation)算法学习损失函数，来最终获取在输入任意文本时生成所需输出语音数据的人工神经网络。语音合成部230可包括编码器510、解码器520以及声码器530。图5中的编码器510及解码器520可与图3中的编码器310及解码器330相对应。并且，解码器520所包括的单调注意力机制521(monotonic attention)可与图3中的注意力机制层320相对应。

语音合成部230所包括的编码器510可接收至少一个文本嵌入(text embedding)(ex：语言1、语言2、……、语言N)。其中，文本嵌入可以为与按字母单位、文字单位或音素(phoneme)单位分离的文本相对应的嵌入向量。为了获取文本嵌入向量，编码器510可使用已进行学习的机器学习模型。编码器可在执行机器学习的过程中更新机器学习模型，在此情况下，还可对所分离的文本中的文本嵌入向量进行变更。

语音合成部230所包括的编码器510可使文本嵌入向量通过由全连接层(fully-connected layer)构成的网前(pre-net)模块。网前可以为普通的前馈层(feedforwardlayer)或线性层(linear layer)。

编码器510可使网前模块的输出通过CBHG模块。CBHG模块可包括识别码卷积库(IDconvolution bank)、最大池化(max pooling)、高速网络(highway network)、双向门控循环单元(Bidirectional Gated Recurrent Unit)中的至少一个。编码器510可向解码器520输出从CBHG模块输出的多个隐状态h(hidden states)。从编码器510输出的多个隐状态可以为与表示需要合成语音的输入文本为何种有关的信息。

解码器520的单调注意力机制521可接收从编码器510接收的多个隐状态h。并且，解码器520的单调注意力机制521可从注意力循环神经网络接收信息。从注意力循环神经网络接收的信息可以为与解码器520到之前时间步长(time-step)为止生成怎样的语音有关的信息。并且，解码器520的单调注意力机制521可基于从注意力循环神经网络接收的信息及从编码器510接收的多个隐状态输出上下文向量ct。上下文向量ct可以为用于对在当前时间步长中从输入文本中的哪个部分开始生成语音进行决定的信息。例如，解码器520的单调注意力机制521可输出能够实现如下步骤的信息，即，在语音生成初期基于文本输入的前段部分来生成语音，随着逐渐生成语音，渐渐基于文本输入的后段部分来生成语音。

解码器520可包括一个以上的由全连接层构成的网前模块、由门控循环单元(GRU)构成的注意力循环神经网络以及由残差(residual)门控循环单元构成的解码器循环神经网络的集。解码器520的解码器循环神经网络可生成多个r帧。解码器520可通过按时间顺序排列所生成的多个r帧来输出由梅尔频谱表达的语音数据。

为了合成语音，解码器520可接收作为与说话人员的发声特征相对应的信息的独热说话人员识别码(one-hot speaker id)。解码器520可通过在查询表搜索独热说话人员识别码来获取与独热说话人员识别码相对应的说话人员的嵌入向量s。可在编码器510的CBHG模块、解码器520的解码器循环神经网络或注意力循环神经网络输出说话人员的嵌入向量s。解码器循环神经网络或注意力循环神经网络能够以对每个说话人员进行不同解码的方式构成人工神经网络的结构。

并且，为了学习人工神经网络，语音合成部230可利用包含文本、说话人员索引、语音信号的数据库。所输入的文本可由文字单位的独热向量(one-hot vector)构成。为了输入多国语言文本，可由均能够表达相应多国语言文字的独热向量构成。其中，可追加输入能够选择性地表示特定语言的信息。通过表示特定语言的信息来转换语言，由此还能够以特定语言风格合成对特定语言和其他语言进行发音的语音。并且，还可通过追加输入说话人员信息来按说话人员合成其他语音或以相应说话人员说出其他语言般地合成语音。像这样，将文本、说话人员信息、语言信息等用作各个人工神经网络的输入，以相应语音信号用作正确答案，并按以上所提及的方法进行学习，当文本和说话人员信息用作输入时，可得到能够输出相应说话人员的语音的语音合成部。

声码器530可接收解码器520的输出。声码器530所包括的CBHG模块可将解码器520的输出转换成线性标度(linear-scale)频谱。声码器530所包括的CBHG模块的输出可以为震级频谱(magnitude spectrogram)。声码器530可通过Griffin-Lim算法预测频谱的相位(phase)。声码器530可利用短时傅里叶逆变换(Inverse Short-Time Fourier Transform)来输出时域(time domain)的语音信号。

如图所示，语音合成部230可包括编码器610、解码器620以及声码器630。图6中的编码器610及解码器620分别与图3中的编码器310及解码器330相对应。并且，解码器620所包括的注意力机制621可与图3中的注意力机制层320相对应。以下，在图6中的编码器610、解码器620以及声码器630的结构和功能中，将省略对于与图5中的编码器510、解码器520以及声码器530相同或相似的结构和功能的说明。

与图5中的解码器520将说话人员的信息接收成独热说话人员识别码不同，图6中的解码器620将接收说话人员的语音。并且，为了从说话人员的语音提取特定信息，解码器620可使用说话人员识别网络(speaker identification net)。说话人员识别网络可由可对能够划分说话人员的特征进行提取的多种形态的多个机器学习模型中的一个或它们的组合来体现。

在一实施例中，说话人员识别网络可基于机器学习模型来将说话人员的语音转换成说话人员嵌入向量。说话人员嵌入向量可以为与说话人员的发声特征、感情特征以及韵律特征中的至少一个相关的嵌入向量。说话人员识别网络的机器学习模型可通过接收与多个不同语言有关的多个说话人员的语音数据，来对说话人员的发声特征、韵律特征、感情特征等进行机器学习。

说话人员识别网络可向编码器610的CBHG、解码器620的解码器循环神经网络以及注意力循环神经网络输出转换后的说话人员嵌入向量s。解码器620可基于说话人员嵌入向量s、输入文本来生成多个r帧。解码器620可通过按时间顺序排列多个r帧来生成由梅尔频谱表达的输出语音数据。声码器630可将由梅尔频谱表达的输出语音数据转换成时域的语音。

如图所示，语音合成部230可包括编码器710、解码器720以及声码器730。图7中的编码器710及解码器720可分别与图3中的编码器310及解码器330相对应。并且，图7中的解码器720所包括的注意力机制724可与图3中的注意力机制层320相对应。以下，在图7中的编码器710、解码器720以及声码器730的结构和功能中，将省略对于与图5及图6中的编码器510、610和解码器520、620以及声码器530、630相同或相似的结构和功能的说明。

在图7所示的结构中，编码器710可接收输入文本。编码器710所接收的输入文本可包括多种语言的文本。例如，输入文本可包括“你好

”或“How are you？”等的文章。编码器710可按字母单位、文字单位、音素单位分离所接收的输入文本。或者，编码器710可接收按字母单位、文字单位、音素单位分离的输入文本。

编码器710可包括至少一个嵌入层(例如：EL语言1、EL语言2、……、EL语言N)。编码器710的至少一个嵌入层可将按字母单位、文字单位、音素单位分离的输入文本转换成文本嵌入向量。为了将所分离的输入文本转换成文本嵌入向量，编码器710可使用已经学习的机器学习模型。编码器710可在执行机器学习的过程中更新机器学习模型，在此情况下，还可对所分离的输入文本的文本嵌入向量进行更新。

编码器710可使文本嵌入向量通过由全连接层构成的深度神经网络模块。深度神经网络可以为普通的前馈层或线性层。

编码器710可使深度神经网络的输出通过将卷积神经网络和循环神经网络的组合包括在其中的模块。卷积神经网络可捕捉基于卷积内核(convolution kernel)尺寸的区域特性，循环神经网络可捕捉长期依赖(long term dependency)。编码器710可输出编码器的多个隐状态h。从编码器710输出的多个隐状态可以为与表示需要合成语音的输入文本为何种有关的信息。

解码器720的嵌入层可执行与编码器710的嵌入层相似的运算。嵌入层可接收说话人员识别码。说话人员识别码可以为独热说话人员识别码，在此情况下，可根据独热说话人员识别码来按说话人员标记号码。例如，可将“第一说话人员”的说话人员识别码标记为“1”，可将“第二说话人员”的说话人员识别码标记为“2”，可将“第三说话人员”的说话人员识别码标记为“3”。嵌入层可将说话人员识别码转换成说话人员嵌入向量s。为了将说话人员识别码转换成说话人员嵌入向量s，解码器720可使用已经学习的机器学习模型。解码器720可在执行机器学习的过程中更新机器学习模型，在此情况下，还可对与说话人员识别码有关的说话人员嵌入向量s进行更新。

解码器720的注意力机制724可接收从编码器接收的多个隐状态h。并且，解码器720的注意力机制724可从注意力循环神经网络接收信息。从注意力循环神经网络接收的信息可以为与解码器720到之前时间步长为止生成怎样的语音有关的信息。并且，解码器720的注意力机制724可基于从注意力循环神经网络接收的信息及从编码器710接收的多个隐状态输出上下文向量ct。上下文向量ct可以为用于对在当前时间步长中从输入文本中的哪个部分开始生成语音进行决定的信息。例如，解码器720的注意力机制724可输出能够实现如下步骤的信息，即，在语音生成初期基于文本输入的前段部分来生成语音，随着逐渐生成语音，渐渐基于文本输入的后段部分来生成语音。

解码器720能够以通过向注意力循环神经网络及解码器循环神经网络输入说话人员嵌入向量s来按说话人员进行不同解码的方式构成人工神经网络的结构。并且，为了学习人工神经网络(单一人工神经网络文本语音合成模型)，语音合成部230可利用包含文本、说话人员索引、语音数据对的数据库。文本输入可由文字单位的独热向量构成。为了在语音合成部230输入多国语言文本，可由均能够表达相应多国语言文字的独热向量构成。并且，可向语音合成部230追加输入表示相应语言的信息。

多个哑帧725为在不存在之前时间步长的情况下向解码器720输入的帧。循环神经网络能够以自由回归(autoregressive)的方式进行机器学习。即，可将在之前时间步长722输出的r帧用作当前时间步长723的输入。由于最初时间步长721没有之前时间步长，因而解码器可向最初时间步长的机器学习输入多个哑帧725。

解码器720可包括一个以上的由全连接层构成的深度神经网络、由门控循环单元构成的注意力循环神经网络以及由残差门控循环单元构成的解码器循环神经网络的集721、722、723。其中，深度神经网络可以为普通的前馈层或线性层。并且，注意力循环神经网络为输出将要在注意力机制中使用的信息的层。由于已在之前的内容中对于注意力机制进行了说明，因而将省略其详细说明。解码器循环神经网络可从注意力机制接收输入文本的位置信息。即，位置信息可以为与解码器720将输入文本的那个位置转换成语音有关的信息。解码器循环神经网络可从注意力循环神经网络接收信息。从注意力循环神经网络接收的信息可以为与解码器720到之前时间步长为止生成怎样的语音有关的信息。解码器循环神经网络可生成将要连接在目前为止所生成的语音之后的之后输出语音。输出语音可包含梅尔频谱形态的r个帧。

为了进行文本语音合成，可反复执行深度神经网络、注意力循环神经网络以及解码器循环神经网络的动作。例如，在最初时间步长721获取的r个帧可成为之后时间步长722的输入。并且，在时间步长722输出的r个帧可成为之后时间步长723的输入。

可通过如上所述的步骤来生成与文本的所有单位有关的语音。语音合成部230可通过按时间顺序连接(concatenate)在每个时间步长出现的梅尔频谱来获取与整个文本有关的梅尔频谱的语音。可向声码器730输出与整个文本有关的梅尔频谱的语音。

本公开一实施例的声码器730的卷积神经网络或循环神经网络可执行与编码器的卷积神经网络或循环神经网络相似的动作。即，声码器730的卷积神经网络或循环神经网络可捕捉区域特性和长期依赖。声码器730的卷积神经网络或循环神经网络可输出线性标度频谱(linear-scale spectrogram)。线性标度频谱可以为震级频谱。声码器730可通过Griffin-Lim算法预测频谱的相位。声码器730可利用短时傅里叶逆变换来输出时域的语音信号。

本公开的其他实施例的声码器730可基于机器学习模型来从梅尔频谱中获取语音信号。机器学习模型可以为对梅尔频谱与语音信号之间的相关关系进行机器学习的模型。例如，可使用WaveNet或WaveGlow等的模型。

基于人工神经网络的语音合成部230将通过利用以多国语言的文本和语音数据的成对方式存在的大容量数据库来学习。语音合成部230可接收文本并通过对所输出的语音数据和正确语音信号进行比较来定义损失函数。语音合成部230可通过误差反向传播算法学习损失函数，来最终获取在输入任意文本时生成所需语音输出的人工神经网络。

语音合成部230可通过利用以如上所述的方法生成的单一人工神经网络文本语音合成模型来转换语言并合成以第一语言风格说出第二语言的语音。并且，语音合成部230可通过接收说话人员的发声特征来合成基于相应说话人员的风格的语音。并且，语音合成部230还能够以如同使用第一语言的说话人员说出第二语言的方式合成语音。

语音合成部230可通过将文本、说话人员的发声特征、语言信息等分别用作人工神经网络的输入来输出语音数据。语音合成部230可通过以对所输出的语音数据和正确语音数据进行比较的方式学习，来在接收文本和说话人员的发声特征时以如同模仿相应说话人员的语音来读出文本的方式生成输出语音数据。

图8为示出对用于根据本公开的一实施例来合成多国语言的语音的单一人工神经网络文本语音合成模型进行学习的方法的图。

如图所示，基于多个语言的文本和与之相对应的语音数据来生成单一人工神经网络文本语音合成模型的学习步骤(training stage)可基于韩语文本和语音数据的对来执行。例如，向编码器810输入作为韩语文本的“你好

”并向编码器810和解码器820输入韩语说话人员向量。编码器810和解码器820可与在图3、图5至图7中所示的编码器310、510、610、710和解码器330、520、620、720相对应。韩语说话人员向量可与图5至图7中的说话人员嵌入向量s相对应。韩语说话人员向量可与说话人员830的发声特征、韵律特征或感情特征中的至少一个相对应。

如参照图3、图5至图7进行的说明，解码器820可从编码器810接收表示与韩语语音输出相对应的文本是什么的信息(即，编码器的隐状态)。解码器820可基于编码器的隐状态及韩语说话人员向量来生成韩语语音输出。在所生成的语音输出与实测语音之间存在不同之处的情况下，语音合成部230可通过机器学习来更新单一人工神经网络文本语音合成模型。语音合成部230能够以使所生成的语音输出与实测语音之间的不同之处达到最小化的方式反复更新单一人工神经网络文本语音合成模型。

图9为示出对用于根据本公开的一实施例来合成多国语言的语音的单一人工神经网络文本语音合成模型进行学习的方法的图。

如图所示，基于多种语言的文本和与之相对应的语音数据生成单一人工神经网络文本语音合成模型的学习步骤将接着图8所示的学习步骤并基于英语文本和语音数据的对来执行。例如，向编码器910输入英语文本“Hello？”并向编码器810和解码器820输入英语说话人员向量。

如参照图3、图5至图7进行的说明，解码器820可从编码器810接收表示与英语语音输出相对应的文本是什么的信息(即，编码器的隐状态)。解码器820可基于编码器的隐状态及英语说话人员向量来生成英语语音输出。在所生成的语音输出与实测语音之间存在不同之处的情况下，语音合成部230可通过机器学习来更新单一人工神经网络文本语音合成模型。语音合成部230能够以使所生成的语音输出与实测语音之间的不同之处达到最小化的方式反复更新单一人工神经网络文本语音合成模型。

虽然单独示出了图8中的语音合成部230的学习步骤及图10中的语音合成部230的学习步骤，但这些学习步骤可仅属于用于生成相同的单一人工神经网络文本语音合成模型的整个学习过程中的一部分。即，语音合成部230通过接收多种语言的文本以及与多种语言的文本相对应的语音数据来反复执行与各个语言的文本及与之相对应的语音数据相关的学习，从而可生成单一人工神经网络文本语音合成模型。

图10为示出利用根据本公开的一实施例学习的单一人工神经网络文本语音合成模型来合成多国语言语音的方法的图。

如图所示，采用根据图8及图9所示的方法学习的单一人工神经网络文本语音合成模型来生成多国语言语音输出的测试步骤(test stage)可通过向编码器810输入英语文本(例如：“Hello？”)并向编码器810和解码器820输入韩语说话人员向量830来执行。韩语说话人员向量可包括与说话人员的发声特征有关的嵌入向量、与韵律特征有关的嵌入向量、与感情特征有关的嵌入向量中的至少一个。

在此情况下，解码器820可通过向单一人工神经网络文本语音合成模型输入英语文本及韩语说话人员向量来生成韩语风格的英语语音(例如，“Hello？”)。单一人工神经网络文本语音合成模型可以为根据图8及图9所示的方法来生成的单一人工神经网络文本语音合成模型。解码器1020生成的语音可以为具有模仿韩语说话人员的语音来说出英语“Hello？”的效果的语音。

图11为示出利用根据本公开的一实施例学习的单一人工神经网络文本语音合成模型来合成多国语言语音的方法的图。

如图所示，采用根据图8及图9所示的方法学习的单一人工神经网络文本语音合成模型来生成多国语言语音输出的测试步骤可通过向编码器810输入韩语文本(例如：

并向编码器810和解码器820输入英语说话人员向量930来执行。英语说话人员向量可包括与说话人员的发声特征有关的嵌入向量、与韵律特征有关的嵌入向量、与感情特征有关的嵌入向量中的至少一个。

在此情况下，解码器820可通过向单一人工神经网络文本语音合成模型输入韩语文本及英语说话人员向量来生成英语风格的英语语音(例如：“你好

”)。单一人工神经网络文本语音合成模型可以为根据图8及图9所示的方法来生成的单一人工神经网络文本语音合成模型。解码器820生成的语音可以为具有模仿英语说话人员的语音来说出英语“你好

”的效果的语音。

图12为示出本公开一实施例的视频翻译系统的结构的框图。

如图所示，视频翻译系统1200可包括语音去除部1210及语音合成部1220。语音合成部1220可与图2至图11中的语音合成部230相对应。

视频翻译系统1200可执行获取以第一语言的学习文本、与上述第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤。视频翻译系统1200可在存储器存储单一人工神经网络文本语音合成模型。或者，视频翻译系统1200可通过网络接收单一人工神经网络文本语音合成模型。

语音去除部1210可接收第一语言的视频数据。第一语言的视频数据可包含第一语言的输入语音数据。语音去除部1210可输出从第一语言的视频数据中去除第一语言的输入语音的视频数据。

语音合成部1220可接收已经翻译的文本。已经翻译的文本可以为在将第一语言输入语音数据转换成相同或相似含义的第一语言的文本后以与第一语言的文本相对应的第二语言的文本的方式对第一语言的文本进行翻译的文本。例如，已经翻译的文本可以为第一语言的视频数据中所包含的第二语言的字幕数据。

语音合成部1220可接收说话人员识别码及时间信息。在一实施例中，说话人员识别码可表示与第一语言的视频数据中所包含的语音数据有关的说话人员的发声特征，还可表示使用第一语言的其他说话人员的发声特征。例如，说话人员识别码可从其他说话人员(例如，大家都知道的艺人、政治家等名人)发声的语音数据提取，而不是从第一语言的视频数据中所包含的语音数据的说话人员发生的语音数据。其中，说话人员识别码可与图5至图7中的说话人员嵌入向量s相对应。说话人员识别码可表示与特定说话人员(例如，与第一语言有关的说话人员)相对应的嵌入向量。因此，语音合成部1220可基于说话人员识别码来生成模仿特定说话人员的声音的语音。另一方面，时间信息可以为表示一同显示已经翻译的文本和视频数据的时间点的信息。或者，时间信息可以为表示一同显示与已经翻译的文本相对应的第二语言的语音和视频数据的时间点的信息。语音合成部1220可通过向单一人工神经网络文本语音合成模型输入已经翻译的文本以及说话人员识别码来获取翻译后的语言的语音。视频翻译系统1200可基于时间信息来使翻译后的语言的语音与删除语音的视频数据相结合。由此，与翻译后的语言的语音相结合的视频数据可包含第二语言的语音。

图13为示出本公开的再一实施例的视频翻译系统的结构的框图。

如图所示，视频翻译系统1300可包括语音去除部1310、语音识别部1320、机器翻译部1330、语音合成部1340、说话人员识别部1350、时间同步部1355以及发声特征提取部1360。

图13中的语音去除部1310及语音合成部1340可分别与图12中的语音去除部1210及语音合成部1220相对应。因此，在对图13进行的说明中，将省略与图12重复的说明。

视频翻译系统1300可执行获取以第一语言的学习文本、与上述第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤。视频翻译系统1300可在存储器存储单一人工神经网络文本语音合成模型。或者，视频翻译系统1300可通过网络接收单一人工神经网络文本语音合成模型。

视频翻译系统1300可执行接收包含第一语言的输入语音数据的视频数据、与第一语言的输入语音数据相对应的第一语言的文本以及与上述第一语言有关的说话人员的发声特征的步骤。

参照图13，语音去除部1310可接收第一语言的视频数据。第一语言的视频数据可以为包含第一语言的输入语音数据的视频数据。语音去除部1310可执行从视频数据中去除第一语言的输入语音数据的步骤。

视频翻译系统1300可从第一语言的视频数据提取第一语言的输入语音数据。语音识别部1320可将第一语言的输入语音数据转换成第一语言的文本。机器翻译部1330可执行将第一语言的文本转换成第二语言的文本的步骤。语音识别部1320及机器翻译部1330可分别与图2中的语音识别部210及机器翻译部220相对应。

说话人员识别部1350可基于第一语言的语音来获取说话人员识别码。在一实施例中，说话人员识别部1350可从已经学习的机器学习模型进行获取。机器学习模型可以为基于多个说话人员的语音来进行机器学习的模型。说话人员识别部1350可通过向机器学习模型输入第一语言语音来生成说话人员识别码。说话人员识别码可以为与特定说话人员相对应的嵌入向量。根据另一实施例，说话人员识别部1350还可不使用机器学习模型。说话人员识别部1350可从数据库选择与第一语言的语音最相似的与说话人员的语音相关的说话人员识别码。

时间同步部1355可基于从语音识别部1320和机器翻译部1330输出的语音及文本的位置信息来生成并输出时间信息。时间信息可以为表示一同显示与第一语言的语音相对应的第二语言的语音和视频数据的时间点的信息。

发声特征提取部1360可从第一语言的语音获取与第一语言有关的说话人员的发声特征。如同之前所说明的内容，说话人员的发声特征可包含说话人员的发声的音色或说话人员的发声的音高中的至少一个。

语音合成部1340可执行通过向上述单一人工神经网络文本语音合成模型输入第二语言的文本及与第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。视频翻译系统1300可执行使输出语音数据与通过语音去除部1310去除语音的视频数据相结合的步骤。

语音合成部1340可执行通过向上述单一人工神经网络文本语音合成模型输入第二语言的文本、说话人员识别码(ID)以及与第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。

视频翻译系统1300可输出将对与第一语言有关的说话人员的发声特征进行模仿的第二语言的语音包含在内的视频数据。即，第二语言的语音可以为如同对与第一语言有关的说话人员的语音进行模仿来以第二语言说话似的语音。

图14为示出本公开的另一实施例的视频翻译系统的结构的框图。

参照图14，视频翻译系统1400可包括语音去除部1410、语音识别部1420、机器翻译部1430、语音合成部1440、说话人员识别部1450、时间同步部1455、发声特征提取部1460以及感情特征提取部1470。图14中的语音去除部1410、语音识别部1420、机器翻译部1430、语音合成部1440、说话人员识别部1450、时间同步部1455以及发声特征提取部1460可分别与图13中的语音去除部1310、语音识别部1320、机器翻译部1330、语音合成部1340、说话人员识别部1350、时间同步部1355以及发声特征提取部1360相对应。因此，在对图14进行说明的过程中，将省略与图13重复的说明。

视频翻译系统1400还可包括感情特征提取部1470。感情特征提取部1470可从第一语言的输入语音数据生成与第一语言有关的说话人员的感情特征。感情特征提取部1470可与图2中的感情特征提取部250。

语音合成部1440可生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据。语音合成部1440可执行通过向单一人工神经网络文本语音合成模型输入第二语言的文本以及与第一语言有关的说话人员的发声特征及感情特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤。

图15为示出本公开的还有一实施例的视频翻译系统的结构的框图。

参照图15，视频翻译系统1500可包括语音去除部1510、语音识别部1520、机器翻译部1530、语音合成部1540、说话人员识别部1550、时间同步部1555、发声特征提取部1560、感情特征提取部1570、韵律特征提取部1580以及韵律翻译部1580。图15中的语音翻译部120、语音去除部1510、语音识别部1520、机器翻译部1530、语音合成部1540、说话人员识别部1550、时间同步部1555、发声特征提取部1560以及感情特征提取部1570可分别与图14中的语音去除部1410、语音识别部1420、机器翻译部1430、语音合成部1440、说话人员识别部1450、时间同步部1455、发声特征提取部1460以及感情特征提取部1470相对应。因此，在对图15进行说明的过程中，将省略与图14重复的说明。

视频翻译系统1500还可包括韵律特征提取部1580。韵律特征提取部1580可执行从第一语言的输入语音数据生成与第一语言有关的说话人员的韵律特征的步骤。韵律特征提取部1580可与图2中的韵律特征提取部260相对应。

并且，视频翻译系统1500还可包括韵律翻译部1585，上述韵律翻译部1585通过接收从韵律特征提取部1580输出的与第一语言有关的韵律特征来生成与第二语言有关的韵律特征。如图所示，韵律翻译部1585可接收通过韵律特征提取部1580来从第一语言的语音数据提取的韵律特征。韵律翻译部1585可将从第一语言的语音数据所提取的韵律特征转换成第二语言的输出语音的韵律特征。如上所述，在韵律翻译部1585从第一语言的输入语音提取说话人员的韵律特征来翻译成第二语言的韵律特征的情况下，与第一语言的语音有关的语速、停顿读出、强调等的特征将被反映到第二语言的输出语音。

并且，语音合成部1540可生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据。并且，语音合成部1540可执行通过向上述单一人工神经网络文本语音合成模型输入第二语言的文本以及与第一语言有关的说话人员的发声特征、感情特征及韵律特征来生成模仿说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。

图16为示出本公开一实施例的语音翻译方法1600的流程图。

语音翻译部120可利用多种语言文本语音合成模型来翻译语音。语音翻译部120可执行获取以第一语言的学习文本、与第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤(步骤1610)。语音翻译部120可执行接收第一语言的输入语音数据及与上述第一语言有关的说话人员的发声特征的步骤(步骤1620)。语音翻译部120可执行将第一语言的输入语音数据转换成第一语言的文本的步骤(步骤1630)。语音翻译部120可执行将第一语言的文本转换成第二语言的文本的步骤(步骤1640)。语音翻译部120可执行通过向单一人工神经网络文本语音合成模型输入第二语言的文本以及说话人员的发声特征来生成模仿说话人员的语音的与第二语言的文本有关的输出语音数据的步骤(步骤1650)。

图17为示出本公开一实施例的视频翻译方法1700的流程图。

语音翻译部120可利用多种语言文本语音合成模型来翻译视频数据的语音。语音翻译部120可执行获取以第一语言的学习文本、与上述第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与上述第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤(步骤1710)。语音翻译部120可执行接收包含第一语言的输入语音数据的视频数据、与上述第一语言的输入语音数据相对应的第一语言的文本以及与上述第一语言有关的说话人员的发声特征的步骤(步骤1720)。语音翻译部120可执行从视频数据删除上述第一语言的输入语音数据的步骤(步骤1730)。语音翻译部120可执行将第一语言的文本转换成第二语言的文本的步骤(步骤1740)。语音翻译部120可执行通过向单一人工神经网络文本语音合成模型输入第二语言的文本以及与上述第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤(步骤1750)。语音翻译部120可执行使输出语音数据与视频数据相结合的步骤(步骤1760)。

图18为本公开一实施例的文本语音合成系统1800的框图。

参照图18，一实施例的文本语音合成系统1800可包括数据学习部1810及数据识别部1820。数据学习部1810及数据识别部1820可分别与上述多种实施例中的语音翻译系统100和视频翻译系统1200、1300、1400、1500的结构要素中的基于人工神经网络的语音合成部相对应。并且，文本语音合成系统1800可包括处理器及存储器。

数据学习部1810可进行对于文本的语音学习。数据学习部1810根据文本来学习与输出哪种语音有关的基准。并且，数据学习部1810可学习与利用哪种语音的特征输出语音有关的基准。语音的特征可包含音素的发音、使用人员的语气、语调或重音中的至少一个。数据学习部1810可获取用于学习的数据并将所获取的数据用于后述的数据学习模型，从而可学习基于文本的语音。

数据识别部1820可基于文本来输出与文本有关的语音。数据识别部1820可利用已学习的数据学习模型由规定的文本输出语音。数据识别部1820可根据基于学习的预设的基准来获取规定的文本(数据)。并且，数据识别部1820可通过将所获取的数据用作输入值并利用数据学习模型，从而可输出基于规定数据的语音。并且，将所获取的数据用作输入值并通过数据学习模型来输出的结果值可用于更新数据学习模型。

数据学习部1810及数据识别部1820中的至少一个可被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据学习部1810或数据识别部1820中的至少一个还可被制造成用于人工智能(AI，artificial intelligence)的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器(CPU)或应用处理器(application processor))或图形专用处理器(例如：图形处理器(GPU))的一部分来搭载于已说明的各种电子装置。

并且，数据学习部1810及数据识别部1820还可分别单独装载于单独的电子装置。例如，数据学习部1810及数据识别部1820中的一个可装载于电子装置，剩余一个可装载于服务器。并且，数据学习部1810及数据识别部1820可通过有线或无线方式相连接并向数据识别部1820提供由数据学习部1810构建的模型信息，向数据识别部1820输入的数据可作为追加学习数据来被提供到数据学习部1810。

另一方面，数据学习部1810及数据识别部1820中的至少一个可由软件模块来体现。在数据学习部1810及数据识别部1820中的至少一个由软件模块(或者包含指令(instruction)的程序模块)体现的情况下，可将软件模块存储于存储器或非暂时性计算机可读记录介质(non-transitory computer readable media)。并且，在此情况下，至少一个软件模块可由操作系统(OS，Operating System)提供，或可由规定的应用程序提供。或者，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

本公开一实施例的数据学习部1810可包括数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814以及模型评价部1815。

数据获取部1811可获取机器学习所需的数据。为了进行学习，将需要很多数据，因而数据获取部1811可接收多个文本及与之相对应的语音。

为了判断使用人员的心理状态，预处理部1812能够以可将所获取的数据用到机器学习的方式对所获取的数据进行预处理。预处理部1812能够以可使后述的模型学习部1814进行使用的方式按预设的格式加工所获取的数据。例如，预处理部1812可通过对文本及语音进行语素分析来获取语素嵌入。

学习数据选择部1813可在所预处理的数据中选择学习所需的数据。可向模型学习部1814提供所选择的数据。学习数据选择部1813可根据预设基准来在所预处理的数据中选择学习所需的数据。并且，学习数据选择部1813还可通过由后述的模型学习部1814进行的学习来根据预设基准选择数据。

模型学习部1814可基于学习数据来学习与根据文本输出哪种语音有关的基准。并且，模型学习部1814可通过将根据文本输出语音的学习模型用作学习数据来进行学习。在此情况下，数据学习模型可以为预先构建的模型。例如，数据学习模型可以为通过接收基础学习数据(例如，样本语音等)来预先构建的模型。

数据学习模型可将学习模型的使用领域、学习的目的或装置的计算机性能等考虑在内来构建。例如，数据学习模型可以为基于神经网络(Neural Network)的模型。例如，可将深度神经网络、循环神经网络、长短期记忆人工神经网络模型(Long Short-Term Memorymodels，LSTM)、双向循环深度神经网络(BRDNN、Bidirectional Recurrent Deep NeuralNetwork)、卷积神经网络等的模型用作数据学习模型，但并不限定于此。

根据不同的实施例，在存在多个预先构建的数据学习模型的情况下，模型学习部1814将所输入的学习数据与基础学习数据之间的关联性最大的数据学习模型确定为所要学习的数据学习模型。在此情况下，可按照数据的类型先分类基础学习数据，可按照数据的类型先构建数据学习模型。例如，可按照生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的类型、学习数据的生成者、学习数据内的对象的种类等多种基准来先分类基础学习数据。

并且，例如，模型学习部1814可通过利用包括误差反向传播法或梯度下降法(gradient descent)在内的学习算法来学习数据学习模型。

并且，例如，模型学习部1814可通过将学习数据用作输入值的监督学习(supervised learning)来学习数据学习模型。并且，例如，模型学习部1814可为了以没有特别监督的方式判断情况而对所需的数据的种类进行自学习，从而可通过发现用于判断情况所需的基准的非监督学习(unsupervised learning)，来学习数据学习模型。并且，例如，模型学习部1814可通过将与基于学习的情况判断的结果是否准确有关的反馈利用到其中的强化学习(reinforcement learning)来学习数据学习模型。

并且，若学习到数据学习模型，则模型学习部1814可对所学习的数据学习模型进行存储。在此情况下，模型学习部1814可将所学习的数据学习模型存储于包括数据识别部1820的电子装置的存储器。或者，模型学习部1814还可将所学习的数据学习模型存储于以有线或无线网络方式与电子装置相连接的服务器的存储器。

在此情况下，例如，存储所学习的数据学习模型的存储器还可一并存储与电子装置的至少一个其他结构要素相关的指令或数据。并且，存储器还可存储软件和/或程序。例如，程序可包括内核、中间件、应用程序接口(API)和/或应用程序(或“应用”)等。

模型评价部1815向数据学习模型输入评价数据，在从评价数据输出的结果无法满足规定基准的情况下，可使模型学习部1814重新进行学习。在此情况下，评价数据可以为用于评价数据学习模型的预设的数据。

例如，在所学习的数据学习模型对于评价数据的结果中，在识别结果不正确的评价数据的数量或比率超出预设的临界值的情况下，模型评价部1815可评价为未满足规定基准。例如，在规定基准为2％的情况下，若所学习的数据学习模型对共1000个评价数据输出的识别结果中有超过20个评价数据识别结果错误，则模型评价部1815可评价为所学习的数据学习模型并不适合。

另一方面，在存在多个所学习的数据学习模型的情况下，模型评价部1815对各个所学习的视频学习模型评价是否满足规定基准，可将满足规定基准的模型确定为最终数据学习模型。在此情况下，在存在多个满足规定基准的模型的情况下，模型评价部1815可将按照评价分数高的顺序预设的一个或规定数量的模型确定为最终数据学习模型。

另一方面，数据学习部1810内的数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814以及模型评价部1815中的至少一个可被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814及模型评价部1815中的至少一个还可被制造成用于人工智能的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器或应用处理器)或图形专用处理器(例如：图形处理器)的一部分来搭载于已说明的各种电子装置。

并且，数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814及模型评价部1815可装载于一个电子装置，或者还可分别装载于多个单独的电子装置。例如，数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814以及模型评价部1815中的一部分可装载于电子装置，剩余一部分可装载于服务器。

并且，数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814及模型评价部1815中的至少一个可由软件模块来体现。在数据获取部1811、预处理部1812、学习数据选择部1813、模型学习部1814及模型评价部1815中的至少一个由软件模块(或者包含指令的程序模块)体现的情况下，可将软件模块存储于非暂时性计算机可读记录介质。并且，在此情况下，至少一个软件模块可由操作系统提供，或可由规定的应用程序提供。或者，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

本公开一实施例的数据识别部1820可包括数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824以及模型更新部1825。

数据获取部1821可获取输出语音所需的文本。相反，数据获取部1821可获取输出文本所需的语音。预处理部1822能够以用到为了输出语音或文本而获取的数据的方式对所获取的数据进行预处理。预处理部1822能够以可使后述的识别结果提供部1824用到为了输出语音或文本而获取的数据的方式按预设的格式加工所获取数据。

识别数据选择部1823可在所预处理的数据中选择输出语音或文本所需的数据。可向识别结果提供部1824提供所选择的数据。识别数据选择部1823可根据用于输出语音或文本的预设基准来在所预处理的数据中选择一部分或全部。并且，识别数据选择部1823还可根据通过模型学习部1814的学习预设的基准来选择数据。

识别结果提供部1824可通过向数据学习模型采用所选择的数据来输出语音或文本。识别结果提供部1824可将通过识别数据选择部1823选择的数据用作输入值，来向数据学习模型采用所选择的数据。并且，识别结果可根据数据学习模型来确定。

模型更新部1825能够以对由识别结果提供部1824提供的识别结果的评价为基础，来更新数据学习模型。例如，模型更新部1825向模型学习部1814提供由识别结果提供部1824提供的识别结果，从而可使模型学习部1814更新数据学习模型。

另一方面，数据识别部1820内的数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824及模型更新部1825中的至少一个可被制造成至少一个硬件芯片形态并搭载于电子装置。例如，数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824及模型更新部1825中的至少一个还可被制造成用于人工智能的专用硬件芯片形态，或者还可被制造成现有通用处理器(例如：中央处理器或应用处理器)或图形专用处理器(例如：图形处理器)的一部分来搭载于已说明的各种电子装置。

并且，数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824及模型更新部1825可装载于一个电子装置，或者还可分别装载于多个单独的电子装置。例如，数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824以及模型更新部1825中的一部分可装载于电子装置，剩余一部分可装载于服务器。

并且，数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824及模型更新部1825中的至少一个可由软件模块来体现。在数据获取部1821、预处理部1822、识别数据选择部1823、识别结果提供部1824及模型更新部1825中的至少一个由软件模块(或者包含指令的程序模块)体现的情况下，可将软件模块存储于非暂时性计算机可读记录介质。并且，在此情况下，至少一个软件模块可由操作系统提供，或可由规定的应用程序提供。或者，至少一个软件模块中的一部分可由操作系统提供，剩余一部分可由规定的应用程序提供。

以上，以多种实施例为中心进行了说明。本发明所属技术领域的普通技术人员可理解在不脱离本发明的本质特性的范围内以多种变形的实施方式实现本发明。因此，应以说明的观点看待所公开的实施例，而不是以限定性的观点看待所公开的实施例。本发明的范围由发明要求保护范围来体现，而不是以上的说明，与发明要求保护范围等同的范围内的所有不同之处应解释成属于本发明。

另一方面，能够以可在计算机中运行的程序的方式制作本发明的实施例，可利用计算机可读记录介质来在用于运行上述程序的通用数字计算机中体现本发明。上述计算机可读记录介质包括磁性存储介质(例如，只读存储器、软盘、硬盘等)、光学读取介质(例如，只读光盘(CD-ROM)、数字通用光盘(DVD)等)等的存储介质。

Claims

1.一种利用多种语言文本语音合成模型的语音翻译方法，其特征在于，包括：

获取以第一语言的学习文本、与上述第一语言的学习文本相对应的第一语言的学习语音数据、第二语言的学习文本以及与上述第二语言的学习文本相对应的第二语言的学习语音数据为基础进行学习的单一人工神经网络文本语音合成模型的步骤；

接收第一语言的输入语音数据及与上述第一语言有关的说话人员的发声特征的步骤；

将上述第一语言的输入语音数据转换成第一语言的文本的步骤；

将上述第一语言的文本转换成第二语言的文本的步骤；以及

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的文本及上述说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。

2.根据权利要求1所述的利用多种语言文本语音合成模型的语音翻译方法，其特征在于，与上述第一语言有关的说话人员的发声特征通过从上述说话人员以第一语言发声的语音数据提取特征向量来生成。

3.根据权利要求1所述的利用多种语言文本语音合成模型的语音翻译方法，其特征在于，

还包括从上述第一语言的输入语音数据生成与上述第一语言有关的说话人员的感情特征的步骤，

生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤包括通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的文本、与上述第一语言有关的说话人员的发声特征以及上述感情特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。

4.根据权利要求3所述的利用多种语言文本语音合成模型的语音翻译方法，其特征在于，上述感情特征包含与上述说话人员的发声内容中内含的感情有关的信息。

5.根据权利要求1所述的利用多种语言文本语音合成模型的语音翻译方法，其特征在于，

还包括从上述第一语言的输入语音数据生成与上述第一语言有关的说话人员的韵律特征的步骤，

生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤包括通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的文本、与上述第一语言有关的说话人员的发声特征以及上述韵律特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤。

6.根据权利要求5所述的利用多种语言文本语音合成模型的语音翻译方法，其特征在于，上述韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与音高有关的信息以及与停顿区间有关的信息中的至少一个。

7.一种利用多种语言文本语音合成模型的视频翻译方法，其特征在于，包括：

接收包含第一语言的输入语音数据的视频数据、与上述第一语言的输入语音数据相对应的第一语言的文本以及与上述第一语言有关的说话人员的发声特征的步骤；

从上述视频数据删除上述第一语言的输入语音数据的步骤；

将上述第一语言的文本转换成第二语言的文本的步骤；

通过向上述单一人工神经网络文本语音合成模型输入上述第二语言的文本以及与上述第一语言有关的说话人员的发声特征来生成模仿上述说话人员的语音的与上述第二语言的文本有关的输出语音数据的步骤；以及

使上述输出语音数据与上述视频数据相结合的步骤。

8.根据权利要求7所述的利用多种语言文本语音合成模型的视频翻译方法，其特征在于，

9.根据权利要求7所述的利用多种语言文本语音合成模型的视频翻译方法，其特征在于，

10.一种计算机可读存储介质，其特征在于，记录有包含指令的程序，上述指令用于执行权利要求1至9中任一项所述的方法中的多个步骤。