CN111587455B

CN111587455B - 利用机器学习的文本语音合成方法、装置及计算机可读存储介质

Info

Publication number: CN111587455B
Application number: CN201980007953.1A
Authority: CN
Inventors: 金泰洙; 李泳槿
Original assignee: Xinzhi Co ltd
Current assignee: Xinzhi Co ltd
Priority date: 2018-01-11
Filing date: 2019-01-11
Publication date: 2024-02-06
Anticipated expiration: 2039-01-11
Also published as: KR102401512B1; JP7355306B2; EP3739572A4; US20200082807A1; KR20220072811A; US11514887B2; US20230067505A1; CN111587455A; EP3739572A1; KR20190085882A; JP7082357B2; JP2022107032A; JP2021511533A

Abstract

本公开涉及利用文本合成语音的方法及再生所合成的语音的装置。利用机器学习的文本语音合成(text‑to‑speech synthesis)方法包括：生成单一人工神经网络文本语音合成模型的步骤，上述单一人工神经网络文本语音合成模型以多个学习文本及与多个学习文本相应的语音数据为基础执行机器学习来生成；接收输入文本的步骤；接收说话人员的发声特征的步骤；以及向单一人工神经网络文本语音合成模型输入上述说话人员的发声特征，来生成与反映说话人员的发声特征的上述输入文本有关的输出语音数据的步骤。

Description

利用机器学习的文本语音合成方法、装置及计算机可读存储介质

技术领域

本公开涉及接收输入文本并合成与输入文本有关的语音的方法及再生所合成的语音的装置。

背景技术

语音(speech)为可传递人的想法的基础且有效的工具中的一种。基于语音的通讯向用户提供直观且便利的服务，一部分装置使用通过语音来相互作用的语音用户界面。现有的在语音用户界面实现语音应答的简单方法具有如下限制，即，虽为录音，仅可利用所录音的语音。这种装置无法对于未录音的语音提供应答服务，因此，使用装置的关联性降低。例如，在如苹果智能语音助手(Apple Siri)及亚马逊智能助手(Amazon Alexa)等的人工智能(AI)代理中，用户的查询(queries)是随机的，因此，为了对于用户查询的应答服务，需可以生成多种文章。在这种应用程序中，在将尽可能录音所有应答的情况下，消耗相当多的时间和费用。在此环境中，许多研究人员努力制造自然且快速的语音合成模型。并且，广泛研究可利用文本生成语音的称为语音合成(TTS，text-to-speech)的文本语音合成。

通常，语音合成技术包括衔接语音合成(Concatenative TTS)、参数语音合成(Parametric TTS)等多种语音合成方法。例如，在衔接语音合成中，将语音切割为音素等非常短的单位并存储，并可通过结合构成所要合成的文章的语音来合成语音，在参数语音合成中，通过参数(parameter)表达语音特征，可通过利用声码器(vocoder)将表示构成所要合成的文章的语音特征的参数合称为与文章相应的语音。

另一方面，最近，积极研究基于人工神经网(例如，深度神经网络)的语音合成方法，根据这种语音合成方法合成的语音包括比现有方法更自然的语音特征。但是，为了通过基于人工神经网的语音合成方法提供用于新的说话人员的语音合成服务，需要与其说话人员的声音相应的许多数据，并需要再次学习利用上述数据的人工神经网模型。

发明内容

要解决的技术问题

本公开的方法及装置涉及如下的语音合成方法及装置，即，在不输入与新的说话人员有关的许多数据或信息的情况下，提供与反映新的说话人员的发声特性的输入文本有关的输出语音数据。并且，本公开的方法及装置可通过在没有额外的机器学习的状态下扩展新的说话人员来提供语音合成服务。

技术方案

本公开一实施例的利用机器学习的文本语音合成(text-to-speech synthesis)方法可包括：生成单一人工神经网络文本语音合成模型的步骤，上述单一人工神经网络文本语音合成模型以多个学习文本及与多个学习文本相应的语音数据为基础执行机器学习来生成；接收输入文本的步骤；接收说话人员的发声特征的步骤；以及向单一人工神经网络文本语音合成模型输入说话人员的发声特征，来生成与反映说话人员的发声特征的输入文本有关的输出语音数据的步骤。

在本公开一实施例的利用机器学习的接收文本语音合成方法中，接收说话人员的发声特征的步骤可包括：接收语音样本的步骤；以及从语音样本提取表示说话人员的发声特征的嵌入向量的步骤。

在本公开一实施例的利用机器学习的文本语音合成方法中，从语音样本提取表示说话人员的发声特征的嵌入向量的步骤包括提取表示说话人员的韵律特征的第一子嵌入向量的步骤，其中，韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与停顿区间有关的信息或与音高有关的信息中的至少一种信息，生成与反映说话人员的发声特征的输入文本有关的输出语音数据的步骤可包括如下的步骤，即，向单一人工神经网络文本语音合成模型输入表示韵律特征的第一子嵌入向量来生成与反映说话人员的韵律特征的输入文本有关的输出语音数据。

在本公开一实施例的利用机器学习的文本语音合成方法中，从语音样本提取表示说话人员的发声特征的嵌入向量的步骤包括提取表示说话人员的感情特征的第二子嵌入向量的步骤，其中，感情特征包含与说话人员的发声内容所包含的感情有关的信息，生成与反映说话人员的发声特征的输入文本有关的输出语音数据的步骤可包括如下的步骤，即，向单一人工神经网络文本语音合成模型输入表示感情特征的第二子嵌入向量来生成与反映说话人员的感情特征的输入文本有关的输出语音数据。

在本公开一实施例的利用机器学习的文本语音合成方法中，从语音样本提取表示说话人员的发声特征的嵌入向量的步骤包括提取表示与说话人员的音色及音高有关的特征的第三子嵌入向量的步骤，生成与反映说话人员的发声特征的输入文本有关的输出语音数据的步骤可包括如下的步骤，即，向单一人工神经网络文本语音合成模型输入表示与说话人员的音色及音高有关的特征的第三子嵌入向量来生成与反映和说话人员的音色及音高有关的特征的上述输入文本有关的输出语音数据。

在本公开一实施例的利用机器学习的文本语音合成方法中，生成与反映说话人员的发声特征的输入文本有关的输出语音数据的步骤可包括：接收与输出语音数据有关的追加输入的步骤；以追加输入为基础来修改表示说话人员的发声特征的嵌入向量的步骤；以及向单一人工神经网络文本语音合成模型输入所修改的上述嵌入向量来将输出语音数据转换成与反映追加输入中所包含的信息的输入文本有关的语音数据的步骤。

在本公开一实施例的利用机器学习的文本语音合成方法中，与输出语音数据有关的追加输入可包含与性别有关的信息、与年龄有关的信息、与各个地区口音有关的信息、与发声速度有关的信息、与音高或发声的大小有关的信息中的至少一种。

在本公开一实施例的利用机器学习的文本语音合成方法中，接收语音样本的步骤可包括如下的步骤，即，在预设的时间段内，将由说话人员输入的语音作为语音样本实时接收。

在本公开一实施例的利用机器学习的文本语音合成方法中，接收语音样本的步骤可包括如下的步骤，即，在预设的时间段内，从语音数据库接收由说话人员输入的语音。

并且，用于实现如上所述的利用机器学习的文本语音合成方法的程序可记录于计算机可读记录介质。

并且，本公开还可公开与如上所述的利用机器学习的文本语音合成方法关联的装置及技术方案等。

附图说明

图1为示出本公开一实施例的文本语音合成终端的图。

图2为示出本公开一实施例的文本语音合成装置的图。

图3为示出本公开一实施例的文本语音合成方法的流程图。

图4为示出本公开一实施例的文本语音合成装置图。

图5为示出以人工神经网为基础的文本语音合成装置的结构的图。

图6为示出本公开一实施例的以人工神经网为基础的文本语音合成装置的结构的图。

图7为示出本公开一实施例的提取表示可区分各个说话人员的发声特征的嵌入向量的网络的图。

图8为示出本公开一实施例的以人工神经网为基础的文本语音合成装置的结构的图。

图9为示出本公开一实施例的发声特征调节部的动作的流程图。

图10为示出本公开一实施例的变更输出语音的特性的用户界面的例示。

图11为本公开一实施例的文本语音合成系统的块图。

具体实施方式

参照详细后述的实施例及附图，能明确得知所公开的优点、特征及实现这些优点及特征的方法。但是，本公开并不局限于以下所公开的实施例，而是能够以互不相同的多种形态体现，本实施例只用于使本公开的内容更加完整，并为了向本公开所属技术领域的普通技术人员完整地告知本公开的范畴而提供，本公开仅由发明要求保护范围来定义。

以下，简要说明在本说明书中使用的术语并具体说明所公开的实施例。

在本说明书中使用的术语考虑本公开中的功能来尽可能选择了目前广泛使用的常规术语，这可根据普通技术人员的意图或案例、新技术的出现等不同。并且，在特定情况下，还具有申请人随机选定的术语，在此情况下，可在相应的发明的说明部分详细记载其含义。因此，在本公开使用的术语需通过以其术语所具有的含义和本公开的全文内容定义，而不是通过简单的术语名称定义。

在本说明书中，除非在文脉上明确特定为单数，单数的表达则包括复数的表达。并且，除非在文脉上明确特定为复数，复数的表达则包括单数的表达。

在说明书全文中，当提及某一部分“包括”某一结构要素时，除非具有特别反对的记载，则意味着还包括其他结构要素，而不是排除其他结构要素。

并且，在说明书中使用的“部”的术语意味着软件结构要素或硬件结构要素，“部”执行某种作用。但是，“部”并不限定于软件或硬件。“部”能够以位于可编址的存储介质的方式构成，还能够以再生一个或一个以上的处理器的方式构成。因此，如一例，“部”包括如软件结构要素、面向对象的软件结构要素、类结构要素及任务结构要素的结构要素、流程、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、阵列及变量。在结构要素和“部”中提供的功能可结合呈更少量的结构要素及“部”或还分离为追加的结构要素和“部”。

根据本公开的一实施例，“部”可体现为处理器及存储器。术语“处理器”应广义地解释为包括通用处理器、中央处理器(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些环境中，“处理器”可以指专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑门阵列(FPGA)等。术语“处理器”指处理设备的组合，例如，数字信号处理器与微处理器的组合、多个微处理器的组合、与数字信号处理器内核结合的一个以上的微处理器的组合或这种配置的任何其他组合。

术语“存储器”应广义地解释为包括能够存储电子信息的任何电子组件。术语存储器可指处理器可读介质的多种类型，如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、擦除可编程只读存储器(EPROM)、带电可擦可编程只读存储器(EEPROM)、闪存、磁或光数据存储器、寄存器等。若处理器可从存储器读取信息和/或向存储器写入信息，则存储器被称为处于与处理器进行电子通信的状态。集成在处理器中的存储器处于与处理器进行电子通信的状态。

以下，参照附图详细说明实施例，使得本公开所属技术领域的普通技术人员容易实施实施例。并且，为了明确说明本公开，在附图中，省略与说明无关的部分。

图1为示出本公开一实施例的文本语音合成终端100的图。

文本语音合成终端100可包括至少一个处理器和存储器。例如，文本语音合成终端100可在智能手机、计算机或手机等体现。文本语音合成终端100可通过包括通信部来与外部装置(例如，服务器)进行通信。

文本语音合成终端100可从用户110接收文本输入和特定说话人员输入。例如，如图1所示，文本语音合成终端100可将“你好？(How are you？)”作为文本输入来接收。并且，文本语音合成终端100可将“人1”作为说话人员输入来接收。其中，“人1”可表示预设的说话人员，即，“人1”的发声特征。文本语音合成终端100可预设人的多个发声特征中的至少一个发声特征(例如，“人1”)。例如，可通过通信部从服务器等的外部装置接收这种人的多个发声特征。图1示出可指定预设的说话人员的用户界面，但并不限定于此，用户可向文本语音合成终端100提供与特定文本有关的语音，文本语音合成终端100可显示通过提取所接收的语音的发声特征来选择用于语音合成的用户的发声特征。例如，可从所接收的语音提取语音的发声特征，可通过嵌入向量表示语音的发声特征。

文本语音合成终端100可输出与反映所指定的说话人员的发声特征的输入文本有关的语音数据。例如，如图1所示，在生成与“你好？”的输入文本有关的输出语音数据的过程中，可将所选择的“人1”的发声特征反映在输出语音数据。其中，特定说话人员的发声特征不仅模仿其说话人员的语音，还可包含可构成其发声的风格、韵律、感情、音色、音高等多种要素中的至少一种。为了生成这种输出语音数据，文本语音合成终端100可向文本语音合成装置提供输入文本及所指定的说话人员，可从文本语音合成装置接收所合成的语音数据(例如，反映“人1”的发声特征的“你好？”的语音数据)。以下，在图2详细说明文本语音合成装置。文本语音合成终端100可向用户110输出所合成的语音数据。与其不同，文本语音合成终端100可包含文本语音合成装置。

图2为示出本公开一实施例的文本语音合成装置200的图。

图2的文本语音合成装置200所使用的数据学习部(未图示)及数据识别部(未图示)可包括与后述的图11的文本语音合成装置1100的结构相同或相似的结构。文本语音合成装置200可包括发声特征提取部210、发声特征调节部220、语音数据库230、编码器240、解码器250、后处理处理器260及通信部270。

根据一实施例，发声特征提取部210接收说话人员的语音信号(例如，语音样本)，可从所接收的语音信号提取说话人员的发声特征。其中，所接收的语音信号或样本可包含表示与说话人员的发声特征相关的信息的语音频谱数据。在提取说话人员的发声特征的过程中，可使用可从说话人员的语音信号提取发声特征的任一周知的适当的特征提取方法。例如，可从利用如梅尔倒频谱(MFC)的语音处理方法所接收的语音信号或样本提取发声特征。与其不同，可通过向所学习的发声特征提取模型(例如，人工神经网)输入语音样本来提取发声特征。例如，可通过嵌入向量表示所提取的说话人员的发声特征。根据另一实施例，发声特征提取部210可接收文本及影像中的至少一种，可从所接收的文本及影像提取说话人员的发声特征。可向编码器240或解码器250中的至少一个提供所提取的说话人员的发声特征。

根据一实施例，从发声特征提取部210提取的说话人员的发声特征可存储于存储介质(例如，语音数据库230)或外部存储装置。由此，当合成与输入文本有关的语音时，可选择或指定预先存储于存储介质的说话人员的多个发声特征中的一个以上的说话人员的发声特征，所选择或指定的说话人员的多个发声特征可用于合成语音。

发声特征调节部220可调节说话人员的发声特征。根据一实施例，发声特征调节部220可接收用于调节说话人员的发声特征的信息。例如，可通过发声特征调节部220从用户接收用于调节说话人员的发声特征的信息。以从用户接收的信息为基础，发声特征调节部220可调节从发声特征提取部210提取的说话人员的发声特征。

根据一实施例，语音数据库230可存储学习文本及与多个学习文本相应的语音。学习文本可制造为至少一个语言，可包含人可理解的单词、句子及文章中的至少一种。并且，存储于语音数据库230的语音可包含多名说话人员读学习文本的语音数据。学习文本及语音数据可预先存储于语音数据库230或从通信部270接收。以语音数据库230所存储的学习文本及语音为基础，编码器240及解码器250中的至少一个可包含或生成单一人工神经网络文本语音合成模型。例如，编码器240及解码器250可构成单一人工神经网络文本合成模型。

根据一实施例，语音数据库230可存储从发声特征提取部210提取的一个以上的说话人员的发声特征。当合成语音时，可向编码器240或解码器中的至少一个提供所存储的说话人员的发声特征(例如，表示说话人员的发声特征的嵌入向量)。

并且，编码器240可接收输入文本，可将输入文本转换为字符嵌入来生成。可向单一人工神经网络文本语音合成模型(例如，网前(pre-net)、CBHG模块、深度神经网络(DNN)、卷积神经网络(CNN)+深度神经网络等)输入这种字符嵌入来生成编码器240的隐状态。根据一实施例，编码器240还从发声特征提取部210或发声特征调节部220中的至少一个接收说话人员的发声特征，可向单一人工神经网络文本语音合成模型(例如，网前、CBHG模块、深度神经网络、卷积神经网络+深度神经网络等)输入字符嵌入及说话人员的发声特征来生成编码器240的隐状态(hidden states)。可向解码器820提供通过上述方式生成的编码器240的隐状态。

解码器250可接收说话人员的发声特征。解码器250可从发声特征提取部210及发声特征调节部220中的至少一个接收说话人员的发声特征。但是，并不限定于此，解码器250可从通信部270或输入输出部(I/O部；未图示)接收说话人员的发声特征。

解码器250可从编码器240接收与输入文本相应的隐状态。根据一实施例，解码器250可包括注意模块，上述注意模块确定在当前时间步(time-step)中从输入文本中的哪个部分生成语音。

解码器250可通过向单一人工神经网络文本语音合成模型输入说话人员的发声特征及输入文本来生成与输入文本相应的输出语音数据。这种输出语音数据可包含反映说话人员的发声特征的合成语音数据。根据一实施例，以预设的第一说话人员的发声特征为基础，可生成可视作第一说话人员读取输入文本的输出语音数据。例如，输出语音数据可通过梅尔频谱表达。但并不限定于此，输出语音数据可通过线性频谱表达。这种输出语音数据可通过扬声器、后处理处理器260或通信部270中的至少一个输出。

根据一实施例，后处理处理器260可将在解码器250生成的输出语音数据转换为可通过扬声器输出的语音。例如，可通过波形(waveform)表示所转换的可输出的语音。后处理处理器260仅在从解码器250生成的输出语音数据不适合从扬声器输出的情况下进行工作。即，在从解码器250生成的输出语音数据适合从扬声器输出的情况下，输出语音数据可不经过后处理处理器260直接从扬声器输出。由此，图2中示出后处理处理器260包含于文本语音合成装置200，后处理处理器260还可不包含于文本语音合成装置200。

根据一实施例，后处理处理器260可将在解码器250生成的通过梅尔频谱表达的输出语音数据转换为时间域的波形。并且，在输出语音数据的信号大小未达到预设的基准大小的情况下，后处理处理器260可放大输出语音数据的大小。后处理处理器260可向扬声器或通信部270中的至少一个输出所转换的输出语音数据。

通信部270可使文本语音合成装置200与外部装置发送或接收信号或数据。外部装置可包括图1的文本语音合成终端100。与其不同，外部装置可包括其他文本语音合成装置。或者，外部装置可以为包括语音数据库的任一装置。

根据一实施例，通信部270可从外部装置接收文本。其中，文本可包括用于学习单一人工神经网络文本语音合成模型的学习文本。与其不同，文本可包括从用户终端接收的输入文本。可向编码器240或解码器250中的至少一个提供这种文本。

在一实施例中，通信部270可从外部装置接收说话人员的发声特征。通信部270可从外部装置接收说话人员的语音信号或样本并向发声特征提取部210发送。

通信部270可接收从用户终端输入的信息。例如，通信部270接收用于调节说话人员的发声特征的输入信息，并可向发声特征调节部220提供所接收的输入信息。

通信部270可向外部装置发送任一信号或数据。例如，通信部270可向外部装置发送与所生成的输出语音相关的信息，即，输出语音数据。并且，所生成的单一人工神经网络文本语音合成模型可通过通信部270向文本语音合成终端100或其他文本语音合成装置发送。

根据一实施例，文本语音合成装置200还可包括输入输出部(I/O装置；未图示)。输入输出部可从用户直接接收输入。并且，输入输出部可向用户输出语音、影像或文本中的至少一种。

图3为示出本公开一实施例的文本语音合成方法的流程图。

首先，在步骤310中，文本语音合成装置200可执行生成单一人工神经网络文本语音合成模型的步骤，上述单一人工神经网络文本语音合成模型以多个学习文本及多个学习文本相应的语音数据为基础执行机器学习来生成。在步骤320中，文本语音合成装置200可执行接收输入文本的步骤。在步骤330中，文本语音合成装置200可执行接收说话人员的发声特征的步骤。在步骤340中，文本语音合成装置200可执行如下的步骤，即，向预先学习的文本语音合成模型输入说话人员的发声特征，来生成与反映说话人员的发声特征的输入文本有关的输出语音数据。

以下，与图4一同详细说明文本语音合成方法。

图4为示出本公开一实施例的文本语音合成装置400的图。图4的文本语音合成装置400可包括与图2的文本语音合成装置200的结构相同或相似的结构。文本语音合成装置400可包括发声特征提取部410、语音数据库430、通信部470、编码器440以及解码器450。图4的发声特征提取部410可包括与图2的发声特征提取部210的结构相同或相似的结构。图4的语音数据库430可包括与图2的语音数据库230的结构相同或相似的结构。图4的通信部470可包括与图2的通信部270的结构相同或相似的结构。图4的编码器440可包括与图2的编码器240的结构相同或相似的结构。图4的解码器450可包括与图2的解码器250的结构相同或相似的结构。在图2的文本语音合成装置200的说明与图4的文本语音合成装置400的说明中，将省略重复的内容。

根据一实施例，文本语音合成装置400可接收说话人员的语音样本或信号。例如，可通过通信部470从用户终端接收语音样本。如另一例，可从包括语音数据库的文本语音合成终端接收这种说话人员的语音样本或信号。可向发声特征提取部410提供这种说话人员的语音样本或信号。说话人员的语音样本或信号可包含在预设的时间段内说话人员所输入的语音数据。例如，预设的时间段可以为说话人员可输入自己的语音的较短时间(例示：数秒、数十秒或数十分钟以内)。

根据一实施例，文本语音合成装置400可发送作为语音合成对象的输入文本。例如，可通过通信部470从用户终端接收输入文本。与其不同，文本语音合成装置400包括输入输出装置(未图示)，可接收这种输入文本。可向发声特征提取部410提供所接收的输入文本。

根据一实施例，语音数据库430可存储一名以上的说话人员的语音样本或信号。可向发声特征提取部410提供这种说话人员的语音样本或信号。

发声特征提取部410可执行从语音样本或信号提取表示说话人员的发声特征的嵌入向量的步骤。发声特征提取部410可包括韵律特征提取部412、感情特征提取部414以及音色及音高提取部416。图4示出，发声特征提取部410包括韵律特征提取部412、感情特征提取部414以及音色及音高提取部416，但是，可包括韵律特征提取部412、感情特征提取部414及音色及音高提取部416中的至少一个。

韵律特征提取部412提取表示说话人员的韵律特征的第一子嵌入向量。其中，韵律特征可包含与发声速度有关的信息、与发音重音有关的信息、与停顿区间有关的信息及与音高有关的信息中的至少一种。可向编码器440或解码器450中的至少一个提供表示所提取的说话人员的韵律特征的第一子嵌入向量。根据一实施例，编码器440及解码器450可通过向单一人工神经网络文本语音合成模型输入表示韵律特征的第一子嵌入向量来生成与反映说话人员的韵律特征的输入文本有关的输出语音数据。

感情特征提取部414可提取表示说话人员的感情特征的第二子嵌入向量。其中，感情特征可包含与说话人员的发声内容所包含的感情有关的信息。例如，感情特征并不限定于预设的事先确定的感情，可包含与说话人员的语音所包含的一种以上的感情有关的程度和/或所包含的感情的组合等信息。可向编码器440或解码器450中的至少一个提供表示所提取的说话人员的感情特征的第二子嵌入向量。根据一实施例，编码器440及解码器450可通过向单一人工神经网络文本语音合成模型输入表示感情特征的第二子嵌入向量来生成与反映说话人员的感情特征的输入文本有关的输出语音数据。

音色及音高提取部416可提取表示与说话人员的音色及音高有关的特征的第三子嵌入向量。可向编码器440或解码器450中的至少一个提供表示与所提取的说话人员的音色及音高有关的特征的第三子嵌入向量。根据一实施例，编码器440及解码器450可通过向单一人工神经网络文本语音合成模型输入表示与说话人员的音色及音高有关的特征的第三子嵌入向量来生成与反映和说话人员的音色及音高有关的特征的输入文本有关的输出语音数据。

根据一实施例，编码器440可接收表示所提取的说话人员的发声特征的嵌入向量。编码器440以表示预先机器学习的一个以上的说话人员的发声特征的嵌入向量及表示所接收的说话人员的发声特征的嵌入向量为基础生成或更新单一人工神经网络文本语音合成模型，从而合成更相似的说话人员的语音。

图4示出从一个说话人员的语音样本或信号提取感情特征、韵律特征或语音及音高中的至少一个并合成语音，但并不限定于此。在另一实施例中，还可从其他说话人员的语音样本或信号提取感情特征、韵律特征或语音及音高中的至少一个。例如，发声特征提取部410接收第一说话人员的语音样本或信号并从所接收的第一说话人员的语音样本或信号提取感情特征及韵律特征，接收第二说话人员的语音样本或信号(例示：名人的语音)并可从所接收的第二说话人员的语音样本或信号提取音色及音高特征。但合成语音时，可向编码器440或解码器450中的至少一个提供通过上述方式提取的两个说话人员的发声特征。由此，在所合成的语音反映了发声第一说话人员的语音样本或信号中所包含的语音的第一说话人员的感情和韵律，可反映发声第二说话人员(例示：名人)的语音样本或信号中所包含的语音的第二说话人员的音色及音高。

根据一实施例，编码器510可通过发音信息生成文本。并且，向包括注意模块的解码器520提供所生成的发音信息，解码器520通过语音生成这种发音信息。

编码器510可将输入文本转换为字符嵌入(character embedding)并生成。在编码器510中，所生成的字符嵌入可通过包括全连接层(fully-connected layer)的网前。并且，如图5所示，编码器510向CBHG模块提供从网前的输出，来输出编码器的多个隐状态(Encorder hidden states)ei。例如，CBHG模块可包含一维卷积库(1D convolutionbank)、最大池化(max pooling)、公路网(highway network)、双向门控循环单元(bidirectional gated recurrent unit)。

解码器520可包含由全连接层构成的网前和包含门控循环单元(GRU，gatedrecurrnt unit)的注意(attention)循环神经网络(RNN，recurrent neural network)、包含剩余门控循环单元(residual GRU)的解码器循环神经网络(decoder RNN)。例如，可通过梅尔声谱(mel-scale spectrogram)表达从解码器520的输出。

解码器520的注意循环神经网络及解码器循环神经网络可接收与语音的说话人员相应的信息。例如，解码器520可接收独热说话人员ID向量521。解码器520能够以独热说话人员ID向量521为基础生成说话人员嵌入向量522。解码器520的注意循环神经网络及解码器循环神经网络可更新单一人工神经网络文本语音合成模型，由此，可通过接收说话人员嵌入向量522来在每个主语说话人员生成不同的输出语音数据。

并且，与编码器510相同地，为了生成或更新单一人工神经网络文本语音合成模型，解码器520可利用以输入文本、与说话人员相关的信息及与输入文本相应的语音信号的一对存在的数据库。解码器520可将输入文本、与说话人员相关的信息分别用作人工神经网的输入且将与相应输入文本对应的语音信号作为正确答语音进行学习。解码器520可通过向所更新的单一人工神经网络文本语音合成模型适用与输入文本和说话人员相关的信息来输出相应说话人员的语音。

并且，可向后处理处理器530提供解码器520的输出。后处理处理器530的CBHG可将解码器520的梅尔声谱转换为线性频谱(linear-scale spectrogram)。例如，后处理处理器530的CBHG的输出信号可包含幅度谱(magnitude spectrogram)。后处理处理器530的CBHG的输出信号的相位(phase)通过Griffin-Lim算法复原，可进行短时傅里叶逆变换(inverseshort-time fourier transform)。后处理处理器530可向时间域(time domain)的语音信号输出。

这种以人工神经网为基础的文本语音合成装置可通过利用以文本和语音信号的一对存在的大容量数据库来学习。可通过比较作为输入添加文本后的输出与相应的正确语音信号来定义损失函数(loss function)。文本语音合成装置通过误差反向传播(errorback propagation)算法学习损失函数，来获取最终输入任一文本时输出所要的语音的单一人工神经网络文本语音合成模型。

在图6中，将省略与图5中说明的内容重复的内容。图6的解码器620可从编码器610接收编码器的多个隐状态ei。并且，与图5的解码器520不同地，图6的解码器620可接收说话人员的语音数据621。其中，语音数据621可包含表示在预设的时间段(短时间段，例如，数秒、数十秒或数十分钟)内从说话人员输入的语音的数据。例如，说话人员的语音数据621可包含语音频谱数据(例如，对数梅尔频谱(log-Mel-spectrogram))。解码器620能够以说话人员的语音数据为基础获取表示说话人员的发声特征的说话人员的发声特征嵌入向量622。解码器620可向注意循环神经网络及解码器循环神经网络提供说话人员的发声特征嵌入向量622。

图5所示的文本语音合成系统将说话人员(speaker)ID作为表示说话人员的发声特征的信息来使用，这种说话人员ID可作为独热向量(single-hot vector)来表达。但是，这种独热说话人员ID向量难以扩张学习数据中没有的与新的说话人员有关的ID。这种文本语音合成系统仅对于通过独热向量表达的说话人员学习嵌入，因此，没有获取新的说话人员地嵌入的方法。若要生成新说话人员的语音，则需再学习整体语音合成模型或微细调整语音合成模型的嵌入层。在利用安装有图形处理器(GPU)的设备的情况下，这种作业相当于耗时较多的流程。与其相反，为了生成新说话人员向量，图6所示的文本语音合成系统提供如下的语音合成系统，即，无需追加学习语音合成模型或手动搜索说话人员嵌入向量，可立即生成新说话人员的语音。即，文本语音合成系统可生成对于多名说话人员适应性地变更的语音。

根据一实施例，在图6中，当合成与输入文本有关的语音时，向解码器循环神经网络及注意循环神经网络输入从第一说话人员的语音数据621提取的第一说话人员的发声特征嵌入向量622，图5中所示的第二说话人员的独热说话人员ID向量521也可一同向解码器循环神经网络及注意循环神经网络输入。例如，与发声特征嵌入向量622相关的第一说话人员和与独热说话人员ID向量521相关的第二说话人员可相同。如另一例，与发声特征嵌入向量622相关的第一说话人员和与独热说话人员ID向量521相关的第二说话人员可不同。由此，当合成与输入文本有关的语音时，向解码器循环神经网络及注意循环神经网络一同输入第一说话人员的发声特征嵌入向量622及第二说话人员的独热说话人员ID向量521，由此，可生成在与输入文本相应的第二说话人员的语音反映第一说话人员的发声特征嵌入向量622所包含的韵律特征、感情特征或音色及音高特征中的至少一种特征的合成语音。即，可生成在与独热说话人员ID向量521相关的第二说话人员的声音反映第一说话人员的发声特征，即，韵律特征、感情特征或音色及音高特征中的一种特征的合成语音。

图7为示出本公开一实施例的提取可区分各个说话人员的嵌入向量622的网络的图。

根据一实施例，图6所示的网络包含卷积网络(convulutional network)及时间维度上的最大池化(max over time pooling)，通过接收对数梅尔频谱来将固定维说话人员嵌入向量作为语音样本或语音信号来提取。其中，语音样本或语音信号不是与输入文本相应的语音数据也可，可使用任意选择的语音信号。

在这种网络中，利用频谱时没有制约，因此，可向网络插入任一频谱。并且，由此，可通过网络的立即适应生成表示用于新说话人员的发声特征的嵌入向量622。输入频谱可具有多种长度，例如，可向位于卷积层末端的卷积层时间维度上的最大池化层输入对于时间轴长度为1的固定维向量。

图7示出包含卷积网络及时间维度上的最大池化的网络，为了提取说话人员的发声特征，可构建包含多种层的网络。例如，在说话人员的发声特征中如口音表示根据时间的语音特征模式的变化的情况下，能够以通过使用循环神经网络来提取特征的方式实现网络。

图8为示出本公开一实施例的以人工神经网为基础的文本语音合成装置的结构的图。在图8的与文本语音合成装置有关的说明中，将省略与图5或图6的文本语音合成装置重复的说明。

在图8中，编码器810可接收输入文本。例如，在编码器810中，输入文本可由多个语言形成。根据一实施例，输入文本可包含用于一种以上的语言的单词、句子或文章中的至少一种。例如，可接收如“你好”等的韩语文章或如“你好？(How are you？)”等的英语文章的文本。若接收输入文本，则编码器810可按照字母单位、文字单位、音素(phoneme)单位分离所接收的输入文本。根据另一实施例，编码器810可接收按照字母单位、文字单位、音素单位分离的输入文本。根据另一实施例，编码器810可接收与输入文本有关的文字嵌入。

在编码器810接收输入文本或所分离的输入文本的情况下，编码器810可生成至少一个嵌入层。根据一实施例，编码器810的至少一个嵌入层能够以按照字母单位、文字单位、音素单位分离的输入文本为基础生成文字嵌入。例如，为了以所分离的输入文本为基础获取文字嵌入，编码器810可使用已学习的机器学习模型(例如，概率模型或人工神经网等)。进而，编码器810可在执行机器学习的同时更新机器学习模型。在更新机器学习模型的情况下，与所分离的输入文本有关的文字嵌入也可变更。

编码器810可向由全连接层构成的深度神经网络(DNN，Deep Neural Network)模块通过文字嵌入。深度神经网络可包含常规前馈层(feedforward layer)或线性层(linearlayer)。

编码器810可向包含卷积神经网络(CNN，convolutional neural network)或循环神经网络中的至少一个的模块提供深度神经网络的输出。并且，编码器810可接收在解码器820以说话人员语音数据为基础生成的说话人员的发声特征嵌入向量s。卷积神经网络可捕捉根据卷积核(convolution kernel)尺寸的地区特性，相反，循环神经网络可捕捉长期依赖(long term dependency)。编码器810可通过向卷积神经网络或循环神经网络中的至少一个输入深度神经网络的输出及说话人员的发声特征嵌入向量s来输出编码器810的多个隐状态h。

解码器820可接收说话人员的语音数据。解码器820能够以说话人员语音数据为基础生成说话人员的发声特征嵌入向量s。嵌入层可接收说话人员的语音数据。嵌入层能够以说话人员的语音数据为基础生成说话人员的发声特征。其中，说话人员的发声特征可按照个人具有不同特征。例如，嵌入层能够以机器学习为基础区分按照说话人员的发声特征。例如，嵌入层可生成表示说话人员的发声特征的说话人员的发声特征嵌入向量s。根据一实施例，为了将说话人员的发声特征转换为说话人员的发声特征嵌入向量s，解码器820可使用已学习的机器学习模型。解码器可在执行机器学习的同时更新机器学习模型。在更新机器学习模型的情况下，表示说话人员的发声特征的说话人员的发声特征嵌入向量s也可变更。例如，可利用如上所述的图7的语音提取网络从所接收的说话人员的语音数据提取说话人员的发声特征。

说话人员的发声特征嵌入向量s可向编码器810的卷积神经网络或循环神经网络中的至少一个输出。并且，说话人员的发声特征嵌入向量s可向解码器的解码器循环神经网络及注意循环神经网络输出。

解码器820的注意(attention)可从编码器810接收编码器的多个隐状态h。多个隐状态h可表示从编码器810的机器学习模型的结果值。例如，多个隐状态h可包含本公开一实施例的单一人工神经网络文本语音合成模型的一部分结构要素。并且，解码器820的注意可从注意循环神经网络接收信息。从注意循环神经网络接收的信息可包含与解码器820在上一时间步为止生成何种语音有关的信息。并且，解码器820的注意能够以从注意循环神经网络接收的信息及编码器的信息为基础输出上下文向量。编码器810的信息可包含与所要生成语音的输入文本有关的信息。上下文向量可包含用去确定在当前时间步中从输入文本中的哪一部分生成语音的信息。例如，解码器820的注意可输出如下的信息，即，在生成语音的初期以输入文本的前部分为基础生成语音，随着语音的生成，逐渐以输入文本的后部分为基础生成语音。

解码器820可构成人工神经网的结构，以便通过向注意循环神经网络及解码器循环神经网络输入说话人员的发声特征嵌入向量s来使每个说话人员的解码不同。根据一实施例，为了学习人工神经网，文本语音合成系统可利用文本、说话人员的发声特征嵌入向量s、以语音信号的一对存在的数据库。在另一实施例中，如图5所示，代替表示说话人员的发声特征的说话人员的发声特征嵌入向量s，可通过使用独热向量来构建数据库。或者，可一同使用说话人员的发声特征嵌入向量s和独热向量来构建数据库。

哑帧为如下的帧，即，在不存在上一时间步的情况下，向解码器输入的帧。循环神经网络可通过自回归(autoregressive)执行机器学习。即，在上一时间步822中输出的r帧可成为当前时间步823中的输入。在初始时间步821中，没有上一时间步，因此，解码器820可向初始时间步的机器学习网络输入哑帧。

根据一实施例，解码器820可包含由全连接层构成的深度神经网络。深度神经网络可包含常规前馈层或线性层中的至少一个。

在一实施例中，解码器820可包含由门控循环单元构成的注意循环神经网络。注意循环神经网络为用于输出所要用于注意中的信息的层。已在上述内容中对注意进行说明，因此，将省略详细说明。

解码器820可包含由剩余门控循环单元构成的解码器循环神经网络。解码器循环神经网络可从注意接收输入文本的位置信息。即，位置信息可包含与解码器820将输入文本的哪个位置转换为语音有关的信息。解码器循环神经网络可从注意循环神经网络接收信息。从注意循环神经网络接收的信息可包含与解码器820在上一时间步为止生成何种语音有关的信息。解码器循环神经网络可生成接当前为止生成的语音的下一输出语音。例如，输出语音看具有梅尔频谱形态，输出语音可包含r个帧。

为了文本语音合成，可反复执行深度神经网络、注意循环神经网络及解码器循环神经网络的动作。例如，在初始时间步821中获取的r个帧可成为下一时间步822的输入。并且，在时间步822中输出的r个帧可成为下一时间步823的输入。

通过如上所述的过程，可生成与文本的所有单位有关的语音。根据一实施例，文本语音合成系统按照时间顺序连接(concatenate)在每个时间步生成的梅尔频谱来获取与整体文本有关的梅尔频谱的语音。可向声码器830输出与整体文本有关的梅尔频谱地语音。

本公开一实施例的声码器830的卷积神经网络或循环神经网络可执行与编码器810的卷积神经网络或循环神经网络相似的动作。即，声码器830的卷积神经网络或循环神经网络可捕捉地区特性和长期依赖。由此，声码器830的卷积神经网络或循环神经网络可输出线性频谱。例如，线性频谱可包含幅度谱。如图8所示，声码器830可通过Griffin-Lim算法预测频谱的相位。声码器830可利用短时傅里叶逆变换输出时间域的语音信号。

本公开另一实施例的声码器能够以机器学习模型为基础从梅尔频谱生成语音信号。机器学习模型可包含梅尔频谱与语音信号之间的相关关系。例如，可使用如WaveNet或WaveGlow等的人工神经网模型。

如上所述的以人工神经网为基础的语音合成装置利用由一个以上的语言形成的文本和以语音信号的一对存在的大容量数据库来学习。根据一实施例，语音合成装置接收文本，并比较所输出的语音信号与正确语音信号来定义损失函数。语音合成装置通过误差反向传播算法学习损失函数，最终可获取如下的人工神经网，即，当输入任一文本时，输出所要的语音。

在以如上所述的人工神经网为基础的语音合成装置中，可通过向人工神经网输入文本、说话人员的发声特征等来输出语音信号。文本语音合成装置通过比较所输出的语音信号与正确语音信号来学习，当接收文本和说话人员的发声特征时，可生成通过相应说话人员的语音读文本的输出语音数据。

图9为示出本公开一实施例的发声特征调节部900的动作的流程图。

图8的发声特征调节部900可包含与图2的发声特征调节部220相同或相似的结构。将省略与图2重复的说明。

发声特征调节部900可接收表示说话人员信息的嵌入向量。根据一实施例，这种嵌入向量可包含与说话人员的发声特征有关的嵌入向量。例如，可通过说话人员的发声特征中的相互正交的多个子嵌入向量的加权表示与说话人员信息有关的嵌入向量。

发声特征调节部900可分离与所接收的说话人员信息有关的嵌入向量所包含的要素。例如，发声特征调节部900能够以与说话人员信息有关的嵌入向量为基础获取相互正交的多个单位嵌入向量。根据一实施例，分离嵌入向量所包含的要素的方法包括独立成分分析(ICA，independent component analysis)、独立向量分析(IVA，independent vectoranalysis)、稀疏编码(sparse coding)、独立因子分析(IFA，independent factoranalysis)、独立子空间分析(ISA，independent subspace analysis)及非负矩阵分解(NMF，nonnegative matrix factorization)等多种方法。并且，为了分离嵌入向量所包含的要素，当学习与说话人员信息有关的嵌入向量时，文本语音合成装置可对文本语音合成装置的学习表达执行正规化(regularization)。在文本语音合成装置对学习表达执行正规化来执行机器学习的情况下，可将嵌入向量学习委员稀疏向量(sparse vector)。由此，文本语音合成装置可利用主成分分析(PCA，principle component analysis)来从学习为稀疏向量的嵌入向量中准确地分离所包含的要素。

根据一实施例，发声特征调节部900可接收与输出语音数据有关的追加输入。发声特征调节部900能够以追加输入为基础修改表示说话人员的发声特征的嵌入向量。例如，发声特征调节部900能够以追加输入为基础变更与多个单位嵌入向量有关的加权值。

在一实施例中，发声特征调节部900能够以所接收的追加输入为基础修改表示说话人员的发声特征的嵌入向量。例如，发声特征调节部900通过将根据追加输入变更的加权值乘以多个单位嵌入向量并相加来再合成与说话人员信息有关的嵌入向量。发声特征调节部900可输出与所变更的说话人员信息有关的嵌入向量。文本语音合成装置向单一人工神经网络文本语音合成模型输入所修改的嵌入向量，由此，可将输出语音数据转换为与反映追加输入所包含的信息地输入文本有关的语音数据。

文本语音合成装置可从用户接收向文本窗输入的文本。在选择图10所示的再生按钮的情况下(例如，触摸或按压的情况)，文本语音合成装置生成与所输入的文本相应的输出语音数据并向包括用户界面的用户终端提供。

文本语音合成装置可从用户接收追加输入。与输出语音数据有关的追加输入可包含与性别有关的信息、与年龄有关的信息、与各个地区口音有关的信息、与发声的速度有关的信息或与音高及发声的大小有关的信息中的至少一种。

根据一实施例，文本语音合成装置可通过通信部向用户终端传输所选择或指定的说话人员的发声特征，如图9所示，当前语音的特征能够以规定形状(例如，线、多边形、圆形等)在用户终端的显示部显示。用户可利用输入部变更与性别有关的信息、与年龄有关的信息、与各个地区口音有关的信息、与发声的速度有关的信息、与音高及发声的大小有关的信息中的至少一种，可输出以用户的输入为基础变更的输出语音。例如，如图9所示，用户可选择接近女性的性别、与60多岁相比接近10多岁的年龄、忠清地区的口音。可根据所选择的输入变更当前语音的特征来向用户终端输出反映所变更的语音特征或合成的语音。

如上所述，根据多个实施例，对通过变更与说话人员信息有关的嵌入向量所包含的要素中的一种以上来变更声音的特性的结构进行了说明，本发明并不限定于此，还可根据其他适当的方式构成。根据一实施例，还可通过语音合成标记语言(SSML，speechsynthesis markup language)的属性(attribute)表达来变更嵌入向量所包含的要素。例如，如<gender value＝“6”><region value＝“3，4，5”>，可通过语音合成标记语言的属性表达。

图11为本公开一实施例的文本语音合成系统1100的块图。

参照图11，一实施例的文本语音合成系统1100可包含数据学习部1110及数据识别部1120。数据学习部1110可通过输入数据来获取机器学习模型。并且，数据识别部302可通过向机器学习模型适用数据来生成输出语音。如上所述的文本语音合成系统1100可包括处理器以及存储器。

数据学习部1110可学习与文本有关的语音。数据学习部1110可根据文本学习与所要输出何种语音有关的基准。并且，数据学习部1110可利用某种语音的特征来学习与是否输出语音有关的基准。语音的特征可包含音素的发音、用户的语调、口音或重音中的至少一种。数据学习部1110获取用于学习的数据，向后述的数据学习模型适用所获取的数据，由此，可学习根据文本的语音。

数据识别部1120能够以文本为基础输出与文本有关的语音。数据识别部1120可利用所学习的数据学习模型来从规定的文本输出语音。数据识别部1120可根据通过学习预设的基准获取规定文本(数据)。并且，数据识别部1120将所获取的数据作为输入值，来可通过利用数据学习模型来输出以规定数据为基础的语音。并且，将所获取的数据作为输入值，来将通过数据学习模型输出的结果值用于更新数据学习模型。

数据学习部1110或数据识别部1120中的至少一个能够以至少一个硬件芯片形态制造来搭载于电子装置。例如，数据学习部1110或数据识别部1120中的至少一个还可制造为用于人工智能(AI；artificial intelligence)的专用硬件芯片形态或制造为现有的通用处理器(例：中央处理器或应用处理器(application processor))或图形专用处理器(例：图形处理器)的一部分，并可搭载于已说明的各种电子装置。

并且，数据学习部1110及数据识别部1120可分别搭载于单独的电子装置。例如，数据学习部1110及数据识别部1120中的一个可包括于电子装置，剩余一个可包括于服务器。并且，数据学习部1110及数据识别部1120可通过有线或无线向数据识别部1120提供数据学习部1110所构建的模型信息，还可将向数据识别部1120输入的数据作为追加学习数据向数据学习部1110提供。

另一方面，数据学习部1110或数据识别部1120中的至少一个可体现为软件模块。在数据学习部1110及数据识别部1120中的至少一个体现为软件模块(或者，包含指令(instruction)的程序模块)的情况下，软件模块可存储于存储器或非临时计算机可读介质(non-transitory computer readable media)。并且，在此情况下，至少一个软件模块可通过操作系统(OS，Operating System)提供或通过规定应用程序提供。与其不同，至少一个软件模块中的一部分可通过操作系统提供，剩余一部分可通过规定应用程序提供。

本公开一实施例的数据学习部1110可包括数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114及模型评价部1115。

数据获取部1111可获取机器学习所需的数据。为了学习，需要很多的数据，因此，数据获取部1111可接收多个文本及与之相应的语音。

预处理部1112可对所获取的数据进行预处理，来将为了判断用户的心理状态而获取的数据用于机器学习。预处理部1112可将所获取的数据加工成预设的格式，来使后述的模型学习部1114利用其。例如，预处理部1112可对文本及语音进行语素分析来获取语素嵌入。

学习数据选择部1113可在预处理的数据中获取学习所需的数据。可向模型学习部1114提供所选择的数据。学习数据选择部1113可根据预设的基准选择预处理的数据中的学习所需的数据。并且，学习数据选择部1113还可通过借助后述的模型学习部1114的学习根据预设的基准来选择数据。

模型学习部1114能够以学习数据为基础根据文本学习与输出何种语音有关的基准。并且，模型学习部1114可将根据文本输出语音的学习模型用作学习数据来执行学习。在此情况下，数据学习模型可包含预先构建的模型。例如，数据学习模型可包含通过接收基础学习数据(例如，样本图像等)来预先构建的模型。

数据学习模型可考虑学习模型的适用领域学习的目的或装置的计算性能等来构建。例如，数据学习模型可包含以神经网(Neural Network)为基础的模型。例如，可将如深度神经网络(DNN，Deep Neural Network)、循环神经网络(RNN，Recurrent NeuralNetwork)、长短期记忆网络模型(LSTM，Long Short-Term Memory models)、双向循环深度神经网络(BRDNN，Bidirectional Recurrent Deep Neural Network)、卷积神经网络(CNN，Convolutional Neural Networks)等的模型用作数据学习模型，但并不限定于此。

根据多种实施例，在存在多个预先构建的数据学习模型的情况下，模型学习部1114可将与所输入的学习数据的基本学习数据的相关性大的数据学习模型确定为所要学习的数据学习模型。在此情况下，基本学习数据可按照数据的类型被分类，数据学习模型可按照数据的类型预先构建。例如，基本学习数据能够以生成学习数据的地区、生成学习数据的时间、学习数据的大小、学习数据的类型、学习数据的生成人员、学习数据内的目标种类等的做种基准被分类。

并且，例如，模型学习部1114可利用包含误差逆传播法(error back-propagation)或梯度下降法(gradient descent)的学习算法等来学习数据学习模型。

并且，例如，模型学习部1114可将学习数据用作输入值的监督学习(supervisedlearning)来学习数据学习模型。并且，例如，模型学习部1114可通过非监督学习(unsupervised learning)来学习数据学习模型，上述非监督学习如下，即，在没有额外监督的情况下，为了判断情况，自主学习所需数据的种类，从而发现用于判断情况的基准。并且，例如，模型学习部1114可通过利用与根据学习的情况判断结果是否正确的反馈的强化学习(reinforcement learning)来学习数据学习模型。

并且，若学习数据学习模型，则模型学习部1114可存储所学习的数据学习模型。在此情况下，模型学习部1114可将所学习的数据学习模型存储于包含数据识别部1120的电子装置的存储器。或者，模型学习部1114还可将所学习的数据学习模型存储于通过有线网络或无线网络与电子装置相连接的服务器的存储器。

在此情况下，例如，存储所学习的数据学习模型的存储器还可一同存储与电子装置的至少一个其他结构要素相关的指令或数据。并且，存储器还可存储软件和/或程序。例如，程序可包括内核、中间件、应用程序编程接口(API)和/或应用程序(或“应用”)等。

模型评价部1115向数据学习模型输入评价数据，在从评价数据输出的结果无法满足规定基准的情况下，可使模型学习部1114再次学习。在此情况下，评价数据可包含为了评价数据学习模型而预设的数据。

例如，在与评价数据有关的所学习的数据学习模型的结果中，在识别结果不正确的评价数据的数量或比例超出预设的阈值的情况下，模型评价部1115可评价为未满足规定基准。例如，在规定基准定义为2％的比例的情况下，在所学习的数据学习模型对于共1000个评价数据中超过20个的评价数据输出错误的识别结果的情况下，模型评价部1115可评价为所学习的数据学习模型不适合。

另一方面，在存在多个所学习的数据学习模型的情况下，模型评价部1115评价各个所学习的影像学习模型是否满足规定基准，并可将满足规定基准的模型确定为最终数据学习模型。在此情况下，在满足规定基准的模型为多个的情况下，模型评价部1115能够以评价分数高的顺序将预设的一个或规定数量的模型确定为最终数据学习模型。

另一方面，数据学习部1110中的数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114或模型评价部1115中的至少一个可制造为至少一个硬件芯片形态来搭载于电子装置。例如，数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114或模型评价部1115中的至少一个可制造为用于人工智能的专用硬件芯片形态或制造为现有的通用处理器(例：中央处理器或应用处理器)或图形专用处理器(例：图形处理器)的一部分，并可搭载于如上所述的各种电子装置。

并且，数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114及模型评价部1115可搭载于一个电子装置，或还可分别搭载于单独的电子装置。例如，数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114及模型评价部1115中的一部分包含于电子装置，剩余一部分可包含于服务器。

并且，数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114或模型评价部1115中的至少一个可体现为软件模块。数据获取部1111、预处理部1112、学习数据选择部1113、模型学习部1114或模型评价部1115中的至少一个体现为软件模块(或者，包含指令的程序模块)的情况下，软件模块可存储于非临时计算机可读介质。并且，在此情况下，至少一个软件模块通过操作系统提供或通过规定的应用程序提供。与其不同，至少一个软件模块中的一部分通过操作系统提供，剩余一部分可通过规定的应用程序提供。

本公开一实施例的数据识别部1120可包括数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124及模型更新部1125。

数据获取部1121可获取输出语音所需的文本。相反，数据获取部1121可获取输出文本所需的语音。预处理部1122可对所获取的数据进行预处理，从而利用为了输出语音或文本而获取的数据。预处理部1122可将所获取的数据加工成已设的格式，使得后述的识别结果提供部1124利用为了输出语音或文本而获取的数据。

识别数据选择部1123可在预处理的数据中选择输出语音或文本所需的数据。可向识别结果提供部1124提供所选择的数据。识别数据选择部1123可根据为了输出语音或文本而预设的基准选择一部分或全部预处理的数据。并且，识别数据选择部1123还可根据通过模型学习部1114的学习预设的基准选择数据。

识别结果提供部1124可将所选择的数据适用于数据学习模型来输出语音或文本。识别结果提供部1124可通过将被识别数据选择部1123选择的数据用作输入值来将所选择的数据适用于数据学习模型。并且，可通过数据学习模型确定识别结果。

模型更新部1125可使数据学习模型以与通过识别结果提供部1124提供的识别结果有关的评价为基础进行更新。例如，模型更新部1125可通过向模型学习部1114提供借助识别结果提供部1124提供的识别结果来使模型学习部1114更新数据学习模型。

另一方面，数据识别部1120中的数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124或模型更新部1125中的至少一个能够以至少一个硬件芯片形态制造来搭载于电子装置。例如，数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124或模型更新部1125中的至少一个可制造为用于人工智能的硬件芯片形态或制造为现有的通用处理器(例：中央处理器或应用处理器)或图形专用处理器(例：图形处理器)的一部分，并可搭载于如上所述的各种电子装置。

并且，数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124及模型更新部1125可搭载于一个电子装置或分别搭载于各个电子装置。例如，数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124及模型更新部1125中的一部分可包含于电子装置，剩余一部分可包含于服务器。

并且，数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124或模型更新部1125中的至少一个可体现为软件模块。在数据获取部1121、预处理部1122、识别数据选择部1123、识别结果提供部1124或模型更新部1125中的至少一个体现为软件模块(或者，包含指令的程序模块)的情况下，软件模块可存储于非临时计算机可读介质。并且，在此情况下，至少一个软件模块可通过操作系统提供或通过规定应用程序提供。与其不同，至少一个软件模块中的一部分可通过操作系统提供，剩余一部分可通过规定应用程序提供。

以上，以多种实施例为中心进行了说明。本发明所属技术领域的普通技术人员可理解本发明可在不超出本发明的本质特性的范围内能够以变形的形态体现。因此，需以说明的观点上考虑所公开的实施例，而不是以限定的观点考虑所公开的实施例。本发明的范围通过发明要求保护范围示出，而不是通过上述说明示出，属于与之等同范围内的所有差异均包含于本发明。

另一方面，如上所述的本发明的实施例可制作为能够在计算机执行的程序，可在利用计算机可读记录介质使程序进行工作的通用数字计算机体现。计算机可读记录介质包括如磁性存储介质(例如，只读存储器、软盘、硬盘等)、光学可读介质(例如，紧凑型光盘只读储存器(CD-ROM)、数字通用光盘(DVD等))的存储介质。

Claims

1.一种文本语音合成方法，利用机器学习的文本语音合成方法，其特征在于，包括：

生成单一人工神经网络文本语音合成模型的步骤，上述单一人工神经网络文本语音合成模型以多个学习文本及与上述多个学习文本相应的语音数据为基础执行机器学习来生成；

接收输入文本的步骤；

接收说话人员的发声特征的步骤；以及

向上述单一人工神经网络文本语音合成模型输入上述输入文本和上述说话人员的发声特征，来生成与反映上述说话人员的发声特征的上述输入文本有关的输出语音数据的步骤，

所述方法还包括如下步骤：

接收用于调节上述说话人员的发声特征的追加输入，

其中，上述说话人员的发声特征包含基于所接收的上述追加输入得以调节的说话人员的发声特征。

2.根据权利要求1所述的文本语音合成方法，其特征在于，上述接收说话人员的发声特征的步骤包括：

接收语音样本的步骤；以及

从上述语音样本提取表示上述说话人员的发声特征的嵌入向量的步骤。

3.根据权利要求2所述的文本语音合成方法，其特征在于，

从语音样本提取表示上述说话人员的发声特征的嵌入向量的步骤包括提取表示上述说话人员的韵律特征的第一子嵌入向量的步骤，其中，上述韵律特征包含与发声速度有关的信息、与发音重音有关的信息、与停顿区间有关的信息或与音高有关的信息中的至少一种信息，

上述生成与反映说话人员的发声特征的上述输入文本有关的输出语音数据的步骤包括如下的步骤，即，向上述单一人工神经网络文本语音合成模型输入表示上述韵律特征的第一子嵌入向量来生成与反映上述说话人员的韵律特征的上述输入文本有关的输出语音数据。

4.根据权利要求2所述的文本语音合成方法，其特征在于，

从语音样本提取表示上述说话人员的发声特征的嵌入向量的步骤包括提取表示上述说话人员的感情特征的第二子嵌入向量的步骤，其中，上述感情特征包含与上述说话人员的发声内容所包含的感情有关的信息，

上述生成与反映说话人员的发声特征的上述输入文本有关的输出语音数据的步骤包括如下的步骤，即，向上述单一人工神经网络文本语音合成模型输入表示上述感情特征的第二子嵌入向量来生成与反映上述说话人员的感情特征的上述输入文本有关的输出语音数据。

5.根据权利要求2所述的文本语音合成方法，其特征在于，

从语音样本提取表示上述说话人员的发声特征的嵌入向量的步骤包括提取表示与上述说话人员的音色及音高有关的特征的第三子嵌入向量的步骤，

上述生成与反映说话人员的发声特征的上述输入文本有关的输出语音数据的步骤包括如下的步骤，即，向上述单一人工神经网络文本语音合成模型输入表示与上述说话人员的音色及音高有关的特征的第三子嵌入向量来生成与反映和上述说话人员的音色及音高有关的特征的上述输入文本有关的输出语音数据。

6.根据权利要求2所述的文本语音合成方法，其特征在于，上述生成与反映说话人员的发声特征的上述输入文本有关的输出语音数据的步骤包括：

以上述追加输入为基础来修改表示上述说话人员的发声特征的嵌入向量的步骤；以及

向上述单一人工神经网络文本语音合成模型输入所修改的上述嵌入向量来将上述输出语音数据转换成与反映上述追加输入中所包含的信息的上述输入文本有关的语音数据的步骤。

7.根据权利要求1所述的文本语音合成方法，其特征在于，上述追加输入中所包含的信息包含与性别有关的信息、与年龄有关的信息、与各个地区口音有关的信息、与发声速度有关的信息、与音高或发声的大小有关的信息中的至少一种。

8.根据权利要求2所述的文本语音合成方法，其特征在于，上述接收语音样本的步骤包括如下的步骤，即，在预设的时间段内，将由上述说话人员输入的语音作为上述语音样本实时接收。

9.根据权利要求2所述的文本语音合成方法，其特征在于，上述接收语音样本的步骤包括如下的步骤，即，在预设的时间段内，从语音数据库接收由上述说话人员输入的语音。

10.一种计算机可读存储介质，其特征在于，记录有程序，上述程序包含指令，上述指令执行利用权利要求1的机器学习的文本语音合成方法的各个步骤。