CN111951780B

CN111951780B - 语音合成的多任务模型训练方法及相关设备

Info

Publication number: CN111951780B
Application number: CN202010839731.0A
Authority: CN
Inventors: 贺天威; 周鸿斌; 戴长军; 黄杰雄
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2023-06-13
Anticipated expiration: 2040-08-19
Also published as: CN111951780A

Abstract

本申请涉及语音合成技术领域，提供了一种语音合成的多任务模型训练方法及相关设备，该方法包括：设定至少两个序列标注任务，以处理语音合成中的文本分析；根据序列标注任务构建包括多任务输出层的多任务模型，将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取样本信息，样本信息包括训练文本信息，以及训练文本信息与各项序列标注任务对应的训练标签序列；采用样本信息对多任务模型进行训练，得到语音合成前端处理的多任务模型。本申请将各项序列标注任务整合在同一多任务模型中，有利于简化模型的训练流程。

Description

语音合成的多任务模型训练方法及相关设备

技术领域

本申请涉及语音合成技术领域，具体而言，本申请涉及一种语音合成的多任务模型训练方法及相关设备。

背景技术

随着计算机技术的发展，语音合成技术越来越受到人们的重视，语音合成作为人机交互过程中重要的一环，实现了将文本信息转换为语音信号进行播放。语音合成一般分为前端和后端两个模块，后端模块包括声学模型和声码器，前端模块负责对文本信息进行分析，提取后端模块所需要的相关信息。因此，前端处理的结果对语音合成有着重要的影响。

语音合成的前端处理中包括多个序列标注任务的执行，现有技术中，关于该多个序列标注任务一般采用流水线式级联结构的模型或端到端模型来完成。采用流水线式级联结构的模型时，将上一个模块的输出作为下一个模块的输入，如对文本信息进行分析的顺序包括语言检测、长句切分、文本正则化时，处理语言检测模块的输出将作为处理长句切分模块的输入，进而将处理长句切分模块的输入作为处理文本正则化模块的输入，这样的模型需要对每个模块都进行单独训练，在模型训练时流程较为繁琐，耗费较多的时间，在模型部署时会占用较大的内存，且由于上一个模块的偏差可能影响下一个模块的运算，带来误差积累的问题，导致训练出来的模型在进行文本信息分析时所输出结果的准确度较低。采用端到端模型时，虽然降低了模型构建的复杂度，但是无法了解到每一个模块的贡献，降低了网络的可解释性，应用在语义合成的前端处理时，难以保证进行文本信息分析时所输出结果的准确度。

发明内容

本申请提供了一种语音合成的多任务模型训练方法、装置、电子设备及存储介质，可以解决上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种语音合成的多任务模型训练方法，包括：设定至少两个序列标注任务，以处理语音合成中的文本分析；根据所述序列标注任务构建包括多任务输出层的多任务模型，将所述多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取样本信息，所述样本信息包括训练文本信息，以及所述训练文本信息与各项序列标注任务对应的训练标签序列；采用所述样本信息对所述多任务模型进行训练，得到语音合成前端处理的多任务模型。

结合第一方面，在第一方面的第一种实施方式中，所述多任务模型还包括共享层，所述共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；所述语义特征信息为所述目标文本信息。

结合第一方面的第一种实施方式，在第一方面的第二种实施方式中，所述样本信息包括所述训练文本信息对应的语义特征信息；所述采用所述样本信息对所述多任务模型进行训练，包括：采用所述训练文本信息以及对应的语义特征信息训练所述多任务模型执行预训练任务；针对每一序列标注任务进行分时交替训练，包括：根据所述训练文本信息对应的语义特征信息以及与该序列标注任务对应的训练标签序列训练所述多任务模型执行该序列标注任务；采用交叉熵损失函数计算所述多任务模型在执行该序列标注任务时的损失值；根据各项序列标注任务的预设权重系数，计算所述多任务模型的总损失值；

采用所述总损失值训练所述多任务模型执行各项序列标注任务。

结合第一方面的第二种实施方式，在第一方面的第三种实施方式中，各项序列标注任务的预设权重系数相同。

结合第一方面，在第一方面的第四种实施方式中，所述获取样本信息包括：获取训练文本信息；针对每一序列标注任务，设定所述训练文本信息与该序列标注任务对应的训练标签序列。

结合第一方面的第四种实施方式，在第一方面的第五种实施方式中，所述设定所述训练文本信息与该序列标注任务对应的训练标签序列，包括以下至少一项：当所述序列标注任务为字符分类任务时，对所述训练文本信息中包括的数字、字母与特殊符号进行标注，获得字符分类标签序列；当所述序列标注任务为分词任务时，采用第一预设符号标注所述训练文本信息中的词首及标点符号，采用第二预设符号标注所述训练文本信息中词的其他位置，获得分词标签序列；当所述序列标注任务为韵律边界预测任务时，采用第三预设符号按照预设停顿等级标注所述训练文本信息，获得韵律边界预测标签序列；当所述序列标注任务为多音字消歧任务时，标注所述训练文本信息中每个多音字对应的拼音，并采用第四预设符号标注所述训练文本信息中的非多音字，获得多音字标签序列。

结合第一方面的第五种实施方式，在第一方面的第六种实施方式中，当所述序列标注任务为分词任务、韵律边界预测任务、多音字消歧任务中的一种时，所述设定所述训练文本信息与各项任务对应的训练标签序列之前，包括：正则化处理所述训练文本信息，获得正则化后的训练文本信息。

第二方面，提供了一种语音合成的多任务模型训练装置，包括：设定模块，用于设定至少两个序列标注任务，以处理语音合成中的文本分析；构建模块，用于根据所述序列标注任务构建包括多任务输出层的多任务模型，将所述多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取模块，用于获取样本信息，所述样本信息包括训练文本信息，以及所述训练文本信息与各项序列标注任务对应的训练标签序列；训练模块，用于采用所述样本信息对所述多任务模型进行训练，得到语音合成前端处理的多任务模型。

结合第二方面，在第二方面的第一种实施方式中，所述多任务模型还包括共享层，所述共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；所述语义特征信息为所述目标文本信息。

结合第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述样本信息包括所述训练文本信息对应的语义特征信息，所述训练模块包括：第一训练单元，用于采用所述训练文本信息以及对应的语义特征信息训练所述多任务模型执行预训练任务；第二训练单元，用于针对每一序列标注任务进行分时交替训练，包括：根据所述训练文本信息对应的语义特征信息以及与该序列标注任务对应的训练标签序列训练所述多任务模型执行该序列标注任务；采用交叉熵损失函数计算所述多任务模型在执行该序列标注任务时的损失值；计算单元，用于根据各项序列标注任务的预设权重系数，计算所述多任务模型的总损失值；第三训练单元采用所述总损失值训练所述多任务模型执行各项序列标注任务。

结合第二方面的第二种实施方式，在第二方面的第三种实施方式中，各项序列标注任务的预设权重系数相同。

结合第二方面，在第二方面的第四种实施方式中，所述获取模块包括：获取单元，用于获取训练文本信息；设定单元，用于针对每一序列标注任务，设定所述训练文本信息与该序列标注任务对应的训练标签序列。

结合第二方面的第四种实施方式，在第二方面的第五种实施方式中，所述设定单元包括以下至少一个子单元：第一子单元，用于当所述序列标注任务为字符分类任务时，对所述训练文本信息中包括的数字、字母与特殊符号进行标注，获得字符分类标签序列；第二子单元，用于当所述序列标注任务为分词任务时，采用第一预设符号标注所述训练文本信息中的词首及标点符号，采用第二预设符号标注所述训练文本信息中词的其他位置，获得分词标签序列；第三子单元，用于当所述序列标注任务为韵律边界预测任务时，采用第三预设符号按照预设停顿等级标注所述训练文本信息，获得韵律边界预测标签序列；第四子单元，用于当所述序列标注任务为多音字消歧任务时，标注所述训练文本信息中每个多音字对应的拼音，并采用第四预设符号标注所述训练文本信息中的非多音字，获得多音字标签序列。

结合第二方面的第五种实施方式，在第二方面的第六种实施方式中，当所述序列标注任务为分词任务、韵律边界预测任务、多音字消歧任务中的一种时，所述获取模块还包括：正则化处理单元，用于正则化处理所述训练文本信息，获得正则化后的训练文本信息。

第三方面，提供了一种电子设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面及第一方面任一种实施方式所述的语音合成的多任务模型训练方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现第一方面及第一方面任一实施方式所述的语音合成的多任务模型训练方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种语音合成的多任务模型训练方法及相关设备，与现有技术相比，本申请提供的方法中，根据语音合成中文本分析的需求设定至少两个序列标注任务，根据序列标注任务构建包括多任务输出层的多任务模型，将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取包括训练文本信息以及训练文本信息与各项序列标注任务对应的标签序列的样本信息，采用样本信息对多任务模型进行训练，获得语音合成前端处理的多任务模型。本申请的实施将各项序列标注任务整合在同一多任务模型中，有利于简化模型训练流程，同时各项序列标注任务独立完成又相互关联，有利于提高多任务模型在进行文本信息分析时所输出结果的准确度。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音合成的多任务模型训练方法的流程示意图；

图2为本申请实施例提供的一种语音合成的多任务模型训练方法中多任务模型的结构示意图；

图3为本申请实施例提供的一种语音合成的多任务模型训练方法的流程示意图；

图4为本申请实施例提供的一种语音合成的多任务模型训练方法的流程示意图；

图5为本申请实施例提供的一种语音合成的多任务模型训练方法的流程示意图；

图6为本申请实施例提供的一种语音合成的多任务模型训练方法的流程示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

语音合成(Text-to-Speech，TTS)：是指将文本信息转化为人类语音的技术，基于一段文本信息输出对应的语音。在要求上，所合成的语音要求在清晰度、可懂度、自然度等方面能接近真实的人类说话的声音。目前，语音合成技术被广泛应用在地图导航、语音助手、教育、娱乐等软件应用、还有智能音箱、家电、机器人等硬件设备领域。一般而言，语音合成通常分为前端和后端两个模块，后端模块包括声学模型和声码器，前端模块负责对文本信息进行分析，提取后端模块所需要的相关信息。本申请主要针对语音合成的前端处理提供一种多任务模型的训练方法。

序列标注任务：是指自然语言处理领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。本申请实施例涉及的序列标注任务主要包括：字符分类任务、分词任务、韵律边界预测任务、多音字消歧任务。其中，分词(WordSegmentation)是指将连续的字序列按照一定的规范重新组合成词序列的过程。在语音合成的技术领域中，准确的分词信息对合成语音的韵律停顿和读音是否正确有着关键作用。韵律边界预测(Prosodic Boundary Prediction)：根据语言学知识，中文的韵律边界可分为韵律词、韵律短语和语调短语三级，各个韵律边界在语音中对应的停顿时长各不相同；正确的停顿、断句方式与合成语音的自然度紧密关联，缺少韵律边界预测，容易导致语音节奏感差、机械感较强、听感不佳的问题。多音字消歧(Polyphone disambiguation)：中文中存在着多音字，即同一个汉字对应多种不同的读音，每种读音对应不同的意思，因此，多音字消歧是将汉字转化为其对应的拼音的关键问题。

多任务模型：本申请提供的多任务模型基于多任务学习方法训练而得，多任务学习是一种推导迁移学习方法，把多个相关的任务放在一起学习，学习过程中通过一个在浅层的共享表征来互相分享、互相补充学习到的相关信息，互相促进学习，提升泛化的效果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种语音合成的多任务模型训练方法，该方法具体可以由本申请实施例的电子设备执行，具体地电子设备可以是客户端，也可以是服务器，客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。如图1所示，本申请实施例包括以下步骤：

S101：设定至少两个序列标注任务，以处理语音合成中的文本分析。

可选地，根据语音合成中进行文本信息分析的需求，设定至少两个序列标注任务，如字符分类任务、分词任务、韵律边界预测任务、多音字消歧任务等，在本申请实施例中，并不限定多任务模型涵盖语音合成中所有涉及的任务，如字素转音素任务，所提供的多任务模型主要针对序列标注任务进行训练而得。

S102：根据序列标注任务构建包括多任务输出层的多任务模型，将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列。

可选地，多任务输出层中各设定的序列标注任务接收相同的数据输入，执行了各自的序列标注任务后，输出对应的标签序列。在本申请实施例中，以目标文本信息作为各项序列标注任务的输入；目标文本信息可以是直接获取到的文本信息，也可以是对所获取的待处理文本信息进行处理后的信息，如将获取到的文本信息进行语义特征提取后，将语义特征信息作为目标文本信息输入多任务模型，以使多任务模型执行各项序列标注任务。

S103：获取样本信息，样本信息包括训练文本信息，以及训练文本信息与各项序列标注任务对应的训练标签序列。

可选地，样本信息包括用于训练各项序列标注任务的信息，主要包括训练文本信息以及训练文本信息与各项序列标注任务对应的训练标签序列。其中，用于训练各项序列标注任务所用的训练文本信息可相同也可不同，各项序列标注任务之间所用的训练文本信息也可存在重叠关系，如一共获取5000条文本信息，当前待训练的序列标注任务包括三个，则可以采用前2000条文本信息训练序列标注任务A，第2001-4000条文本信息训练序列标注任务B，第4001-5000条文本信息训练序列标注任务C；也可以在5000条文本信息中随机选择4000条文本信息分别对各个序列标注任务进行训练。其中，当用于训练各项序列标注任务所用训练文本信息不同时，每条训练文本信息只包括一种序列标注任务对应的标签序列；当随机抽取训练文本信息对各项序列标注任务进行训练时，各条训练文本信息设有适应各项序列标注任务对应的标签序列。

S104：采用样本信息对多任务模型进行训练，得到语音合成前端处理的多任务模型。

可选地，采用样本信息对多任务模型进行训练时，采用交叉熵损失函数来衡量预测值与实际值之间的损失值，从而基于损失值训练多任务模型趋向收敛。

在一实施例中，如图2所示，多任务模型还包括共享层，共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；其中，语义特征信息为目标文本信息，作为多任务输出层中各项序列标注任务的独立输入。

可选地，预训练是迁移学习中重要的一项技术，在自然语言处理中重要以词向量为主，可以分析它所包含的文本信息。本申请实施例采用轻量级BERT(A Lite BERT,ALBERT)实现共享层的预训练任务，可在提升性能的同时，减少模型的参数，降低模型的占用空间，提高预测速度。

可选地，共享层配置为执行预训练任务，将当前获取到的文本信息输入多任务模型之后，首先经过共享层的预训练任务得到对应的隐含表征向量(如语义特征向量)，进而将隐含表征向量输入各序列标注任务独立的输出层得到各项序列标注任务对应输出的标签序列。

在一实施例中，样本信息包括训练文本信息对应的语义特征信息，如图3所示，步骤S104采用样本信息对多任务模型进行训练，包括：

S301：采用训练文本信息以及对应的语义特征信息训练多任务模型执行预训练任务。

可选地，本申请实施例中共享层配置为执行预训练任务，通过执行晕训练任务将获取到的文本信息处理为语义特征信息，进而作为各项序列标注任务的共同输入。训练时，将训练文本信息输入多任务模型执行预训练任务，继而通过损失函数计算训练所得语义特征信息与训练文本信息实际对应的语义特征信息之间的损失值，以根据损失值训练多任务模型中的预训练任务趋向收敛。

S302：针对每一序列标注任务进行分时交替训练，包括：根据训练文本信息对应的语义特征信息以及与该序列标注任务对应的训练标签序列训练多任务模型执行该序列标注任务；采用交叉熵损失函数计算多任务模型在执行该序列标注任务时的损失值。

可选地，本申请实施例中，采用分时交替的方法训练各项序列标注任务，具体地，将各个序列标注任务交替进行，每个时间步只训练一种序列标注任务，结合下表1进行叙述：

表1

如表1所示，假设当前多任务模型中包括序列标注任务A-D，共四项，在每一次训练时，仅结合执行顺序执行一项序列标注任务。在一实施例中，可仅结合执行顺序1对各项序列标注任务进行训练，也可结合多种执行顺序对各项序列标注任务进行训练，如结合执行顺序1和3、或结合执行顺序2、1和N等。

可选地，本申请实施例采用交叉熵在机器学习中作为损失函数，采用P表示实际值，Q表示训练后的模型的预测值，进而通过交叉熵损失函数衡量P和Q之间的相似性得到损失值。本申请采用交叉熵作为损失函数，可适应使用自适应矩估计(Adaptive MomentEstimation，Adam)优化算法，并基于输入损失值控制学习率。

S303：根据各项序列标注任务的预设权重系数，计算多任务模型的总损失值。

可选地，考虑到加强各项序列标注任务之间关联度，通过设定各项序列标注任务的预设权重系数，计算多任务模型整体的总损失值。

可选地，考虑到各项序列标注任务最终输出结果的应用不同，当序列标注任务包括字符分类任务、分词任务、韵律边界预测任务、和多音字消歧任务时，考虑将字符分类任务所输出的结果作为其他三个任务运算的基础之一，计算多任务模型的总损失值时，可仅针对分词任务、韵律边界预测任务、和多音字消歧任务进行第一总损失值的计算，还可针对字符分类任务、分词任务、韵律边界预测任务、和多音字消歧任务进行第二总损失值的计算，以进一步提高各项序列标注任务之间的关联度。

S304：采用总损失值训练多任务模型执行各项序列标注任务。

可选地，通过总损失值衡量多任务模型训练的收敛程度，总损失值可在每轮训练结束后获得，并结合下一轮训练的样本信息优化多任务模型。

在一实施例中，各项序列标注任务的预设权重系数相同。

可选地，考虑到将多任务模型应用在语音合成的前端处理时，各项序列标注任务输出的结果可单独使用，为平衡各项序列标注任务的准确度，将各项序列标注任务的预设权重系数设为相同的数值。

可选地，当序列标注任务包括字符分类任务、分词任务、韵律边界预测任务、和多音字消歧任务时，考虑到字符分类任务的输出结果影响其他序列标注任务的准确度，将字符分类任务的权重系数设置为大于分词任务、韵律边界预测任务、和多音字消歧任务的权重系数。

在一实施例中，如图4所示，步骤S103获取样本信息包括：

S401：获取训练文本信息。

可选地，所获取的训练文本信息可以是外部输入的文本信息，也可以是计算机内部运算生成的文本信息，其可适应相应的使用场景进行调整。

S402：针对每一序列标注任务，设定训练文本信息与该序列标注任务对应的训练标签序列。

可选地，针对每一条训练文本信息所应用于训练的序列标注任务设定对应的训练标签序列，如当前包括训练文本信息10000条，四项序列标注任务，其中，训练文本信息A应用于序列标注任务a和序列标注任务b，则针对训练文本信息A，设定与序列标注任务a对应的训练标签序列、与序列标注任务b对应的训练标签序列。

在一实施例中，如图5所示，步骤S402设定训练文本信息与该序列标注任务对应的训练标签序列，包括以下至少一项：

S501：当序列标注任务为字符分类任务时，对训练文本信息中包括的数字、字母与特殊符号进行标注，获得字符分类标签序列。

可选地，在本申请实施例中，字符分类任务为针对不同的字符类型对文本信息进行标注，主要针对训练文本信息中出现的数字、字幕、特殊符号在具体场景下所属类别进行标注，如某一数字可能表示为日期、时间、单位、比分、电话号码、网址、邮箱、普通数字等。

下面针对“阅读量达到317296次，点赞数亦有1722。”的训练文本信息给出相应的字符分类标签序列：

阅/PLAIN读/PLAIN量/PLAIN达/PLAIN到/PLAIN 3/CARDINAL 1/CARDINAL 7/CARDINAL 2/CARDINAL 9/CARDINAL 6/CARDINAL 次/PLAIN，/PLAIN点/PLAIN赞/PLAIN数/PLAIN亦/PLAIN有/PLAIN 1/CARDINAL 7/CARDINAL 2/CARDINAL 2/CARDINAL。/PLAIN

S502：当序列标注任务为分词任务时，采用第一预设符号标注训练文本信息中的词首及标点符号，采用第二预设符号标注训练文本信息中词的其他位置，获得分词标签序列。

可选地，本申请实施例采用2-tag法来标注训练文本信息，标注集合为{B，I}，将训练文本信息中的词首标记为第一预设符号B，将词的其他位置标记为第二预设符号I，而标点符号则视为一个单独的词语。如词语“广州”的标注结果为“广/B州/I”。

下面针对“七月十二日，国际老龄化长寿化研究委员会召开论证发布会，专家组一致决定将国内首个国际长寿养生基地称号授予遂溪。”的训练文本信息给出相应的分词标签序列：

七/B月/I十/B二/I日/I，/B国/B际/I老/B龄/I化/I长/B寿/I化/I研/B究/I委/B员/I会/I召/B开/I论/B证/I发/B布/I会/I，/B专/B家/I组/I一/B致/I决/B定/I将/B国/B内/I首/B个/I国/B际/I长/B寿/I养/B生/I基/B地/I称/B号/I授/B予/I遂/B溪/I。/B

S503：当序列标注任务为韵律边界预测任务时，采用第三预设符号按照预设停顿等级标注训练文本信息，获得韵律边界预测标签序列；预设停顿等级包括韵律词等级、韵律短语等级、语调短语等级、句末等级以及费韵律边界等级。

可选地，在本申请实施例中，按停顿等级将韵律边界分为韵律词、韵律短语、语调短语、句末以及非韵律边界(Not a Boundary，NB)五级，各韵律边界表示符号可参考表2：

表2

符号	停顿等级及意义
		NB	非韵律边界，无停顿
#1	韵律词，无明显停顿
		#2	韵律短语，短停顿
#3	语调短语，长停顿
		#4	句末，长停顿

下面针对“一条路，穿过一片片树林。一条路，蜿蜒着一条路，高耸的笔直通进山中。”的训练文本信息给出相应的韵律边界预测标签序列：

一/NB条/#1路/NB，/#2穿/NB过/#1一/NB片/NB片/#1树/NB林/NB。/#3一/NB条/#1路/NB，/#2蜿/NB蜒/NB着/#1一/NB条/#1路/NB，/#3高/NB耸/NB的/#2笔/NB直/#1通/NB进/#1山/NB中/NB。/#4

S504：当序列标注任务为多音字消歧任务时，标注训练文本信息中每个多音字对应的拼音，并采用第四预设符号标注训练文本信息中的非多音字，获得多音字标签序列；其中，标注训练文本信息中每个多音字对应的拼音，还包括：采用预设的字符标注各个多音字的第一声调、第二声调、第三声调、第四声调或轻声。

可选地，该任务的执行包括标注每个多音字在相应语境下的正确读音对应的拼音，由于拼音包括声调，可采用数字1标注第一声调(阴平)、数字2标注第二声调(阳平)、数字3标注第三声调(上声)、数字4标注第四声调(去声)、数字5标注轻声，字母NP(Not aPolyphone)标注非多音字。

下面针对“据史书记载，王昭君多才多艺，每逢三年五载汉匈首脑聚会，都要载歌载舞。”的训练文本信息给出相应的多音字消歧标签序列：

据/ju4史/NP书/NP记/NP载/zai3，/NP王/NP昭/NP君/NP多/NP才/NP多/NP艺/NP，/NP每/NP逢/NP三/NP年/NP五/NP载/zai3汉/NP匈/NP首/NP脑/NP聚/NP会/hui4，/NP她/NP都/dou1要/yao4载/zai4歌/NP载/zai4舞/NP。/NP

在一实施例中，当序列标注任务为分词任务、韵律边界预测任务、多音字消歧任务中的一种时，设定训练文本信息与各项任务对应的训练标签序列之前，包括：正则化处理训练文本信息，获得正则化后的训练文本信息。

可选地，文本正则化(Text Normalization，TN)：是指将书写形式的文本转化为朗读形式，如文本信息“请拨打110”经过正则化后变为“请拨打幺幺零”，文本信息“他体重110斤”经过正则化后变为“他体重一百一十斤”。将训练文本信息正则化处理有利于保持多任务模型训练与预测时的一致性。

本申请提供的方法中，根据语音合成中文本分析的需求设定至少两个序列标注任务，根据序列标注任务构建包括多任务输出层的多任务模型，将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取包括训练文本信息以及训练文本信息与各项序列标注任务对应的标签序列的样本信息，采用样本信息对多任务模型进行训练，获得语音合成前端处理的多任务模型。本申请的实施将各项序列标注任务整合在同一多任务模型中，有利于简化模型训练流程，同时各项序列标注任务独立完成又相互关联，有利于提高多任务模型在进行文本信息分析时所输出结果的准确度。

在一实施例，如图6所示，提供了一种语音合成的多任务模型训练装置600，包括：设定模块601，构建模块602，获取模块603和训练模块604；其中，设定模块601，用于设定至少两个序列标注任务，以处理语音合成中的文本分析；构建模块602，用于根据序列标注任务构建包括多任务输出层的多任务模型，将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；获取模块603，用于获取样本信息，样本信息包括训练文本信息，以及训练文本信息与各项序列标注任务对应的训练标签序列；训练模块604，用于采用样本信息对多任务模型进行训练，得到语音合成前端处理的多任务模型。

可选地，多任务模型还包括共享层，共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；语义特征信息为目标文本信息。

可选地，样本信息包括训练文本信息对应的语义特征信息，训练模块604包括：第一训练单元，用于采用训练文本信息以及对应的语义特征信息训练多任务模型执行预训练任务；第二训练单元，用于针对每一序列标注任务进行分时交替训练，包括：根据训练文本信息对应的语义特征信息以及与该序列标注任务对应的训练标签序列训练多任务模型执行该序列标注任务；采用交叉熵损失函数计算多任务模型在执行该序列标注任务时的损失值；计算单元，用于根据各项序列标注任务的预设权重系数，计算多任务模型的总损失值；第三训练单元采用总损失值训练多任务模型执行各项序列标注任务。

可选地，各项序列标注任务的预设权重系数相同。

可选地，获取模块603包括：获取单元，用于获取训练文本信息；设定单元，用于针对每一序列标注任务，设定训练文本信息与该序列标注任务对应的训练标签序列。

可选地，设定单元包括以下至少一个子单元：第一子单元，用于当序列标注任务为字符分类任务时，对训练文本信息中包括的数字、字母与特殊符号进行标注，获得字符分类标签序列；第二子单元，用于当序列标注任务为分词任务时，采用第一预设符号标注训练文本信息中的词首及标点符号，采用第二预设符号标注训练文本信息中词的其他位置，获得分词标签序列；第三子单元，用于当序列标注任务为韵律边界预测任务时，采用第三预设符号按照预设停顿等级标注训练文本信息，获得韵律边界预测标签序列；第四子单元，用于当序列标注任务为多音字消歧任务时，标注训练文本信息中每个多音字对应的拼音，并采用第四预设符号标注训练文本信息中的非多音字，获得多音字标签序列。

可选地，当序列标注任务为分词任务、韵律边界预测任务、多音字消歧任务中的一种时，获取模块603还包括：正则化处理单元，用于正则化处理训练文本信息，获得正则化后的训练文本信息。

本申请实施例的语音合成的多任务模型训练装置可执行本申请的实施例所提供的一种语音合成的多任务模型训练方法，其实现原理相类似，本申请各实施例中的语音合成的多任务模型训练装置中的各模块所执行的动作是与本申请各实施例中的语音合成的多任务模型训练方法中的步骤相对应的，对于语音合成的多任务模型训练装置的各模块的详细功能描述具体可以参见前文中所示的对应的语音合成的多任务模型训练方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的语音合成的多任务模型训练方法。

在一个可选实施例中提供了一种电子设备，如图7所示，图7所示的电子设备7000包括：处理器7001和存储器7003。其中，处理器7001和存储器7003相连，如通过总线7002相连。可选地，电子设备7000还可以包括收发器7004。需要说明的是，实际应用中收发器7004不限于一个，该电子设备7000的结构并不构成对本申请实施例的限定。

处理器7001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器7001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线7002可包括一通路，在上述组件之间传送信息。总线7002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器7003用于存储执行本申请方案的应用程序代码，并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，训练模块还可以被描述为“用于采用样本信息对多任务模型进行训练，得到语音合成前端处理的多任务模型的模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音合成的多任务模型训练方法，其特征在于，包括：

设定至少两个序列标注任务，以处理语音合成中的文本分析；

根据所述序列标注任务构建包括多任务输出层的多任务模型，将所述多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；

获取样本信息，所述样本信息包括训练文本信息、训练文本信息对应的语义特征信息，以及所述训练文本信息与各项序列标注任务对应的训练标签序列；

采用所述样本信息对所述多任务模型进行训练，得到语音合成前端处理的多任务模型，所述多任务模型包括共享层，所述共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；所述语义特征信息为所述目标文本信息；

所述采用所述样本信息对所述多任务模型进行训练，包括：

采用所述训练文本信息以及对应的语义特征信息训练所述多任务模型执行预训练任务；

所述针对每一序列标注任务进行分时交替训练，包括：根据所述训练文本信息对应的语义特征信息以及与该序列标注任务对应的训练标签序列训练所述多任务模型执行该序列标注任务；

采用交叉熵损失函数计算所述多任务模型在执行该序列标注任务时的损失值；

根据各项序列标注任务的预设权重系数，计算所述多任务模型的总损失值；

2.根据权利要求1所述的方法，其特征在于，各项序列标注任务的预设权重系数相同。

3.根据权利要求1所述的方法，其特征在于，所述获取样本信息包括：

获取训练文本信息；

针对每一序列标注任务，设定所述训练文本信息与该序列标注任务对应的训练标签序列。

4.根据权利要求3所述的方法，其特征在于，所述设定所述训练文本信息与该序列标注任务对应的训练标签序列，包括以下至少一项：

当所述序列标注任务为字符分类任务时，对所述训练文本信息中包括的数字、字母与特殊符号进行标注，获得字符分类标签序列；

当所述序列标注任务为分词任务时，采用第一预设符号标注所述训练文本信息中的词首及标点符号，采用第二预设符号标注所述训练文本信息中词的其他位置，获得分词标签序列；

当所述序列标注任务为韵律边界预测任务时，采用第三预设符号按照预设停顿等级标注所述训练文本信息，获得韵律边界预测标签序列；

当所述序列标注任务为多音字消歧任务时，标注所述训练文本信息中每个多音字对应的拼音，并采用第四预设符号标注所述训练文本信息中的非多音字，获得多音字标签序列。

5.根据权利要求4所述的方法，其特征在于，当所述序列标注任务为分词任务、韵律边界预测任务、多音字消歧任务中的一种时，所述设定所述训练文本信息与各项任务对应的训练标签序列之前，包括：

正则化处理所述训练文本信息，获得正则化后的训练文本信息。

6.一种语音合成的多任务模型训练装置，其特征在于，包括：

设定模块，用于设定至少两个序列标注任务，以处理语音合成中的文本分析；

构建模块，用于根据所述序列标注任务构建包括多任务输出层的多任务模型，将所述多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列；

获取模块，用于获取样本信息，所述样本信息包括训练文本信息、训练文本信息对应的语义特征信息，以及所述训练文本信息与各项序列标注任务对应的训练标签序列；

训练模块，用于采用所述样本信息对所述多任务模型进行训练，得到语音合成前端处理的多任务模型，所述多任务模型包括共享层，所述共享层配置为将待处理的文本信息作为预训练任务的输入并输出对应的语义特征信息；所述语义特征信息为所述目标文本信息；

所述采用所述样本信息对所述多任务模型进行训练，包括：

7.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～5任一项所述的语音合成的多任务模型训练方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～5任一项所述的语音合成的多任务模型训练方法。