CN111951779A

CN111951779A - 语音合成的前端处理方法及相关设备

Info

Publication number: CN111951779A
Application number: CN202010838901.3A
Authority: CN
Inventors: 贺天威; 周鸿斌; 戴长军; 黄杰雄
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-17
Anticipated expiration: 2040-08-19
Also published as: CN111951779B

Abstract

本申请涉及语音合成技术领域，提供了一种语音合成的前端处理方法及相关设备，该方法包括：获取待处理的原始文本信息，并将原始文本信息转换为正则化文本信息；将正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列；整合分词和韵律边界预测的标签序列，获得整合标签序列；根据多音字拼音的标签序列和整合标签序列，确定原始文本信息的音素序列。本申请的实施有利于提高语音合成中前端处理结果的准确度。

Description

语音合成的前端处理方法及相关设备

技术领域

本申请涉及语音合成技术领域，具体而言，本申请涉及一种语音合成的前端处理方法及相关设备。

背景技术

随着计算机技术的发展，语音合成技术越来越受到人们的重视，语音合成作为人机交互过程中重要的一环，实现了将文本信息转换为语音信号进行播放。语音合成一般分为前端和后端两个模块，后端模块包括声学模型和声码器，前端模块负责对文本信息进行分析，提取后端模块所需要的相关信息。因此，前端处理的结果对语音合成有着重要的影响。

目前，语音合成的前端模块通常是流水线式级联结构，如当前端模块包括语言检测、长句切分、文本正则化、分词、韵律边界预测、字素转音素等几个模块时，各个模块按序依次执行，并将上一模块的输出作为下一模块的输入；采用该结构对文本信息进行分析时，由于上一模块的误差会带进下一模块中进行运算，导致误差逐层叠加，最终所输出的前端处理结果的准确度较低，难以保证合成语音的自然度和可懂度。

发明内容

本申请提供了一种语音合成的前端处理方法、装置、电子设备及存储介质，可以解决上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种语音合成的前端处理方法，包括：获取待处理的原始文本信息，并将所述原始文本信息转换为正则化文本信息；将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列；整合所述分词和韵律边界预测的标签序列，获得整合标签序列；根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列。

结合第一方面，在第一方面的第一种实施方式中，所述将所述原始文本信息转换为正则化文本信息，包括：将所述原始文本信息输入多任务模型，获取对应的字符分类标签序列；根据所述字符分类标签序列将所述原始文本信息转换为正则化文本信息。

结合第一方面，在第一方面的第二种实施方式中，所述整合所述分词和韵律边界预测的标签序列，获得整合标签序列，包括：结合所述分词和韵律边界预测的标签序列，在所述原始文本信息中每个分词的末尾配置对应的韵律边界预测的标签，获得整合标签序列。

结合第一方面，在第一方面的第三种实施方式中，所述根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列，包括：根据预设的多音字建模列表，对所述正则化文本信息中的多音字进行检测；根据所述多任务模型中对多音字拼音的预测概率调整所述多音字拼音的标签序列，以根据调整后的多音字拼音的标签序列确定所述正则化文本信息中检测为多音字的汉字拼音；根据所述汉字拼音和整合标签序列，确定所述原始文本信息的音素序列。

结合第一方面的第三种实施方式，在第一方面的第四种实施方式中，所述根据所述汉字拼音和整合标签序列，确定所述原始文本信息的音素序列之前，还包括：通过预存储的拼音信息，确定所述正则化文本信息中检测为非多音字的汉字拼音。

结合第一方面，在第一方面的第五种实施方式中，所述将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列，包括：采用多任务模型基于所述正则化文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，输出对应的第一预测标签序列；依据所述第一预测标签序列中的分词、韵律边界预测和多音字拼音的标签序列获取所述正则化文本信息的标签序列。

结合第一方面的第一种实施方式，在第一方面的第六种实施方式中，所述将所述原始文本信息输入多任务模型，获取对应的字符分类标签序列，包括：采用所述多任务模型基于所述原始文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，并输出对应的第二预测标签序列；依据所述第二预测标签序列获取所述原始文本信息的字符分类的标签序列。

第二方面，提供了一种语音合成的前端处理装置，包括：转换模块，用于获取待处理的原始文本信息，并将所述原始文本信息转换为正则化文本信息；获取模块，用于将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列；整合模块，用于整合所述分词和韵律边界预测的标签序列，获得整合标签序列；确定模块，用于根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列。

结合第二方面，在第二方面的第一种实施方式中，所述转换模块包括：获取单元，用于将所述原始文本信息输入多任务模型，获取对应的字符分类标签序列；转换单元，用于根据所述字符分类标签序列将所述原始文本信息转换为正则化文本信息。

结合第二方面，在第二方面的第二种实施方式中，所述整合模块包括：整合单元，用于结合所述分词和韵律边界预测的标签序列，在原始文本信息中每个分词的末尾配置对应的韵律边界预测的标签，获得整合标签序列。

结合第二方面，在第二方面的第三种实施方式中，所述确定模块包括：检测单元，用于根据预设的多音字建模列表，对所述正则化文本信息中的多音字进行检测；调整单元，用于根据所述多任务模型中对多音字拼音的预测概率调整所述多音字拼音的标签序列，以根据调整后的多音字拼音的标签序列确定所述正则化文本信息中检测为多音字的汉字拼音；确定单元，用于根据所述汉字拼音和整合标签序列，确定所述原始文本信息的音素序列。

结合第二方面的第三种实施方式，在第二方面的第四种实施方式中，所述确定模块还包括：通过预存储的拼音信息，确定所述正则化文本信息中检测为非多音字的汉字拼音。

结合第二方面，在第二方面的第五种实施方式中，所述获取模块包括：计算单元，用于采用多任务模型基于所述正则化文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，输出对应的第一预测标签序列；提取单元，用于依据所述第一预测标签序列中的分词、韵律边界预测和多音字拼音的标签序列获取所述正则化文本信息的标签序列。

结合第二方面的第一种实施方式，在第二方面的第六种实施方式中，所述获取单元包括：计算子单元，用于采用所述多任务模型基于所述原始文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，并输出对应的第二预测标签序列；提取子单元，用于依据所述第二预测标签序列获取所述原始文本信息的字符分类的标签序列。

第三方面，提供了一种电子设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面及第一方面任一种实施方式所述的语音合成的前端处理方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现第一方面及第一方面任一实施方式所述的语音合成的前端处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种语音合成的前端处理方法及相关设备，与现有技术相比，本申请提供的技术方案中将获取的原始文本信息转换为正则化文本信息后输入多任务模型，获得对应的分词、韵律边界预测和多音字拼音的标签序列，进而将分词和韵律边界预测的标签序列整合获得标签序列后，根据多音字拼音的标签序列和整合标签序列确定原始文本信息的音素序列。本申请的实施采用多任务模型进行文本信息分析，各任务的输入与输出均独立进行，进而基于各任务输出的结果进行后处理，最终获得原始文本信息对应的音素序列，有利于提高语音合成中前端处理结果的准确度。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音合成的前端处理方法的流程示意图；

图2为本申请实施例提供的一种语音合成的前端处理方法的流程示意图；

图3为本申请实施例提供的一种语音合成的前端处理方法的流程示意图；

图4为本申请实施例提供的一种语音合成的前端处理方法的流程示意图；

图5为本申请实施例提供的一种语音合成的前端处理装置的结构示意图；

图6为本申请实施例提供的一种语音合成的前端处理方法中多任务模型的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

语音合成(Text-to-Speech，TTS)：是指将文本信息转化为人类语音的技术，基于一段文本信息输出对应的语音。在要求上，所合成的语音要求在清晰度、可懂度、自然度等方面能接近真实的人类说话的声音。目前，语音合成技术被广泛应用在地图导航、语音助手、教育、娱乐等软件应用、还有智能音箱、家电、机器人等硬件设备领域。一般而言，语音合成通常分为前端和后端两个模块，后端模块包括声学模型和声码器，前端模块负责对文本信息进行分析，提取后端模块所需要的相关信息。本申请主要提供一种语音合成的前端处理方法。

序列标注任务：是指自然语言处理领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。本申请实施例涉及的序列标注任务主要包括：字符分类任务、分词任务、韵律边界预测任务、多音字消歧任务。其中，分词(WordSegmentation)是指将连续的字序列按照一定的规范重新组合成词序列的过程。在语音合成的技术领域中，准确的分词信息对合成语音的韵律停顿和读音是否正确有着关键作用。韵律边界预测(Prosodic Boundary Prediction)：根据语言学知识，中文的韵律边界可分为韵律词、韵律短语和语调短语三级，各个韵律边界在语音中对应的停顿时长各不相同；正确的停顿、断句方式与合成语音的自然度紧密关联，缺少韵律边界预测，容易导致语音节奏感差、机械感较强、听感不佳的问题。多音字消歧(Polyphone disambiguation)：中文中存在着多音字，即同一个汉字对应多种不同的读音，每种读音对应不同的意思，因此，多音字消歧是将汉字转化为其对应的拼音的关键问题。

多任务模型：本申请采用的多任务模型基于多任务学习方法训练而得，多任务学习是一种推导迁移学习方法，把多个相关的任务放在一起学习，学习过程中通过一个在浅层的共享表征来互相分享、互相补充学习到的相关信息，互相促进学习，提升泛化的效果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种语音合成的前端处理方法，该方法具体可以由本申请实施例的电子设备执行，具体地电子设备可以是客户端，也可以是服务器，客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。如图1所示，本申请实施例包括以下步骤：

S101：获取待处理的原始文本信息，并将原始文本信息转换为正则化文本信息。

可选地，待处理的原始文本信息可以是指人机交互时设备自身产生的文本信息或者外部输入的需要转换为语音形式进行播放的文本信息。由于中文的书写形式与朗读形式具有一定的区别，特别是数字、字母以及一些特殊符号在不同的语境下具有不同的读法，例如文本信息“请拨打110”转换为语音形式进行播放时对应的读音为“请拨打幺幺零”，而文本信息“他体重110斤”转换为语音形式进行播放时对应的读音为“他体重一百一十斤”，因此，为保证对原始文本信息进行分析处理的准确度，本申请实施例在执行各项序列标注任务以获得分词、韵律边界预测和多音字拼音的标签序列之前，对待处理的原始文本信息进行正则化(文本正则化，Text Normalization，TN)处理，以得到正则化文本信息，该正则文本信息包括原始文本信息中将各类非汉字字符转换后具有相应含义的汉字字符。

S102：将正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列。

在一实施例中，多任务模型至少被配置为执行分词、韵律边界预测和多音字消歧三项序列标注任务，在多任务模型收到当前输入的正则化文本信息后，分别单独输入各项序列标注任务中，并获得各项序列标注任务对应输出的标签序列，作为多任务模型的输出。

可选地，在本申请实施例中，如图6所示，多任务模型可以包括共享层和多任务输出层，共享层用于将输入的文本信息进行预训练，提取出文本信息中的语义特征信息，进而将语义特征信息作为多任务输出层的输入，以保证多任务输出层中配置的各项序列标注任务所收到的输入数据是一致的，有利于提高各项序列标注任务对文本信息进行分析的准确度。其中，共享层配置为将正则化文本信息作为预训练任务的输入，输出对应的语义特征信息。其中，多任务输出层配置为将语义特征信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列。

可选地，在执行分词的序列标注任务时，可以采用2-tag法来标注文本信息，标注集合为{B，I}，将文本信息中每个词的词首标记为B，词的其他位置标记为I，例如词语“广州”的标注结果为“广/B州/I”，而词语“大学生”的标注结果为“大/B学/I生/I”；另外，针对文本信息中的标点符号，则将其视为一个单独的词。下面给出一个执行分词的序列标注任务后输出标签序列的例子进行说明：文本信息“七月十二日，国际老龄化长寿化研究委员会召开论证发布会，专家组一致决定将国内首个国际长寿养生基地称号授予遂溪。”，对应分词的标签序列：

七/B月/I十/B二/I日/I，/B国/B际/I老/B龄/I化/I长/B寿/I化/I研/B究/I委/B员/I会/I召/B开/I论/B证/I发/B布/I会/I，/B专/B家/I组/I一/B致/I决/B定/I将/B国/B内/I首/B个/I国/B际/I长/B寿/I养/B生/I基/B地/I称/B号/I授/B予/I遂/B溪/I。/B

可选地，在执行韵律边界预测的序列标注任务时，按停顿等级将韵律边界分为韵律词、韵律短语、语调短语、句末以及非韵律边界(Not a Boundary，NB)五级，各韵律边界表示符号可参考表1：

表1

符号	停顿等级及意义
		NB	非韵律边界，无停顿
#1	韵律词，无明显停顿
		#2	韵律短语，短停顿
#3	语调短语，长停顿
		#4	句末，长停顿

下面针对“一条路，穿过一片片树林。一条路，蜿蜒着一条路，高耸的笔直通进山中。”的文本信息给出相应的韵律边界预测的标签序列：

一/NB条/#1路/NB，/#2穿/NB过/#1一/NB片/NB片/#1树/NB林/NB。/#3一/NB条/#1路/NB，/#2蜿/NB蜒/NB着/#1一/NB条/#1路/NB，/#3高/NB耸/NB的/#2笔/NB直/#1通/NB进/#1山/NB中/NB。/#4

可选地，在执行多音字消歧的序列标注任务时，将文本信息输入多任务模型后，获得多音字拼音的标签序列，该任务的执行包括标注每个多音字在相应语境下的正确读音对应的拼音，由于拼音包括声调，可采用数字1标注第一声调(阴平)、数字2标注第二声调(阳平)、数字3标注第三声调(上声)、数字4标注第四声调(去声)、数字5标注轻声，字母NP(Nota Polyphone)标注非多音字。下面针对“据史书记载，王昭君多才多艺，每逢三年五载汉匈首脑聚会，都要载歌载舞。”的文本信息给出相应的多音字消歧标签序列：

据/ju4史/NP书/NP记/NP载/zai3，/NP王/NP昭/NP君/NP多/NP才/NP多/NP艺/NP，/NP每/NP逢/NP三/NP年/NP五/NP载/zai3汉/NP匈/NP首/NP脑/NP聚/NP会/hui4，/NP她/NP都/dou1要/yao4载/zai4歌/NP载/zai4舞/NP。/NP

S103：整合分词和韵律边界预测的标签序列，获得整合标签序列。

可选地，分词的标签序列表征文本信息的分词情况，韵律边界预测的标签序列表征文本信息转换为语音信息进行播报时语音停顿或断句的情况。其中，整合包括将分词的标签序列与韵律边界预测的标签序列之中涵盖的特征进行结合。

在上述提供的实施例中，采用分别获取到分词的标签序列和韵律边界预测的标签序列之后，将两者进行整合的方法，相对于现有技术中采用流水线式级联结构的方法(将分词的标签序列作为韵律边界预测任务的输入，直接获得整合后的标签序列)，由于分词任务与韵律边界预测任务在执行时相互独立，互不影响，有利于提高基于两者整合所得的整合标签序列的准确度。

S104：根据多音字拼音的标签序列和整合标签序列，确定原始文本信息的音素序列。

可选地，步骤S104的实施涉及到字素转音素(Grapheme-to-Phoneme)的处理，字素是一个抽象单位，在中文中通常把汉字作为字素；音素是根据语音的自然属性划分出来的最小语音单元；在本申请实施例中，字素转音素是指将汉字转化为其对应的拼音。其中，多任务模型中执行的多音字消歧的序列标注任务是字素转音素中关键的部分，通过多任务模型执行多音字消歧的序列标注任务后，可获得对应的多音字拼音的标签序列。

可选地，根据多音字拼音的标签序列和整合标签序列确定原始文本信息的音素序列除包括将多音字拼音的标签序列和整合标签序列进行整合外，还包括对字素转音素对应的非多音字拼音的标签序列的整合，因此，在本申请实施例中原始文本信息的音素序列可包括分词标签、韵律边界预测标签、多音字拼音的标签和非多音字拼音的标签。

在上述提供的实施例中，采用多任务模型进行文本信息分析，且各任务的输入与输出均独立进行，并基于各任务输出的结果进行后处理，最终获得原始文本信息对应的音素序列，有利于提高语音合成中前端处理结果的准确度。此外，本申请实施例提供的语音合成的前端处理方法中，不依赖于文本信息中的词性信息，有利于节省标注的成本，降低多任务模型预测的难度。

上述实施例的内容针对于本申请提供的语音合成的前端处理方法进行了整体地叙述，下面将针对该方法中关于正则化处理的内容进行进一步的叙述。

在一实施例中，如图2所示，步骤S101将原始文本信息转换为正则化文本信息，包括：

S201：将原始文本信息输入多任务模型，获取对应的字符分类标签序列。

可选地，在本申请实施例中，多任务模型的多任务输出层中还配置有字符分类的序列标注任务，通过执行字符分类的序列标注任务标注出原始文本信息中出现的数字、字幕、特殊符号在相应语境下所属的类别，例如数字在不同的语境下所属的类别包括日期、时间、单位、比分、电话号码、网址、邮箱、普通数字等。

可选地，由于多任务模型还可包括共享层，在将原始文本信息输入多任务输出层的字符分类的序列标注任务之前，还包括将原始文本信息输入共享层的预训练任务，将执行预训练任务后输出的语义特征信息输入多任务输出层，进而在多任务输出层执行字符分类任务后，获得字符分类标签序列。

S202：根据字符分类标签序列将原始文本信息转换为正则化文本信息。

具体地，根据字符分类标签序列将原始文本信息转换为正则化文本信息包括将字符分类标签序列中标注的数字、字母和特殊符号进行转换。

针对步骤S201和步骤S202给出下述例子进行叙述：假设原始文本信息为“阅读量达到317296次，点赞数亦有1722。”，经步骤S201的处理，可获得字符分类的标签序列“阅/PLAIN读/PLAIN量/PLAIN达/PLAIN到/PLAIN 3/CARDINAL 1/CARDINAL 7/CARDINAL 2/CARDINAL9/CARDINAL 6/CARDINAL次/PLAIN，/PLAIN点/PLAIN赞/PLAIN数/PLAIN亦/PLAIN有/PLAIN 1/CARDINAL 7/CARDINAL2/CARDINAL 2/CARDINAL。/PLAIN”。进而，将字符分类的标签序列进行正则化处理，处理所得的正则化文本信息可以为保留字符分类的标签序列，也可以为仅包括正则化处理后的文本信息“阅读量达到三十一万七千两百九十六次，点赞数亦有一千七百二十二”。

在上述提供的实施例中，结合步骤S101-S104以及步骤S201-S202可见，多任务模型在整个语音合成的前端处理过程中进行了两次计算，第一次计算为将原始文本信息作为输入，进而在输出的数据中提取字符分类标签序列；第二次计算为将根据字符分类标签序列转换成的正则化文本信息作为输入，进而在输出的数据中提取原始文本信息对应的分词、韵律边界预测和多音字拼音的标签序列。在两次计算过程中，均首先经过共享层执行预训练任务，而后基于共享层的输出作为多任务输出层的输入，最终获得执行各序列标注任务对应的标签序列。

下面将针对上述提供的语音合成的前端处理方法中关于整合分词和韵律边界预测的标签序列的内容进行进一步的叙述。

在一实施例中，步骤S103整合分词和韵律边界预测的标签序列，获得整合标签序列，包括：

结合分词和韵律边界预测的标签序列，在原始文本信息中每个分词的末尾配置对应的韵律边界预测的标签，获得整合标签序列。

可选地，整合分词和韵律边界预测的标签序列为在原始文本信息中针对每个分词，在词的末尾配置对应的韵律边界预测的标签，整合后获得整合标签序列。其中，整合标签序列可以为包括分词标签和韵律边界预测标签的序列，也可以为仅在原始文本信息中针对分词配置韵律边界预测标签的序列。

结合下述例子进行说明：假设当前进行处理的原始文本信息为“一条路，穿过一片片树林。一条路，蜿蜒着一条路，高耸的笔直通进山中。”

例如，当前获取到的分词的标签序列可以为“一/B条/I路/I，/B穿/B过/I一/B片/I片/I树/B林/I。/B一/B条/I路/I，/B蜿/B蜒/I着/I一/B条/I路/I，/B高/B耸/I的/I笔/B直/I通/B进/I山/B中/I。/B”。

当前获取到的韵律边界预测的标签序列为“一/NB条/#1路/NB，/#2穿/NB过/#1一/NB片/NB片/#1树/NB林/NB。/#3一/NB条/#1路/NB，/#2蜿/NB蜒/NB着/#1一/NB条/#1路/NB，/#3高/NB耸/NB的/#2笔/NB直/#1通/NB进/#1山/NB中/NB。/#4”。

整合后获得的整合标签序列为“一条路/NB，/#2穿过/#1一片片/#1树林/NB。/#3一条路/NB，/#2蜿蜒着/#1一条路/NB，/#3高耸的/#2笔直/#1通进/#1山中/NB。/#4”。

在上述例子中，整合后获得的整合标签序列为仅在原始文本信息中针对分词配置韵律边界预测标签的序列，在该序列中可知悉分词的结果与相应的韵律边界预测的结果。

在上述提供的实施例中，通过步骤S103的整合，减少了最终获得的整合标签序列中存在的标签，但也仍可直观地知悉分词与韵律边界预测的结果，有利于提高后续确定音素序列的处理效率。

下面将针对上述提供的语音合成的前端处理方法中关于确定音素序列的内容进行进一步的叙述。

在一实施例中，如图3所示，步骤S104根据多音字拼音的标签序列和整合标签序列，确定原始文本信息的音素序列，包括：

S301：根据预设的多音字建模列表，对正则化文本信息中的多音字进行检测。

在一可行的实施例中，多音字建模列表中针对各个收录的汉字设有相应的标识，通过不同的标识将多音字与非多音字进行区别。当根据多音字建模列表对正则化文本信息中的多音字进行检测时，首先将正则化文本信息中的汉字与多音字建模列表中的汉字进行匹配，确定在多音字建模列表中相似度高于预设阈值的目标汉字，进而获取目标汉字对应的标识，根据标识确定当前检测的汉字是多音字或非多音字。

在另一可行的实施例中，多音字建模列表中仅针对多音字进行收录。当根据多多音字建模列表对正则化文本信息中的多音字进行检测时，将正则化文本信息中的汉字与多音字建模列表中的汉字进行匹配，若多音字建模列表中具有对应匹配的汉字，则确定当前检测的汉字为多音字；若多音字建模列表中不具有匹配的汉字，则确定当前检测的汉字为非多音字。

S302：根据多任务模型中对多音字拼音的预测概率调整多音字拼音的标签序列，以根据调整后的多音字拼音的标签序列确定正则化文本信息中检测为多音字的汉字拼音。

可选地，考虑到每个多音字对应的读音有限，在本申请实施例中对多任务模型输出的多音字拼音的标签序列作后处理，具体地包括：根据多任务模型中对多音字拼音的预测概率调整多音字拼音的标签序列；可选地，采用预测概率最高的读音作为对应多音字的拼音预测结果。

在一实施例中，在步骤S102中，多音字拼音的标签序列是通过多任务模型执行多音字消歧的序列标注任务而得，该预测结果是多任务模型基于学习的各种语境为多音字标注拼音。在步骤S302中，以多音字拼音的标签序列为基础，获取各个多音字所可能的各个读音的预测概率，以将预测概率最高的读音调整多音字拼音的标签序列中该多音字的拼音。通过步骤S302的实施有利于提高对多音字拼音预测的准确度。

S303：根据汉字拼音和整合标签序列，确定原始文本信息的音素序列。

可选地，原始文本信息的音素序列由多个序列表述任务输出的标签序列经过整合而设定。

在一实施例中，如图4所示，步骤S303根据汉字拼音和整合标签序列，确定原始文本信息的音素序列之前，还包括：

S401：通过预存储的拼音信息，确定正则化文本信息中检测为非多音字的汉字拼音。

可选地，预存储的拼音信息可收录各种中文字典中的汉字拼音，当步骤S301中检测出当前的正则化文本信息中包括非多音字时，将该非多音字与与存储的拼音信息中的汉字进行比对，在预存储的拼音信息中确定相同或最相似的目标汉字后，获取该目标汉字对应的汉字拼音作为该非多音字的汉字拼音。

可选地，预存储的拼音信息可被包含在预设的多音字建模列表中，在执行步骤S301时当根据多音字建模列表确定当前检测的汉字为非多音字时，同步获取对应的汉字拼音对该汉字进行标注。

下面将针对上述提供的语音合成的前端处理方法中关于多任务模型执行第二次计算的内容进行进一步的叙述。

在一实施例中，步骤S102将正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列，包括：

采用多任务模型基于正则化文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，输出对应的第一预测标签序列。

依据第一预测标签序列中的分词、韵律边界预测和多音字拼音的标签序列获取正则化文本信息的标签序列。

可选地，结合图6所示的多任务模型的结构示意图可见，本申请实施例中多任务模型的多任务输出层中配置有字符分类、分词、韵律边界预测和多音字消歧的序列标注任务，当将正则化文本信息输入多任务模型后，多任务模型将同步执行各个序列标注任务，且各个序列标注任务均输出相应的标签序列。考虑到执行后续的步骤仅需要分词、韵律边界预测和多音字拼音的标签序列，在此从第一预测标签序列中仅提取分词、韵律边界预测和多音字拼音的标签序列，相应地，可对字符分类的标签序列进行删除，以有效降低运算的复杂度和提高前端处理的效率。

下面将针对上述提供的语音合成的前端处理方法中关于多任务模型执行第一次计算的内容进行进一步的叙述。

在一实施例中，步骤S201将原始文本信息输入多任务模型，获取对应的字符分类标签序列，包括：

采用多任务模型基于原始文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，并输出对应的第二预测标签序列。

依据第二预测标签序列获取原始文本信息的字符分类的标签序列。

可选地，执行字符分类的序列标注任务所得的预测结果为字符分类的标签序列，该标签序列是将原始文本信息转换为正则化文本信息的基础，因此，当将原始文本信息输入多任务模型之后，多任务模型执行各个序列标注任务后，仅在第二预测标签序列中提取字符分类的标签序列，并可对其他序列标注任务所输出的标签序列进行删除，以有效降低运算的复杂度和提高前端处理的效率。

其中，多任务模型基于文本信息进行处理为进行前向计算，其中前向计算为神经网络模型的前向推理过程。在给定模型配置执行各项序列标注任务的情况下，通过神经网络模型(多任务模型)进行前向计算预测出各项序列标注任务对应的标签序列。

考虑到上述提供的语音合成的前端处理方法可应用于地图导航、语音助手、教育、娱乐等软件中，以下适应提供一种可行的应用例，以助于更好地理解本申请实施例提供的方法。

假设将上述方法应用于智能音箱，该智能音箱具有与用户对话的功能，当家长将该智能音箱用作孩童的陪护用品时，考虑到若智能音箱以家长的口吻与孩童进行对话或提醒孩童进行一系列的活动，可有效增加孩童的安全感，家长可以将日常使用的移动终端与智能音箱建立可通信连接，并在终端上以日常与孩童沟通的口吻输入相关语句的文本信息，借以通过智能音箱将该文本信息进行语音合成转换为语音信号后进行播放。其中，语音合成可以由智能音箱设有的装置进行处理，也可以将家长输入的文本信息上传至服务器处理后，接收服务器反馈的对应的语音信号进行播放。过程中，语音合成包括两个部分，一部分是前端模块对文本信息进行分析提取后端模块所需的相关信息，另一部分是后端模块将分析后的相关信息与声学模型及声码器进行对接；其中前端模块对文本信息进行分析的处理可采用上述实施例提供的语音合成的前端处理方法，将家长输入的文本信息进行分析提取后端模块所需的相关信息，以在读音、韵律停顿、数字及符号读法等方面提高对文本信息分析的准确度，进而提高合成语音的自然度和可懂读。

适应上述实施例提供的语音合成的前端处理方法，提供一种可执行该方法的语音合成的前端处理装置。

在一实施例，如图5所示，提供了一种语音合成的前端处理装置500，包括：转换模块501、获取模块502、整合模块503和确定模块504；其中：

转换模块501，用于获取待处理的原始文本信息，并将原始文本信息转换为正则化文本信息。

获取模块502，用于将正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列。

整合模块503，用于整合分词和韵律边界预测的标签序列，获得整合标签序列。

确定模块504，用于根据多音字拼音的标签序列和整合标签序列，确定原始文本信息的音素序列。

可选地，转换模块501包括：获取单元，用于将原始文本信息输入多任务模型，获取对应的字符分类标签序列；转换单元，用于根据字符分类标签序列将原始文本信息转换为正则化文本信息。

可选地，整合模块503包括：整合单元，用于结合分词和韵律边界预测的标签序列，在原始文本信息中每个分词的末尾配置对应的韵律边界预测的标签，获得整合标签序列。

可选地，确定模块504包括：检测单元，用于根据预设的多音字建模列表，对正则化文本信息中的多音字进行检测；调整单元，用于根据多任务模型中对多音字拼音的预测概率调整多音字拼音的标签序列，以根据调整后的多音字拼音的标签序列确定正则化文本信息中检测为多音字的汉字拼音；确定单元，用于根据汉字拼音和整合标签序列，确定原始文本信息的音素序列。

可选地，确定模块504还包括：通过预存储的拼音信息，确定正则化文本信息中检测为非多音字的汉字拼音。

可选地，获取模块502包括：计算单元，用于采用多任务模型基于正则化文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，输出对应的第一预测标签序列；提取单元，用于依据第一预测标签序列中的分词、韵律边界预测和多音字拼音的标签序列获取正则化文本信息的标签序列。

可选地，获取单元包括：计算子单元，用于采用多任务模型基于原始文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，并输出对应的第二预测标签序列；提取子单元，用于依据第二预测标签序列获取原始文本信息的字符分类的标签序列。

本申请实施例的语音合成的前端处理装置可执行本申请的实施例所提供的一种语音合成的前端处理方法，其实现原理相类似，本申请各实施例中的语音合成的前端处理装置中的各模块所执行的动作是与本申请各实施例中的语音合成的前端处理方法中的步骤相对应的，对于语音合成的前端处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的语音合成的前端处理方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的语音合成的前端处理方法。

在一个可选实施例中提供了一种电子设备，如图7所示，图7所示的电子设备7000包括：处理器7001和存储器7003。其中，处理器7001和存储器7003相连，如通过总线7002相连。可选地，电子设备7000还可以包括收发器7004。需要说明的是，实际应用中收发器7004不限于一个，该电子设备7000的结构并不构成对本申请实施例的限定。

处理器7001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器7001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线7002可包括一通路，在上述组件之间传送信息。总线7002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器7003用于存储执行本申请方案的应用程序代码，并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，转换模块还可以被描述为“用于获取待处理的原始文本信息，并将所述原始文本信息转换为正则化文本信息的模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音合成的前端处理方法，其特征在于，包括：

获取待处理的原始文本信息，并将所述原始文本信息转换为正则化文本信息；

将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列；

整合所述分词和韵律边界预测的标签序列，获得整合标签序列；

根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始文本信息转换为正则化文本信息，包括：

将所述原始文本信息输入多任务模型，获取对应的字符分类标签序列；

根据所述字符分类标签序列将所述原始文本信息转换为正则化文本信息。

3.根据权利要求1所述的方法，其特征在于，所述整合所述分词和韵律边界预测的标签序列，获得整合标签序列，包括：

结合所述分词和韵律边界预测的标签序列，在所述原始文本信息中每个分词的末尾配置对应的韵律边界预测的标签，获得整合标签序列。

4.根据权利要求1所述的方法，其特征在于，所述根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列，包括：

根据预设的多音字建模列表，对所述正则化文本信息中的多音字进行检测；

根据所述多任务模型中对多音字拼音的预测概率调整所述多音字拼音的标签序列；

根据调整后的多音字拼音的标签序列确定所述正则化文本信息中检测为多音字的汉字拼音；

根据所述汉字拼音和整合标签序列，确定所述原始文本信息的音素序列。

5.根据权利要求4所述的方法，其特征在于，所述根据所述汉字拼音和整合标签序列，确定所述原始文本信息的音素序列之前，还包括：

通过预存储的拼音信息，确定所述正则化文本信息中检测为非多音字的汉字拼音。

6.根据权利要求1所述的方法，其特征在于，所述将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列，包括：

采用多任务模型基于所述正则化文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，输出对应的第一预测标签序列；

依据所述第一预测标签序列中的分词、韵律边界预测和多音字拼音的标签序列获取所述正则化文本信息的标签序列。

7.根据权利要求2所述的方法，其特征在于，所述将所述原始文本信息输入多任务模型，获取对应的字符分类标签序列，包括：

采用所述多任务模型基于所述原始文本信息执行字符分类任务、分词任务、韵律边界预测任务和多音字消歧任务，并输出对应的第二预测标签序列；

依据所述第二预测标签序列获取所述原始文本信息的字符分类的标签序列。

8.一种语音合成的前端处理装置，其特征在于，包括：

转换模块，用于获取待处理的原始文本信息，并将所述原始文本信息转换为正则化文本信息；

获取模块，用于将所述正则化文本信息输入多任务模型，获取对应的分词、韵律边界预测和多音字拼音的标签序列；

整合模块，用于整合所述分词和韵律边界预测的标签序列，获得整合标签序列；

确定模块，用于根据所述多音字拼音的标签序列和整合标签序列，确定所述原始文本信息的音素序列。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～7任一项所述的语音合成的前端处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～7任一项所述的语音合成的前端处理方法。