CN114093341A

CN114093341A - 数据处理方法、装置及介质

Info

Publication number: CN114093341A
Application number: CN202111167846.0A
Authority: CN
Inventors: 方鹏; 刘恺
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-02-25

Abstract

本申请的实施例提供了一种数据处理方法、装置、介质，涉及计算机及人工智能技术领域。该方法包括：获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；获取与所述待处理文本数据中各个文本序列相对应的角色标签；通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。本申请实施例的技术方案可以提高针对数据处理的准确度。

Description

数据处理方法、装置及介质

技术领域

本申请涉及计算机及人工智能技术领域，具体而言，涉及一种数据处理方法、装置及介质。

背景技术

现有在将文本数据转换为语音数据的场景中，比如将小说文本转换为听书语音的场景，通常是在将文本数据直接转换为语音数据之后，对语音数据进行后处理，例如改变音高、语速和能量等等。然而，这种处理方式会导致语音在听感上有很明显的修饰成分，语音自然度不高。

基于此，如何提数据处理的准确度特别是提高将文本数据转换为语音数据的准确度是亟待解决的技术问题。

发明内容

本申请的实施例提供了一种数据处理方法、装置、计算机程序产品或计算机程序、计算机可读介质，进而至少在一定程度上可以提高针对数据处理的准确度。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；获取与所述待处理文本数据中各个文本序列相对应的角色标签；通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

根据本申请实施例的一个方面，提供了一种数据处理装置，包括：第一获取单元，被用于获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；第二获取单元，被用于获取与所述待处理文本数据中各个文本序列相对应的角色标签；确定单元，被用于通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；合成单元，被用于通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征；按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

在本申请的一些实施例中，基于前述方案，所述装置还包括：第三获取单元，被用于在通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征之前，获取与多个角色标签相对应的训练文本序列，以及获取与各个训练文本序列相匹配的匹配文本语音；训练单元，被用于通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练，得到所述声学模型。

在本申请的一些实施例中，基于前述方案，所述训练单元配置为：从所述匹配文本语音中提取针对所述训练文本序列的实际声学特征；通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征；基于预测声学特征与所述实际声学特征之间的误差，通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型。

在本申请的一些实施例中，基于前述方案，所述训练单元配置为：通过所述待训练声学模型，从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，作为与对应角色标签相匹配的匹配韵律特征；按照所述匹配韵律特征，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征。

在本申请的一些实施例中，基于前述方案，所述待训练声学模型中包括编码器模型和韵律模型，所述训练单元配置为：通过所述编码器模型对所述训练文本序列进行编码，得到所述训练文本序列对应的文本隐层特征；基于所述文本隐层特征，通过所述韵律模型从所述匹配文本语音中提取针对所述训练文本序列的韵律特征。

在本申请的一些实施例中，基于前述方案，所述训练单元配置为：根据所述匹配文本语音，通过所述韵律模型确定所述训练文本序列中各个字符在时间上的分布特征；基于所述分布特征，提取针对所述训练文本序列的韵律特征。

在本申请的一些实施例中，基于前述方案，所述待训练声学模型中还包括解码器模型，所述训练单元配置为：从所述匹配文本语音中提取针对所述训练文本序列的音色特征；基于所述音色特征和所述匹配韵律特征，通过所述解码器模型对所述文本隐层特征进行解码，得到针对所述训练文本序列的预测声学特征。

在本申请的一些实施例中，基于前述方案，所述装置还包括：第四获取单元，被用于在通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型之后，获取所述声学模型中的模型参数；更新单元，被用于对所述模型参数做定点处理以生成定点模型参数，并将所述定点模型参数更新至所述声学模型中。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：获取与所述待处理文本数据中各个文本序列相对应的情感标签；通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配，且与对应情感标签相匹配的韵律特征。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：识别与所述待处理文本数据中各个文本序列相对应的语义信息；通过所述语义信息，确定与所述待处理文本数据中各个文本序列相对应的情感标签。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：获取与所述待处理文本数据中各个文本序列相对应的音色特征；基于所述音色特征和所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

在本申请的一些实施例中，基于前述方案，所述待处理文本数据包括小说文本数据，所述角色标签包括旁白角色标签和至少一个对话角色标签。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上述实施例中所述的数据处理方法。

根据本申请实施例的一个方面，还提供了一种数据处理装置，其特征在于，包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如上述实施例中所述的数据处理方法的指令。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如上述实施例中所述的数据处理方法所执行的操作。

在本申请的一些实施例所提供的技术方案中，通过获取与所述待处理文本数据中各个文本序列相对应的角色标签，并通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征，使得声码器可以对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。由于为各个文本序列确定与对应角色标签相适应的声学特征，并通过声码器对所述各个文本序列的声学特征进行语音合成，可以针对不同的文本序列生成不同听感的语音数据，避免了语音数据在音质上的千篇一律，提高了语音的自然度，进而可以提高针对数据处理的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示出了根据本申请一个实施例的数据处理方法的流程图；

图3示出了根据本申请一个实施例的通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征的细节流程图；

图4示出了根据本申请一个实施例的在通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征之前的方法流程图；

图5示出了根据本申请一个实施例的通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练的细节流程图；

图6示出了根据本申请一个实施例的通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征的细节流程图；

图7示出了根据本申请一个实施例的在得到所述声学模型之后的方法流程图；

图8示出了根据本申请一个实施例的通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征的细节流程图；

图9示出了根据本申请一个实施例的按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征的细节流程图；

图10示出了根据本申请一个实施例的训练声学模型的框架示意图；

图11示出了根据本申请一个实施例的应用声学模型的框架示意图；

图12示出了根据本申请一个实施例的数据处理装置的框图；

图13示出了根据本申请一个实施例的数据处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要注意的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

本申请中的实施例有涉及到关于人工智能的技术，即通过人工智能实现了对数据(例如文本数据或者语音数据)的完全自动化处理。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等，但并不局限于此，本申请在此不做限制)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

在本申请的一个实施例中，用户在需要将一段文本数据转化为语音数据时，可以通过终端设备将包括至少一个文本序列的待处理文本数据和与各个文本序列相对应的角色标签发送给服务器105，服务器105在获取待处理文本数据和与各个文本序列相对应的角色标签之后，通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征，并通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

在本实施例中，通过为各个文本序列确定与对应角色标签相适应的声学特征，并通过声码器对所述各个文本序列的声学特征进行语音合成，可以针对不同的文本序列生成不同听感的语音数据，避免了语音数据在音质上的千篇一律，提高了语音的自然度，进而本实施例可以提高针对数据处理的准确度。

需要说明的是，本申请实施例所提供的数据处理方法可以由服务器105执行，相应地，数据处理装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的数据处理方案。

还需要说明的是，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要解释的是，如上所述的云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展。通过建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请一个实施例的数据处理方法的流程图，该数据处理方法可以由具有计算处理功能的设备来执行，比如可以由图1中所示的服务器105来执行，或者可以由图1中所示的终端设备来执行。参照图2所示，该数据处理方法至少包括步骤210至步骤270，详细介绍如下：

在步骤210中，获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列。

首先，需要说明的是，本申请所提出的数据处理方法可以应用于将文本数据转换为语音数据的应用场景。比如，将新闻文本数据转换为新闻播报数据(即语音数据)的场景，还比如，将小说文本数据转换为听书数据(即语音数据)。

可以理解的是，所述待处理文本可以是一段新闻文本，或可以是一段小说文本。

进一步的，待处理文本数据中的一个文本序列可以是具有相同属性内容的文本部分。比如，在新闻文本数据中，一个文本序列可以是指用于描述一个新闻事件的文本部分。在小说文本数据中，一个文本序列可以是指用于描述一个小说人物心理活动的文本部分，或者一个小说人物对话的文本部分。

继续参照图2，在步骤230中，获取与所述待处理文本数据中各个文本序列相对应的角色标签。

在本申请中，所述角色标签可以用于标识一个文本序列的属性。比如，在小说文本数据中，可以用角色标签“旁白”标识用于描述一个小说人物心理活动的文本部分，用角色标签“张三”标识小说人物张三对话的文本部分。

继续参照图2，在步骤250中，通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征。

在本申请中，可以通过对所述文本序列进行预处理，将其转换为所述声学模型能够识别的文本特征向量，然后将文本特征向量输入至所述声学模型，由所述声学模型输出与对应角色标签相适应的声学特征。

在本申请中，所述声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

在本申请中，所述声学特征具体可以是频域的梅尔谱特征。

继续参照图2，在步骤270中，通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

在本申请中，声码器是一种语音解码器，在本申请中负责合成语音信号，根据声学模型得到的声学特征，生成和声学特征对应的语音波形。

在本申请中，可以通过超低复杂度的高质量神经网络来构造声码器，使得可以大幅提升语音数据的音质效果。

下面，将针对如图2所示各个步骤的实施例进行详细阐述：

在如图2所示步骤250的一个实施例中，通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征，可以按照如图3所示的步骤执行。

参见图3，示出了根据本申请一个实施例的通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征的细节流程图。具体包括步骤251至步骤252：

步骤251，通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征。

步骤252，按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

在本申请中，韵律特征在本技术领域中”又可以称之为“超音质特征”或“超音段特征”，其是语言的一种音系结构，与句法和语篇结构、信息结构等其他语言学结构密切相关。韵律特征可以分为三个主要方面：语调、时域分布和重音，通过超音段特征实现。超音段特征包括音高，强度以及时间特性，由音位或音位群负载。韵律是人类自然语言的一个典型特征，具有许多跨语言的共同特点，比如：音高下倾、重读、停顿等都普遍存在于不同的语言之中。韵律特征也是语言和情绪表达的重要形式之一。

在本申请中，所述声学模型可以通过与所述对应角色标签相匹配的韵律特征为所述文本序列确定声学特征，使得所述通过所述声学特征合成的语音中具备所述韵律特征对应的韵律。

在本申请中，按照为所述文本序列确定的与对应角色标签相匹配的韵律特征，为所述文本序列确定声学特征，其好处在于，可以是使得在后续中得到的与文本序列对应的语音数据中具备与对应角色标签相匹配的韵律，从而可以针对不同的文本序列生成不同听感的语音数据，提高了语音的自然度。

在如图3所示步骤251之前的一个实施例中，即在通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征之前，还可以执行如图4所示的步骤。

参见图4，示出了根据本申请一个实施例的在通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征之前的方法流程图。具体包括步骤241至步骤242：

步骤241，获取与多个角色标签相对应的训练文本序列，以及获取与各个训练文本序列相匹配的匹配文本语音。

步骤242，通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练，得到所述声学模型。

在本实施例中，以将小说文本数据转换为听书数据(即语音数据)的场景为例，所述多个角色标签可以包括一个旁白角色标签和至少一个对话角色标签。对应的，训练文本序列可以包括一段“旁白”的文本序列以及包括至少一段“对话”的文本序列，跟进一步的，匹配文本语音可以包括一段“旁白”的文本语音以及包括至少一段“对话”的文本语音。

在如图4所示步骤242的一个实施例中，通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练，得到所述声学模型，可以按照如图5所示的步骤执行。

参见图5，示出了根据本申请一个实施例的通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练的细节流程图。具体包括步骤2421至步骤2423：

步骤2421，从所述匹配文本语音中提取针对所述训练文本序列的实际声学特征。

步骤2422，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征。

步骤2423，基于预测声学特征与所述实际声学特征之间的误差，通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型。

在如图5所示步骤2422的一个实施例中，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征，可以按照如图6所示的步骤执行。

参见图6，示出了根据本申请一个实施例的通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征的细节流程图。具体包括步骤24221至步骤24222：

步骤24221，通过所述待训练声学模型，从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，作为与对应角色标签相匹配的匹配韵律特征。

步骤24222，按照所述匹配韵律特征，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征。

在本申请中，所述待训练声学模型中可以包括编码器模型和韵律模型，其中，编码器模型主要用于对文本序列进行编码，得到文本序列的文本隐层特征。而韵律模型主要用于从语音数据中提取韵律特征，还可以用于为文本序列预测与对应角色标签相匹配的韵律特征。

在如图6所示步骤24221中，从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，可以按照如下步骤610至步骤620执行。

步骤610，通过所述编码器模型对所述训练文本序列进行编码，得到所述训练文本序列对应的文本隐层特征。

步骤620，基于所述文本隐层特征，通过所述韵律模型从所述匹配文本语音中提取针对所述训练文本序列的韵律特征。

在本申请中，通过所述韵律模型从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，可以按照如下步骤621至步骤622执行：

步骤621，根据所述匹配文本语音，通过所述韵律模型确定所述训练文本序列中各个字符在时间上的分布特征。

步骤622，基于所述分布特征，提取针对所述训练文本序列的韵律特征。

需要说明的是，在本申请中，各个字符在时间上的分布特征也可以理解为各个字符的音素在时间上的分布特征，其中，音素是根据语音的自然属性划分出来的最小语音单位，进一步的，音素在时间上的分布特征可以是音素对应的时长信息，比如，字符序列“我好开心”对应的音素序列为[wo hao kai xin]，可用于表示对应的发音，如果语音的语速为正常语速，则其时长信息可以为D1＝[1，1，1，1]，如果语音的语速为较慢语速，且“好”字的发音时间更长，则其时长信息可以为D1＝[2，3，2，2]，对应的，“我好开心”对应的音素序列可以拓展为[wo wo hao hao hao kai kai xin xin]。如果语音的语速为较快语速，且“好”字的发音时间正常，则其时长信息可以为D1＝[0.5，1，0.5，0.5]。

在如图6所示步骤24221中，在确定对应角色标签相匹配的匹配韵律特征之后，所述待训练声学模型中的韵律模型，可以学习并记忆与该角色标签相匹配的匹配韵律特征，在后续中，可直接根据该角色标签预测对应的韵律特征。

在本申请中，所述待训练声学模型中可以包括解码器模型，所述解码器模型主要用于对训练文本序列对应的训练文本隐层特征进行解码，以得到声学特征。

在如图6所示步骤24222中，按照所述匹配韵律特征，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征，可以按照如下步骤630至步骤640执行。

步骤630，从所述匹配文本语音中提取针对所述训练文本序列的音色特征。

步骤640，基于所述音色特征和所述匹配韵律特征，通过所述解码器模型对所述文本隐层特征进行解码，得到针对所述训练文本序列的预测声学特征。

在如图4所示的步骤2423中，基于预测声学特征与所述实际声学特征之间的误差，通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，实际上是通过所述预测声学特征与所述实际声学特征，对待训练声学模型进行有监督的对抗训练。

在训练过程中，可以根据预测声学特征以及实际声学特征生成损失函数，通过损失函数对待训练声学模型中的模型参数进行修正，得到声学模型，声学模型用于生成与文本序列相匹配的实际声学特征。具体的，可以根据预测声学特征以及训练文本序列对应的实际声学特征生成损失函数(例如可以是均方误差损失函数)，用于表示预测声学特征与真实的实际声学特征之间的差距，进而可以通过该损失函数对待训练声学模型中的模型参数进行修正，得到训练好的声学模型。其中，声学模型用于生成与文本序列相匹配的实际声学特征，该声学模型可以包括训练好的编码器模型、韵律模型以及解码器模型。

在如图4所示步骤2423之后的一个实施例中，即在通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型之后，还可以执行如图7所示的步骤。

参见图7，示出了根据本申请一个实施例的在得到所述声学模型之后的方法流程图。具体包括步骤2424至步骤2425：

步骤2424，获取所述声学模型中的模型参数。

步骤2425，对所述模型参数做定点处理以生成定点模型参数，并将所述定点模型参数更新至所述声学模型中。

在本申请中，定点处理可以将声学模型中的浮点参数修改为定点参数，浮点参数的小数位可随机变化，其可表达的小数范围较定点参数更广，相应的浮点参数的运算量也非常庞大，定点参数指在一个数中，整数部分和小数部分固定的参数。

在本申请中，对所述模型参数做定点处理，其好处在于，能够使得模型时间复杂度和空间复杂度大幅降低，由此减少声学模型的存储空间，且不损失模型性能。

在如图3所示步骤251的一个实施例中，通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征，可以按照如图8所示的步骤执行。

参见图8，示出了根据本申请一个实施例的通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征的细节流程图。具体包括步骤2511至步骤2512：

步骤2511，获取与所述待处理文本数据中各个文本序列相对应的情感标签。

步骤2512，通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配，且与对应情感标签相匹配的韵律特征。

在本申请中，每一个文本序列都可以对应一个情感标签，该情感标签可以用于标识该序列文本所表达的情感类型，具体的，比如，在所述情感标签为“高兴”时，则表明对应的文本序列对应表达高兴的情感，在所述情感标签为“忧伤”时，则表明对应的文本序列对应表达忧伤的情感。

在本申请中，通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配，且与对应情感标签相匹配的韵律特征，其好处在于，可以是使得在后续中得到的与文本序列对应的语音数据中不仅具备与对应角色标签相匹配的韵律，还可以具备与对应情感标签相匹配的韵律，从而可以针对不同的文本序列生成不同听感，且更加精准的语音数据，提高了语音的自然度。

在如图8所示步骤2511的一个实施例中，获取与所述待处理文本数据中各个文本序列相对应的情感标签，可以执行如下步骤25111至步骤25112：

步骤25111，识别与所述待处理文本数据中各个文本序列相对应的语义信息。

步骤25112，通过所述语义信息，确定与所述待处理文本数据中各个文本序列相对应的情感标签。

在如图3所示步骤252的一个实施例中，按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征，可以按照如图9所示的步骤执行。

参见图9，示出了根据本申请一个实施例的按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征的细节流程图。具体包括步骤2521至步骤2522：

步骤2521，获取与所述待处理文本数据中各个文本序列相对应的音色特征。

步骤2522，基于所述音色特征和所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

在本申请中，与所述各个文本序列相对应的音色特征可以是同一个音色特征，也可以是不同的音色特征。

比如，在以将小说文本数据转换为听书数据(即语音数据)的场景中，在一种情况下，所述音色特征可以仅仅只是一个音色特征，例如可以仅仅只是旁白角色标签对应的音色特征，也就是说，这样带来的效果是，在最终根据声学特征确定的语音数据中，各个文本序列对应的语音韵律有所区别，但各个文本序列对应的语音音色完全一致。在一种情况下，所述音色特征可以是与各个角色标签对应的不同音色特征，这样带来的效果是，在最终根据声学特征确定的语音数据中，各个文本序列对应的语音韵律有所区别，且各个文本序列对应的语音音色也有所区别。

可以理解的是，在本申请中，所提出的声学模型可以至少包括编码器模型，韵律模型，以及解码器模型。其中，由编码器模型，韵律模型，以及解码器模型组成的声学模型可以嵌入在离线设备中，如车载、手机、电视、音响、耳机、dsp等大部分设备，如此一来，即使在无网络环境下，离线设备也可以直接通过该声学模型将不同文本序列转换为与对应的角色标签和/或情感标签相匹配的语音数据，使得离线设备可以播放这些在韵律上具有层次感的语音数据，从而提升用户体验。

为了使本领域技术人员更好的理解本申请，下面将以小说文本数据转换为听书数据(即语音数据)的场景为例，结合图10和图11，分别从训练声学模型和应用声学模型的角度对本申请提出的实施例进行说明。

参见图10，示出了根据本申请一个实施例的训练声学模型的框架示意图。

如图10所述，待训练的声学模型1001中包括编码器模型，韵律模型，以及解码器模型。首先，一方面，将训练文本序列输入至声学模型1001中的编码器模型，由编码器模型输出针对训练文本序列的文本隐层特征，并将文本隐层特征输入至韵律模型和解码器模型，还将训练文本序列对应的旁白角色标签(或者对话角色标签)输入至解码器模型和韵律模型，使得解码器模型和韵律模型学习和记忆该旁白角色标签(或者对话角色标签)。另一方面，韵律模型从实际声学特征中提取与训练文本序列对应的韵律特征，将该韵律特征输入至解码器模型，并且进一步学习该旁白角色标签(或者对话角色标签)和该韵律特征之间的匹配关系。然后，解码器模型基于输入的文本隐层特征和韵律特征，对训练文本序列的声学特征进行预测，得到预测声学特征。最后，基于预测声学特征与所述实际声学特征之间的误差，通过梯度反向传递对所述声学模型1001中编码器模型，韵律模型，以及解码器模型的模型参数进行校正，得到训练后的声学模型1001。

参见图11，示出了根据本申请一个实施例的应用声学模型的框架示意图。

如图11所述，训练后的声学模型1002中包括编码器模型，韵律模型，以及解码器模型。

首先，将文本序列输入至声学模型1002中的编码器模型，由编码器模型输出针对文本序列的文本隐层特征，并将文本隐层特征输入至韵律模型和解码器模型。同时，将文本序列对应的旁白角色标签(或者对话角色标签)输入至韵律模型，以及将音色标签(反映出一种音色特征)输入至解码器模型。然后，韵律模型根据输入的旁白角色标签(或者对话角色标签)预测针对文本序列的韵律特征，并将该韵律特征输入至解码器模型。最后，解码器模型基于输入的文本隐层特征，韵律特征，以及音色标签，确定文本序列的声学特征。

在本申请中，通过获取与所述待处理文本数据中各个文本序列相对应的角色标签，并通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征，使得声码器可以对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。由于为各个文本序列确定与对应角色标签相适应的声学特征，并通过声码器对所述各个文本序列的声学特征进行语音合成，可以针对不同的文本序列生成不同听感的语音数据，避免了语音数据在音质上的千篇一律，提高了语音的自然度，进而可以提高针对数据处理的准确度。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的数据处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的数据处理方法的实施例。

图12示出了根据本申请一个实施例的数据处理装置的框图。

参照图12所示，根据本申请的一个实施例的数据处理装置1200，包括：第一获取单元1201、第二获取单元1202、确定单元1203和合成单元1204。

其中，第一获取单元1201，被用于获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；第二获取单元1202，被用于获取与所述待处理文本数据中各个文本序列相对应的角色标签；确定单元1203，被用于通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；合成单元1204，被用于通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

在本申请的一些实施例中，基于前述方案，所述确定单元1203配置为：通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征；按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

在本申请的一些实施例中，基于前述方案，所述确定单元1203配置为：获取与所述待处理文本数据中各个文本序列相对应的情感标签；通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配，且与对应情感标签相匹配的韵律特征。

在本申请的一些实施例中，基于前述方案，所述确定单元1203配置为：识别与所述待处理文本数据中各个文本序列相对应的语义信息；通过所述语义信息，确定与所述待处理文本数据中各个文本序列相对应的情感标签。

在本申请的一些实施例中，基于前述方案，所述确定单元1203配置为：获取与所述待处理文本数据中各个文本序列相对应的音色特征；基于所述音色特征和所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

作为另一方面，本申请实施例还提供了另一种数据处理装置，包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如上述实施例中所述的数据处理方法的指令。

图13示出了根据本申请一个实施例的数据处理装置的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图13，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1313，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1313为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以搜索结果展示装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述的数据处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现上述实施例中所述的数据处理方法。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由该装置的处理器加载并执行以实现如上述实施例中所述的数据处理方法所执行的操作。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；

获取与所述待处理文本数据中各个文本序列相对应的角色标签；

通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；

通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征，包括：

通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征；

按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

3.根据权利要求2所述的方法，其特征在于，在通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征之前，所述方法还包括：

获取与多个角色标签相对应的训练文本序列，以及获取与各个训练文本序列相匹配的匹配文本语音；

通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练，得到所述声学模型。

4.根据权利要求3所述的方法，其特征在于，所述通过所述训练文本序列和所述匹配文本语音对待训练声学模型进行训练，得到所述声学模型，包括：

从所述匹配文本语音中提取针对所述训练文本序列的实际声学特征；

通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征；

基于预测声学特征与所述实际声学特征之间的误差，通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型。

5.根据权利要求4所述的方法，其特征在于，所述通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征，包括：

通过所述待训练声学模型，从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，作为与对应角色标签相匹配的匹配韵律特征；

按照所述匹配韵律特征，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征。

6.根据权利要求5所述的方法，其特征在于，所述待训练声学模型中包括编码器模型和韵律模型，所述从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，包括：

通过所述编码器模型对所述训练文本序列进行编码，得到所述训练文本序列对应的文本隐层特征；

基于所述文本隐层特征，通过所述韵律模型从所述匹配文本语音中提取针对所述训练文本序列的韵律特征。

7.根据权利要求6所述的方法，其特征在于，所述通过所述韵律模型从所述匹配文本语音中提取针对所述训练文本序列的韵律特征，包括：

根据所述匹配文本语音，通过所述韵律模型确定所述训练文本序列中各个字符在时间上的分布特征；

基于所述分布特征，提取针对所述训练文本序列的韵律特征。

8.根据权利要求6所述的方法，其特征在于，所述待训练声学模型中还包括解码器模型，所述按照所述匹配韵律特征，通过所述待训练声学模型预测针对所述训练文本序列的预测声学特征，包括：

从所述匹配文本语音中提取针对所述训练文本序列的音色特征；

基于所述音色特征和所述匹配韵律特征，通过所述解码器模型对所述文本隐层特征进行解码，得到针对所述训练文本序列的预测声学特征。

9.根据权利要求4所述的方法，其特征在于，在通过梯度反向传递对所述待训练声学模型中的模型参数进行校正，得到所述声学模型之后，所述方法还包括：

获取所述声学模型中的模型参数；

对所述模型参数做定点处理以生成定点模型参数，并将所述定点模型参数更新至所述声学模型中。

10.根据权利要求2所述的方法，其特征在于，所述通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配的韵律特征，包括：

获取与所述待处理文本数据中各个文本序列相对应的情感标签；

通过预先训练的声学模型为所述文本序列确定与对应角色标签相匹配，且与对应情感标签相匹配的韵律特征。

11.根据权利要求10所述的方法，其特征在于，所述获取与所述待处理文本数据中各个文本序列相对应的情感标签，包括：

识别与所述待处理文本数据中各个文本序列相对应的语义信息；

通过所述语义信息，确定与所述待处理文本数据中各个文本序列相对应的情感标签。

12.根据权利要求2所述的方法，其特征在于，所述按照所述韵律特征，通过所述声学模型为所述文本序列确定声学特征，包括：

获取与所述待处理文本数据中各个文本序列相对应的音色特征；

基于所述音色特征和所述韵律特征，通过所述声学模型为所述文本序列确定声学特征。

13.一种数据处理装置，其特征在于，所述装置包括：

第一获取单元，被用于获取待处理文本数据，所述待处理文本数据中包括至少一个文本序列；

第二获取单元，被用于获取与所述待处理文本数据中各个文本序列相对应的角色标签；

确定单元，被用于通过预先训练的声学模型为所述文本序列确定与对应角色标签相适应的声学特征；

合成单元，被用于通过声码器对所述各个文本序列的声学特征进行语音合成，得到与所述待处理文本数据对应的语音数据。

14.一种数据处理装置，其特征在于，包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至12中任一所述的数据处理方法的指令。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至12任一项所述的数据处理方法所执行的操作。