CN111261140B

CN111261140B - 韵律模型训练方法及装置

Info

Publication number: CN111261140B
Application number: CN202010047794.2A
Authority: CN
Inventors: 吴朗
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2022-09-27
Anticipated expiration: 2040-01-16
Also published as: CN111261140A

Abstract

本发明是关于韵律模型训练方法及装置。该方法包括：接收包含韵律标注信息的训练语料；将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果；根据所述韵律输出结果和/或所述韵律标注信息，对所述待训练的韵律模型的网络参数进行训练，得到目标韵律模型。通过本发明的技术方案，使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型，可更好地从不同来源的训练数据中学习标注共性，如此，有利于提高韵律词边界、韵律短语边界的预测准确率和韵律模型的鲁棒性。

Description

韵律模型训练方法及装置

技术领域

本发明涉及神经网络技术领域，尤其涉及韵律模型训练方法及装置。

背景技术

目前，为了预测韵律词、韵律短语的边界，通常都会使用预先/事先设置好的韵律模型进行预测，而这种韵律模型比较固定，因而，会导致韵律词的边界、韵律短语的边界的预测错误，从而降低韵律词边界、韵律短语边界的预测准确率。

发明内容

本发明实施例提供了韵律模型训练方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种韵律模型训练方法，包括：

接收包含韵律标注信息的训练语料；

将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果；

根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型。

在一个实施例中，所述待训练的韵律模型包括：第一神经网络和第二神经网络；所述第二神经网络包括第一条件随机场层和第二条件随机场层；

所述将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果，包括：

将所述训练语料输入至所述第一神经网络，得到第一输出向量；

将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层，以得到韵律词边界；

将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量，输入至所述第二神经网络的所述第二条件随机场层，以得到韵律短语边界；

将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。

在一个实施例中，所述待训练的韵律模型包括：第三神经网络；

所述根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型，包括：

将所述第一输出向量进行处理，得到第二输出向量；

将所述第二输出向量输入至所述第三神经网络，以得到输出结果；

根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型。

在一个实施例中，所述根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型，包括：

当所述输出结果能够指示出韵律标注信息的标注人员时，调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数，直至所述输出结果无法指示出所述韵律标注信息的标注人员时，将调整后的韵律模型确定为所述目标韵律模型。

在一个实施例中，所述方法还包括：

当所述输出结果无法指示出所述韵律标注信息的标注人员时，生成参数保持提示，所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。

根据本发明实施例的第二方面，提供一种韵律模型训练装置，包括：

接收模块，用于接收包含韵律标注信息的训练语料；

输入模块，用于将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果；

训练模块，用于根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型。

所述输入模块包括：

第一输入子模块，用于将所述训练语料输入至所述第一神经网络，得到第一输出向量；

第二输入子模块，用于将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层，以得到韵律词边界；

第三输入子模块，用于将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量，输入至所述第二神经网络的所述第二条件随机场层，以得到韵律短语边界；

确定子模块，用于将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。

所述训练模块包括：

处理子模块，用于将所述第一输出向量进行处理，得到第二输出向量；

第四输入子模块，用于将所述第二输出向量输入至所述第三神经网络，以得到输出结果；

训练子模块，用于根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型。

在一个实施例中，所述训练子模块具体用于：

在一个实施例中，所述装置还包括：

生成模块，用于当所述输出结果无法指示出所述韵律标注信息的标注人员时，生成参数保持提示，所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。

本发明的实施例提供的技术方案可以包括以下有益效果：

通过接收该训练语料，可将该训练语料输入至事先设置好的待训练的韵律模型，以得到韵律输出结果，然后根据该韵律输出结果和所述韵律标注信息，自动地对所述待训练的韵律模型的网络参数进行训练，以得到目标韵律模型，从而使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型，可更好地从不同来源的训练数据中学习到标注共性，如此，也有利于提高韵律词边界、韵律短语边界的预测准确率和韵律模型的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种韵律模型训练方法的流程图。

图2是根据一示例性实施例示出的一种韵律模型训练装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

而另一种现有技术为：深度神经网络大都是靠堆数据来提高韵律模型预测准确率，但是训练韵律模型时使用的训练数据中的韵律标注因不同人经验知识而不同，很容易导致标注不一致性，当堆训练数据到一定量的时候，模型很容易饱和，甚至会降低模型性能。

为了解决上述技术问题，本发明实施例提供了一种韵律模型训练方法，该方法可用于韵律模型训练程序、系统或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S103：

在步骤S101中，接收包含韵律标注信息的训练语料；

韵律标注信息指的是标注人员人工地对训练语料中的韵律词、韵律短语的标注，当然，该标注可以是斜杠（/）、井号（#）等。

训练语料可以是海量的训练语句、短语等。

而该韵律指的是语音合成前端的韵律。

韵律标注信息可以来自不同标注人员。

在步骤S102中，将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果；

在步骤S103中，根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型。

通过接收该训练语料，可将该训练语料输入至事先设置好的待训练的韵律模型，以得到韵律输出结果，然后根据该韵律输出结果和所述韵律标注信息，自动地对所述待训练的韵律模型进行训练，以得到目标韵律模型，从而使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型，可更好地从不同来源的训练数据中学习标注共性，如此，也有利于提高韵律模型的鲁棒性以及韵律词边界、韵律短语边界的预测准确率。

其次，韵律词边界指的是韵律词中的最后一个字的边界，韵律短语边界指的是韵律短语中的最后一个字的边界。韵律词是从韵律学的角度来定义的，指“最小的能够自由运用的语言单位”，而韵律学中的“语言单位”是“韵律单位”，韵律词是以语言中的韵律单位为基础。另外，有规则性语法结构的、停延和音步的音域展敛可以使用规则控制的可能多音步。“可能的多音步”是指它们或者总是多音步，或者虽然在一定的上下文语境中可以是单音步，但另外的上下文语境中却可以是多音步。也就是说，我们认为汉语的韵律词决定性的韵律标记是单音步，而韵律短语是在单音步组合的基础上再加上更高层的停延和音步的音域展敛变化。

另外，在接收到待预测的语料时，可将待预测的语料输入至目标韵律模型，以通过该目标韵律模型对待预测的语料中的韵律词、韵律短语进行准确预测，或者通过该目标韵律模型对待预测的语料中的韵律词边界、韵律短语的边界进行准确预测。

训练语料输入至第一神经网络时，会先经过多个不同宽度滤波器的卷积层，再依次经过Max-over-time池化层和Highwaynetwork层，最后经过一个2层的Bi-LSTM（Bi-directional-LongShort-TermMemory）网络，才得到第一输出向量。

第一条件随机场层和第二条件随机场层分别是2个CRF层网络。

将表征所述韵律词边界的向量（也即该韵律词边界的向量）和所述第一输出向量组成的合成向量（如将这两个向量组合成一个向量），输入至所述第二神经网络的所述第二条件随机场层，以得到韵律短语边界；

在将训练语料输入至第一神经网络之前，可确定训练语料中各字向量拼成单词向量以及单词词性向量，然后将单词向量以及单词词性向量输入至第一神经网络，得到第一输出向量，然后将第一输出向量输入至第一条件随机场层，从而得到韵律词边界，再将表征该韵律词边界的向量和第一输出向量组成的合成向量输入至第二条件随机场层，从而进一步得到韵律短语边界，如此，即可实现通过两个条件随机场层预测出韵律词短语以及韵律短语边界，以便于之后利用韵律词边界和韵律短语边界对待训练的韵律模型进行训练。

单词向量为用于表征单词内容的向量，单词词性向量为用于表征单词语法功能的向量，该词性指的是以词的特点作为划分词类的根据，词性为动词、名词、形容词等。

第三神经网络是由一个多层的全连接神经网络和softmax层组成的网络。

将所述第一输出向量进行处理，得到第二输出向量；

该处理过程可以是将每个时刻的第一输出向量取平均值，从而得到第二输出向量。

根据所述输出结果是否能够指示出韵律标注信息的标注人员（具体地：是否能够指示出标注人员的标识，而该标识可以是编号、姓名等标识，最终表示成向量的形式），对所述待训练的韵律模型进行训练，得到目标韵律模型。

通过将第二输出向量输入至第三神经网络，可得到输出结果，然后根据该输出结果是否能够指示出韵律标注信息具体的标注人员，可对事先设置好的待训练的韵律模型进行自动训练，从而得到个性化的、适应性和精准度较高的目标韵律模型，进而可更好地预测新输入的语料中的韵律词边界以及韵律短语边界。

当然，上述得到目标韵律模型的实施例是根据韵律标注信息，对待训练的韵律模型进行训练得到的。

在训练时，结合韵律输出结果以及韵律标注信息对待训练的韵律模型进行训练，判断韵律输出结果与韵律标注信息的差异，对待训练的韵律模型进行训练。而具体训练过程可以是：

设置两个损失函数，第二神经网络输出端有一个损失函数，它有两个参数，一个是训练数据经过待训练的韵律模型后的输出（预测）结果（韵律词边界和韵律短语边界），另一个是训练数据里标注结果（即韵律标注信息），这两个结果都用向量表示，然后利用这个损失函数去计算两个向量之间的损失，再更新待训练的韵律模型中的参数（权值或权重），使得这个损失降到最低；

且第三神经网络也有一个损失函数，同样也有两个参数，一个是训练数据经过待训练的韵律模型输出的预测结果的概率分布，另一个是标注人员编号的向量，然后计算损失最大，通过取反转变成计算损失最小，和前面那个损失函数一致。

最后，将每个损失函数分别乘上一个权重再求和，得到最终的目标损失函数，利用该目标损失函数确定出目标韵律模型。

当输出结果能够指示出韵律标注信息的标注人员即哪条韵律标注信息属于哪个标注人员时，说明该待训练的韵律模型目前不太准，只偏向于对某个标注人员的韵律标注信息进行识别，且韵律标注信息通常会因不同人经验知识而不同，这意味着此时的韵律模型并没有学习到多个标注人员的韵律标注信息中的共性，这就不利于该模型识别其他不同标注人员的韵律标注信息，因而，需要调整第一神经网络、所述第二神经网络和所述第三神经网络中的参数，直至所述输出结果无法指示出韵律标注信息的具体标注人员时，才将调整后的韵律模型确定为所述目标韵律模型，从而使得训练出的目标韵律模型可正确识别出各种标注人员的韵律标注信息，进而确保目标韵律模型比较精准。

当然，包括第一神经网络、第二神经网络和第三神经网络的韵律模型属于多任务学习网络，能够降低预测错误的传递，还可以增强泛化能力。

在一个实施例中，所述方法还用于：

当输出结果无法指示出韵律标注信息具体的标注人员时，可生成参数保持提示，以提示不对上述第一神经网络、第二神经网络和第三神经网络中的参数进行调整，从而避免误调整而影响目标韵律模型的精准性。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述韵律模型训练方法，本发明实施例还提供一种韵律模型训练装置，如图2所示，该装置包括：

接收模块201，用于接收包含韵律标注信息的训练语料；

输入模块202，用于将所述训练语料输入至待训练的韵律模型，以得到韵律输出结果；

训练模块203，用于根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型。

所述输入模块包括：

所述训练模块包括：

在一个实施例中，所述训练子模块具体用于：

在一个实施例中，所述装置还包括：

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种韵律模型训练方法，其特征在于，包括：

接收包含韵律标注信息的训练语料；

根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型；

所述待训练的韵律模型包括：第一神经网络和第二神经网络；所述第二神经网络包括第一条件随机场层和第二条件随机场层；

将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果；

所述待训练的韵律模型包括：第三神经网络；

将所述第一输出向量进行处理，得到第二输出向量；

根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型；

所述根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型，包括：

当所述输出结果能够指示出韵律标注信息的标注人员时，调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数，直至所述输出结果无法指示出所述韵律标注信息的标注人员时，将调整后的韵律模型确定为所述目标韵律模型；

所述方法还包括：

2.一种韵律模型训练装置，其特征在于，包括：

接收模块，用于接收包含韵律标注信息的训练语料；

训练模块，用于根据所述韵律输出结果和所述韵律标注信息，对所述待训练的韵律模型进行训练，得到目标韵律模型；

所述输入模块包括：

确定子模块，用于将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果；

所述待训练的韵律模型包括：第三神经网络；

所述训练模块包括：

训练子模块，用于根据所述输出结果是否能够指示出韵律标注信息的标注人员，对所述待训练的韵律模型进行训练，得到目标韵律模型；

所述训练子模块具体用于：

所述装置还包括：