CN110909179B

CN110909179B - 文本生成模型的优化方法及系统

Info

Publication number: CN110909179B
Application number: CN201911199485.0A
Authority: CN
Inventors: 朱钦佩; 吴仁守
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-07-08
Anticipated expiration: 2039-11-29
Also published as: CN110909179A

Abstract

本发明实施例提供一种文本生成模型的优化方法。该方法包括：基于文本生成模型的本文生成领域，获取与本文生成领域相关联的训练数据集，根据训练数据集训练本文生成领域的语言模型；将对话文本分别输入至文本生成模型和语言模型；确定文本生成模型解码端输出S_t为第一输出，语言模型的输出L_t为第二输出；基于第一输出和第二输出的加权和确定第三输出；基于输出S_t、输出L_t和激活函数，确定融合输出比例O_t；通过第三输出和融合输出比例O_t相结合，得到文本生成模型的优化输出文本。本发明实施例还提供一种文本生成模型的优化系统。本发明实施例构造文本生成模型和语言模型融合的方式，将语言模型与文本生成模型相融合，提高文本生成模型的生成效果。

Description

文本生成模型的优化方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本生成模型的优化方法及系统。

背景技术

自然语言生成是自然语言处理的重要内容，广泛应用于自动翻译、摘要提取、新闻撰写、阅读理解、智能聊天机器人等等领域。比如在中英文本翻译中，给模型输入“这个多少钱”，模型输出“how much is it”。技术上，业界普遍使用的算法框架是一种“编码-解码”(encode-decode)框架，知名的算法有“seq2seq-attention”、“tansformer”等。这些性能强大的算法能够有效的学习到输入文本的特征，并巧妙的利用这些特征组织输出文本。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在实际实施过程中，这些算法总是会受限于训练数据的规模，生成的文本往往有重复、不通顺等情况。而生成模型，作为有监督的模型，恰好又无法利用超大规模数据进行训练，只“熟悉”部分文字之间的连接性。使得通过这些算法训练的生成模型的生成文本会出现语句不通顺或重复的情况。

发明内容

为了至少解决现有技术中生成模型无法利用大量数据进行训练，使得生成模型的生成文本会出现语句不通顺或重复情况的问题。

第一方面，本发明实施例提供一种文本生成模型的优化方法，包括：

基于文本生成模型的本文生成领域，获取与所述本文生成领域相关联的训练数据集，根据所述训练数据集训练所述本文生成领域的语言模型；

将对话文本分别输入至所述文本生成模型以及所述语言模型；

确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出；

基于所述第一输出和所述第二输出的加权和确定第三输出；

基于所述输出S_t、输出L_t以及激活函数，建立输出门模型，确定融合输出比例O_t；

通过所述第三输出以及融合输出比例O_t相结合，得到所述文本生成模型的优化输出文本。

第二方面，本发明实施例提供一种文本生成模型的优化系统，包括：

语言模型生成程序模块，用于基于文本生成模型的本文生成领域，获取与所述本文生成领域相关联的训练数据集，根据所述训练数据集训练所述本文生成领域的语言模型；

数据输入程序模块，用于将对话文本分别输入至所述文本生成模型以及所述语言模型；

输出确定程序模块，用于确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出；

第三输出确定程序模块，用于基于所述第一输出和所述第二输出的加权和确定第三输出；

融合输出比例确定程序模块，用于基于所述输出S_t、输出L_t以及激活函数，建立输出门模型，确定融合输出比例O_t；

优化程序模块，用于通过所述第三输出以及融合输出比例O_t相结合，得到所述文本生成模型的优化输出文本。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的文本生成模型的优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的文本生成模型的优化方法的步骤。

本发明实施例的有益效果在于：构造文本生成模型和语言模型融合的方式，是把两个模型的信息流视为同等地位，将语言模型与文本生成模型相融合，以使用充足数据训练的语言模型提高文本生成模型的文本生成效果。现有一些算法(比如, Cold Fusion)，只把语言模型作为辅助地位(即只使用了本专利中的语言门)，弱化了语言模型的范化作用。本专利增加了生成门和输出门，将两种信息作为同等地位一起调节和控制，大大提高了生成模型的语言表达能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种文本生成模型的优化方法的流程图；

图2是本发明一实施例提供的一种文本生成模型的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种文本生成模型的优化方法的流程图，包括如下步骤：

S11：基于文本生成模型的本文生成领域，获取与所述本文生成领域相关联的训练数据集，根据所述训练数据集训练所述本文生成领域的语言模型；

S12：将对话文本分别输入至所述文本生成模型以及所述语言模型；

S13：确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出；

S14：基于所述第一输出和所述第二输出的加权和确定第三输出；

S15：基于所述输出S_t、输出L_t以及激活函数，建立输出门模型，确定融合输出比例O_t；

S16：通过所述第三输出以及融合输出比例O_t相结合，得到所述文本生成模型的优化输出文本。

在本实施方式中，虽然生成模型无法利用大规模的数据进行训练，但是语言模型可以利用大规模的数据训练，语言模型几乎“见过”所有文字之间的相互组合和使用场景。将语言模型的“经验”传递给生成模型，可以提升生成模型的效果。

对于步骤S11，文本生成模型是基于encode-decode框架，例如，transformer算法。语言模型可以使用已经公开的模型或者根据需要训练与任务相匹配的语言模型。例如，可以使用已经公开的语言模型BERT或XLNET。亦或者，使用与任务相同领域的海量文本，训练与任务相关的语言模型。比如，如果目前的任务是做法律领域的问答机器人，生成模型的数据基本都是法律相关的数据，那么语言模型的预训练数据就使用与法律相关的文本，又比如说，任务是做诗歌的问答机器人，生成模型的数据基本都是诗歌的数据，那么语言模型的预训练数据就使用与诗歌相关的文本。

对于步骤S12，在使用阶段，以诗歌为例，接收用户的输入，可以是一个词语，也可以是一句话，例如“一片树叶”。将这句话分别输入至在步骤S11中确定的文本生成模型以及语言模型中。更具体的来说，在训练阶段，例如，训练数据中一组文本对——Q:你今天开心吗。A：我今天特别开心，将“你今天开心吗”做embedding嵌入后输入文本生成模型，将“我今天特别开心”做embedding嵌入后输入语言模型。

对于步骤S13，实时获取文本生成模型在decode解码端t时刻的第一输出S_t，以及语言模型在t时刻的第二输出L_t。由于用户的输入是实时的，例如，用户输入“一片树叶”使用了4个字符，那么t的范围就在[0, 3]。这里特别说明的是，如果是训练阶段，并且语言模型用的是self-attention的架构，需要使用t时刻的mask，即mask=(1,..,1, 0, ..., 0)，前t个为1，用来保证训练时只考虑前t个字符。如果是使用预测阶段，那么不需要mask。

对于步骤S14，考虑到目的是将语言模型的“经验”传递给生成模型，将所述文本生成模型融合到语言模型的生成效果，进而对步骤S13中确定的第一输出和第二输出进行融合，从而确定出第三输出。

对于步骤S15，基于所述第一输出S_t、输出L_t以及激活函数，建立输出门模型，确定融合输出比例O_t，其中激活函数将非线性特性引入到本方法中。在神经元中，输入的数据通过加权，求和后，还被作用了一个函数，这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算叠加了若干层之后，无非还是个矩阵相乘而已。输出门模型（output gate），为控制单元状态 C_t有多少输出到神经网络的当前输出值。通过O_t调整了模型的输出。

对于步骤S16，通过将所述第三输出与在步骤S15中确定的O_t相结合，也就得到了优化后的输出文本。整体上可以理解为从两个独立的模型中，按“比例”抽取各自的信息汇总到一起，对整体模型的优化过程就包含对这个“比例”的优化。使用这种汇总方法可以缓解传统模型过度依赖训练数据而导致语言表达过短或不丰富的问题。比如，在训练数据中，“翅膀”和“树叶”没有在同一句话中出现过，使得模型永远不会将二者联系起来，由于语言模型是通过超大规模数据训练而来，词语之间的关系以及表达方式不会局限于训练数据。因此，将的第三输出与Ot相结合，使得这些没有在同一句话中出现过的词语，联系了起来，使得输出的文本更加优美。例如，不使用本方法的文本生成模型，用户在输入“一片树叶”，仅仅会得到“一片树叶，一片树叶，一片树叶”这样重复的输出。而使用本方法优化后的文本生成模型，融入了语言模型，用户在输入“一片树叶”后，会得到“树叶是落在地上的翅膀，翅膀是飘在天上的叶子”。

通过该实施方式可以看出，构造文本生成模型和语言模型融合的方式，是把两个模型的信息流视为同等地位，将语言模型与文本生成模型相融合，以使用充足数据训练的语言模型提高文本生成模型的文本生成效果。现有一些算法(比如, Cold Fusion)，只把语言模型作为辅助地位(即只使用了本专利中的语言门)，弱化了语言模型的范化作用。本专利增加了生成门和输出门，将两种信息作为同等地位一起调节和控制，大大提高了生成模型的语言表达能力。

作为一种实施方式，在本实施例中，所述基于所述第一输出和所述第二输出的加权和确定第三输出包括：

通过所述激活函数，确定所述输出S_t以及所述输出L_t各自所占的第一比例以及第二比例；

基于所述输出S_t、所述L_t、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出C_t。

进一步地所述通过所述激活函数，确定所述输出S_t以及所述输出L_t各自所占的第一比例以及第二比例包括：

基于所述激活函数，建立生成门模型G_St，用于确定所述输出S_t所占的第一比例；

基于所述激活函数，建立语言门模型G_Lt，用于确定所述输出L_t所占的第二比例；

所述基于所述输出S_t、所述L_t、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出C_t包括：

通过C_t = G_Lt • L_t + G_St • S_t得到所述文本生成模型以及所述语言模型结合后的整体输出。

在本实施方式中，激活函数已经说明，在此不再赘述。建立生成门模型，这个“门”代表汇总了生成模型和语言模型的初始信息，控制生成模型的权重，来决定要使用输出S_t的比例，即：

G_St = σ (W_S * S_t + U_S * L_t + b_S)

其中，W_S、U_S和b_S是网络要训练的参数。

建立语言门模型，这个“门”代表汇总了生成模型和语言模型的初始信息，控制语言模型的权重，来决定要使用输出L_t的比例，即：

G_Lt = σ (W_L * S_t + U_L * L_t + b_L)

其中，σ是激活函数，W_L、U_L和b_L是网络要训练的参数。

从而，将文本生成模型以及所述语言模型结合确定第三输出C_t，即：

C_t = G_Lt • L_t + G_St • S_t

其中，’a’ • ‘b’表示’a’和’b’两个矩阵的对应项相乘。

进一步的，也可以得到融合输出比例O_t，即：

O_t = σ (W_o * S_t + U_o * L_t + b_o)

其中，W_o、U_o和b_o是网络要训练的参数。

通过该实施方式可以看出，应用具体的公式进行确定，提高模型优化的效果。

作为一种实施方式，在本实施例中，所述所述通过所述第三输出以及融合输出比例Ot相结合，包括：

通过Ot * tanh（Ct）将所述第三输出Ct以及融合输出比例Ot相结合。

在本实施方式中，通过Logits(t) = Ot * tanh(Ct)具体的公式进行融合，这里主要借鉴于BLSTM中输出门的公式，tanh函数也是如此，当然理论上也可以使用其他非线性函数。在求得Logits(t)之后，使用Logits(t)来代替原来文本生成模型中的St，求交叉熵损失函数即可。

通过具体的公式，提高模型优化的效果。

作为一种实施方式，在所述确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出之后，所述方法还包括：

对所述输出S_t以及输出L_t进行归一化处理。

在本实施方式中，对对 S_t和 L_t分别做归一化，即：

S_t<= normalization(S_t)

L_t<= normalization(L_t)

通过归一化解决，当不同的特征成列在一起的时候，由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况，这个时候我们需要做的就是对抽取出来的特征向量进行归一化处理，以保证每个特征被分类器平等对待。

如图2所示为本发明一实施例提供的一种文本生成模型的优化系统的结构示意图，该系统可执行上述任意实施例所述的文本生成模型的优化方法，并配置在终端中。

本实施例提供的一种文本生成模型的优化系统10包括：语言模型生成程序模块11，数据输入程序模块12，输出确定程序模块13，第三输出确定程序模块14；融合输出比例确定程序模块15和优化程序模块16。

其中，语言模型生成程序模块11用于基于文本生成模型的本文生成领域，获取与所述本文生成领域相关联的训练数据集，根据所述训练数据集训练所述本文生成领域的语言模型；数据输入程序模块12用于将对话文本分别输入至所述文本生成模型以及所述语言模型；输出确定程序模块13用于确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出；第三输出确定程序模块14用于基于所述第一输出和所述第二输出的加权和确定第三输出；融合输出比例确定程序模块15用于基于所述输出S_t、输出L_t以及激活函数，建立输出门模型，确定融合输出比例O_t；优化程序模块16用于通过所述第三输出以及融合输出比例O_t相结合，得到所述文本生成模型的优化输出文本。

进一步地，所述第三输出确定程序模块用于：

所述第三输出确定程序模块还用于：

进一步地，所述优化程序模块用于：

通过O_t * tanh（C_t）将所述第三输出C_t以及融合输出比例O_t相结合。

进一步地，在所述输出确定程序模块之后，所述系统还包括，归一化处理程序模块：

对所述输出S_t以及输出L_t进行归一化处理。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本生成模型的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

基于所述第一输出和所述第二输出的加权和确定第三输出；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的文本生成模型的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的文本生成模型的优化方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语言处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本生成模型的优化方法，包括：

基于文本生成模型的文本生成领域，获取与所述文本生成领域相关联的训练数据集，根据所述训练数据集训练所述文本生成领域的语言模型；

基于所述第一输出和所述第二输出的加权和确定第三输出；

2.根据权利要求1所述的方法，其中，所述基于所述第一输出和所述第二输出的加权和确定第三输出包括：

3.根据权利要求2所述的方法，其中，所述通过所述激活函数，确定所述输出S_t以及所述输出L_t各自所占的第一比例以及第二比例包括：

4.根据权利要求3所述的方法，其中，所述通过所述第三输出以及融合输出比例O_t相结合，包括：

5.根据权利要求1所述的方法，其中，在所述确定在t时刻，所述文本生成模型解码端的输出S_t为第一输出，以及所述语言模型的输出L_t为第二输出之后，所述方法还包括：

对所述输出S_t以及输出L_t进行归一化处理。

6.一种文本生成模型的优化系统，包括：

语言模型生成程序模块，用于基于文本生成模型的文本生成领域，获取与所述文本生成领域相关联的训练数据集，根据所述训练数据集训练所述文本生成领域的语言模型；

7.根据权利要求6所述的系统，其中，所述第三输出确定程序模块用于：

8.根据权利要求7所述的系统，其中，所述第三输出确定程序模块用于：

所述第三输出确定程序模块还用于：

9.根据权利要求8所述的系统，其中，所述优化程序模块用于：

10.根据权利要求6所述的系统，其中，在所述输出确定程序模块之后，所述系统还包括，归一化处理程序模块：

对所述输出S_t以及输出L_t进行归一化处理。