CN110162751A

CN110162751A - 文本生成器训练方法和文本生成器训练系统

Info

Publication number: CN110162751A
Application number: CN201910392908.4A
Authority: CN
Inventors: 李嘉藩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-23

Abstract

本发明提供一种文本生成器训练方法和文本生成器训练系统，其中方法包括：对隐层状态向量进行随机高斯初始化；读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。本发明中，通过对隐层状态向量进行随机高斯初始化，可以有效避免文本生成器生成重复的文本，提高生成得到的样本的多样性。

Description

文本生成器训练方法和文本生成器训练系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种文本生成器训练方法和文本生成器训练系统。

背景技术

样本生成(Sample Generating)技术是指通过一定的技术手段从已有样本中发现其分布规律，并产生符合其分布的新样本的技术。在文本内容风控等特定场景下，需要从大量数据中发现作弊数据，以实现对作弊数据的识别。目前，通常采用人工抽取样本的方法从大量数据中筛选出作弊样本，既耗时又费力。

随着结合生成式对抗网络(Generative Adversarial Networks，GAN)和强化学习(Reinforcement Learning)的SeqGAN(Sequence Generative Adversarial Networks)的提出，SeqGAN可用于训练文本生成器。其中，在训练过程中采用GAN的思路，使用已有作弊样本训练一个文本生成器(Generator)，并使用这个文本生成器生成假的作弊样本，再利用真实的作弊样本以及假的作弊样本分别为正负样本训练一个判别器(Discriminator)；之后使用判别器指导生成器不断更新网络参数，以使得生成器生成的模型能够生成更加符合作弊样本分布的新样本；最后利用得到的生成器生成新的作弊样本以用于反作弊文本模型的训练。其中，在更新网络参数的过程中，将文本样本生成过程视为一个策略网络(即生成器网络)的决策过程，使用强化学习的策略梯度(Policy Gradient)的训练策略以解决文本类型离散数据不可导的问题，并在其中采用蒙特卡洛采样方法补全当前生成的序列，并将补全后的序列被判别器判断为真实样本的概率作为当前Step的Reward更新生成器网络，以逐步优化生成器的网络参数，生成更为逼真的样本。

在上述训练方法中，文本生成器在生成每个样本时采用同样的隐层状态(hiddenstate)参数，这些参数在训练过程中不断被更新，而在生成样本时保持不变，因此，对于同样的初始字符输入会生成同样的文本序列。而对于反作弊场景来说，采用文本生成器生成的作弊样本需要具有一定程度的多样性。因此，上述文本生成器的训练方法无法满足作弊样本多样性的需求。

发明内容

本发明实施例提供一种文本生成器训练方法和文本生成器训练系统，以解决现有文本生成器的训练方法无法满足作弊样本多样性需求的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种文本生成器训练方法，包括：

对隐层状态向量进行随机高斯初始化；

读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；

通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；

将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。

第二方面，本发明实施例提供了一种文本生成器训练系统，包括：

隐层状态向量初始化模块，用于对隐层状态向量进行随机高斯初始化；

输入模块，用于读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；

第一输出模块，用于通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；

第二输出模块，将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。

第三方面，本发明实施例提供了另一种文本生成器训练系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时，实现本发明实施例第一方面中的文本生成器训练方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例第一方面中的文本生成器训练方法中的步骤。

本发明实施例中，通过对隐层状态向量进行随机高斯初始化，可以有效避免文本生成器生成重复的文本，提高生成得到的样本的多样性。

附图说明

图1是本发明实施例提供的一种文本生成器训练方法的流程示意图；

图2是本发明实施例提供的文本生成器训练时序示意图；

图3是本发明实施例提供的文本生成器预训练阶段的时序示意图；

图4是本发明实施例提供的一种文本生成器训练系统的结构示意图；

图5是本发明实施例提供的另一种文本生成器训练系统的结构示意图；

图6是本发明实施例提供的另一种文本生成器训练系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种文本生成器训练方法，包括以下步骤：

步骤101：对隐层状态向量进行随机高斯初始化。

其中，隐层状态向量指的是在生成文本的开始阶段有一个初始值，随着不断生成下一个字符而不断更新。随机高斯初始化又可称为高斯分布随机初始化。

该步骤中，对隐层状态向量进行随机高斯初始化，是指生成每条文本时都按照指定的高斯分布计算得到一个随机的向量作为隐层状态向量，而不是直接取一个全零向量作为隐层状态向量。

步骤102：读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入。

其中，起始字符也可称为起始符号，起始字符是指一种特殊标记。起始字符作为文本生成器的输入，可由两个特殊的整数标识组成，但不代表任何字符。

上述文本生成器可由长短期记忆网络(Long Short Term Memory，简称LSTM)神经元构成。上述文本生成器可用于生成作弊样本。其中，作弊样本通常是指利用互联网传播的包含有不良信息或异常信息的样本。

步骤103：通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出。

其中，通过多项式采样方法生成第一个字符，具体包括以下步骤：

通过所述隐层状态向量和所述起始字符，分别计算各字符的生成概率；

根据各字符的生成概率，对各字符进行随机采样，以得到所述第一个字符。

更具体的，通过多项式采样方法生成第一个字符(token)，是指文本生成器通过读入隐层状态向量以及起始符号计算得到下一个字符所有可能出现的概率(比如为“我”的概率是0.1％，为“你”的概率是0.2％，其余所有汉字或者英文、数字等字符类似)，然后根据各字符的概率随机采样得到整条生成文本的第一个字符(某个字符的概率越高，取该字符的可能性也越大)，该第一个字符作为文本生成器的第一输出。

步骤104：将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。

该步骤中，在生成第一个字符之后，后续输出的字符可取生成概率满足预设条件的字符。具体的，在计算出来下一个字符所有可能出现的概率之后取概率满足预设条件的字符作为下一个字符，而不是用多项式采样的方法从这些字符中随机取一个。在生成结束字符时，即可表明所有的字符全部输出完毕，所有输出的字符的集合即为文本生成器所生成的样本。

其中，生成概率满足预设条件，可以理解为，生成概率大于或等于预设的阈值。

具体的，将生成概率满足预设条件的字符作为所述文本生成器的下一输出，包括：

将生成概率最大的字符作为所述文本生成器的下一输出。

这样，在生成第一个字符之后，后续输出的字符直接取生成概率最大的字符。或者说，在计算出来下一个字符所有可能出现的概率之后直接取概率最大的字符作为下一个字符，而不是用多项式采样的方法从这些字符中随机取一个。

在传统的训练方法中，文本生成器在生成每个样本时采用同样的隐层状态向量，其在训练过程中不断被更新，但在生成样本时保持不变，因此，对于同样的初始字符输入会生成同样的文本序列。对于反作弊场景，生成的作弊样本需要具有一定程度的多样性(diversity)，因此，传统的文本生成器训练方法无法满足反作弊场景对样本多样性的需求。

图2示出了上述步骤101至步骤104所述的文本生成器训练时序示意图，其中，LSTMCell表示LSTM神经元。

可选的，在所述对隐层状态向量进行随机高斯初始化之前，所述方法还包括：

使用输入的第一样本对所述文本生成器进行预训练，以使所述文本生成器实现参数初始化。

为了使训练阶段生成的文本样本与真实样本尽可能地减少差别，以使判别器不会过于容易地区分生成样本与真实样本，需要对文本生成器进行预训练，以使文本生成器的参数被合理地初始化。

其中，文本生成器的参数是指深度神经网络(Deep Neural Network)的参数，即各个神经元(Neuron)中根据输入(Input)计算得到输出(Output)的公式的值。不同神经元有不同的参数类型，整个深度神经网络内部所有神经元的参数构成神经网络的参数，即文本生成器的参数。

传统的文本生成器参数初始化是通过策略梯度(policy gradient)优化的方法，该方法指导文本生成器进行参数初始化达不到生成逼真的作弊样本的作用。而对于机器翻译或者自动问答等任务，一般使用两两序列比对(pairwise)的样本作为输入，即文本生成器的输入数据是数据集样本的前一句话，目标为生成数据集样本的后一句话，在预训练的过程中通过直接对其最大似然函数损失求导优化文本生成器的参数。而在单一的文本生成任务中，并不存在样本数据集中前后两句一一对应的关系。因此，上述方式均无法达到本发明实施例中对文本生成器进行预训练的要求。

鉴于此，本发明实施例通常在训练神经网络的过程中，采用一定区间内的随机值进行参数初始化。“对于输入样本数据中的每条文本，将其本身作为输入，将其按一字符宽度右移后得到的文本内容作为输出”，指的是采用预训练(Pre-training)的方式训练神经网络，得到比较合适的初始化参数，描述的是预训练神经网络的过程中构建输入-输出对的方式。

其中，为了能够给文本生成器生成合理的初始化参数值，本发明实施例可采用类似于训练深度神经语言模型(Deep Neural Language Model)的方法，对于第一样本中的每条文本，将其本身作为输入，将第一样本中每条文本的字符按预设规则移动后得到的文本内容作为输出，达到类似采用pairwise的文本样本做训练的效果。

也就是说，使用输入的第一样本对所述文本生成器进行预训练，具体包括以下步骤：

将所述第一样本中每条文本的字符按预设规则移动，以得到第二样本；

将所述第二样本作为所述文本生成器的输出。

更具体的，将所述第一样本中每条文本的字符按预设规则移动，以得到第二样本，可采用以下方式：

将第一样本中每条文本的字符按N个字符宽度右移或左移，以得到第二样本，所述N为正整数。

更具体的，将第一样本中每条文本的字符按一个字符宽度右移后得到的文本内容作为输出。

例如，第一样本中有一条文本为“贩卖个人发票”，则将第一样本中每条文本的字符按一个字符宽度右移所对应的输入-输出对如下：

输入：起始字符贩卖个人发票

输出：贩卖个人发票结束字符

图3示出了上述文本生成器预训练阶段的时序示意图。

通过以上实施方式对文本生成器的参数进行预训练，可以生成与输入样本相似度较高的文本语句，为后续采用监督学习的方法优化生成器参数提供良好的初始状态。

需要说明的是，本发明实施例的文本生成器训练方法既能够提高生成样本的多样性，还能够使生成的样本与输入的样本具有较高的相似度。因此，本发明实施例的文本生成器可很好地适用于作弊样本的生成。通过该文本生成器生成的作弊样本，只需要少量的人工标注样本，即可利用深度学习实现作弊样本的生成，并且生成的作弊样本反映了作弊的内在分布，能够有效避免作弊模式发生变异的情况，从而有效提高分类器对于变异的作弊样本的识别能力。

如图4所示，本发明实施例提供一种文本生成器训练系统400，包括：

隐层状态向量初始化模块401，用于对隐层状态向量进行随机高斯初始化；

输入模块402，用于读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；

第一输出模块403，用于通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；

第二输出模块404，将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。

可选的，第一输出模块403具体用于：

可选的，第二输出模块404具体用于：

将生成概率最大的字符作为所述文本生成器的下一输出，直至生成结束字符。

可选的，如图5所示，文本生成器训练系统400还包括：

预训练模块405，用于使用输入的第一样本对所述文本生成器进行预训练，以使所述文本生成器实现参数初始化。

可选的，预训练模块405具体用于：

将所述第二样本作为所述文本生成器的输出。

可选的，预训练模块405具体用于：

将所述第一样本中每条文本的字符按N个字符宽度右移或左移，以得到第二样本，所述N为正整数。

可选的，所述文本生成器由长短期记忆网络LSTM神经元构成。

可选的，所述文本生成器用于生成作弊样本。

需要说明的是，本发明实施例中上述文本生成器训练系统400可以是方法实施例中任意实施方式的文本生成器训练系统，方法实施例中任意实施方式都可以被本实施例中的文本生成器训练系统400所实现，以及达到相同的有益效果，为避免重复，此处不再赘述。

如图6所示，本发明实施例还提供的另一种文本生成器训练系统600，该文本生成器训练系统600包括存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序；处理器602执行所述计算机程序时，实现如下步骤：

对隐层状态向量进行随机高斯初始化；

在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器602代表的一个或多个处理器和存储器601代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器602负责管理总线架构和通常的处理，存储器601可以存储处理器602在执行指令时所使用的数据。

可选的，处理器602执行所述计算机程序时，还实现：

将所述第二样本作为所述文本生成器的输出。

可选的，处理器602执行所述计算机程序时，还实现：

可选的，所述文本生成器由长短期记忆网络LSTM神经元构成。

可选的，所述文本生成器用于生成作弊样本。

需要说明的是，本发明实施例中上述文本生成器训练系统600可以是方法实施例中任意实施方式的文本生成器训练系统，方法实施例中任意实施方式都可以被本实施例中的文本生成器训练系统600所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述传输方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本生成器训练方法，其特征在于，包括：

对隐层状态向量进行随机高斯初始化；

2.根据权利要求1所述的方法，其特征在于，所述通过多项式采样方法生成第一个字符，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将生成概率满足预设条件的字符作为所述文本生成器的下一输出，包括：

将生成概率最大的字符作为所述文本生成器的下一输出。

4.根据权利要求1或2所述的方法，其特征在于，在所述对隐层状态向量进行随机高斯初始化之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述使用输入的第一样本对所述文本生成器进行预训练，包括：

将所述第二样本作为所述文本生成器的输出。

6.根据权利要求5所述的方法，其特征在于，所述将所述第一样本中每条文本的字符按预设规则移动，以得到第二样本，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述文本生成器由长短期记忆网络LSTM神经元构成。

8.根据权利要求1或2所述的方法，其特征在于，所述文本生成器用于生成作弊样本。

9.一种文本生成器训练系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述第一输出模块具体用于：

11.根据权利要求9或10所述的系统，其特征在于，所述第二输出模块具体用于：

12.根据权利要求9或10所述的系统，其特征在于，还包括：

预训练模块，用于使用输入的第一样本对所述文本生成器进行预训练，以使所述文本生成器实现参数初始化。

13.根据权利要求12所述的系统，其特征在于，所述预训练模块具体用于：

将所述第二样本作为所述文本生成器的输出。

14.根据权利要求13所述的系统，其特征在于，所述预训练模块具体用于：

15.根据权利要求9或10所述的系统，其特征在于，所述文本生成器由长短期记忆网络LSTM神经元构成。

16.根据权利要求9或10所述的系统，其特征在于，所述文本生成器用于生成作弊样本。

17.一种文本生成器训练系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至8中任一项所述的文本生成器训练方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的文本生成器训练方法中的步骤。