CN106557566A

CN106557566A - 一种文本训练方法及装置

Info

Publication number: CN106557566A
Application number: CN201611027962.1A
Authority: CN
Inventors: 韩瑞峰; 孙海涛
Original assignee: Hangzhou Firestone Technology Co Ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-04-05
Anticipated expiration: 2036-11-18
Also published as: CN106557566B

Abstract

本发明公开了一种文本训练方法及装置，所述方法应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述方法包括：获取所述待训练文本，所述待训练文本至少包括无标签文本；获得与所述待训练文本对应的文本回传误差，所述文本回传误差包括所述生成网络的文本回传误差和/或所述卷积神经网络的文本回传误差；判断所述文本回传误差是否在预设的误差范围内；若否，利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。由上可见，本申请的方案通过对抗生成网络实现了对无标签文本的训练。

Description

一种文本训练方法及装置

技术领域

本发明涉及文本分类技术领域，特别是涉及一种文本训练方法及装置。

背景技术

随着互联网技术的快速发展，文本呈现指数增长。为了对文本快速分类管理，文本分类技术应运而生。

文本分类技术包括文本训练和文本识别两个过程，其中，文本识别用于依据文本的内容对文本进行分类，而文本训练用于对识别文本的网络的参数进行调整。

目前，较为成熟的文本训练过程所使用的待训练文本均为有标签文本，然而，在实际应用中，有标签文本均通过人为手动为文本添加标签的方式获得，因此，现有技术中难以提供大量的有标签文本去进行文本训练。

可见，亟需一种仅需要少量有标签文本的训练方法。

发明内容

为解决上述技术问题，本发明实施例提供了一种文本训练方法及装置，技术方案如下：

一种文本训练方法，应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述对抗生成网络用于实现对待训练文本的训练，所述方法包括：

获取所述待训练文本，所述待训练文本至少包括无标签文本；

获得与所述待训练文本对应的文本回传误差，所述文本回传误差包括所述生成网络的文本回传误差和/或所述卷积神经网络的文本回传误差；

判断所述文本回传误差是否在预设的误差范围内；

若否，利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

优选地，获得与所述待训练文本对应的文本回传误差，包括：

依据所述生成网络生成与一维随机噪声对应的生成文本；

分别获得所述生成文本的二维向量和所述无标签文本的二维向量；

对所述生成文本的二维向量、所述无标签文本的二维向量进行第一训练误差函数的运算，以获得所述生成网络的文本回传误差。

通过卷积神经网络，分别生成与所述生成文本对应的文本标签和与所述无标签文本对应的文本标签，所述文本标签表明所述生成文本和所述无标签文本的文本类别；

对所述生成文本的文本标签、所述无标签文本的文本标签进行第二训练误差函数的运算，以获得所述卷积神经网络的文本回传误差。

优选地，所述待训练文本还包括有标签文本；

相应地，获得与所述待训练文本对应的文本回传误差，包括：

通过卷积神经网络，生成与所述有标签文本对应的文本标签，所述文本标签表明所述有标签文本的文本类别；

对所述有标签文本的标签进行第三训练误差函数的运算，获得所述卷积神经网络的文本回传误差。

优选地，所述生成网络包括全链接层、变形层、N层反卷积层、BN层和权重归一化层，N为大于1的正整数，其中，除最后一层的前N-1层反卷积BN层的卷积核为一维向量，最后一层反卷积BN层的卷积核为二维向量，所述二维向量的的第二维大小为所述待训练文本所包含的字符类别的数量。

一种文本训练装置，应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述对抗生成网络用于实现对待训练文本的训练，所述装置包括：

获取单元，用于获取所述待训练文本，所述待训练文本至少包括无标签文本；

获得单元，用于获得与所述待训练文本对应的文本回传误差，所述文本回传误差包括所述生成网络的文本回传误差和/或所述卷积神经网络的文本回传误差；

判断单元，用于判断所述文本回传误差是否在预设的误差范围内；

调整单元，用于当所述判断单元判断所述文本回传误差不在预设的误差范围内时，利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

优选地，所述获得单元，包括：

第一生成单元，用于依据所述生成网络生成与一维随机噪声对应的生成文本；

第一获得子单元，用于分别获得所述生成文本的二维向量和所述无标签文本的二维向量；

第二获得子单元，用于对所述生成文本的二维向量、所述无标签文本的二维向量进行第一训练误差函数的运算，以获得所述生成网络的文本回传误差。

优选地，所述获得单元，包括：

第二生成单元，用于通过卷积神经网络，分别生成与所述生成文本对应的文本标签和与所述无标签文本对应的文本标签，所述文本标签表明所述生成文本和所述无标签文本的文本类别；

第三获得子单元，对所述生成文本的文本标签、所述无标签文本的文本标签进行第二训练误差函数的运算，以获得所述卷积神经网络的文本回传误差。

优选地，所述待训练文本还包括有标签文本；

相应地，所述获得单元，包括：

第三生成单元，用于通过卷积神经网络，生成与所述有标签文本对应的文本标签，所述文本标签表明所述有标签文本的文本类别；

第四获得子单元，用于对所述有标签文本的标签进行第三训练误差函数的运算，获得所述卷积神经网络的文本回传误差。

本发明实施例所提供的技术方案，应用于对抗生成网络，该对抗生成网络包括生成网络和卷积神经网络，依据该对抗生成网络实现了对无标签文本的文本训练。具体地，获取无标签文本的文本回传误差，并当文本回传误差不在误差范围内时，对生成网络和卷积神经网络的参数进行调整，直到文本回传误差在误差范围内，完成对无标签文本的训练。本申请的方案由于能够实现对无标签文本的训练，因此，当采用本申请的方案进行文本训练时，可以仅使用少量有标签文本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种文本训练方法的一种流程示意图；

图2为本发明实施例所提供的一种文本训练方法的另一种流程示意图；

图3为本发明实施例所提供的一种文本训练装置的一种结构示意图；

图4为本发明实施例所提供的一种文本训练装置的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的文本训练方法及装置，实现了对无标签文本的训练。进一步地，由于能够实现对无标签文本的训练，因此，当采用本申请的方案进行文本训练时，可以仅使用少量有标签文本。

本发明实施例提供的文本训练方法及装置应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述对抗生成网络用于实现对待训练文本的训练。

其中，生成网络包括全链接层、变形层、N层反卷积层、BN层和权重归一化层，N为大于1的正整数，其中，除最后一层的前N-1层反卷积BN层的卷积核为一维向量，最后一层反卷积BN层的卷积核为二维向量，所述二维向量的的第二维大小为所述待训练文本所包含的字符类别的数量。

请参阅图1，图1为本申请实施例提供的文本训练方法的一种实现流程图，所述文本训练方法包括：

步骤S101、获取所述待训练文本，所述待训练文本至少包括无标签文本；

待训练文本可以为无标签文本，也可以为无标签文本和有标签文本。文本的标签表明文本的类别，例如，文本的类别可以为军事题材、都市情感、玄幻题材、穿越题材等，又如，文本的类别也可以为实事新闻、娱乐新闻、体育新闻等。当然，用户根据需要可以预先设定文本类别的划分方式，上述两种文本类别仅仅是举例说明，并不代表文本类别的所有可实现方式。

步骤S102、获得与所述待训练文本对应的文本回传误差，所述文本回传误差包括所述生成网络的文本回传误差和/或所述卷积神经网络的文本回传误差；

对抗生成网络包括生成网络和/或卷积神经网络获取待训练文本后，可以获得与待训练文本对应的文本回传误差，依据获得的待训练文本的网络不同，生成的文本回传误差包括生成网络的文本回传误差和/或卷积神经网络的文本回传误差。

当待训练文本为有标签文本时，获得与所述待训练文本对应的文本回传误差，具体可以通过以下方式实现：

对所述有标签文本的标签进行第三训练误差函数的运算，获得所述卷积神经网络的文本回传误差。实际应用中，第三训练误差函数可以是L1、L2、SmoothL1等误差函数，即有标签文本的标签与生成的与有标签文本对应的文本标签之间的L1、L2距离，此处的标签是文本的目标类别，比如在一个五个类别的分类问题中，标签为类别一至类别五。

对于N类的卷积神经网络，将输出类别定为N+1类，其中前N类为类别一，第N+1类为类别二，实际应用时，可以将无标签文本的类别定义类别一，将生成文本的类别定义为类别二。

步骤S103、判断所述文本回传误差是否在预设的误差范围内，若否，执行步骤S104，否则结束流程。

步骤S104、利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

BP算法，误差反向传播(Error Back Propagation，BP)算法，其基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播：输入样本－>输入层－>各中间层－>输出层。误差反向传播：输出误差(某种形式)－>各中间层(逐层)－>输入层。其主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值，其过程是一个权值调整的过程。

本实施例所提供的技术方案，获取无标签文本的文本回传误差，并当文本回传误差不在误差范围内时，对生成网络和卷积神经网络的参数进行调整，直到文本回传误差在误差范围内，完成对无标签文本的训练。本申请的方案由于能够实现对无标签文本的训练，因此，当采用本申请的方案进行文本训练时，可以仅使用少量有标签文本。

请参阅图2，图2为本申请实施例提供的文本训练方法的另一种实现流程图，所述文本训练方法包括：

步骤S201、获取所述待训练文本，所述待训练文本包括无标签文本；

步骤S202、依据所述生成网络生成与一维随机噪声对应的生成文本；

实际应用中，由于文本都是一维的，所以，与生成文本对应的随机噪声也是一维的。

步骤S203、分别获得所述生成文本的二维向量和所述无标签文本的二维向量；

步骤S204、对所述生成文本的二维向量、所述无标签文本的二维向量进行第一训练误差函数的运算，以获得所述生成网络的文本回传误差；实际应用中，第一误差函数是生成文本的二维向量与无标签文本的二维向量作为输入，经过所述卷积神经网络计算后得到的特征向量之间的L1或L2距离。

本实施中，用二维向量表示一段文本，文本中每个字符用一个一维向量表示，该一维向量的长度由可能的字符的形式决定，如对于英文文本来说可能的字符为：abcdefghijklmnopqrstuvwxyz0123456789-,；.！？:'\"/\\|_@#$％^&*～`+-＝<>()[]{}，一共70种形式，那么一维向量的长度为70。将一段文本中所有字符的向量连接，形成一个二维向量。

对于生成网络，通过生成网络的生成文本与无标签文本获得生成网络的文本回传误差。

步骤S205、通过卷积神经网络，分别生成与所述生成文本对应的文本标签和与所述无标签文本对应的文本标签，所述文本标签表明所述生成文本所述无标签文本的文本类别；

步骤S206、对所述生成文本的文本标签、所述无标签文本的文本标签进行第二训练误差函数的运算，以获得所述卷积神经网络的文本回传误差；第二训练误差函数可以是L1、L2、SmoothL1等误差函数，是文本标签与生成的文本标签之间的L1、L2距离，此处的标签类别指文本的真实与生成两个类别，对于生成的文本标签为类别一，对于真实的无标签样本为类别二。

对于卷积神经网络，通过卷积神经网络生成的与生成文本对应的文本标签、及卷积神经网络生成的与无标签文本对应的文本标签。

步骤S207、判断所述文本回传误差是否在预设的误差范围内，若否，执行步骤S208，否则结束流程。

步骤S208、利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

本实施例所提供的技术方案，根据无标签文本获得文本生成网络的文本回传误差及卷积神经网络的文本回传误差，并当文本回传误差不在误差范围内时，对生成网络和卷积神经网络的参数进行调整，直到文本回传误差在误差范围内，完成对无标签文本的训练。本申请的方案由于能够实现对无标签文本的训练，因此，当采用本申请的方案进行文本训练时，可以仅使用少量有标签文本。

下面对本申请实施例提供的文本训练装置进行描述，下文描述的文本训练装置与上文描述的文本训练方法可相互对应参照。

请参阅图3，图3为本申请实施例公开的一种文本训练装置的一种结构示意图，包括：

获取单元310，用于获取所述待训练文本，所述待训练文本至少包括无标签文本；

获得单元320，用于获得与所述待训练文本对应的文本回传误差，所述文本回传误差包括所述生成网络的文本回传误差和/或所述卷积神经网络的文本回传误差；

判断单元330，用于判断所述文本回传误差是否在预设的误差范围内；

当所述待训练文本包括有标签文本时，所述判断单元，包括：

第三生成单元，用于通过卷积神经网络，生成与所述有标签文本对应的文本标签，所述文本标签表明所述生成文本所述无标签文本的文本类别；

第四获得子单元，用于对所述文本标签、所述有标签文本的标签进行第三训练误差函数的运算，获得所述卷积神经网络的文本回传误差。

调整单元340，用于当所述判断单元判断所述文本回传误差不在预设的误差范围内时，利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

请参阅图4，图4为本申请实施例公开的一种文本训练装置的另一种结构示意图，包括：

获取单元410，用于获取所述待训练文本，所述待训练文本至少包括无标签文本；

第一生成单元420，用于依据所述生成网络生成与一维随机噪声对应的生成文本；

第一获得子单元430，用于分别获得所述生成文本的二维向量和所述无标签文本的二维向量；

第二获得子单元440，用于对所述生成文本的二维向量、所述无标签文本的二维向量进行第一训练误差函数的运算，以获得所述生成网络的文本回传误差。

第二生成单元450，用于通过卷积神经网络，分别生成与所述生成文本对应的文本标签和与所述无标签文本对应的文本标签，所述文本标签表明所述生成文本所述无标签文本的文本类别；

第三获得子单元460，对所述生成文本的文本标签、所述无标签文本的文本标签进行第二训练误差函数的运算，以获得所述卷积神经网络的文本回传误差。

判断单元470，用于判断所述文本回传误差是否在预设的误差范围内；

调整单元480，用于当所述判断单元判断所述文本回传误差不在预设的误差范围内时，利用BP算法，对所述生成网络和/或所述卷积神经网络的参数，进行基于所述文本回传误差的调整，并返回执行所述获取待训练文本的步骤，直到使文本回传误差在所述预设的误差范围内。

对于装置或系统实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，在没有超过本申请的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本申请的目的。例如，所述单元或子单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或多个子单元结合一起。另外，多个单元可以或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，所描述系统，装置和方法以及不同实施例的示意图，在不超出本申请的范围内，可以与其它系统，单元，技术或方法结合或集成。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本训练方法，其特征在于，应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述对抗生成网络用于实现对待训练文本的训练，所述方法包括：

判断所述文本回传误差是否在预设的误差范围内；

2.根据权利要求1所述的方法，其特征在于，获得与所述待训练文本对应的文本回传误差，包括：

依据所述生成网络生成与一维随机噪声对应的生成文本；

3.根据权利要求1所述的方法，其特征在于，获得与所述待训练文本对应的文本回传误差，包括：

4.根据权利要求1所述的方法，其特征在于，所述待训练文本还包括有标签文本；

5.根据权利要求1所述的方法，其特征在于，所述生成网络包括全链接层、变形层、N层反卷积层、BN层和权重归一化层，N为大于1的正整数，其中，除最后一层的前N-1层反卷积BN层的卷积核为一维向量，最后一层反卷积BN层的卷积核为二维向量，所述二维向量的第二维的大小为所述待训练文本所包含的字符类别的数量。

6.一种文本训练装置，其特征在于，应用于对抗生成网络，所述对抗生成网络包括生成网络和卷积神经网络，所述对抗生成网络用于实现对待训练文本的训练，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述获得单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述获得单元，包括：

9.根据权利要求6所述的装置，其特征在于，所述待训练文本还包括有标签文本；

相应地，所述获得单元，包括：

10.根据权利要求1所述的装置，其特征在于，所述生成网络包括全链接层、变形层、N层反卷积层、BN层和权重归一化层，N为大于1的正整数，其中，除最后一层的前N-1层反卷积BN层的卷积核为一维向量，最后一层反卷积BN层的卷积核为二维向量，所述二维向量的的第二维大小为所述待训练文本所包含的字符类别的数量。