CN109299273A

CN109299273A - 基于改进seq2seq模型的多源多标签文本分类方法及其系统

Info

Publication number: CN109299273A
Application number: CN201811302126.9A
Authority: CN
Inventors: 谢松县; 高辉; 陈仲生; 彭立宏; 曾道建; 桂林; 封黎; 李磊
Original assignee: Guangzhou Yuyi Technology Co ltd
Current assignee: Guangzhou Yuyi Technology Co ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-02-01
Anticipated expiration: 2038-11-02
Also published as: CN109299273B

Abstract

本发明属于自然语言处理文本分类技术领域，具体提供了一种基于改进seq2seq模型的多源多标签文本分类方法及其系统，该方法包括如下步骤：数据输入及预处理、词嵌入、编码、编码拼接、解码、模型优化以及预测输出。本发明方法具有如下有益效果：采用seq2seq深度学习框架，构建多个编码器，结合注意力机制用于文本分类任务，最大限度地利用了多来源语料信息，提高了多标签分类准确性；在解码步骤的误差反馈过程中，针对多标签文本的特性，加入干预机制规避了标签排序带来的影响，更多切合多标签分类问题的本质；编码器采用循环神经网络，可以有效的按照时间步进行学习；解码层采用单向循环神经网络，并添加了注意力机制，突出了学习重点。

Description

基于改进seq2seq模型的多源多标签文本分类方法及其系统

技术领域

本发明属于自然语言处理文本分类技术领域，尤其涉及基于改进seq2seq模型的多源多标签文本分类方法及其系统。

背景技术

文本自动分类是自然语言处理技术的主要任务之一，多标签文本分类用来处理文本的类别对应一个以上标签的情况，多标签文本分类的问题在现实生活中非常普遍，比如一段针对公安警情的描述文本，可能对应多个警情类别：“吸食毒品”、“故意伤人”等。但是，相对于单标签文本分类，多标签文本分类的研究较少，且一般其性能达不到单标签文本分类的水平。

另外，对一个事物的描述可能对应多个文本，这些文本来源不同，但是又指向同一事物，文本之间相互联系又有所侧重，比如在公安破案中，针对同一个案件，存在接处警信息、笔录、现勘等多个来源的文本数据。在实践中，希望训练得到的机器学习模型充分学习所有来源语料的语义信息、相互促进，提高最终的分类效果，而不是将各个有关联的语料进行分割学习。

seq2seq是一个Encoder–Decoder结构的网络，它的输入是一个序列，输出也是一个序列，Encoder中将一个可变长度的文本序列变为固定长度的向量表达，Decoder将这个固定长度的向量变成可变长度的目标的信号序列。这个结构最重要的地方在于输入序列和输出序列的长度是可变的，广泛用于翻译，聊天机器人，句法分析，文本摘要等。传统seq2seq模型在单标签文本分类中得到了广泛应用，但是用于多源多标签文本分类时存在两个突出问题：一是传统seq2seq模型的输出标签是带有顺序的，而多标签分类中的标签是无序的，二是传统seq2seq模型输入不能处理多来源文本数据。针对上述问题，本发明提供一种基于改进seq2seq模型的多源多标签文本分类方法及其系统，能够有效解决输入为多来源文本数据，且输出为多标签的文本分类问题。

发明内容

本发明提出了基于改进seq2seq模型的多源多标签文本分类方法及其系统，对传统seq2seq模型的主要改进体现在增加了多个编码器和定义了对标签顺序不敏感的损失函数，能够有效解决输入为多来源文本数据，且输出为多标签的文本分类问题。

本发明的技术方案是：

一种基于改进seq2seq模型的多源多标签文本分类方法，该分类方法包括如下步骤：

步骤1、数据输入及预处理，对输入的多源文本语料进行分词、去停用词，构建输入语料中文词表，将所述输入语料中文词表序号化，所述输入语料中文词表中的每个词对应唯一的一个数字序号；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，所述标签词表中每一个标签对应唯一一个数字序号；

步骤2、词嵌入，根据所述输入语料中文词表将输入的所述多源文本语料数值化表示，并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵；

步骤3、编码，将所述词嵌入矩阵传递到编码层中，所述编码层包括多个编码器，每个所述多源文本语料对应一个所述编码器，利用双向循环神经网络对所述多源文本语料进行编码学习，得到表示各所述多源文本语料的编码；

步骤4、编码拼接，将所述编码输出并进行拼接，得到汇总编码信息；

步骤5、解码，将所述汇总编码信息输入到采用注意力机制的解码层进行解码，得到解码输出，

步骤6、将所述解码输出得到的序列与输入语料原始标签序列代入损失函数进行比对，并利用误差反向传播算法优化系统参数，并保存参数优化后的模型；

步骤7、预测输出，对于未知标签的一组多源文本数据，经过步骤1-步骤5的处理得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列在标签词表中找出相应的分类标签，所述相应的分类标签即为预测结果。

作为本发明的一种优选改进，步骤1到步骤6为分类模型的训练过程，步骤7为对未知标签文本数据的预测过程。

作为本发明的一种优选改进，在步骤1中，所述输入语料中文词表按照词频高低进行序号化。

作为本发明的一种优选改进，在步骤3中，所述编码层为seq2seq编码层。

作为本发明的一种优选改进，在步骤5中，所述解码层采用单向循环神经网络。

作为本发明的一种优选改进，在步骤5中，所述解码层引入了注意力(attention)机制。

作为本发明的一种优选改进，在步骤5中，所述解码层包括解码器。

作为本发明的一种优选改进，在步骤6中，所述损失函数对标签序列的序列不敏感。

作为本发明的一种优选改进，在步骤7中，所述softmax层采用softmax函数对所述解码输出进行归一化处理。

本发明还提供了一种基于改进seq2seq模型的多源多标签文本分类系统，该系统包括：

数据输入及预处理模块，对输入的多源文本语料进行分词，构建输入语料中文词表，将所述输入语料中文词表序号化，所述输入语料中文词表中的每个词对应唯一的一个数字序号；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，生成输入语料原始标签序列；

词嵌入模块，根据所述输入语料中文词表将输入的所述多源文本语料数值化表示，并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵；

编码模块，将所述词嵌入矩阵传递到编码层中，所述编码层包括多个编码器，每个所述多源文本语料对应一个所述编码器，利用双向循环神经网络对所述多源文本语料进行编码学习，得到表示各所述多源文本语料的编码；

编码拼接模块，将所述编码输出并进行拼接，得到汇总编码信息；

解码模块，将所述汇总编码信息输入到采用注意力机制的解码层进行解码，得到解码输出；

模型优化模块，将所述解码输出得到的序列与输入语料原始标签序列进行比对，并利用误差反向传播方法优化系统参数，最后保存模型；

预测输出模块，对于未知标签的一组多源文本数据，使用解码模块训练得到的模型，经过上述所有模块处理，得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列在标签词表中找出相应的分类标签，所述分类标签即为预测结果。

作为本发明的一种优选改进，所述编码层为seq2seq编码层。

作为本发明的一种优选改进，所述解码层包括解码器，且所述解码层采用单向循环神经网络。

作为本发明的一种优选改进，所述softmax层采用softmax函数对所述解码输出进行归一化处理。

采用本发明获得的有益效果：本发明采用seq2seq深度学习框架，结合注意力机制用于文本分类任务，最大限度地利用了多来源语料信息，提高了多标签分类准确性；本发明在解码步骤的误差反馈过程中，针对多标签文本的特性，在误差反馈传播时加入干预机制，规避了标签排序带来的影响，更多切合多标签分类问题的本质。编码器采用循环神经网络，可以有效的按照时间步进行学习。解码层采用单向循环神经网络，并添加了注意力机制，突出了学习重点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明的基于改进seq2seq模型的多源多标签文本分类方法的工作流程示意图；

图2为本发明的基于改进seq2seq模型的多源多标签文本分类系统的结构框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明提供了一种基于改进seq2seq模型的多源多标签文本分类方法，该方法包括如下步骤：

步骤1、数据输入及预处理，对输入的多源文本语料进行分词、去停用词，构建输入语料中文词表，将所述输入语料中文词表序号化，所述输入语料中文词表中的每个词对应唯一的一个数字序号；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，生成输入语料原始标签序列；

具体的，在步骤1中，所述输入语料中文词表按照词频高低进行序号化。所述多源文本语料按照不同来源可以为多份，如图1中所示的多源文本语料1、多源文本语料2以及多源文本语料n，其中，n表示多源文本预料的份数，n为大于0的自然数。数据输入格式为每行一个样本，包含多源文本语料及输入语料原始标签。实施例中，所述标签词表是由样本中所有标签汇总统计得到的。

该步骤1主要包含分词、去停用词、建立词表三大部分，分词是将原始文本中的中文句子按照一定的规范进行划分，把句子序列划分成词序列，在本发明的具体实施方式中，采取python语言最常用的分词模块-jieba中文分词模块进行分词；去停用词，依据停用词表，删除分词结果中对分类没有助益的停用词汇，如：你、哈、啊等；建立词表是指所有多源文本语料进行分词、去停用词后会得到一个多源文本语料词库，在多源文本语料词库中建立一个输入语料中文词表，并按照词频高低进行排序，即序号化，将序号作为该词的表示。同时在建立词表时可以人为设定词频阈值或者词表大小阈值，将词频低于词频阈值的词进行去除，或者按照预设的词表大小，将超出词表大小阈值范围的低频词进行去除。

步骤2、词嵌入，根据所述输入语料中文词表将输入的多源文本语料数值化表示，并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵；

具体的，词嵌入可以为多份，如图1所示的词嵌入1、词嵌入2以及词嵌入n，其中，n为大于0的自然数且与数据来源个数相等。所述多源文本语料即为经过步骤1处理过的训练数据集，其中包含各来源的多源文本语料分词后产生的词序列，也就是说，实际上是将词序列输入到嵌入层中，将每一个数值化的词转化成特定维度的词嵌入，在本发明的具体实施方式中，该词嵌入的维度为256维，当然的，也可以使用外部预先训练好的词向量，在本发明中，预先训练词向量采用嵌入层输出的词嵌入。

具体的，所述编码层中包含多个所述编码器，如图1所示的编码器1、编码器2以及编码器n，其中，n为大于0的自然数且与数据来源个数相等。所述双向循环神经网络的神经元可选择LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(Gated Recurrent Unit，门控循环单元)等门控神经网络，在本发明的优选实施方式中，神经元选用LSTM，LSTM是循环神经网络的一种，添加了更新门与遗忘门等门控机制，在学习过程中会将不重要的历史信息遗忘过滤，将主要的信息传递到下一时刻，使得语义学习更加智能。

所述编码器的工作原理如下：

多源文本语料经过步骤1和2两个步骤后，变成词序列，词序列长度为n；单个词经过词嵌入操作转化成了256维的向量表示，因而，步骤3输入的词嵌入矩阵为n*256的矩阵，其中，n代表输入的多源文本语料的长度，也即原始输入的多源文本语料经过分词、去停用词、去低频词后所剩下的词语数量。256是步骤2预设定的词嵌入维度，编码器神经元数量与词嵌入维度保存一致。词嵌入矩阵将按照时间步依次输入到编码器中进行编码，一个神经元对应词嵌入中的一个维度，第1个时刻输入的词嵌入是句子开头的信息，最后时刻输入的词嵌入是句子末尾信息。采用双向循环神经网络学习机制，其中一个学习方向是由句子头到尾，另一个学习方向是从尾到头。循环神经网络第t时刻的输出由第t时刻的输入x_t和上一时刻的隐含状态h_t-1共同决定，最后一个时刻的输出包含了前n-1步的信息，实现了理解语义的功效。

具体的，经过步骤3的处理后，一个多源文本语料对应一个编码输出，即学出来的语义信息。步骤4将之前散列在各不同来源的多源文本语料中的语义信息进行汇总，和特征选择类似汇总方式可以有多种，依据多源文本语料的类型选择具体的拼接方式，在本发明的具体实施方式中，采用首尾拼接，将各个编码器输出的编码输出进行首尾拼接，得到汇总编码信息。

步骤5、解码，将所述汇总编码信息输入到采用注意力机制的解码层进行解码，得到解码输出；

步骤6、将所述解码输出得到的序列与输入语料原始标签序列代入损失函数，计算得到误差，所述损失函数对标签顺序不敏感，并利用误差反向传播方法优化系统参数，最后保存模型，其中，所述损失函数对标签序列的序列不敏感；实施例中可以根据需要选择机器学习中适当的损失函数。

具体的，所述解码层包括解码器，所述解码器采用单向循环网络结构，将解码输出输入到解码器中，单向循环网络中的神经元按照时间步进行解码，当解码器输出预设的结束符时，终止解码环节，其中，所述结束符可以预定义，例如‘<end>’。

进一步的，本发明提供的所述解码器采用注意力机制，在所述解码器准备生成下一个解码输出序列时，该注意力机制可以将注意力集中在输入的某个或某几个词上，重点关注这几个词，针对性更强，对关键特征更敏感。

步骤7、预测输出，对于未知标签的一组多源文本数据，使用步骤6训练得到的模型，经过步骤1-步骤5的处理得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列词表中找出相应的分类标签，所述分类标签即为预测结果。

具体的，所述softmax层采用softmax函数对所述解码输出进行归一化处理。步骤5输出的解码输出为m*1的向量，经过softmax层处理就会取这个向量中值最大的那个数的标签作为这个解码输出的预测标签，其对应于真实标签的预测概率最高。也可以人为设置阈值选取预测概率值靠前的预测标签进行输出。

在具体实施例中，多源文本语料分为用于训练样本和预测样本，先使用训练样本执行步骤1-步骤6，完成模型参数的优化，然后使用预测样本执行步骤7完成预测输出。

请一并参阅图1和图2，本发明还提供了一种基于改进seq2seq模型的多源多标签文本分类系统100，该系统包括：依次连接的数据输入及预处理模块1、词嵌入模块2、编码模块3、编码拼接模块4、解码模块5、模型优化模块6以及预测输出模块7。本发明提供的所述基于改进seq2seq模型的多源多标签文本分类方法可适用于所述基于改进seq2seq模型的多源多标签文本分类系统100。

所述数据输入及预处理模块1，对输入的多源文本语料进行分词，构建输入语料中文词表，将所述输入语料中文词表序号化，所述输入语料中文词表中的每个词对应唯一的一个数字序号；将输入语料原始标签序号化，生成输入语料原始标签序列。所述输入语料中文词表按照词频高低进行序号化。

所述词嵌入模块2，根据所述输入语料中文词表将输入的所述多源文本语料数值化表示，并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵。

所述编码模块3，将所述词嵌入矩阵传递到编码层中，所述编码层包括多个编码器，每个所述多源文本语料对应一个所述编码器，利用双向循环神经网络对所述多源文本语料进行编码学习，得到表示各所述多源文本语料的编码。所述编码层在本发明的优选实施方式中，采用seq2seq编码层，当然的，其它合适可行的编码层也被本发明所接受，但这理应都属于本发明的保护范围内。

所述编码拼接模块4，将所述编码输出并进行拼接，得到汇总编码信息。

所述解码模块5，将所述汇总编码信息输入到采用注意力机制的解码层进行解码，得到解码输出；

所述模型优化模块6将所述解码输出得到的序列与输入语料原始标签序列进行比对，并进行误差反馈传播优化连接权值，得到解码输出。所述解码层包括解码器，采用单向循环神经网络。

所述预测输出模块7，对于未知标签的一组多源文本数据，使用解码模块训练得到的模型，经过上述所有模块处理，得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，并根据所述解码序列，在标签词表中找出相应的标签，进行预测输出。所述softmax层采用softmax函数对所述解码输出进行归一化处理。

下面给出一个面向公安警情数据和类别识别问题的实施例，因各步骤中处理得到的数据量过于庞大，本文对部分内容进行了省略。

针对同一个案件，存在接处警信息、笔录、现勘等多个来源的文本数据，警情研判中首先需要对案件进行类别的定性，即警情类别的识别。本实例中，训练样本示例如表1所示。其中用于训练的样本包括10万个案件，每个案件分别包括警情简要和笔录两类来源的文本，以及对应的警情类别，所述警情类别属于多标签。预测样本中的案件只有警情简要和笔录两类来源的文本，其警情类别未知，为待预测的信息。

表1多源多标签文本分类样本示例

步骤1、数据输入及预处理，对的诸如上表训练样本的多源文本语料进行分词、去停用词，构建输入语料中文词表，将所述输入语料中文词表序号化，所述输入语料中文词表中的每个词对应唯一的一个数字序号；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，生成输入语料原始标签序列；在该实例中语料文本有警情简要和笔录两个来源。

步骤2、词嵌入。在本实施例中，词嵌入按照数据来源分为两份。该词嵌入的维度为256维。

步骤3、编码，将所述词嵌入矩阵传递到编码层中，所述编码层包括两个编码器，每个所述多源文本语料对应一个所述编码器，利用双向循环神经网络对所述多源文本语料进行编码学习，得到表示各所述多源文本语料的编码；

步骤4、编码拼接，在本实施例中，采用首尾拼接，将两个编码器输出的编码输出进行首尾拼接，得到汇总编码信息。

步骤6、模型优化，将所述解码输出得到的序列与输入语料原始标签序列代入损失函数，计算得到误差，所述损失函数对标签顺序不敏感，并利用误差反向传播方法优化系统参数，最后保存模型，其中，所述损失函数对标签序列的序列不敏感；

步骤7、预测输出，对于未知标签的一组多源文本数据，例如表1中的预测样本，使用步骤6训练得到的模型，经过步骤1-步骤5的处理得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列词表中找出相应的分类标签，所述分类标签即为预测结果，例如表1中预测样本得到预测结果为“涉黑恶、涉伤害、持刀”。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非由实施例的具体描述所界定。

Claims

1.一种基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，该方法包括如下步骤:

步骤1、数据输入及预处理，对输入的多源文本语料进行分词、去停用词，构建输入语料中文词表，将所述输入语料中文词表序号化；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，生成输入语料原始标签序列；

步骤7、预测输出，对于未知标签的一组多源文本数据经过步骤1-步骤5的处理得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列在标签词表中找出相应的分类标签，所述相应的分类标签即为预测结果。

2.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤1中，所述输入语料中文词表按照词频高低进行序号化。

3.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤3中，所述编码层为seq2seq编码层。

4.根据权利要求1或3所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤5中，所述解码层采用单向循环神经网络。

5.根据权利要求4所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤5中，所述解码层包括解码器。

6.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤6中，所述损失函数对标签序列的序列不敏感。

7.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法，其特征在于，在步骤7中，所述softmax层采用softmax函数对所述解码输出进行归一化处理。

8.一种基于改进seq2seq模型的多源多标签文本分类系统，其特征在于，该系统包括：

数据输入及预处理模块，对输入的多源文本语料进行分词，构建输入语料中文词表，将所述输入语料中文词表序号化；构建包含所有分类标签的标签词表，将输入语料原始标签序号化，生成输入语料原始标签序列；

预测输出模块，对于未知标签的一组多源文本数据，使用模型优化模块训练得到的模型，依次经过数据输入及预处理模块、词嵌入模块、编码模块、编码拼接模块、解码模块处理，得到解码输出，将所述解码输出经过softmax层进行归一化处理，输出大于预设的阈值的解码序列，根据所述解码序列在标签词表中找出相应的分类标签，所述分类标签即为预测结果。

9.根据权利要求8所述的基于改进seq2seq模型的多源多标签文本分类系统，其特征在于，所述解码层包括解码器，且所述解码层采用单向循环神经网络。

10.根据权利要求7所述的基于改进seq2seq模型的多源多标签文本分类系统，其特征在于，所述softmax层采用softmax函数对所述解码输出进行归一化处理。