CN106547885B

CN106547885B - 一种文本分类系统及方法

Info

Publication number: CN106547885B
Application number: CN201610954497.XA
Authority: CN
Inventors: 蔡晓东; 赵勤鲁
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2020-04-10
Anticipated expiration: 2036-10-27
Also published as: CN106547885A

Abstract

本发明涉及一种文本分类系统及方法，其系统包括初始化模块读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；第一提取模块对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；第二提取模块将多个第一矩阵向量分别与attention矩阵进行点乘，生成多个第二矩阵向量；综合表示模块将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；分类模块将多个一维向量矩阵分别输入到Fully Contact Layer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。本发明使用较少的参数，使网络模型快速收敛，并提取出文本深度的表示信息，进而提高文本的分类正确率。

Description

一种文本分类系统及方法

技术领域

本发明涉及一种文本分类系统及方法。

背景技术

随着互联网和移动终端的广泛使用，用户能够便捷地在互联网和移动平台上表达情感、观点和评论，从而产生了海量的文本信息资源，因此文本分类变得十分重要，文本分类成为越来越热的研究重点。

最近几年来，随着CNN(Convolutional Neural Network,卷积神经网络)和注意力机制(Attention mechanism)在自然语言处理领域中越来越多的应用，目前已取得丰硕成果。现有的技术存在着网络测层数深，参数多，迭代时间过长，并且浅层的网络又不能充分提取有效特征。本方法使用浅层的CNN网络结合注意力机制，在浅层网络中能够有效提取文本信息，并且有效减少参数以及减少迭代时间。

发明内容

本发明的目的是提供一种文本分类系统及方法，所要解决的技术问题是：如何解决网络测层数深，参数多，迭代时间过长，并且浅层的网络又不能充分提取有效特征。

本发明解决上述技术问题的技术方案如下：一种文本分类系统，包括初始化模块、第一提取模块、第二提取模块、综合表示模块和分类模块；

所述初始化模块，用于读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

所述第一提取模块，用于对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；

所述第二提取模块，用于将多个第一矩阵向量分别与attention(attention为注意力)矩阵进行点乘，对应生成多个第二矩阵向量；

所述综合表示模块，用于将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

所述分类模块，用于将多个一维向量矩阵分别输入到Fully Contacted Layer(Fully Contacted Layer为全链接层)中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

本发明的有益效果是：初始化模块将由文字构成的文本信息映射到对应的向量空间中，对文本语句实现保留语义信息的向量化；第一提取模块对二维的矩阵向量进行浅层的语义上下文信息提取；第二提取模块对所提取的文本表征信息提取更多和更高水平的复杂特征信息；再通过综合表示模块和分类模块的协调运作，实现使用较少的参数，使网络模型快速收敛，并提取出文本深度的表示信息，进而提高文本的分类正确率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述初始化模块通过词向量嵌入方法对文本的句子进行分词处理和训练，生成二维的矩阵向量。

采用上述进一步方案的有益效果是：通过词向量嵌入方法能够有效将文本上句子进行向量化，准确率高。

进一步，所述第一提取模块通过不同大小的卷积核对二维的矩阵向量进行卷积处理，输出多个神经元C_i，其中神经元C_i具体表示为：

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，

是卷积运算符，sigmoid(·)是神经元激活函数，b是计算中使用的偏置向量；式中的卷积核W_i与偏置b是网络的训练参数，通过大量的迭代训练得到较优取值。

采用上述进一步方案的有益效果是：提取二维的矩阵向量中的浅层次向量，进行多层次多角度的文本语义信息提取，不仅对一个词语的向量进行信息提取，还综合考虑前后二个到五个词语的信息，提升语义提取的准确性。

进一步，所述第一提取模块还通过非线性的所述神经元激活函数sigmoid对每一个神经元C_i进行数据规则处理，对应生成的处理结果分别进行池化处理，对应生成多个第一矩阵向量。

采用上述进一步方案的有益效果是：实现第一矩阵向量的尺寸大小，实现使用较少的参数，使网络模型快速收敛。

进一步，所述第二提取模块将多个第一矩阵向量分别与attention矩阵进行点乘，对应得到多个第二矩阵向量，第二矩阵向量表示为Mat_i＝Mat_Fi·Mat_Attention，其中·为点乘运算，Mat_Fi为第一矩阵向量。

采用上述进一步方案的有益效果是：第二提取模块提取不同词时信息的深层信息，矩阵的不同数值决定了该区域的信息的重要程度，进而可以提取更多和更高水平的复杂特征信息。

进一步，所述综合表示模块对每一个第二矩阵向量分别进行卷积操作，使每一个第二矩阵向量均转变成一维矩阵向量，一维矩阵向量表示为Mat_s_i∈R^1Xk,具体如下：

其中，w是卷积核，其w∈R^jX1,Mat_i是第二矩阵向量，b是偏置参数。F(·)是激活函数。

采用上述进一步方案的有益效果是：将每一个第二矩阵向量均转变成一维矩阵向量，准确率高。

进一步，所述综合表示模块还将多个一维矩阵向量进行拼接，得深层次表示文本的矩阵向量Vec，具体如下：

其中Mat_s_i为一维矩阵向量。

采用上述进一步方案的有益效果是：综合表示模块最终得到一个文本深层次信息的向量Vec，实现对一个句子进行不同上下文的信息提取以及向量表示。

本发明解决上述技术问题的另一技术方案如下：一种文本分类方法，包括以下步骤：

步骤S1.初始化模块读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

步骤S2.第一提取模块对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；第二提取模块将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个第二矩阵向量；

步骤S4.综合表示模块将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

步骤S5.分类模块将多个一维向量矩阵分别输入到Fully Contact Layer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，

附图说明

图1为本发明一种文本分类系统的模块框图；

图2为本发明一种文本分类系统的实施示意图；

图3为本发明一种文本分类方法的流程图。

附图中，各标号所代表的部件列表如下：

1、初始化模块，2、第一提取模块，3、第二提取模块，4、综合表示模块，5、分类模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：

如图1和图3所示，一种文本分类系统，包括初始化模块1、第一提取模块2、第二提取模块3、综合表示模块4和分类模块5；

所述初始化模块1，用于读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

所述第一提取模块2，用于对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；

所述第二提取模块3，用于将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个第二矩阵向量；

所述综合表示模块4，用于将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

所述分类模块5，用于将多个一维向量矩阵分别输入到Fully ContactLayer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

上述实施例中，所述初始化模块1通过词向量嵌入方法对文本的句子进行分词处理和训练，生成二维的矩阵向量；

文档就是一个单词序列比如“A B A C B F G”,对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如，对于这样的“A BA C B F G”的一个序列，也许我们最后能得到：A对应的向量为[0.1 0.6 -0.5]，B对应的向量为[-0.2 0.9 0.7]，假如一个句子由两个词语AB组成，这个句子就向量化成了一个2X3

的向量矩阵了。

将所输入的文本长度进行统一化处理成N个词组成的句子，文本长度超出N个词时将进行截断处理，文本长度不够N个词时我们将进行统一标记符号进行对文本的长度进行补充；

将文本实现向量化，既每个句子可以表示如下式子：

X_1：N＝{X₁,X₂,X₃,...,X_N}

其中，X表示一个文本，X_i(i∈(1，N))表示文本中的一个K维词向量，一个文本的词向量是用的列向量，一个句子X的维度是KXN维的矩阵，即S∈R^Kxn；到此实现文本的向量化工作了，将一个文本表示成了二维的矩阵向量。

上述实施例中，所述第一提取模块2通过不同大小的卷积核对二维的矩阵向量进行卷积处理，输出多个神经元C_i，其中神经元C_i具体表示为：

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，

是卷积运算符，sigmoid(·)是神经元激活函数，b是计算中使用的偏置向量；式中的卷积核W_i与偏置b是网络的训练参数，通过大量的迭代训练得到较优取值；

所述第一提取模块2还通过非线性的所述神经元激活函数sigmoid对每一个神经元C_i进行数据规则处理，对应生成的处理结果分别进行池化处理，对应生成多个第一矩阵向量；

考虑了前后不同词语五种情况，既前后只考虑一个到五个词语，前后只考虑一个词语的时候就使用1X1的卷积核对文本矩阵进行卷积操作，考虑前后两个词的时候使用的是1X2的卷积核进行卷积操作，以此类推。卷积之后并使用非线性的所述神经元激活函数sigmoid对神经元进行数据规则处理；

将非线性的所述神经元激活函数sigmoid输出的结果分别进行池化下采样操作，对句子中前后不同词语个数的词数的信息进一步提取其重要的特征，实现减小特征图的尺寸大小，在本次操作采用的是池化核大小为2X2步长为2的不重叠池化操作，通过这样的方式得到了每个文本的考虑不同词语个数信息的特征图矩阵，其可以表示为F₁∈R^dxn，F₂∈R^dx ^(n-1)，F₃∈R^dx(n-2)，F₄∈R^dx(n-3)，F₅∈R^dx(n-4)，其中F₁表示的考虑前后一个词语信息的提取的特征向量，F₂表示的考虑前后两个词语信息的提取的特征向量，以此类推。

上述实施例中，所述第二提取模块3将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个矩阵向量，将每一个特征矩阵均送入分类器中进行迭代训练进行反馈学习优化，对应得到多个第二矩阵向量，第二矩阵向量表示为Mat_i＝Mat_Fi·Mat_Attention，其中·为点乘运算，Mat_Fi为第一矩阵向量；

Attention矩阵最初是由随机初始化，使得考虑不同前后词语个数生成的特征矩阵与该矩阵点乘，生成新的特征矩阵，将该矩阵送入到分类器中进行反馈调节attention矩阵，通过大量的迭代训练进行反馈学习优化这些矩阵参数，得到最优的值，实现对考虑不同词时信息的深层信息，矩阵的不同数值决定了该区域的信息的重要程度，进而可以提取更多和更高水平的复杂特征信息。

上述实施例中，所述综合表示模块4对每一个第二矩阵向量分别进行卷积操作，使每一个第二矩阵向量均转变成一维矩阵向量，一维矩阵向量表示为Mat_s_i∈R^1Xk,具体如下：

其中，w是卷积核，Mat_i是第二矩阵向量，Mat_i∈R^jXk，其中i∈[1,5]，j是第二矩阵向量的维度且j>1,k是第二矩阵向量的词语个数，w∈R^jX1,b是偏置参数。F(·)是激活函数；

所述综合表示模块4还将多个一维矩阵向量进行拼接，得深层次表示文本的矩阵向量Vec，具体如下：

其中Mat_s_i为一维矩阵向量，i∈[1,5]；

是向量连接符号。

将分别考虑不同个数词语的浅层向量表示信息Mat_s_i矩阵进行拼接，最终形成了文本向量的最终表示形式。

实施例2：

如图3所示，一种文本分类方法，其特征在于，包括以下步骤：

步骤S1.初始化模块1读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

步骤S2.第一提取模块2对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；第二提取模块3将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个第二矩阵向量；

步骤S4.综合表示模块4将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

步骤S5.分类模块5将多个一维向量矩阵分别输入到Fully Contact Layer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

初始化模块1将由文字构成的文本信息映射到对应的向量空间中，对文本语句实现保留语义信息的向量化；第一提取模块2对二维的矩阵向量进行浅层的语义上下文信息提取；第二提取模块3对所提取的文本表征信息提取更多和更高水平的复杂特征信息；再通过综合表示模块4和分类模块5的协调运作，实现使用较少的参数，使网络模型快速收敛，并提取出文本深度的表示信息，进而提高文本的分类正确率。

上述实施例中，所述初始化模块通过词向量嵌入方法对文本的句子进行分词处理和训练，生成二维的矩阵向量；通过词向量嵌入方法能够有效将文本上句子进行向量化，准确率高。

上述实施例中，所述第一提取模块通过不同大小的卷积核对二维的矩阵向量进行卷积处理，输出多个神经元C_i，其中神经元C_i具体表示为：

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，

是卷积运算符，sigmoid(·)是神经元激活函数，b是计算中使用的偏置向量；式中的卷积核W_i与偏置b是网络的训练参数，通过大量的迭代训练得到较优取值；提取二维的矩阵向量中的浅层次向量，进行多层次多角度的文本语义信息提取，不仅对一个词语的向量进行信息提取，还综合考虑前后二个到五个词语的信息，提升语义提取的准确性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类系统，其特征在于：包括初始化模块(1)、第一提取模块(2)、第二提取模块(3)、综合表示模块(4)和分类模块(5)；

所述初始化模块(1)，用于读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

所述第一提取模块(2)，用于对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；

所述第二提取模块(3)，用于将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个第二矩阵向量；

所述综合表示模块(4)，用于将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

所述分类模块(5)，用于将多个一维向量矩阵分别输入到Fully Contact Layer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

2.根据权利要求1所述一种文本分类系统，其特征在于：所述初始化模块(1)通过词向量嵌入方法对文本的句子进行分词处理和训练，生成二维的矩阵向量。

3.根据权利要求1所述一种文本分类系统，其特征在于：所述第一提取模块(2)通过不同大小的卷积核对二维的矩阵向量进行卷积处理，输出多个神经元C_i，其中神经元C_i具体表示为：

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，

是卷积运算符，sigmoid(·)是神经元激活函数，b是计算中使用的偏置向量；式中的卷积核W_i与偏置b是网络的训练参数，通过预设次数的迭代训练得到最终结果。

4.根据权利要求3所述一种文本分类系统，其特征在于：所述第一提取模块(2)还通过非线性的所述神经元激活函数sigmoid对每一个神经元C_i进行数据规则处理，对应生成的处理结果分别进行池化处理，对应生成多个第一矩阵向量。

5.根据权利要求4所述一种文本分类系统，其特征在于：所述第二提取模块(3)将多个第一矩阵向量分别与attention矩阵进行点乘，对应得到多个第二矩阵向量，第二矩阵向量表示为Mat_i＝Mat_Fi·Mat_Attention，其中·为点乘运算，Mat_Fi为第一矩阵向量。

6.根据权利要求5所述一种文本分类系统，其特征在于：所述综合表示模块(4)对每一个第二矩阵向量分别进行卷积操作，使每一个第二矩阵向量均转变成一维矩阵向量，一维矩阵向量表示为Mat_s_i∈R^1Xk,具体如下：

其中，w是卷积核，其w∈R^jX1,Mat_i是第二矩阵向量，R为文本表示成的二维向量矩阵，j是矩阵向量的维度且j>1,k是矩阵向量的词语个数，b是偏置参数，F(·)是激活函数。

7.根据权利要求6所述一种文本分类系统，其特征在于：所述综合表示模块(4)还将多个一维矩阵向量进行拼接，得深层次表示文本的矩阵向量Vec，具体如下：

其中Mat_s_i为一维矩阵向量。

8.一种文本分类方法，其特征在于，包括以下步骤：

步骤S1.初始化模块(1)读取文本，将文本内的句子进行向量化，生成二维的矩阵向量；

步骤S2.第一提取模块(2)对二维的矩阵向量进行卷积以及池化处理，生成多个第一矩阵向量；第二提取模块(3)将多个第一矩阵向量分别与attention矩阵进行点乘，对应生成多个第二矩阵向量；

步骤S4.综合表示模块(4)将每一个矩阵向量进行卷积操作，使每一个第二矩阵向量对应转换成一维向量矩阵；

步骤S5.分类模块(5)将多个一维向量矩阵分别输入到Fully Contact Layer中进行处理，并将其输出值输入到softmax分类器中，softmax分类器将矩阵值转换成对应类别的概率分布，对文本进分类。

9.根据权利要求8所述一种文本分类方法，其特征在于：所述初始化模块(1)通过词向量嵌入方法对文本的句子进行分词处理和训练，生成二维的矩阵向量。

10.根据权利要求8所述一种文本分类方法，其特征在于：所述第一提取模块(2)通过不同大小的卷积核对二维的矩阵向量进行卷积处理，输出多个神经元C_i，其中神经元C_i具体表示为：

其中，x是表示二维的矩阵向量，W_i代表不同大小的卷积核，