CN113590818B

CN113590818B - 一种基于cnn与gru及knn融合的政务文本数据分类方法

Info

Publication number: CN113590818B
Application number: CN202110742255.5A
Authority: CN
Inventors: 王运兵; 姬少培; 杨辉; 颜亮; 刘栋; 谢建武; 陈兵; 董贵山
Original assignee: CETC 30 Research Institute; CETC Big Data Research Institute Co Ltd
Current assignee: CETC 30 Research Institute; CETC Big Data Research Institute Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-05-26
Anticipated expiration: 2041-06-30
Also published as: CN113590818A

Abstract

本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法，包括：将政务文本数据划分为原始训练样本与待测样本；从原始训练样本中提取标题信息，构建标题信息训练样本；提取训练样本的特征，分别得到各自的特征向量，输入至CNN进行处理得到CNN特征向量以及输入至GRU得到各自的GRU特征向量；将CNN特征向量与GRU特征向量融合，分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量；分别对融合特征向量进行降维，并将降维后的融合特征向量加权合并得到最终的训练样本特征向量；对待测样本进行类似处理得到待测样本特征向量；采用KNN方法完成待测样本分类。本发明提出的方法能够提取出更多有效的特征信息，有效的提高了文本分类的准确率。

Description

一种基于CNN与GRU及KNN融合的政务文本数据分类方法

技术领域

本发明涉及文本处理领域，特别涉及一种基于CNN与GRU及KNN融合的政务文本数据分类方法。

背景技术

在数字中国的背景下，随着政府行业数字化转型的不断深入，智慧城市、数字新基建等战略的深入推进，越老越多的政府机构运用现代计算机技术和网络技术，将其管理和服务职能转到网络上去完成，同时实现政府组织机构和工作流程的重组优化，超越时间和部门分隔的制约，向社会提供高效、优质、规范、透明和全方位的管理和服务。各级政府部门通过网络向公众宣传和推送的公告、政策法规等政务文本数据越来越多。据不完全统计，仅国家部委在近五年通过政府公开网站发布的公文数量就超过15万篇。面对日益繁重的政务文本数据信息，如何针对这些政务文本数据进行自动化分类，完成针对政务文本数据的有效分类管理是一个非常重要的研究课题。

目前，政务文本分类技术中深度学习技术取得的效果较好，但是深度学习技术的效果依赖于对句子的语义特征提取。传统的基于深度学习方法是基于非动态字向量或者词向量作为输入，字向量或者词向量并不能根据它的上下文去改变，信息涵盖量比较单一；另外由于政务领域的文本文件，其编写要符合标准规范，尤其是同类的标题具有高度的概括性和相似性，现有的分类方法并未充分考虑政务文本数据的这一特性。

现有方法存在以下问题：

(1)卷积神经网络(CNN)、门循环单元(GRU)、KNN在自然语言处理上已得到广泛应用，但由于自然语言在结构上存在着前后依赖关系，仅仅依靠CNN、GRU等进行政务文本分类时存在特征维度过高的问题，从而导致分类准确度及效率较低；

(2)现有的方法并未充分考虑文本数据高度的概括性和相似性，如果采取将整个文本统一处理，会极大的损失标题给分类带来的重要信息；

发明内容

针对现有技术中存在的问题，提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法，充分利用政务文本自身规范性，以及文本标题的重要信息，利用卷积神经网络(CNN)和门循环单元(GRU)提取区分度更高的特征同时降低特征维数，将KNN作为文本分类器进行文本分类，结合了深度学习能够得到抽象的高层特征表达的特点与机器学习方法成熟、理论基础较为坚实、分类效果较好、应用广泛的优点。

本发明采用的技术方案如下：一种基于CNN与GRU及KNN融合的政务文本数据分类方法，包括以下过程：

步骤1、将政务文本数据划分为原始训练样本与待测样本；

步骤2、从原始训练样本中提取标题信息，构建标题信息训练样本；

步骤3、提取原始训练样本与标题信息训练样本的特征，分别得到各自的特征向量；

步骤4、将各自的特征向量分别作为输入数据输入至CNN进行处理得到各自的CNN特征向量；将各自的特征向量分别作为输入数据输入至GRU进行处理得到各自的GRU特征向量；

步骤5、将原始训练样本的CNN特征向量与GRU特征向量融合、标题信息训练样本的CNN特征向量与GRU特征向量融合，分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量；

步骤6、分别对原始训练样本和标题信息训练样本融合特征向量进行降维，并将降维后的融合特征向量加权合并得到最终的训练样本特征向量；

步骤7、对待测样本执行步骤2-步骤6类似过程得到待测样本特征向量；

步骤8、采用KNN方法完成待测样本分类。

进一步的，所述步骤3包括以下子步骤：

步骤3.1、文本预处理；

步骤3.2、特征向量计算。

进一步的，所述步骤3.1中文本预处理包括：去除文本中乱码以及非文本内容，并采用分词工具进行分词并删除其中停用词。

进一步的，所述步骤3.2具体包括：忽略特征项在文档中的先后顺序并要求特征项互异，将文档简化为以特征项的权重为分量的向量表示，并采用TF-IDF方法得到原始训练样本特征向量和标题信息训练样本的特征向量。

进一步的，所述步骤4中CNN的处理过程为：CNN对输入的特征向量依次进行卷积、激活、池化处理过程并重复两次得到多维特征，每次重复的输入为前次处理的结果；并采用Flatten层将处理后得到的多维特征转换为以为特征，得到CNN特征向量。

进一步的，所述步骤4中GRU的处理过程为：GRU对输入的特征向量进行双向运算，得到运算结果再进行非线性激活层的运算，得到GRU特征向量。

进一步的，所述步骤6中采用全连接层进行线性降维。

进一步的，所述步骤6中的加权合并方法为：

T＝(αF₄；(1-α)F′₄)

其中α∈(0,1)，代表权重系数。

进一步的，所述步骤8具体过程包括：计算训练样本与待测样本的相似度，并按照相似度从大到小的方式进行排序，在相似度排名前K的特征向量中，特征向量数量所在类别最多的类别即为待测样本所属类别。

与现有技术相比，采用上述技术方案的有益效果为：

(1)将政务文本数据的标题信息作为单独样本进行特征提取，能够提取出更多有效的特征信息；

(2)采用CNN、GRU来提取特征，比起常用的单层神经网络或是双层神经网络得到的数据更加准确，而且在进行特征提取时，挖掘到的数据更加全面详细，捕获到的序列信息更加充分。

(3)通过特征融合方式，融合两种不同的文本特征表达，得到文本更多样化、丰富的特征表达。

(4)把得到的文本特征利用KNN进行分类，有效的提高了文本分类的准确率。

附图说明

图1是本发明提出的文本数据分类方法流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1所示，本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法，该方法主要将CNN、GRU、KNN等结合起来进行政务文本数据分类，包括以下过程：

步骤1、将政务文本数据划分为原始训练样本与待测样本；

步骤8、采用KNN方法完成待测样本分类。

具体的，

在步骤3中，首先进行文本预处理，掉文本当中的乱码以及非文本的内容，利用分词工具jieba进行分词，删除其中的停用词；再进行特征向量计算。

在特征向量计算时，忽略特征项在文档中的先后顺序并要求特征项互异，将文档简化为以特征项的权重为分量的向量表示。利用TF-IDF方法得到原始训练样本特征向量C₁(c₁₁；c₁₂；...；c_1q),C₂(c₂₁；c₂₂；...；c_2q),...,C_s(c_s1；c_s2；…；c_sq)和标题信息训练样本特征向量C₁′(x₁₁；x₁₂；...；x_1q′)，C₂′(x₂₁；x₂₂；...；x_2q′),...,C_s′(x_s1；x_s2；...；x_sq′)，其中s为文本数量，q和q'分别为原始训练样本的特征项个数和标题信息训练样本的特征项个数。

在步骤4中，分别将原始训练样本的特征向量和标题信息训练样本的特征向量作为输入数据，分别依次输入CNN和GRU，对特征向量进行深度编码。以特征向量C₁、C′₁为例，进行说明：

步骤4.1.1、将C₁和C′₁输入CNN，经过第一个卷积层，采用256个100×5的卷积核对输入C₁和C′₁进行卷积运算，得到特征f₁和f′₁；

步骤4.1.2、通过激活函数Relu对f₁和f′₁进行计算得到输出为f₂和f′₂；

步骤4.1.3、将f₂和f′₂作为输入最大值池化层，用1×101的池化核进行步长为1的池化，得到输出为f₃和f′₃；

步骤4.1.4、重复步骤4.1.1到4.1.3两次(每次重复时的输入为上次处理得到的输出)，在第二次重复时将其中部分参数替换：卷积层改用128个1×1的卷积核进行卷积，最大值池化层改用1×1的池化核进行步长为2的池化，最终得到输出为f₄和f′₄；

步骤4.1.5、使用Flatten层将多维特征f₄和f′₄压缩为一个一维向量，得到CNN的最终输出为F₁和F′₁，F₁＝{F₁₁,F₂₁,…,F_k1}，F₁′＝{F₁₁′,F₂₁′,…,F_k1′}其中，k是CNN第三个池化层输出的神经元数。

步骤4.2.1、将C₁和C′₁输入GRU，进行序列上的双向运算，得到的结果经过非线性激活层的运算，得到GRU特征向量F₂和F′₂，其中F₂＝{F₂₁,F₂₂,…,F_2n}，F₂′＝{F₂₁′,F₂₂′,…,F_2n′}，n为GRU隐藏层神经元个数。

在得到CNN和RNN输出的特征向量后，分别将特征向量F₁和F₂、F₁′和F₂′进行特征融合，得到融合特征向量F₃和F′₃，F₃和F′₃再经过全连接层进行线性降维，得到降维后的原始训练样本特征向量F₄和标题信息训练样本特征向量F′₄，对原始训练样本特征向量F₄和标题信息训练样本特征向量F′₄进行加权合并得到最终的特征向量T＝(αF₄；(1-α)F′₄)，其中α∈(0,1)，代表权重系数。

采用同样的方法对待测样本进行处理得到待测样本的特征向量T′，包括标题信息提取构成待测样本的标题信息训练样本；提取待测样本及其标题信息训练样本的特征向量，再分别通过CNN和GRU进行深度编码，对编码后的特征向量进行融合降维再进行加权合并得到待测样本最终的特征向量T′。

计算T与T′之间的相似度，并将相似度从大到小的方式进行排序，在相似度排在前K的特征向量中，具有较多特征向量的类别即为待测样本所属类别，完成分类。

本发明提出的方案的有益效果和优点主要包括四点：

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种基于CNN与GRU及KNN融合的政务文本数据分类方法，其特征在于，包括以下步骤：

步骤1、将政务文本数据划分为原始训练样本与待测样本；

步骤4、将各自的特征向量分别输入至CNN进行处理得到各自的CNN特征向量；将各自的特征向量分别输入至GRU进行处理得到各自的GRU特征向量；

步骤7、对待测样本执行步骤2-步骤6过程得到待测样本特征向量；

步骤8、根据最终的训练样本特征向量与待测样本特征向量，采用KNN方法完成待测样本分类；

所述步骤3包括以下子步骤：

步骤3.1、文本预处理；

步骤3.2、特征向量计算；

所述步骤3.1中文本预处理包括：去除文本中乱码以及非文本内容，并采用分词工具进行分词并删除其中停用词；

所述步骤3.2具体包括：忽略特征项在文档中的先后顺序并要求特征项互异，将文档简化为以特征项的权重为分量的向量表示，并采用TF-IDF方法得到原始训练样本特征向量和标题信息训练样本的特征向量；

所述步骤4中CNN的处理过程为：CNN对输入的特征向量依次进行卷积、激活、池化处理过程并重复两次得到多维特征，每次重复的输入为前次处理的结果；并采用Flatten层将处理后得到的多维特征转换为以为特征，得到CNN特征向量；

所述步骤4中GRU的处理过程为：GRU对输入的特征向量进行双向运算，得到运算结果再进行非线性激活层的运算，得到GRU特征向量。

2.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法，其特征在于，所述步骤6中采用全连接层进行线性降维。

3.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法，其特征在于，所述步骤6中的加权合并方法为：

T＝(F₄；(1-α)F₄ ^′)

其中α∈(0,1)，代表权重系数，T表示最终的训练样本特征向量，F₄表示降维后的原始训练样本特征向量，F₄ ^′表示标题信息训练样本特征向量。

4.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法，其特征在于，所述步骤8具体过程包括：计算训练样本与待测样本的相似度，并按照相似度从大到小的方式进行排序，在相似度排名前K的特征向量中，特征向量数量所在类别最多的类别即为待测样本所属类别。