CN115186069A

CN115186069A - 一种基于CNN-BiGRU的学术文本摘要自动分类方法

Info

Publication number: CN115186069A
Application number: CN202210881427.1A
Authority: CN
Inventors: 薛丽; 郑含笑; 吴昊辰; 张帅; 李婧; 陈明; 王秋语
Original assignee: Zhengzhou University of Aeronautics
Current assignee: Zhengzhou University of Aeronautics
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-10-14

Abstract

本发明涉及一种基于CNN‑BIGRU的学术文本摘要自动分类方法，本发明有效解决了现有这对文本分类时分类精确率较低且检索效率低下的问题；解决的技术方案包括以下过程：数据集构建、文本向量化表示、模型训练、模型分类效果评估；通过CNN与BIGRU组合使用，能够对文本信息进行深层次的语义挖掘及多方面的提取文本特征，在此基础上进一步提高学术文本分类效果和检索效率，解决图书情报领域信息过载的问题。

Description

一种基于CNN-BiGRU的学术文本摘要自动分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于CNN-BiGRU的学术文本摘要自动分类方法。

背景技术

文本分类是自然语言处理领域的关键问题之一，在垃圾邮件过滤、情感分析、问答系统、信息检索等方面都有着广泛的应用，学术文本是记录学术研究结果或信息的重要载体，是学术研究工作开展的基础，在学术研究过程中发挥着重要的作用，当前，在文本分类领域中，通常基于关键词对学术文本进行分类；

例如：以机器学习为主的自动分类方式，如KNN(K-近邻)、NB(朴素贝叶斯)、DT(决策树)等方法，这些机器学习方法均是浅层次的特征提取，对于文本语义分析、句法结构及前后序列理解不够深入，同时模型的表征效果不够明显，存在着对提取出的特征过于依赖等问题，导致文本分类效果不够理想；

鉴于以上我们提供一种基于CNN-BiGRU的学术文本摘要自动分类方法用于解决以上问题。

发明内容

针对上述情况，本发明提供一种基于CNN-BiGRU的学术文本摘要自动分类方法，通过CNN与BiGRU组合使用，能够对文本信息进行深层次的语义挖掘及多方面的提取文本特征，在此基础上进一步提高学术文本分类效果和检索效率，解决图书情报领域信息过载的问题。

一种基于CNN-BiGRU的学术文本摘要自动分类方法，其特征在于，包括以下步骤：

S1：数据集构建

包括数据来源、数据清洗、分词及去停用词；

S2：文本向量化

将半结构化或非结构化的文本转换成计算机可理解和处理的向量表示，基于S1的分词结果，通过训练来预测特定词周边的其他单词；

S3：模型训练及对比实验

选取CNN-BiGRU组合模型进行学术文本分类实验，并与KNN、NB、DT、CNN、BiLSTM、BiGRU六种分类模型进行对比实验；

S4：模型分类效果评估

基于S3中的模型分类结果，选取准确率(Precision)、召回率(Recall)和F1值三个通用指标进行评估。

上述技术方案有益效果在于：

(1)通过CNN与BiGRU组合使用，对文本信息进行深层次的语义挖掘及多方面的提取文本特征，在此基础上进一步提高学术文本分类效果和检索效率，解决图书情报领域信息过载的问题；

(2)文本摘要能清晰的表面研究问题、研究方法、所属领域及研究范围等相关特征，可以为信息检索和知识组织提供多层次的语义理解，本方案中对学术文本摘要进行精准分类，在一定程度上提高了学术文本检索的准确率。

附图说明

图1为本发明自动分类流程框图；

图2为本发明模型分类准确率、召回率、F1值对比示意图。

具体实施方式

有关本发明的前述及其他技术内容、特点与功效，在以下配合参考附图1至图2实施例的详细说明中，可清楚的呈现，以下实施例中所提到的结构内容，均是以说明书附图为参考。

一、本发明提出一种基于CNN-BiGRU的学术文本摘要自动分类方法，本发明主要包括以下几个流程：数据集构建、文本向量化表示、模型训练及对比实验、模型分类效果评估四大模块，如附图1所示：

一种基于CNN-BiGRU的学术文本摘要自动分类方法包括以下步骤：

步骤1：数据集构建

(1)数据来源；本发明在中国知网数据库中，通过限定相关主题类别和年限等条件，获得所需主题类别下的相关文献作为原始数据来源。

(2)数据清洗；通过网络爬虫的方式获取带有主题标签的摘要文本数据集，并对爬取到的摘要文本数据进一步筛选，去除不满足实验条件的文本数据，最终保留符合实验所需的摘要文本数据集。

(3)分词及去停用词；由于在中文文本内容中，字、词和短语都是连续出现，没有明显的分割标志，大多以词作为基本的语义单位，以在分类过程中需要基于文本数据构建专有名词词典和停用词词典，然后根据词典进行分词和去停用词处理。

步骤2：文本向量化(如何具体进行文本向量化)

在使用CNN-BiGRU模型进行学术文本摘要自动分类之前，需要将半结构化或非结构化的文本转换成计算机可理解和处理的向量表示，传统的文本向量化方法存在向量维度高、数据稀疏以及文本语义缺失等问题，造成文本分类的效果不佳，因此，本发明在模型训练之前采用Word2vec词向量的方法对文本内容进行向量化表示，由于在实际的模型训练过程中，Skip-gram的训练效果优于CBOW，因此本发明采用Skip-gram方法训练词向量，更为细粒度地表示学术文本的主题特征，更好地进行分类；

基于步骤一的分词结果，将句子中的特定单词输入到Skip-gram模型中，通过训练来预测特定词周边的其他单词，具体计算流程如下：

(1)首先将输入层中的每一个词设置为N维向量(N代表词汇表中的单词个数)，其中每个词在其对应的维度设定为1，其他为0；

(2)在输入层到隐藏层之间，有一个N*K维的权重矩阵，将每个词向量乘以权重矩阵，到隐藏层之后数据的维度就变成了K维；

(3)隐藏层到输出层之间有一个K*N维的权重矩阵，隐藏层K维乘以此权重矩阵得到了N维输出；

(4)输出层对此N维向量应用Softmax激活函数，可以计算每个单词的生成概率。

(5)训练神经网络(也就是训练N*K以及K*N这两个矩阵)，使用反向传播算法，每次迭代将权重沿梯度更优的方向更新。最后得到两个系数矩阵，进而也可以求得每个词所对应的K维向量。

(6)训练好的词向量输入到embedding层，与其他特征向量连接后一同输入下一步骤的深度学习模型中进行训练。

步骤3:：模型训练及对比实验

与传统的机器学习分类模型相比，深度学习模型具有较强的特征学习能力并且可以自动对特征进行提取，通过神经元连接模型的每一层网络，随着连接层数的不断加深，模型由浅层的初级特征学习发展到深层的高级特征学习，因此在文本分类领域具有较好的性能；

在众多深度学习分类模型中，本发明选取了一种CNN-BiGRU组合模型进行学术文本分类实验，其中CNN层用于提取学术文本的局部特征，在输入序列化的文本数据时，卷积层通过128个大小为2的卷积核连接数据进行卷积操作，步长设置为1，通过Max-Pooling最大池化方法，将池化层应用于整个卷积输出结果，获取池化层过滤器覆盖区域下最大值；

将CNN层处理得到的局部特征矩阵作为时间序列在t时刻输入到BiGRU中，用于提取学术文本的上下文特征，BiGRU模型包括输入层、正向GRU、反向GRU和输出层，每个GRU层分别从正向和反向处理文本向量，确保模型不仅能由正序获得积聚依赖信息，而且也能从逆序获得来自未来的积聚依赖信息，保持对时间特征的敏感性，并进一步剔除冗余信息，达到丰富特征信息的目的，将最终得到的特征信息送入全连接层进行重新整合以及参数的微调并映射到样本标签空间，由Softmax层完成对文本数据的分类，整个网络在各个特征学习阶段后都引入Dropout层，使网络在运算过程中随机停止部分神经元参与工作，防止模型发生过拟合；

在模型训练过程中，本发明还依次与KNN、NB、DT、CNN、BiLSTM、BiGRU六种分类模型进行对比实验，进一步说明本发明所选取的分类模型的优越性。

步骤4：模型分类效果评估指标

对于步骤三中的模型的分类结果，本发明选取准确率(Precision)、召回率(Recall)和F1值三个通用指标进行评估，其中，准确率(P)代表被正确预测的样本占所有预测类别正确的样本的比例，计算公式如下所示：

召回率(R)表示被正确预测的样本占所有真实类别正确样本的比例，其计算公式如下所示：

F1值是基于准确率(P)和召回率(R)的调和平均值，其计算公式如下所示：

二、以下结合具体实施例对上述步骤进行详细说明，具体如下：

步骤一：数据采集

为了验证本发明所提出的CNN-BiGRU分类模型的可行性与有效性，根据图情领域相关研究热点文献，通过对研究热点进行对比分析，最终选取四个相关主题类别，分别是“大数据”、“数字人文”、“信息服务”和“用户行为”，文献期刊来源类别限定为中国科学引文数据库(CSCD)、中文社会科学引文索引(CSSCI)和工程索引(EI)，检索时间范围限定为2010年1月-2021年12月，初次检索出13534条相关文献，通过网络爬虫的方式获取，最终保留1800条摘要数据作为本发明的实验数据集，以0.64：0.16：0.2的比例将数据集分为训练集、验证集和测试集三部分，数据集基本信息如表1所示：

表1 数据集基本信息

步骤二：数据预处理

(1)数据清洗：本发明通过人工筛选的方式对上述所获取到的四个带有主题标签的摘要文本数据进行去重和去不相关,例如，大数据主题类别，由于其研究热度高和研究范围广泛的问题，会导致所获文本数据涉及其他领域，因此，需要通过人工去重的方式对爬取到的文本数据进行筛选，保留与本文研究相关度最高的数据，以此提高数据集的质量；

(2)分词及去停用词：首先建立专有名词词典和停用词词典，在学术文本中存在许多特定领域的专有名词，如本文所选的相关主题文本下的“大数据”、“资源共享”、“生命周期”、“公共图书馆”等专有名词，基于这些专有名词构建词典，有利于提高分词的准确率，保留文本中的特征信息，可以提高模型的分类效果，同时，在中文文本中存在许多高频且没有实际意义的词，如：“的”、“上述”、“下列”、“且”等词，基于这些词构建停用词词典，基于专有名词词典和停用词词典，本发明使用jieba分词工具进行分词处理，首先加载上述构建好的词典，其次借助jieba.cut()和jieba.lcut()两个函数获取关键词，然后进行去停用词处理，便于更加精准的进行文本分析；最后通过计算关键词词频进行文本数据处理；

(3)本发明采用Word2vec词向量模型对上述分好的词进行向量化表示，分词后的句子长度为165，一共包括3319个词语，把每个词语表示成相同维度的向量，通过Skip-gram语言模型实现，具体步骤如下：

将输入层中的每一个词设置为3319维向量(N代表词汇表中的单词个数)，其中每个词在其对应的维度设定为1，其他为0；

①在输入层到隐藏层之间，有一个3319*100维的权重矩阵，将每个词向量乘以权重矩阵，到隐藏层之后数据的维度就变成了100维；

②隐藏层到输出层之间有一个100*3319维的权重矩阵，隐藏层100维乘以此权重矩阵得到了3319维输出；

③输出层对此3319维向量应用Softmax激活函数，可以计算每个单词的生成概率。

④训练神经网络，使用反向传播算法，每次迭代将权重沿梯度更优的方向更新，最后得到两个系数矩阵，进而也可以求得每个词所对应的100维向量。

表2是Skip-gram训练参数设置：

表2 Skip-gram训练参数

步骤三：模型训练及参数设置

本发明在CNN-BiGRU模型训练过程中，首先将序列化文本数据输入到CNN层，用于提取学术文本的局部特征，卷积层通过一个大小为2的卷积核连接输入层进行卷积操作，步长设置为1，池化层作用用于卷积层输出的局部特征矩阵上，通过对CNN卷积层进行子采样，获取局部均值及最大值，通过Max-Pooling最大池化方法，将池化层应用于整个卷积输出结果，获取池化层过滤器覆盖区域下最大值；

将上一步CNN层处理得到的局部特征矩阵作为时间序列在t时刻输入到BiGRU中，用于进一步提取学术文本的上下文特征，BiGRU模型包括输入层、正向GRU、反向GRU和输出层，本发明将其输出维度设置为128，通过正向和负向相结合同时捕获两个方向的文本语义信息，从整体上对文本进行分类，并将最终得到的特征信息送入全连接层进行重新整合，通过参数的微调映射到样本标签空间，生成二维矩阵作为隐藏层最终输出进入Softmax层完成对文本数据的分类，整个网络在各个特征学习阶段后都引入Dropout层，Dropout为0.2，有利于防止模型发生过拟合；

模型迭代至验证集上结果收敛为止，对于模型的P、R、F1值，则通过选取最高值的方式作为其最终训练结果。

步骤四：实验结果

本发明使用CNN-BiGRU对图书情报领域的学术文本摘要进行自动分类，此外，依次与与KNN、NB、DT、CNN、BiLSTM、BiGRU六种分类模型进行对比实验，通过模型的训练及参数设置，得到如表3所示的模型分类结果

表3 不同模型分类结果对比

按照模型的准确率进行排序，得到如下图所示的模型的分类准确率、召回率和F1值，如附图2所示，表4为图书情报领域主题标签分类结果对比

表4 图书情报领域主题标签分类结果对比

步骤五：实验结果分析

(1)在相同的实验数据及标准之下，深度学习模型相比于传统的机器学习模型，其分类效果更好。在三种机器学习模型中，分类效果最好的是DT，其准确率、召回率和F1值均高于90％，其余机器学习分类模型的准确率、召回率及F1值均小于80％，然而DT相比于深度学习分类模型，其分类效果仍然处于较低水平，这是由于传统的机器学习模型在进行文本分类时，采用TF-IDF进行特征选择，虽然通过词频的计算能够保留文本中的关键词，过滤掉一些出现频率较低的词语，但是仅以“词频”度量词的重要性，容易造成词与词之间各自独立的问题，从而忽视文本上下文之间的联系；

本发明使用CNN-BiGRU分类模型进行文本分类过程中，采用Word2vec进行文本向量化表示，能够把文本中的每一个词表示成统一维度的向量，在降低文本特征维度的同时，能够保留文本中的语义信息，相比于机器学习中的TF-IDF方法，Word2vec能够充分考虑上下文语义关系，进而能够更好地描述文本特征；

(2)本发明选取的CNN-BiGRU分类模型在所有分类模型实验中效果最好，其准确率、召回率及F1值均超过了95％，说明将CNN与BiGRU组合使用，能够在一定程度上弥补CNN和BiGRU在文本分类任务中单独使用时的缺点和不足，此外，BiGRU相比于BiLSTM，其模型结构更加简单且具有更优的收敛效果，能够对摘要文本进行正向序列建模，强化上下文之间的序列特征，充分考虑文本之间的长距离关系，进而能够有效地对文本进行分类，因此，将BiGRU与CNN结合使用，能够解决CNN容易忽略上下文之间的关系和BiGRU文本特征提取能力不足的问题；

(3)表4是对主题类别的分类效果进行对比，在四个主题类别下，数字人文主题的分类结果整体最好，通过分析发现，数字人文主题标签下的摘要文本数据相关性较高，文本主题相对集中，有利于深度学习模型对其特征进行识别，大数据主题类别的分类效果相对较低，主要是由于大数据主题类别下的文献范围较为广泛，涉及的应用领域较多，文本特征离散化程度较高，因此导致分类效果较低，CNN-BiGRU在四个主题类别中，有三个主题类别的F1值最高，说明该模型具有较好的稳定性，泛化能力较强。

本发明基于CNN-BiGRU对图书情报领域的学术文本摘要进行自动分类研究，通过数据集构建、文本向量化表示、模型训练及分类效果评估四个模块进行实验研究，同时，将本发明使用的CNN-BiGRU分类模型与三种深度学习分类模型及三种传统机器学习分类模型在同一标准下进行对比实验，结果表明，CNN-BiGRU模型的准确率、召回率及F1值最高，在文本分类方面具有更快的处理速度和更理想的分类效果；

因此，本发明基于CNN-BiGRU对学术文本摘要进行自动分类，对于提升学术文本的检索效率具有一定的帮助意义，能够在一定程度上缓解图书情报领域学术文本“信息过载”的问题。

上面只是为了说明本发明，应该理解为本发明并不局限于以上实施例，符合本发明思想的各种变通形式均在本发明的保护范围之内。

Claims

1.一种基于CNN-BiGRU的学术文本摘要自动分类方法，其特征在于，包括以下步骤：

S1：数据集构建

包括数据来源、数据清洗、分词及去停用词；

S2：文本向量化

S3：模型训练及对比实验

选取CNN-BiGRU组合模型进行学术文本分类实验，并与KNN(K-近邻)、NB(朴素贝叶斯)、DT(决策树)、卷积神经网络(Convolutional Neural Network,CNN)、BiLSTM(Bi-directional Long Short-Term Memory)双向长短期记忆网络、BiGRU(Bi-Gate RecurrentUnit)门控制循环单元六种分类模型进行对比实验；

S4：模型分类效果评估

基于S3中的模型分类结构，选取准确率(Precision)、召回率(Recall)和F1值三个通用指标进行评估。

2.根据权利要求1所述的一种基于CNN-BiGRU的学术文本摘要自动分类方法，其特征在于，所述S2中采用Word2vec词向量的方法对文本内容进行向量化表示并且采用Skip-gram方法训练词向量，具体过程如下：

S2-1：首先将输入层中的每一个词设置为N维向量(N代表词汇表中的单词个数)，其中每个词在其对应的维度设定为1，其他为0；

S2-2：在输入层到隐藏层之间，有一个N*K维的权重矩阵，将每个词向量乘以权重矩阵，到隐藏层之后数据的维度就变成了K维；

S2-3：隐藏层到输出层之间有一个K*N维的权重矩阵，隐藏层K维乘以此权重矩阵得到了N维输出；

S2-4：输出层对此N维向量应用Softmax激活函数，可以计算每个单词的生成概率；

S2-5：训练神经网络(也就是训练N*K以及K*N这两个矩阵)，使用反向传播算法，每次迭代将权重沿梯度更优的方向更新，最后得到两个系数矩阵，进而也可以求得每个词所对应的K维向量；

S2-6：将训练好的词向量输入到embedding层，与其他特征向量连接后一同输入下一步骤的深度学习模型中进行训练。

3.根据权利要求2所述的一种基于CNN-BiGRU的学术文本摘要自动分类方法，其特征在于，所述S3中包括以下步骤：

S3-1：CNN层用于提取学术文本的局部特征；

S3-2：将CNN层处理得到的局部特征矩阵作为时间序列在t时刻输入到BiGRU中，用于提取学术文本的上下文特征；

S3-3：将最终得到的特征信息送入全连接层进行重新整合以及参数的微调并映射到样本标签空间，由Softmax层完成对文本数据的分类。

4.根据权利要求1所述的一种基于CNN-BiGRU的学术文本摘要自动分类方法，其特征在于，所述S4中准确率(Precision)代表被正确预测的样本占所有预测类别正确的样本的比例，计算公式如下所示：