CN113297380A

CN113297380A - 基于自注意力机制和卷积神经网络的文本分类算法

Info

Publication number: CN113297380A
Application number: CN202110582336.3A
Authority: CN
Inventors: 郑虹; 秦硕; 郑肇谦
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-24

Abstract

本发明公开了基于自注意力机制和卷积神经网络的新闻文本分类算法，本算法的目的是将新闻内容进行分类处理。该方法的步骤主要包括：摘要抽取，构建词向量，向量拼接与融合，进行多头自注意力计算，特征提取计算卷积和池化，特征提取后向量计算进行分类。文本分类算法往往只考虑短文本的特征提取，对于长文本的分类方法基本使用截断式，但截断式方法会大幅降低特征提取的准确性。基于以上考虑，本发明提出了在文本处理阶段对长本文新闻进行摘要抽取处理，这样既能保留源文本的特征信息，也能降低时间复杂度。经过自注意力和卷积网络后更能使分类任务准确。

Description

基于自注意力机制和卷积神经网络的文本分类算法

技术领域

本发明属于自然语言处理领域，在自然语言处理领域涉及文本分类预测类别算法。

背景技术

网络新闻的用户规模达到6.86亿人，占网民总体的80.3%。如何对这些庞杂的网络新闻数据进行高效的分类和管理，用户又该如何快速的获取自己感兴趣的新闻，已然成为一个急需解决的问题。对新闻进行科学的分类既能方便不同的阅读群体根据需求快速选取自身感兴趣的新闻，也能够有效满足对海量的新闻素材提供科学的检索需求。

传统的文本分类方法不能自提取特征，需要人工提取特征。因此，为了解决传统方法存在的缺陷，基于多头注意力机制和卷积神经网络的新闻分类算法可以通过神经网络结构自提取特征，而且具有出色的文本特征表示和建模能力。

深度学习作为当下人工智能领域最热门前沿的技术，具有较强的特征表示能力，在自然语言处理中具有很广泛的应用，使用深度学习方法的文本分类，不仅能够解决传统机器学习不能处理语义层面的问题，而且能够解决当数据量较大时分类效率低下等问题，是一个极其重要的研究课题，因此，使用深度学习的方法对文本分类进行研究在理论和应用层面都有着很重要的意义。

多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征。在多头注意力机制中，输入特征通过不同的权值矩阵被线性映射到不同的信息子空间，并在每个子空间完成相同的注意力计算，以对文本潜在的结构和语义进行充分学习。

卷积神经网络利用自身独特的结构特征，通过卷积计算对文本集隐含的特征进行学习，在一定程度上能够对文本的特征语义进行理解，具有出色的文本特征表示和建模能力。

发明内容

针对传统的新闻文本分类任务方法的不足，本发明的目的是提供一种既能用于大规模的文本分类也能用于精准地进行提取特征算法。

本发明提供了一种基于多头注意力机制和卷积神经网络的新闻文本分类算法，所述方法步骤如下：

步骤S1：摘要抽取

针对新闻正文内容过长，使用BertSum算法进行摘要抽取，作为正文输入。

步骤S2：构建词向量

将新闻的标题和抽取出的摘要分别输入ERNIE预训练模型，分别得到二者词向量分别为

和

。

步骤S3：向量拼接与融合

将构建好的标题向量和摘要向量进行矩阵拼接。送入一个全连接层，得到融合后的向量。

步骤S4：进行多头自注意力计算

多头自注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征。具体说，输入矩阵 Q、K、V 对应注意力计算的三个重要组件。进行特征提取。

步骤S5：卷积和池化

将向量送入卷积神经网络进一步进行特征提取，卷积神经网络主要由五部分组成：输入层、卷积层、池化层、全连接层和输出层。其中卷积层和池化层是卷积神经网络所特有的结构，进行特征提取的结构。

步骤S6：进行分类

经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类。获取类别。

附图说明

图1为本发明流程图。

图2为新闻文本分类本方法和其他方法比较图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。

本发明的前提是已获得大量新闻数据。

本实施用例主要包含以下步骤：

步骤1：根据已经获得的新闻数据集进行数据清洗，将数据集分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐和其他共十类的新闻文本数据。

步骤2：对处理好的新闻正文内容进行摘要生成处理。使用的摘要生成算法是抽取式的BertSum算法。进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量，本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果。经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。

步骤3：将新闻标题和上一步抽取出来的新闻摘要送入ERNIE预训练模型中获取词向量分别为

和

。ERNIE预训练模型，能够充分学习词语、短语、命名实体识别中字与字之间的关系，将其整体进行掩码，让词向量包含更多的外部语义信息，加强精度。

步骤4：将上一步获取到的

和

进行两个向量融合具体如下：

设序列长度为n

正文向量为

标题向量为

将两个向量经过链接操作形成新的向量:

最后把新得到

经过全连接层获得最终融合词向量:

步骤5：利用多头自注意力机制词向量进行特征抽取，以对文本上下文内部语义结构进行有效建模，充分挖掘高层语义特征。多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征。具体说，输入矩阵 Q、K、V 对应注意力 (attention)计算的三个重要组件，分别query，key，value，由于是自注意力机制，所以其中

作为Q，K，V一般框架下的标准 attention 计算过程如下：

其中

表示概率对齐函数，采用 Scaled Dot Product，其中

为矩阵的维度：

在多头注意力机制中，输入特征通过不同的权值矩阵被线性映射到不同的信息子空间，并在每个子空间完成相同的注意力计算，以对文本潜在的结构和语义进行充分提取，其中第i头注意力计算过程如下：

最后将各个head进行合并，产生多头自注意力机制的输出,设注意力的头数为m头:

则

经过多头注意力计算得到H：

步骤6：利用卷积和池化在进一步进行特征提优，其中卷积输出计算过程如下：

其中，f为激活函数RELU，F为滤波器，b为偏置项，l为滑动窗口大小,

为由第 i到第i+l-1个词组成的特征矩阵。

作为第i个卷积核的输出，计算过程如下:

池化操作，通过第i个卷积核计算获取的文本特征作为池化层的输入，对获取的特征进一步筛选，得到更重要的特征。使用最大池化操作操作，

为第i个卷积核池化后的结果，计算如下:

最后获得我们经过池化和卷积的向量

,其中r为卷积核的数量，

步骤7：进行全连接和分类，将池化后最终得到的特征向量作为全连接层的输入，再利用最后一层的

分类器进行文本所属类别的概率计算，完成文本分类任务。其中

是用来预测文本的类别其中，函数argmax计算导致概率值最大的文本类别标签。

以上实施例仅用于说明本发明而非对其进行限制，有关领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

例1本发明在公共可用的真实新闻数据集上的实验结果

新闻数据集是由来自20000条网络上真实的新闻，包含新闻标题和内容信息并且分为10个新闻类别的数据集，是用于测试新闻文本分类的数据集。

例1将本发明方法应用到新闻数据集上进行测试，并选用ACC（准确率）和损失函数指标评价方法测试本发明方法的性能，同时与三个现有方法进行了对比。3个对比方法分别是CNN，BiGRU，BiGRU_CNN。本发明方法的相关参数设置如下：设置摘要抽取长度top_k为3，隐藏层层数hidden_size为768，多头注意力头数head_num为4，卷积核为226个，池化层数量为75。

图2为本发明算法在新闻数据集上与其他三者算法的比较。ACC值是文本分类准确率的一种测试指标，准确率越高说明越准确。在评价指标下，本发明算法性能在新闻分类数据集相比与其他三种是最好的。

Claims

1.基于自注意力机制和卷积神经网络的新闻文本分类算法，包括如下步骤：

步骤S1：摘要抽取

针对新闻正文内容过长，使用BertSum算法进行摘要抽取，作为正文输入;

步骤S2：构建词向量

和

;

步骤S3：向量拼接与融合

将构建好的标题向量和摘要向量进行矩阵拼接；送入一个全连接层，得到融合后的向量;

步骤S4：进行多头自注意力计算

多头自注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征；具体说，输入矩阵 Q、K、V 对应注意力计算的三个重要组件；进行特征提取;

步骤S5：卷积和池化

将向量送入卷积神经网络进一步进行特征提取，卷积神经网络主要由五部分组成：输入层、卷积层、池化层、全连接层和输出层；其中卷积层和池化层是卷积神经网络所特有的结构，进行特征提取的结构；

步骤S6：进行分类

经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类；获取类别。

2.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法，其特征在于：

步骤S1的进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量，本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果；经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。

3.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法，其特征在于：

步骤S4中的将进行多头注意力计算方法为：

利用多头自注意力机制词向量进行特征抽取，以对文本上下文内部语义结构进行有效建模，充分挖掘高层语义特征；多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征；具体说，输入矩阵 Q、K、V 对应注意力(attention)计算的三个重要组件，分别query，key，value，由于是自注意力机制，所以其中