CN113297380A - 基于自注意力机制和卷积神经网络的文本分类算法 - Google Patents

基于自注意力机制和卷积神经网络的文本分类算法 Download PDF

Info

Publication number
CN113297380A
CN113297380A CN202110582336.3A CN202110582336A CN113297380A CN 113297380 A CN113297380 A CN 113297380A CN 202110582336 A CN202110582336 A CN 202110582336A CN 113297380 A CN113297380 A CN 113297380A
Authority
CN
China
Prior art keywords
text
attention
self
vector
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110582336.3A
Other languages
English (en)
Inventor
郑虹
秦硕
郑肇谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202110582336.3A priority Critical patent/CN113297380A/zh
Publication of CN113297380A publication Critical patent/CN113297380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于自注意力机制和卷积神经网络的新闻文本分类算法,本算法的目的是将新闻内容进行分类处理。该方法的步骤主要包括:摘要抽取,构建词向量,向量拼接与融合,进行多头自注意力计算,特征提取计算卷积和池化,特征提取后向量计算进行分类。文本分类算法往往只考虑短文本的特征提取,对于长文本的分类方法基本使用截断式,但截断式方法会大幅降低特征提取的准确性。基于以上考虑,本发明提出了在文本处理阶段对长本文新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。经过自注意力和卷积网络后更能使分类任务准确。

Description

基于自注意力机制和卷积神经网络的文本分类算法
技术领域
本发明属于自然语言处理领域,在自然语言处理领域涉及文本分类预测类别算法。
背景技术
网络新闻的用户规模达到6.86亿人,占网民总体的80.3%。如何对这些庞杂的网络新闻数据进行高效的分类和管理,用户又该如何快速的获取自己感兴趣的新闻,已然成为一个急需解决的问题。对新闻进行科学的分类既能方便不同的阅读群体根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求。
传统的文本分类方法不能自提取特征,需要人工提取特征。因此,为了解决传统方法存在的缺陷,基于多头注意力机制和卷积神经网络的新闻分类算法可以通过神经网络结构自提取特征,而且具有出色的文本特征表示和建模能力。
深度学习作为当下人工智能领域最热门前沿的技术,具有较强的特征表示能力,在自然语言处理中具有很广泛的应用,使用深度学习方法的文本分类,不仅能够解决传统机器学习不能处理语义层面的问题,而且能够解决当数据量较大时分类效率低下等问题,是一个极其重要的研究课题,因此,使用深度学习的方法对文本分类进行研究在理论和应用层面都有着很重要的意义。
多头注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征。在多头注意力机制中,输入特征通过不同的权值矩阵被 线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分学习。
卷积神经网络利用自身独特的结构特征,通过卷积计算对文本集隐含的特征进行学习,在一定程度上能够对文本的特征语义进行理解,具有出色的文本特征表示和建模能力。
发明内容
针对传统的新闻文本分类任务方法的不足,本发明的目的是提供一种既能用于大规模的文本分类也能用于精准地进行提取特征算法。
本发明提供了一种基于多头注意力机制和卷积神经网络的新闻文本分类算法,所述方法步骤如下:
步骤S1:摘要抽取
针对新闻正文内容过长,使用BertSum算法进行摘要抽取,作为正文输入。
步骤S2:构建词向量
将新闻的标题和抽取出的摘要分别输入ERNIE预训练模型,分别得到二者词向量 分别为
Figure 636059DEST_PATH_IMAGE001
Figure 835090DEST_PATH_IMAGE002
步骤S3:向量拼接与融合
将构建好的标题向量和摘要向量进行矩阵拼接。送入一个全连接层,得到融合后的向量。
步骤S4:进行多头自注意力计算
多头自注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征。具体说,输入矩阵 Q、K、V 对应注意力计算的三个重要组件。进行特征提取。
步骤S5:卷积和池化
将向量送入卷积神经网络进一步进行特征提取,卷积神经网络主要由五部分组成:输入层、卷积层、池化层、全连接层和输出层。其中卷积层和池化层是卷积神经网络所特有的结构,进行特征提取的结构。
步骤S6:进行分类
经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类。获取类别。
附图说明
图1为本发明流程图。
图2为新闻文本分类本方法和其他方法比较图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
本发明的前提是已获得大量新闻数据。
本实施用例主要包含以下步骤:
步骤1:根据已经获得的新闻数据集进行数据清洗,将数据集分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐和其他共十类的新闻文本数据。
步骤2:对处理好的新闻正文内容进行摘要生成处理。使用的摘要生成算法是抽取式的BertSum算法。进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量,本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果。经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。
步骤3:将新闻标题和上一步抽取出来的新闻摘要送入ERNIE预训练模型中获取词 向量分别为
Figure 145986DEST_PATH_IMAGE003
Figure 72354DEST_PATH_IMAGE002
。ERNIE预训练模型,能够充分学习词语、短语、命名实体识别中字与字 之间的关系,将其整体进行掩码,让词向量包含更多的外部语义信息,加强精度。
步骤4:将上一步获取到的
Figure 417884DEST_PATH_IMAGE003
Figure 20773DEST_PATH_IMAGE002
进行两个向量融合具体如下:
设序列长度为n
正文向量为
Figure 553385DEST_PATH_IMAGE004
标题向量为
Figure 283444DEST_PATH_IMAGE005
将两个向量经过链接操作形成新的向量:
Figure 483481DEST_PATH_IMAGE006
最后把新得到
Figure 8003DEST_PATH_IMAGE007
经过全连接层获得最终融合词向量:
Figure 44224DEST_PATH_IMAGE008
步骤5:利用多头自注意力机制词向量进行特征抽取,以对文本上下文内部语义结 构进行有效建模,充分挖掘高层语义特征。多头注意力机制可以简单有效的对上下文依赖 关系进行 抽象,并捕获句法和语义特征。具体说,输入矩阵 Q、K、V 对应注意力 (attention)计算的三个重要组件,分别query,key,value,由于是自注意力机制,所以其中
Figure 312394DEST_PATH_IMAGE009
作为Q,K,V一般框架下的标准 attention 计算过程如下:
Figure 101358DEST_PATH_IMAGE010
其中
Figure 62361DEST_PATH_IMAGE011
表示概率对齐函数,采用 Scaled Dot Product,其中
Figure 90272DEST_PATH_IMAGE012
为矩阵的维度:
Figure 896554DEST_PATH_IMAGE013
在多头注意力机制中,输入特征通过不同的权值矩阵被线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分提取,其中第i头注意力计算过程如下:
Figure 71183DEST_PATH_IMAGE014
最后将各个head进行合并,产生多头自注意力机制的输出,设注意力的头数为m头:
Figure 937508DEST_PATH_IMAGE015
Figure 948321DEST_PATH_IMAGE016
经过多头注意力计算得到H:
Figure 558294DEST_PATH_IMAGE017
步骤6:利用卷积和池化在进一步进行特征提优,其中卷积输出计算过程如下:
Figure 587429DEST_PATH_IMAGE018
其中,f为激活函数RELU,F为滤波器,b为偏置项,l为滑动窗口大小,
Figure 890235DEST_PATH_IMAGE019
为由第 i到第i+l-1个词组成的特征矩阵。
Figure 621299DEST_PATH_IMAGE020
作为第i个卷积核的输出,计算过程如下:
Figure 34963DEST_PATH_IMAGE021
池化操作,通过第i个卷积核计算获取的文本特征作为池化层的输入,对获取的特 征进一步筛选,得到更重要的特征。使用最大池化操作操作,
Figure 918606DEST_PATH_IMAGE022
为第i个卷积核池化后的结 果,计算如下:
Figure 657891DEST_PATH_IMAGE023
最后获得我们经过池化和卷积的向量
Figure 377717DEST_PATH_IMAGE024
,其中r为卷积核的数量,
Figure 329492DEST_PATH_IMAGE025
步骤7:进行全连接和分类,将池化后最终得到的特征向量作为全连接层的输入, 再利用最后一层的
Figure 333220DEST_PATH_IMAGE026
分类器进行文本所属类别的概率计算,完成文本分类任务。其 中
Figure 712249DEST_PATH_IMAGE027
是用来预测文本的类别其中,函数argmax计算导致概率值最大的文本类别标签。
Figure 683485DEST_PATH_IMAGE028
Figure 173372DEST_PATH_IMAGE029
以上实施例仅用于说明本发明而非对其进行限制,有关领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
例1本发明在公共可用的真实新闻数据集上的实验结果
新闻数据集是由来自20000条网络上真实的新闻,包含新闻标题和内容信息并且分为10个新闻类别的数据集,是用于测试新闻文本分类的数据集。
例1将本发明方法应用到新闻数据集上进行测试,并选用ACC(准确率)和损失函数指标评价方法测试本发明方法的性能,同时与三个现有方法进行了对比。3个对比方法分别是CNN,BiGRU,BiGRU_CNN。本发明方法的相关参数设置如下:设置摘要抽取长度top_k为3,隐藏层层数hidden_size为768,多头注意力头数head_num为4,卷积核为226个,池化层数量为75。
图2为本发明算法在新闻数据集上与其他三者算法的比较。ACC值是文本分类准确率的一种测试指标,准确率越高说明越准确。在评价指标下,本发明算法性能在新闻分类数据集相比与其他三种是最好的。

Claims (4)

1.基于自注意力机制和卷积神经网络的新闻文本分类算法,包括如下步骤:
步骤S1:摘要抽取
针对新闻正文内容过长,使用BertSum算法进行摘要抽取,作为正文输入;
步骤S2:构建词向量
将新闻的标题和抽取出的摘要分别输入ERNIE预训练模型,分别得到二者词向量分别为
Figure 257086DEST_PATH_IMAGE001
Figure 72595DEST_PATH_IMAGE002
;
步骤S3:向量拼接与融合
将构建好的标题向量和摘要向量进行矩阵拼接;送入一个全连接层,得到融合后的向量;
步骤S4:进行多头自注意力计算
多头自注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征;具体说,输入矩阵 Q、K、V 对应注意力计算的三个重要组件;进行特征提取;
步骤S5:卷积和池化
将向量送入卷积神经网络进一步进行特征提取,卷积神经网络主要由五部分组成:输入层、卷积层、池化层、全连接层和输出层;其中卷积层和池化层是卷积神经网络所特有的结构,进行特征提取的结构;
步骤S6:进行分类
经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类;获取类别。
2.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
步骤S1的进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量,本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果;经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。
3.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
步骤S4中的将进行多头注意力计算方法为:
利用多头自注意力机制词向量进行特征抽取,以对文本上下文内部语义结构进行有效建模,充分挖掘高层语义特征;多头注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征;具体说,输入矩阵 Q、K、V 对应注意力(attention)计算的三个重要组件,分别query,key,value,由于是自注意力机制,所以其中
Figure 16280DEST_PATH_IMAGE003
作为Q,K,V一般框架下的标准 attention 计算过程如下:
Figure 326170DEST_PATH_IMAGE004
其中
Figure 773332DEST_PATH_IMAGE005
表示概率对齐函数,采用 Scaled Dot Product,其中
Figure 494163DEST_PATH_IMAGE006
为矩阵的维度:
Figure 925145DEST_PATH_IMAGE007
在多头注意力机制中,输入特征通过不同的权值矩阵被线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分提取,其中第i头注意力计算过程如下,:
Figure 756835DEST_PATH_IMAGE008
最后将各个head进行合并,产生多头自注意力机制的输出,设注意力的头数为m头:
Figure 838929DEST_PATH_IMAGE009
Figure 730662DEST_PATH_IMAGE010
经过多头注意力计算得到H:
Figure 648939DEST_PATH_IMAGE011
4.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
利用卷积和池化在进一步进行特征提优,其中卷积输出计算过程如下:
Figure 284320DEST_PATH_IMAGE012
其中,f为激活函数
Figure 706074DEST_PATH_IMAGE013
,F为滤波器,b为偏置项,l为滑动窗口大小,
Figure 785019DEST_PATH_IMAGE014
为由第i到第i+l-1个词组成的特征矩阵
Figure 659434DEST_PATH_IMAGE015
作为第i个卷积核的输出,计算过程如下:
Figure 364085DEST_PATH_IMAGE016
池化操作,通过第i个卷积核计算获取的文本特征作为池化层的输入,对获取的特征进一步筛选,得到更重要的特征;使用最大池化操作操作,
Figure 905925DEST_PATH_IMAGE017
为第i个卷积核池化后的结果,计算如下:
Figure 654307DEST_PATH_IMAGE018
最后获得我们经过池化和卷积的向量
Figure 16018DEST_PATH_IMAGE019
,其中r为卷积核的数量,
Figure 258781DEST_PATH_IMAGE020
向量P进行全连接和分类,将池化后最终得到的特征向量作为全连接层的输入,再利用最后一层的softmax分类器进行文本所属类别的概率计算,完成文本分类任务;其中
Figure 655127DEST_PATH_IMAGE021
是用来预测文本类别的,其中,函数argmax计算导致概率值最大的文本类别标签;
Figure 59564DEST_PATH_IMAGE022
Figure 924882DEST_PATH_IMAGE023
最后输出类别。
CN202110582336.3A 2021-05-27 2021-05-27 基于自注意力机制和卷积神经网络的文本分类算法 Pending CN113297380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110582336.3A CN113297380A (zh) 2021-05-27 2021-05-27 基于自注意力机制和卷积神经网络的文本分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110582336.3A CN113297380A (zh) 2021-05-27 2021-05-27 基于自注意力机制和卷积神经网络的文本分类算法

Publications (1)

Publication Number Publication Date
CN113297380A true CN113297380A (zh) 2021-08-24

Family

ID=77325421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110582336.3A Pending CN113297380A (zh) 2021-05-27 2021-05-27 基于自注意力机制和卷积神经网络的文本分类算法

Country Status (1)

Country Link
CN (1) CN113297380A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张小川 等: "融合多头自注意力机制的中文短文本分类模型", 《计算机应用》 *
罗鹏程 等: "基于深度预训练语言模型的文献学科自动分类研究", 《情报学报》 *

Similar Documents

Publication Publication Date Title
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN113377953B (zh) 一种基于palc-dca模型的实体融合及分类方法
Ding et al. A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction.
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112364160A (zh) 一种结合ALBERT和BiGRU的专利文本分类方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN111061876A (zh) 事件舆情数据分析方法及装置
Lin et al. Text classification feature extraction method based on deep learning for unbalanced data sets
Aalaa Abdulwahab et al. Documents classification based on deep learning
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210824

WD01 Invention patent application deemed withdrawn after publication