CN113297380A - 基于自注意力机制和卷积神经网络的文本分类算法 - Google Patents
基于自注意力机制和卷积神经网络的文本分类算法 Download PDFInfo
- Publication number
- CN113297380A CN113297380A CN202110582336.3A CN202110582336A CN113297380A CN 113297380 A CN113297380 A CN 113297380A CN 202110582336 A CN202110582336 A CN 202110582336A CN 113297380 A CN113297380 A CN 113297380A
- Authority
- CN
- China
- Prior art keywords
- text
- attention
- self
- vector
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于自注意力机制和卷积神经网络的新闻文本分类算法,本算法的目的是将新闻内容进行分类处理。该方法的步骤主要包括:摘要抽取,构建词向量,向量拼接与融合,进行多头自注意力计算,特征提取计算卷积和池化,特征提取后向量计算进行分类。文本分类算法往往只考虑短文本的特征提取,对于长文本的分类方法基本使用截断式,但截断式方法会大幅降低特征提取的准确性。基于以上考虑,本发明提出了在文本处理阶段对长本文新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。经过自注意力和卷积网络后更能使分类任务准确。
Description
技术领域
本发明属于自然语言处理领域,在自然语言处理领域涉及文本分类预测类别算法。
背景技术
网络新闻的用户规模达到6.86亿人,占网民总体的80.3%。如何对这些庞杂的网络新闻数据进行高效的分类和管理,用户又该如何快速的获取自己感兴趣的新闻,已然成为一个急需解决的问题。对新闻进行科学的分类既能方便不同的阅读群体根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求。
传统的文本分类方法不能自提取特征,需要人工提取特征。因此,为了解决传统方法存在的缺陷,基于多头注意力机制和卷积神经网络的新闻分类算法可以通过神经网络结构自提取特征,而且具有出色的文本特征表示和建模能力。
深度学习作为当下人工智能领域最热门前沿的技术,具有较强的特征表示能力,在自然语言处理中具有很广泛的应用,使用深度学习方法的文本分类,不仅能够解决传统机器学习不能处理语义层面的问题,而且能够解决当数据量较大时分类效率低下等问题,是一个极其重要的研究课题,因此,使用深度学习的方法对文本分类进行研究在理论和应用层面都有着很重要的意义。
多头注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征。在多头注意力机制中,输入特征通过不同的权值矩阵被 线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分学习。
卷积神经网络利用自身独特的结构特征,通过卷积计算对文本集隐含的特征进行学习,在一定程度上能够对文本的特征语义进行理解,具有出色的文本特征表示和建模能力。
发明内容
针对传统的新闻文本分类任务方法的不足,本发明的目的是提供一种既能用于大规模的文本分类也能用于精准地进行提取特征算法。
本发明提供了一种基于多头注意力机制和卷积神经网络的新闻文本分类算法,所述方法步骤如下:
步骤S1:摘要抽取
针对新闻正文内容过长,使用BertSum算法进行摘要抽取,作为正文输入。
步骤S2:构建词向量
步骤S3:向量拼接与融合
将构建好的标题向量和摘要向量进行矩阵拼接。送入一个全连接层,得到融合后的向量。
步骤S4:进行多头自注意力计算
多头自注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征。具体说,输入矩阵 Q、K、V 对应注意力计算的三个重要组件。进行特征提取。
步骤S5:卷积和池化
将向量送入卷积神经网络进一步进行特征提取,卷积神经网络主要由五部分组成:输入层、卷积层、池化层、全连接层和输出层。其中卷积层和池化层是卷积神经网络所特有的结构,进行特征提取的结构。
步骤S6:进行分类
经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类。获取类别。
附图说明
图1为本发明流程图。
图2为新闻文本分类本方法和其他方法比较图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
本发明的前提是已获得大量新闻数据。
本实施用例主要包含以下步骤:
步骤1:根据已经获得的新闻数据集进行数据清洗,将数据集分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐和其他共十类的新闻文本数据。
步骤2:对处理好的新闻正文内容进行摘要生成处理。使用的摘要生成算法是抽取式的BertSum算法。进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量,本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果。经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。
步骤3:将新闻标题和上一步抽取出来的新闻摘要送入ERNIE预训练模型中获取词
向量分别为和。ERNIE预训练模型,能够充分学习词语、短语、命名实体识别中字与字
之间的关系,将其整体进行掩码,让词向量包含更多的外部语义信息,加强精度。
设序列长度为n
将两个向量经过链接操作形成新的向量:
步骤5:利用多头自注意力机制词向量进行特征抽取,以对文本上下文内部语义结
构进行有效建模,充分挖掘高层语义特征。多头注意力机制可以简单有效的对上下文依赖
关系进行 抽象,并捕获句法和语义特征。具体说,输入矩阵 Q、K、V 对应注意力
(attention)计算的三个重要组件,分别query,key,value,由于是自注意力机制,所以其中作为Q,K,V一般框架下的标准 attention 计算过程如下:
在多头注意力机制中,输入特征通过不同的权值矩阵被线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分提取,其中第i头注意力计算过程如下:
最后将各个head进行合并,产生多头自注意力机制的输出,设注意力的头数为m头:
步骤6:利用卷积和池化在进一步进行特征提优,其中卷积输出计算过程如下:
步骤7:进行全连接和分类,将池化后最终得到的特征向量作为全连接层的输入,
再利用最后一层的分类器进行文本所属类别的概率计算,完成文本分类任务。其
中是用来预测文本的类别其中,函数argmax计算导致概率值最大的文本类别标签。
以上实施例仅用于说明本发明而非对其进行限制,有关领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
例1本发明在公共可用的真实新闻数据集上的实验结果
新闻数据集是由来自20000条网络上真实的新闻,包含新闻标题和内容信息并且分为10个新闻类别的数据集,是用于测试新闻文本分类的数据集。
例1将本发明方法应用到新闻数据集上进行测试,并选用ACC(准确率)和损失函数指标评价方法测试本发明方法的性能,同时与三个现有方法进行了对比。3个对比方法分别是CNN,BiGRU,BiGRU_CNN。本发明方法的相关参数设置如下:设置摘要抽取长度top_k为3,隐藏层层数hidden_size为768,多头注意力头数head_num为4,卷积核为226个,池化层数量为75。
图2为本发明算法在新闻数据集上与其他三者算法的比较。ACC值是文本分类准确率的一种测试指标,准确率越高说明越准确。在评价指标下,本发明算法性能在新闻分类数据集相比与其他三种是最好的。
Claims (4)
1.基于自注意力机制和卷积神经网络的新闻文本分类算法,包括如下步骤:
步骤S1:摘要抽取
针对新闻正文内容过长,使用BertSum算法进行摘要抽取,作为正文输入;
步骤S2:构建词向量
步骤S3:向量拼接与融合
将构建好的标题向量和摘要向量进行矩阵拼接;送入一个全连接层,得到融合后的向量;
步骤S4:进行多头自注意力计算
多头自注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征;具体说,输入矩阵 Q、K、V 对应注意力计算的三个重要组件;进行特征提取;
步骤S5:卷积和池化
将向量送入卷积神经网络进一步进行特征提取,卷积神经网络主要由五部分组成:输入层、卷积层、池化层、全连接层和输出层;其中卷积层和池化层是卷积神经网络所特有的结构,进行特征提取的结构;
步骤S6:进行分类
经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类;获取类别。
2.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
步骤S1的进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量,本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果;经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。
3.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
步骤S4中的将进行多头注意力计算方法为:
利用多头自注意力机制词向量进行特征抽取,以对文本上下文内部语义结构进行有效建模,充分挖掘高层语义特征;多头注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征;具体说,输入矩阵 Q、K、V 对应注意力(attention)计算的三个重要组件,分别query,key,value,由于是自注意力机制,所以其中作为Q,K,V一般框架下的标准 attention 计算过程如下:
在多头注意力机制中,输入特征通过不同的权值矩阵被线性映射到不同的信息子空间,并在每个子空间完成相同的注意力计算,以对文本潜在的结构和语义进行充分提取,其中第i头注意力计算过程如下,:
最后将各个head进行合并,产生多头自注意力机制的输出,设注意力的头数为m头:
4.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法,其特征在于:
利用卷积和池化在进一步进行特征提优,其中卷积输出计算过程如下:
向量P进行全连接和分类,将池化后最终得到的特征向量作为全连接层的输入,再利用最后一层的softmax分类器进行文本所属类别的概率计算,完成文本分类任务;其中是用来预测文本类别的,其中,函数argmax计算导致概率值最大的文本类别标签;
最后输出类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582336.3A CN113297380A (zh) | 2021-05-27 | 2021-05-27 | 基于自注意力机制和卷积神经网络的文本分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582336.3A CN113297380A (zh) | 2021-05-27 | 2021-05-27 | 基于自注意力机制和卷积神经网络的文本分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113297380A true CN113297380A (zh) | 2021-08-24 |
Family
ID=77325421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110582336.3A Pending CN113297380A (zh) | 2021-05-27 | 2021-05-27 | 基于自注意力机制和卷积神经网络的文本分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297380A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112711660A (zh) * | 2020-12-29 | 2021-04-27 | 易方达基金管理有限公司 | 文本分类样本的构建方法和文本分类模型的训练方法 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
-
2021
- 2021-05-27 CN CN202110582336.3A patent/CN113297380A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112711660A (zh) * | 2020-12-29 | 2021-04-27 | 易方达基金管理有限公司 | 文本分类样本的构建方法和文本分类模型的训练方法 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
Non-Patent Citations (2)
Title |
---|
张小川 等: "融合多头自注意力机制的中文短文本分类模型", 《计算机应用》 * |
罗鹏程 等: "基于深度预训练语言模型的文献学科自动分类研究", 《情报学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN113377953B (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
Ding et al. | A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction. | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112364160A (zh) | 一种结合ALBERT和BiGRU的专利文本分类方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN111061876A (zh) | 事件舆情数据分析方法及装置 | |
Lin et al. | Text classification feature extraction method based on deep learning for unbalanced data sets | |
Aalaa Abdulwahab et al. | Documents classification based on deep learning | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210824 |
|
WD01 | Invention patent application deemed withdrawn after publication |