CN114328934A - 一种基于注意力机制的多标签文本分类方法及系统 - Google Patents
一种基于注意力机制的多标签文本分类方法及系统 Download PDFInfo
- Publication number
- CN114328934A CN114328934A CN202210055580.9A CN202210055580A CN114328934A CN 114328934 A CN114328934 A CN 114328934A CN 202210055580 A CN202210055580 A CN 202210055580A CN 114328934 A CN114328934 A CN 114328934A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- label
- attention mechanism
- cornet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于注意力机制的多标签文本分类方法及系统,属于计算机领域。该方法首先使用GloVe预训练嵌入模型对文本进行初始化,获得文本嵌入,利用Bi‑LSTM和自注意力机制提取文本语义信息,然后利用图注意力网络(GAT)来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系,最后添加额外的CorNet模块,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测,从而提高多标签分类的预测精度。
Description
技术领域
本发明属于计算机领域,涉及一种基于注意力机制的多标签文本分类方法及系统。
背景技术
文本数据往往包含着丰富的信息,作为一种人们容易接受的数据形式,它在网络中占有举足轻重的地位。探讨如何对文本进行有效的组织、管理、过滤、筛选,并对文本信息进行高效、准确的获取,为人们提供高质量、智能化的信息服务,己成为当今信息科学技术领域的一个重大挑战。
文本分类是自然语言处理(Natural Language Processing,NLP)中重要且经典的问题。在传统的文本分类问题中,每个样本只有一个类别标签,并且各个类别标签之间相互独立,分类粒度比较粗略,称为单标签文本分类。随着文本信息日益丰富,分类粒度细化程度越来越高,一个样本与多个类别的标签相关,同时类别标签之间存在一定的依赖关系,称为多标签文本分类。比如一篇新闻可能被同时认为是与“体育”和“教育”相关的新闻。多标签学习方法可以直观地反映出多义性对象所具有的多种语义信息。多标签文本分类方法已经逐渐取代单一标签文本分类方法,成为自然语言处理领域的一个研究课题,许多学者对此进行了广泛而深入的探索和研究。
多标签文本分类方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据网络的结构将其分为基于卷积神经网络(Convolutional Neural Network,CNN)结构、基于循环神经网络(Recurrent NeuralNetwork,RNN)结构和基于Transformer结构的多标签文本分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于注意力机制的多标签文本分类方法及系统。
为达到上述目的,本发明提供如下技术方案:
一种基于注意力机制的多标签文本分类方法,所述方法包括以下步骤:
S1:获取文本数据集,构建文本的训练数据集合T并对数据集进行预处理;
S2:对文本进行初始化,获得文本嵌入;
S3:利用Bi-LSTM和多标签注意力机制提取文本语义信息;
S4:然后利用图注意力网络GAT来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系;
S5:添加额外的CorNet模块,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
可选的,所述S1中,预处理包括提取文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;使用分词工具去除停用词;对数据集进行整理并划分为训练集、验证集和测试集。
可选的,所述S2具体为:利用Glove预训练嵌入模型对文本进行初始化,获得文本嵌入。
可选的,所述S3具体为:
S31:为捕获每个单词的前后上下文信息,采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入,并计算每个单词的隐状态:
为获得文档的整体表示,将文档中每个单词的隐状态串联,得到:
S32:一个文档中的单词对每个标签的贡献不同,采用自注意力机制提取最相关的文本语义信息。
A(s)=softmax(W2tanh(W1H))。
可选的,所述S4具体为:
S41:构建标签的邻接矩阵,将标签的邻接矩阵和标签嵌入作为图注意力网络的输入,利用图注意力网络GAT来捕获标签之间的依赖关系。
S42:使用标签注意力机制获取文本和标签之间的语义关系。
可选的,所述S5具体为:
添加额外的CorNet模块,将原有的标签预测作为CorNet模块的输入,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
y=F(x)+x
x,y分别是CorNet模块的输入和输出,F(x)是映射函数,x表示原始标签预测,y表示经过CorNet模块的增强标签预测。
F(x)=W2δ(W1σ(x)+b1)+b2
w1,w2是权重矩阵,b1,b2是偏置,σ和δ分别是sigmoid和ELU激活函数
基于所述方法的基于注意力机制的多标签文本分类系统,所述系统包括数据集构建与预处理模块、文本初始化模块、获取文本语义信息模块、获取标签间依赖关系模块和标签预测模块;
所述数据集构建与预处理模块与文本初始化模块信号连接;
所述文本初始化模块一端与获取文本语义信息模块信号连接,另一端与标签间依赖关系模块信号连接;
所述文本语义信息模块和标签间依赖关系模块与标签预测模块信号连接。
本发明的有益效果在于:该方法首先使用GloVe预训练嵌入模型对文本进行初始化,获得文本嵌入,利用Bi-LSTM和自注意力机制提取文本语义信息,然后利用图注意力网络(GAT)来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系,最后添加额外的CorNet模块,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测,从而提高多标签分类的预测精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的流程示意图;
图2为本发明模型结构示意图;
图3为本发明的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图3,为一种基于注意力机制的多标签文本分类方法,所述方法包括以下步骤:
S1:获取文本数据集,构建文本的训练数据集合T并对数据集进行预处理;
S2:对文本进行初始化,获得文本嵌入;
S3:利用Bi-LSTM和多标签注意力机制提取文本语义信息;
S4:然后利用图注意力网络GAT来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系;
S5:添加额外的CorNet模块,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
可选的,所述S1中,预处理包括提取文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;使用分词工具去除停用词;对数据集进行整理并划分为训练集、验证集和测试集。
可选的,所述S2具体为:利用Glove预训练嵌入模型对文本进行初始化,获得文本嵌入。
可选的,所述S3具体为:
S31:为捕获每个单词的前后上下文信息,采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入,并计算每个单词的隐状态:
为获得文档的整体表示,将文档中每个单词的隐状态串联,得到:
S32:一个文档中的单词对每个标签的贡献不同,采用自注意力机制提取最相关的文本语义信息。
A(s)=softmax(W2tanh(W1H))。
可选的,所述S4具体为:
S41:构建标签的邻接矩阵,将标签的邻接矩阵和标签嵌入作为图注意力网络的输入,利用图注意力网络GAT来捕获标签之间的依赖关系。
S42:使用标签注意力机制获取文本和标签之间的语义关系。
可选的,所述S5具体为:
添加额外的CorNet模块,将原有的标签预测作为CorNet模块的输入,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
y=F(x)+x
x,y分别是CorNet模块的输入和输出,F(x)是映射函数,x表示原始标签预测,y表示经过CorNet模块的增强标签预测。
F(x)=W2δ(W1σ(x)+b1)+b2
w1,w2是权重矩阵,b1,b2是偏置,σ和δ分别是sigmoid和ELU激活函数
基于所述方法的基于注意力机制的多标签文本分类系统,所述系统包括数据集构建与预处理模块、文本初始化模块、获取文本语义信息模块、获取标签间依赖关系模块和标签预测模块;
所述数据集构建与预处理模块与文本初始化模块信号连接;
所述文本初始化模块一端与获取文本语义信息模块信号连接,另一端与标签间依赖关系模块信号连接;
所述文本语义信息模块和标签间依赖关系模块与标签预测模块信号连接。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于注意力机制的多标签文本分类方法,其特征在于:所述方法包括以下步骤:
S1:获取文本数据集,构建文本的训练数据集合T并对数据集进行预处理;
S2:对文本进行初始化,获得文本嵌入;
S3:利用Bi-LSTM和多标签注意力机制提取文本语义信息;
S4:然后利用图注意力网络GAT来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系;
S5:添加额外的CorNet模块,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
2.根据权利要求1所述的一种基于注意力机制的多标签文本分类方法,其特征在于:所述S1中,预处理包括提取文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;使用分词工具去除停用词;对数据集进行整理并划分为训练集、验证集和测试集。
3.根据权利要求1所述的一种基于注意力机制的多标签文本分类方法,其特征在于:所述S2具体为:利用Glove预训练嵌入模型对文本进行初始化,获得文本嵌入。
5.根据权利要求书1所述的一种基于注意力机制的多标签文本分类方法,其特征在于:所述S4具体为:
S41:构建标签的邻接矩阵,将标签的邻接矩阵和标签嵌入作为图注意力网络的输入,利用图注意力网络GAT来捕获标签之间的依赖关系。
S42:使用标签注意力机制获取文本和标签之间的语义关系。
6.根据权利要求书1所述的一种基于注意力机制的多标签文本分类方法,其特征在于:所述S5具体为:
添加额外的CorNet模块,将原有的标签预测作为CorNet模块的输入,该模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。
y=F(x)+x
x,y分别是CorNet模块的输入和输出,F(x)是映射函数,x表示原始标签预测,y表示经过CorNet模块的增强标签预测。
F(x)=W2δ(W1σ(x)+b1)+b2
w1,w2是权重矩阵,b1,b2是偏置,σ,δ分别是sigmoid和ELU激活函数。
7.基于权利要求1~6中任一项所述方法的基于注意力机制的多标签文本分类系统,其特征在于:所述系统包括数据集构建与预处理模块、文本初始化模块、获取文本语义信息模块、获取标签间依赖关系模块和标签预测模块;
所述数据集构建与预处理模块与文本初始化模块信号连接;
所述文本初始化模块一端与获取文本语义信息模块信号连接,另一端与标签间依赖关系模块信号连接;
所述文本语义信息模块和标签间依赖关系模块与标签预测模块信号连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210055580.9A CN114328934B (zh) | 2022-01-18 | 2022-01-18 | 一种基于注意力机制的多标签文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210055580.9A CN114328934B (zh) | 2022-01-18 | 2022-01-18 | 一种基于注意力机制的多标签文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114328934A true CN114328934A (zh) | 2022-04-12 |
CN114328934B CN114328934B (zh) | 2024-05-28 |
Family
ID=81028888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210055580.9A Active CN114328934B (zh) | 2022-01-18 | 2022-01-18 | 一种基于注意力机制的多标签文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328934B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969343A (zh) * | 2022-06-07 | 2022-08-30 | 重庆邮电大学 | 结合相对位置信息的弱监督文本分类方法 |
CN117851547A (zh) * | 2024-03-07 | 2024-04-09 | 国网江西省电力有限公司电力科学研究院 | 基于深度学习的网络资产指纹识别方法及装置 |
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157720A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Raising the baseline for high-precision text classifiers |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
US20210192201A1 (en) * | 2019-12-23 | 2021-06-24 | Insurance Services Office, Inc. | Computer Vision Systems and Methods for Information Extraction from Text Images Using Evidence Grounding Techniques |
CN113128622A (zh) * | 2021-05-12 | 2021-07-16 | 齐鲁工业大学 | 基于语义-标签多粒度注意力的多标签分类方法及系统 |
CN113312480A (zh) * | 2021-05-19 | 2021-08-27 | 北京邮电大学 | 基于图卷积网络的科技论文层级多标签分类方法及设备 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN113672693A (zh) * | 2021-08-23 | 2021-11-19 | 东北林业大学 | 基于知识图谱和标签关联的在线问答平台的标签推荐方法 |
-
2022
- 2022-01-18 CN CN202210055580.9A patent/CN114328934B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157720A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Raising the baseline for high-precision text classifiers |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
US20210192201A1 (en) * | 2019-12-23 | 2021-06-24 | Insurance Services Office, Inc. | Computer Vision Systems and Methods for Information Extraction from Text Images Using Evidence Grounding Techniques |
CN113128622A (zh) * | 2021-05-12 | 2021-07-16 | 齐鲁工业大学 | 基于语义-标签多粒度注意力的多标签分类方法及系统 |
CN113312480A (zh) * | 2021-05-19 | 2021-08-27 | 北京邮电大学 | 基于图卷积网络的科技论文层级多标签分类方法及设备 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN113672693A (zh) * | 2021-08-23 | 2021-11-19 | 东北林业大学 | 基于知识图谱和标签关联的在线问答平台的标签推荐方法 |
Non-Patent Citations (4)
Title |
---|
HAO WU等: "Effective Collaborative Representation Learning for Multilabel Text Categorization", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, vol. 33, no. 10, 14 April 2021 (2021-04-14), pages 5200 - 5214 * |
廉素洁: "基于文本分类和情感评分的电信投诉文本挖掘研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》, no. 06, 15 June 2019 (2019-06-15), pages 155 - 39 * |
罗向阳: "基于文本和标签表示优化的多标签文本分类的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 2917 * |
邓维斌等: "融合注意力与CorNet的多标签文本分类", 《西北大学学报(自然科学版)》, vol. 52, no. 05, 21 October 2022 (2022-10-21), pages 824 - 833 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969343A (zh) * | 2022-06-07 | 2022-08-30 | 重庆邮电大学 | 结合相对位置信息的弱监督文本分类方法 |
CN114969343B (zh) * | 2022-06-07 | 2024-04-19 | 重庆邮电大学 | 结合相对位置信息的弱监督文本分类方法 |
CN117851547A (zh) * | 2024-03-07 | 2024-04-09 | 国网江西省电力有限公司电力科学研究院 | 基于深度学习的网络资产指纹识别方法及装置 |
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
CN117893839B (zh) * | 2024-03-15 | 2024-06-07 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114328934B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
CN107679580B (zh) | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
CN111125457A (zh) | 一种深度跨模态哈希检索方法及装置 | |
CN114372470A (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
CN115587591A (zh) | 一种基于mrc的事件抽取方法 | |
CN111078881A (zh) | 细粒度情感分析方法、系统、电子设备和存储介质 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
Xie et al. | ICDAR 2023 CROHME: Competition on Recognition of Handwritten Mathematical Expressions | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |