CN115795037A - 一种基于标签感知的多标签文本分类方法 - Google Patents
一种基于标签感知的多标签文本分类方法 Download PDFInfo
- Publication number
- CN115795037A CN115795037A CN202211673044.1A CN202211673044A CN115795037A CN 115795037 A CN115795037 A CN 115795037A CN 202211673044 A CN202211673044 A CN 202211673044A CN 115795037 A CN115795037 A CN 115795037A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- representation
- embedding
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标签感知的多标签文本分类方法,输入文本训练数据集进行数据预处理得到文本P和标签集合T;采用Glove模型获得文本词嵌入向量V1和标签词嵌入向量V2;将V1输入到LSTM进行预编码得到文本的隐表示V;经过训练获得TransE模型,引入外部知识图谱,通过TransE得到的知识嵌入与V2进行拼接得到扩充后的标签表示矩阵M,然后输入到LSTM得到标签的隐表示C;将文本的隐表示V和标签的隐表示C联合空间进行学习,结合注意力机制获得精确的文本表示;基于精确的文本表示训练多标签文本分类模型;将待分类的测试集多标签文本输入到多标签文本分类模型中,进行预测分类输出标签序列。本发明可以有效的提高多标签文本分类模型准确性。
Description
技术领域
本发明属于自然语言处理技术领域,特别涉及到基于标签感知的多标签文本分类方法。
背景技术
多标签文本分类(Multi-Class Text Classification,MCTC)是为文本文档分配一个或多个标签的文本分类任务,专注于文本的高级语义表示和标签相关性建模,有着广泛的应用,如信息检索、情感分析、主题识别、推荐系统等。目前,在多标签文本分类领域上,研究者主要探索如何从文档中充分捕获有效语义信息;探究标签与文档之间的相关性,从文档中获取标签的文档表示;探究标签之间的联系,在多标签文本分类中,大多数标签之间都有层次性。
尽管多标签文本分类的研究有了一定的进展,可是依然有诸多问题需要进一步的探索,上述研究把标签当成没有语义信息的标记,忽略了标签本身的语义信息,标签的语义信息仅仅在最后的分类预测阶段起监督的作用,同时大多数标签是几个字符长度的短文本,标签文本存在数据稀疏问题。因此,本发明提供一种标签感知的多标签文本分类方法,可有效提高多标签文本分类模型的准确性。
发明内容
发明目的:对于背景技术中存在的问题,本发明提供一种标签感知的多标签文本分类方法,采用知识图谱嵌入和标签注意力的技术,提高多标签分类模型预测的准确度。
技术方案:本发明提出一种基于标签感知的多标签文本分类方法,包括如下步骤:
步骤1:输入文本训练数据集进行数据预处理得到文本P和标签集合T;
步骤2:采用Glove模型获得文本词嵌入向量V1和标签词嵌入向量V2;
步骤3:将文本的词向量V1输入到LSTM进行预编码得到文本的词隐表示V;
步骤4:经过训练获得TransE模型,引入外部知识图谱,通过TransE模型得到的知识嵌入与标签词嵌入向量V2进行拼接得到扩充后的标签表示矩阵M;
步骤5:将标签表示矩阵M输入到LSTM得到标签的隐表示C;
步骤6:将文本的词隐表示V和标签的隐表示C进行聚合运算,然后利用空洞卷积提取文本的细粒度特征,通过标签注意力获得标签的文本表示,最后经过多层感知机进行分类预测,训练多标签文本分类模型;
步骤7:利用训练好的多标签文本分类模型对待分类文本的数据集进行多标签文本分类。
进一步地,所述步骤1中预处理包括:
步骤1.1:对文本训练集中的数据进行数据清洗,清洗文本数据中的非文本数据;
步骤1.2:进行停用词过滤、纠错、同义词替换得到文本P和标签集合T;
步骤1.3:定义P={p1,p2,...,pM}为M个文档构成的数据集,pi表示P中的第i个文档,pi={w1,w2,...,wm},其中m为文档pi的长度,wj表示该文档的第j个单词,pi对应的分类标签由T={t1,t2,...,tl}表示,其中l为标签的个数。
进一步地,所述步骤4具体包括如下步骤:
步骤4.1:经过训练和调参后获得TransE模型,TransE利用损失优化函数使正确的三元组的距离小,错误的三元组距离大,损失优化函数公式如下:
其中,s表示正确的三元组,s′表示错误的三元组,d表示向量之间的距离,Υ是一个常数,表示正负样本之间的间距,[x]+表示max(0,x);错误的三元组s′由正确的三元组s里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成;
步骤4.2:使用TransE模型得到知识图谱的相关上下文实体嵌入,将知识图谱嵌入和之前标签嵌入获取的标签词嵌入向量V2进行拼接,扩展标签的语义信息,得到标签表示矩阵M。
进一步地,所述步骤4.2中知识图谱嵌入的上下文实体的嵌入按以下公式来转换:
其中,ei表示通过知识图谱嵌入得到的上下文实体嵌入,上面公式得出的上下文嵌入指的是全部上下文实体嵌入的平均值。
进一步地,所述步骤6具体方法为:
步骤6.1:对文本的词隐表示V和标签隐表示C进行聚合运算,然后采用多层不同扩张率的一维空洞卷积提取文本特征,聚合运算公式如下:
其中,C表示步骤5所得的标签嵌入矩阵,V表示步骤3所得的词嵌入矩阵,表示同位元素对应相除,表示K×L阶的归一化矩阵,K指标签总数,L指单词长度,中的每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出;
步骤6.2:将聚合运算得到的结果输入到最大池化层,通过softmax函数得到Attention系数;
步骤6.3:Attention系数加权词嵌入计算得出文本表示,文本表示计算公式如下:
其中,βl表示第l个元素的Attention系数,vl表示步骤3所得第l个词的词嵌入。
步骤6.4:输入到多层感知机进行标签的分类预测,训练多标签文本分类模型。
进一步地,所述步骤6.4中分类预测由两个全连接层和一个输出层组成的感知机实现,预测第i个标签出现的概率由以下公式计算获得:
yi=σ(W2f(W1z)) (5)
其中,W1为全连接层的参数,W2是输出层的参数,函数f为非线性激活函数,z为文本的最终表示;
所述步骤6.4中训练多标签文本分类模型时使用二元交叉熵损失作为损失函数:
有益效果:
本发明方法采用知识图谱嵌入和注意力机制的技术,解决标签文本存在的数据稀疏问题,知识图谱嵌入对标签文本进行语义扩展,增强标签的语义信息;通过标签嵌入注意力使标签和文本进行语义交互,通过标签嵌入的注意力机制获得的注意力向量表示出文档文本中每个单词在不同分类任务中的重要程度,得到基于标签的文档表示,将标签应用到文本分类过程中,提高了多标签文本分类方法的准确性。
附图说明
图1为本发明基于标签感知的多标签文本分类方法整体流程图;
图2为本发明基于标签感知的多标签文本分类方法模型框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了一种基于标签感知的多标签文本分类方法,包括如下步骤:
步骤1:对文本训练集进行数据预处理,得到文本P和标签集合T。
具体的本发明实施例采用的数据集是公开数据集AAPD。AAPD数据集来源于北京大学大数据研究院提供的公开英文数据集(2018年),总共有55840篇与计算机科学相关的论文摘要和相对应的学科,总共涉及到54个学科。AAPD数据集的统计情况如表1所示。
表1AAPD数据集简介
步骤1.1:对文本训练集中的数据进行数据清洗,清洗文本数据中的非文本数据。
步骤1.2:然后进行停用词过滤、纠错、同义词替换得到文本P和标签集合T。
步骤1.3:定义P={p1,p2,...,pM}为M个文档构成的数据集,pi表示P中的第i个文档,pi={w1,w2,...,wm},其中m为文档pi的长度,wj表示该文档的第j个单词,pi对应的分类标签由T={t1,t2,...,tl}表示,其中l为标签的个数。
步骤2:采用Glove模型得到文本词嵌入向量V1、标签词嵌入向量V2。
步骤3:文本的词向量V1通过LSTM预编码获得文本词隐表示V。
步骤4:通过训练和调参获得TransE模型,引入外部知识图谱,使用TransE模型得到知识图谱嵌入,与标签词嵌入向量V2进行拼接获得标签表示矩阵M。
具体步骤如下:
步骤4.1:经过训练和调参后获得TransE模型,TransE模型利用损失优化函数使正确的三元组的距离小,错误的三元组距离大,损失优化函数公式如下:
其中,s表示正确的三元组,s′表示错误的三元组,d表示向量之间的距离,Υ是一个常数,表示正负样本之间的间距,[x]+表示max(0,x)。错误的三元组s′由正确的三元组s里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成。
步骤4.2:使用TransE模型得到知识图谱的相关上下文实体嵌入,将知识图谱嵌入和之前标签嵌入获取的标签词嵌入向量V2进行拼接,扩展标签的语义信息,得到标签表示矩阵M。
知识图谱嵌入的上下文实体的嵌入按以下公式来转换:
其中,ei表示通过知识图谱嵌入得到的上下文实体嵌入,上面公式得出的上下文嵌入指的是全部上下文实体嵌入的平均值。
步骤5:标签表示矩阵M输入到LSTM获得标签隐表示C;
步骤6:文本词隐表示V和标签隐表示C进行聚合运算,然后利用空洞卷积提取文本的细粒度特征,通过标签注意力获得标签的文本表示,最后经过多层感知机进行分类预测,训练多标签文本分类模型,具体方法为:
步骤6.1:对文本词隐表示V和标签隐表示C进行聚合运算,然后利用空洞卷积提取文本特征;
聚合运算公式如下:
其中,C表示步骤5所得的标签嵌入矩阵,V表示步骤3所得的词嵌入矩阵,表示同位元素对应相除,表示K×L阶的归一化矩阵,K指标签总数,L指单词长度,中的每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出。
本发明采用多层不同扩张率的一维空洞卷积捕获更全面的语义特征。在实验中,将扩张率设置为[1,2,3],卷积核大小设置为3×3。
步骤6.2:将聚合运算得到的结果输入到最大池化层,通过softmax函数得到Attention系数。
步骤6.3:Attention系数加权词嵌入计算得出文本表示;
文本表示计算公式如下:
其中,βl表示步骤6.2所得第l个元素的Attention系数,vl表示步骤3所得第l个词的词嵌入。
步骤6.4:输入到多层感知机进行标签的分类预测,训练多标签文本分类模型。
本发明的分类预测由两个全连接层和一个输出层组成的感知机实现。预测第i个标签出现的概率由以下公式计算获得:
yi=σ(W2f(W1z)) (5)
其中,W1为全连接层的参数,W2是输出层的参数,函数f为非线性激活函数,z为文本的最终表示。
训练多标签文本分类模型时使用二元交叉熵损失作为损失函数:
步骤7:利用训练好的多标签文本分类模型对待分类文本的数据集进行多标签文本分类。
为进一步说明本发明提供方法的实施效果,选择BR、LP、LEAM、LSAN和LCFA多标签文本分类算法作为对比算法,采用Micro-F1作为分类算法性能的评价指标,其中micro-precision、micro-recall可作为实验结果分析的重要参考。
本方法与其他多标签文本分类算法的评价指标对比结果如表2所示。
表2AAPD实验结果
本发明提出的方法Micro-F1为75.2%,Micro-F1较传统方法提高了10%以上,精确率和召回率也有所提高。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于标签感知的多标签文本分类方法,其特征在于,包括如下步骤:
步骤1:输入文本训练数据集进行数据预处理得到文本P和标签集合T;
步骤2:采用Glove模型获得文本词嵌入向量V1和标签词嵌入向量V2;
步骤3:将文本的词向量V1输入到LSTM进行预编码得到文本的词隐表示V;
步骤4:经过训练获得TransE模型,引入外部知识图谱,通过TransE模型得到的知识嵌入与标签词嵌入向量V2进行拼接得到扩充后的标签表示矩阵M;
步骤5:将标签表示矩阵M输入到LSTM得到标签的隐表示C;
步骤6:将文本的词隐表示V和标签的隐表示C进行聚合运算,然后利用空洞卷积提取文本的细粒度特征,通过标签注意力获得标签的文本表示,最后经过多层感知机进行分类预测,训练多标签文本分类模型;
步骤7:利用训练好的多标签文本分类模型对待分类文本的数据集进行多标签文本分类。
2.根据权利要求1所述的基于标签感知的多标签文本分类方法,其特征在于,所述步骤1中预处理包括:
步骤1.1:对文本训练集中的数据进行数据清洗,清洗文本数据中的非文本数据;
步骤1.2:进行停用词过滤、纠错、同义词替换得到文本P和标签集合T;
步骤1.3:定义P={p1,p2,...,pM}为M个文档构成的数据集,pi表示P中的第i个文档,pi={w1,w2,...,wm},其中m为文档pi的长度,wj表示该文档的第j个单词,pi对应的分类标签由T={t1,t2,...,tl}表示,其中l为标签的个数。
3.根据权利要求1所述的基于标签感知的多标签文本分类方法,其特征在于,所述步骤4具体包括如下步骤:
步骤4.1:经过训练和调参后获得TransE模型,TransE利用损失优化函数使正确的三元组的距离小,错误的三元组距离大,损失优化函数公式如下:
其中,s表示正确的三元组,s′表示错误的三元组,d表示向量之间的距离,Υ是一个常数,表示正负样本之间的间距,[x]+表示max(0,x);错误的三元组s′由正确的三元组s里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成;
步骤4.2:使用TransE模型得到知识图谱的相关上下文实体嵌入,将知识图谱嵌入和之前标签嵌入获取的标签词嵌入向量V2进行拼接,扩展标签的语义信息,得到标签表示矩阵M。
5.根据权利要求1所述的基于标签感知的多标签文本分类方法,其特征在于,所述步骤6具体方法为:
步骤6.1:对文本的词隐表示V和标签隐表示C进行聚合运算,然后采用多层不同扩张率的一维空洞卷积提取文本特征,聚合运算公式如下:
其中,C表示步骤5所得的标签隐表示,V表示步骤3所得的文本的词隐表示,表示同位元素对应相除,表示K×L阶的归一化矩阵,K指标签总数,L指单词长度,中的每个元素由标签隐表示和文本的词隐表示进行点乘计算得出;
步骤6.2:将聚合运算得到的结果输入到最大池化层,通过softmax函数得到Attention系数;
步骤6.3:Attention系数加权词嵌入计算得出文本表示,文本表示计算公式如下:
其中,βl表示第l个元素的Attention系数,vl表示步骤3所得的文本的词隐表示中第l个词的词隐表示。
步骤6.4:输入到多层感知机进行标签的分类预测,训练多标签文本分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211673044.1A CN115795037B (zh) | 2022-12-26 | 2022-12-26 | 一种基于标签感知的多标签文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211673044.1A CN115795037B (zh) | 2022-12-26 | 2022-12-26 | 一种基于标签感知的多标签文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115795037A true CN115795037A (zh) | 2023-03-14 |
CN115795037B CN115795037B (zh) | 2023-10-20 |
Family
ID=85426751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211673044.1A Active CN115795037B (zh) | 2022-12-26 | 2022-12-26 | 一种基于标签感知的多标签文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795037B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105164674A (zh) * | 2013-08-29 | 2015-12-16 | 惠普发展公司,有限责任合伙企业 | 涉及多个数据库和执行引擎的查询 |
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
WO2021143396A1 (zh) * | 2020-01-16 | 2021-07-22 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115221325A (zh) * | 2022-07-25 | 2022-10-21 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于标签语义学习和注意力调整机制的文本分类方法 |
-
2022
- 2022-12-26 CN CN202211673044.1A patent/CN115795037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105164674A (zh) * | 2013-08-29 | 2015-12-16 | 惠普发展公司,有限责任合伙企业 | 涉及多个数据库和执行引擎的查询 |
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
WO2021143396A1 (zh) * | 2020-01-16 | 2021-07-22 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115221325A (zh) * | 2022-07-25 | 2022-10-21 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于标签语义学习和注意力调整机制的文本分类方法 |
Non-Patent Citations (3)
Title |
---|
"基于深度学习的科技资源多标签文本分类方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 1458 * |
WANG G Y等: "Joint embedding of words and labels for text classification", ACL, pages 2321 - 2331 * |
肖琳等: "基于标签语义注意力的多标签文本分类", 软件学报, pages 1079 - 1089 * |
Also Published As
Publication number | Publication date |
---|---|
CN115795037B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
Yasen et al. | Movies reviews sentiment analysis and classification | |
CN112711953B (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN111914054A (zh) | 用于大规模语义索引的系统和方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
Kulkarni et al. | Deep learning for NLP | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN116523583A (zh) | 电子商务数据分析系统及其方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN112231476A (zh) | 一种改进的图神经网络科技文献大数据分类方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN111782811A (zh) | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 | |
CN113792144B (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |