CN115221325A - 一种基于标签语义学习和注意力调整机制的文本分类方法 - Google Patents

一种基于标签语义学习和注意力调整机制的文本分类方法 Download PDF

Info

Publication number
CN115221325A
CN115221325A CN202210877997.3A CN202210877997A CN115221325A CN 115221325 A CN115221325 A CN 115221325A CN 202210877997 A CN202210877997 A CN 202210877997A CN 115221325 A CN115221325 A CN 115221325A
Authority
CN
China
Prior art keywords
label
text
word
semantic
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210877997.3A
Other languages
English (en)
Inventor
薛非
李晓松
高强
赵彦飞
刘奇林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Military Science Information Research Center Of Military Academy Of Chinese Pla
Original Assignee
Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Military Science Information Research Center Of Military Academy Of Chinese Pla filed Critical Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority to CN202210877997.3A priority Critical patent/CN115221325A/zh
Publication of CN115221325A publication Critical patent/CN115221325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标签语义学习和注意力调整机制的文本分类方法,所述文本分类方法主要包括以下步骤:对文本数据进行预处理,提取文本语义特征,文本标签图嵌入,使用多头调节注意机制来衡量词与标签之间的语义关系,然后多语义整合融合和网络训练,由此可实现多标签文本分类,对模型进行训练,然后使用训练后的模型预测一段文本的类别。本发明提出一种多头调整注意的混合BERT模型用于多标签文本分类框架,可以有效地从文本内容中提取有用的特征,并建立标签和单词之间的语义联系,获得特定于标签的单词表示,由此提高多标签文本分类性能。

Description

一种基于标签语义学习和注意力调整机制的文本分类方法
技术领域
本发明涉及文本多标签分类方法,尤其涉及一种基于标签语义学习和注意力调整机制的文本分类方法。
背景技术
互联网和社交媒体的快速发展使得微信、微博和博客已经成为人们生活的一部分,传递出人们内心的各种情绪和情感状态,记录着人们生活的点点滴滴。网络上积累了大量的包含各种信息的文本数据,对这些文本数据进行分类处理不仅具有重要的现实意义,而且还具有很高的商业价值。因而,如何有效分析这些大规模的社交文本数据,以方便帮助人们更加有效的分析出自己需要的信息成为当下的一个热点问题。在社交媒体上,单纯的关键词提取已经无法满足用户的需求。因为社交媒体数据固有的特点,使得特征词提取的结果往往会出现很多毫无意义的词汇,像是一些垃圾信息或是与主题不符的信息。根据调查显示,在Twitter数据中,大约含有40%的垃圾信息,对此,一项文本处理领域的技术可以对这一问题进行解决——文本分类技术。文本分类技术可以有效地对垃圾信息进行区分,也可以根据不同主题对信息进行区分。
文本分类一直是归纳整理文本,挖掘文本信息的重要技术手段。传统文本分类模型大多是面向单标签的文本分类,然而近年来随着网络文本种类逐渐变得越来越复杂,文本类别也从单一标签变得具有多种标签,比如一篇文章可以同时具有“计算机”和“医学”两种标签,在这种情况下,传统的单标签文本分类模型已经不能应对这种分类任务。因此,文本多标签分类已经成为当前自然语言处理领域研究的热点之一。多标签分类算法给一个样本分配多个标签,在推荐系统、舆情分析与情感分类等领域应用广泛,在样本的不同标签之间通常具有相关性,如何在建模过程中学习到标签之间的相关性,是一个巨大的挑战。在新闻文本分类中,标签之间的关系是层次化的。同时,各个标签与新闻文本不同部分的相关程度并不相同,标签与文本特征的融合需要针对性地建模。
目前,许多研究机构都以社交媒体中的文本数据为研究对象,目的是从海量的数据中挖掘出有用信息,如公众行为预测、医疗保健监测、股市分析与预测等。然而,社交媒体中的文本数据长度短、外部格式和内容上不规范等缺陷、垃圾信息数量庞大等缺陷,给文本的分类技术带来了新的挑战。为了克服这些问题,在文本分类技术的基础上,提取了更多更具代表性的外部格式特征,并将深度学习模型运用到社交媒体文本语义分析和分类中,克服了传统人工提取语义特征的诸多缺陷,因此分类效果更好。
多标签文本分类的任务是在给定的标签集合中选择与文本内容最相关的子集。经过数十年发展,多标签文本分类领域已经存在大量的研究,但是依然存在一些没有解决得很好问题。例如,从文本数据上讲,文本的不同部分与不同的标签相关程度并不相同,例如一条与“经济”与“文学艺术”同时相关的新闻,新闻的前半部分可能更倾向于经济,后半部分更倾向于文学艺术,它们的篇幅是不一致的。然而很少有算法在这个方向上进行针对性地建模。从标签的角度讲,标签之间存在联系,多标签分类的标签之间有明显的逻辑联系。因此,本发明对标签之间的依存关系进行建模,充分利用标签之间的联系提升多标签文本分类效果,具有很高的商业应用价值。
发明内容
本发明提供了一种基于标签语义学习和注意力调整机制的多标签文本分类方法,基于文本标签的多样性,针对标签和文本之间的语义联系,设计了一种新的注意调节机制,并提出了一种新的标签图谱构造方法来获取标签的内在结构和相关性,以建立标签和单词之间的语义联系,结合上下文环境感知特征和标签特征,对文本进行多标签分类。
本发明提供一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述的文本分类方法包括以下步骤:
1)数据进行预处理,使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个tokens;对标签所有字符小写;
2)提取文本语义特征,对多标签文本数据分别进行编码得到相应的特征表示,对于数据中的文本,使用单词嵌入模块,将原始单词嵌入到低维向量中,可以得到文本语义特征;使用预训练的BERT模型计算每个单词的上下文感知表示,为不同上下文中的单词生成不同的嵌入词;BERT接受序列形式的输入,并输出序列的表示形式,得到最终文本的语义特征表示;
3)构造文本标签图嵌入,对每个文本对应的标签,利用标签图来反映标签结构,将每个标签视为一个节点,每个节点收集所有邻居的特征以形成其表示,每条边反映了节点之间的语义相关性,如果标签共存,就有一条边,最终得到一个低维的潜在空间中表示标签图;
4)使用多头注意力调节机制来衡量词与标签之间的语义关系,获得特定于标签的单词表示,并对文档中重要的细粒度语义信息进行加权;
5)多语义整合融合和网络训练,使用双向长短期记忆网络(Bi-LSTM)作为文档编码器,结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类,开始训练整个模型。
所述数据预处理的步骤具体为:对给定的文本内容进行单词嵌入,将一个单词拆分为字词,把词的本身的意思和前缀、后缀分开,使得最终的词表变得精简,得到包含k个单词的输入文档,记为[w1,w2,...,wi,...,wk],其中wi指文本中的第i个单词。
所述的提取文本语义特征的步骤具体为:
设d是一个包含k个单词的输入文本,记为[w1,w2,...,wi,...,wk],其中wi指文本中的第 i个单词,将文本d输入到BERT中,得到每个输入单词的上下文表示H=[h1,h1,...,hk]。
所述的标签图嵌入的步骤具体为:
定义标签图为g=(V,E),其节点vi代表标签λi,边(vi,vj)∈E,A∈RC×C为节点之间的邻接矩阵,Dii=∑jAij为节点的度,邻接矩阵
Figure BDA0003763277430000031
表示任意两个节点之间的非负权值,通过数据驱动的方式建立这个邻接矩阵;首先,利用样本在训练集中的标签注释,计算所有标签对的出现次数,得到矩阵C∈RC×C,通过使用这个标签共生矩阵,根据如下公式得到邻接矩阵A:
Figure BDA0003763277430000032
Figure BDA0003763277430000033
A=A+I
其中Cij表示标签λi和λj的同时出现,I是单位矩阵,表示每个节点都与它自己相连;构造了一个词-标签邻接矩阵B,构造方法如下:
Figure BDA0003763277430000034
Figure BDA0003763277430000035
B=B+I
其中Bij为wi与λj的关系;B的Cij表示样品中wi和λj的共现,标签嵌入由标签共存图确定,并捕获由图结构定义的标签语义信息;
通过图神经网络传播信息,学习上下文标签嵌入,聚合所有邻近节点的值来更新当前节点;每个卷积层只处理一阶邻域信息;在低维潜在空间中表示标签,使图中两个相邻的标签具有相似的表示;对于每个节点vi∈V,用一个one-hot 向量
Figure BDA0003763277430000041
初始化,标签嵌入可以表示为:
Figure BDA0003763277430000042
Figure BDA0003763277430000043
Figure BDA0003763277430000044
是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是 ReLU激活函数,k设为2,实现标签嵌入集E=[e1,e2,…,ec]。
所述的多头调节注意的步骤具体为:
将单词空间投射到标签空间中,使用一个全连接层φ来重新编码字表示,其公式为::
H*=φ(H)
H*∈RK×C,采用注意力操作计算目标词t与每个标签之间的注意得分,计算
Figure BDA0003763277430000045
和E之间的点积,其公式为:
Figure BDA0003763277430000046
使用softmax函数对It进行正则化,其公式为:
at=softmax(It) (8)
所述调节注意分为两个阶段;第一阶段的任务是判断单词和标签之间的相关性,采用了 sigmoid函数进行判断;如果相关性得分小于阈值τ,则认为该单词与这些标签无关;
在第二阶段,用上述的softmax计算注意得分,使概率分布正常化;操作如下式所示:
at=sigmoid(It)
Figure BDA0003763277430000047
Figure BDA0003763277430000048
然后,利用调整注意量对单词t的标签嵌入量进行加权平均,其公式为:
Figure BDA0003763277430000049
其中,
Figure BDA00037632774300000410
是特定标签的词表示,表示不同的标签具有可以区分的内在特征;最后,标签特殊的字序列可以表示为
Figure BDA00037632774300000411
所述多语义整合融合和网络训练的步骤具体为:
将嵌入的H和Hl通过级联合并,聚合两个方面的信息,公式如下所示:
Figure BDA0003763277430000051
其中
Figure BDA0003763277430000052
是最终的混合词嵌入,然后作为输入提供给文档编码器。
所述文档编码器为双向长短期记忆网络(Bi-LSTM);所述Bi-LSTM通过正向和反向学习每个输入文本的单词嵌入,在t时刻,隐状态可以表示为:
Figure BDA0003763277430000053
Figure BDA0003763277430000054
Figure BDA0003763277430000055
使用最终隐藏状态hk来代表整个文档;向分类器输入hk来预测文档中每个标签的置信度得分;所述分类器由一个全连接层和一个sigmoid函数组成,公式如下所示:
Figure BDA0003763277430000056
其中
Figure BDA0003763277430000057
是全连接层的可训练参数;D是单词向量维数。
二进制分类损失作为多标签文本分类任务的损失函数,其公式为:
Figure BDA0003763277430000058
此外,进一步限定标签图的嵌入,使得相似的标签在标签语义空间中更接近,而非相邻的标签互斥,标签图嵌入的损失可表示为:
Figure BDA0003763277430000059
如上所述,将标签嵌入模块和注意模块视为一个聚类过程,要求标签特殊的词表示更接近其类别的中心;一种编码这种性质的方法是使余弦相似度Φ(ei,ej)接近所有i,j对应的边权值Aij,因此,设计了另一个损失函数来衡量聚类的结果,可以表示为:
Figure BDA00037632774300000510
最后,将损失函数定义为:
L=Lg+Lc+Le
用上述损失函数反向传播训练模型。
本发明提供的技术方案的有益效果是:
1、本发明的技术方案可以对多种类型标签组成的文本数据进行分类,而传统文本分类方法无法满足多标签分类。本发明提出的分类方法可以有效地提取文本本身和文本标签语义的特征,由此提高文本多标签分类的性能。
2、本发明设计了一种新的注意力调整机制,以衡量文本和标签之间的语义关系。注意力调整机制从文本和标签中学习到的注意力调整值,注意力调整值是对文档中重要的细粒度的语义信息的进一步强化表征和学习,以捕捉有用的标签特定信息并抑制噪音,从而提高对多标签文本的准确分类。
3、本发明通过利用标签和文本之间的语义关系,使得充分利用数据量获得准确的信息增益估计,提高分类模型性能。
附图说明
图1为一种基于标签语义学习和注意力调整机制的多标签文本分类方法的流程图;
图2为一种基于标签语义学习和注意力调整机制的多标签文本分类方法的详细说明图;
图3为利用BERT模型和Bi-LSTM提取文本语义特征的流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细地说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,本文对某些参数给定了取值范围,而对某些参数给定了确切值,但应理解这些确切值是可在可接受的误差容限或设计约束内近似于相应的值。
实施例1
由于多标签文本分类是自然语言处理中的一项基本但具有挑战性的任务。在情感分析、意图识别、推荐系统等领域得到了广泛的应用。以往的研究通常将标签视为没有语义的符号,忽视了标签之间的关系,造成了信息的丢失。由于对标签语义进行建模可以提高多标签文本分类的效率,本发明提出一种基于标签语义学习和注意力调整机制的多标签文本分类方法,同时利用标签语义和细粒度文本信息,该方法包括以下步骤:
101:数据预处理,即对于任意文本及其标签,使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个tokens,该步骤旨在更好地表示文本内容。
102:提取文本语义特征:对于数据中的文本,首先使用单词嵌入模块,将原始单词嵌入到低维向量中,可以得到文本语义特征。然而,多义的挑战使得独立于上下文的词嵌入在分类任务中很困难。因此,本发明使用预训练的BERT模型计算每个单词的上下文感知表示,该模型基于一个多层双向Transformer模型,为不同上下文中的单词生成不同的嵌入词。BERT接受序列形式的输入,并输出序列的表示形式,得到最终文本的语义特征表示。
103:构造文本标签图嵌入:对于每个文本对应的标签,利用标签图来反映标签结构,这是一种灵活的方法来捕获标签空间中的拓扑。具体做法是将每个标签视为一个节点,每个节点收集所有邻居的特征以形成其表示。每条边反映了节点之间的语义相关性。如果标签共存,就有一条边,最终得到一个低维的潜在空间中表示标签图。
104:多头注意力调整机制来衡量词与标签之间的语义关系:使用多头调节注意机制来衡量词与标签之间的语义关系,获得特定于标签的单词表示,并对文档中重要的细粒度语义信息进行加权。
105:多语义整合融合和网络训练的步骤具体为:使用双向长短期记忆网络(Bi-LSTM) 作为文档编码器,然后将结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类,开始训练整个模型,进而实现多标签文本分类。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行详细介绍,详见下文描述:
201:数据预处理:给定一个文本内容,需要对文本内容进行单词嵌入,由于单词存在时态、单复数等多种变化会导致词表非常大,影响训练速度,并且即使一个非常大的词表仍然无法处理未登录词。因此需要将一个单词拆分为字词,把词的本身的意思和前缀、后缀分开,使得最终的词表变得精简,得到包含k个单词的输入文档,记为 [w1,w2,…,wi,...,wk],其中wi指文本中的第i个单词。
202:文本语义特征提取:设d是一个包含k个单词的输入文本,记为 [w1,w2,…,wi,...,wk],其中wi指文本中的第i个单词,将文本d输入到BERT中,得到每个输入单词的上下文表示H=[h1,h1,...,hk]。
203:标签图嵌入的步骤具体为:定义标签图为g=(V,E),其节点vi代表标签λi,边(vi,vj)∈E,A∈RC×C为节点之间的邻接矩阵,Dii=∑jAij为节点的度。邻接矩阵
Figure BDA0003763277430000071
表示任意两个节点之间的非负权值。通过数据驱动的方式建立这个邻接矩阵。首先,利用样本在训练集中的标签注释,计算所有标签对的出现次数,得到矩阵C∈RC×C,通过使用这个标签共生矩阵,可以根据如下公式得到邻接矩阵A:
Figure BDA0003763277430000081
Figure BDA0003763277430000082
A=A+I
其中Cij表示标签λi和λj的同时出现,I是单位矩阵,意味着每个节点都与它自己相连。构造了一个词-标签邻接矩阵B,构造方法如下:
Figure BDA0003763277430000083
Figure BDA0003763277430000084
B=B+I
其中Bij为wi与λj的关系。B的Cij表示样品中wi和λj的共现,标签嵌入由标签共存图确定,并捕获由图结构定义的标签语义信息。
引入GCN,通过图神经网络传播信息,学习上下文标签嵌入,GCN聚合所有邻近节点的值来更新当前节点。每个卷积层只处理一阶邻域信息。通过叠加多个卷积层,可以获得多阶邻域信息。目标是在低维潜在空间中表示标签,使图中两个相邻的标签具有相似的表示,而非相邻节点互斥。对于每个节点vi∈V,首先用的一个one-hot向量
Figure BDA0003763277430000085
初始化。那么,标签嵌入可以表示为:
Figure BDA0003763277430000086
Figure BDA0003763277430000087
Figure BDA0003763277430000088
是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是ReLU激活函数,本发明考虑两层GCN用于标签嵌入,这意味着k设为2,然后可以实现标签嵌入集E=[e1,e2,…,ec]。
204:多头注意力调节机制:为了使得文档的标签和单词级信息之间的语义关系进行显式地建模,提供给模型明确分类线索的细粒度文档信息的指导。本发明提出了一种创新注意机制——多头注意力调整机制,明确地计算出词与标签之间的语义关系,从单词标签学习的调整注意是对文档中重要的细粒度语义信息进行加权。
首先将单词空间投射到标签空间中。使用一个全连接层φ来重新编码字表示,其公式为:
H*=φ(H)
H*∈RK×C,采用注意力操作计算目标词t与每个标签之间的注意得分。一种简单的方法是计算
Figure BDA0003763277430000091
和E之间的点积,其公式为:
Figure BDA0003763277430000092
使用softmax函数对It进行正则化,其公式为::
at=softmax(It)
对于那些标签较少的文档,其他的标签可以被认为是多余的信息,在这种情况下,过滤掉不必要的信息起着相对重要的作用。为了细化分类线索,减轻文档内容的不相关性和冗余,本发明提出了基于多头注意力的注意力调整机制。该模型通过调整注意动态地将标签的权重分配给单词。
由于单词标记与类别标签的关联程度会影响他们的注意得分,因此调节注意可以分为两个阶段。第一阶段的任务是判断单词和标签之间的相关性,把这个任务看作是一个二元分类任务,因此采用了sigmoid函数。如果某些相关性得分小于阈值τ,则认为该单词与这些标签无关。
在第二阶段,用上述的softmax计算注意得分,使概率分布正常化。因此,减少了无关标签的权重,增大了相关标签的权重。
整体操作如下式所示:
at=sigmoid(It)
Figure BDA0003763277430000093
Figure BDA0003763277430000094
然后,利用调整注意量对单词t的标签嵌入量进行加权平均。
Figure BDA0003763277430000095
其中,
Figure BDA0003763277430000096
是特定标签的词表示,它认为不同的标签具有可以区分的内在特征。最后,标签特殊的字序列可以表示为
Figure BDA0003763277430000097
标签图嵌入模块通过标签嵌入对标签图进行编码。注意模块和标签图嵌入模块的结合可以看作是聚类和聚合的过程。其目的是学习每个类的原型表示,然后基于它生成特定于标签的单词表示,这将聚合标签语义。
205:多语义整合融合:经过以上步骤,可以得到两种词的表示形式:H和Hl前者关注的是词语在语境中的意义,而后者关注的是词语与标签之间的语义关系。为简单起见,将嵌入的H和Hl通过级联合并,聚合两个方面的信息。公式如下所示:
Figure BDA0003763277430000101
其中
Figure BDA0003763277430000102
是最终的混合词嵌入,然后作为输入提供给文档编码器。
206:网络训练:使用双向长短期记忆网络(Bi-LSTM)作为文档编码器来生成文档表示。Bi-LSTM可以通过正向和反向学习每个输入文本的单词嵌入。在t时刻,隐状态可以表示为:
Figure BDA0003763277430000103
Figure BDA0003763277430000104
Figure BDA0003763277430000105
使用最终隐藏状态hk来代表整个文档。最后,向分类器输入hk来预测文档中每个标签的置信度得分。分类器由一个全连接层和一个sigmoid函数组成:
Figure BDA0003763277430000106
其中
Figure BDA0003763277430000107
是全连接层的可训练参数。D是单词向量维数。
与之前的研究相似,使用二进制分类损失作为MLTC任务的损失函数,其公式为:
Figure BDA0003763277430000108
此外,限制标签图的嵌入,使得相似的标签在标签语义空间中更接近,而非相邻的标签互斥。标签图嵌入的损失可表示为:
Figure BDA0003763277430000109
如上所述,将标签嵌入模块和注意模块视为一个聚类过程,这要求标签特殊的词表示更接近其类别的中心。一种编码这种性质的方法是使余弦相似度Φ(ei,ej)接近所有i,j对应的边权值Aij。,因此,设计了另一个损失函数来衡量聚类的结果,可以表示为:
Figure BDA00037632774300001010
最后,将loss函数定义为:
L=Lg+Lc+Le
用上述损失反向传播训练模型。
综上所述,本发明实施例通过上述步骤201-步骤206实现了多标签文本分类方法,同时利用标签语义和细粒度文本信息。利用预先训练的BERT模型来计算文档的上下文感知表示,并且利用基于邻接相似度的标签图对标签图进行建模,然后利用GCN对标签图进行编码,捕获标签之间的结构信息和丰富的语义关联,利用多头调整注意力机制,明确地计算出词与标签之间的语义关系,对文档中重要的细粒度语义信息进行加权,并使用特征级联器融合词语在语境中的特征以及词语与标签之间特征。由此可实现多标签文本分类。基于以上所述,对模型进行训练,然后使用训练后的模型预测一段文本的类别。本发明提出一种多头调整注意的混合BERT模型用于多标签文本分类框架,可以有效地从文本内容中提取有用的特征,并建立标签和单词之间的语义联系,获得特定于标签的单词表示,由此提高多标签文本分类性能。
以上实施例仅用于说明本发明的技术方案,并非对本发明保护范围的限制,本领域的普通技术人员应当理解,任何对本发明的技术方案进行修改或者等同替换,均属于本发明技术方案的实质保护范围。

Claims (8)

1.一种基于标签语义学习和注意力调整机制的文本分类方法,所述文本为多标签文本,其特征在于,所述文本分类方法包括以下步骤:
1)数据进行预处理,使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个tokens;对标签所有字符小写;
2)提取文本语义特征,对多标签文本数据分别进行编码得到相应的特征表示,对于数据中的文本,使用单词嵌入模块,将原始单词嵌入到低维向量中,可以得到文本语义特征;使用预训练的BERT模型计算每个单词的上下文感知表示,为不同上下文中的单词生成不同的嵌入词;BERT接受序列形式的输入,并输出序列的表示形式,得到最终文本的语义特征表示;
3)文本标签图嵌入,对每个文本对应的标签,利用标签图来反映标签结构,将每个标签视为一个节点,每个节点收集所有邻居的特征以形成其表示,每条边反映了节点之间的语义相关性,如果标签共存,就有一条边,最终得到一个低维的潜在空间中表示标签图;
4)使用多头注意力调节机制来衡量词与标签之间的语义关系,获得特定于标签的单词表示,并对文档中重要的细粒度语义信息进行加权;
5)多语义整合融合和网络训练,使用双向长短期记忆网络(Bi-LSTM)作为文档编码器,结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类,开始训练整个模型,实现多标签文本分类。
2.根据权利要求1所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述数据预处理的步骤具体为:
对给定的文本内容进行单词嵌入,将一句话分成若干个单词,并将单词拆分为子词,把词的本身的意思和前缀、后缀分开,使得最终的词表变得精简,得到包含k个单词的输入文档,记为[w1,w2,…,wi,…,wk],其中wi指文本中的第i个单词。
3.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述提取文本语义特征的步骤具体为:
设d是一个包含k个单词的输入文本,记为[w1,w2,...,wi,...,wk],其中wi指文本中的第i个单词,将文本d输入到BERT中,得到每个输入单词的上下文表示H=[h1,h1,...,hk]。
4.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述标签图嵌入的步骤具体为:
定义标签图为g=(V,E),其节点vi代表标签λi,边(vi,vj)∈E,A∈RC×C为节点之间的邻接矩阵,Dii=ΣjAij为节点的度,邻接矩阵
Figure FDA0003763277420000011
表示任意两个节点之间的非负权值,通过数据驱动的方式建立这个邻接矩阵;首先,利用样本在训练集中的标签注释,计算所有标签对的出现次数,得到矩阵C∈RC×C,通过使用这个标签共生矩阵,根据如下公式得到邻接矩阵A:
Figure FDA0003763277420000021
Figure FDA0003763277420000022
A=A+I
其中Cij表示标签λi和λj的同时出现,I是单位矩阵,表示每个节点都与它自己相连;还构造了一个词-标签邻接矩阵B,方法如下:
Figure FDA0003763277420000023
Figure FDA0003763277420000024
B=B+I
其中Bij为wi与λj的关系;B的Cij表示样品中wi和λj的共现,标签嵌入由标签共存图确定,并捕获由图结构定义的标签语义信息;
通过图神经网络传播信息,学习上下文标签嵌入,聚合所有邻近节点的值来更新当前节点;每个卷积层只处理一阶邻域信息;在低维潜在空间中表示标签,使图中两个相邻的标签具有相似的表示;对于每个节点vi∈V,用一个one-hot向量
Figure FDA0003763277420000025
初始化,标签嵌入可以表示为:
Figure FDA0003763277420000026
Figure FDA0003763277420000027
Figure FDA0003763277420000028
是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是ReLU激活函数,k设为2,实现标签嵌入集E=[e1,e2,…,ec]。
5.根据权利要求1-4任一所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述多头注意力调整机制具体为:
将单词空间投射到标签空间中,使用一个全连接层φ来重新编码字表示,其公式为::
H*=φ(H)
H*∈RK×C,采用注意力操作计算目标词t与每个标签之间的注意得分,即计算
Figure FDA0003763277420000029
和E之间的点积,其公式为:
Figure FDA0003763277420000031
使用softmax函数对It进行正则化,其公式为:
at=softmax(It)
所述调节注意分为两个阶段;第一阶段的任务是判断单词和标签之间的相关性,采用了sigmoid函数进行判断;如果相关性得分小于阈值τ,则认为该单词与这些标签无关;
在第二阶段,用上述的softmax计算注意得分,使概率分布正常化;操作如下式所示:
at=sigmoid(It)
Figure FDA0003763277420000032
Figure FDA0003763277420000033
然后,利用调整注意量对单词t的标签嵌入量进行加权平均,其公式为:
Figure FDA0003763277420000034
其中,
Figure FDA0003763277420000035
是特定标签的词表示,表示不同的标签具有可以区分的内在特征;最后,标签特殊的字序列可以表示为
Figure FDA0003763277420000036
6.根据权利要求5所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述多语义整合融合和网络训练的步骤具体为:
将嵌入的H和Hl通过级联合并,聚合两个方面的信息,公式如下所示:
Figure FDA0003763277420000037
其中
Figure FDA0003763277420000038
是最终的混合词嵌入,然后作为输入提供给文档编码器。
7.根据权利要求5或6所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,所述文档编码器为双向长短期记忆网络(Bi-LSTM);所述Bi-LSTM通过正向和反向学习每个输入文本的单词嵌入,在t时刻,隐状态可以表示为:
Figure FDA0003763277420000039
Figure FDA00037632774200000310
Figure FDA00037632774200000311
使用最终隐藏状态hk来代表整个文档;向分类器输入hk来预测文档中每个标签的置信度得分;所述分类器由一个全连接层和一个sigmoid函数组成,公式如下所示:
Figure FDA0003763277420000041
其中
Figure FDA0003763277420000042
是全连接层的可训练参数;D是单词向量维数。
8.根据权利要求7所述的一种基于标签语义学习和注意力调整机制的文本分类方法,其特征在于,二进制分类损失作为多标签文本分类任务的损失函数,其公式为:
Figure FDA0003763277420000043
所述标签图嵌入的损失可表示为:
Figure FDA0003763277420000044
将标签嵌入模块和注意模块视为一个聚类过程,要求标签特殊的词表示更接近其类别的中心;一种编码这种性质的方法是使余弦相似度Φ(ei,ej)接近所有i,j对应的边权值Aij,设计一个损失函数来衡量聚类的结果,表示为:
Figure FDA0003763277420000045
最后,将损失函数定义为:
L=Lg+Lc+Le
用上述损失反向传播训练模型。
CN202210877997.3A 2022-07-25 2022-07-25 一种基于标签语义学习和注意力调整机制的文本分类方法 Pending CN115221325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210877997.3A CN115221325A (zh) 2022-07-25 2022-07-25 一种基于标签语义学习和注意力调整机制的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210877997.3A CN115221325A (zh) 2022-07-25 2022-07-25 一种基于标签语义学习和注意力调整机制的文本分类方法

Publications (1)

Publication Number Publication Date
CN115221325A true CN115221325A (zh) 2022-10-21

Family

ID=83614546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210877997.3A Pending CN115221325A (zh) 2022-07-25 2022-07-25 一种基于标签语义学习和注意力调整机制的文本分类方法

Country Status (1)

Country Link
CN (1) CN115221325A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质
CN115795037A (zh) * 2022-12-26 2023-03-14 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116341567A (zh) * 2023-05-29 2023-06-27 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及系统
CN117236436A (zh) * 2023-11-16 2023-12-15 江西师范大学 基于外部知识的跨句多层双向网络事件检测方法
CN117312500A (zh) * 2023-11-30 2023-12-29 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质
CN115687625B (zh) * 2022-11-14 2024-01-09 五邑大学 文本分类方法、装置、设备及介质
CN115795037A (zh) * 2022-12-26 2023-03-14 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN115795037B (zh) * 2022-12-26 2023-10-20 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN115858793B (zh) * 2023-02-20 2023-05-09 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116341567A (zh) * 2023-05-29 2023-06-27 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及系统
CN116341567B (zh) * 2023-05-29 2023-08-29 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及系统
CN117236436A (zh) * 2023-11-16 2023-12-15 江西师范大学 基于外部知识的跨句多层双向网络事件检测方法
CN117312500A (zh) * 2023-11-30 2023-12-29 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法
CN117312500B (zh) * 2023-11-30 2024-02-27 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法

Similar Documents

Publication Publication Date Title
Xu et al. Survey on multi-output learning
Vadicamo et al. Cross-media learning for image sentiment analysis in the wild
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
Xiao et al. Using convolution control block for Chinese sentiment analysis
Karayiğit et al. Detecting abusive Instagram comments in Turkish using convolutional Neural network and machine learning methods
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
Hu et al. Short-text classification detector: A bert-based mental approach
Yan et al. Biomedical literature classification with a CNNs-based hybrid learning network
CN114372470B (zh) 基于边界检测和提示学习的中文法律文本实体识别方法
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN111339440B (zh) 面向新闻文本基于层级状态神经网络的社会情绪排序方法
Lin et al. Multi-label emotion classification based on adversarial multi-task learning
WO2022206103A1 (zh) 一种微博异构信息的用户画像构建方法
Zhou et al. A text sentiment classification model using double word embedding methods
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Gôlo et al. One-class learning for fake news detection through multimodal variational autoencoders
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Liu et al. Learning implicit labeling-importance and label correlation for multi-label feature selection with streaming labels
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN115631504A (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
Maurya et al. Deceptive opinion spam detection using feature reduction techniques
CN113792144A (zh) 基于半监督的图卷积神经网络的文本分类方法
CN113111288A (zh) 一种融合非结构化和结构化信息的Web服务分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination