CN115599918B - 一种基于图增强的互学习文本分类方法及系统 - Google Patents
一种基于图增强的互学习文本分类方法及系统 Download PDFInfo
- Publication number
- CN115599918B CN115599918B CN202211360252.6A CN202211360252A CN115599918B CN 115599918 B CN115599918 B CN 115599918B CN 202211360252 A CN202211360252 A CN 202211360252A CN 115599918 B CN115599918 B CN 115599918B
- Authority
- CN
- China
- Prior art keywords
- text
- graph
- model
- learning
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000009826 distribution Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000003491 array Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于图增强的互学习文本分类方法及系统,包括预处理待分类文本,得到文本图结构和文本序列;基于所述文本图结构,构建图文本分类模型;将所述文本序列输入预训练语言模型中;基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;对所述互学习框架进行学习和更新,得到互学习文本分类结果。一种利用互学习方式的图文本分类模型与预训练语言模型有效结合的框架,基于图文本分类模型与预训练语言模型相结合,在一个框架下同时对两个基本模型进行优化;通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题。
Description
技术领域
本申请属于人工智能的自然语言处理领域,具体涉及一种基于图增强的互学习文本分类方法及系统。
背景技术
文本分类是自然语言处理领域的一项基础性工作,在情感分析、信息检索、意图识别等众多领域中得到了广泛的应用。近年来,由于图神经网络在处理非欧式空间中具有复杂网络结构的任务和捕获远程依赖关系方面的优势,越来越多的研究开始使用图神经网络对文本进行分类。然而,将文本建模成图结构往往会导致文本上下文的序列结构的丢失,而这种上下文特征在情感识别等一些子领域中具有特殊的意义。此外,随着大规模预训练语言模型的发展,越来越多的自然语言处理任务利用预训练语言模型的杰出性能,取得了明显的进步,但是基于图的文本分类方法与大规模预训练语言模型的结合能力还有待探究。
综上所述,现存的技术问题是:目前针对基于图的文本分类方法与大规模预训练语言模型相结合的研究较少,无法在有效利用图结构的优势的同时,保留文本的上下文特征。
解决上述技术问题的难度:
第一,基于图的文本分类方法需要将文本构建成图结构,而大规模预训练语言模型则要求将文本建模成序列,因此无法统一。
第二,基于图的方法与预训练模型存在训练速度不一致、收敛速度不统一的情况,因此难以在同一个框架下搜寻最优的解决方案。第三,基于图的方法与预训练方法之间的更新方式不同,前者主要将所有数据都加载入内存,进行全批次的更新;而预训练模型由于参数量太大,无法全部存入内存,需要进行小批次地更新,这也提升了模型结合的难度。
发明内容
本申请提出了一种基于图增强的互学习文本分类方法及系统,一种利用互学习方式基于图文本分类模型与预训练语言模型有效结合的框架。
为实现上述目的,本申请提供了如下方案:
一种基于图增强的互学习文本分类方法,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果。
优选的,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。
优选的,所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
优选的,所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。
优选的,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
优选的,所述图文本分类模型包括:前向传播方式,公式如下:
优选的,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
优选的,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
优选的,所述概率分布计算公式如下:
其中,表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>表示平滑之后分布的属于类别i的概率;将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>以及/>全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
所述概率分布逼近计算公式如下:
所述联合损失函数计算公式如下:
本申请还提供一种基于图增强的互学习文本分类系统,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理;
所述图模块用于对所述预处理模块的处理结果构建图模型;
所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中;
所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架;
所述学习更新模块用于对所述互学习模块进行优化,得到互学习分类文本。
本申请的有益效果为:本申请首次公开了利用互学习的思想,将基于图文本分类模型与预训练模型相结合,在一个框架下同时对两个基本模型进行优化;提出不对称学习的策略,对通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题;可以很容易地与当前流行的大规模预训练语言模型相结合,并进一步提高模型的性能。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的一种基于图增强的互学习文本分类方法的流程示意图;
图2为本申请实施例一的异构图示意图;
图3为本申请实施例一的执行预训练语言模型示意图;
图4为本申请实施例一构建互学习框架的示意图;
图5为本申请实施例一的更新互学习框架示意图;
图6为本申请实施例二的一种基于图增强的互学习文本分类系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本申请一种基于图增强的互学习文本分类方法的流程示意图,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;由于互学习框架主要分为图文本分类模型以及预训练语言模型两部分,分别对应着文本图与文本上下文,因此需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
其中,TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
基于文本图结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
将文本序列输入预训练语言模型中;本申请对比了三种不同的大规模预训练语言模型,分别为DistillBERT,BERT,RoBERTa。预训练语言模型需要下载预训练好的参数,并在使用时加载;
如图3所示,对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
如图4所示,基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
其中,表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>以及/>全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
如图5所示,对互学习框架进行学习和更新,得到互学习文本分类结果;用不对称学习的策略解决不同模型收敛速度不同的问题。在模型开始训练的第一个纪元,模型产生的概率分布依赖于未调优的初始化参数,因此包含大量的噪声。此外,由于预训练的性能较好,预训练语言模型的收敛速度往往比TextGCN快,这导致互学习框架的整体收敛速度被TextGCN减慢。因此,一个简单的想法是给不同的模型分配不同的学习率,并在一个标准时间内对慢收敛模型进行多次更新。同时,在内存中维护一个共享文档节点索引,通过索引寻址的方式克服两个模型优化批次不同的问题。
最终,互学习框架的组成以及优化策略确定,可以采用梯度反向传播的方式求取最优解,并保存两个模型的最优解空间下的参数,用于下游推理任务。
实施例二
如图6所示,为本申请一种基于图增强的互学习文本分类系统示意图,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
预处理模块用于对待分类文本进行预处理;需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
其中x,y分别表示两个不同的单词,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
图模块用于对预处理模块的处理结果构建图模型;基于预处理模块的图文本结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
预训练语言模块用于对预处理模块的处理结果输入到预训练语言模型中;对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
互学习模块用于对图模块和预训练语言模块构建互学习框架;基于图模块和预训练语言模块通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
其中,τ表示用于平滑分布的温度参数,C表示待分类的类别数,表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>以及/>全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
学习更新模块用于对互学习模块进行优化,得到互学习分类文本。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (6)
1.一种基于图增强的互学习文本分类方法,其特征在于,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果;
所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边;
所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率;
所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
其中,TF(d,w)表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图;
对互学习框架进行学习和更新,得到互学习文本分类结果;
用不对称学习的策略解决不同模型收敛速度不同的问题;
基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
其中,表示图文本分类模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>表示平滑之后分布的属于类别i的概率;通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>以及/>L个样本的相应的平滑概率分使用两个L*C维度的矩阵表示/>
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
将所述表示图文本分类模型与所述预训练语言模型作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新;联合损失函数的表示如下:
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量;对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重;
至此,两个不同的模型在相同的互学习框架内部进行反向传播并相互学习提升。
2.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
4.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
5.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
6.一种基于图增强的互学习文本分类系统,其特征在于,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理,得到文本图结构和文本序列;
所述图模块用于基于所述文本图结构构建图文本分类模型;
所述预训练语言模块将所述文本序列输入预训练语言模型中;
所述互学习模块基于所述图文本分类模型和所述预训练语言模型构建互学习框架;
所述学习更新模块用于对所述互学习框架进行优化,得到互学习文本分类结果;
所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边;
所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率;
所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
其中,TF(d,w)表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图;
对互学习框架进行学习和更新,得到互学习文本分类结果;
用不对称学习的策略解决不同模型收敛速度不同的问题;
基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
其中,表示图文本分类模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>表示平滑之后分布的属于类别i的概率;通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>以及/>L个样本的相应的平滑概率分使用两个L*C维度的矩阵表示/>
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
将所述表示图文本分类模型与所述预训练语言模型作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新;联合损失函数的表示如下:
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量;对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重;
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211360252.6A CN115599918B (zh) | 2022-11-02 | 2022-11-02 | 一种基于图增强的互学习文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211360252.6A CN115599918B (zh) | 2022-11-02 | 2022-11-02 | 一种基于图增强的互学习文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115599918A CN115599918A (zh) | 2023-01-13 |
CN115599918B true CN115599918B (zh) | 2023-06-23 |
Family
ID=84851004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211360252.6A Active CN115599918B (zh) | 2022-11-02 | 2022-11-02 | 一种基于图增强的互学习文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599918B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937617B (zh) * | 2023-03-06 | 2023-05-30 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型训练、风险控制方法、装置和设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611377B (zh) * | 2020-04-22 | 2021-10-29 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN113297364B (zh) * | 2021-06-07 | 2023-06-09 | 吉林大学 | 一种面向对话系统中的自然语言理解方法及装置 |
CN114547298B (zh) * | 2022-02-14 | 2024-10-15 | 大连理工大学 | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 |
CN114925205B (zh) * | 2022-06-09 | 2024-03-05 | 西北工业大学 | 基于对比学习的gcn-gru文本分类方法 |
-
2022
- 2022-11-02 CN CN202211360252.6A patent/CN115599918B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115599918A (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
CN109299237B (zh) | 基于行动者评论家强化学习算法的循环网络人机对话方法 | |
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN111612134B (zh) | 神经网络结构搜索方法、装置、电子设备及存储介质 | |
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN112069811A (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN110390017A (zh) | 基于注意力门控卷积网络的目标情感分析方法及系统 | |
CN110866113A (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN111353534B (zh) | 一种基于自适应分数阶梯度的图数据类别预测方法 | |
CN109886389B (zh) | 一种基于Highway和DC的新型双向LSTM神经网络构建方法 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
CN112347756A (zh) | 一种基于序列化证据抽取的推理阅读理解方法及系统 | |
Glauner | Comparison of training methods for deep neural networks | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN111523319B (zh) | 基于情景lstm结构网络的微博情感分析方法 | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
CN116720519A (zh) | 一种苗医药命名实体识别方法 | |
CN116561376A (zh) | 一种多智能体超图建模与表示方法 | |
CN114997360B (zh) | 神经架构搜索算法的演化参数优化方法、系统及存储介质 | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 | |
Maragheh et al. | A Hybrid Model Based on Convolutional Neural Network and Long Short-Term Memory for Multi-label Text Classification | |
CN109710943B (zh) | 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |