CN115599918B - 一种基于图增强的互学习文本分类方法及系统 - Google Patents

一种基于图增强的互学习文本分类方法及系统 Download PDF

Info

Publication number
CN115599918B
CN115599918B CN202211360252.6A CN202211360252A CN115599918B CN 115599918 B CN115599918 B CN 115599918B CN 202211360252 A CN202211360252 A CN 202211360252A CN 115599918 B CN115599918 B CN 115599918B
Authority
CN
China
Prior art keywords
text
graph
model
learning
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211360252.6A
Other languages
English (en)
Other versions
CN115599918A (zh
Inventor
徐昊
宋瑞
申强
石立达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211360252.6A priority Critical patent/CN115599918B/zh
Publication of CN115599918A publication Critical patent/CN115599918A/zh
Application granted granted Critical
Publication of CN115599918B publication Critical patent/CN115599918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于图增强的互学习文本分类方法及系统,包括预处理待分类文本,得到文本图结构和文本序列;基于所述文本图结构,构建图文本分类模型;将所述文本序列输入预训练语言模型中;基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;对所述互学习框架进行学习和更新,得到互学习文本分类结果。一种利用互学习方式的图文本分类模型与预训练语言模型有效结合的框架,基于图文本分类模型与预训练语言模型相结合,在一个框架下同时对两个基本模型进行优化;通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题。

Description

一种基于图增强的互学习文本分类方法及系统
技术领域
本申请属于人工智能的自然语言处理领域,具体涉及一种基于图增强的互学习文本分类方法及系统。
背景技术
文本分类是自然语言处理领域的一项基础性工作,在情感分析、信息检索、意图识别等众多领域中得到了广泛的应用。近年来,由于图神经网络在处理非欧式空间中具有复杂网络结构的任务和捕获远程依赖关系方面的优势,越来越多的研究开始使用图神经网络对文本进行分类。然而,将文本建模成图结构往往会导致文本上下文的序列结构的丢失,而这种上下文特征在情感识别等一些子领域中具有特殊的意义。此外,随着大规模预训练语言模型的发展,越来越多的自然语言处理任务利用预训练语言模型的杰出性能,取得了明显的进步,但是基于图的文本分类方法与大规模预训练语言模型的结合能力还有待探究。
综上所述,现存的技术问题是:目前针对基于图的文本分类方法与大规模预训练语言模型相结合的研究较少,无法在有效利用图结构的优势的同时,保留文本的上下文特征。
解决上述技术问题的难度:
第一,基于图的文本分类方法需要将文本构建成图结构,而大规模预训练语言模型则要求将文本建模成序列,因此无法统一。
第二,基于图的方法与预训练模型存在训练速度不一致、收敛速度不统一的情况,因此难以在同一个框架下搜寻最优的解决方案。第三,基于图的方法与预训练方法之间的更新方式不同,前者主要将所有数据都加载入内存,进行全批次的更新;而预训练模型由于参数量太大,无法全部存入内存,需要进行小批次地更新,这也提升了模型结合的难度。
发明内容
本申请提出了一种基于图增强的互学习文本分类方法及系统,一种利用互学习方式基于图文本分类模型与预训练语言模型有效结合的框架。
为实现上述目的,本申请提供了如下方案:
一种基于图增强的互学习文本分类方法,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果。
优选的,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。
优选的,所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure SMS_1
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
优选的,所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure SMS_2
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure SMS_3
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。
优选的,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
优选的,所述图文本分类模型包括:前向传播方式,公式如下:
Figure SMS_4
其中,X表示每个节点的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure SMS_5
表示标准化的邻接矩阵。
优选的,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
优选的,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
优选的,所述概率分布计算公式如下:
Figure SMS_6
其中,
Figure SMS_7
表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>
Figure SMS_8
表示平滑之后分布的属于类别i的概率;将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>
Figure SMS_9
以及/>
Figure SMS_10
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
Figure SMS_11
所述概率分布逼近计算公式如下:
Figure SMS_12
其中,
Figure SMS_13
表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型;
所述联合损失函数计算公式如下:
Figure SMS_14
Figure SMS_15
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure SMS_16
表示为有监督的交叉熵的损失与概率分布散度损失之和。
本申请还提供一种基于图增强的互学习文本分类系统,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理;
所述图模块用于对所述预处理模块的处理结果构建图模型;
所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中;
所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架;
所述学习更新模块用于对所述互学习模块进行优化,得到互学习分类文本。
本申请的有益效果为:本申请首次公开了利用互学习的思想,将基于图文本分类模型与预训练模型相结合,在一个框架下同时对两个基本模型进行优化;提出不对称学习的策略,对通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题;可以很容易地与当前流行的大规模预训练语言模型相结合,并进一步提高模型的性能。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的一种基于图增强的互学习文本分类方法的流程示意图;
图2为本申请实施例一的异构图示意图;
图3为本申请实施例一的执行预训练语言模型示意图;
图4为本申请实施例一构建互学习框架的示意图;
图5为本申请实施例一的更新互学习框架示意图;
图6为本申请实施例二的一种基于图增强的互学习文本分类系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本申请一种基于图增强的互学习文本分类方法的流程示意图,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;由于互学习框架主要分为图文本分类模型以及预训练语言模型两部分,分别对应着文本图与文本上下文,因此需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure SMS_17
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure SMS_18
其中,TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure SMS_19
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
Figure SMS_20
其中
Figure SMS_21
表示语料库中文档的数量,/>
Figure SMS_22
表示所有单词的数量。
基于文本图结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
Figure SMS_23
其中,X表示每个节点(包括单词节点和文档节点)的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure SMS_24
表示标准化的邻接矩阵;
Figure SMS_25
的公式计算如下:
Figure SMS_26
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
将文本序列输入预训练语言模型中;本申请对比了三种不同的大规模预训练语言模型,分别为DistillBERT,BERT,RoBERTa。预训练语言模型需要下载预训练好的参数,并在使用时加载;
如图3所示,对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
如图4所示,基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure SMS_27
其中,
Figure SMS_28
表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>
Figure SMS_29
表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>
Figure SMS_30
以及/>
Figure SMS_31
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
Figure SMS_32
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure SMS_33
其中,
Figure SMS_34
表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型(语言模型)。
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
Figure SMS_35
Figure SMS_36
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure SMS_37
表示为有监督的交叉熵的损失与概率分布散度损失之和。
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure SMS_38
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
如图5所示,对互学习框架进行学习和更新,得到互学习文本分类结果;用不对称学习的策略解决不同模型收敛速度不同的问题。在模型开始训练的第一个纪元,模型产生的概率分布依赖于未调优的初始化参数,因此包含大量的噪声。此外,由于预训练的性能较好,预训练语言模型的收敛速度往往比TextGCN快,这导致互学习框架的整体收敛速度被TextGCN减慢。因此,一个简单的想法是给不同的模型分配不同的学习率,并在一个标准时间内对慢收敛模型进行多次更新。同时,在内存中维护一个共享文档节点索引,通过索引寻址的方式克服两个模型优化批次不同的问题。
最终,互学习框架的组成以及优化策略确定,可以采用梯度反向传播的方式求取最优解,并保存两个模型的最优解空间下的参数,用于下游推理任务。
实施例二
如图6所示,为本申请一种基于图增强的互学习文本分类系统示意图,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
预处理模块用于对待分类文本进行预处理;需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure SMS_39
其中x,y分别表示两个不同的单词,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure SMS_40
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure SMS_41
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
Figure SMS_42
其中
Figure SMS_43
表示语料库中文档的数量,/>
Figure SMS_44
表示所有单词的数量。
图模块用于对预处理模块的处理结果构建图模型;基于预处理模块的图文本结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
Figure SMS_45
其中,X表示每个节点(包括单词节点和文档节点)的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure SMS_46
表示标准化的邻接矩阵;
Figure SMS_47
的公式计算如下:
Figure SMS_48
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
预训练语言模块用于对预处理模块的处理结果输入到预训练语言模型中;对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
互学习模块用于对图模块和预训练语言模块构建互学习框架;基于图模块和预训练语言模块通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure SMS_49
其中,τ表示用于平滑分布的温度参数,C表示待分类的类别数,
Figure SMS_50
表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>
Figure SMS_51
以及/>
Figure SMS_52
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示/>
Figure SMS_53
Figure SMS_54
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure SMS_55
其中,
Figure SMS_56
表示第l个样本属于类别i的概率。
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
Figure SMS_57
Figure SMS_58
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure SMS_59
表示为有监督的交叉熵的损失与概率分布散度损失之和。
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure SMS_60
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
学习更新模块用于对互学习模块进行优化,得到互学习分类文本。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (6)

1.一种基于图增强的互学习文本分类方法,其特征在于,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果;
所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边;
所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure FDA0004239442730000011
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率;
所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure FDA0004239442730000012
其中,TF(d,w)表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure FDA0004239442730000021
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图;
对互学习框架进行学习和更新,得到互学习文本分类结果;
用不对称学习的策略解决不同模型收敛速度不同的问题;
基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure FDA0004239442730000022
其中,
Figure FDA0004239442730000023
表示图文本分类模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>
Figure FDA0004239442730000024
表示平滑之后分布的属于类别i的概率;通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>
Figure FDA0004239442730000025
以及/>
Figure FDA0004239442730000026
L个样本的相应的平滑概率分使用两个L*C维度的矩阵表示/>
Figure FDA0004239442730000027
Figure FDA0004239442730000028
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure FDA0004239442730000031
其中,
Figure FDA0004239442730000032
表示图文本分类模型输出概率分布的第l个样本属于类别i的概率,/>
Figure FDA0004239442730000033
表示预训练语言模型输出概率分布的第l个样本属于类别i的概率,g,c分别用于表示图文本分类模型以及预训练语言模型;
将所述表示图文本分类模型与所述预训练语言模型作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新;联合损失函数的表示如下:
Figure FDA0004239442730000034
Figure FDA0004239442730000035
其中,Lc以及Lg分别表示预训练语言模型以及图文本分类模型基于交叉熵的有监督文本分类损失,总体的损失
Figure FDA0004239442730000036
表示为有监督的交叉熵的损失与概率分布散度损失之和;
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量;对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure FDA0004239442730000037
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重;
至此,两个不同的模型在相同的互学习框架内部进行反向传播并相互学习提升。
2.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
3.根据权利要求2所述的基于图增强的互学习文本分类方法,其特征在于,所述图文本分类模型包括:前向传播方式,公式如下:
Figure FDA0004239442730000041
其中,X表示每个节点的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure FDA0004239442730000042
表示标准化的邻接矩阵。
4.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
5.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
6.一种基于图增强的互学习文本分类系统,其特征在于,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理,得到文本图结构和文本序列;
所述图模块用于基于所述文本图结构构建图文本分类模型;
所述预训练语言模块将所述文本序列输入预训练语言模型中;
所述互学习模块基于所述图文本分类模型和所述预训练语言模型构建互学习框架;
所述学习更新模块用于对所述互学习框架进行优化,得到互学习文本分类结果;
所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边;
所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure FDA0004239442730000051
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率;
所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure FDA0004239442730000052
其中,TF(d,w)表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure FDA0004239442730000061
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图;
对互学习框架进行学习和更新,得到互学习文本分类结果;
用不对称学习的策略解决不同模型收敛速度不同的问题;
基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为zg以及zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure FDA0004239442730000062
其中,
Figure FDA0004239442730000063
表示图文本分类模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,/>
Figure FDA0004239442730000064
表示平滑之后分布的属于类别i的概率;通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布/>
Figure FDA0004239442730000071
以及/>
Figure FDA0004239442730000072
L个样本的相应的平滑概率分使用两个L*C维度的矩阵表示/>
Figure FDA0004239442730000073
Figure FDA0004239442730000074
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure FDA0004239442730000075
其中,
Figure FDA0004239442730000076
表示图文本分类模型输出概率分布的第l个样本属于类别i的概率,/>
Figure FDA0004239442730000077
表示第l个样本属于类别i的概率,g,c分别用于表示图文本分类模型以及预训练语言模型;
将所述表示图文本分类模型与所述预训练语言模型作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新;联合损失函数的表示如下:
Figure FDA0004239442730000078
Figure FDA0004239442730000079
其中,Lc以及Lg分别表示预训练语言模型以及图文本分类模型基于交叉熵的有监督文本分类损失,总体的损失
Figure FDA00042394427300000710
表示为有监督的交叉熵的损失与概率分布散度损失之和;
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量;对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure FDA0004239442730000081
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重;
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
CN202211360252.6A 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及系统 Active CN115599918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211360252.6A CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211360252.6A CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN115599918A CN115599918A (zh) 2023-01-13
CN115599918B true CN115599918B (zh) 2023-06-23

Family

ID=84851004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211360252.6A Active CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN115599918B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937617B (zh) * 2023-03-06 2023-05-30 支付宝(杭州)信息技术有限公司 一种风险识别模型训练、风险控制方法、装置和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611377B (zh) * 2020-04-22 2021-10-29 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN113297364B (zh) * 2021-06-07 2023-06-09 吉林大学 一种面向对话系统中的自然语言理解方法及装置
CN114547298B (zh) * 2022-02-14 2024-10-15 大连理工大学 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN114925205B (zh) * 2022-06-09 2024-03-05 西北工业大学 基于对比学习的gcn-gru文本分类方法

Also Published As

Publication number Publication date
CN115599918A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
CN109299237B (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111612134B (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、系统、设备及介质
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
CN110390017A (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
CN109886389B (zh) 一种基于Highway和DC的新型双向LSTM神经网络构建方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
US20190228297A1 (en) Artificial Intelligence Modelling Engine
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
Glauner Comparison of training methods for deep neural networks
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及系统
CN111523319B (zh) 基于情景lstm结构网络的微博情感分析方法
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN116720519A (zh) 一种苗医药命名实体识别方法
CN116561376A (zh) 一种多智能体超图建模与表示方法
CN114997360B (zh) 神经架构搜索算法的演化参数优化方法、系统及存储介质
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
Maragheh et al. A Hybrid Model Based on Convolutional Neural Network and Long Short-Term Memory for Multi-label Text Classification
CN109710943B (zh) 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant