CN113297385B - 基于改进GraphRNN的多标签文本分类系统及分类方法 - Google Patents
基于改进GraphRNN的多标签文本分类系统及分类方法 Download PDFInfo
- Publication number
- CN113297385B CN113297385B CN202110853595.5A CN202110853595A CN113297385B CN 113297385 B CN113297385 B CN 113297385B CN 202110853595 A CN202110853595 A CN 202110853595A CN 113297385 B CN113297385 B CN 113297385B
- Authority
- CN
- China
- Prior art keywords
- label
- node
- information
- graph
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 241001235534 Graphis <ascomycete fungus> Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进GraphRNN的多标签文本分类系统及分类方法,所述分类系统包括编码器、由改进GraphRNN构成的解码器和Graph2Seq模块构成;采用上述系统对多标签文本分类方法如下:步骤1:将原始样本的标签集转换为标签图;步骤2:文本预处理,包括分词、词语向量化、划分数据集;步骤3:划分数据集,分为训练集、验证集、测试集;步骤4:训练分类系统,在验证集上调整超参数前驱节点数,再在测试集上测试;步骤5:将新样本送入训练好的分类系统,预测对应的标签结果。本发明将多标签分类转换为图生成问题,可缓解标签顺序带来的影响,图生成分为节点生成和边生成,可分别建模标签关联和标签关联程度。
Description
技术领域
本发明属于信息技术领域,涉及自然语言处理、文本分类及多标签分类,具体涉及一种基于改进GraphRNN的多标签文本分类系统及分类方法。
多标签分类是机器学习领域中一个重要的学习任务,被广泛应用于文本分类、图
像标注、推荐系统等实际场景。在多标签分类问题中,样本可以被分配到多个标签上。假设
样本空间,表示维的实数空间,标签空间,表示某个标签,,当前数据集为,表示样本总数,表示某样
本输入信息,表示某样本对应的标签。多标签分类任务就是从数据中学习一个决策
函数,使得每个文本被分配到一组标签上去。当标签空间较大时,输出空间会出
现指数级增长,而利用标签关联可以减小多标签分类难度。
从利用标签关联的角度出发,目前多标签分类方法主要可分为三种:1、一阶方法,典型算法如Binary Relevance、ML-KNN,这类方法简单有效,但忽略了标签关联;2、二阶方法,典型算法如Rank-SVM、Calibrated Label Ranking,这类方法只考虑标签对两两之间的联系,如排序问题中相关标签和不相关标签的排列关系;3、高阶方法,这类方法能建模多个标签之间的关联,但需要预定义顺序,存在累计误差,典型的传统算法如ClassifierChains、Ensemble Classifier Chains。
在以上三类方法中,目前围绕高阶方法展开的研究居多。由于循环神经网络在处理序列数据上的表现优异,近年来不少研究利用循环神经网络建模标签高阶关联,在序列到序列(Sequence to Sequence,Seq2Seq)模型下将多标签分类转换为序列生成问题,但模型易受标签顺序影响。为缓解标签顺序带来的影响,有研究将多标签分类视为标签集合预测,但无法区分标签关联程度,而标签间关联应有不同程度之分。
总的来说,现有的多标签分类方法,在建模标签高阶关联时,要么受标签顺序限制,要么没有考虑标签关联的具体程度。
发明内容
本发明针对多标签分类中如何利用标签关联的问题,提出了一种基于改进GraphRNN的多标签文本分类系统及分类方法,根据标签共现关系构建标签图数据,将多标签分类转换为标签图生成问题,可避免预定义标签顺序;利用标签共现信息,建模标签关联程度,可以更细致地建模标签关联。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于改进GraphRNN的多标签文本分类系统,所述分类系统包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;
所述解码器由改进GraphRNN构成,具体是:基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度,具体如下:
所述节点生成为:
节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、、,输
出为节点概率分布,表示预测当前时刻节点为不同标签的概率,为当前
时刻预测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前
一时刻预测节点的嵌入信息,为“<BOS>”的嵌入信息,为预测当前时刻节点时通
过注意力机制从编码信息中获得的上下文信息,为前一时刻的隐状态;
计算过程如下式所示,为对于编码器第时刻的隐状态的注意力
大小,为编码器的最后一个时刻,score函数用于计算和之间的注意力分数,
softmax模块将输入向量转换为各元素在(0,1)之间且和为1的输出向量,tanh函数为一种
非线性激活函数,、、均为将要学习的神经网络参数;
GRU为门控循环单元,表示图节点个数,初始隐状态为编码器最后时刻的
隐状态,表示将要学习的神经网络参数;下标enc的表示编码过程,下标node的表
示节点生成过程,表示编码过程中的隐状态,表示节点生成过程中的隐状态;根据
节点概率分布,选择概率最大的标签作为第时刻的预测节点,用于后续
边生成的节点嵌入从而得到;
所述边生成为:
在预测出节点以后,开始进行边生成,初始输入为“<BOS>”,每个时间步为多分
类问题,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点
即第时刻以前生成的节点;假定第一个节点对应的邻接向量均为零向量;边生成第
步时,输入包括、、,输出为连边概率分布,下标edge表示
边生成过程,表示边生成过程中的隐状态;表示和拼接后的向量,见下
式:
表示节点生成过程中第时刻预测节点的嵌入信息,表示第步时
预测边的嵌入信息,为“<BOS>”的嵌入信息;表示预测当前边时通过注意力机制从
编码信息中获得的上下文信息,隐状态如下式所示,初始化为编码器最后时刻的隐
状态,表示前驱节点个数,对应于邻接向量的元素个数;
进一步地,所述编码器具体为:
进一步地,所述Graph2Seq模块具体为:根据改进GraphRNN得到的标签图,Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集,作为多标签分类结果。
一种基于改进GraphRNN的多标签文本分类系统的分类方法,包括以下步骤:
步骤1:将原始样本的标签集转换为标签图;
步骤2:文本预处理,包括分词、词语向量化、划分数据集;
步骤3:划分数据集,分为训练集、验证集、测试集;
步骤4:训练分类系统,在验证集上调整超参数前驱节点个数T,再在测试集上测试;
步骤5:将新样本送入训练好的分类系统,预测对应的标签结果。
进一步地,所述步骤1具体为:
将单个样本的所有标签对视为共现标签对,对于个样本,统计标签频次、标签对
共现频次,标签间的共现程度定义为标签之间的正点互信息,标签之间的正点互信息用
PPMI表示,不同标签和之间的正点互信息表示为,计算如下式所示,和
表示来源于标签空间的不同标签,,,且,为标签空间的大小,
表示概率;
根据及划分区间确定标签连边,标签连边用表示,为节点与的连边大
小,即关联程度,,,且,节点和代表的标签在中对应的索引
分别为和,计算如下式所示,,,表示标签共现程度阈值,采用表
示标签共现矩阵中第行第列的元素;
标签连边确定之后构建标签图。
进一步地,在步骤3中,将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据。
与现有技术相比,本发明的有益效果是:将多标签分类转换为图生成问题,可缓解标签顺序给模型带来的影响,提升了预测结果在instance-F1和label-F1指标的表现效果,不仅可以建模标签关联,还可以建模标签关联程度,从而更细致地建模标签关联。
附图说明
图1是本发明多标签文本分类系统示意图。
图2是基于本发明分类系统的分类方法流程图。
图3是将单个文本的所有标签对视为共现标签对示意图。
图4是本发明中展示的标签集转换为标签图的过程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一、多标签文本分类系统组成
本发明分类系统由编码器(Encoder)、解码器(改进GraphRNN)和Graph2Seq构成。本发明系统框架如图1所示,输入信息由Encoder进行编码,送入改进GraphRNN进行标签图生成,最后Graph2Seq将生成的标签图转换为标签集,作为分类结果。
1、编码器(Encoder)
2、解码器(改进GraphRNN)
GraphRNN是You等提出的图生成模型,包括节点生成(Node-level RNN)和边生成
(Edge-level RNN)两部分,但缺少节点输出模块,并且GraphRNN中的边生成为二分类问题,
无法区分多种标签关联程度,因此本发明通过改进GraphRNN,使其既能输出节点也能输出
邻接向量。改进GraphRNN同样由节点生成(Node-level RNN)和边生成(Edge-level RNN)组
成,改进点包括两个方面:节点生成添加softmax模块后生成标签节点,建模标签关联;
边生成由二分类改为多分类,可以建模标签不同的关联程度。
(1)Node-level RNN:节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、 、,输出为节点概率分布,表示预测当前时刻节点为不同
标签的概率,为当前时刻预测节点,为当前时刻以前预测出的所有节点,为单个样本
的文本信息。其中,下标node表示节点生成过程,为前一时刻预测节点的嵌入信息,为“<BOS>”的嵌入信息,为预测当前时刻节点时通过注意力机制从编码信息中获
得的上下文信息,为前一时刻的隐状态。计算过程如式(2)~(4)所示,为
对于编码器第时刻的隐状态的注意力大小,为编码器的最后一个时刻,score函数用
于计算和之间的注意力分数,softmax可将输入向量转换为各元素在(0, 1)之间
且和为1的输出向量,tanh函数为一种非线性激活函数,、、均为将要学习的神经网
络参数。
及计算分别如式(5)、(6)所示,GRU为门控循环单元,表示图
节点个数,初始隐状态为编码器最后时刻的隐状态,表示将要学习的神经网
络参数。下标enc的表示编码过程,下标node的表示节点生成过程,表示编码过程中的
隐状态,表示节点生成过程中的隐状态;根据节点概率分布,选择概率
最大的标签作为第时刻的预测节点,用于后续边生成的节点嵌入从而得到。
(2)Edge-level RNN:在预测出节点以后,开始进行边生成,初始输入为“<BOS
>”,每个时间步为多分类问题,即预测当前节点与前驱节点的关联程度,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点即第时刻以前生成的节点。在图1中,边生成过程从第2个节点开始,这是因为第一个节点不存在前驱节点,无法
进行边生成,因此在本发明中考虑设置对应的邻接向量均为零向量。边生成第步时,输
入包括、、,输出为连边概率分布,下标edge表示边生成过
程。表示和拼接后的向量,见式(7),表示节点生成过程中第时刻预测
节点的嵌入信息,表示第步时预测边的嵌入信息,为“<BOS>”的嵌入信息。表示预测当前边时通过注意力机制从编码信息中获得的上下文信息,计算方法与
类似,隐状态如式(8)所示,初始化为编码器最后时刻的编码信息,表示前驱节
点个数,对应于邻接向量的元素个数。
3、Graph2Seq模块
Graph2Seq模块将生成的标签图转换为标签集,作为分类结果。具体地,由改进
GraphRNN生成的节点集合和邻接向量集合可以还原邻接矩阵,进而得到标签图,在标签
图上以中的第一个节点作为起始节点进行广度优先搜索(Breadth-First Search,BFS)
得到标签序列作为分类结果。在图1中,Graph2Seq模块根据图生成结果构建邻接矩阵,进而
画出由标签A、B、C和D构成的标签图,在图上进行BFS得到最终的标签集{A,B,D,C},作为多
标签分类结果。
二、原理说明
为了将seq2seq用于多标签分类时减少标签顺序带来的影响,本发明将多标签视
为集合,为了描述这种集合,本发明使用标签图来表示标签集。将节点集合表示为,节点对
应的邻接向量集合表示为,则标签图,当考虑输入单个样本的文本信息时,标
签图的条件概率表示为,如式(10)所示。
在式(10)中,表示某种节点顺序,表示图节点个数,表示第个节点,表示对应的邻接向量,表示中第个元素,表示元素个数,即前驱节点个数。训练目标
如式(11)所示,表示样本总数,表示第个样本的文本信息,表示第个样本的标签
图。
三、基于改进GraphRNN的多标签分类流程
如图2所示,基于改进GraphRNN的多标签分类流程包括如下几个步骤:
1、数据转换:将原始样本的标签集转换为标签图;
在建立分类系统之前,需要将文本对应的原始标签集转换为标签图,
表示节点集合,表示边集合。其中节点表示标签,标签连边表示与的关联
程度,可通过标签共现信息进行描述,具体做法为根据标签共现大小划分多个区间,不同的
区间对应不同的标签关联程度,从而表示标签之间的连边大小。如图3所示,将单个样本的
所有标签对视为共现标签对,对于个样本,统计标签频次、标签对共现频次,标签间的共
现程度定义为标签之间的正点互信息,标签之间的正点互信息用PPMI表示,PPMI可衡量两
个标签间的相关性,不同标签和之间的正点互信息表示为,计算如式(12)
所示,和表示来源于标签空间的不同标签,,,且,为标签空
间的大小,表示概率。
根据,得到标签共现矩阵得到标签共现矩阵,其保存了标签两两之
间的共现信息,值越大表示二者关联程度越大。最后,根据及划分区间确定标签连边,标
签连边用表示,为节点与的连边大小,即关联程度,,,且,节点和代表的标签在中对应的索引分别为和,计算如式(13)所示,,,表示标签共现程度阈值,值越大关联程度越大,0表示不存在连边,即标签关
联程度较低,以此对标签关联程度进行区分,采用表示标签共现矩阵中第行第
列的元素。
标签连边确定之后即可构建标签图,图4展示了标签集{A,B,C}转换为标签图的过程。
2、文本预处理:分词,词语向量化,划分数据集;
3、划分数据集:将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据;
4、训练、测试分类系统;
训练分类系统,在验证集上调整超参数前驱节点个数(AAPD数据集取3时最佳,
SLASHDOT数据集取4时最佳),最后在测试集上测试,对比实验结果如表1所示,本发明所提
出的改进GraphRNN在instance-F1和label-F1上表现最佳,instance-F1和label-F1分别度
量样本和标签的F1值,值越大越好,如式(14)、(15)所示,表示样本总数,表示标签空间
大小,表示第个样本的真实标签集是否包含标签空间中索引为的标签,若包含则值
为1,反之为0,表示第个样本的预测标签结果是否包含标签空间中索引为的标签,若
包含则值为1,反之为0;
对比方法说明如下:
(1) Binary Relevance(BR):将多标签分类问题转换为二分类问题,没有利用标签之间的相关性。
(2) Classifier Chains(CC):将多个BR级联起来,前一分类器输出作为后一分类器输入,该方法能考虑到标签之间的高阶关联。
(3) Ensemble Classifier Chains(ECC):在Classifier Chains的基础上,选择不同的标签顺序,结合集成学习训练分类系统。
(4) seq2seq-GRU:在seq2seq模型下基于GRU,按标签频次降序训练分类系统,生成多标签序列。
(5) set-RNN:将多标签视为标签集合,直接生成多标签集合。
(6)改进GraphRNN:本发明方法,将原始问题转换为标签图生成问题,在图上进行BFS得到分类结果。
5、将新样本送入训练好的分类系统,预测对应的标签结果。
本发明将多标签分类问题转换为图生成问题,因此在训练分类系统之前,需要将原始样本标签集转换为与之对应的标签图,进一步训练分类系统。模型训练完成后,即可用于预测新样本的标签。
Claims (6)
1.一种基于改进GraphRNN的多标签文本分类系统,所述分类系统包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;其特征在于:
所述解码器由改进GraphRNN构成,具体是:
基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度,具体如下:
所述节点生成为:
节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、、,输出为
节点概率分布,表示预测当前时刻节点为不同标签的概率,为当前时刻预
测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前一时刻
预测节点的嵌入信息,为“<BOS>”的嵌入信息,为预测当前时刻节点时通过注意力
机制从编码信息中获得的上下文信息,为前一时刻的隐状态;
计算过程如下式所示,为对于编码器第时刻的隐状态的注意力大
小,为编码器的最后一个时刻,score函数用于计算和之间的注意力分数,
softmax模块将输入向量转换为各元素在(0,1)之间且和为1的输出向量,tanh函数为一种
非线性激活函数,、、均为将要学习的神经网络参数;
GRU为门控循环单元,表示图节点个数,初始隐状态为编码器最后时刻的隐状
态,表示将要学习的神经网络参数;下标enc的表示编码过程,下标node的表示节
点生成过程,表示编码过程中的隐状态,表示节点生成过程中的隐状态;根据节点
概率分布,选择概率最大的标签作为第时刻的预测节点,用于后续边生成
的节点嵌入从而得到;
所述边生成为:
在预测出节点以后,开始进行边生成,初始输入为“<BOS>”,每个时间步为多分类问
题,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点即第
时刻以前生成的节点;假定第一个节点对应的邻接向量均为零向量;边生成第步时,
输入包括、、,输出为连边概率分布,下标edge表示边生成
过程,表示边生成过程中的隐状态;表示和拼接后的向量,见下式:
表示节点生成过程中第时刻预测节点的嵌入信息,表示第步时预测边
的嵌入信息,为“<BOS>”的嵌入信息;表示预测当前边时通过注意力机制从编码信
息中获得的上下文信息,隐状态如下式所示,初始化为编码器最后时刻的隐状态
,表示前驱节点个数,对应于邻接向量的元素个数;
3.根据权利要求2所述的一种基于改进GraphRNN的多标签文本分类系统,其特征在于,所述Graph2Seq模块具体为:根据改进GraphRNN得到的标签图,Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集,作为多标签分类结果。
4.根据权利要求3所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法,其特征在于,包括以下步骤:
步骤1:将原始样本的标签集转换为标签图;
步骤2:文本预处理,包括分词、词语向量化、划分数据集;
步骤3:划分数据集,分为训练集、验证集、测试集;
步骤4:训练分类系统,在验证集上调整超参数前驱节点个数T,再在测试集上测试;
步骤5:将新样本送入训练好的分类系统,预测对应的标签结果。
5.根据权利要求4所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法,其特征在于,所述步骤1具体为:
将单个样本的所有标签对视为共现标签对,对于个样本,统计标签频次、标签对共现
频次,标签间的共现程度定义为标签之间的正点互信息,标签之间的正点互信息用PPMI表
示,不同标签和之间的正点互信息表示为,计算如下式所示,和表示来
源于标签空间的不同标签, ,,且,为标签空间的大小,表示
概率;
根据及划分区间确定标签连边,标签连边用表示,为节点与的连边大小,即
关联程度,,,且,节点和代表的标签在中对应的索引分别为和,计算如下式所示,,,表示标签共现程度阈值,采用表示标
签共现矩阵中第行第列的元素;
标签连边确定之后构建标签图。
6.根据权利要求5所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法,其特征在于,在步骤3中,将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853595.5A CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853595.5A CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297385A CN113297385A (zh) | 2021-08-24 |
CN113297385B true CN113297385B (zh) | 2021-09-28 |
Family
ID=77331230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853595.5A Expired - Fee Related CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297385B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599902B (zh) * | 2022-12-15 | 2023-03-31 | 西南石油大学 | 一种基于知识图谱的油气百科问答方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN109299273B (zh) * | 2018-11-02 | 2020-06-23 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN110018820B (zh) * | 2019-04-08 | 2022-08-23 | 浙江大学滨海产业技术研究院 | 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法 |
US11157705B2 (en) * | 2019-07-22 | 2021-10-26 | International Business Machines Corporation | Semantic parsing using encoded structured representation |
CN111309918A (zh) * | 2020-03-17 | 2020-06-19 | 湖南大学 | 一种基于标签关联性的多标签文本分类方法 |
CN111552807B (zh) * | 2020-04-17 | 2023-05-30 | 银江技术股份有限公司 | 一种短文本多标签分类方法 |
CN112182191B (zh) * | 2020-10-16 | 2022-08-30 | 西北师范大学 | 多轮口语理解的结构化记忆图网络模型 |
CN112732871B (zh) * | 2021-01-12 | 2023-04-28 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
-
2021
- 2021-07-28 CN CN202110853595.5A patent/CN113297385B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN113297385A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN112380435A (zh) | 基于异构图神经网络的文献推荐方法及推荐系统 | |
CN112597296B (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN110751188B (zh) | 基于多标记学习的用户标签预测方法、系统及存储介质 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN115661550A (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及系统 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
Bonaccorso | Hands-on unsupervised learning with Python: implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN111461175A (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116431919A (zh) | 基于用户意图特征的智能新闻推荐方法和系统 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN115422518A (zh) | 基于无数据知识蒸馏的文本验证码识别方法 | |
CN111581466A (zh) | 特征信息存在噪声的偏多标记学习方法 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN116029394B (zh) | 自适应文本情感识别模型训练方法、电子设备及存储介质 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN114780841A (zh) | 一种基于kphan的序列推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210928 |