CN113297385A - 基于改进GraphRNN的多标签文本分类模型及分类方法 - Google Patents
基于改进GraphRNN的多标签文本分类模型及分类方法 Download PDFInfo
- Publication number
- CN113297385A CN113297385A CN202110853595.5A CN202110853595A CN113297385A CN 113297385 A CN113297385 A CN 113297385A CN 202110853595 A CN202110853595 A CN 202110853595A CN 113297385 A CN113297385 A CN 113297385A
- Authority
- CN
- China
- Prior art keywords
- label
- node
- information
- edge
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进GraphRNN的多标签文本分类模型及分类方法,所述分类模型包括编码器、由改进GraphRNN构成的解码器和Graph2Seq模块构成;采用上述模型对多标签文本分类方法如下:步骤1:将原始样本的标签集转换为标签图;步骤2:文本预处理,包括分词、词语向量化、划分数据集;步骤3:划分数据集,将数据按照“训练集:验证集:测试集=8:1:1”进行划分;步骤4:训练模型,在验证集上调整超参数前驱节点数T,再在测试集上测试;步骤5:将新样本送入训练好的模型,预测对应的标签结果。本发明将多标签分类转换为图生成问题,可缓解标签顺序带来的影响,图生成分为节点生成和边生成,可分别建模标签关联和标签关联程度。
Description
技术领域
本发明属于信息技术领域,涉及自然语言处理、文本分类及多标签分类,具体涉及一种基于改进GraphRNN的多标签文本分类模型及分类方法。
背景技术
多标签分类是机器学习领域中一个重要的学习任务,被广泛应用于文本分类、图
像标注、推荐系统等实际场景。在多标签分类问题中,样本可以被分配到多个标签上。假设
样本空间,表示维的实数空间,标签空间,表示某个
标签,,当前数据集为,表示样本总数,表示某样本输入信息,表示某样本对应的标签。多标签分类任务就是从数
据中学习一个决策函数,使得每个文本被分配到一组标签上去。当标签空间较
大时,输出空间会出现指数级增长,而利用标签关联可以减小多标签分类难度。
从利用标签关联的角度出发,目前多标签分类方法主要可分为三种:1、一阶方法,典型算法如Binary Relevance、ML-KNN,这类方法简单有效,但忽略了标签关联;2、二阶方法,典型算法如Rank-SVM、Calibrated Label Ranking,这类方法只考虑标签对两两之间的联系,如排序问题中相关标签和不相关标签的排列关系;3、高阶方法,这类方法能建模多个标签之间的关联,但需要预定义顺序,存在累计误差,典型的传统算法如ClassifierChains、Ensemble Classifier Chains。
在以上三类方法中,目前围绕高阶方法展开的研究居多。由于循环神经网络在处理序列数据上的表现优异,近年来不少研究利用循环神经网络建模标签高阶关联,在序列到序列(Sequence to Sequence,Seq2Seq)模型下将多标签分类转换为序列生成问题,但模型易受标签顺序影响。为缓解标签顺序带来的影响,有研究将多标签分类视为标签集合预测,但无法区分标签关联程度,而标签间关联应有不同程度之分。
总的来说,现有的多标签分类方法,在建模标签高阶关联时,要么受标签顺序限制,要么没有考虑标签关联的具体程度。
发明内容
本发明针对多标签分类中如何利用标签关联的问题,提出了一种基于改进GraphRNN的多标签文本分类模型及分类方法,根据标签共现关系构建标签图数据,将多标签分类转换为标签图生成问题,可避免预定义标签顺序;利用标签共现信息,建模标签关联程度,可以更细致地建模标签关联。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于改进GraphRNN的多标签文本分类模型,所述分类模型包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;
所述解码器由改进GraphRNN构成,具体是:基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度。
进一步地,所述节点生成为:
节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、、,
输出为节点概率分布,表示预测当前时刻节点为不同标签的概率,
为当前时刻预测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前一时刻预测节点的嵌入信息,为“<BOS>” 的嵌入信息,为预测当前
时刻节点时通过注意力机制从编码信息中获得的上下文信息,为前一时刻的隐状
态;
计算过程如下式所示,为对于编码器第时刻的隐状态的注
意力大小,为编码器的最后一个时刻,score函数用于计算和之间的注意力分
数,softmax模块将输入向量转换为各元素在(0,1)之间且和为1的输出向量,tanh函数为一
种非线性激活函数,、、均为将要学习的神经网络参数;
GRU为门控循环单元,表示图节点个数,初始隐状态为编码器最后时刻
的隐状态,表示将要学习的神经网络参数;下标enc的表示编码过程,下标node
的表示节点生成过程,表示编码过程中的隐状态,表示节点生成过程中的隐状
态;根据节点概率分布,选择概率最大的标签作为第时刻的预测节点
,用于后续边生成的节点嵌入从而得到。
进一步地,所述边生成为:
在预测出节点以后,开始进行边生成,初始输入为“<BOS>”,每个时间步为多分
类问题,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节
点即第时刻以前生成的节点;假定第一个节点对应的邻接向量均为零向量;边生成
第步时,输入包括、、,输出为连边概率分布,下标
edge表示边生成过程,表示边生成过程中的隐状态;表示和拼接后
的向量,见下式:
表示节点生成过程中第时刻预测节点的嵌入信息,表示第
步时预测边的嵌入信息,为“<BOS>”的嵌入信息;表示预测当前边时通过注意力
机制从编码信息中获得的上下文信息,隐状态如下式所示,初始化为编码器最后时刻的隐状态,表示前驱节点个数,对应于邻接向量的元素个数;
进一步地,所述编码器具体为:
进一步地,所述Graph2Seq模块具体为:根据改进GraphRNN得到的标签图,Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集,作为多标签分类结果。
一种基于改进GraphRNN的多标签文本分类模型的分类方法,包括以下步骤:
步骤1:将原始样本的标签集转换为标签图;
步骤2:文本预处理,包括分词、词语向量化、划分数据集;
步骤3:划分数据集,分为训练集、验证集、测试集;
步骤4:训练模型,在验证集上调整超参数前驱节点个数T,再在测试集上测试;
步骤5:将新样本送入训练好的模型,预测对应的标签结果。
进一步地,所述步骤1具体为:
将单个样本的所有标签对视为共现标签对,对于个样本,统计标签频次、标签对
共现频次,标签间的共现程度定义为标签之间的正点互信息,标签之间的正点互信息用
PPMI表示,不同标签和之间的正点互信息表示为,计算如下式所示,
和表示来源于标签空间的不同标签,,,且,为标签空
间的大小,表示概率;
根据及划分区间确定标签连边,标签连边用表示,为节点与的连边
大小,即关联程度,,,且,节点和代表的标签在L
中对应的索引分别为和,计算如下式所示,,,表示标签共现程
度阈值,采用表示标签共现矩阵M中第行第列的元素;
标签连边确定之后构建标签图。
进一步地,在步骤3中,将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据。
与现有技术相比,本发明的有益效果是:将多标签分类转换为图生成问题,可缓解标签顺序给模型带来的影响,提升了预测结果在instance-F1和label-F1指标的表现效果,不仅可以建模标签关联,还可以建模标签关联程度,从而更细致地建模标签关联。
附图说明
图1是本发明多标签文本分类模型示意图。
图2是基于本发明分类模型的分类方法流程图。
图3是将单个文本的所有标签对视为共现标签对示意图。
图4是本发明中展示的标签集转换为标签图的过程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一、多标签文本分类模型组成
本发明分类模型由编码器(Encoder)、解码器(改进GraphRNN)和Graph2Seq构成。本发明模型框架如图1所示,输入信息由Encoder进行编码,送入改进GraphRNN进行标签图生成,最后Graph2Seq将生成的标签图转换为标签集,作为分类结果。
1、编码器(Encoder)
2、解码器(改进GraphRNN)
GraphRNN是You等提出的图生成模型,包括节点生成(Node-level RNN)和边生成
(Edge-level RNN)两部分,但缺少节点输出模块,并且GraphRNN中的边生成为二分类问题,
无法区分多种标签关联程度,因此本发明通过改进GraphRNN,使其既能输出节点也能输出
邻接向量。改进GraphRNN同样由节点生成(Node-level RNN)和边生成(Edge-level RNN)组
成,改进点包括两个方面:节点生成添加softmax模块后生成标签节点,建模标签关联;边生成由二分类改为多分类,可以建模标签不同的关联程度。
(1)Node-level RNN:节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、、,输出为节点概率分布,表示预测当前时刻节点为不
同标签的概率,为当前时刻预测节点,为当前时刻以前预测出的所有节点,为单个
样本的文本信息。其中,下标node表示节点生成过程,为前一时刻预测节点的嵌入信
息,为“<BOS>”的嵌入信息,为预测当前时刻节点时通过注意力机制从编码信
息中获得的上下文信息,为前一时刻的隐状态。计算过程如式(2)~(4)所示,为对于编码器第时刻的隐状态的注意力大小,为编码器的最后一个时
刻,score函数用于计算 和之间的注意力分数,softmax可将输入向量转换为各
元素在(0, 1)之间且和为1的输出向量,tanh函数为一种非线性激活函数,、、均
为将要学习的神经网络参数。
及计算分别如式(5)、(6)所示,GRU为门控循环单元,
表示图节点个数,初始隐状态为编码器最后时刻的隐状态,表示将要学
习的神经网络参数。下表enc的表示编码过程,下标node的表示节点生成过程,表示编
码过程中的隐状态,表示节点生成过程中的隐状态;根据节点概率分布选择概率最大的标签作为第时刻的预测节点,用于后续边生成的节
点嵌入从而得到。
(2)Edge-level RNN:在预测出节点以后,开始进行边生成,初始输入为“<BOS
>”,每个时间步为多分类问题,即预测当前节点与前驱节点的关联程度,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点即第时刻以前生成的节
点。在图1中,边生成过程从第2个节点开始,这是因为第一个节点不存在前驱节点,
无法进行边生成,因此在本发明中考虑设置对应的邻接向量均为零向量。边生成第步
时,输入包括、、,输出为连边概率分布,下标edge
表示边生成过程。表示和拼接后的向量,见式(7),表示节点生成过
程中第时刻预测节点的嵌入信息,表示第步时预测边的嵌入信息,为
“<BOS>”的嵌入信息。表示预测当前边时通过注意力机制从编码信息中获得的上下文
信息,计算方法与类似,隐状态如式(8)所示,初始化为编码器最后时刻的编
码信息,表示前驱节点个数,对应于邻接向量的元素个数。
3、Graph2Seq模块
Graph2Seq模块将生成的标签图转换为标签集,作为分类结果。具体地,由改进
GraphRNN生成的节点集合和邻接向量集合可以还原邻接矩阵,进而得到标签图,在标签
图上以中的第一个节点作为起始节点进行广度优先搜索(Breadth-First Search,
BFS)得到标签序列作为分类结果。在图1中,Graph2Seq模块根据图生成结果构建邻接矩阵,
进而画出由标签A、B、C和D构成的标签图,在图上进行BFS得到最终的标签集{A,B,D,C},作
为多标签分类结果。
二、原理说明
为了将seq2seq用于多标签分类时减少标签顺序带来的影响,本发明将多标签视
为集合,为了描述这种集合,本发明使用标签图来表示标签集。将节点集合表示为,节点
对应的邻接向量集合表示为,则标签图,当考虑输入单个样本的文本信息
时,标签图的条件概率表示为,如式(10)所示。
在式(10)中,表示某种节点顺序,表示图节点个数,表示第个节点,表
示对应的邻接向量,表示中第个元素,表示元素个数,即前驱节点个数。训练
目标如式(11)所示,表示样本总数,表示第个样本的文本信息,表示第个样本的
标签图。
三、基于改进GraphRNN的多标签分类流程
如图2所示,基于改进GraphRNN的多标签分类流程包括如下几个步骤:
1、数据转换:将原始样本的标签集转换为标签图;
在建立模型之前,需要将文本对应的原始标签集转换为标签图,表
示节点集合,表示边集合。其中节点表示标签,标签连边表示与的关
联程度,可通过标签共现信息进行描述,具体做法为根据标签共现大小划分多个区间,不同
的区间对应不同的标签关联程度,从而表示标签之间的连边大小。如图3所示,将单个样本
的所有标签对视为共现标签对,对于个样本,统计标签频次、标签对共现频次,标签间的
共现程度定义为标签之间的正点互信息,标签之间的正点互信息用PPMI表示,PPMI可衡量
两个标签间的相关性,不同标签和之间的正点互信息表示为 ,计算如
式(12)所示,和表示来源于标签空间的不同标签,,,且,为标签空间的大小,表示概率。
根据,得到标签共现矩阵,其保存了标签两两之间的共现信息,
值越大表示二者关联程度越大。最后,根据及划分区间确定标签连边,标签连边用表
示,为节点与 的连边大小,即关联程度,,,且
,节点和代表的标签在L中对应的索引分别为和,计算如式(13)所示,,,表示标签共现程度阈值,值越大关联程度越大,0表示不存在连边,即标签
关联程度较低,以此对标签关联程度进行区分,采用表示标签共现矩阵M中第
行第列的元素。
标签连边确定之后即可构建标签图,图4展示了标签集{A,B,C}转换为标签图的过程。
2、文本预处理:分词,词语向量化,划分数据集;
3、划分数据集:将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据。
4、训练、测试模型;
训练模型,在验证集上调整超参数前驱节点个数(AAPD数据集取3时最佳,
SLASHDOT数据集取4时最佳),最后在测试集上测试,对比实验结果如表1所示,本发明所
提出的改进GraphRNN在instance-F1和label-F1上表现最佳,instance-F1和label-F1分别
度量样本和标签的F1值,值越大越好,如式(14)、(15)所示,表示样本总数,表示标签空
间大小,表示第个样本的真实标签集是否包含标签空间中索引为的标签,若包含
则值为1,反之为0,表示第个样本的预测标签结果是否包含标签空间中索引为的
标签,若包含则值为1,反之为0;
对比方法说明如下:
(1) Binary Relevance(BR):将多标签分类问题转换为二分类问题,没有利用标签之间的相关性。
(2) Classifier Chains(CC):将多个BR级联起来,前一分类器输出作为后一分类器输入,该方法能考虑到标签之间的高阶关联。
(3) Ensemble Classifier Chains(ECC):在Classifier Chains的基础上,选择不同的标签顺序,结合集成学习训练模型。
(4) seq2seq-GRU:在seq2seq模型下基于GRU,按标签频次降序训练模型,生成多标签序列。
(5) set-RNN:将多标签视为标签集合,直接生成多标签集合。
(6)改进GraphRNN:本发明方法,将原始问题转换为标签图生成问题,在图上进行BFS得到分类结果。
5、将新样本送入训练好的模型,预测对应的标签结果。
本发明将多标签分类问题转换为图生成问题,因此在训练模型之前,需要将原始样本标签集转换为与之对应的标签图,进一步训练模型。模型训练完成后,即可用于预测新样本的标签。
Claims (8)
1.一种基于改进GraphRNN的多标签文本分类模型,所述分类模型包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;其特征在于:
所述解码器由改进GraphRNN构成,具体是:
基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度。
2.根据权利要求1所述的一种基于改进GraphRNN的多标签文本分类模型,其特征在于,所述节点生成为:
节点生成以“<BOS>”作为初始输入节点,第时刻,输入包括、、,输出
为节点概率分布,表示预测当前时刻节点为不同标签的概率,为当前时
刻预测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前
一时刻预测节点的嵌入信息,为“<BOS>”的嵌入信息,为预测当前时刻节点时
通过注意力机制从编码信息中获得的上下文信息,为前一时刻的隐状态;
计算过程如下式所示,为对于编码器第时刻的隐状态的注意力
大小,为编码器的最后一个时刻,score函数用于计算和之间的注意力分数,
softmax模块将输入向量转换为各元素在(0,1)之间且和为1的输出向量,tanh函数为一种
非线性激活函数,、、均为将要学习的神经网络参数;
3.根据权利要求2所述的一种基于改进GraphRNN的多标签文本分类模型,其特征在于,所述边生成为:
在预测出节点以后,开始进行边生成,初始输入为“<BOS>”,每个时间步为多分类问
题,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点即
第时刻以前生成的节点;假定第一个节点对应的邻接向量均为零向量;边生成第
步时,输入包括、、,输出为连边概率分布,下标
edge表示边生成过程,表示边生成过程中的隐状态;表示和拼接后
的向量,见下式:
表示节点生成过程中第时刻预测节点的嵌入信息,表示第步时预
测边的嵌入信息,为“<BOS>”的嵌入信息;表示预测当前边时通过注意力机制从
编码信息中获得的上下文信息,隐状态如下式所示,初始化为编码器最后时刻的隐
状态,表示前驱节点个数,对应于邻接向量的元素个数;
5.根据权利要求4所述的一种基于改进GraphRNN的多标签文本分类模型,其特征在于,所述Graph2Seq模块具体为:根据改进GraphRNN得到的标签图,Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集,作为多标签分类结果。
6.根据权利要求5所述的一种基于改进GraphRNN的多标签文本分类模型的分类方法,其特征在于,包括以下步骤:
步骤1:将原始样本的标签集转换为标签图;
步骤2:文本预处理,包括分词、词语向量化、划分数据集;
步骤3:划分数据集,分为训练集、验证集、测试集;
步骤4:训练模型,在验证集上调整超参数前驱节点个数T,再在测试集上测试;
步骤5:将新样本送入训练好的模型,预测对应的标签结果。
7.根据权利要求6所述的一种基于改进GraphRNN的多标签文本分类模型的分类方法,其特征在于,所述步骤1具体为:
将单个样本的所有标签对视为共现标签对,对于个样本,统计标签频次、标签对共现
频次,标签间的共现程度定义为标签之间的正点互信息,标签之间的正点互信息用PPMI表
示,不同标签和之间的正点互信息表示为,计算如下式所示,和表
示来源于标签空间的不同标签,,,且,为标签空间的大
小,表示概率;
根据及划分区间确定标签连边,标签连边用表示,为节点与的连边大
小,即关联程度, , 且,节点和代表的标签在L
中对应的索引分别为和,计算如下式所示,,,表示标签共现程
度阈值,采用表示标签共现矩阵M中第行第列的元素;
标签连边确定之后构建标签图。
8.根据权利要求7所述的一种基于改进GraphRNN的多标签文本分类模型的分类方法,其特征在于,在步骤3中,将数据集进行随机划分,数据集中80%数量的数据作为训练集,而验证集和测试集各为10%数量的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853595.5A CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853595.5A CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297385A true CN113297385A (zh) | 2021-08-24 |
CN113297385B CN113297385B (zh) | 2021-09-28 |
Family
ID=77331230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853595.5A Active CN113297385B (zh) | 2021-07-28 | 2021-07-28 | 基于改进GraphRNN的多标签文本分类系统及分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297385B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599902A (zh) * | 2022-12-15 | 2023-01-13 | 西南石油大学(Cn) | 一种基于知识图谱的油气百科问答方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN110018820A (zh) * | 2019-04-08 | 2019-07-16 | 浙江大学滨海产业技术研究院 | 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法 |
WO2020086115A1 (en) * | 2018-10-24 | 2020-04-30 | Jia Cui | Multi-task training architecture and strategy for attention- based speech recognition system |
CN111309918A (zh) * | 2020-03-17 | 2020-06-19 | 湖南大学 | 一种基于标签关联性的多标签文本分类方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN112182191A (zh) * | 2020-10-16 | 2021-01-05 | 西北师范大学 | 多轮口语理解的结构化记忆图网络模型 |
US20210026922A1 (en) * | 2019-07-22 | 2021-01-28 | International Business Machines Corporation | Semantic parsing using encoded structured representation |
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
-
2021
- 2021-07-28 CN CN202110853595.5A patent/CN113297385B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020086115A1 (en) * | 2018-10-24 | 2020-04-30 | Jia Cui | Multi-task training architecture and strategy for attention- based speech recognition system |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN110018820A (zh) * | 2019-04-08 | 2019-07-16 | 浙江大学滨海产业技术研究院 | 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法 |
US20210026922A1 (en) * | 2019-07-22 | 2021-01-28 | International Business Machines Corporation | Semantic parsing using encoded structured representation |
CN112287661A (zh) * | 2019-07-22 | 2021-01-29 | 国际商业机器公司 | 使用编码的结构化表示进行语义解析 |
CN111309918A (zh) * | 2020-03-17 | 2020-06-19 | 湖南大学 | 一种基于标签关联性的多标签文本分类方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN112182191A (zh) * | 2020-10-16 | 2021-01-05 | 西北师范大学 | 多轮口语理解的结构化记忆图网络模型 |
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
Non-Patent Citations (6)
Title |
---|
IRENE LI 等: "Heterogeneous Graph Neural Networks for Multi-label Text Classification", 《 ARXIV:2013.14620V1[CS.CL]》 * |
KUN XU 等: "Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks", 《 ARXIV:1804.00823V4[CS.AI]》 * |
WEI LI 等: "Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model", 《 ARXIV:1906.01231V1[CS.CL]》 * |
WEIDONG LI 等: "Graph2Seq: Fusion Embedding Learning for Knowledge Graph Completion", 《IEEE ACCESS》 * |
ZHAO-MIN CHEN 等: "Multi-Label Image Recognition With Graph Convolutional Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
高建伟: "基于注意力机制的Graph2Seq代码摘要模型研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599902A (zh) * | 2022-12-15 | 2023-01-13 | 西南石油大学(Cn) | 一种基于知识图谱的油气百科问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113297385B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112380435A (zh) | 基于异构图神经网络的文献推荐方法及推荐系统 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN112597296A (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
CN113051399A (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及系统 | |
CN116796045B (zh) | 一种多维度图书分级方法、系统及可读介质 | |
CN115661550A (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN112199884A (zh) | 物品分子生成方法、装置、设备及存储介质 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN113764034A (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN116432125A (zh) | 基于哈希算法的代码分类方法 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Oliveira et al. | A New Generation? A Discussion on Deep Generative Models in Supply Chains | |
CN114780841A (zh) | 一种基于kphan的序列推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |