CN111274405A - 一种基于gcn的文本分类方法 - Google Patents

一种基于gcn的文本分类方法 Download PDF

Info

Publication number
CN111274405A
CN111274405A CN202010120795.5A CN202010120795A CN111274405A CN 111274405 A CN111274405 A CN 111274405A CN 202010120795 A CN202010120795 A CN 202010120795A CN 111274405 A CN111274405 A CN 111274405A
Authority
CN
China
Prior art keywords
corpus
word
model
gcn
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010120795.5A
Other languages
English (en)
Other versions
CN111274405B (zh
Inventor
张丽
郑鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010120795.5A priority Critical patent/CN111274405B/zh
Publication of CN111274405A publication Critical patent/CN111274405A/zh
Application granted granted Critical
Publication of CN111274405B publication Critical patent/CN111274405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于GCN的文本分类方法,包括:获取文本分类语料集;其中,语料集包括多个样本,每个样本包含标题和篇章;对语料集进行预处理,将预处理的语料集分为训练集、验证集和测试集;通过spacy对篇章进行处理,提取单词间的图关系;根据图关系,将每个单词嵌入矩阵的低维实值向量空间;根据单词的向量表示,构造双向LSTM,并得到句子表示;基于自注意力机制重构句子表示,输入到GCN神经网络中,训练出语义分类模型;将验证集的文本词向量输入到模型中,记录保存在验证集上效果达到最优时的模型参数;基于验证集得出的最优的模型去测试测试集,得到分类结果。本发明运用LSTM和GCN加上注意机制,最终得到更加准确的类结果。

Description

一种基于GCN的文本分类方法
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于GCN(Graph convolutionalnetworks,图卷积神经网络)的文本分类方法。
背景技术
在过去几年随着科学技术的迅猛发展,特别是互联网和社交网络的快速发展,各种信息充斥在互联网上。而其中CSDN博客更是发展迅速,为互联网技术人员发展和交流提供了一个平台,人们不仅可以通过该平台寻找自己所遇到技术问题的解决方法,也可以在该平台上发布自己的学习心得与体会,以及分享自己遇到问题的解决方案等;供大家交流学习,同时也给自己的成长做个记录。随着该平台的发展,用户量的增长,大家发表文章的文章越来越多,人们可以通过该平台获取大量的资料,但是如何从这些资料中找到规律,发现时下流行的趋势等信息,就需要对这些资料进行合理有效的管理。那么如何对这些文本资料进行有效管理,很常见的一种方式就是分类;所以文本分类方向的研究,越来越被人们关注与重视。
实际的应用中,文本分类可以分为二分类(垃圾邮件分类等)和多分类(文本的情感状态等);从文本的标注类别上来看,又可以分为单标签和多标签。简单的说,在预定义的分类体系下,根据文本的内容相关性判定文本与类别之间的关联。本发明研究的是多分类问题,找到句子或文章中,最为关键的词,例如“1个月时间整理了2019年上千道Java面试题,近500页文档!”,句子中主要是针对Java这个关键词,所展开的内容,所以将其归为Java分类。
目前的文本分类模型,均有各自存在的问题,比如fastText模型在网络结构中没有考虑词顺序信息的,TextCNN模型在考虑了词顺序信息的情况下,无法建模更长的序列信息等等。
发明内容
针对现有技术中存在的上述缺点,本发明提供一种基于GCN的文本分类方法。
本发明公开了一种基于GCN的文本分类方法,包括:
获取文本分类语料集;其中,所述语料集包括多个样本,每个样本包含标题和篇章;
对所述语料集进行预处理,将预处理的语料集分为训练集、验证集和测试集;
通过spacy对所述篇章进行处理,提取单词间的图关系;
根据所述图关系,将每个单词嵌入矩阵的低维实值向量空间;
根据单词的向量表示,构造双向LSTM,并得到句子表示;
基于自注意力机制重构句子表示,输入到GCN神经网络中,并通过自注意力机制算出句子最后的结果;
将上述计算结果与权值向量相乘,再经过softmax层,得到最终的概率分布;
定义模型的损失函数,在训练集上训练,训练出语义分类模型;
将所述验证集的文本词向量输入到模型中,记录保存在验证集上效果达到最优时的模型参数;
基于验证集得出的最优的模型去测试测试集,得到分类结果。
作为本发明的进一步改进,
所述语料集的预处理为:对所述语料集中各样本的标题和篇章进行分词操作,去除停止词和特殊符号。
作为本发明的进一步改进,
所述语料集的总样本数为N,所述训练集的样本数为0.8N,所述验证集和测试集的样本数均为0.1N。
作为本发明的进一步改进,
将每个单词嵌入具有嵌入矩阵
Figure BDA0002392912590000021
的低维实值向量空间;
式中,|V|是词汇量,de是单词嵌入的维数。
与现有技术相比,本发明的有益效果为:
本发明通过双向LSTM实现了长时间的记忆机制,同时加上注意力机制,直观的给出每个词对结果的贡献,然后利用GCN建立图结构网络,将文本分类的问题看成是节点分类问题;在短文本分类上,因为短文本自身的信息量不够,使图结构网络可以引入,如句子作为节点,利用样本之间的关系等,解决短文本中分类语料的稀疏性问题;本发明运用LSTM和GCN加上注意机制,最终得到更加准确的类结果。
附图说明
图1为本发明一种实施例公开的基于GCN的文本分类方法的流程图;
图2为本发明一种实施例公开的网络结构图;
图3为本发明的文本分类方法与现有方法的试验对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
本发明提供一种基于GCN的文本分类方法,该分类方法主要针对句子和文章所属的类别进行判断,如CSDN博客等;该文本分类方法包括:爬取搜集文本分类语料集,对语料集中的文本进行预处理,并将其分为训练集,验证集和测试集;运用spacy提取单词间的图关系,并根据图关系将每个单词嵌入矩阵的低维实值向量空间,构建句子表示;将根据训练语料集的词向量构建双向LSTM,并将获得的句子表示向量,给句子表示向量中不同的词附加不同的注意力,输入到GCN神经网络中,训练出语义分类模型;将验证集文本词向量输入到模型中,从而计算出每个样本的预测概率;并将基于验证集得出的模型在测试集上测试。
本发明基于GCN的文本分类方法的分类原理为:
通过双向LSTM实现了长时间的记忆机制,同时加上注意力机制,直观的给出每个词对结果的贡献,然后利用GCN(GCN是直接在图上进行操作的多层神经网络)建立图结构网络,在图结构网络中将词和文档作为图中的节点,其中文档和词的边是基于词在文档中出现的信息,用词在文档中的词频-逆向文本频率(TF-IDF)作为边的权重,表示一个词在某文本中的重要性;词与词的边基于词的全局词共现信息,而词共现信息使用一个大小固定的窗口在语料库中滑动的统计词共现信息,然后使用点互信息计算两个词边的权重;从而将文本分类的问题看成是节点分类问题;同时,在短文本分类上,因为短文本自身的信息量不够,使图结构网络可以引入,如句子作为节点,利用样本之间的关系等,解决短文本中分类语料的稀疏性问题;本发明运用LSTM和GCN加上注意机制,最终得到更加准确的类结果。
如图1所示,本发明提供一种GCN的文本分类方法,包括:
步骤1、获取文本分类语料集;其中,
具体获取方法为:
通过“爬虫”技术,收集并构建文本分类语料集;述语料集包括N个样本,每个样本包含一个标题和文本篇章。
步骤2、对语料集进行预处理;其中,
具体的预处理方法为:
通过jieba分词等工具,对语料集中各样本的标题和文本篇章进行分词操作,去除停止词和特殊符号等。
步骤3、将步骤2预处理后的语料集,分为训练集、验证集和测试集;其中,
具体的划分方法为:随机选取语料集中0.8N的样本作为训练集,随机选取语料集中0.1N的样本作为验证集,剩余的0.1N的样本作为测试集。训练集用于训练生成神经网络模型,即语义分类模型;验证集用于验证语义分类模型,在验证的过程中保存在验证上达到最优时的模型参数,并将该参数对应的语义分类模型作为最优语义分类模型;测试集(预测集)用于利用最优语义分类模型完成测试,获取测试集中每个样本(样例)的预测概率,对比各自的测试标签,计算本发明模型的分类准确率。
进一步,本发明也可在步骤1之后,先对语料集进行训练集、验证集和测试集的划分,划分后再进行语料集的预处理。
步骤4、通过spacy图关系提取工具对各样本的篇章进行处理,提取单词间的图关系。
步骤5、根据步骤4所得到的单词间图关系,将每个单词嵌入具有嵌入矩阵
Figure BDA0002392912590000041
的低维实值向量空间;式中,|V|是词汇量,de是单词嵌入的维数。
步骤6、根据矩阵中单词的向量表示,构造双向LSTM,该双向LSTM用于捕获有关单词顺序的上下文信息。
步骤7、基于步骤6的双向LSTM,得到句子的表示向量HC,维度大小为[n,2dh],基于自注意力机制重构句子表示,即给HC中的每个词赋予了不同的权重,也就是施加了不同的注意力。
步骤8、基于步骤7重构的句子表示,输入多层图卷积结构GCN中,将各个向量作为图中的节点,将文本分类问题,转换为图分类问题。
步骤9、基于步骤8所得到的结果,通过自注意力机制算出句子最后的结果;其中,
上述步骤6~9的流程,如图2所示。
步骤10、将上述计算结果与权值向量相乘,再经过softmax层,得到最终的概率分布。
步骤11、定义模型的损失函数,在训练集上训练,训练出语义分类模型。
步骤12、将验证集的文本词向量输入到模型中,记录保存在验证集上效果达到最优时的模型参数。
步骤13、基于验证集得出的最优的模型去测试测试集,得到分类结果。
实施例:
本发明提供一种GCN的文本分类方法,包括:
步骤1、编写python脚本,其中运用Beautiful Soup框架(python的一个HTML或XML的解析库),从CSDN博客的页面中提取包括标题,文本篇章,发表时间,文章分类(如果有,该分类是作者自己的分类)等数据内容;分布式实现多服务器同时抓取网站数据,加快爬取速度。总之,利用“爬虫”技术,从CSDN博客中主要收集java、python、前端、数据库等分类的数据内容,收集并构建文本分类语料集,该语料集的总样本数为N,其中,每条样本包含标题和一段文本篇章。
步骤2、针对步骤1中的语料集合,进行预处理;预处理为:通过jieba分词组件,加载词典,进行分词操作;去除每个文章题目和文本篇章的停止词(如了,很,着等特定词)、特殊符号。
步骤3、从处理完的语料集合中随机选择0.8N条样本作为模型训练集合,0.1N条样本作为模型验证集合和0.1N条样本作为模型测试集合。
步骤4、运用当前流行的图关系提取工具spacy,对篇章进行再处理,提取单词间的图关系表示。
步骤5、依据单词间的图关系表示,将每个单词嵌入矩阵的低维实值向量空间;
例如一个n词的句子
Figure BDA0002392912590000061
将每个单词嵌入具有嵌入矩阵
Figure BDA0002392912590000062
的低维实值向量空间;其中|V|是词汇量,de是单词嵌入的维数。
步骤6、通过单词的向量表示,构造双向LSTM,以捕获有关单词顺序的上下文信息;其中,
在forward层从1时刻到t时刻正向计算,得到并保存每个时刻向前隐含层的输出;在backward层沿t时刻到1时刻反向计算一遍,得到并保存每个时刻向后隐含层的输出,最后根据每个时刻forward层和backward层的相应时刻输出的结果得到最终结果,产生隐藏状态向量
Figure BDA0002392912590000063
其中
Figure BDA0002392912590000064
代表来自双向LSTM在时间步t时的隐藏状态向量,dh是单向LSTM输出的隐藏状态向量的维度。
步骤7、由上步可得篇章或句子的表示为HC,维度大小为[n,2dh],基于自注意力机制重新构建篇章或句子表示,自注意力机制公式如下:
Figure BDA0002392912590000065
Ws1是个一个权重矩阵,形状为:[de,2dh]。Ws2是一个向量,向量长度为de。通过上面的公式最后就可以得到注意力向量
Figure BDA0002392912590000066
长度为n,并且因为使用了softmax函数,所以向量
Figure BDA0002392912590000067
的每个元素代表一个概率,所有的元素的和应该为1。在得到
Figure BDA0002392912590000068
之后,将HC的每个向量与
Figure BDA0002392912590000069
中对应的元素相乘后就可以得到最后句子的表示HA,这个过程中就对HC中每个词的表示赋予了不同的权重,也就是施加了不同的注意力。
步骤8、基于步骤7重构的句子表示,输入多层图卷积结构GCN中,将各个向量作为图中的节点,将文本分类问题,转换为图分类问题;其中,
在注意力机制输出的顶层实现多层图卷积结构,在构造完给定句子的依赖关系树后,根据句子中的单词获得邻接矩阵A∈Rn×n。因为依赖树是有向的,所以提出GCN的变体,在无向依赖图上的GCN-GD和有向依赖图上的GCN-DT,他们的唯一区别在于有向依赖图上的GCN-DT更加的稀疏。这种设置与父节点受其子节点广泛影响的现象相符。另外,遵循自循环思想,每个单词与自身的邻接矩阵手动设置,设置A的对角线值均为1。在双向LSTM输出的基础上,以多层GCN变体,使节点了解上下文。然后,使用具有归一化参数的图卷积更新每个节点的表示:
GCN:
Figure BDA0002392912590000071
Figure BDA0002392912590000072
其中
Figure BDA0002392912590000073
是从前一个GCN层中得到的第j个token的表示,
Figure BDA0002392912590000074
表示当前GCN层的结果,并且
Figure BDA0002392912590000075
Aij是树中第i个token的度,ReLU则为激活函数,Wl权重矩阵跟bl偏差是训练参数。
步骤9、根据上述得到的句子表示,通过注意力机制计算出句子的最终表示:
Ai,j=match-score(HA,r[:,n]),HG,r[:,n]
HL=concat[HA·W0·AT,HG·W1·A]
其中match-score函数我们使用的是余弦相似度公式。在余弦相似度中把向量看成空间中的两条有向线段,都从原点出发,指向不同的方向。利用两个向量之间的夹角的余弦值来衡量两个向量之间的余弦相似度。
在n维度空间中,对于向量B=(b1,b2,…,bn),C=(c1,c2,…,cn),余弦值为
Figure BDA0002392912590000076
余弦的取值范围为[1,-1]。两个向量的夹角越小,他们的余弦值越大,则可以说明两个向量越相似,相反的两个向量夹角越大,他们的余弦值越小,则可以说明两个向量相似度低。余弦距离更多的是从方向上区分差异,当一对文本相似度的长度距离很大,但内容相近时,使用词频或词向量作为特征,他们之间的夹角可能很小,因而相似度高。
最终得到注意力矩阵A,W0和W1表示根据模型训练得到的参数矩阵,其维度和A一致,将HA和HG乘它们所对应的注意力矩阵后得到的向量concat(拼接)起来,最终得到输出HL
步骤10、为获得最终预测表示
Figure BDA0002392912590000081
将其全连接层HL与权值向量相乘再经过softmax层,得到极性判定空间上产生的概率分布
Figure BDA0002392912590000082
Figure BDA0002392912590000083
Wp和bp分别是学习的权重跟偏差,且维度大小为2n。
步骤11、为在训练集上训练,定义该模型的损失函数为:
Figure BDA0002392912590000084
其中yi代表真是类别标签,
Figure BDA0002392912590000085
代表模型预测结果。通过反向传播算法、随机下降法Adam训练模型。
在验证集上进行验证模型效果,记录保存在验证集上效果达到最优时的模型参数。
步骤12、用上一步中保存的最优的模型去测试测试集上的篇章,最终得到每个测试样本的预测结果,对比测试标签,计算出分类准确率。
步骤13、得到分类结果。
如图3所示,为验证本申请的分类准确率,本发明以新闻类数据集作为数据集,并选取5个类别,每个类别包含20000条数据;基于上述样本分别测量贝叶斯、CNN、LTSM与本发明的分类方法的分类效果,并以Accuracy和Macro-Averaged F1作为评估指标。
通过图3所示的试验结果可知,本发明的Acc与F1指标均明显高于贝叶斯、CNN、LTSM算法,从而证明本申请的分类效果优于现有的贝叶斯、CNN、LTSM算法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于GCN的文本分类方法,其特征在于,包括:
获取文本分类语料集;其中,语料集包括多个样本,每个样本包含标题和篇章;
对所述语料集进行预处理,将预处理的语料集分为训练集、验证集和测试集;
通过spacy对所述篇章进行处理,提取单词间的图关系;
根据所述图关系,将每个单词嵌入矩阵的低维实值向量空间;
根据单词的向量表示,构造双向LSTM,并得到句子表示;
基于自注意力机制重构句子表示,输入到GCN神经网络中,并通过自注意力机制算出句子最后的结果;
将上述计算结果与权值向量相乘,再经过softmax层,得到最终的概率分布;
定义模型的损失函数,在训练集上训练,训练出语义分类模型;
将所述验证集的文本词向量输入到模型中,记录保存在验证集上效果达到最优时的模型参数;
基于验证集得出的最优的模型去测试测试集,得到分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,
所述语料集的预处理为:对所述语料集中各样本的标题和篇章进行分词操作,去除停止词和特殊符号。
3.如权利要求1所述的文本分类方法,其特征在于,
所述语料集的总样本数为N,所述训练集的样本数为0.8N,所述验证集和测试集的样本数均为0.1N。
4.如权利要求1所述的文本分类方法,其特征在于,
将每个单词嵌入具有嵌入矩阵
Figure FDA0002392912580000011
的低维实值向量空间;
式中,|V|是词汇量,de是单词嵌入的维数。
CN202010120795.5A 2020-02-26 2020-02-26 一种基于gcn的文本分类方法 Active CN111274405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010120795.5A CN111274405B (zh) 2020-02-26 2020-02-26 一种基于gcn的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010120795.5A CN111274405B (zh) 2020-02-26 2020-02-26 一种基于gcn的文本分类方法

Publications (2)

Publication Number Publication Date
CN111274405A true CN111274405A (zh) 2020-06-12
CN111274405B CN111274405B (zh) 2021-11-05

Family

ID=71000394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010120795.5A Active CN111274405B (zh) 2020-02-26 2020-02-26 一种基于gcn的文本分类方法

Country Status (1)

Country Link
CN (1) CN111274405B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
CN111695341A (zh) * 2020-06-16 2020-09-22 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN111737474A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 业务模型的训练和确定文本分类类别的方法及装置
CN111737470A (zh) * 2020-06-24 2020-10-02 上海应用技术大学 文本分类方法
CN111767400A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 文本分类模型的训练方法、装置、计算机设备和存储介质
CN111966826A (zh) * 2020-07-22 2020-11-20 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112131386A (zh) * 2020-09-22 2020-12-25 新华三大数据技术有限公司 一种文本分类方法及装置
CN112163064A (zh) * 2020-10-14 2021-01-01 上海应用技术大学 基于深度学习的文本分类方法
CN112215007A (zh) * 2020-10-22 2021-01-12 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及系统
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112463970A (zh) * 2020-12-16 2021-03-09 吉林大学 一种基于时间关系对文本包含的因果关系进行抽取的方法
CN112613318A (zh) * 2020-12-31 2021-04-06 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN112699243A (zh) * 2021-01-15 2021-04-23 上海交通大学 基于法条图卷积网络文本的案件文书案由分类方法及介质
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN113077094A (zh) * 2021-04-13 2021-07-06 南京邮电大学 一种基于lstm-gcn的臭氧预测方法
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN114357166A (zh) * 2021-12-31 2022-04-15 北京工业大学 一种基于深度学习的文本分类方法
CN116304748A (zh) * 2023-05-17 2023-06-23 成都工业学院 一种文本相似度计算方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472003A (zh) * 2019-08-08 2019-11-19 东北大学 基于图卷积网络的社交网络文本情感细粒度分类方法
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472003A (zh) * 2019-08-08 2019-11-19 东北大学 基于图卷积网络的社交网络文本情感细粒度分类方法
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGFAN YE.ETL: "A Web Services Classification Method Based on GCN", 《2019 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS, BIG DATA & CLOUD COMPUTING, SUSTAINABLE COMPUTING & COMMUNICATIONS, SOCIAL COMPUTING & NETWORKING (ISPA/BDCLOUD/SOCIALCOM/SUSTAINCOM)》 *
毛焱颖: "基于注意力双层LSTM的长文本情感分类方法", 《 重庆电子工程职业学院学报》 *
蓝雯飞等: "基于LSTM-Attention的中文新闻文本分类", 《中南民族大学学报(自然科学版)》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695341A (zh) * 2020-06-16 2020-09-22 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
CN111651974B (zh) * 2020-06-23 2022-11-01 北京理工大学 一种隐式篇章关系分析方法和系统
CN111737470A (zh) * 2020-06-24 2020-10-02 上海应用技术大学 文本分类方法
CN111737470B (zh) * 2020-06-24 2024-04-16 上海应用技术大学 文本分类方法
CN111767400A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 文本分类模型的训练方法、装置、计算机设备和存储介质
CN111767400B (zh) * 2020-06-30 2024-04-26 平安国际智慧城市科技股份有限公司 文本分类模型的训练方法、装置、计算机设备和存储介质
US11216620B1 (en) 2020-07-17 2022-01-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
CN111737474A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 业务模型的训练和确定文本分类类别的方法及装置
CN111966826A (zh) * 2020-07-22 2020-11-20 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN111966826B (zh) * 2020-07-22 2023-01-24 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN111985245B (zh) * 2020-08-21 2024-03-12 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112131386A (zh) * 2020-09-22 2020-12-25 新华三大数据技术有限公司 一种文本分类方法及装置
CN112163064A (zh) * 2020-10-14 2021-01-01 上海应用技术大学 基于深度学习的文本分类方法
CN112163064B (zh) * 2020-10-14 2024-04-16 上海应用技术大学 基于深度学习的文本分类方法
CN112215007A (zh) * 2020-10-22 2021-01-12 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112434720B (zh) * 2020-10-22 2023-08-29 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112215007B (zh) * 2020-10-22 2022-09-23 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及系统
CN112463970A (zh) * 2020-12-16 2021-03-09 吉林大学 一种基于时间关系对文本包含的因果关系进行抽取的方法
CN112613318A (zh) * 2020-12-31 2021-04-06 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN112613318B (zh) * 2020-12-31 2022-10-14 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN112699243A (zh) * 2021-01-15 2021-04-23 上海交通大学 基于法条图卷积网络文本的案件文书案由分类方法及介质
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112711953B (zh) * 2021-01-19 2024-01-26 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN113077094A (zh) * 2021-04-13 2021-07-06 南京邮电大学 一种基于lstm-gcn的臭氧预测方法
CN113077094B (zh) * 2021-04-13 2022-08-23 南京邮电大学 一种基于lstm-gcn的臭氧预测方法
CN113139053B (zh) * 2021-04-15 2024-03-05 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113095087B (zh) * 2021-04-30 2022-11-25 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN114357166A (zh) * 2021-12-31 2022-04-15 北京工业大学 一种基于深度学习的文本分类方法
CN116304748A (zh) * 2023-05-17 2023-06-23 成都工业学院 一种文本相似度计算方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111274405B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN111274405B (zh) 一种基于gcn的文本分类方法
Kong et al. Fake news detection using deep learning
Buber et al. Web page classification using RNN
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111078833A (zh) 一种基于神经网络的文本分类方法
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
Tripathi et al. Analyzing sentiment using IMDb dataset
Archchitha et al. Opinion spam detection in online reviews using neural networks
CN111241410A (zh) 一种行业新闻推荐方法及终端
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
Rodrigues et al. Machine & deep learning techniques for detection of fake reviews: A survey
Huang et al. Text classification with document embeddings
Garrido et al. The GENIE project-a semantic pipeline for automatic document categorisation
Hassan et al. A survey on automatic fake news identification techniques for online and socially produced data
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Dubey et al. Framework for fake news classification using vectorization and machine learning
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Zadgaonkar et al. An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction
Safira et al. Hoax Detection in Social Media using Bidirectional Long Short-Term Memory (Bi-LSTM) and 1 Dimensional-Convolutional Neural Network (1D-CNN) Methods
CN111767388B (zh) 一种候选池生成方法
Ali Reshi et al. An efficient fake news detection system using contextualized embeddings and recurrent neural network
Xie et al. Knowledge graph construction for intelligent analysis of social networking user opinion
George et al. Bangla fake news detection based on multichannel combined CNN-LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant