CN111125358A - 一种基于超图的文本分类方法 - Google Patents

一种基于超图的文本分类方法 Download PDF

Info

Publication number
CN111125358A
CN111125358A CN201911302220.9A CN201911302220A CN111125358A CN 111125358 A CN111125358 A CN 111125358A CN 201911302220 A CN201911302220 A CN 201911302220A CN 111125358 A CN111125358 A CN 111125358A
Authority
CN
China
Prior art keywords
corpus
matrix
document
hypergraph
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911302220.9A
Other languages
English (en)
Other versions
CN111125358B (zh
Inventor
韩忠明
周朋飞
段大高
张珣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201911302220.9A priority Critical patent/CN111125358B/zh
Publication of CN111125358A publication Critical patent/CN111125358A/zh
Application granted granted Critical
Publication of CN111125358B publication Critical patent/CN111125358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于超图的文本分类方法,包括:步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;步骤二、基于共现窗口计算关键词的邻接矩阵;步骤三、对语料库中的每一个文档通过超边向量表示,形成超边矩阵;步骤四、计算超边之间的相似度,构建超边的相似度矩阵;步骤五、构建由词向量组成的超图结点特征矩阵;步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,完成语料库中无标签文本的分类;本发明实现了对语料库中无标签文本的准确分类。

Description

一种基于超图的文本分类方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于超图的文本分类方法。
背景技术
表示目标和目标间关系的图在现实生活中处处存在,比如社交网络,电子商务网络,生物网络和交通网络等。同时由于蕴含着丰富的潜在信息,图也被公认为是可以深刻理解的结构。过去十年中,图深度学习成为人工智能和机器学习中极为重要的部分,在音频、图像和自然语言处理等方面表现出优越的性能,在提取数据中潜在复杂模式方面有着明显的效果。
超图的本质特征在于它的超边,超边的度数可以大于2,能够同时连接多个结点,普通的图是超图的一个特例。目前的很多工作是将现实生活中的事物抽象为两两对应关系,但是存在很大部分非点对的关系的事物,例如社交网络中的社区、推荐系统中用户或商品的标签、图像检索中的物品等。目前,基于超图的图深度学习模型还不成熟,同时超图在数据挖掘中也被很多研究者忽略。
现有文本分类方法通常将语料库中的文本视为相互独立的样本,使用循环神经网络、支持向量机等模型,单独为每一段文本预测类别,没有对文本之间的关系进行建模。另外,使用循环神经网络进行文本分类时,当文本长度过长,循环神经网络难以捕获文本所表达的含义,模型效果较差。
发明内容
本发明的目的是提供一种基于超图的文本分类方法,以解决上述现有技术存在的问题,能够对文本进行准确分类。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于超图的文本分类方法,包括如下步骤:
步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;
步骤二、基于共现窗口计算关键词库中任意两个关键词的共现频数,得到关键词的邻接矩阵;
步骤三、对语料库中的每一个文档使用超边向量表示,并将所有超边向量进行拼接,形成超边矩阵;
步骤四、根据语料库中任意两个文档中所包括的关键词,计算超边之间的相似度,构建超边的相似度矩阵;
步骤五、将关键词库中的关键词使用词向量表示,构建由词向量组成的超图结点特征矩阵;
步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;
步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,并将训练后的参数矩阵代入图神经网络模型,完成语料库中无标签文本的分类。
优选地,所述步骤一中,语料库由若干个文档构成,将语料库中的所有文档进行分词、去停用词处理,并计算每个文档的TF-IDF值,取所有文档中TF-IDF值大于阈值p的单词构成语料库的关键词库,其中0<p<1;基于语料库生成超图,将关键词库中的关键词作为超图的结点,语料库中的每个文档作为超图中的一个超边;将语料库中的每个文档均表示为关键词库中关键词的集合。
优选地,所述步骤二中,设定词共现窗口大小q,q>1,根据共现窗口计算关键词库中所有关键词在语料库的所有文档中的共现频数,并进行共现频数的归一化,得到关键词的邻接矩阵。
优选地,所述步骤三中,对语料库中的每一个文档,分别通过超边向量来表示,其中,超边定义为超图的结点集合的一个非空子集,超边向量中的每个元素表示关键词在该文档中的权重,关键词在文档中权重的具体定义方法为:若关键词出现在该文档中,则使用归一化后的TF-IDF值作为权重,对于文档中未出现的关键词,将其权重设置为0;将语料库中的每一个文档的超边向量进行拼接,形成超边矩阵。
优选地,所述步骤四中超边的相似度矩阵的具体构建方法为:
统计语料库中任意两个文档所包括的关键词的交集和并集,使用Jaccard系数计算超边之间的相似度,构建超边的相似度矩阵。
优选地,所述步骤六中图神经网络模型定义如公式1所示:
Figure BDA0002322132460000031
其中,X′为超边的状态向量,表示为
Figure BDA0002322132460000032
H为超边矩阵,X为超图结点特征矩阵;
Figure BDA0002322132460000033
A为关键词的邻接矩阵,S为超边的相似度矩阵,IA为维度与矩阵A相同的单位矩阵,IS为维度与矩阵S相同的单位矩阵;
Figure BDA0002322132460000043
分别是矩阵
Figure BDA0002322132460000044
的度矩阵;
Figure BDA0002322132460000041
分别为结点和超边的拉普拉斯矩阵,用于图卷积运算;W为可学习的参数矩阵,用于对输入的特征矩阵进行线性变换;O为图神经网络模型的输出,输出语料库中每个文档类别的预测概率。
优选地,所述步骤七具体包括:
首先,采用随机梯度下降算法随机选取训练样本,计算训练样本的类别预测概率和文档的真实标签的交叉熵损失;
其次,分别计算交叉熵损失对于参数矩阵W1、W2的梯度,并更新参数矩阵W1和W2的值,如公式2所示;训练集上的一次迭代包括样本类别预测、计算交叉熵损失、计算参数矩阵梯度、更新参数矩阵四步,经过固定的迭代次数后,得到最终的参数矩阵W1和W2
Figure BDA0002322132460000042
其中,W代表可学习的参数矩阵,α为学习率,控制参数更新的步长,
Figure BDA0002322132460000045
为交叉熵损失函数对参数W的梯度;
再次,将训练后的参数矩阵W1和W2代入图神经网络模型,得到语料库中每个文档类别的最终预测概率,完成语料库中无标签文本的分类。
本发明公开了以下技术效果:本发明基于超图的文本分类方法,将文档表示为超图中的超边,将语料库中的关键词作为超图的结点,在对单篇文档进行类别预测的过程中,通过超边矩阵、超边相似度矩阵、结点特征矩阵构建图深度学习模型,通过图深度学习模型计算文档类别的第一次预测概率,并结合已知文档标签和第一次预测概率的交叉熵损失对图深度学习模型的学习矩阵参数进行更新,实现了对语料库中无标签文本的准确分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于超图的文本分类流程图;
图2为本发明实施例中文档构成的超图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明基于超图的文本分类方法能够应用于评论分类、新闻分类、欺诈检测等多个领域,参照图1-2所示,本实施例提供一种应用于新闻分类的基于超图的文本分类方法,包括如下步骤:
步骤一:构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点。
语料库C由若干个文档D构成,表示为C={D1,D2,...Dm},其中Di表示语料库C中的i篇文档,m为语料库C中文档的数量;
将语料库C中的所有文档进行分词、去停用词处理,并计算每个文档的TF-IDF值,取所有文档中TF-IDF值大于阈值p的单词构成语料库的关键词库KW,表示为KW={kw1,kw2,...,kwn},其中kwi表示关键词库KW中的第i个关键词,n表示语料库C的关键词数量;
基于语料库C生成超图,将关键词库KW中的关键词作为超图的结点,语料库C中的每个文档作为超图中的一个超边;将语料库C中的每个文档均表示为关键词库KW中关键词的集合。
本实施例语料库C中包含D1、D2、D3三个新闻文档,基于语料库人工生成一个模拟的超图,其中语料库C具体表示为C={D1,D2,D3},语料库C中,所有关键词构成的关键词库为KW={W1,W2,W3,W4,W5},将该5个关键词作为超图结点,TF-IDF值如表1所示;语料库C中的D1、D2、D3三个新闻文档分别表示为关键词的集合,即D1={W1,W2,W3}、D2={W1,W3,W4}、D3={W3,W4,W5};将三个新闻文档作为超图的超边,即超边表示为{{W1,W2,W3},{W1,W3,W4},{W3,W4,W5}},具体如图2所示。
表1
文档 W<sub>1</sub> W<sub>2</sub> W<sub>3</sub> W<sub>4</sub> W<sub>5</sub>
D<sub>1</sub> 0.49 0.42 0.29 0 0
D<sub>2</sub> 0.52 0 0.4 0.26 0
D<sub>3</sub> 0 0 0.46 0.27 0.3
步骤二:基于共现窗口计算关键词库中任意两个关键词的共现频数,得到关键词的邻接矩阵。
设定词共现窗口大小q,若任意两个不同的关键词出现在连续的q个词中,则视为这两个关键词共同出现过一次,根据共现窗口计算关键词库KW中所有关键词在语料库C的所有文档中的共现频数,并进行共现频数的归一化,得到关键词的邻接矩阵A,关键词的邻接矩阵A为一个n×n的矩阵,定义为:
Figure BDA0002322132460000071
其中Ai,j表示关键词i与关键词j的相似程度,1≤i≤n,1≤j≤n。
本实施例通过大小为2的词共现窗口获取词对,计算每个新闻文档中任意两个关键词共同出现的频数,如表2所示;将所有频数进行最大最小归一化,得到关键词之间的权重,构建所有关键词的邻接矩阵A:
Figure BDA0002322132460000072
表2
Figure BDA0002322132460000073
Figure BDA0002322132460000081
步骤三:对语料库中的每一个文档使用超边向量表示,并将所有超边向量进行拼接,形成超边矩阵。
对语料库C中的每一个文档,分别通过超边向量e来表示;其中,超边定义为超图的结点集合V的一个非空子集,超边向量e是长度为n的行向量,具体表示为e={v1,v2,...,vn},vi表示第i个关键词的权重,1≤i≤n;关键词在文档中权重的具体定义方法为:若关键词出现在该文档中,则使用归一化后的TF-IDF值作为权重,对于文档中未出现的关键词,将其权重设置为0。
将语料库C中的每一个文档的超边向量进行拼接,形成超边矩阵H,超边矩阵H为一个n行m列的矩阵,定义为
Figure BDA0002322132460000082
Figure BDA0002322132460000083
Hi,j代表第j个超边中关键词i所占的权重,1≤i≤n,1≤j≤m。
本实施例语料库C中的三个新闻文档,分别通过超边向量e来表示,具体表示为e={v1,v2,...,v5},若关键词出现在该新闻文档中,则使用归一化后的TF-IDF值作为该关键词的权重,对于该文档中未出现的关键词,将其权重设置为0,从而得到三个新闻文档的超边向量e1、e2、e3;将三个超边向量e1、e2、e3拼接成超边矩阵
Figure BDA0002322132460000084
Figure BDA0002322132460000091
步骤四:根据语料库中任意两个文档中所包括的关键词,计算超边之间的相似度,构建超边的相似度矩阵。
统计语料库C中任意两个文档所包括的关键词的交集和并集,使用Jaccard系数计算超边之间的相似度,构建超边的相似度矩阵S,超边相似度矩阵S定义为:
Figure BDA0002322132460000092
其中Si,j表示超边i与超边j之间的相似度,1≤i≤m,1≤j≤m。
本实施例相似度矩阵S计算为:
Figure BDA0002322132460000093
步骤五:将关键词库中的关键词使用预先训练好的词向量表示,构建由词向量组成的超图结点特征矩阵,其中词向量使用word2vce算法在公开语料库上训练得到。
超图结点特征矩阵X定义为:
Figure BDA0002322132460000094
其中N表示关键词的个数,F表示词向量的维度,其中第i行表示第i个关键词的词向量,1≤i≤N。
本实施例中预先训练好的词向量如表3所示,超图结点特征矩阵X计算为:
Figure BDA0002322132460000095
表3
关键词 词向量
W<sub>1</sub> 0.3,0.9,-0.1
W<sub>2</sub> 0.1,0.1,0.8
W<sub>3</sub> 0.7,0.6,0.1
W<sub>4</sub> -0.8,-0.4,-0.8
W<sub>5</sub> -0.9,-0.1,-0.2
步骤六:使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;
图神经网络模型定义如公式(1)所示:
Figure BDA0002322132460000101
其中,X′为超边的状态向量,由结点特征矩阵X经过一次图卷积运算,再按照超边矩阵H进行加权求和得到,表示为
Figure BDA0002322132460000102
Figure BDA0002322132460000103
IA为维度与矩阵A相同的单位矩阵,IS为维度与矩阵S相同的单位矩阵,从左上角到右下角的对角线(主对角线)上的元素均为1,除此以外的元素全都为0;
Figure BDA0002322132460000104
分别是矩阵
Figure BDA0002322132460000106
的度矩阵,其主对角线上的值为结点的度,非对角线上的值为0;
Figure BDA0002322132460000105
分别为结点和超边的拉普拉斯矩阵,用于图卷积运算;W为可学习的参数矩阵,用于对输入的特征矩阵进行线性变换,
Figure BDA0002322132460000111
C为文本的类别数,本实施例中文本的类别数C为2,分别为体育类新闻和娱乐类新闻;O为图神经网络模型的输出,对超边的状态向量X′进行图卷积运算,并经过softmax激活函数得到对每个文档类别的第一次预测结果,
Figure BDA0002322132460000112
Oi,j代表第i个文档属于第j种分类的概率,1≤i≤F,1≤i≤C。
首先,对两个参数矩阵W1、W2的值进行初始化:
Figure BDA0002322132460000113
其次,对超边的状态向量X′进行计算:
Figure BDA0002322132460000114
再次,对超边的状态向量X′进行图卷积运算,并经过softmax激活函数得到对每个新闻文档类别的第一次预测结果:
Figure BDA0002322132460000115
即:
新闻文档D1属于体育类新闻的概率为0.4930,属于娱乐类新闻的概率为0.5070;
新闻文档D2属于体育类新闻的概率为0.5053,属于娱乐类新闻的概率为0.4947;
新闻文档D3属于体育类新闻的概率为0.5164,属于娱乐类新闻的概率为0.4836。
步骤七:基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,并将训练后的参数矩阵代入图神经网络模型,完成语料库中无标签文本的分类。具体过程包括:
首先,采用随机梯度下降算法随机选取部分训练样本,计算训练样本的预测概率和文档的真实标签的交叉熵损失;
其次,分别计算交叉熵损失对于参数矩阵W1、W2的梯度,更新参数矩阵W1和W2的值,如公式(2)所示;训练集上的一次迭代包括预测、计算损失、计算参数梯度、更新参数四步,再经过固定的迭代次数后,得到最终的参数W1和W2
Figure BDA0002322132460000121
其中,W代表可学习的参数矩阵,α为学习率,控制参数更新的步长,
Figure BDA0002322132460000124
为交叉熵损失函数对参数W的梯度。
再次,将训练后的参数矩阵W1和W2代入图神经网络模型,得到语料库中每个文档类别的最终预测概率,完成语料库中无标签文本的分类。
本实施例中已知新闻文档D1为体育类新闻,新闻文档D2为娱乐类新闻,使用交叉熵计算损失,并使用随机梯度下降算法对参数W1和W2进行迭代更新,学习率α设置为0.1。
第一次迭代中,交叉熵损失为0.7056,更新后的参数W1和W2分别为:
Figure BDA0002322132460000122
经过1000次迭代后,交叉熵损失为0.0866,训练后的参数W1和W2分别为:
Figure BDA0002322132460000123
将训练后的参数W1和W2代入公式(1)和公式(2),计算得到对每个新闻文档类别的最终预测概率:
新闻文档D1属于体育类新闻的概率为0.9115,属于娱乐类新闻的概率为0.0885;
新闻文档D2属于体育类新闻的概率为0.0770,属于娱乐类新闻的概率为0.9230;
新闻文档D3属于体育类新闻的概率为0.0040,属于娱乐类新闻的概率为0.9960。
由此可见,通过本发明基于超图的文本分类方法,能够实现对文本类别的准确分类。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于超图的文本分类方法,其特征在于,包括如下步骤:
步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;
步骤二、基于共现窗口计算关键词库中任意两个关键词的共现频数,得到关键词的邻接矩阵;
步骤三、对语料库中的每一个文档使用超边向量表示,并将所有超边向量进行拼接,形成超边矩阵;
步骤四、根据语料库中任意两个文档中所包括的关键词,计算超边之间的相似度,构建超边的相似度矩阵;
步骤五、将关键词库中的关键词使用词向量表示,构建由词向量组成的超图结点特征矩阵;
步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;
步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,并将训练后的参数矩阵代入图神经网络模型,完成语料库中无标签文本的分类。
2.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤一中,语料库由若干个文档构成,将语料库中的所有文档进行分词、去停用词处理,并计算每个文档的TF-IDF值,取所有文档中TF-IDF值大于阈值p的单词构成语料库的关键词库,其中0<p<1;基于语料库生成超图,将关键词库中的关键词作为超图的结点,语料库中的每个文档作为超图中的一个超边;将语料库中的每个文档均表示为关键词库中关键词的集合。
3.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤二中,设定词共现窗口大小q,q>1,根据共现窗口计算关键词库中所有关键词在语料库的所有文档中的共现频数,并进行共现频数的归一化,得到关键词的邻接矩阵。
4.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤三中,对语料库中的每一个文档,分别通过超边向量来表示,其中,超边定义为超图的结点集合的一个非空子集,超边向量中的每个元素表示关键词在该文档中的权重,关键词在文档中权重的具体定义方法为:若关键词出现在该文档中,则使用归一化后的TF-IDF值作为权重,对于文档中未出现的关键词,将其权重设置为0;将语料库中的每一个文档的超边向量进行拼接,形成超边矩阵。
5.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤四中超边的相似度矩阵的具体构建方法为:
统计语料库中任意两个文档所包括的关键词的交集和并集,使用Jaccard系数计算超边之间的相似度,构建超边的相似度矩阵。
6.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤六中图神经网络模型定义如公式1所示:
Figure FDA0002322132450000021
其中,X′为超边的状态向量,表示为
Figure FDA0002322132450000022
H为超边矩阵,X为超图结点特征矩阵;
Figure FDA0002322132450000023
A为关键词的邻接矩阵,S为超边的相似度矩阵,IA为维度与矩阵A相同的单位矩阵,Is为维度与矩阵S相同的单位矩阵;
Figure FDA0002322132450000031
分别是矩阵
Figure FDA0002322132450000032
的度矩阵;
Figure FDA0002322132450000033
分别为结点和超边的拉普拉斯矩阵,用于图卷积运算;W为可学习的参数矩阵,用于对输入的特征矩阵进行线性变换;O为图神经网络模型的输出,输出语料库中每个文档类别的预测概率。
7.根据权利要求6所述的基于超图的文本分类方法,其特征在于,所述步骤七具体包括:
首先,采用随机梯度下降算法随机选取训练样本,计算训练样本的类别预测概率和文档的真实标签的交叉熵损失;
其次,分别计算交叉熵损失对于参数矩阵W1、W2的梯度,并更新参数矩阵W1和W2的值,如公式2所示;训练集上的一次迭代包括样本类别预测、计算交叉熵损失、计算参数矩阵梯度、更新参数矩阵四步,经过固定的迭代次数后,得到最终的参数矩阵W1和W2
Figure FDA0002322132450000034
其中,W代表可学习的参数矩阵,α为学习率,控制参数更新的步长,
Figure FDA0002322132450000035
为交叉熵损失函数对参数W的梯度;
再次,将训练后的参数矩阵W1和W2代入图神经网络模型,得到语料库中每个文档类别的最终预测概率,完成语料库中无标签文本的分类。
CN201911302220.9A 2019-12-17 2019-12-17 一种基于超图的文本分类方法 Active CN111125358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911302220.9A CN111125358B (zh) 2019-12-17 2019-12-17 一种基于超图的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911302220.9A CN111125358B (zh) 2019-12-17 2019-12-17 一种基于超图的文本分类方法

Publications (2)

Publication Number Publication Date
CN111125358A true CN111125358A (zh) 2020-05-08
CN111125358B CN111125358B (zh) 2023-07-11

Family

ID=70498262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911302220.9A Active CN111125358B (zh) 2019-12-17 2019-12-17 一种基于超图的文本分类方法

Country Status (1)

Country Link
CN (1) CN111125358B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112163069A (zh) * 2020-09-27 2021-01-01 广东工业大学 一种基于图神经网络节点特征传播优化的文本分类方法
CN112241456A (zh) * 2020-12-18 2021-01-19 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法
CN112329669A (zh) * 2020-11-11 2021-02-05 孙立业 一种电子档案管理方法
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113505305A (zh) * 2021-05-11 2021-10-15 清华大学 基于解耦式双通道超图神经网络的协同过滤推荐方法和系统
CN113837635A (zh) * 2021-09-29 2021-12-24 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
CN113836302A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 文本分类方法、文本分类装置及存储介质
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN114969351A (zh) * 2022-08-01 2022-08-30 长沙市智为信息技术有限公司 一种基于超图聚合网络的Web攻击检测方法及装置
CN115223549A (zh) * 2022-07-09 2022-10-21 昆明理工大学 一种越南语语音识别语料构建方法
CN116304749A (zh) * 2023-05-19 2023-06-23 中南大学 基于图卷积的长文本匹配方法
CN116383724A (zh) * 2023-02-16 2023-07-04 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王进等: "基于演化超网络的中文文本分类方法", 《江苏大学学报(自然科学版)》 *
范泽泉等: "基于超图的多文档新闻关键词抽取", 《计算机与数字工程》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112163069A (zh) * 2020-09-27 2021-01-01 广东工业大学 一种基于图神经网络节点特征传播优化的文本分类方法
CN112163069B (zh) * 2020-09-27 2024-04-12 广东工业大学 一种基于图神经网络节点特征传播优化的文本分类方法
CN112329669A (zh) * 2020-11-11 2021-02-05 孙立业 一种电子档案管理方法
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112241456B (zh) * 2020-12-18 2021-04-27 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法
CN112241456A (zh) * 2020-12-18 2021-01-19 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113505305A (zh) * 2021-05-11 2021-10-15 清华大学 基于解耦式双通道超图神经网络的协同过滤推荐方法和系统
CN113836302A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 文本分类方法、文本分类装置及存储介质
CN113837635A (zh) * 2021-09-29 2021-12-24 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
CN115223549A (zh) * 2022-07-09 2022-10-21 昆明理工大学 一种越南语语音识别语料构建方法
CN114969351A (zh) * 2022-08-01 2022-08-30 长沙市智为信息技术有限公司 一种基于超图聚合网络的Web攻击检测方法及装置
CN116383724A (zh) * 2023-02-16 2023-07-04 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质
CN116383724B (zh) * 2023-02-16 2023-12-05 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质
CN116304749A (zh) * 2023-05-19 2023-06-23 中南大学 基于图卷积的长文本匹配方法
CN116304749B (zh) * 2023-05-19 2023-08-15 中南大学 基于图卷积的长文本匹配方法

Also Published As

Publication number Publication date
CN111125358B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111125358B (zh) 一种基于超图的文本分类方法
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN107526785B (zh) 文本分类方法及装置
Dong et al. Automatic age estimation based on deep learning algorithm
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN112231562A (zh) 一种网络谣言识别方法及系统
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN109284406A (zh) 基于差异循环神经网络的意图识别方法
CN111046183A (zh) 用于文本分类的神经网络模型的构建方法和装置
CN111651594B (zh) 基于键值记忆网络的案件案由分类方法及介质
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN112015901A (zh) 文本分类方法及装置、警情分析系统
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN113822419B (zh) 一种基于结构信息的自监督图表示学习运行方法
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN106886798A (zh) 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
Le-Hong et al. A comparative study of neural network models for sentence classification
Imani et al. A new feature selection method based on ant colony and genetic algorithm on persian font recognition
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant