CN108388651B - 一种基于图核和卷积神经网络的文本分类方法 - Google Patents

一种基于图核和卷积神经网络的文本分类方法 Download PDF

Info

Publication number
CN108388651B
CN108388651B CN201810168847.9A CN201810168847A CN108388651B CN 108388651 B CN108388651 B CN 108388651B CN 201810168847 A CN201810168847 A CN 201810168847A CN 108388651 B CN108388651 B CN 108388651B
Authority
CN
China
Prior art keywords
graph
text
node
nodes
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810168847.9A
Other languages
English (en)
Other versions
CN108388651A (zh
Inventor
郭平
张璐璐
辛欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810168847.9A priority Critical patent/CN108388651B/zh
Publication of CN108388651A publication Critical patent/CN108388651A/zh
Application granted granted Critical
Publication of CN108388651B publication Critical patent/CN108388651B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于图核和卷积神经网络的文本分类方法,属于数据挖掘和信息检索技术领域。核心思想为:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应;再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别。本发明与现有技术相比,能够充分利用文本的内部结构和上下文语义,使文本内容得以充分表达;使节点信息更加合理;有效解决了文本分类中复杂繁琐的处理过程。

Description

一种基于图核和卷积神经网络的文本分类方法
技术领域
本发明涉及文本的分类方法,尤其涉及一种基于图核和卷积神经网络的文本分类方法,属于数据挖掘和信息检索技术领域。
背景技术
随着大数据时代的到来,信息量爆发式增长,信息处理的方式由传统的人工处理方式逐渐向自动化处理方式过渡。文本分类作为信息处理的重要任务,其目的在于自动分类无标签文档到预定的类别集合中,可以在较大程度上解决信息杂乱的现象,进而实现对海量信息的高效管理,文本分类技术目前已经广泛应用到信息过滤、信息检索、话题检测与追踪等领域。
目前的文本分类技术主要有三种:基于规则的文本分类方法、基于统计的文本分类方法和基于神经网络的文本分类方法。基于规则的方法是一种确定性的推理方法,根据上下文对确定性事件进行定性描述,从而进行归纳总结。常见的方法有决策树,关联规则等。基于统计的方法是一种基于概率的定量推理方法,通过概率的比较掩盖小概率事件的发生。其优点是通过大规模语料库的分析得出经验概率,对分类结果提供了比较客观的数据支撑。常用的方法有朴素贝叶斯,K-近邻算法,支持向量机等。基于神经网络的方法是通过模拟人脑神经网络,建立网络模型从而对数据进行智能的分类。常用的方法有卷积神经网络、循环神经网络等。
文本分类的基础任务是将文档转换成计算机能够识别的表达方式,合理有效的文本表示是保证文本分类质量的重要前提,目前的文本表示方法总体上可分为基于特征向量的传统文本表示方法和基于图结构的文本表示方法。
基于特征向量的传统文本表示方法有向量空间模型和布尔模型。向量空间模型将文档表示为特征空间中的一个向量,特征可以是字、词、短语等,特征的权重可以是词频、语义重要度等;布尔模型是向量将文档表示为一个特征的二值变量集合,文档中出现相应特征,则特征变量置为1,否则为0。这两种模型都依赖于词袋模型,词袋模型虽然表达形式简单、计算量小,但是没有考虑文本的内部结构和上下文语义,会造成信息流失,影响文本内容的充分表达。
基于图结构模型的文本表示方法近年来成为研究热点,将文档表示为图结构,既保留了原始文档中单词本身所包含的信息,也增加了单词之间的结构关系,具有较强的表达能力和较高的灵活性,丰富了所能表达的语义信息。把文本数据转换成图数据,就是把对文本数据的分析转换成了对图数据的分析。
对于文本分类的问题,现有技术主要是把文本表示成向量空间模型,这种表达方式丢失了文本的语义结构信息,本发明提出一种基于图核和卷积神经网络的文本分类方法,可有效地保留了文本的语义结构,提升分类准确度。
发明内容
本发明的目的是克服现有技术中将文本表示成向量空间模型的表达方式丢失文本语义结构信息的技术缺陷,提出了一种基于图核和卷积神经网络的文本分类方法。
本发明的核心思想为:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应,再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别。
一种基于图核技术与神经网络相结合的文本分类算法,包括以下步骤:
步骤一、通过文本分词、去除文本中的停用词、标点和数字,以及创建图将文本转化为图结构,具体为:
步骤1.1文本分词,把整篇的文章分割成词的序列;
步骤1.2去除文本中的停用词、标点和数字,将文档表示为保留词的先后次序关系的特征词序列;
步骤1.3创建图G,特征词作为图的节点N,采用滑动窗口遍历文本,若两个特征词在同一个滑动窗口中出现,则在两者之间建立一条边E,共现的次数记为边的权重W,若两个特征词不在同一个滑动窗口中出现,则不创建边;
步骤二、采用ND-IGF(node degree-inverse graph frequency)计算节点的权重,具体为:
步骤2.1计算在步骤一创建的图G中,与节点n相连的节点在该图所有节点中的占比ND(n,g),通过如下公式(1)进行计算:
Figure BDA0001585236630000031
其中,g表示一个文本的图结构,n表示图中的节点,|Dn.g|表示在图g中与节点n相连的节点数量,|Ng|表示图g的节点总数;
步骤2.2计算节点n的类别区分能力,通过公式(2)使用逆向图频率IGF计算:
Figure BDA0001585236630000032
其中,|G|表示图的总数量,|{j:n∈Gj}|表示包含节点n的图的数量;IGF(n)指包含节点n的图越少,IGF(n)越大,则说明节点n具有很好的类别区分能力;
步骤2.3综合考虑ND和IGF,评估一个节点对于图的重要程度ND-IGF(n,g):
ND-IGF(n,g)=ND(n,g)*IGF(n) (3)
若一个节点在某一类图的出现频率高,或在整个图集合的出现频率低,则可以产生出高权重的ND-IGF;因此,ND-IGF可以筛选出识别能力强的节点;
步骤三、使用社区划分算法把图分割成若干子图,具体为:
步骤3.1将图G中节点的度作为节点的聚类系数,对节点进行降序排序;
步骤3.2将聚类系数最大的节点vi初始化为社区A,将与节点vi相邻的节点组成邻域B,计算邻域B中各节点与社区A的相似度,从中选出与社区A相似度最高的节点vj,计算节点vj加入到社区A时的模块度增量ΔW(vj),若模块度增量ΔW(vj)>0,则将vj加入到社区A,若模块度增量ΔW(vj)<0,则不将vj加入到社区A。依次迭代所有节点,直到社区A中的节点不再变化,并将社区A中度最大的节点作为该社区的标志节点;
步骤3.3将社区A的补集作为新的图G,执行步骤3.2,直到所有的节点都有隶属的社区,子图集合记为M0
步骤四、计算将步骤三中得到的若干子图转化为四维张量表示,具体包括如下子步骤:
步骤4.1使用weisfeiler-lehman算法对社区划分后得到的子图集合M0迭代h次,生成计算wl核所需要的扩充图集M;
步骤4.2从所有的社区中选定W个社区作为基准社区,每个图对应的所有子图Gi依次与选定的W个社区计算核值K,并得到图Gi的高维表达V;
步骤五、构建卷积神经网络在训练集上进行训练,通过后向传播算法更新网络参数,得到文本的分类模型,通过该模型可求得待分类文本的分类结果,具体为:
步骤5.1定义神经网络的结构;
选用卷积神经网络,该网络由输入层、卷积层、池化层、全连接层、输出层组成;输入层的输入数据为步骤四求得的张量V,输出层的输出数据是文本的分类结果;
步骤5.2执行步骤5.1定义的卷积神经网络,并使用后向传播算法更新步骤5.1神经网络的网络参数;
步骤5.3多次迭代步骤5.2,直至损失小于某个阈值,得到分类模型,通过该模型可求得待分类文本的分类结果;
其中,某个阈值为人为约定的常数。
有益效果
本发明提出的一种基于图核和卷积神经网络的文本分类方法,与现有技术相比,具有如下有益效果:
(1)把文本转化成图结构,充分利用文本的内部结构和上下文语义,使文本内容得以充分表达;
(2)提出一种新的节点权重计算方式,使节点信息更加合理;
(3)使用社区发现算法从图中检测出多个局部子图,有效挖掘了图的多维特征;
(4)提出一种新的图核技术,有效利用节点和边的属性信息,把图映射到高维空间;
(5)利用神经网络强大的表达能力实现了高准确率的文本分类效果,且神经网络可以端到端的训练和分类,有效解决了文本分类中复杂繁琐的处理过程。
附图说明
图1是本发明一种基于图核和卷积神经网络的文本分类方法的流程图;
图2是本发明中步骤一中将文本转换为图结构的示意图;
图3是本发明中步骤三中社区划分的示意图;
图4是本发明中步骤五中卷积神经网络的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例
如图1所示,该实施例共分为五个步骤,具体如下:
步骤A、将文本转化为图结构,如图2所示。
A.1首先进行文本分词,中文文本中,词之间是连写的,不像西文中,词是自然分离的,所以首先需要将中文的文章分割成词的序列。主流的中文分词算法有正向最大匹配法、逆向最大匹配法、最佳匹配法、逐词遍历法、最优路径法等。本文采用的算法是串频最大匹配,这是一种基于统计的切分方法,当两个字的相邻共现概率高于一个阈值时,便认为此字组可能构成了一个词。
A.2去除文本中的停用词、标点、数字,如“的”、“啦”、“呵呵”等。这些词在每篇文章中的出现频率都很高,且没有实际的含义,去除这些词汇不仅可以减少特征词空间,还可以提高检索速度。本发明中使用的是大连理工大学提供的停用词词典,包括中英文标点符号、高频词等。
A.3将文本的图结构定义为一个三元组形式G=(N,E,W),其中N表示节点集合{n1,n2,…,nk},每个节点n代表一个特征词,k代表图结构的节点的数量;E表示边集合{e1,e2,…,em},每条边eij代表两个特征词ni和nj的共现关系,m代表图结构的边的数量;W表示边的权重集合{w1,w2,…,wm},wij代表边eij的权重,特征词ni和nj的共现次数越多,权重wij越大。构建过程为采用滑动窗口遍历文本,若两个特征词在同一个滑动窗口中出现,则在两者之间建立一条边,共现的次数记为边的权重,若两个特征词不在同一个滑动窗口中出现,则不创建边。
完成了以上步骤,文本就转换成了图结构,图结构中的节点体现了特征词信息,边体现了特征词的共现信息,边的权重值体现了特征词语义相关程度的强弱。基于图结构的文本表示方法保留了文本的语义结构信息,具有较强的表达能力和较高的灵活性。
步骤B、采用ND-IGF(Node Degree-Inverse Graph Frequency)计算节点的权重。
确定节点权重的最直接方法是使用节点的度作为权重,既词的出现次数越多,相应节点的权重越大。但在文章中,常用词往往在所有的文章中出现次数都很高,而能突出文章特性的词的出现次数反而并不多,所以单纯以出现次数衡量一个词的重要性显然不够全面。所以就需要一个权重系数,用来调整特征词的重要性。既一个词虽然很少见,但是它在某一类文章中反复出现多次,那么可以认为这个词反应了这一类文章的特性,应该提高其权重,词的权重系数与其常见程度成反比。
本发明提出ND-IDF计算节点权重,其主要思想是:如果某个节点在一个图中出现的频率ND高,并且在其他图中很少出现,则认为此节点具有很好的类别区分能力。定义节点的度为ND,权重系数为IGF,两者相乘,就得到节点的ND-IDF值,某个节点对图越重要,它的ND-IDF值就越大。具体计算方法如下:
B.1计算图G中,与节点n相连的节点在该图所有节点中的占比ND(n,g)
Figure BDA0001585236630000081
其中,g表示一个文本的图结构,n表示图中的节点,|Dn.g|表示在图g中与节点n相连的节点数量,|Ng|表示图g的节点总数;
优选地,可以对ND进行归一化处理,因为同一个节点在节点数多的图中往往比节点数少的图拥有更高的占比,所以可以使用:
Figure BDA0001585236630000091
其中g表示一个文本的图结构,n表示图中的节点,|Dn.g|表示在图g中与节点n相连的节点数量,|Ng|表示图g的节点总数,avg(G)表示所有图的平均节点数量,b为比例参数。
B.2计算节点n的类别区分能力,使用逆向图频率IGF:
Figure BDA0001585236630000092
其中,|G|表示图的总数量,|{j:n∈Gj}|表示包含节点n的图的数量。IGF(n)指包含节点n的图越少,IGF(n)越大,则说明节点n具有很好的类别区分能力。
B.3若一个节点在图中的度大,ND认为综合考虑ND和IGF,评估一个节点对于图的重要程度ND-IGF(n,g):
ND-IGF(n,g)=ND(n,g)*IGF(n)
若一个节点在某一类图的出现频率高,或在整个图集合的出现频率低,则可以产生出高权重的ND-IGF。因此,ND-IGF可以筛选出识别能力强的节点。
步骤C、使用社区划分算法把图分割成若干子图,如图3所示。
社区划分的目的在于找到图G的若干个子图,同一子图内的节点与节点之间的连接很紧密,而子图与子图之间的连接比较稀疏,从而更好地表示图的结构信息,进而更好地表示文本的层次结构。定义文本的图结构为G=(N,E,W,X),其中X代表节点的属性矩阵,xij代表节点i的第j个属性。
C.1对于图G,以节点的度作为聚类系数,对节点进行降序排序
C.2将聚类系数最大的节点vi初始化为社区A,将与节点vi相邻的节点组成邻域B,计算邻域B中各节点与社区A的相似度,从中选出与社区A相似度最高的节点vj,计算节点vj加入到社区A时的模块度增量ΔW(vj)。
模块度代表社区聚类密度,当社区内部聚类密度大,社区外部聚类密度小时,社区的模块度则大。定义社区A的模块度为W(A)
Figure BDA0001585236630000101
其中|A|表示社区A中节点的数量,I(A)表示社区A中边的数量,CUA表示社区A的补集,O(A)表示社区A的和补集之间的边的数量。
定义vj加入到社区A之后的社区为A′,则模块增加度为
ΔWA(vj)=W(A′)-W(A)
若模块度增量ΔW(vj)>0,则将vj加入到社区A,若模块度增量ΔW(vj)<0,则不将vj加入到社区A。依次迭代所有节点,直到社区A中的节点不再变化,并将社区A中度最大的节点作为该社区的标志节点。
C.3将社区A的补集作为新的图G,执行步骤C.2,直到所有的节点都有隶属的社区。
完成了以上步骤,图G被分成多个子图,子图集合记为M0,子图内部的连接密度大,子图之间连接密度小,这种表达形式使文本图的语义结构信息更为清晰。
步骤D、利用图核算法将步骤C得到的图结构转化为四维张量表示,具体如下:
目前图映射成向量的方法主要有两类:图嵌入算法和图核函数算法。图嵌入算法先把图嵌入到向量空间,然后再使用传统的基于向量的核函数进行计算,此方法的缺点在于把图映射到向量空间的过程中,丢失了大量的图结构信息;而图核算法直接使用核函数处理图数据,既保留了图在高维希尔伯特空间中的结构信息,又将原本空间上非线性的复杂问题转变为可以计算的线性问题。目前主流的图核函数有随机通路核、最短通路核、子树核、子图核等,本发明使用weisfeiler-lehman核(属于子树核)进行计算。
D.1使用weisfeiler-lehman算法对社区划分后得到的子图集合M0迭代h次,生成计算wl核所需要的扩充图集M。
当i=0时,表示第1次迭代。此时将M0中所有的节点的标签按含义排序后,从1开始按顺序重新标注,假设最后的标注为L0.此时M0中每个节点gj的重要性cgj为步骤B中求得的节点gj的重要性ND-IGF(n,g)值。
当i!=0时,表示第i+1次迭代。此时对于Mi-1中的某个节点gj,假设其标注为s0,与gj相邻的节点集为{g′1,g′2,…,g′n}(按标注升序排列),该节点集对应的标注为{s1,s2,…,sn}.令Si(gj)=′s0_s1_s2_…sn′,则每个Mi-1中的每个节点都可以得到一个新的字符串标注Si(gj)。将这些新得到的标注,从L(i-1)开始重新标注(标注压缩),一直标注到Li。重新标注后可以得到新的图集Mi.假设Mi-1中的节点gj对应Mi中的节点gk,则Mi中节点gk的重要性为:
Figure BDA0001585236630000121
其中
Figure BDA0001585236630000122
表示节点gj和节点g′x之间的边的权重。
经过上述的h次迭代扩充后,最终得到图集M=[M0,M1,…,Mh-1]
D.2从所有的社区中选定W个社区作为基准社区,每个图对应的所有子图Gi依次与选定的W个社区计算核值K,并得到图Gi的高维表达V。
定义映射c(Gij,k)为子图Gi中所有标注为σj,k的节点重要性之和。
定义映射
Figure BDA0001585236630000123
假设图G存在一个子图Gi,基准社区中存在一个社区Gl′,则根据前面的定义,我们可以得到核值:
Figure BDA0001585236630000124
(<>表示两个向量的内积)
根据上述计算核值的方式,图G的子图Gi与W个基准社区依次进行计算,得到长度为W的特征向量。同时H个子图依次进行计算,得到H×W的特征矩阵。由于只采用了一种核函数,因此输入到后续网络中的张量V大小为B×1×H×W,其中B表示每次输入网络中的batch的大小。
步骤E、构建卷积神经网络在训练集上进行训练,通过后向传播算法更新网络参数,得到最终的分类模型,通过该模型可求得待分类文本的分类结果,具体如下:
E.1定义神经网络结构。如图4所示,本发明使用的卷积神经网络由输入层、卷积层、池化层、全连接层、输出层组成。将步骤D得的张量V作为卷积神经网络的输入,然后通过卷积层做卷积操作,本发明使用的卷积层具有256个卷积核,每个卷积核大小均为(1,1,W),每次滑动位置为1。将卷积层采集的向量输入到池化层,通过池化层来降低向量的纬度,可以采用max pooling层作为池化层来对每一个卷积核做Max Pooling操作,通过池化层后每个文本会得到一个向量Vg,向量Vg的维数等于卷积层神经元的个数。最后将向量Vg输入到全连接层中,再由softmax函数计算文本的分类概率。
E.2使用后向传播算法更新网络参数。后向传播算法是神经网络模型更新参数的通用算法,其主要思想是:将训练集数据输入到神经网络的输入层,经过隐藏层,最后达到输出层并输出结果;由于其输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据误差调整各种参数的值。
E.3多次迭代步骤E.2,直至损失小于某个阈值(这个常数通常是人为约定的),得到分类模型,通过该模型可求得待分类文本的分类结果(此时可以用测试集验证模型的分类效果)。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (4)

1.一种基于图核和卷积神经网络的文本分类方法,其特征在于:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应,再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别;
包括以下步骤:
步骤一、通过文本分词、去除文本中的停用词、标点和数字,以及创建图将文本转化为图结构,具体为:
步骤1.1文本分词,把整篇的文章分割成词的序列;
步骤1.2去除文本中的停用词、标点和数字,将文档表示为保留词的先后次序关系的特征词序列;
步骤1.3创建图G,特征词作为图的节点N,采用滑动窗口遍历文本,若两个特征词在同一个滑动窗口中出现,则在两者之间建立一条边E,共现的次数记为边的权重W,若两个特征词不在同一个滑动窗口中出现,则不创建边;
步骤二、采用ND-IGF, node degree-inverse graph frequency, 计算节点的权重,具体为:
步骤2.1计算在步骤一求得的图G中,与节点n相连的节点在该图所有节点中的占比ND(n,g),通过如下公式(1)进行计算:
Figure FDA0003085150100000011
其中,g表示一个文本的图结构,n表示图中的节点,|Dn.g|表示在图g中与节点n相连的节点数量,|Ng|表示图g的节点总数;
步骤2.2计算节点n的类别区分能力,通过公式(2)使用逆向图频率IGF计算:
Figure FDA0003085150100000021
其中,|G|表示图的总数量,|{j:n∈Gj}|表示包含节点n的图的数量;IGF(n)指包含节点n的图越少,IGF(n)越大,则说明节点n具有好的类别区分能力;
步骤2.3综合考虑ND和IGF,评估一个节点对于图的重要程度ND-IGF(n,g):
ND-IGF(n,g)=ND(n,g)*IGF(n) (3)
若一个节点在某一类图的出现频率高,或在整个图集合的出现频率低,则可以产生出高权重的ND-IGF;因此,ND-IGF可以筛选出识别能力强的节点;
步骤三、使用社区划分算法把步骤一创建的图分割成若干子图;
步骤四、计算将步骤三中得到的若干子图转化为四维张量表示;
步骤五、构建卷积神经网络在训练集上进行训练,通过后向传播算法更新网络参数,得到文本的分类模型,通过该模型求得待分类文本的分类结果。
2.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤三,具体为:
步骤3.1将图G中节点的度作为节点的聚类系数,对节点进行降序排序;
步骤3.2将聚类系数最大的节点vi初始化为社区A,将与节点vi相邻的节点组成邻域B,计算邻域B中各节点与社区A的相似度,从中选出与社区A相似度最高的节点vj,计算节点vj加入到社区A时的模块度增量ΔW(vj),若模块度增量ΔW(vj)>0,则将vj加入到社区A,若模块度增量ΔW(vj)<0,则不将vj加入到社区A;依次迭代所有节点,直到社区A中的节点不再变化,并将社区A中度最大的节点作为该社区的标志节点;
步骤3.3将社区A的补集作为新的图G,执行步骤3.2,直到所有的节点都有隶属的社区,子图集合记为M0
3.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤四,具体包括如下子步骤:
步骤4.1使用weisfeiler-lehman算法对社区划分后得到的子图集合M0迭代h次,生成计算wl核所需要的扩充图集M;
步骤4.2从所有的社区中选定W个社区作为基准社区,每个图对应的所有子图Gi依次与选定的W个社区计算核值K,并得到图Gi的高维表达V。
4.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤五,具体为:
步骤5.1定义神经网络的结构;
选用卷积神经网络,该网络由输入层、卷积层、池化层、全连接层、输出层组成;输入层的输入数据为步骤四求得的张量V,输出层的输出数据是文本的分类结果;
步骤5.2执行步骤5.1定义的卷积神经网络,并使用后向传播算法更新步骤5.1神经网络的网络参数;
步骤5.3多次迭代步骤5.2,直至损失小于某个阈值,得到分类模型,通过该模型求得待分类文本的分类结果;
其中,某个阈值是人为约定的常数。
CN201810168847.9A 2018-02-28 2018-02-28 一种基于图核和卷积神经网络的文本分类方法 Expired - Fee Related CN108388651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810168847.9A CN108388651B (zh) 2018-02-28 2018-02-28 一种基于图核和卷积神经网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810168847.9A CN108388651B (zh) 2018-02-28 2018-02-28 一种基于图核和卷积神经网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN108388651A CN108388651A (zh) 2018-08-10
CN108388651B true CN108388651B (zh) 2021-09-28

Family

ID=63069647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810168847.9A Expired - Fee Related CN108388651B (zh) 2018-02-28 2018-02-28 一种基于图核和卷积神经网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN108388651B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423284B2 (en) * 2018-09-07 2022-08-23 Black Sesame Technologies, Inc Subgraph tile fusion in a convolutional neural network
CN111199157B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 一种文本数据处理方法及其装置
WO2020140818A1 (zh) 2018-12-30 2020-07-09 北京极智嘉科技有限公司 订单处理方法、装置、设备及存储介质
CN111523918B (zh) * 2019-02-02 2023-09-19 北京极智嘉科技股份有限公司 商品聚类的方法、装置、设备和存储介质
CN109918542B (zh) * 2019-01-28 2021-12-17 华南理工大学 一种用于关系图数据的卷积分类方法及系统
CN109871469B (zh) * 2019-02-28 2021-09-24 浙江大学城市学院 基于动态图元的小簇人群识别方法
WO2020254924A1 (en) * 2019-06-16 2020-12-24 Way2Vat Ltd. Systems and methods for document image analysis with cardinal graph convolutional networks
WO2021012215A1 (zh) * 2019-07-24 2021-01-28 华为技术有限公司 神经网络切分方法、预测方法及相关装置
CN110705629A (zh) * 2019-09-27 2020-01-17 北京市商汤科技开发有限公司 数据处理方法及相关装置
CN110688722B (zh) * 2019-10-17 2023-08-08 深制科技(苏州)有限公司 一种基于深度学习的零部件属性矩阵自动生成方法
CN110826700B (zh) * 2019-11-13 2021-04-23 中国科学技术大学 建模邻居交互的双线性图神经网络模型的实现及分类方法
CN111382316B (zh) * 2020-03-06 2023-09-26 北京理工大学 一种基于位图近似的h-跳距离核分解方法
CN111291232B (zh) * 2020-03-06 2023-09-26 北京理工大学 一种基于h-跳距离的图核分解方法
CN111932131B (zh) * 2020-08-12 2024-03-15 上海冰鉴信息科技有限公司 业务数据处理方法及装置
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
CN112256867B (zh) * 2020-09-27 2024-09-20 华为技术有限公司 文本分类模型的训练方法、系统及相关设备
CN112418267B (zh) * 2020-10-16 2023-10-24 江苏金智科技股份有限公司 一种基于多尺度可视图和深度学习的电机故障诊断方法
CN112329460B (zh) * 2020-11-02 2023-07-28 中国平安人寿保险股份有限公司 文本的主题聚类方法、装置、设备及存储介质
CN112381089B (zh) * 2020-11-20 2024-06-07 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112632280B (zh) * 2020-12-28 2022-05-24 平安科技(深圳)有限公司 文本分类方法、装置、终端设备及存储介质
CN115994668B (zh) * 2023-02-16 2023-06-20 浙江非线数联科技股份有限公司 智慧社区资源管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
US9659248B1 (en) * 2016-01-19 2017-05-23 International Business Machines Corporation Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659248B1 (en) * 2016-01-19 2017-05-23 International Business Machines Corporation Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置

Also Published As

Publication number Publication date
CN108388651A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN107526785B (zh) 文本分类方法及装置
CN111125358B (zh) 一种基于超图的文本分类方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN111552803B (zh) 一种基于图小波网络模型的文本分类方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN111966827B (zh) 基于异构二部图的对话情感分析方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN114036303B (zh) 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN115329101A (zh) 一种电力物联网标准知识图谱构建方法及装置
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质
CN112307914B (zh) 一种基于文本信息指导的开放域图像内容识别方法
CN114048314A (zh) 一种自然语言隐写分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210928

CF01 Termination of patent right due to non-payment of annual fee