CN114036298B - 一种基于图卷积神经网络与词向量的节点分类方法 - Google Patents

一种基于图卷积神经网络与词向量的节点分类方法 Download PDF

Info

Publication number
CN114036298B
CN114036298B CN202111361790.2A CN202111361790A CN114036298B CN 114036298 B CN114036298 B CN 114036298B CN 202111361790 A CN202111361790 A CN 202111361790A CN 114036298 B CN114036298 B CN 114036298B
Authority
CN
China
Prior art keywords
graph
matrix
neural network
nodes
standardized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111361790.2A
Other languages
English (en)
Other versions
CN114036298A (zh
Inventor
朱磊
刘帅
孟海宁
黑新宏
祝轩
文苗青
晁冰
杨哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111361790.2A priority Critical patent/CN114036298B/zh
Publication of CN114036298A publication Critical patent/CN114036298A/zh
Application granted granted Critical
Publication of CN114036298B publication Critical patent/CN114036298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图卷积神经网络与词向量的节点分类方法,包括:将图中节点表示为文本,构建文本数据集,对文本数据集中文本进行分词;使用Word2Vec模型对分词后的文本进行词向量表示;通过数据集内节点与边的信息,得到对应图的标准化邻接矩阵、标准化Laplacian矩阵,利用标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果表示图的结构信息;以词向量表示节点的特征,与图的结构信息相结合作为GCN图卷积神经网络的输入,得到节点的向量嵌入;将节点的向量嵌入输入多层感知机进行节点分类操作,得到分类结果。显著的提高了节点分类任务的效果。

Description

一种基于图卷积神经网络与词向量的节点分类方法
技术领域
本发明属于图数据处理方法技术领域,涉及一种基于图卷积神经网络与词向量的节点分类方法。
背景技术
近年来,随着深度学习技术的日新月异,在生产生活中的诸多领域都见到了深度学习技术的身影,例如卷积神经网络(CNN)和循环神经网络(RNN)都是经典的神经网络。但是如经典的神经网络的目标数据都是例如文本、图像之类的欧几里得数据,而图数据之类的非欧几里得结构的数据则无法处理,于是便提出了在图数据上提取特征的图神经网络(GNN)。图卷积神经网络(GCN)是图神经网络中最为经典的模型。图卷积神经网络是谱图卷积的一阶局部近似,模仿卷积神经网络在图数据上进行卷积操作,融合图中节点的属性信息和节点之间的结构信息,是一个多层的图卷积神经网络,在图卷积神经网络中每一层的卷积操作仅处理节点周围的一跳的邻域信息,通过堆叠多层网络可以抽取节点的多阶邻域中的信息。
Word2Vec是语言模型中的一种,基于浅而双层的神经网络,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。可用来映射每个词到一个向量,可用来表示词对词之间的关系。节点分类是对图数据的研究内容中一个十分重要的方向。节点分类任务的目标是对图中的未知种类的节点进行分类,当有新的节点加入时,也可以得出该节点对应的类别。节点分类任务在实际生产生活中具有十分重要的应用价值。例如在社交网络中,通过对用户分类可以分析他们潜在的拥有共同兴趣的好友,拓宽每个人的交际圈;在电商领域,可以分析得到用户可能有购买意愿的商品,提升用户购物的体验;在金融领域,可以从用户交易网络中发现可能存在经济犯罪行为的用户,增加规避风险的能力等。
现有技术中直接使用GCN图卷积神经网络对图中的节点进行分类,对于节点自身的特征,常常使用预先人为通过相关信息设置好的特征向量或使用onehot独热编码方式表示。这样的节点分类方法忽略了节点自身所带的文本信息,无法提取节点描述文本所带有的信息,导致节点分类效果差。
发明内容
本发明的目的是提供一种基于图卷积神经网络与词向量的节点分类方法,解决了现有技术中存在的节点分类效果差的问题。
本发明所采用的技术方案是,一种基于图卷积神经网络与词向量的节点分类方法,包括以下步骤:
步骤1、将图中节点表示为文本,构建文本数据集,对文本数据集中文本进行分词;
步骤2、使用Word2Vec模型对分词后的文本进行词向量表示;
步骤3、通过数据集内节点与边的信息,得到对应图的标准化邻接矩阵、标准化Laplacian矩阵,利用标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果表示图的结构信息;
步骤4、以词向量表示节点的特征,与图的结构信息相结合作为GCN图卷积神经网络的输入,得到节点的向量嵌入;
步骤5、将节点的向量嵌入输入多层感知机进行节点分类操作,得到分类结果。
本发明的特点还在于:
步骤1中使用Stanford CoreNLP对文本数据集中文本进行分词
步骤3中标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果通过结合矩阵N表示:
N=λadj+(1-λ)L
上式中,λ的值为预设参数,adj表示标准化邻接矩阵,L代表标准化Laplacian矩阵。
步骤6、设置评价指标对分类结果进行评价。
步骤6中通过混淆矩阵来衡量对图中节点的分类效果,得到评价结果。
本发明的有益效果是:
本发明一种基于图卷积神经网络与词向量的节点分类方法,首先对节点的文本信息使用Word2Vec模型进行预处理,对图的结构信息使用邻接矩阵和Laplacian矩阵共同构造结合矩阵的方式进行表示,比单独使用邻接矩阵可以更丰富的表示图的结构特征,然后使用GCN图卷积神经网络进行节点分类的方法,显著的提高了节点分类任务的效果。
附图说明
图1是本发明一种基于图卷积神经网络与词向量的节点分类方法的流程图;
图2是本发明一种基于图卷积神经网络与词向量的节点分类方法的中Word2Vec的CBOW模型示意图;
图3是本发明一种基于图卷积神经网络与词向量的节点分类方法中Word2Vec的Skip-gram模型示意图;
图4是本发明一种基于图卷积神经网络与词向量的节点分类方法中邻接矩阵、度矩阵、Laplacian矩阵示意图;
图5是本发明一种基于图卷积神经网络与词向量的节点分类方法中表示图信息方法示意图;
图6是本发明一种基于图卷积神经网络与词向量的节点分类方法中图卷积神经网络GCN模型示意图;
图7是本发明一种基于图卷积神经网络与词向量的节点分类方法中多层感知机原理示意图;
图8是本发明一种基于图卷积神经网络与词向量的节点分类方法中评价混淆矩阵示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于图卷积神经网络与词向量的节点分类方法,如图1所示,包括以下步骤:
步骤1、将图中节点表示为文本,构建文本数据集,使用Stanford CoreNLP对所述文本数据集中文本进行分词;
Stanford CoreNLP提供了一系列工具来处理人类的自然语言。它可以实现词干还原,标注词的词性;识别人名、地名、日期和时间等命名实体,同时还可以对它们进行归一化;对句子进行乘法句法分析和依存句法分析;还包括指代消解、情感分析和关系抽取,分词等。使用Stanford CoreNLP进行分词可以有效的得到有边界的词汇,为进一步处理文本信息做好准备。
步骤2、使用自然语言处理中的Word2Vec模型对分词后的文本进行词向量表示;
使用Word2Vec模型对节点的文本属性信息进行词向量表示,可以更丰富地表示节点的属性信息,在之后节点分类的任务中取得更好的效果。在Word2Vec词向量模型中,提出了两种模型架构来学习单词的分布式表示,这两种模型架构试图最小化计算复杂性。Word2Vec提出的两种模型架构可能可以在更有效的数据上进行训练。第一个提出的体系结构类似于前馈神经网络语言模型(CBOW)如图2所示,其中非线性隐藏层被去除,投影层被所有单词共享(不仅仅是投影矩阵);因此,所有单词被投影到相同的位置(它们的向量被平均)。这种架构被称为单词包模型,因为已经出现的单词的顺序不会影响投影;同时将要出现的单词也会被利用;在下文中,通过在输入端构建具有四个未来单词和四个历史单词的对数线性分类器获得了最佳性能,其中训练标准是正确分类当前(中间)单词。训练的复杂性是:
Q=N×D+D×log2(V) (1)。
上式中,N表示每个隐藏层的维度,D表示经过映射矩阵得到的词向量维数,V是词汇表的大小。
第二种体系结构Skip-gram类似于CBOW如图3所示,但它不是根据上下文预测当前单词,而是试图根据同一句话中的另一个单词最大限度地对一个单词进行分类。更准确地说,该模型架构使用每个当前单词作为具有连续投影层的对数线性分类器的输入,并预测当前单词前后一定范围内的单词。通过该模型架构,增加范围提高了结果词向量的质量,但也增加了计算的复杂性。由于距离较远的单词通常比距离较近的单词与当前单词的关系更小,所以在训练过程中通过从这些单词中少取样来减少距离较远的单词的权重。这种体系结构的训练复杂度为:
Q=C×(D+D×log2(V)) (2)。
上式中,C是单词的最大距离,D表示经过映射矩阵得到的词向量维数,V是词汇表的大小。
本实施例中采用Skip-gram模型进行文本的向量化表示。
步骤3、通过数据集内节点与边的信息,得到对应图的标准化邻接矩阵、标准化Laplacian矩阵,利用所述标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果表示图的结构信息;
拉普拉斯矩阵(Laplacian matrix)也叫做导纳矩阵、基尔霍夫矩阵或离散拉普拉斯算子,主要应用在图论中,作为一个图的矩阵表示。正则化的拉普拉斯矩阵定义为:
Lsym:=D-1/2LD-1/2=I-D-1/2AD-1/2 (3);
上式中,D代表度矩阵,A代表邻接矩阵,I代表单位矩阵,L代表拉普拉斯矩阵。
邻接矩阵(Adjacency Matrix)是表示顶点之间相邻关系的矩阵。设G=(V,E)是一个图,其中V={v1,v2,…,vn}。G的邻接矩阵是一个具有下列性质的n阶方阵:(1)对无向图而言,邻接矩阵一定是对称的,而且主对角线一定为零(在此仅讨论无向简单图),副对角线不一定为0,有向图则不一定如此;(2)在无向图中,任一顶点i的度为第i列(或第i行)所有非零元素的个数,在有向图中顶点i的出度为第i行所有非零元素的个数,而入度为第i列所有非零元素的个数;(3)用邻接矩阵法表示图共需要n^2个空间,由于无向图的邻接矩阵一定具有对称关系,所以扣除对角线为零外,仅需要存储上三角形或下三角形的数据即可,因此仅需要n(n-1)/2个空间。
对标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果通过结合矩阵N表示:
N=λadj+(1-λ)L (4);
上式中,λ的值为预设参数,adj表示标准化邻接矩阵,L代表标准化Laplacian矩阵。拉普拉斯矩阵与邻接矩阵均可以表示图的特征信息例如图4所示,使用邻接矩阵和Laplacian矩阵共同表示图的结构,比单独使用邻接矩阵可以更丰富的表示图的结构特征。
步骤4、以所述词向量表示节点的特征,与图的结构信息相结合,如图5所示,作为GCN图卷积神经网络的输入,得到节点的向量嵌入,为节点分类做好准备。如图6所示,图卷积神经网络(GCN)是图神经网络中最为经典的模型。图卷积神经网络是谱图卷积的一阶局部近似,模仿卷积神经网络在图数据上进行卷积操作,融合图中节点的属性信息和节点之间的结构信息,是一个多层的图卷积神经网络,在图卷积神经网络中每一层的卷积操作仅处理节点周围的一跳的邻域信息,通过堆叠多层网络可以抽取节点的多阶邻域中的信息。
步骤5、将所述节点的向量嵌入输入多层感知机进行节点分类操作,得到分类结果。多层感知机(Multi-Layer Perceptron,MLP)模型如图7所示,用来解决线性不可分等更复杂的问题。多层感知机指的是由多层结构的感知器递阶组成的输入值向前传播的网络,也被称为前馈网络或正向传播网络。多层感知机通常采用三层结构,由输入层、中间层以及输出层组成,中间层的感知器通过权重与输入层的各单元相连接,通过阈值函数计算中间层各单元的输出值;中间层与输出层之间同样是通过权重相连接。
步骤6、设置评价指标对分类结果进行评价。
具体的,如图8所示,步骤6中通过混淆矩阵来衡量对图中节点的分类效果,得到评价结果。混淆矩阵相比于单一的准确率,提供了更全面的模型评估信息,可以计算出多样的模型表现衡量指标,从而更好地选择模型。
本实施例中利用混淆矩阵得出的评价结果计算准确率、F1-score-weighted两个指标,进而与传统方法对比衡量模型的效果。其中准确率的定义为总样本中预测正确的比例,F1-score-weighted为综合精确率和召回率的指标。在多分类任务中,F1-score-weighted的定义为对每一类的F1值求加权平均;以三分类为例,假设样本总数为N,计算公式为:
通过以上方式,本发明一种基于图卷积神经网络与词向量的节点分类方法,首先对节点的文本信息使用Word2Vec模型进行预处理,对图的结构信息使用邻接矩阵和Laplacian矩阵共同构造结合矩阵的方式进行表示,比单独使用邻接矩阵可以更丰富的表示图的结构特征,然后使用GCN图卷积神经网络进行节点分类的方法,显著的提高了节点分类任务的效果。

Claims (4)

1.一种基于图卷积神经网络与词向量的节点分类方法,其特征在于,包括以下步骤:
步骤1、将图中节点表示为文本,构建文本数据集,对所述文本数据集中文本进行分词;
步骤2、使用Word2Vec模型对分词后的文本进行词向量表示;
步骤3、通过数据集内节点与边的信息,得到对应图的标准化邻接矩阵、标准化Laplacian矩阵,利用所述标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果表示图的结构信息;
所述标准化邻接矩阵、标准化Laplacian矩阵赋权求和结果通过结合矩阵N表示:
N=λadj+(1-λ)L
上式中,λ的值为预设参数,adj表示标准化邻接矩阵,L代表标准化Laplacian矩阵;
步骤4、以所述词向量表示节点的特征,与图的结构信息相结合作为GCN图卷积神经网络的输入,得到节点的向量嵌入;
步骤5、将所述节点的向量嵌入输入多层感知机进行节点分类操作,得到分类结果。
2.根据权利要求1所述的一种基于图卷积神经网络与词向量的节点分类方法,其特征在于,步骤1中使用Stanford CoreNLP对所述文本数据集中文本进行分词。
3.根据权利要求1所述的一种基于图卷积神经网络与词向量的节点分类方法,其特征在于,还包括,步骤6、设置评价指标对分类结果进行评价。
4.根据权利要求1所述的一种基于图卷积神经网络与词向量的节点分类方法,其特征在于,步骤6中通过混淆矩阵来衡量对图中节点的分类效果,得到评价结果。
CN202111361790.2A 2021-11-17 2021-11-17 一种基于图卷积神经网络与词向量的节点分类方法 Active CN114036298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111361790.2A CN114036298B (zh) 2021-11-17 2021-11-17 一种基于图卷积神经网络与词向量的节点分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111361790.2A CN114036298B (zh) 2021-11-17 2021-11-17 一种基于图卷积神经网络与词向量的节点分类方法

Publications (2)

Publication Number Publication Date
CN114036298A CN114036298A (zh) 2022-02-11
CN114036298B true CN114036298B (zh) 2024-02-02

Family

ID=80137910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111361790.2A Active CN114036298B (zh) 2021-11-17 2021-11-17 一种基于图卷积神经网络与词向量的节点分类方法

Country Status (1)

Country Link
CN (1) CN114036298B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219876B (zh) * 2022-02-18 2022-06-24 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质
CN115982654B (zh) * 2023-03-21 2023-08-04 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
WO2021223882A1 (en) * 2020-05-08 2021-11-11 Huawei Technologies Co., Ltd. Prediction explanation in machine learning classifiers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021223882A1 (en) * 2020-05-08 2021-11-11 Huawei Technologies Co., Ltd. Prediction explanation in machine learning classifiers
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑飞 ; 韦德壕 ; 黄胜 ; .基于LDA和深度学习的文本分类方法.计算机工程与设计.2020,(08),全文. *

Also Published As

Publication number Publication date
CN114036298A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN109977413B (zh) 一种基于改进cnn-lda的情感分析方法
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN110472042B (zh) 一种细粒度情感分类方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN112015863A (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant