CN113822342B - 一种安全图卷积网络的文献分类方法及系统 - Google Patents

一种安全图卷积网络的文献分类方法及系统 Download PDF

Info

Publication number
CN113822342B
CN113822342B CN202111028155.2A CN202111028155A CN113822342B CN 113822342 B CN113822342 B CN 113822342B CN 202111028155 A CN202111028155 A CN 202111028155A CN 113822342 B CN113822342 B CN 113822342B
Authority
CN
China
Prior art keywords
sample data
data set
training
network
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111028155.2A
Other languages
English (en)
Other versions
CN113822342A (zh
Inventor
杨智
严亚东
甘海涛
周然
王岌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202111028155.2A priority Critical patent/CN113822342B/zh
Publication of CN113822342A publication Critical patent/CN113822342A/zh
Application granted granted Critical
Publication of CN113822342B publication Critical patent/CN113822342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于安全图卷积网络的文献分类方法及系统,该方法包括:S100:获取包含已标记样本数据和未标记样本数据的训练数据集;S200:利用当前训练数据集训练半监督图卷积网络,并对当前的未标记样本数据进行预测;S300:利用当前训练数据集训练监督图卷积网络,并对当前的未标记样本数据进行预测;S400:选出高置信度样本数据扩充已标记样本数据;S500:迭代执行步骤S200‑S400直至迭代停止;S600:采用当前训练数据集中已标记样本数据训练监督图卷积网络;S700:采用监督图卷积网络进行文献分类。本发明结合半监督学习和图卷积神经网络进行样本扩充,可显著提升文献分类准确率。

Description

一种安全图卷积网络的文献分类方法及系统
技术领域
本发明属于机器学习技术领域,尤其涉及一种安全图卷积网络的文献分类方法及系统。
背景技术
科技文献分类一直以来都是数据挖掘技术领域的关键问题,随着机器学习技术的不断成熟以及深度学习技术的出现,使得科技文献分类变得越来越高效准确。在机器学习的各领域中,监督学习得到了广泛应用,并取得了较好效果。但在标记样本较少的情况下,监督学习效果往往不那么尽如人意。科技文献的数量非常庞大,虽然数据众多,但相比于未标记的数据,标记数据的数量要少得多。因此,存在小样本情况下如何利用大量未标记样本来辅助提升网络模型性能的问题。在这种情况下,半监督学习得到了较好应用。在现有标记数据样本较少的情况下,使用半监督学习方法可以很好地提高分类准确率。
在半监督图卷积神经网络领域中,普遍存在如何利用大量未标记样本来提升网络模型性能的问题。扩充样本标签数据集为目前较常用的解决方案,而扩充样本标签数据集的方法较多,如何有效且安全的扩充样本标签数据集是面临的一个主要问题。
发明内容
本发明的目的是提供一种安全图卷积网络的文献分类方法及系统,该方法及系统可更有效且更安全的扩充样本标签数据集,从而提升模型的预测性能。
本发明实施例提供的一种安全图卷积网络的文献分类方法,包括:
S100:获取包含已标记样本数据和未标记样本数据的训练数据集;
S200:利用当前训练数据集构造第一邻接矩阵,利用第一邻接矩阵训练半监督图卷积网络,采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第一预测值和第一伪标签;其中,当前训练数据集的初始值为步骤S100所获取的训练数据集;
S300:利用当前训练数据集中已标记样本数据构造第二邻接矩阵,将第二邻接矩阵带入监督图卷积网络进行训练,采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第二预测值和第二伪标签;
S400:将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据,统计高置信度样本数据对应的伪标签,并分别获得各类伪标签对应的高置信度样本数据数量,选取各类高置信度样本数据数量的最小值s,从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签,作为已标记样本数据,从而更新当前训练数据集;
S500:将步骤S400更新后的训练数据集作为新的当前训练数据集,迭代执行步骤S200-S400,直至再无第一伪标签和第二伪标签相同的未标记样本数据,执行步骤S600;
S600:采用当前训练数据集中的已标记样本数据训练监督图卷积网络;
S700:采用步骤S600训练后的监督图卷积网络进行文献分类。
一些实施例中,训练数据集Cora数据集、Pubmed数据集、Citeseer数据集中的一个或多个。
一些实施例中,步骤S200中,以半监督图卷积网络的交叉熵为损失函数来训练半监督图卷积网络。
一些实施例中,步骤S300中,以监督图卷积网络的交叉熵为损失函数来训练监督图卷积网络。
进一步的,步骤S600具体为:
采用当前训练数据集中已标记样本数据及对应的标签构造邻接矩阵,再利用邻接矩阵训练监督图卷积网络。
本发明实施例提供的一种基于安全图卷积网络的文献分类系统,包括:
第一模块,用来获取包含已标记样本数据和未标记样本数据的训练数据集;
第二模块,用来利用当前训练数据集构造第一邻接矩阵,利用第一邻接矩阵训练半监督图卷积网络,采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第一预测值和第一伪标签;其中,当前训练数据集的初始值为第一模块所获取的训练数据集;
第三模块,用来利用当前训练数据集中已标记样本数据构造第二邻接矩阵,将第二邻接矩阵带入监督图卷积网络进行训练,采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第二预测值和第二伪标签;
第四模块,将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据,统计高置信度样本数据对应的伪标签,并分别获得各类伪标签对应的高置信度样本数据数量,选取各类高置信度样本数据数量的最小值s,从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签,作为已标记样本数据,从而更新当前训练数据集;
第五模块,用来将第四模块更新后的训练数据集作为新的当前训练数据集,迭代执行第二模块、第三模块、第四模块,直至再无第一伪标签和第二伪标签相同的未标记样本数据,执行第六模块;
第六模块,用来采用当前训练数据集中的已标记样本数据训练监督图卷积网络;
第七模块,用来采用第六模块训练后的监督图卷积网络进行文献分类。
和现有技术相比,本发明的有益效果如下:
(1)现实中未标记数据不全为安全数据,其会存在噪声数据,本发明通过筛选高置信度的未标记数据来扩充样本标签数据集,更有效且更安全。
(2)本发明结合了半监督学习和图卷积神经网络,在少量标记数据的情况下,也可显著提升文献分类的准确率。
附图说明
图1是本发明实施例的流程图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
考虑到现有文献数据中标记数据少以及人工标记成本高的问题,本发明提出了一种安全图卷积网络的文献分类方法及系统。该方法及系统首先通过安全半监督方式来添加置信度高的未标记数据,以扩充样本标签数据集;再利用监督图卷积神经网络训练模型进行预测。通过本发明可获得更安全更准确的文献分类预测结果。
参见图1,所示为实施例中安全图卷积网络的文献分类方法的具体流程,下面将结合图1对实施例的具体实施过程进行详细描述。
S100:获取包含少量已标记样本数据和大量未标记样本数据的训练数据集。
在进行文献分类之前,要提前进行模型训练,则需提前收集文献相关的样本数据集。本实施例中,所收集的训练数据集为Cora数据集(即公共科学论文数据集),其包括少量已标记样本数据和大量未标记样本数据,已标记样本数据至少包括样本的特征信息、类别信息、边集信息,边集信息用来样本间的联系关系;未标记样本数据至少包括样本的特征信息和边集信息。为便于后续验证效果,本实施例中将Cora数据集分为训练数据集和测试数据集,同时标签值经过one-hot处理,其中测试数据集用于效果验证。
将训练数据集记为X,
Figure BDA0003244292740000051
n表示训练数据集中的样本数量,d表示样本的特征维数。训练数据集X中已标记样本数据构成已标记训练数据集,记为Xl,未标记样本数据构成未标记训练数据集,记为Xu。训练数据集X对应的标签集记为Y,采用yα表示标签集Y中第α个标签值,也是训练数据集X中第α个样本数据的标签值,/>
Figure BDA0003244292740000052
α∈[1,n],c表示样本类别数。当yα=-1,表示对应样本的标签值缺失,未标记样本数据的标签值均记为-1。Y中的标签值会在迭代过程中改变,第k次迭代后的标签集记为Y(k)。将初始的已标记训练数据集记为Xl(0),对应的标签集记为Yl(0);初始的未标记训练数据集记为Xu(0),相应的标签默认为-1。
需要声明的是,本实施例中,标签值以独热编码(one-hot)形式来参与交叉熵的运算,以此将每一个yα由标量转换为向量,Y则由向量转换为矩阵,Y∈Rn×c,c为类别数。
利用one-hot编码处理将标量数据转换为向量数据为业内常规方法,为便于理解,下面将以举例方式进行原理说明。假设一训练数据集具有3个类别的样本,相应的标签值分别记为0、1、2。该三个标签值通过one-hot编码,分别转换为[1,0,0]、[0,1,0]、[0,0,1],从而将0、1、2标签值分别转换为了对应的向量。
S200:利用当前训练数据集构造第一邻接矩阵A,将第一邻接矩阵A带入半监督图卷积网络进行训练,采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测,得到各未标记样本数据对应的第一预测值Pre1(k)和第一伪标签
Figure BDA0003244292740000061
由于步骤S200-S500为迭代过程,每次迭代中会对训练数据集进行更新,此处当前训练数据集则指上一次迭代更新后的训练数据集。其中,当前训练数据集初始值采用步骤S100所获取的训练数据集,第一预测值Pre1(k)和第一伪标签
Figure BDA0003244292740000062
上标中的k表示迭代次数,Pre1(k)和/>
Figure BDA0003244292740000063
即表示第k次迭代时获得的第一预测值和第一伪标签,k=1,2,…K,K表示最大迭代次数。
在图论和计算机科学中,邻接矩阵是一种用来表示有限图的方阵,其中每个元素用来表示各点间是否有边相连。
本实施例中,所采用的半监督图卷积网络如下:
Figure BDA0003244292740000064
式(1)中:
σ(·)表示激活函数,本实施例采用RELU函数;
Figure BDA0003244292740000065
表示第k次迭代下半监督图卷积网络的第(i+1)层输出;
Figure BDA0003244292740000066
表示第k次迭代下半监督图卷积网络的第i层输出,半监督图卷积网络的第0层输出(即最初输入)即当前训练数据集;
Figure BDA0003244292740000067
表示添加了自连接的第一邻接矩阵A,所谓“添加自连接”指:将矩阵和与矩阵大小相同的单位矩阵相加,所得矩阵即添加了自连接的矩阵;
Figure BDA0003244292740000068
表示第k次迭代下矩阵/>
Figure BDA0003244292740000069
的度矩阵;
Figure BDA00032442927400000610
表示第k次迭代下半监督图卷积网络第i层对应的权重矩阵。
半监督图卷积网络采用交叉熵作为损失函数。交叉熵能够衡量同一个随机变量中两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵值越小,表示模型预测效果越好。
本实施例中损失函数如下:
Figure BDA0003244292740000071
式(2)中:
Figure BDA0003244292740000072
表示第k次迭代下半监督图卷积网络的交叉熵;
Yl(k)表示第k次迭代下当前训练数据集中已标记样本数据对应的标签集,yl(k)表示Yl(k)中各数据在训练数据集中对应的位置序号所构成的集合,本实施例中,在Yl(k)中以位置序号作为其中元素的下标,g则为集合yl(k)中元素;
Figure BDA0003244292740000073
表示第k次迭代下第g个已标记样本数据对应类别h的标签值;
Figure BDA0003244292740000074
表示当前半监督图卷积网络输出中第g个已标记样本数据对应第h维的输出值;
In表示对数函数。
具体实施时,利用构造的第一邻接矩阵A带入半监督图卷积网络进行训练,随后根据损失函数进行反向传播更新权重矩阵
Figure BDA0003244292740000075
以进行训练。当训练完毕,将当前训练数据集中未标记样本数据带入训练好的监督图卷积网络,得到各未标记样本数据对应的第一预测值Pre1(k)和第一伪标签/>
Figure BDA0003244292740000076
c表示样本类别数;k=1,2,…K,K为最大迭代次数。/>
S300:利用当前训练数据集中已标记样本数据构造第二邻接矩阵A'(k),将第二邻接矩阵A'(k)带入监督图卷积网络进行训练,采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测,得到各未标记样本数据对应的第二预测值Pre2(k)和第二伪标签
Figure BDA0003244292740000077
其中,当前训练数据集初始值采用步骤S100所获取的训练数据集,Pre2(k)和/>
Figure BDA0003244292740000078
上标中的k表示迭代次数,Pre2(k)和/>
Figure BDA0003244292740000079
即第k次迭代时获得的第二预测值和第二伪标签,k=1,2,…K,K为最大迭代次数。
本实施例中,本步骤的具体实施过程如下:
3.1将当前训练数据集中已标记样本数据构成当前已标记训练数据集,记为Xl(k),利用Xl(k)构造第二邻接矩阵A'(k),Xl(k)表示第k次迭代下已标记训练数据集,其初始值为原始的已标记训练数据集记为Xl(0);A'(k)则为第k次迭代下的第二邻接矩阵。
3.2将第二邻接矩阵A'(k)带入式(3)所示的监督图卷积网络进行训练:
Figure BDA0003244292740000081
式(3)中:
σ(·)表示激活函数,本实施例采用RELU函数;
Figure BDA0003244292740000082
表示第k次迭代下监督图卷积网络的第(i+1)层输出;
Figure BDA0003244292740000083
表示第k次迭代下监督图卷积网络的第i层输出,监督图卷积网络的第0层输出(即最初输入)即当前已标记训练数据集;
Figure BDA0003244292740000084
表示第k次迭代下添加了自连接的第二邻接矩阵A'(k)
Figure BDA00032442927400000810
表示矩阵/>
Figure BDA0003244292740000085
的度矩阵;
Figure BDA0003244292740000086
表示第k次迭代下监督图卷积网络第i层对应的权重矩阵。而在监督图卷积网络中同样采用交叉熵损失函数模型作为损失函数:
Figure BDA0003244292740000087
式(4)中:
Figure BDA0003244292740000088
表示第k次迭代下监督图卷积网络的交叉熵;
Yl(k)表示第k次迭代下当前训练数据集中已标记样本数据对应的标签集,yl(k)表示Yl(k)中各数据在训练数据集中对应的位置序号所构成的集合,本实施例中,在Yl(k)中以位置序号作为其中元素的下标,g则为集合yl(k)中元素;
Figure BDA0003244292740000089
表示第k次迭代下第g个已标记样本数据对应类别h的标签值;
Figure BDA0003244292740000091
表示监督图卷积网络输出中第g个已标记样本数据对应第h维的输出值;
In表示对数函数。
具体实施时,利用构造的第二邻接矩阵A'(k)带入监督图卷积网络进行训练,随后根据损失函数进行反向传播更新参数矩阵
Figure BDA0003244292740000092
需说明的是,式(1)~(4)中作为上标的G1和G2,两者并没有明确含义,主要用作区别。带上标G1的参数,为半监督图卷积网络对应参数;带上标G2的参数,为监督图卷积网络对应参数。
3.3训练完毕,将当前训练数据集中未标记样本数据带入训练好的监督图卷积网络,得到各未标记样本数据对应的第二预测值Pre2(k)和第二伪标签
Figure BDA00032442927400000918
Figure BDA0003244292740000093
c表示样本类别数;k=1,2,…K,K为最大迭代次数。
如一未标记样本数据的
Figure BDA0003244292740000094
和/>
Figure BDA0003244292740000095
相同,且Pre1(k)≥Pre2(k),则/>
Figure BDA0003244292740000096
和/>
Figure BDA0003244292740000097
视为相对安全的标签,将其作为该未标记样本数据的伪标签/>
Figure BDA0003244292740000098
将该未标记样本数据记为高置信度样本数据。将所有满足要求的/>
Figure BDA0003244292740000099
组成伪标签集合,统计该集合中各类伪标签对应的高置信度样本数据的数量,取各数量中的最小值s。从各类别中随机选取s个高置信度样本数据及其伪标签,加入到当前的已标记训练数据集和当前的标签集,以达到扩充已标记样本的目的。在此过程中被选中的高置信度样本数据的集合记为/>
Figure BDA00032442927400000910
同时这些样本对应的伪标签的集合记为/>
Figure BDA00032442927400000911
本实施例中,本步骤的具体实施过程如下:
如一未标记样本数据的
Figure BDA00032442927400000912
和/>
Figure BDA00032442927400000913
相同,且Pre1(k)≥Pre2(k),则/>
Figure BDA00032442927400000914
和/>
Figure BDA00032442927400000915
视为相对安全的标签,将其作为该未标记样本数据的伪标签/>
Figure BDA00032442927400000916
将该未标记样本数据记为高置信度样本数据。将所有满足要求的/>
Figure BDA00032442927400000917
组成伪标签集合,统计该集合中各类伪标签对应的高置信度样本数据的数量,取各数量中的最小值s。从各类别中随机选取s个高置信度样本数据及其伪标签,加入到当前的已标记训练数据集和当前的标签集,以达到扩充已标记样本的目的。在此过程中被选中的高置信度样本数据的集合记为/>
Figure BDA0003244292740000101
同时这些样本对应的伪标签的集合记为/>
Figure BDA0003244292740000102
初始已标记训练数据集记为Xl(0)=[x1,x2,...,xt]T,对应的标签集记为Yl(0)=[y1,y2,...,yt]T,初始未标记训练数据集记为Xu(0)=[xt+1,xt+2,...,xn]T,标签值默认为-1。经过第k次迭代后,已标记训练数据集扩充为
Figure BDA0003244292740000103
其所对应标签集扩充为
Figure BDA0003244292740000104
Xl(k)表示第k次迭代后的已标记训练数据集,Xl(k-1)表示第(k-1)次迭代后的已标记训练数据集。
S500:将步骤S400更新后的训练数据集作为新的当前训练数据集,迭代执行步骤S200-S400,直至满足停止条件,即再无未标记样本数据的
Figure BDA0003244292740000105
和/>
Figure BDA0003244292740000106
相同。
S600:采用当前训练数据集中的已标记样本数据训练监督图卷积网络。
监督图卷积网络的训练同步骤S300,即利用更新后的已标记样本数据及对应的标签构造邻接矩阵,利用邻接矩阵训练监督图卷积网络。
S700:采用步骤S600训练后的监督图卷积网络进行文献分类。
在进行文献分类时,先将待分类文献信息构建为邻接矩阵,将邻接矩阵输入监督图卷积网络,则输出相应的预测值。
实施例
本实施例选择Cora、Pubmed、Citeseer三个数据集进行效果验证。采用步骤S100方法,分别将Cora、Pubmed、Citeseer三个数据集分为训练数据集和测试数据集,先利用训练数据集训练模型,然后利用训练好的模型对测试数据集进行分类预测。本发明方法则是按照上述步骤S200-S500训练好监督图卷积网络,然后利用训练好的监督图卷积网络对测试数据集进行分类预测。
本实施例中还采用了其他现有方法先构建模型,然后利用构建的模型对测试数据集进行分类预测,其他方法包括反向传播神经网络法(BP)、支持向量机(SVM)、监督图卷积神经网络(S-GCN)、半监督图卷积神经网络(SS-GCN)、简化图卷积神经网络(SGC)、多核拓扑图卷积神经网络(TAGCN)。本实施例中,在训练S-GCN、SS-GCN、SGC、TAGCN时,我们在构造邻接矩阵时,使用的数据为训练数据集。将预测结果中正确结果与测试数据总数量做比值,获得表1中的准确率数据。从表1可以看出,本发明方法具有更优的分类准确率。
表1对比试验的准确率数据
方法 Cora Pubmed Citeseer
BP 0.555 0.714 0.584
SVM 0.527 0.699 0.499
S-GCN 0.617 0.736 0.569
SS-GCN 0.739 0.751 0.665
SGC 0.711 0.736 0.675
TAGCN 0.641 0.681 0.510
本发明方法 0.767 0.784 0.703
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于安全图卷积网络的文献分类方法,其特征是,包括:
S100:获取包含已标记样本数据和未标记样本数据的训练数据集;
S200:利用当前训练数据集构造第一邻接矩阵,利用第一邻接矩阵训练半监督图卷积网络,采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第一预测值和第一伪标签;其中,当前训练数据集的初始值为步骤S100所获取的训练数据集;
S300:利用当前训练数据集中已标记样本数据构造第二邻接矩阵,将第二邻接矩阵带入监督图卷积网络进行训练,采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第二预测值和第二伪标签;
S400:将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据,统计高置信度样本数据对应的伪标签,并分别获得各类伪标签对应的高置信度样本数据数量,选取各类高置信度样本数据数量的最小值s,从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签,作为已标记样本数据,从而更新当前训练数据集;
S500:将步骤S400更新后的训练数据集作为新的当前训练数据集,迭代执行步骤S200-S400,直至再无第一伪标签和第二伪标签相同的未标记样本数据,执行步骤S600;
S600:采用当前训练数据集中的已标记样本数据训练监督图卷积网络;
S700:采用步骤S600训练后的监督图卷积网络进行文献分类。
2.如权利要求1所述的基于安全图卷积网络的文献分类方法,其特征是:
所述训练数据集Cora数据集、Pubmed数据集、Citeseer数据集中的一个或多个。
3.如权利要求1所述的基于安全图卷积网络的文献分类方法,其特征是:
步骤S200中,以半监督图卷积网络的交叉熵为损失函数来训练半监督图卷积网络。
4.如权利要求1所述的基于安全图卷积网络的文献分类方法,其特征是:
步骤S300中,以监督图卷积网络的交叉熵为损失函数来训练监督图卷积网络。
5.如权利要求1所述的基于安全图卷积网络的文献分类方法,其特征是:
步骤S600具体为:
采用当前训练数据集中已标记样本数据及对应的标签构造邻接矩阵,再利用邻接矩阵训练监督图卷积网络。
6.一种基于安全图卷积网络的文献分类系统,其特征是,包括:
第一模块,用来获取包含已标记样本数据和未标记样本数据的训练数据集;
第二模块,用来利用当前训练数据集构造第一邻接矩阵,利用第一邻接矩阵训练半监督图卷积网络,采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第一预测值和第一伪标签;其中,当前训练数据集的初始值为第一模块所获取的训练数据集;
第三模块,用来利用当前训练数据集中已标记样本数据构造第二邻接矩阵,将第二邻接矩阵带入监督图卷积网络进行训练,采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测,获得各未标记样本数据对应的第二预测值和第二伪标签;
第四模块,将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据,统计高置信度样本数据对应的伪标签,并分别获得各类伪标签对应的高置信度样本数据数量,选取各类高置信度样本数据数量的最小值s,从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签,作为已标记样本数据,从而更新当前训练数据集;
第五模块,用来将第四模块更新后的训练数据集作为新的当前训练数据集,迭代执行第二模块、第三模块、第四模块,直至再无第一伪标签和第二伪标签相同的未标记样本数据,执行第六模块;
第六模块,用来采用当前训练数据集中的已标记样本数据训练监督图卷积网络;
第七模块,用来采用第六模块训练后的监督图卷积网络进行文献分类。
CN202111028155.2A 2021-09-02 2021-09-02 一种安全图卷积网络的文献分类方法及系统 Active CN113822342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028155.2A CN113822342B (zh) 2021-09-02 2021-09-02 一种安全图卷积网络的文献分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028155.2A CN113822342B (zh) 2021-09-02 2021-09-02 一种安全图卷积网络的文献分类方法及系统

Publications (2)

Publication Number Publication Date
CN113822342A CN113822342A (zh) 2021-12-21
CN113822342B true CN113822342B (zh) 2023-05-30

Family

ID=78923702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028155.2A Active CN113822342B (zh) 2021-09-02 2021-09-02 一种安全图卷积网络的文献分类方法及系统

Country Status (1)

Country Link
CN (1) CN113822342B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN111328419A (zh) * 2018-10-15 2020-06-23 因美纳有限公司 基于深度学习的深度卷积神经网络预训练技术
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112633350A (zh) * 2020-12-18 2021-04-09 湖北工业大学 一种基于图卷积的多尺度点云分类实现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
WO2019028725A1 (en) * 2017-08-10 2019-02-14 Intel Corporation CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111328419A (zh) * 2018-10-15 2020-06-23 因美纳有限公司 基于深度学习的深度卷积神经网络预训练技术
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112633350A (zh) * 2020-12-18 2021-04-09 湖北工业大学 一种基于图卷积的多尺度点云分类实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于半监督学习的SVM-KNN;李昆仑;骆学荣;孟晓倩;;北京交通大学学报(第06期);97-100页 *
李勇振 等.基于图卷积神经网络的多视角聚类.计算机工程与应用.2021,115-122页. *

Also Published As

Publication number Publication date
CN113822342A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
Sharma et al. Classification through machine learning technique: C4. 5 algorithm based on various entropies
Sun et al. Feature selection using rough entropy-based uncertainty measures in incomplete decision systems
CN105045825B (zh) 一种结构扩展的多项式朴素贝叶斯文本分类方法
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN110827330B (zh) 一种时序集成的多光谱遥感图像变化检测方法及系统
CN112885415B (zh) 基于分子表面点云的雌激素活性快速筛查方法
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN113569910A (zh) 账户类型识别方法、装置、计算机设备及存储介质
Tran et al. Classifying partially labeled networked data via logistic network lasso
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN113822342B (zh) 一种安全图卷积网络的文献分类方法及系统
CN113066528A (zh) 基于主动半监督图神经网络的蛋白质分类方法
Fan et al. High-dimensional factor copula models with estimation of latent variables
Romor et al. A local approach to parameter space reduction for regression and classification tasks
CN110502669B (zh) 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置
CN111563535A (zh) 一种基于秩为r的离散非负矩阵分解聚类方法
CN110866838A (zh) 基于转移概率预处理的网络表示学习算法
JP2012079225A (ja) 協調フィルタリング処理方法およびプログラム
Alchikh et al. On the solutions of the fractional Bratu’s problem
Li et al. A BYY scale-incremental EM algorithm for Gaussian mixture learning
Tar et al. Automated quantitative measurements and associated error covariances for planetary image analysis
Seiferth et al. Online Gaussian Process regression with non-Gaussian likelihood
Tosun et al. Training restricted Boltzmann machines with overlapping partitions
Li et al. Non-monotone projection gradient method for non-negative matrix factorization
CN112233016B (zh) 基于自组织图约束直推式非负矩阵分解的未见图像特征迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant