CN116992098A - 引文网络数据处理方法及系统 - Google Patents
引文网络数据处理方法及系统 Download PDFInfo
- Publication number
- CN116992098A CN116992098A CN202311247077.4A CN202311247077A CN116992098A CN 116992098 A CN116992098 A CN 116992098A CN 202311247077 A CN202311247077 A CN 202311247077A CN 116992098 A CN116992098 A CN 116992098A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- neighbor
- network data
- quotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 52
- 238000004220 aggregation Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000005070 sampling Methods 0.000 claims abstract description 32
- 239000013604 expression vector Substances 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 10
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 206010067584 Type 1 diabetes mellitus Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据挖掘技术领域,提出了引文网络数据处理方法及系统,包括:获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;将文献作为节点,将文献之间的引用关系作为边,构建图结构;将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点对应文献的特征。通过上述技术方案,解决了现有技术中引文网络检索结果准确性差的问题。
Description
技术领域
本发明涉及数据挖掘技术领域,具体的,涉及引文网络数据处理方法及系统。
背景技术
引文网络包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地展示了某个领域下的学术研究随着时间推移所达到的研究深度和研究广度。熟练掌握引文网络的使用,能够为用户省去大量漫无目的浏览文献、筛选文献的时间,把精力集中在优质文献的阅读和理解上。随着现代信息技术的发展,文献著作数量迅速增加,引文网络已经形成了一个超大规模的复杂网络系统,网络中的任何偏差都会导致文献搜索结果不准确。
发明内容
本发明提出引文网络数据处理方法及系统,解决了相关技术中引文网络检索结果准确性差的问题。
本发明的技术方案如下:
第一方面,引文网络数据处理方法,包括引文网络特征提取的步骤,具体包括:
获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
将文献作为节点,将文献之间的引用关系作为边,构建图结构;
将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点对应文献的特征;n为不小于2的正整数;
其中,第k次邻居节点采样聚合操作包括:
将该任一节点作为目标节点,基于预训练模型,计算目标节点的各k阶邻居节点的注意力分数;
从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合;
重新计算k阶邻居节点集合中每一邻居节点j’相对于所述目标节点的注意力分数,经归一化后作为权重系数;
使用所述权重系数将/>个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量。
第二方面,引文网络数据处理系统,包括:
获取单元,用于获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
生成单元,用于将文献作为节点,将文献之间的引用关系作为边,构建图结构;
采样聚合单元,将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点对应文献的特征; n为不小于2的正整数;
其中,第k次邻居节点采样聚合操作包括:
将该任一节点作为目标节点,基于预训练模型,计算目标节点的各k阶邻居节点的注意力分数;
从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合;
重新计算k阶邻居节点集合中每一邻居节点j’相对于所述目标节点的注意力分数,经归一化后作为权重系数;
使用所述权重系数将/>个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量。
本发明的工作原理及有益效果为:
本发明通过将引文网络表示为图结构的形式,根据注意力得分对图结构中n阶邻居节点进行筛选和采样:对于n阶中的任一阶(表示为k),选择前个k阶邻居节点对多阶邻居节点进行采样,并将采样的邻居节点的注意力得分进行归一化,向目标节点进行加权的信息聚合,得到最终的节点表示(即引文网络中每个文献的特征),由于聚合了多阶邻居节点的特征信息,从而提高节点表示的质量,有利于提高文献分类的准确性,进而提高引文网络检索的准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明中引文网络数据处理方法流程图;
图2为本发明中引文网络数据处理系统结构示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都涉及本发明保护的范围。
实施例1
如图1所示,本实施例提出了引文网络数据处理方法,包括:
S100:获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
S200:将文献作为节点,将文献之间的引用关系作为边,构建图结构;
S300:将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点所对应文献的特征; n为不小于2的正整数;
本领域技术人员可根据需求灵活设计n的取值,例如,1、2、3等等。
示例性的,可选定n=2,此时能同时保证较好的实验效果与合理的计算开销。
具体的,可采用预训练模型,例如GCN模型(图卷积神经网络)或其他模型完成n次邻居节点采样聚合操作。
预训练模型是在训练阶段使用训练集对初始模型进行多次迭代得到的。
在一个示例中,为方便处理,可设计GCN模型包括n层卷积层,第k层卷积层执行第k次邻居节点采样聚合操作。当然,本领域技术人员也可设计一层卷积层完成多次邻居节点采样聚合操作,在此不作赘述。
其中,第k次邻居节点采样聚合操作包括:
S310:将该任一节点作为目标节点,计算目标节点的各k阶邻居节点的注意力分数。
计算注意力分数可采用多种方式,例如,可采用注意力分数计算函数进行计算。
示例性的,注意力分数计算函数可为:
其中,表示目标节点i与任一k阶邻居节点j的注意力分数,/>是权值矩阵,/>为节点i在GCN模型第/>层的隐状态,即节点i在第k-1次聚合操作的聚合表示向量,是节点/>在GCN模型第/>层的隐状态,即节点j在第k-1次聚合操作的聚合表示向量。
以第k层卷积层完成第k次邻居节点采样聚合操作为例,则具体可为GCN模型第k层的权值矩阵。
S320:从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合。
具体的,对所有邻居节点的注意力分数使用softmax归一化为:
在第层(即目标节点的/>阶邻居中),选择前/>个注意力得分aij≥φ(φ为第一设定阈值)的邻居节点,其中,φ=1/本层节点个数。本实施例中,在一阶邻居节点中,选择前25个邻居节点(M1=25),在二阶邻居节点中,选择前10个邻居节点(M2=10)。除了25、10外,本领域技术人员还可以灵活设置/>的取值,比如,M1=20、32、17等,M2=1、5、7、11等。当n大于2时,M3至Mn的取值也可灵活设计,在此不作赘述。
若邻居节点数目本身就小于,则对/>的邻居节点进行重复采样得到/>个采样节点。以M1=25为例,如果一阶邻居节点数目为20,小于M1,且20个邻居节点中只有节点1~节点18满足aij≥φ,则可在节点1~节点18中再任选7个节点进行采样,以达到/>采样节点。示例性的,可依次对节点1,节点 2,…节点18,节点1,节点2,节点3,节点4,节点5,接点6,节点7等25个节点进行采样。当然,也可对节点1,节点 2,…节点18,节点2、节点7、节点9、节点18、节点17、节点11、节点12等25个节点进行采样。本领域技术人员可进行灵活选择,在此不作赘述。
S330:重新计算k阶邻居节点集合中每一邻居节点j’的注意力分数,经归一化后作为权重系数;具体包括:
。
S340:将个k阶邻居节点的信息向目标节点聚合,得到目标节点的k阶聚合表示向量;聚合过程为:
其中,i为目标节点,j’为任一邻居节点,表示所有采样的邻居节点集合,/>是激活函数,g表示均值聚合计算,就是将k-1阶目标节点的表示和采样到的邻居节点表示softmax之后的结果求平均,/>为节点在第k层的隐状态,/>为节点i在第层的隐状态,即节点i在第k-1次聚合操作的聚合表示向量,/>是节点/>在第层的隐状态,即节点j’在第k-1次聚合操作的聚合表示向量; n和k均为自然数,n ≥2,1≤k≤n。
在节点的表示学习中,每个节点最终所提取到的特征都与下列因素有关:节点自身的属性特征、该节点在图中所处位置的结构特征、(多阶)邻居节点的属性特征、(多阶)邻居节点的结构特征。
本实施例图节点表示方法结合自注意力机制,根据注意力得分对邻居节点进行采样,并将采样的邻居节点的注意力得分进行重新归一化,向目标节点进行加权的信息聚合,从而提高节点表示的质量,提升其在节点分类任务中的分类正确率。
进一步,在本发明其他实施例中,上述所有实施例所提供的方法还包括如下步骤:
S400: 将提取到的文献的特征输入文献分类器,得到文献分类结果;
其中,所述文献分类器根据均衡数据集训练得到;所述均衡数据集为:包含均衡分布的标签节点的数据集;所述均衡数据集是通过多次迭代向数据集中的节点添加标签得到的。
具体的,选择均衡数据集中的一部分节点作为训练集,训练文献分类器,再用均衡数据集中的一部分节点作为测试集,对文献分类器进行测试,测试通过后,该文献分类器可用于数据集中其他文献的分类。
其中,在首次迭代前,添加标签的过程可包括:
S410:计算数据集中每一节点的节点密度;具体包括:
其中,为节点x和节点y之间的距离,也即节点/>和节点y之间最短路径的跳数,dC是一个距离阈值;本实施例中,采用cora、citeseer、pubmed三个引文网络数据集,其中cora、citeseer都是计算机领域的论文,pubmed都是关于糖尿病的论文,每一论文对应一节点。
在训练时,dC作为超参数,在cora和citeseer数据集上dC均设置为4,在pubmed数据集上dC设置为5。与节点 x之间的距离小于距离阈值的节点作为节点x的邻近点,任一节点的节点密度ρ用于表征该节点周围邻近点的个数。
S420:对任一节点x,计算该节点x与节点m之间的距离;在节点密度大于节点x的各个节点中,所述节点m距离所述节点x最近;具体为:
S430:将节点按照聚类分数从大到小排序,筛选前Fr个节点,作为簇中心点;
任一节点x的聚类分数等于该节点的节点密度和距离/>的乘积;
具体的,当某个节点同时具有较大的密度值和较大的距离值的时候,便更有可能成为簇的中心点,计算公式如下:
。
Fr的取值可根据实际需要灵活设计,例如9、10、15、20等等。
例如,在使用cora数据集时,可筛选聚类分数较大的前14个节点作为簇中心点,在使用citeseer数据集时,可筛选聚类分数较大的前12个节点作为簇中心点,在使用pubmed数据集时,可筛选聚类分数较大的前6个节点作为簇中心点。
S440:将其余每一节点划分至距离其最近的簇中心点所在的簇内,得到多个簇。
举例来讲,以cora数据集为例,假定其有X个节点,筛选出14个节点作为簇中心点(可称为簇中心点0~13,分别对应簇0~13),对于剩余的X~14个节点中的任一节点Y,假定其与簇中心点5距离最近,则将节点Y划分到簇5中,以此类推,不再赘述。
通过S410-S440就可实现基于节点的拓扑结构的聚类。
S450:计算每个簇内每个节点的影响力分数。
通过上述基于节点的拓扑结构的聚类算法之后,在每个簇内都计算其所包含节点的节点影响力,节点的影响力/>的计算公式如下:
其中,表示归一化的节点x的度,/>是节点x的邻居节点,/>表示节点/>的邻居节点的数量;/>表示依据节点/>和节点/>的属性向量计算所得的节点/>与节点/>的Jaccard值,/>表示依据节点/>和节点y的标签向量计算所得的节点/>与节点y的Jaccard值;参数/>用于调整标签向量和节点属性向量所占权重的比例,参数/>用于调整网络拓扑结构和节点属性向量所占权重的比例;节点x的属性向量为/>,节点y的属性向量为,as表示节点x的属性向量中第s个元素;bs表示节点y的属性向量中第s个元素,t表示属性向量中元素的总个数;节点x的标签向量为/>,节点y的标签向量为/>,uq表示节点x的标签向量中第q个元素;/> q表示节点y的标签向量中第q个元素,l+1表示标签向量中元素的总个数。
S460:在每个簇中,将节点按照影响力分数从大到小排序,选择前Fn个节点,作为均衡节点;
Fn可为固定值,或变化值。例如,每一个簇都选取影响力较大的前6%个节点作为均衡节点,则此时Fn是可变值,其由每一簇包含的节点总数乘以6%所决定。
本领域技术人员可灵活设定Fn的取值规律,在此不作赘述。
S470:接收针对所述均衡节点的标签,得到带标签的节点;所述标签包括人工标注信息;
领域专家凭借自己的领域知识,为挑选出的节点指定标签,其中是这批节点的标签集。
节点的标签用于表征节点的分类,其中,cora数据集的分类包括:基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论;citeseer数据集的分类包括:智能体、AI、数据库、机器学习、信息检索、人机交互;pubmed数据集的分类包括:实验型糖尿病、1型糖尿病和2型糖尿病三类。
S480:将所述带标签的节点重新放回数据集,得到更新后的数据集(也即,用于首次迭代的数据集);
需要说明的是,在一些情况下,也可不执行S410-S480,例如,原始的数据集中就有一小批带标签的节点,那么可不执行S410-S480。
S490:将步骤S480中得到的更新后的数据集作为种子数据集,通过多次迭代向所述数据集中的节点添加标签,直到标签节点占数据集所有节点总数的20%(本领域技术人员可灵活设计该比例值,不限于本实施例中的20%)。任一次迭代过程包括:
S491:采用两层谱域GCN(图卷积神经网络)提取特征,第一层采用ReLU激活函数,第二层为输出层,使用softmax归一化,具体为:
其中,X表示输入数据所包含节点的属性矩阵,A是图的邻接矩阵,是归一化的邻接矩阵,/>,/>是/>的度矩阵,/>是N维的单位矩阵,/>是第一层的权值矩阵,/>是第二层的权值矩阵。
S492:从softmax输出的分类结果中,筛选出不确定度最大的节点,作为不确定节点;
S493:接收针对所述不确定节点的重设标签,所述重设标签包括新的人工标注信息;
S494:将带有重设标签的所述不确定节点重新放回数据集。
针对softmax输出结果中有较高不确定度的点,比如,softmax输出一个节点最有可能是A类别,其次是B类别,但这两种类别的概率相差很小,本实施例将softmax输出结果中概率最大和次大的两个类别的置信度之差作为节点不确定度的度量指标,置信度差值更低的节点,其真实类别更难区分,选取此类节点进行下一轮的标注,可为迭代过程融入更多先验知识,有利于挑选出更具有代表性的节点进行标注。
实验验证
通过对比现有取得先进结果的三个方法,DeepWalk方法、ChebNet方法、GCN方法和GAT方法,可以确定本实施例方法在应用于节点分类任务时具有优势。
实验采用Cora、Citeseer、Pubmed三个公开数据集。
表1 数据集信息
节点分类实验采取的评测指标为准确率(Accuracy, ACC)。准确率是模型预测正确的样本数占样本总数的百分比:
ACC通过混淆矩阵定义:
表2 混淆矩阵表
其中,1 Positive(真正,TP)为将实际上的正类预测为正类的总数;1 Negative(真负,TN)为将实际上的负类预测为负类的总数;0 Positive(假正,FP)为将实际上的负类预测为正类的总数;0 Negative(假负,FN)为将实际上的正类预测为负类的总数。
实验分为如下三组,后两组为消融实验,以此验证所提出模块的有效性:
(1)HSA-SA:将本发明中设计的算法直接与对比算法的实验结果进行比较;
(2)DeepWalk#、ChebNet#、GCN#、GAT#:为了评估提出的构建拓扑均衡数据集的有效性,在我们构建的拓扑均衡的数据集上运行对比算法,并评估实验结果。
(3)HSA-SA*:为了评估提出的结合自注意力机制的GCN高阶邻居节点采样和聚合方法的有效性,引入HSA-SA*,它与对比算法使用相同的随机标注的数据集,但是在分类器训练阶段,没有进行多次迭代添加标签,从而得到带标签节点的分布拓扑均衡的数据集。
表3列出了模型HSA-SA的参数设置情况。
表3 参数设置
下面通过对比分析所发明的HSA-SA方法和现有取得先进结果方法的ACC值,来说明所发明方法的效果和性能。第(1)、(2)、(3)组实验的实验结果分别对应下表4、表5、表6。
表4 第(1)组实验结果
表5 第(2)组实验结果
表6 第(3)组实验结果
从上述实验结果可以看出:
1)三组实验中,GAT或GAT#均比另外三个baseline或baseline#模型的分类准确率高,说明对一阶邻居中的不同节点按注意力分数加权聚合信息是有必要的,这表明了发明中融入注意力机制的有效性。
2)第(3)组实验中, HSA-SA*比GAT得到了更高的分类准确率,因为HSA-SA*聚合到了两阶邻居的特征信息,而GAT只聚合到一阶邻居特征,表明本发明提出的采样和聚合更高阶邻域特征的方法能够提高节点表示的质量。
3)DeepWalk#、ChebNet#、GCN#、GAT#、HSA-SA的分类结果都优于原始的DeepWalk、ChebNet、GCN、GAT、HSA-SA*方法,表明本发明提出的构造拓扑均衡的数据集,能够提高标签信息在图中的传播效率,进而提升了节点分类的准确率。
综合来看这几组实验结果,能够验证相对于现有的方法,本发明提出的通过多次迭代添加标签的方法来构造一个拓扑均衡的数据集,通过引入一定的专家经验来达到较优的节点标注效果,缓解了在节点分类这一半监督场景下由于标注节点拓扑分布不均衡导致的分类错误的问题;此外,本发明还提出了结合自注意力机制的GCN高阶邻居节点采样和聚合方法, 在上述拓扑均衡数据集的基础上进行引文网络特征提取,有利于提高文献分类的准确性。
实施例2
如图2所示,基于与上述实施例1相同的构思,本实施例还提出了引文网络数据处理系统,包括:
获取单元,用于获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
生成单元,用于将文献作为节点,将文献之间的引用关系作为边,构建图结构;
采样聚合单元,用于将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点对应文献的特征; n为不小于2的正整数;
其中,第k次邻居节点采样聚合操作包括:
将该任一节点作为目标节点,基于预训练模型,计算目标节点的各k阶邻居节点的注意力分数;
从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合;
重新计算k阶邻居节点集合中每一邻居节点j’相对于所述目标节点的注意力分数,经归一化后作为权重系数;
使用所述权重系数将/>个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量。
进一步,所述将个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量,具体包括:
其中,i为目标节点,j’为任一邻居节点,是激活函数,g表示均值聚合计算,/>为节点i的k阶聚合表示向量,/>为节点i在预训练模型第/>层的隐状态,/>是节点’在第/>层的隐状态; n和k均为自然数,n ≥2,1≤k≤n。
进一步,所述计算目标节点的各k阶邻居节点的注意力分数,具体包括:
其中,表示目标节点i与任一k阶邻居节点j的注意力分数,/>是第/>层卷积层的权值矩阵。
进一步,所述重新计算k阶邻居节点集合中每一邻居节点j’的注意力分数,并归一化后作为权重系数,具体包括:
。
进一步,还包括:
分类单元,用于将提取到的文献的特征输入文献分类器,得到文献分类结果;
其中,所述文献分类器根据均衡数据集训练得到;所述均衡数据集为:包含均衡分布的标签节点的数据集;所述均衡数据集是通过多次迭代向数据集中的节点添加标签得到的。
进一步,在首次迭代之前,还包括:
通过聚类分析,将所述数据集划分为多个簇;
计算每个簇内每个节点的影响力分数;
在每个簇中,将节点按照影响力分数从大到小排序,选择前Fn个节点,作为均衡节点;
接收针对所述均衡节点的标签,得到带标签的节点;所述标签包括人工标注信息;
将所述带标签的节点重新放回数据集,得到用于首次迭代的数据集。
进一步,所述任一次迭代过程还包括:
用两层谱域GCN提取数据集中的节点特征,并将节点特征用softmax做分类;
从softmax输出的分类结果中,筛选出不确定度最大的节点,作为不确定节点;
接收针对所述不确定节点的重设标签,所述重设标签包括新的人工标注信息;
将带有重设标签的所述不确定节点重新放回数据集。
进一步,所述通过聚类分析,将所述数据集划分为多个簇,具体包括:
计算数据集中每一节点的节点密度;任一节点x的节点密度用于表征该节点周围邻近点的个数;
对任一节点x,计算该节点x与节点m之间的距离;在节点密度大于节点x的各个节点中,所述节点m距离所述节点x最近;
将所有节点按照聚类分数从大到小排序,筛选前Fr个节点,作为簇中心点;任一节点x的聚类分数等于该节点的节点密度和距离/>的乘积;
将其余每一节点划分至距离其最近的簇中心点所在的簇内,得到多个簇。
进一步,数据集中任一节点x的节点密度具体通过如下公式计算:
其中,为节点x和节点y之间的距离,/>是一个距离阈值。
计算每个簇内每个节点的影响力分数,具体包括:
/>
其中,表示归一化的节点x的度,/>是节点x的邻居节点,/>表示节点/>的邻居节点的数量;/>表示依据节点/>和节点/>的属性向量计算所得的节点/>与节点/>的Jaccard值,/>表示依据节点/>和节点y的标签向量计算所得的节点/>与节点y的Jaccard值;参数/>用于调整标签向量和节点属性向量所占权重的比例,参数/>用于调整网络拓扑结构和节点属性向量所占权重的比例;节点x的属性向量为/>,节点y的属性向量为,as表示节点x的属性向量中第s个元素;bs表示节点y的属性向量中第s个元素,t表示属性向量中元素的总个数;节点x的标签向量为/>,节点y的标签向量为/>,uq表示节点x的标签向量中第q个元素;/> q表示节点y的标签向量中第q个元素,l+1表示标签向量中元素的总个数。
本实施例系统的工作原理在方法实施例中已有详尽的描述,为了说明书的简洁,这里不作赘述。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.引文网络数据处理方法,其特征在于,包括引文网络特征提取的步骤,具体包括:
获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
将文献作为节点,将文献之间的引用关系作为边,构建图结构;
将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点所对应文献的特征;n为不小于2的正整数;
其中,第k次邻居节点采样聚合操作包括:
将该任一节点作为目标节点,基于预训练模型,计算目标节点的各k阶邻居节点的注意力分数;
从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合;
重新计算k阶邻居节点集合中每一邻居节点j’相对于所述目标节点的注意力分数,经归一化后作为权重系数;
使用所述权重系数将/>个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量。
2.根据权利要求1所述的引文网络数据处理方法,其特征在于,所述将个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量,具体包括:
其中,i为目标节点,j’为任一邻居节点,是激活函数,g表示均值聚合计算,/> 为节点i的k阶聚合表示向量, />为节点i在预训练模型第/>层的隐状态,/>是节点/>’在第/>层的隐状态; n和k均为自然数,n ≥2,1≤k≤n。
3.根据权利要求1所述的引文网络数据处理方法,其特征在于,所述计算目标节点的各k阶邻居节点的注意力分数,具体包括:
其中,表示目标节点i与任一k阶邻居节点j的注意力分数, />是权值矩阵。
4.根据权利要求1-3任一项所述的引文网络数据处理方法,其特征在于,还包括:
将提取到的文献的特征输入文献分类器,得到文献分类结果;
其中,所述文献分类器根据均衡数据集训练得到;所述均衡数据集为:包含均衡分布的标签节点的数据集;所述均衡数据集是通过多次迭代向数据集中的节点添加标签得到的。
5.根据权利要求4所述的引文网络数据处理方法,其特征在于,在首次迭代之前,还包括:
通过聚类分析,将所述数据集划分为多个簇;
计算每个簇内每个节点的影响力分数;
在每个簇中,将节点按照影响力分数从大到小排序,选择前Fn个节点,作为均衡节点;
接收针对所述均衡节点的标签,得到带标签的节点;所述标签包括人工标注信息;
将所述带标签的节点重新放回数据集,得到用于首次迭代的数据集。
6.根据权利要求4所述的引文网络数据处理方法,其特征在于,任一次所述迭代过程包括:
用两层谱域GCN提取数据集中的节点特征,并将节点特征用softmax做分类;
从softmax输出的分类结果中,筛选出不确定度最大的节点,作为不确定节点;
接收针对所述不确定节点的重设标签,所述重设标签包括新的人工标注信息;
将带有重设标签的所述不确定节点重新放回数据集。
7.根据权利要求5所述的引文网络数据处理方法,其特征在于,所述通过聚类分析,将所述数据集划分为多个簇,具体包括:
计算数据集中每一节点的节点密度;任一节点x的节点密度用于表征该节点周围邻近点的个数;
对任一节点x,计算该节点x与节点m之间的距离;在节点密度大于节点x的各个节点中,所述节点m距离所述节点x最近;
将所有节点按照聚类分数从大到小排序,筛选前Fr个节点,作为簇中心点;任一节点x的聚类分数等于该节点的节点密度和距离/>的乘积;
将其余每一节点划分至距离其最近的簇中心点所在的簇内,得到多个簇。
8.根据权利要求7所述的引文网络数据处理方法,其特征在于,数据集中任一节点x的节点密度具体通过如下公式计算:
其中,为节点x和节点y之间的距离,/>是一个距离阈值。
9. 根据权利要求5所述的引文网络数据处理方法,其特征在于,计算每个簇内每个节点的影响力分数,具体包括:
其中,表示归一化的节点x的度,/>是节点x的邻居节点,/>表示节点/>的邻居节点的数量;/>表示依据节点/>和节点/>的属性向量计算所得的节点/>与节点/>的Jaccard值,表示依据节点/>和节点y的标签向量计算所得的节点/>与节点y的Jaccard值;参数/>用于调整标签向量和节点属性向量所占权重的比例,参数/>用于调整网络拓扑结构和节点属性向量所占权重的比例;节点x的属性向量为/>,节点y的属性向量为,as表示节点x的属性向量中第s个元素;bs表示节点y的属性向量中第s个元素,t表示属性向量中元素的总个数;节点x的标签向量为/>,节点y的标签向量为/>,uq表示节点x的标签向量中第q个元素;/> q表示节点y的标签向量中第q个元素,l+1表示标签向量中元素的总个数。
10.引文网络数据处理系统,其特征在于,包括:
获取单元,用于获取引文网络数据;所述引文网络数据包括文献和文献之间的引用关系;
生成单元,用于将文献作为节点,将文献之间的引用关系作为边,构建图结构;
采样聚合单元,将所述图结构中的所有节点作为数据集,对数据集中的任一节点,执行n次邻居节点采样聚合操作;其中,第n次邻居节点采样聚合操作得到的聚合表示向量作为该任一节点对应文献的特征; n为不小于2的正整数;
其中,第k次邻居节点采样聚合操作包括:
将该任一节点作为目标节点,基于预训练模型,计算目标节点的各k阶邻居节点的注意力分数;
从注意力分数大于第一设定阈值的k阶邻居节点中,选择前个k阶邻居节点,作为k阶邻居节点集合;
重新计算k阶邻居节点集合中每一邻居节点j’相对于所述目标节点的注意力分数,经归一化后作为权重系数;
使用所述权重系数将/>个k阶邻居节点的特征信息以及所述目标节点的特征信息聚合,得到所述目标节点的k阶聚合表示向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311247077.4A CN116992098B (zh) | 2023-09-26 | 2023-09-26 | 引文网络数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311247077.4A CN116992098B (zh) | 2023-09-26 | 2023-09-26 | 引文网络数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992098A true CN116992098A (zh) | 2023-11-03 |
CN116992098B CN116992098B (zh) | 2024-02-13 |
Family
ID=88534123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311247077.4A Active CN116992098B (zh) | 2023-09-26 | 2023-09-26 | 引文网络数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992098B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230117980A1 (en) * | 2021-10-14 | 2023-04-20 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for graph prototypical networks for few-shot learning on attributed networks |
CN116186297A (zh) * | 2022-12-08 | 2023-05-30 | 西湖大学 | 一种基于图流形学习的文献关系发现方法及系统 |
WO2023155508A1 (zh) * | 2022-02-18 | 2023-08-24 | 北京邮电大学 | 一种基于图卷积神经网络和知识库的论文相关性分析方法 |
CN116756308A (zh) * | 2023-04-03 | 2023-09-15 | 河海大学 | 一种基于孪生图神经网络和集群结构的文献分类方法及系统 |
-
2023
- 2023-09-26 CN CN202311247077.4A patent/CN116992098B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230117980A1 (en) * | 2021-10-14 | 2023-04-20 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for graph prototypical networks for few-shot learning on attributed networks |
WO2023155508A1 (zh) * | 2022-02-18 | 2023-08-24 | 北京邮电大学 | 一种基于图卷积神经网络和知识库的论文相关性分析方法 |
CN116186297A (zh) * | 2022-12-08 | 2023-05-30 | 西湖大学 | 一种基于图流形学习的文献关系发现方法及系统 |
CN116756308A (zh) * | 2023-04-03 | 2023-09-15 | 河海大学 | 一种基于孪生图神经网络和集群结构的文献分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
余传明;钟韵辞;林奥琛;安璐;: "基于网络表示学习的作者重名消歧研究", 数据分析与知识发现, no. 1 * |
陈文杰;许海云;: "一种基于多元数据融合的引文网络知识表示方法", 情报理论与实践, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116992098B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | A new hyperparameters optimization method for convolutional neural networks | |
CN106021364B (zh) | 图片搜索相关性预测模型的建立、图片搜索方法和装置 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN110009030B (zh) | 基于stacking元学习策略的污水处理故障诊断方法 | |
CN106326346A (zh) | 文本分类方法及终端设备 | |
CN113409892B (zh) | 基于图神经网络的miRNA-疾病关联关系预测方法 | |
CN112966114A (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
CN112308115A (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN111461286A (zh) | 基于进化神经网络的Spark参数自动优化系统和方法 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN116992098B (zh) | 引文网络数据处理方法及系统 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
CN115758462A (zh) | 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质 | |
CN110162704B (zh) | 基于多因子遗传算法的多规模关键用户提取方法 | |
CN115691661A (zh) | 一种基于图聚类的基因编码育种预测方法和装置 | |
Sanchez | Reconstructing our past˸ deep learning for population genetics | |
CN106897376A (zh) | 基于蚁群的模糊c均值算法实现关键词优化 | |
CN106649537A (zh) | 基于改进的群智能算法实现搜索引擎关键词优化技术 | |
CN117152568B (zh) | 深度集成模型的生成方法、装置和计算机设备 | |
Njah et al. | A new equilibrium criterion for learning the cardinality of latent variables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |