CN116226388B - 一种文献分类方法、一种图神经网络训练方法及相关组件 - Google Patents
一种文献分类方法、一种图神经网络训练方法及相关组件 Download PDFInfo
- Publication number
- CN116226388B CN116226388B CN202310509057.3A CN202310509057A CN116226388B CN 116226388 B CN116226388 B CN 116226388B CN 202310509057 A CN202310509057 A CN 202310509057A CN 116226388 B CN116226388 B CN 116226388B
- Authority
- CN
- China
- Prior art keywords
- neural network
- literature
- document
- matrix
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 225
- 238000012549 training Methods 0.000 title claims abstract description 218
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000000605 extraction Methods 0.000 claims abstract description 108
- 239000011159 matrix material Substances 0.000 claims description 199
- 239000013598 vector Substances 0.000 claims description 81
- 230000009466 transformation Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 19
- 238000005096 rolling process Methods 0.000 claims description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000003475 lamination Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 108010021724 tonin Proteins 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical class CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文献分类方法、一种图神经网络训练方法及相关组件,应用于数据处理技术领域,包括:获取n篇文献作为一组训练样本,并将文献类别作为标签;得到训练样本的特征提取结果;确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息,以及用于反映训练样本中的n篇文献之间的相似度的第二信息;将特征提取结果,第一信息及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果;基于类别预测结果更新图神经网络的参数,并返回执行获取n篇文献作为一组训练样本的操作,直到图神经网络训练完成。应用本申请的方案,提高了文献分类的准确率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种文献分类方法、一种图神经网络训练方法及相关组件。
背景技术
在海量的文献数据库中,文献分类是实现精准文献检索、文献推荐和文献计量分析的关键前提和重要基础。文献分类技术还可以应用到问答系统、情感分析、信息检索等领域,以便辅助人们做出决策。
在自然语言处理技术不断发展的过程中,提出了各种监督式文献分类方法。例如,早期研究主要关注特征工程,从文献的题目、摘要、关键字以及正文中等提取特征,借助朴素贝叶斯、最近邻算法、支持向量机等传统机器学习算法构建文献分类器。尽管监督式文本分类研究取得不少进展,但是分类准确率仍然不高。
综上所述,如何有效地进行文献分类,提高分类的准确率,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种文献分类方法、一种图神经网络训练方法及相关组件,以有效地进行文献分类,提高分类的准确率。
为解决上述技术问题,本发明提供如下技术方案:
一种图神经网络训练方法,包括:
获取n篇文献作为一组训练样本,并将文献类别作为标签;
对所述训练样本进行特征提取,得到特征提取结果;
基于n篇文献之间的引用关系,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
基于所述类别预测结果更新所述图神经网络的参数,并返回执行所述获取n篇文献作为一组训练样本的操作,直到所述图神经网络训练完成;其中,n为不小于2的正整数。
在一种实施方式中,对所述训练样本进行特征提取,得到特征提取结果,包括:
以深度学习的方式,对所述训练样本中的n篇文献的文献标题和/或文献摘要和/或文献关键字和/或文献正文进行特征提取,得到文献特征矩阵X,作为得到的特征提取结果。
在一种实施方式中,所述确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息,包括:
针对n篇文献中的每1篇文献,将剩余的n-1篇文献中与所述文献之间存在引用关系的文献,作为所述文献的第一类邻居;
根据各篇文献各自的第一类邻居,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一邻接矩阵E T ,作为确定出的第一信息;
其中,所述第一邻接矩阵E T 为n行n列的矩阵,t ij 表示所述第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第一类邻居时,t ij =1;当第j篇文献不为第i篇文献的第一类邻居时,t ij =0。
在一种实施方式中,根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息,包括:
针对n篇文献中的每1篇文献,根据所述特征提取结果,计算出所述文献与剩余的n-1篇文献之间各自的相似度,并将相似度最高的K篇文献作为所述文献的第二类邻居;
根据各篇文献各自的第二类邻居,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二邻接矩阵E F ,作为确定出的第二信息;
其中,所述第二邻接矩阵E F 为n行n列的矩阵,e ij 表示所述第二邻接矩阵E F 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第二类邻居时,和/或当第i篇文献为第j篇文献的第二类邻居时,e ij =1;当第j篇文献不为第i篇文献的第二类邻居,并且第i篇文献不为第j篇文献的第二类邻居时,e ij =0。
在一种实施方式中,针对n篇文献中的每1篇文献,根据所述特征提取结果,计算出所述文献与剩余的n-1篇文献之间各自的相似度,包括:
针对n篇文献中的每1篇文献,根据所述特征提取结果,按照的计算方式,或者按照/>的计算方式,计算出所述文献与剩余的n-1篇文献之间各自的相似度;
其中,s ij 表示的是n篇文献中的第i篇文献与第j篇文献之间的相似度,x ik 表示的是第i篇文献的d个特征中的第k特征,x jk 表示的是第j篇文献的d个特征中的第k特征,k为正整数且1≤k≤d,d为预先设定的特征总数量,p为设定参数。
在一种实施方式中,将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果,包括:
将所述第一信息和所述特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
将所述第二信息和所述特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果;
其中,预设的所述图神经网络为双通道的图神经网络,包括所述第一图神经网络模块和所述第二图神经网络模块。
在一种实施方式中,所述第一图神经网络模块包括:
用于接收所述第一信息和所述特征提取结果的输入层;
用于进行顶点特征提取的L层图卷积层;L为不小于2的正整数;
用于输出第一类别预测结果的输出层;
其中,L层图卷积层中的每一层图卷积层均包括特征变换单元和图卷积单元,所述特征变换单元表示为,所述图卷积单元表示为H l+1=σ(Ug θ U T Q l );H l+1表示的是L层图卷积层中的第l层图卷积层的输出数据,H l 表示的是L层图卷积层中的第l层图卷积层的输入数据,l为正整数且1≤l≤L,Q l 表示的是第l层图卷积层的特征变换单元的输出数据,表示的是第l层图卷积层的待学习的特征变换矩阵的转置矩阵,U表示的是对拉普拉斯矩阵/>进行特征分解得到的特征向量所组成的矩阵,/>,D为n行n列的对角矩阵并且主对角线上的n个元素分别表示n篇文献各自的第一类邻居的数量,g θ 表示的是待学习的谱域图卷积核,且g θ 为n行n列的对角矩阵,σ表示的是激活函数,E T 表示的是用于反映所述训练样本中的n篇文献之间的引用关系的第一邻接矩阵。
在一种实施方式中,针对任一图卷积单元,通过重参数化的方式,进行所述图卷积单元的输出的近似计算。
在一种实施方式中,针对任一图卷积单元,通过重参数化的方式,所述图卷积单元的输出的近似计算结果表示为:
;
其中,M表示的是多项式阶数,m为正整数且0≤m≤M,a 0至a M 为设定系数,I表示的是单位矩阵。
在一种实施方式中,所述第一图神经网络模块中的所述输出层表示为:
;
Z T 表示的是所述输出层的输出,softmax表示的是设定的softmax函数,H L+1表示的是L层图卷积层中的第L层图卷积层的输出数据。
在一种实施方式中,根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果,包括:
对所述第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量;
对所述第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量;
对所述第一注意力向量和所述第二注意力向量进行归一化,并表示为对角矩阵的形式,得到第一注意力矩阵和第二注意力矩阵;
基于所述第一注意力矩阵,所述第二注意力矩阵,所述第一类别预测结果以及所述第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果。
在一种实施方式中,对所述第一类别预测结果进行非线性变换,并通过设定的共享注意力向量;
其中,表示的是得到的第一注意力向量中的第i个注意力数值,W 1为待学习的第一特征变换矩阵,/>表示的是Z T 的第i行,b 1为待学习的第一偏置向量;Z T 表示的是第一类别预测结果,且Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被所述第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
在一种实施方式中,对所述第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量,包括:
按照的计算方式,得到用于控制第二类别预测结果的权重的第二注意力向量;
其中,表示的是得到的第二注意力向量中的第i个注意力数值,W 2为待学习的第二特征变换矩阵,/>表示的是Z F 的第i行,b 2为待学习的第二偏置向量;Z F 表示的是第二类别预测结果,且Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被所述第二图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
在一种实施方式中,基于所述第一注意力矩阵,所述第二注意力矩阵,所述第一类别预测结果以及所述第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果,包括:
按照的计算方式,确定出针对所述训练样本中的n篇文献的类别预测结果Z;
其中,表示的是所述第一注意力矩阵,/>表示的是所述第二注意力矩阵,Z T 表示的是所述第一类别预测结果,Z F 表示的是所述第二类别预测结果;
Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被所述第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C;Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被所述第二图神经网络模块预测为第c种类别的概率。
在一种实施方式中,基于所述类别预测结果更新所述图神经网络的参数,包括:
基于所述类别预测结果计算损失函数,并按照设定的梯度策略更新所述图神经网络的参数;
其中,所述损失函数由监督学习损失和无监督学习损失叠加而成。
在一种实施方式中,所述梯度策略为基于批量梯度下降的梯度策略,或者为基于随机梯度下降的梯度策略。
在一种实施方式中,所述监督学习损失loss s 表示为:
;
所述无监督学习损失loss u 表示为:
;
其中,VL表示的是所述训练样本的n篇文献中有预置类别标签的文献所构成的集合,VU表示的是所述训练样本的n篇文献中无预置类别标签的文献所构成的集合,vi和vj分别表示的是n篇文献中的第i篇文献和第j篇文献,Y为用于表示n篇文献的预置类别标签的矩阵,σ表示的是激活函数,Z ij 表示的是类别预测结果Z的第i行第j列的数值,a 0为设定的温度超参数,t ij 表示的是第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,第一邻接矩阵E T 作为第一信息,用于反映所述训练样本中的n篇文献之间的引用关系;Z F 表示的是第二类别预测结果,Z T 表示的是第一类别预测结果。
一种图神经网络训练系统,包括:
训练样本获取模块,用于获取n篇文献作为一组训练样本,并将文献类别作为标签;
特征提取模块,用于对所述训练样本进行特征提取,得到特征提取结果;
第一信息确定模块,用于确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
第二信息确定模块,用于根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
类别预测结果确定模块,用于将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
更新模块,用于基于所述类别预测结果更新所述图神经网络的参数,并触发所述训练样本获取模块,直到所述图神经网络训练完成;
其中,n为不小于2的正整数。
一种图神经网络训练设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述所述的图神经网络训练方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的图神经网络训练方法的步骤。
一种文献分类方法,包括:
获取n篇文献作为一组训练样本,并将文献类别作为标签;
对所述训练样本进行特征提取,得到特征提取结果;
基于n篇文献之间的引用关系,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
基于所述类别预测结果更新所述图神经网络的参数,并返回执行所述获取n篇文献作为一组训练样本的操作,直到所述图神经网络训练完成,以基于训练完成的所述图神经网络训练进行文献类别的预测;
其中,n为不小于2的正整数。
应用本发明实施例所提供的技术方案,考虑到除了文献标题、摘要、关键字等文献自身特征之外,文献之间存在着复杂的引用关系,可以作为文献分类的依据。并且本申请进一步的考虑到,仅利用文献之间的引用关系,或者仅利用文献特征,不利于提高分类准确率,对此,本申请的方案中,充分利用了文献文本特征和文献间引用关系,来实现准确的分类。具体的,获取n篇文献作为一组训练样本,并将文献类别作为标签,便可以对训练样本进行特征提取,得到特征提取结果。得到特征提取结果之后,本申请的方案会根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息。文献之间的相似度越高,属于相同类别的概率就越高,即确定出的第二信息有利于提高分类准确率。与此同时,本申请的方案中还会确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息,利用文献之间的引用关系也有助于提高分类的准确性。最后,便可以将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果,进而基于类别预测结果更新图神经网络的参数,直到图神经网络训练完成时,便可以基于训练完成的图神经网络训练进行文献类别的预测。
综上所述,本申请的方案可以有效地实现文献类别的预测,并且提高了类别预测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种图神经网络训练方法的实施流程图;
图2为本发明一种具体实施方式中的图神经网络的结构示意图;
图3为本发明一种具体实施方式中的第一图神经网络模块的结构示意图;
图4为本发明中一种图神经网络训练系统的结构示意图;
图5为本发明中一种图神经网络训练设备的结构示意图;
图6为本发明中一种计算机可读存储介质的结构示意图;
图7为本发明中一种文献分类方法的实施流程图。
具体实施方式
本发明的核心是提供一种图神经网络训练方法,可以有效地实现文献类别的预测,并且提高了类别预测的准确率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明中一种图神经网络训练方法的实施流程图,该图神经网络训练方法可以包括以下步骤:
步骤S101:获取n篇文献作为一组训练样本,并将文献类别作为标签。
具体的,可以给定海量的文献数据库,每次执行步骤S101时,可以从中获取n篇文献作为一组训练样本,并将文献类别作为标签,其中,n为不小于2的正整数,具体取值可以根据实际需要进行设定和调整。
本申请的方案需要进行文献分类,即预测文献的类别,因此,在训练过程中,便是将文献类别作为标签。例如一种具体场合中,为文献设置了40个主题领域,即对于任意1篇文献而言,可以从这40个主题领域中选择1个作为该文献的类别,也即作为该文献的标签,文献类别通常可以由作者或者版主手动确定。
需要说明的是,本申请描述的文献可以是各种类型的文献,例如期刊,论文,专利文献等等。
此外需要说明的是,在本申请方案的训练过程中,每次获取n篇文献作为一组训练样本之后,并不要求n篇文献都已经预先进行了分类,即n篇文献中,可以是其中的部分文献预先进行了分类,也可以是n篇文献均预先进行了分类,均不影响本发明的实施。因此可以理解的是,将文献类别作为标签,指的是对于n篇文献中预先进行了分类的文献,将这些文献的类别作为相应的标签。
步骤S102:对训练样本进行特征提取,得到特征提取结果。
获取了一组训练样本之后,便可以对训练样本进行特征提取,得到特征提取结果,具体的特征提取方式可以有多种,可以采用多种算法,只要能够有效地提取出用于反映文献特征的特征提取结果即可。
在本发明的一种具体实施方式中,考虑到通过深度学习的方式,可以有效地进行特征提取,因此,步骤S102可以具体包括:
以深度学习的方式,对训练样本中的n篇文献的文献标题和/或文献摘要和/或文献关键字和/或文献正文进行特征提取,得到文献特征矩阵X,作为得到的特征提取结果。
该种实施方式考虑到,文献标题,文献摘要,文献关键字,文献正文中均能反映出文献特征,因此可以从中进行特征提取。深度学习的具体方式也有多种,例如一种场合中,采用的是Bert深度学习模型进行特征提取,得到文献特征矩阵X,将X作为得到的特征提取结果。在图2中示出的Bert文献特征提取,便表示的是采用Bert深度学习模型进行特征提取,得到了文献特征矩阵X。在其他场合中,也可以有其他的深度学习方式,例如一种场合中采用CNN(Convolutional Neural Network,卷积神经网络)的方式对训练样本中的n篇文献进行特征提取。
文献特征矩阵X的具体形式也有多种,例如一种场合中,文献特征矩阵X为n行d列的矩阵,n行对应的是n篇文献,d为预先设定的特征总数量,例如一种场合中d为128,即每一篇文献进行特征提取之后,均能够得到1个128维的向量。以文献特征矩阵X中的第1行的d个数据为例,表示的是通过特征提取得到的n篇文献中的第1篇文献的128维的特征向量,以文献特征矩阵X中的第2行的d个数据为例,表示的是通过特征提取得到的n篇文献中的第2篇文献的128维的特征向量。
步骤S103:基于n篇文献之间的引用关系,确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息。
本申请的方案中,考虑到文献间存在复杂的引用关系,这一信息有助于提高文献分类的准确性,因此,本申请使用第一信息来反映训练样本中的n篇文献之间的引用关系。
并且需要强调的是,文献间存在复杂的引用关系,但是对于具体的某一篇文献而言,该篇文献可以引用1篇或者多篇文献,也可以未引用任意1篇文献,均不影响本发明的实施。此外,在实际应用中,对于一篇文献而言,如果该篇文件提到了剩余的n-1篇文献中的任意1文献,则可以确定该篇文件引用了其文献中提到的这一篇文献,即二者存在引用关系。
第一信息的具体形式可以根据需要进行设定,考虑到本申请采用的是图神经网络,因此,第一信息通常为矩阵的形式。
例如在本发明的一种具体实施方式中,步骤S103可以具体包括:
针对n篇文献中的每1篇文献,将剩余的n-1篇文献中与所述文献之间存在引用关系的文献,作为所述文献的第一类邻居;
根据各篇文献各自的第一类邻居,确定出用于反映训练样本中的n篇文献之间的引用关系的第一邻接矩阵E T ,作为确定出的第一信息;
其中,第一邻接矩阵E T 为n行n列的矩阵,t ij 表示第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第一类邻居时,t ij =1;当第j篇文献不为第i篇文献的第一类邻居时,t ij =0。
具体的,针对n篇文献中的每1篇文献,该种实施方式中,是将剩余的n-1篇文献中与该篇文献之间存在引用关系的文献,作为该篇文献的第一类邻居,进而根据各篇文献各自的第一类邻居确定出第一邻接矩阵E T 。
在实际应用中,可以先确定出文献拓扑图,进而根据文献拓扑图得到各篇文献各自的第一类邻居,然后便可以得到第一邻接矩阵E T 。
在文献拓扑图中有n个顶点,每个顶点表示的是1篇文献,因此n个顶点便对应的是训练样本中的n篇文献。在这n篇文献中,如果某一篇文献引用了另一篇文献,则在文献拓扑图中,将这2篇文献对应的2个顶点进行连接。可以理解的是,文献之间的引用通常是有方向的,即顶点的连接边是有向边,但本申请考虑到,边的方向对于分类结果影响很小,因此有向边可以置为无向边,即对于文献拓扑图中的任意2个顶点之间的连线,表示的是相应的2篇文献之间存在引用关系,而不必区分引用方向。
由于文献拓扑图是图形,不便于作为确定出的第一信息输入至图神经网络,因此,该种实施方式中,是将第一邻接矩阵E T 作为确定出的第一信息,可以看出,第一邻接矩阵E T 中携带的信息,便是上文描述的文献拓扑图中携带的信息,即该种实施方式中的第一邻接矩阵E T 可以有效地反映出训练样本中的n篇文献之间的引用关系。
第一邻接矩阵E T 为n行n列的矩阵,t ij 为第一邻接矩阵E T 中的第i行第j列的数据,当第j篇文献为第i篇文献的第一类邻居时,说明第j篇文献与第i篇文献之间存在引用关系,因此,t ij =1,并且可以理解的是,对于n篇文献中的任意1篇文献而言,该篇文献的第一类邻居的定义是剩余的n-1篇文献中与该篇文献之间存在引用关系的文献,因此,如果第j篇文献为第i篇文献的第一类邻居,那么第i篇文献也会是第j篇文献的第一类邻居,即如果t ij =1,那么t ji 也等于1。
当第j篇文献不为第i篇文献的第一类邻居时,即如果第j篇文献与第i篇文献之间不存在引用关系时,t ij =0,此时t ji 也等于0。此外需要说明的是,文献自身与自身之间没有引用关系,i=j时,可以设置为t ij =0或者t ij =1,通常会设置为t ij =0。
步骤S104:根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息。
文献之间的相似度越高,属于相同类别的概率就越高,因此,本申请的方案会根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息,以基于第二信息提高分类准确率。
第二信息的具体形式可以根据需要进行设定,只要能够有效地反映出训练样本中的n篇文献之间的相似度即可,但是与第一信息同理,考虑到本申请采用的是图神经网络,因此,第二信息通常为矩阵的形式。
例如在本发明的一种具体实施方式中,步骤S104可以具体包括:
针对n篇文献中的每1篇文献,根据特征提取结果,计算出所述文献与剩余的n-1篇文献之间各自的相似度,并将相似度最高的K篇文献作为所述文献的第二类邻居;
根据各篇文献各自的第二类邻居,确定出用于反映训练样本中的n篇文献之间的相似度的第二邻接矩阵E F ,作为确定出的第二信息;
其中,第二邻接矩阵E F 为n行n列的矩阵,e ij 表示第二邻接矩阵E F 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第二类邻居时,和/或当第i篇文献为第j篇文献的第二类邻居时,e ij =1;当第j篇文献不为第i篇文献的第二类邻居,并且第i篇文献不为第j篇文献的第二类邻居时,e ij =0。
具体的,针对n篇文献中的每1篇文献,该种实施方式中,会根据特征提取结果,计算出该篇文献与剩余的n-1篇文献之间各自的相似度,并将相似度最高的K篇文献作为该篇文献的第二类邻居,进而根据各篇文献各自的第二类邻居确定出第二邻接矩阵E F 。
在实际应用中,可以先确定出文献特征图,进而根据文献特征图得到各篇文献各自的第二类邻居,然后便可以得到第二邻接矩阵E F 。
与上文的文献拓扑图类似,文献特征图中也有n个顶点,每个顶点表示的是1篇文献,因此n个顶点便对应的是训练样本中的n篇文献。在这n篇文献中,对于任意1篇文献而言,需要在文献特征图中,将该文献与该篇文献的各个第二类邻居进行连接,而该篇文献的第二类邻居,指的是剩余的n-1篇文献中,与该篇文献相似度最高的K篇文献。
因此,如果在文献特征图中,将第i顶点与第j顶点进行连接,说明第j篇文献为第i篇文献的第二类邻居,或者第i篇文献为第j篇文献的第二类邻居,或者这两个条件同时成立。
由于文献特征图是图形,不便于作为确定出的第二信息输入至图神经网络,因此,该种实施方式中,是将第二邻接矩阵E F 作为确定出的第二信息,可以看出,第二邻接矩阵E F 中携带的信息,便是上文描述的文献特征图中携带的信息,即该种实施方式中的第二邻接矩阵E F 可以有效地反映训练样本中的n篇文献之间的相似度。
第二邻接矩阵E F 为n行n列的矩阵,对于第二邻接矩阵E F 中的第i行第j列的数据e ij ,在e ij =1时,说明第j篇文献为第i篇文献的第二类邻居,和/或第i篇文献为第j篇文献的第二类邻居。如果第j篇文献不为第i篇文献的第二类邻居,同时,第i篇文献也不是第j篇文献的第二类邻居,则e ij =0。此外需要说明的是,i=j时,可以设置为e ij =0或者e ij =1,通常会设置为e ij =0。
此外,本申请在计算文献之间的相似度时,是基于特征提取结果来计算,也即本申请中,文献之间的相似度指的是文献特征之间的相似度。
在本发明的一种具体实施方式中,针对n篇文献中的每1篇文献,根据特征提取结果,计算出该篇文献与剩余的n-1篇文献之间各自的相似度,可以具体包括:
针对n篇文献中的每1篇文献,根据特征提取结果,按照的计算方式,或者按照/>的计算方式,计算出该篇文献与剩余的n-1篇文献之间各自的相似度;
其中,s ij 表示的是n篇文献中的第i篇文献与第j篇文献之间的相似度,x ik 表示的是第i篇文献的d个特征中的第k特征,x jk 表示的是第j篇文献的d个特征中的第k特征,k为正整数且1≤k≤d,d为预先设定的特征总数量,p为设定参数。
该种实施方式中给出了2种相似度计算方式,第一种是使用Minkowski距离来计算,即按照的计算方式计算出第i篇文献与第j篇文献之间的相似度。p为设定参数,需要为正整数,p=1时,Minkowski距离退化为曼哈顿距离,p=2时退化为欧氏距离,在本申请的实际应用中,通常会设置为p=2。
第二种计算方式是使用特征的余弦相似度来计算,即按照的计算方式,计算出第i篇文献与第j篇文献之间的相似度,该计算方式,计算的是第i篇文献的d个特征与第j篇文献的d个特征之间的夹角的余弦值。
步骤S105:将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果。
得到了第一信息以及第二信息之后,便可以将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,来进行图神经网络的训练。步骤S105的操作,便是训练过程中的消息前向传播的环节,而后续的步骤S106的操作,则是训练过程中的梯度后向传播的环节。
GNN(Graph Neural Network,图神经网络)因其能够对不规则结构数据进行建模,可以应用于基于图的顶点分类、分子相互作用、社交网络、推荐系统或程序理解等方面,本申请需要进行文献分类,海量文献不仅有丰富的文本信息,文献间还有丰富的引用关系,因此,本申请选择的GNN来实现文献分类。
图神经网络的具体结构可以根据需要进行设定和调整,只要能够有效地基于输入数据,输出针对训练样本中的n篇文献的类别预测结果即可。
在本发明的一种具体实施方式中,考虑到本申请中确定出了用于反映训练样本中的n篇文献之间的引用关系的第一信息,以及用于反映训练样本中的n篇文献之间的相似度的第二信息,因此,可以采用为双通道的图神经网络的结构,也即采用DGNNA(Dual GraphNeural Network with Adaptive prediction fusing,自适应预测融合的双通道图神经网络)的设计。
即在本发明的一种具体实施方式中,步骤S105可以具体包括:
步骤一:将第一信息和特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
步骤二:将第二信息和特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
步骤三:根据第一图神经网络模块输出的第一类别预测结果,以及第二图神经网络模块输出的第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果;
其中,预设的图神经网络为双通道的图神经网络,包括第一图神经网络模块和第二图神经网络模块。
在图2的实施方式中,第一信息具体为第一邻接矩阵E T ,可以由文献拓扑图而得,第二信息具体为第二邻接矩阵E F ,可以由文献特征图而得。
第一图神经网络模块和第二图神经网络模块均可以用于进行文献类别预测,得到了第一类别预测结果和第二类别预测结果之后,需要综合第一类别预测结果和第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果,图2的实施方式中,上述步骤三是由注意力模块来实现。
第一图神经网络模块和第二图神经网络模块的内部结构,可以根据实际需要进行设定和调整,只要能够有效地根据自身的输入数据,进行文献类别预测,得到相应的类别预测结果即可。
例如,以第一图神经网络模块为例,在本发明的一种具体实施方式中,第一图神经网络模块可以包括:
用于接收第一信息和特征提取结果的输入层;
用于进行顶点特征提取的L层图卷积层;L为不小于2的正整数;
用于输出第一类别预测结果的输出层;
其中,L层图卷积层中的每一层图卷积层均包括特征变换单元和图卷积单元,特征变换单元表示为,图卷积单元表示为H l+1=σ(Ug θ U T Q l );H l+1表示的是L层图卷积层中的第l层图卷积层的输出数据,H l 表示的是L层图卷积层中的第l层图卷积层的输入数据,l为正整数且1≤l≤L,Q l 表示的是第l层图卷积层的特征变换单元的输出数据,/>表示的是第l层图卷积层的待学习的特征变换矩阵的转置矩阵,U表示的是对拉普拉斯矩阵/>进行特征分解得到的特征向量所组成的矩阵,/>,D为n行n列的对角矩阵并且主对角线上的n个元素分别表示n篇文献各自的第一类邻居的数量,g θ 表示的是待学习的谱域图卷积核,且g θ 为n行n列的对角矩阵,σ表示的是激活函数。E T 表示的是用于反映训练样本中的n篇文献之间的引用关系的第一邻接矩阵。
可参阅图3,示出了一种具体实施方式中的第一图神经网络模块的结构,由输入层,L层图卷积层以及输出层构成。
输入层负责输入数据的读取,对于第一图神经网络模块的输入层而言,读取的是第一信息和特征提取结果,例如上文的一种实施方式中,第一信息具体为第一邻接矩阵E T ,特征提取结果则表示为文献特征矩阵X。
图卷积层用于进行顶点特征提取,可参阅图3,L层图卷积层依次连接,第1图卷积层与输入层连接,第L图卷积层则与输出层连接。
每一层图卷积层均包括特征变换单元和图卷积单元,以L层图卷积层中的第l层为例,第l层图卷积层的特征变换单元可以表示为,图卷积单元可以表示为H l+1=σ(Ug θ U T Q l )。
H l 表示的是L层图卷积层中的第l层图卷积层的输入数据,H l+1表示的是L层图卷积层中的第l层图卷积层的输出数据,当l=1时,H 1=文献特征矩阵X,即第1层图卷积层的输入数据为特征提取结果。
表示的是第l层图卷积层的待学习的特征变换矩阵,即/>中的参数会在训练过程中不断被更新,/>则为/>的转置矩阵。
U为n行n列的矩阵,是对拉普拉斯矩阵进行特征分解得到的特征向量所组成的矩阵,U T 则是的U转置矩阵。/>,即该拉普拉斯矩阵/>是基于第一信息确定出的,该种具体实施方式中,具体是基于D和E T 确定出。
D为n行n列的对角矩阵,其主对角线上的n个元素分别表示n篇文献各自的第一类邻居的数量,其余元素均为0。g θ 表示的是待学习的谱域图卷积核,且g θ 为n行n列的对角矩阵,因此g θ 可以表示为g θ =diag[θ 1,θ 2,...,θn],与一样,g θ 中的参数也需要在训练过程中不断被更新。
进一步的,在本发明的一种具体实施方式中,针对任一图卷积单元,可以通过重参数化的方式,进行该图卷积单元的输出的近似计算。
该种实施方式是考虑到,上文的实施方式中,图卷积单元需要进行矩阵特征分解得到U以及U转置矩阵U T ,矩阵特征分解这一计算的开销较大,为避免此开销,可以采用近似计算的方式来降低计算耗时。通过重参数化的方式进行近似计算,指的是通过其他参数替换需要进行矩阵特征分解才能得到的U以及U T 。
当然,近似计算的具体方式可以有多种,例如在本发明的一种具体实施方式中,针对任一图卷积单元,通过重参数化的方式,该图卷积单元的输出的近似计算结果表示为:
;
其中,M表示的是多项式阶数,m为正整数且0≤m≤M,a 0至a M 为设定系数,I表示的是单位矩阵。
该种实施方式,是借助Bernstein多项式实现近似计算。具体的,按照Bernstein多项式的原理,对于定义在[0,2]上任意非负函数,均可以写成Bernstein多项式的形式:
表示为。
表示数学上的排列组合中的组合,a 0至a M 为设定系数。
因此,借助Bernstein多项式,可以将g θ 定义为Λ的多项式:
。U是对拉普拉斯矩阵/>进行特征分解得到的特征向量所组成的矩阵,Λ则是由这些特征向量对应的特征值组成的对角矩阵。
将将g θ 定义为Λ的多项式之后,代入H l+1=σ(Ug θ U T Q l )中,并进行近似计算,可以得到:
。
可以看出,在中,已经不涉及开销巨大的特征分解操作,即该式子中已经不需要具体计算出U以及U T 。
输出层用于输出第一类别预测结果,通常可以使用softmax函数实现,例如在本发明的一种具体实施方式中。第一图神经网络模块中的输出层可以表示为:
;
Z T 表示的是输出层的输出,也即表示的是第一类别预测结果,softmax表示的是设定的softmax函数,H L+1表示的是L层图卷积层中的第L层图卷积层的输出数据。
Z T 为n行C列的矩阵,即Z T 为n*c维的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
上文中,对于第一图神经网络模块的结构进行了详细说明,而在实际应用中,第二图神经网络模块通常可以采用与第一图神经网络模块相同的结构,因此便不再重复说明。当然,第二图神经网络模块的输入数据与第一图神经网络模块不同,具体为第二信息和特征提取结果。
如上文步骤三的描述,得到了第一类别预测结果和第二类别预测结果之后,需要综合第一类别预测结果和第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果,图2的实施方式中,上述步骤三是由注意力模块来实现。
在本发明的一种具体实施方式中,上述步骤三可以具体包括:
对第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量;
对第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量;
对第一注意力向量和第二注意力向量进行归一化,并表示为对角矩阵的形式,得到第一注意力矩阵和第二注意力矩阵;
基于第一注意力,第二注意力矩阵,第一类别预测结果以及第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果。
具体的,综合第一类别预测结果和第二类别预测结果时,一种简单的方式是直接将第一类别预测结果和第二类别预测结果相加,但是这样的方式准确性不高。
对此,该种实施方式中,是通过注意力机制来实现第一类别预测结果和第二类别预测结果的融合。具体的,需要确定出用于控制第一类别预测结果的权重的第一注意力向量,以及用于控制第二类别预测结果的权重的第二注意力向量。
例如,在本发明的一种具体实施方式中,对第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量,可以具体包括:
按照的计算方式,得到用于控制第一类别预测结果的权重的第一注意力向量;
其中,表示的是得到的第一注意力向量中的第i个注意力数值,W 1为待学习的第一特征变换矩阵,/>表示的是Z T 的第i行,b 1为待学习的第一偏置向量;Z T 表示的是第一类别预测结果,且Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
该种实施方式中,给出了一种较为方便的计算方式,W 1为待学习的第一特征变换矩阵,是C行C列的矩阵,需要通过训练过程不断更新W 1中的参数,b 1为待学习的第一偏置向量,包含C个参数,也需要通过训练过程不断更新b 1。通过进行的是线性变换,而通过三角函数tan则进行的是非线性变换。该种实施方式中对第一类别预测结果进行非线性变换,有利于提高后续的预测准确性。
相应的,在本发明的一种具体实施方式中,对第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量,可以具体包括:
按照的计算方式,得到用于控制第二类别预测结果的权重的第二注意力向量;
其中,表示的是得到的第二注意力向量中的第i个注意力数值,W 2为待学习的第二特征变换矩阵,/>表示的是Z F 的第i行,b 2为待学习的第二偏置向量;Z F 表示的是第二类别预测结果,且Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被第二图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
该种实施方式与上文同理,通过进行的是线性变换,而通过三角函数tan则进行的是非线性变换。对第二类别预测结果进行非线性变换,有利于提高后续的预测准确性。同样的,W 2为待学习的第二特征变换矩阵,是C行C列的矩阵,需要通过训练过程不断更新W 2中的参数,b 2为待学习的第二偏置向量,包含C个参数,也需要通过训练过程不断更新b 2。
得到了第一注意力向量和第二注意力向量之后,需要进行归一化,例如可以使用softmax函数实现归一化。
此处使用softmax函数实现归一化的操作,可以表示为:
;
。
归一化的结果为向量,需要表示为对角矩阵的形式,以为例,即,获得Z T 中所有文献的归一化注意力值/>之后,将其表示为对角阵形式便可以得到第一注意力矩阵。同样的方法,可以得到第二注意力矩阵/>。
在基于第一注意力矩阵,第二注意力矩阵,第一类别预测结果以及第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果时,具体实现方式有多种,例如在本发明的一种具体实施方式中,该步骤可以为:
按照的计算方式,确定出针对训练样本中的n篇文献的类别预测结果Z;
其中,表示的是第一注意力矩阵,/>表示的是第二注意力矩阵,Z T 表示的是第一类别预测结果,Z F 表示的是第二类别预测结果;
Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C;Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被第二图神经网络模块预测为第c种类别的概率。
该种实施方式中,使用第一注意力矩阵与第一类别预测结果相乘,使用第二注意力矩阵与第二类别预测结果相乘,然后进行叠加,可以方便的得到类别预测结果Z。类别预测结果Z为n行C列的矩阵,以第1行为例,对应的是n篇文献中的第1篇文献,例如在第1行中,C列中的第8列的值为1,其余值为0,则表示的是第1篇文献的类别预测结果为第8类别。
步骤S106:基于类别预测结果更新图神经网络的参数,并返回执行获取n篇文献作为一组训练样本的操作,即返回执行步骤S101的操作,直到图神经网络训练完成。后续,便可以基于训练完成的图神经网络训练进行文献类别的预测。
得到了类别预测结果之后,便可以进行梯度后向传播,更新图神经网络的参数,即可以基于类别预测结果计算损失函数,并按照设定的梯度策略更新图神经网络的参数。例如一种具体场合中,需要更新第一图神经网络模块中的每一层图卷积层的特征变换矩阵和谱域图卷积核,需要更新第二图神经网络模块中的每一层图卷积层的特征变换矩阵和谱域图卷积核,需要更新第一特征变换矩阵W 1,第一偏置向量b 1第二特征变换矩阵W 2以及第二偏置向量b 2。
实际应用中,当网络误差达到一个指定的较小值,或迭代次数达到指定的迭次数阈值时,预设的图神经网络便训练完成,得到训练完成的图神经网络。得到了训练完成的图神经网络之后,便可以基于训练完成的图神经网络训练进行文献类别的预测。
在梯度后向传播时,设定的梯度策略可以有多种,例如在本发明的一种具体实施方式中,设定的梯度策略可以具体为基于批量梯度下降的梯度策略,或者为基于随机梯度下降的梯度策略,是较为方便的梯度策略。
当然,其他实施方式中,还可以根据需要采用动量梯度下降的梯度策略、AdaGrad梯度策略、RMSprop梯度策略、Adam梯度策略等等。
所采用的损失函数也可以有多种,在本发明的一种具体实施方式中,基于类别预测结果更新图神经网络的参数,可以具体包括:
基于类别预测结果计算损失函数,并按照设定的梯度策略更新图神经网络的参数;
其中,损失函数由监督学习损失和无监督学习损失叠加而成。
该种实施方式中,损失函数由监督学习损失和无监督学习损失叠加而成。这是考虑到每次获取n篇文献作为一组训练样本之后,n篇文献可以均预先进行了分类,也可以是n篇文献中的一部分文献预先进行了分类,因此,本申请可以采用监督学习损失结合无监督学习损失的设计,以保障方案的灵活性。
当然,监督学习损失和无监督学习损失的具体计算公式可以根据需要进行设计和调整,例如在本发明的一种具体实施方式中,监督学习损失loss s 表示为:
;
无监督学习损失loss u 表示为:
;
其中,VL表示的是训练样本的n篇文献中有预置类别标签的文献所构成的集合,VU表示的是训练样本的n篇文献中无预置类别标签的文献所构成的集合,vi和vj分别表示的是n篇文献中的第i篇文献和第j篇文献,Y为用于表示n篇文献的预置类别标签的矩阵,σ表示的是激活函数,Z ij 表示的是类别预测结果Z的第i行第j列的数值,a 0为设定的温度超参数,t ij 表示的是第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,第一邻接矩阵E T 作为第一信息,用于反映训练样本中的n篇文献之间的引用关系;Z F 表示的是第二类别预测结果,Z T 表示的是第一类别预测结果。Z T (i,j)表示的是Z T 中的第i行第j列的数值,Z F (i,j)表示的是Z F 中的第i行第j列的数值。
该种实施方式中,损失函数loss=loss s +loss u 。对于监督学习损失loss s ,针对的是n篇文献中有预置类别标签的文献,如上文的描述,1篇文献的类别通常可以由作者或者版主手动确定,此时,该篇文献便属于有预置类别标签的文献。用VL表示训练样本的n篇文献中有预置类别标签的文献所构成的集合,VU则表示训练样本的n篇文献中无预置类别标签的文献所构成的集合,可以理解的是VL与VU的并集便构成n篇文献,VL与VU的交集则为空集。
对于无预置类别标签的文献,由于类别标签未知,因此采用无监督学习的方式计算损失。
对于有预置类别标签的文献,由于类别标签已知,因此采用监督学习的方式计算损失。公式中的Y为用于表示n篇文献的预置类别标签的矩阵,即Y为n行C列的矩阵,n行对应的是n篇文献,Y ij 表示的是矩阵Y的第i行第j列的数值。以第1行为例,例如在矩阵Y的第1行中,C列中的第8列的值为1,其余值为0,则表示的是第1篇文献是有预置类别标签的文献,且类别标签为8。例如在矩阵Y的第2行中,C列中的各列的值均为0,则说明第2篇文献是无预置类别标签的文献。
可以看出,该种实施方式中的损失函数由监督学习损失和无监督学习损失叠加而成,使得本申请的方案在训练过程中,既能够支持n篇文献均预先进行了分类的情况,也可以支持n篇文献中的部分文献预先进行了分类的情况,提高了本申请方案的灵活性。
应用本发明实施例所提供的技术方案,考虑到除了文献标题、摘要、关键字等文献自身特征之外,文献之间存在着复杂的引用关系,可以作为文献分类的依据。并且本申请进一步的考虑到,仅利用文献之间的引用关系,或者仅利用文献特征,不利于提高分类准确率,对此,本申请的方案中,充分利用了文献文本特征和文献间引用关系,来实现准确的分类。具体的,获取n篇文献作为一组训练样本,并将文献类别作为标签,便可以对训练样本进行特征提取,得到特征提取结果。得到特征提取结果之后,本申请的方案会根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息。文献之间的相似度越高,属于相同类别的概率就越高,即确定出的第二信息有利于提高分类准确率。与此同时,本申请的方案中还会确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息,利用文献之间的引用关系也有助于提高分类的准确性。最后,便可以将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果,进而基于类别预测结果更新图神经网络的参数,直到图神经网络训练完成时,便可以基于训练完成的图神经网络训练进行文献类别的预测。
综上所述,本申请的方案可以有效地实现文献类别的预测,并且提高了类别预测的准确率。
相应于上面的方法实施例,本发明实施例还提供了一种图神经网络训练系统,可与上文相互对应参照。
参见图4所示,为本发明中一种图神经网络训练系统的结构示意图,包括:
训练样本获取模块401,用于获取n篇文献作为一组训练样本,并将文献类别作为标签;
特征提取模块402,用于对训练样本进行特征提取,得到特征提取结果;
第一信息确定模块403,用于确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息;
第二信息确定模块404,用于根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息;
类别预测结果确定模块405,用于将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果;
更新模块406,用于基于类别预测结果更新图神经网络的参数,并触发训练样本获取模块401,直到图神经网络训练完成;
其中,n为不小于2的正整数。
在本发明的一种具体实施方式中,特征提取模块402具体用于:
以深度学习的方式,对训练样本中的n篇文献的文献标题和/或文献摘要和/或文献关键字和/或文献正文进行特征提取,得到文献特征矩阵X,作为得到的特征提取结果。
在本发明的一种具体实施方式中,第二信息确定模块404具体用于:
针对n篇文献中的每1篇文献,根据特征提取结果,计算出该篇文献与剩余的n-1篇文献之间各自的相似度,并将相似度最高的K篇文献作为该篇文献的第二类邻居;
根据各篇文献各自的第二类邻居,确定出用于反映训练样本中的n篇文献之间的相似度的第二邻接矩阵E F ,作为确定出的第二信息;
其中,第二邻接矩阵E F 为n行n列的矩阵,e ij 表示第二邻接矩阵E F 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第二类邻居时,和/或当第i篇文献为第j篇文献的第二类邻居时,e ij =1;当第j篇文献不为第i篇文献的第二类邻居,并且第i篇文献不为第j篇文献的第二类邻居时,e ij =0。
在本发明的一种具体实施方式中,针对n篇文献中的每1篇文献,根据特征提取结果,计算出该篇文献与剩余的n-1篇文献之间各自的相似度,包括:
针对n篇文献中的每1篇文献,根据特征提取结果,按照的计算方式,或者按照/>的计算方式,计算出该篇文献与剩余的n-1篇文献之间各自的相似度;
其中,s ij 表示的是n篇文献中的第i篇文献与第j篇文献之间的相似度,x ik 表示的是第i篇文献的d个特征中的第k特征,x jk 表示的是第j篇文献的d个特征中的第k特征,k为正整数且1≤k≤d,d为预先设定的特征总数量,p为设定参数。
在本发明的一种具体实施方式中,第一信息确定模块403具体用于:
针对n篇文献中的每1篇文献,将剩余的n-1篇文献中与该篇文献之间存在引用关系的文献,作为该篇文献的第一类邻居;
根据各篇文献各自的第一类邻居,确定出用于反映训练样本中的n篇文献之间的引用关系的第一邻接矩阵E T ,作为确定出的第一信息;
其中,第一邻接矩阵E T 为n行n列的矩阵,t ij 表示第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第一类邻居时,t ij =1;当第j篇文献不为第i篇文献的第一类邻居时,t ij =0。
在本发明的一种具体实施方式中,类别预测结果确定模块405具体用于:
将第一信息和特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
将第二信息和特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
根据第一图神经网络模块输出的第一类别预测结果,以及第二图神经网络模块输出的第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果;
其中,预设的图神经网络为双通道的图神经网络,包括第一图神经网络模块和第二图神经网络模块。
在本发明的一种具体实施方式中,第一图神经网络模块包括:
用于接收第一信息和特征提取结果的输入层;
用于进行顶点特征提取的L层图卷积层;L为不小于2的正整数;
用于输出第一类别预测结果的输出层;
其中,L层图卷积层中的每一层图卷积层均包括特征变换单元和图卷积单元,特征变换单元表示为,图卷积单元表示为H l+1=σ(Ug θ U T Q l );H l+1表示的是L层图卷积层中的第l层图卷积层的输出数据,H l 表示的是L层图卷积层中的第l层图卷积层的输入数据,l为正整数且1≤l≤L,Q l 表示的是第l层图卷积层的特征变换单元的输出数据,/>表示的是第l层图卷积层的待学习的特征变换矩阵的转置矩阵,U表示的是对拉普拉斯矩阵/>进行特征分解得到的特征向量所组成的矩阵,/>,D为n行n列的对角矩阵并且主对角线上的n个元素分别表示n篇文献各自的第一类邻居的数量,g θ 表示的是待学习的谱域图卷积核,且g θ 为n行n列的对角矩阵,σ表示的是激活函数。E T 表示的是用于反映训练样本中的n篇文献之间的引用关系的第一邻接矩阵。
在本发明的一种具体实施方式中,针对任一图卷积单元,通过重参数化的方式,进行该图卷积单元的输出的近似计算。
在本发明的一种具体实施方式中,针对任一图卷积单元,通过重参数化的方式,图卷积单元的输出的近似计算结果表示为:
;
其中,M表示的是多项式阶数,m为正整数且0≤m≤M,a 0至a M 为设定系数,I表示的是单位矩阵。
在本发明的一种具体实施方式中,第一图神经网络模块中的输出层表示为:
Z T =softmax(H L+1);
Z T 表示的是输出层的输出,softmax表示的是设定的softmax函数,H L+1表示的是L层图卷积层中的第L层图卷积层的输出数据。
在本发明的一种具体实施方式中,根据第一图神经网络模块输出的第一类别预测结果,以及第二图神经网络模块输出的第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果,包括:
对第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量;
对第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量;
对第一注意力向量和第二注意力向量进行归一化,并表示为对角矩阵的形式,得到第一注意力矩阵和第二注意力矩阵;
基于第一注意力矩阵,第二注意力矩阵,第一类别预测结果以及第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果。
在本发明的一种具体实施方式中,对第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量,包括:
按照的计算方式,得到用于控制第一类别预测结果的权重的第一注意力向量;
其中,表示的是得到的第一注意力向量中的第i个注意力数值,W 1为待学习的第一特征变换矩阵,/>表示的是Z T 的第i行,b 1为待学习的第一偏置向量;Z T 表示的是第一类别预测结果,且Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
在本发明的一种具体实施方式中,对第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量,包括:
按照的计算方式,得到用于控制第二类别预测结果的权重的第二注意力向量;
其中,表示的是得到的第二注意力向量中的第i个注意力数值,W 2为待学习的第二特征变换矩阵,/>表示的是Z F 的第i行,b 2为待学习的第二偏置向量;Z F 表示的是第二类别预测结果,且Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被第二图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
在本发明的一种具体实施方式中,基于第一注意力矩阵,第二注意力矩阵,第一类别预测结果以及第二类别预测结果,确定出针对训练样本中的n篇文献的类别预测结果,包括:
按照的计算方式,确定出针对训练样本中的n篇文献的类别预测结果Z;
其中,表示的是第一注意力矩阵,/>表示的是第二注意力矩阵,Z T 表示的是第一类别预测结果,Z F 表示的是第二类别预测结果;
Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C;Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被第二图神经网络模块预测为第c种类别的概率。
在本发明的一种具体实施方式中,基于类别预测结果更新图神经网络的参数,包括:
基于类别预测结果计算损失函数,并按照设定的梯度策略更新图神经网络的参数;
其中,损失函数由监督学习损失和无监督学习损失叠加而成。
在本发明的一种具体实施方式中,梯度策略为基于批量梯度下降的梯度策略,或者为基于随机梯度下降的梯度策略。
在本发明的一种具体实施方式中,监督学习损失loss s 表示为:
;
无监督学习损失loss u 表示为:
;
其中,VL表示的是训练样本的n篇文献中有预置类别标签的文献所构成的集合,VU表示的是训练样本的n篇文献中无预置类别标签的文献所构成的集合,vi和vj分别表示的是n篇文献中的第i篇文献和第j篇文献,Y为用于表示n篇文献的预置类别标签的矩阵,σ表示的是激活函数,Z ij 表示的是类别预测结果Z的第i行第j列的数值,a 0为设定的温度超参数,t ij 表示的是第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,第一邻接矩阵E T 作为第一信息,用于反映训练样本中的n篇文献之间的引用关系;Z F 表示的是第二类别预测结果,Z T 表示的是第一类别预测结果。
相应于上面的方法和系统实施例,本发明实施例还提供了一种图神经网络训练设备以及一种计算机可读存储介质,可与上文相互对应参照。
可参阅图5,该文献分类设备可以包括:
存储器501,用于存储计算机程序;
处理器502,用于执行计算机程序以实现如上述任一实施例中的图神经网络训练方法的步骤。
可参阅图6,该计算机可读存储介质60上存储有计算机程序61,计算机程序61被处理器执行时实现如上述任一实施例中的图神经网络训练方法的步骤。这里所说的计算机可读存储介质60包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
通过本申请的方案,进行了图神经网络训练之后,便可以实现文献分类。
可参阅图7,为本发明中一种文献分类方法的结构示意图,包括以下步骤:
步骤S701:获取n篇文献作为一组训练样本,并将文献类别作为标签;
步骤S702:对训练样本进行特征提取,得到特征提取结果;
步骤S703:基于n篇文献之间的引用关系,确定出用于反映训练样本中的n篇文献之间的引用关系的第一信息;
步骤S704:根据特征提取结果,确定出用于反映训练样本中的n篇文献之间的相似度的第二信息;
步骤S705:将特征提取结果,第一信息以及第二信息输入至预设的图神经网络,得到图神经网络所输出的针对训练样本中的n篇文献的类别预测结果;
步骤S706:基于类别预测结果更新图神经网络的参数,并返回步骤S701的操作,直到图神经网络训练完成,以基于训练完成的图神经网络训练进行文献类别的预测;
其中,n为不小于2的正整数。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
Claims (20)
1.一种图神经网络训练方法,其特征在于,包括:
获取n篇文献作为一组训练样本,并将文献类别作为标签;
对所述训练样本进行特征提取,得到特征提取结果;
基于n篇文献之间的引用关系,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
基于所述类别预测结果更新所述图神经网络的参数,并返回执行所述获取n篇文献作为一组训练样本的操作,直到所述图神经网络训练完成;其中,n为不小于2的正整数;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果,包括:
将所述第一信息和所述特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
将所述第二信息和所述特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果;
其中,预设的所述图神经网络为双通道的图神经网络,包括所述第一图神经网络模块和所述第二图神经网络模块。
2.根据权利要求1所述的图神经网络训练方法,其特征在于,对所述训练样本进行特征提取,得到特征提取结果,包括:
以深度学习的方式,对所述训练样本中的n篇文献的文献标题和/或文献摘要和/或文献关键字和/或文献正文进行特征提取,得到文献特征矩阵X,作为得到的特征提取结果。
3.根据权利要求1所述的图神经网络训练方法,其特征在于,所述确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息,包括:
针对n篇文献中的每1篇文献,将剩余的n-1篇文献中与所述文献之间存在引用关系的文献,作为所述文献的第一类邻居;
根据各篇文献各自的第一类邻居,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一邻接矩阵E T ,作为确定出的第一信息;
其中,所述第一邻接矩阵E T 为n行n列的矩阵,t ij 表示所述第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第一类邻居时,t ij =1;当第j篇文献不为第i篇文献的第一类邻居时,t ij =0。
4.根据权利要求1所述的图神经网络训练方法,其特征在于,根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息,包括:
针对n篇文献中的每1篇文献,根据所述特征提取结果,计算出所述文献与剩余的n-1篇文献之间各自的相似度,并将相似度最高的K篇文献作为所述文献的第二类邻居;
根据各篇文献各自的第二类邻居,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二邻接矩阵E F ,作为确定出的第二信息;
其中,所述第二邻接矩阵E F 为n行n列的矩阵,e ij 表示所述第二邻接矩阵E F 中的第i行第j列的数据,i和j均为正整数,1≤i,j≤n;当第j篇文献为第i篇文献的第二类邻居时,和/或当第i篇文献为第j篇文献的第二类邻居时,e ij =1;当第j篇文献不为第i篇文献的第二类邻居,并且第i篇文献不为第j篇文献的第二类邻居时,e ij =0。
5.根据权利要求4所述的图神经网络训练方法,其特征在于,针对n篇文献中的每1篇文献,根据所述特征提取结果,计算出所述文献与剩余的n-1篇文献之间各自的相似度,包括:
针对n篇文献中的每1篇文献,根据所述特征提取结果,按照的计算方式,或者按照/>的计算方式,计算出所述文献与剩余的n-1篇文献之间各自的相似度;
其中,s ij 表示的是n篇文献中的第i篇文献与第j篇文献之间的相似度,x ik 表示的是第i篇文献的d个特征中的第k特征,x jk 表示的是第j篇文献的d个特征中的第k特征,k为正整数且1≤k≤d,d为预先设定的特征总数量,p为设定参数。
6.根据权利要求1所述的图神经网络训练方法,其特征在于,所述第一图神经网络模块包括:
用于接收所述第一信息和所述特征提取结果的输入层;
用于进行顶点特征提取的L层图卷积层;L为不小于2的正整数;
用于输出第一类别预测结果的输出层;
其中,L层图卷积层中的每一层图卷积层均包括特征变换单元和图卷积单元,所述特征变换单元表示为,所述图卷积单元表示为 H l+1=σ(Ug θ U T Q l );H l+1表示的是L层图卷积层中的第l层图卷积层的输出数据,H l 表示的是L层图卷积层中的第l层图卷积层的输入数据,l为正整数且1≤l≤L,Q l 表示的是第l层图卷积层的特征变换单元的输出数据,/>表示的是第l层图卷积层的待学习的特征变换矩阵的转置矩阵,U表示的是对拉普拉斯矩阵进行特征分解得到的特征向量所组成的矩阵,/>,D为n行n列的对角矩阵并且主对角线上的n个元素分别表示n篇文献各自的第一类邻居的数量,g θ 表示的是待学习的谱域图卷积核,且g θ 为n行n列的对角矩阵,σ表示的是激活函数,E T 表示的是用于反映所述训练样本中的n篇文献之间的引用关系的第一邻接矩阵。
7.根据权利要求6所述的图神经网络训练方法,其特征在于,针对任一图卷积单元,通过重参数化的方式,进行所述图卷积单元的输出的近似计算。
8.根据权利要求7所述的图神经网络训练方法,其特征在于,针对任一图卷积单元,通过重参数化的方式,所述图卷积单元的输出的近似计算结果表示为:
;
其中,M表示的是多项式阶数,m为正整数且0≤m≤M,a 0至a M 为设定系数,I表示的是单位矩阵。
9.根据权利要求6所述的图神经网络训练方法,其特征在于,所述第一图神经网络模块中的所述输出层表示为:
;
Z T 表示的是所述输出层的输出,softmax表示的是设定的softmax函数,H L+1表示的是L层图卷积层中的第L层图卷积层的输出数据。
10.根据权利要求1所述的图神经网络训练方法,其特征在于,根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果,包括:
对所述第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量;
对所述第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量;
对所述第一注意力向量和所述第二注意力向量进行归一化,并表示为对角矩阵的形式,得到第一注意力矩阵和第二注意力矩阵;
基于所述第一注意力矩阵,所述第二注意力矩阵,所述第一类别预测结果以及所述第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果。
11.根据权利要求10所述的图神经网络训练方法,其特征在于,对所述第一类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第一类别预测结果的权重的第一注意力向量,包括:
按照的计算方式,得到用于控制第一类别预测结果的权重的第一注意力向量;
其中,表示的是得到的第一注意力向量中的第i个注意力数值,W 1为待学习的第一特征变换矩阵,/>表示的是Z T 的第i行,b 1为待学习的第一偏置向量;Z T 表示的是第一类别预测结果,且Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被所述第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
12.根据权利要求10所述的图神经网络训练方法,其特征在于,对所述第二类别预测结果进行非线性变换,并通过设定的共享注意力向量q得到用于控制第二类别预测结果的权重的第二注意力向量,包括:
按照的计算方式,得到用于控制第二类别预测结果的权重的第二注意力向量;
其中,表示的是得到的第二注意力向量中的第i个注意力数值,W 2为待学习的第二特征变换矩阵,/>表示的是Z F 的第i行,b 2为待学习的第二偏置向量;Z F 表示的是第二类别预测结果,且Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被所述第二图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C。
13.根据权利要求10所述的图神经网络训练方法,其特征在于,基于所述第一注意力矩阵,所述第二注意力矩阵,所述第一类别预测结果以及所述第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果,包括:
按照的计算方式,确定出针对所述训练样本中的n篇文献的类别预测结果Z;
其中,表示的是所述第一注意力矩阵,/>表示的是所述第二注意力矩阵,Z T 表示的是所述第一类别预测结果,Z F 表示的是所述第二类别预测结果;
Z T 为n行C列的矩阵,Z T 中的第i行第c列的数值表示的是第i篇文献被所述第一图神经网络模块预测为第c种类别的概率,C为设定的总类别数,c为正整数且1≤c≤C;Z F 为n行C列的矩阵,Z F 中的第i行第c列的数值表示的是第i篇文献被所述第二图神经网络模块预测为第c种类别的概率。
14.根据权利要求1至13任一项所述的图神经网络训练方法,其特征在于,基于所述类别预测结果更新所述图神经网络的参数,包括:
基于所述类别预测结果计算损失函数,并按照设定的梯度策略更新所述图神经网络的参数;
其中,所述损失函数由监督学习损失和无监督学习损失叠加而成。
15.根据权利要求14所述的图神经网络训练方法,其特征在于,所述梯度策略为基于批量梯度下降的梯度策略,或者为基于随机梯度下降的梯度策略。
16.根据权利要求14所述的图神经网络训练方法,其特征在于,所述监督学习损失loss s 表示为:
;
所述无监督学习损失loss u 表示为:
;
其中,VL表示的是所述训练样本的n篇文献中有预置类别标签的文献所构成的集合,VU表示的是所述训练样本的n篇文献中无预置类别标签的文献所构成的集合,vi和vj分别表示的是n篇文献中的第i篇文献和第j篇文献,Y为用于表示n篇文献的预置类别标签的矩阵,σ表示的是激活函数,Z ij 表示的是类别预测结果Z的第i行第j列的数值,a 0为设定的温度超参数,t ij 表示的是第一邻接矩阵E T 中的第i行第j列的数据,i和j均为正整数,第一邻接矩阵E T 作为第一信息,用于反映所述训练样本中的n篇文献之间的引用关系;Z F 表示的是第二类别预测结果,Z T 表示的是第一类别预测结果。
17.一种图神经网络训练系统,其特征在于,包括:
训练样本获取模块,用于获取n篇文献作为一组训练样本,并将文献类别作为标签;
特征提取模块,用于对所述训练样本进行特征提取,得到特征提取结果;
第一信息确定模块,用于确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
第二信息确定模块,用于根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
类别预测结果确定模块,用于将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
更新模块,用于基于所述类别预测结果更新所述图神经网络的参数,并触发所述训练样本获取模块,直到所述图神经网络训练完成;
其中,n为不小于2的正整数;
上述类别预测结果确定模块,具体用于:
将所述第一信息和所述特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
将所述第二信息和所述特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果;
其中,预设的所述图神经网络为双通道的图神经网络,包括所述第一图神经网络模块和所述第二图神经网络模块。
18.一种图神经网络训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至16任一项所述的图神经网络训练方法的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至16任一项所述的图神经网络训练方法的步骤。
20.一种文献分类方法,其特征在于,包括:
获取n篇文献作为一组训练样本,并将文献类别作为标签;
对所述训练样本进行特征提取,得到特征提取结果;
基于n篇文献之间的引用关系,确定出用于反映所述训练样本中的n篇文献之间的引用关系的第一信息;
根据所述特征提取结果,确定出用于反映所述训练样本中的n篇文献之间的相似度的第二信息;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果;
基于所述类别预测结果更新所述图神经网络的参数,并返回执行所述获取n篇文献作为一组训练样本的操作,直到所述图神经网络训练完成,以基于训练完成的所述图神经网络训练进行文献类别的预测;
其中,n为不小于2的正整数;
将所述特征提取结果,所述第一信息以及所述第二信息输入至预设的图神经网络,得到所述图神经网络所输出的针对所述训练样本中的n篇文献的类别预测结果,包括:
将所述第一信息和所述特征提取结果输入至用于进行文献类别预测的第一图神经网络模块中;
将所述第二信息和所述特征提取结果输入至用于进行文献类别预测的第二图神经网络模块中;
根据所述第一图神经网络模块输出的第一类别预测结果,以及所述第二图神经网络模块输出的第二类别预测结果,确定出针对所述训练样本中的n篇文献的类别预测结果;
其中,预设的所述图神经网络为双通道的图神经网络,包括所述第一图神经网络模块和所述第二图神经网络模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310509057.3A CN116226388B (zh) | 2023-05-08 | 2023-05-08 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310509057.3A CN116226388B (zh) | 2023-05-08 | 2023-05-08 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226388A CN116226388A (zh) | 2023-06-06 |
CN116226388B true CN116226388B (zh) | 2023-07-21 |
Family
ID=86585890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310509057.3A Active CN116226388B (zh) | 2023-05-08 | 2023-05-08 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226388B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431816B (zh) * | 2023-06-13 | 2023-09-19 | 浪潮电子信息产业股份有限公司 | 一种文献分类方法、装置、设备和计算机可读存储介质 |
CN117093928A (zh) * | 2023-10-18 | 2023-11-21 | 南开大学 | 基于谱域图神经网络的自适应图节点异常检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110083703A (zh) * | 2019-04-28 | 2019-08-02 | 浙江财经大学 | 一种基于引用网络和文本相似度网络的文献聚类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209398B (zh) * | 2019-12-30 | 2023-01-17 | 北京航空航天大学 | 一种基于图卷积神经网络的文本分类方法、系统 |
CN112966114B (zh) * | 2021-04-10 | 2023-08-15 | 北京工商大学 | 基于对称图卷积神经网络的文献分类方法和装置 |
US20230128876A1 (en) * | 2022-08-03 | 2023-04-27 | Infrrd Inc | System for optimizing training dataset |
-
2023
- 2023-05-08 CN CN202310509057.3A patent/CN116226388B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110083703A (zh) * | 2019-04-28 | 2019-08-02 | 浙江财经大学 | 一种基于引用网络和文本相似度网络的文献聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116226388A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116226388B (zh) | 一种文献分类方法、一种图神经网络训练方法及相关组件 | |
CN113902926B (zh) | 一种基于自注意力机制的通用图像目标检测方法和装置 | |
Elmaz et al. | CNN-LSTM architecture for predictive indoor temperature modeling | |
Mariet et al. | Diversity networks: Neural network compression using determinantal point processes | |
US20230222337A1 (en) | Systems and methods for collaborative filtering with variational autoencoders | |
Corchado et al. | Ibr retrieval method based on topology preserving mappings | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN112800344B (zh) | 一种基于深度神经网络的电影推荐方法 | |
CN112364242B (zh) | 针对上下文感知型的图卷积推荐系统 | |
US20170236069A1 (en) | Scalable supervised high-order parametric embedding for big data visualization | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
Zheng et al. | Collaborative filtering recommendation algorithm based on variational inference | |
Indra et al. | Modeling of optimal deep learning based flood forecasting model using twitter data | |
CN112241802A (zh) | 一种风电功率的区间预测方法 | |
Huang et al. | Broad recommender system: An efficient nonlinear collaborative filtering approach | |
CN116431816B (zh) | 一种文献分类方法、装置、设备和计算机可读存储介质 | |
CN116738983A (zh) | 模型进行金融领域任务处理的词嵌入方法、装置、设备 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
US11921821B2 (en) | System and method for labelling data for trigger identification | |
Wei et al. | Stock trend prediction using financial market news and BERT | |
Xie et al. | Finding a good initial configuration of parameters for restricted Boltzmann machine pre-training | |
Yang et al. | Generating anfiss through rule interpolation: An initial investigation | |
US11989777B2 (en) | Pairing and grouping user profiles accessed from pre-current systems | |
US20230342338A1 (en) | Change management process for identifying confidential information for improved processing efficiency | |
US20230342351A1 (en) | Change management process for identifying inconsistencies for improved processing efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |