CN116431816A - 一种文献分类方法、装置、设备和计算机可读存储介质 - Google Patents
一种文献分类方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116431816A CN116431816A CN202310694562.XA CN202310694562A CN116431816A CN 116431816 A CN116431816 A CN 116431816A CN 202310694562 A CN202310694562 A CN 202310694562A CN 116431816 A CN116431816 A CN 116431816A
- Authority
- CN
- China
- Prior art keywords
- matrix
- document
- literature
- learning result
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 565
- 238000013528 artificial neural network Methods 0.000 claims abstract description 177
- 238000013145 classification model Methods 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000010219 correlation analysis Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims description 140
- 230000006870 function Effects 0.000 claims description 84
- 238000010606 normalization Methods 0.000 claims description 55
- 238000011176 pooling Methods 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 20
- 230000007704 transition Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005295 random walk Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013140 knowledge distillation Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000004821 distillation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007788 roughening Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101100001673 Emericella variicolor andH gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数字化处理技术领域,公开了一种文献分类方法、装置、设备和计算机可读存储介质,构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵。利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果。对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果。基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,依据训练好的文献分类模型,确定出文献数据库中无标签文献的类别,提高了文献分类的准确度。
Description
技术领域
本发明涉及数字化处理技术领域,特别是涉及一种文献分类方法、装置、设备和计算机可读存储介质。
背景技术
随着科学研究日新月异,各国学者发表的文献数量越来越多,且存在复杂的引用关系。这些关联的文献通常经信息技术数字化处理后存储到文献数据库中。在海量的文献数据库中,文献分类是实现精准文献检索、文献推荐和文献计量分析的关键前提和重要基础。在自然语言处理技术不断发展过程中,科研人员提出各种监督式文献分类方法,例如,从文献标题、摘要、关键字以及正文中等提取特征表示,借助朴素贝叶斯、最近邻算法、支持向量机等传统机器学习算法构建文献分类器。尽管监督式文献分类研究取得不少进展,但目前分类方法仅考虑文献标题、摘要、关键字等自身特征,未充分利用文献之间的引用关系,导致分类准确率不高。
近年来,图神经网络(Graph Neural Network, GNN)因其能够对不规则结构数据进行建模而受到大量关注,可应用于基于图的顶点分类、分子相互作用、社交网络、推荐系统或程序理解等各个领域。海量文献不仅还有丰富的文本信息,文献间还有丰富的引用关系,通常可用图来建模表示这种引用关系,并成这样的图为引文网络。通常,引文网络存在两种一致性:局部一致性和全局一致性。其中,局部一致性是指相邻顶点可能具有相同标签,全局一致性是指具有相似上下文的顶点也可能共享相同标签。而目前的方法仅利用引文网络中局部一致性来设计分类器,忽略了全局一致性,导致文献分类准确度不高。
可见,如何提高文献分类准确度,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种文献分类方法、装置、设备和计算机可读存储介质,可以提高文献分类准确度。
为解决上述技术问题,本发明实施例提供一种文献分类方法,包括:
构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;
利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果;
对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果;
基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型;
依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别。
一方面,所述构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵包括:
对所述文献数据库进行特征提取,以得到初始文献特征矩阵;
基于所述文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵。
一方面,所述基于所述文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵包括:
根据所述文献数据库中包含的文献以及各所述文献之间的引用关系,构建引文网络;
将所述引文网络的邻接矩阵作为局部一致性矩阵;
利用正逐点互信息算法对所述引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵。
一方面,所述利用正逐点互信息算法对所述引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵包括:
将所述文献数据库包含的文献数量作为矩阵的行数和列数,构建全零矩阵;
统计所述引文网络中每个文献到其所有相邻文献之间的转移概率,以得到概率转移矩阵;
利用所述概率转移矩阵以及设定的重启概率和设定步长,在所述引文网络中进行随机游走,以得到每个文献对应的上下文路径集合;
对每个文献对应的上下文路径集合进行采样,以得到每个文献在其对应的上下文出现的频次;
依据文献在其对应的上下文出现的频次,对所述全零矩阵进行更新以得到全局一致性矩阵。
一方面,所述双通道神经网络包括第一图雅克比神经网络和第二图雅克比神经网络;
相应的,所述利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果包括:
利用所述第一图雅克比神经网络对所述初始文献特征矩阵和所述局部一致性矩阵进行分析,以得到第一文献学习结果;
利用所述第二图雅克比神经网络对所述初始文献特征矩阵和所述全局一致性矩阵进行分析,以得到第二文献学习结果。
一方面,所述利用所述第一图雅克比神经网络对所述初始文献特征矩阵和所述局部一致性矩阵进行分析,以得到第一文献学习结果包括:
对所述初始文献特征矩阵以及所述局部一致性矩阵进行图卷积处理,得到第一图卷积层的局部输出特征;
将当前图卷积层的局部输出特征作为下一图卷积层的局部输入特征;将下一图卷积层的局部输入特征以及所述局部一致性矩阵进行图卷积处理,得到下一图卷积层的局部输出特征;
直至得到最后一图卷积层的局部输出特征,对所述最后一图卷积层的局部输出特征进行归一化处理,以确定出每个文献所属各类别的第一概率矩阵。
一方面,所述利用所述第二图雅克比神经网络对所述初始文献特征矩阵和所述全局一致性矩阵进行分析,以得到第二文献学习结果包括:
对所述初始文献特征矩阵以及所述全局一致性矩阵进行图卷积处理,得到第一图卷积层的全局输出特征;
将当前图卷积层的全局输出特征作为下一图卷积层的全局输入特征;将下一图卷积层的全局输入特征以及所述全局一致性矩阵进行图卷积处理,得到下一图卷积层的全局输出特征;
直至得到最后一图卷积层的全局输出特征,对所述最后一图卷积层的全局输出特征进行归一化处理,以确定出每个文献所属各类别的第二概率矩阵。
一方面,所述对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果包括:
对所述第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第一标签分布矩阵;
对所述第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第二标签分布矩阵;
对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集;其中,所述语义相关系数集中包含用于表征每个第一标签分布矩阵和每个第二标签分布矩阵之间相关性的数值。
一方面,所述对所述第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第一标签分布矩阵包括:
根据所述第一图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化局部一致性矩阵;
对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵。
一方面,所述对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵包括:
调用局部归一化公式对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵;所述局部归一化公式如下:
其中,表示第一图雅克比神经网络的第l层图卷积层对应的第一标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第一图雅克比神经网络的第l层图卷积层对应的粗化局部一致性矩阵的正则化拉普拉斯矩阵,/>表示第一图雅克比神经网络的第l层图卷积层对应的输入特征,/>为所述粗化文献特征矩阵;/>表示第一图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标A表示局部一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
一方面,所述对所述第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第二标签分布矩阵包括:
根据所述第二图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化全局一致性矩阵;
对所述粗化文献特征矩阵以及所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵。
一方面,所述对所述粗化文献特征矩阵以及所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵包括:
调用全局归一化公式对所述粗化文献特征矩阵以及所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵;所述全局归一化公式如下:
其中,表示第二图雅克比神经网络的第l层图卷积层对应的第二标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第二图雅克比神经网络的第l层图卷积层对应的粗化全局一致性矩阵的正则化拉普拉斯矩阵,/>表示第二图雅克比神经网络的第l层图卷积层对应的输入特征,/>为所述粗化文献特征矩阵;/>表示第二图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标M表示全局一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
一方面,所述对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集包括:
基于标签自注意力机制对每个第一标签分布矩阵和每个第二标签分布矩阵进行分析,以得到每个第一标签分布矩阵与各所述第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各所述第一标签分布矩阵之间的第二相关性系数集;
将所述第一相关性系数集和所述第二相关性系数集作为语义相关系数集。
一方面,所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型包括:
对所述文献分类模型的参数进行初始化;
基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数;
利用所述损失函数对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型。
一方面,所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数包括:
基于所述局部一致性矩阵、所述第一文献学习结果和所述第二文献学习结果,构建第一损失函数;
基于所述文献数据库的已有标签、所述第一文献学习结果和所述第二文献学习结果,构建第二损失函数;
基于所述第三文献学习结果,构建第三损失函数;
将所述第一损失函数、所述第二损失函数以及所述第三损失函数合并作为所述损失函数。
一方面,所述利用所述损失函数对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型包括:
基于所述损失函数对所述文献分类模型进行梯度后向传播,以实现所述文献分类模型参数的修正;其中,所述梯度后向传播包括随机梯度下降、动量梯度下降或批量梯度下降;
在参数修正后的文献分类模型的分类误差大于设定阈值并且所述文献分类模型的迭代次数未达到最大次数的情况下,返回所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数的步骤;
在参数修正后的文献分类模型的分类误差小于或等于设定阈值或者所述文献分类模型的迭代次数达到最大次数的情况下,将最新参数修正后的文献分类模型作为训练好的文献分类模型。
一方面,所述对所述文献分类模型的参数进行初始化包括:
按照设定的初始化策略对所述文献分类模型的参数进行初始化赋值;其中,所述初始化策略包括正态分布随机初始化、相同分布初始化或者半激活初始化。
一方面,在所述构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵之前,还包括:
基于所述文献数据库对应的分类粒度,设置所述文献分类模型的输出类别。
一方面,在所述依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别之后,还包括:
记录所述文献数据库中无标签文献及其对应的类别。
本发明实施例还提供了一种文献分类装置,包括构建单元、第一确定单元、第二确定单元、修正单元和分类单元;
所述构建单元,用于构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;
所述第一确定单元,用于利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果;
所述第二确定单元,用于对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果;
所述修正单元,用于基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型;
所述分类单元,用于依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别。
一方面,所述构建单元用于对所述文献数据库进行特征提取,以得到初始文献特征矩阵;基于所述文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵。
一方面,所述构建单元包括引文网络构建子单元、局部构建子单元和全局构建子单元;
所述引文网络构建子单元,用于根据所述文献数据库中包含的文献以及各所述文献之间的引用关系,构建引文网络;
所述局部构建子单元,用于将所述引文网络的邻接矩阵作为局部一致性矩阵;
所述全局构建子单元,用于利用正逐点互信息算法对所述引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵。
一方面,所述全局构建子单元用于将所述文献数据库包含的文献数量作为矩阵的行数和列数,构建全零矩阵;
统计所述引文网络中每个文献到其所有相邻文献之间的转移概率,以得到概率转移矩阵;
利用所述概率转移矩阵以及设定的重启概率和设定步长,在所述引文网络中进行随机游走,以得到每个文献对应的上下文路径集合;
对每个文献对应的上下文路径集合进行采样,以得到每个文献在其对应的上下文出现的频次;
依据文献在其对应的上下文出现的频次,对所述全零矩阵进行更新以得到全局一致性矩阵。
一方面,所述双通道神经网络包括第一图雅克比神经网络和第二图雅克比神经网络;
相应的,所述第一确定单元包括第一分析子单元和第二分析子单元;
所述第一分析子单元,用于利用所述第一图雅克比神经网络对所述初始文献特征矩阵和所述局部一致性矩阵进行分析,以得到第一文献学习结果;
所述第二分析子单元,用于利用所述第二图雅克比神经网络对所述初始文献特征矩阵和所述全局一致性矩阵进行分析,以得到第二文献学习结果。
一方面,所述第一分析子单元用于对所述初始文献特征矩阵以及所述局部一致性矩阵进行图卷积处理,得到第一图卷积层的局部输出特征;
将当前图卷积层的局部输出特征作为下一图卷积层的局部输入特征;将下一图卷积层的局部输入特征以及所述局部一致性矩阵进行图卷积处理,得到下一图卷积层的局部输出特征;
直至得到最后一图卷积层的局部输出特征,对所述最后一图卷积层的局部输出特征进行归一化处理,以确定出每个文献所属各类别的第一概率矩阵。
一方面,所述第二分析子单元用于对所述初始文献特征矩阵以及所述全局一致性矩阵进行图卷积处理,得到第一图卷积层的全局输出特征;
将当前图卷积层的全局输出特征作为下一图卷积层的全局输入特征;将下一图卷积层的全局输入特征以及所述全局一致性矩阵进行图卷积处理,得到下一图卷积层的全局输出特征;
直至得到最后一图卷积层的全局输出特征,对所述最后一图卷积层的全局输出特征进行归一化处理,以确定出每个文献所属各类别的第二概率矩阵。
一方面,所述第二确定单元包括第一池化子单元、第二池化子单元和语义分析子单元;
所述第一池化子单元,用于对所述第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第一标签分布矩阵;
所述第二池化子单元,用于对所述第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第二标签分布矩阵;
所述语义分析子单元,用于对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集;其中,所述语义相关系数集中包含用于表征每个第一标签分布矩阵和每个第二标签分布矩阵之间相关性的数值。
一方面,所述第一池化子单元用于根据所述第一图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化局部一致性矩阵;对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵。
一方面,所述第一池化子单元用于调用局部归一化公式对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵;所述局部归一化公式如下:
其中,表示第一图雅克比神经网络的第l层图卷积层对应的第一标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第一图雅克比神经网络的第l层图卷积层对应的粗化局部一致性矩阵的正则化拉普拉斯矩阵,/>表示第一图雅克比神经网络的第l层图卷积层对应的输入特征,/>为所述粗化文献特征矩阵;/>表示第一图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标A表示局部一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
一方面,所述第二池化子单元用于根据所述第二图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化全局一致性矩阵;对所述粗化文献特征矩阵以及所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵。
一方面,所述第二池化子单元用于调用全局归一化公式对所述粗化文献特征矩阵以及所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵;所述全局归一化公式如下:
其中,表示第二图雅克比神经网络的第l层图卷积层对应的第二标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第二图雅克比神经网络的第l层图卷积层对应的粗化全局一致性矩阵的正则化拉普拉斯矩阵,/>表示第二图雅克比神经网络的第l层图卷积层对应的输入特征,/>为所述粗化文献特征矩阵;/>表示第二图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标M表示全局一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
一方面,所述语义分析子单元用于基于标签自注意力机制对每个第一标签分布矩阵和每个第二标签分布矩阵进行分析,以得到每个第一标签分布矩阵与各所述第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各所述第一标签分布矩阵之间的第二相关性系数集;
将所述第一相关性系数集和所述第二相关性系数集作为语义相关系数集。
一方面,所述修正单元包括初始化子单元、构建子单元和训练子单元;
所述初始化子单元,用于对所述文献分类模型的参数进行初始化;
所述构建子单元,用于基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数;
所述训练子单元,用于利用所述损失函数对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型。
一方面,所述构建子单元用于基于所述局部一致性矩阵、所述第一文献学习结果和所述第二文献学习结果,构建第一损失函数;
基于所述文献数据库的已有标签、所述第一文献学习结果和所述第二文献学习结果,构建第二损失函数;
基于所述第三文献学习结果,构建第三损失函数;
将所述第一损失函数、所述第二损失函数以及所述第三损失函数合并作为所述损失函数。
一方面,所述训练子单元用于基于所述损失函数对所述文献分类模型进行梯度后向传播,以实现所述文献分类模型参数的修正;其中,所述梯度后向传播包括随机梯度下降、动量梯度下降或批量梯度下降;
在参数修正后的文献分类模型的分类误差大于设定阈值并且所述文献分类模型的迭代次数未达到最大次数的情况下,返回所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数的步骤;
在参数修正后的文献分类模型的分类误差小于或等于设定阈值或者所述文献分类模型的迭代次数达到最大次数的情况下,将最新参数修正后的文献分类模型作为训练好的文献分类模型。
一方面,所述初始化子单元用于按照设定的初始化策略对所述文献分类模型的参数进行初始化赋值;其中,所述初始化策略包括正态分布随机初始化、相同分布初始化或者半激活初始化。
一方面,还包括设置单元;
所述设置单元,用于基于所述文献数据库对应的分类粒度,设置所述文献分类模型的输出类别。
一方面,还包括记录单元;
所述记录单元,用于记录所述文献数据库中无标签文献及其对应的类别。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述文献分类方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述文献分类方法的步骤。
由上述技术方案可以看出,构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;初始文献特征矩阵中记录各文献各自对应的文献特征,局部一致性矩阵中记录了各文献之间的引用关系,全局一致性矩阵中记录了具有相似上下文的文献的关联性。利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果、以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果。为了充分挖掘文献的特征,可以对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果。基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,以得到训练好的文献分类模型。依据训练好的文献分类模型输出的分类结果,确定出文献数据库中无标签文献的类别。在该技术方案中,通过双通道神经网络分别对局部一致性矩阵和全局一致性矩阵进行分析,可以学习更准确的文献嵌入。并且对双通道神经网络各图卷积层的输出特征进行相关性分析,实现了双通道神经网络之间的交换学习,提高了文献分类的准确度。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文献分类方法的流程图;
图2为本发明实施例提供的一种基于第一图雅克比神经网络得到第一文献学习结果的方法的流程图;
图3为本发明实施例提供的一种基于第二图雅克比神经网络得到第二文献学习结果的方法的流程图;
图4为本发明实施例提供的一种文献分类器的结构示意图;
图5为本发明实施例提供的一种双通道神经网络交互学习的方法的流程图;
图6为本发明实施例提供的一种网络池化的示意图;
图7为本发明实施例提供的一种文献分类装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”,以及与“包括”和“具有”相关的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种文献分类方法。图1为本发明实施例提供的一种文献分类方法的流程图,该方法包括:
S101:构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵。
文献数据库中可以包含与实际应用场景匹配的文献资料。例如,实际应用场景可以是对计算机领域的文献进行分类,则文献数据库中可以包含计算机领域的文献资料。
文献数据库中包含大量的文献,为了便于文献分类模型的后续分析,可以将所有文献对应的文献特征以矩阵的形式记录。可以将包含所有文献特征的矩阵称作初始文献特征矩阵。
在本发明实施例中,可以对文献数据库进行特征提取,以得到初始文献特征矩阵;基于文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵。
初始文献特征矩阵中记录各文献各自对应的文献特征。局部一致性矩阵中记录了各文献之间的引用关系。全局一致性矩阵中记录了具有相似上下文的文献的关联性。一篇文献的上下文可以是与该文献没有引用关系,但是存在较多相同或相似性的文献。
在具体实现中,可以通过深度学习技术如预训练的语言表征模型(BidirectionalEncoder Representation from Transformers,Bert)从每篇文献的文献标题、摘要、关键字以及正文中提取出文献特征。
根据文献数据库中包含的文献以及各文献之间的引用关系,构建引文网络。
文献间引用通常是有方向的,即连接边e ij 是有向边,表示文献v i 引用文献v j 。考虑到边的方向对分类结果影响较小,本发明将有向边置为无向边,即e ij 表示文献v i 和文献v j 之间的引用关系。,记其邻居顶点集为N(v),称其邻居的个数为该顶点的度数并记为deg(v)。
假设文献数量为n,则G的拓扑结构可以用一个维的邻接矩阵A表示,元素a ij =1表示文献v i 和v j 存在引用关系,a ij =0表示不存在引用关系。每篇文献/>都有d个属性x i ={x i(1),x i(2),……,x i(d)},它们通过深度学习技术如Bert等从文献标题、摘要、关键字以及正文中提取得到。此外,部分文献有类别标签/>。其中,C={c 1,c 2,…,c |C|}表示文献类别标签集合。为了便于区分,可以采用VL表示有类别标签的文献集合,VU表示无类别标签的文献集合。所有文献的所有属性值构成初始文献特征矩阵/>,其列向量/>构成引文网络上的一个信号/>,表示所有文献的某一属性值。
在构建好引文网络后,可以将引文网络的邻接矩阵作为局部一致性矩阵;利用正逐点互信息算法对引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵。
S102:利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果、以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果。
在本发明实施例中,为了更加准确的学习文献的特征,可以通过双通道神经网络对局部一致性矩阵和全局一致性矩阵分别进行分析。
双通道神经网络可以包括第一图雅克比神经网络和第二图雅克比神经网络。第一图雅克比神经网络和第二图雅克比神经网络属于两个同构的图雅克比神经网络(GraphJacobi Neural Network,GJN),每个图雅克比神经网络包含有一个输入层、L个图卷积层和一个输出层。
在具体实现中,可以利用第一图雅克比神经网络对初始文献特征矩阵和局部一致性矩阵进行分析,以得到第一文献学习结果。利用第二图雅克比神经网络对初始文献特征矩阵和全局一致性矩阵进行分析,以得到第二文献学习结果。
第一文献学习结果是基于对初始文献特征矩阵和局部一致性矩阵进行图卷积分析,从而得出各文献所属类别的概率。第二文献学习结果是基于对初始文献特征矩阵和全局一致性矩阵进行图卷积分析,从而得出各文献所属类别的概率。
S103:对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果。
在本发明实施例中,除了单独对局部一致性矩阵和全局一致性矩阵进行学习外,还可以对局部一致性矩阵和全局一致性矩阵进行交互学习,从而更加准确的学习各文献的特征。
对于局部一致性矩阵,其经过第一图雅克比神经网络的每个图卷积层的分析都会有对应的输出特征;对于全局一致性矩阵,其经过第二图雅克比神经网络的每个图卷积层的分析也都会有对应的输出特征。为了便于区分,可以将第一图雅克比神经网络每层的输出特征称作局部输出特征,将第二图雅克比神经网络每层的输出特征称作全局输出特征。
每层输出特征的处理方式类似,以第l层图卷积层为例,对双通道神经网络第l层的输出特征进行相关性分析,可以是对第一图雅克比神经网络的第l层的局部输出特征和第二图雅克比神经网络的第l层的全局输出特征进行相关性分析。
在本发明实施例中,可以利用知识蒸馏的方式对输出特征进行相关性分析。将双通道神经网络每一图卷积层的输出连接到知识蒸馏模块。
S104:基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,以得到训练好的文献分类模型。
在进行模型训练时,首先需要对文献分类模型的参数进行初始化。按照设定的初始化策略对文献分类模型的参数进行初始化赋值;其中,初始化策略可以包括正态分布随机初始化、相同分布初始化或者半激活初始化。
基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,构建损失函数;利用损失函数对文献分类模型的参数进行修正,以得到训练好的文献分类模型。
S105:依据训练好的文献分类模型输出的分类结果,确定出文献数据库中无标签文献的类别。
训练好的文献分类模型可以准确的识别出文献数据库中每个文献所属的类别。文献数据库的文献可以划分为两种,一种是已有标签的文献,另一种是不具有标签的文献。标签用于表征类别,每种类别有其对应的一个标签。
分类结果中包含有各文献所属的类别。在本发明实施例中,对于已有标签的文献可以不做修改。对于无标签文献,可以基于分类结果,确定出无标签文献所属的类别。
由上述技术方案可以看出,构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;初始文献特征矩阵中记录各文献各自对应的文献特征,局部一致性矩阵中记录了各文献之间的引用关系,全局一致性矩阵中记录了具有相似上下文的文献的关联性。利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果、以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果。为了充分挖掘文献的特征,可以对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果。基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,以得到训练好的文献分类模型。依据训练好的文献分类模型输出的分类结果,确定出文献数据库中无标签文献的类别。在该技术方案中,通过双通道神经网络分别对局部一致性矩阵和全局一致性矩阵进行分析,可以学习更准确的文献嵌入。并且对双通道神经网络各图卷积层的输出特征进行相关性分析,实现了双通道神经网络之间的交换学习,提高了文献分类的准确度。
在本发明实施例中,可以利用正逐点互信息算法(Positive Pointwise MutualInformation,PPMI)对引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵即PPMI矩阵。
在PPMI矩阵中,行向量m i 表示顶点v i 、列向量m j 表示上下文ctx j ,元素m ij 表示顶点v i 在上下文ctx j 中的概率。在本发明实施例中,通过在图上开展重启随机游走(Random Walkwith Restart)来构建PPMI矩阵。
在具体实现中,可以将文献数据库包含的文献数量作为矩阵的行数和列数,构建全零矩阵。统计引文网络中每个文献到其所有相邻文献之间的转移概率,以得到概率转移矩阵。利用概率转移矩阵以及设定的重启概率和设定步长,在引文网络中进行随机游走,以得到每个文献对应的上下文路径集合。对每个文献对应的上下文路径集合进行采样,以得到每个文献在其对应的上下文出现的频次。依据文献在其对应的上下文出现的频次,对全零矩阵进行更新以得到全局一致性矩阵。
其中,pr表示概率,x(t+1)表示t+1时刻所在的图顶点编号,A ij 表示邻接矩阵中第i行第j列的元素。
重复计算每个顶点到其所有相邻顶点之间的转移概率即可得到T。
第三步:对引文网络G=(V,E)的顶点集V中的任意顶点,以v i 为根顶点,在G上开展重启概率为/>、转移概率矩阵为T、步长为u的随机游走;重复δ次,u和δ均为整数,得到δ条长度为u的路径s1,s2,…,s δ ;每条路径都是顶点v i 的一个上下文ctx;记v i 的δ条路径集合为p i 。
第四步:对每个图顶点的路径集合p i ,按照设定的窗口大小均匀采样,窗口的取值小于或等于u,两个采样点作为一个顶点对。假设一个顶点对为(v j ,v k ),表示需要将顶点-上下文共现矩阵中第j行、第k列的元素的取值加1。在本发明实施例中,可以将当前图顶点对应的所有顶点对汇总后的集合记为Wi;利用每个顶点对/>,可以更新顶点-上下文共现矩阵:o jk =o jk +1,o kj =o kj +1;o jk =o jk +1表示将顶点-上下文共现矩阵中第j行、第k列的元素的取值加1,o kj =o kj +1表示将顶点-上下文共现矩阵中第k行、第j列的元素的取值加1。也即每得到一个图顶点对应的顶点对的集合,便可以基于该集合中包含的每个顶点对,分别对顶点-上下文共现矩阵相应位置的取值进行加1的操作。
则PPMI矩阵中任意元素m ij 的值可通过如下公式计算得到:
通过基于文献的上下文,充分挖掘文献的特征构建得到PPMI矩阵,在模型训练阶段通过对PPMI矩阵的分析,提升了文献分类模型训练的准确性。
在本发明实施例中,可以利用损失函数实现对文献分类模型参数的修正。考虑到第一文献学习结果、第二文献学习结果和第三文献学习结果属于三种不同的分析方式得出的学习结果,基于这三种不同的分析方式,可以构建出三种损失函数,分别为第一损失函数、第二损失函数和第三损失函数。
对于第一损失函数和第二损失函数,均需要依赖于图雅克比神经网络的最后一图卷积层的输出特征以及图雅克比神经网络的输出层得到的概率矩阵来构建。为了便于描述,可以将第一图雅克比神经网络的输出层得到的概率矩阵称作第一概率矩阵,将第二图雅克比神经网络的输出层得到的概率矩阵称作第二概率矩阵。在本发明实施例中,第一文献学习结果可以包括第一图雅克比神经网络的最后一图卷积层的局部输出特征以及第一图雅克比神经网络的输出层得到第一概率矩阵。
图2为本发明实施例提供的一种基于第一图雅克比神经网络得到第一文献学习结果的方法的流程图,该方法包括:
S201:对初始文献特征矩阵以及局部一致性矩阵进行图卷积处理,得到第一图卷积层的局部输出特征。
第一图雅克比神经网络包含有一个输入层,L个图卷积层和一个输出层。
在实际应用中,输入层可以接收初始文献特征矩阵以及局部一致性矩阵。
图卷积层用于完成顶点特征提取任务。
其中,为第l层图卷积层的输入数据,/>为第l层图卷积层的输出数据,且H 1=X;/> 是对G的拉普拉斯矩阵/> 进行特征分解得到的特征向量所组成的矩阵;/>是参数为/>的待学习的谱域图卷积核。σ为非线性激活函数,Q l 为第l层隐藏层的可调参数。
其中,α、β均为雅克比多项式的常量;
假设利用Jacobi多项式定义谱域图卷积核,
不难看出,重新定义的图卷积层的公式是拉普拉斯矩阵的多项式,不涉及开销巨大的矩阵特征分解操作。
为了便于描述,可以采用GJNA表示第一图雅克比神经网络,GJNM表示第二图雅克比神经网络。
S202:将当前图卷积层的局部输出特征作为下一图卷积层的局部输入特征;将下一图卷积层的局部输入特征以及局部一致性矩阵进行图卷积处理,得到下一图卷积层的局部输出特征。
根据重新定义的图卷积层的公式可以计算出每个图卷积层对应的输出特征,在得到最后一图卷积层的局部输出特征时,执行S203。
S203:对最后一图卷积层的局部输出特征进行归一化处理,以确定出每个文献所属各类别的第一概率矩阵。
在本发明实施例中,可以将第一图雅克比神经网络的输出层得到的概率矩阵称作第一概率矩阵。
第一文献学习结果可以包括最后一图卷积层的局部输出特征以及第一概率矩阵。
在本发明实施例中,可以依赖于最后一图卷积层的局部输出特征以及第一概率矩阵构建损失函数,从而实现对文献分类模型参数的修正,以提升文献分类模型分类的准确度。
在本发明实施例中,第二文献学习结果可以包括第二图雅克比神经网络的最后一图卷积层的全局输出特征以及第二图雅克比神经网络的输出层得到的第二概率矩阵。
图3为本发明实施例提供的一种基于第二图雅克比神经网络得到第二文献学习结果的方法的流程图,该方法包括:
S301:对初始文献特征矩阵以及全局一致性矩阵进行图卷积处理,得到第一图卷积层的全局输出特征。
第二图雅克比神经网络与第一图雅克比神经网络属于同构网络,第二图雅克比神经网络所涉及的构造和操作可以参见S201中第一图雅克比神经网络的介绍,在此不再赘述。
S302:将当前图卷积层的全局输出特征作为下一图卷积层的全局输入特征;将下一图卷积层的全局输入特征以及全局一致性矩阵进行图卷积处理,得到下一图卷积层的全局输出特征。
根据重新定义的图卷积层的公式可以计算出每个图卷积层对应的输出特征,在得到最后一图卷积层的全局输出特征时,执行S303。
S303:对最后一图卷积层的全局输出特征进行归一化处理,以确定出每个文献所属各类别的第二概率矩阵。
在本发明实施例中,可以将第二图雅克比神经网络的输出层得到的概率矩阵称作第二概率矩阵。
确定第二概率矩阵的实现方式可以参见S203的介绍,在此不再赘述。
第二文献学习结果可以包括最后一图卷积层的全局输出特征以及第二概率矩阵。
图4为本发明实施例提供的一种文献分类器的结构示意图,文献分类器包括第一图雅克比神经网络、第二图雅克比神经网络。在第一图雅克比神经网络和第二图雅克比神经网络之间设置有知识蒸馏模块,用于对第一图雅克比神经网络和第二图雅克比神经网络各层的输出特征进行交互学习。
利用第一图雅克比神经网络对文献特征和局部一致性矩阵进行分析,可以得到第一图雅克比神经网络中每一图卷积层对应的局部输出特征。对最后一图卷积层的局部输出特征进行归一化处理,可以确定出每个文献所属各类别的第一概率矩阵,可以将该第一概率矩阵作为第一文献学习结果。
利用第二图雅克比神经网络对文献特征和全局一致性矩阵进行分析,可以得到第二图雅克比神经网络中每一图卷积层对应的全局输出特征。对最后一图卷积层的全局输出特征进行归一化处理,可以确定出每个文献所属各类别的第二概率矩阵,可以将该第二概率矩阵作为第二文献学习结果。
在本发明实施例中,采用双通道神经网络,可以充分分析引文网络中的局部一致性知识和全局一致性知识,并且通过知识蒸馏模块可以实现双通道神经网络的交互学习,从而学习更准确的文献特征,以提升文献分类模型训练的准确度。
在本发明实施例中,为加快网络收敛速度,在GJN的每个图卷积层之后附加一个辅助分类器以提取顶点标签分布,接着由图Jacobi池化网络(Graph Jacobi Pooling,GJP)进行池化以降低知识蒸馏信息量大小,并将池化后的顶点标签分布送入标签感知Transformer网络中进行跨层双向知识蒸馏,共同促进两个GJN充分利用局部一致性信息和全局一致性信息,更快地学习更准确的顶点嵌入。
图5为本发明实施例提供的一种双通道神经网络交互学习的方法的流程图,该方法包括:
S501:对第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第一标签分布矩阵。
每个图雅克比神经网络的每个图卷积层有两个输出分支,一个分支是横向的,连接下一图卷积层或者最后的输出层;另一个分支是纵向的,连接一个辅助分类器。
以第一图雅克比神经网络为例,第一图雅克比神经网络的每个图卷积层连接有一个辅助分类器,辅助分类器的作用是将每个图卷积层的输出特征进行归一化处理,从而将输出特征以概率分布的方式呈现。为了便于区分,在本发明实施例中,可以将每个图卷积层连接的辅助分类器所输出的特征称作归一化输出特征。
在发明实施例中,可以根据第一图雅克比神经网络中每一图卷积层的归一化输出特征,对文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化局部一致性矩阵;对粗化文献特征矩阵以及各粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵。
对于具有上亿顶点的大图来说,直接在GJNA和GJNM之间实施知识蒸馏即传输和,代价是昂贵的甚至无法承受。为此,本发明实施例通过在每个辅助分类器f l 之后设计一个图池网络GJP l (Graph Jacobi Pooling Network)来解决这一挑战。GJP l 将G粗化到一个小规模图/>,并使用粗化图顶点分类结果出作为新的分类结果。
在粗化图中,每个顶点都是一个由具有相同标签顶点组成的超顶点,也即将G中具有相同标签的顶点进行汇总作为一个超顶点。超顶点特征嵌入矩阵可以称作粗化文献特征矩阵,可以通过公式/>计算得到;表征超顶点之间互连关系的粗化局部一致性矩阵可以通过公式/>计算得到。
对于GJNA来说,可以调用局部归一化公式对粗化文献特征矩阵以及各粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵;局部归一化公式如下:
其中,表示第一图雅克比神经网络的第l层图卷积层对应的第一标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第一图雅克比神经网络的第l层图卷积层对应的粗化局部一致性矩阵的正则化拉普拉斯矩阵,/>表示第一图雅克比神经网络的第l层图卷积层对应的输入特征,/>为粗化文献特征矩阵;/>表示第一图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标A表示局部一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
S502:对第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第二标签分布矩阵。
在本发明实施例中,可以根据第二图雅克比神经网络中每一图卷积层的归一化输出特征,对文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化全局一致性矩阵;对粗化文献特征矩阵以及粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵。
表征超顶点之间互连关系的粗化全局一致性矩阵可以通过如下公式计算得到:
对于GJNM来说,可以调用全局归一化公式对粗化文献特征矩阵以及粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵;全局归一化公式如下:
其中,表示第二图雅克比神经网络的第l层图卷积层对应的第二标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第二图雅克比神经网络的第l层图卷积层对应的粗化全局一致性矩阵的正则化拉普拉斯矩阵,/>表示第二图雅克比神经网络的第l层图卷积层对应的输入特征,/>为粗化文献特征矩阵;/>表示第二图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标M表示全局一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
S503:对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集。
在具体实现中,可以基于标签自注意力机制对每个第一标签分布矩阵和每个第二标签分布矩阵进行分析,以得到每个第一标签分布矩阵与各第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各第一标签分布矩阵之间的第二相关性系数集。将第一相关性系数集和第二相关性系数集作为语义相关系数集。其中,语义相关系数集中包含用于表征每个第一标签分布矩阵和每个第二标签分布矩阵之间相关性的数值。
C l,p 的语义水平随着l的增加而更加抽象。为获得更好的知识蒸馏性能,需要将来自GJNA的每个图Jacobi池化层输出应与GJNM的语义最相关的图Jacobi池化层相关联。为此,本发明实施例设计一个标签感知Transformer来寻找GJNA和GJNM的语义相关系数集S A 和S M 。
将查询Q,键K和值V送到定义如下的标签感知Transformer:
其中,表示M l2在多大程度上指导A l1,M l2表示任意一个第二标签分布矩阵,A l1表示任意一个第一标签分布矩阵。/>表示A l2在多大程度上指导M l1,A l2表示任意一个第一标签分布矩阵,M l1表示任意一个第二标签分布矩阵。l1、l2均属于[1,L],l1、l2的取值可以相同,也可以不同。
在本发明实施例中,第三损失函数需要依赖于语义相关系数集、各第一标签分布矩阵和各第二标签分布矩阵来构建,因此第三文献学习结果可以包括语义相关系数集、各第一标签分布矩阵、各第二标签分布矩阵。
图6为本发明实施例提供的一种网络池化的示意图,G中包含有大量的顶点,图6是以5组顶点为例,每组顶点具有相同的标签,为了降低计算量,可以将具有相同标签的顶点进行汇总作为一个超顶点,从而得到粗化到一个小规模图。
因为本发明采用了双通道神经网络,每个神经网络都会执行粗化操作,因此可以得到两个小规模图,分别称作第一小规模图和第二小规模图,可以基于标签自注意力机制(Transformer)对第一小规模图对应的第一标签分布矩阵和第二小规模图对应的第二标签分布矩阵进行分析,从而得到每个第一标签分布矩阵与各第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各第一标签分布矩阵之间的第二相关性系数集。
在效率方面,通过Jacobi多项式近似计算图卷积和图池化操作,有效避免因大规模矩阵特征分解所带来的巨大计算开销和存储开销,大幅提高谱域图卷积神经网络的训练推理速度。图Jacobi池化层可将大图粗化成小规模图,极大降低两个图Jacobi神经网络之间蒸馏知识的规模,加快了网络收敛速度。
在本发明实施例中可以对不具有类别标签的文献进行无监督学习,得到第一损失函数。对已有标签文件进行监督学习,得到第二损失函数。基于知识蒸馏得到的第三文献学习结果,计算第三损失函数。
在具体实现中,可以基于局部一致性矩阵、第一文献学习结果和第二文献学习结果,构建第一损失函数。
Z A 表示第一图雅克比神经网络的最后一图卷积层的输出特征,该输出特征以矩阵形式呈现,可以将第一图雅克比神经网络的最后一图卷积层的输出特征称为第一文献嵌入矩阵。Z M 表示第二图雅克比神经网络的最后一图卷积层的输出特征,该输出特征以矩阵形式呈现,可以将第二图雅克比神经网络的最后一图卷积层的输出特征称为第二文献嵌入矩阵。
其中,A ij 表示文献v i 和文献v j 对应的局部一致性信息,Z A (i,j)表示第一文献嵌入矩阵第i行、第j列的元素值,Z M (i,j)表示第二文献嵌入矩阵第i行、第j列的元素值。
基于文献数据库的已有标签、第一文献学习结果和第二文献学习结果,构建第二损失函数。
第二损失函数定义为:
其中,δ表示系数,t表示温度的超参数,可以令t=4;
C表示所有类别数量,y i 表示第篇文献的真实标签概率分布,Y ij 表示文献真实标签概率分布矩阵第/>行、第/>列元素,/>表示第一文献学习结果得到的第/>篇文献的预测标签概率分布,P A (i,j)表示第一文献学习结果得到的第/>篇文献属于第/>类的概率值,/>表示第二文献学习结果得到的第/>篇文献的预测标签概率分布,P M (i,j)表示第二文献学习结果得到的第篇文献属于第/>类的概率值,/>表示第一文献嵌入矩阵第行,Z A (i,j)表示第一文献嵌入矩阵第i行、第j列的元素值,/>表示第二文献嵌入矩阵第/>行,Z M (i,j)表示第二文献嵌入矩阵第i行、第j列的元素值,CE表示交叉熵损失函数。
在本发明实施例中,第三文献学习结果包括语义相关系数集、各第一标签分布矩阵、各第二标签分布矩阵。基于第三文献学习结果,构建第三损失函数。
在本发明实施例中,表示第l层图卷积层对应的第一标签分布矩阵采用,/>表示第l层图卷积层对应的第二标签分布矩阵。为了不受限于第l层图卷积层的限制,可以采用均属于[1,L]的l1、l2表示任意一个图卷积层,相应的,/>或/>表示任意一个第一标签分布矩阵;/>或/>表示任意一个第二标签分布矩阵。
第三损失函数定义为:
将第一损失函数、第二损失函数以及第三损失函数合并作为损失函数。
损失函数定义为:
基于损失函数不难发现,文献分类模型本质上是一个前馈神经网络,因此在本发明实施例中,可以基于损失函数对文献分类模型进行梯度后向传播,以实现文献分类模型参数的修正;其中,梯度后向传播可以包括随机梯度下降、动量梯度下降或批量梯度下降。
在参数修正后的文献分类模型的分类误差大于设定阈值并且文献分类模型的迭代次数未达到最大次数的情况下,返回基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,构建损失函数的步骤。在参数修正后的文献分类模型的分类误差小于或等于设定阈值或者文献分类模型的迭代次数达到最大次数的情况下,将最新参数修正后的文献分类模型作为训练好的文献分类模型。
考虑到实际应用中,可以基于查询精度的要求,设置不同的分类粒度。分类粒度越细,则划分的类别越多;分类粒度越粗,则划分的类别越少。
在本发明实施例中,可以基于文献数据库对应的分类粒度,设置文献分类模型的输出类别。
在确定出文献数据库中无标签文献的类别之后,为了方便用户查询所需类别的文献,可以记录文献数据库中无标签文献及其对应的类别。
需要说明的是,本发明实施例中是以文献分类为例展开的介绍。在实际应用中,也可以将上述提及的文献分类的实现方法应用到其它场景下,将文献替换为该场景下的数据或文本即可。例如,可应用到问答系统、情感分析、信息检索等领域,以便辅助人们做出决策。
图7为本发明实施例提供的一种文献分类装置的结构示意图,包括构建单元71、第一确定单元72、第二确定单元73、修正单元74和分类单元75;
构建单元71,用于构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;
第一确定单元72,用于利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果、以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果;
第二确定单元73,用于对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果;
修正单元74,用于基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,以得到训练好的文献分类模型;
分类单元75,用于依据训练好的文献分类模型输出的分类结果,确定出文献数据库中无标签文献的类别。
在一些实施例中,构建单元用于对文献数据库进行特征提取,以得到初始文献特征矩阵;基于文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵。
在一些实施例中,构建单元包括引文网络构建子单元、局部构建子单元和全局构建子单元;
引文网络构建子单元,用于根据文献数据库中包含的文献以及各文献之间的引用关系,构建引文网络;
局部构建子单元,用于将引文网络的邻接矩阵作为局部一致性矩阵;
全局构建子单元,用于利用正逐点互信息算法对引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵。
在一些实施例中,全局构建子单元用于将文献数据库包含的文献数量作为矩阵的行数和列数,构建全零矩阵;
统计引文网络中每个文献到其所有相邻文献之间的转移概率,以得到概率转移矩阵;
利用概率转移矩阵以及设定的重启概率和设定步长,在引文网络中进行随机游走,以得到每个文献对应的上下文路径集合;
对每个文献对应的上下文路径集合进行采样,以得到每个文献在其对应的上下文出现的频次;
依据文献在其对应的上下文出现的频次,对全零矩阵进行更新以得到全局一致性矩阵。
在一些实施例中,双通道神经网络包括第一图雅克比神经网络和第二图雅克比神经网络;
相应的,第一确定单元包括第一分析子单元和第二分析子单元;
第一分析子单元,用于利用第一图雅克比神经网络对初始文献特征矩阵和局部一致性矩阵进行分析,以得到第一文献学习结果;
第二分析子单元,用于利用第二图雅克比神经网络对初始文献特征矩阵和全局一致性矩阵进行分析,以得到第二文献学习结果。
在一些实施例中,第一分析子单元用于对初始文献特征矩阵以及局部一致性矩阵进行图卷积处理,得到第一图卷积层的局部输出特征;
将当前图卷积层的局部输出特征作为下一图卷积层的局部输入特征;将下一图卷积层的局部输入特征以及局部一致性矩阵进行图卷积处理,得到下一图卷积层的局部输出特征;
直至得到最后一图卷积层的局部输出特征,对最后一图卷积层的局部输出特征进行归一化处理,以确定出每个文献所属各类别的第一概率矩阵。
在一些实施例中,第二分析子单元用于对初始文献特征矩阵以及全局一致性矩阵进行图卷积处理,得到第一图卷积层的全局输出特征;
将当前图卷积层的全局输出特征作为下一图卷积层的全局输入特征;将下一图卷积层的全局输入特征以及全局一致性矩阵进行图卷积处理,得到下一图卷积层的全局输出特征;
直至得到最后一图卷积层的全局输出特征,对最后一图卷积层的全局输出特征进行归一化处理,以确定出每个文献所属各类别的第二概率矩阵。
在一些实施例中,第二确定单元包括第一池化子单元、第二池化子单元和语义分析子单元;
第一池化子单元,用于对第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第一标签分布矩阵;
第二池化子单元,用于对第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层对应的第二标签分布矩阵;
语义分析子单元,用于对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集;其中,语义相关系数集中包含用于表征每个第一标签分布矩阵和每个第二标签分布矩阵之间相关性的数值。
在一些实施例中,第一池化子单元用于根据第一文献学习结果,对文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化局部一致性矩阵;对粗化文献特征矩阵以及各粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵。
在一些实施例中,第一池化子单元用于调用局部归一化公式对粗化文献特征矩阵以及各粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵;局部归一化公式如下:
其中,表示第一图雅克比神经网络的第l层图卷积层对应的第一标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第一图雅克比神经网络的第l层图卷积层对应的粗化局部一致性矩阵的正则化拉普拉斯矩阵,/>表示第一图雅克比神经网络的第l层图卷积层对应的输入特征,/>为粗化文献特征矩阵;/>表示第一图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标A表示局部一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
在一些实施例中,第二池化子单元用于根据第二文献学习结果,对文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和和各图卷积层各自对应的粗化全局一致性矩阵;对粗化文献特征矩阵以及粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵。
在一些实施例中,第二池化子单元用于调用全局归一化公式对粗化文献特征矩阵以及粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵;全局归一化公式如下:
其中,表示第二图雅克比神经网络的第l层图卷积层对应的第二标签分布矩阵,softmax表示归一化函数,/>表示归一化函数的常规系数,/>表示第k阶雅克比多项式,α、β均为雅克比多项式的常量,/>表示第二图雅克比神经网络的第l层图卷积层对应的粗化全局一致性矩阵的正则化拉普拉斯矩阵,/>表示第二图雅克比神经网络的第l层图卷积层对应的输入特征,/>为粗化文献特征矩阵;/>表示第二图雅克比神经网络的第l层图卷积层对应的参数,/>的上角标M表示全局一致性,下角标l表示第l层图卷积层,下角标p表示粗化,k表示阶数,K表示雅克比多项式总阶数。
在一些实施例中,语义分析子单元用于基于标签自注意力机制对每个第一标签分布矩阵和每个第二标签分布矩阵进行分析,以得到每个第一标签分布矩阵与各第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各第一标签分布矩阵之间的第二相关性系数集;
将第一相关性系数集和第二相关性系数集作为语义相关系数集。
在一些实施例中,修正单元包括初始化子单元、构建子单元和训练子单元;
初始化子单元,用于对文献分类模型的参数进行初始化;
构建子单元,用于基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,构建损失函数;
训练子单元,用于利用损失函数对文献分类模型的参数进行修正,以得到训练好的文献分类模型。
在一些实施例中,构建子单元用于基于局部一致性矩阵、第一文献学习结果和第二文献学习结果,构建第一损失函数;
基于文献数据库的已有标签、第一文献学习结果和第二文献学习结果,构建第二损失函数;
基于第三文献学习结果,构建第三损失函数;
将第一损失函数、第二损失函数以及第三损失函数合并作为损失函数。
在一些实施例中,训练子单元用于基于损失函数对文献分类模型进行梯度后向传播,以实现文献分类模型参数的修正;其中,梯度后向传播包括随机梯度下降、动量梯度下降或批量梯度下降;
在参数修正后的文献分类模型的分类误差大于设定阈值并且文献分类模型的迭代次数未达到最大次数的情况下,返回基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,构建损失函数的步骤;
在参数修正后的文献分类模型的分类误差小于或等于设定阈值或者文献分类模型的迭代次数达到最大次数的情况下,将最新参数修正后的文献分类模型作为训练好的文献分类模型。
在一些实施例中,初始化子单元用于按照设定的初始化策略对文献分类模型的参数进行初始化赋值;其中,初始化策略包括正态分布随机初始化、相同分布初始化或者半激活初始化。
在一些实施例中,还包括设置单元;
设置单元,用于基于文献数据库对应的分类粒度,设置文献分类模型的输出类别。
在一些实施例中,还包括记录单元;
记录单元,用于记录文献数据库中无标签文献及其对应的类别。
图7所对应实施例中特征的说明可以参见图1至图6所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;初始文献特征矩阵中记录各文献各自对应的文献特征,局部一致性矩阵中记录了各文献之间的引用关系,全局一致性矩阵中记录了具有相似上下文的文献的关联性。利用文献分类模型中的双通道神经网络,确定出初始文献特征矩阵和局部一致性矩阵对应的第一文献学习结果、以及初始文献特征矩阵和全局一致性矩阵对应的第二文献学习结果。为了充分挖掘文献的特征,可以对双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果。基于文献数据库的已有标签、局部一致性矩阵、第一文献学习结果、第二文献学习结果以及第三文献学习结果,对文献分类模型的参数进行修正,以得到训练好的文献分类模型。依据训练好的文献分类模型输出的分类结果,确定出文献数据库中无标签文献的类别。在该技术方案中,通过双通道神经网络分别对局部一致性矩阵和全局一致性矩阵进行分析,可以学习更准确的文献嵌入。并且对双通道神经网络各图卷积层的输出特征进行相关性分析,实现了双通道神经网络之间的交换学习,提高了文献分类的准确度。
图8为本发明实施例提供的一种电子设备的结构图,如图8所示,电子设备包括:存储器80,用于存储计算机程序;
处理器81,用于执行计算机程序时实现如上述实施例文献分类方法的步骤。
本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器81可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器81可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器81可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器81还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器80可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器80还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器80至少用于存储以下计算机程序801,其中,该计算机程序被处理器81加载并执行之后,能够实现前述任一实施例公开的文献分类方法的相关步骤。另外,存储器80所存储的资源还可以包括操作系统802和数据803等,存储方式可以是短暂存储或者永久存储。其中,操作系统802可以包括Windows、Unix、Linux等。数据803可以包括但不限于文献数据库等。
在一些实施例中,电子设备还可包括有显示屏82、输入输出接口83、通信接口84、电源85以及通信总线86。
本领域技术人员可以理解,图8中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的组件。
可以理解的是,如果上述实施例中的文献分类方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对目前技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述文献分类方法的步骤。
以上对本发明实施例所提供的一种文献分类方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的一种文献分类方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (22)
1.一种文献分类方法,其特征在于,包括:
构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;
利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果;
对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果;
基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型;
依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别。
2.根据权利要求1所述的文献分类方法,其特征在于,所述构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵包括:
对所述文献数据库进行特征提取,以得到初始文献特征矩阵;
基于所述文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵。
3.根据权利要求2所述的文献分类方法,其特征在于,所述基于所述文献数据库中各文献之间的引用关系,构建局部一致性矩阵和全局一致性矩阵包括:
根据所述文献数据库中包含的文献以及各所述文献之间的引用关系,构建引文网络;
将所述引文网络的邻接矩阵作为局部一致性矩阵;
利用正逐点互信息算法对所述引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵。
4.根据权利要求3所述的文献分类方法,其特征在于,所述利用正逐点互信息算法对所述引文网络中各文献所对应的上下文进行分析,以构建全局一致性矩阵包括:
将所述文献数据库包含的文献数量作为矩阵的行数和列数,构建全零矩阵;
统计所述引文网络中每个文献到其所有相邻文献之间的转移概率,以得到概率转移矩阵;
利用所述概率转移矩阵以及设定的重启概率和设定步长,在所述引文网络中进行随机游走,以得到每个文献对应的上下文路径集合;
对每个文献对应的上下文路径集合进行采样,以得到每个文献在其对应的上下文出现的频次;
依据文献在其对应的上下文出现的频次,对所述全零矩阵进行更新以得到全局一致性矩阵。
5.根据权利要求1所述的文献分类方法,其特征在于,所述双通道神经网络包括第一图雅克比神经网络和第二图雅克比神经网络;
相应的,所述利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果包括:
利用所述第一图雅克比神经网络对所述初始文献特征矩阵和所述局部一致性矩阵进行分析,以得到第一文献学习结果;
利用所述第二图雅克比神经网络对所述初始文献特征矩阵和所述全局一致性矩阵进行分析,以得到第二文献学习结果。
6.根据权利要求5所述的文献分类方法,其特征在于,所述利用所述第一图雅克比神经网络对所述初始文献特征矩阵和所述局部一致性矩阵进行分析,以得到第一文献学习结果包括:
对所述初始文献特征矩阵以及所述局部一致性矩阵进行图卷积处理,得到第一图卷积层的局部输出特征;
将当前图卷积层的局部输出特征作为下一图卷积层的局部输入特征;将下一图卷积层的局部输入特征以及所述局部一致性矩阵进行图卷积处理,得到下一图卷积层的局部输出特征;
直至得到最后一图卷积层的局部输出特征,对所述最后一图卷积层的局部输出特征进行归一化处理,以确定出每个文献所属各类别的第一概率矩阵。
7.根据权利要求6所述的文献分类方法,其特征在于,所述利用所述第二图雅克比神经网络对所述初始文献特征矩阵和所述全局一致性矩阵进行分析,以得到第二文献学习结果包括:
对所述初始文献特征矩阵以及所述全局一致性矩阵进行图卷积处理,得到第一图卷积层的全局输出特征;
将当前图卷积层的全局输出特征作为下一图卷积层的全局输入特征;将下一图卷积层的全局输入特征以及所述全局一致性矩阵进行图卷积处理,得到下一图卷积层的全局输出特征;
直至得到最后一图卷积层的全局输出特征,对所述最后一图卷积层的全局输出特征进行归一化处理,以确定出每个文献所属各类别的第二概率矩阵。
8.根据权利要求7所述的文献分类方法,其特征在于,所述对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果包括:
对所述第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层各自对应的第一标签分布矩阵;
对所述第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层各自对应的第二标签分布矩阵;
对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集;其中,所述语义相关系数集中包含用于表征每个第一标签分布矩阵和每个第二标签分布矩阵之间相关性的数值。
9.根据权利要求8所述的文献分类方法,其特征在于,所述对所述第一图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层各自对应的第一标签分布矩阵包括:
根据所述第一图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和各图卷积层各自对应的粗化局部一致性矩阵;
对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵。
10.根据权利要求9所述的文献分类方法,其特征在于,所述对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵包括:
调用局部归一化公式对所述粗化文献特征矩阵以及各所述粗化局部一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第一标签分布矩阵;所述局部归一化公式如下:
11.根据权利要求8所述的文献分类方法,其特征在于,所述对所述第二图雅克比神经网络中每一图卷积层的归一化输出特征进行池化处理,得到每一图卷积层各自对应的第二标签分布矩阵包括:
根据所述第二图雅克比神经网络中每一图卷积层的归一化输出特征,对所述文献数据库对应的引文网络进行粗化处理,以得到粗化文献特征矩阵和各图卷积层各自对应的粗化全局一致性矩阵;
对所述粗化文献特征矩阵以及各所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵。
12.根据权利要求11所述的文献分类方法,其特征在于,所述对所述粗化文献特征矩阵以及各所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵包括:
调用全局归一化公式对所述粗化文献特征矩阵以及各所述粗化全局一致性矩阵进行归一化处理,得到每一图卷积层各自对应的第二标签分布矩阵;所述全局归一化公式如下:
13.根据权利要求8所述的文献分类方法,其特征在于,所述对每个第一标签分布矩阵和每个第二标签分布矩阵进行语义相关性分析,确定出语义相关系数集包括:
基于标签自注意力机制对每个第一标签分布矩阵和每个第二标签分布矩阵进行分析,以得到每个第一标签分布矩阵与各所述第二标签分布矩阵之间的第一相关性系数集,以及每个第二标签分布矩阵与各所述第一标签分布矩阵之间的第二相关性系数集;
将所述第一相关性系数集和所述第二相关性系数集作为语义相关系数集。
14.根据权利要求1至13任意一项所述的文献分类方法,其特征在于,所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型包括:
对所述文献分类模型的参数进行初始化;
基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数;
利用所述损失函数对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型。
15.根据权利要求14所述的文献分类方法,其特征在于,所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数包括:
基于所述局部一致性矩阵、所述第一文献学习结果和所述第二文献学习结果,构建第一损失函数;
基于所述文献数据库的已有标签、所述第一文献学习结果和所述第二文献学习结果,构建第二损失函数;
基于所述第三文献学习结果,构建第三损失函数;
将所述第一损失函数、所述第二损失函数以及所述第三损失函数合并作为所述损失函数。
16.根据权利要求14所述的文献分类方法,其特征在于,所述利用所述损失函数对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型包括:
基于所述损失函数对所述文献分类模型进行梯度后向传播,以实现所述文献分类模型参数的修正;其中,所述梯度后向传播包括随机梯度下降、动量梯度下降或批量梯度下降;
在参数修正后的文献分类模型的分类误差大于设定阈值并且所述文献分类模型的迭代次数未达到最大次数的情况下,返回所述基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、第二文献学习结果以及所述第三文献学习结果,构建损失函数的步骤;
在参数修正后的文献分类模型的分类误差小于或等于设定阈值或者所述文献分类模型的迭代次数达到最大次数的情况下,将最新参数修正后的文献分类模型作为训练好的文献分类模型。
17.根据权利要求14所述的文献分类方法,其特征在于,所述对所述文献分类模型的参数进行初始化包括:
按照设定的初始化策略对所述文献分类模型的参数进行初始化赋值;其中,所述初始化策略包括正态分布随机初始化、相同分布初始化或者半激活初始化。
18.根据权利要求1所述的文献分类方法,其特征在于,在所述构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵之前,还包括:
基于所述文献数据库对应的分类粒度,设置所述文献分类模型的输出类别。
19.根据权利要求1所述的文献分类方法,其特征在于,在所述依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别之后,还包括:
记录所述文献数据库中无标签文献及其对应的类别。
20.一种文献分类装置,其特征在于,包括构建单元、第一确定单元、第二确定单元、修正单元和分类单元;
所述构建单元,用于构建文献数据库的初始文献特征矩阵、局部一致性矩阵和全局一致性矩阵;
所述第一确定单元,用于利用文献分类模型中的双通道神经网络,确定出所述初始文献特征矩阵和所述局部一致性矩阵对应的第一文献学习结果、以及所述初始文献特征矩阵和所述全局一致性矩阵对应的第二文献学习结果;
所述第二确定单元,用于对所述双通道神经网络各图卷积层的输出特征进行相关性分析,以确定出第三文献学习结果;
所述修正单元,用于基于所述文献数据库的已有标签、所述局部一致性矩阵、所述第一文献学习结果、所述第二文献学习结果以及所述第三文献学习结果,对所述文献分类模型的参数进行修正,以得到训练好的文献分类模型;
所述分类单元,用于依据所述训练好的文献分类模型输出的分类结果,确定出所述文献数据库中无标签文献的类别。
21.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至19任意一项所述文献分类方法的步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至19任意一项所述文献分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694562.XA CN116431816B (zh) | 2023-06-13 | 2023-06-13 | 一种文献分类方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694562.XA CN116431816B (zh) | 2023-06-13 | 2023-06-13 | 一种文献分类方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116431816A true CN116431816A (zh) | 2023-07-14 |
CN116431816B CN116431816B (zh) | 2023-09-19 |
Family
ID=87080087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310694562.XA Active CN116431816B (zh) | 2023-06-13 | 2023-06-13 | 一种文献分类方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431816B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828090A (zh) * | 2024-02-29 | 2024-04-05 | 苏州元脑智能科技有限公司 | 一种文献分类方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470025A (zh) * | 2018-03-21 | 2018-08-31 | 北京理工大学 | 局部话题概率生成正则化自编码文本嵌入表示方法 |
AU2020100710A4 (en) * | 2020-05-05 | 2020-06-11 | Chen, Dadu Mr | A method for sentiment analysis of film reviews based on deep learning and natural language processing |
CN112966114A (zh) * | 2021-04-10 | 2021-06-15 | 北京工商大学 | 基于对称图卷积神经网络的文献分类方法和装置 |
CN113705772A (zh) * | 2021-07-21 | 2021-11-26 | 浪潮(北京)电子信息产业有限公司 | 一种模型训练方法、装置、设备及可读存储介质 |
CN116226388A (zh) * | 2023-05-08 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
-
2023
- 2023-06-13 CN CN202310694562.XA patent/CN116431816B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470025A (zh) * | 2018-03-21 | 2018-08-31 | 北京理工大学 | 局部话题概率生成正则化自编码文本嵌入表示方法 |
AU2020100710A4 (en) * | 2020-05-05 | 2020-06-11 | Chen, Dadu Mr | A method for sentiment analysis of film reviews based on deep learning and natural language processing |
CN112966114A (zh) * | 2021-04-10 | 2021-06-15 | 北京工商大学 | 基于对称图卷积神经网络的文献分类方法和装置 |
CN113705772A (zh) * | 2021-07-21 | 2021-11-26 | 浪潮(北京)电子信息产业有限公司 | 一种模型训练方法、装置、设备及可读存储介质 |
CN116226388A (zh) * | 2023-05-08 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
Non-Patent Citations (2)
Title |
---|
LUWEI XIAO等: "Exploring fine-grained syntactic information for aspect-based sentiment classification with dual graph neural networks", 《NEUROCOMPUTING》, vol. 471, pages 48 - 59, XP086894478, DOI: 10.1016/j.neucom.2021.10.091 * |
蓝雯飞;徐蔚;王涛;: "基于卷积神经网络的中文新闻文本分类", 中南民族大学学报(自然科学版), no. 01, pages 142 - 147 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828090A (zh) * | 2024-02-29 | 2024-04-05 | 苏州元脑智能科技有限公司 | 一种文献分类方法、装置、设备及存储介质 |
CN117828090B (zh) * | 2024-02-29 | 2024-05-03 | 苏州元脑智能科技有限公司 | 一种文献分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116431816B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
US20220405480A1 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN112733866B (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN116431816B (zh) | 一种文献分类方法、装置、设备和计算机可读存储介质 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN114782722B (zh) | 图文相似度的确定方法、装置及电子设备 | |
CN114579746A (zh) | 一种优化的高精度文本分类方法及装置 | |
CN116226388A (zh) | 一种文献分类方法、一种图神经网络训练方法及相关组件 | |
CN114943034A (zh) | 基于细粒度方面特征的智能新闻推荐方法和系统 | |
CN110110137A (zh) | 一种确定音乐特征的方法、装置、电子设备及存储介质 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN117057349A (zh) | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN115630223A (zh) | 基于多模型融合的服务推荐方法及推荐系统 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN110555209A (zh) | 训练词向量模型的方法及装置 | |
CN114637846A (zh) | 视频数据处理方法、装置、计算机设备和存储介质 | |
CN117688247B (zh) | 推荐方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |