CN110580289B - 一种基于堆叠自动编码器和引文网络的科技论文分类方法 - Google Patents

一种基于堆叠自动编码器和引文网络的科技论文分类方法 Download PDF

Info

Publication number
CN110580289B
CN110580289B CN201910801530.9A CN201910801530A CN110580289B CN 110580289 B CN110580289 B CN 110580289B CN 201910801530 A CN201910801530 A CN 201910801530A CN 110580289 B CN110580289 B CN 110580289B
Authority
CN
China
Prior art keywords
matrix
network
encoder
scientific
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910801530.9A
Other languages
English (en)
Other versions
CN110580289A (zh
Inventor
杨旭华
高斯城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910801530.9A priority Critical patent/CN110580289B/zh
Publication of CN110580289A publication Critical patent/CN110580289A/zh
Application granted granted Critical
Publication of CN110580289B publication Critical patent/CN110580289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于堆叠自动编码器和引文网络的科技论文分类方法,根据现有科技论文数据构建引文网络邻接矩阵与标签向量矩阵,计算概率转移矩阵和共现概率矩阵;构建基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;用共现概率矩阵以及标签向量矩阵训练堆叠自动编码器和长短期记忆网络;用已训练的模型来预测新的论文的分类结果。本发明考虑论文之间的引用关系,有效提取构造的引文网络中各节点之间的内在关系,将其映射到低维的嵌入向量空间中,并用长短期记忆网络来获取类别特征信息,实现了对新论文的类别的精准预测。

Description

一种基于堆叠自动编码器和引文网络的科技论文分类方法
技术领域
本发明涉及网络科学和机器学习领域,特别是指一种基于堆叠自动编码器和引文网络的科技论文分类方法。
背景技术
随着社会的发展,学术论文的质量和数量在人才的培养与资源的分配过程中起着不可替代的作用。科研工作者往往在做特定领域的钻研时,会参考前人在此领域发表的文章和成果来实现突破与改良。在即将发表的论文中,参考文献是一大重点,说明论文所做工作的依据与由来。因此,论文与论文之间的引用关系构成了庞大而又复杂的引文网络。随着时间的推移,引文网络的规模会越来越大,造成的结果是对于论文的管理会愈加困难,由此对科技论文的分类管理提出了新的要求。
随着自然语言处理和网络科学的发展,涌现出一大批网络表示学习方法。其主要目的是学习网络在低维的向量空间中的表示。以DeepWalk为代表的网络嵌入方法将节点与词进行类比,将随机游走得到的节点序列类比为句子,然后使用自然语言处理中的skip-gram方法来处理节点序列得到节点的嵌入向量表示。Line和Node2vec将网络节点的邻居信息作为一阶临近度,网络节点之间的共同邻居信息称作二阶临近度,再使用基于负采样的skip-gram模型来保持网络节点的一阶和二阶临近度。
然而,以上这些采样方式只能获取一部分节点序列。而且,浅层模型无法获取非线性的引文网络信息。由于深度学习的技术在图像分类、视频处理、语音识别和自然语言处理等领域应用广泛且具有较好的效果,因此堆叠自动编码器这类高度非线性的深度学习模型可以有效获取引文网络的特征信息。
发明内容
为了克服现有分类的方法难以对科技论文的类别进行有效划分,本发明基于深度学习提出了一种基于堆叠自动编码器和引文网络的科技论文分类方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于堆叠自动编码器和引文网络的科技论文分类方法,包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵
Figure BDA0002182457020000021
其中yi为第i个节点的标签向量,2≤M≤N;
步骤三:对邻接矩阵X进行Q步概率转移,得到概率转移矩阵
Figure BDA0002182457020000022
其中Pk=Pk- 1X,P0是N×N的单位阵,其中Q为一个大于1的整数;
步骤四:计算引文网络的共现概率矩阵
Figure BDA0002182457020000023
其中节点i与节点j之间的共现概率为
Figure BDA0002182457020000024
其中|D|=∑ijri,j,ri,j∈R;
步骤五:构建堆叠自动编码器,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵
Figure BDA0002182457020000025
其中2≤d≤N;
步骤六:构建长短期记忆网络,其输入是编码器输出的嵌入表示向量矩阵EN×d,输出为softmax的分类结果矩阵
Figure BDA0002182457020000026
Figure BDA0002182457020000027
为N×M的矩阵,表示为
Figure BDA0002182457020000028
其中
Figure BDA0002182457020000029
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵
Figure BDA00021824570200000210
之间的平方误差;训练长短期记忆网络,训练得到分类结果
Figure BDA0002182457020000031
与论文标签向量矩阵Y进行比较,训练目标是降低分类结果
Figure BDA0002182457020000032
与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
步骤八:对未分类的新的论文数据,构造相应的新的引文网络邻接矩阵X′、概率转移矩阵R′和共现概率矩阵S′,对训练好的基于堆叠自动编码器和长短期记忆网络的科技论文分类模型输入S′,得到输出为N×M的矩阵
Figure BDA0002182457020000033
其中
Figure BDA0002182457020000034
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果。
本发明的技术构思为:首先建立引文网络邻接矩阵与标签向量矩阵,并计算概率转移矩阵和共现概率矩阵,接着构建一种基于堆叠自动编码器和长短期记忆网络的科技论文分类模型,来提高分类精度。
本发明的有益效果为:利用基于堆叠自动编码器和长短期记忆网络的科技论文分类模型分类引文网络中的论文,有助于提高分类精度。
附图说明
图1是基于堆叠自动编码器和长短期记忆网络的科技论文分类模型的结构框图。
具体实施方式
下面结合附图对本发明作进一步说明。
参照图1,一种基于堆叠自动编码器和引文网络的科技论文分类方法,包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵
Figure BDA0002182457020000035
其中yi为第i个节点的标签向量,2≤M≤N;
步骤三:对邻接矩阵X进行Q步概率转移,得到概率转移矩阵
Figure BDA0002182457020000036
其中Pk=Pk- 1X,P0是N×N的单位阵,其中Q为一个大于1的整数;
步骤四:计算引文网络的共现概率矩阵
Figure BDA0002182457020000041
其中节点i与节点j之间的共现概率为
Figure BDA0002182457020000042
其中|D|=∑ijri,j,ri,j∈R;
步骤五:构建堆叠自动编码器,如图1所示,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵
Figure BDA0002182457020000043
其中2≤d≤N;
步骤六:构建长短期记忆网络,如图1所示,其输入是编码器输出的嵌入表示向量矩阵EN×d,输出为softmax的分类结果矩阵
Figure BDA0002182457020000044
Figure BDA0002182457020000045
为N×M的矩阵,表示为
Figure BDA0002182457020000046
其中
Figure BDA0002182457020000047
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵
Figure BDA0002182457020000048
之间的平方误差;训练长短期记忆网络,训练得到分类结果
Figure BDA0002182457020000049
与论文标签向量矩阵Y进行比较,训练目标是降低分类结果
Figure BDA00021824570200000410
与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
步骤八:对未分类的新的论文数据,构造相应的新的引文网络邻接矩阵X′、概率转移矩阵R′和共现概率矩阵S′,对训练好的基于堆叠自动编码器和长短期记忆网络的科技论文分类模型输入S′,得到输出为N×M的矩阵
Figure BDA00021824570200000411
其中
Figure BDA00021824570200000412
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果。

Claims (1)

1.一种基于堆叠自动编码器和引文网络的科技论文分类方法,其特征在于,所述方法包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵
Figure FDA0002182457010000011
其中yi为第i个节点的标签向量,2≤M≤N;
步骤三:对邻接矩阵X进行Q步概率转移,得到概率转移矩阵
Figure FDA0002182457010000012
其中Pk=Pk-1X,P0是N×N的单位阵,其中Q为一个大于1的整数;
步骤四:计算引文网络的共现概率矩阵
Figure FDA0002182457010000013
其中节点i与节点j之间的共现概率为
Figure FDA0002182457010000014
其中|D|=∑ijri,j,ri,j∈R;
步骤五:构建堆叠自动编码器,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵
Figure FDA0002182457010000015
其中2≤d≤N;
步骤六:构建长短期记忆网络,其输入是编码器输出的嵌入表示向量矩阵EN×d,输出为softmax的分类结果矩阵
Figure FDA0002182457010000016
Figure FDA0002182457010000017
为N×M的矩阵,表示为
Figure FDA0002182457010000018
其中
Figure FDA0002182457010000021
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵
Figure FDA0002182457010000022
之间的平方误差;训练长短期记忆网络,训练得到分类结果
Figure FDA0002182457010000023
与论文标签向量矩阵Y进行比较,训练目标是降低分类结果
Figure FDA0002182457010000024
与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
步骤八:对未分类的新的论文数据,构造相应的新的引文网络邻接矩阵X′、概率转移矩阵R′和共现概率矩阵S′,对训练好的基于堆叠自动编码器和长短期记忆网络的科技论文分类模型输入S′,得到输出为N×M的矩阵
Figure FDA0002182457010000025
其中
Figure FDA0002182457010000026
为第i个节点的M维分类向量,表示相应第i篇论文的分类结果。
CN201910801530.9A 2019-08-28 2019-08-28 一种基于堆叠自动编码器和引文网络的科技论文分类方法 Active CN110580289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910801530.9A CN110580289B (zh) 2019-08-28 2019-08-28 一种基于堆叠自动编码器和引文网络的科技论文分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910801530.9A CN110580289B (zh) 2019-08-28 2019-08-28 一种基于堆叠自动编码器和引文网络的科技论文分类方法

Publications (2)

Publication Number Publication Date
CN110580289A CN110580289A (zh) 2019-12-17
CN110580289B true CN110580289B (zh) 2021-10-29

Family

ID=68812048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910801530.9A Active CN110580289B (zh) 2019-08-28 2019-08-28 一种基于堆叠自动编码器和引文网络的科技论文分类方法

Country Status (1)

Country Link
CN (1) CN110580289B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084328A (zh) * 2020-07-29 2020-12-15 浙江工业大学 一种基于变分图自编码器与K-Means的科技论文聚类分析方法
CN114817578B (zh) * 2022-06-29 2022-09-09 北京邮电大学 科技论文引用关系表示学习方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN109118014A (zh) * 2018-08-30 2019-01-01 浙江工业大学 一种基于时间递归神经网络的交通流速度预测方法
CN109919364A (zh) * 2019-02-18 2019-06-21 华南理工大学 基于自适应降噪和集成lstm的多变量时间序列预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003988B2 (en) * 2016-11-23 2021-05-11 General Electric Company Hardware system design improvement using deep learning algorithms
MX2018011305A (es) * 2017-09-18 2019-07-04 Tata Consultancy Services Ltd Técnicas para corregir el desvío de entrenamiento lingüístico en los datos de entrenamiento.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN109118014A (zh) * 2018-08-30 2019-01-01 浙江工业大学 一种基于时间递归神经网络的交通流速度预测方法
CN109919364A (zh) * 2019-02-18 2019-06-21 华南理工大学 基于自适应降噪和集成lstm的多变量时间序列预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习在智能电网中的应用现状分析与展望;周念成等;《电力系统自动化》;20190225;全文 *

Also Published As

Publication number Publication date
CN110580289A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN108564029B (zh) 基于级联多任务学习深度神经网络的人脸属性识别方法
CN110443372B (zh) 一种基于熵最小化的迁移学习方法及系统
CN109272332B (zh) 一种基于递归神经网络的客户流失预测方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109145304B (zh) 一种基于字的中文观点要素情感分析方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN110580289B (zh) 一种基于堆叠自动编码器和引文网络的科技论文分类方法
CN111259917B (zh) 一种基于局部近邻成分分析的图像特征提取方法
CN113516379B (zh) 一种智能质检的工单评分方法
CN110245353B (zh) 自然语言表示方法、装置、设备及存储介质
CN112381179A (zh) 一种基于双层注意力机制的异质图分类方法
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN113378937B (zh) 一种基于自监督增强的小样本图像分类方法及系统
CN112163069B (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
CN116108751A (zh) 基于图神经网络的材料应力应变曲线预测模型及其构建方法和预测方法
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN114882287A (zh) 基于语义关系图的图像分类方法
CN114037856A (zh) 一种基于改进MSDNet与知识蒸馏的识别方法
CN116108127A (zh) 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN114818945A (zh) 融入类别自适应度量学习的小样本图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant