CN110580289B - 一种基于堆叠自动编码器和引文网络的科技论文分类方法 - Google Patents
一种基于堆叠自动编码器和引文网络的科技论文分类方法 Download PDFInfo
- Publication number
- CN110580289B CN110580289B CN201910801530.9A CN201910801530A CN110580289B CN 110580289 B CN110580289 B CN 110580289B CN 201910801530 A CN201910801530 A CN 201910801530A CN 110580289 B CN110580289 B CN 110580289B
- Authority
- CN
- China
- Prior art keywords
- matrix
- network
- encoder
- scientific
- paper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/381—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/382—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种基于堆叠自动编码器和引文网络的科技论文分类方法,根据现有科技论文数据构建引文网络邻接矩阵与标签向量矩阵,计算概率转移矩阵和共现概率矩阵;构建基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;用共现概率矩阵以及标签向量矩阵训练堆叠自动编码器和长短期记忆网络;用已训练的模型来预测新的论文的分类结果。本发明考虑论文之间的引用关系,有效提取构造的引文网络中各节点之间的内在关系,将其映射到低维的嵌入向量空间中,并用长短期记忆网络来获取类别特征信息,实现了对新论文的类别的精准预测。
Description
技术领域
本发明涉及网络科学和机器学习领域,特别是指一种基于堆叠自动编码器和引文网络的科技论文分类方法。
背景技术
随着社会的发展,学术论文的质量和数量在人才的培养与资源的分配过程中起着不可替代的作用。科研工作者往往在做特定领域的钻研时,会参考前人在此领域发表的文章和成果来实现突破与改良。在即将发表的论文中,参考文献是一大重点,说明论文所做工作的依据与由来。因此,论文与论文之间的引用关系构成了庞大而又复杂的引文网络。随着时间的推移,引文网络的规模会越来越大,造成的结果是对于论文的管理会愈加困难,由此对科技论文的分类管理提出了新的要求。
随着自然语言处理和网络科学的发展,涌现出一大批网络表示学习方法。其主要目的是学习网络在低维的向量空间中的表示。以DeepWalk为代表的网络嵌入方法将节点与词进行类比,将随机游走得到的节点序列类比为句子,然后使用自然语言处理中的skip-gram方法来处理节点序列得到节点的嵌入向量表示。Line和Node2vec将网络节点的邻居信息作为一阶临近度,网络节点之间的共同邻居信息称作二阶临近度,再使用基于负采样的skip-gram模型来保持网络节点的一阶和二阶临近度。
然而,以上这些采样方式只能获取一部分节点序列。而且,浅层模型无法获取非线性的引文网络信息。由于深度学习的技术在图像分类、视频处理、语音识别和自然语言处理等领域应用广泛且具有较好的效果,因此堆叠自动编码器这类高度非线性的深度学习模型可以有效获取引文网络的特征信息。
发明内容
为了克服现有分类的方法难以对科技论文的类别进行有效划分,本发明基于深度学习提出了一种基于堆叠自动编码器和引文网络的科技论文分类方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于堆叠自动编码器和引文网络的科技论文分类方法,包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵其中yi为第i个节点的标签向量,2≤M≤N;
步骤四:计算引文网络的共现概率矩阵
步骤五:构建堆叠自动编码器,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵其中2≤d≤N;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵之间的平方误差;训练长短期记忆网络,训练得到分类结果与论文标签向量矩阵Y进行比较,训练目标是降低分类结果与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
步骤八:对未分类的新的论文数据,构造相应的新的引文网络邻接矩阵X′、概率转移矩阵R′和共现概率矩阵S′,对训练好的基于堆叠自动编码器和长短期记忆网络的科技论文分类模型输入S′,得到输出为N×M的矩阵其中为第i个节点的M维分类向量,表示相应第i篇论文的分类结果。
本发明的技术构思为:首先建立引文网络邻接矩阵与标签向量矩阵,并计算概率转移矩阵和共现概率矩阵,接着构建一种基于堆叠自动编码器和长短期记忆网络的科技论文分类模型,来提高分类精度。
本发明的有益效果为:利用基于堆叠自动编码器和长短期记忆网络的科技论文分类模型分类引文网络中的论文,有助于提高分类精度。
附图说明
图1是基于堆叠自动编码器和长短期记忆网络的科技论文分类模型的结构框图。
具体实施方式
下面结合附图对本发明作进一步说明。
参照图1,一种基于堆叠自动编码器和引文网络的科技论文分类方法,包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵其中yi为第i个节点的标签向量,2≤M≤N;
步骤四:计算引文网络的共现概率矩阵
步骤五:构建堆叠自动编码器,如图1所示,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵其中2≤d≤N;
步骤六:构建长短期记忆网络,如图1所示,其输入是编码器输出的嵌入表示向量矩阵EN×d,输出为softmax的分类结果矩阵 为N×M的矩阵,表示为其中为第i个节点的M维分类向量,表示相应第i篇论文的分类结果;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵之间的平方误差;训练长短期记忆网络,训练得到分类结果与论文标签向量矩阵Y进行比较,训练目标是降低分类结果与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
Claims (1)
1.一种基于堆叠自动编码器和引文网络的科技论文分类方法,其特征在于,所述方法包括如下步骤:
步骤一:根据现有科技论文数据,一篇论文用一个节点表示,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,由此构造引文网络G(V,E),V是节点集合,E是边集合,节点总数为N,其邻接矩阵为X;
步骤二:根据具有标签的科技论文数据构造标签向量矩阵,引文网络中每个节点有一个标签,标签类别总数为M,则每个节点的标签向量皆为长度为M的1-hot一维向量,构成了N×M的标签向量矩阵其中yi为第i个节点的标签向量,2≤M≤N;
步骤四:计算引文网络的共现概率矩阵
步骤五:构建堆叠自动编码器,堆叠自动编码器由一个编码器和一个解码器串联组成,编码器的输入为引文网络的共现概率矩阵S,输出为引文网络的N×d的嵌入表示向量矩阵EN×d,解码器的输入为编码器的输出,解码器的输出为N×N的重构概率矩阵其中2≤d≤N;
步骤七:训练模型,首先训练堆叠自动编码器,训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵之间的平方误差;训练长短期记忆网络,训练得到分类结果与论文标签向量矩阵Y进行比较,训练目标是降低分类结果与论文标签向量矩阵Y之间的交叉熵误差;训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801530.9A CN110580289B (zh) | 2019-08-28 | 2019-08-28 | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801530.9A CN110580289B (zh) | 2019-08-28 | 2019-08-28 | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580289A CN110580289A (zh) | 2019-12-17 |
CN110580289B true CN110580289B (zh) | 2021-10-29 |
Family
ID=68812048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910801530.9A Active CN110580289B (zh) | 2019-08-28 | 2019-08-28 | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580289B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084328A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 |
CN114817578B (zh) * | 2022-06-29 | 2022-09-09 | 北京邮电大学 | 科技论文引用关系表示学习方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN109118014A (zh) * | 2018-08-30 | 2019-01-01 | 浙江工业大学 | 一种基于时间递归神经网络的交通流速度预测方法 |
CN109919364A (zh) * | 2019-02-18 | 2019-06-21 | 华南理工大学 | 基于自适应降噪和集成lstm的多变量时间序列预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003988B2 (en) * | 2016-11-23 | 2021-05-11 | General Electric Company | Hardware system design improvement using deep learning algorithms |
MX2018011305A (es) * | 2017-09-18 | 2019-07-04 | Tata Consultancy Services Ltd | Técnicas para corregir el desvío de entrenamiento lingüístico en los datos de entrenamiento. |
-
2019
- 2019-08-28 CN CN201910801530.9A patent/CN110580289B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN109118014A (zh) * | 2018-08-30 | 2019-01-01 | 浙江工业大学 | 一种基于时间递归神经网络的交通流速度预测方法 |
CN109919364A (zh) * | 2019-02-18 | 2019-06-21 | 华南理工大学 | 基于自适应降噪和集成lstm的多变量时间序列预测方法 |
Non-Patent Citations (1)
Title |
---|
深度学习在智能电网中的应用现状分析与展望;周念成等;《电力系统自动化》;20190225;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580289A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564029B (zh) | 基于级联多任务学习深度神经网络的人脸属性识别方法 | |
CN110443372B (zh) | 一种基于熵最小化的迁移学习方法及系统 | |
CN109272332B (zh) | 一种基于递归神经网络的客户流失预测方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109145304B (zh) | 一种基于字的中文观点要素情感分析方法 | |
CN110347791B (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
CN110580289B (zh) | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 | |
CN111259917B (zh) | 一种基于局部近邻成分分析的图像特征提取方法 | |
CN113516379B (zh) | 一种智能质检的工单评分方法 | |
CN110245353B (zh) | 自然语言表示方法、装置、设备及存储介质 | |
CN112381179A (zh) | 一种基于双层注意力机制的异质图分类方法 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN111639186A (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN113378937B (zh) | 一种基于自监督增强的小样本图像分类方法及系统 | |
CN112163069B (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 | |
CN116108751A (zh) | 基于图神经网络的材料应力应变曲线预测模型及其构建方法和预测方法 | |
CN115797642A (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
CN114882287A (zh) | 基于语义关系图的图像分类方法 | |
CN114037856A (zh) | 一种基于改进MSDNet与知识蒸馏的识别方法 | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114818945A (zh) | 融入类别自适应度量学习的小样本图像分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |