CN113312480A - 基于图卷积网络的科技论文层级多标签分类方法及设备 - Google Patents

基于图卷积网络的科技论文层级多标签分类方法及设备 Download PDF

Info

Publication number
CN113312480A
CN113312480A CN202110548961.6A CN202110548961A CN113312480A CN 113312480 A CN113312480 A CN 113312480A CN 202110548961 A CN202110548961 A CN 202110548961A CN 113312480 A CN113312480 A CN 113312480A
Authority
CN
China
Prior art keywords
label
paper
layer
global
thesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110548961.6A
Other languages
English (en)
Other versions
CN113312480B (zh
Inventor
薛哲
杜军平
郑长伟
寇菲菲
梁美玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110548961.6A priority Critical patent/CN113312480B/zh
Publication of CN113312480A publication Critical patent/CN113312480A/zh
Application granted granted Critical
Publication of CN113312480B publication Critical patent/CN113312480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种基于图卷积网络的科技论文层级多标签分类方法及设备,其中方法包括:利用注意力机制在论文与关键词的无向图上进行图形节点嵌入,输出更新后的论文节点特征;将更新后的论文节点特征输入预先训练好的多输出深度神经网络模型中,输出整体的全局标签和局部标签;通过注意力机制组合局部标签和全局标签,组合后的标签经计算处理后得到最终的论文标签分类结果。本公开提供的方法及设备丰富了论文的语义表示,在论文分类中考虑了具有相同关键词的论文之间的关联,使得论文分类更加准确;并且分类过程中每一层仅关注相应层级的标签,减少了每个层需要区分的类别数量,充分获取到不同层级标签的特征,提高了论文分类的准确性。

Description

基于图卷积网络的科技论文层级多标签分类方法及设备
技术领域
本公开涉及文本分类方法技术领域,尤其涉及一种基于图卷积网络的科技论文层级多标签分类方法及设备。
背景技术
论文分类是指为论文分配一个或多个学科类别,这项工作需要大量领域知识和繁重的手动注释。随着学科交叉现象逐渐增多,一篇科技论文往往具有多个类别,并且各个类别之间具有层级关系,论文的类别可以是各个级别的层级,因此论文的分类也就成为一个典型的多标签层级分类。
论文的特点及我国现在广泛采用的分类标准中国图书分类法(CLC)给多标签层级分类任务带来了挑战。首先,论文的关键词与论文的类别密切相关,但是由于论文文本内容短而稀疏,因此很难提取语义信息,现有方法没有考虑到具有相同关键词的论文之间的关联;其次,CLC中的类别很多,但是类别之间的差异很小,因此很难对来自大量相似类别的论文进行准确分类。
发明内容
有鉴于此,本公开的目的在于提出一种基于图卷积网络的科技论文层级多标签分类方法及设备。
基于上述目的,本公开提供了一种基于图卷积网络的科技论文层级多标签分类方法,包括:
一种基于图卷积网络的科技论文层级多标签分类方法,包括:
构建论文与关键词的无向图;
利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征;
将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签;
通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果。
进一步的,利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征,包括:
构建论文与关键词的特征矩阵;
输入所述论文与关键词特征矩阵的每一个行向量作为节点特征向量;
对所有节点特征经过线性变换得到输出节点特征;
利用注意力机制计算每个输出节点特征与其相邻节点特征的注意力因子,将所述注意力因子归一化得到最终的注意力因子,利用最终的注意力因子经计算得到更新后的论文节点特征。
进一步的,利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征,包括:
构建论文与关键词的特征矩阵X:
其中,X为论文与关键词特征总和,X由W与P拼接得到,
Figure RE-GDA0003184385320000021
t=s+r, t为论文与关键词节点的总数,论文矩阵P为论文特征矩阵,
Figure RE-GDA0003184385320000022
r为论文总数,d为特征维度;W为关键词特征矩阵,
Figure RE-GDA0003184385320000023
s为关键词总数;
输入节点特征表示为
Figure RE-GDA0003184385320000024
h为X的行向量,R为实数集, d为特征维度;
采用一个线性层,权重矩阵为
Figure RE-GDA0003184385320000025
d′为隐层维度,对于节点i,记i 的邻接节点j的集合为Ni,对于j∈Ni,按照下式计算i、j的注意力因子eij
Figure RE-GDA0003184385320000026
其中,LeakyReLU为激活函数,
Figure RE-GDA0003184385320000027
为一个注意力网络,使用一个线性层实现,是1个维度为2d′的列向量,T为矩阵转置操作,‖表示对向量进行拼接操作;
对所述注意力因子eij进行归一化,得到最终的注意力因子aij
Figure RE-GDA0003184385320000028
其中,n表示i的邻接节点j的个数;
经过注意力机制后,按照下式计算得到
Figure RE-GDA0003184385320000029
更新后的论文节点特征
Figure RE-GDA00031843853200000210
Figure RE-GDA00031843853200000211
进一步的,在得到更新后的论文节点特征之后,采用多头注意力机制,按照下式计算得到稳定更新后的论文节点特征
Figure RE-GDA0003184385320000031
Figure RE-GDA0003184385320000032
其中,k表示注意力网络的头数,K表示k的总数。
进一步的,通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
将所述全局标签分为多个部分,每个部分分别对应于所述论文类别层数的每一层的局部标签;
利用注意力机制调整所述全局标签和局部标签的权重并组合每一层的局部标签和全局标签,组合后经计算处理得到最终的论文标签分类结果。
进一步的,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签,包括:
按照如下公式计算所述论文类别层数中第一层的全局输出
Figure RE-GDA0003184385320000033
按照如下公式计算所述论文类别层数中第m层的全局输出
Figure RE-GDA0003184385320000034
其中,
Figure RE-GDA0003184385320000035
表示第m层的全局输出,用于获取全局标签表示,σ是激活函数,
Figure RE-GDA0003184385320000036
表示第m层的全局权重矩阵,
Figure RE-GDA0003184385320000037
x为所述利用注意力机制得到的更新后的论文节点特征,b表示偏置量,||表示拼接操作,m表示层的序号,|M| 表示层数,C表示各个层级的所有标签集合,Cm表示第m层的标签集合;
按照下式计算所有论文类别层数整体的全局输出
Figure RE-GDA0003184385320000038
其中PG的第q个元素表示为第q个类别的置信度。
进一步的,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数的局部标签,包括:
利用一个线性层,从所述论文类别层数每一层的全局标签
Figure RE-GDA0003184385320000039
中提取出相应的局部输出
Figure RE-GDA00031843853200000310
权重参数为矩阵
Figure RE-GDA00031843853200000311
计算公式如下
Figure RE-GDA00031843853200000312
其中,
Figure RE-GDA0003184385320000041
表示局部输出,用于获取相应层的局部标签表示;
利用另一个线性层
Figure RE-GDA0003184385320000042
Figure RE-GDA0003184385320000043
映射到
Figure RE-GDA0003184385320000044
最终通过下式得到所有论文类别层数整体的局部输出
Figure RE-GDA0003184385320000045
其中
Figure RE-GDA0003184385320000046
的第q个元素表示为第q个类别的置信度。
进一步的,所述通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
按照下式来分别计算组合过程中局部标签和全局标签的权重:
Figure RE-GDA0003184385320000047
Figure RE-GDA0003184385320000048
其中,αFL、αFG分别表示的是局部标签和全局标签组合的权重;
组合之后,按照如下公式计算最终标签表示结果
Figure RE-GDA0003184385320000049
其中,PF表示最终的文本标签表示向量。
进一步的,在进行所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签过程中,当所述论文类别层数中的子类别的置信度大于父类别的置信度时,为子类别按照下式添加损失函数
Figure RE-GDA00031843853200000410
以惩罚这种违规行为
Figure RE-GDA00031843853200000411
其中,o表示层级,p表示o的下一层,Ylo表示第l个类别在第o层的可信度,Ylp表示第l个类别在p层的可信度;
然后按照下式计算全局和局部的整体损失LF
Figure RE-GDA00031843853200000412
Figure RE-GDA00031843853200000413
Figure RE-GDA00031843853200000414
其中,λ表示的是损失的权重,E表示的是多标签分类中的双重交叉熵损失,a表示从1到N,b表示从1到|C|。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上任意一项所述的方法。
从上面所述可以看出,本公开提供的基于图卷积网络的科技论文层级多标签分类方法及设备,使用注意力机制聚合论文的关键字特征和标题特征,可以将科技论文的标题信息聚合到关键字节点中,进而丰富论文的语义表示,在论文分类中考虑了具有相同关键词的论文之间的关联,使得论文分类更加准确;另外,利用与论文类别层数相对应的多输出深度神经网络模型来输出所有论文类别层数整体的全局标签,在层次关系的帮助下,网络的每一层仅关注分类体系中相应层级的标签,减少了每个层需要区分的类别数量,充分获取到不同层级标签的特征,使得各个类别之间的微小差异均可被捕获,提高了论文分类的准确性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的基于图卷积网络的科技论文层级多标签分类方法的流程示意图;
图2为本公开实施例的基于图卷积网络的科技论文层级多标签分类方法的原理示意图;
图3(a)为本公开实施例对CNKI进行参数敏感性分析实验的结果示意图;
图3(b)为本公开实施例对RCV1进行参数敏感性分析实验的结果示意图;
图4为本公开实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
论文数据库是学者获取最新科研成果的重要来源。然而由于论文数据库种类繁多,不同机构采用的分类方法以及标准不同,在收录论文时往往需要工作人员依靠大量的专业知识来人工分类,这样的手工分类无疑需要大量且昂贵的人力成本。当然,部分机构让论文作者在提交论文时提供分类,由作者本人提供论文分类,这虽然会节省人力,但是作者自身对于该机构的分类体系往往不熟悉,分层的概念也给人带来了困惑,无法快速提供准确、完整的论文分类。
中国图书分类法(CLC)简称中图法,是我国广泛采用的分类标准,涉及包括论文在内的多种出版物。中图法为五大部类,二十二个大类,51,881个类目(包括通用类目),各个类被之间存在层级关系,并使用字母以及数字对类别进行编码,如TP181表示“自动推理、机器学习”,其中T表示二十二个大类中的“工业技术”,TP表示“工业技术”类目下的“自动化技术、计算机技术”,依次类推。
随着学科交叉的逐渐频繁,论文的CLC类别也往往由多个组成,例如人工智能与医学、生物、交通等多领域的结合已经十分普遍。并且论文的类别可以采用层级的名称,例如TP18的“人工智能理论”、其子类别如TP183“人工神经网络与计算”均可作为论文的类别。因此论文的分类任务成为了一个典型的多标签层级分类问题。
论文的特点和CLC的分类标准给多标签层级分类任务带来了新的挑战。首先,论文的关键词与论文的类别密切相关,但是由于文本内容短而稀疏,因此很难提取语义信息。但是在论文分类中,非常有必要综合利用关键词和论文标题的语义信息来进行分类。现有方法没有考虑到具有相同关键词的论文之间的关联。其次,CLC中的类别很多,类别之间的差异很小,很难对来自大量相似类别的论文进行准确分类。
传统的多标签分类方法在多标签分类任务中可以利用标签之间的关联。相关技术中已经公开了尝试通过构建标签图来对标签空间建模。还公开了一种全局优化方法,其目的是考虑特征相关性,标签相关性和特征冗余以进行特征评估。通过在标签空间中进行稀疏重构来学习标签相关性,并将学习到的标签相关性整合到方法训练中。由于许多标签缺少足够的样本,相关技术中使用特征空间中的结构信息和标签空间中的局部相关性来增强标签。或者利用关于成对标签共存的信息来在共同训练分类器之间传播所选样本的标签。还有利用 LSTM捕获远距离单词依赖性,并使用注意机制使不同的单词对标签产生不同的影响。相关技术中还公开了开发相关网络架构,以学习标签相关性,使用相关性知识增强原始标签预测并增强输出的标签预测结果。还提出了一种深层生成方法,通过结合潜在变量来描述标记和未标记的数据来生成半监督学习的标签。
近年来,图学习发展迅速,相关技术中使用注意力机制来计算邻域中不同节点的权重,而无需依赖图的全局结构。目前已经公开了根据单词共现和文档单词关系为语料库构建单个文本图,然后学习文本图卷积网络。还公开了基于 GraphSage,利用BiLSTM作为聚合函数获得了二阶特征来捕获依赖关系,以及利用共现信息对标签图进行建模,然后在最终的叠加图上应用多层图卷积以进行标签嵌入。
与传统的多标签分类方法不同,在分层多标签任务中标签被组织成一个层次结构。考虑到单词之间的概念关系也可以形成层次结构,相关技术公开了从单词层次结构映射到标签层次结构,还利用了多个线性层(对应于类别层的数量),并且在每个层中都有本地输出,它优化了局部层的损耗和最终输出的整体损耗。相关技术中结合了父级标签对子标签的潜在贡献,以评估每个标签的置信度。
但是,相关技术中没有共同考虑论文之间的关联和标签的层次结构,没有考虑到具有相同关键词的论文之间的关联,也无法综合利用关键词和论文标题的语义信息来对论文进行分类。同时也很难对来自大量相似类别的论文进行准确分类。
为解决上述问题,本公开提出了一种基于图卷积网络的科技论文层级多标签分类方法。
以下结合附图来详细说明本公开的实施例。
参考图1,本公开提供了一种基于图卷积网络的科技论文层级多标签分类方法,包括以下几个步骤:
步骤S101、构建论文与关键词的无向图。
具体的,利用论文的关键词共现关系来构建一个论文与关键词的无向图,记为Gpw=(VpUVw,Epw),其中Vp,Vw分别表示论文节点集合和关键词节点集合, Epw表示边集合,对于一个关键词wi,若wi存在于某个论文pi,则wi与pi之间存在边
Figure RE-GDA0003184385320000081
论文的关键词与论文的类别密切相关,但是由于论文文本内容短而稀疏,因此很难提取论文关键词的语义信息,利用论文的关键词共现关系来构建论文关键词的无向图可以很好的解决这一技术问题。
步骤S102、利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征.
具体的,采用注意力机制在所述无向图上进行图形节点嵌入,通过对节点的邻接节点进行聚合操作进而结合节点及邻接节点集合的语义特征信息,用以更新论文节点特征表示,更新后的论文节点特征中包含了丰富的关键词特征及论文标题特征,所有更新后的论文节点特征组成更新后的论文节点特征矩阵。
利用注意力机制来聚合论文关键词的语义特征和论文标题的语义特征,可以将科技论文的标题信息聚合到关键字节点中,进而丰富论文的语义表示,在论文分类中考虑了具有相同关键词的论文之间的关联,使得论文分类更加准确。
由于GAT(图注意力网络)不依赖于全局结构,因而对于大数据集可以采用批训练,因此本实施例中采用GAT(Petar,2018)来进行图形节点嵌入。
步骤S103、将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签。
通过网络的流有两种,全局流从输入传播到全局,本地流与全局流一起传播,直到到达各个全连接层,然后在相应的本地输出处结束,每轮训练同时优化了本地输出和全局输出的损失。
具体的,论文类别层数指的是按照我国广泛采用的中国图书分类法(CLC) 标准进行分类的类别层数,具体分为五大部类,二十二个大类,51,881个类,各个类被之间存在层级关系,并使用字母以及数字对类别进行编码,例如TP181 表示“自动推理、机器学习”,其中T表示二十二个大类中的“工业技术”,TP 表示“工业技术”类目下的“自动化技术、计算机技术”,依次类推。
本实施里中的论文类别层数可以根据实际分类的需求进行选择。例如,对 TP18进行分类,则总的类别层数为4层,那么需要与其相对应的4层多输出深度神经网络模型对其进行分类。第一层的局部输出是对大类T进行分类,第二层的局部输出是对大类下T下的TP进行分类,第三层的局部输出是对TP 再下一级的TP1进行分类,第四层的局部输出是对TP18进行分类,全局输出则是得到所有层的整体分类。
步骤S104、通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果。
具体的,利用与论文类别层数相对应的多输出深度神经网络模型来输出所有论文类别层数整体的全局标签,在层次关系的帮助下,网络的每一层仅关注分类体系中相应层级的标签,减少了每个层需要区分的类别数量,充分获取到不同层级标签的特征,使得各个类别之间的微小差异均可被捕获,提高了论文分类的准确性。
参考图2,在一些实施里中,可以通过使用图注意力模块来实现步骤S101、步骤102;通过层级多标签注意力模块来实现步骤步骤S103、步骤104。图注意力模块是基于图卷积网络的论文文本表示,用以聚合论文关键词的语义特征和论文标题的语义特征;层级多标签注意力模块使用多输出深度神经网络对论文的层次分类特征进行建模,并使用注意力网络对建模结果进行调节,最终得到论文标签分类结果。
在一些实施例中,利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征,包括:
构建论文与关键词的特征矩阵;
具体的,构建论文与关键词的特征矩阵X:
其中,X为论文与关键词特征总和,X由W与P拼接得到,
Figure RE-GDA0003184385320000091
t=s+r, t为论文与关键词节点的总数,论文矩阵P为论文特征矩阵,
Figure RE-GDA0003184385320000092
r为论文总数,d为特征维度;W为关键词特征矩阵,
Figure RE-GDA0003184385320000093
s为关键词总数。
输入所述论文与关键词特征矩阵的每一个行向量作为节点特征向量;
具体的,输入节点特征表示为
Figure RE-GDA0003184385320000094
h为X的行向量,R 为实数集,d为特征维度;
对所有节点特征经过线性变换得到输出节点特征;
利用注意力机制计算每个输出节点特征与其相邻节点特征的注意力因子,将所述注意力因子归一化得到最终的注意力因子,利用最终的注意力因子经计算得到更新后的论文节点特征。
具体的,采用一个线性层,权重矩阵为
Figure RE-GDA0003184385320000101
d′为隐层维度,对于节点i,记i的邻接节点j的集合为Ni,对于j∈Ni,按照下式计算i、j的注意力因子eij
Figure RE-GDA0003184385320000102
其中,LeakyReLU为激活函数,
Figure RE-GDA0003184385320000103
为一个注意力网络,使用一个线性层实现,是1个维度为2d′的列向量,T为矩阵转置操作,‖表示对向量进行拼接操作;
对所述注意力因子eij进行归一化,得到最终的注意力因子aij
Figure RE-GDA0003184385320000104
其中,n表示i的邻接节点j的个数;
经过注意力机制后,按照下式计算得到
Figure RE-GDA0003184385320000105
更新后的论文节点特征
Figure RE-GDA0003184385320000106
Figure RE-GDA0003184385320000107
利用注意力机制,通过对节点i的邻接节点j进行聚合操作进而结合节点i 及邻接节点j集合的语义特征信息,用以更新论文节点i的特征表示,更新后的论文节点特征
Figure RE-GDA0003184385320000108
中包含了丰富的关键词特征,所有更新后的论文节点特征
Figure RE-GDA0003184385320000109
组成更新后的论文节点特征矩阵
Figure RE-GDA00031843853200001010
在一些实施例中,在得到更新后的论文节点特征之后,采用多头注意力机制,按照下式计算得到稳定更新后的论文节点特征
Figure RE-GDA00031843853200001011
Figure RE-GDA00031843853200001012
其中,k表示注意力网络的头数,K表示k的总数。
采用多头注意力机制,可以得到更加稳定的输出,使得分类的结果更加准确。
在一些实施例中,通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
将所述全局标签分为多个部分,每个部分分别对应于所述论文类别层数的每一层的局部标签;
利用注意力机制调整所述全局标签和局部标签的权重并组合每一层的局部标签和全局标签,组合后经计算处理得到最终的论文标签分类结果。
在一些实施里中,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签,包括:
按照如下公式计算所述论文类别层数中第一层的全局输出
Figure RE-GDA0003184385320000111
按照如下公式计算所述论文类别层数中第m层的全局输出
Figure RE-GDA0003184385320000112
其中,
Figure RE-GDA0003184385320000113
表示第m层的全局输出,用于获取全局标签表示,σ是激活函数,
Figure RE-GDA0003184385320000114
表示第m层的全局权重矩阵,
Figure RE-GDA0003184385320000115
x为所述利用注意力机制得到的更新后的论文节点特征,b表示偏置量,||表示拼接操作,m表示层的序号,|M| 表示层数,C表示各个层级的所有标签集合,Cm表示第m层的标签集合;
按照下式计算所有论文类别层数整体的全局输出
Figure RE-GDA0003184385320000116
其中PG的第q个元素表示为第q个类别的置信度。
具体的,例如,对TP18进行分类,全局输出则是经过上述计算步骤后得到所有4个层的全局标签分类结果。
在一些实施里中,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数的局部标签,包括:
利用一个线性层,从所述论文类别层数每一层的全局标签
Figure RE-GDA0003184385320000117
中提取出相应的局部输出
Figure RE-GDA0003184385320000118
权重参数为矩阵
Figure RE-GDA0003184385320000119
计算公式如下
Figure RE-GDA00031843853200001110
其中,
Figure RE-GDA00031843853200001111
表示局部输出,用于获取相应层的局部标签表示;
利用另一个线性层
Figure RE-GDA00031843853200001112
Figure RE-GDA00031843853200001113
映射到
Figure RE-GDA00031843853200001114
最终通过下式得到所有论文类别层数整体的局部输出
Figure RE-GDA0003184385320000121
其中
Figure RE-GDA0003184385320000122
的第q个元素表示为第q个类别的置信度。
具体的,例如,对TP18进行分类,则总的类别层数为4层,第一层的局部输出是对大类T进行分类,第二层的局部输出是对大类下T下的TP进行分类,第三层的局部输出是对TP再下一级的TP1进行分类,第四层的局部输出是对TP18进行分类。经过上述计算步骤后得到每一层的局部标签分类结果。
在一些实施例中,所述通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
按照下式来分别计算组合过程中局部标签和全局标签的权重:
Figure RE-GDA0003184385320000123
Figure RE-GDA0003184385320000124
其中,αFL、αFG分别表示的是局部标签和全局标签组合的权重;
组合之后,按照如下公式计算最终标签表示结果
Figure RE-GDA0003184385320000125
其中,PF表示最终的文本标签表示向量。
使用层级多标签注意力模块,在层次关系的帮助下,网络的每一层仅关注分类体系中相应层级的标签,减少了每个层需要区分的类别数量。然后,使用注意力网络来自适应地组合每个级别的局部标签和全局标签,充分考虑到不同级别标签的特征。
在一些实施方式中,在进行所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签过程中,当所述论文类别层数中的子类别的置信度大于父类别的置信度时,为子类别按照下式添加损失函数
Figure RE-GDA0003184385320000126
以惩罚这种违规行为
Figure RE-GDA0003184385320000127
其中,o表示层级,p表示o的下一层,Ylo表示第l个类别在第o层的可信度,Ylp表示第l个类别在p层的可信度;
然后按照下式计算全局和局部的整体损失LF
Figure RE-GDA0003184385320000131
Figure RE-GDA0003184385320000132
Figure RE-GDA0003184385320000133
其中,λ表示的是损失的权重,E表示的是多标签分类中的双重交叉熵损失,a表示从1到N,b表示从1到|C|。
具体的,例如对TP18进行分类,TP是T的子类别,T是TP的父类别,若分类结果中,TP的置信度为0.8(说明分类结果显示该论文的分类在TP的可能性为0.8),T的置信度为0.5(说明分类结果显示该论文的分类在T的可能性为0.5),此时子类别的置信度大于父类别,则需要为子类别计算损失LM为 (0.8-0.5)2
由于与子类别的标签分类相比,论文在父类别的标签上分类更容易,置信度也更高,因此在使用层级多标签注意力模块训练过程中,当子类别的置信度大于父类别的置信度时,为子类别添加损失函数
Figure RE-GDA0003184385320000134
以惩罚这种违规行为。对具有分层违例的预测使用惩罚,可以优化方法训练,降低损失,并且可以获得一致的分层路径。
实施例
一、数据集
采用自行收集的中国知网(CNKI)中文论文以及文本分类语料库(RCV1) 公开数据集作为实验数据集,自行收集了来自CNKI的80000条论文数据,包含22个大类共计265个类别,论文标签层级最大深度为4层,这些论文中,多标签的论文数据共有73920篇。每条数据包含了论文标题、关键词以及标签信息。
在文本向量的提取上,我们采用bert(Bidirectional Encoder Representationsfrom Transformer,bert方法的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务)中文预训练方法进行文本表示。由于RCV1数据集没有标题和关键字,因此我们使用NLTK(Natural Language Toolkit,自然语言处理工具包,是最常用的英文自然语言处理python 基础库之一)预处理数据,并且删除了出现次数少于5次的关键词,然后基于关键字共现关系构建图,并利用文本内容以获得文档表示。
二、实验设置
在图注意力模块中,首先,使用bert获取论文的标题以及关键词的词向量,特征维度d为768维,根据关键词的共现关系构建无向图;
然后,采用两层注意力网络,根据公式(1)至(4)的计算来更新节点特征h,隐层维度d′以及输出的特征维度d均为384。
在层级多标签注意力模块中,首先将图注意力网络的输出结果作为本模块的初始输入特征,经过线性映射到384维,得到第一层的全局输出,对于之后的每一层,我们将上一层的输出与初始输入特征拼接,作为下一层的输入,具体根据公式(5)至(7)来计算整体的全局输出。
然后,使用另一个线性层,由该层的全局输出得到局部输出,并再映射到该层的类别上,得到该层的局部输出分类结果,具体根据公式(8)至(9)来计算每一层的局部输出。
最后,使用公式(10)至(12)对全局输出的结果和局部输出的结果进行组合,得到最终的输出结果。
实验过程中,设置每一层全局输出维度为[384,384,384,384],每一层局部输出维度为[32,128,128,128]。采用Adam作为优化器,学习率设置为1e-3(10 的-3次方,0.001),每个批次(batch)大小设置为64,每个方法训练200轮。设置λM=10-2,λL=1。
使用以下指标Precision@k(P@k)计算来自预测标签列表的前k个得分标签中正确标签预测的分数、微平均F1值Micro F1、宏平均F1值Macro F1 来对本方法的计算结果进行评价。
在实验中给出k=1、3、5时的结果。
结果评价时,分别在上述两个数据集上将我们的基于图卷积网络的科技论文层级多标签分类方法(HMLAG)与单独使用的图注意力模块(GAT-FC)、层级多标签注意力模块(GAT-HMCN)以及当前的主流方法TEXTRNN(2016)、 AttentiveConvNet(2017)、DPCNN(2017)、DPCNN(2018)、HMCN(2018) 得到的结果进行了比较,结果如下表1、表2所示。
表1:CNKI数据集实验结果表
P@1 P@3 P@5 micro-F1@3 macro-F1@3
TEXTRNN 0.7897 0.4251 0.2851 0.3961 0.2149
AttentiveConvNet 0.7279 0.4142 0.2382 0.3343 0.1686
DRNN 0.8105 0.4162 0.2732 0.327 0.1842
DPCNN 0.7092 0.3974 0.2947 0.2162 0.1321
HMCN 0.8037 0.513 0.3196 0.3925 0.2786
GAT-FC 0.7952 0.4655 0.2474 0.4153 0.2615
GAT-HMCN 0.8763 0.5572 0.4021 0.5021 0.3944
HMLAG(Ours) 0.8924 0.5737 0.4266 0.513 0.4061
表2:RCV1数据集实验结果
P@1 P@3 P@5 micro-F1@3 macro-F1@3
TEXTRNN 0.9597 0.908 0.8843 0.7694 0.4332
AttentiveConvNet 0.9462 0.8717 0.8208 0.7294 0.3509
DRNN 0.9216 0.8437 0.7738 0.6309 0.1894
DPCNN 0.9288 0.8369 0.7945 0.6808 0.2795
HMCN 0.9047 0.8572 0.8169 0.6188 0.4245
GAT-FC 0.9253 0.8471 0.8072 0.6542 0.3373
GAT-HMCN 0.9418 0.8952 0.8663 0.7561 0.4363
HMLAG(Ours) 0.9614 0.9053 0.885 0.7627 0.4492
从表1中可以看出,与当前的主流方法TEXTRNN(2016)、 AttentiveConvNet(2017)、DPCNN(2017)、DPCNN(2018)、HMCN(2018) 得到的结果相比,本公开所述的方法HMLAG在P@1,P@3和P@5上的性能分别比基准高8.19%、14.86%和10.7%。本公开所述的方法微平均F1值、宏平均F1值分别比基准高出11.69%和12.75%。
其中选取TEXTRNN(2016)、AttentiveConvNet(2017)、DPCNN(2017)、 DPCNN(2018)、HMCN(2018)这5个主流方法中同一指标下最高的数值作为基准,例如P@1指标下选取5个方法中数值最高的0.8105作为基准,P@3 指标下选取5个方法中数值最高的0.513作为基准。
与单独使用的图注意力模块(GAT-FC)、层级多标签注意力模块(GAT-HMCN)得到的结果相比,本公开所述的方法HMLAG在各个指标中均比单独使用的两个模块效果更好,证明本方法HMLAG不是单纯的将两个单独的GAT-FC及GAT-HMCN进行叠加,而是两个模块相互促进,进而取得比两个单独的模块更好的效果。
综上结果表明,本公开所述的方法HMLAG在论文数据集上更有效。
在表2中,TEXTRNN在非分层分类方法中获得最好的结果。由于RCV1 中缺少自然关键字特征,因此本公开所述的方法HMLAG效果与TEXTRNN 相似。
与其他方法相比,随着P@k中k值的的逐渐增加,本公开所述的方法的数据的下降速度比其他方法要慢。这表明本公开所述的方法不仅可以通过结合自身的标题和关键词信息来获得文档的向量表示,而且可以基于图注意力网络对具有相同关键词节点的其他论文的数据信息进行聚合,从而使文档示包含更丰富的多标签信息。
三、消融实验分析
由于我们的方法分为两部分:基于图卷积网络的论文文本表示的图注意力模块和基于HMCN的层级标签注意力模块,因此在消融研究中,将HMLAG 与GAT-FC,HMCN和GAT-HMCN进行了比较。对于GAT-FC,直接使用两个完整的连接层和一个SoftMax归一化来预测分类结果。对于GAT-HMCN,将 HMCN用作GAT之后的分类器。
首先比较HMLAG和GAT-FC,以显示分级标签分类网络如何提高最终性能。由上表1、表2我们可以看到,在CNKI和RCV1中,HMLAG的性能分别比GAT-FC高10.62%和5.82%。在分层标签分类任务中,捕获不同级别之间的关系很重要,结果表明本公开所述的方法有效地捕获了这些特征。
然后将HMLAG与HMCN进行比较,可以看出本公开所述的方法比HMCN 分别高出6.07%和4.81%,这表明本公开所述的方法成功地融合了关键词和论文标题的特征。
最后,与GAT-HMCN相比,我们的方法对P@3的改进分别为1.65%和 1.01%,这表明HMLAG中将局部标签和全局标签结合在一起的注意力网络可以有效地提高分类性能。
四、参数敏感性分析
参数敏感性分析用以评估不同参数设置下本方法的性能。
本实验通过更改λM和λL的数值并对其进行组合来对本模块的参数敏感性进行分析,并对CNKI和RCV1进行实验,结果如图2所示。
图3(a)为对CNKI进行实验的结果,如图所示,当λM=10-2、λL=1 时,我们的方法效果最佳,得到的P@3的数值最大,准确率最高。另外,在大多数参数组合中,本公开所述的方法P@3值都可以获得0.55以上的准确率,证明本公开所述的方法对参数不敏感,在各类参数组合的条件下都可以获得较好的准确率。可以注意到,当λM=1或0.1时,数据结果随λL的变化波动很大,所以实际操作时设置λM尽量避免设置为1或0.1。
图3(b)为对RCV1进行实验的结果,如图所示,可以观察到与图3(a) 中类似的结果。证明本公开所述的方法对参数不敏感,在各类参数组合的条件下都可以获得较好的准确率。
五、样本批次大小对方法准确率的影响分析
不同批次大小的样本指的是训练时每次训练的样本数量大小不同。在 CNKI训练集上进行实验,用以评估不同批次的样本对本公开所述方法准确率的影响,该训练集的各个批次大小选自[32,64,128,256]。
实验结果显示了不同迭代次数的训练集的损失值,由实验结果可知,本公开所述的方法通常在20次迭代中收敛,并且方法收敛的速度随着批处理大小的增加而增加。
实验结果同时显示了不同迭代次数的测试集上的P@3。由实验结果可知,在方法收敛之后,当批大小为32和64时,本公开所述的方法获得了相似的性能,但是当批次太大时,P@3会急剧下降。因此本公开适合在批大小为32 和64时使用,准确率更高。由于当批大小为64时,本公开所述的方法需要更少的时间来训练每个时期,因此我们在实际使用中将批大小设置为64,可以同时兼顾准确率与方法训练时间。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于图卷积网络的科技论文层级多标签分类方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/ 输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于图卷积网络和注意力机制的文本关联方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于图卷积网络的科技论文层级多标签分类方法,包括:
构建论文与关键词的无向图;
利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征;
将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签;
通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果。
2.根据权利要求1所述的方法,其中,利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征,包括:
构建论文与关键词的特征矩阵;
输入所述论文与关键词特征矩阵的每一个行向量作为节点特征向量;
对所有节点特征经过线性变换得到输出节点特征;
利用注意力机制计算每个输出节点特征与其相邻节点特征的注意力因子,将所述注意力因子归一化得到最终的注意力因子,利用最终的注意力因子经计算得到更新后的论文节点特征。
3.根据权利要求1所述的算法,其中,利用注意力机制在所述无向图上进行图形节点嵌入,输出更新后的论文节点特征,包括:
构建论文与关键词的特征矩阵X:
其中,X为论文与关键词特征总和,X由W与P拼接得到,
Figure FDA0003074359620000011
t=s+r,t为论文与关键词节点的总数,论文矩阵P为论文特征矩阵,
Figure FDA0003074359620000012
r为论文总数,d为特征维度;W为关键词特征矩阵,
Figure FDA0003074359620000013
s为关键词总数;
输入节点特征表示为
Figure FDA0003074359620000014
h为X的行向量,R为实数集,d为特征维度;
采用一个线性层,权重矩阵为
Figure FDA0003074359620000015
d′为隐层维度,对于节点i,记i的邻接节点j的集合为Ni,对于j∈Ni,按照下式计算i、j的注意力因子eij
Figure FDA0003074359620000016
其中,LeakyReLU为激活函数,
Figure FDA0003074359620000017
为一个注意力网络,使用一个线性层实现,是1个维度为2d′的列向量,T为矩阵转置操作,‖表示对向量进行拼接操作;
对所述注意力因子eij进行归一化,得到最终的注意力因子aij
Figure FDA0003074359620000021
其中,n表示i的邻接节点j的个数;
经过注意力机制后,按照下式计算得到
Figure FDA0003074359620000022
更新后的论文节点特征
Figure FDA0003074359620000023
Figure FDA0003074359620000024
4.根据权利要求3所述的算法,其中,在得到更新后的论文节点特征之后,采用多头注意力机制,按照下式计算得到稳定更新后的论文节点特征
Figure FDA0003074359620000025
Figure FDA0003074359620000026
其中,k表示注意力网络的头数,K表示k的总数。
5.根据权利要求1所述的方法,其中,通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
将所述全局标签分为多个部分,每个部分分别对应于所述论文类别层数的每一层的局部标签;
利用注意力机制调整所述全局标签和局部标签的权重并组合每一层的局部标签和全局标签,组合后经计算处理得到最终的论文标签分类结果。
6.根据权利要求1所述的方法,其中,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签,包括:
按照如下公式计算所述论文类别层数中第一层的全局输出
Figure FDA0003074359620000027
按照如下公式计算所述论文类别层数中第m层的全局输出
Figure FDA0003074359620000028
其中,
Figure FDA0003074359620000029
表示第m层的全局输出,用于获取全局标签表示,σ是激活函数,
Figure FDA00030743596200000210
表示第m层的全局权重矩阵,
Figure FDA00030743596200000211
x为所述利用注意力机制得到的更新后的论文节点特征,b表示偏置量,||表示拼接操作,m表示层的序号,|M|表示层数,C表示各个层级的所有标签集合,Cm表示第m层的标签集合;
按照下式计算所有论文类别层数整体的全局输出
Figure FDA0003074359620000031
其中PG的第q个元素表示为第q个类别的置信度。
7.根据权利要求6所述的方法,其中,所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数的局部标签,包括:
利用一个线性层,从所述论文类别层数每一层的全局标签
Figure FDA0003074359620000032
中提取出相应的局部输出
Figure FDA0003074359620000033
权重参数为矩阵
Figure FDA0003074359620000034
计算公式如下
Figure FDA0003074359620000035
其中,
Figure FDA0003074359620000036
表示局部输出,用于获取相应层的局部标签表示;
利用另一个线性层
Figure FDA0003074359620000037
Figure FDA0003074359620000038
映射到
Figure FDA0003074359620000039
最终通过下式得到所有论文类别层数整体的局部输出
Figure FDA00030743596200000310
其中
Figure FDA00030743596200000311
的第q个元素表示为第q个类别的置信度。
8.根据权利要求7所述的方法,其中,所述通过注意力机制组合所述局部标签和全局标签,利用组合后的局部标签和全局标签经计算处理后得到最终的论文标签分类结果,包括:
按照下式来分别计算组合过程中局部标签和全局标签的权重:
Figure FDA00030743596200000312
Figure FDA00030743596200000313
其中,αFL、αFG分别表示的是局部标签和全局标签组合的权重;
组合之后,按照如下公式计算最终标签表示结果
Figure FDA00030743596200000314
其中,PF表示最终的文本标签表示向量。
9.根据权利要求8所述的方法,其中,在进行所述将更新后的论文节点特征输入预先训练好的与论文类别层数相对应的多输出深度神经网络模型中,输出所有论文类别层数整体的全局标签和局部标签过程中,当所述论文类别层数
中的子类别的置信度大于父类别的置信度时,为子类别按照下式添加损失函数
Figure FDA0003074359620000041
以惩罚这种违规行为
Figure FDA0003074359620000042
其中,o表示层级,p表示o的下一层,Ylo表示第l个类别在第o层的可信度,Ylp表示第l个类别在p层的可信度;
然后按照下式计算全局和局部的整体损失LF
Figure FDA0003074359620000043
Figure FDA0003074359620000044
Figure FDA0003074359620000045
其中,λ表示的是损失的权重,E表示的是多标签分类中的双重交叉熵损失,a表示从1到N,b表示从1到|C|。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现根据权利要求1至9中任意一项所述的方法。
CN202110548961.6A 2021-05-19 2021-05-19 基于图卷积网络的科技论文层级多标签分类方法及设备 Active CN113312480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548961.6A CN113312480B (zh) 2021-05-19 2021-05-19 基于图卷积网络的科技论文层级多标签分类方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548961.6A CN113312480B (zh) 2021-05-19 2021-05-19 基于图卷积网络的科技论文层级多标签分类方法及设备

Publications (2)

Publication Number Publication Date
CN113312480A true CN113312480A (zh) 2021-08-27
CN113312480B CN113312480B (zh) 2022-12-09

Family

ID=77373767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548961.6A Active CN113312480B (zh) 2021-05-19 2021-05-19 基于图卷积网络的科技论文层级多标签分类方法及设备

Country Status (1)

Country Link
CN (1) CN113312480B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626556A (zh) * 2021-10-12 2021-11-09 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN114328934A (zh) * 2022-01-18 2022-04-12 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统
CN115080689A (zh) * 2022-06-15 2022-09-20 昆明理工大学 融合标签关联的隐空间数据增强多标签文本分类方法
CN115114397A (zh) * 2022-05-09 2022-09-27 泰康保险集团股份有限公司 年金信息更新方法、装置、电子设备、存储介质及程序
CN115545098A (zh) * 2022-09-23 2022-12-30 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
WO2023155508A1 (zh) * 2022-02-18 2023-08-24 北京邮电大学 一种基于图卷积神经网络和知识库的论文相关性分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112667782A (zh) * 2021-01-04 2021-04-16 上海明略人工智能(集团)有限公司 一种文本分类方法、装置、设备及存储介质
CN112749791A (zh) * 2021-01-22 2021-05-04 重庆理工大学 一种基于图神经网络和胶囊网络的链路预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112667782A (zh) * 2021-01-04 2021-04-16 上海明略人工智能(集团)有限公司 一种文本分类方法、装置、设备及存储介质
CN112749791A (zh) * 2021-01-22 2021-05-04 重庆理工大学 一种基于图神经网络和胶囊网络的链路预测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626556A (zh) * 2021-10-12 2021-11-09 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN113626556B (zh) * 2021-10-12 2022-03-01 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN114328934A (zh) * 2022-01-18 2022-04-12 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统
CN114328934B (zh) * 2022-01-18 2024-05-28 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统
WO2023155508A1 (zh) * 2022-02-18 2023-08-24 北京邮电大学 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN115114397A (zh) * 2022-05-09 2022-09-27 泰康保险集团股份有限公司 年金信息更新方法、装置、电子设备、存储介质及程序
CN115114397B (zh) * 2022-05-09 2024-05-31 泰康保险集团股份有限公司 年金信息更新方法、装置、电子设备、存储介质及程序
CN115080689A (zh) * 2022-06-15 2022-09-20 昆明理工大学 融合标签关联的隐空间数据增强多标签文本分类方法
CN115080689B (zh) * 2022-06-15 2024-05-07 昆明理工大学 融合标签关联的隐空间数据增强多标签文本分类方法
CN115545098A (zh) * 2022-09-23 2022-12-30 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN115545098B (zh) * 2022-09-23 2023-09-08 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法

Also Published As

Publication number Publication date
CN113312480B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Lu et al. VGCN-BERT: augmenting BERT with graph embedding for text classification
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Jung Semantic vector learning for natural language understanding
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
Ristoski et al. Rdf2vec: Rdf graph embeddings for data mining
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
Duarte et al. A review of semi-supervised learning for text classification
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
Qiu et al. Dictionary‐based automated information extraction from geological documents using a deep learning algorithm
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
US20230325424A1 (en) Systems and methods for generating codes and code books based using cosine proximity
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
Zhang et al. A data processing method based on sequence labeling and syntactic analysis for extracting new sentiment words from product reviews
Rahab et al. Rule-based Arabic sentiment analysis using binary equilibrium optimization algorithm
Huang et al. Sentiment analysis algorithm using contrastive learning and adversarial training for POI recommendation
Cui et al. Intra-graph and Inter-graph joint information propagation network with third-order text graph tensor for fake news detection
Liu et al. Age inference using a hierarchical attention neural network
Wang et al. Ipre: a dataset for inter-personal relationship extraction
Panahandeh Nigjeh et al. Leveraging ParsBERT for cross-domain polarity sentiment classification of Persian social media comments
Iparraguirre-Villanueva et al. Search and classify topics in a corpus of text using the latent dirichlet allocation model
Li et al. Tagdeeprec: tag recommendation for software information sites using attention-based bi-lstm
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Mahmoud et al. Hybrid attention-based approach for arabic paraphrase detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant