CN114003726A - 一种基于子空间嵌入的学术论文差异性分析方法 - Google Patents

一种基于子空间嵌入的学术论文差异性分析方法 Download PDF

Info

Publication number
CN114003726A
CN114003726A CN202111651286.6A CN202111651286A CN114003726A CN 114003726 A CN114003726 A CN 114003726A CN 202111651286 A CN202111651286 A CN 202111651286A CN 114003726 A CN114003726 A CN 114003726A
Authority
CN
China
Prior art keywords
subspace
paper
difference
embedding
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111651286.6A
Other languages
English (en)
Other versions
CN114003726B (zh
Inventor
孙宇清
谢翌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202111651286.6A priority Critical patent/CN114003726B/zh
Publication of CN114003726A publication Critical patent/CN114003726A/zh
Application granted granted Critical
Publication of CN114003726B publication Critical patent/CN114003726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的技术领域。本发明针对论文差异性分析目标,提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法。本发明将摘要等重点关注文本建模成不同子空间语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络与对比损失函数进行多规则联合嵌入学习,以分析论文差异性。

Description

一种基于子空间嵌入的学术论文差异性分析方法
技术领域
本发明公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的技术领域。
背景技术
文本差异性分析任务是指面向特定目标,对输入的目标文本和对照文本集合进行加工处理,自动标记目标文本相对于对照集合呈现出内容或语义差异的段落以及差异大小,在许多场景中都有广泛的应用,比如文本查重、重构编辑过程、挖掘软件历史版本中的语义变化等等。在学术论文差异性分析任务是指面向新发表论文的潜在影响力预测问题,对论文文本以及其他元数据进行加工处理,自动标注。其中,文本内容是论文摘要,目标文本和对照文本为同一研究领域的论文,在许多具体任务中都有重要的应用价值。例如针对学术期刊最新一期发表的论文,通过一个论文质量量化模型对其进行评价,而评价模型的训练一般需要大量已标注评分的论文集合,或具备被引用关系、作者特征等大量数据支撑,在实际场景中已标注得分的论文往往较少,而新发表论文缺少被引数据,难以完成评价模型的训练。通过论文差异性分析方法可以将该期刊往期发表的论文作为对照文本,依据学术界评价论文质量的基本共识作为度量目标论文与对照集合之间差异性的规则,自动标记目标论文的语义差异,相较于传统的论文质量量化方法,论文差异性分析更能够体现学术创新的不同特点。
论文是科研成果的一种呈现形式,也是科研人员获取前沿进展的主要参考,不同领域每年发表的学术论文数量巨大,如何从中筛选出高质量论文具有重要应用价值,其中创新性和潜在影响力是学术推荐任务考虑的重要因素,但因论文内容涉及专业知识,也是困难问题。现有评价论文质量的方法主要依据论文引用量和引用关系,不适用于缺少引用数据的新发表论文;也有研究论文差异性量化指标体系的工作,通过标注学术论文中的创新点、新知识、或重要贡献等数据,采用监督学习推断单篇论文的量化形式的创新指标,这种融入专家知识的评价方法能够较好地反映学术创新。但是不同学科领域具有不同创新特点,创新内容也是动态变化,上述方法难以建模这种学科差异和创新变化。
发明内容
针对现有技术的问题,本发明公开了一种基于子空间嵌入的学术论文差异性分析方法。
技术术语解释
专业领域:是指科学研究特定的领域,如粗粒度的计算机科学、生命科学专业领域,或细粒度的机器学习专业领域等等。
差异性:是指待分析的目标学术论文与对照集合相比,在文本上的差别位置、差异程度。
子空间:是指用于描述论文学术创新不同层面的语义嵌入空间。
专家规则:是指学术界度量两篇论文差异性的基本共识。
发明概述:
学术创新体现在不同层面,如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等;不同领域的创新特点差异巨大。现实中很难对创新进行形式定义和明确度量,引用量也包含了主题流行度和专业热度,只能部分地反映论文影响力。为此,本发明提出了一种基于子空间嵌入的学术论文差异性分析方法,研究论文差异性和创新性的关系,借助专家共识指导论文学术信息差异性分析,结合内容相关性评价论文创新性,为新论文的评价问题提供参考。
本发明公开一种基于子空间嵌入的学术论文差异性分析方法,针对论文差异性分析目标,提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法。
本发明将摘要等重点关注文本建模成不同子空间语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络与对比损失函数进行多规则联合嵌入学习,以分析论文差异性。
将本发明所述分析方法在真实数据集上进行了实验,结果显示子空间差异性和论文引用量的正相关关系,相比其他文本嵌入方法和论文质量预测方法,本文方法与实际引用量的相关性更大。论文差异性分析结果能够反映不同学科的创新特点,以及高引论文的子空间差异分布规律。
本发明的技术方案如下:
一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,依据学术创新的不同特点,对应引入子空间概念描述学术论文内容的不同层面,针对论文中某一特定部分文本进行论文差异评分:
1)设论文
Figure 712856DEST_PATH_IMAGE001
某一特定部分文本包含
Figure 878258DEST_PATH_IMAGE002
个句子
Figure 975527DEST_PATH_IMAGE003
,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列
Figure 542775DEST_PATH_IMAGE004
2)采用条件随机场方法CRF作为预训练序列标记模型,对某一特定部分文本进行句子级别的功能子空间标记,得到句子功能标记序列
Figure 434507DEST_PATH_IMAGE005
Figure 352785DEST_PATH_IMAGE006
,其中
Figure 722586DEST_PATH_IMAGE007
为子空间数量;
3)基于句向量序列
Figure 409920DEST_PATH_IMAGE008
和句子功能标记序列
Figure 974018DEST_PATH_IMAGE009
,对论文
Figure 114013DEST_PATH_IMAGE010
的某一特定部分文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;
对于两篇文章,可能存在一个子空间相关性大、另一个子空间差异大的情况,例如研究相同问题的两种不同方法,或是类似技术方案解决不同问题等等,为了有助于更细致地分析论文差异情况,联合多种专家规则在不同子空间进行独立嵌入学习,采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
Figure 553084DEST_PATH_IMAGE011
(1)
Figure 94924DEST_PATH_IMAGE012
(2)
Figure 594039DEST_PATH_IMAGE013
(3)
Figure 955750DEST_PATH_IMAGE014
(4)
Figure 932933DEST_PATH_IMAGE015
(5)
在公式(1)中,
Figure 329279DEST_PATH_IMAGE016
表示子空间
Figure 999295DEST_PATH_IMAGE017
中第
Figure 848302DEST_PATH_IMAGE018
个句子的句向量;其中
Figure 127712DEST_PATH_IMAGE019
表示编码器计算出来的第
Figure 644144DEST_PATH_IMAGE020
个句子的句向量;
Figure 485061DEST_PATH_IMAGE021
是运算符,表示点积;
Figure 821364DEST_PATH_IMAGE022
是指示函数,当第
Figure 405929DEST_PATH_IMAGE023
个句子的功能标记为子空间
Figure 511289DEST_PATH_IMAGE024
时,
Figure 523107DEST_PATH_IMAGE025
,否则
Figure 346706DEST_PATH_IMAGE026
在公式(2)中,
Figure 469383DEST_PATH_IMAGE027
表示子空间
Figure 694828DEST_PATH_IMAGE028
中全部句子的句向量序列;
在公式(3)、(4)中,其中;
Figure 379013DEST_PATH_IMAGE029
分别是多层感知机神经网络的权重参数和偏差参数,
Figure 689908DEST_PATH_IMAGE030
在公式(5)中,
Figure 616276DEST_PATH_IMAGE031
为子空间
Figure 696227DEST_PATH_IMAGE032
中的文本嵌入向量,
Figure 315428DEST_PATH_IMAGE033
是子空间
Figure 848040DEST_PATH_IMAGE034
的权重矩阵,
Figure 312520DEST_PATH_IMAGE035
是基于全局注意力机制的权重参数,
Figure 246978DEST_PATH_IMAGE036
是基于全局注意力机制的偏差参数;
然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为
Figure 37079DEST_PATH_IMAGE037
最后融合子空间
Figure 791408DEST_PATH_IMAGE038
中的文本嵌入向量
Figure 823693DEST_PATH_IMAGE039
和上下文信息
Figure 878237DEST_PATH_IMAGE040
为嵌入结果
Figure 308081DEST_PATH_IMAGE041
Figure 80865DEST_PATH_IMAGE042
(6)
Figure 152726DEST_PATH_IMAGE043
(7)
Figure 61776DEST_PATH_IMAGE044
(8)
在公式(6)中,
Figure 193680DEST_PATH_IMAGE045
表示对于子空间
Figure 188181DEST_PATH_IMAGE046
作为上下文融合到子空间
Figure 565198DEST_PATH_IMAGE047
中的权重,
Figure 594334DEST_PATH_IMAGE048
Figure 631560DEST_PATH_IMAGE049
分别表示子空间
Figure 378936DEST_PATH_IMAGE050
Figure 527021DEST_PATH_IMAGE051
中的文本嵌入向量;
在公式(7)中,
Figure 145084DEST_PATH_IMAGE052
表示除子空间
Figure 353212DEST_PATH_IMAGE053
外的全部子空间嵌入的加权和;
Figure 56725DEST_PATH_IMAGE054
是子空间
Figure 274080DEST_PATH_IMAGE055
中的文本嵌入向量;
在公式(8)中,
Figure 746650DEST_PATH_IMAGE056
是融合上下文信息后的子空间
Figure 889793DEST_PATH_IMAGE057
的嵌入结果;
4)最终子空间语义差异评分函数
Figure 346182DEST_PATH_IMAGE058
如下:
Figure 836069DEST_PATH_IMAGE059
(9)
在公式(9)中,
Figure 694304DEST_PATH_IMAGE060
表示论文的文本;
Figure 509813DEST_PATH_IMAGE061
为向量欧氏距离;
Figure 922340DEST_PATH_IMAGE062
为论文
Figure 481497DEST_PATH_IMAGE063
子空间
Figure 194238DEST_PATH_IMAGE064
的嵌入向量;
Figure 915069DEST_PATH_IMAGE065
为论文
Figure 113095DEST_PATH_IMAGE066
子空间
Figure 210364DEST_PATH_IMAGE067
的嵌入向量;
对于论文
Figure 512032DEST_PATH_IMAGE068
,采用期望方式计算嵌入向量:
Figure 669344DEST_PATH_IMAGE069
(10)
在公式(10)中,
Figure 322042DEST_PATH_IMAGE070
为指示函数,计算方式为子空间
Figure 957423DEST_PATH_IMAGE071
中全部句子的子空间嵌入平均值;对于论文
Figure 644756DEST_PATH_IMAGE072
Figure 707390DEST_PATH_IMAGE073
的求取原理与公式(10)相同。
根据本发明优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括:
将基于学科分类标记的论文差异评分、基于参考文献的论文差异评分和基于关键词的论文差异评分中的一种或多种组合,以形成融合多规则的论文差异分析方法:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数
Figure 847385DEST_PATH_IMAGE074
、基于学科分类标记的论文差异评分
Figure 286456DEST_PATH_IMAGE075
、基于参考文献的论文差异评分
Figure 326831DEST_PATH_IMAGE076
、基于关键词的论文差异评分
Figure 560366DEST_PATH_IMAGE077
,其中
Figure 187657DEST_PATH_IMAGE078
分别表示论文文本、分类、参考文献、关键词;基于专家规则的评分函数中,
Figure 430419DEST_PATH_IMAGE079
评价论文
Figure 577498DEST_PATH_IMAGE080
Figure 995316DEST_PATH_IMAGE081
在不同子空间
Figure 844324DEST_PATH_IMAGE082
的差异,
Figure 890777DEST_PATH_IMAGE083
为两篇论文整体差异指标,在每个子空间均适用;
所述基于学科分类标记的论文差异评分,包括:学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统,如计算机领域的ACM计算学科分类系统[1](ACMComputing Classification System,简称ACM CCS),期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式,树上各层节点表示不同抽象程度的研究领域,根节点为最大的研究领域或学科;最底层的叶节点表示最具体、最细粒度的研究领域,叶节点也作为论文标记节点,给定两篇文章
Figure 407209DEST_PATH_IMAGE084
Figure 749591DEST_PATH_IMAGE085
,以及其在层次化分类系统中对应的标记,用
Figure 351474DEST_PATH_IMAGE086
Figure 936039DEST_PATH_IMAGE087
分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数
Figure 41398DEST_PATH_IMAGE088
:
Figure 318796DEST_PATH_IMAGE089
(11)
在公式(11)中,
Figure 142395DEST_PATH_IMAGE090
表示当前节点
Figure 999493DEST_PATH_IMAGE091
在学术论文分类系统的层次,所述分类系统是指学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统;
Figure 490517DEST_PATH_IMAGE092
表示该层次节点的权重;
所述基于参考文献的论文差异评分,包括:论文差异和论文参考文献的重合程度密切相关,定义两篇文章
Figure 171772DEST_PATH_IMAGE093
Figure 217088DEST_PATH_IMAGE094
的差异评分函数
Figure 143456DEST_PATH_IMAGE095
为引用文献集合
Figure 488986DEST_PATH_IMAGE096
Figure 577028DEST_PATH_IMAGE097
的杰卡德系数的倒数:
Figure 375220DEST_PATH_IMAGE098
(12)
所述基于关键词的论文差异评分,包括:关键词是作者选择的论文核心内容标记,依据两篇论文的关键词语义标记论文差异性,记论文
Figure 839699DEST_PATH_IMAGE099
的关键词集合为
Figure 39736DEST_PATH_IMAGE100
,评分函数
Figure 564259DEST_PATH_IMAGE101
定义为
Figure 849747DEST_PATH_IMAGE102
Figure 619382DEST_PATH_IMAGE103
所有关键词的词向量欧式距离的期望,其中
Figure 673925DEST_PATH_IMAGE104
是论文
Figure 103770DEST_PATH_IMAGE099
关键词
Figure 876554DEST_PATH_IMAGE105
的预训练词嵌入向量,
Figure 682836DEST_PATH_IMAGE106
是论文
Figure 591886DEST_PATH_IMAGE103
关键词
Figure 723790DEST_PATH_IMAGE107
的预训练词嵌入向量,
Figure 452711DEST_PATH_IMAGE108
表示两个向量之间的欧氏距离:
Figure 328264DEST_PATH_IMAGE109
(13)
然后,采样标记后的论文样本,迭代训练孪生网络,随机采样
Figure 826241DEST_PATH_IMAGE110
Figure 627581DEST_PATH_IMAGE111
表示三篇论文,
Figure 109378DEST_PATH_IMAGE102
为的参考样本,依据多规则标注样本结果进行比较,如果两者差距大于一定门限,则选择大者作为正样本对,小的作为负样本对,否则丢弃;在每一个子空间的融合函数值
Figure 257463DEST_PATH_IMAGE112
Figure 141105DEST_PATH_IMAGE113
计算如下,其中
Figure 349233DEST_PATH_IMAGE114
为随训练一起学习的权重参数:
Figure 318326DEST_PATH_IMAGE115
(14)
本文采用专家规则指导的论文差异性标记样本对训练论文表示向量,具有如下三个优点:首先,与强逻辑规则不同,判断论文之间差异性的专家规则是概率性的判断标准,即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大,这种规则能够选择到大量训练数据,避免了样本标记时的少量数据带来的过拟合问题。第二,采用多规则联合标记论文论文差异性,有助于模型充分利用蕴含专家知识的评价指标,提高数据标记合理性,使论文子空间嵌入模型学习多种体现差异性的特征;也便于后续规则的扩充。第三,相对于传统的监督学习模型,这种方法在考虑不同规则的同时,消除不同打分尺度的影响和学科差异,增加了模型鲁棒性;
依据专家规则标记结果,在子空间
Figure 270101DEST_PATH_IMAGE116
Figure 8250DEST_PATH_IMAGE117
之间的差异性大于
Figure 652858DEST_PATH_IMAGE118
,即
Figure 843668DEST_PATH_IMAGE119
为正样本对,
Figure 100599DEST_PATH_IMAGE120
为负样本对,
Figure 958834DEST_PATH_IMAGE121
Figure 243185DEST_PATH_IMAGE122
Figure 186870DEST_PATH_IMAGE111
表示三篇论文,
Figure 746027DEST_PATH_IMAGE123
Figure 193189DEST_PATH_IMAGE124
差异
Figure 179600DEST_PATH_IMAGE125
大于
Figure 79423DEST_PATH_IMAGE126
Figure 176692DEST_PATH_IMAGE127
差异
Figure 743939DEST_PATH_IMAGE128
的可能性与评价函数
Figure 423224DEST_PATH_IMAGE129
取值成正相关关系:
Figure 75922DEST_PATH_IMAGE130
(15)
在公式(15)中,
Figure 976882DEST_PATH_IMAGE131
表示概率分布函数;在论文
Figure 664215DEST_PATH_IMAGE132
Figure 258007DEST_PATH_IMAGE133
之间,
Figure 398002DEST_PATH_IMAGE134
表示任意一种评价函数在每个子空间的评分,在论文
Figure 837073DEST_PATH_IMAGE135
Figure 378913DEST_PATH_IMAGE127
之间,
Figure 379492DEST_PATH_IMAGE136
表示任意一种评价函数在每个子空间的评分;
其中,
Figure 6783DEST_PATH_IMAGE137
为论文
Figure 983966DEST_PATH_IMAGE132
Figure 380312DEST_PATH_IMAGE138
在子空间
Figure 784749DEST_PATH_IMAGE139
的差异性评分:
Figure 899335DEST_PATH_IMAGE140
(16)
其中,
Figure 945789DEST_PATH_IMAGE141
为论文
Figure 196642DEST_PATH_IMAGE135
Figure 37559DEST_PATH_IMAGE127
在子空间
Figure 137976DEST_PATH_IMAGE142
的差异性评分:
Figure 722542DEST_PATH_IMAGE143
(17)
Figure 93480DEST_PATH_IMAGE144
为论文
Figure 839719DEST_PATH_IMAGE135
子空间
Figure 928898DEST_PATH_IMAGE139
的嵌入向量;
Figure 785995DEST_PATH_IMAGE145
为论文
Figure 11440DEST_PATH_IMAGE133
子空间
Figure 459739DEST_PATH_IMAGE139
的嵌入向量;
Figure 770635DEST_PATH_IMAGE146
为论文
Figure 932888DEST_PATH_IMAGE147
子空间
Figure 278419DEST_PATH_IMAGE139
的嵌入向量。
根据本发明优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
提出了基于孪生神经网络的对比损失模型,以论文子空间
Figure 632040DEST_PATH_IMAGE139
的嵌入向量
Figure 164652DEST_PATH_IMAGE148
Figure 894711DEST_PATH_IMAGE145
作为网络输入,对于任意样本
Figure 94748DEST_PATH_IMAGE149
之间的差异性关系,如果存在
Figure 353691DEST_PATH_IMAGE150
,则孪生网络的损失函数为:
Figure 639179DEST_PATH_IMAGE151
(18)
将损失函数
Figure 907349DEST_PATH_IMAGE152
转换为合页损失函数的形式,添加正则项后为:
Figure 696314DEST_PATH_IMAGE153
(19)
在公式(19)中,
Figure 155852DEST_PATH_IMAGE154
为合页损失函数中的偏差参数;
Figure 663056DEST_PATH_IMAGE155
是正则化项的系数;
Figure 469338DEST_PATH_IMAGE156
为正则化项,计算方式为
Figure 643968DEST_PATH_IMAGE157
范数。
相较于将评分函数结果直接聚合的方式,本发明对比学习方法能够更好地消除不同创新形式和学科特点带来的引用量等数值偏差影响,在融入专家知识的同时消除不同规则打分尺度带来的影响,而且支持增量式规则标注,从而在处理文本和规则多样性方面更具鲁棒性。
根据本发明优选的,所述论文中某一特定部分为摘要文本。摘要文本通常按照一定顺序描述问题背景、学术贡献、实验结果等不同子空间的核心要素。
本发明的优势在于:
1、本发明针对论文内容差异分析目标,提出了基于子空间嵌入的学术论文差异性分析方法。学术论文中的创新体现在不同层面,如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等;不同领域的创新特点差异巨大。本发明引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法,将摘要文本建模成不同子空间的语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇论文内容差异的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络和对比损失函数进行多规则联合嵌入学习,以分析论文内容差异。相比其他文本嵌入方法和论文质量预测方法,本文方法与实际引用量的相关性更大。
2、本发明采用融合多种分析方法的优点包括,专家规则可依据学科差异调整,比如考虑更多面向无标记数据的学术创新专家规则,这种方法有助于剔除非正常引用关系对引用量的影响,从而更客观地建模论文内容的创新性。二是专业知识或专家规则的表示方式可依据规则类型调整,如基于论文文本自动抽取知识点,进而分析学术知识差异,解决当前学术论文创新性评价方法的局限性,降低同行评议的人工代价。
3、本发明论文差异性知识还可以应用到个性化的学术推荐中,帮助科研人员更好地选择创新性成果,把握发展趋势。现有的论文推荐工作主要依据科研人员的历史发表、论文引用、论文浏览历史等数据中抽取用户兴趣,分析与推荐论文的内容相关性,缺少分析内容互补性或启发性。而现实中,科研人员经常关注内容相关但技术有差异的论文,如解决相同问题的不同理论和方法,或在特定数据集上的新发现等,因此,将融合内容相关性和差异性的论文嵌入应用于论文推荐任务具有重要价值。
4、本发明采用多个真实学科数据集,验证了子空间差异性和学术论文引用量的正向关系,相比其他文本嵌入方法和论文质量预测方法,本文嵌入方法与实际引用量的相关性更大;本发明能够分析出不同学科的知识创新特点,以及高引论文子空间差异和分布规律,以可视化方式展示了不同学科的子空间嵌入特点;通过模型析构实验和方法对比,验证了本文模型的合理性。
附图说明
图1是本发明中所述融合多规则的论文子空间嵌入模型的构架图;
图2-图10分别是利用本发明所述方法对Scopus数据集中各学科不同质量论文进行分析后得到的子空间差异性示意图;
其中,图2、图3、图4,分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度;
图5、图6、图7,分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度;
图8、图9、图10,分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
本发明从分析论文内容的差异性角度,研究学术论文创新规律。论文创新性体现在不同层面,如理论问题突破、技术创新或新结果发现等,本发明引入子空间概念来描述这些层面,采用学术界标注论文差异的基本共识作为度量规则,依据论文内容、参考文献、领域分类等信息,自动标记两篇论文的差异结果,提出了基于孪生网络的对比损失模型学习论文子空间嵌入(Subspace Embedding Method,简记为SEM),该方法可用于分析论文差异性和论文质量的关系,以及不同学科的差异特点。
实施例1、
一种基于子空间嵌入的学术论文差异性分析方法,包括,依据学术创新的不同特点,对应引入子空间概念描述学术论文内容的不同层面,针对论文中摘要文本进行论文差异评分:
其中,面向文本语义编码和文本序列标记的预训练阶段的训练过程如下,
1)设论文
Figure 244713DEST_PATH_IMAGE001
摘要文本包含
Figure 504793DEST_PATH_IMAGE002
个句子
Figure 849187DEST_PATH_IMAGE003
,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列
Figure 878323DEST_PATH_IMAGE004
;在去除摘要文本中的数字、标点符号、停用词等数据预处理后,作为编码器输入序列,句子长度的限定设置为30个单词,没有达到长度的句子进行了填充操作,编码器输出的句子向量维度为768;
2)采用条件随机场方法CRF作为预训练序列标记模型,对摘要文本进行句子级别的功能子空间标记,得到句子功能标记序列
Figure 181128DEST_PATH_IMAGE005
Figure 164390DEST_PATH_IMAGE006
,其中
Figure 312475DEST_PATH_IMAGE007
为子空间数量;该方法考虑了当前句子功能与上下文的关系,体现学术论文撰写时对核心要素的逻辑表达顺序,在人工标注句子功能的学术论文数据集上进行预训练,使其完成句子级别的子空间标注任务;
3)基于句向量序列
Figure 196117DEST_PATH_IMAGE008
和句子功能标记序列
Figure 404245DEST_PATH_IMAGE009
,对论文
Figure 373338DEST_PATH_IMAGE010
的摘要文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;
对于两篇文章,可能存在一个子空间相关性大、另一个子空间差异大的情况,例如研究相同问题的两种不同方法,或是类似技术方案解决不同问题等等,为了有助于更细致地分析论文差异情况,联合多种专家规则在不同子空间进行独立嵌入学习,采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
Figure 59534DEST_PATH_IMAGE011
(1)
Figure 63262DEST_PATH_IMAGE158
(2)
Figure 442291DEST_PATH_IMAGE159
(3)
Figure 898680DEST_PATH_IMAGE160
(4)
Figure 388567DEST_PATH_IMAGE161
(5)
在公式(1)中,
Figure 981222DEST_PATH_IMAGE016
表示子空间
Figure 295267DEST_PATH_IMAGE017
中第
Figure 238952DEST_PATH_IMAGE162
个句子的句向量;其中
Figure 532530DEST_PATH_IMAGE019
表示编码器计算出来的第
Figure 245271DEST_PATH_IMAGE020
个句子的句向量;
Figure 700523DEST_PATH_IMAGE021
是运算符,表示点积;
Figure 131505DEST_PATH_IMAGE022
是指示函数,当第
Figure 963194DEST_PATH_IMAGE023
个句子的功能标记为子空间
Figure 796021DEST_PATH_IMAGE024
时,
Figure 687754DEST_PATH_IMAGE025
,否则
Figure 340452DEST_PATH_IMAGE026
在公式(2)中,
Figure 742877DEST_PATH_IMAGE027
表示子空间
Figure 164631DEST_PATH_IMAGE028
中全部句子的句向量序列;
在公式(3)、(4)中,其中;
Figure 492844DEST_PATH_IMAGE029
分别是多层感知机神经网络的权重参数和偏差参数,
Figure 367259DEST_PATH_IMAGE030
在公式(5)中,
Figure 71910DEST_PATH_IMAGE031
为子空间
Figure 613750DEST_PATH_IMAGE032
中的文本嵌入向量,
Figure 112864DEST_PATH_IMAGE033
是子空间
Figure 474575DEST_PATH_IMAGE034
的权重矩阵,
Figure 717338DEST_PATH_IMAGE035
是基于全局注意力机制的权重参数,
Figure 612219DEST_PATH_IMAGE036
是基于全局注意力机制的偏差参数;
然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为
Figure 16656DEST_PATH_IMAGE037
最后融合子空间
Figure 131242DEST_PATH_IMAGE038
中的文本嵌入向量
Figure 912117DEST_PATH_IMAGE039
和上下文信息
Figure 162969DEST_PATH_IMAGE040
为嵌入结果
Figure 3886DEST_PATH_IMAGE041
Figure 605769DEST_PATH_IMAGE163
(6)
Figure 190334DEST_PATH_IMAGE043
(7)
Figure 295693DEST_PATH_IMAGE044
(8)
在公式(6)中,
Figure 808977DEST_PATH_IMAGE045
表示对于子空间
Figure 632576DEST_PATH_IMAGE046
作为上下文融合到子空间
Figure 755253DEST_PATH_IMAGE164
中的权重,
Figure 980698DEST_PATH_IMAGE048
Figure 897838DEST_PATH_IMAGE049
分别表示子空间
Figure 474313DEST_PATH_IMAGE050
Figure 135102DEST_PATH_IMAGE051
中的文本嵌入向量;
在公式(7)中,
Figure 215053DEST_PATH_IMAGE052
表示除子空间
Figure 568674DEST_PATH_IMAGE053
外的全部子空间嵌入的加权和;
Figure 366866DEST_PATH_IMAGE165
是子空间
Figure 595459DEST_PATH_IMAGE055
中的文本嵌入向量;
在公式(8)中,
Figure 529917DEST_PATH_IMAGE056
是融合上下文信息后的子空间
Figure 54440DEST_PATH_IMAGE057
的嵌入结果;
4)最终子空间语义差异评分函数
Figure 339927DEST_PATH_IMAGE166
如下:
Figure 342519DEST_PATH_IMAGE059
(9)
在公式(9)中,
Figure 397062DEST_PATH_IMAGE167
表示论文的文本;
Figure 92486DEST_PATH_IMAGE061
为向量欧氏距离;
Figure 599690DEST_PATH_IMAGE168
为论文
Figure 671552DEST_PATH_IMAGE169
子空间
Figure 580602DEST_PATH_IMAGE064
的嵌入向量;
Figure 213971DEST_PATH_IMAGE065
为论文
Figure 474051DEST_PATH_IMAGE170
子空间
Figure 818444DEST_PATH_IMAGE067
的嵌入向量;
对于论文
Figure 113160DEST_PATH_IMAGE068
,采用期望方式计算嵌入向量:
Figure 150386DEST_PATH_IMAGE171
(10)
在公式(10)中,
Figure 897762DEST_PATH_IMAGE070
为指示函数,计算方式为子空间
Figure 311426DEST_PATH_IMAGE071
中全部句子的子空间嵌入平均值;对于论文
Figure 195068DEST_PATH_IMAGE072
Figure 901731DEST_PATH_IMAGE073
的求取原理与公式(10)相同。
实施例2、
如实施例1所述一种基于子空间嵌入的学术论文差异性分析方法,还包括:
将基于学科分类标记的论文差异评分、基于参考文献的论文差异评分和基于关键词的论文差异评分中的一种或多种组合,以形成融合多规则的论文差异分析方法:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数
Figure 870824DEST_PATH_IMAGE172
、基于学科分类标记的论文差异评分
Figure 557020DEST_PATH_IMAGE173
、基于参考文献的论文差异评分
Figure 560748DEST_PATH_IMAGE174
、基于关键词的论文差异评分
Figure 939777DEST_PATH_IMAGE175
,其中
Figure 130587DEST_PATH_IMAGE176
分别表示论文文本、分类、参考文献、关键词;基于专家规则的评分函数中,
Figure 886053DEST_PATH_IMAGE177
评价论文
Figure 744288DEST_PATH_IMAGE178
Figure 294218DEST_PATH_IMAGE179
在不同子空间
Figure 237903DEST_PATH_IMAGE180
的差异,
Figure 32946DEST_PATH_IMAGE181
为两篇论文整体差异指标,在每个子空间均适用;
所述基于学科分类标记的论文差异评分,包括:学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统,如计算机领域的ACM计算学科分类系统[2](ACMComputing Classification System,简称ACM CCS),期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式,树上各层节点表示不同抽象程度的研究领域,根节点为最大的研究领域或学科;最底层的叶节点表示最具体、最细粒度的研究领域,叶节点也作为论文标记节点,给定两篇文章
Figure 480108DEST_PATH_IMAGE178
Figure 466518DEST_PATH_IMAGE179
,以及其在层次化分类系统中对应的标记,用
Figure 897500DEST_PATH_IMAGE182
Figure 729189DEST_PATH_IMAGE183
分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数
Figure 296437DEST_PATH_IMAGE184
:
Figure 453749DEST_PATH_IMAGE185
(11)
在公式(11)中,
Figure 106447DEST_PATH_IMAGE186
表示当前节点
Figure 741828DEST_PATH_IMAGE187
在学术论文分类系统的层次,所述分类系统是指学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统;
Figure 163582DEST_PATH_IMAGE188
表示该层次节点的权重;
所述基于参考文献的论文差异评分,包括:论文差异和论文参考文献的重合程度密切相关,定义两篇文章
Figure 255909DEST_PATH_IMAGE189
Figure 130324DEST_PATH_IMAGE179
的差异评分函数
Figure 834975DEST_PATH_IMAGE190
为引用文献集合
Figure 376815DEST_PATH_IMAGE191
Figure 610350DEST_PATH_IMAGE192
的杰卡德系数的倒数:
Figure 237641DEST_PATH_IMAGE193
(12)
所述基于关键词的论文差异评分,包括:关键词是作者选择的论文核心内容标记,依据两篇论文的关键词语义标记论文差异性,记论文
Figure 214824DEST_PATH_IMAGE178
的关键词集合为
Figure 611170DEST_PATH_IMAGE194
,评分函数
Figure 281186DEST_PATH_IMAGE195
定义为
Figure 631658DEST_PATH_IMAGE178
Figure 412532DEST_PATH_IMAGE179
所有关键词的词向量欧式距离的期望,其中
Figure 319177DEST_PATH_IMAGE196
是论文
Figure 160094DEST_PATH_IMAGE178
关键词
Figure 283950DEST_PATH_IMAGE197
的预训练词嵌入向量,
Figure 868515DEST_PATH_IMAGE198
是论文
Figure 973874DEST_PATH_IMAGE179
关键词
Figure 985692DEST_PATH_IMAGE199
的预训练词嵌入向量,
Figure 543713DEST_PATH_IMAGE200
表示两个向量之间的欧氏距离:
Figure 931969DEST_PATH_IMAGE201
(13)
然后,采样标记后的论文样本,迭代训练孪生网络,随机采样
Figure 891834DEST_PATH_IMAGE202
Figure 74554DEST_PATH_IMAGE203
表示三篇论文,
Figure 651029DEST_PATH_IMAGE204
为的参考样本,依据多规则标注样本结果进行比较,如果两者差距大于一定门限,则选择大者作为正样本对,小的作为负样本对,否则丢弃。在每一个子空间的融合函数值
Figure 311817DEST_PATH_IMAGE205
Figure 893234DEST_PATH_IMAGE206
计算如下,其中
Figure 246855DEST_PATH_IMAGE207
为随训练一起学习的权重参数:
Figure 45046DEST_PATH_IMAGE208
(14)
本文采用专家规则指导的论文差异性标记样本对训练论文表示向量,具有如下三个优点:首先,与强逻辑规则不同,判断论文之间差异性的专家规则是概率性的判断标准,即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大,这种规则能够选择到大量训练数据,避免了样本标记时的少量数据带来的过拟合问题。第二,采用多规则联合标记论文论文差异性,有助于模型充分利用蕴含专家知识的评价指标,提高数据标记合理性,使论文子空间嵌入模型学习多种体现差异性的特征;也便于后续规则的扩充。第三,相对于传统的监督学习模型,这种方法在考虑不同规则的同时,消除不同打分尺度的影响和学科差异,增加了模型鲁棒性。
依据专家规则标记结果,在子空间
Figure 509526DEST_PATH_IMAGE209
Figure 443984DEST_PATH_IMAGE210
之间的差异性大于
Figure 234085DEST_PATH_IMAGE211
,即
Figure 253994DEST_PATH_IMAGE212
为正样本对,
Figure 522164DEST_PATH_IMAGE213
为负样本对,
Figure 576708DEST_PATH_IMAGE214
Figure 6552DEST_PATH_IMAGE215
Figure 277871DEST_PATH_IMAGE216
差异
Figure 349732DEST_PATH_IMAGE217
大于
Figure 993203DEST_PATH_IMAGE218
Figure 125107DEST_PATH_IMAGE219
差异
Figure 854029DEST_PATH_IMAGE220
的可能性与评价函数
Figure 729581DEST_PATH_IMAGE221
取值成正相关关系:
Figure 493138DEST_PATH_IMAGE222
(15)
在公式(15)中,
Figure 795943DEST_PATH_IMAGE223
表示概率分布函数;在论文
Figure 277740DEST_PATH_IMAGE215
Figure 192869DEST_PATH_IMAGE216
之间,
Figure 810932DEST_PATH_IMAGE224
表示任意一种评价函数在每个子空间的评分,在论文
Figure 19059DEST_PATH_IMAGE218
Figure 722573DEST_PATH_IMAGE219
之间,
Figure 939928DEST_PATH_IMAGE225
表示任意一种评价函数在每个子空间的评分;
其中,
Figure 678077DEST_PATH_IMAGE226
为论文
Figure 57105DEST_PATH_IMAGE215
Figure 513495DEST_PATH_IMAGE216
在子空间
Figure 268961DEST_PATH_IMAGE227
的差异性评分:
Figure 861616DEST_PATH_IMAGE228
(16)
其中,
Figure 175661DEST_PATH_IMAGE229
为论文
Figure 853767DEST_PATH_IMAGE218
Figure 412924DEST_PATH_IMAGE219
在子空间
Figure 860086DEST_PATH_IMAGE227
的差异性评分:
Figure 580917DEST_PATH_IMAGE230
(17)
Figure 11899DEST_PATH_IMAGE231
为论文
Figure 843588DEST_PATH_IMAGE215
子空间
Figure 410836DEST_PATH_IMAGE227
的嵌入向量;
Figure 568148DEST_PATH_IMAGE232
为论文
Figure 955267DEST_PATH_IMAGE216
子空间
Figure 357692DEST_PATH_IMAGE227
的嵌入向量;
Figure 45025DEST_PATH_IMAGE233
为论文
Figure 373238DEST_PATH_IMAGE234
子空间
Figure 513232DEST_PATH_IMAGE227
的嵌入向量。
优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
提出了基于孪生神经网络的对比损失模型,以论文子空间
Figure 686725DEST_PATH_IMAGE227
的嵌入向量
Figure 962985DEST_PATH_IMAGE231
Figure 462100DEST_PATH_IMAGE232
作为网络输入,对于任意样本
Figure 823811DEST_PATH_IMAGE235
之间的差异性关系,如果存在
Figure 66573DEST_PATH_IMAGE236
,则孪生网络的损失函数为:
Figure 728499DEST_PATH_IMAGE237
(18)
将损失函数
Figure 631471DEST_PATH_IMAGE238
转换为合页损失函数的形式,添加正则项后为:
Figure 480478DEST_PATH_IMAGE239
(19)
在公式(19)中,
Figure 526931DEST_PATH_IMAGE240
为合页损失函数中的偏差参数;
Figure 777784DEST_PATH_IMAGE241
是正则化项的系数;
Figure 618701DEST_PATH_IMAGE242
为正则化项,计算方式为
Figure 689425DEST_PATH_IMAGE243
范数。
针对新论文的差异性分析问题,可以形式化为:给定目标论文
Figure 273990DEST_PATH_IMAGE244
和对比论文集合
Figure 644929DEST_PATH_IMAGE245
,依据
Figure 391168DEST_PATH_IMAGE244
Figure 480347DEST_PATH_IMAGE245
中论文在子空间
Figure 838909DEST_PATH_IMAGE246
上差异
Figure 329933DEST_PATH_IMAGE247
排序,记为序列
Figure 247074DEST_PATH_IMAGE248
。现实应用中,论文集合可以选择特定领域往年发表论文,或是个体研究人员阅读文档或历史引用文档,目标论文
Figure 557969DEST_PATH_IMAGE244
选择会议或期刊的最新论文,通过量化分析文本差异性,联合其他用户兴趣和创新性指标如作者声誉进行论文推荐。
应用例1、
结合实施例1、2,本应用例验证采用子空间语义差异评分函数进行论文差异性分析,和采用多种评分函数进行融合的论文差异性分析之间效果的差异。采用
Figure 484337DEST_PATH_IMAGE249
分别表示专家规则中的分类标记、参考文献、关键词、摘要文本差异性,验证本文模型依据不同专家规则进行训练,在论文质量预测任务上的表现。SEM表示本应用例方法同时考虑四种专家规则。
Figure 564289DEST_PATH_IMAGE250
表示本应用例仅考虑其中一项专家规则,比如
Figure 917910DEST_PATH_IMAGE251
表示本应用例只考虑两篇论文关键词语义差异性进行样本标注的方法。
Figure 450522DEST_PATH_IMAGE252
表示本应用例考虑除该规则外的其他三项专家规则,比如
Figure 180581DEST_PATH_IMAGE253
表示只考虑分类标记、参考文献或关键词的标记方法。
为了使对比结果更准确,选择最能体现各学科差异性与引用量相关性的子空间进行实验,比如观察计算机科学、社会科学论文在方法子空间上的结果,观察药学论文在结果子空间上的表现。实验结果如表1所示。
表1 论文子空间差异性与引用量关系析构分析
Figure 115039DEST_PATH_IMAGE254
实验结果显示:
当单独考虑一种专家规则时,具有子空间特征的摘要文本规则是最有效的;当考虑三项专家规则时,排除摘要文本规则的效果最差。联合考虑三项专家规则的模型表现优于单独考虑其中任一规则。联合考虑四种专家规则的效果最优。
因此,本应用例基于规则嵌入差异性分析模型在建模论文差异性时,考虑多种专家规则对于预测论文质量具有正向影响,带来更好性能。
应用例2、
结合实施例1、2,将本发明应用到场景2,具体如下:
其中,数据集包含多学科论文,爬取自Scopus,所述Scopus是全球最大的文献和引文数据库,涵盖了27个学科领域。本应用例爬取的数据集包含40万篇药学、社会科学、计算机科学等学科的论文,平均每篇论文的摘要文本包含5.92个句子。元数据包括论文标题、摘要、引用和学科标记等信息。
论文引用量是衡量其研究工作被学术界认可的重要指标,与论文质量和论文内容的影响力高度相关,本应用案例将分析基于子空间嵌入的论文差异度量与引用量之间的关系。考虑到不同学科特点和创新内容的专业性,论文引用量不能完全反映论文学术内容的重要程度。例如,对比理论物理和计算领域,其研究群体数量相差甚大,不同学科的创新形式和关注度也差异很大,在理论物理方面有突破的论文引用量可能较之计算学科的应用创新论文却不显著。因此采用论文差异值排序和引用量排序的方式进行比较,而不是绝对的数值残差进行对比;并选择了计算机科学、药学、社会科学三个领域,分析各学科不同引用量的论文在子空间上的差异性和论文质量之间的关系。
选取了Scopus 数据集中2013年发表的三个学科领域各200 篇论文做分析对象A,统计这些论文到 2017 年为止被引次数,作为论文质量评估依据。选择上述领域2013 年以前发表的论文作为历史对比论文集合B。采用聚类方法划分紧密相关论文,以及采用局部异常因子(Local Outlier Factor,LOF)作为评价指标度量类内论文的差异程度。现有许多聚类方法,本应用例选择高斯混合聚类方法,分别进行空间独立的聚类。该方法能拟合出任意形状的数据分布,相对其他聚类方法更具鲁棒性,聚类个数的设置依据贝叶斯信息准则。具体方法是将分析对象A和历史对比论文集合B中论文的子空间嵌入,采用聚类方法选择紧密相关论文。在聚类结果基础上,利用局部异常因子值LOF分析A中对象与所在聚类簇中其他论文相比呈现出的差异程度。
讨论高引论文子空间差异和分布规律,并分析不同学科的知识创新特点,以可视化方式展示了不同学科子空间嵌入分布。选择了计算机、药学和社会科学三个领域,每个领域80篇不同引用量的论文进行分析,采用归一化的 LOF 值作为评价差异性的指标分析差异性和论文引用量之间的关联关系。
结果如图2-图4示,横轴为论文引用量,纵轴表示均一化 LOF 值。图中每个节点代表一篇论文在某个子空间中体现的差异性。整体上,各学科在三个子空间中论文的差异性和引用量呈现正相关关系,差异性更高的论文获得高引用量的概率更大,优质论文在所有子空间中普遍表具有创新性。
其次,从回归线的斜率可以看出不同学科倾向于关注哪些创新层面。以计算机学科为例,如图2、图3、图4,分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度,结果看出方法和结果子空间上的相关程度大于背景子空间。这说明在计算机科学领域中,创新性的方法和结果更容易受到关注和认可。类似地,通过回归线趋势可以看出药学研究更注重具有创新性的研究结果、社会科学中开创性的研究方法更受到关注。
然后,具体分析了代表性论文,选择不同领域的高引论文,用菱形节点进行标记:
如选择计算科学领域论文《Wide & Deep Learning for Recommender Systems》,其在三个子空间中的差异性均高于相似引用量其他论文的差异性回归值,如图2、图3、图4所示,即该文在三个子空间上均呈现出创新。
药学中分析里程碑式论文《Nutrition-sensitive interventions andprogrammes: how can they help to accelerate progress in improving maternaland child nutrition》,如图5、图6、图7所示,分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度,该里程碑式工作在结果子空间中呈现相对较高的差异性,其原因研究方法通常是基于常规的统计分析,其价值更多体现在研究结论方面。
如图8、图9、图10分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度,分析其中的高引论文《The Righteous Mind: Why Good People AreDivided by Politics and Religion》,发现这篇论文基于社会现象追溯根本原因,相对于大众普遍认可的结论来说,研究背景和方法更具创新性。
应用例3、
结合实施例1、2,将本发明应用到场景3,具体如下:
ACM数据集包含200万篇学术论文,平均每篇论文的摘要文本包含6.34个句子。元数据包括论文标题、摘要、引用和学科标记等信息。
为了验证本发明中的嵌入方法能够在细粒度研究领域上进行创新发现,对相同学科中高引、低引论文在子空间上的语义差异进行分析:
利用ACM数据集,针对ACM CCS分类下不同领域的发表物,取2015年发表至今获得引用高于300的200篇论文作为高引论文、低于5的200篇论文作为低引论文,各领域2015年以前的发表物作为对比集合。基于上述论文在各子空间中的表示向量,利用高斯混合聚类方法对论文进行聚类标记,计算高、低引论文的局部异常因子值(LOF值,%),结果如表2所示。
表2 ArnetMiner数据集中计算机学科不同方向论文的子空间差异性
Figure 138096DEST_PATH_IMAGE255
可以看出,高引论文在各子空间中体现出的差异性普遍高于低引论文,这与“高引的好论文更可能是具有高创新度的工作”这一普遍认知是一致的。

Claims (4)

1.一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,针对论文中某一特定部分文本进行论文差异评分:
1)设论文
Figure 14837DEST_PATH_IMAGE001
某一特定部分文本包含
Figure 382977DEST_PATH_IMAGE002
个句子
Figure 771233DEST_PATH_IMAGE003
,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列
Figure 199940DEST_PATH_IMAGE004
2)采用条件随机场方法CRF作为预训练序列标记模型,对某一特定部分文本进行句子级别的功能子空间标记,得到句子功能标记序列
Figure 382660DEST_PATH_IMAGE005
Figure 959134DEST_PATH_IMAGE006
,其中
Figure 636235DEST_PATH_IMAGE007
为子空间数量;
3)基于句向量序列
Figure 981765DEST_PATH_IMAGE008
和句子功能标记序列
Figure 335386DEST_PATH_IMAGE009
,对论文
Figure 399157DEST_PATH_IMAGE010
的某一特定部分文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;
采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
Figure 614369DEST_PATH_IMAGE011
(1)
Figure 814406DEST_PATH_IMAGE012
(2)
Figure 604508DEST_PATH_IMAGE013
(3)
Figure 624416DEST_PATH_IMAGE014
(4)
Figure 361428DEST_PATH_IMAGE015
(5)
在公式(1)中,
Figure 963442DEST_PATH_IMAGE016
表示子空间
Figure 862128DEST_PATH_IMAGE017
中第
Figure 634912DEST_PATH_IMAGE019
个句子的句向量;其中
Figure 706773DEST_PATH_IMAGE020
表示编码器计算出来的第
Figure 363626DEST_PATH_IMAGE021
个句子的句向量;
Figure 495530DEST_PATH_IMAGE022
是运算符,表示点积;
Figure 755610DEST_PATH_IMAGE023
是指示函数,当第
Figure 631162DEST_PATH_IMAGE024
个句子的功能标记为子空间
Figure 411030DEST_PATH_IMAGE025
时,
Figure 448256DEST_PATH_IMAGE026
,否则
Figure 195633DEST_PATH_IMAGE027
在公式(2)中,
Figure 609296DEST_PATH_IMAGE028
表示子空间
Figure 696201DEST_PATH_IMAGE029
中全部句子的句向量序列;
在公式(3)、(4)中,其中;
Figure 655061DEST_PATH_IMAGE030
分别是多层感知机神经网络的权重参数和偏差参数,
Figure 624154DEST_PATH_IMAGE031
在公式(5)中,
Figure 107088DEST_PATH_IMAGE032
为子空间
Figure 127128DEST_PATH_IMAGE033
中的文本嵌入向量,
Figure 771736DEST_PATH_IMAGE034
是子空间
Figure 962545DEST_PATH_IMAGE035
的权重矩阵,
Figure 718012DEST_PATH_IMAGE036
是基于全局注意力机制的权重参数,
Figure 120787DEST_PATH_IMAGE037
是基于全局注意力机制的偏差参数;
然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为
Figure 670717DEST_PATH_IMAGE038
最后融合子空间
Figure 348823DEST_PATH_IMAGE039
中的文本嵌入向量
Figure 455450DEST_PATH_IMAGE040
和上下文信息
Figure 168191DEST_PATH_IMAGE041
为嵌入结果
Figure 889023DEST_PATH_IMAGE042
Figure 70736DEST_PATH_IMAGE043
(6)
Figure 168005DEST_PATH_IMAGE044
(7)
Figure 735253DEST_PATH_IMAGE045
(8)
在公式(6)中,
Figure 892565DEST_PATH_IMAGE046
表示对于子空间
Figure 295996DEST_PATH_IMAGE047
作为上下文融合到子空间
Figure 196955DEST_PATH_IMAGE048
中的权重,
Figure 681026DEST_PATH_IMAGE049
Figure 757042DEST_PATH_IMAGE050
分别表示子空间
Figure 897037DEST_PATH_IMAGE051
Figure 336108DEST_PATH_IMAGE052
中的文本嵌入向量;
在公式(7)中,
Figure 877948DEST_PATH_IMAGE053
表示除子空间
Figure 580325DEST_PATH_IMAGE054
外的全部子空间嵌入的加权和;
Figure 958348DEST_PATH_IMAGE055
是子空间
Figure 201110DEST_PATH_IMAGE056
中的文本嵌入向量;
在公式(8)中,
Figure 863036DEST_PATH_IMAGE057
是融合上下文信息后的子空间
Figure 533051DEST_PATH_IMAGE058
的嵌入结果;
4)最终子空间语义差异评分函数
Figure 398370DEST_PATH_IMAGE059
如下:
Figure 444824DEST_PATH_IMAGE060
(9)
在公式(9)中,
Figure 961256DEST_PATH_IMAGE061
表示论文的文本;
Figure 802173DEST_PATH_IMAGE062
为向量欧氏距离;
Figure 889209DEST_PATH_IMAGE063
为论文
Figure 473774DEST_PATH_IMAGE064
子空间
Figure 47975DEST_PATH_IMAGE065
的嵌入向量;
Figure 59793DEST_PATH_IMAGE066
为论文
Figure 148972DEST_PATH_IMAGE067
子空间
Figure 19451DEST_PATH_IMAGE068
的嵌入向量;
对于论文
Figure 510475DEST_PATH_IMAGE069
,采用期望方式计算嵌入向量:
Figure 693195DEST_PATH_IMAGE070
(10)
在公式(10)中,
Figure 269670DEST_PATH_IMAGE071
为指示函数,计算方式为子空间
Figure 946770DEST_PATH_IMAGE072
中全部句子的子空间嵌入平均值;对于论文
Figure 292301DEST_PATH_IMAGE073
Figure 645922DEST_PATH_IMAGE074
的求取原理与公式(10)相同。
2.根据权利要求1所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,还包括:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数
Figure 444113DEST_PATH_IMAGE075
、基于学科分类标记的论文差异评分
Figure 924904DEST_PATH_IMAGE076
、基于参考文献的论文差异评分
Figure 328204DEST_PATH_IMAGE077
、基于关键词的论文差异评分
Figure 852726DEST_PATH_IMAGE078
,其中
Figure 138214DEST_PATH_IMAGE079
分别表示论文文本、分类、参考文献、关键词;
所述基于学科分类标记的论文差异评分,包括:给定两篇文章
Figure 671963DEST_PATH_IMAGE080
Figure 477240DEST_PATH_IMAGE081
,用
Figure 172663DEST_PATH_IMAGE082
Figure 211026DEST_PATH_IMAGE083
分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数
Figure 282887DEST_PATH_IMAGE084
:
Figure 963178DEST_PATH_IMAGE085
(11)
在公式(11)中,
Figure 95082DEST_PATH_IMAGE086
表示当前节点
Figure 89583DEST_PATH_IMAGE087
在学术论文分类系统的层次,所述分类系统是指学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统;
Figure 965135DEST_PATH_IMAGE088
表示该层次节点的权重;
所述基于参考文献的论文差异评分,包括:定义两篇文章
Figure 931954DEST_PATH_IMAGE080
Figure 985492DEST_PATH_IMAGE081
的差异评分函数
Figure 467289DEST_PATH_IMAGE089
为引用文献集合
Figure 880952DEST_PATH_IMAGE090
Figure 764595DEST_PATH_IMAGE091
的杰卡德系数的倒数:
Figure 254613DEST_PATH_IMAGE092
(12)
所述基于关键词的论文差异评分,包括:记论文
Figure 223706DEST_PATH_IMAGE080
的关键词集合为
Figure 441061DEST_PATH_IMAGE093
,评分函数
Figure 179210DEST_PATH_IMAGE094
定义为
Figure 574550DEST_PATH_IMAGE080
Figure 30939DEST_PATH_IMAGE081
所有关键词的词向量欧式距离的期望,其中
Figure 989668DEST_PATH_IMAGE095
是论文
Figure 847902DEST_PATH_IMAGE080
关键词
Figure 397833DEST_PATH_IMAGE096
的预训练词嵌入向量,
Figure 89320DEST_PATH_IMAGE097
是论文
Figure 648478DEST_PATH_IMAGE081
关键词
Figure 626798DEST_PATH_IMAGE098
的预训练词嵌入向量,
Figure 613209DEST_PATH_IMAGE099
表示两个向量之间的欧氏距离:
Figure 529343DEST_PATH_IMAGE100
(13)
在每一个子空间的融合函数值
Figure 626612DEST_PATH_IMAGE101
Figure 459439DEST_PATH_IMAGE102
计算如下,其中
Figure 820013DEST_PATH_IMAGE103
为随训练一起学习的权重参数:
Figure 472711DEST_PATH_IMAGE104
(14)
依据专家规则标记结果,在子空间
Figure 124404DEST_PATH_IMAGE105
Figure 811737DEST_PATH_IMAGE106
之间的差异性大于
Figure 405529DEST_PATH_IMAGE107
,即
Figure 545524DEST_PATH_IMAGE108
为正样本对,
Figure 735328DEST_PATH_IMAGE109
为负样本对,
Figure 277167DEST_PATH_IMAGE110
Figure 776282DEST_PATH_IMAGE111
Figure 606835DEST_PATH_IMAGE112
表示三篇论文,
Figure 849597DEST_PATH_IMAGE113
Figure 993746DEST_PATH_IMAGE114
差异
Figure 663762DEST_PATH_IMAGE115
大于
Figure 778349DEST_PATH_IMAGE113
Figure 90381DEST_PATH_IMAGE112
差异
Figure 91966DEST_PATH_IMAGE116
的可能性与评价函数
Figure 932883DEST_PATH_IMAGE117
取值成正相关关系:
Figure 534766DEST_PATH_IMAGE118
(15)
在公式(15)中,
Figure 119331DEST_PATH_IMAGE119
表示概率分布函数;在论文
Figure 241002DEST_PATH_IMAGE120
Figure 456083DEST_PATH_IMAGE114
之间,
Figure 545261DEST_PATH_IMAGE121
表示任意一种评价函数在每个子空间的评分,在论文
Figure 667938DEST_PATH_IMAGE122
Figure 893383DEST_PATH_IMAGE123
之间,
Figure 92414DEST_PATH_IMAGE124
表示任意一种评价函数在每个子空间的评分;
其中,
Figure 668889DEST_PATH_IMAGE125
为论文
Figure 595257DEST_PATH_IMAGE122
Figure 940788DEST_PATH_IMAGE114
在子空间
Figure 42211DEST_PATH_IMAGE126
的差异性评分:
Figure 840403DEST_PATH_IMAGE127
(16)
其中,
Figure 773724DEST_PATH_IMAGE128
为论文
Figure 973761DEST_PATH_IMAGE129
Figure 498284DEST_PATH_IMAGE123
在子空间
Figure 534504DEST_PATH_IMAGE126
的差异性评分:
Figure 68253DEST_PATH_IMAGE130
(17)
Figure 857218DEST_PATH_IMAGE131
为论文
Figure 83800DEST_PATH_IMAGE132
子空间
Figure 607316DEST_PATH_IMAGE133
的嵌入向量;
Figure 413598DEST_PATH_IMAGE134
为论文
Figure 588227DEST_PATH_IMAGE135
子空间
Figure 454552DEST_PATH_IMAGE133
的嵌入向量;
Figure 917895DEST_PATH_IMAGE136
为论文
Figure 278600DEST_PATH_IMAGE137
子空间
Figure 307736DEST_PATH_IMAGE133
的嵌入向量。
3.根据权利要求2所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
提出了基于孪生神经网络的对比损失模型,以论文子空间
Figure 610541DEST_PATH_IMAGE133
的嵌入向量
Figure 357917DEST_PATH_IMAGE138
Figure 519384DEST_PATH_IMAGE134
作为网络输入,对于任意样本
Figure 403026DEST_PATH_IMAGE139
之间的差异性关系,如果存在
Figure 876733DEST_PATH_IMAGE140
,则孪生网络的损失函数为:
Figure 845826DEST_PATH_IMAGE141
(18)
将损失函数
Figure 548334DEST_PATH_IMAGE142
转换为合页损失函数的形式,添加正则项后为:
Figure 552062DEST_PATH_IMAGE143
(19)
在公式(19)中,
Figure 196670DEST_PATH_IMAGE144
为合页损失函数中的偏差参数;
Figure 856321DEST_PATH_IMAGE145
是正则化项的系数;
Figure 611788DEST_PATH_IMAGE146
为正则化项,计算方式为
Figure 955176DEST_PATH_IMAGE147
范数。
4.根据权利要求1、2或3所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,所述论文中某一特定部分为摘要文本。
CN202111651286.6A 2021-12-31 2021-12-31 一种基于子空间嵌入的学术论文差异性分析方法 Active CN114003726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651286.6A CN114003726B (zh) 2021-12-31 2021-12-31 一种基于子空间嵌入的学术论文差异性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651286.6A CN114003726B (zh) 2021-12-31 2021-12-31 一种基于子空间嵌入的学术论文差异性分析方法

Publications (2)

Publication Number Publication Date
CN114003726A true CN114003726A (zh) 2022-02-01
CN114003726B CN114003726B (zh) 2022-04-08

Family

ID=79932318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651286.6A Active CN114003726B (zh) 2021-12-31 2021-12-31 一种基于子空间嵌入的学术论文差异性分析方法

Country Status (1)

Country Link
CN (1) CN114003726B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和系统
CN116682043A (zh) * 2023-06-13 2023-09-01 西安科技大学 基于SimCLR无监督深度对比学习异常视频清洗方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
KR20200087977A (ko) * 2019-01-14 2020-07-22 강원대학교산학협력단 멀티모달 문서 요약 시스템 및 방법
CN111552816A (zh) * 2020-04-05 2020-08-18 温州大学 面向大数据文本挖掘的动态认知语义匹配方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112784013A (zh) * 2021-01-13 2021-05-11 北京理工大学 一种基于上下文语义的多粒度文本推荐方法
US20210174089A1 (en) * 2019-12-10 2021-06-10 Accenture Global Solutions Limited Utilizing machine learning models to identify context of content for policy compliance determination
CN113051397A (zh) * 2021-03-10 2021-06-29 北京工业大学 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法
CN113435212A (zh) * 2021-08-26 2021-09-24 山东大学 一种基于规则嵌入的文本推断方法及装置
CN113705238A (zh) * 2021-06-17 2021-11-26 梧州学院 基于bert和方面特征定位模型的方面级情感分析方法及模型

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
KR20200087977A (ko) * 2019-01-14 2020-07-22 강원대학교산학협력단 멀티모달 문서 요약 시스템 및 방법
US20210174089A1 (en) * 2019-12-10 2021-06-10 Accenture Global Solutions Limited Utilizing machine learning models to identify context of content for policy compliance determination
CN111552816A (zh) * 2020-04-05 2020-08-18 温州大学 面向大数据文本挖掘的动态认知语义匹配方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112784013A (zh) * 2021-01-13 2021-05-11 北京理工大学 一种基于上下文语义的多粒度文本推荐方法
CN113051397A (zh) * 2021-03-10 2021-06-29 北京工业大学 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法
CN113705238A (zh) * 2021-06-17 2021-11-26 梧州学院 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN113435212A (zh) * 2021-08-26 2021-09-24 山东大学 一种基于规则嵌入的文本推断方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
X. F. ZHOU 等: "Text documents are often high dimensional and sparse, it is a great challenge to discover the clusters among the unlabelled text data, because there are no obvious clusters by common distance measure. In this paper we present a latent subspace clustering m", 《ACM》 *
YIFEI GUAN 等: "Understanding Lexical Feature for Chinese Essay Grading", 《SPRINGER》 *
李培芸: "融合BERT语境词向量的译文质量估计方法研究", 《中文信息学报》 *
田枫 等: "基于多模态子空间学习的语义标签生成方法", 《山东大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682043A (zh) * 2023-06-13 2023-09-01 西安科技大学 基于SimCLR无监督深度对比学习异常视频清洗方法
CN116682043B (zh) * 2023-06-13 2024-01-26 西安科技大学 基于SimCLR无监督深度对比学习异常视频清洗方法
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和系统
CN116628350B (zh) * 2023-07-26 2023-10-10 山东大学 基于可区分主题的新论文推荐方法和系统

Also Published As

Publication number Publication date
CN114003726B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐系统及其方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN114003726B (zh) 一种基于子空间嵌入的学术论文差异性分析方法
CN106250371A (zh) 用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN107315738A (zh) 一种文本信息的创新度评估方法
CN112990973B (zh) 线上店铺画像构建方法及系统
Zhang et al. Aspect-based sentiment analysis for user reviews
Dobson Interpretable outputs: criteria for machine learning in the humanities
Ahmed et al. FLAG-PDFe: Features oriented metadata extraction framework for scientific publications
Xu et al. Usr-mtl: an unsupervised sentence representation learning framework with multi-task learning
Dewi et al. Shapley additive explanations for text classification and sentiment analysis of internet movie database
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
Cong et al. A small sample data-driven method: User needs elicitation from online reviews in new product iteration
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
EP1910918A2 (en) Method and system for automatically extracting data from web sites
Laroussi et al. An opinion analysis method based on disambiguation to improve a recommendation system
Yan et al. An interactive visual analytics system for incremental classification based on semi-supervised topic modeling
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Fosset et al. Docent: A content-based recommendation system to discover contemporary art
Lubis et al. Improving course review helpfulness Prediction through sentiment analysis
Yuan et al. Big data aspect-based opinion mining using the SLDA and HME-LDA models
Bettouche et al. Mapping Researcher Activity based on Publication Data by means of Transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant