CN114003726A

CN114003726A - 一种基于子空间嵌入的学术论文差异性分析方法

Info

Publication number: CN114003726A
Application number: CN202111651286.6A
Authority: CN
Inventors: 孙宇清; 谢翌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-02-01
Anticipated expiration: 2041-12-31
Also published as: CN114003726B

Abstract

本发明公开一种基于子空间嵌入的学术论文差异性分析方法，属于自然语言处理的技术领域。本发明针对论文差异性分析目标，提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新，提出基于预训练模型的论文子空间语义嵌入方法。本发明将摘要等重点关注文本建模成不同子空间语义向量，相较于传统的基于文本向量的差异性分析方法，子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则，提出基于对比学习的规则嵌入模型，采用孪生神经网络与对比损失函数进行多规则联合嵌入学习，以分析论文差异性。

Description

一种基于子空间嵌入的学术论文差异性分析方法

技术领域

本发明公开一种基于子空间嵌入的学术论文差异性分析方法，属于自然语言处理的技术领域。

背景技术

文本差异性分析任务是指面向特定目标，对输入的目标文本和对照文本集合进行加工处理，自动标记目标文本相对于对照集合呈现出内容或语义差异的段落以及差异大小，在许多场景中都有广泛的应用，比如文本查重、重构编辑过程、挖掘软件历史版本中的语义变化等等。在学术论文差异性分析任务是指面向新发表论文的潜在影响力预测问题，对论文文本以及其他元数据进行加工处理，自动标注。其中，文本内容是论文摘要，目标文本和对照文本为同一研究领域的论文，在许多具体任务中都有重要的应用价值。例如针对学术期刊最新一期发表的论文，通过一个论文质量量化模型对其进行评价，而评价模型的训练一般需要大量已标注评分的论文集合，或具备被引用关系、作者特征等大量数据支撑，在实际场景中已标注得分的论文往往较少，而新发表论文缺少被引数据，难以完成评价模型的训练。通过论文差异性分析方法可以将该期刊往期发表的论文作为对照文本，依据学术界评价论文质量的基本共识作为度量目标论文与对照集合之间差异性的规则，自动标记目标论文的语义差异，相较于传统的论文质量量化方法，论文差异性分析更能够体现学术创新的不同特点。

论文是科研成果的一种呈现形式，也是科研人员获取前沿进展的主要参考，不同领域每年发表的学术论文数量巨大，如何从中筛选出高质量论文具有重要应用价值，其中创新性和潜在影响力是学术推荐任务考虑的重要因素，但因论文内容涉及专业知识，也是困难问题。现有评价论文质量的方法主要依据论文引用量和引用关系，不适用于缺少引用数据的新发表论文；也有研究论文差异性量化指标体系的工作，通过标注学术论文中的创新点、新知识、或重要贡献等数据，采用监督学习推断单篇论文的量化形式的创新指标，这种融入专家知识的评价方法能够较好地反映学术创新。但是不同学科领域具有不同创新特点，创新内容也是动态变化，上述方法难以建模这种学科差异和创新变化。

发明内容

针对现有技术的问题，本发明公开了一种基于子空间嵌入的学术论文差异性分析方法。

技术术语解释

专业领域：是指科学研究特定的领域，如粗粒度的计算机科学、生命科学专业领域，或细粒度的机器学习专业领域等等。

差异性：是指待分析的目标学术论文与对照集合相比，在文本上的差别位置、差异程度。

子空间：是指用于描述论文学术创新不同层面的语义嵌入空间。

专家规则：是指学术界度量两篇论文差异性的基本共识。

发明概述：

学术创新体现在不同层面，如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等；不同领域的创新特点差异巨大。现实中很难对创新进行形式定义和明确度量，引用量也包含了主题流行度和专业热度，只能部分地反映论文影响力。为此，本发明提出了一种基于子空间嵌入的学术论文差异性分析方法，研究论文差异性和创新性的关系，借助专家共识指导论文学术信息差异性分析，结合内容相关性评价论文创新性，为新论文的评价问题提供参考。

本发明公开一种基于子空间嵌入的学术论文差异性分析方法，针对论文差异性分析目标，提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新，提出基于预训练模型的论文子空间语义嵌入方法。

本发明将摘要等重点关注文本建模成不同子空间语义向量，相较于传统的基于文本向量的差异性分析方法，子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则，提出基于对比学习的规则嵌入模型，采用孪生神经网络与对比损失函数进行多规则联合嵌入学习，以分析论文差异性。

将本发明所述分析方法在真实数据集上进行了实验，结果显示子空间差异性和论文引用量的正相关关系，相比其他文本嵌入方法和论文质量预测方法，本文方法与实际引用量的相关性更大。论文差异性分析结果能够反映不同学科的创新特点，以及高引论文的子空间差异分布规律。

本发明的技术方案如下：

一种基于子空间嵌入的学术论文差异性分析方法，其特征在于，包括，依据学术创新的不同特点，对应引入子空间概念描述学术论文内容的不同层面，针对论文中某一特定部分文本进行论文差异评分：

1）设论文

某一特定部分文本包含

个句子

，利用神经网络预训练文本编码器模型BERT作为编码器，得到句向量序列

；

2）采用条件随机场方法CRF作为预训练序列标记模型，对某一特定部分文本进行句子级别的功能子空间标记，得到句子功能标记序列

，

，其中

为子空间数量；

3）基于句向量序列

和句子功能标记序列

，对论文

的某一特定部分文本进行子空间融合嵌入，即对相同句子功能标记的句向量进行语义融合；

对于两篇文章，可能存在一个子空间相关性大、另一个子空间差异大的情况，例如研究相同问题的两种不同方法，或是类似技术方案解决不同问题等等，为了有助于更细致地分析论文差异情况，联合多种专家规则在不同子空间进行独立嵌入学习，采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法，以获得不同子空间交互信息，计算方式如下：

(1)

(2)

(3)

(4)

(5)

在公式（1）中，

表示子空间

中第

个句子的句向量；其中

表示编码器计算出来的第

个句子的句向量；

是运算符，表示点积；

是指示函数，当第

个句子的功能标记为子空间

时，

，否则

；

在公式（2）中，

表示子空间

中全部句子的句向量序列；

在公式（3）、（4）中，其中；

分别是多层感知机神经网络的权重参数和偏差参数，

；

在公式（5）中，

为子空间

中的文本嵌入向量，

是子空间

的权重矩阵，

是基于全局注意力机制的权重参数，

是基于全局注意力机制的偏差参数；

然后采用基于全局注意力机制融合其他子空间作为上下文信息，记为

；

最后融合子空间

中的文本嵌入向量

和上下文信息

为嵌入结果

：

(6)

(7)

(8)

在公式（6）中，

表示对于子空间

作为上下文融合到子空间

中的权重，

和

分别表示子空间

和

中的文本嵌入向量；

在公式（7）中，

表示除子空间

外的全部子空间嵌入的加权和；

是子空间

中的文本嵌入向量；

在公式（8）中，

是融合上下文信息后的子空间

的嵌入结果；

4）最终子空间语义差异评分函数

如下：

(9)

在公式（9）中，

表示论文的文本；

为向量欧氏距离；

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量；

对于论文

，采用期望方式计算嵌入向量：

(10)

在公式（10）中，

为指示函数，计算方式为子空间

中全部句子的子空间嵌入平均值；对于论文

，

的求取原理与公式（10）相同。

根据本发明优选的，一种基于子空间嵌入的学术论文差异性分析方法，还包括：

将基于学科分类标记的论文差异评分、基于参考文献的论文差异评分和基于关键词的论文差异评分中的一种或多种组合，以形成融合多规则的论文差异分析方法：

引入学术界度量论文间差异性的基本共识作为专家规则，设计评价函数量化论文差异，评价指标包括基于摘要的论文差异评分函数

、基于学科分类标记的论文差异评分

、基于参考文献的论文差异评分

、基于关键词的论文差异评分

，其中

分别表示论文文本、分类、参考文献、关键词；基于专家规则的评分函数中，

评价论文

和

在不同子空间

的差异，

为两篇论文整体差异指标，在每个子空间均适用；

所述基于学科分类标记的论文差异评分，包括：学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统，如计算机领域的ACM计算学科分类系统^[1]（ACMComputing Classification System，简称ACM CCS），期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式，树上各层节点表示不同抽象程度的研究领域，根节点为最大的研究领域或学科；最底层的叶节点表示最具体、最细粒度的研究领域，叶节点也作为论文标记节点，给定两篇文章

和

，以及其在层次化分类系统中对应的标记，用

和

分别表示从根节点到论文标记节点之间的路径，定义两篇文章的学科分类的标记的差异函数

:

(11)

在公式（11）中，

表示当前节点

在学术论文分类系统的层次，所述分类系统是指学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统；

表示该层次节点的权重；

所述基于参考文献的论文差异评分，包括：论文差异和论文参考文献的重合程度密切相关，定义两篇文章

和

的差异评分函数

为引用文献集合

和

的杰卡德系数的倒数：

(12)

所述基于关键词的论文差异评分，包括：关键词是作者选择的论文核心内容标记，依据两篇论文的关键词语义标记论文差异性，记论文

的关键词集合为

，评分函数

定义为

和

所有关键词的词向量欧式距离的期望,其中

是论文

关键词

的预训练词嵌入向量，

是论文

关键词

的预训练词嵌入向量，

表示两个向量之间的欧氏距离：

(13)

然后，采样标记后的论文样本，迭代训练孪生网络，随机采样

和

表示三篇论文,

为的参考样本，依据多规则标注样本结果进行比较，如果两者差距大于一定门限，则选择大者作为正样本对，小的作为负样本对，否则丢弃；在每一个子空间的融合函数值

和

计算如下，其中

为随训练一起学习的权重参数：

(14)

本文采用专家规则指导的论文差异性标记样本对训练论文表示向量，具有如下三个优点：首先，与强逻辑规则不同，判断论文之间差异性的专家规则是概率性的判断标准，即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大，这种规则能够选择到大量训练数据，避免了样本标记时的少量数据带来的过拟合问题。第二，采用多规则联合标记论文论文差异性，有助于模型充分利用蕴含专家知识的评价指标，提高数据标记合理性，使论文子空间嵌入模型学习多种体现差异性的特征；也便于后续规则的扩充。第三，相对于传统的监督学习模型，这种方法在考虑不同规则的同时，消除不同打分尺度的影响和学科差异，增加了模型鲁棒性；

依据专家规则标记结果，在子空间

上

之间的差异性大于

，即

为正样本对，

为负样本对，

；

用

和

表示三篇论文,

和

差异

大于

和

差异

的可能性与评价函数

取值成正相关关系：

(15)

在公式（15）中，

表示概率分布函数；在论文

和

之间，

表示任意一种评价函数在每个子空间的评分，在论文

和

之间，

表示任意一种评价函数在每个子空间的评分；

其中，

为论文

和

在子空间

的差异性评分：

(16)

其中，

为论文

和

在子空间

的差异性评分：

(17)

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量。

根据本发明优选的，一种基于子空间嵌入的学术论文差异性分析方法，还包括，基于孪生网络的子空间嵌入学习方法：

提出了基于孪生神经网络的对比损失模型，以论文子空间

的嵌入向量

和

作为网络输入，对于任意样本

之间的差异性关系，如果存在

，则孪生网络的损失函数为：

(18)

将损失函数

转换为合页损失函数的形式，添加正则项后为：

(19)

在公式（19）中，

为合页损失函数中的偏差参数；

是正则化项的系数；

为正则化项，计算方式为

范数。

相较于将评分函数结果直接聚合的方式，本发明对比学习方法能够更好地消除不同创新形式和学科特点带来的引用量等数值偏差影响，在融入专家知识的同时消除不同规则打分尺度带来的影响，而且支持增量式规则标注，从而在处理文本和规则多样性方面更具鲁棒性。

根据本发明优选的，所述论文中某一特定部分为摘要文本。摘要文本通常按照一定顺序描述问题背景、学术贡献、实验结果等不同子空间的核心要素。

本发明的优势在于：

1、本发明针对论文内容差异分析目标，提出了基于子空间嵌入的学术论文差异性分析方法。学术论文中的创新体现在不同层面，如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等；不同领域的创新特点差异巨大。本发明引入子空间概念描述论文不同层面的学术创新，提出基于预训练模型的论文子空间语义嵌入方法，将摘要文本建模成不同子空间的语义向量，相较于传统的基于文本向量的差异性分析方法，子空间嵌入能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇论文内容差异的规则，提出基于对比学习的规则嵌入模型，采用孪生神经网络和对比损失函数进行多规则联合嵌入学习，以分析论文内容差异。相比其他文本嵌入方法和论文质量预测方法，本文方法与实际引用量的相关性更大。

2、本发明采用融合多种分析方法的优点包括，专家规则可依据学科差异调整，比如考虑更多面向无标记数据的学术创新专家规则，这种方法有助于剔除非正常引用关系对引用量的影响，从而更客观地建模论文内容的创新性。二是专业知识或专家规则的表示方式可依据规则类型调整，如基于论文文本自动抽取知识点，进而分析学术知识差异，解决当前学术论文创新性评价方法的局限性，降低同行评议的人工代价。

3、本发明论文差异性知识还可以应用到个性化的学术推荐中，帮助科研人员更好地选择创新性成果，把握发展趋势。现有的论文推荐工作主要依据科研人员的历史发表、论文引用、论文浏览历史等数据中抽取用户兴趣，分析与推荐论文的内容相关性，缺少分析内容互补性或启发性。而现实中，科研人员经常关注内容相关但技术有差异的论文，如解决相同问题的不同理论和方法，或在特定数据集上的新发现等，因此，将融合内容相关性和差异性的论文嵌入应用于论文推荐任务具有重要价值。

4、本发明采用多个真实学科数据集，验证了子空间差异性和学术论文引用量的正向关系，相比其他文本嵌入方法和论文质量预测方法，本文嵌入方法与实际引用量的相关性更大；本发明能够分析出不同学科的知识创新特点，以及高引论文子空间差异和分布规律，以可视化方式展示了不同学科的子空间嵌入特点；通过模型析构实验和方法对比，验证了本文模型的合理性。

附图说明

图1是本发明中所述融合多规则的论文子空间嵌入模型的构架图；

图2-图10分别是利用本发明所述方法对Scopus数据集中各学科不同质量论文进行分析后得到的子空间差异性示意图；

其中，图2、图3、图4，分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度；

图5、图6、图7，分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度；

图8、图9、图10，分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

本发明从分析论文内容的差异性角度，研究学术论文创新规律。论文创新性体现在不同层面，如理论问题突破、技术创新或新结果发现等，本发明引入子空间概念来描述这些层面，采用学术界标注论文差异的基本共识作为度量规则，依据论文内容、参考文献、领域分类等信息，自动标记两篇论文的差异结果，提出了基于孪生网络的对比损失模型学习论文子空间嵌入（Subspace Embedding Method，简记为SEM），该方法可用于分析论文差异性和论文质量的关系，以及不同学科的差异特点。

实施例1、

一种基于子空间嵌入的学术论文差异性分析方法，包括，依据学术创新的不同特点，对应引入子空间概念描述学术论文内容的不同层面，针对论文中摘要文本进行论文差异评分：

其中，面向文本语义编码和文本序列标记的预训练阶段的训练过程如下，

1）设论文

摘要文本包含

个句子

；在去除摘要文本中的数字、标点符号、停用词等数据预处理后，作为编码器输入序列，句子长度的限定设置为30个单词，没有达到长度的句子进行了填充操作，编码器输出的句子向量维度为768；

2）采用条件随机场方法CRF作为预训练序列标记模型，对摘要文本进行句子级别的功能子空间标记，得到句子功能标记序列

，

，其中

为子空间数量；该方法考虑了当前句子功能与上下文的关系，体现学术论文撰写时对核心要素的逻辑表达顺序，在人工标注句子功能的学术论文数据集上进行预训练，使其完成句子级别的子空间标注任务；

3）基于句向量序列

和句子功能标记序列

，对论文

的摘要文本进行子空间融合嵌入，即对相同句子功能标记的句向量进行语义融合；

(1)

(2)

(3)

(4)

(5)

在公式（1）中，

表示子空间

中第

个句子的句向量；其中

表示编码器计算出来的第

个句子的句向量；

是运算符，表示点积；

是指示函数，当第

个句子的功能标记为子空间

时，

，否则

；

在公式（2）中，

表示子空间

中全部句子的句向量序列；

在公式（3）、（4）中，其中；

分别是多层感知机神经网络的权重参数和偏差参数，

；

在公式（5）中，

为子空间

中的文本嵌入向量，

是子空间

的权重矩阵，

是基于全局注意力机制的权重参数，

是基于全局注意力机制的偏差参数；

；

最后融合子空间

中的文本嵌入向量

和上下文信息

为嵌入结果

：

(6)

(7)

(8)

在公式（6）中，

表示对于子空间

作为上下文融合到子空间

中的权重，

和

分别表示子空间

和

中的文本嵌入向量；

在公式（7）中，

表示除子空间

外的全部子空间嵌入的加权和；

是子空间

中的文本嵌入向量；

在公式（8）中，

是融合上下文信息后的子空间

的嵌入结果；

4）最终子空间语义差异评分函数

如下：

(9)

在公式（9）中，

表示论文的文本；

为向量欧氏距离；

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量；

对于论文

，采用期望方式计算嵌入向量：

(10)

在公式（10）中，

为指示函数，计算方式为子空间

中全部句子的子空间嵌入平均值；对于论文

，

的求取原理与公式（10）相同。

实施例2、

如实施例1所述一种基于子空间嵌入的学术论文差异性分析方法，还包括：

、基于学科分类标记的论文差异评分

、基于参考文献的论文差异评分

、基于关键词的论文差异评分

，其中

评价论文

和

在不同子空间

的差异，

为两篇论文整体差异指标，在每个子空间均适用；

所述基于学科分类标记的论文差异评分，包括：学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统，如计算机领域的ACM计算学科分类系统^[2]（ACMComputing Classification System，简称ACM CCS），期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式，树上各层节点表示不同抽象程度的研究领域，根节点为最大的研究领域或学科；最底层的叶节点表示最具体、最细粒度的研究领域，叶节点也作为论文标记节点，给定两篇文章

和

，以及其在层次化分类系统中对应的标记，用

和

:

(11)

在公式（11）中，

表示当前节点

表示该层次节点的权重；

和

的差异评分函数

为引用文献集合

和

的杰卡德系数的倒数：

(12)

的关键词集合为

，评分函数

定义为

和

所有关键词的词向量欧式距离的期望,其中

是论文

关键词

的预训练词嵌入向量，

是论文

关键词

的预训练词嵌入向量，

表示两个向量之间的欧氏距离：

(13)

和

表示三篇论文,

为的参考样本，依据多规则标注样本结果进行比较，如果两者差距大于一定门限，则选择大者作为正样本对，小的作为负样本对，否则丢弃。在每一个子空间的融合函数值

和

计算如下，其中

为随训练一起学习的权重参数：

(14)

本文采用专家规则指导的论文差异性标记样本对训练论文表示向量，具有如下三个优点：首先，与强逻辑规则不同，判断论文之间差异性的专家规则是概率性的判断标准，即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大，这种规则能够选择到大量训练数据，避免了样本标记时的少量数据带来的过拟合问题。第二，采用多规则联合标记论文论文差异性，有助于模型充分利用蕴含专家知识的评价指标，提高数据标记合理性，使论文子空间嵌入模型学习多种体现差异性的特征；也便于后续规则的扩充。第三，相对于传统的监督学习模型，这种方法在考虑不同规则的同时，消除不同打分尺度的影响和学科差异，增加了模型鲁棒性。

依据专家规则标记结果，在子空间

上

之间的差异性大于

，即

为正样本对，

为负样本对，

。

和

差异

大于

和

差异

的可能性与评价函数

取值成正相关关系：

(15)

在公式（15）中，

表示概率分布函数；在论文

和

之间，

表示任意一种评价函数在每个子空间的评分，在论文

和

之间，

表示任意一种评价函数在每个子空间的评分；

其中，

为论文

和

在子空间

的差异性评分：

(16)

其中，

为论文

和

在子空间

的差异性评分：

(17)

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量；

为论文

子空间

的嵌入向量。

优选的，一种基于子空间嵌入的学术论文差异性分析方法，还包括，基于孪生网络的子空间嵌入学习方法：

提出了基于孪生神经网络的对比损失模型，以论文子空间

的嵌入向量

和

作为网络输入，对于任意样本

之间的差异性关系，如果存在

，则孪生网络的损失函数为：

(18)

将损失函数

转换为合页损失函数的形式，添加正则项后为：

(19)

在公式（19）中，

为合页损失函数中的偏差参数；

是正则化项的系数；

为正则化项，计算方式为

范数。

针对新论文的差异性分析问题，可以形式化为：给定目标论文

和对比论文集合

，依据

与

中论文在子空间

上差异

排序，记为序列

。现实应用中，论文集合可以选择特定领域往年发表论文，或是个体研究人员阅读文档或历史引用文档，目标论文

选择会议或期刊的最新论文，通过量化分析文本差异性，联合其他用户兴趣和创新性指标如作者声誉进行论文推荐。

应用例1、

结合实施例1、2，本应用例验证采用子空间语义差异评分函数进行论文差异性分析，和采用多种评分函数进行融合的论文差异性分析之间效果的差异。采用

分别表示专家规则中的分类标记、参考文献、关键词、摘要文本差异性，验证本文模型依据不同专家规则进行训练，在论文质量预测任务上的表现。SEM表示本应用例方法同时考虑四种专家规则。

表示本应用例仅考虑其中一项专家规则，比如

表示本应用例只考虑两篇论文关键词语义差异性进行样本标注的方法。

表示本应用例考虑除该规则外的其他三项专家规则，比如

表示只考虑分类标记、参考文献或关键词的标记方法。

为了使对比结果更准确，选择最能体现各学科差异性与引用量相关性的子空间进行实验，比如观察计算机科学、社会科学论文在方法子空间上的结果，观察药学论文在结果子空间上的表现。实验结果如表1所示。

表1 论文子空间差异性与引用量关系析构分析

实验结果显示：

当单独考虑一种专家规则时，具有子空间特征的摘要文本规则是最有效的；当考虑三项专家规则时，排除摘要文本规则的效果最差。联合考虑三项专家规则的模型表现优于单独考虑其中任一规则。联合考虑四种专家规则的效果最优。

因此，本应用例基于规则嵌入差异性分析模型在建模论文差异性时，考虑多种专家规则对于预测论文质量具有正向影响，带来更好性能。

应用例2、

结合实施例1、2，将本发明应用到场景2，具体如下：

其中，数据集包含多学科论文，爬取自Scopus，所述Scopus是全球最大的文献和引文数据库，涵盖了27个学科领域。本应用例爬取的数据集包含40万篇药学、社会科学、计算机科学等学科的论文，平均每篇论文的摘要文本包含5.92个句子。元数据包括论文标题、摘要、引用和学科标记等信息。

论文引用量是衡量其研究工作被学术界认可的重要指标，与论文质量和论文内容的影响力高度相关，本应用案例将分析基于子空间嵌入的论文差异度量与引用量之间的关系。考虑到不同学科特点和创新内容的专业性，论文引用量不能完全反映论文学术内容的重要程度。例如，对比理论物理和计算领域，其研究群体数量相差甚大，不同学科的创新形式和关注度也差异很大，在理论物理方面有突破的论文引用量可能较之计算学科的应用创新论文却不显著。因此采用论文差异值排序和引用量排序的方式进行比较，而不是绝对的数值残差进行对比；并选择了计算机科学、药学、社会科学三个领域，分析各学科不同引用量的论文在子空间上的差异性和论文质量之间的关系。

选取了Scopus 数据集中2013年发表的三个学科领域各200 篇论文做分析对象A，统计这些论文到 2017 年为止被引次数，作为论文质量评估依据。选择上述领域2013 年以前发表的论文作为历史对比论文集合B。采用聚类方法划分紧密相关论文，以及采用局部异常因子（Local Outlier Factor，LOF）作为评价指标度量类内论文的差异程度。现有许多聚类方法，本应用例选择高斯混合聚类方法，分别进行空间独立的聚类。该方法能拟合出任意形状的数据分布，相对其他聚类方法更具鲁棒性，聚类个数的设置依据贝叶斯信息准则。具体方法是将分析对象A和历史对比论文集合B中论文的子空间嵌入，采用聚类方法选择紧密相关论文。在聚类结果基础上，利用局部异常因子值LOF分析A中对象与所在聚类簇中其他论文相比呈现出的差异程度。

讨论高引论文子空间差异和分布规律，并分析不同学科的知识创新特点，以可视化方式展示了不同学科子空间嵌入分布。选择了计算机、药学和社会科学三个领域，每个领域80篇不同引用量的论文进行分析，采用归一化的 LOF 值作为评价差异性的指标分析差异性和论文引用量之间的关联关系。

结果如图2-图4示，横轴为论文引用量，纵轴表示均一化 LOF 值。图中每个节点代表一篇论文在某个子空间中体现的差异性。整体上，各学科在三个子空间中论文的差异性和引用量呈现正相关关系，差异性更高的论文获得高引用量的概率更大，优质论文在所有子空间中普遍表具有创新性。

其次，从回归线的斜率可以看出不同学科倾向于关注哪些创新层面。以计算机学科为例，如图2、图3、图4，分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度，结果看出方法和结果子空间上的相关程度大于背景子空间。这说明在计算机科学领域中，创新性的方法和结果更容易受到关注和认可。类似地，通过回归线趋势可以看出药学研究更注重具有创新性的研究结果、社会科学中开创性的研究方法更受到关注。

然后，具体分析了代表性论文，选择不同领域的高引论文，用菱形节点进行标记：

如选择计算科学领域论文《Wide & Deep Learning for Recommender Systems》，其在三个子空间中的差异性均高于相似引用量其他论文的差异性回归值，如图2、图3、图4所示，即该文在三个子空间上均呈现出创新。

药学中分析里程碑式论文《Nutrition-sensitive interventions andprogrammes: how can they help to accelerate progress in improving maternaland child nutrition》，如图5、图6、图7所示，分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度，该里程碑式工作在结果子空间中呈现相对较高的差异性，其原因研究方法通常是基于常规的统计分析，其价值更多体现在研究结论方面。

如图8、图9、图10分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度，分析其中的高引论文《The Righteous Mind: Why Good People AreDivided by Politics and Religion》，发现这篇论文基于社会现象追溯根本原因，相对于大众普遍认可的结论来说，研究背景和方法更具创新性。

应用例3、

结合实施例1、2，将本发明应用到场景3，具体如下：

ACM数据集包含200万篇学术论文，平均每篇论文的摘要文本包含6.34个句子。元数据包括论文标题、摘要、引用和学科标记等信息。

为了验证本发明中的嵌入方法能够在细粒度研究领域上进行创新发现，对相同学科中高引、低引论文在子空间上的语义差异进行分析：

利用ACM数据集，针对ACM CCS分类下不同领域的发表物，取2015年发表至今获得引用高于300的200篇论文作为高引论文、低于5的200篇论文作为低引论文，各领域2015年以前的发表物作为对比集合。基于上述论文在各子空间中的表示向量，利用高斯混合聚类方法对论文进行聚类标记，计算高、低引论文的局部异常因子值（LOF值，%），结果如表2所示。

表2 ArnetMiner数据集中计算机学科不同方向论文的子空间差异性

可以看出，高引论文在各子空间中体现出的差异性普遍高于低引论文，这与“高引的好论文更可能是具有高创新度的工作”这一普遍认知是一致的。