CN114003726A - 一种基于子空间嵌入的学术论文差异性分析方法 - Google Patents
一种基于子空间嵌入的学术论文差异性分析方法 Download PDFInfo
- Publication number
- CN114003726A CN114003726A CN202111651286.6A CN202111651286A CN114003726A CN 114003726 A CN114003726 A CN 114003726A CN 202111651286 A CN202111651286 A CN 202111651286A CN 114003726 A CN114003726 A CN 114003726A
- Authority
- CN
- China
- Prior art keywords
- subspace
- paper
- difference
- embedding
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的技术领域。本发明针对论文差异性分析目标,提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法。本发明将摘要等重点关注文本建模成不同子空间语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络与对比损失函数进行多规则联合嵌入学习,以分析论文差异性。
Description
技术领域
本发明公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的技术领域。
背景技术
文本差异性分析任务是指面向特定目标,对输入的目标文本和对照文本集合进行加工处理,自动标记目标文本相对于对照集合呈现出内容或语义差异的段落以及差异大小,在许多场景中都有广泛的应用,比如文本查重、重构编辑过程、挖掘软件历史版本中的语义变化等等。在学术论文差异性分析任务是指面向新发表论文的潜在影响力预测问题,对论文文本以及其他元数据进行加工处理,自动标注。其中,文本内容是论文摘要,目标文本和对照文本为同一研究领域的论文,在许多具体任务中都有重要的应用价值。例如针对学术期刊最新一期发表的论文,通过一个论文质量量化模型对其进行评价,而评价模型的训练一般需要大量已标注评分的论文集合,或具备被引用关系、作者特征等大量数据支撑,在实际场景中已标注得分的论文往往较少,而新发表论文缺少被引数据,难以完成评价模型的训练。通过论文差异性分析方法可以将该期刊往期发表的论文作为对照文本,依据学术界评价论文质量的基本共识作为度量目标论文与对照集合之间差异性的规则,自动标记目标论文的语义差异,相较于传统的论文质量量化方法,论文差异性分析更能够体现学术创新的不同特点。
论文是科研成果的一种呈现形式,也是科研人员获取前沿进展的主要参考,不同领域每年发表的学术论文数量巨大,如何从中筛选出高质量论文具有重要应用价值,其中创新性和潜在影响力是学术推荐任务考虑的重要因素,但因论文内容涉及专业知识,也是困难问题。现有评价论文质量的方法主要依据论文引用量和引用关系,不适用于缺少引用数据的新发表论文;也有研究论文差异性量化指标体系的工作,通过标注学术论文中的创新点、新知识、或重要贡献等数据,采用监督学习推断单篇论文的量化形式的创新指标,这种融入专家知识的评价方法能够较好地反映学术创新。但是不同学科领域具有不同创新特点,创新内容也是动态变化,上述方法难以建模这种学科差异和创新变化。
发明内容
针对现有技术的问题,本发明公开了一种基于子空间嵌入的学术论文差异性分析方法。
技术术语解释
专业领域:是指科学研究特定的领域,如粗粒度的计算机科学、生命科学专业领域,或细粒度的机器学习专业领域等等。
差异性:是指待分析的目标学术论文与对照集合相比,在文本上的差别位置、差异程度。
子空间:是指用于描述论文学术创新不同层面的语义嵌入空间。
专家规则:是指学术界度量两篇论文差异性的基本共识。
发明概述:
学术创新体现在不同层面,如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等;不同领域的创新特点差异巨大。现实中很难对创新进行形式定义和明确度量,引用量也包含了主题流行度和专业热度,只能部分地反映论文影响力。为此,本发明提出了一种基于子空间嵌入的学术论文差异性分析方法,研究论文差异性和创新性的关系,借助专家共识指导论文学术信息差异性分析,结合内容相关性评价论文创新性,为新论文的评价问题提供参考。
本发明公开一种基于子空间嵌入的学术论文差异性分析方法,针对论文差异性分析目标,提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法。
本发明将摘要等重点关注文本建模成不同子空间语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络与对比损失函数进行多规则联合嵌入学习,以分析论文差异性。
将本发明所述分析方法在真实数据集上进行了实验,结果显示子空间差异性和论文引用量的正相关关系,相比其他文本嵌入方法和论文质量预测方法,本文方法与实际引用量的相关性更大。论文差异性分析结果能够反映不同学科的创新特点,以及高引论文的子空间差异分布规律。
本发明的技术方案如下:
一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,依据学术创新的不同特点,对应引入子空间概念描述学术论文内容的不同层面,针对论文中某一特定部分文本进行论文差异评分:
对于两篇文章,可能存在一个子空间相关性大、另一个子空间差异大的情况,例如研究相同问题的两种不同方法,或是类似技术方案解决不同问题等等,为了有助于更细致地分析论文差异情况,联合多种专家规则在不同子空间进行独立嵌入学习,采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
根据本发明优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括:
将基于学科分类标记的论文差异评分、基于参考文献的论文差异评分和基于关键词的论文差异评分中的一种或多种组合,以形成融合多规则的论文差异分析方法:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数、基于学科分类标记的论文差异评分、基于参考文献的论文差异评分、基于关键词的论文差异评分,其中分别表示论文文本、分类、参考文献、关键词;基于专家规则的评分函数中,评价论文和在不同子空间的差异,为两篇论文整体差异指标,在每个子空间均适用;
所述基于学科分类标记的论文差异评分,包括:学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统,如计算机领域的ACM计算学科分类系统[1](ACMComputing Classification System,简称ACM CCS),期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式,树上各层节点表示不同抽象程度的研究领域,根节点为最大的研究领域或学科;最底层的叶节点表示最具体、最细粒度的研究领域,叶节点也作为论文标记节点,给定两篇文章和,以及其在层次化分类系统中对应的标记,用和分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数:
所述基于关键词的论文差异评分,包括:关键词是作者选择的论文核心内容标记,依据两篇论文的关键词语义标记论文差异性,记论文的关键词集合为,评分函数定义为和所有关键词的词向量欧式距离的期望,其中是论文关键词的预训练词嵌入向量,是论文关键词的预训练词嵌入向量,表示两个向量之间的欧氏距离:
然后,采样标记后的论文样本,迭代训练孪生网络,随机采样和表示三篇论文,为的参考样本,依据多规则标注样本结果进行比较,如果两者差距大于一定门限,则选择大者作为正样本对,小的作为负样本对,否则丢弃;在每一个子空间的融合函数值和计算如下,其中为随训练一起学习的权重参数:
本文采用专家规则指导的论文差异性标记样本对训练论文表示向量,具有如下三个优点:首先,与强逻辑规则不同,判断论文之间差异性的专家规则是概率性的判断标准,即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大,这种规则能够选择到大量训练数据,避免了样本标记时的少量数据带来的过拟合问题。第二,采用多规则联合标记论文论文差异性,有助于模型充分利用蕴含专家知识的评价指标,提高数据标记合理性,使论文子空间嵌入模型学习多种体现差异性的特征;也便于后续规则的扩充。第三,相对于传统的监督学习模型,这种方法在考虑不同规则的同时,消除不同打分尺度的影响和学科差异,增加了模型鲁棒性;
根据本发明优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
相较于将评分函数结果直接聚合的方式,本发明对比学习方法能够更好地消除不同创新形式和学科特点带来的引用量等数值偏差影响,在融入专家知识的同时消除不同规则打分尺度带来的影响,而且支持增量式规则标注,从而在处理文本和规则多样性方面更具鲁棒性。
根据本发明优选的,所述论文中某一特定部分为摘要文本。摘要文本通常按照一定顺序描述问题背景、学术贡献、实验结果等不同子空间的核心要素。
本发明的优势在于:
1、本发明针对论文内容差异分析目标,提出了基于子空间嵌入的学术论文差异性分析方法。学术论文中的创新体现在不同层面,如相同问题上的理论创新、相同背景下的技术创新、实验创新发现等;不同领域的创新特点差异巨大。本发明引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法,将摘要文本建模成不同子空间的语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇论文内容差异的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络和对比损失函数进行多规则联合嵌入学习,以分析论文内容差异。相比其他文本嵌入方法和论文质量预测方法,本文方法与实际引用量的相关性更大。
2、本发明采用融合多种分析方法的优点包括,专家规则可依据学科差异调整,比如考虑更多面向无标记数据的学术创新专家规则,这种方法有助于剔除非正常引用关系对引用量的影响,从而更客观地建模论文内容的创新性。二是专业知识或专家规则的表示方式可依据规则类型调整,如基于论文文本自动抽取知识点,进而分析学术知识差异,解决当前学术论文创新性评价方法的局限性,降低同行评议的人工代价。
3、本发明论文差异性知识还可以应用到个性化的学术推荐中,帮助科研人员更好地选择创新性成果,把握发展趋势。现有的论文推荐工作主要依据科研人员的历史发表、论文引用、论文浏览历史等数据中抽取用户兴趣,分析与推荐论文的内容相关性,缺少分析内容互补性或启发性。而现实中,科研人员经常关注内容相关但技术有差异的论文,如解决相同问题的不同理论和方法,或在特定数据集上的新发现等,因此,将融合内容相关性和差异性的论文嵌入应用于论文推荐任务具有重要价值。
4、本发明采用多个真实学科数据集,验证了子空间差异性和学术论文引用量的正向关系,相比其他文本嵌入方法和论文质量预测方法,本文嵌入方法与实际引用量的相关性更大;本发明能够分析出不同学科的知识创新特点,以及高引论文子空间差异和分布规律,以可视化方式展示了不同学科的子空间嵌入特点;通过模型析构实验和方法对比,验证了本文模型的合理性。
附图说明
图1是本发明中所述融合多规则的论文子空间嵌入模型的构架图;
图2-图10分别是利用本发明所述方法对Scopus数据集中各学科不同质量论文进行分析后得到的子空间差异性示意图;
其中,图2、图3、图4,分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度;
图5、图6、图7,分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度;
图8、图9、图10,分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
本发明从分析论文内容的差异性角度,研究学术论文创新规律。论文创新性体现在不同层面,如理论问题突破、技术创新或新结果发现等,本发明引入子空间概念来描述这些层面,采用学术界标注论文差异的基本共识作为度量规则,依据论文内容、参考文献、领域分类等信息,自动标记两篇论文的差异结果,提出了基于孪生网络的对比损失模型学习论文子空间嵌入(Subspace Embedding Method,简记为SEM),该方法可用于分析论文差异性和论文质量的关系,以及不同学科的差异特点。
实施例1、
一种基于子空间嵌入的学术论文差异性分析方法,包括,依据学术创新的不同特点,对应引入子空间概念描述学术论文内容的不同层面,针对论文中摘要文本进行论文差异评分:
其中,面向文本语义编码和文本序列标记的预训练阶段的训练过程如下,
1)设论文摘要文本包含个句子,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列;在去除摘要文本中的数字、标点符号、停用词等数据预处理后,作为编码器输入序列,句子长度的限定设置为30个单词,没有达到长度的句子进行了填充操作,编码器输出的句子向量维度为768;
2)采用条件随机场方法CRF作为预训练序列标记模型,对摘要文本进行句子级别的功能子空间标记,得到句子功能标记序列,,其中为子空间数量;该方法考虑了当前句子功能与上下文的关系,体现学术论文撰写时对核心要素的逻辑表达顺序,在人工标注句子功能的学术论文数据集上进行预训练,使其完成句子级别的子空间标注任务;
对于两篇文章,可能存在一个子空间相关性大、另一个子空间差异大的情况,例如研究相同问题的两种不同方法,或是类似技术方案解决不同问题等等,为了有助于更细致地分析论文差异情况,联合多种专家规则在不同子空间进行独立嵌入学习,采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
实施例2、
如实施例1所述一种基于子空间嵌入的学术论文差异性分析方法,还包括:
将基于学科分类标记的论文差异评分、基于参考文献的论文差异评分和基于关键词的论文差异评分中的一种或多种组合,以形成融合多规则的论文差异分析方法:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数、基于学科分类标记的论文差异评分、基于参考文献的论文差异评分、基于关键词的论文差异评分,其中分别表示论文文本、分类、参考文献、关键词;基于专家规则的评分函数中,评价论文和在不同子空间的差异,为两篇论文整体差异指标,在每个子空间均适用;
所述基于学科分类标记的论文差异评分,包括:学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统,如计算机领域的ACM计算学科分类系统[2](ACMComputing Classification System,简称ACM CCS),期刊或会议的学术论文一般包含此类标记。将这种层次化分类系统视为分类树的形式,树上各层节点表示不同抽象程度的研究领域,根节点为最大的研究领域或学科;最底层的叶节点表示最具体、最细粒度的研究领域,叶节点也作为论文标记节点,给定两篇文章和,以及其在层次化分类系统中对应的标记,用和分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数:
所述基于关键词的论文差异评分,包括:关键词是作者选择的论文核心内容标记,依据两篇论文的关键词语义标记论文差异性,记论文的关键词集合为,评分函数定义为和所有关键词的词向量欧式距离的期望,其中是论文关键词的预训练词嵌入向量,是论文关键词的预训练词嵌入向量,表示两个向量之间的欧氏距离:
然后,采样标记后的论文样本,迭代训练孪生网络,随机采样和表示三篇论文,为的参考样本,依据多规则标注样本结果进行比较,如果两者差距大于一定门限,则选择大者作为正样本对,小的作为负样本对,否则丢弃。在每一个子空间的融合函数值和计算如下,其中为随训练一起学习的权重参数:
本文采用专家规则指导的论文差异性标记样本对训练论文表示向量,具有如下三个优点:首先,与强逻辑规则不同,判断论文之间差异性的专家规则是概率性的判断标准,即各指标的联合距离达到一定阈值时两篇论文具有差异性的概率更大,这种规则能够选择到大量训练数据,避免了样本标记时的少量数据带来的过拟合问题。第二,采用多规则联合标记论文论文差异性,有助于模型充分利用蕴含专家知识的评价指标,提高数据标记合理性,使论文子空间嵌入模型学习多种体现差异性的特征;也便于后续规则的扩充。第三,相对于传统的监督学习模型,这种方法在考虑不同规则的同时,消除不同打分尺度的影响和学科差异,增加了模型鲁棒性。
优选的,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
针对新论文的差异性分析问题,可以形式化为:给定目标论文和对比论文集合,依据与中论文在子空间上差异排序,记为序列。现实应用中,论文集合可以选择特定领域往年发表论文,或是个体研究人员阅读文档或历史引用文档,目标论文选择会议或期刊的最新论文,通过量化分析文本差异性,联合其他用户兴趣和创新性指标如作者声誉进行论文推荐。
应用例1、
结合实施例1、2,本应用例验证采用子空间语义差异评分函数进行论文差异性分析,和采用多种评分函数进行融合的论文差异性分析之间效果的差异。采用分别表示专家规则中的分类标记、参考文献、关键词、摘要文本差异性,验证本文模型依据不同专家规则进行训练,在论文质量预测任务上的表现。SEM表示本应用例方法同时考虑四种专家规则。表示本应用例仅考虑其中一项专家规则,比如表示本应用例只考虑两篇论文关键词语义差异性进行样本标注的方法。表示本应用例考虑除该规则外的其他三项专家规则,比如表示只考虑分类标记、参考文献或关键词的标记方法。
为了使对比结果更准确,选择最能体现各学科差异性与引用量相关性的子空间进行实验,比如观察计算机科学、社会科学论文在方法子空间上的结果,观察药学论文在结果子空间上的表现。实验结果如表1所示。
表1 论文子空间差异性与引用量关系析构分析
实验结果显示:
当单独考虑一种专家规则时,具有子空间特征的摘要文本规则是最有效的;当考虑三项专家规则时,排除摘要文本规则的效果最差。联合考虑三项专家规则的模型表现优于单独考虑其中任一规则。联合考虑四种专家规则的效果最优。
因此,本应用例基于规则嵌入差异性分析模型在建模论文差异性时,考虑多种专家规则对于预测论文质量具有正向影响,带来更好性能。
应用例2、
结合实施例1、2,将本发明应用到场景2,具体如下:
其中,数据集包含多学科论文,爬取自Scopus,所述Scopus是全球最大的文献和引文数据库,涵盖了27个学科领域。本应用例爬取的数据集包含40万篇药学、社会科学、计算机科学等学科的论文,平均每篇论文的摘要文本包含5.92个句子。元数据包括论文标题、摘要、引用和学科标记等信息。
论文引用量是衡量其研究工作被学术界认可的重要指标,与论文质量和论文内容的影响力高度相关,本应用案例将分析基于子空间嵌入的论文差异度量与引用量之间的关系。考虑到不同学科特点和创新内容的专业性,论文引用量不能完全反映论文学术内容的重要程度。例如,对比理论物理和计算领域,其研究群体数量相差甚大,不同学科的创新形式和关注度也差异很大,在理论物理方面有突破的论文引用量可能较之计算学科的应用创新论文却不显著。因此采用论文差异值排序和引用量排序的方式进行比较,而不是绝对的数值残差进行对比;并选择了计算机科学、药学、社会科学三个领域,分析各学科不同引用量的论文在子空间上的差异性和论文质量之间的关系。
选取了Scopus 数据集中2013年发表的三个学科领域各200 篇论文做分析对象A,统计这些论文到 2017 年为止被引次数,作为论文质量评估依据。选择上述领域2013 年以前发表的论文作为历史对比论文集合B。采用聚类方法划分紧密相关论文,以及采用局部异常因子(Local Outlier Factor,LOF)作为评价指标度量类内论文的差异程度。现有许多聚类方法,本应用例选择高斯混合聚类方法,分别进行空间独立的聚类。该方法能拟合出任意形状的数据分布,相对其他聚类方法更具鲁棒性,聚类个数的设置依据贝叶斯信息准则。具体方法是将分析对象A和历史对比论文集合B中论文的子空间嵌入,采用聚类方法选择紧密相关论文。在聚类结果基础上,利用局部异常因子值LOF分析A中对象与所在聚类簇中其他论文相比呈现出的差异程度。
讨论高引论文子空间差异和分布规律,并分析不同学科的知识创新特点,以可视化方式展示了不同学科子空间嵌入分布。选择了计算机、药学和社会科学三个领域,每个领域80篇不同引用量的论文进行分析,采用归一化的 LOF 值作为评价差异性的指标分析差异性和论文引用量之间的关联关系。
结果如图2-图4示,横轴为论文引用量,纵轴表示均一化 LOF 值。图中每个节点代表一篇论文在某个子空间中体现的差异性。整体上,各学科在三个子空间中论文的差异性和引用量呈现正相关关系,差异性更高的论文获得高引用量的概率更大,优质论文在所有子空间中普遍表具有创新性。
其次,从回归线的斜率可以看出不同学科倾向于关注哪些创新层面。以计算机学科为例,如图2、图3、图4,分别为计算机科学论文在背景、方法和结果子空间上的差异性与引用量相关程度,结果看出方法和结果子空间上的相关程度大于背景子空间。这说明在计算机科学领域中,创新性的方法和结果更容易受到关注和认可。类似地,通过回归线趋势可以看出药学研究更注重具有创新性的研究结果、社会科学中开创性的研究方法更受到关注。
然后,具体分析了代表性论文,选择不同领域的高引论文,用菱形节点进行标记:
如选择计算科学领域论文《Wide & Deep Learning for Recommender Systems》,其在三个子空间中的差异性均高于相似引用量其他论文的差异性回归值,如图2、图3、图4所示,即该文在三个子空间上均呈现出创新。
药学中分析里程碑式论文《Nutrition-sensitive interventions andprogrammes: how can they help to accelerate progress in improving maternaland child nutrition》,如图5、图6、图7所示,分别表示药学论文在背景、方法和结果子空间上的差异性与引用量相关程度,该里程碑式工作在结果子空间中呈现相对较高的差异性,其原因研究方法通常是基于常规的统计分析,其价值更多体现在研究结论方面。
如图8、图9、图10分别表示社会科学论文在背景、方法和结果子空间上的差异性与引用量相关程度,分析其中的高引论文《The Righteous Mind: Why Good People AreDivided by Politics and Religion》,发现这篇论文基于社会现象追溯根本原因,相对于大众普遍认可的结论来说,研究背景和方法更具创新性。
应用例3、
结合实施例1、2,将本发明应用到场景3,具体如下:
ACM数据集包含200万篇学术论文,平均每篇论文的摘要文本包含6.34个句子。元数据包括论文标题、摘要、引用和学科标记等信息。
为了验证本发明中的嵌入方法能够在细粒度研究领域上进行创新发现,对相同学科中高引、低引论文在子空间上的语义差异进行分析:
利用ACM数据集,针对ACM CCS分类下不同领域的发表物,取2015年发表至今获得引用高于300的200篇论文作为高引论文、低于5的200篇论文作为低引论文,各领域2015年以前的发表物作为对比集合。基于上述论文在各子空间中的表示向量,利用高斯混合聚类方法对论文进行聚类标记,计算高、低引论文的局部异常因子值(LOF值,%),结果如表2所示。
表2 ArnetMiner数据集中计算机学科不同方向论文的子空间差异性
可以看出,高引论文在各子空间中体现出的差异性普遍高于低引论文,这与“高引的好论文更可能是具有高创新度的工作”这一普遍认知是一致的。
Claims (4)
1.一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,针对论文中某一特定部分文本进行论文差异评分:
采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
2.根据权利要求1所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,还包括:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数、基于学科分类标记的论文差异评分、基于参考文献的论文差异评分、基于关键词的论文差异评分,其中分别表示论文文本、分类、参考文献、关键词;
所述基于关键词的论文差异评分,包括:记论文的关键词集合为,评分函数定义为和所有关键词的词向量欧式距离的期望,其中是论文关键词的预训练词嵌入向量,是论文关键词的预训练词嵌入向量,表示两个向量之间的欧氏距离:
(15)
4.根据权利要求1、2或3所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,所述论文中某一特定部分为摘要文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111651286.6A CN114003726B (zh) | 2021-12-31 | 2021-12-31 | 一种基于子空间嵌入的学术论文差异性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111651286.6A CN114003726B (zh) | 2021-12-31 | 2021-12-31 | 一种基于子空间嵌入的学术论文差异性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114003726A true CN114003726A (zh) | 2022-02-01 |
CN114003726B CN114003726B (zh) | 2022-04-08 |
Family
ID=79932318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111651286.6A Active CN114003726B (zh) | 2021-12-31 | 2021-12-31 | 一种基于子空间嵌入的学术论文差异性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114003726B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628350A (zh) * | 2023-07-26 | 2023-08-22 | 山东大学 | 基于可区分主题的新论文推荐方法和系统 |
CN116682043A (zh) * | 2023-06-13 | 2023-09-01 | 西安科技大学 | 基于SimCLR无监督深度对比学习异常视频清洗方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
KR20200087977A (ko) * | 2019-01-14 | 2020-07-22 | 강원대학교산학협력단 | 멀티모달 문서 요약 시스템 및 방법 |
CN111552816A (zh) * | 2020-04-05 | 2020-08-18 | 温州大学 | 面向大数据文本挖掘的动态认知语义匹配方法 |
CN112732916A (zh) * | 2021-01-11 | 2021-04-30 | 河北工业大学 | 一种基于bert的多特征融合模糊文本分类模型 |
CN112784013A (zh) * | 2021-01-13 | 2021-05-11 | 北京理工大学 | 一种基于上下文语义的多粒度文本推荐方法 |
US20210174089A1 (en) * | 2019-12-10 | 2021-06-10 | Accenture Global Solutions Limited | Utilizing machine learning models to identify context of content for policy compliance determination |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
CN113435212A (zh) * | 2021-08-26 | 2021-09-24 | 山东大学 | 一种基于规则嵌入的文本推断方法及装置 |
CN113705238A (zh) * | 2021-06-17 | 2021-11-26 | 梧州学院 | 基于bert和方面特征定位模型的方面级情感分析方法及模型 |
-
2021
- 2021-12-31 CN CN202111651286.6A patent/CN114003726B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
KR20200087977A (ko) * | 2019-01-14 | 2020-07-22 | 강원대학교산학협력단 | 멀티모달 문서 요약 시스템 및 방법 |
US20210174089A1 (en) * | 2019-12-10 | 2021-06-10 | Accenture Global Solutions Limited | Utilizing machine learning models to identify context of content for policy compliance determination |
CN111552816A (zh) * | 2020-04-05 | 2020-08-18 | 温州大学 | 面向大数据文本挖掘的动态认知语义匹配方法 |
CN112732916A (zh) * | 2021-01-11 | 2021-04-30 | 河北工业大学 | 一种基于bert的多特征融合模糊文本分类模型 |
CN112784013A (zh) * | 2021-01-13 | 2021-05-11 | 北京理工大学 | 一种基于上下文语义的多粒度文本推荐方法 |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
CN113705238A (zh) * | 2021-06-17 | 2021-11-26 | 梧州学院 | 基于bert和方面特征定位模型的方面级情感分析方法及模型 |
CN113435212A (zh) * | 2021-08-26 | 2021-09-24 | 山东大学 | 一种基于规则嵌入的文本推断方法及装置 |
Non-Patent Citations (4)
Title |
---|
X. F. ZHOU 等: "Text documents are often high dimensional and sparse, it is a great challenge to discover the clusters among the unlabelled text data, because there are no obvious clusters by common distance measure. In this paper we present a latent subspace clustering m", 《ACM》 * |
YIFEI GUAN 等: "Understanding Lexical Feature for Chinese Essay Grading", 《SPRINGER》 * |
李培芸: "融合BERT语境词向量的译文质量估计方法研究", 《中文信息学报》 * |
田枫 等: "基于多模态子空间学习的语义标签生成方法", 《山东大学学报(工学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682043A (zh) * | 2023-06-13 | 2023-09-01 | 西安科技大学 | 基于SimCLR无监督深度对比学习异常视频清洗方法 |
CN116682043B (zh) * | 2023-06-13 | 2024-01-26 | 西安科技大学 | 基于SimCLR无监督深度对比学习异常视频清洗方法 |
CN116628350A (zh) * | 2023-07-26 | 2023-08-22 | 山东大学 | 基于可区分主题的新论文推荐方法和系统 |
CN116628350B (zh) * | 2023-07-26 | 2023-10-10 | 山东大学 | 基于可区分主题的新论文推荐方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114003726B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN114003726B (zh) | 一种基于子空间嵌入的学术论文差异性分析方法 | |
CN106250371A (zh) | 用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN112990973B (zh) | 线上店铺画像构建方法及系统 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
Dobson | Interpretable outputs: criteria for machine learning in the humanities | |
Ahmed et al. | FLAG-PDFe: Features oriented metadata extraction framework for scientific publications | |
Xu et al. | Usr-mtl: an unsupervised sentence representation learning framework with multi-task learning | |
Dewi et al. | Shapley additive explanations for text classification and sentiment analysis of internet movie database | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Cong et al. | A small sample data-driven method: User needs elicitation from online reviews in new product iteration | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
EP1910918A2 (en) | Method and system for automatically extracting data from web sites | |
Laroussi et al. | An opinion analysis method based on disambiguation to improve a recommendation system | |
Yan et al. | An interactive visual analytics system for incremental classification based on semi-supervised topic modeling | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Fosset et al. | Docent: A content-based recommendation system to discover contemporary art | |
Lubis et al. | Improving course review helpfulness Prediction through sentiment analysis | |
Yuan et al. | Big data aspect-based opinion mining using the SLDA and HME-LDA models | |
Bettouche et al. | Mapping Researcher Activity based on Publication Data by means of Transformers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |