CN111597793B

CN111597793B - 基于sao-adv结构的论文创新性的测度方法

Info

Publication number: CN111597793B
Application number: CN202010313225.8A
Authority: CN
Inventors: 侯剑华; 王东毅
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-06-16
Anticipated expiration: 2040-04-20
Also published as: CN111597793A

Abstract

本发明提供基于SAO‑ADV结构的论文创新性的测度方法，包括：构建待评价对比的论文背景库；去除论文背景库及待评价论文中引言性或介绍性的句子，对剩余文本进行分词处理并进行词性标注和句法分析，提取出论文背景库和待评价论文的SAO‑ADV结构；构建Word2Vec语义相似度模型；采用语义相似度模型计算每一个构成SAO‑ADV结构的内部短语的创新度，得到SAO‑ADV结构以及待评价论文的创新度，完成论文创新性的测度。本发明提供的基于SAO‑ADV结构的论文创新性的测度方法，采用了改进的SAO‑ADV模型完整地提取论文内容，将论文的主题词用语法结构完整串联起来，使评价结果更加全面；同时利用语义相似度模型，能够直接地评价论文内容，不用借助外界计量指标例如引文来评价，更能反映论文内容的质量。

Description

基于SAO-ADV结构的论文创新性的测度方法

技术领域

本发明涉及信息科学和计算机技术的算法技术领域，更具体的，涉及一种基于SAO-ADV结构的论文创新性的测度方法。

背景技术

论文创新性是指在相关的学术领域内，论文提出了新的理论，新的方法，新的研究对象，或者在已有研究的基础上进行了较为完善的发展。而当前，对学术论文创新度的评价方法主要包括两个方面，一方面是根据学术论文发表后收到的客观指标(引文指标、社交媒体指标等)进行分析，另一方面是对论文内容进行主观评判(如同行评议等)。

基于客观指标的评价主要是借助学术论文发表后的客观数据对其进行评价。当前，基于客观指标的评价方法主要分为两类，一种是基于传统的引文指标的评价方法，另一种是新兴的Altmetrics(替代计量学，为社交媒体平台上的数据)数据指标的评价方法。

综合来看，一方面，根据学术论文发表后的客观指标对其学术创新性进行评价存在来源数据不规范、不全面甚至不真实等客观问题，同时，引文指标所揭示的学术论文的“热度”和“价值”不能等同于学术论文的创新性。Altmetrics指标所揭示的学术论文的“热度”和“关注度”同样不能等同于学术论文的创新性，而现有的基于论文内容的评价方法则没够做到对论文的完整的主题进行评价。另一方面，同行评议方法存在的认知主观性和知识差异性也导致对学术论文创新性的评价也存在客观性不足等干扰因素。

发明内容

本发明为克服现有的论文创新度评价方法存在无法直接反映论文内容或只能评价论文的部分的创新度的技术缺陷，提供一种基于SAO-ADV结构的论文创新性的测度方法。

为解决上述技术问题，本发明的技术方案如下：

基于SAO-ADV结构的论文创新性的测度方法，包括以下步骤：

S1：根据所需评价的论文和学科/主题在数据源平台上选择该学科/主题的所有文献并进行筛选，得到待评价对比的论文背景库；

S2：去除论文背景库及待评价论文中引言性或介绍性的句子，对剩余文本进行分词处理并进行词性标注，并对句子的结果特征进行句法分析，提取出论文背景库和待评价论文的SAO-ADV结构；

S3：构建Word2Vec语义相似度模型；

S4：采用语义相似度模型计算每一个构成SAO-ADV结构的内部短语的创新度，从而得到SAO-ADV结构以及待评价论文的创新度，完成论文创新性的测度。

其中，在所述步骤S1中，筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文，得到待评价对比的论文背景库。

上述方案中，论文的创新度也是指论文在该背景库中的相似度，相似度越大，创新度越低。

其中，在所述步骤S2中，使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。

其中，所述步骤S3具体为根据待评价论文选择合适的语料库，对预料进行分词处理，使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练，完成Word2Vec语义相似度模型的构建。

其中，在所述步骤S4中，待评价论文由多个SAO-ADV结构表示主题内容，待评价论文的创新度为所有SAO-ADV结构创新度的平均数，而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度；计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对，用1减去两个结构之间的最大相似度作为该结构的创新度。

其中，在所述步骤S4中，两个结构之间的最大相似度计算过程具体为：依次比较各个对应部分的词组的相似度，通过Word2Vec语义相似度模型计算词组内单词的相似度，其平均数即为词组的相似度，计算所有词组的相似度平均数得到结构的相似度，从而得到待评价论文在论文背景库中的相似度，即得到待评价论文的创新度。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的基于SAO-ADV结构的论文创新性的测度方法，采用了改进的SAO-ADV模型完整地提取论文内容，将论文的主题词用语法结构完整串联起来，使评价结果更加全面；同时利用语义相似度模型，能够直接地评价论文内容，不用借助外界计量指标例如引文来评价，更能反映论文内容的质量；其次，本方法在论文诞生时就可以进行评价，不需要时间等待，不具有传统计量指标的时滞性，更加有效率。

附图说明

图1为本发明所述方法流程示意图；

图2为实施例2中论文摘要文本的语法依存树以及SAO-ADV结构；

图3为实施例2中论文SAO-ADV结构提取结果示意图；

图4为实施例2中Scientometrics期刊2019年论文创新度值分布柱状图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，基于SAO-ADV结构的论文创新性的测度方法，包括以下步骤：

S3：构建Word2Vec语义相似度模型；

更具体的，在所述步骤S1中，筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文，得到待评价对比的论文背景库。

在具体实施过程中，论文的创新度也是指论文在该背景库中的相似度，相似度越大，创新度越低。

更具体的，在所述步骤S2中，使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。

在具体实施过程中，传统的SAO结构即Subject-Action-Object(主谓宾)结构，Martin G.Moehrle认为SAO结构代表了一种“问题-方法”的关系，AO陈述了问题，而S则代表了解决方法。但是在实际的应用中，基础的SAO结构无法完整的表示“问题-方法”关系。例如“我做公交车回家”这句话，如果使用传统的SAO结构则只能提取出{S-“我”，A-“回”，O-“家”}三元结构，而忽略了同样包含重要信息的状语(ADV)——坐公交车。本文认为构成问题的并不只有AO(谓语和宾语)，每一个部分都是答案，而其余部分则都可以构成问题。以上面那句话为例，谁回家，如何回家，去了哪里，乘坐了什么交通工具，SAO-ADV中的每一个元素的缺失都会产生一个问题，缺失的该元素则会转化为答案。改进的SAO-ADV结构模型在实际的自然语言分析处理中更能完整地表达句子的意思，尤其对于科学文献而言，ADV(状语)部分更多时候描述的是应用领域，研究方法等内容。传统的SAO结构模型导致这部分信息的不连贯甚至缺失，不能够对科学论文中提及的研究方法以及主题思路完整表述。

本文使用自然语言处理软件包NLTK的Grammar句法分析器提取SAO-ADV结构，Grammar句法分析器是基于词性标注以及人工设计的文法提取句子中的元素。以“这个好奇的学术正在用望远镜看星星”为例，首先对其进行词性标注，为了避免词性对后续测度的干扰，同时对单词进行还原处理，结果如表1所示：

表1词性标注及单词还原

表中，DT代表限定词，JJ代表形容词，NN代表名词，VBZ动词代表第三人称单数，VBG代表动名词和现在分词，NNS代表名词复数，IN代表介词或从属连词。对此，设计文法提取出{Subject-“好奇的学生”，Action-“正在看”，Object-“星星”，ADV-“用望远镜”}。在获得到原始的SAO-ADV模型后，需要对其每部分短语进行处理，去除停用词，还原词汇(例如英语中的复数还原为单数形式)，处理过后的SAO-ADV结构为{Subject-“好奇学生”，Action-“看”，Object-“星星”，ADV-“望远镜”}。根据SAO-ADV结构提取算法对背景库和待评价论文进行提取。

更具体的，所述步骤S3具体为根据待评价论文选择合适的语料库，对预料进行分词处理，使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练，完成Word2Vec语义相似度模型的构建。

在具体实施过程中，采用谷歌公司提出的Word2vec语义相似度模型。与传统的算法相比，Word2vec的词向量较低，模型训练时所需要的计算量降低，耗时较少。根据给定的语料库，Word2vec词向量充分包含了词汇所在的上下文语义，通过上下文的语义信息计算词汇之间的相似度。实施过程中首先需要选择合适的语料，可以按照所要评价论文的主题学科来选择不同学科的论文集作为训练语料，首对选择的语料进行分词处理，然后使用Python的扩展包Gensim的训练函数对切分的词训练得到Word2vec语义相似度模型。

更具体的，在所述步骤S4中，待评价论文由多个SAO-ADV结构表示主题内容，待评价论文的创新度为所有SAO-ADV结构创新度的平均数，而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度；计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对，用1减去两个结构之间的最大相似度作为该结构的创新度。

更具体的，在所述步骤S4中，两个结构之间的最大相似度计算过程具体为：依次比较各个对应部分的词组的相似度，通过Word2Vec语义相似度模型计算词组内单词的相似度，其平均数即为词组的相似度，计算所有词组的相似度平均数得到结构的相似度，从而得到待评价论文在论文背景库中的相似度，即得到待评价论文的创新度。

计算过程具体如下：

在得到的语义相似度模型以及每篇学术论文摘要的SAO-ADV结构后，依次分解出论文(A)的SAO-ADV结构(S)中各个部分的短语(P)，利用分词软件对每个部分(P)进行分词处理同时去除停用词，获得每个部分(P)的实意词组({w_k1,w_k2……})，词组中的单词(w)与其他待比较论文(O{OA₁,OA₂……})的SAO-ADV结构中的单词(w_o)的之间的语义相似度Sim(w,w_{_}o)由训练的语义相似度模型计算得出。短语P的创新度(Innovation)如公式(1)所示：

其中，w_o_i为其他论文文本集O中的SAO-ADV结构中的单词，max(Sim(w_i,w_o_i))为短语P与其他论文SAO-ADV结构中的短语的相似度最高的单词对的相似度，num为短语内词汇数量，min()为与短语P计算得到的创新度中最低的那个值。该公式将一个短语作为一个整体，该短语的单词作为部分，短语与短语之间进行相似度计算，两个短语之间的对应单词的相似度的平均数即为短语与短语之间的相似度。

整个SAO-ADV结构S的创新度则如公式(2)所示：

其中，num为S的短语数量。该公式将构成SAO-ADV结构的短语的创新度的平均数作为结构的创新度。

整篇学术论文A的创新度如公式(3)所示：

其中，num为学术论文A中SAO-ADV结构的数量。整篇论文的创新度则为论文的SAO-ADV结构的创新度的平均数。

在具体实施过程中，本发明提供的基于SAO-ADV结构的论文创新性的测度方法，采用了改进的SAO-ADV模型完整地提取论文内容，将论文的主题词用语法结构完整串联起来，使评价结果更加全面；同时利用语义相似度模型，能够直接地评价论文内容，不用借助外界计量指标例如引文来评价，更能反映论文内容的质量；其次，本方法在论文诞生时就可以进行评价，不需要时间等待，不具有传统计量指标的时滞性，更加有效率。

实施例2

更具体的，为验证本研究提出的基于学术论文内容分析的创新性测度模型的有效性，选取科学计量学领域唯一以专业名称命名的Scientometrics期刊进行分析。该刊自1978年创刊以来，发表学术论文的质量和水平不断提升，当前已经成为国际科学计量学界的最新学术成果的重要交流阵地，发表的学术论文的创新性不断得到科学计量学界同行的广泛评议。

数据获取与处理：在Web of Science数据库平台，以检索式为“SO＝“Scientometrics”AND PY＝2019”进行检索，共得到文献223篇(截止至2019年9月3日)，去除文献类型为“Letter”19篇，“Correction”4篇，同时考虑到摘要较短对评价的不利影响，去除摘要少于3句的3篇文献，得到有效文献197篇。提取这些文献的摘要作为本研究的目标文献的文本集。

语义相似度模型训练：为了避免词汇不在模型中以及训练文本过少导致结果不够准确的问题，本文选择了最大的英文语料库——维基百科语料库作为训练语料。使用NLTK的分词系统对文本进行分词处理，然后基于Python的开源包Gensim的训练函数对该语料库进行训练。

SAO-ADV结构提取：首先使用NLTK以及斯坦福大学开发的StanfordNLP对每篇学术论文的摘要进行分词处理以及词性标注，然后根据词性标注出的特征以及语法依存树特征设计文法提取每篇学术论文摘要的SAO-ADV四元组结构，语法依存树以及待提取的SAO-ADV如图2所示。要注意的是，并不是所有的句子都有严格的SAO-ADV四元结构，在能够表达句子完整语义的基础上，允许存在多元结构或者三元结构乃至两元结构。

在具体实施过程中，从197篇论文中抽取SAO-ADV结构1994个,通过人工标注的方式对抽取的SAO-ADV结构进行检查，其准确率约为83.3％，召回率为87.5％，基本保证了后续测度计算中SAO-ADV结构的准确和完整。

在具体实施过程中，如图3所示，对得到的SAO-ADV结构进行词汇还原以及停用词去除，得到信息密度更高的结构模型。之后使用公式(1)，(2)，(3)对SAO-ADV结构以及学术论文摘要内容的创新性进行测度，图3中，每篇论文都有超过5个以上的SAO-ADV结构，为后续的测度结果的可靠性提供了数据量上的保证。

创新度排序结果：197篇论文按照计算得出的创新度高低进行排序，由于篇幅问题，接下来对学术论文创新度的整体分布情况以及排名靠前的学术论文和特殊类型文献进行分析：

⑴创新度众数分析

如图4所示，对Scientometreics期刊2019年的论文的创新度值进行保留一位小数处理，处理后的创新度值的分布基本符合正态分布，其中0.4左右的论文占比最多，挑选出这个范围内的十篇论文如表2所示，从题名上可以大概看出在这个区间的论文的研究大多是在研究对象上的创新，如“A bibliometric visualization of the economics andsociology of wealth inequality:a world apart？”是利用传统的计量可视化手段分析了社会不平等的现象，“Complex network analysis of keywords co-occurrence in therecent efficiency analysis literature”则是将复杂网络分析的技术应用到了“efficiency analysis literature”，“Exploring the influence of scientificjournal ranking on publication performance in the Hungarian social sciences:the case of law and economics”研究的是将期刊排名的影响应用到匈牙利的社会科学出版上。少部分为对研究方法的创新，如“Altmetrics,alternative indicators for Webof Science Communication studies journals”是利用新的Altmetrics视角研究知识传播现象。缺少较为全面的或者理论观点上的创新。

表2创新度在0.4左右的论文题名

⑵高创新度论文分析

如表3所示的为根据算法计算得出的在2019年197篇学术论文中创新度排名前10的论文的题名和创新度值，可以看出前10的论文的创新度都在0.77以上，创新度都处于较高水平。在这10篇学术论文中，有7篇为理论观点上的创新，如“h:the scientist aschimpanzee or bonobo”论证了新的指标H的不可靠，“Balance:a thermodynamicperspective”则以热力学的视角来解决传统问题，“Productivity does not equalusefulness”认为依靠数量的评价方法已经不再实用。3篇为方法上的创新，如“Theintegrated impact indicator revisited(I3*):a non-parametric alternative tothe journal impact factor”提出一个新的评价期刊影响力的指标。为了验证实验结果，本文利用Web of Science数据库进行辅助验证。对学术论文主题进行检索，依据检索结果的数量来侧面反映论文的创新性。检索结果如表4所示，可以看出这些学术论文的研究主题在Web of Science数据库中的检索结果都处于低数值范围，平均数为14.8，其中有5篇学术论文的相似主题在图情学科的检索结果低于10，其余的检索结果数量最高也仅为36。作为对比，使用同样的方法对创新度众数0.4左右的论文进行检索，得到如表5所示的结果，可以看出检索结果数量明显高于排名前十的学术论文，平均为204.5，一篇论文高于700，3篇论文的检索结果位于200至300的区间范围，3篇论文的检索结果位于100至200的区间范围，3篇论文处在80至100的区间范围。这侧面验证了算法的结果是基本正确的。

表3排名前十的学术论文题名及创新度

表4排名前十的学术论文的主题在Web of Science数据内的检索情况

表5创新度0.4附近的论文题在Web of Science数据内的检索情况

⑶Review文献创新度分析

在传统认知中，Review类型的文献的创新度较低，依据算法对Review类型文献的测度结果则如表6所示，可以看出除1篇文献的排名进入前100外，其余3篇文献的排名都处于中下游。文献“Interactions among stakeholders in the processes of citylogistics:a systematic review of the literature”创新度排名靠前的原因是因为其研究的课题是对“城市物流”的研究的回顾和展望，而“城市物流”在图情学科领域内的研究较少。

表6 Review文献的创新度测度结果

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于SAO-ADV结构的论文创新性的测度方法，其特征在于，包括以下步骤：

S3：构建Word2Vec语义相似度模型；

S4：采用语义相似度模型计算每一个构成SAO-ADV结构的内部短语的创新度，从而得到SAO-ADV结构以及待评价论文的创新度，完成论文创新性的测度；

短语P的创新度(Innovation)如公式(1)所示：

其中，w_o_i为其他论文文本集O中的SAO-ADV结构中的单词，max(Sim(w_i,w_o_i))为短语P与其他论文SAO-ADV结构中的短语的相似度最高的单词对的相似度，num为短语内词汇数量，min()为与短语P计算得到的创新度中最低的那个值；公式(1)将一个短语作为一个整体，该短语的单词作为部分，短语与短语之间进行相似度计算，两个短语之间的对应单词的相似度的平均数即为短语与短语之间的相似度；

整个SAO-ADV结构S的创新度则如公式(2)所示：

其中，num为S的短语数量；公式(2)将构成SAO-ADV结构的短语的创新度的平均数作为结构的创新度；

整篇学术论文A的创新度如公式(3)所示：

其中，num为学术论文A中SAO-ADV结构的数量。

2.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法，其特征在于，在所述步骤S1中，筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文，得到待评价对比的论文背景库。

3.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法，其特征在于，在所述步骤S2中，使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。

4.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法，其特征在于，所述步骤S3具体为根据待评价论文选择合适的语料库，对预料进行分词处理，使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练，完成Word2Vec语义相似度模型的构建。

5.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法，其特征在于，在所述步骤S4中，待评价论文由多个SAO-ADV结构表示主题内容，待评价论文的创新度为所有SAO-ADV结构创新度的平均数，而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度；计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对，用1减去两个结构之间的最大相似度作为该结构的创新度。

6.根据权利要求5所述的基于SAO-ADV结构的论文创新性的测度方法，其特征在于，在所述步骤S4中，两个结构之间的最大相似度计算过程具体为：依次比较各个对应部分的词组的相似度，通过Word2Vec语义相似度模型计算词组内单词的相似度，其平均数即为词组的相似度，计算所有词组的相似度平均数得到结构的相似度，从而得到待评价论文在论文背景库中的相似度，即得到待评价论文的创新度。