CN111597793B - 基于sao-adv结构的论文创新性的测度方法 - Google Patents
基于sao-adv结构的论文创新性的测度方法 Download PDFInfo
- Publication number
- CN111597793B CN111597793B CN202010313225.8A CN202010313225A CN111597793B CN 111597793 B CN111597793 B CN 111597793B CN 202010313225 A CN202010313225 A CN 202010313225A CN 111597793 B CN111597793 B CN 111597793B
- Authority
- CN
- China
- Prior art keywords
- paper
- sao
- adv
- innovation
- evaluated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000000691 measurement method Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 12
- 238000011160 research Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000012552 review Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000282576 Pan paniscus Species 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供基于SAO‑ADV结构的论文创新性的测度方法,包括:构建待评价对比的论文背景库;去除论文背景库及待评价论文中引言性或介绍性的句子,对剩余文本进行分词处理并进行词性标注和句法分析,提取出论文背景库和待评价论文的SAO‑ADV结构;构建Word2Vec语义相似度模型;采用语义相似度模型计算每一个构成SAO‑ADV结构的内部短语的创新度,得到SAO‑ADV结构以及待评价论文的创新度,完成论文创新性的测度。本发明提供的基于SAO‑ADV结构的论文创新性的测度方法,采用了改进的SAO‑ADV模型完整地提取论文内容,将论文的主题词用语法结构完整串联起来,使评价结果更加全面;同时利用语义相似度模型,能够直接地评价论文内容,不用借助外界计量指标例如引文来评价,更能反映论文内容的质量。
Description
技术领域
本发明涉及信息科学和计算机技术的算法技术领域,更具体的,涉及一种基于SAO-ADV结构的论文创新性的测度方法。
背景技术
论文创新性是指在相关的学术领域内,论文提出了新的理论,新的方法,新的研究对象,或者在已有研究的基础上进行了较为完善的发展。而当前,对学术论文创新度的评价方法主要包括两个方面,一方面是根据学术论文发表后收到的客观指标(引文指标、社交媒体指标等)进行分析,另一方面是对论文内容进行主观评判(如同行评议等)。
基于客观指标的评价主要是借助学术论文发表后的客观数据对其进行评价。当前,基于客观指标的评价方法主要分为两类,一种是基于传统的引文指标的评价方法,另一种是新兴的Altmetrics(替代计量学,为社交媒体平台上的数据)数据指标的评价方法。
综合来看,一方面,根据学术论文发表后的客观指标对其学术创新性进行评价存在来源数据不规范、不全面甚至不真实等客观问题,同时,引文指标所揭示的学术论文的“热度”和“价值”不能等同于学术论文的创新性。Altmetrics指标所揭示的学术论文的“热度”和“关注度”同样不能等同于学术论文的创新性,而现有的基于论文内容的评价方法则没够做到对论文的完整的主题进行评价。另一方面,同行评议方法存在的认知主观性和知识差异性也导致对学术论文创新性的评价也存在客观性不足等干扰因素。
发明内容
本发明为克服现有的论文创新度评价方法存在无法直接反映论文内容或只能评价论文的部分的创新度的技术缺陷,提供一种基于SAO-ADV结构的论文创新性的测度方法。
为解决上述技术问题,本发明的技术方案如下:
基于SAO-ADV结构的论文创新性的测度方法,包括以下步骤:
S1:根据所需评价的论文和学科/主题在数据源平台上选择该学科/主题的所有文献并进行筛选,得到待评价对比的论文背景库;
S2:去除论文背景库及待评价论文中引言性或介绍性的句子,对剩余文本进行分词处理并进行词性标注,并对句子的结果特征进行句法分析,提取出论文背景库和待评价论文的SAO-ADV结构;
S3:构建Word2Vec语义相似度模型;
S4:采用语义相似度模型计算每一个构成SAO-ADV结构的内部短语的创新度,从而得到SAO-ADV结构以及待评价论文的创新度,完成论文创新性的测度。
其中,在所述步骤S1中,筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文,得到待评价对比的论文背景库。
上述方案中,论文的创新度也是指论文在该背景库中的相似度,相似度越大,创新度越低。
其中,在所述步骤S2中,使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。
其中,所述步骤S3具体为根据待评价论文选择合适的语料库,对预料进行分词处理,使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练,完成Word2Vec语义相似度模型的构建。
其中,在所述步骤S4中,待评价论文由多个SAO-ADV结构表示主题内容,待评价论文的创新度为所有SAO-ADV结构创新度的平均数,而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度;计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对,用1减去两个结构之间的最大相似度作为该结构的创新度。
其中,在所述步骤S4中,两个结构之间的最大相似度计算过程具体为:依次比较各个对应部分的词组的相似度,通过Word2Vec语义相似度模型计算词组内单词的相似度,其平均数即为词组的相似度,计算所有词组的相似度平均数得到结构的相似度,从而得到待评价论文在论文背景库中的相似度,即得到待评价论文的创新度。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的基于SAO-ADV结构的论文创新性的测度方法,采用了改进的SAO-ADV模型完整地提取论文内容,将论文的主题词用语法结构完整串联起来,使评价结果更加全面;同时利用语义相似度模型,能够直接地评价论文内容,不用借助外界计量指标例如引文来评价,更能反映论文内容的质量;其次,本方法在论文诞生时就可以进行评价,不需要时间等待,不具有传统计量指标的时滞性,更加有效率。
附图说明
图1为本发明所述方法流程示意图;
图2为实施例2中论文摘要文本的语法依存树以及SAO-ADV结构;
图3为实施例2中论文SAO-ADV结构提取结果示意图;
图4为实施例2中Scientometrics期刊2019年论文创新度值分布柱状图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,基于SAO-ADV结构的论文创新性的测度方法,包括以下步骤:
S1:根据所需评价的论文和学科/主题在数据源平台上选择该学科/主题的所有文献并进行筛选,得到待评价对比的论文背景库;
S2:去除论文背景库及待评价论文中引言性或介绍性的句子,对剩余文本进行分词处理并进行词性标注,并对句子的结果特征进行句法分析,提取出论文背景库和待评价论文的SAO-ADV结构;
S3:构建Word2Vec语义相似度模型;
S4:采用语义相似度模型计算每一个构成SAO-ADV结构的内部短语的创新度,从而得到SAO-ADV结构以及待评价论文的创新度,完成论文创新性的测度。
更具体的,在所述步骤S1中,筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文,得到待评价对比的论文背景库。
在具体实施过程中,论文的创新度也是指论文在该背景库中的相似度,相似度越大,创新度越低。
更具体的,在所述步骤S2中,使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。
在具体实施过程中,传统的SAO结构即Subject-Action-Object(主谓宾)结构,Martin G.Moehrle认为SAO结构代表了一种“问题-方法”的关系,AO陈述了问题,而S则代表了解决方法。但是在实际的应用中,基础的SAO结构无法完整的表示“问题-方法”关系。例如“我做公交车回家”这句话,如果使用传统的SAO结构则只能提取出{S-“我”,A-“回”,O-“家”}三元结构,而忽略了同样包含重要信息的状语(ADV)——坐公交车。本文认为构成问题的并不只有AO(谓语和宾语),每一个部分都是答案,而其余部分则都可以构成问题。以上面那句话为例,谁回家,如何回家,去了哪里,乘坐了什么交通工具,SAO-ADV中的每一个元素的缺失都会产生一个问题,缺失的该元素则会转化为答案。改进的SAO-ADV结构模型在实际的自然语言分析处理中更能完整地表达句子的意思,尤其对于科学文献而言,ADV(状语)部分更多时候描述的是应用领域,研究方法等内容。传统的SAO结构模型导致这部分信息的不连贯甚至缺失,不能够对科学论文中提及的研究方法以及主题思路完整表述。
本文使用自然语言处理软件包NLTK的Grammar句法分析器提取SAO-ADV结构,Grammar句法分析器是基于词性标注以及人工设计的文法提取句子中的元素。以“这个好奇的学术正在用望远镜看星星”为例,首先对其进行词性标注,为了避免词性对后续测度的干扰,同时对单词进行还原处理,结果如表1所示:
表1词性标注及单词还原
表中,DT代表限定词,JJ代表形容词,NN代表名词,VBZ动词代表第三人称单数,VBG代表动名词和现在分词,NNS代表名词复数,IN代表介词或从属连词。对此,设计文法提取出{Subject-“好奇的学生”,Action-“正在看”,Object-“星星”,ADV-“用望远镜”}。在获得到原始的SAO-ADV模型后,需要对其每部分短语进行处理,去除停用词,还原词汇(例如英语中的复数还原为单数形式),处理过后的SAO-ADV结构为{Subject-“好奇学生”,Action-“看”,Object-“星星”,ADV-“望远镜”}。根据SAO-ADV结构提取算法对背景库和待评价论文进行提取。
更具体的,所述步骤S3具体为根据待评价论文选择合适的语料库,对预料进行分词处理,使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练,完成Word2Vec语义相似度模型的构建。
在具体实施过程中,采用谷歌公司提出的Word2vec语义相似度模型。与传统的算法相比,Word2vec的词向量较低,模型训练时所需要的计算量降低,耗时较少。根据给定的语料库,Word2vec词向量充分包含了词汇所在的上下文语义,通过上下文的语义信息计算词汇之间的相似度。实施过程中首先需要选择合适的语料,可以按照所要评价论文的主题学科来选择不同学科的论文集作为训练语料,首对选择的语料进行分词处理,然后使用Python的扩展包Gensim的训练函数对切分的词训练得到Word2vec语义相似度模型。
更具体的,在所述步骤S4中,待评价论文由多个SAO-ADV结构表示主题内容,待评价论文的创新度为所有SAO-ADV结构创新度的平均数,而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度;计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对,用1减去两个结构之间的最大相似度作为该结构的创新度。
更具体的,在所述步骤S4中,两个结构之间的最大相似度计算过程具体为:依次比较各个对应部分的词组的相似度,通过Word2Vec语义相似度模型计算词组内单词的相似度,其平均数即为词组的相似度,计算所有词组的相似度平均数得到结构的相似度,从而得到待评价论文在论文背景库中的相似度,即得到待评价论文的创新度。
计算过程具体如下:
在得到的语义相似度模型以及每篇学术论文摘要的SAO-ADV结构后,依次分解出论文(A)的SAO-ADV结构(S)中各个部分的短语(P),利用分词软件对每个部分(P)进行分词处理同时去除停用词,获得每个部分(P)的实意词组({wk1,wk2……}),词组中的单词(w)与其他待比较论文(O{OA1,OA2……})的SAO-ADV结构中的单词(w_o)的之间的语义相似度Sim(w,w_o)由训练的语义相似度模型计算得出。短语P的创新度(Innovation)如公式(1)所示:
其中,w_oi为其他论文文本集O中的SAO-ADV结构中的单词,max(Sim(wi,w_oi))为短语P与其他论文SAO-ADV结构中的短语的相似度最高的单词对的相似度,num为短语内词汇数量,min()为与短语P计算得到的创新度中最低的那个值。该公式将一个短语作为一个整体,该短语的单词作为部分,短语与短语之间进行相似度计算,两个短语之间的对应单词的相似度的平均数即为短语与短语之间的相似度。
整个SAO-ADV结构S的创新度则如公式(2)所示:
其中,num为S的短语数量。该公式将构成SAO-ADV结构的短语的创新度的平均数作为结构的创新度。
整篇学术论文A的创新度如公式(3)所示:
其中,num为学术论文A中SAO-ADV结构的数量。整篇论文的创新度则为论文的SAO-ADV结构的创新度的平均数。
在具体实施过程中,本发明提供的基于SAO-ADV结构的论文创新性的测度方法,采用了改进的SAO-ADV模型完整地提取论文内容,将论文的主题词用语法结构完整串联起来,使评价结果更加全面;同时利用语义相似度模型,能够直接地评价论文内容,不用借助外界计量指标例如引文来评价,更能反映论文内容的质量;其次,本方法在论文诞生时就可以进行评价,不需要时间等待,不具有传统计量指标的时滞性,更加有效率。
实施例2
更具体的,为验证本研究提出的基于学术论文内容分析的创新性测度模型的有效性,选取科学计量学领域唯一以专业名称命名的Scientometrics期刊进行分析。该刊自1978年创刊以来,发表学术论文的质量和水平不断提升,当前已经成为国际科学计量学界的最新学术成果的重要交流阵地,发表的学术论文的创新性不断得到科学计量学界同行的广泛评议。
数据获取与处理:在Web of Science数据库平台,以检索式为“SO=“Scientometrics”AND PY=2019”进行检索,共得到文献223篇(截止至2019年9月3日),去除文献类型为“Letter”19篇,“Correction”4篇,同时考虑到摘要较短对评价的不利影响,去除摘要少于3句的3篇文献,得到有效文献197篇。提取这些文献的摘要作为本研究的目标文献的文本集。
语义相似度模型训练:为了避免词汇不在模型中以及训练文本过少导致结果不够准确的问题,本文选择了最大的英文语料库——维基百科语料库作为训练语料。使用NLTK的分词系统对文本进行分词处理,然后基于Python的开源包Gensim的训练函数对该语料库进行训练。
SAO-ADV结构提取:首先使用NLTK以及斯坦福大学开发的StanfordNLP对每篇学术论文的摘要进行分词处理以及词性标注,然后根据词性标注出的特征以及语法依存树特征设计文法提取每篇学术论文摘要的SAO-ADV四元组结构,语法依存树以及待提取的SAO-ADV如图2所示。要注意的是,并不是所有的句子都有严格的SAO-ADV四元结构,在能够表达句子完整语义的基础上,允许存在多元结构或者三元结构乃至两元结构。
在具体实施过程中,从197篇论文中抽取SAO-ADV结构1994个,通过人工标注的方式对抽取的SAO-ADV结构进行检查,其准确率约为83.3%,召回率为87.5%,基本保证了后续测度计算中SAO-ADV结构的准确和完整。
在具体实施过程中,如图3所示,对得到的SAO-ADV结构进行词汇还原以及停用词去除,得到信息密度更高的结构模型。之后使用公式(1),(2),(3)对SAO-ADV结构以及学术论文摘要内容的创新性进行测度,图3中,每篇论文都有超过5个以上的SAO-ADV结构,为后续的测度结果的可靠性提供了数据量上的保证。
创新度排序结果:197篇论文按照计算得出的创新度高低进行排序,由于篇幅问题,接下来对学术论文创新度的整体分布情况以及排名靠前的学术论文和特殊类型文献进行分析:
⑴创新度众数分析
如图4所示,对Scientometreics期刊2019年的论文的创新度值进行保留一位小数处理,处理后的创新度值的分布基本符合正态分布,其中0.4左右的论文占比最多,挑选出这个范围内的十篇论文如表2所示,从题名上可以大概看出在这个区间的论文的研究大多是在研究对象上的创新,如“A bibliometric visualization of the economics andsociology of wealth inequality:a world apart?”是利用传统的计量可视化手段分析了社会不平等的现象,“Complex network analysis of keywords co-occurrence in therecent efficiency analysis literature”则是将复杂网络分析的技术应用到了“efficiency analysis literature”,“Exploring the influence of scientificjournal ranking on publication performance in the Hungarian social sciences:the case of law and economics”研究的是将期刊排名的影响应用到匈牙利的社会科学出版上。少部分为对研究方法的创新,如“Altmetrics,alternative indicators for Webof Science Communication studies journals”是利用新的Altmetrics视角研究知识传播现象。缺少较为全面的或者理论观点上的创新。
表2创新度在0.4左右的论文题名
⑵高创新度论文分析
如表3所示的为根据算法计算得出的在2019年197篇学术论文中创新度排名前10的论文的题名和创新度值,可以看出前10的论文的创新度都在0.77以上,创新度都处于较高水平。在这10篇学术论文中,有7篇为理论观点上的创新,如“h:the scientist aschimpanzee or bonobo”论证了新的指标H的不可靠,“Balance:a thermodynamicperspective”则以热力学的视角来解决传统问题,“Productivity does not equalusefulness”认为依靠数量的评价方法已经不再实用。3篇为方法上的创新,如“Theintegrated impact indicator revisited(I3*):a non-parametric alternative tothe journal impact factor”提出一个新的评价期刊影响力的指标。为了验证实验结果,本文利用Web of Science数据库进行辅助验证。对学术论文主题进行检索,依据检索结果的数量来侧面反映论文的创新性。检索结果如表4所示,可以看出这些学术论文的研究主题在Web of Science数据库中的检索结果都处于低数值范围,平均数为14.8,其中有5篇学术论文的相似主题在图情学科的检索结果低于10,其余的检索结果数量最高也仅为36。作为对比,使用同样的方法对创新度众数0.4左右的论文进行检索,得到如表5所示的结果,可以看出检索结果数量明显高于排名前十的学术论文,平均为204.5,一篇论文高于700,3篇论文的检索结果位于200至300的区间范围,3篇论文的检索结果位于100至200的区间范围,3篇论文处在80至100的区间范围。这侧面验证了算法的结果是基本正确的。
表3排名前十的学术论文题名及创新度
表4排名前十的学术论文的主题在Web of Science数据内的检索情况
表5创新度0.4附近的论文题在Web of Science数据内的检索情况
⑶Review文献创新度分析
在传统认知中,Review类型的文献的创新度较低,依据算法对Review类型文献的测度结果则如表6所示,可以看出除1篇文献的排名进入前100外,其余3篇文献的排名都处于中下游。文献“Interactions among stakeholders in the processes of citylogistics:a systematic review of the literature”创新度排名靠前的原因是因为其研究的课题是对“城市物流”的研究的回顾和展望,而“城市物流”在图情学科领域内的研究较少。
表6 Review文献的创新度测度结果
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.基于SAO-ADV结构的论文创新性的测度方法,其特征在于,包括以下步骤:
S1:根据所需评价的论文和学科/主题在数据源平台上选择该学科/主题的所有文献并进行筛选,得到待评价对比的论文背景库;
S2:去除论文背景库及待评价论文中引言性或介绍性的句子,对剩余文本进行分词处理并进行词性标注,并对句子的结果特征进行句法分析,提取出论文背景库和待评价论文的SAO-ADV结构;
S3:构建Word2Vec语义相似度模型;
S4:采用语义相似度模型计算每一个构成SAO-ADV结构的内部短语的创新度,从而得到SAO-ADV结构以及待评价论文的创新度,完成论文创新性的测度;
短语P的创新度(Innovation)如公式(1)所示:
其中,w_oi为其他论文文本集O中的SAO-ADV结构中的单词,max(Sim(wi,w_oi))为短语P与其他论文SAO-ADV结构中的短语的相似度最高的单词对的相似度,num为短语内词汇数量,min()为与短语P计算得到的创新度中最低的那个值;公式(1)将一个短语作为一个整体,该短语的单词作为部分,短语与短语之间进行相似度计算,两个短语之间的对应单词的相似度的平均数即为短语与短语之间的相似度;
整个SAO-ADV结构S的创新度则如公式(2)所示:
其中,num为S的短语数量;公式(2)将构成SAO-ADV结构的短语的创新度的平均数作为结构的创新度;
整篇学术论文A的创新度如公式(3)所示:
其中,num为学术论文A中SAO-ADV结构的数量。
2.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法,其特征在于,在所述步骤S1中,筛选掉所有文献中非研究性文献和专利文本以及缺少内容的论文,得到待评价对比的论文背景库。
3.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法,其特征在于,在所述步骤S2中,使用自然语言处理软件包NLTK的Grammar句法分析器基于词性标注以及人工设计的文法提取句子中的SAO-ADV结构。
4.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法,其特征在于,所述步骤S3具体为根据待评价论文选择合适的语料库,对预料进行分词处理,使用Python的扩展包Gensim的训练函数对分词处理后的词进行训练,完成Word2Vec语义相似度模型的构建。
5.根据权利要求1所述的基于SAO-ADV结构的论文创新性的测度方法,其特征在于,在所述步骤S4中,待评价论文由多个SAO-ADV结构表示主题内容,待评价论文的创新度为所有SAO-ADV结构创新度的平均数,而每一个SAO-ADV结构的创新度则是该SAO-ADV结构在论文背景库中的创新度;计算SAO-ADV结构需要将该结构与论文背景库中的所有结构进行以一比对,用1减去两个结构之间的最大相似度作为该结构的创新度。
6.根据权利要求5所述的基于SAO-ADV结构的论文创新性的测度方法,其特征在于,在所述步骤S4中,两个结构之间的最大相似度计算过程具体为:依次比较各个对应部分的词组的相似度,通过Word2Vec语义相似度模型计算词组内单词的相似度,其平均数即为词组的相似度,计算所有词组的相似度平均数得到结构的相似度,从而得到待评价论文在论文背景库中的相似度,即得到待评价论文的创新度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313225.8A CN111597793B (zh) | 2020-04-20 | 2020-04-20 | 基于sao-adv结构的论文创新性的测度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313225.8A CN111597793B (zh) | 2020-04-20 | 2020-04-20 | 基于sao-adv结构的论文创新性的测度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597793A CN111597793A (zh) | 2020-08-28 |
CN111597793B true CN111597793B (zh) | 2023-06-16 |
Family
ID=72188944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313225.8A Active CN111597793B (zh) | 2020-04-20 | 2020-04-20 | 基于sao-adv结构的论文创新性的测度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597793B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507684B (zh) * | 2020-11-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 用于检测原创文本的方法、装置、电子设备及存储介质 |
CN114201962B (zh) * | 2021-12-03 | 2023-07-25 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
-
2020
- 2020-04-20 CN CN202010313225.8A patent/CN111597793B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111597793A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
RU2564629C1 (ru) | Способ кластеризации результатов поиска в зависимости от семантики | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
US20160364656A1 (en) | Methods and systems for knowledge discovery | |
US9880998B1 (en) | Producing datasets for representing terms and objects based on automated learning from text contents | |
CN105095204A (zh) | 同义词的获取方法及装置 | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
JPH05197712A (ja) | 共起辞書構築・更新方法と共起・意味解析方法 | |
CN112365372B (zh) | 一种面向裁判文书的质量检测及评估方法及系统 | |
CN112183059A (zh) | 一种中文结构化事件抽取方法 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN111597793B (zh) | 基于sao-adv结构的论文创新性的测度方法 | |
CN103150381A (zh) | 一种高精度汉语谓词识别方法 | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
US20140089246A1 (en) | Methods and systems for knowledge discovery | |
CN112818661A (zh) | 一种专利技术关键词非监督提取方法 | |
CN115757819A (zh) | 裁判文书中引用法条信息获取方法及装置 | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN115062151A (zh) | 一种文本特征提取方法、文本分类方法及可读存储介质 | |
US9262395B1 (en) | System, methods, and data structure for quantitative assessment of symbolic associations | |
CN115827988B (zh) | 一种自媒体内容热度预测方法 | |
CN112395484A (zh) | 一种面向自动驾驶汽车的用户满意度评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |