CN105302793A

CN105302793A - 一种利用计算机自动评价科技文献新颖性的方法

Info

Publication number: CN105302793A
Application number: CN201510696274.3A
Authority: CN
Inventors: 王庆红; 韦嵘晖; 李广凯; 郑金; 周育忠; 张自锋; 乔春庚; 刘超; 王洪俊; 肖诗斌; 施水才
Original assignee: BEIJING TRS INFORMATION TECHNOLOGY Co Ltd; Power Grid Technology Research Center of China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: BEIJING TRS INFORMATION TECHNOLOGY Co Ltd; CSG Electric Power Research Institute; Power Grid Technology Research Center of China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2016-02-03

Abstract

本发明提供了一种利用计算机自动评价科技文献新颖性的方法，其包括如下步骤：A、基于文档内容排序的新颖性检测；B、基于文档语义比对的新颖性检测；C、基于关键术语的新颖性检测；D、基于数值指标的新颖性检测；E、基于步骤A-D分别得到各自的新颖性评分，运用回归模型计算出查新文档的新颖性总分。采用本发明的方法，可基于多维度新颖性检测的科技文献自动查新，提高科技查新的效率。

Description

一种利用计算机自动评价科技文献新颖性的方法

技术领域

本发明属于科技查新技术领域，具体涉及一种利用计算机自动评价科技文献新颖性的方法。

背景技术

随着我国国家创新体系的建设和自主创新能力规划的实施，国家大力推动各个重大领域的技术创新，我国的科技项目立项数量、重大科研成果的报奖数量都在飞速增长。在科技创新的过程中，如何能够准确选择科研方向，正确立项，避免重复立项和无效的科研投入，少走弯路，同时在科技报奖的过程中，准确提炼科技创新点，提升科技成果的价值，都是目前科研机构急待解决的关键问题。有研究表明，我国在进行中的科研课题至少40％是重复其他国家已经研究成功的课题。

科技查新是为了避免科研项目的重复立项、客观评价科研项目和科技成果的新颖性，通过各种检索手段、检索工具进行文献调查研究，并运用综合分析对比等方法，对科研立项、成果鉴定、申报奖项等项目的新颖性提供文献依据，写出有依据、有分析对比结论的报告的科技管理手段。作为科研立项、科技成果报奖等科研工作的有效支持，科技查新工作在科技与经济发展中的作用越来越显著，已成为国家创新体系的重要组成部分。

目前，我国科技查新很大程度上依赖人工操作，如果能实现自动科技查新，将能很大程度上提升查新效率。现有的自动查新技术体现在自动新颖性检测、新颖性评价等方面，其目的在于采用计算机技术，自动检测出具备新颖性的文档。国内外很多研究机构都在研究新颖性检测相关的技术，尤其在科技论文抄袭检测、互联网版权保护、网页查重、专利新颖性检测等领域，已经出现了大量的研究成果。现有技术主要是对文本内容的相似度检测，检测方法单一。本发明在国内首次开发基于多维智能比对的自助查新系统，可自动检测不具创新性的申请，有利于科技项目确定正确的研究方向，提升报奖成功率，有效降低人工负担并提升查新报告的质量和公正性。

发明内容

针对现有技术的问题，本发明的目的是提供一种利用计算机自动评价科技文献新颖性的方法,其能够自动处理用户的查新文档，自动生成查新报告，提高科技查新的效率。

为了实现上述目的，本发明提供了一种利用计算机自动评价科技文献新颖性的方法，其特征在于，包括如下步骤：

A、基于文档内容排序的新颖性检测；

B、基于文档语义比对的新颖性检测；

C、基于关键术语的新颖性检测；

D、基于数值指标的新颖性检测；

E、基于步骤A-D分别得到各自的新颖性评分，运用回归模型计算出查新文档的新颖性总分。

基于文档内容排序的新颖性检测，是利用文档所具有的词汇集聚特性，借助语义辞典等知识源，对文档中词语间的语义链接关系进行定义与考察,并以之为基础提出文档的词汇链形式化表示、词汇链权重计算，采用了一种基于内容相关度的检索排序方式，从库中检索与用户输入内容最相关的文本。

基于文档语义比对的新颖性检测，采用基于内容的相关文档检索技术，检索到查新文献的相关文档。通过结构化比对查新文献与对比文献的之间的相关度，如果二者具有较高的相似性或关联性，则可以判定查新文献不具备新颖性。

基于关键术语的新颖性检测，采用类似于IBMCOA的机制，首先从查新文献中提取关键技术术语。采用“早度”等指标计算各个关键术语的新颖度，最后得出整个查新文献的新颖度，根据预先设置的阈值判定其新颖性。

基于数值指标的新颖性检测，采用一种基于数值指标项比对的策略对数值指标类技术特征进行新颖性检测。若科技文献中存在以数值或连续变化的数值范围限定的技术特征，例如温度、压力、组分含量等，而其余技术特征与对比文件相同，如果对比文件中公开了该限定数值范围内的数值，包括端点的数值，则该要求保护的技术方案不具备新颖性。

根据本发明另一具体实施方式，步骤A中，利用文档所具有的词汇集聚特性，借助语义词典知识源，对文档中词语间的语义链接关系进行定义与考察，提出文档的词汇链形式化表示、词汇链权重计算，计算待查文档和检索库中文档的相关度，根据相关度评价查新文档的新颖度。

根据本发明另一具体实施方式，步骤A具体包括如下步骤：

A1、文档特征表示；

A2、建立基于倒排表的索引库；

A3、查新文档经过特征表示后，与索引库中的数据进行相似性检索；

A4、经过基于内容相关的粗排序后，得到候选的检索结果。

根据本发明另一具体实施方式，步骤B中，根据检索到待查文档的相关度最高的TOPN篇相关文档，采用基于编辑距离的细排序的计算方法，计算查新文档和检索结果的结构化文本块之间的相似度，根据相似度评价查新文档的新颖度。

根据本发明另一具体实施方式，步骤B具体包括如下步骤：

B1、对后台检索库的文献数据进行结构拆分，保存到各个字段中；

B2、对查新文档进行结构拆分，查新文档结构包括：标题、正文、查新点；

B3、对查新文档的文档全文与后台检索库中的文档进行基于内容的粗排序，得到相似度最高的TOPN个结果；

B4、查新文档的各个结构内容分别与后台检索库的对应字段进行基于编辑距离的比对，其中正文字段和查新点需要与所有字段都进行比较，取其中最大值作为相似度；

B5、最后对结果进行加权，得到总的相似度。

根据本发明另一具体实施方式，步骤C中，是从查新文献中提取关键技术术语，采用“早度”指标计算各个关键术语的新颖度，最后得出整个查新文献的新颖度，根据预先设置的阈值判定其新颖性。

根据本发明另一具体实施方式，步骤C具体包括如下步骤：

C1、根据关键术语到索引库中检索，取到所有的检索结果；

C2、取得包含该术语的相关文档总数，以及改术语出现的最早时间；

C3、采用“早度”指标计算各个关键术语的新颖度；

C4、在一组术语早度计算的基础上，得出整个查新文献的新颖度，根据预先设置的阈值判定其新颖性。

根据本发明另一具体实施方式，步骤D中，采用基于数值指标项比对的策略对数值指标类技术特征进行新颖性检测。

根据本发明另一具体实施方式，步骤D具体包括如下步骤：

D1、对查新文档进行数字指标抽取；

D2、查新文档中抽取的指标与相似文档中抽取的指标进行比对；

D3：对所有抽取的指标进行比对后，统计不具备新颖性的指标的总数，根据设定的阈值来判断数值指标的新颖度。

根据本发明另一具体实施方式，步骤D2中的比对方法如下：

D2a、找到两个对比文献中相同或者相似的指标描述，相似指标的判断通过同义词词典进行判断；

D2b、判断两个指标描述的指标单位是否相同，相同则进行比对，不同则不进行比对；

D2c、该指标描述中，如果查新文档中的指标上下限和相似文档中的指标上下限有重合，则表明该指标不具备新颖性；

D2d、保留不具备新颖性的指标描述。

采用本发明的方法，可基于多维度新颖性检测的科技文献自动查新，并自动生成查新报告。

附图说明

图1为实施例1中，相关文档检索以及比对的流程图；

图2为实施例1中，关键术语的新颖性评价的流程图；

图3为实施例1中，数值指标的新颖性评价的流程图；

图4为实施例2中，科技文献的自动评价新颖性的流程图。

具体实施方式

实施例1

本实施例提供了一种利用计算机自动评价科技文献新颖性的方法，其包括如下步骤：

A、基于文档内容排序的新颖性检测；

B、基于文档语义比对的新颖性检测；

C、基于关键术语的新颖性检测；

D、基于数值指标的新颖性检测；

如图1所示，步骤A中，在用户输入内容进行查找比对时，采用了一种基于内容相关度的检索排序方式，从库中检索与用户输入内容最相关的文本。相似文本检索的任务是给定一段文本，在文档库中寻找与其最相似的文档，并按相似性的大小对文档进行排序。步骤A具体包括如下步骤：

A1、文档特征表示。

在进行文档相似性检索之前，首先要提取文档特征，进行文档表示。常用的文档表示方法有TFIDF、TF、IDF等文档向量表示方法。这里我们采用了TF向量表示法。TF向量反映了文档的词集空间，它的每个分量对应于一个词，分量的大小为这个词在该文档中的出现次数。

在进行文档表示之前，要进行文档的预处理。首先对文档进行分词、词性标注，过滤虚词，剩下的实词作为文档的特征词。同时，记录每个词出现的次数(词频)。这样就得到了文档的TF向量。

A2、建立基于倒排表的索引库。

在一个文档库中出现的词可能有数十万之多，所以文档向量的维数很高。但注意到这样一个事实：虽然文档向量的维数很高，但单独每一篇文档包含的词数并不多，通常在几百几千左右。因此，对文档进行相似性检索不需要使用文档向量的所有分量，只需要访问部分分量。与这些分量相关的文档才是我们真正关心的部分。

基于上述考虑，采用基于倒排表的方法，即提出文档中的每一个词，并把该文档编号插入到该词索引的链上。把文档库所有文档向量的各个词语分别建立倒排索引存储。同时还保存每个文档向量的总特征数等描述信息。

A3、查新文档经过特征表示后，与索引库中的数据进行相似性检索。经过基于内容相关的粗排序后，得到一批候选的检索结果。基于内容相关的算法是采用余弦相似度算法。

用D(Document)表示，特征项(Term，用T表示)是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1，T2，Tk，Tn)，其中Tk是特征项，1<＝k<＝N。

对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即D＝D(T1，W1；T2，W2；Tk,Wk,Tn，Wn)，简记为D＝D(W1，W2，Wk，Wn)，我们把它叫做文本D的向量表示。其中Wk是Tk的权重，1<＝k<＝N。

在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：

S i m (D_{1}, D_{2}) = c o s θ = \frac{Σ_{k = 1}^{n} W_{1 k} \times W_{2 k}}{\sqrt{(Σ_{k = 1}^{n} W_{1 k}^{2}) (Σ_{k = 1}^{n} W_{2 k}^{2})}}

计算所有检索文档与后台数据库中文档的相似度后，对结果进行排序。

A4、经过基于内容相关的粗排序后，得到一批候选的检索结果。由于粗排序的检索结果已经根据用户内容的相关度进行了排序，所以排在前100条之内的已经包含了用户所需要的结果，需要做的工作就是继续对这些结果的TopN条进行基于编辑的细排序，找到与用户输入最相近的科技文献文献段落。具体算法是：

取TOPN条检索结果；

取每条结果的文献内容，计算与用户输入内容的编辑距离。编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

根据编辑距离检索结果进行重排序，生成最终的检索结果。

如图1所示，步骤B中，根据上述检索比对的相关度计算方法，并且充分利用科技文献的结构信息，包括一般论文的标题，摘要，正文，章节结构等信息、专利文献的标题、摘要、权利要求书、说明书、说明书实施例等信息，对文献的各个组成部分分别进行基于内容的检索与比对，最后进行加权输出，从而得到比单一比对更好的结果。步骤B具体包括如下步骤：

B1、对后台检索库的文献数据进行结构拆分，保存到各个字段中：标题、摘要、正文、权利要求书、说明书、说明书实施例等。

B2、对查新文档进行结构拆分，查新文档结构包括：标题、正文(技术背景、研究方案、技术特征、技术参数)、查新点(查新文档的核心要点)。

B3、对查新文档的文档全文与后台检索库中的文档进行基于内容的粗排序，得到相似度最高的TOPN个结果。

B4、查新文档的各个结构内容分别与后台检索库的对应字段进行基于编辑距离的比对，其中正文字段和查新点需要与所有字段都进行比较，取其中最大值作为相似度，例如：Value(查新点)＝Max{Value(标题),Value(摘要),Value(正文),Value(权利要求书),Value(说明书)},其中Value(标题)表示查新点与标题字段比对的相似度。

B5、最后对结果进行加权，得到总的相似度：Value(相关文档n)＝Weight(标题)*Value(标题)+Weight(正文)*Value(正文)+Weight(查新点)*Value(查新点)，其中Weight(标题)表示标题的权重。得到相关文档的相似度值。

B6、新颖度采用五星的评价方式：如果相似度大于0.8，新颖度为1星；相似度大于0.7，新颖度为2星；相似度大于0.6，新颖度为3星；相似度大于0.5，新颖度为4星；相似度小于0.5，新颖度为5星。

如图2所示，步骤C包括以下步骤：

C1、根据关键术语到索引库中检索，取到所有的检索结果

C2、取得包含该术语的相关文档总数，以及改术语出现的最早时间

C3、采用“早度”等指标计算各个关键术语的新颖度。定义一个概念术语年龄：查新文献与最早出现该术语的文献的发布时间的差值。技术术语的“早度”被定义为术语年龄的倒数。早度可以评估一个短语的新颖性或创新性。一篇文献里使用很多早度高的术语，可初步认为该文献是本技术领域的先驱。通过限制只在本技术领域内(同一文献分类)进行早度比较，可以确保一个术语的含义在不同文献之间具备可比较的一致性。计算查新文献关键术语新颖度的算法为：术语早度/术语相关文档总数，即早度越高、术语相关文档越多，则该术语的新颖度越低。

如图3所示，步骤D包括以下步骤：

D1、对查新文档进行数字指标抽取。指标数值范围抽取，主要是提取指标相关的数值范围信息，包括数值的上限和下限值等；指标单位抽取与转换，主要是提取指标相关的单位，并根据单位换算表，对不同的数值单位进行规格化处理，例如，把吨、千克、克、两、盎司等不同的重量单位统一为千克。指标描述信息抽取，主要是抽取指标的描述信息，包括指标的主体及属性信息，例如：槽厚度、机箱高度。数字指标抽取时，以上三个内容是都需要抽取的，否则无法进行比对。

D2、查新文档中抽取的指标与实施例1中得到的相似文档中抽取的指标进行比对。若科技文献中存在以数值或连续变化的数值范围限定的技术特征，例如温度、压力、组分含量等，而其余技术特征与对比文件相同，如果对比文件中公开了该限定数值范围内的数值，包括端点的数值，则该要求保护的技术方案不具备新颖性。比对方法如下：

D2a、首先找到两个对比文献中相同或者相似的指标描述，相似指标的判断通过同义词词典进行判断。

D2b、判断两个指标描述的指标单位是否相同，相同则进行比对，不同则不进行比对。

D2c、该指标描述中，如果查新文档中的指标上下限和相似文档中的指标上下限有重合，则表明该指标不具备新颖性。

D2d、保留不具备新颖性的指标描述。

D3、对所有抽取的指标进行比对后，统计不具备新颖性的指标的总数，根据设定的阈值来判断数值指标的新颖度。

实施例2

本实施例提供了另一种科技文献的自动评价新颖性的方法，如图4所示，本实施例的方法包括以下步骤：

步骤1：查新文档分别与国内或国外文献进行比对，得到在国内和国外各指标上的得分。各个指标评分包括：基于内容排序的相关度、基于语义比对的相似度、关键术语评分、数值指标评分。

步骤2：再运用回归模型计算出查新文档的国内和国外的新颖性总分。本研究中用到的回归模型是多元线性回归，其自变量往往受几个重要因素的影响，需要用两个或两个以上的影响因素作为自变量来解释因变量的变化。新颖性评估体系涉及到多个指标，可将这些指标作为自变量x1，x2，x3……xn，将总分作为因变量。设a0,a1,……an是待估计的回归系数，ε是随机误差，回归模型为Y＝a₀+a₁x₁+a₂x₂+...+a_nx_n+ε

步骤3：根据多维度新颖性评分、新颖性总分、相关文献，生成评估报告。

以上是对本发明做的示例性描述，凡在不脱离本发明核心的情况下做出的简单变形或修改均落入本发明的保护范围。

Claims

1.一种利用计算机自动评价科技文献新颖性的方法，其特征在于，包括如下步骤：

A、基于文档内容排序的新颖性检测；

B、基于文档语义比对的新颖性检测；

C、基于关键术语的新颖性检测；

D、基于数值指标的新颖性检测；

2.如权利要求1所述的方法，其特征在于，步骤A中，利用文档所具有的词汇集聚特性，借助语义词典知识源，对文档中词语间的语义链接关系进行定义与考察，提出文档的词汇链形式化表示、词汇链权重计算，计算待查文档和检索库中文档的相关度，根据相关度评价查新文档的新颖度。

3.如权利要求2所述的方法，其特征在于，步骤A具体包括如下步骤：

A1、文档特征表示；

A2、建立基于倒排表的索引库；

A4、经过基于内容相关的粗排序后，得到候选的检索结果。

4.如权利要求1所述的方法，其特征在于，步骤B中，根据检索到待查文档的相关度最高的TOPN篇相关文档，采用基于编辑距离的细排序的计算方法，计算查新文档和检索结果的结构化文本块之间的相似度，根据相似度评价查新文档的新颖度。

5.如权利要求4所述的方法，其特征在于，步骤B具体包括如下步骤：

B5、最后对结果进行加权，得到总的相似度。

6.如权利要求1所述的方法，其特征在于，步骤C中，是从查新文献中提取关键技术术语，采用“早度”指标计算各个关键术语的新颖度，最后得出整个查新文献的新颖度，根据预先设置的阈值判定其新颖性。

7.如权利要求6所述的方法，其特征在于，步骤C具体包括如下步骤：

C1、根据关键术语到索引库中检索，取到所有的检索结果；

C3、采用“早度”指标计算各个关键术语的新颖度；

8.如权利要求1所述的方法，其特征在于，步骤D中，采用基于数值指标项比对的策略对数值指标类技术特征进行新颖性检测。

9.如权利要求8所述的方法，其特征在于，步骤D具体包括如下步骤：

D1、对查新文档进行数字指标抽取；

10.如权利要求9所述的方法，其特征在于，步骤D2中的比对方法如下：

D2d、保留不具备新颖性的指标描述。