CN105446954A

CN105446954A - 一种面向科技大数据的项目查重方法

Info

Publication number: CN105446954A
Application number: CN201510797445.1A
Authority: CN
Inventors: 罗亮; 林珠; 徐迪威; 李海威; 蔡建新
Original assignee: Guangdong Science & Technology Infrastructure Center
Current assignee: Guangdong Science & Technology Infrastructure Center
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2016-03-30
Anticipated expiration: 2035-11-18
Also published as: CN105446954B

Abstract

本发明是一种面向科技大数据的项目查重方法，该方法根据历年的科技项目立项信息构建领域本体，然后对新申报的项目信息跟已有的项目信息进行相似度比较，进行中文分词、去停用词等一系列操作后，提取出关键特征词汇，对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子，将词序因子引入领域本体的概念相似度计算，可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论，本发明方法在现有的中文文本词序相似度计算方法上结合了领域本体处理即语义相似度和时序因子相结合，相似度计算效果将更佳。

Description

一种面向科技大数据的项目查重方法

技术领域

本发明涉及科技项目申请管理方法领域，更具体地，涉及一种面向科技大数据的项目查重方法。

背景技术

科技大数据是指在科技活动中产生的一系列数据，包括科技项目申报数据、科技资源描述数据、科技创新数据等。科技大数据具有数据类型非结构化、数据量庞大等大数据特征，数据来源往往是通过多年积累的跨区域数据，科技项目信息包括申报文本信息、立项合同信息、验收文档信息等，其具有跨领域、强逻辑的特征，面对庞大的数据资源，如果采用传统的中文文本相似度计算方法，将无法提取出贴切的各领域的项目信息，也无法保障进度。同时，科技项目文本信息具有很强的逻辑性，特别是关键技术和研究路线的表达，词与词之间的顺序不同往往代表的研究方法完全不同，所以面对科技项目查重，如果单纯地采用传统的基于统计或者语义的方法将无法达到很好的相似度计算效果。因此，无论是单纯采用专家评估方式，或者采用现阶段的项目查重模型，都无法满足科技大数据的项目查重要求。

发明内容

本发明提供一种面向科技大数据的项目查重方法，该方法基于领域本体和词序特征，通过提取科技项目立项信息数据的特征词汇后得出每个特征词的词序因子引入领域本体中概念相似度计算，根据词序因子和各特征词的相似度值进行统计后将得出文本相似值，从而达到项目查重的目的。

为了达到上述技术效果，本发明的技术方案如下：

一种面向科技大数据的项目查重方法，包括以下步骤：

S1：利用历年的科技项目立项信息数据构建领域本体；

S2：对历年的科技项目立项信息数据进行中文分词后再进行去停用操作，提取出历年的科技项目立项信息数据的特征词，对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；

S3：对待查重的新申请项目进行中文分词后再进行去停用操作，提取出该项目立项信息数据的特征词，对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；

S4：将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。

本发明中，根据历年的科技项目立项信息构建领域本体，然后对新申报的项目信息跟已有的项目信息进行相似度比较，进行中文分词、去停用词等一系列操作后，提取出关键特征词汇，对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子，将词序因子引入领域本体的概念相似度计算，可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论。

进一步地，所述步骤S2的具体过程如下：

S21：将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…}，读取其中任一数据文本Ci，对数据文本Ci进行中文分词，将得到的分词去停用词，得到向量特征词A=(A1,A2,……,An)；

S22：用领域本体对向量A进行词语消歧和同义替换实现文本降维，得到降维后的特征词向量A’=(A’1,A’2,……,A’m)，其中m<n；

S23：通过隐马尔可夫模型，计算特征词向量A’的词序因子序列i=(i1,i2,……,jm)；

S24：重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。

进一步地，所述步骤S3的具体过程如下：

S31：将待查重的新申请项目数据进行中文分词，将得到的分词去停用词，得到特征词向量B=(B1,B2,……,Bin)；

S32：用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维，得到降维后的特征词向量B’=(B’1,B’2,……,B’im)，其中m<n；

S33：通过隐马尔可夫模型，计算特征词向量B’的词序因子序列i=(i1,i2,……,jm)。

进一步地，所述步骤S4的具体过程如下：

将词序因子序列i=(i1,i2,……,jm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度K_l计算，其中l表示年份：

K_l=

其中，为任一年份的科技项目立项信息数据降维后的特征词向量，为待查重的新申请项目数据降维后的特征词向量，为的词序因子序列，为词序因子序列，、是可调节参数，通过两个词序因子的差值计算作为调节参数，为语义相似度，语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。

进一步地，所述步骤S4还包括：

采用hadoop框架对相似度K_l的计算式进行分布式改进，之后设置相似度阀值，将计算出的相似度与阈值进行一一对比，得出查重结论。

与现有技术相比，本发明技术方案的有益效果是：

本发明是一种基于领域本体和词序特征的项目查重方法，根据历年的科技项目立项信息构建领域本体，然后对新申报的项目信息跟已有的项目信息进行相似度比较，进行中文分词、去停用词等一系列操作后，提取出关键特征词汇，对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子，将词序因子引入领域本体的概念相似度计算，可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论，本发明方法在现有的中文文本词序相似度计算方法上结合了领域本体处理即语义相似度和时序因子相结合，相似度计算效果将更佳。

附图说明

图1为本发明方法的流程图；

图2为本发明方法在现有技术上的增加技术的示意框图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种面向科技大数据的项目查重方法，包括以下步骤：

S1：利用历年的科技项目立项信息数据构建领域本体；

本发明中，根据历年的科技项目立项信息构建领域本体，然后对新申报的项目信息跟已有的项目信息进行相似度比较，进行中文分词、去停用词等一系列操作后，提取出关键特征词汇，对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子，将词序因子引入领域本体的概念相似度计算，可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论，如图2所示，本发明方法在现有的中文文本词序相似度计算方法上增加了领域本体的处理，相似度计算效果将更佳。

进一步地，所述步骤S2的具体过程如下：

进一步地，所述步骤S3的具体过程如下：

进一步地，所述步骤S4的具体过程如下：

K_l=

当两个项目概念具有某些共同特征时，则定义它们是相似的，用K_l表示项目，之间的概念相似度，与间的相似满足以下几点：1、K_l大小满足K_l [0,1]；2、如果两个项目完全相同，则K_l=1，当且仅当=；3、如何两个项目没有任何共同特征，则相似度为0，即K_l=0；领域本体中的概念相似性与语义距离相关，语义距离是指本体树中连接两个节点的最短路径所跨的边数；同时、是可调节参数，它们是词序因子，通过两个词语的词序因子的差值计算作为调节参数，可见本发明方法实质是语义相似度和时序因子的结合。

步骤S4还包括一步：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向科技大数据的项目查重方法，其特征在于，包括以下步骤：

S1：利用历年的科技项目立项信息数据构建领域本体；

2.根据权利要求1所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S2的具体过程如下：

3.根据权利要求2所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S3的具体过程如下：

4.根据权利要求3所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S4的具体过程如下：

K_l=

5.根据权利要求4所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S4还包括：