CN104133840A

CN104133840A - 一种具有系统检测及生物识别功能的数据处理方法及系统

Info

Publication number: CN104133840A
Application number: CN201410291111.2A
Authority: CN
Inventors: 许乃媛; 李红梅; 孟瑜; 李勇; 吴观斌; 傅蓬; 王慧慧
Original assignee: Shandong Yi Yun Information Technology Co Ltd; State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: Shandong Yi Yun Information Technology Co Ltd; State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2014-11-05

Abstract

本发明公开了一种具有系统检测及生物识别功能的数据处理方法及系统，步骤一：采集申报项目的数据；步骤二：读取项目申报库主数据表及各子数据表中数据，判断数据是否符合要求；步骤三：将步骤二中符合要求的项目数据从项目申报数据库同步到评审数据库；对符合要求的项目进行三次次筛选，将存储在评审数据库中的第三缓存区中的最终获奖项目的数据输出。数据判断优势在于系统自动提取查重因素，进行复杂匹配计算，减少人为因素，提高查重结果的正确性，减轻工作人员工作量，极大提高工作效率。

Description

一种具有系统检测及生物识别功能的数据处理方法及系统

技术领域

本发明涉及一种具有系统检测及生物识别功能的数据处理方法及系统。

背景技术

目前的科技奖励管理项目在数据处理上具有以下缺点：

科技奖励管理项目的数据量大，每年都有大量的数据需要处理，在处理的过程中，数据的筛选不够合理，另外，现有的系统缺乏自动查重、自动处理的功能。

大量、繁琐数据的筛选难度大，处理过程不够合理，原有系统对数据进行一次筛选，筛选依据单一，人为干预因素多，缺乏公平合理性。人工处理数据工作量大、效率低，原有系统需要人工进行数据的查阅比对，工作效率低，任务繁重。

在申报科技奖励时，填报的申报材料较多，当申报材料填写的为项目名称或论文论著名称时及项目完成人及专利文献时，需要根据名称判断是否存在重复申请的嫌疑，目前，该工作均是通过人为识别，由于申报数据的量大，人为识别精确度不够。

发明内容

本发明的目的就是为了解决上述问题，提供一种具有系统检测及生物识别功能的数据处理方法及系统，本发明的数据判断优势在于系统自动提取查重因素，进行复杂匹配计算，减少人为因素，提高查重结果的公正和正确性，减轻工作人员工作量，极大提高工作效率。

为了实现上述目的，本发明采用如下技术方案：

一种具有系统检测及生物识别功能的数据处理方法，包括如下步骤：

步骤一：通过JS脚本自动检测当前用户使用浏览器版本，对于非IE系列浏览器给予提示，并关闭；检测使用浏览器符合要求即进入系统进行数据采集；

步骤二：将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库，采集的申报项目的数据信息存储到网络服务器的缓存区，主计算机调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区；采集的图片、Word和PDF文档数据以文件形式存储至主计算机的第二缓存区，将文档相对路径存储至项目申报数据库附件子数据表中；

步骤三：主计算机读取第一缓存区中的申报项目的信息，判断数据是否符合要求；对于图片文档，利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档，读取图片文档内容，识别完成人笔迹并与笔迹特征库进行比对，如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四，如果不符合就返回步骤二；

步骤四：将步骤三中符合要求的项目数据从项目申报数据库同步到评审数据库，该同步过程采取单向同步；对评审数据库的申报信息进行三次筛选，并将最终数据输出在服务器的浏览页面上。

所述步骤二中具体为：将与项目直接相关的数据存储到项目申报库主数据表中，每条数据对应唯一项目编号，与项目间接相关的数据存储到项目申报库各子数据表中，子数据表中将唯一项目编号设置为外键与主数据表关联；申报数据库的子数据表中还存储有历史项目申报信息。

所述直接相关的数据包括项目基本信息；间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件；

所述项目基本信息包括：项目名称、项目学科、技术领域、项目来源及所属国民经济行业等；所述知识产权包括：专利申请号、专利名称、发明人和专利授权日；所述完成人包括：完成人的姓名、身份证号和完成人顺序。所述步骤一中数据存储形式包括：数据表、图片、Word文档及PDF文档。存储为不同格式数据，数据表便于查询、统计，图片及PDF文档确保数据真实性，Word文档为了便于保持数据原有格式，便于查看。

所述步骤三中，对项目申报库各子数据表存储的数据进行分词或者直接匹配，利用判断模块判断当前的申报项目的信息是否为项目名称或论文论著名称，如果是就进入关键词比较模块，如果不是，再进行判断是否为项目的完成人姓名及身份证号或知识产权号，如果是，则进入直接匹配模块。

利用关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较，如果相似度不低于设定值，判定重复，否则不重复；

利用直接匹配模块将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配，如果相同判定重复，否则不重复；

利用存储模块将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区，将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。

所述关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较，如果相似度不低于设定值，判定重复，否则不重复，具体过程为：

利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个，对取出的信息进行分词，将分解出的关键词分别存储到主计算机中项目申报数据库对应的两个数组中；

利用关键词匹配模块对项目申报数据库对应的两个数组中的关键词进行遍历循环比较，得出相同关键词数及各组关键词数；

根据相似度模块得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度，将该相似度与设定值比较，如果相似度不低于设定值，判定重复，否则不重复。

所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个，对取出的信息进行分词，采用ShootSearch组件分词。

所述相似度模块具体用于比较项目申报数据库对应的两个数组中关键词数大小，取出较小关键词数，用相同关键词数除以较小关键词数得出相似度。

所述利用直接匹配模块将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配，具体为：

将远程数据采集终端采集的申报项目的信息与申报数据库的子数据表中历史项目申报信息直接进行遍历循环匹配，判断是否匹配，如果匹配，则判定重复，否则，不重复。

所述申报项目的信息包括项目名称、论文论著名称、项目的完成人姓名及身份证号及知识产权号，历史项目申报信息包括当前年度其他项目或近三年所有项目中的项目名称、论文论著名称、项目的完成人姓名及身份证号及知识产权号。知识产权号为专利申请号或者专利公开号。

用相似度计算方式查重，是为了更大程度上查询出重复项目，避免重新组合项目重复申报；所述分词的数据包括项目名称和论文论著名称；所述直接匹配的数据包括：完成人的姓名及身份证号和知识产权号。数据查重是整个科技奖励系统中的重要环节，数据处理过程复杂，处理手段不同。针对不同数据采取不同方式查重，是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识，不存在组合的可能。项目名称及论文论著名称可分解重组，进行分词计算相似度可更精确的查询重复项目。

所述步骤三中对评审数据库的申报信息进行三次筛选，具体为：

对符合要求的评审数据库中的项目进行第一次筛选，根据项目信息遴选对应的网络评审专家，通过网络评审对同步到评审数据库中的数据进行筛选；将筛选出的申报项目数据存储到评审数据库中的第三缓存区；

对存储到第三缓存区中的申报项目数据进行第二次筛选；根据项目信息遴选资深专家，对第一次筛选取出的数据进行专家投票，从投票结果中取出初步获奖项目，将初步获奖项目的数据存储到评审数据库中的第四缓存区；

对存储到第四缓存区中的申报项目数据进行第三次筛选；根据项目信息遴选科技委员会专家，对第二次筛选中取出的数据进行专家审核，从审核结果中取出最终获奖项目，将最终获奖项目存储到评审数据库中的第五缓存区。

在筛选时，设置评分指标的权重，遴选专家，对同步的数据进行专家评分，依据权重对专家评分进行加和得到项目得分，依据项目得分从高到低进行排序，从排序结果中取出设定数目的项目。投票包括：一等奖、二等奖、三等奖和不评奖。审核包括有异议和无异议。

所述三次筛选中，专家的遴选的过程具体为：

S1：将科技项目学科信息以数据集A的形式存储在评审数据库的子数据表中，评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息；

S2：在数据集B中选取专家学科信息并作为条件因素，判断该专家学科信息的条件因素是否为一级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目学科信息的关键因素匹配，遍历专家学科信息中的条件因素是否包含关键因素，如果包含则匹配，并进入步骤S5，否则不匹配，进入步S3；

S3：判断该专家信息的条件因素是否为二级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配，遍历专家信息中的条件因素是否包含关键因素，如果包含则匹配，进入步骤S5，否则不匹配，进入步骤S4；

S4：判断该专家信息的条件因素是否为三级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配，遍历专家信息中的条件因素是否包含关键因素，如果包含则匹配，进入S5，否则不匹配；

S5：从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量，并将取出的数据存储至评审数据库；

所述步骤S5具体为，根据Random(随机)函数返回的零到指定数目的随机数，选取数据，直到选够指定数目。

三次筛选是不同的，对数据的评价不同，第一次筛选是打分、第二次筛选是投票分等级、第三次筛选是投票表决。但是三次筛选中专家遴选的过程是相同的。筛选出的数据输出，输出形式为Word格式文档。Word格式文档输出，便于用户自行调整数据格式。

一种具有系统检测及生物识别功能的数据处理系统，包括系统校验模块，用于通过JS脚本自动检测当前用户使用浏览器版本，对于非IE系列浏览器给予提示，并关闭；检测使用浏览器符合要求即进入系统进行数据采集；

远程数据采集终端，用于将采集的申报项目的数据信息存储到网络服务器的缓存区，将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库；

主计算机，用于调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区；采集的图片、Word和PDF文档数据以文件形式存储至主计算机的第二缓存区，将文档相对路径存储至项目申报数据库附件子数据表中；

查重判断模块，用于根据主计算机读取第一缓存区中的申报项目的信息，判断数据是否符合要求；对于图片文档，利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档，读取图片文档内容，识别完成人笔迹并与笔迹特征库进行比对，如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入筛选模块，如果不符合就重新采集数据；

输出模块，用于将符合要求的项目数据从项目申报数据库同步到评审数据库；对评审数据库的申报信息进行三次筛选，并将最终数据输出在服务器的浏览页面上。

所述数据处理系统还包括数据分配模块，具体用于将与项目直接相关的数据存储到项目申报库主数据表中，与项目间接相关的数据存储到项目申报库各子数据表中，子数据表之间通过项目主键关联；申报数据库的子数据表中还存储有历史项目申报信息。

所述查重判断模块中，具体还包括选择模块，选择模块用于对主计算机读取第一缓存区中的项目申报库各子数据表存储的数据进行分词或者直接匹配，利用判断当前的申报项目的信息是否为项目名称或论文论著名称，如果是就进入关键词比较模块，如果不是，再进行判断是否为项目的完成人姓名及身份证号或知识产权号，如果是，则进入直接匹配模块；

关键词比较模块，用于将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较，如果相似度不低于设定值，判定重复，否则不重复；

直接匹配模块，用于将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配，如果相同判定重复，否则不重复；

存储模块，用于将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区，将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。

所述关键词比较模块，具体包括：

关键词提取模块，用于取出当前申报项目的信息及历史项目申报信息中的一个，对取出的信息进行分词，将分解出的关键词分别存储到主计算机中项目申报数据库对应的两个数组中；

相似度模块，用于得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度，将该相似度与设定值比较，如果相似度不低于设定值，判定重复，否则不重复。

所述直接匹配模块，具体包括：

匹配模块，用于将远程数据采集终端采集的申报项目的信息与申报数据库的子数据表中历史项目申报信息直接进行遍历循环匹配，判断是否匹配，如果匹配，则判定重复，否则，不重复。

所述筛选模块，具体包括：

筛选存储模块，用于调用科技项目学科信息并以数据集A的形式存储在评审数据库的子数据表中，评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息；

一级学科提取模块，用于在数据集B中选取专家学科信息并作为条件因素，判断该专家学科信息的条件因素是否为一级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目学科信息的关键因素匹配，遍历专家学科信息中的条件因素是否包含关键因素，如果包含则匹配，否则不匹配；

二级学科提取模块，用于判断该专家信息的条件因素是否为二级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配，遍历专家信息中的条件因素是否包含关键因素，如果包含则匹配，否则不匹配；

三级学科提取模块，用于判断该专家信息的条件因素是否为三级学科，如果是，则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配，遍历专家信息中的条件因素是否包含关键因素，如果包含则匹配，否则不匹配；

随机数据生成模块，用于从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量，并将取出的数据存储至评审数据库；

所述终端服务器为具有网络接口的笔记本及手机。

所述随机数据生成模块具体为，根据Random(随机)函数返回的零到指定数目的随机数，选取数据，直到选够指定数目。

所述筛选模块包括一次筛选模块、二次筛选模块及三次筛选模块，所述一次筛选模块用于对符合要求的项目进行第一次筛选，根据项目信息遴选对应的网络评审专家，通过网络评审对同步到评审数据库中的数据进行筛选；将筛选出的申报项目数据存储到评审数据库中的第三缓存区；

所述二次筛选模块用于对存储到第三缓存区中的申报项目数据进行第二次筛选；根据项目信息遴选资深专家，对一次筛选模块中取出的数据进行专家投票，从投票结果中取出初步获奖项目，将初步获奖项目的数据存储到评审数据库中的第四缓存区；

所述三次筛选模块用于对存储到第四缓存区中的申报项目数据进行数据第三次筛选；根据项目信息遴选科技委员会专家，对二次筛选模块中取出的数据进行专家审核，从审核结果中取出最终获奖项目，将最终获奖项目存储到评审数据库中的第五缓存区；将存储在评审数据库中的第五缓存区中的最终获奖项目的数据输出。

直接相关的数据包括项目基本信息；间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件；采集数据包括：项目基本信息、项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件；所述项目基本信息包括：项目名称、项目学科、技术领域、项目来源及所属国民经济行业等；所述知识产权包括：知识产权号、知识产权名称、知识产权人和知识产权取得时间；所述完成人包括：完成人的姓名、身份证号和完成人顺序。

所述项目采集模块中数据存储形式包括：数据表、图片、Word文档及PDF文档，存储为不同格式数据，数据表便于查询、统计，图片及PDF文档确保数据真实性，Word文档为了便于保持数据原有格式，便于查看。

所述一次筛选模块、二次筛选模块和三次筛选模块是不同的，对数据的评价不同，一次筛选模块用于打分、二次筛选模块用于投票分等级、三次筛选模块用于投票表决。但是一次筛选模块、二次筛选模块和三次筛选模块中专家遴选的过程是相同的。

本发明的有益效果：

数据判断优势在于系统自动提取查重因素，进行复杂匹配计算，减少人为因素，提高查重结果的公正和正确性，减轻工作人员工作量，极大提高工作效率。数据查重是整个科技奖励系统中的重要环节，数据处理过程复杂，处理手段不同。针对不同数据采取不同方式查重，是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识，不存在组合的可能。项目名称及论文论著名称可分解重组，进行分词计算相似度可更精确的查询重复项目。

通过网络评审进行数据筛选的优势，减少工作成本，筛选过程减少其他因素的干扰使筛选更客观。专家遴选优势是随机选取专家且依据项目学科与专家学科关联，使专家遴选公平公正、专家更具针对性，评审结果质量更高。

附图说明

图1为本发明的主流程示意图；

图2为本发明的数据判断流程示意图；

图3本发明的数据判断关键词比较流程示意图；

图4为本发明的数据判断直接匹配流程示意图；

图5为本发明的专家遴选流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，一种具有系统检测及生物识别功能的数据处理方法，包括如下步骤：

步骤一：系统检测，使用浏览器打开网站，通过JS脚本自动检测当前用户使用浏览器版本，对于非IE系列浏览器给予提示，并关闭；检测使用浏览器符合要求即进入系统进行数据采集；

步骤二：采集申报项目的数据；将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库，将采集的与项目直接相关的数据存储到项目申报库主数据表中，每条数据对应唯一项目编号，与项目间接相关的数据存储到项目申报库各子数据表中，子数据表中设置项目编号作为外键与主数据表关联；采集的图片、Word和PDF文档数据以文件形式存储至服务器缓存区，将文档相对路径存储至项目申报库附件子数据表中；

步骤三：读取项目申报库主数据表及各子数据表中数据，判断数据是否符合要求；对于图片文档，利用项目申报库附件子数据表中文档路径调用服务器缓存区图片文档，读取图片文档内容，识别完成人笔迹并与笔迹特征库进行比对，完成单位盖章与完成单位数据表完成单位名称是否相符，如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四，如果不符合就返回步骤二；

步骤四：将步骤二中符合要求的项目数据从项目申报数据库同步到评审数据库，该同步过程为单向同步；

步骤五：对符合要求的项目进行多次筛选，根据项目信息遴选对应的网络评审专家，通过网络评审对同步到评审数据库中的数据进行筛选；将筛选出的申报项目数据存储到评审数据库中的第一缓存区；对存储到第一缓存区中的申报项目数据进行第二次筛选；根据项目信息遴选资深专家，对步骤四中取出的数据进行专家投票，从投票结果中取出初步获奖项目，将初步获奖项目的数据存储到评审数据库中的第二缓存区；对存储到第二缓存区中的申报项目数据进行数据第三次筛选；根据项目信息遴选科技委员会专家，对步骤五中取出的数据进行专家审核，从审核结果中取出最终获奖项目，将最终获奖项目存储到评审数据库中的第三缓存区；

步骤六：将存储在评审数据库中的第三缓存区中的最终获奖项目的数据输出。

所述步骤二中，直接相关的数据包括项目基本信息；

间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件；

采集数据包括：项目基本信息、项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件；

所述项目基本信息包括：项目名称、项目学科、技术领域、项目来源及所属国民经济行业等；

所述知识产权包括：知识产权号、知识产权名称、知识产权人和知识产权取得时间；

所述完成人包括：完成人的姓名、身份证号和完成人顺序。

所述步骤二中数据存储形式包括：数据表、图片、Word文档及PDF文档，存储为不同格式数据，数据表便于查询、统计，图片及PDF文档确保数据真实性，Word文档为了便于保持数据原有格式，便于查看。

所述步骤三中，对步骤二中存储的数据进行分词或者直接匹配，计算相似度，如果相似度低于设定值，就判断为符合要求，否则，判断为不符合要求。用相似度计算方式查重，是为了更大程度上查询出重复项目，避免重新组合项目重复申报；所述分词的数据包括项目名称和论文论著名称；所述直接匹配的数据包括：完成人的姓名及身份证号和知识产权号。

所述步骤五中具体过程为：设置评分指标的权重，遴选专家，对步骤三中同步的数据进行专家评分，依据权重对专家评分进行加和得到项目得分，依据项目得分从高到低进行排序，从排序结果中取出设定数目的项目。

所述步骤五中的投票包括：一等奖、二等奖、三等奖和不评奖。

所述步骤五中审核包括有异议和无异议。

所述步骤六，将步骤六筛选出的数据输出，输出形式为Word格式文档。Word格式文档输出，便于用户自行调整数据格式。

如图2所示，所述步骤三取项目申报库主数据表及各子数据表中数据，判断数据是否符合要求的步骤包括：

步骤(3-1)：从项目申报库主数据表及各子数据表提取因素；所述因素包括：项目名称、项目的完成人姓名及身份证号、知识产权号、论文论著名称；

步骤(3-2)：判断因素是否为项目名称和论文论著名称，如果是就进入步骤(3-3)，否则就进入步骤(3-4)；

步骤(3-3)：将项目名称和论文论著名称与另一项目中关键词比较，如果相同，则判断项目重复，否则项目不重复；

步骤(3-4)：将项目的完成人姓名及身份证号、知识产权号与另一项目直接匹配，如果相同，则判断项目重复，否则项目不重复；

步骤(3-5)：结果存储；对步骤(3-3)和步骤(3-4)比较和匹配结果存储到项目申报数据库。

数据查重是整个科技奖励系统中的重要环节，数据处理过程复杂，处理手段不同。针对不同数据采取不同方式查重，是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识，不存在组合的可能。项目名称及论文论著名称可分解重组，进行分词计算相似度可更精确的查询重复项目。

如图3所示，所述步骤(3-3)关键词比较的具体步骤包括：

步骤(3-3-1)：从项目申报数据库取出当前项目和另一项目的项目名称或论文论著名称；所述另一项目指当前年度其他项目或前三年所有项目中的一个项目；

步骤(3-3-2)：提取关键词；对步骤(3-3-1)取出的数据采用ShootSearch组件分词，将分解出的关键词分别存储到数组；

步骤(3-3-3)：关键词匹配；对步骤(3-3-2)得到的两个数组进行遍历循环比较，得出相同关键词数及各组关键词数；

步骤(3-3-4)：计算相似度；比较步骤(3-3-3)得出的两组关键词数大小，取出较小关键词数，用相同关键词数除以较小关键词数得出相似度；

步骤(3-3-5)：判断是否重复；将步骤(3-3-4)得出的相似度与设定值比较，如果相似度不低于设定值，判定重复，否则不重复；

步骤(3-3-6)：数据存储；将步骤(3-3-5)判重的数据存储到项目申报数据库。

如图4所示，所述步骤(3-4)直接匹配的步骤包括：

步骤(3-4-1)：从项目申报数据库取出当前项目及另一项目完成人姓名及身份证号或知识产权号；所述另一项目：在因素为完成人姓名或身份证号时，指当前年度的其他项目中的一个项目；在因素为知识产权号时，指当前年度的其他项目或前三年所有项目中的一个项目。

步骤(3-4-2)：直接匹配；对步骤(3-4-1)取出的数据直接进行比较；

步骤(3-4-3)：判断是否重复；对步骤(3-4-2)中比较相同的判定重复，否则不重复；

步骤(3-4-4)：数据存储，将步骤(3-4-3)判重的数据存储到项目申报数据库。

如图5所示，所述步骤五中的专家的遴选过程如下：

步骤(I)：从数据集A即项目学科集合中取出关键因素即项目第一学科，从数据集B即专家学科集合中取出因素1即第一学科、因素2即第二学科及因素3即第三学科；

步骤(II)：选取条件因素；所属条件因素包括：第一学科、第二学科和第三学科；

步骤(III)：判断条件因素是否为因素1即第一学科，如果是就进入步骤(IV)且令n＝1，否则进入步骤(V)；

步骤(IV)：将因素n与关键因素匹配；遍历因素n中是否包含关键因素，如果包含则匹配，否则不匹配；如果匹配则进入步骤(VI)，否则返回步骤(II)；

步骤(V)：判断条件因素是否为因素2即第二学科，如果是就进入步骤(IV)且令n＝2，否则进入步骤(IV)且令n＝3；

步骤(VI)：从数据集B选取匹配数据；根据步骤(IV)匹配结果选取数据；

步骤(VII)：随机选取指定数目数据；根据Random函数返回的零到指定书目的随机数，选取数据，直到选够指定数目；

步骤(VIII)：数据存储；将步骤(VII)取出的数据存储至评审数据库。

一种具有系统检测及生物识别功能的数据处理系统，包括远程数据采集终端，用于将采集的申报项目的数据信息存储到网络服务器的缓存区，将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库；

所述关键词比较模块，具体包括：

所述直接匹配模块，具体包括：

所述筛选模块，具体包括：

本发明数据判断优势在于系统自动提取查重因素，进行复杂匹配计算，减少人为因素，提高查重结果的公正和正确性，减轻工作人员工作量，极大提高工作效率。数据查重是整个科技奖励系统中的重要环节，数据处理过程复杂，处理手段不同。针对不同数据采取不同方式查重，是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识，不存在组合的可能。项目名称及论文论著名称可分解重组，进行分词计算相似度可更精确的查询重复项目。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种具有系统检测及生物识别功能的数据处理方法，其特征是，包括如下步骤：

步骤三：主计算机读取第一缓存区中的申报项目的信息，判断数据是否符合要求；对于图片文档，利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档，读取图片文档内容，识别完成人笔迹并与笔迹特征库进行比对，完成单位盖章与完成单位数据表完成单位名称是否相符，如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四，如果不符合就返回步骤二；

步骤四：将步骤三中符合要求的项目数据从项目申报数据库同步到评审数据库，该同步过程采取单向同步；对评审数据库的申报信息进行三次筛选，并将最终数据输出在服务器的浏览页面上；

2.如权利要求1所述一种具有系统检测及生物识别功能的数据处理方法，其特征是，所述步骤二中，对项目申报库各子数据表存储的数据进行分词或者直接匹配，利用判断模块判断当前的申报项目的信息是否为项目名称或论文论著名称，如果是就进入关键词比较模块，如果不是，再进行判断是否为项目的完成人姓名及身份证号或知识产权号，如果是，则进入直接匹配模块；

3.如权利要求2所述一种具有系统检测及生物识别功能的数据处理方法，其特征是，所述关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较，如果相似度不低于设定值，判定重复，否则不重复，具体过程为：

根据相似度模块得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度，将该相似度与设定值比较，如果相似度不低于设定值，判定重复，否则不重复；

所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个，对取出的信息进行分词，采用ShootSearch组件分词；

4.如权利要求1所述一种具有系统检测及生物识别功能的数据处理方法，其特征是，所述步骤三中对评审数据库的申报信息进行三次筛选，具体为：

5.如权利要求1所述一种具有系统检测及生物识别功能的数据处理方法，其特征是，所述三次筛选中，专家的遴选的过程具体为：

S5：从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量，并将取出的数据存储至评审数据库。

6.如权利要求1所述一种具有系统检测及生物识别功能的数据处理系统，其特征是，包括：

系统校验模块，用于通过JS脚本自动检测当前用户使用浏览器版本，对于非IE系列浏览器给予提示，并关闭；检测使用浏览器符合要求即进入系统进行数据采集；

输出模块，用于将符合要求的项目数据从项目申报数据库同步到评审数据库；对评审数据库的申报信息进行三次筛选，并将最终数据输出在服务器的浏览页面上；

7.如权利要求6所述一种具有系统检测及生物识别功能的数据处理系统，其特征是，所述查重判断模块中，具体还包括选择模块，选择模块用于对主计算机读取第一缓存区中的项目申报库各子数据表存储的数据进行分词或者直接匹配，利用判断当前的申报项目的信息是否为项目名称或论文论著名称，如果是就进入关键词比较模块，如果不是，再进行判断是否为项目的完成人姓名及身份证号或知识产权号，如果是，则进入直接匹配模块；

8.如权利要求7所述一种具有系统检测及生物识别功能的数据处理系统，其特征是，所述关键词比较模块，具体包括：

相似度模块，用于得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度，将该相似度与设定值比较，如果相似度不低于设定值，判定重复，否则不重复；

9.如权利要求6所述一种具有系统检测及生物识别功能的数据处理系统，其特征是，所述筛选模块包括一次筛选模块、二次筛选模块及三次筛选模块，所述一次筛选模块用于对符合要求的项目进行第一次筛选，根据项目信息遴选对应的网络评审专家，通过网络评审对同步到评审数据库中的数据进行筛选；将筛选出的申报项目数据存储到评审数据库中的第三缓存区；

10.如权利要求6所述一种具有系统检测及生物识别功能的数据处理系统，其特征是，所述筛选模块，具体包括：

随机数据生成模块，用于从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量，并将取出的数据存储至评审数据库。