CN105718506B - 一种科技项目查重对比的方法 - Google Patents

一种科技项目查重对比的方法 Download PDF

Info

Publication number
CN105718506B
CN105718506B CN201610000825.2A CN201610000825A CN105718506B CN 105718506 B CN105718506 B CN 105718506B CN 201610000825 A CN201610000825 A CN 201610000825A CN 105718506 B CN105718506 B CN 105718506B
Authority
CN
China
Prior art keywords
module
project
duplicate checking
text
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610000825.2A
Other languages
English (en)
Other versions
CN105718506A (zh
Inventor
胡新炜
史丽男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610000825.2A priority Critical patent/CN105718506B/zh
Publication of CN105718506A publication Critical patent/CN105718506A/zh
Application granted granted Critical
Publication of CN105718506B publication Critical patent/CN105718506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/832Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。具体的技术方案为:一种科技项目查重对比的方法,其特殊之处在于,是通过下述步骤实现的:将待比对的项目和已知的项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表。本发明的技术方案具有在检索查重领域快速、准确的特点。

Description

一种科技项目查重对比的方法
技术领域
本发明一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。
背景技术
为了避免在科技项目和科技成果的重复申报而导致的科研经费浪费现象,在科技项目和科技成果的申报审核过程中,主要依靠人工审查方式和通过将项目申报书关键词集与项目数据库做简单比对这两种查重方式,将重复申报的项目从大量上报的项目中筛选出来。这两种筛选方式虽然也能够在一定程度上减少科研项目的重复申报,但是仍然存在效率低下和容易出现错判、漏判的缺点。特别是简单比对项目申报书关键词集的查重方式,一旦申报者更换标题或将项目申报书的内容稍加改变,则能够轻易避开查重系统。针对这一问题,国内部分科技项目管理系统尝试将历年申报的项目数据库中的数据与新上报的项目数据做进行简单分析比较,但是可靠性较差。
发明内容
本发明所要解决的技术问题是提供一种项目查重比对系统及方法,提高科技项目查重比对的效率,解决现有技术中难以对重复申报的科技项目做出有效检测的技术问题。
具体的技术方案为:一种科技项目查重对比的方法,其特殊之处在于,是通过下述步骤实现的:将待比对的项目和已知的项目这两个项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表;
A,数据格式化模块:将两个项目中各个字段信息使用UTF-8编码进行格式化编码;
B,文本判定模块:计算数据格式化模块格式化后文本的大小,当大于150字节,则标记为长文本,否则标记短文本;
C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本以字段名为标签存入项目比对文件(XML格式) 形成特征词集合,且分词处理模块中还分为长文本分词模块和短文本分词模块;长文本分词模块:对长文本进行分词,分词采用Simhash算法,得到特征词对,其中包括特征词和权重,权重通过计算每个特征词在文本中的出现次数得出;短文本分词模块:对短文本进行分词,分词采用Shingle算法,对于段文本长度为L,每隔N个字符切一个特征词,如此切下去一共可以得到L-N+1个特征词(根据科技项目的特点,一般取N=10);
D,查重比对模块:依次取出两个项目比对文件中相同字段名标签下的特征词文本,为两个项目的逐项比对做好准备;长文本比对模块:先取两个项目相同字段名标签下的特征词对集合,分别采用64位Simhash方法处理这两个集合,分别生成指纹签名集,比较这两个指纹签名集的海明距离来判定项目的相似度;短文本比对模块:先取两个项目相同字段名标签下Shingle特征词集合A和B的交集,然后除以两个集合A和B的并集,计算出jaccard系数,将J与0.3比较, 若J大于0.3则判断两项目该字段内容相似(相似度值为1);
E,查重判定模块:根据项目各个字段的相似度值和比对数据库中项目权重评价表与之对应的项目各个字段的权重(各字段权重之和等于1),使用模糊综合评价法对两个项目进行相似度比较,当两个项目的相似度大于0.7,则判断两个项目相似;
F,报告模块:将两个项目的查重判定结果生成报告页返回给用户,若两个项目相似,则报告页面将逐条显示两个项目的相似内容;
G,项目相似度评价表:记录在比对数据库中,记录项目各比对字段的相似度值和最终查重结果,当两个项目相似,记为1,否则记为0。
为了能够更好的实现本发明的目的,提供更加准确的查重结果,可以将上述的技术方案,进一步的改进:
其改进点在于,在所述的数据格式化模块之前设置有比对检索模块,所述的比对检索模块是根据项目编号在对比数据库中查询,若项目以前比对过,则从库中直接取出该项目的分词信息,生成项目比对文件,不再进行分词处理。在所述的查重判定模块和报告模块之间设置比对存储模块,所述的比对存储模块将两个项目比对文件中的字段标签下的特征词文本和查重判定结果存储到比对数据库中备查。
本发明与现有技术相比具有如下的优点:
本发明的科技项目查重比对方法根据项目字段的大小分别利用两种分词比对方法对科技项目关键字段进行查重比对,并通过模糊综合评价法综合计算项目中关键项目字段的相似度信息从而判定出两个项目的是否重复,与传统的科技项目人工比对方式以及通过将项目申报书关键词集与项目数据库做简单比对等方式相比提高了项目查重准确率,减少了科技项目查重过程中容易出现的误判、漏判现象,本发明对于科技项目查重判定具有量化和统一的评价体系和标准,对项目相似度比较能够做出科学规范的判断。
附图说明
图1为本发明一种科技项目查重对比的方法的实施例1的结构示意图。
图2为本发明一种科技项目查重对比的方法的实施例2的结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案加以解释:
一种科技项目查重对比的方法(图1),是通过下述步骤实现的:将待比对的项目和已知的项目输入数据格式化模块1,并依此通过分词处理模块2、查重比对模块3、查重判定模块4、报告模块5,最终获得项目相似度评价表6;
A,数据格式化模块:将项目中各个字段信息使用UTF-8编码进行格式化编码;
B,文本判定模块:计算数据格式化模块格式化后文本的大小,若大于150字节,则标记为长文本,否则标记短文本;
C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本以字段名为标签存入项目比对文件(XML格式) 形成特征词集合,且分词处理模块中还分为长文本分词模块和短文本分词模块;长文本分词模块:对长文本进行分词,分词采用Simhash算法,得到特征词对,其中包括特征词和权重,权重通过计算每个特征词在文本中的出现次数得出;短文本分词模块:对短文本进行分词,分词采用Shingle算法,对于段文本长度为L,每隔N个字符切一个特征词,如此切下去一共可以得到L-N+1个特征词(根据科技项目的特点,一般取N=10);
D,查重比对模块:依次取出两个项目比对文件中相同字段名标签下的特征词文本,为两个项目的逐项比对做好准备;长文本比对模块:先取两个项目相同字段名标签下的特征词对集合,分别采用64位Simhash方法处理这两个集合,分别生成指纹签名集,比较这两个指纹签名集的海明距离来判定项目的相似度;短文本比对模块:先取两个项目相同字段名标签下Shingle特征词集合(分别标记为A和B)的交集,然后除以两个集合A和B的并集,计算出jaccard系数,将J与0.3比较, 若J大于0.3则判断两项目该字段内容相似(相似度值为1);
E,查重判定模块:根据项目各个字段的相似度值和比对数据库中项目权重评价表与之对应的项目各个字段的权重(各字段权重之和等于1),使用模糊综合评价法对两个项目进行相似度比较,当两个项目的相似度大于0.7,则判断两个项目相似;模糊综合评价法基于模糊数学,能够对受到多种因素制约的事物或对象做出一个总体的评价。它具有结果清晰,系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。在科技项目查重对比中运用模糊综合评价法,可以在评判两个项目单个影响因素如项目名称、项目主要内容、主要研究内容、主要创新点先进性、研究方法和技术路线等的相似度的基础上,据此进一步做出针对两个项目的整体相似度评判。解决了以往科技项目查重对比过程中仅注重单个因素的评判,不能做整体相似性评判的问题,提高了科技项目查重对比的准确率。
F,报告模块:将两个项目的查重判定结果生成报告页返回给用户,若两个项目相似,则报告页面将逐条显示两个项目的相似内容;
G,项目相似度评价表:记录在比对数据库中,记录项目各比对字段的相似度值和最终查重结果,如果两个项目相似,记为1,否则记为0。
实施例2
为了能够更好的实现本发明的目的,避免以前做过比对的项目重复做分词处理,提高查重效率,可以将实施1所述的技术方案,进一步的改进(参见图2):在所述的数据格式化模块1之前设置有比对检索模块7,所述的比对检索模块是根据项目编号在对比数据库中查询,若项目以前比对过,则从库中直接取出该项目的分词信息,生成项目比对文件,不再进行分词处理。在所述的查重判定模块4和报告模块5之间设置比对存储模块8,所述的比对存储模块将两个项目比对文件中的字段标签下的特征词文本和查重判定结果存储到比对数据库中备查。

Claims (1)

1.一种科技项目查重对比的方法,其特征在于,是通过下述步骤实现的:将待比对的项目和已知的项目这两个项目输入数据格式化模块,并依次通过文本判定模块、分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表;所述的数据格式化模块之前设置有比对检索模块;所述的查重判定模块和报告模块之间设置比对存储模块,所述的比对存储模块将两个项目比对文件中的字段标签下的特征词文本和查重判定结果存储到比对数据库中备查;
A,数据格式化模块:将两个项目中各个字段信息使用UTF-8编码进行格式化编码;
B,文本判定模块:计算数据格式化模块格式化后文本的大小,当大于150字节,则标记为长文本,否则标记短文本;
C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本以字段名为标签存入项目比对文件形成特征词集合,且分词处理模块中还分为长文本分词模块和短文本分词模块;长文本分词模块:对长文本进行分词,分词采用Simhash算法,得到特征词对,其中包括特征词和权重,权重是通过计算每个特征词在文本中的出现次数得出;
短文本分词模块:对短文本进行分词,分词采用Shingle算法,对于短文本长度为L,每隔N个字符切一个特征词,如此切下去一共可以得到L-N+1个特征词;
D,查重比对模块:依次取出两个项目比对文件中相同字段名标签下的特征词文本,为两个项目的逐项比对做好准备;长文本比对模块:先取两个项目相同字段名标签下的特征词对集合,分别采用64位Simhash方法处理这两个集合,分别生成指纹签名集,比较这两个指纹签名集的海明距离来判定项目的相似度;短文本比对模块:先取两个项目相同字段名标签下Shingle特征词集合A和B的交集,然后除以两个集合A和B的并集,计算出jaccard系数J= ,将J与0.3比较,若J大于0.3则判断两项目该字段内容相似;
E,查重判定模块:根据项目各个字段的相似度值和比对数据库中项目权重评价表与之对应的项目各个字段的权重,使用模糊综合评价法对两个项目进行相似度比较,当两个项目的相似度大于0.7,则判断两个项目相似;
F,报告模块:将两个项目的查重判定结果生成报告页返回给用户,当两个项目相似,则报告页面将逐条显示两个项目的相似内容;
G,项目相似度评价表:记录在比对数据库中,记录项目各比对字段的相似度值和最终查重结果,当两个项目相似,记为1,否则记为0。
CN201610000825.2A 2016-01-04 2016-01-04 一种科技项目查重对比的方法 Active CN105718506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610000825.2A CN105718506B (zh) 2016-01-04 2016-01-04 一种科技项目查重对比的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610000825.2A CN105718506B (zh) 2016-01-04 2016-01-04 一种科技项目查重对比的方法

Publications (2)

Publication Number Publication Date
CN105718506A CN105718506A (zh) 2016-06-29
CN105718506B true CN105718506B (zh) 2019-03-05

Family

ID=56147057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610000825.2A Active CN105718506B (zh) 2016-01-04 2016-01-04 一种科技项目查重对比的方法

Country Status (1)

Country Link
CN (1) CN105718506B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN106649218A (zh) * 2016-11-16 2017-05-10 中国人民解放军国防科学技术大学 一种基于SimHash算法的二进制文件快速比较方法
CN106649221A (zh) * 2016-12-06 2017-05-10 北京锐安科技有限公司 重复文本的检测方法及装置
CN106599227B (zh) * 2016-12-19 2020-04-17 北京天广汇通科技有限公司 用于获取基于属性值的对象之间的相似度的方法与装置
CN106649749B (zh) * 2016-12-26 2019-07-16 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN106934038B (zh) * 2017-03-15 2018-01-05 江苏华生基因数据科技股份有限公司 一种医疗数据查重和关联的方法及系统
CN110020026A (zh) * 2017-07-19 2019-07-16 上海互宝能源科技有限责任公司 项目申报数据的查重系统及方法
CN107943965B (zh) * 2017-11-27 2021-01-15 福建中金在线信息科技有限公司 相似文章检索方法及装置
CN108280127A (zh) * 2017-12-15 2018-07-13 广州艾媒数聚信息咨询股份有限公司 一种海量相似新闻查重甄选方法、系统及装置
CN108334567B (zh) * 2018-01-16 2021-09-10 北京奇艺世纪科技有限公司 垃圾文本判别方法、装置及服务器
CN108573045B (zh) * 2018-04-18 2021-12-24 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108846031B (zh) * 2018-05-28 2022-05-13 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109636352A (zh) * 2018-12-20 2019-04-16 湖南晖龙集团股份有限公司 一种基于财政大数据的分布式内容查重预警系统
CN110162752B (zh) * 2019-05-13 2023-06-27 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN110390084B (zh) * 2019-06-19 2021-01-26 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110532385A (zh) * 2019-08-06 2019-12-03 镇江方略科技咨询有限公司 基于大数据的科技项目特征语句提取系统及其推荐方法
CN110428179A (zh) * 2019-08-06 2019-11-08 镇江方略科技咨询有限公司 一种科技项目文件用质量评估系统
CN110941743B (zh) * 2019-10-14 2023-09-15 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
CN110888920B (zh) * 2019-12-06 2022-10-11 北京中电普华信息技术有限公司 一种项目功能相似度的确定方法及装置
CN111582837A (zh) * 2020-05-20 2020-08-25 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目的查重方法及终端
CN111832304B (zh) * 2020-06-29 2024-02-27 上海巧房信息科技有限公司 楼盘名称的查重方法、装置、电子设备及存储介质
CN112214983B (zh) * 2020-09-21 2023-08-11 远光软件股份有限公司 一种数据记录查重方法及系统
CN112214986B (zh) * 2020-11-12 2023-11-14 深圳供电局有限公司 一种科研项目重复申报智能分析装置
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113807816A (zh) * 2021-09-18 2021-12-17 山东亿云信息技术有限公司 一种项目建设方案查重方法、装置、存储介质及电子设备
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Near Duplicate Detection in an Academic Digital Library";Kyle Williams etc.;《ACM》;20130913;论文第1-4节
"网页查重算法Shingling和Simhash研究";马成前等;《网页查重算法Shingling和Simhash研究》;20090131;第37卷(第1期);论文第2-3节

Also Published As

Publication number Publication date
CN105718506A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105718506B (zh) 一种科技项目查重对比的方法
US20210342404A1 (en) System and method for indexing electronic discovery data
JP6357161B2 (ja) データストレージシステムにおけるデータソースを特徴付けるための方法
US20190236102A1 (en) System and method for differential document analysis and storage
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
CN108664574B (zh) 信息的输入方法、终端设备及介质
BR112019015920A2 (pt) Ingestão de dados heterogêneos em escala massiva e resolução de usuário
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
WO2017092337A1 (zh) 评论标签提取方法和装置
WO2017074174A1 (en) A system and method for processing big data using electronic document and electronic file-based system that operates on rdbms
CN102129470A (zh) 标签聚类方法和系统
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
US20250029413A1 (en) Continuous learning for document processing and analysis
CN113297238B (zh) 基于历史变更记录进行信息挖掘的方法和装置
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
CN105824791A (zh) 一种参考文献格式检查方法
CN112347271A (zh) 基于文字语义识别的配电物联网设备缺陷辅助录入方法
CN112417082A (zh) 一种科研成果数据消歧归档存储方法
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
CN112950086B (zh) 民航企事业单位绩效考核指标体系的动态构建方法及系统
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理系统
CN119003642B (zh) 一种非结构化文本类信息融合方法及装置
CN116881262B (zh) 一种智能化的多格式数字身份映射方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 264000 Unit 2, No. 98, Shangkuang West Road, Zhifu District, Yantai City, Shandong Province

Applicant after: Hu Xinwei

Address before: 264009 No. 184-28 Xingyao Road, Zhifu District, Yantai City, Shandong Province

Applicant before: Hu Xinwei

CB02 Change of applicant information
CB03 Change of inventor or designer information

Inventor after: Hu Xinwei

Inventor after: Shi Linan

Inventor before: Hu Xinwei

Inventor before: Shi Linan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant