CN114780825A - 基于大数据的政务信息化项目的查重管理方法 - Google Patents

基于大数据的政务信息化项目的查重管理方法 Download PDF

Info

Publication number
CN114780825A
CN114780825A CN202210430901.9A CN202210430901A CN114780825A CN 114780825 A CN114780825 A CN 114780825A CN 202210430901 A CN202210430901 A CN 202210430901A CN 114780825 A CN114780825 A CN 114780825A
Authority
CN
China
Prior art keywords
svi
similarity
big data
value
cfw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210430901.9A
Other languages
English (en)
Inventor
王瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Xiaoapple Technology Co ltd
Original Assignee
Chongqing Xiaoapple Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Xiaoapple Technology Co ltd filed Critical Chongqing Xiaoapple Technology Co ltd
Priority to CN202210430901.9A priority Critical patent/CN114780825A/zh
Publication of CN114780825A publication Critical patent/CN114780825A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及政务信息化项目查重管理技术领域,且公开了一种基于大数据的政务信息化项目的查重管理方法,通过获取政务信息化项目的标题,从标题中提取出核心特征词,采用核心特征词为检索依据,从存储有政务信息化项目的大数据网络中检索得到大数据项目,并提取出与核心特征词对应的关键词,对核心特征词与关键词的相似度进行评述,获得相似度值,计算得到用于评述政务信息化项目与大数据项目的综合相似度评价等级值,这使得在评述政务信息化项目与大数据项目的相似度时,不必依靠主观判断,而是拥有了客观科学的评述标准,该方法适用于跨计划项目查重领域。

Description

基于大数据的政务信息化项目的查重管理方法
技术领域
本发明涉及政务信息化项目查重管理技术领域,具体为一种基于大数据的政务信息化项目的查重管理方法。
背景技术
科技项目查重是避免重复立项、重复建设的重要措施之一,文献检索发现:姜韶华提出一种基于文本挖掘的科研项目管理原型系统,重点研究和解决科研项目文本的切分和特征建模等问题;左川提出一种基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度;方延风提出将一种改进的TF-IDF方法用于科技项目查重,考虑了特征词的位置和长度两种因素;吴燕提出一种基于层次聚类的科技项目分类和查重方法,在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素;林明才等提出一种改进的模糊聚类算法RM-FCM,在计算项目相似度时考虑了不同属性的特征项对科研项目的重要性;刘荫明等从科技查新实践、地区和部门多头管理、科研论文所依托的基金项目数量等方面研究我国科研的重复立项现象,通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。
上述研究工作基本都是从项目申请书入手,对申请书进行分词或将其作为整体处理,然后提取特征向量,利用特征向量的相似度表示项目的相似度。一方面不同计划的申请书格式不同,学科领域差别较大,很难找到统一的描述模式;另一方面,项目申请书一般不对外公开,获取难度很大。因此,上述方法只是适应于在单个计划内部进行项目查重,而很难进行跨计划的项目查重。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种基于大数据的政务信息化项目的查重管理方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的政务信息化项目的查重管理方法,包括以下步骤:
步骤S1,获取需要查重政务信息化项目的标题,从标题中提取出核心特征词CFWi;其中,i为核心特征词CFW的序列编号,i=1,2,...,n1
步骤S2,建立政务信息化项目的相似度评价等级,并确定相似度评价等级标准的量值范围[mJd,mJu];
其中,J为相似度评价等级的等级编号,J=1,2,...,n2
步骤S3,采用至少包括其中一个核心特征词CFWi为检索依据,从存储有政务信息化项目的大数据网络中检索得到若干个大数据项目;
获取大数据项目的标题、并提取出与所述核心特征词CFWi对应的关键词Kdj;其中,j为关键词Kd的序列编号,j=1,2,...,n3
步骤S4,评述并给出核心特征词CFWi与关键词Kdj之间的相似度值SVI;其中,I为相似度值SV的序列编号,I=1,2,...,n4
步骤S5,构造用于表征相似度值SVI的评价等级属于程度的关联度值函数δ(SVI-J);
根据关联度值函数δ(SVI-J),计算核心特征词CFWi与关键词Kdj之间相似度值SVI对应于各个相似度评价等级的关联度值δSVI-J
根据关联度值δSVI-J,得到标准等级关联度值δ*SVI
步骤S6,根据模型Q(δ*SVI)=[N-J(δ*SVI)+1]*(1+δ*SVI),计算相似度值SVI的权重值:
其中,N为相似度评价等级的等级数量,J(δ*SVI)表示δ*SVI的等级编号;
根据模型W(δ*SVI)=Q(δ*SVI)/[Q(δ*SV1)+Q(δ*SV2)+...+Q(δ*SVI)],计算相似度值SVI的归一化权重值;
步骤S7,根据模型SSV-J=W(δ*SV1)δ(SVI-J)+W(δ*SV2)δ(SVI-J)+...+W(δ*SVI)δ(SVI-J),计算相似度值SVI对应于各个评价等级的加权关联度值;
根据计算模型TSV-J=[SSV-J-min(SSVI)]/[max(SSVI)-min(SSVI)],计算相似度值SVI对应于各个评价等级的综合关联度值;
根据计算模型G=∑[J(TSVI-J)*TSVI-J]/∑(TSVI-J),计算政务信息化项目与检索到的大数据项目Bdp之间的综合相似度评价等级值;
其中,J(TSVI-J)表示TSVI-J的等级编号;
步骤S8,以综合相似度评价等级值G,来判定政务信息化项目与大数据项目的相似度等级。
优选的,所述步骤S2,相似度评价等级包括非常相似、一般相似、较低相似;
其中,非常相似的量值范围为[m1d,m1u];
一般相似的量值范围为[m2d,m2u];
较低相似的量值范围为[m3d,m3u]。
优选的,所述步骤S3,采用单一核心特征词CFWi为检索依据,或采用若干个组合的核心特征词CFWi为检索依据,或采用提取出的全部核心特征词CFWi为检索依据向存储有政务信息化项目的大数据网络发出检索请求,得到若干个大数据项目。
优选的,所述步骤S8,若综合相似度评价等级值G位于区间[0,1.5)时,则判定政务信息化项目与检索到的大数据项目非常相似;
若综合相似度评价等级值G位于区间[1.5,2.5)时,则判定政务信息化项目与检索到的大数据项目一般相似;
若综合相似度评价等级值G位于区间[2.5,3.5)时,则判定政务信息化项目与检索到的大数据项目较低相似。
(三)有益的技术效果
与现有技术相比,本发明具备以下有益的技术效果:
本发明通过获取政务信息化项目的标题,从标题中提取出核心特征词,采用核心特征词为检索依据,从存储有政务信息化项目的大数据网络中检索得到若干个大数据项目,并提取出与核心特征词对应的关键词,对核心特征词与关键词的相似度进行评述,获得相似度值,计算得到用于评述政务信息化项目与大数据项目的综合相似度评价等级值,这使得在评述政务信息化项目与大数据项目的相似度时,不必依靠主观判断,而是拥有了客观科学的评述标准,其能够较好地适用于跨计划的项目查重领域。
具体实施方式
一种基于大数据的政务信息化项目的查重管理方法,包括以下步骤:
步骤S1,获取需要进行查重的政务信息化项目的标题,从获取的标题中,提取出若干个的核心特征词CFWi;其中,i为核心特征词CFW的序列编号,i=1,2,...,n1
步骤S2,建立政务信息化项目的相似度评价等级,并确定相似度评价等级标准的量值范围[mJd,mJu];
其中,J为相似度评价等级的等级编号,J=1,2,...,n2
所述相似度评价等级包括非常相似、一般相似、较低相似;
其中,非常相似的量值范围为[m1d,m1u];
一般相似的量值范围为[m2d,m2u];
较低相似的量值范围为[m3d,m3u];
步骤S3,采用单一核心特征词CFWi为检索依据,或采用若干个组合的核心特征词CFWi为检索依据,或采用提取出的全部核心特征词CFWi为检索依据,也即:采用至少包括其中一个核心特征词CFWi为检索依据,向存储有政务信息化项目的大数据网络发出检索请求,得到若干个大数据项目;
选取检索到的其中一个大数据项目,获取大数据项目的标题,从获取的标题中,提取出与所述核心特征词CFWi呈现一一对应的关键词Kdj;其中,j为关键词Kd的序列编号,j=1,2,...,n3
步骤S4,根据政务信息化项目所属技术领域的技术词语所表示的技术内涵,对核心特征词CFWi与关键词Kdj的相似度进行评述,并给出任一核心特征词CFWi与其所对应关键词Kdj之间的相似度值SVI;其中,I为相似度值SV的序列编号,I=1,2,...,n4
步骤S5,构造用于表征相似度值SVI的评价等级属于程度的关联度值函数δ(SVI-J):
根据关联度值函数δ(SVI-J),计算核心特征词CFWi与关键词Kdj之间相似度值SVI对应于各个相似度评价等级的关联度值δSVI-J
根据关联度值δSVI-J,得到标准等级关联度值δ*SVI
当SVI≤(mJd+mJu)/2,δ(SVI-J)=2(SVI-mJd)/(mJu-mJd);
当SVI≥(mJd+mJu)/2,δ(SVI-J)=2(mJu-SVI)/(mJu-mJd);
δ*SVI=max{δ(SVI-J)};
其中,J为相似度评价等级的等级编号;
步骤S6,根据核心特征词CFWi与关键词Kdj之间相似度值SVI对应的标准等级关联度值δ*SVI,按照计算模型Q(δ*SVI)=[N-J(δ*SVI)+1]*(1+δ*SVI),计算各个相似度值SVI的权重值;
其中,N为相似度评价等级的等级数量,J(δ*SVI)表示δ*SVI的等级编号;
根据计算模型W(δ*SVI)=Q(δ*SVI)/[Q(δ*SV1)+Q(δ*SV2)+…+Q(δ*SVI)],计算各个相似度值SVI的归一化权重值;
步骤S7,根据计算模型SSV-J=W(δ*SV1)δ(SVI-J)+W(δ*SV2)δ(SVI-J)+...+W(δ*SVI)δ(SVI-J),计算相似度值SVI对应于各个评价等级的加权关联度值;
根据计算模型TSV-J=[SSV-J-min(SSVI)]/[max(SSVI)-min(SSVI)],计算相似度值SVI对应于各个评价等级的综合关联度值;
根据计算模型G=∑[J(TSVI-J)*TSVI-J]/∑(TSVI-J),计算政务信息化项目与检索到的大数据项目Bdp之间的综合相似度评价等级值;
其中,J(TSVI-J)表示TSVI-J的等级编号;
步骤S8,若综合相似度评价等级值G位于区间[0,1.5)时,则判定政务信息化项目与检索到的大数据项目非常相似;
若综合相似度评价等级值G位于区间[1.5,2.5)时,则判定政务信息化项目与检索到的大数据项目一般相似;
若综合相似度评价等级值G位于区间[2.5,3.5)时,则判定政务信息化项目与检索到的大数据项目较低相似;
以政务信息化项目P为例进行具体说明:
从政务信息化项目P的标题中,提取出核心特征词CFW1、核心特征词CFW1、核心特征词CFW1
非常相似的量值范围为[7,10];
一般相似的量值范围为[5,7);
较低相似的量值范围为[0,5);
从大数据项目Bdp的标题中,提取出与核心特征词CFW1对应的关键词Kd1、与核心特征词CFW2对应的关键词Kd2、与核心特征词CFW3对应的关键词Kd3
获取核心特征词CFW1与关键词Kd1的相似度值SV1=8、核心特征词CFW2与关键词Kd2的相似度值SV2=6、核心特征词CFW3与关键词Kd3的相似度值SV3=2;
计算关联度值δSV1-1、δSV1-2、δSV1-3、δSV2-1、δSV2-2、δSV2-3、δSV3-1、δSV3-2、δSV3-3,与标准等级关联度值δ*SV1、δ*SV2、δ*SV3,具体结果如下:
Figure BDA0003611374030000091
计算权重值Q(δ*SV1)、Q(δ*SV2)、Q(δ*SV3)、以及归一化权重值W(δ*SV1)、W(δ*SV2)、W(δ*SV3),具体结果如下:
Figure BDA0003611374030000092
计算加权关联度值SSV-1、SSV-2、SSV-3,具体结果如下:
SSV-1 SSV-2 SSV-3
-0.49 -0.59 -0.57
计算综合关联度值TSV-1、TSV-2、TSV-3,具体结果如下:
TSV-1 TSV-2 TSV-3
1 0 0.22
计算综合相似度评价等级值计算如下:
G=[J(TSVI-1)*TSVI-1+J(TSVI-2)*TSVI-2+J(TSVI-3)*TSVI-3]/(TSVI-1+TSVI-2+TSVI-3)
=[1*1+2*0+3*0.22]/(1+0+0.22)=1.36
由于1.36位于区间[0,1.5)时,则判定政务信息化项目P与检索到的大数据项目Bdp非常相似。

Claims (4)

1.一种基于大数据的政务信息化项目的查重管理方法,其特征在于,包括以下步骤:
步骤S1,获取需要查重政务信息化项目的标题,从标题中提取出核心特征词CFWi;其中,i为核心特征词CFW的序列编号,i=1,2,...,n1
步骤S2,建立政务信息化项目的相似度评价等级,并确定相似度评价等级标准的量值范围[mJd,mJu];
其中,J为相似度评价等级的等级编号,J=1,2,...,n2
步骤S3,采用至少包括其中一个核心特征词CFWi为检索依据,从存储有政务信息化项目的大数据网络中检索得到若干个大数据项目;
获取大数据项目的标题、并提取出与所述核心特征词CFWi对应的关键词Kdj;其中,j为关键词Kd的序列编号,j=1,2,...,n3
步骤S4评述并给出核心特征词CFWi与关键词Kdj之间的相似度值SVI;其中,I为相似度值SV的序列编号,I=1,2,...,n4
步骤S5,构造用于表征相似度值SVI的评价等级属于程度的关联度值函数δ(SVI-J);
根据关联度值函数δ(SVI-J),计算核心特征词CFWi与关键词Kdj之间相似度值SVI对应于各个相似度评价等级的关联度值δSVI-J
根据关联度值δSVI-J,得到标准等级关联度值δ*SVI
步骤Sδ,根据模型Q(δ*SVI)=[N-J(δ*SVI)+1]*(1+δ*SVI),计算相似度值SVI的权重值;
其中,N为相似度评价等级的等级数量,J(δ*SVI)表示δ*SVI的等级编号;
根据模型W(δ*SVI)=Q(δ*SVI)/[Q(δ*SV1)+Q(δ*SV2)+…+Q(δ*SVI)],计算相似度值SVI的归一化权重值;
步骤S7,根据模型SSV-J=W(δ*SV1)δ(SVI-J)+W(δ*SV2)δ(SVI-J)+…+W(δ*SVI)δ(SVI-J),计算相似度值SVI对应于各个评价等级的加权关联度值;
根据计算模型TSV-J=[SSV-J-min(SSVI)]/[max(SSVI)-min(SSVI)],计算相似度值SVI对应于各个评价等级的综合关联度值;
根据计算模型G=∑[J(TSVI-J)*TSVI-J]/∑(TSVI-J),计算政务信息化项目与检索到的大数据项目Bdp之间的综合相似度评价等级值;
其中,J(TSVI-J)表示TSVI-J的等级编号;
步骤S8,以综合相似度评价等级值G,来判定政务信息化项目与大数据项目的相似度等级。
2.根据权利要求1所述的基于大数据的政务信息化项目的查重管理方法,其特征在于,所述步骤S2,相似度评价等级包括非常相似、一般相似、较低相似;
其中,非常相似的量值范围为[m1d,m1u];
一般相似的量值范围为[m2d,m2u];
较低相似的量值范围为[m3d,m3u]。
3.根据权利要求1所述的基于大数据的政务信息化项目的查重管理方法,其特征在于,所述步骤S3,采用单一核心特征词CFWi为检索依据,或采用若干个组合的核心特征词CFWi为检索依据,或采用提取出的全部核心特征词CFWi为检索依据向存储有政务信息化项目的大数据网络发出检索请求,得到若干个大数据项目。
4.根据权利要求1所述的基于大数据的政务信息化项目的查重管理方法,其特征在于,所述步骤S8,若综合相似度评价等级值G位于区间[0,1.5)时,则判定政务信息化项目与检索到的大数据项目非常相似;
若综合相似度评价等级值G位于区间[1.5,2.5)时,则判定政务信息化项目与检索到的大数据项目一般相似;
若综合相似度评价等级值G位于区间[2.5,3.5)时,则判定政务信息化项目与检索到的大数据项目较低相似。
CN202210430901.9A 2022-04-23 2022-04-23 基于大数据的政务信息化项目的查重管理方法 Pending CN114780825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210430901.9A CN114780825A (zh) 2022-04-23 2022-04-23 基于大数据的政务信息化项目的查重管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210430901.9A CN114780825A (zh) 2022-04-23 2022-04-23 基于大数据的政务信息化项目的查重管理方法

Publications (1)

Publication Number Publication Date
CN114780825A true CN114780825A (zh) 2022-07-22

Family

ID=82431785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210430901.9A Pending CN114780825A (zh) 2022-04-23 2022-04-23 基于大数据的政务信息化项目的查重管理方法

Country Status (1)

Country Link
CN (1) CN114780825A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105446954A (zh) * 2015-11-18 2016-03-30 广东省科技基础条件平台中心 一种面向科技大数据的项目查重方法
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105446954A (zh) * 2015-11-18 2016-03-30 广东省科技基础条件平台中心 一种面向科技大数据的项目查重方法
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡新: "提防工程安全风险评价", 河海大学出版社 *

Similar Documents

Publication Publication Date Title
CN108763354B (zh) 一种个性化的学术文献推荐方法
CN108132961B (zh) 一种基于引用预测的参考文献推荐方法
CN109145087A (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111651678B (zh) 一种基于知识图谱的个性化推荐方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN104951562B (zh) 一种基于vlad双重自适应的图像检索方法
CN109376182A (zh) 基于计算机软件系统实现关联公司识别处理的方法
Chen et al. Fine-grained product categorization in e-commerce
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
Lee et al. Cover song identification using song-to-song cross-similarity matrix with convolutional neural network
Mohan Kumar et al. Sentiment analysis using robust hierarchical clustering algorithm for opinion mining on movie reviews-based applications
CN114780825A (zh) 基于大数据的政务信息化项目的查重管理方法
Royo-Letelier et al. Disambiguating music artists at scale with audio metric learning
Basuni et al. Comparison of the Accuracy of Drug User Classification Models Using Machine Learning Methods
Manikandan et al. A mathematical approach for feature selection and image retrieval of ultra sound kidney image databases
CN113672703A (zh) 一种用户信息的更新方法、装置、设备及存储介质
CN109034554B (zh) 相关性计算方法及系统
Ahamed et al. A Framework for Online Customer Reviews System Using Sentiment Scoring Method
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
CN106777191A (zh) 一种基于搜索引擎的检索模式生成方法及装置
Liu et al. Research on The Comment Text Classification based on Transfer Learning
CN111753084A (zh) 一种短文本特征提取与分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220722

RJ01 Rejection of invention patent application after publication