CN115438644B - 一种信息化项目相似度分析方法、存储介质及系统 - Google Patents

一种信息化项目相似度分析方法、存储介质及系统 Download PDF

Info

Publication number
CN115438644B
CN115438644B CN202211388208.6A CN202211388208A CN115438644B CN 115438644 B CN115438644 B CN 115438644B CN 202211388208 A CN202211388208 A CN 202211388208A CN 115438644 B CN115438644 B CN 115438644B
Authority
CN
China
Prior art keywords
item
similarity
function
project
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211388208.6A
Other languages
English (en)
Other versions
CN115438644A (zh
Inventor
高伟
李劲松
王攀峰
周宇
何庆华
丘志新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xin'an Data Co ltd
Original Assignee
Guangzhou Xin'an Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xin'an Data Co ltd filed Critical Guangzhou Xin'an Data Co ltd
Priority to CN202211388208.6A priority Critical patent/CN115438644B/zh
Publication of CN115438644A publication Critical patent/CN115438644A/zh
Application granted granted Critical
Publication of CN115438644B publication Critical patent/CN115438644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息化项目相似度分析方法、存储介质及系统,该方法根据重要性权重、语义相似度计算得到第一信息化项目相对于第二信息化项目的第一项目相似度均值,以及第二信息化项目相对于第一信息化项目的第二项目相似度均值,然后进行均值计算得到第一信息化项目与第二信息化项目之间的相似度。在此过程中进行了项目功能的重要性权重和语义相似度的结合,并进行了第一信息化项目相对于第二信息化项目的正向相似度均值计算,以及第二信息化项目相对于第一信息化项目的反向相似度均值计算,且计算过程不涉及项目文档的文本相似度计算,不受项目文档的文本不完整、缺失、频繁变更等情况影响,准确性高。

Description

一种信息化项目相似度分析方法、存储介质及系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种信息化项目相似度分析方法、存储介质及系统。
背景技术
信息化项目是指培养、发展以计算机为主的智能化工具为代表的新生产力的项目。信息化项目审查是项目计划管理的重要工作,是推动信息化项目持续健康发展、促进资源优化配置、提高项目管理水平的重要手段。在审查阶段,计算两个信息化项目之间的相似度是非常重要和必要的分析审查方法,以此为基础在信息化项目库中检索出项目最相似的项目列表,有利于审查人员进行分析和评估,可以有效辅助管理人员进行项目计划,避免信息化项目的重复性建设。
目前信息化项目的相似度检测方法主要分为以下两大类。
一是基于项目文档的文本的相似度检测方法,先提取待检测项目文本的任一待测章节,以及提取对比项目文本中与该待测章节对应的对比章节,再计算待测章节中任一待测语句与对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,以此得到待测项目与对比项目的相似度。该方法是通过项目文档中的文本来进行项目相似度计算,但项目文档在实际的项目实施过程中可能存在文本不完整、缺失、频繁变更等情况,因此不能真实反映信息化项目的情况,造成项目相似度计算准确性低。
二是基于项目功能的相似度检测方法,先获取待检测项目的第一项目文件,提取第一项目文件中的对应项目功能的第一描述文本,然后获取预设项目文件库中的对比项目的第二项目文件,提取第二项目文件中的对应项目功能的第二描述文本,再根据第一描述文本的第一文本长度和第二描述文本的第二文本长度确定文本相似度计算方式,然后使用确定的文本相似度计算方式计算第一描述文本与第二描述文本的文本相似度,以此得到待检测项目与对比项目的相似度。该方法通过项目功能的描述文本比对的方法去计算项目相似度,仅采用文本相似度计算方式进行计算,算法相对简单,但准确性低。
发明内容
本发明要解决的技术问题是如何提高信息化项目相似度计算的准确性。
为解决上述技术问题,本发明提供一种信息化项目相似度分析方法,包括如下步骤:
A.选取第一信息化项目和第二信息化项目;
B.获取所述第一信息化项目的所有第一项目功能和所述第二信息化项目的所有第二项目功能;
C.对每个第一项目功能执行如下步骤C1~C3,得到所有第一项目功能各自在所述第二信息化项目中的相似度值:
C1.计算第一项目功能在所述第一信息化项目中的重要性权重;
C2.基于语义从所述第二信息化项目中找出与该第一项目功能语义相似度最高的第二项目功能,并计算出语义相似度;
C3.根据该第一项目功能的重要性权重与语义相似度最高的第二项目功能的语义相似度,计算出该第一项目功能在所述第二信息化项目中的相似度值;
D.对所有第一项目功能各自在所述第二信息化项目中的相似度值进行均值计算,得到所述第一信息化项目相对于所述第二信息化项目的第一项目相似度均值;
E.对每个第二项目功能执行如下步骤E1~E3,得到所有第二项目功能各自在所述第一信息化项目中的相似度值:
E1.计算第二项目功能在所述第二信息化项目中的重要性权重;
E2.基于语义从所述第一信息化项目中找出与该第二项目功能语义相似度最高的第一项目功能,并计算出语义相似度;
E3.根据该第二项目功能的重要性权重与语义相似度最高的第一项目功能的语义相似度,计算出该第二项目功能在所述第一信息化项目中的相似度值;
F.对所有第二项目功能各自在所述第一信息化项目中的相似度值进行均值计算,得到所述第二信息化项目相对于所述第一信息化项目的第二项目相似度均值;
G.对所述第一项目相似度均值与所述第二项目相似度均值进行均值计算,得到所述第一信息化项目与所述第二信息化项目之间的相似度。
优选地,所述步骤C1中,将所有第一项目功能进行聚类分析,得到与待计算重要性权重的第一项目功能同质类的功能数量,其中,与待计算重要性权重的第一项目功能同质类的功能数量越大,该待计算重要性权重的第一项目功能的重要性权重越低。
优选地,所述步骤C1中,重要性权重的计算公式为:
Figure 848745DEST_PATH_IMAGE001
其中,
Figure 424083DEST_PATH_IMAGE002
为第一项目功能的重要性权重,
Figure 494807DEST_PATH_IMAGE003
为所有第一项目功能总数,
Figure 751476DEST_PATH_IMAGE004
为与待计 算重要性权重的第一项目功能同质类的功能数量。
优选地,所述步骤E1中,将所有第二项目功能进行聚类分析,得到与待计算重要性权重的第二项目功能同质类的功能数量,其中,与待计算重要性权重的第二项目功能同质类的功能数量越大,该待计算重要性权重的第二项目功能的重要性权重越低。
优选地,所述步骤E1中,重要性权重的计算公式为:
Figure 856835DEST_PATH_IMAGE005
其中,
Figure 665391DEST_PATH_IMAGE006
为第二项目功能的重要性权重,
Figure 223412DEST_PATH_IMAGE007
为所有第二项目功能总数,
Figure 80509DEST_PATH_IMAGE008
为与待计 算重要性权重的第二项目功能同质类的功能数量。
优选地,所述步骤C3中,将该第一项目功能的重要性权重与语义相似度最高的第二项目功能的语义相似度相乘,得到该第一项目功能在所述第二信息化项目中的相似度值。
优选地,所述步骤E3中,将该第二项目功能的重要性权重与语义相似度最高的第一项目功能的语义相似度相乘,得到该第二项目功能在所述第一信息化项目中的相似度值。
优选地,所述步骤B中,获取第一项目功能具体是获取第一项目功能对应的第一描述文本,获取第二项目功能具体是获取第二项目功能对应的第二描述文本;所述步骤C2和步骤E2中,根据第一描述文本的语义和第二描述文本的语义,计算第一项目功能和第二项目功能的语义相似度。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信息化项目相似度分析方法中的步骤。
本发明还提供一种信息化项目相似度分析系统,包括相互连接的处理器和如上所述的计算机可读存储介质。
本发明具有以下有益效果:本发明在获取第一信息化项目的所有第一项目功能和第二信息化项目的所有第二项目功能之后,根据各个第一项目功能的重要性权重、各个第一项目功能与语义相似度最高的第二项目功能的语义相似度,计算得到所有第一项目功能各自在第二信息化项目中的相似度值,以此进行均值计算得到第一信息化项目相对于第二信息化项目的第一项目相似度均值,并根据各个第二项目功能的重要性权重、各个第二项目功能与语义相似度最高的第一项目功能的语义相似度,计算得到所有第二项目功能各自在第一信息化项目中的相似度值,以此进行均值计算得到第二信息化项目相对于第一信息化项目的第二项目相似度均值,然后对第一项目相似度均值与第二项目相似度均值进行均值计算,得到第一信息化项目与第二信息化项目之间的相似度。在相似度计算过程中进行了项目功能的重要性权重和语义相似度的结合,并进行了第一信息化项目相对于第二信息化项目的正向相似度均值计算,以及第二信息化项目相对于第一信息化项目的反向相似度均值计算,且计算过程不涉及项目文档的文本相似度计算,不受项目文档的文本不完整、缺失、频繁变更等情况影响,故计算得到的相似度准确性高。
附图说明
图1是信息化项目相似度分析方法的流程示意图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
本实施例提供一种信息化项目相似度分析系统,该系统包括相互连接的计算机可读存储介质和处理器,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如图1所示的信息化项目相似度分析方法,该方法包括如下步骤A、B、C、D、E、F、G。
A.选取第一信息化项目和第二信息化项目。
在信息化项目审查阶段,需计算出两个信息化项目之间的相似度,以此为基础在信息化项目库中检索出项目最相似的项目列表,这有利于审查人员进行分析和评估,可以有效辅助管理人员进行项目计划,避免信息化项目的重复性建设。为此,系统先选取出待进行相似度分析的第一信息化项目和第二信息化项目。
B.获取第一信息化项目的所有第一项目功能和第二信息化项目的所有第二项目功能。
在选取出第一信息化项目和第二信息化项目之后,系统调取这两个信息化项目的功能列表,然后根据第一信息化项目的功能列表获取第一信息化项目的所有第一项目功能,具体是获取所有第一项目功能分别对应的第一描述文本,并根据第二信息化项目的功能列表获取第二信息化项目的所有第二项目功能,具体是获取所有第二项目功能分别对应的第二描述文本。
C.对每个第一项目功能执行如下步骤C1~C3,得到所有第一项目功能各自在第二信息化项目中的相似度值:
C1.计算第一项目功能在第一信息化项目中的重要性权重;
C2.基于语义从第二信息化项目中找出与该第一项目功能语义相似度最高的第二项目功能,并计算出语义相似度;
C3.根据该第一项目功能的重要性权重与语义相似度最高的第二项目功能的语义相似度,计算出该第一项目功能在第二信息化项目中的相似度值。
本实施例中,第一信息化项目包含八个第一项目功能,分别是第一项目功能a1、第一项目功能a2、第一项目功能a3、第一项目功能a4、第一项目功能a5、第一项目功能a6、第一项目功能a7和第一项目功能a8,其中,第一项目功能a1、第一项目功能a2与第一项目功能a3同质类,第一项目功能a4、第一项目功能a5、第一项目功能a6与第一项目功能a7同质类,第一项目功能a8与其他第一项目功能都不同质类。第二信息化项目包含八个第二项目功能,分别是第二项目功能b1、第二项目功能b2、第二项目功能b3、第二项目功能b4、第二项目功能b5、第二项目功能b6、第二项目功能b7和第二项目功能b8,其中,第二项目功能b1与第二项目功能b2同质类,第二项目功能b3、第二项目功能b4与第二项目功能b5同质类,第二项目功能b6与第二项目功能b7同质类,第二项目功能b8与其他第二项目功能都不同质类。
以计算第一项目功能a1在第二信息化项目中的相似度值为例,系统先计算第一项目功能a1在第一信息化项目中的重要性权重,具体地,先将所有第一项目功能进行聚类分析,得到与待计算重要性权重的第一项目功能a1同质类的功能数量,由于第一项目功能a1、第一项目功能a2与第三项目功能a3同质类,即第一项目功能a1所属的质类有三个项目功能,故功能数量为3,然后采用如下计算公式计算第一项目功能a1的重要性权重:
Figure 978058DEST_PATH_IMAGE001
其中,
Figure 895198DEST_PATH_IMAGE002
为第一项目功能的重要性权重,
Figure 514749DEST_PATH_IMAGE003
为所有第一项目功能总数,
Figure 175537DEST_PATH_IMAGE004
为与待计 算重要性权重的第一项目功能同质类的功能数量。由计算公式可知,与待计算重要性权重 的第一项目功能同质类的功能数量
Figure 927593DEST_PATH_IMAGE004
越大,意味着该第一项目功能的可替换功能越多,故 该待计算重要性权重的第一项目功能的重要性权重
Figure 281214DEST_PATH_IMAGE002
越低。
本实施例中,第一项目功能总数
Figure 876143DEST_PATH_IMAGE003
为8,与待计算重要性权重的第一项目功能a1同 质类的功能数量
Figure 340622DEST_PATH_IMAGE004
为3,故可计算出第一项目功能a1的重要性权重
Figure 947184DEST_PATH_IMAGE002
=1-3/8=0.625。同理, 第一项目功能a2、a3、a4、a5、a6、a7、a8的重要性权重计算过程与第一项目功能a1的重要性 权重计算过程相同,由于第一项目功能a1、第一项目功能a2与第一项目功能a3同质类,第一 项目功能a4、第一项目功能a5、第一项目功能a6与第一项目功能a7同质类,第一项目功能a8 与其他第一项目功能都不同质类,故可计算出第二项目功能a2的重要性权重
Figure 471707DEST_PATH_IMAGE002
=1-3/8= 0.625,第三项目功能a3的重要性权重
Figure 304664DEST_PATH_IMAGE002
=1-3/8=0.625,第四项目功能a4的重要性权重
Figure 307256DEST_PATH_IMAGE002
= 1-4/8=0.5,第五项目功能a5的重要性权重
Figure 33903DEST_PATH_IMAGE002
=1-4/8=0.5,第六项目功能a6的重要性权重
Figure 463747DEST_PATH_IMAGE002
=1-4/8=0.5,第七项目功能a7的重要性权重
Figure 33269DEST_PATH_IMAGE002
=1-4/8=0.5,第八项目功能a8的重要性权 重
Figure 839551DEST_PATH_IMAGE002
=1-1/8=0.875。
然后,系统基于第一项目功能a1对应的第一描述文本的语义,以及所有第二项目功能分别对应的第二描述文本的语义,计算第一项目功能a1分别与各个第二项目功能的语义相似度,从中得到与第一项目功能a1语义相似度最高的第二项目功能,具体为第二项目功能b3,并计算出具体的语义相似度为90%。同理,第一项目功能a2、a3、a4、a5、a6、a7、a8的语义相似度计算过程与第一项目功能a1的语义相似度计算过程相同,具体计算结果如下。
对第一项目功能a2,可计算得到与第一项目功能a2语义相似度最高的第二项目功能具体为第二项目功能b5,具体的语义相似度为80%。
对第一项目功能a3,可计算得到与第一项目功能a3语义相似度最高的第二项目功能具体为第二项目功能b1,具体的语义相似度为95%。
对第一项目功能a4,可计算得到与第一项目功能a4语义相似度最高的第二项目功能具体为第二项目功能b7,具体的语义相似度为90%。
对第一项目功能a5,可计算得到与第一项目功能a5语义相似度最高的第二项目功能具体为第二项目功能b8,具体的语义相似度为85%。
对第一项目功能a6,可计算得到与第一项目功能a6语义相似度最高的第二项目功能具体为第二项目功能b2,具体的语义相似度为90%。
对第一项目功能a7,可计算得到与第一项目功能a7语义相似度最高的第二项目功能具体为第二项目功能b6,具体的语义相似度为90%。
对第一项目功能a8,可计算得到与第一项目功能a8语义相似度最高的第二项目功能具体为第二项目功能b4,具体的语义相似度为80%。
需要说明的是,语义相似度计算,一般先计算词语之间的距离,再转换为相似度。词语之间的距离,通常有两种计算方式:一是通过大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据,基于统计的词语语义相似度计算方法是一种经验主义方法,它把词语相似度的研究建立在可观察的语言事实上,它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中的这一假设的基础上,它利用大规模的语料库,将词语的上下文信息作为语义相似度计算的参照依据,基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。二是根据本体或分类关系计算语义距离,这种方法一般是利用一部同义词词典,一般同义词词典都是将所有的词语组织在一棵或几棵树状的层次结构中,在一棵树状图中,任何结点之间有且只有一条路径,于是这条路径的长度就可以作为这两个概念的语义距离的一种度量,有些研究者考虑的情况更复杂,除了节点间的路径长度外,还考虑到了其它一些因素,如:概念层次树的深度,概念层次树的区域密度等等;基于本体或分类关系的计算方法比较简单有效,无需用语料库进行训练,也比较直观,易于理解。
在计算出第一项目功能a1的重要性权重为0.625,以及与第一项目功能a1语义相似度最高的第二项目功能b3的语义相似度为90%之后,将第一项目功能a1的重要性权重0.625与语义相似度最高的第二项目功能b3的语义相似度90%相乘,得到第一项目功能a1在第二信息化项目中的相似度值为0.625*90%=0.5625。同理,第一项目功能a2、a3、a4、a5、a6、a7、a8在第二信息化项目中的相似度值计算过程与第一项目功能a1在第二信息化项目中的相似度值计算过程相同,具体计算结果如下。
将第一项目功能a2的重要性权重0.625与语义相似度最高的第二项目功能b5的语义相似度80%相乘,得到第一项目功能a2在第二信息化项目中的相似度值为0.625*80%=0.5。
将第一项目功能a3的重要性权重0.625与语义相似度最高的第二项目功能b1的语义相似度95%相乘,得到第一项目功能a3在第二信息化项目中的相似度值为0.625*95%=0.59375。
将第一项目功能a4的重要性权重0.5与语义相似度最高的第二项目功能b7的语义相似度90%相乘,得到第一项目功能a4在第二信息化项目中的相似度值为0.5*90%=0.45。
将第一项目功能a5的重要性权重0.5与语义相似度最高的第二项目功能b8的语义相似度85%相乘,得到第一项目功能a5在第二信息化项目中的相似度值为0.5*85%=0.425。
将第一项目功能a6的重要性权重0.5与语义相似度最高的第二项目功能b2的语义相似度90%相乘,得到第一项目功能a6在第二信息化项目中的相似度值为0.5*90%=0.45。
将第一项目功能a7的重要性权重0.5与语义相似度最高的第二项目功能b6的语义相似度90%相乘,得到第一项目功能a7在第二信息化项目中的相似度值为0.5*90%=0.45。
将第一项目功能a8的重要性权重0.875与语义相似度最高的第二项目功能b4的语义相似度80%相乘,得到第一项目功能a2在第二信息化项目中的相似度值为0.875*80%=0.7。
D.对所有第一项目功能各自在第二信息化项目中的相似度值进行均值计算,得到第一信息化项目相对于第二信息化项目的第一项目相似度均值。
在计算出所有第一项目功能a1、a2、a3、a4、a5、a6、a7、a8各自在第二信息化项目中的相似度值之后,系统对此进行均值计算,得到第一信息化项目相对于第二信息化项目的第一项目相似度均值,具体为(0.5625+0.5+0.59375+0.45+0.425+0.45+0.45+0.7)/8=0.51640625。
E.对每个第二项目功能执行如下步骤E1~E3,得到所有第二项目功能各自在第一信息化项目中的相似度值:
E1.计算第二项目功能在第二信息化项目中的重要性权重;
E2.基于语义从第一信息化项目中找出与该第二项目功能语义相似度最高的第一项目功能,并计算出语义相似度;
E3.根据该第二项目功能的重要性权重与语义相似度最高的第一项目功能的语义相似度,计算出该第二项目功能在第一信息化项目中的相似度值。
以计算第二项目功能b1在第一信息化项目中的相似度值为例,系统先计算第二项目功能b1在第一信息化项目中的重要性权重,具体地,先将所有第二项目功能进行聚类分析,得到与待计算重要性权重的第二项目功能b1同质类的功能数量,由于第二项目功能b1与第二项目功能b2同质类,即第二项目功能b1所属的质类有两个项目功能,故功能数量为2,然后采用如下计算公式计算第二项目功能b1的重要性权重:
Figure 483022DEST_PATH_IMAGE005
其中,
Figure 21451DEST_PATH_IMAGE006
为第二项目功能的重要性权重,
Figure 15951DEST_PATH_IMAGE007
为所有第二项目功能总数,
Figure 671930DEST_PATH_IMAGE008
为与待计 算重要性权重的第二项目功能同质类的功能数量。由计算公式可知,与待计算重要性权重 的第二项目功能同质类的功能数量
Figure 435486DEST_PATH_IMAGE008
越大,意味着该第二项目功能的可替换功能越多,故 该待计算重要性权重的第二项目功能的重要性权重
Figure 144816DEST_PATH_IMAGE006
越低。
本实施例中,第二项目功能总数
Figure 361034DEST_PATH_IMAGE007
为8,与待计算重要性权重的第二项目功能b1同 质类的功能数量
Figure 509119DEST_PATH_IMAGE008
为2,故可计算出第二项目功能b1的重要性权重
Figure 189499DEST_PATH_IMAGE006
=1-2/8=0.625。同理, 第二项目功能b2、b3、b4、b5、b6、b7、b8的重要性权重计算过程与第二项目功能b1的重要性 权重计算过程相同,由于第二项目功能b1与第二项目功能b2同质类,第二项目功能b3、第二 项目功能b4与第二项目功能b5同质类,第二项目功能b6与第二项目功能b7同质类,第二项 目功能b8与其他第二项目功能都不同质类,故可计算出第二项目功能b2的重要性权重
Figure 397626DEST_PATH_IMAGE006
= 1-2/8=0.75,第三项目功能b3的重要性权重
Figure 38823DEST_PATH_IMAGE006
=1-3/8=0.625,第四项目功能b4的重要性权 重
Figure 725019DEST_PATH_IMAGE006
=1-3/8=0.625,第五项目功能b5的重要性权重
Figure 276217DEST_PATH_IMAGE006
=1-3/8=0.625,第六项目功能b6的重 要性权重
Figure 389667DEST_PATH_IMAGE006
=1-2/8=0.75,第七项目功能b7的重要性权重
Figure 314898DEST_PATH_IMAGE006
=1-2/8=0.75,第八项目功能b8 的重要性权重
Figure 742468DEST_PATH_IMAGE006
=1-1/8=0.875。
然后,系统基于第二项目功能b1对应的第二描述文本的语义,以及所有第一项目功能分别对应的第一描述文本的语义,计算第二项目功能b1分别与各个第一项目功能的语义相似度,从中得到与第二项目功能b1语义相似度最高的第一项目功能,具体为第一项目功能a3,并计算出具体的语义相似度为95%。同理,第二项目功能b2、b3、b4、b5、b6、b7、b8的语义相似度计算过程与第二项目功能b1的语义相似度计算过程相同,具体计算结果如下。
对第二项目功能b2,可计算得到与第二项目功能b2语义相似度最高的第一项目功能具体为第一项目功能a6,具体的语义相似度为90%。
对第二项目功能b3,可计算得到与第二项目功能b3语义相似度最高的第一项目功能具体为第一项目功能a1,具体的语义相似度为90%。
对第二项目功能b4,可计算得到与第二项目功能b4语义相似度最高的第一项目功能具体为第一项目功能a8,具体的语义相似度为80%。
对第二项目功能b5,可计算得到与第二项目功能b5语义相似度最高的第一项目功能具体为第一项目功能a2,具体的语义相似度为80%。
对第二项目功能b6,可计算得到与第二项目功能b6语义相似度最高的第二项目功能具体为第一项目功能a7,具体的语义相似度为90%。
对第二项目功能b7,可计算得到与第二项目功能b7语义相似度最高的第一项目功能具体为第一项目功能a4,具体的语义相似度为90%。
对第二项目功能b8,可计算得到与第二项目功能b8语义相似度最高的第一项目功能具体为第一项目功能a5,具体的语义相似度为85%。
在计算出第二项目功能b1的重要性权重为0.75,以及与第二项目功能b1语义相似度最高的第一项目功能a3的语义相似度为95%之后,将第二项目功能b1的重要性权重0.75与语义相似度最高的第一项目功能a3的语义相似度95%相乘,得到第二项目功能b1在第一信息化项目中的相似度值为0.75*95%=0.7125。同理,第二项目功能b2、b3、b4、b5、b6、b7、b8在第一信息化项目中的相似度值计算过程与第二项目功能b1在第一信息化项目中的相似度值计算过程相同,具体计算结果如下。
将第二项目功能b2的重要性权重0.75与语义相似度最高的第一项目功能a6的语义相似度90%相乘,得到第二项目功能b2在第一信息化项目中的相似度值为0.75*90%=0.675。
将第二项目功能b3的重要性权重0.625与语义相似度最高的第一项目功能a1的语义相似度90%相乘,得到第二项目功能b3在第一信息化项目中的相似度值为0.625*90%=0.5625。
将第二项目功能b4的重要性权重0.625与语义相似度最高的第一项目功能a8的语义相似度80%相乘,得到第二项目功能b4在第一信息化项目中的相似度值为0.625*80%=0.5。
将第二项目功能b5的重要性权重0.625与语义相似度最高的第一项目功能a2的语义相似度80%相乘,得到第二项目功能b5在第一信息化项目中的相似度值为0.625*80%=0.5。
将第二项目功能b6的重要性权重0.75与语义相似度最高的第一项目功能a7的语义相似度90%相乘,得到第二项目功能b6在第一信息化项目中的相似度值为0.75*90%=0.675。
将第二项目功能b7的重要性权重0.75与语义相似度最高的第一项目功能a4的语义相似度90%相乘,得到第二项目功能b7在第一信息化项目中的相似度值为0.75*90%=0.675。
将第二项目功能b8的重要性权重0.875与语义相似度最高的第一项目功能a5的语义相似度85%相乘,得到第二项目功能b8在第一信息化项目中的相似度值为0.875*85%=0.74375。
F.对所有第二项目功能各自在第一信息化项目中的相似度值进行均值计算,得到第二信息化项目相对于第一信息化项目的第二项目相似度均值。
在计算出所有第二项目功能b1、b2、b3、b4、b5、b6、b7、b8各自在第一信息化项目中的相似度值之后,系统对此进行均值计算,得到第二信息化项目相对于第一信息化项目的第二项目相似度均值,具体为(0.7125+0.675+0.5625+0.5+0.5+0.675+0.675+0.74375)/8=0.63045875。
G.对第一项目相似度均值与第二项目相似度均值进行均值计算,得到第一信息化项目与第二信息化项目之间的相似度。
在计算出第一信息化项目相对于第二信息化项目的第一项目相似度均值为0.51640625,以及第二信息化项目相对于第一信息化项目的第二项目相似度均值为0.63045875之后,对第一项目相似度均值与第二项目相似度均值进行均值计算,得到第一信息化项目与第二信息化项目之间的相似度,具体为(0.51640625+0.63045875)/2=0.5734375。
需要说明的是,两个信息化项目之间的相似度在预设阈值0.8以上则属于较为相似,需项目审查人员重点审查,而本实施例中,第一信息化项目与第二信息化项目的之间的相似度为0.5734375,不足0.8,故不是较为相似。
由上文可知,本实施例在获取第一信息化项目的所有第一项目功能和第二信息化项目的所有第二项目功能之后,根据各个第一项目功能的重要性权重、各个第一项目功能与语义相似度最高的第二项目功能的语义相似度,计算得到所有第一项目功能各自在第二信息化项目中的相似度值,以此进行均值计算得到第一信息化项目相对于第二信息化项目的第一项目相似度均值,并根据各个第二项目功能的重要性权重、各个第二项目功能与语义相似度最高的第一项目功能的语义相似度,计算得到所有第二项目功能各自在第一信息化项目中的相似度值,以此进行均值计算得到第二信息化项目相对于第一信息化项目的第二项目相似度均值,然后对第一项目相似度均值与第二项目相似度均值进行均值计算,得到第一信息化项目与第二信息化项目之间的相似度。在相似度计算过程中进行了项目功能的重要性权重和语义相似度的结合,并进行了第一信息化项目相对于第二信息化项目的正向相似度均值计算,以及第二信息化项目相对于第一信息化项目的反向相似度均值计算,且计算过程不涉及项目文档的文本相似度计算,不受项目文档的文本不完整、缺失、频繁变更等情况影响,故计算得到的相似度准确性高。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。

Claims (10)

1.一种信息化项目相似度分析方法,其特征是,包括如下步骤:
A.选取第一信息化项目和第二信息化项目;
B.获取所述第一信息化项目的所有第一项目功能和所述第二信息化项目的所有第二项目功能;
C.对每个第一项目功能执行如下步骤C1~C3,得到所有第一项目功能各自在所述第二信息化项目中的相似度值:
C1.计算第一项目功能在所述第一信息化项目中的重要性权重;
C2.基于语义从所述第二信息化项目中找出与该第一项目功能语义相似度最高的第二项目功能,并计算出语义相似度;
C3.根据该第一项目功能的重要性权重与语义相似度最高的第二项目功能的语义相似度,计算出该第一项目功能在所述第二信息化项目中的相似度值;
D.对所有第一项目功能各自在所述第二信息化项目中的相似度值进行均值计算,得到所述第一信息化项目相对于所述第二信息化项目的第一项目相似度均值;
E.对每个第二项目功能执行如下步骤E1~E3,得到所有第二项目功能各自在所述第一信息化项目中的相似度值:
E1.计算第二项目功能在所述第二信息化项目中的重要性权重;
E2.基于语义从所述第一信息化项目中找出与该第二项目功能语义相似度最高的第一项目功能,并计算出语义相似度;
E3.根据该第二项目功能的重要性权重与语义相似度最高的第一项目功能的语义相似度,计算出该第二项目功能在所述第一信息化项目中的相似度值;
F.对所有第二项目功能各自在所述第一信息化项目中的相似度值进行均值计算,得到所述第二信息化项目相对于所述第一信息化项目的第二项目相似度均值;
G.对所述第一项目相似度均值与所述第二项目相似度均值进行均值计算,得到所述第一信息化项目与所述第二信息化项目之间的相似度。
2.根据权利要求1所述的信息化项目相似度分析方法,其特征是,所述步骤C1中,将所有第一项目功能进行聚类分析,得到与待计算重要性权重的第一项目功能同质类的功能数量,其中,与待计算重要性权重的第一项目功能同质类的功能数量越大,该待计算重要性权重的第一项目功能的重要性权重越低。
3.根据权利要求2所述的信息化项目相似度分析方法,其特征是,所述步骤C1中,重要性权重的计算公式为:
Figure 673778DEST_PATH_IMAGE001
其中,
Figure 235209DEST_PATH_IMAGE002
为第一项目功能的重要性权重,
Figure 596920DEST_PATH_IMAGE003
为所有第一项目功能总数,
Figure 777366DEST_PATH_IMAGE004
为与待计算 重要性权重的第一项目功能同质类的功能数量。
4.根据权利要求1至3任一项所述的信息化项目相似度分析方法,其特征是,所述步骤E1中,将所有第二项目功能进行聚类分析,得到与待计算重要性权重的第二项目功能同质类的功能数量,其中,与待计算重要性权重的第二项目功能同质类的功能数量越大,该待计算重要性权重的第二项目功能的重要性权重越低。
5.根据权利要求4所述的信息化项目相似度分析方法,其特征是,所述步骤E1中,重要性权重的计算公式为:
Figure 485297DEST_PATH_IMAGE005
其中,
Figure 686471DEST_PATH_IMAGE006
为第二项目功能的重要性权重,
Figure 473161DEST_PATH_IMAGE007
为所有第二项目功能总数,
Figure 535926DEST_PATH_IMAGE008
为与待计算 重要性权重的第二项目功能同质类的功能数量。
6.根据权利要求1所述的信息化项目相似度分析方法,其特征是,所述步骤C3中,将该第一项目功能的重要性权重与语义相似度最高的第二项目功能的语义相似度相乘,得到该第一项目功能在所述第二信息化项目中的相似度值。
7.根据权利要求1或6所述的信息化项目相似度分析方法,其特征是,所述步骤E3中,将该第二项目功能的重要性权重与语义相似度最高的第一项目功能的语义相似度相乘,得到该第二项目功能在所述第一信息化项目中的相似度值。
8.根据权利要求1所述的信息化项目相似度分析方法,其特征是:所述步骤B中,获取第一项目功能具体是获取第一项目功能对应的第一描述文本,获取第二项目功能具体是获取第二项目功能对应的第二描述文本;所述步骤C2和步骤E2中,根据第一描述文本的语义和第二描述文本的语义,计算第一项目功能和第二项目功能的语义相似度。
9.计算机可读存储介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的信息化项目相似度分析方法中的步骤。
10.一种信息化项目相似度分析系统,其特征是,包括相互连接的处理器和如权利要求9所述的计算机可读存储介质。
CN202211388208.6A 2022-11-08 2022-11-08 一种信息化项目相似度分析方法、存储介质及系统 Active CN115438644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388208.6A CN115438644B (zh) 2022-11-08 2022-11-08 一种信息化项目相似度分析方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388208.6A CN115438644B (zh) 2022-11-08 2022-11-08 一种信息化项目相似度分析方法、存储介质及系统

Publications (2)

Publication Number Publication Date
CN115438644A CN115438644A (zh) 2022-12-06
CN115438644B true CN115438644B (zh) 2023-01-06

Family

ID=84252777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388208.6A Active CN115438644B (zh) 2022-11-08 2022-11-08 一种信息化项目相似度分析方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN115438644B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377886A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 项目查重方法、装置、设备及存储介质
CN110888920A (zh) * 2019-12-06 2020-03-17 北京中电普华信息技术有限公司 一种项目功能相似度的确定方法及装置
CN112632139A (zh) * 2020-12-22 2021-04-09 平安普惠企业管理有限公司 基于pmis系统的信息推送方法、装置、计算机设备和介质
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027927A1 (en) * 2006-07-27 2008-01-31 Fujitsu Limited Retracement data processing method and apparatus
US11410130B2 (en) * 2017-12-27 2022-08-09 International Business Machines Corporation Creating and using triplet representations to assess similarity between job description documents
US10902207B2 (en) * 2018-09-13 2021-01-26 International Business Machines Corporation Identifying application software performance problems using automated content-based semantic monitoring
US20220067576A1 (en) * 2020-09-02 2022-03-03 Fujitsu Limited Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects
US11868723B2 (en) * 2021-03-30 2024-01-09 Microsoft Technology Licensing, Llc. Interpreting text-based similarity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377886A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 项目查重方法、装置、设备及存储介质
CN110888920A (zh) * 2019-12-06 2020-03-17 北京中电普华信息技术有限公司 一种项目功能相似度的确定方法及装置
CN112632139A (zh) * 2020-12-22 2021-04-09 平安普惠企业管理有限公司 基于pmis系统的信息推送方法、装置、计算机设备和介质
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evaluating Software Project similarity by using Linguistic Quantifiers Guided Aggregations;Ali Idri et.al;《Ifsa World Congress &Nafips International Conference IEEE,2001》;20011231;第1-6页 *
基于项目属性聚类及相似度优化的协同过滤算法;苏凯等;《海军工程大学学报》;20220430;第34卷(第2期);第20-26页 *

Also Published As

Publication number Publication date
CN115438644A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
Trstenjak et al. KNN with TF-IDF based framework for text categorization
US8341159B2 (en) Creating taxonomies and training data for document categorization
Heidarian et al. A hybrid geometric approach for measuring similarity level among documents and document clustering
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
Zhao et al. An AST-based code plagiarism detection algorithm
Kuyumcu et al. An automated new approach in fast text classification (fastText) A case study for Turkish text classification without pre-processing
WO2011152925A2 (en) Detection of junk in search result ranking
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN116848490A (zh) 使用模型相交进行文档分析
Wang et al. A semantic query expansion-based patent retrieval approach
Barbosa et al. An approach to clustering and sequencing of textual requirements
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Rizun et al. Development and research of the text messages semantic clustering methodology
CN112417082A (zh) 一种科研成果数据消歧归档存储方法
CN115438644B (zh) 一种信息化项目相似度分析方法、存储介质及系统
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
CN105373521B (zh) 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN108897736B (zh) 基于Paper Rank算法的文献排序方法及装置
Nederstigt et al. A lexical approach for taxonomy mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A similarity analysis method, storage medium, and system for information technology projects

Granted publication date: 20230106

Pledgee: China Merchants Bank Limited by Share Ltd. Guangzhou branch

Pledgor: GUANGZHOU XIN'AN DATA Co.,Ltd.

Registration number: Y2024980003722