CN113064978A - 基于特征词匹配的项目工期合理性判断方法及装置 - Google Patents

基于特征词匹配的项目工期合理性判断方法及装置 Download PDF

Info

Publication number
CN113064978A
CN113064978A CN202110251849.6A CN202110251849A CN113064978A CN 113064978 A CN113064978 A CN 113064978A CN 202110251849 A CN202110251849 A CN 202110251849A CN 113064978 A CN113064978 A CN 113064978A
Authority
CN
China
Prior art keywords
project
keywords
historical
information
rationality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110251849.6A
Other languages
English (en)
Inventor
刘义江
陈蕾
侯栋梁
池建昆
范辉
阎鹏飞
魏明磊
李云超
姜琳琳
辛锐
陈曦
杨青
沈静文
吴彦巧
姜敬
檀小亚
师孜晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Original Assignee
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co, State Grid Hebei Electric Power Co Ltd filed Critical Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
Priority to CN202110251849.6A priority Critical patent/CN113064978A/zh
Publication of CN113064978A publication Critical patent/CN113064978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06314Calendaring for a resource
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于特征词匹配的项目工期合理性判断方法及装置,涉及自然语言处理技术领域;方法包括S1历史项目关键词抽取,处理器从历史项目内容信息文本中抽取历史项目关键词,S2构建多层级项目信息库,处理器根据历史项目关键词构建多层级项目信息库,S3项目信息库分级搜索,处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,S4项目工期合理性判断,根据匹配结果判断合理性;装置包括历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块;其通过步骤S1至S4等,实现了新项目工期价格合理性判断。

Description

基于特征词匹配的项目工期合理性判断方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于特征词匹配的项目工期合理性判断方法及装置。
背景技术
目前,常见的工程项目工期价格合理行判断都是由人为主动去观看新项目并结合个人之前项目经验作出工期价格合理行判断,但是人工在判断新项目工期价格是否合理难以根据以前发生过的所有相关项目来判断,仅能依靠个人经验判断,同时不同类型项目工期价格具有差异性,工期合理性判断需要耗费大量人力资源,所以如何高效的利用历史工程项目信息对于判断新项目工期价格合理性有着重要意义。
如果需要充分调动历史所有项目信息比较合理的办法即是将文本信息关键词抽取出来,而无论是对于长文本还是短文本,往往可以通过一些关键词窥探整个文本的主题思想。与此同时,新项目特征词的分级搜索对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到最终效果。常见的关键词提取算法包括了词频-逆词频算算法TF-IDF和TextRank算法,TextRank算法为基于图模型,构建拓扑结构图,对词句进行排序从而得到关键特征词。 TF-IDF是一种统计方法,用以评估词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。
现有技术问题及思考:
如何解决新项目工期价格合理性判断困难的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于特征词匹配的项目工期合理性判断方法及装置,其通过步骤S1至S4等,实现了新项目工期价格合理性判断。
为解决上述技术问题,本发明所采取的技术方案是:一种基于特征词匹配的项目工期合理性判断方法包括如下步骤,S1历史项目关键词抽取,处理器从历史项目内容信息文本中抽取历史项目关键词,S2构建多层级项目信息库,处理器根据历史项目关键词构建多层级项目信息库,S3项目信息库分级搜索,处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,S4 项目工期合理性判断,根据匹配结果判断合理性。
进一步的技术方案在于:在步骤S1中,处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词;在步骤S2中,多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息;在步骤S3中,处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
进一步的技术方案在于:在步骤S1中,采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF值获得历史项目关键词。
进一步的技术方案在于:在步骤S4中,处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,对比值在设定的预警范围内则认为合理。
一种基于特征词匹配的项目工期合理性判断装置包括历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块共四个程序模块,历史项目关键词抽取模块,用于处理器从历史项目内容信息文本中抽取历史项目关键词,构建多层级项目信息库模块,用于处理器根据历史项目关键词构建多层级项目信息库,项目信息库分级搜索模块,用于处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,项目工期合理性判断模块,用于根据匹配结果判断合理性。
进一步的技术方案在于:历史项目关键词抽取模块,还用于处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词;构建多层级项目信息库模块,还用于多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息;项目信息库分级搜索模块,还用于处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
进一步的技术方案在于:历史项目关键词抽取模块,还用于采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF 值获得历史项目关键词。
进一步的技术方案在于:项目工期合理性判断模块,还用于处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,对比值在设定的预警范围内则认为合理。
一种基于特征词匹配的项目工期合理性判断装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述任意一项基于特征词匹配的项目工期合理性判断方法的步骤。
一种基于特征词匹配的项目工期合理性判断装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述任意一项基于特征词匹配的项目工期合理性判断方法的步骤。
采用上述技术方案所产生的有益效果在于:
一种基于特征词匹配的项目工期合理性判断方法包括如下步骤,S1历史项目关键词抽取,处理器从历史项目内容信息文本中抽取历史项目关键词,S2构建多层级项目信息库,处理器根据历史项目关键词构建多层级项目信息库,S3项目信息库分级搜索,处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,S4项目工期合理性判断,根据匹配结果判断合理性。其通过步骤S1至S4等,实现了新项目工期价格合理性判断。
一种基于特征词匹配的项目工期合理性判断装置包括历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块共四个程序模块,历史项目关键词抽取模块,用于处理器从历史项目内容信息文本中抽取历史项目关键词,构建多层级项目信息库模块,用于处理器根据历史项目关键词构建多层级项目信息库,项目信息库分级搜索模块,用于处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,项目工期合理性判断模块,用于根据匹配结果判断合理性。其通过历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块等,实现了新项目工期价格合理性判断。
一种基于特征词匹配的项目工期合理性判断装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述任意一项基于特征词匹配的项目工期合理性判断方法的步骤。其通过该装置,实现了新项目工期价格合理性判断。
一种基于特征词匹配的项目工期合理性判断装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述任意一项基于特征词匹配的项目工期合理性判断方法的步骤。其通过该装置,实现了新项目工期价格合理性判断。
详见具体实施方式部分描述。
附图说明
图1是本发明实施例1的流程图;
图2是本发明实施例2的原理框图;
图3是本发明中建筑多层级关键词信息库中数据的分类图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例1:
如图1所示,本发明公开了一种基于特征词匹配的项目工期合理性判断方法包括如下步骤:
S1历史项目关键词抽取
处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词。
采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF值获得历史项目关键词。
S2构建多层级项目信息库
处理器根据历史项目关键词构建并获得多层级项目信息库。
多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号 ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息。
S3项目信息库分级搜索
处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
S4项目工期合理性判断
处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,提出预警,对比值在设定的预警范围内则认为合理,合理即认为通过。
实施例2:
如图2所示,本发明公开了一种基于特征词匹配的项目工期合理性判断装置包括历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块,共四个程序模块,详述如下:
历史项目关键词抽取模块,用于处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词;采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF值获得历史项目关键词。
构建多层级项目信息库模块,用于处理器根据历史项目关键词构建并获得多层级项目信息库;多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号 ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息。
项目信息库分级搜索模块,用于处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
项目工期合理性判断模块,用于处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,提出预警,对比值在设定的预警范围内则认为合理,合理即认为通过。
实施例3:
本发明公开了一种基于特征词匹配的项目工期合理性判断装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的实施例2中的计算机程序,所述处理器执行计算机程序时实现实施例1的步骤。
实施例4:
本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有实施例2中的计算机程序,所述计算机程序被处理器执行时实现实施例1中的步骤。
本申请的构思:
首先从历史工程项目文档中抽取关键特征词,其次根据关键特征词构建多层级项目信息库。再次是对新项目进行关键特征词匹配,将匹配结果与多层级项目信息库采用分级搜索。最后对匹配到对结果做项目工期合理性判断。整个方法包含了历史项目关键词抽取,构建多层级项目信息库,新项目特征词分级搜索,工期价格合理性判断四个步骤。
本申请的技术贡献:
为了解决上述问题,本发明提供了一种基于特征词匹配的项目工期合理性判断方法及装置,能够有效的解决新项目工期价格合理性判断困难的问题。
该系统包括四个部分:
第一部分是基于TF-IDF算法历史项目关键词抽取。
第二部分利用抽取的的关键词构建多层级项目信息库。
第三部分提取新项目特征词,并在多层项目信息库中分级搜索。
第四部分为依据历史相似项目判断当前项目的工期以及价格是否合理。
如图1所示,该项目工期合理性判断方法包含以下主要步骤:
S1历史项目关键词抽取
首先是收集历史项目内容信息文本,再从文本中作关键词抽取,本专利选择TF-IDF算法,TF(Term Frequency)词频,某个词在文章中出现的次数或频率,如果某篇文章中的某个词出现多次,那这个词可能是比较重要的词,当然,停用词不包括在这里。IDF(inverse document frequency)逆文档频率,这是一个词语“权重”的度量,在词频的基础上,如果一个词在多篇文档中词频较低,也就表示这是一个比较少见的词,但在某一篇文章中却出现了很多次,则这个词IDF值越大,在这篇文章中的“权重”越大。所以当一个词越常见,IDF 越低。当计算出TF和IDF的值后,两个一乘就得到TF-IDF,这个词的TF-IDF越高就表示,就表示在这篇文章中的重要性越大,越有可能就是文章的关键词。通过TF-IDF可以得出历史项目中的关键词。
S2构建多层级项目信息库
根据上一步提取所得历史项目关键词,每一个关键词都会保留是原始出处,我们根据关键词构建多层级项目信息库,可以保证简单存储和快速搜索历史所有的项目建设信息。最终构建成类似于下图的多层级项目信息库,同时在有新项目完成以后可以快速添加进入信息库中。
如图3所示,举例建筑项目多层级信息库即,按照层级关系将关键整理。
如表1所示,为信息库链式存储的格式。为了保证检索时候能够快速提取到原始相关文档信息,设计如下链式存储结构,首先每一个节点都会进行编号ID,新增一个即会生成新的ID,每一个ID都会有关键词,父亲节点,孩子节点,信息来源。父亲节点,孩子节点,信息来源都采用列表形式存储,即是有多个父亲节点或者孩子节点,都可以方便的存储。当一个新项目完成后,需要更新数据库,在新增ID后,只用在父亲节点列表中更新即可,当然数据库也可以添加时间,地点字段。
表1:信息库链式存储表
ID 关键词 父亲节点 孩子节点 信息来源
1 钢筋施工 {} {4,5,6} {A项目,C项目}
2 装修施工 {} {7,8} {A项目,B项目}
3 墙体施工 {} {9} {A项目,C项目}
4 钢筋材料 {1} {} {A项目}
5 钢筋安装 {1} {10,11} {A项目,C项目}
6 钢筋接长 {1} {} {C项目}
S3项目信息库分级搜索
在构建好项目信息库之后,当遇到新项目时候,施工单位会提交项目进展报告,采用文字识别技术自动识别报告内容,采用TF-IDF算法提取报告中的关键词,将关键词与项目信息库中分层依次向下比对,比对采用编辑距离作为相似性度量,编辑距离计算如下:
Figure BDA0002966386190000101
leva,b(|a|,|b|)即是编辑距离,a是新项目中的关键词,b是项目信息库中的关键词,i 和j分别代表a和b的长度,最后将数据库中关键词按照相似性从高到低排列。
S4项目工期合理性判断
在数据库中关键词按照相似性从高到低排列,取出相似度最高的前十,并从信息来源中提取价格工期信息作为相似项目参考标准,并按照公式2进行计算预算工期:
Figure DEST_PATH_IMAGE001
式2中,pred表示预测结果,levi表示相似度,L表示工期或者价格,从公式中可见,相似度越高,对于最终预测结果影响力越大。在得到预测工期和价格之后和目前项目提交的工期和价格进行对比,如果相差过大则认为不合理,提出预警,合理即认为通过。
技术方案说明:
S1历史项目关键词抽取
首先是收集历史项目内容信息文本,再从文本中作关键词抽取,首先采用开源工具jieba 将原始文档拆分成词组,在利用TF-IDF算法,计算每个词组的TF-IDF值,这个词的TF-IDF 越高就表示,就表示在这篇文章中的重要性越大,越有可能就是文章的关键词,选择通过 TF-IDF值高的作为历史项目中的关键词。
S2构建多层级项目信息库
根据上一步提取所得历史项目关键词,每一个关键词都会保留是原始出处,我们根据关键词构建多层级项目信息库,可以保证简单存储和快速搜索历史所有的项目建设信息。同时在有新项目完成以后可以快速添加进入信息库中。并将信息库设计为链式存储结构,首先每一个节点都会进行编号ID,新增一个即会生成新的ID,每一个ID都会保存关键词,父亲节点,孩子节点,信息来源。
S3项目信息库分级搜索
在构建好项目信息库之后,当遇到新项目时候,施工单位会提交项目进展报告,采用文字识别技术自动识别报告内容,采用TF-IDF算法提取报告中的关键词,将关键词与项目信息库中分层依次向下比对,比对采用编辑距离作为相似性度量,最后将数据库中关键词按照相似性从高到低排列。
S4项目工期合理性判断
在数据库中关键词按照相似性从高到低排列,取出相似度最高的前十,并从信息来源中提取价格工期信息作为相似项目参考标准,并计算预算工期。在得到预测工期和价格之后和目前项目提交的工期和价格进行对比,如果相差过大则认为不合理,提出预警,合理即认为通过。
本申请保密运行一段时间后,现场技术人员反馈的有益之处在于:
本发明主要针对工程项目中的工期及价格做出合理性的判断。先采用TF-IDF算法对历史项目关键词抽取;并根据抽取的关键词构建多层级项目信息库;对新项目提取关键特征词,并在多层项目信息库中分级搜索,再依据历史相似项目判断当前项目的工期以及价格是否合理。
本专利历史项目关键词抽取即采用TF-IDF算法。

Claims (10)

1.一种基于特征词匹配的项目工期合理性判断方法,其特征在于:包括如下步骤,S1历史项目关键词抽取,处理器从历史项目内容信息文本中抽取历史项目关键词,S2构建多层级项目信息库,处理器根据历史项目关键词构建多层级项目信息库,S3项目信息库分级搜索,处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,S4项目工期合理性判断,根据匹配结果判断合理性。
2.根据权利要求1所述的基于特征词匹配的项目工期合理性判断方法,其特征在于:在步骤S1中,处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词;在步骤S2中,多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息;在步骤S3中,处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
3.根据权利要求2所述的基于特征词匹配的项目工期合理性判断方法,其特征在于:在步骤S1中,采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF值获得历史项目关键词。
4.根据权利要求1所述的基于特征词匹配的项目工期合理性判断方法,其特征在于:在步骤S4中,处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,对比值在设定的预警范围内则认为合理。
5.一种基于特征词匹配的项目工期合理性判断装置,其特征在于:包括历史项目关键词抽取模块、构建多层级项目信息库模块、项目信息库分级搜索模块和项目工期合理性判断模块共四个程序模块,历史项目关键词抽取模块,用于处理器从历史项目内容信息文本中抽取历史项目关键词,构建多层级项目信息库模块,用于处理器根据历史项目关键词构建多层级项目信息库,项目信息库分级搜索模块,用于处理器从项目进展报告中抽取新项目关键词,将新项目关键词遍历多层级项目信息库与历史项目关键词进行分级搜索匹配并获得匹配结果,项目工期合理性判断模块,用于根据匹配结果判断合理性。
6.根据权利要求5所述的基于特征词匹配的项目工期合理性判断装置,其特征在于:历史项目关键词抽取模块,还用于处理器获取历史项目内容信息文本,从历史项目内容信息文本中抽取关键词并形成历史项目关键词;构建多层级项目信息库模块,还用于多层级项目信息库的结构为链式存储结构,多层级项目信息库的信息包括节点的编号ID、关键词、父亲节点、孩子节点和信息来源,在多层级项目信息库中存储的信息为历史项目信息;项目信息库分级搜索模块,还用于处理器获取项目进展报告,识别并获取项目进展报告中的内容,通过TF-IDF算法提取项目进展报告内容中的关键词,将该关键词与多层级项目信息库中的历史项目信息通过编辑距离作为相似性度量的标准分层依次向下比对,将多层级项目信息库中的关键词按照相似性从高到低排列。
7.根据权利要求6所述的基于特征词匹配的项目工期合理性判断装置,其特征在于:历史项目关键词抽取模块,还用于采用开源工具jieba将历史项目内容信息文本拆分成词组,通过TF-IDF算法,计算每一词组的TF-IDF值,根据TF-IDF值获得历史项目关键词。
8.根据权利要求5所述的基于特征词匹配的项目工期合理性判断装置,其特征在于:项目工期合理性判断模块,还用于处理器从多层级项目信息库中获取与项目进展报告内容中的关键词相似度最高的前十条记录,从其相应的信息来源中提取历史项目的价格和工期的信息作为相似项目参考标准,处理器计算新项目的预算价格和工期,对比新项目的预算工期与历史项目的工期、对比新项目的预算价格与历史项目的价格并相应得到工期和价格的对比值,对比值超出设定的预警范围则认为不合理,对比值在设定的预警范围内则认为合理。
9.一种基于特征词匹配的项目工期合理性判断装置,其特征在于:包括存储器、处理器以及存储在存储器中并可在处理器上运行的权利要求5~权利要求8中的程序模块,所述处理器执行程序模块时实现权利要求1~权利要求4中任意一项基于特征词匹配的项目工期合理性判断方法的步骤。
10.一种基于特征词匹配的项目工期合理性判断装置,其特征在于:为计算机可读存储介质,所述计算机可读存储介质存储有权利要求5~权利要求8中的程序模块,所述程序模块被处理器执行时实现权利要求1~权利要求4中任意一项基于特征词匹配的项目工期合理性判断方法的步骤。
CN202110251849.6A 2021-03-08 2021-03-08 基于特征词匹配的项目工期合理性判断方法及装置 Pending CN113064978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110251849.6A CN113064978A (zh) 2021-03-08 2021-03-08 基于特征词匹配的项目工期合理性判断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110251849.6A CN113064978A (zh) 2021-03-08 2021-03-08 基于特征词匹配的项目工期合理性判断方法及装置

Publications (1)

Publication Number Publication Date
CN113064978A true CN113064978A (zh) 2021-07-02

Family

ID=76559885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110251849.6A Pending CN113064978A (zh) 2021-03-08 2021-03-08 基于特征词匹配的项目工期合理性判断方法及装置

Country Status (1)

Country Link
CN (1) CN113064978A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793135A (zh) * 2021-11-17 2021-12-14 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 一种项目流程管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN110163476A (zh) * 2019-04-15 2019-08-23 重庆金融资产交易所有限责任公司 项目智能推荐方法、电子装置及存储介质
CN111723260A (zh) * 2019-03-19 2020-09-29 百度在线网络技术(北京)有限公司 推荐内容的获取方法、装置、电子设备及可读存储介质
CN112241864A (zh) * 2019-07-16 2021-01-19 中移(苏州)软件技术有限公司 一种信息处理方法、装置和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN111723260A (zh) * 2019-03-19 2020-09-29 百度在线网络技术(北京)有限公司 推荐内容的获取方法、装置、电子设备及可读存储介质
CN110163476A (zh) * 2019-04-15 2019-08-23 重庆金融资产交易所有限责任公司 项目智能推荐方法、电子装置及存储介质
CN112241864A (zh) * 2019-07-16 2021-01-19 中移(苏州)软件技术有限公司 一种信息处理方法、装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
慕彦瑾: "西北农村义务教育资源配置合理性研究——基于甘肃省W县的证据", 《中国博士学位论文全文数据库 (社会科学Ⅱ辑)》 *
詹朝曦: "城市快速路项目建设工期合理性研究", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793135A (zh) * 2021-11-17 2021-12-14 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 一种项目流程管理方法及系统

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN104933183B (zh) 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106156204B (zh) 文本标签的提取方法和装置
CN104408173B (zh) 一种基于b2b平台的核心关键词自动提取方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN111611356B (zh) 信息查找方法、装置、电子设备及可读存储介质
CN101751455A (zh) 采用人工智能技术自动产生标题的方法
CN106776695B (zh) 实现文书档案价值自动鉴定的方法
EP3864565A1 (en) Method of searching patent documents
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN115422371A (zh) 一种基于软件测试知识图谱的检索方法
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
CN113064978A (zh) 基于特征词匹配的项目工期合理性判断方法及装置
Hasan et al. Analysis Sentiment of Community Response on Cooking Oil Price Increase Policy With Naive Bayes Classifier Algorithm
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210702

RJ01 Rejection of invention patent application after publication