CN116010552A - 一种基于关键词词库的工程造价数据解析系统及其方法 - Google Patents

一种基于关键词词库的工程造价数据解析系统及其方法 Download PDF

Info

Publication number
CN116010552A
CN116010552A CN202211603010.5A CN202211603010A CN116010552A CN 116010552 A CN116010552 A CN 116010552A CN 202211603010 A CN202211603010 A CN 202211603010A CN 116010552 A CN116010552 A CN 116010552A
Authority
CN
China
Prior art keywords
keywords
keyword
cost
module
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211603010.5A
Other languages
English (en)
Inventor
张晓岚
刘锟
吕玉正
李晓鹏
李少华
孙云厚
王晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Academy of Defense Engineering of PLA Academy of Military Science
Original Assignee
National Academy of Defense Engineering of PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Academy of Defense Engineering of PLA Academy of Military Science filed Critical National Academy of Defense Engineering of PLA Academy of Military Science
Priority to CN202211603010.5A priority Critical patent/CN116010552A/zh
Publication of CN116010552A publication Critical patent/CN116010552A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种基于关键词词库的工程造价数据解析系统及其方法,涉及工程造价技术领域,包括数据中心、分析中心和计算中心,所述数据中心、分析中心和计算中心基于计算机,所述数据中心包括人工输入数据库、网络数据库,所述分析中心包括文档提取模块、图片提取模块、关键词定位模块和关键词划分模块;本发明将所有的预算报表以文档、图片形式进行储存,并取决于词语对于工程项目的重要程度及关联性,自动提取文档、图片中与项目关联的关键词,与网络数据库中工程造价各项目的关键词进行比对,从而分析相应项目的造价公开数据,方便快速处理冗杂繁多的报表数据,自动提取相关联的关键词,提高处理效率。

Description

一种基于关键词词库的工程造价数据解析系统及其方法
技术领域
本发明涉及工程造价技术领域,尤其涉及一种基于关键词词库的工程造价数据解析系统及其方法。
背景技术
工程造价是指构成项目在建设期预计或实际支出的建设费用,其综合运用管理学、经济学和工程技术等方面的知识与技能,对工程造价进行预测、计划、控制、核算、分析和评价等的工作过程被称为工程造价管理,按照法律法规和标准等规定的程序、方法和依据,对工程造价及其构成内容进行的预测或确定被称为工程计价,工程计价依据包括与计价内容、计价方法和价格标准相关的工程计量计价标准,工程计价定额及工程造价信息等,工程中,通常存在繁多的预算报表,预算报表中,存在一些工程造价项目和其他项目等多重数据,当需要工程造价评估时,员工必须在繁多的预算报表处筛选出属于工程造价项目的关键词,进行计算分析;
现有技术中,如授权公告号CN 113505211 B公开了“一种基于关键词词库的工程造价数据解析系统及其方法”,并具体公开了:更新工程造价数据解析系统;基于更新后的工程造价数据解析系统,获取用户输入的工程造价查询数据的查询检索结果;根据查询检索结果进行数据解析,得到工程造价数据解析结果;然而,上述技术中,仍然需要人工输入造价查询数据,再进行解析判断,造价查询数据的关键仍然需要人工从各种报表资料中获取,再进行查询解析,该技术并没有解决现有工程造价解析中,数据繁多,不易快速筛选评估的缺点,因此,本发明提出一种基于关键词词库的工程造价数据解析系统及其方法以解决现有技术中存在的问题。
发明内容
针对上述问题,本发明提出一种基于关键词词库的工程造价数据解析系统及其方法,该基于关键词词库的工程造价数据解析系统及其方法方便快速处理冗杂繁多的报表数据,自动提取相关联的关键词,提高处理效率。
为实现本发明的目的,本发明通过以下技术方案实现:一种基于关键词词库的工程造价数据解析系统,包括数据中心、分析中心和计算中心,所述数据中心、分析中心和计算中心基于计算机,所述数据中心包括人工输入数据库、网络数据库,所述分析中心包括文档提取模块、图片提取模块、关键词定位模块和关键词划分模块,所述计算中心包括关键词单元计算模块和总体计算模块;
所述人工输入数据库用于储存人工输入的整个工程所有的预算报表,包括文档形式和图片形式,所述网络数据库用于连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据进行储存,所述文档提取模块用于提取人工输入数据库中文档形式报表的关键词,所述图片提取模块用于提取人工输入数据库中图片形式报表的关键词,关键词取决于该词语对于工程项目的重要程度及关联性,所述关键词定位模块用于对所有提取的关键词溯源,记录其原文件,所述关键词划分模块联网获取关键词所属项目分类,用于将所有提取的关键词按照项目分类进行划分归类,构建多个单元集,所述关键词单元计算模块用于以单元集为单位,与网络数据库中的相同及相近关键词比对,确定单元集内各关键词造价,计算单元集总体造价并输出报表,所述总体计算模块用于计算所有单元集总体造价,并输出报表。
进一步改进在于:所述人工输入数据库包括本地储存中心和人工输入选项,所述人工输入选项基于计算机人机交互面板,且人工输入选项包括文档形式接收和图片形式接收,用于接收所有的预算报表储存在本地储存中心中,并在输入的过程中,对每个预算报表打上时间戳,提供时间检索功能。
进一步改进在于:所述网络数据库包括关键词数据库、造价数据库、定时更新模块和联网模块,所述联网模块连接互联网,给网络数据库提供网络支持,所述关键词数据库内置归纳模块和人工调整选项,所述归纳模块基于网络检索工程流程及造价项目,归纳各造价项目的关键词进行储存,所述人工调整选项提供人工改变关键词的功能。
进一步改进在于:所述造价数据库基于网络根据关键词数据库内部归纳的关键词进行检索,获取相应关键词的造价公开数据进行储存,所述定时更新模块用于设定定时间隔,使得造价数据库按照定时间隔联网检索最新的造价公开数据。
进一步改进在于:所述文档提取模块基于TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词,所述图片提取模块通过CNN获取图像的视觉特征,通过RNN获取图像的序列特征,通过分类器CTC或解码器attention获取文字序列信息,提取出图片中的文档,然后基于所述文档提取模块,利用TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词。
进一步改进在于:所述关键词定位模块用于将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,且关键词定位模块提供溯源查询功能和文件修改功能,所述溯源查询功能提供根据关键词查询原文件的功能,所述文件修改功能提供对原文件修改、删除的选项,所述关键词划分模块以网络数据库作为数据源,联网检索所有提取出来的关键词的工程项目划分,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集。
进一步改进在于:所述关键词单元计算模块包括比对总结模块、相近词判断模块和单元报表输出模块,所述相近词判断模块以网络数据库作为联网路径,联网检索所有与分析中心提取的关键词相似工程功能项目的词,在每个关键词下以该关键词为主体围绕检索到相似词构建对比细胞,所述比对总结模块基于神经网络,将对比细胞与网络数据库中归纳的关键词进行神经训练,筛选出有效工程功能项目含义的关键词,从而获取该对比细胞最新造价公开数据,一个单元集中内置多个对比细胞,所述单元报表输出模块用于将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表。
进一步改进在于:所述总体计算模块用于将所有单元集的总体报价进行相加,输出总体的造价报表,且总体计算模块提供分级检索功能,兼容向下,用于检索内置的所有对比细胞、单元集的造价数据。
一种基于关键词词库的工程造价数据解析方法,包括以下步骤:
步骤一:人工输入整个工程所有的预算报表至人工输入数据库,包括文档形式和图片形式;
步骤二:连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据,储存至网络数据库;
步骤三:提取人工输入数据库中文档形式报表的关键词,提取图片形式报表的关键词,联网获取关键词所属项目分类,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集;
步骤四:联网检索所有提取的关键词相似工程功能项目的词,以该关键词为主体围绕检索到相似词构建对比细胞;
步骤五:基于神经网络,将对比细胞与网络数据库中的关键词进行神经训练,筛选出有效工程含义的关键词,从而获取该对比细胞最新造价公开数据;
步骤六:将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表,将所有单元集的总体报价进行相加,输出总体的造价报表。
进一步改进在于:所述步骤三中,关键词取决于该词语对于工程项目的重要程度及关联性,对所有提取的关键词溯源,记录其原文件,在原文件及关键词有误的时候,对相应原文件进行修改、删除。
本发明的有益效果为:
1、本发明将所有的预算报表以文档、图片形式进行储存,并取决于词语对于工程项目的重要程度及关联性,自动提取文档、图片中与项目关联的关键词,与网络数据库中工程造价各项目的关键词进行比对,从而分析相应项目的造价公开数据,方便快速处理冗杂繁多的报表数据,自动提取相关联的关键词,提高处理效率。
2、本发明将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,便于操作人员根据关键词对原始数据进行溯源查询,在出现关键词问题的时候,方便及时对原始数据进行修改、删除,提高后续分析计算的准确性。
3、本发明检索所有提取关键词相似工程功能项目的词,以该关键词为主体围绕检索到相似词构建对比细胞,与网络数据库中的关键词进行神经训练比对,使得所有的项目含义都被囊括到,避免在造价计算的时候出现遗漏。
4、本发明既可以输出单元集的总体造价报表,囊括每个对比细胞的造价,又可以输出总体的造价报表,囊括所有对比细胞、单元集的造价数据,使得结论更加细化,使得工程造价数据的分析结果更加详细准确。
附图说明
图1为本发明的系统组成图;
图2为本发明的方法流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明做进一步详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
实施例一
根据图1所示,本实施例提出了一种基于关键词词库的工程造价数据解析系统,包括数据中心、分析中心和计算中心,所述数据中心、分析中心和计算中心基于计算机,所述数据中心包括人工输入数据库、网络数据库,所述分析中心包括文档提取模块、图片提取模块、关键词定位模块和关键词划分模块,所述计算中心包括关键词单元计算模块和总体计算模块。
所述人工输入数据库用于储存人工输入的整个工程所有的预算报表,包括文档形式和图片形式,所述网络数据库用于连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据进行储存,所述文档提取模块用于提取人工输入数据库中文档形式报表的关键词,所述图片提取模块用于提取人工输入数据库中图片形式报表的关键词,关键词取决于该词语对于工程项目的重要程度及关联性,所述关键词定位模块用于对所有提取的关键词溯源,记录其原文件,所述关键词划分模块联网获取关键词所属项目分类,用于将所有提取的关键词按照项目分类进行划分归类,构建多个单元集,所述关键词单元计算模块用于以单元集为单位,与网络数据库中的相同及相近关键词比对,确定单元集内各关键词造价,计算单元集总体造价并输出报表,所述总体计算模块用于计算所有单元集总体造价,并输出报表。
所述人工输入数据库包括本地储存中心和人工输入选项,所述人工输入选项基于计算机人机交互面板,且人工输入选项包括文档形式接收和图片形式接收,用于接收所有的预算报表储存在本地储存中心中,并在输入的过程中,对每个预算报表打上时间戳,提供时间检索功能。使用时,可以将工程报表以文档的形式进行储存,又可以以图片的形式进行储存,方便快速处理冗杂繁多的报表数据,提高处理效率,无需人工筛选。
所述网络数据库包括关键词数据库、造价数据库、定时更新模块和联网模块,所述联网模块连接互联网,给网络数据库提供网络支持,所述关键词数据库内置归纳模块和人工调整选项,所述归纳模块基于网络检索工程流程及造价项目,归纳各造价项目的关键词进行储存,所述人工调整选项提供人工改变关键词的功能。使用时,即可自动联网归纳各造价项目的关键词进行储存,又可以人工改变关键词,便于提高关键词的准确性和贴合性。
所述造价数据库基于网络根据关键词数据库内部归纳的关键词进行检索,获取相应关键词的造价公开数据进行储存,所述定时更新模块用于设定定时间隔,使得造价数据库按照定时间隔联网检索最新的造价公开数据。使用时,设定定时间隔,按照定时间隔联网检索最新的造价公开数据,使得数据始终保持最新,保证数据处理的时效性。
所述文档提取模块基于TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词,所述图片提取模块通过CNN获取图像的视觉特征,通过RNN获取图像的序列特征,通过分类器CTC或解码器attention获取文字序列信息,提取出图片中的文档,然后基于所述文档提取模块,利用TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词。具体为:利用TF-IDF对文档进行特征提取和向量化之后,使用pyLDAvis对文档进行可视化的工程项目主题聚类,得到可视化聚类结果,再按照簇内相似度高、簇间相似度低的工程项目主题选取标准选择初始文本文档数k,得到初始模型,再计算各工程项目t之间的相关性,TF-IDF公式如公式(1)所示:
Figure BDA0003996070670000081
特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重,词w在ct类中的改进IDF计算公式如公式(2)所示:
Figure BDA0003996070670000082
公式(1)和公式(2)中,N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包含词条t的文本文档数为k;
工程项目相关性计算如公式(3)所示:
relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)
公式(3)中,某个词语与工程项目主题的相关性,由λ参数来调节,如果λ接近1,那么在该项目主题t下更频繁出现的词w,跟项目主题t更相关;如果λ越接近0,那么该项目主题t下更特殊、更独有的词w,跟项目主题t更相关,通过调节λ的大小来改变领域词语term_w跟项目主题topic_t的相关性,在选定某一个项目主题后,筛选出跟这个项目主题最近的词汇,通过总结这些词汇表达的意义,可以归纳出该项目主题的意思,从而评估一个词语对于文档中项目主题的重要程度,提取关键词。
其次,图片提取模块中,核心算法包括通过CNN获取图像的视觉特征;通过RNN获取图像的序列特征;以及通过分类器(CTC)或解码器(attention)获取文字序列信息。其次,文字识别的类型,基于字符,也可以基于词进行识别,基于字符的识别分类数量较少,可以支持自定义词的识别,而基于词的识别其词识别的准确率会更高,主要以基于字符进行识别,再次,基于自然语言场景的识别,对于简单的倾斜透视变形,基于文本行检测框进行校正;而对于扭曲变形、弯曲、不同方向的识别,则引入图像空间转换模块或者引用视觉注意力机制(visual attention)来支持,最后,语义推理,文字信息有明显的上下文信息和语义信息,引入语义推理来提高整体识别的准确率;
图像文字识别算法如下:
CRNN算法:
算法说明:CNN+RNN+CTC。
CNN一般采用VGG16,MobelNet,ResNet34,ResNet50。
RNN:一般才用BLSMT/BGRU。
分类损失函数:CTC。
所述关键词定位模块用于将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,且关键词定位模块提供溯源查询功能和文件修改功能,所述溯源查询功能提供根据关键词查询原文件的功能,所述文件修改功能提供对原文件修改、删除的选项,所述关键词划分模块以网络数据库作为数据源,联网检索所有提取出来的关键词的工程项目划分,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集。使用时,将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,便于操作人员根据关键词对原始数据进行溯源查询,在出现关键词问题的时候,方便及时对原始数据进行修改、删除,提高后续分析计算的准确性。
所述关键词单元计算模块包括比对总结模块、相近词判断模块和单元报表输出模块,所述相近词判断模块以网络数据库作为联网路径,联网检索所有与分析中心提取的关键词相似工程功能项目的词,在每个关键词下以该关键词为主体围绕检索到相似词构建对比细胞,所述比对总结模块基于神经网络,将对比细胞与网络数据库中归纳的关键词进行神经训练,筛选出有效工程功能项目含义的关键词,从而获取该对比细胞最新造价公开数据,一个单元集中内置多个对比细胞,所述单元报表输出模块用于将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表。使用时,检索所有与分析中心提取的关键词相似工程功能项目的词,在每个关键词下以该关键词为主体围绕检索到相似词构建对比细胞,使得所有的项目含义都被囊括到,避免在造价计算的时候出现遗漏,且采用神经网络进行训练,筛选出有效工程功能项目含义的关键词,使得每个筛选出的关键词都对应真实的工程项目,提高造价计算的准确性。
所述总体计算模块用于将所有单元集的总体报价进行相加,输出总体的造价报表,且总体计算模块提供分级检索功能,兼容向下,用于检索内置的所有对比细胞、单元集的造价数据。使用时,既可以输出单元集的总体造价报表,囊括每个对比细胞的造价,又可以输出总体的造价报表,囊括所有对比细胞、单元集的造价数据,使得结论更加细化,使得工程造价数据的分析结果更加详细准确。
实施例二
根据图2所示,本实施例提出了一种基于关键词词库的工程造价数据解析方法,包括以下步骤:
步骤一:人工输入整个工程所有的预算报表至人工输入数据库,包括文档形式和图片形式;
步骤二:连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据,储存至网络数据库;
步骤三:提取人工输入数据库中文档形式报表的关键词,提取图片形式报表的关键词,关键词取决于该词语对于工程项目的重要程度及关联性,联网获取关键词所属项目分类,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集,对所有提取的关键词溯源,记录其原文件,在原文件及关键词有误的时候,对相应原文件进行修改、删除;
步骤四:联网检索所有提取的关键词相似工程功能项目的词,以该关键词为主体围绕检索到相似词构建对比细胞;
步骤五:基于神经网络,将对比细胞与网络数据库中的关键词进行神经训练,筛选出有效工程含义的关键词,从而获取该对比细胞最新造价公开数据;
步骤六:将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表,将所有单元集的总体报价进行相加,输出总体的造价报表。
本发明将所有的预算报表以文档、图片形式进行储存,并取决于词语对于工程项目的重要程度及关联性,自动提取文档、图片中与项目关联的关键词,与网络数据库中工程造价各项目的关键词进行比对,从而分析相应项目的造价公开数据,综上,方便快速处理冗杂繁多的报表数据,自动提取相关联的关键词,提高处理效率,无需人工筛选。且本发明将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,便于操作人员根据关键词对原始数据进行溯源查询,在出现关键词问题的时候,方便及时对原始数据进行修改、删除,提高后续分析计算的准确性。同时,本发明检索所有提取关键词相似工程功能项目的词,在每个关键词下以该关键词为主体围绕检索到相似词构建对比细胞,与网络数据库中的关键词进行神经训练比对,使得所有的项目含义都被囊括到,避免在造价计算的时候出现遗漏。另外,本发明既可以输出单元集的总体造价报表,囊括每个对比细胞的造价,又可以输出总体的造价报表,囊括所有对比细胞、单元集的造价数据,使得结论更加细化,使得工程造价数据的分析结果更加详细准确。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于关键词词库的工程造价数据解析系统,包括数据中心、分析中心和计算中心,其特征在于:所述数据中心、分析中心和计算中心基于计算机,所述数据中心包括人工输入数据库、网络数据库,所述分析中心包括文档提取模块、图片提取模块、关键词定位模块和关键词划分模块,所述计算中心包括关键词单元计算模块和总体计算模块;
所述人工输入数据库用于储存人工输入的整个工程所有的预算报表,包括文档形式和图片形式,所述网络数据库用于连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据进行储存,所述文档提取模块用于提取人工输入数据库中文档形式报表的关键词,所述图片提取模块用于提取人工输入数据库中图片形式报表的关键词,关键词取决于该词语对于工程项目的重要程度及关联性,所述关键词定位模块用于对所有提取的关键词溯源,记录其原文件,所述关键词划分模块联网获取关键词所属项目分类,用于将所有提取的关键词按照项目分类进行划分归类,构建多个单元集,所述关键词单元计算模块用于以单元集为单位,与网络数据库中的相同及相近关键词比对,确定单元集内各关键词造价,计算单元集总体造价并输出报表,所述总体计算模块用于计算所有单元集总体造价,并输出报表。
2.根据权利要求1所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述人工输入数据库包括本地储存中心和人工输入选项,所述人工输入选项基于计算机人机交互面板,且人工输入选项包括文档形式接收和图片形式接收,用于接收所有的预算报表储存在本地储存中心中,并在输入的过程中,对每个预算报表打上时间戳,提供时间检索功能。
3.根据权利要求2所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述网络数据库包括关键词数据库、造价数据库、定时更新模块和联网模块,所述联网模块连接互联网,给网络数据库提供网络支持,所述关键词数据库内置归纳模块和人工调整选项,所述归纳模块基于网络检索工程流程及造价项目,归纳各造价项目的关键词进行储存,所述人工调整选项提供人工改变关键词的功能。
4.根据权利要求3所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述造价数据库基于网络根据关键词数据库内部归纳的关键词进行检索,获取相应关键词的造价公开数据进行储存,所述定时更新模块用于设定定时间隔,使得造价数据库按照定时间隔联网检索最新的造价公开数据。
5.根据权利要求4所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述文档提取模块基于TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词,所述图片提取模块通过CNN获取图像的视觉特征,通过RNN获取图像的序列特征,通过分类器CTC或解码器attention获取文字序列信息,提取出图片中的文档,然后基于所述文档提取模块,利用TF-IDF统计文档检索算法,评估一个词语对于一个语料库中的某个文档的重要程度,提取语料库中文档的关键词。
6.根据权利要求5所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述关键词定位模块用于将文档提取模块、图片提取模块提取的关键词与其原文件进行绑定,且关键词定位模块提供溯源查询功能和文件修改功能,所述溯源查询功能提供根据关键词查询原文件的功能,所述文件修改功能提供对原文件修改、删除的选项,所述关键词划分模块以网络数据库作为数据源,联网检索所有提取出来的关键词的工程项目划分,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集。
7.根据权利要求6所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述关键词单元计算模块包括比对总结模块、相近词判断模块和单元报表输出模块,所述相近词判断模块以网络数据库作为联网路径,联网检索所有与分析中心提取的关键词相似工程功能项目的词,在每个关键词下以该关键词为主体围绕检索到相似词构建对比细胞,所述比对总结模块基于神经网络,将对比细胞与网络数据库中归纳的关键词进行神经训练,筛选出有效工程功能项目含义的关键词,从而获取该对比细胞最新造价公开数据,一个单元集中内置多个对比细胞,所述单元报表输出模块用于将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表。
8.根据权利要求7所述的一种基于关键词词库的工程造价数据解析系统,其特征在于:所述总体计算模块用于将所有单元集的总体报价进行相加,输出总体的造价报表,且总体计算模块提供分级检索功能,兼容向下,用于检索内置的所有对比细胞、单元集的造价数据。
9.一种基于关键词词库的工程造价数据解析方法,其特征在于,包括以下步骤:
步骤一:人工输入整个工程所有的预算报表至人工输入数据库,包括文档形式和图片形式;
步骤二:连接互联网,提取工程造价各项目的关键词,并检索相应项目的造价公开数据,储存至网络数据库;
步骤三:提取人工输入数据库中文档形式报表的关键词,提取图片形式报表的关键词,联网获取关键词所属项目分类,将相同项目和相近项目的关键词进行分类归纳,构建多个单元集;
步骤四:联网检索所有提取的关键词相似工程功能项目的词,以该关键词为主体围绕检索到相似词构建对比细胞;
步骤五:基于神经网络,将对比细胞与网络数据库中的关键词进行神经训练,筛选出有效工程含义的关键词,从而获取该对比细胞最新造价公开数据;
步骤六:将每个单元集中的多个对比细胞造价进行相加,输出该单元集的总体造价报表,将所有单元集的总体报价进行相加,输出总体的造价报表。
10.根据权利要求9所述的一种基于关键词词库的工程造价数据解析方法,其特征在于:所述步骤三中,关键词取决于该词语对于工程项目的重要程度及关联性,对所有提取的关键词溯源,记录其原文件,在原文件及关键词有误的时候,对相应原文件进行修改、删除。
CN202211603010.5A 2022-12-13 2022-12-13 一种基于关键词词库的工程造价数据解析系统及其方法 Pending CN116010552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211603010.5A CN116010552A (zh) 2022-12-13 2022-12-13 一种基于关键词词库的工程造价数据解析系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211603010.5A CN116010552A (zh) 2022-12-13 2022-12-13 一种基于关键词词库的工程造价数据解析系统及其方法

Publications (1)

Publication Number Publication Date
CN116010552A true CN116010552A (zh) 2023-04-25

Family

ID=86023990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211603010.5A Pending CN116010552A (zh) 2022-12-13 2022-12-13 一种基于关键词词库的工程造价数据解析系统及其方法

Country Status (1)

Country Link
CN (1) CN116010552A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303687A (zh) * 2023-05-12 2023-06-23 烟台黄金职业学院 一种工程造价数据智能管理方法及系统
CN116501896A (zh) * 2023-06-26 2023-07-28 中招联合信息股份有限公司 基于使用习惯分析文件关键字关联性的预测系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303687A (zh) * 2023-05-12 2023-06-23 烟台黄金职业学院 一种工程造价数据智能管理方法及系统
CN116501896A (zh) * 2023-06-26 2023-07-28 中招联合信息股份有限公司 基于使用习惯分析文件关键字关联性的预测系统
CN116501896B (zh) * 2023-06-26 2023-09-19 中招联合信息股份有限公司 基于使用习惯分析文件关键字关联性的预测系统

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN105045875B (zh) 个性化信息检索方法及装置
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
US20080319973A1 (en) Recommending content using discriminatively trained document similarity
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN1637744A (zh) 为在大量电子文档中搜索而确定文档相关性的机器学习方法
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN111460252A (zh) 一种基于网络舆情分析的自动化搜索引擎方法及系统
WO2018090468A1 (zh) 视频节目的搜索方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN111444304A (zh) 搜索排序的方法和装置
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN112052317A (zh) 一种基于深度学习的医学知识库智能检索系统及其方法
CN113342923A (zh) 数据查询方法、装置、电子设备及可读存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
Wei et al. Online education recommendation model based on user behavior data analysis
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination