CN114119110A - 一种工程造价清单归集系统及其方法 - Google Patents

一种工程造价清单归集系统及其方法 Download PDF

Info

Publication number
CN114119110A
CN114119110A CN202210094671.3A CN202210094671A CN114119110A CN 114119110 A CN114119110 A CN 114119110A CN 202210094671 A CN202210094671 A CN 202210094671A CN 114119110 A CN114119110 A CN 114119110A
Authority
CN
China
Prior art keywords
list
module
data
classification
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210094671.3A
Other languages
English (en)
Inventor
罗官
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yema Technology Co ltd
Original Assignee
Sichuan Yema Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yema Technology Co ltd filed Critical Sichuan Yema Technology Co ltd
Priority to CN202210094671.3A priority Critical patent/CN114119110A/zh
Publication of CN114119110A publication Critical patent/CN114119110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于工程造价技术领域,公开了一种工程造价清单归集系统及其方法,系统包括清单获取单元和清单分类单元;清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。方法包括如下步骤:基于神经网络建立清单分类模型;获取待归集的若干清单数据;将所有的清单数据输入清单分类模型进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库。本发明解决了现有技术存在的人力成本投入过大、工作人员工作量大以及容易出现数据遗漏的问题。

Description

一种工程造价清单归集系统及其方法
技术领域
本发明属于工程造价技术领域,具体涉及一种工程造价清单归集系统及其方法。
背景技术
工程造价是指构成项目在建设期预计或实际支出的建设费用,其综合运用管理学、经济学和工程技术等方面的知识与技能,对工程造价进行预测、计划、控制、核算、分析和评价等的工作过程被称为工程造价管理。按照法律法规和标准等规定的程序、方法和依据,对工程造价及其构成内容进行的预测或确定被称为工程计价,工程计价依据包括与计价内容、计价方法和价格标准相关的工程计量计价标准,工程计价定额及工程造价信息等。
工程造价会积累大量的历史数据,历史数据对新造价具有参考价值。但是,受不同造价师个人风格,导致每个项目的造价人员的清单的内容都不相同,这就需要将内容相近、相似的清单归集到同一个标准清单之下,方便后续进行数据对比。
现有技术存在的问题:
现有的清单归集方法大多采用人工归集的方式,利用同义词对不同的清单中的关键词进行替换,形成相同清单,并归集到相同清单下,这样的工作方式工作人员的工作量大,容易出现误差,受表达方式影响,容易出现漏归集的数据。
发明内容
为了解决现有技术存在的人力成本投入过大、工作人员工作量大以及容易出现数据遗漏的问题,提出一种工程造价清单归集系统及其方法。
本发明所采用的技术方案为:
一种工程造价清单归集系统,包括清单获取单元和清单分类单元,清单获取单元与清单分类单元连接,且清单获取单元连接有外部的工程造价数据库;
清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。
进一步地,清单获取单元包括文件输入端口、格式转换模块、清单提取模块、微处理器以及缓存模块,文件输入端口、格式转换模块、清单提取模块以及以及缓存模块依次连接,微处理器分别与文件输入端口、格式转换模块、清单提取模块以及缓存模块连接,文件输入端口连接有外部的工程造价数据库,清单提取模块与清单分类单元连接。
微处理器控制清单获取单元的各模块的正常工作,文件输入端口接收外部的工程造价数据库传输的工程造价文件,格式转换模块统一工程造价文件的数据格式,转换为清单提取模块能够识别的数据格式,清单提取模块提取工程造价文件中包括的清单数据,并将清单数据传输至清单分类单元,缓存模块临时存储清单数据,确保系统工作中数据的安全性。
进一步地,清单分类单元包括主控模块、关键词提取模块、Simhash计算模块、分类模块以及存储模块,关键词提取模块、Simhash计算模块、分类模块以及存储模块依次连接,且关键词提取模块与清单获取单元连接,主控模块分别与关键词提取模块、Simhash计算模块、分类模块以及存储模块连接,存储模块与Simhash计算模块连接。
主控模块控制清单分类单元的各模块的正常工作,关键词提取模块对接收到的清单数据进行分词处理并提取对应的关键词,Simhash计算模块计算当前清单数据的Simhash值,分类模块根据当前清单数据的Simhash值与存储模块中各类别的清单数据库中清单数据的Simhash值进行分类,并存储至对应类别的清单数据库,存储模块设置有关键词库和所有类别的清单数据库。
进一步地,Simhash计算模块包括权重计算子模块、hash计算子模块以及海明距离计算子模块,权重计算子模块、hash计算子模块以及海明距离计算子模块依次连接,权重计算子模块、hash计算子模块以及海明距离计算子模块均与主控模块连接,且权重计算子模块与关键词提取模块连接,海明距离计算子模块分别与分类模块和存储模块连接。
权重计算子模块根据存储模块的关键词库中存储的关键词词频计算当前清单数据的关键词的权重,hash计算子模块根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的Simhash值,海明距离计算子模块获取当前清单数据的Simhash值与存储模块中任意类别的清单数据库的海明距离,并将海明距离传输至分类模块,分类模块根据海明距离对当前清单数据进行分类并存储至对应类别的清单数据库。
一种工程造价清单归集方法,基于工程造价清单归集系统,包括如下步骤:
基于神经网络建立清单分类模型;
获取待归集的若干清单数据;
将所有的清单数据输入清单分类模型进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库。
进一步地,基于神经网络建立清单分类模型,包括如下步骤:
采集工程造价数据库中的若干工程造价文件,并统一若干工程造价文件的数据格式;
提取每个工程造价文件中的清单数据得到清单数据集,并将清单数据集分为训练集和测试集;
调用关键词库,使用训练集对CNN卷积神经网络进行训练,得到初始的清单分类模型;
将测试集输入初始的清单分类模型进行优化,得到最优的清单分类模型。
进一步地,清单分类模型使用Simhash算法对清单数据进行分类,包括如下步骤:
使用清单分类模型提取当前的清单数据的关键词,并将关键词存储至关键词库;
根据关键词获取当前的清单数据的Simhash值,并获取各类别的清单数据库中清单数据的Simhash值;
根据当前的清单数据的Simhash值与所有类别的清单数据的Simhash值进行相似度判定,根据相似度判定结果得到当前的清单数据的分类结果,根据分类结果将当前的清单数据存储至对应的清单数据库。
进一步地,清单分类模型使用TextRank算法提取当前的清单数据的关键词,包括如下步骤:
将清单数据分割为若干完整的句子;
对每个句子进行分词和词性标注处理,过滤停用词并保留指定词性的单词,得到若干候选关键词;
根据若干候选关键词构建候选关键词图,并构建候选关键词之间的连接关系;
根据候选关键词之间的连接关系迭代传播候选关键词图中各候选关键词的权重直至迭代结果收敛,对候选关键词的权重进行倒序排序,根据排序结果得到若干关键词;
TextRank算法的公式为:
Figure 453444DEST_PATH_IMAGE001
式中,
Figure 474489DEST_PATH_IMAGE002
分别为关键词节点VI与Vj的得分函数;d为阻尼系数, 取值范围为0-1;
Figure 598303DEST_PATH_IMAGE003
分别为关键词节点VJ到Vi与到Vk的权重;
Figure 446436DEST_PATH_IMAGE004
为关键词节 点Vi的指向节点集合;
Figure 921279DEST_PATH_IMAGE005
均为关键词节点;
Figure 808333DEST_PATH_IMAGE006
均为节点指示量。
进一步地,根据关键词获取当前的清单数据的Simhash值,包括如下步骤:
根据关键词库中存储的关键词词频计算当前清单数据的关键词的权重;
获取当前清单数据的关键词的hash值;
根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的Simhash值。
进一步地,根据Simhash值进行相似度判定,包括如下步骤:
遍历所有类别的清单数据,获取当前的清单数据的Simhash值与任一类别的清单数据的Simhash值的海明距离;
若海明距离属于相似范围,则当前的清单数据属于对应的类别并存储至对应的清单数据库,结束分类,否则返回上一步骤;
若清单数据库不存在当前的清单数据的类别,则建立新的类别的清单数据库,并将当前的清单数据进行存储。
本发明的有益效果为:
1)本发明提供的工程造价清单归集系统,通过清单获取单元采集历史的工程造价文件中的清单数据进行模型训练,再通过清单分类单元将海量的清单数据进行自动化的分类并存储至对应类别的数据库中,避免了人工归集的方式,减小了人力成本的投入和工作人员的工作量,同时基于该系统对大量工程造价文件的关键词建立关键词库,适用于不同造价师的不同命名方式的清单内容,避免了数据疏漏的问题。
2)本发明提供的工程造价清单归集方法通过神经网络建立清单分类模型,实现了清单归集的自动化处理,使用TextRank算法提取清单数据中的工程造价关键词并建立对应的关键词库,提高了方法对不同清单数据的适用性,使用Simhash算法对清单数据进行分类,由于Simhash 算法的局部敏感性,可以在尽可能保留清单数据相似特征的前提下,将数据缩减到可以计算的范围内,节约宝贵的计算资源。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中工程造价清单归集系统的结构框图。
图2是本发明中工程造价清单归集方法的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供一种工程造价清单归集系统,包括清单获取单元和清单分类单元,清单获取单元与清单分类单元连接,且清单获取单元连接有外部的工程造价数据库;
清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。
作为优选,清单获取单元包括文件输入端口、格式转换模块、清单提取模块、微处理器以及缓存模块,文件输入端口、格式转换模块、清单提取模块以及以及缓存模块依次连接,微处理器分别与文件输入端口、格式转换模块、清单提取模块以及缓存模块连接,文件输入端口连接有外部的工程造价数据库,清单提取模块与清单分类单元连接。
微处理器控制清单获取单元的各模块的正常工作,文件输入端口接收外部的工程造价数据库传输的工程造价文件,格式转换模块统一工程造价文件的数据格式,转换为清单提取模块能够识别的数据格式,清单提取模块提取工程造价文件中包括的清单数据,并将清单数据传输至清单分类单元,缓存模块临时存储清单数据,确保系统工作中数据的安全性。
作为优选,清单分类单元包括主控模块、关键词提取模块、Simhash计算模块、分类模块以及存储模块,关键词提取模块、Simhash计算模块、分类模块以及存储模块依次连接,且关键词提取模块与清单获取单元连接,主控模块分别与关键词提取模块、Simhash计算模块、分类模块以及存储模块连接,存储模块与Simhash计算模块连接。
主控模块控制清单分类单元的各模块的正常工作,关键词提取模块对接收到的清单数据进行分词处理并提取对应的关键词,Simhash计算模块计算当前清单数据的Simhash值,分类模块根据当前清单数据的Simhash值与存储模块中各类别的清单数据库中清单数据的Simhash值进行分类,并存储至对应类别的清单数据库,存储模块设置有关键词库和所有类别的清单数据库。
作为优选,Simhash计算模块包括权重计算子模块、hash计算子模块以及海明距离计算子模块,权重计算子模块、hash计算子模块以及海明距离计算子模块依次连接,权重计算子模块、hash计算子模块以及海明距离计算子模块均与主控模块连接,且权重计算子模块与关键词提取模块连接,海明距离计算子模块分别与分类模块和存储模块连接。
权重计算子模块根据存储模块的关键词库中存储的关键词词频计算当前清单数据的关键词的权重,hash计算子模块根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的Simhash值,海明距离计算子模块获取当前清单数据的Simhash值与存储模块中任意类别的清单数据库的海明距离,并将海明距离传输至分类模块,分类模块根据海明距离对当前清单数据进行分类并存储至对应类别的清单数据库。
本发明提供的工程造价清单归集系统,通过清单获取单元采集历史的工程造价文件中的清单数据进行模型训练,再通过清单分类单元将海量的清单数据进行自动化的分类并存储至对应类别的数据库中,避免了人工归集的方式,减小了人力成本的投入和工作人员的工作量,同时基于该系统对大量工程造价文件的关键词建立关键词库,适用于不同造价师的不同命名方式的清单内容,避免了数据疏漏的问题。
实施例2:
本实施例为基于实施例1的技术方案的改进,其与实施例1的区别在于:
一种工程造价清单归集方法,如图2所示,基于工程造价清单归集系统,包括如下步骤:
基于神经网络建立清单分类模型,包括如下步骤:
采集工程造价数据库中的若干工程造价文件,并统一若干工程造价文件的数据格式;
提取每个工程造价文件中的清单数据得到清单数据集,并将清单数据集分为训练集和测试集;
调用关键词库,使用训练集对CNN卷积神经网络进行训练,得到初始的清单分类模型;
将测试集输入初始的清单分类模型进行优化,得到最优的清单分类模型;
获取待归集的若干清单数据;
将所有的清单数据输入清单分类模型使用Simhash算法进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库,包括如下步骤:
清单分类模型使用TextRank算法提取当前的清单数据的关键词,并将关键词存储至关键词库,包括如下步骤:
将清单数据分割为若干完整的句子;
对每个句子进行分词和词性标注处理,过滤停用词并保留指定词性的单词,得到若干候选关键词;
根据若干候选关键词构建候选关键词图,并构建候选关键词之间的连接关系;
根据候选关键词之间的连接关系迭代传播候选关键词图中各候选关键词的权重直至迭代结果收敛,对候选关键词的权重进行倒序排序,根据排序结果得到若干关键词;
TextRank算法的公式为:
Figure 52232DEST_PATH_IMAGE001
式中,
Figure 373115DEST_PATH_IMAGE002
分别为关键词节点VI与Vj的得分函数;d为阻尼系数, 取值范围为0-1;
Figure 335255DEST_PATH_IMAGE003
分别为关键词节点VJ到Vi与到Vk的权重;
Figure 760420DEST_PATH_IMAGE004
为关键词节 点Vi的指向节点集合;
Figure 360291DEST_PATH_IMAGE005
均为关键词节点;
Figure 579920DEST_PATH_IMAGE006
均为节点指示量。
根据关键词获取当前的清单数据的Simhash值,并获取各类别的清单数据库中清单数据的Simhash值,包括如下步骤:
根据关键词库中存储的关键词词频计算当前清单数据的关键词的权重;
获取当前清单数据的关键词的hash值;
根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的Simhash值;
根据当前的清单数据的Simhash值与所有类别的清单数据的Simhash值进行相似度判定,根据相似度判定结果得到当前的清单数据的分类结果,根据分类结果将当前的清单数据存储至对应的清单数据库,包括如下步骤:
遍历所有类别的清单数据,获取当前的清单数据的Simhash值与任一类别的清单数据的Simhash值的海明距离;
若海明距离属于相似范围,则当前的清单数据属于对应的类别并存储至对应的清单数据库,结束分类,否则返回上一步骤;相似范围的下限至为0,即海明距离小于0则不参与相似度判定,相似范围的上限由工作人员设置,一般为3;
若清单数据库不存在当前的清单数据的类别,则建立新的类别的清单数据库,并将当前的清单数据进行存储。
本发明提供的工程造价清单归集方法通过神经网络建立清单分类模型,实现了清单归集的自动化处理,使用TextRank算法提取清单数据中的工程造价关键词并建立对应的关键词库,提高了方法对不同清单数据的适用性,使用Simhash算法对清单数据进行分类,由于Simhash 算法的局部敏感性,可以在尽可能保留清单数据相似特征的前提下,将数据缩减到可以计算的范围内,节约宝贵的计算资源。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种工程造价清单归集系统,其特征在于:包括清单获取单元和清单分类单元,所述的清单获取单元与清单分类单元连接,且清单获取单元连接有外部的工程造价数据库;
清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。
2.根据权利要求1所述的工程造价清单归集系统,其特征在于:所述的清单获取单元包括文件输入端口、格式转换模块、清单提取模块、微处理器以及缓存模块,所述的文件输入端口、格式转换模块、清单提取模块以及以及缓存模块依次连接,所述的微处理器分别与文件输入端口、格式转换模块、清单提取模块以及缓存模块连接,所述的文件输入端口连接有外部的工程造价数据库,所述的清单提取模块与清单分类单元连接。
3.根据权利要求2所述的工程造价清单归集系统,其特征在于:所述的清单分类单元包括主控模块、关键词提取模块、Simhash计算模块、分类模块以及存储模块,所述的关键词提取模块、Simhash计算模块、分类模块以及存储模块依次连接,且关键词提取模块与清单获取单元连接,所述的主控模块分别与关键词提取模块、Simhash计算模块、分类模块以及存储模块连接,所述的存储模块与Simhash计算模块连接。
4.根据权利要求3所述的工程造价清单归集系统,其特征在于:所述的Simhash计算模块包括权重计算子模块、hash计算子模块以及海明距离计算子模块,所述的权重计算子模块、hash计算子模块以及海明距离计算子模块依次连接,权重计算子模块、hash计算子模块以及海明距离计算子模块均与主控模块连接,且权重计算子模块与关键词提取模块连接,所述的海明距离计算子模块分别与分类模块和存储模块连接。
5.一种工程造价清单归集方法,基于如权利要求4所述的工程造价清单归集系统,其特征在于:包括如下步骤:
基于神经网络建立清单分类模型;
获取待归集的若干清单数据;
将所有的清单数据输入清单分类模型进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库。
6.根据权利要求5所述的工程造价清单归集方法,其特征在于:基于神经网络建立清单分类模型,包括如下步骤:
采集工程造价数据库中的若干工程造价文件,并统一若干工程造价文件的数据格式;
提取每个工程造价文件中的清单数据得到清单数据集,并将清单数据集分为训练集和测试集;
调用关键词库,使用训练集对CNN卷积神经网络进行训练,得到初始的清单分类模型;
将测试集输入初始的清单分类模型进行优化,得到最优的清单分类模型。
7.根据权利要求5所述的工程造价清单归集方法,其特征在于:清单分类模型使用Simhash算法对清单数据进行分类,包括如下步骤:
使用清单分类模型提取当前的清单数据的关键词,并将关键词存储至关键词库;
根据关键词获取当前的清单数据的Simhash值,并获取各类别的清单数据库中清单数据的Simhash值;
根据当前的清单数据的Simhash值与所有类别的清单数据的Simhash值进行相似度判定,根据相似度判定结果得到当前的清单数据的分类结果,根据分类结果将当前的清单数据存储至对应的清单数据库。
8.根据权利要求7所述的工程造价清单归集方法,其特征在于:清单分类模型使用TextRank算法提取当前的清单数据的关键词,包括如下步骤:
将清单数据分割为若干完整的句子;
对每个句子进行分词和词性标注处理,过滤停用词并保留指定词性的单词,得到若干候选关键词;
根据若干候选关键词构建候选关键词图,并构建候选关键词之间的连接关系;
根据候选关键词之间的连接关系迭代传播候选关键词图中各候选关键词的权重直至迭代结果收敛,对候选关键词的权重进行倒序排序,根据排序结果得到若干关键词;
TextRank算法的公式为:
Figure DEST_PATH_IMAGE001
式中,
Figure 165475DEST_PATH_IMAGE002
分别为关键词节点VI与Vj的得分函数;d为阻尼系数,取值 范围为0-1;
Figure DEST_PATH_IMAGE003
分别为关键词节点VJ到Vi与到Vk的权重;
Figure 199159DEST_PATH_IMAGE004
为关键词节点Vi 的指向节点集合;
Figure DEST_PATH_IMAGE005
均为关键词节点;
Figure 423073DEST_PATH_IMAGE006
均为节点指示量。
9.根据权利要求7所述的工程造价清单归集方法,其特征在于:根据关键词获取当前的清单数据的Simhash值,包括如下步骤:
根据关键词库中存储的关键词词频计算当前清单数据的关键词的权重;
获取当前清单数据的关键词的hash值;
根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的Simhash值。
10.根据权利要求7所述的工程造价清单归集方法,其特征在于:根据Simhash值进行相似度判定,包括如下步骤:
遍历所有类别的清单数据,获取当前的清单数据的Simhash值与任一类别的清单数据的Simhash值的海明距离;
若海明距离属于相似范围,则当前的清单数据属于对应的类别并存储至对应的清单数据库,结束分类,否则返回上一步骤;
若清单数据库不存在当前的清单数据的类别,则建立新的类别的清单数据库,并将当前的清单数据进行存储。
CN202210094671.3A 2022-01-26 2022-01-26 一种工程造价清单归集系统及其方法 Pending CN114119110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210094671.3A CN114119110A (zh) 2022-01-26 2022-01-26 一种工程造价清单归集系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210094671.3A CN114119110A (zh) 2022-01-26 2022-01-26 一种工程造价清单归集系统及其方法

Publications (1)

Publication Number Publication Date
CN114119110A true CN114119110A (zh) 2022-03-01

Family

ID=80362006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210094671.3A Pending CN114119110A (zh) 2022-01-26 2022-01-26 一种工程造价清单归集系统及其方法

Country Status (1)

Country Link
CN (1) CN114119110A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580978A (zh) * 2022-05-06 2022-06-03 四川野马科技有限公司 一种环评报告质量检查系统及其方法
CN115809834A (zh) * 2023-02-03 2023-03-17 广东智环创新环境科技有限公司 一种基于环境影响评价数据的生态环境分析系统
CN116595322A (zh) * 2022-11-02 2023-08-15 浙江明达工程造价咨询有限公司 一种基于大数据的智能工程造价管理系统及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934536A (zh) * 2017-03-01 2017-07-07 广东中建普联科技股份有限公司 建设行业工程量计价清单数据自动编码与识别方法及系统
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934536A (zh) * 2017-03-01 2017-07-07 广东中建普联科技股份有限公司 建设行业工程量计价清单数据自动编码与识别方法及系统
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
上海财经大学公共政策与治理研究院: "《公共治理评论2017.2》", 30 September 2018, 上海财经大学出版社 *
王瑞等: "基于Labeled-LDA模型的文本特征提取方法", 《电子测量技术》 *
高榕: "向工程造价大数据的关键算法研究及应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580978A (zh) * 2022-05-06 2022-06-03 四川野马科技有限公司 一种环评报告质量检查系统及其方法
CN116595322A (zh) * 2022-11-02 2023-08-15 浙江明达工程造价咨询有限公司 一种基于大数据的智能工程造价管理系统及系统
CN116595322B (zh) * 2022-11-02 2023-10-20 浙江明达工程造价咨询有限公司 一种基于大数据的智能工程造价管理系统
CN115809834A (zh) * 2023-02-03 2023-03-17 广东智环创新环境科技有限公司 一种基于环境影响评价数据的生态环境分析系统

Similar Documents

Publication Publication Date Title
CN114119110A (zh) 一种工程造价清单归集系统及其方法
CN116910633B (zh) 一种基于多模态知识混合推理的电网故障预测方法
CN110765268A (zh) 一种基于客户诉求的配网精准投资策略方法
CN116307215A (zh) 一种电力系统的负荷预测方法、装置、设备及存储介质
CN114155072A (zh) 基于大数据分析的财务预测模型构建方法及系统
CN113656647A (zh) 一种面向智能运维的工程档案数据管理平台、方法及系统
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构系统
CN112700065B (zh) 基于深度学习的业务流程完成时间区间预测方法和系统
CN117827434A (zh) 基于多维资源预测的混合弹性伸缩方法
CN113361959A (zh) 一种银行业务集中运营成熟度的计算方法和装置
CN116109212B (zh) 一种机场运行效率评价指标设计及监测方法
CN116881535A (zh) 一种及时预警的舆情综合监管系统
CN117034149A (zh) 故障处理策略确定方法、装置、电子设备和存储介质
CN109976271B (zh) 一种利用信息表征方法计算信息结构有序度的方法
CN111078882A (zh) 一种文本情感测量方法和装置
CN112418730A (zh) 一种运输系统的响应指标预估模型的构建方法
CN110196912A (zh) 一种基于信任规则网络的电网档案平行模型构建方法
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统
CN118378103B (zh) 一种基于人工智能的地理信息系统数据匹配管理方法
Hu et al. Application of Engineering Cost Database to Modern Power Plant Management
CN118133051A (zh) 一种要素评估模型的构建方法及装置
CN116579658A (zh) 一种传统村落 (文化) 保护利用价值的智能评价方法及系统
Shen et al. Research on the Difficulty Mining Algorithm for the Integration of Multiple Sets of Data Platforms Based on Big Data Analysis in Smart Factories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220301