CN115687331A - 一种工程造价定额智能匹配方法与系统 - Google Patents

一种工程造价定额智能匹配方法与系统 Download PDF

Info

Publication number
CN115687331A
CN115687331A CN202211433899.7A CN202211433899A CN115687331A CN 115687331 A CN115687331 A CN 115687331A CN 202211433899 A CN202211433899 A CN 202211433899A CN 115687331 A CN115687331 A CN 115687331A
Authority
CN
China
Prior art keywords
quota
list
matching
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211433899.7A
Other languages
English (en)
Inventor
鲍春晓
赵博
张海军
徐忠
崔爱民
黄宜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Haopan Yunjian Network Technology Co ltd
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Original Assignee
Jiangsu Haopan Yunjian Network Technology Co ltd
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Haopan Yunjian Network Technology Co ltd, Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd filed Critical Jiangsu Haopan Yunjian Network Technology Co ltd
Priority to CN202211433899.7A priority Critical patent/CN115687331A/zh
Publication of CN115687331A publication Critical patent/CN115687331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种工程造价定额智能匹配方法与系统。所述系统包括数据清洗模块、模型训练模块、定额匹配模块;所述数据清洗模块用于将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,得到规范干净的清单训练数据;所述模型训练模块用于将规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;所述定额匹配模块用于输入清单信息,经过定额智能匹配模型,得到匹配结果,以及匹配的可信度。本发明智能化自动化地实现定额的匹配过程,提高生产效率,降低人力消耗。

Description

一种工程造价定额智能匹配方法与系统
技术领域
本发明涉及人工智能和自然语言处理领域,具体涉及一种工程造价定额智能匹配方法与系统。
背景技术
在工程造价领域,由于历史原因,存在着清单计价和定额计价两种计价方法。为了顺利地完成工程造价,往往需要根据清单的信息套取相应的一个或多个定额。所谓清单,是指某个具体的建造对象,如楼梯、阳台、坡道等;所谓定额,是指为满足清单的建造而需要的标准化的原材料或工序,比如C20混凝土散水、回填砂石、挖淤泥等。
目前,套取定额的过程基本采用人工手动套用来实现。但是,一个工程往往有百余条清单,同时一个定额标准库往往有着几千个定额,即使是经验丰富的专家,也需要面临从几千个定额中进行选择的困境。因此,套定额的过程,不仅对套用人员的专业知识有很高的要求,而且费时费力费心。
自然语言处理,是人工智能领域的重要研究方向,它以人类语言和文本为研究对象,对人类语言和文本进行分析和处理。而清单和定额的信息正是以文本(中文、数字、符号等)的形式呈现的,因此,引入自然语言处理技术,智能化自动化地实现套取定额的过程是可以实现的。
综上所述,目前迫切需要在工程造价领域引入人工智能和自然语言处理技术,将清单套定额的过程由人工手动套用变为由AI算法自动化地匹配套用。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种工程造价定额智能匹配方法与系统,智能化自动化地实现定额的匹配过程,提高生产效率,降低人力消耗。
技术方案:为实现上述发明目的,本发明提供一种工程造价定额智能匹配方法,包括以下步骤:
(1)数据清洗:将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,对多个定额编号的连接进行拆分,能够对定额名称中的标记符进行去除,得到规范干净的清单训练数据;
(2)模型训练:针对规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;
(3)定额匹配:根据要匹配的清单所属的专业,定额智能匹配模型自动决定要使用哪个清单专业子模型进行匹配,同时置信子模型还可以给出匹配结果的可信度。
进一步地,步骤(1)所述数据清洗的过程中,针对由多个定额的编号连接构成的定额的编号,将该定额拆分成一个主定额和若干个从定额,从定额所属的定额标准库由主定额决定;
针对带有后缀的定额的编号,设置一组后缀标记符,若定额编号中出现了标记符,则将标记符及其之后的字符去掉;
针对所属定额标准库未知的定额,首先筛选出该定额可能属于的候选定额标准库,然后采用文本相似度的技术,决定该定额最终属于的定额标准库。
进一步地,步骤(2)所述模型训练得到定额智能匹配模型,由多个子模型组成,包括一个词表扩充子模型、一个Bert预训练子模型、若干个清单专业子模型和一个置信子模型;其中,清单专业子模型按照序列标注任务的形式进行训练,而输入文本序列则是由“匹配特殊字符”、“清单编号特殊字符”、“清单标准名称”、“清单修改名称”、“清单特征描述”拼接而成。
进一步地,步骤(3)所述定额匹配具体是:输入一条要匹配定额的清单,模型首先识别该清单所属的专业,然后模型使用对应的清单专业子模型进行定额匹配,同时置信子模型给出一个概率,这个概率代表着匹配结果的可信度。
本发明还提供一种工程造价定额智能匹配系统,所述系统包括数据清洗模块、模型训练模块、定额匹配模块;所述数据清洗模块用于将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,得到规范干净的清单训练数据;所述模型训练模块用于将规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;所述定额匹配模块用于输入清单信息,经过定额智能匹配模型,得到匹配结果,以及匹配的可信度。
有益效果:本发明所述算法与系统能够智能化自动化地实现定额的匹配过程。在本系统给出的匹配结果上再进行人为的审核和修改,与纯人工的方式相比,可以大幅度地提高生产效率,降低人力消耗。
附图说明
图1为本发明的总体流程示意图;
图2为未清洗的清单训练数据示例;
图3为清单标准库示例;
图4为定额标准库示例。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种工程造价定额智能匹配系统,所述系统包括数据清洗模块、模型训练模块、定额匹配模块;所述数据清洗模块用于将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,得到规范干净的清单训练数据;所述模型训练模块用于将规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;所述定额匹配模块用于输入清单信息,经过定额智能匹配模型,得到匹配结果,以及匹配的可信度。
本发明提供一种工程造价定额智能匹配方法,包括以下步骤:(1)数据清洗
如图2,一条训练清单一般有人工标注的一个或多个定额。在实际的业务场景中,定额主要存在以下三个方面的问题:1)定额编号由多个定额的编号连接构成,如图2中的“13-18ZFBS+13-19ZFBS*2”;2)定额编号带有后缀,如图2中的“13-15换”、“10-46换”、“13-18ZFBS”、“13-19ZFBS”;3)定额所属的定额标准库未知,如图2中DEKu的值为“null”。
针对以上存在的三个主要问题及其他的小问题,本发明的数据清洗算法如下:
Figure BDA0003946223150000031
Figure BDA0003946223150000041
如图1,获得规范干净的清单训练数据之后,就可以进行模型训练。本发明训练得到的定额智能匹配模型由多个子模型组成,包括一个词表扩充子模型、一个Bert预训练子模型、若干个清单专业子模型和一个置信子模型。
首先,本发明将使用某个开源的Bert模型(比如哈工大讯飞联合实验室开源的BERT-wwm-ext),对其词表进行扩充。扩充的方法是统计清单标准库(如图3所示)有多少个清单,为每一个清单的编号生成一个特殊的字符,并将这些字符加入到词表里。因词表进行了扩充,需要同时对开源Bert的Embedding层进行相应的扩充。如此,词表和Embedding层进行了扩充的开源Bert模型,就是词表扩充子模型。
然后,依据清单标准库和定额标准库生成预训练数据,按照Google发表的论文《BERT:Pre-training of Deep Bidirectional Transformers forLanguageUnderstanding》中提出的预训练方法,对词表扩充子模型使用生成的预训练数据进行预训练。预训练结束得到的模型,就是Bert预训练子模型。
接下来,如图2所示,按照清单所属的专业(如建筑工程、安装工程、装饰工程、市政工程),对规范干净的清单训练数据进行分组,同一个专业的清单分为一组。依次对每一组清单,调用Bert预训练子模型,按照序列标注任务的形式进行训练,训练得到的模型,就是该专业的清单专业子模型。
所谓序列标注任务的训练形式,是指对模型的输入文本序列打上相应的标注序列,训练的目标是让模型能够准确地预测标注序列。这涉及到两个问题,输入的文本序列如何构建?相应的标注序列如何构建?
本发明的输入文本序列由“匹配特殊字符”、“清单编号特殊字符”、“清单标准名称”、“清单修改名称”、“清单特征描述”拼接而成。如图2所示例的清单,构造的输入文本序列如下:
Figure BDA0003946223150000051
Figure BDA0003946223150000052
⊙楼(地)面卷材防水⊙地下室底板卷材防水⊙1.自防水钢筋砼底板,2.50厚C20细石砼保护层,3.10厚低标号砂浆隔离层,4.双面自粘聚酯胎改性沥青卷材防>3mm防水层,5.20厚1:2.5水泥砂浆找平层,6.100厚C15素砼垫层(已在砼中列项)”
其中,
Figure BDA0003946223150000053
是“匹配特殊字符”,每一个字符负责预测一个标注;
Figure BDA0003946223150000054
是“清单编号特殊字符”,是依据清单的编号从词表中选择出来的四个特殊字符;“楼(地)面卷材防水”是清单编号在清单标准库中的名称;“地下室底板卷材防水”是清单编号在实际项目中人为修改的名称;带有序号的“1.……2.……3.……4.……5.……6.……”是清单的特征描述。
假设清单人工套用的定额是“13-15”、“10-46”、“13-18”和“13-19”,在定额标准库的几千个定额中,这四个定额对应的顺序依次是1970、1458、1973、1974,那么构造的标注序列如下:
“1970 1458 1973 1974 0 0 0 0 0 0 -100 -100……-100”
其中,标注序列的前四位就是1970、1458、1973、1974,它们依次由
Figure BDA0003946223150000061
负责进行预测。0和-100是特殊的标注,0代表“该位置不需要进行定额预测”,-100代表“该位置不计算损失”。-100的个数等于输入文本序列划分为一个一个token之后,token的个数减去10。
最后,清单专业子模型在训练的时候,会在训练清单中抽取一小部分作为验证清单。将这些验证清单汇集起来,就可以作为置信训练的训练数据。使用这些训练数据,调用Bert预训练子模型,按照二分类的任务形式进行训练,训练得到的模型,就是置信子模型。
(3)定额匹配
如图1,获得训练完成之后的模型,就可以使用该模型进行定额匹配。输入一条要匹配定额的清单,算法首先识别该清单所属的专业,然后模型使用对应的清单专业子模型进行定额匹配,同时置信子模型还可以给出一个概率,这个概率代表着匹配结果的可信度。

Claims (5)

1.一种工程造价定额智能匹配方法,其特征在于,该方法包括以下步骤:
(1)数据清洗:将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,对多个定额编号的连接进行拆分,能够对定额名称中的标记符进行去除,得到规范干净的清单训练数据;
(2)模型训练:针对规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;
(3)定额匹配:根据要匹配的清单所属的专业,定额智能匹配模型自动决定要使用哪个清单专业子模型进行匹配,同时置信子模型还可以给出匹配结果的可信度。
2.根据权利要求1所述的一种工程造价定额智能匹配方法,其特征在于,步骤(1)所述数据清洗的过程中,针对由多个定额的编号连接构成的定额的编号,将该定额拆分成一个主定额和若干个从定额,从定额所属的定额标准库由主定额决定;
针对带有后缀的定额的编号,设置一组后缀标记符,若定额编号中出现了标记符,则将标记符及其之后的字符去掉;
针对所属定额标准库未知的定额,首先筛选出该定额可能属于的候选定额标准库,然后采用文本相似度的技术,决定该定额最终属于的定额标准库。
3.根据权利要求1所述的一种工程造价定额智能匹配方法,其特征在于,步骤(2)所述模型训练得到定额智能匹配模型,由多个子模型组成,包括一个词表扩充子模型、一个Bert预训练子模型、若干个清单专业子模型和一个置信子模型;其中,清单专业子模型按照序列标注任务的形式进行训练,而输入文本序列则是由“匹配特殊字符”、“清单编号特殊字符”、“清单标准名称”、“清单修改名称”、“清单特征描述”拼接而成。
4.根据权利要求1所述的一种工程造价定额智能匹配方法,其特征在于,步骤(3)所述定额匹配具体是:输入一条要匹配定额的清单,模型首先识别该清单所属的专业,然后模型使用对应的清单专业子模型进行定额匹配,同时置信子模型给出一个概率,这个概率代表着匹配结果的可信度。
5.一种用于执行权利要求1-4之一所述工程造价定额智能匹配方法的工程造价定额智能匹配系统,其特征在于,所述系统包括数据清洗模块、模型训练模块、定额匹配模块;所述数据清洗模块用于将清单标准库、定额标准库和未清洗的清单训练数据作为输入,执行数据清洗功能,得到规范干净的清单训练数据;所述模型训练模块用于将规范干净的清单训练数据,执行模型训练功能,得到定额智能匹配模型;所述定额匹配模块用于输入清单信息,经过定额智能匹配模型,得到匹配结果,以及匹配的可信度。
CN202211433899.7A 2022-11-16 2022-11-16 一种工程造价定额智能匹配方法与系统 Pending CN115687331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211433899.7A CN115687331A (zh) 2022-11-16 2022-11-16 一种工程造价定额智能匹配方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211433899.7A CN115687331A (zh) 2022-11-16 2022-11-16 一种工程造价定额智能匹配方法与系统

Publications (1)

Publication Number Publication Date
CN115687331A true CN115687331A (zh) 2023-02-03

Family

ID=85054004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211433899.7A Pending CN115687331A (zh) 2022-11-16 2022-11-16 一种工程造价定额智能匹配方法与系统

Country Status (1)

Country Link
CN (1) CN115687331A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952327A (zh) * 2023-03-15 2023-04-11 深圳市斯维尔科技股份有限公司 工程清单数据提取方法及其装置、控制器和存储介质
CN116205694A (zh) * 2023-05-04 2023-06-02 品茗科技股份有限公司 造价定额自动推荐配合比的方法、装置、设备及介质
CN117273270A (zh) * 2023-09-21 2023-12-22 广州地铁设计研究院股份有限公司 一种工程定额的评估方法、装置、终端设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952327A (zh) * 2023-03-15 2023-04-11 深圳市斯维尔科技股份有限公司 工程清单数据提取方法及其装置、控制器和存储介质
CN115952327B (zh) * 2023-03-15 2023-10-20 深圳市斯维尔科技股份有限公司 工程清单数据提取方法及其装置、控制器和存储介质
CN116205694A (zh) * 2023-05-04 2023-06-02 品茗科技股份有限公司 造价定额自动推荐配合比的方法、装置、设备及介质
CN116205694B (zh) * 2023-05-04 2023-10-24 品茗科技股份有限公司 造价定额自动推荐配合比的方法、装置、设备及介质
CN117273270A (zh) * 2023-09-21 2023-12-22 广州地铁设计研究院股份有限公司 一种工程定额的评估方法、装置、终端设备及存储介质
CN117273270B (zh) * 2023-09-21 2024-05-03 广州地铁设计研究院股份有限公司 一种工程定额的评估方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN115687331A (zh) 一种工程造价定额智能匹配方法与系统
Seyedashrafi et al. Applying heritage impact assessment to urban development: World heritage property of Masjed-e Jame of Isfahan in Iran
CN111597420B (zh) 基于深度学习的轨道交通规范关系抽取方法
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN114036933B (zh) 基于法律文书的信息抽取方法
CN110162478B (zh) 一种基于缺陷报告的缺陷代码路径定位方法
CN104933024A (zh) 中文地址分词标注方法
CN104933023A (zh) 中文地址分词标注方法
CN109711099A (zh) 一种基于图像识别机器学习的bim自动建模系统
Moon et al. Bridge damage recognition from inspection reports using NER based on recurrent neural network with active learning
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN112183064A (zh) 基于多任务联合学习的文本情绪原因识别系统
CN113420543B (zh) 基于改进Seq2Seq模型的数学试题自动标注方法
WO2016112782A1 (zh) 一种用户的生活圈提取方法及系统
CN114078237A (zh) 一种遥感影像道路变化识别方法及装置
CN111625732A (zh) 地址匹配方法及装置
Yang et al. AutoDefect: Defect text classification in residential buildings using a multi-task channel attention network
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN113762784B (zh) 污水处理系统布局规划方案的定量化综合评价方法及系统
Chowdhury et al. Generating integrated bill of materials using mask R-CNN artificial intelligence model
CN116127986A (zh) 一种基于预训练模型和BiLatticeLSTM的标书关键信息抽取方法
CN117078925A (zh) 一种基于RDSA-DeepLabV3+网络的建筑垃圾年产量精算方法
CN116401289A (zh) 一种基于多源信息结合的可追溯性链接自动恢复方法
CN113268568A (zh) 一种基于分词技术的电力工单重复诉求分析方法
Yan et al. Application of computer vision technology in surface damage detection and analysis of shedthin tiles in China: a case study of the classical gardens of Suzhou

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination