CN113806392A

CN113806392A - 一种建筑工程清单数据处理方法、工程量计价方法及装置

Info

Publication number: CN113806392A
Application number: CN202110973597.8A
Authority: CN
Inventors: 伦肇菁; 王天奕; 姜卓铭; 祁长福; 姜建卫; 矫天娇; 郭甜
Original assignee: Glodon Co Ltd
Current assignee: Glodon Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-12-17
Anticipated expiration: 2041-08-24

Abstract

本发明提供了一种建筑工程清单数据处理方法、工程量计价方法及装置，该建筑工程清单数据处理方法包括：获取历史建筑工程清单描述集合和清单处理需求；基于清单处理需求对历史建筑工程清单描述集合进行特征项提取，得到特征项集合；基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式；并以此构成元数据集合；基于元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。从而可以分割出符合建筑领域的专业词汇和表达式，并且只提取与清单处理需求相关联的关键词汇，从而使得最终的工程清单描述更加符合智能技术需求，有利于提高建筑工程智能产品的性能。

Description

一种建筑工程清单数据处理方法、工程量计价方法及装置

技术领域

本发明涉及工程建筑技术领域，具体涉及一种建筑工程清单数据处理方法、工程量计价方法及装置。

背景技术

在用于实现工程量计价的智能组价产品等有关建筑工程的智能技术中，均需要依据建筑工程清单中的数据。以建筑工程的计价为例，使用智能组价功能来推荐定额组是为建筑工程价服务的，工程量计价是根据工程清单描述的具体工程内容来决定定额组；选定的定额组带有工程量价格，最终定额组的工程量价格总和决定整个工程的计价。定额组价就是在给出的工程清单的基础上，根据清单数据，正确套上清单下所包括的项目定额，然后用工程量乘以定额单价，计算出整个工程的合价。

现有的智能组价推荐定额组的方法都是从历史清单描述中寻找出和当前清单最匹配的一条清单描述，然后把匹配出的清单描述所带的定额组推荐为定额组合方案。匹配与否是根据清单描述的分词相似度来决定，然而相似度的精确度又取决于分词的结果。而现有的分词工具大都是通用的词典，无法提取出建筑行业的专用词汇，同时分词的分割也是普遍范围，分割出词汇数量众多，且大多数和定额没关系，影响最终匹配率的判断。

因此，如何对建筑工程清单进行准确合理的描述，对建筑工程领域的智能技术的应用具有重要意义。

发明内容

有鉴于此，本发明实施例提供了一种建筑工程清单数据描述方法及装置以解决现有技术中采用分词工具对建筑工程清单进行描述的方式，难以满足建筑行业智能技术应用需求的问题。

根据第一方面，本发明实施例提供了一种建筑工程清单数据描述方法，包括：

获取历史建筑工程清单描述集合和清单处理需求；

基于所述清单处理需求对所述历史建筑工程清单描述集合进行特征项提取，得到特征项集合；

基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式，所述特征值专业词汇词典和特征值正则表达式用于提取与特征值类别相对应的专业词汇；

基于所述特征项集合及每个特征项的特征值类别及其对应的特征值专业词汇词典和特征值正则表达式，构成元数据集合；

基于所述元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。

可选地，所述基于所述清单处理需求对所述历史建筑工程清单描述集合进行特征项提取，得到特征项集合，包括：

基于所述清单处理需求确定特征项名称对应的特征项标识；

基于所述特征项标识从所述历史建筑工程清单描述集合进行特征项名称提取；

基于提取出的特征项名称构建所述特征项集合。

可选地，所述基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式，包括：

从当前特征项对应的内容中进行关键字提取，所述关键字包括：文字型关键字和数字型关键字；

对提取的关键词进行类别名称定义，确定特征值类别；

基于文字型关键字建立相应的特征值专业词汇词典，并基于数值型关键字建立相应的特征值正则表达式。

可选地，所述基于所述元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述，包括：

基于所述元数据集合中的特征值专业词汇词典和特征值正则表达式，对所述待处理建筑工程清单的工程内容进行特征提取，得到对应的专业词汇；

将提取的专业词汇按照其对应的特征值专业词汇词典或特征值正则表达式，进行特征值类别及特征项的归类，生成结构化的工程清单描述。

可选地，所述方法还包括：

获取若干历史建筑工程清单；

基于待处理建筑工程清单对应的地区代码、清单指引版本及清单代码，进行历史建筑工程清单描述筛选，确定所述历史建筑工程清单描述集合。

根据第二方面，本发明实施例提供了一种工程量计价方法，包括：

获取待计价建筑工程清单及历史参考建筑工程清单集合；

将清单处理需求设置为定额选取，并采用如权利要求1-5任一项所述的方法，分别对所述待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合；

分别计算所述待计价工程清单描述与所述历史参考工程清单描述集合中各历史参考工程清单描述的匹配度；

获取匹配度最高的历史参考工程清单描述所对应的历史定额组；

基于所述历史定额组对所述待计价建筑工程清单进行工程量计价。

根据第三方面，本发明实施例提供了一种建筑工程清单数据处理装置，包括：

第一获取模块，用于获取历史建筑工程清单描述集合和清单处理需求；

第一处理模块，用于基于所述清单处理需求对所述历史建筑工程清单描述集合进行特征项提取，得到特征项集合；

第二处理模块，用于基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式，所述特征值专业词汇词典和特征值正则表达式用于提取与特征值类别相对应的专业词汇；

第三处理模块，用于基于所述特征项集合及每个特征项的特征值类别及其对应的特征值专业词汇词典和特征值正则表达式，构成元数据集合；

第四处理模块，用于基于所述元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。

根据第四方面，本发明实施例提供了一种工程量计价装置，包括：

第二获取模块，用于获取待计价建筑工程清单及历史参考建筑工程清单集合；

第五处理模块，用于将清单处理需求设置为定额选取，并采用本发明另一实施例提供的建筑工程清单数据处理装置，分别对所述待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合；

第六处理模块，用于分别计算所述待计价工程清单描述与所述历史参考工程清单描述集合中各历史参考工程清单描述的匹配度；

第七处理模块，用于获取匹配度最高的历史参考工程清单描述所对应的历史定额组；

第八处理模块，用于基于所述历史定额组对所述待计价建筑工程清单进行工程量计价。

根据第五方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现本发明第一方面及其任意一种可选方式所述的方法。

根据第六方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明第一方面及其任意一种可选方式所述的方法。

本发明技术方案，具有如下优点：

1.本发明实施例提供了一种建筑工程清单数据处理方法及装置，通过获取历史建筑工程清单描述集合和清单处理需求；基于清单处理需求对历史建筑工程清单描述集合进行特征项提取，得到特征项集合；基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式；基于特征项集合及每个特征项的特征值类别及其对应的特征值专业词汇词典和特征值正则表达式，构成元数据集合；基于元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。从而通过从历史建筑工程清单描述中确定特征项，并根据特征项的内容确定特征类别建立相应的特征值专业词汇词典和特征值正则表达式，从而可以分割出符合建筑领域的专业词汇和表达式，并通过将分割出的专业词汇和表达式根据清单的工程内容的技术含义结构化地归类至特征项，并且只提取与清单处理需求相关联的关键词汇，从而使得最终的工程清单描述更加符合智能技术需求，有利于提高建筑工程智能产品的性能。

2.本发明实施例提供了一种工程量计价方法及装置，通过获取待计价建筑工程清单及历史参考建筑工程清单集合；将清单处理需求设置为定额选取，并采用本发明另一实施例提供的建筑工程清单数据处理方法，分别对待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合；分别计算待计价工程清单描述与历史参考工程清单描述集合中各历史参考工程清单描述的匹配度；获取匹配度最高的历史参考工程清单描述所对应的历史定额组；基于历史定额组对待计价建筑工程清单进行工程量计价。从而通过对待计价建筑工程清单及历史参考建筑工程清单采用本发明另一实施例提供的描述方法进行结构化描述，得到的工程清单描述仅包括与定额相关的内容，并且清单描述为建筑专业的词汇和表达式，以此工程清单描述进行定额组的匹配，可以有效提高匹配结果的准确性，进而提高工程量计价结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中现有智能组价推荐定额组的过程示意图；

图2为本发明实施例中建筑工程清单数据处理方法的流程图；

图3为本发明实施例中工程量计价方法的流程图；

图4为本发明实施例中建筑工程清单数据处理装置的结构示意图；

图5为本发明实施例中工程量计价装置的结构示意图；

图6为本发明实施例中的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本发明实施例中将以建筑工程软件中的智能组价功能为例，对本发明实施例提供的建筑工程清单数据处理方法、工程量计价方法及装置进行详细的描述。

首先对现有的智能组价推荐定额组的方法的基本原理进行介绍如下：

现有的智能组价推荐定额组的技术方法的基本原理，步骤包括清单描述分词，计算清单描述的相似度，找出最相似的历史清单描述，其所带的定额组，就是需要的定额组。其中，分词的质量对推荐的匹配率和准确率影响比较大，具体过程包括对清单描述的预处理，文本分词，技算分词字符串和历史清单描述的文本分词后的字符串的相似度，推荐相似度最高的定额组。

如图1所示，具体步骤为a)清单的描述的预处理；b)文本分词过程；c)计算句子的相似度；d)推荐出和清单描述最相似的历史清单定额组。下面详细描述

a)清单的描述的预处理

清单描述是对工程项目特征的一个描述，是用来表述清单项目的实质内容，它会直接决定工程的自身价值，因此工程量清单项目特征描述的准确与否直接关系到综合单价的准确性。智能组价中使用的清单描述经过下面的处理：

清单描述的样例-清单包括需要匹配的清单的描述，还有收集储存的从历史工程文件得到的清单描述

清单描述样例：1.预应力平板；2.普通商品混凝土碎石粒径20石C20；3.平板、槽板5m内空心板；4.水泥砂浆M5。对清单的描述进行前期处理：例如：符号的统一，字符的规则化

‘。’＝>'.'，‘m²’＝>'平方米'，‘m³’＝>'立方米'。

b)文本分词过程

分词过程是将清单描述的连续汉字序列按照一定的规范组合成新的词序列，也就是说切分成一个一个单独的词序列的过程。中文的分词算法比欧美文字体系的拉丁文要复杂得多，英文单词之间通常以空格来作为分割符，分词就可以用空格或其它分割符来分组，但是中文没有一个明显的分割符或着根本没有，所以中文分词有一定的难度。

中文的分词算法有许多种，比较通用的是基于词典的分词算法，就是将文本句子和一个大字典进行匹配，匹配成功的字符串就是切分后的词组。当然，实际的分词算法会更复杂一些，比如字典的大小，字典词汇的来源，匹配的算法，都会影响分词的准确率和效率。

目前用的最普遍的中文分词工具是开源的《结巴分词-Jieba》，采用的是基于词典的分词算法。其它分词工具还有斯坦福分词器(Stanford Word Segmenter),HanLP也是一个比较好的工具。

分词样例：

清单描述1："直形墙；1.混凝土强度等级:普通商品混凝土碎石粒径20石C50；2.建筑物超高增加人工、机械降效率高度90m以内"。

分词结果是：

【'直','形','墙','；','混凝土','强度','等级','普通商品','混凝土','碎石','粒径','20','石','C50','建筑物','超高','增加','人工','机械','降','效率','高度','90m','以内'】，使用《结巴分词工具》，删除了标点符号和一些无用的字符('1.','2.','.','；',':','、')。

清单描述2："直形墙；1.混凝土强度等级:普通商品混凝土碎石粒径20石C30"。

分词结果是：

【'直','形','墙','混凝土','强度','等级','普通商品','混凝土','碎石','粒径','20','石','C30'】，使用《结巴分词工具》，删除了标点符号和一些无用的字符('1.','2.','.','；',':','、')。

清单描述3："1、直形墙；2、混凝土强度等级：C50商品混凝土；3、包含暗柱、连梁"。

分词结果是：

【'直','形','墙','合并','制作','子目','商品','水下','混凝土','碎石','粒径','20','石','C50'】，使用《结巴分词工具》，删除了标点符号和一些无用的字符('1.','2.','.','；',':','、')。

清单描述4："1.直形墙合并制作子目商品水下混凝土碎石粒径20石C30"。

分词结果是：

【'直','形','墙','合并','制作','子目','商品','水下','混凝土','碎石','粒径','20','石','C30'】，使用《结巴分词工具》，删除了标点符号和一些无用的字符('1.','2.','.','；',':','、')。

c)计算句子的相似度

通过计算清单描述的相似度，可以找出相似的历史工程清单描述的样例，样例中会含有定额的价格信息，从而可以计算出的清单价格。

句子相似度计算有很多种，通常采用“编辑距离计算”(Levenshteint Distance)，就是计算两个字符串之间由一个转成另一个字符串所需要的最少编辑次数，也就是最少距离。编辑次数可以定义为某一个字符的替换，添加，或者删除，如果两个字符串之间的距离越大，越不相同，相似度越低。以”编辑距离”的算法为例，首先计算句子之间的的句子“编辑距离”(Levenshteint Distance)，算法的结果在表1中列出。

表1

句子的“编辑距离”是指一个句子的字符串转成另一个句子的字符串(也就是两个句子的字符串)需要的编辑次数，次数越少表示两个句子的字符串越相似。同样以上述表1的清单描述为例，可以得出最相似的清单描述，结果如表2所示，由此可见，相似度计算是取决于两个字符串的长度，和有多少相同的字符。

表2

d)推荐出和清单描述最相似的历史清单定额组

推荐出清单定额组是从历史的清单库中找出和所需要清单描述最相似/匹配的清单描述，匹配上的清单描述所带的定额组就是推荐的定额组。在历史清单描述一般都带有定额组，所以只要清单描述匹配上，就可以找到合适的定额组。例如上述的清单描述所带的定额组如表3所示。然后根据计算出的清单描述的相似度，选出历史中最相似的清单描述，然后就把最相似的清单描述的定额组推出做为所需要的清单描述的定额组。

表3

综上所述，现有的智能组价推荐定额组的方法都是从历史清单描述中寻找出和最匹配的一条清单描述，然后把匹配出的清单描述所带的定额组推荐为定额组合方案。匹配与否是根据清单描述的分词相似度来决定，然而相似度的精确度又取决于分词的结果。现有的分词工具是使用非常通用的词典，无法提取出建筑行业的专用词汇，同时分词的分割也是普遍范围，分割出太多的词汇(大多数和定额没关系)影响匹配率。

由此可见，提高智能组推荐定额组准确度的关键是找到最匹配的清单，所以如何准确地选择最相似的清单就成为亟待解决的问题。现有的使用通用的分词工具的方法对推荐定额组匹配率和精确度的影响在下面几个方面：

1.建筑领域的清单工程都含有许多带有独特专业特性的词汇，这些专业词汇是很难通过的通用的分词工具来提取，所以需要开发出新的可以提取出建筑领域专用词汇的工具；

2.清单描述的是工程项目的特征，清单所套的定额是由清单的特征的内容来决定，现有的分词工具无法把清单描述里的特征值进行结构化归类，无法把具有相同特征内容的词汇放在一起。使用结构化归类过的专业词汇来匹配具有相同的专业词汇的清单描述，工程内容会更符合所套的定额代表的工程量及价格就更为准确。

因此，如何把清单描述的专业词汇根据工程特征来结构归类，是正确地匹配定额，以提高智能组价推荐定额组方法的准确度的关键。从而提出一种建筑工程清单数据处理方法，以实现建筑工程清单结构化描述，以提高定位组的准确性。具体地，针对现有技术的以下问题给出解决方案：

1.使用通用的分词工具无法提取出建筑行业的领域的专业词汇

使用现有的通用的分词工具,例如《Jieba-结巴》，《IK》,Ansj、Hanlp、Stanford等分词工具，分出的是通用的词汇，对于特殊专业的词汇，例如建筑领域的词汇，分词的效果不是很好。通用的分词系统都是根据有限的训练数据，或着收集的词典也是从通用的文章里采集的，例如：人民日报的词汇网络小说，等。使用这样的通用的分词工具酒很难通过有限的训练数据，捕捉到适用于专业领域的语言特征，及其独特的词汇。

然而清单描述所涉及的都是建筑行业的专用词汇，尤其是那些决定定额组的专用词汇，这些专用词汇是应该分割成为一体，而不是分为通用的词。例如上面提到的清单描述里的词汇：

清单描述："直形墙；1.混凝土强度等级:普通商品混凝土碎石粒径20石C50；2.建筑物超高增加人工、机械降效率高度90m以内"

分词结果是：

【'直','形','墙','；','混凝土','强度','等级','普通商品','混凝土','碎石','粒径','20','石','C50','建筑物','超高','增加','人工','机械','降','效率','高度','90m','以内'】。

建筑行业的专用词汇为：

'直形墙'，'混凝土强度等级'，'普通商品混凝土'，'碎石粒径'，'20石'，'C50'等

2.现有的分词工具无法提取出和定额有关的关键词汇

现有的分词工具无法只提取出和定额有关的关键词汇，分出来的词汇包括有意义的词(也就是可以决定定额组的关键词汇)，同时也包括没有意义的词汇。没有意义的词汇会影响清单描述相似度的计算，不相似的清单描述(编辑距离大的)并不代表清单描述的和定额组有关的关键词不一样。以上面提供的清单描述为例，我们可以看到使用现有的分词工具提取出的词汇来比较的清单的结果非常不准确。

样例：

如表4所示，假设清单描述1和清单描述3的定额组是相同的，这两个清单描述的相似度应该是比较高的，决定定额组的是关键词汇的比较，而不是所有分出的词汇的比较。如果使用清单描述的关键词汇来匹配清单，结果会比较准确。

表4

3.清单描述的匹配需要具有特征的关键词

工程清单描述的是工程项目的特征，项目特征是用来表述项目名称的实质内容，而这些特征的内容和它的值决定选取哪个合适的定额组，然而现有的分词工具无法分类出清单的工程特征。

建筑领域的清单包含工程特征项，而特征项会含有不同的类别，而不同的类别又有不同的值，这些特征项类别的关键词汇会决定定额的选择。

根据清单特征项和特征值来寻找相似的其它清单，以此决定定额的组成，就会比计算单纯的分词的相似度要准确的多。示例性地，如表5所示，上述清单描述1和清单描述3从使用结构化的清单描述的关键词可以准确地找带有共同定额组成的相似的清单。

表5

基于上述分析，本发明实施例提供了一种建筑工程清单数据处理方法，如图2所示，该建筑工程清单数据处理方法具体包括如下步骤：

步骤S101：获取历史建筑工程清单描述集合和清单处理需求。

其中，在本发明实施例中，是以清单处理需求为定额选取为例进行的说明，其清单描述需求是为了提供清单描述便于进行定额组的确定，在实际应用中，该清单处理需求还可以根据实际需要进行设置，本发明并不以此为限。

步骤S102：基于清单处理需求对历史建筑工程清单描述集合进行特征项提取，得到特征项集合。

具体地，基于机器学习的方法从大量的历史建筑工程清单描述集合中进行特征项提取，特征项是用于定义和所套的定额组有关的工程内容。示例性地，可以根据特征项名称的特殊符号，例如“：”，从历史清单数据中这条清单的所有描述中提取出特征项名称。

步骤S103：基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式。

其中，特征值专业词汇词典和特征值正则表达式用于提取与特征值类别相对应的专业词汇。每个特征项包括多个特征值，每个特征值可以用对应的专业词典(vocabulary)和定义正则表达式(pattern)来搜集。特征值类别是用来把提取出的和特征值对应的专业词汇及数字型表达式根据语义的关键词结构化到相应的清单的特征项里。

步骤S104：基于特征项集合及每个特征项的特征值类别及其对应的特征值专业词汇词典和特征值正则表达式，构成元数据集合。

具体地，上述的元数据集合还可以包括：特征值标准化的规则等，用于对专业词汇及数字根据清单特性统一成标准的表达式，保证不同工程清单描述的一致性。

步骤S105：基于元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。

具体地，通过利用上述的元数据集合对待处理建筑工程清单的工程内容进行专业词汇和专业数字的提取，并将专业词汇和专业数字归类到相应的特征项对应的特征类别中，实现工程清单的结构化描述。

通过执行上述步骤，本发明实施例提供的建筑工程清单数据处理方法，通过从历史建筑工程清单描述中确定特征项，并根据特征项的内容确定特征类别建立相应的特征值专业词汇词典和特征值正则表达式，从而可以分割出符合建筑领域的专业词汇和表达式，并通过将分割出的专业词汇和表达式根据清单的工程内容的技术含义结构化地归类至特征项，并且只提取与清单处理需求相关联的关键词汇，从而使得最终的工程清单描述更加符合智能技术需求，有利于提高建筑工程智能产品的性能。

具体地，在一实施例中，在执行上述步骤S101之前，上述的建筑工程清单数据处理方法还包括如下步骤：

步骤S106：获取若干历史建筑工程清单。

步骤S107：基于待处理建筑工程清单对应的地区代码、清单指引版本及清单代码，进行历史建筑工程清单描述筛选，确定历史建筑工程清单描述集合。

具体地，由于建筑工程中的清单有成千上万，用人工来定义清单的特征项和所对应的特征值是非常不现实的。专业词汇和表达式在实际工程中变化很多，而且不同的专业人员会使用自己熟悉的，习惯性的词汇和表达式，工程的描述也会有地区上的差异，许多清单描述和国家标准也不相符合。所以从国家和地区的清单标准指引来定义专业词汇和表达式不可能完整和准确。

清单描述中的专业词汇和表达式无法使用统一的国家标准，由于下面原因：不同的专业人员会使用自己熟悉的，习惯性的词汇和表达式；不同地区有不同的词汇和表达式；国家标准不是强制要求，允许使用自我定义的词汇和表达式。

为了把行业中包括不同地区，不同工程文件的专业词汇和表达式完整的收集起来，本发明使用了一个基于机器学习的方法来收集工程清单的特征项，通过按照地区代码、清单指引版本及清单代码，进行历史建筑工程清单描述筛选，从而得到与待处理建筑工程清单一致的工程清单集合，并且使得元数据集合也是按照地区代码、清单指引版本及清单代码进行存储，如表6所示，以便于后续有相同类型工程清单可以直接调用该元数据集合。并且能够兼顾清单描述方式的统一性和灵活性，使得工程清单的描述更加符合建筑工程清单的实际情况。

表6

地区	地区代码	清单指引版本	清单代码	清单数据集合ID
					广东	1710	2013	010504001	00001
北京	1714	2013	010540001	00201
					陕西	1187	2009	010302003	30245

示例性地，本发明实施例中的元数据集合是以地区代码，清单指引版本，及九位清单代码为单位，不同的地区，清单指引版本和九位清单代码组合就是一个数据集合。主要的数据集合包括清单的特征项，特征项包含的不同值的类别，提取特征值相应的词汇所需要的词典和特征值相应数字型的正则表达式，特征项归类的语义的关键词，特征值标准化的规则，示例性地，以2013年的广东地区的清单编码010504001为例，对应的元数据集合如表7所示，需要说明的是，上述的特征值标准化的规则包含在词典和数字正则表达式名称内，在此不再进行赘述。

表7

具体地，在一实施例中，上述的步骤S102具体包括如下步骤：

步骤S21：基于清单处理需求确定特征项名称对应的特征项标识。

具体地，该特征项标识为特征项名称的特殊符号，例如“：”，则该特殊符合后面的词汇即为特征项名称。

步骤S22：基于特征项标识从历史建筑工程清单描述集合进行特征项名称提取。

具体地，对于每一个历史建筑工程清单描述，按照上述的特殊符号提取出特征项名称。

步骤S23：基于提取出的特征项名称构建特征项集合。

从而通过利用与清单处理需求有关的特征项标识进行特征项的提取，提高了特征项提取结果的准确性。

具体地，通过对特征项名称进行去重，归类等操作，构成特征项集合，示例性地，假设每条清单提取出现的最高频率的20个特征项名称，交给业务人员筛选校验，最后确定特征项的名称构成特征项集合。以2013年的广东地区的清单编码010504001为例，从历史大数据中统计出带“：”的名称如表8所示，经过业务人员的核实，此清单影响定额组价的特征项集合如表9所示。

表8

表9

清单序列	地区代码	清单代码	特征项名称
				2013	1710(广东)	010504001	混凝土强度等级
			混凝土种类
							墙体类型

具体地，在一实施例中，上述的步骤S103具体包括如下步骤：

步骤S31：从当前特征项对应的内容中进行关键字提取。

其中，关键字包括：文字型关键字和数字型关键字。

步骤S32：对提取的关键词进行类别名称定义，确定特征值类别。

具体地，在本发明实施例中，一旦定义了清单特征项的名称，根据名称所带的内容，采用NLP工具归类特征值，从而找出最常用的特征值的名称，具体步骤是：采用NLP工具(本发明采用Stanford的相似度的计算方法)对特征项名称的内容进行归类为文字型和数字型两种；计算文字型和数字型的字符串的使用频率；交给业务人员筛选定义高频率文字型和数字型的类别和名称，这些名称就是特征值的类别名称。根据特征项名称内容的使用频率进行特征值名称的筛选，可以更好的排除其他词汇的干扰，进而提高特征值名称的准确性，进一步有利于提高清单描述结果的准确性。

示例性地，以上述2013年的广东地区的清单编码010504001为例：从历史大数据中统计出包含特征项的名称有“混凝土强度等级”，“混凝土种类”，“墙体类型，对应的特征值类别名称表10所示。

表10

清单序列	地区代码	清单代码	特征项名称	特征值类别名称
					2013	1710(广东)	010504001	混凝土强度等级	混凝土强度等级
			混凝土强度等级	混凝土抗渗等级
								混凝土强度等级	混凝土添加剂
			混凝土种类	混凝土种类
								墙体类型	墙体形状
			墙体类型	墙体类型

步骤S33：基于文字型关键字建立相应的特征值专业词汇词典，并基于数值型关键字建立相应的特征值正则表达式。

从而根据特征项名称所带的内容，归类特征值，确定最常用的特征值的名称，保障了特征值类别与特征项的一致性，使得特征值名称更加符合建筑工程实际，并依据特征值名称建立词典和正则表达式使得利用词典和正则表达式对清单进行分词得到符合建筑工程实际的专业词汇。

具体地，通过采用NLP工具归类清单特征项的名称所带的内容，从结果中建立提取特征值的词典和正则表达方式(regular expression)，具体步骤是：采用NLP工具归类特征项名称的内容为文字型和数字型两种，文字型的词汇编辑到特征值的词典，数字型的词汇编辑到正则表达方式(regular expression)。

示例性地，以上述2013年的广东地区的清单编码010504001为例：从历史大数据中统计出的特征项的值表达式和统计的数目如表11所示，采用NLP工具归类特征项名称的内容为文字型和数字型两种，文字型的词汇编辑到特征值的词典(vocabulary)，数字型的归类到正则表达式(pattern)，如表12所示。其中，vocabulary样例-混凝土添加剂词典示例如表13所示，pattern样例-混凝土抗渗等级示例如表14所示.

表11

表12

特征项名称	特征值类别名称	Pattern	Vocabulary
				混凝土强度等级	混凝土强度等级	混凝土强度等级
混凝土强度等级	混凝土抗渗等级	混凝土抗渗等级
				混凝土强度等级	混凝土添加剂	混凝土添加剂	混凝土添加剂词典
混凝土种类	混凝土种类		混凝土名称种类词典
				墙体类型	墙体形状		墙体类型词典
墙体类型	墙体类型		墙体形状词典

表13

表14

抗渗等级	抗渗等级≥[\s]{0,3}\d\.\dmpa
		抗渗等级	抗渗等级不[小少]于[\s]{0,3}\d\.\dm<sub>p</sub>a
抗渗等级	抗渗等级:[\s]{0,3}\d\.\dmpa
		抗渗等级	抗渗等级为[\s]{0,3}\d\.\dmpa
抗渗等级	抗渗等级是[\s]{0,3}\d\.\dmpa
		抗渗等级	抗渗强度等级[\s]{0,3}\d\.\dmpa
抗渗等级	防渗等级[\s]{0,3}\d\.\dmpa

从而使用机器学习的统计方法和NLP词汇的相似度工具，生成了主要的元数据集合包括清单的特征项，特征项包含的不同值的类别，提取特征值相应的词汇所需要的词典和特征值相应数字型的正则表达式。

具体地，在一实施例中，上述的步骤S105具体通过解析器来实现，解析器是用来从清单描述中取专业词汇，并根据清单的特征项和特征值的类别归类，也就是对清单描述进行建筑专业的结构化，具体包括如下步骤：

步骤S51：基于元数据集合中的特征值专业词汇词典和特征值正则表达式，对待处理建筑工程清单的工程内容进行特征提取，得到对应的专业词汇。

步骤S52：将提取的专业词汇按照其对应的特征值专业词汇词典或特征值正则表达式，进行特征值类别及特征项的归类，生成结构化的工程清单描述。

具体地，解析器入输入：地区编码+清单编码+清单描述；输出：清的标准特征项名称，特征值名称，提取出的值包括正常值和标准化值；所使用的算法：元数据集合。解析器实现上述过程的代码流程包括：第一步读取清单对应的元数据结合(metadata)，第二步提取清单的特征项的专业词汇和专业数字。

a)读取清单对应的元数据集合(metadata)

解析器所需要的清单元数据集合包括解析基本数据有关的objects，读取和标准化(normalization)有关的objects，读取和解析结果有关的objects，具体包括：清单编码，清单特征项，特征值类别,词语关联标签，表达式规范，及词典之间的关系。具体元数据集合各个内容解释如下，读取和解析基本数据有关的objects：Parsing item：每一个清单的解析内容和顺序、Context tag：词语关联的关键词、Pattern：提取字段用的正则表达式、Vocabulary:提取字段用的词汇标签；读取和标准化(normalization)有关的objects：normalizer_data:标准化的单位、default_specific_values:标准化的特殊默认值、default__综合考虑:标准化的“综合考虑”的默认值、Range_normalizer:标准化中文的范围表达，例如：不多于＝》<＝；读取和解析结果有关的objects：exclusive_result_valuetype:需要过滤的解析特征值结果等。

b)提取清单的特征项的专业词汇和专业数字

解析过程就是把一条输入的清单数据根据特征项及特征值类别把专业词汇和专业数字进行结构化的主要流程，主要的程序包括Pre-process预处理，Segmentation分行，Token Extraction–提取，Mapping to，Category–归类，Normalizing Results–标准化，Building Final Results–获取结果等。示例性地，Input–输入：地区编码Dbid,清单编码itemcode，清单名称spec_name，和清单描述spec；预处理Pre-process：在预处理过程中，统一特殊字符，删除不需要的单词和内容。此过程进行两种清理，一种是在细分之前的清理，另一种是在细分之后的清理；在分行之前的处理，包括清单名称和清单描述改为小写字符，替换的不需要的描述字段，删除stopwords词汇，去除不想要的描述；分行Segmentation：分行过程是把清单描述里的换行，和一些“符号”作为换行分割符进行分行，同一行的描述一般会有相同业务语意；定义词语关联Build Segment Context List：在本发明实施例中用“上下文关联”(context)的一些特殊词汇做标签(tag)来代表清单描述的特征项，这些context tag是和九位清单编码相联。所以每条清单描述都需要进行词语关联的定义。如果在字段中找到了上下文标记关键字，则该段将被标记为“上下文名称”。例如：

spec_name：'仿石防滑砖'

spec：1.8厚仿石防滑砖,300mm*600mm，M25(1:1)水泥细砂浆扫缝2.20厚M20(1:2.5)水泥砂保护层3.聚合物水泥基Ⅱ型防水涂料道2.0mm厚,四周沿墙上翻高500 4.20厚聚合物水泥防水砂浆找平5.现浇钢筋混凝土沉箱或地台。

context tag

分行0'仿石防滑砖'：

('块料面层材料种类、配合比及规格',2,3,'防滑砖',”)

分行0有一个词语关联标签

块料面层材料种类、配合比及规格关联关键词防滑砖分行1'8厚仿石防滑砖,300mm*600mm，M25(1:1)水泥细砂浆扫缝2.20厚M20(1:2.5)水泥砂保护层'

('块料面层材料种类、配合比及规格',4,5,'防滑砖',”)

('嵌条材料种类、规格',33,34,'扫缝',”)

('防水层材料种类、配合比及厚度',54,56,'保护层',”)

分行1有三个词语关联标签：

块料面层材料种类、配合比及规格关联关键词防滑砖

嵌条材料种类、规格关联关键词扫缝

防水层材料种类、配合比及厚度关联关键词保护层分行2'聚合物水泥基Ⅱ型防水涂料道2.0mm厚,四周沿墙上翻高500'

('防水层材料种类、配合比及厚度',9,10,'防水',”)

分行2有一个词语关联标签：

防水层材料种类、配合比及厚度关联关键词防水分行3'20厚聚合物水泥防水砂浆找平'

('防水层材料种类、配合比及厚度',8,9,'防水',”)

('找平层材料种类、配合比及厚度',12,13,'找平',”)

分行3有两个词语关联标签：

防水层材料种类、配合比及厚度关联关键词防水

找平层材料种类、配合比及厚度关联关键词找平分行4'现浇钢筋混凝土沉箱或地台'

没有词语关联标签。

c)字符提取Token Extraction

提取过程分为两个主要过程，数字(pattern)提取和词汇(vocabulary)提取来完成。

示例性地，根据上述元数据集合，每一个清单的特征项的特征值有正则表达名称和词典名称，例如：清单编码010401001如表15所示。

表15

其中，正则表达式会有多个表达式，例如：“砂浆配合比”就有下面具体表达式：砂浆配合比为\d+:\d+:\d+:\d+、砂浆配合比\d+:\d+\.\d+砂浆配合比(？！3:7)\d:\d等。具体提取过程就是把清单的特征项的特征值带有pattern都执行一遍，看有没有满足表达式的数字，如果有就是提取出的数字型词汇，例如：'名称:水泥砂浆名称:水泥砂浆2:3水泥砂浆,1:3'砂浆配合比提取出的数字型词汇是：1:3。

词典里是收集的专业词汇，表16为部分“基础类型词典“，如果清单描述里有匹配的词汇，就会提出来，然后输出“标准化的词汇”，也就是把相似的词汇统一成一个字符串。从而通过对词汇进行标准化处理，使得结构化清单描述更加准确，灵活性更高，能适应不同设计人员习惯等，扩大了应用范围。

表16

最后再将提取出的词汇进行结构化(Mapping to Category)，这个过程就是把提取出的专业词汇归类到清单的特征项和特征值类别。原则是从特征项和特征值类别所带的词汇和正则表达式就会归类到同一个特征项和特征值类别。例如：清单描述：1.砖品种、规格、强度等级:混凝土实心砖

砂浆强度等级:DM干混砌筑砂浆一类，强度等级：M7.5。其中，240*115*53是表15中“规格X*Y*Z”提取出的，所以应该属于砖品种、规格、强度等级特征项，砖规格特征类别；混凝土实心砖是砌块品种词典提取出的，所以应该属于砖品种、规格、强度等级特征项，砖品种特征类别。从而通过对清单描述进行建筑专业的结构化，实现了清单描述的一致性表述，不仅可以被智能组价产品使用，还可以用于任何需要从建筑领域文本描述中提取专业知识的场景，例如有关建筑工程的智能技术客服产品，建筑领域的专业知识库的数据收集等，应用范围广阔。

本发明实施例还提供了一种工程量计价方法，如图3所示，该工程量计价方法具体包括如下步骤：

步骤S201：获取待计价建筑工程清单及历史参考建筑工程清单集合。

其中，历史参考建筑工程清单集合中每个历史参考建筑工程清单都有对应的历史定额组价方案，也就是定额组价方案带有计价信息，从而可以用来做工程价格的计算。

步骤S202：将清单处理需求设置为定额选取，并采用本发明另一实施例提供的建筑工程清单数据处理方法，分别对待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合。

具体地，通过采用本发明另一实施例提供的建筑工程清单数据处理方法得到的待计价工程清单描述和历史参考工程清单描述集合，由于清单描述都是统一的结构化描述，并且都仅包括与定额选取有关的专业词汇和专业数字，从而为待计价工程清单进行工程量计价提供了准确的定额组选取的数据基础。

步骤S203：分别计算待计价工程清单描述与历史参考工程清单描述集合中各历史参考工程清单描述的匹配度。

具体地，通过计算待计价工程清单描述与各个历史参考工程清单描述中字符串的相似度，由于所有的工程清单描述仅包括与定额选取有关的专业词汇和专业数字，并且为统一的结构化描述方式，即按照特征项和特征值类别对专业词汇和专业数字进行归类，从而提高了相似度结果的准确性。

步骤S204：获取匹配度最高的历史参考工程清单描述所对应的历史定额组。

具体地，待计价工程清单描述与历史参考工程清单描述的匹配度越高，则说明二者定额组选取差异越小，因此，通过将匹配度最高的历史参考工程清单描述所对应的历史定额组作为待计价建筑工程清单的定额组进行工程量计价，可以提高工程量计价结果的准确性。

步骤S205：基于历史定额组对待计价建筑工程清单进行工程量计价。

通过执行上述步骤，本发明实施例提供的工程量计价方法，通过对待计价建筑工程清单及历史参考建筑工程清单采用本发明另一实施例提供的描述方法进行结构化描述，得到的工程清单描述仅包括与定额相关的内容，并且清单描述为建筑专业的词汇和表达式，以此工程清单描述进行定额组的匹配，可以有效提高匹配结果的准确性，进而提高工程量计价结果的准确性。

本发明实施例还提供了一种建筑工程清单数据处理装置，如图4所示，该建筑工程清单数据处理装置包括：

第一获取模块101，用于获取历史建筑工程清单描述集合和清单处理需求。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于基于清单处理需求对历史建筑工程清单描述集合进行特征项提取，得到特征项集合。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式，特征值专业词汇词典和特征值正则表达式用于提取与特征值类别相对应的专业词汇。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

第三处理模块104，用于基于特征项集合及每个特征项的特征值类别及其对应的特征值专业词汇词典和特征值正则表达式，构成元数据集合。详细内容参见上述方法实施例中步骤S104的相关描述，在此不再进行赘述。

第四处理模块105，用于基于元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述。详细内容参见上述方法实施例中步骤S105的相关描述，在此不再进行赘述。

本发明实施例提供的建筑工程清单数据处理装置更进一步的描述，具体参见上述建筑工程清单数据处理方法实施例的相关描述，二者具体实现过程类似，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的建筑工程清单数据处理装置，通过从历史建筑工程清单描述中确定特征项，并根据特征项的内容确定特征类别建立相应的特征值专业词汇词典和特征值正则表达式，从而可以分割出符合建筑领域的专业词汇和表达式，并通过将分割出的专业词汇和表达式根据清单的工程内容的技术含义结构化地归类至特征项，并且只提取与清单处理需求相关联的关键词汇，从而使得最终的工程清单描述更加符合智能技术需求，有利于提高建筑工程智能产品的性能。

本发明实施例还提供了一种工程量计价装置，如图5所示，该工程量计价装置包括：

第二获取模块201，用于获取待计价建筑工程清单及历史参考建筑工程清单集合。详细内容参见上述方法实施例中步骤S201的相关描述，在此不再进行赘述。

第五处理模块202，用于将清单处理需求设置为定额选取，并采用本发明另一实施例提供的建筑工程清单数据处理装置，分别对待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合。详细内容参见上述方法实施例中步骤S202的相关描述，在此不再进行赘述。

第六处理模块203，用于分别计算待计价工程清单描述与历史参考工程清单描述集合中各历史参考工程清单描述的匹配度。详细内容参见上述方法实施例中步骤S203的相关描述，在此不再进行赘述。

第七处理模块204，用于获取匹配度最高的历史参考工程清单描述所对应的历史定额组。详细内容参见上述方法实施例中步骤S204的相关描述，在此不再进行赘述。

第八处理模块205，用于基于历史定额组对待计价建筑工程清单进行工程量计价。详细内容参见上述方法实施例中步骤S205的相关描述，在此不再进行赘述。

本发明实施例提供的工程量计价装置更进一步的描述，具体参见上述工程量计价方法实施例的相关描述，二者具体实现过程类似，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的工程量计价装置，通过对待计价建筑工程清单及历史参考建筑工程清单采用本发明另一实施例提供的描述方法进行结构化描述，得到的工程清单描述仅包括与定额相关的内容，并且清单描述为建筑专业的词汇和表达式，以此工程清单描述进行定额组的匹配，可以有效提高匹配结果的准确性，进而提高工程量计价结果的准确性。

本发明实施例还提供了一种电子设备，如图6所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种建筑工程清单数据处理方法，其特征在于，包括：

获取历史建筑工程清单描述集合和清单处理需求；

2.根据权利要求1所述的方法，其特征在于，所述基于所述清单处理需求对所述历史建筑工程清单描述集合进行特征项提取，得到特征项集合，包括：

基于所述清单处理需求确定特征项名称对应的特征项标识；

基于提取出的特征项名称构建所述特征项集合。

3.根据权利要求1所述的方法，其特征在于，所述基于特征项集合中每个特征项对应的关键字确定特征值类别，并建立相应的特征值专业词汇词典和特征值正则表达式，包括：

对提取的关键词进行类别名称定义，确定特征值类别；

4.根据权利要求1所述的方法，其特征在于，所述基于所述元数据集合对待处理建筑工程清单的工程内容进行处理，得到结构化的工程清单描述，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

获取若干历史建筑工程清单；

6.一种工程量计价方法，其特征在于，包括：

获取待计价建筑工程清单及历史参考建筑工程清单集合；

7.一种建筑工程清单数据处理装置，其特征在于，包括：

8.一种工程量计价装置，其特征在于，包括：

第五处理模块，用于将清单处理需求设置为定额选取，并采用如权利要求7所述的建筑工程清单数据处理装置，分别对所述待计价建筑工程清单及历史参考建筑工程清单进行处理，得到对应的待计价工程清单描述和历史参考工程清单描述集合；

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1-6中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，实现如权利要求1-6中任一项所述方法。