CN107273484A - 建设行业工程项目xml文件数据归集方法及系统 - Google Patents
建设行业工程项目xml文件数据归集方法及系统 Download PDFInfo
- Publication number
- CN107273484A CN107273484A CN201710440788.1A CN201710440788A CN107273484A CN 107273484 A CN107273484 A CN 107273484A CN 201710440788 A CN201710440788 A CN 201710440788A CN 107273484 A CN107273484 A CN 107273484A
- Authority
- CN
- China
- Prior art keywords
- engineering
- engineering project
- xml file
- project
- construction industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000000463 material Substances 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种建设行业工程项目XML文件数据归集方法及系统,方法包括以下步骤:A、基于分布式和高并发的计算机技术,获取各客户端上的建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;B、根据提取的节点属性信息将关键属性字段转换为标准文本信息;C、分析所述标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;D、将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。本发明实现了一种高效的建设行业工程项目XML文件数据归集方案,并具有归集效率更高、更准确等有益效果。
Description
技术领域
本发明属于建设行业工程项目文件处理领域,具体涉及一种建设行业工程项目XML文件数据归集方法及系统
背景技术
XML文件作为建设行业项目工程数据存储的主要文件类型之一,已经被广泛使用。但是对于XML文件内部的数据而言,建设行业还没有一个通用、标准的归集方案,因此建设行业的各企业主要按照各自的意愿设置各种标准进行归集。这些归集标准不统一的XML文件数据在后期的应用中难以自动进行识别及分析,因此对分析工作带来了很大困难。现有的解决方案主要仍是通过人工进行识别及分析,效率很低且成本过高。
故而,现有技术需要进一步发展及改进。
发明内容
本发明的目的在于解决建设行业中缺少XML文件数据的通用归集方案的问题,由此公开一种建设行业工程项目XML文件数据归集方法。同时,本发明还相应公开一种建设行业工程项目XML文件数据归集系统。
为了实现以上目的,本发明公开的一种建设行业工程项目XML文件数据归集方法,包括以下步骤:
A、基于分布式和高并发的计算机技术,获取各客户端上的建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;
B、根据提取的节点属性信息将关键属性字段转换为标准文本信息;
C、分析所述标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;
D、将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
本发明的进一步方案中,步骤B中具体包括:
B1、对包含有关键属性字段的文本信息进行IK分词处理,并将与关键词库进行匹配,得到有效的到关键属性字段;
B2、通过Simhash算法对有效的关键属性字段相似对度进行计算及统计,提取出标准格式数据,并形成标准文本信息。
本发明的进一步方案中,步骤D包括对标准文本信息按照工程项目数据层级进行统一编码。
本发明的进一步方案中,步骤D的工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。
本发明相应公开的一种建设行业工程项目XML文件数据归集系统,包括节点属性及字段提取模块、标准文本转换模块、工程项目归集模块、工程指标输出模块;其中,
节点属性及字段提取模块用于在各客户端上采集建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;标准文本转换模块用于根据提取的节点属性信息将关键属性字段转换为标准文本信息;工程项目归集模块用于分析标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;工程指标输出模块用于将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
有益效果:本发明通过提取XML文件数据的节点属性信息以及关键属性字段,对工程项目进行分类归集分类及编码归集,并按照工程项目结构自动汇总及输出工程指标,从而实现了一种高效的建设行业工程项目XML文件数据归集方案,为建设行业XML文件数据的通用归集提供了参考案例。此外,本发明还具有归集效率更高、更准确等有益效果。
附图说明
图1是实施例一公开的建设行业工程项目XML文件数据归集方法整体流程示意图。
图2是实施例二公开的建设行业工程项目XML文件数据归集系统结构框图。
具体实施方式
为了便于本领域技术人员理解,下面将结合附图以及实施例对本发明进行进一步描述。
实施例一
请参阅图1,实施例一公开的一种建设行业工程项目XML文件数据归集方法,主要包括以下步骤S100至S400:
S100、基于分布式和高并发的计算机技术,获取各客户端上的建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段。
步骤S100中的节点属性信息用于表征该节点中字段的属性,譬如某工程项目XML文件中的节点属性信息有:序号、定额编号、项目名称、单位、数量、仪表名称、单位定额值、合计值等;其中节点属性信息的“项目名称”有以下关键属性字段:保护倒换测试、敷设管道光缆、光缆割接、光纤连接、光缆中继段双窗口测试等。
S200、根据提取的节点属性信息将关键属性字段转换为标准文本信息。
步骤S200中具体可采用以下S210至S220的方案:
S210、对包含有关键属性字段的文本信息进行IK分词处理,并将与关键词库进行匹配,得到有效的到关键属性字段;
S220、通过Simhash算法对有效的关键属性字段相似对度进行计算及统计,提取出标准格式数据,并形成标准文本信息。
S300、分析所述标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者。
S400、将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
步骤S400包括对标准文本信息按照工程项目数据层级进行统一编码。其中的工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。其中的工程指标可包括工程量、材料数量、成本等指标。
本实施例通过通过提取XML文件数据的节点属性信息以及关键属性字段,对工程项目进行分类归集分类及编码归集,并按照工程项目结构自动汇总及输出工程指标,从而实现了一种高效的建设行业工程项目XML文件数据归集方案,为建设行业XML文件数据的通用归集提供了参考案例。
实施例二
请参阅图2,实施例二相应公开的一种建设行业工程项目XML文件数据归集系统,包括节点属性及字段提取模块10、标准文本转换模块20、工程项目归集模块30、工程指标输出模块40。
其中,节点属性及字段提取模块10用于在各客户端上采集建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;标准文本转换模块20用于根据提取的节点属性信息将关键属性字段转换为标准文本信息;工程项目归集模块30用于分析标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;工程指标输出模块40用于将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
实施例二与实施例一相对,其工作原理及有益效果与实施例一相同,这里不再赘述。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种建设行业工程项目XML文件数据归集方法,其特征在于,包括以下步骤:
A、基于分布式和高并发的计算机技术,获取各客户端上的建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;
B、根据提取的节点属性信息将关键属性字段转换为标准文本信息;
C、分析所述标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;
D、将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
2.根据权利要求1所述的建设行业工程项目XML文件数据归集方法,其特征在于,步骤B中具体包括:
B1、对包含有关键属性字段的文本信息进行IK分词处理,并将与关键词库进行匹配,得到有效的到关键属性字段;
B2、通过Simhash算法对有效的关键属性字段相似对度进行计算及统计,提取出标准格式数据,并形成标准文本信息。
3.根据权利要求2所述的建设行业工程项目XML文件数据归集方法,其特征在于,步骤D包括对标准文本信息按照工程项目数据层级进行统一编码。
4.根据权利要求3所述的建设行业工程项目XML文件数据归集方法,其特征在于,步骤D中工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。
5.一种建设行业工程项目XML文件数据归集系统,其特征在于,包括节点属性及字段提取模块、标准文本转换模块、工程项目归集模块、工程指标输出模块;其中,
节点属性及字段提取模块用于在各客户端上采集建设行业工程项目XML文件,并提取XML文件中所有的节点属性信息以及关键属性字段;标准文本转换模块用于根据提取的节点属性信息将关键属性字段转换为标准文本信息;工程项目归集模块用于分析标准文本信息,根据分析结果将对应工程项目进行归集分类,对应存储至文档库、材价库、项目库以及供应商/品牌库中的其中一者;工程指标输出模块用于将所存储的工程项目按工程编码归集,并按照工程结构自动汇总工程项目数据层级,输出工程指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710440788.1A CN107273484A (zh) | 2017-06-13 | 2017-06-13 | 建设行业工程项目xml文件数据归集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710440788.1A CN107273484A (zh) | 2017-06-13 | 2017-06-13 | 建设行业工程项目xml文件数据归集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107273484A true CN107273484A (zh) | 2017-10-20 |
Family
ID=60067143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710440788.1A Pending CN107273484A (zh) | 2017-06-13 | 2017-06-13 | 建设行业工程项目xml文件数据归集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273484A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636340A (zh) * | 2018-12-13 | 2019-04-16 | 深圳市航建工程造价咨询有限公司 | 一种工程造价数据中心管理系统及装置 |
CN109739946A (zh) * | 2018-12-25 | 2019-05-10 | 华联世纪工程咨询股份有限公司 | 工程数据包的生成方法及装置 |
CN110825478A (zh) * | 2019-11-05 | 2020-02-21 | 广东优世联合控股集团股份有限公司 | 一种主界面内容添加方法、装置、介质和电子设备 |
CN110942354A (zh) * | 2019-12-11 | 2020-03-31 | 广州地铁集团有限公司 | 一种基于大数据算法的轨道交通工程造价指标自动计算方法 |
CN111694990A (zh) * | 2020-06-08 | 2020-09-22 | 深圳市富中奇科技有限公司 | 车辆数据的处理方法、装置及存储介质 |
CN113269530A (zh) * | 2021-06-02 | 2021-08-17 | 陈丰 | 反向生成wbs结构及工程造价汇总的方法、装置和设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799894A (zh) * | 2010-01-11 | 2010-08-11 | 中冶东方工程技术有限公司 | 一种复杂网络环境下的epc工程数据处理系统与方法 |
CN103971208A (zh) * | 2014-05-23 | 2014-08-06 | 深圳市环境监测中心站 | 输变电工程建设项目分类系统及方法 |
CN104679846A (zh) * | 2015-02-11 | 2015-06-03 | 广州拓欧信息技术有限公司 | 利用xml格式数据描述建筑信息模型的方法及系统 |
CN104715359A (zh) * | 2015-04-03 | 2015-06-17 | 广东中建普联科技有限公司 | 一种结构化建设行业材料文件及材料数据识别管理方法 |
CN105045927A (zh) * | 2015-08-26 | 2015-11-11 | 广东中建普联科技有限公司 | 建设工程工料机数据自动编码方法及系统 |
CN105335905A (zh) * | 2015-11-24 | 2016-02-17 | 广州拓欧信息技术有限公司 | 一种建筑工程算量和估价系统及方法 |
CN105704184A (zh) * | 2014-11-28 | 2016-06-22 | 国网河南省电力公司南阳供电公司 | 一种基于层级框架的电网组织解析系统及解析方法 |
CN105825331A (zh) * | 2016-03-08 | 2016-08-03 | 河南理工大学 | 土木建筑各项工程的管理系统 |
CN106470216A (zh) * | 2015-08-14 | 2017-03-01 | 江贻芳 | 一种基于信息共享、交互的内容管理系统 |
CN106779624A (zh) * | 2017-01-20 | 2017-05-31 | 国网青海省电力公司西宁供电公司 | 一种配电网工程造价编制及审核应用系统 |
-
2017
- 2017-06-13 CN CN201710440788.1A patent/CN107273484A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799894A (zh) * | 2010-01-11 | 2010-08-11 | 中冶东方工程技术有限公司 | 一种复杂网络环境下的epc工程数据处理系统与方法 |
CN103971208A (zh) * | 2014-05-23 | 2014-08-06 | 深圳市环境监测中心站 | 输变电工程建设项目分类系统及方法 |
CN105704184A (zh) * | 2014-11-28 | 2016-06-22 | 国网河南省电力公司南阳供电公司 | 一种基于层级框架的电网组织解析系统及解析方法 |
CN104679846A (zh) * | 2015-02-11 | 2015-06-03 | 广州拓欧信息技术有限公司 | 利用xml格式数据描述建筑信息模型的方法及系统 |
CN104715359A (zh) * | 2015-04-03 | 2015-06-17 | 广东中建普联科技有限公司 | 一种结构化建设行业材料文件及材料数据识别管理方法 |
CN106470216A (zh) * | 2015-08-14 | 2017-03-01 | 江贻芳 | 一种基于信息共享、交互的内容管理系统 |
CN105045927A (zh) * | 2015-08-26 | 2015-11-11 | 广东中建普联科技有限公司 | 建设工程工料机数据自动编码方法及系统 |
CN105335905A (zh) * | 2015-11-24 | 2016-02-17 | 广州拓欧信息技术有限公司 | 一种建筑工程算量和估价系统及方法 |
CN105825331A (zh) * | 2016-03-08 | 2016-08-03 | 河南理工大学 | 土木建筑各项工程的管理系统 |
CN106779624A (zh) * | 2017-01-20 | 2017-05-31 | 国网青海省电力公司西宁供电公司 | 一种配电网工程造价编制及审核应用系统 |
Non-Patent Citations (2)
Title |
---|
易赛莉: ""给排水C A D 图形数据库开发及网络数据交换技术"", 《计算机技术》 * |
牛立群: ""某大型工程建设集团工程项目管理信息化系统的建设与应用"", 《项目管理技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636340A (zh) * | 2018-12-13 | 2019-04-16 | 深圳市航建工程造价咨询有限公司 | 一种工程造价数据中心管理系统及装置 |
CN109739946A (zh) * | 2018-12-25 | 2019-05-10 | 华联世纪工程咨询股份有限公司 | 工程数据包的生成方法及装置 |
CN110825478A (zh) * | 2019-11-05 | 2020-02-21 | 广东优世联合控股集团股份有限公司 | 一种主界面内容添加方法、装置、介质和电子设备 |
CN110942354A (zh) * | 2019-12-11 | 2020-03-31 | 广州地铁集团有限公司 | 一种基于大数据算法的轨道交通工程造价指标自动计算方法 |
CN111694990A (zh) * | 2020-06-08 | 2020-09-22 | 深圳市富中奇科技有限公司 | 车辆数据的处理方法、装置及存储介质 |
CN113269530A (zh) * | 2021-06-02 | 2021-08-17 | 陈丰 | 反向生成wbs结构及工程造价汇总的方法、装置和设备 |
CN113269530B (zh) * | 2021-06-02 | 2023-12-22 | 陈丰 | 反向生成wbs结构及工程造价汇总的方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273484A (zh) | 建设行业工程项目xml文件数据归集方法及系统 | |
CN104899314B (zh) | 一种数据仓库的血统分析方法和装置 | |
CN104063314B (zh) | 一种测试数据自动生成装置及方法 | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
CN107147639A (zh) | 一种基于复杂事件处理的实时安全预警方法 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN112181955B (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN106708739A (zh) | 基于扩展状态机模型的Web服务测试用例生成方法及系统 | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
CN109101519B (zh) | 信息采集系统和异构信息融合系统 | |
CN108595627A (zh) | 一种自助式数据分析建模平台 | |
CN111008020A (zh) | 将逻辑表达式解析为通用查询语句的方法 | |
CN104766240A (zh) | 电子银行业务数据处理系统及方法 | |
CN109308290A (zh) | 一种基于cim的高效数据清洗转换方法 | |
CN107493275A (zh) | 异构网络安全日志信息的自适应提取和分析方法及系统 | |
CN106685707A (zh) | 一种分布式基础设施系统中的资产信息控制方法 | |
CN108052507A (zh) | 一种城市管理信息舆情分析系统及方法 | |
KR101693727B1 (ko) | 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법 | |
KR20140076010A (ko) | 대용량 xml 데이터에 대한 다수의 가지 패턴 질의의 동시 병렬처리시스템 및 그 방법 | |
Nicolson et al. | Specimens as research objects: reconciliation across distributed repositories to enable metadata propagation | |
CN107193788A (zh) | 建设行业工程项目Excel文件数据格式化存储方法及系统 | |
CN101576933A (zh) | 基于标题分隔符的全自动web页面分组法 | |
CN113918534A (zh) | 一种策略处理系统及方法 | |
CN113641654B (zh) | 一种基于实时事件的营销处置规则引擎方法 | |
CN115905705A (zh) | 基于工业大数据的工业算法模型推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |
|
RJ01 | Rejection of invention patent application after publication |