CN107193788A - 建设行业工程项目Excel文件数据格式化存储方法及系统 - Google Patents

建设行业工程项目Excel文件数据格式化存储方法及系统 Download PDF

Info

Publication number
CN107193788A
CN107193788A CN201710440801.3A CN201710440801A CN107193788A CN 107193788 A CN107193788 A CN 107193788A CN 201710440801 A CN201710440801 A CN 201710440801A CN 107193788 A CN107193788 A CN 107193788A
Authority
CN
China
Prior art keywords
excel file
engineering project
data
construction industry
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710440801.3A
Other languages
English (en)
Inventor
胡焱
黄宁
周金源
苏志伟
张涛
侯晓峰
陈红仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Con-Com Polytron Technologies Inc
Original Assignee
Guangdong Con-Com Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Con-Com Polytron Technologies Inc filed Critical Guangdong Con-Com Polytron Technologies Inc
Priority to CN201710440801.3A priority Critical patent/CN107193788A/zh
Publication of CN107193788A publication Critical patent/CN107193788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明涉及一种建设行业工程项目Excel文件数据格式化存储方法及系统,方法包括以下步骤:A、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;B、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;C、将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;D、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。本发明实现了一种高效的建设行业工程项目Excel文件数据格式化存储方案,并具有识别效率更高、更准确等有益效果。

Description

建设行业工程项目Excel文件数据格式化存储方法及系统
技术领域
本发明属于建设行业工程项目文件处理领域,具体涉及一种建设行业工程项目Excel文件数据格式化存储方法及系统
背景技术
Excel文件作为数据格式化存储已经在许多行业得到使用,但是建设行业还没有一个通用、标准的数据格式化存储方案,因此建设行业的各企业主要按照各自的意愿设置存储格式进行存储。这些存储格式不统一的Excel文件数据上传到大数据分析平台后,系统难以自动进行识别及分析,因此对分析工作带来了很大困难。现有的解决方案主要仍是通过人工进行识别及分析,效率很低且成本过高。
故而,现有技术需要进一步发展及改进。
发明内容
本发明的目的在于解决建设行业中缺少Excel文件数据的通用格式化存储方案的问题,由此公开一种建设行业工程项目Excel文件数据格式化存储方法。同时,本发明还相应公开一种建设行业工程项目Excel文件数据格式化存储系统。
为了实现以上目的,本发明公开的一种建设行业工程项目Excel文件数据格式化存储方法,包括以下步骤:
A、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;
B、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;
C、将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;
D、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
本发明的进一步方案中,步骤A中字段属性信息包括行名称和列名称。
本发明的进一步方案中,步骤B中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段。
本发明的进一步方案中,步骤C中的反垃圾大数据算法具体为Simhash算法,通过Simhash算法对关键特征字段相似对度进行计算及统计,识别出垃圾文件数据和标准格式数据。
本发明的进一步方案中,步骤D包括对标准格式数据按照工程项目数据层级进行统一编码,以便于数据横向及纵向对比分析。
本发明的进一步方案中,工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。
本发明相应公开的一种建设行业工程项目Excel文件数据格式化存储系统,包括字段属性信息提取模块、关键特征字段提取模块、标准格式数据识别模块、数据规约存储模块;其中,
字段属性信息提取模块用于在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;关键特征字段提取模块用于根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;标准格式数据识别模块用于将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;数据规约存储模块用于将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
有益效果:本发明通过提取Excel文件数据的字段属性信息以及关键特征字段,结合Kafka消息队列及反垃圾大数据算法识别出标准格式数据,以及对标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储,从而实现了一种高效的建设行业工程项目Excel文件数据格式化存储方案,为建设行业Excel文件数据的通用格式化存储提供了参考案例。此外,本发明还具有识别效率更高、更准确等有益效果。
附图说明
图1是实施例一公开的建设行业工程项目Excel文件数据格式化存储方法整体流程示意图。
图2是实施例二公开的建设行业工程项目Excel文件数据格式化存储系统结构框图。
具体实施方式
为了便于本领域技术人员理解,下面将结合附图以及实施例对本发明进行进一步描述。
实施例一
请参阅图1,实施例一公开的一种建设行业工程项目Excel文件数据格式化存储方法,主要包括以下步骤S100至S400:
S100、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息。
步骤S100中的字段属性信息包括行名称和列名称。譬如某工程项目Excel文件中的字段属性信息有以下行名称或列名称:序号、定额编号、项目名称、单位、数量、仪表名称、单位定额值、合计值等。
S200、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段。
譬如在以上工程项目Excel文件中字段属性信息的行名称“项目名称”进行坐标定位并提取到以下关键特征字段:保护倒换测试、敷设管道光缆、光缆割接、光纤连接、光缆中继段双窗口测试等。
步骤S200中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段。
S300、将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据。
步骤S300中的反垃圾大数据算法具体为Simhash算法,通过Simhash算法对关键特征字段相似对度进行计算及统计,识别出垃圾文件数据和标准格式数据。
S400、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
步骤S400包括对标准格式数据按照工程项目数据层级进行统一编码,以便于数据横向及纵向对比分析。
本实施例的工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。
本实施例通过提取Excel文件数据的字段属性信息以及关键特征字段,结合Kafka消息队列及反垃圾大数据算法识别出标准格式数据,以及对标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储,从而实现了一种高效的建设行业工程项目Excel文件数据格式化存储方案,为建设行业Excel文件数据的通用格式化存储提供了参考案例。
实施例二
请参阅图2,实施例二相应公开的一种建设行业工程项目Excel文件数据格式化存储系统,包括字段属性信息提取模块10、关键特征字段提取模块20、标准格式数据识别模块30、数据规约存储模块40。
其中,字段属性信息提取模块10用于在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;关键特征字段提取模块20用于根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;标准格式数据识别模块30用于将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;数据规约存储模块40用于将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
实施例二与实施例一相对,其工作原理及有益效果与实施例一相同,这里不再赘述。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种建设行业工程项目Excel文件数据格式化存储方法,其特征在于,包括以下步骤:
A、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;
B、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;
C、将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;
D、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
2.根据权利要求1所述的建设行业工程项目Excel文件数据格式化存储方法,其特征在于,步骤A中字段属性信息包括行名称和列名称。
3.根据权利要求2所述的建设行业工程项目Excel文件数据格式化存储方法,其特征在于,步骤B中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段。
4.根据权利要求3所述的建设行业工程项目Excel文件数据格式化存储方法,其特征在于,步骤C中的反垃圾大数据算法具体为Simhash算法,通过Simhash算法对关键特征字段相似对度进行计算及统计,识别出垃圾文件数据和标准格式数据。
5.根据权利要求4所述的建设行业工程项目Excel文件数据格式化存储方法,其特征在于,步骤D包括对标准格式数据按照工程项目数据层级进行统一编码,以便于数据横向及纵向对比分析。
6.根据权利要求5所述的建设行业工程项目Excel文件数据格式化存储方法,其特征在于,工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。
7.一种建设行业工程项目Excel文件数据格式化存储系统,其特征在于,包括字段属性信息提取模块、关键特征字段提取模块、标准格式数据识别模块、数据规约存储模块;其中,
字段属性信息提取模块用于在各客户端上采集建设行业工程项目Excel文件,并提取Excel文件中的字段属性信息;关键特征字段提取模块用于根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;标准格式数据识别模块用于将有效的关键特征字段加入Kafka消息队列,并利用反垃圾大数据算法对导入的Excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;数据规约存储模块用于将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
CN201710440801.3A 2017-06-13 2017-06-13 建设行业工程项目Excel文件数据格式化存储方法及系统 Pending CN107193788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710440801.3A CN107193788A (zh) 2017-06-13 2017-06-13 建设行业工程项目Excel文件数据格式化存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710440801.3A CN107193788A (zh) 2017-06-13 2017-06-13 建设行业工程项目Excel文件数据格式化存储方法及系统

Publications (1)

Publication Number Publication Date
CN107193788A true CN107193788A (zh) 2017-09-22

Family

ID=59876681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710440801.3A Pending CN107193788A (zh) 2017-06-13 2017-06-13 建设行业工程项目Excel文件数据格式化存储方法及系统

Country Status (1)

Country Link
CN (1) CN107193788A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062191A1 (zh) * 2017-09-30 2019-04-04 平安科技(深圳)有限公司 电子装置、提取数据表的数据的方法、系统及存储介质
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862565B1 (ko) * 2008-02-28 2008-10-09 (주) 시온텍 사용자 맞춤형 특허정보 데이터베이스 구축시스템
CN101763581A (zh) * 2009-09-17 2010-06-30 宁波北电源兴电力工程有限公司 发电厂eam系统和该系统的报表管理模块
CN103399924A (zh) * 2013-08-05 2013-11-20 河海大学 一种水文水资源数据目录生成系统及方法
CN104679819A (zh) * 2014-12-22 2015-06-03 上海钢富电子商务有限公司 钢贸行业现货资源的数据解析方法及系统
CN104715359A (zh) * 2015-04-03 2015-06-17 广东中建普联科技有限公司 一种结构化建设行业材料文件及材料数据识别管理方法
KR101621411B1 (ko) * 2015-09-23 2016-05-31 예금보험공사 예금보험금 지급 관리시스템
CN106373036A (zh) * 2016-09-21 2017-02-01 广东中建普联科技股份有限公司 建设工程文件数据自动识别分析方法及系统
CN106528684A (zh) * 2016-10-25 2017-03-22 北京瑞风协同科技股份有限公司 一种建立工程材料数据库的方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862565B1 (ko) * 2008-02-28 2008-10-09 (주) 시온텍 사용자 맞춤형 특허정보 데이터베이스 구축시스템
CN101763581A (zh) * 2009-09-17 2010-06-30 宁波北电源兴电力工程有限公司 发电厂eam系统和该系统的报表管理模块
CN103399924A (zh) * 2013-08-05 2013-11-20 河海大学 一种水文水资源数据目录生成系统及方法
CN104679819A (zh) * 2014-12-22 2015-06-03 上海钢富电子商务有限公司 钢贸行业现货资源的数据解析方法及系统
CN104715359A (zh) * 2015-04-03 2015-06-17 广东中建普联科技有限公司 一种结构化建设行业材料文件及材料数据识别管理方法
KR101621411B1 (ko) * 2015-09-23 2016-05-31 예금보험공사 예금보험금 지급 관리시스템
CN106373036A (zh) * 2016-09-21 2017-02-01 广东中建普联科技股份有限公司 建设工程文件数据自动识别分析方法及系统
CN106528684A (zh) * 2016-10-25 2017-03-22 北京瑞风协同科技股份有限公司 一种建立工程材料数据库的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛超: "基于Hadoop的分布式网络爬虫系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062191A1 (zh) * 2017-09-30 2019-04-04 平安科技(深圳)有限公司 电子装置、提取数据表的数据的方法、系统及存储介质
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN105095223B (zh) 文本分类方法及服务器
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN101673266B (zh) 音频、视频内容的搜索方法
CN102542061B (zh) 一种产品的智能分类方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN107656958A (zh) 一种多数据源数据的归类方法及服务器
CN101957816A (zh) 基于多页面比较的网页元数据自动抽取方法和系统
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN102566945A (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN102567494A (zh) 网站分类方法及装置
CN101661468B (zh) 一种从论坛帖子列表页面中抽取帖子元数据的方法
CN113495959B (zh) 一种基于文本数据的金融舆情识别方法及系统
CN111859070A (zh) 一种海量互联网新闻清洗系统
CN107153652A (zh) 将目标字符串转化为规范化字符串的方法及装置
CN107193788A (zh) 建设行业工程项目Excel文件数据格式化存储方法及系统
CN109063744A (zh) 神经网络模型训练方法和商业文件相似度确定方法及系统
CN101957860A (zh) 一种发布、搜索信息的方法及装置
CN107944030A (zh) 一种图书自动分类装置
CN101673263B (zh) 视频内容的搜索方法
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN106685707A (zh) 一种分布式基础设施系统中的资产信息控制方法
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN101673267B (zh) 音频、视频内容的搜索方法
CN110968596A (zh) 一种基于标签系统的数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922