CN104484424A - 基于互联网建筑施工企业资源价格信息库的构建方法 - Google Patents

基于互联网建筑施工企业资源价格信息库的构建方法 Download PDF

Info

Publication number
CN104484424A
CN104484424A CN201410791468.7A CN201410791468A CN104484424A CN 104484424 A CN104484424 A CN 104484424A CN 201410791468 A CN201410791468 A CN 201410791468A CN 104484424 A CN104484424 A CN 104484424A
Authority
CN
China
Prior art keywords
data
price
task
rule
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410791468.7A
Other languages
English (en)
Inventor
薛军利
刘本熙
李洪营
李伟龙
聂明
李焕伟
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201410791468.7A priority Critical patent/CN104484424A/zh
Publication of CN104484424A publication Critical patent/CN104484424A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于互联网建筑施工企业资源价格信息库的构建方法,涉及信息库构建领域。该方法以资源价格采集任务方式执行:在任务中配置获取资源价格数据的信息参数、采集频率、清洗规则、存储目标位置;在任务执行中通过配置的参数定时从互联网价格网站上进行数据抓取、清洗、存储等操作,从而获得准确的价格数据。与现有技术相比,本发明的基于互联网建筑施工企业资源价格信息库的构建方法能够解决建筑施工企业在项目管理系统建立资源(工、料、机)价格库时操作繁琐、及时性差、需人工干预的问题,大大提高了工作效率,保证了数据准确性及时性,具有很好的推广应用价值。

Description

基于互联网建筑施工企业资源价格信息库的构建方法
技术领域
本发明涉及信息库构建领域,具体地说是一种基于互联网建筑施工企业资源价格信息库的构建方法。
背景技术
建筑企业在生产经营活动中,对资源价格数据十分敏感,因为只有获得准确及时的价格数据才能在项目预算中做到准确预测项目成本,对项目投标和成本控制都起到重要作用,在日常经营采购活动中参考资源价格数据在谈判中能做到知己知彼,在竞价谈判中处于有利位置。所以, 建筑企业对资源价格数据的及时性准确性十分关注。
传统项目管理系统中价格数据采集方式一般有两种:一是依赖操作人员从项目管理系统中录入,要想得到准确实时的价格数据就需要大量人工操作录入,费时费力,且容易出错,不能在第一时间拿到准确数据;二是操作员先在系统外通过物理文件整理为系统需要的特定格式,然后导入系统,这种方式需要大量人工干预,及时性也不佳,且一旦整理数据有错误就会影响了数据正确性,甚至数据不能导入。
如何能让价格采集工作变得简单实时有效,提高投标报价和成本控制的准确性实时性,提高采购工作的生产率和工作效率,是建筑施工企业迫切要解决的一个难题。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种基于互联网建筑施工企业资源价格信息库的构建方法。该方法能够解决建筑施工企业在项目管理系统建立资源(工、料、机)价格库时操作繁琐、及时性差、需人工干预的技术问题。
本发明的技术任务是按以下方式实现的:基于互联网建筑施工企业资源价格信息库的构建方法,包括价格采集任务的设置及价格采集任务的执行两个步骤:
价格采集任务的设置包括:
(1)      任务基本属性,包括任务的编号、名称、地区、时间规则等属性;
(2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则等信息,其中,验证码获取规则包括:验证码地址、验证码识别方式、验证码识别接口(如默认识别方式不能实现,可以通过插件方式实现),是否人工参与等;
(3)任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则:网页上会有很多无效的数据,需要指定取哪些数据例如资源名称,资源编号,规格型号,价格单位,单价等对应网页上哪些元素。每个抓取对象通过设置正则表达式、直接查找和递归查找等匹配方式来从网页上找到所需的数据。用户也可在满足抓取规则接口的情况下自行开发扩展数据抓取方法;
(4)任务的分页方式,使之能够获取分页后的数据:网页上数据显示是有限的,资源价格往往会分页显示,可通过分页方式访问到有效的数据网页,以节省大量的时间;
(5)任务的执行频率和轮询规则,用于指定任务下次执行的最小间隔时间,和可以使用的服务器,以应对价格网站服务器防DDOS(分布式拒绝服务)软件的拦截:任务执行时,任务服务器根据可用服务器和最小执行时间分配抓取任务,只有服务器执行完成后空闲时间大于最小间隔时间,才可执行下一次抓取;
(6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重;
(7)任务的存储规则,可以存储到数据库表或物理文件,所述数据库支持各种主流数据库,用户也可在满足存储接口的情况下自行开发扩展存储方式;数据保存时要包含发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等要素,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存。
任务的数据来源可设置多个,每个来源分别配置抓取规则、分页方式和执行频率轮询规则。
任务的抓取规则支持多种方式组合,数据中不同项内容采用不同的规则,同一项内容可设置优先级不同的规则进行抓取。
任务的执行频率可按周、天、时、分、秒或自定义时间间隔设置;任务的轮询规则支持同一服务器等待时间和不同服务器的切换时间等设置。
价格采集任务的执行包括:
(1)抓取指定网站价格数据网页
任务模拟访问某一个价格网站进行价格数据网页抓取工作;
(2)依据抓取规则抓取数据
(3)依据清洗规则清洗数据
(4)依据存储规则保存数据。
作为优选,设置任务的分页方式时,可以通过设置首页、上页、下页、末页和显示页序号的分页方式或指定下一页按钮或指定页序号输入框和跳转执行按钮的方式设置分页。
数据清洗的规则包括数据一致性检查、无效值和缺失值处理及去重规则。
抓取指定网站价格数据网页的具体步骤为:
1)访问价格网站,输入访问凭据;然后,判断是否需要输入验证码;
2)如果不需要验证码,则进入网页抓取操作;如果需要验证码,根据设置的验证规则获取验证码,并进行识别判断或人工识别;
3)验证码输入完成后,进入网页抓取操作;
4)当前网页抓取完成后,读取分页方式,判断是否有下一页,如果有下一页,则根据设定的执行频率和轮询规则,执行访问下一页操作,然后执行抓取网页操作,直到没有下一页。
抓取数据时,在某一网站网页保存后,就可以按该网站设置的抓取规则抓取数据,不用等到所有网页保存完成后再抓取数据。数据抓取任务可以在网页抓取保存的空闲时间执行,这样可以有效的利用服务器的资源,提高任务的执行效率。
数据抓取后,需要对所有网站抓取的数据根据设置的规则进行清洗整理,才能得到最终有效的数据。数据清洗任务可以在数据抓取后执行,但是必须保证数据清洗任务的范围是整个任务所有网站的抓取数据。
数据清洗后,需要对数据根据设置的存储规则进行保存,才能被用户使用。
本发明的方法以资源价格采集任务方式执行:在任务中配置获取资源价格数据的信息参数、采集频率、清洗规则、存储目标位置;在任务执行中通过配置的参数定时从互联网价格网站上进行数据抓取、清洗、存储等操作,从而获得准确的价格数据。
与现有技术相比,本发明的方法具有以下突出的有益效果:
(一)只需发布任务并配置其执行参数,剩余工作由服务器自动执行,减少了人工干预,大大提高了工作效率,保证了数据准确性及时性;
(二) 使用该方法能明显提高建筑施工企业项目概预算使用相关资源价格的准确性、及时性,能更准确测算工程成本,提高企业竞争力;在资源采购时能及时获得当地当前及历史价格,节约采购成本。
附图说明
附图1是本发明构建方法中价格采集任务的设置流程图;
附图2是本发明构建方法中价格采集任务的执行流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的基于互联网建筑施工企业资源价格信息库的构建方法作以下详细地说明。
实施例:
如附图1所示,本发明的价格采集任务的设置过程为:
首先,设置任务基本属性A101,确定一个价格采集任务。每个任务可以设置多个抓取网站A102。任务的每一个抓取网站设置数据来源A104、抓取规则A105、分页方式A106和执行频率轮询规则A107等属性A103。其中,数据来源A104,包含登录网址、登录用户名和密码、验证码获取规则等信息;抓取规则A105应对每一个抓取对象设置抓取规则,可以包含多个抓取对象;设置完网站抓取规则后,进入数据清洗规则定义A108, 对采集的数据进行再次校验整理,并对数据进行比较去重,保证最终数据到有效性。最后,设置数据的存储规则A109,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存。
如图2所示,是本发明方法的价格采集任务的执行流程示意图。
图示中展示了本发明的价格采集任务的执行流程。首先,服务器发起价格任务采集请求A201,指定采集任务,采集价格数据,进入任务设置的抓取网站抓取网页数据阶段A202。
任务模拟访问某一个价格网站进行价格数据网页抓取工作A202。首先,访问价格网站,输入访问凭据A203。然后,判断是否需要输入验证码A204。如果不需要验证码,则进入网页抓取操作A207。如果需要验证码,根据A104设置的验证规则获取验证码,并进行识别判断A205。如果不能机器识别,则需要人工识别A206。验证码输入完成后,进入网页抓取操作A207。当前网页抓取完成后,根据A106设定,读取分页方式,判断是否有下一页A209,如果有下一页,则根据A107设定的执行频率和轮询规则,执行访问下一页操作A208,然后执行抓取网页操作A207,然后执行A209操作,直到没有下一页。
抓取数据是在某一网站网页保存后,就可以按该网站设置的抓取规则A106,抓取数据A210,不用等到所有网页保存完成后再抓取数据。
数据清洗后,根据A109设置的存储规则对数据进行保存A212。

Claims (4)

1.基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于包括价格采集任务的设置及价格采集任务的执行两个步骤:
价格采集任务的设置包括:
任务基本属性,包括任务的编号、名称、地区、时间规则属性;
(2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则信息;
(3)任务的抓取规则,用于对每一个抓取对象设置抓取规则;
(4)任务的分页方式;
(5)任务的执行频率和轮询规则,用于指定任务下次执行的最小间隔时间,和可以使用的服务器;
(6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重;
(7)任务的存储规则;
价格采集任务的执行包括:
(1)抓取指定网站价格数据网页
任务模拟访问某一个价格网站进行价格数据网页抓取工作;
(2)依据抓取规则抓取数据
(3)依据清洗规则清洗数据
(4)依据存储规则保存数据。
2.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于通过设置首页、上页、下页、末页和显示页序号的分页方式或指定下一页按钮或指定页序号输入框和跳转执行按钮的方式设置分页。
3.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于数据清洗的规则包括数据一致性检查、无效值和缺失值处理及去重规则。
4.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于抓取指定网站价格数据网页的具体步骤为:
访问价格网站,输入访问凭据;然后,判断是否需要输入验证码;
如果不需要验证码,则进入网页抓取操作;如果需要验证码,根据设置的验证规则获取验证码,并进行识别判断或人工识别;
验证码输入完成后,进入网页抓取操作;
当前网页抓取完成后,读取分页方式,判断是否有下一页,如果有下一页,则根据设定的执行频率和轮询规则,执行访问下一页操作,然后执行抓取网页操作,直到没有下一页。
CN201410791468.7A 2014-12-19 2014-12-19 基于互联网建筑施工企业资源价格信息库的构建方法 Pending CN104484424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410791468.7A CN104484424A (zh) 2014-12-19 2014-12-19 基于互联网建筑施工企业资源价格信息库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410791468.7A CN104484424A (zh) 2014-12-19 2014-12-19 基于互联网建筑施工企业资源价格信息库的构建方法

Publications (1)

Publication Number Publication Date
CN104484424A true CN104484424A (zh) 2015-04-01

Family

ID=52758965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410791468.7A Pending CN104484424A (zh) 2014-12-19 2014-12-19 基于互联网建筑施工企业资源价格信息库的构建方法

Country Status (1)

Country Link
CN (1) CN104484424A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN107577748A (zh) * 2017-08-30 2018-01-12 成都中建科联网络科技有限公司 基于大数据的建筑行业信息采集系统及其方法
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN110189175A (zh) * 2019-05-29 2019-08-30 广东粤能工程管理有限公司 一种工程项目造价咨询系统及方法
CN111523066A (zh) * 2019-02-02 2020-08-11 阿里巴巴集团控股有限公司 一种数据获取方法及装置
CN112101747A (zh) * 2020-08-28 2020-12-18 上海交通大学 一种基于禁忌共识拍卖算法的无人艇拦截任务分配方法
CN112734465A (zh) * 2020-12-31 2021-04-30 宁夏华泰家俱制造有限公司 一种家居装修工程报价生成系统及其生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609610A (zh) * 2009-07-17 2009-12-23 中国民航大学 一种航班信息数据采集器及其处理方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN103116580A (zh) * 2011-11-16 2013-05-22 中国移动通信集团公司 网站内容信息提供方法、系统及装置
CN103136358A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 一种自动抽取论坛数据的方法
CN103440315A (zh) * 2013-08-27 2013-12-11 北京工业大学 一种基于主题的Web页面清洗方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN104050281A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种基于http协议的网页信息提取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609610A (zh) * 2009-07-17 2009-12-23 中国民航大学 一种航班信息数据采集器及其处理方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN103116580A (zh) * 2011-11-16 2013-05-22 中国移动通信集团公司 网站内容信息提供方法、系统及装置
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN103136358A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 一种自动抽取论坛数据的方法
CN103440315A (zh) * 2013-08-27 2013-12-11 北京工业大学 一种基于主题的Web页面清洗方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN104050281A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种基于http协议的网页信息提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周二虎等: "基于Deep Web 检索的查询结果处理技术的应用", 《计算机工程与设计》 *
邵增荣等: "正则表达式在油价事件网页提取中的应用", 《现代图书情报技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105138660B (zh) * 2015-09-01 2018-08-14 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN107577748A (zh) * 2017-08-30 2018-01-12 成都中建科联网络科技有限公司 基于大数据的建筑行业信息采集系统及其方法
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN111523066A (zh) * 2019-02-02 2020-08-11 阿里巴巴集团控股有限公司 一种数据获取方法及装置
CN111523066B (zh) * 2019-02-02 2023-06-30 阿里巴巴集团控股有限公司 一种数据获取方法及装置
CN110189175A (zh) * 2019-05-29 2019-08-30 广东粤能工程管理有限公司 一种工程项目造价咨询系统及方法
CN112101747A (zh) * 2020-08-28 2020-12-18 上海交通大学 一种基于禁忌共识拍卖算法的无人艇拦截任务分配方法
CN112101747B (zh) * 2020-08-28 2023-11-03 上海交通大学 一种基于禁忌共识拍卖算法的无人艇拦截任务分配方法
CN112734465A (zh) * 2020-12-31 2021-04-30 宁夏华泰家俱制造有限公司 一种家居装修工程报价生成系统及其生成方法

Similar Documents

Publication Publication Date Title
CN104484424A (zh) 基于互联网建筑施工企业资源价格信息库的构建方法
CN108804630B (zh) 一种面向行业应用的大数据智能分析服务系统
Doyle et al. Steps towards digitization of manufacturing in an SME environment
CN108764610B (zh) 基于大数据的标准工艺工程项目施工管理方法、存储介质
CN104036375A (zh) 基于条形码的物资动态跟踪的仓储数据处理系统及方法
CN104331640A (zh) 基于生物云平台的项目结题报告分析系统和方法
CN103955463A (zh) 一种政府的政策解构方法及系统
CN102867219A (zh) 一种业务自动排程系统和方法
CN104463355A (zh) 一种基于测试模型的小卫星测试规划系统
CN204463206U (zh) 一种农产品仓储管理系统
CN102117470A (zh) 征信协查系统中基于互联网模拟浏览器获取数据的方法
US20180113924A1 (en) Data provision apparatus and data provision method
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
Hrehova et al. Production quality control using the industry 4.0 concept
CN110909888A (zh) 泛型决策树构建方法、装置、设备及可读存储介质
CN105335894A (zh) 一种生产过程中的工序信息查询系统
Itakura et al. Incorporating firm heterogeneity into the GTAP Model
CN107436883B (zh) 基于求余的数据抽取的方法、装置及系统
CN103605866A (zh) 一种配电网工程设计仿真培训系统及方法
CN108874980A (zh) 基于搜料网平台的搜料价格的实时分析方法及装置
CN113361935B (zh) 一种电力能源调度的方法、装置及能源调度系统
CN205485449U (zh) 一种dnc信息采集系统
CN107908697A (zh) 主机批处理作业结果的自动采集方法及装置
CN112487770A (zh) 一种表数据管理方法、存储介质以及计算机
CN204010029U (zh) 生产制程工艺防呆管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150401

WD01 Invention patent application deemed withdrawn after publication