CN115330362A - 一种工程进度数据处理方法及系统 - Google Patents

一种工程进度数据处理方法及系统 Download PDF

Info

Publication number
CN115330362A
CN115330362A CN202211260111.7A CN202211260111A CN115330362A CN 115330362 A CN115330362 A CN 115330362A CN 202211260111 A CN202211260111 A CN 202211260111A CN 115330362 A CN115330362 A CN 115330362A
Authority
CN
China
Prior art keywords
data
progress data
construction progress
value
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211260111.7A
Other languages
English (en)
Inventor
谢翠华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruituo New Technology Co ltd
Original Assignee
Shenzhen Ruituo New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruituo New Technology Co ltd filed Critical Shenzhen Ruituo New Technology Co ltd
Priority to CN202211260111.7A priority Critical patent/CN115330362A/zh
Publication of CN115330362A publication Critical patent/CN115330362A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • General Factory Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种工程进度数据处理方法,所述处理方法包括以下步骤:管理人员通过客户端输入施工进度数据,客户端清洗施工进度数据后,将施工进度数据发送至服务器端;服务器端接收施工进度数据,对施工进度数据进行分类后按照类别进行对比;当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,服务器端向客户端发送预警信号,客户端根据预警信号警示管理人员。本发明处理方法在传输施工进度数据前,对施工进度数据做数据清理处理,将施工进度数据中的异常、错误数据清洗,从而减小施工进度数据中的冗余数据,减少数据量,提高数据的处理速度,并且对输入的数据进行分类对比,从而根据对比结果发送警示。

Description

一种工程进度数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种工程进度数据处理方法及系统。
背景技术
目前,建筑业已经普遍认识到施工进度的有效监测是建设项目成功的关键因素之一,施工阶段是建设项目生命周期的重要阶段,虽然建设项目的规模和复杂性各不相同,建设项目的时间和成本的投入大部分在项目的施工阶段,施工阶段的进度成本监控对项目目标至关重要,建设项目的施工是一个高度动态的过程,相应的施工进度的控制也是一个动态的监控过程,监控过程需要动态的将实际进度情况与计划目标进行比较,发现偏差和采取必要的措施,保证目标的实现。
现有技术存在以下不足:现有对工程进度数据的处理方式主要为,项目管理人员输入当前施工进度,以及施工现场的天气、资金、人员、设备、材料供给等影响施工进度的因素,处理系统将这些数据整合处理后再进行存储记录,以便于后续对施工进度的溯源,然而,由于输入的数据量大且种类多,数据中会产生大量的冗余数据,这会增加处理系统的工作负荷,并且随着数据量的增加,使得处理系统对数据的缓存周期变短。
因此,亟需一种工程进度数据处理方法及系统解决上述问题。
发明内容
本发明的目的是提供一种工程进度数据处理方法及系统,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种工程进度数据处理方法,所述处理方法包括以下步骤:
S1:管理人员通过客户端输入施工进度数据,客户端清洗施工进度数据后,将施工进度数据发送至服务器端;
S2:服务器端接收施工进度数据,对施工进度数据进行分类后按照类别进行对比;
S3:当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,服务器端向客户端发送预警信号,客户端根据预警信号警示管理人员。
优选的,所述施工进度数据包括当前施工进度、天气、资金、人员、设备以及材料供给。
优选的,所述客户端对施工进度数据清洗包括以下步骤:
S2.1:根据施工进度数据参数性质确定宽规则的阈值范围,对施工进度数据中明显错误、异常的野值进行粗识别清洗;
S2.2:根据任一时刻采样值动态阈值,对处理后的数据进行基于回归模型的精细识别清洗;
S2.3:利用回归平滑模型对识别出的野值对应采集时刻的真实值进行估算并替换。
优选的,步骤S2.1中,宽规则的阈值范围的识别包括:根据所采集参数的性质和常 识,设定阈值范围
Figure 343777DEST_PATH_IMAGE001
,采集到的参数值
Figure 729759DEST_PATH_IMAGE002
超出该阈值范围即
Figure 181600DEST_PATH_IMAGE003
或者
Figure 32269DEST_PATH_IMAGE004
,判断采集值
Figure 502433DEST_PATH_IMAGE002
为野值。
优选的,所述野值识别步骤为:
(1)参数采集数值为
Figure 793737DEST_PATH_IMAGE005
(2)
Figure 264033DEST_PATH_IMAGE006
Figure 931775DEST_PATH_IMAGE007
(3)
Figure 584342DEST_PATH_IMAGE005
判定为野值。
优选的,所述客户端根据当前时刻输入值与初始值的偏离程度大小,对出现的野 值进行判断,野值长度
Figure 46547DEST_PATH_IMAGE008
计算公式为:
Figure 4139DEST_PATH_IMAGE009
式中,
Figure 193681DEST_PATH_IMAGE010
为工作频率,
Figure 185907DEST_PATH_IMAGE011
为野值持续时间。
优选的,所述客户端对施工进度数据进行数据清洗还包括对野值对应采集时刻的真实值进行估算,估算采用回归平滑的方法;
根据前后2个参考区域计算出两个参考值
Figure 819014DEST_PATH_IMAGE012
Figure 529481DEST_PATH_IMAGE013
,计算公式为:
Figure 260064DEST_PATH_IMAGE014
Figure 575639DEST_PATH_IMAGE015
其中,
Figure 628914DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 561098DEST_PATH_IMAGE017
然后通过公式
Figure 843175DEST_PATH_IMAGE018
计算野值发生在k采集时刻的估计值。
本发明还提供一种工程进度数据处理系统,包括数据采集模块、处理模块、分类模块以及对比模块;
管理人员通过数据采集模块输入施工进度数据,施工进度数据发送至处理模块进行清洗处理,去除施工进度数据中的野值,减少数据量,然后通过分类模块对清洗后的施工进度数据进行分类,对比模块将分类后的施工进度数据一一对比,当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,发送预警信号至处理模块,处理模块发出警示。
优选的,所述分类模块对施工进度数据分类包括以下步骤:
(1)给定时间序列
Figure 59262DEST_PATH_IMAGE019
,数据维度
Figure 34171DEST_PATH_IMAGE020
和节点数
Figure 906181DEST_PATH_IMAGE021
(2)一个分布式数据流被定义为:
Figure 257528DEST_PATH_IMAGE022
其中每个
Figure 813274DEST_PATH_IMAGE023
是 一个单数据流;
(3)在T上采集的多维数据元组序列
Figure 223001DEST_PATH_IMAGE024
优选的,所述分类模块分类后的数据形态作为训练样本的收集模型,收集模型随着时间变化更新分类器。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明处理方法在传输施工进度数据前,对施工进度数据做数据清理处理,将施工进度数据中的异常、错误数据清洗,从而减小施工进度数据中的冗余数据,减少数据量,提高数据的处理速度,并且对输入的数据进行分类对比,从而根据对比结果发送警示。
2、本发明根据施工进度数据参数性质确定宽规则的阈值范围,对施工进度数据中明显错误、异常的野值进行粗识别清洗,根据任一时刻采样值动态阈值,对处理后的数据进行基于回归模型的精细识别清洗,利用回归平滑模型对识别出的野值对应采集时刻的真实值进行估算并替换,从而找出数据中的野值并进行识别和清洗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明处理方法的工作流程图。
图2为本发明的系统模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
实施例1
请参阅图1所示,本实施例所述一种工程进度数据处理方法,所述处理方法包括以下步骤:
管理人员通过客户端输入施工进度数据,客户端清洗施工进度数据后,将施工进度数据发送至服务器端;
施工进度数据包括当前施工进度、天气、资金、人员、设备以及材料供给。
服务器端接收施工进度数据,对施工进度数据进行分类后按照类别进行对比,当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,服务器端向客户端发送预警信号,客户端根据预警信号警示管理人员,该处理方法在传输施工进度数据前,对施工进度数据做数据清理处理,将施工进度数据中的异常、错误数据清洗,从而减小施工进度数据中的冗余数据,减少数据量,提高数据的处理速度,并且对输入的数据进行分类对比,从而根据对比结果发送警示。
施工进度数据清洗包括以下步骤:
(1)根据施工进度数据参数性质确定宽规则的阈值范围,对施工进度数据中明显错误、异常的野值进行粗识别清洗;
(2)根据任一时刻采样值动态阈值,对处理后的数据进行基于回归模型的精细识别清洗;
(3)利用回归平滑模型对识别出的野值对应采集时刻的真实值进行估算并替换;
步骤(1)中,宽规则的阈值范围的识别包括:
(1,1)根据所采集参数的性质和常识,设定一个粗略的阈值范围
Figure 333039DEST_PATH_IMAGE001
,如果 采集到的参数值
Figure 471765DEST_PATH_IMAGE002
超出该阈值范围即
Figure 147597DEST_PATH_IMAGE003
或者
Figure 198730DEST_PATH_IMAGE004
,则判断采集值
Figure 576490DEST_PATH_IMAGE002
为野值;
(1,2)阈值范围设定的原则为阈值范围
Figure 4061DEST_PATH_IMAGE001
设置得足够宽,能够覆盖参数
Figure 518088DEST_PATH_IMAGE002
所有可能的取值范围。
对于施工进度数据而言,参数值随输入周期变化,理论上参数值随时间的变化速度必然满足一定的限定条件,因此,可以根据当前时刻输入值与初始值的偏离程度大小,对出现的野值进行判断,具体实现方法如下:
(1)野值长度和参考宽度的确定:野值长度
Figure 5701DEST_PATH_IMAGE008
指参数数据中,可能连续出现野值 的个数,它跟工作频率
Figure 887069DEST_PATH_IMAGE010
和野值持续时间
Figure 370528DEST_PATH_IMAGE011
有关,该野值长度
Figure 20952DEST_PATH_IMAGE008
计算公式如下:
Figure 413887DEST_PATH_IMAGE025
该值既不能取得太大、也不能太小,太大会减弱附近参考数据的关联性,太小会导致野值影响参考结果造成,应当根据理论分析和工程经验得到。
参考宽度
Figure 782551DEST_PATH_IMAGE026
指对参数野值做出判断时使用的附近参考工程进度数据的个数,该值 通常可以取为野值长度
Figure 4454DEST_PATH_IMAGE008
的5-10倍,同样,该值即不能取得太大、也不能太小,太大容易造 成对参数值变化过于敏感而导致将正确值判为野值,太小则不容易识别出野值。
野值长度和参考宽度中,
Figure 774964DEST_PATH_IMAGE005
表示参数的第
Figure 588068DEST_PATH_IMAGE027
个工程进度数据。
(2)回归模型参考值和偏离范围的确定:回归模型参考值是当前采集数值附近回 归平滑计算后的参考采集数值,为更准确的识别出野值,采用前后2个参考值
Figure 444029DEST_PATH_IMAGE012
Figure 17092DEST_PATH_IMAGE013
,计算公式如下:
Figure 625797DEST_PATH_IMAGE014
Figure 829377DEST_PATH_IMAGE028
其中,
Figure 893672DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 536006DEST_PATH_IMAGE017
偏离范围指采集参数当前采集时刻的值可能偏离附近值的大小范围,跟采集频率、当前时刻偏离参考范围的距离以及采集参数随时间的变化速度有关,其计算公式为:
Figure 546687DEST_PATH_IMAGE029
其中,
Figure 717906DEST_PATH_IMAGE010
为参数采集频率,
Figure 532147DEST_PATH_IMAGE008
为野值长度,
Figure 447013DEST_PATH_IMAGE026
为参考宽度,
Figure 233572DEST_PATH_IMAGE030
为参数最大变化速 度。
(3)任一时刻采样值动态阈值确定:根据步骤(2)计算得到
Figure 841271DEST_PATH_IMAGE012
Figure 159120DEST_PATH_IMAGE013
Figure 612098DEST_PATH_IMAGE031
, 动态阈值按照下面的方式进行计算动态阈值范围
Figure 315481DEST_PATH_IMAGE032
Figure 828502DEST_PATH_IMAGE033
Figure 368068DEST_PATH_IMAGE034
时,
Figure 876934DEST_PATH_IMAGE035
Figure 185555DEST_PATH_IMAGE036
时,
Figure 869478DEST_PATH_IMAGE037
(4)野值精细识别:当前参数采集数值为
Figure 880028DEST_PATH_IMAGE005
时,按照如下准则对野值进行识别;
如果
Figure 940388DEST_PATH_IMAGE038
Figure 837937DEST_PATH_IMAGE007
x(k)<x (k)或者x(k)> Xm(k)那么x (k)判定为野值。
(5)基于回归平滑的野值估计:野值是错误的值,数据清洗除了需要对野值进行识别外,还需要对野值对应采集时刻的真实值进行估算,否则会影响施工进度数据分析的结果。
采用回归平滑的方法对野值的真实值进行估计。
首先计算根据前后2个参考区域计算出两个参考值
Figure 207607DEST_PATH_IMAGE012
Figure 456186DEST_PATH_IMAGE013
,其计算公式如 下:
Figure 320236DEST_PATH_IMAGE039
Figure 321559DEST_PATH_IMAGE040
其中,
Figure 878443DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 348738DEST_PATH_IMAGE017
然后通过公式
Figure 16480DEST_PATH_IMAGE018
计算野值发生在k采集时刻的估计值;
原始工程进度数据经过野值清洗和真实值模拟后,野值被正确的识别和剔除,并进行了合理估计值替换,通过对工程进度数据进行清洗,去除数据中的野值,有效减少工程进度数据中的冗余数据,从而减少数据量。
实施例2
服务器端对施工进度数据进行分类后按照类别进行对比,具体如下:
给定训练数据集T和类标识集合C,分类学习就是从T中学习出一个分类器,而分类算法则是构建这种分类器的过程描述。
然而,施工进度数据中的分类学习的训练数据集是随时间动态收集的,所以分类器的学习必然是一个动态的演化过程。
此外,传统机器学习的分类算法强调挑选出的训练集的质量,而且认为完整的分类学习需要通过正例集和负例集来学习。
面对周期性流动的施工进度数据,挑选高质量的训练样本数据集是不现实的,同时实时地构造出合适的负例样本集也是困难的。
首先要解决被分析数据的形式化表达问题,施工进度数据隐含着形态各异的数据格式,很难统一地进行规范化描述,如果只关心这类具有统一逻辑视图的、多节点分布式采集的、随时间流动增长的数据形态,那么可以借助于已有的(同构)分布式数据流的概念来完成数据的格式化抽象,形成可用于分析的规范化数据形态。
分布式数据流定义:给定时间序列
Figure 863520DEST_PATH_IMAGE019
,数据维度
Figure 325726DEST_PATH_IMAGE020
和节点数
Figure 548897DEST_PATH_IMAGE021
,一个 分布式数据流被定义为:
Figure 738438DEST_PATH_IMAGE041
,其中每个
Figure 730665DEST_PATH_IMAGE023
是一个单数据流,是 在T上采集的多维数据元组序列
Figure 363772DEST_PATH_IMAGE042
Figure 57927DEST_PATH_IMAGE043
对于以分布式和流动性为主要技术特征的施工进度数据的分类挖掘而言,上述定义界定的数据形态可以作为训练样本的收集模型来使用,随着收集时间点的增长,训练用的样本数据在不断地集聚,当然隐藏的知识模式也在发生变化,因此,流动性施工进度数据的分类挖掘目标之一就是随着时间变化来及时更新分类器,通过构建分类器模型对施工进度数据进行挖掘分类,使得输入的所有数据可进行分类后在对比,从而避免数据对比失误,保证数据对比的相对性。
实施例3
请参阅图2所示,本实施例所述一种工程进度数据处理系统,包括数据采集模块、处理模块、分类模块以及对比模块;
数据采集模块:用于管理人员输入施工进度数据。
处理模块:接收数据采集模块发送的施工进度数据,并对施工进度数据进行清洗处理,去除施工进度数据中的野值,减少数据量。
分类模块:通过分类器对清洗后的施工进度数据进行分类。
对比模块:将分类后的施工进度数据一一对比,当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,发送预警信号至处理模块,处理模块发出警示。
所述处理模块对施工进度数据进行清洗处理包括以下步骤:
(1)根据施工进度数据参数性质确定宽规则的阈值范围,对施工进度数据中明显错误、异常的野值进行粗识别清洗;
(2)根据任一时刻采样值动态阈值,对处理后的数据进行基于回归模型的精细识别清洗;
(3)利用回归平滑模型对识别出的野值对应采集时刻的真实值进行估算并替换;
步骤(1)中,宽规则的阈值范围的识别包括:
(1,1)根据所采集参数的性质和常识,设定一个粗略的阈值范围
Figure 801892DEST_PATH_IMAGE001
,如果 采集到的参数值
Figure 648626DEST_PATH_IMAGE002
超出该阈值范围即
Figure 701901DEST_PATH_IMAGE003
或者
Figure 634085DEST_PATH_IMAGE004
,则判断采集值
Figure 181741DEST_PATH_IMAGE002
为野值;
(1,2)阈值范围设定的原则为阈值范围
Figure 135178DEST_PATH_IMAGE001
设置得足够宽,能够覆盖参数
Figure 110087DEST_PATH_IMAGE002
所有可能的取值范围。
对于施工进度数据而言,参数值随输入周期变化,理论上参数值随时间的变化速度必然满足一定的限定条件,因此,可以根据当前时刻输入值与初始值的偏离程度大小,对出现的野值进行判断,具体实现方法如下:
(1)野值长度和参考宽度的确定:野值长度
Figure 529567DEST_PATH_IMAGE008
指参数数据中,可能连续出现野值 的个数,它跟工作频率
Figure 130182DEST_PATH_IMAGE010
和野值持续时间
Figure 685928DEST_PATH_IMAGE011
有关,该野值长度
Figure 831739DEST_PATH_IMAGE008
计算公式如下:
Figure 987782DEST_PATH_IMAGE044
该值既不能取得太大、也不能太小,太大会减弱附近参考数据的关联性,太小会导致野值影响参考结果造成,应当根据理论分析和工程经验得到。
参考宽度
Figure 611662DEST_PATH_IMAGE026
指对参数野值做出判断时使用的附近参考工程进度数据的个数,该值 通常可以取为野值长度
Figure 553073DEST_PATH_IMAGE008
的5-10倍,同样,该值即不能取得太大、也不能太小,太大容易造 成对参数值变化过于敏感而导致将正确值判为野值,太小则不容易识别出野值。
野值长度和参考宽度中,
Figure 853473DEST_PATH_IMAGE005
表示参数的第
Figure 247545DEST_PATH_IMAGE027
个工程进度数据。
(2)回归模型参考值和偏离范围的确定:回归模型参考值是当前采集数值附近回 归平滑计算后的参考采集数值,为更准确的识别出野值,采用前后2个参考值
Figure 675116DEST_PATH_IMAGE012
Figure 471033DEST_PATH_IMAGE013
,计算公式如下:
Figure 210844DEST_PATH_IMAGE039
Figure 826633DEST_PATH_IMAGE040
其中,
Figure 57894DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 692007DEST_PATH_IMAGE017
偏离范围指采集参数当前采集时刻的值可能偏离附近值的大小范围,跟采集频率、当前时刻偏离参考范围的距离以及采集参数随时间的变化速度有关,其计算公式为:
Figure 616100DEST_PATH_IMAGE045
其中,
Figure 719185DEST_PATH_IMAGE010
为参数采集频率,
Figure 3405DEST_PATH_IMAGE008
为野值长度,
Figure 446019DEST_PATH_IMAGE026
为参考宽度,
Figure 524702DEST_PATH_IMAGE030
为参数最大变化速 度。
(3)任一时刻采样值动态阈值确定:根据步骤(2)计算得到
Figure 380663DEST_PATH_IMAGE012
Figure 484885DEST_PATH_IMAGE013
Figure 299782DEST_PATH_IMAGE031
, 动态阈值按照下面的方式进行计算动态阈值范围
Figure 96836DEST_PATH_IMAGE032
Figure 174514DEST_PATH_IMAGE033
Figure 551269DEST_PATH_IMAGE034
时,
Figure 483321DEST_PATH_IMAGE035
Figure 920119DEST_PATH_IMAGE036
时,
Figure 468781DEST_PATH_IMAGE037
(4)野值精细识别:当前参数采集数值为
Figure 383647DEST_PATH_IMAGE005
时,按照如下准则对野值进行识别;
如果
Figure 717677DEST_PATH_IMAGE038
Figure 309064DEST_PATH_IMAGE007
x(k)<x (k)或者x(k)> Xm(k)那么x (k)判定为野值。
(5)基于回归平滑的野值估计:野值是错误的值,数据清洗除了需要对野值进行识别外,还需要对野值对应采集时刻的真实值进行估算,否则会影响施工进度数据分析的结果。
采用回归平滑的方法对野值的真实值进行估计。
首先计算根据前后2个参考区域计算出两个参考值
Figure 361333DEST_PATH_IMAGE012
Figure 814312DEST_PATH_IMAGE013
,其计算公式如 下:
Figure 532343DEST_PATH_IMAGE046
Figure 45364DEST_PATH_IMAGE040
其中,
Figure 584929DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 90866DEST_PATH_IMAGE017
然后通过公式
Figure 399487DEST_PATH_IMAGE018
计算野值发生在k采集时刻的估计值;
原始工程进度数据经过野值清洗和真实值模拟后,野值被正确的识别和剔除,并进行了合理估计值替换,通过对工程进度数据进行清洗,去除数据中的野值,有效减少工程进度数据中的冗余数据,从而减少数据量。
分类模块对施工进度数据分类包括以下步骤:
给定训练数据集T和类标识集合C,分类学习就是从T中学习出一个分类器,而分类算法则是构建这种分类器的过程描述。
然而,施工进度数据中的分类学习的训练数据集是随时间动态收集的,所以分类器的学习必然是一个动态的演化过程。
此外,传统机器学习的分类算法强调挑选出的训练集的质量,而且认为完整的分类学习需要通过正例集和负例集来学习。
面对周期性流动的施工进度数据,挑选高质量的训练样本数据集是不现实的,同时实时地构造出合适的负例样本集也是困难的。
首先要解决被分析数据的形式化表达问题,施工进度数据隐含着形态各异的数据格式,很难统一地进行规范化描述,如果只关心这类具有统一逻辑视图的、多节点分布式采集的、随时间流动增长的数据形态,那么可以借助于已有的(同构)分布式数据流的概念来完成数据的格式化抽象,形成可用于分析的规范化数据形态。
分布式数据流定义:给定时间序列
Figure 83410DEST_PATH_IMAGE019
,数据维度
Figure 828381DEST_PATH_IMAGE020
和节点数
Figure 154320DEST_PATH_IMAGE021
,一个 分布式数据流被定义为:
Figure 51869DEST_PATH_IMAGE041
,其中每个
Figure 172271DEST_PATH_IMAGE023
是一个单数据流,是 在T上采集的多维数据元组序列
Figure 670118DEST_PATH_IMAGE042
Figure 534168DEST_PATH_IMAGE043
对于以分布式和流动性为主要技术特征的施工进度数据的分类挖掘而言,上述定义界定的数据形态可以作为训练样本的收集模型来使用,随着收集时间点的增长,训练用的样本数据在不断地集聚,当然隐藏的知识模式也在发生变化,因此,流动性施工进度数据的分类挖掘目标之一就是随着时间变化来及时更新分类器,通过构建分类器模型对施工进度数据进行挖掘分类,使得输入的所有数据可进行分类后在对比,从而避免数据对比失误,保证数据对比的相对性。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种工程进度数据处理方法,其特征在于:所述处理方法包括以下步骤:
S1:管理人员通过客户端输入施工进度数据,客户端清洗施工进度数据后,将施工进度数据发送至服务器端;
S2:服务器端接收施工进度数据,对施工进度数据进行分类后按照类别进行对比;
S3:当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,服务器端向客户端发送预警信号,客户端根据预警信号警示管理人员。
2.根据权利要求1所述的一种工程进度数据处理方法,其特征在于:所述施工进度数据包括当前施工进度、天气、资金、人员、设备以及材料供给。
3.根据权利要求2所述的一种工程进度数据处理方法,其特征在于:所述客户端对施工进度数据清洗包括以下步骤:
S2.1:根据施工进度数据参数性质确定宽规则的阈值范围,对施工进度数据中明显错误、异常的野值进行粗识别清洗;
S2.2:根据任一时刻采样值动态阈值,对处理后的数据进行基于回归模型的精细识别清洗;
S2.3:利用回归平滑模型对识别出的野值对应采集时刻的真实值进行估算并替换。
4.根据权利要求3所述的一种工程进度数据处理方法,其特征在于:步骤S2.1中,宽规 则的阈值范围的识别包括:根据所采集参数的性质和常识,设定阈值范围
Figure 691959DEST_PATH_IMAGE001
,采集 到的参数值
Figure 87037DEST_PATH_IMAGE002
超出该阈值范围即
Figure 259393DEST_PATH_IMAGE003
或者
Figure 617693DEST_PATH_IMAGE004
,判断采集值
Figure 542792DEST_PATH_IMAGE002
为野 值。
5.根据权利要求4所述的一种工程进度数据处理方法,其特征在于:所述野值识别步骤为:
(1)参数采集数值为
Figure 390663DEST_PATH_IMAGE005
(2)
Figure 784735DEST_PATH_IMAGE006
Figure 933344DEST_PATH_IMAGE007
(3)
Figure 729262DEST_PATH_IMAGE005
判定为野值。
6.根据权利要求5所述的一种工程进度数据处理方法,其特征在于:所述客户端根据当 前时刻输入值与初始值的偏离程度大小,对出现的野值进行判断,野值长度
Figure 748033DEST_PATH_IMAGE008
计算公式 为:
Figure 363822DEST_PATH_IMAGE009
式中,
Figure 313193DEST_PATH_IMAGE010
为工作频率,
Figure 229196DEST_PATH_IMAGE011
为野值持续时间。
7.根据权利要求6所述的一种工程进度数据处理方法,其特征在于:所述客户端对施工进度数据进行数据清洗还包括对野值对应采集时刻的真实值进行估算,估算采用回归平滑的方法;
根据前后2个参考区域计算出两个参考值
Figure 153290DEST_PATH_IMAGE012
Figure 974484DEST_PATH_IMAGE013
,计算公式为:
Figure 9436DEST_PATH_IMAGE014
Figure 779946DEST_PATH_IMAGE015
其中,
Figure 796312DEST_PATH_IMAGE016
为当前识别位置与计算参考值的参考数据位置的最小偏移量,计算公式为
Figure 386694DEST_PATH_IMAGE017
然后通过公式
Figure 946376DEST_PATH_IMAGE018
计算野值发生在k采集时刻的估计值。
8.一种工程进度数据处理系统,所述处理系统用于实现权利要求1-7任一项所述的一种工程进度数据处理方法,其特征在于:包括数据采集模块、处理模块、分类模块以及对比模块;
管理人员通过数据采集模块输入施工进度数据,施工进度数据发送至处理模块进行清洗处理,去除施工进度数据中的野值,减少数据量,然后通过分类模块对清洗后的施工进度数据进行分类,对比模块将分类后的施工进度数据一一对比,当类别对比中出现施工进度数据与服务器端内部初始数据相差过大时,发送预警信号至处理模块,处理模块发出警示。
9.根据权利要求8所述的一种工程进度数据处理系统,其特征在于:所述分类模块对施工进度数据分类包括以下步骤:
(1)给定时间序列
Figure 836971DEST_PATH_IMAGE019
,数据维度
Figure 102867DEST_PATH_IMAGE020
和节点数
Figure 429812DEST_PATH_IMAGE021
(2)一个分布式数据流被定义为:
Figure 337726DEST_PATH_IMAGE022
其中每个
Figure 20511DEST_PATH_IMAGE023
是一个 单数据流;
(3)在T上采集的多维数据元组序列
Figure 457308DEST_PATH_IMAGE024
10.根据权利要求9所述的一种工程进度数据处理系统,其特征在于:所述分类模块分类后的数据形态作为训练样本的收集模型,收集模型随着时间变化更新分类器。
CN202211260111.7A 2022-10-14 2022-10-14 一种工程进度数据处理方法及系统 Pending CN115330362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211260111.7A CN115330362A (zh) 2022-10-14 2022-10-14 一种工程进度数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211260111.7A CN115330362A (zh) 2022-10-14 2022-10-14 一种工程进度数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN115330362A true CN115330362A (zh) 2022-11-11

Family

ID=83914165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211260111.7A Pending CN115330362A (zh) 2022-10-14 2022-10-14 一种工程进度数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN115330362A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187685A (zh) * 2023-01-16 2023-05-30 南通电力设计院有限公司 一种基于调峰约束的电网接纳光伏最大容量的计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940679A (zh) * 2017-02-23 2017-07-11 中科创达软件股份有限公司 数据处理方法及装置
CN109670795A (zh) * 2018-12-28 2019-04-23 广州易宝信息技术有限公司 基于大数据的工程管理系统
CN112817955A (zh) * 2021-02-02 2021-05-18 中国人民解放军海军航空大学青岛校区 基于回归模型的数据清洗方法
CN113407651A (zh) * 2021-07-05 2021-09-17 北京天辰信科技有限公司 一种进度信息反馈及偏差实时展示方法
CN113642088A (zh) * 2021-10-13 2021-11-12 北京天辰信科技有限公司 一种施工进度信息反馈及bim模型实时展示偏差的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940679A (zh) * 2017-02-23 2017-07-11 中科创达软件股份有限公司 数据处理方法及装置
CN109670795A (zh) * 2018-12-28 2019-04-23 广州易宝信息技术有限公司 基于大数据的工程管理系统
CN112817955A (zh) * 2021-02-02 2021-05-18 中国人民解放军海军航空大学青岛校区 基于回归模型的数据清洗方法
CN113407651A (zh) * 2021-07-05 2021-09-17 北京天辰信科技有限公司 一种进度信息反馈及偏差实时展示方法
CN113642088A (zh) * 2021-10-13 2021-11-12 北京天辰信科技有限公司 一种施工进度信息反馈及bim模型实时展示偏差的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毛国君等: "基于分布式数据流的大数据分类模型和算法", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187685A (zh) * 2023-01-16 2023-05-30 南通电力设计院有限公司 一种基于调峰约束的电网接纳光伏最大容量的计算方法
CN116187685B (zh) * 2023-01-16 2023-11-24 南通电力设计院有限公司 一种基于调峰约束的电网接纳光伏最大容量的计算方法

Similar Documents

Publication Publication Date Title
US11275639B2 (en) Real-time anomaly detection and correlation of time-series data
CN110995508B (zh) 基于kpi突变的自适应无监督在线网络异常检测方法
Din et al. Exploiting evolving micro-clusters for data stream classification with emerging class detection
CN112118141B (zh) 面向通信网络的告警事件关联压缩方法及装置
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
JP7044117B2 (ja) モデル学習装置、モデル学習方法、及びプログラム
US20140046878A1 (en) Method and system for detecting sound events in a given environment
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN111310139B (zh) 行为数据识别方法、装置及存储介质
CN111401573B (zh) 一种工况状态建模与修正模型方法
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
Zhu et al. Dimensionality reduce-based for remaining useful life prediction of machining tools with multisensor fusion
CN110757510B (zh) 一种机器人剩余寿命预测方法及系统
Anirudh et al. Influential sample selection: A graph signal processing approach
CN115330362A (zh) 一种工程进度数据处理方法及系统
Bosnić et al. Enhancing data stream predictions with reliability estimators and explanation
CN113259379A (zh) 基于增量学习的异常告警识别方法、装置、服务器和存储介质
CN117171157B (zh) 基于数据分析的清算数据采集清洗方法
CN117113233A (zh) 层级能源结构场景构建方法及能耗异常链路追溯方法
Ghosh et al. Real time failure prediction of load balancers and firewalls
Timčenko et al. Time-series entropy data clustering for effective anomaly detection
CN114331688A (zh) 一种银行柜面系统业务批量运行状态检测方法及装置
CN114692783B (zh) 基于分层图偏差网络的智能服务异常检测方法
CN118068819B (zh) 用于高质量诊断与决策的大模型数据管理系统
US20230409422A1 (en) Systems and Methods for Anomaly Detection in Multi-Modal Data Streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221111

RJ01 Rejection of invention patent application after publication