CN116775632A - 一种基于车载终端采集数据的近实时清洗数据执行方法 - Google Patents
一种基于车载终端采集数据的近实时清洗数据执行方法 Download PDFInfo
- Publication number
- CN116775632A CN116775632A CN202310747427.7A CN202310747427A CN116775632A CN 116775632 A CN116775632 A CN 116775632A CN 202310747427 A CN202310747427 A CN 202310747427A CN 116775632 A CN116775632 A CN 116775632A
- Authority
- CN
- China
- Prior art keywords
- data
- vehicle
- time
- filling
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004140 cleaning Methods 0.000 title claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 230000005856 abnormality Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005429 filling process Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000002354 daily effect Effects 0.000 claims 1
- 230000003203 everyday effect Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 9
- 230000003139 buffering effect Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 239000000446 fuel Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法,包括车载终端采集数据模块、多源数据简单处理模块、多源数据复杂替补模块、驾驶行为计算模块及离线查询OLAP数据分析,通过使用车辆基本参数动态获取、预设阈值可配置、基准值缓存和线性增长拟合变化过滤等多种过滤方式对车载终端获取的各类数据进行多次过滤,剔除掉多余的、无效的、错误的数据然后再进行数据替换和有效填补,相比以往的车辆处理数据更为逻辑复杂,因只处理靠前时间段内的数据所以负荷小的优点,处理节点能快速执行完成任务,而表现为处理的数据速度明显提高,准确性明显提高,处理的数据种类较高。
Description
技术领域
本发明涉及智能制造技术领域,具体涉及一种基于车载终端采集数据的近实时清洗数据执行方法。
背景技术
在车辆行驶过程中,车载终端会上传海量数据,其中包含了大量的对车辆驾驶事件计算统计而言无效的、错误的数据,诸如数据时间不符、数据漏报、数据异常、数据跳变、数据传输中丢失等数据问题。这问题在使用目前计算方案已经出现了不可弥补错误,严重影响公司相关业务。
目前在计算驾驶行为数据采用T-1日的模式进行离线计算,计算时读取了全部数据,这其中就包括数据的转化和异常数据,同时计算过程中采用了中位数等过滤措施,这种技术方案有以下缺陷:
①驾驶行为计算时间滞后,计算速度慢;
②计算过程处理转化和异常会导致中间态没有记录,每次计算结果并不一定一致;
③采用过滤措施比较单一,过滤数据失败,出现计算结果超出正常范围值。
发明内容
因此,本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法,能够克服现有技术中驾驶行为计算时间滞后,计算过程处理转化和异常会导致中间态没有记录,每次计算结果并不一定一致,以及采用过滤措施比较单一,过滤数据失败,出现计算结果超出正常范围值的缺陷。
为了解决上述问题,本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法,包括步骤:
步骤1:利用车载终端采集数据模块,于所述车载终端中采集车辆行使时的多源原始数据,所述多源原始数据按照时间段进行分包储存,形成若干个不同时间段的数据包,对若干个所述数据包进行清洗融合,获得基准数据包。
步骤2:在多源数据简单处理模块中,对所述基准数据包进行理论范围值的判断,并将所述理论范围值与所述基准数据包内的采集值进行比较,对所述采集值进行保留或剔除操作,获取标准化的格式数据包。
步骤3:在多源数据复杂替补模块中,针对所述格式数据包内不同源数据进行关联合并,设置合理的时间拉平处理,对所述不同源数据进行剔除、替换、填充,获得车辆同一时刻的多维度数据。
步骤4:于驾驶行为计算模块内,利用步骤3得到的所述多维度数据进行车辆行驶行为计算,计算出每日车辆行驶行为数据并存储到相应的文件和数据库中。
步骤5:调用离线查询OLAP数据分析,将车辆上报数据清洗后用明文的方式实时写入hive仓库中,利用hsql语句对历史数据进行分析。
在一些实施方式中,所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。
在一些实施方式中,步骤1中的所述数据包执行过程包括步骤:
步骤1.1所述数据包执行时对所述数据包依据时间先后进行排序,并且获取已执行的所述数据包及计算机系统时间。
步骤1.2判断当前处理所述数据包时间<系统时间前60min,且当前处理的所述数据包为当天未处理数据包中时间最早的数据包。
步骤1.3将执行的上一个所述数据包清洗后获得的基准数据记作d1,当前执行的所述数据包的基准数据记作d2,当d1<=d2时,当前执行的所述数据包清洗结束,开始执行下一个所述数据包;当d1>d2时,当前执行的所述数据包与执行的上一个所述数据包进行数据融合,执行融合后的数据包得到的基准数据记作d3,依次执行所有当日所述数据包,直至执行完毕。
在一些实施方式中,每日采集的数据包依据为每半小时划分一次。
在一些实施方式中,步骤2的多源数据简单处理模块的执行过程,包括以下步骤:
步骤2.1理论范围值的确认,包括基于现有某平台近三年100万辆车采集上报数据为基础数据,按单车近一年内上报的累计里程、累计油耗、累计运行时长、车速四种数据,使用线性拟合分别求出里程、油耗、运行时长及车速的增长系数值a,再利用该系数a分别求出给定时间内的累计值理论范围值。
步骤2.2对执行的所述基准数据包进行数据剔除或者数据保留。
在一些实施方式中,步骤3的多源数据复杂替补模块的执行过程,包括以下步骤:
步骤3.1数据项异常判断,判断条件①:相邻上一条数据值<=当前输入数据值<=相邻下一条数据值;条件②:(当前输入数据值-相邻上一条数据值)/(当前输入数据时间-相邻上一条数据值时间)<=变化率理论范围值;当前输入数据至少一个条件不满足时,该条当前输入数据添加填充标识,为待填充数据。
步骤3.2首先对所述待填充数据使用同一种数据类型进行第一次填充,获得第一次填充后数据,并使其满足条件①,然后判断所述第一次填充后数据是否满足条件②,满足则结束填充,不满足执行下一条填充命令。
步骤3.3首先对所述第一次填充后数据使用所述相邻上一条数据值加上经纬度相邻数据值的变化值进行第二次填充,获得第二次填充后数据,且所述第二次填充后数据满足条件①,然后判断所述第二次填充后数据是否满足条件②,满足则结束填充,不满足则执行下一条填充命令。
步骤3.4对所述第二次填充后数据使用所述相邻上一条数据值加上理论值,并结束填充流程,所述其中XN代表第N条数据值,XN-1代表第N-1条数据值,tN-t0表示第N条数据值与第0条数据值之间的时间差值,N为1、2、3......n。
步骤3.5结束填充,输出所述多维度数据。
在一些实施方式中,步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据,融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”,或者为“车辆|基本参数”。
在一些实施方式中,所述驾驶行为包括基准里程、油耗、运行时长。
本发明提供的一种基于车载终端采集数据的近实时清洗数据执行方法,利用触发式调用Map-Reduce计算框架分步执行一定时间段内的数据,数据尽可能靠前执行清洗,保证了当日即可完成当日数据的清洗;而Map-Reduce计算框架适用于大规模数据集并行运算,非常适合处理落盘文件,包括对数据时间、数据类型、值、车辆基本参数进行联合计算,将清洗的数据结果数据追加写入到hive中,支持使用hsql进行即席查询。并且本申请通过使用车辆基本参数动态获取、预设阈值可配置、基准值缓存和线性增长拟合变化过滤等多种过滤方式对车载终端获取的各类数据进行多次过滤,剔除掉多余的、无效的、错误的数据然后再进行数据替换和有效填补,相比以往的车辆处理数据更为逻辑复杂,因只处理靠前时间段内的数据所以负荷小的优点,处理节点能快速执行完成任务,而表现为处理的数据速度明显提高,准确性明显提高,处理的数据种类较高。本申请还支持车辆历史数据即席查询和OLAP离线数据分析业务拓展。
附图说明
图1为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的数据处理流程示意图;
图2为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的多源数据简单处理模块处理流程示意图(以里程计算为示例);
图3为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的多源数据复杂替补模块处理流程示意图(以里程计算为示例);
图4为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的线性拟合示例图。
具体实施方式
结合参见图1至图4所示,根据本发明的实施例,提供一种基于车载终端采集数据的近实时清洗数据执行方法,包括步骤:
步骤1:利用车载终端采集数据模块,于所述车载终端中采集车辆行使时的多源原始数据,所述多源原始数据按照时间段进行分包储存,形成若干个不同时间段的数据包,对若干个所述数据包进行清洗融合,获得基准数据包。
步骤2:在多源数据简单处理模块中,对所述基准数据包进行理论范围值的判断,并将所述理论范围值与所述基准数据包内的采集值进行比较,对所述采集值进行保留或剔除操作,获取标准化的格式数据包。
步骤3:在多源数据复杂替补模块中,针对所述格式数据包内不同源数据进行关联合并,设置合理的时间拉平处理,对所述不同源数据进行剔除、替换、填充,获得车辆同一时刻的多维度数据。
步骤4:于驾驶行为计算模块内,利用步骤3得到的所述多维度数据进行车辆行驶行为计算,计算出每日车辆行驶行为数据并存储到相应的文件和数据库中。
步骤5:调用离线查询OLAP数据分析,将车辆上报数据清洗后用明文的方式实时写入hive仓库中,利用hsql语句对历史数据进行分析。
在一个具体的实施例中,所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。
在一个具体的实施例中,步骤1中的所述数据包执行过程包括步骤:
步骤1.1所述数据包执行时对所述数据包依据时间先后进行排序,并且获取已执行的所述数据包及计算机系统时间。
步骤1.2判断当前处理所述数据包时间<系统时间前60min,且当前处理的所述数据包为当天未处理数据包中时间最早的数据包。
步骤1.3将执行的上一个所述数据包清洗后获得的基准数据记作d1,当前执行的所述数据包的基准数据记作d2,当d1<=d2时,当前执行的所述数据包清洗结束,开始执行下一个所述数据包;当d1>d2时,当前执行的所述数据包与执行的上一个所述数据包进行数据融合,执行融合后的数据包得到的基准数据记作d3,依次执行所有当日所述数据包,直至执行完毕。
在一个具体的实施例中,每日采集的数据包依据为每半小时划分一次。
在一个具体的实施例中,步骤2的多源数据简单处理模块的执行过程,包括以下步骤:
步骤2.1理论范围值的确认,包括基于现有某平台近三年100万辆车采集上报数据为基础数据,按单车近一年内上报的累计里程、累计油耗、累计运行时长、车速四种数据,使用线性拟合分别求出里程、油耗、运行时长及车速的增长系数值a,再利用该系数a分别求出给定时间内的累计值理论范围值。
步骤2.2对执行的所述基准数据包进行数据剔除或者数据保留。
具体的,以累计里程举例说明,假设累计里程范围0<m<=180wkm,通过上述的拟合可以预计出范围值对m进行修正,获得m',对上报数据(即m)和m'进行判断是否在范围值;车速理论范围值确认,首先输入该车辆档案数据,以目前固有的车速计算公式Ua=0.377*r*n/ig/io,其中Ua为车辆当前速度,r为轮半径,n为转速,ig为变速箱传动比,io为主减速器传动(后桥速比),计算出额定最高车速v1。再按单车近一年内上报的车速值,对车速先进行自然排序,做个离散分布处理,以最低车速0作为圆心记为0%,以已报最高车速的前5%数据的中心车速记为100%,剔除离散率外圈的数据,再做一个正态分布处理,取正态分布图中前20%部位的数据求取平均值得到理论车速v2。对v1和v2的取法满足以下算法,当v1=0时取v2的值记为v;当v1和v2相比较差值接近较大值的20%时取最大值记为v,否则取v2的值记为v,由v1和v2中得到理论车速v,利用理论车速v和上报里程数据与上一个包更新的基准值进行比较,满足如下两个条件则为正常值。这两个条件分别为条件①里程数据>=基准值;条件②相邻两条里程数据符合里程差值(上一条值减下一条值取绝对值)<=时间差*理论车速v,否则剔除该条数据。
具体的,步骤2.1中线性拟合过程如下:
使用样例数据,即一段历史行驶过程上报的数据进行线性拟合:
车辆id|数据时间|累计里程数据
2126082338|1684512000|15725860
2126082338|1684512002|15725861
2126082338|1684512004|15725862
2126082338|1684512006|15725863
2126082338|1684512008|15725864
2126082338|1684512010|15725856
2126082338|1684512012|15725866
2126082338|1684512014|15725867
2126082338|1684512016|15725868
2126082338|1684512018|15725869
2126082338|1684512020|15725870
2126082338|1684512022|15725879
2126082338|1684512024|15725872
2126082338|1684512026|15725879
2126082338|1684512028|15725874
2126082338|1684512031|15725875
2126082338|1684512033|15725876
2126082338|1684512035|15725877
2126082338|1684512037|15725878
2126082338|1684512039|15725879
2126082338|1684512041|15725880
2126082338|1684512043|15725881
2126082338|1684512045|15725886
2126082338|1684512047|15725883
2126082338|1684512048|15725884
2126082338|1684512050|15725888
2126082338|1684512052|15725890
2126082338|1684512054|15725890
2126082338|1684512056|15725894
2126082338|1684512058|15725894
2126082338|1684512061|15725890
2126082338|1684512063|15725891
2126082338|1684512065|15725892
2126082338|1684512067|15725893
2126082338|1684512069|15725894
2126082338|1684512071|15725895
2126082338|1684512073|15725899
2126082338|1684512075|15725897
2126082338|1684512077|15725897
2126082338|1684512079|15725899
2126082338|1684512081|15725901
2126082338|1684512083|15725900
2126082338|1684512085|15725902
2126082338|1684512087|15725904
2126082338|1684512089|15725904
2126082338|1684512091|15725905
2126082338|1684512093|15725906
2126082338|1684512095|15725906
2126082338|1684512097|15725905
2126082338|1684512099|15725905
如图4所示,使用数据时间和累计里程数据进行线性拟合求出图中虚线的增长系数值a,即可获取变数间相互依赖的定量关系。尽可能使虚线靠近所有点,并且虚线上方和下方的点数量相似,使用最小二乘回归来计算虚线的斜率。
线性求取a的公式为:a=nΣ(xy)–Σx*Σy*nΣ(x2)–(Σx)2;n是点数。
操作如下几步:
第1步:对于每个(x,y)点计算x2和xy
第2步:将所有x、y、x2和xy相加,得到Σx、Σy、Σx2和Σxy
第3步:计算斜率a:a=nΣ(xy)–Σx*Σy*nΣ(x2)–(Σx)2
使用历史数据做线性拟合计算的结果a,利用该系数a分别求出给定时间内的累计值理论值,可以对未来上报的数据进行有效的比较验证。
在一个具体的实施例中,步骤3的多源数据复杂替补模块的执行过程,包括以下步骤:
步骤3.1数据项异常判断,判断条件①:相邻上一条数据值<=当前输入数据值<=相邻下一条数据值;条件②:(当前输入数据值-相邻上一条数据值)/(当前输入数据时间-相邻上一条数据值时间)<=变化率理论范围值;当前输入数据至少一个条件不满足时,该条当前输入数据添加填充标识,为待填充数据。
步骤3.2首先对所述待填充数据使用同一种数据类型进行第一次填充,获得第一次填充后数据,并使其满足条件①,然后判断所述第一次填充后数据是否满足条件②,满足则结束填充,不满足执行下一条填充命令。
步骤3.3首先对所述第一次填充后数据使用所述相邻上一条数据值加上经纬度相邻数据值的变化值进行第二次填充,获得第二次填充后数据,且所述第二次填充后数据满足条件①,然后判断所述第二次填充后数据是否满足条件②,满足则结束填充,不满足则执行下一条填充命令。
步骤3.4对所述第二次填充后数据使用所述相邻上一条数据值加上理论值,并结束填充流程,所述其中XN代表第N条数据值,XN-1代表第N-1条数据值,tN-t0表示第N条数据值与第0条数据值之间的时间差值,N为1、2、3......n。
步骤3.5结束填充,输出所述多维度数据。例如:can累计里程数据“车辆|时间|脉冲里程”、can累计燃油(气)数据“车辆|时间|燃油(气)”、can发动机运行数据“车辆|时间|累计运行时长”、can车速数据“车辆|时间|车速”、gps里程数据“车辆|时间|gps里程”等数据。
在一个具体的实施例中,步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据,融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”,或者为“车辆|基本参数”。
具体的,以里程计算为例进行详细说明:
变化率范围(v)是根据清洗简单处理中的车速理论范围值修改,默认是v=[0,150];经纬度变化范围是根据上报的数据时间上自然顺序的相邻两个经纬度点计算出一个距离d1和时间差t1;相邻上下两条数据可到里程差d2和d3,时间差t2和t3。
通过车速变化率范围的比较:车速是否在v的范围内,在则满足条件;经纬度变化范围的比较:d1/t1是否在v的范围内,在则满足条件;相邻上下两条d2和d3分别满足d2/t2是否在v的范围内和d3/t3是否在v的范围内。以上都不满足可以实现v*t(数据时间上自然顺序的相邻的两个时间差)=d,使用d加数据时间上自然顺序相邻的上一条脉冲里程数据对当前位的里程替换。这样替换里程会保障数据清洗后频率很规律,在计算驾驶事件时更为准确。
在一个具体的实施例中,所述驾驶行为包括基准里程、油耗、运行时长。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (8)
1.一种基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,包括步骤:
步骤1:利用车载终端采集数据模块,于所述车载终端中采集车辆行使时的多源原始数据,所述多源原始数据按照时间段进行分包储存,形成若干个不同时间段的数据包,对若干个所述数据包进行清洗融合,获得基准数据包;
步骤2:在多源数据简单处理模块中,对所述基准数据包进行理论范围值的判断,并将所述理论范围值与所述基准数据包内的采集值进行比较,对所述采集值进行保留或剔除操作,获取标准化的格式数据包;
步骤3:在多源数据复杂替补模块中,针对所述格式数据包内不同源数据进行关联合并,设置合理的时间拉平处理,对所述不同源数据进行剔除、替换、填充,获得车辆同一时刻的多维度数据;
步骤4:于驾驶行为计算模块内,利用步骤3得到的所述多维度数据进行车辆行驶行为计算,计算出每日车辆行驶行为数据并存储到相应的文件和数据库中;
步骤5:调用离线查询OLAP数据分析,将车辆上报数据清洗后用明文的方式实时写入hive仓库中,利用hsql语句对历史数据进行分析。
2.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。
3.根据权利要求2所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,步骤1中的所述数据包执行过程包括步骤:
步骤1.1所述数据包执行时对所述数据包依据时间先后进行排序,并且获取已执行的所述数据包及计算机系统时间;
步骤1.2判断当前处理所述数据包时间<系统时间前60min,且当前处理的所述数据包为当天未处理数据包中时间最早的数据包;
步骤1.3将执行的上一个所述数据包清洗后获得的基准数据记作d1,当前执行的所述数据包的基准数据记作d2,当d1<=d2时,当前执行的所述数据包清洗结束,开始执行下一个所述数据包;当d1>d2时,当前执行的所述数据包与执行的上一个所述数据包进行数据融合,执行融合后的数据包得到的基准数据记作d3,依次执行所有当日所述数据包,直至执行完毕。
4.根据权利要求3所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,每日采集的数据包依据为每半小时划分一次。
5.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,步骤2的多源数据简单处理模块的执行过程,包括以下步骤:
步骤2.1理论范围值的确认,包括基于现有某平台近三年100万辆车采集上报数据为基础数据,按单车近一年内上报的累计里程、累计油耗、累计运行时长、车速四种数据,使用线性拟合分别求出里程、油耗、运行时长及车速的增长系数值a,再利用该系数a分别求出给定时间内的累计值理论范围值;
步骤2.2对执行的所述基准数据包进行数据剔除或者数据保留。
6.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,步骤3的多源数据复杂替补模块的执行过程,包括以下步骤:
步骤3.1数据项异常判断,判断条件①:相邻上一条数据值<=当前输入数据值<=相邻下一条数据值;条件②:(当前输入数据值-相邻上一条数据值)/(当前输入数据时间-相邻上一条数据值时间)<=变化率理论范围值;当前输入数据至少一个条件不满足时,该条当前输入数据添加填充标识,为待填充数据;
步骤3.2首先对所述待填充数据使用同一种数据类型进行第一次填充,获得第一次填充后数据,并使其满足条件①,然后判断所述第一次填充后数据是否满足条件②,满足则结束填充,不满足执行下一条填充命令;
步骤3.3首先对所述第一次填充后数据使用所述相邻上一条数据值加上经纬度相邻数据值的变化值进行第二次填充,获得第二次填充后数据,且所述第二次填充后数据满足条件①,然后判断所述第二次填充后数据是否满足条件②,满足则结束填充,不满足则执行下一条填充命令;
步骤3.4对所述第二次填充后数据使用所述相邻上一条数据值加上理论值,并结束填充流程,所述其中XN代表第N条数据值,XN-1代表第N-1条数据值,tN-t0表示第N条数据值与第0条数据值之间的时间差值,N为1、2、3......n;
步骤3.5结束填充,输出所述多维度数据。
7.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据,融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”,或者为“车辆|基本参数”。
8.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法,其特征在于,所述驾驶行为包括基准里程、油耗、运行时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310747427.7A CN116775632A (zh) | 2023-06-25 | 2023-06-25 | 一种基于车载终端采集数据的近实时清洗数据执行方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310747427.7A CN116775632A (zh) | 2023-06-25 | 2023-06-25 | 一种基于车载终端采集数据的近实时清洗数据执行方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116775632A true CN116775632A (zh) | 2023-09-19 |
Family
ID=87992617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310747427.7A Pending CN116775632A (zh) | 2023-06-25 | 2023-06-25 | 一种基于车载终端采集数据的近实时清洗数据执行方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775632A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290671A (zh) * | 2023-11-27 | 2023-12-26 | 中国西安卫星测控中心 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
-
2023
- 2023-06-25 CN CN202310747427.7A patent/CN116775632A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290671A (zh) * | 2023-11-27 | 2023-12-26 | 中国西安卫星测控中心 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
CN117290671B (zh) * | 2023-11-27 | 2024-02-09 | 中国西安卫星测控中心 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256782B (zh) | 基于Hadoop的电力大数据处理系统 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN103902816A (zh) | 基于数据挖掘技术的带电检测数据处理方法 | |
CN103631912B (zh) | 一种利用非关系数据库存储海量工业设备监测数据的方法 | |
CN110503570A (zh) | 一种异常用电数据检测方法、系统、设备、存储介质 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
US20230067182A1 (en) | Data Processing Device and Method, and Computer Readable Storage Medium | |
CN113010505A (zh) | 一种水环境大数据清洗方法 | |
CN116775632A (zh) | 一种基于车载终端采集数据的近实时清洗数据执行方法 | |
CN108062387A (zh) | 一种面向tas系统的实时数据清洗与转换方法 | |
CN112181940A (zh) | 全国工商大数据处理系统的构建方法 | |
CN103020169A (zh) | 一种电力数据的有效性及唯一性处理方法 | |
CN114662793A (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
CN112632127A (zh) | 设备运行实时数据采集及时序的数据处理方法 | |
CN113792907A (zh) | 一种铁路客站的客流预测方法、装置及存储介质 | |
CN117311295B (zh) | 基于无线网络设备的生产质量提升方法及系统 | |
CN114116742A (zh) | 一种基于地铁综合监控系统的时序数据填补方法及装置 | |
CN113806343A (zh) | 一种车联网数据质量的评估方法和系统 | |
CN111915100A (zh) | 一种高精度的货运预测方法和货运预测系统 | |
CN111798311A (zh) | 基于大数据的银行风险分析库平台、搭建方法及可读介质 | |
CN115982177B (zh) | 一种基于树形维度的数据归集的方法、装置、设备及介质 | |
CN114637786B (zh) | 一种车辆工时离线计算方法及存储介质 | |
CN110175705B (zh) | 一种负荷预测方法及包含该方法的存储器、系统 | |
CN111881173B (zh) | 一种基于Hive的数据修改方法、装置及存储介质 | |
WO2024168955A1 (zh) | 一种冷轧硅钢钢卷跨工序回溯跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |