CN116775632A

CN116775632A - 一种基于车载终端采集数据的近实时清洗数据执行方法

Info

Publication number: CN116775632A
Application number: CN202310747427.7A
Authority: CN
Inventors: 冶少刚; 李锐; 张彦荣; 王小林; 李晓鹏; 王杰
Original assignee: Shaanxi Tianxingjian Networking Information Technology Co ltd
Current assignee: Shaanxi Tianxingjian Networking Information Technology Co ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19

Abstract

本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法，包括车载终端采集数据模块、多源数据简单处理模块、多源数据复杂替补模块、驾驶行为计算模块及离线查询OLAP数据分析，通过使用车辆基本参数动态获取、预设阈值可配置、基准值缓存和线性增长拟合变化过滤等多种过滤方式对车载终端获取的各类数据进行多次过滤，剔除掉多余的、无效的、错误的数据然后再进行数据替换和有效填补，相比以往的车辆处理数据更为逻辑复杂，因只处理靠前时间段内的数据所以负荷小的优点，处理节点能快速执行完成任务，而表现为处理的数据速度明显提高，准确性明显提高，处理的数据种类较高。

Description

一种基于车载终端采集数据的近实时清洗数据执行方法

技术领域

本发明涉及智能制造技术领域，具体涉及一种基于车载终端采集数据的近实时清洗数据执行方法。

背景技术

在车辆行驶过程中，车载终端会上传海量数据，其中包含了大量的对车辆驾驶事件计算统计而言无效的、错误的数据，诸如数据时间不符、数据漏报、数据异常、数据跳变、数据传输中丢失等数据问题。这问题在使用目前计算方案已经出现了不可弥补错误，严重影响公司相关业务。

目前在计算驾驶行为数据采用T-1日的模式进行离线计算，计算时读取了全部数据，这其中就包括数据的转化和异常数据，同时计算过程中采用了中位数等过滤措施，这种技术方案有以下缺陷：

①驾驶行为计算时间滞后，计算速度慢；

②计算过程处理转化和异常会导致中间态没有记录，每次计算结果并不一定一致；

③采用过滤措施比较单一，过滤数据失败，出现计算结果超出正常范围值。

发明内容

因此，本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法，能够克服现有技术中驾驶行为计算时间滞后，计算过程处理转化和异常会导致中间态没有记录，每次计算结果并不一定一致，以及采用过滤措施比较单一，过滤数据失败，出现计算结果超出正常范围值的缺陷。

为了解决上述问题，本发明提供一种基于车载终端采集数据的近实时清洗数据执行方法，包括步骤：

步骤1：利用车载终端采集数据模块，于所述车载终端中采集车辆行使时的多源原始数据，所述多源原始数据按照时间段进行分包储存，形成若干个不同时间段的数据包，对若干个所述数据包进行清洗融合，获得基准数据包。

步骤2：在多源数据简单处理模块中，对所述基准数据包进行理论范围值的判断，并将所述理论范围值与所述基准数据包内的采集值进行比较，对所述采集值进行保留或剔除操作，获取标准化的格式数据包。

步骤3：在多源数据复杂替补模块中，针对所述格式数据包内不同源数据进行关联合并，设置合理的时间拉平处理，对所述不同源数据进行剔除、替换、填充，获得车辆同一时刻的多维度数据。

步骤4：于驾驶行为计算模块内，利用步骤3得到的所述多维度数据进行车辆行驶行为计算，计算出每日车辆行驶行为数据并存储到相应的文件和数据库中。

步骤5：调用离线查询OLAP数据分析，将车辆上报数据清洗后用明文的方式实时写入hive仓库中，利用hsql语句对历史数据进行分析。

在一些实施方式中，所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。

在一些实施方式中，步骤1中的所述数据包执行过程包括步骤：

步骤1.1所述数据包执行时对所述数据包依据时间先后进行排序，并且获取已执行的所述数据包及计算机系统时间。

步骤1.2判断当前处理所述数据包时间<系统时间前60min，且当前处理的所述数据包为当天未处理数据包中时间最早的数据包。

步骤1.3将执行的上一个所述数据包清洗后获得的基准数据记作d1，当前执行的所述数据包的基准数据记作d2，当d1<＝d2时，当前执行的所述数据包清洗结束，开始执行下一个所述数据包；当d1>d2时，当前执行的所述数据包与执行的上一个所述数据包进行数据融合，执行融合后的数据包得到的基准数据记作d3，依次执行所有当日所述数据包，直至执行完毕。

在一些实施方式中，每日采集的数据包依据为每半小时划分一次。

在一些实施方式中，步骤2的多源数据简单处理模块的执行过程，包括以下步骤：

步骤2.1理论范围值的确认，包括基于现有某平台近三年100万辆车采集上报数据为基础数据，按单车近一年内上报的累计里程、累计油耗、累计运行时长、车速四种数据，使用线性拟合分别求出里程、油耗、运行时长及车速的增长系数值a，再利用该系数a分别求出给定时间内的累计值理论范围值。

步骤2.2对执行的所述基准数据包进行数据剔除或者数据保留。

在一些实施方式中，步骤3的多源数据复杂替补模块的执行过程，包括以下步骤：

步骤3.1数据项异常判断，判断条件①：相邻上一条数据值<＝当前输入数据值<＝相邻下一条数据值；条件②：(当前输入数据值-相邻上一条数据值)/(当前输入数据时间-相邻上一条数据值时间)<＝变化率理论范围值；当前输入数据至少一个条件不满足时，该条当前输入数据添加填充标识，为待填充数据。

步骤3.2首先对所述待填充数据使用同一种数据类型进行第一次填充，获得第一次填充后数据，并使其满足条件①，然后判断所述第一次填充后数据是否满足条件②，满足则结束填充，不满足执行下一条填充命令。

步骤3.3首先对所述第一次填充后数据使用所述相邻上一条数据值加上经纬度相邻数据值的变化值进行第二次填充，获得第二次填充后数据，且所述第二次填充后数据满足条件①，然后判断所述第二次填充后数据是否满足条件②，满足则结束填充，不满足则执行下一条填充命令。

步骤3.4对所述第二次填充后数据使用所述相邻上一条数据值加上理论值，并结束填充流程，所述其中X_N代表第N条数据值，X_N-1代表第N-1条数据值，t_N-t₀表示第N条数据值与第0条数据值之间的时间差值，N为1、2、3......n。

步骤3.5结束填充，输出所述多维度数据。

在一些实施方式中，步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据，融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”，或者为“车辆|基本参数”。

在一些实施方式中，所述驾驶行为包括基准里程、油耗、运行时长。

本发明提供的一种基于车载终端采集数据的近实时清洗数据执行方法，利用触发式调用Map-Reduce计算框架分步执行一定时间段内的数据，数据尽可能靠前执行清洗，保证了当日即可完成当日数据的清洗；而Map-Reduce计算框架适用于大规模数据集并行运算，非常适合处理落盘文件，包括对数据时间、数据类型、值、车辆基本参数进行联合计算，将清洗的数据结果数据追加写入到hive中，支持使用hsql进行即席查询。并且本申请通过使用车辆基本参数动态获取、预设阈值可配置、基准值缓存和线性增长拟合变化过滤等多种过滤方式对车载终端获取的各类数据进行多次过滤，剔除掉多余的、无效的、错误的数据然后再进行数据替换和有效填补，相比以往的车辆处理数据更为逻辑复杂，因只处理靠前时间段内的数据所以负荷小的优点，处理节点能快速执行完成任务，而表现为处理的数据速度明显提高，准确性明显提高，处理的数据种类较高。本申请还支持车辆历史数据即席查询和OLAP离线数据分析业务拓展。

附图说明

图1为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的数据处理流程示意图；

图2为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的多源数据简单处理模块处理流程示意图(以里程计算为示例)；

图3为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的多源数据复杂替补模块处理流程示意图(以里程计算为示例)；

图4为本发明实施例的基于车载终端采集数据的近实时清洗数据执行方法的线性拟合示例图。

具体实施方式

结合参见图1至图4所示，根据本发明的实施例，提供一种基于车载终端采集数据的近实时清洗数据执行方法，包括步骤：

在一个具体的实施例中，所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。

在一个具体的实施例中，步骤1中的所述数据包执行过程包括步骤：

在一个具体的实施例中，每日采集的数据包依据为每半小时划分一次。

在一个具体的实施例中，步骤2的多源数据简单处理模块的执行过程，包括以下步骤：

具体的，以累计里程举例说明，假设累计里程范围0<m<＝180wkm，通过上述的拟合可以预计出范围值对m进行修正，获得m'，对上报数据(即m)和m'进行判断是否在范围值；车速理论范围值确认，首先输入该车辆档案数据，以目前固有的车速计算公式Ua＝0.377*r*n/ig/io，其中Ua为车辆当前速度，r为轮半径，n为转速，ig为变速箱传动比，io为主减速器传动(后桥速比)，计算出额定最高车速v1。再按单车近一年内上报的车速值，对车速先进行自然排序，做个离散分布处理，以最低车速0作为圆心记为0％，以已报最高车速的前5％数据的中心车速记为100％，剔除离散率外圈的数据，再做一个正态分布处理，取正态分布图中前20％部位的数据求取平均值得到理论车速v2。对v1和v2的取法满足以下算法，当v1＝0时取v2的值记为v；当v1和v2相比较差值接近较大值的20％时取最大值记为v，否则取v2的值记为v，由v1和v2中得到理论车速v，利用理论车速v和上报里程数据与上一个包更新的基准值进行比较，满足如下两个条件则为正常值。这两个条件分别为条件①里程数据>＝基准值；条件②相邻两条里程数据符合里程差值(上一条值减下一条值取绝对值)<＝时间差*理论车速v，否则剔除该条数据。

具体的，步骤2.1中线性拟合过程如下：

使用样例数据，即一段历史行驶过程上报的数据进行线性拟合：

车辆id|数据时间|累计里程数据

2126082338|1684512000|15725860

2126082338|1684512002|15725861

2126082338|1684512004|15725862

2126082338|1684512006|15725863

2126082338|1684512008|15725864

2126082338|1684512010|15725856

2126082338|1684512012|15725866

2126082338|1684512014|15725867

2126082338|1684512016|15725868

2126082338|1684512018|15725869

2126082338|1684512020|15725870

2126082338|1684512022|15725879

2126082338|1684512024|15725872

2126082338|1684512026|15725879

2126082338|1684512028|15725874

2126082338|1684512031|15725875

2126082338|1684512033|15725876

2126082338|1684512035|15725877

2126082338|1684512037|15725878

2126082338|1684512039|15725879

2126082338|1684512041|15725880

2126082338|1684512043|15725881

2126082338|1684512045|15725886

2126082338|1684512047|15725883

2126082338|1684512048|15725884

2126082338|1684512050|15725888

2126082338|1684512052|15725890

2126082338|1684512054|15725890

2126082338|1684512056|15725894

2126082338|1684512058|15725894

2126082338|1684512061|15725890

2126082338|1684512063|15725891

2126082338|1684512065|15725892

2126082338|1684512067|15725893

2126082338|1684512069|15725894

2126082338|1684512071|15725895

2126082338|1684512073|15725899

2126082338|1684512075|15725897

2126082338|1684512077|15725897

2126082338|1684512079|15725899

2126082338|1684512081|15725901

2126082338|1684512083|15725900

2126082338|1684512085|15725902

2126082338|1684512087|15725904

2126082338|1684512089|15725904

2126082338|1684512091|15725905

2126082338|1684512093|15725906

2126082338|1684512095|15725906

2126082338|1684512097|15725905

2126082338|1684512099|15725905

如图4所示，使用数据时间和累计里程数据进行线性拟合求出图中虚线的增长系数值a，即可获取变数间相互依赖的定量关系。尽可能使虚线靠近所有点，并且虚线上方和下方的点数量相似，使用最小二乘回归来计算虚线的斜率。

线性求取a的公式为：a＝nΣ(xy)–Σx*Σy*nΣ(x²)–(Σx)²；n是点数。

操作如下几步：

第1步：对于每个(x，y)点计算x2和xy

第2步：将所有x、y、x²和xy相加，得到Σx、Σy、Σx²和Σxy

第3步：计算斜率a：a＝nΣ(xy)–Σx*Σy*nΣ(x²)–(Σx)²

使用历史数据做线性拟合计算的结果a，利用该系数a分别求出给定时间内的累计值理论值，可以对未来上报的数据进行有效的比较验证。

在一个具体的实施例中，步骤3的多源数据复杂替补模块的执行过程，包括以下步骤：

步骤3.5结束填充，输出所述多维度数据。例如：can累计里程数据“车辆|时间|脉冲里程”、can累计燃油(气)数据“车辆|时间|燃油(气)”、can发动机运行数据“车辆|时间|累计运行时长”、can车速数据“车辆|时间|车速”、gps里程数据“车辆|时间|gps里程”等数据。

在一个具体的实施例中，步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据，融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”，或者为“车辆|基本参数”。

具体的，以里程计算为例进行详细说明：

变化率范围(v)是根据清洗简单处理中的车速理论范围值修改，默认是v＝[0,150]；经纬度变化范围是根据上报的数据时间上自然顺序的相邻两个经纬度点计算出一个距离d1和时间差t1；相邻上下两条数据可到里程差d2和d3,时间差t2和t3。

通过车速变化率范围的比较：车速是否在v的范围内，在则满足条件；经纬度变化范围的比较：d1/t1是否在v的范围内，在则满足条件；相邻上下两条d2和d3分别满足d2/t2是否在v的范围内和d3/t3是否在v的范围内。以上都不满足可以实现v*t(数据时间上自然顺序的相邻的两个时间差)＝d，使用d加数据时间上自然顺序相邻的上一条脉冲里程数据对当前位的里程替换。这样替换里程会保障数据清洗后频率很规律，在计算驾驶事件时更为准确。

在一个具体的实施例中，所述驾驶行为包括基准里程、油耗、运行时长。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，包括步骤：

步骤1：利用车载终端采集数据模块，于所述车载终端中采集车辆行使时的多源原始数据，所述多源原始数据按照时间段进行分包储存，形成若干个不同时间段的数据包，对若干个所述数据包进行清洗融合，获得基准数据包；

步骤2：在多源数据简单处理模块中，对所述基准数据包进行理论范围值的判断，并将所述理论范围值与所述基准数据包内的采集值进行比较，对所述采集值进行保留或剔除操作，获取标准化的格式数据包；

步骤3：在多源数据复杂替补模块中，针对所述格式数据包内不同源数据进行关联合并，设置合理的时间拉平处理，对所述不同源数据进行剔除、替换、填充，获得车辆同一时刻的多维度数据；

步骤4：于驾驶行为计算模块内，利用步骤3得到的所述多维度数据进行车辆行驶行为计算，计算出每日车辆行驶行为数据并存储到相应的文件和数据库中；

2.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，所述多源原始数据包括使用HADOOP文件存储的CAN、GPS和车辆基本参数。

3.根据权利要求2所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，步骤1中的所述数据包执行过程包括步骤：

步骤1.1所述数据包执行时对所述数据包依据时间先后进行排序，并且获取已执行的所述数据包及计算机系统时间；

步骤1.2判断当前处理所述数据包时间<系统时间前60min，且当前处理的所述数据包为当天未处理数据包中时间最早的数据包；

4.根据权利要求3所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，每日采集的数据包依据为每半小时划分一次。

5.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，步骤2的多源数据简单处理模块的执行过程，包括以下步骤：

步骤2.1理论范围值的确认，包括基于现有某平台近三年100万辆车采集上报数据为基础数据，按单车近一年内上报的累计里程、累计油耗、累计运行时长、车速四种数据，使用线性拟合分别求出里程、油耗、运行时长及车速的增长系数值a，再利用该系数a分别求出给定时间内的累计值理论范围值；

6.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，步骤3的多源数据复杂替补模块的执行过程，包括以下步骤：

步骤3.1数据项异常判断，判断条件①：相邻上一条数据值＜＝当前输入数据值＜＝相邻下一条数据值；条件②：(当前输入数据值-相邻上一条数据值)/(当前输入数据时间-相邻上一条数据值时间)＜＝变化率理论范围值；当前输入数据至少一个条件不满足时，该条当前输入数据添加填充标识，为待填充数据；

步骤3.2首先对所述待填充数据使用同一种数据类型进行第一次填充，获得第一次填充后数据，并使其满足条件①，然后判断所述第一次填充后数据是否满足条件②，满足则结束填充，不满足执行下一条填充命令；

步骤3.3首先对所述第一次填充后数据使用所述相邻上一条数据值加上经纬度相邻数据值的变化值进行第二次填充，获得第二次填充后数据，且所述第二次填充后数据满足条件①，然后判断所述第二次填充后数据是否满足条件②，满足则结束填充，不满足则执行下一条填充命令；

步骤3.4对所述第二次填充后数据使用所述相邻上一条数据值加上理论值，并结束填充流程，所述其中X_N代表第N条数据值，X_N-1代表第N-1条数据值，t_N-t₀表示第N条数据值与第0条数据值之间的时间差值，N为1、2、3......n；

步骤3.5结束填充，输出所述多维度数据。

7.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，步骤1输出的所述基准数据包和步骤3输出的所述多维度数据均是以时间为融合依据，融合的数据结构为“车辆|时间|脉冲里程|车速|经纬度|”，或者为“车辆|基本参数”。

8.根据权利要求1所述的基于车载终端采集数据的近实时清洗数据执行方法，其特征在于，所述驾驶行为包括基准里程、油耗、运行时长。