CN114036146A - 一种高速稽核业务数据仓库中的etl处理方法及装置 - Google Patents
一种高速稽核业务数据仓库中的etl处理方法及装置 Download PDFInfo
- Publication number
- CN114036146A CN114036146A CN202111395300.0A CN202111395300A CN114036146A CN 114036146 A CN114036146 A CN 114036146A CN 202111395300 A CN202111395300 A CN 202111395300A CN 114036146 A CN114036146 A CN 114036146A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- portal
- association
- entrance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000005406 washing Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 15
- 230000006399 behavior Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Devices For Checking Fares Or Tickets At Control Points (AREA)
Abstract
本发明实施例公开了一种高速稽核业务数据仓库中的ETL处理方法及装置,该方法包括数据转换步骤,所述转换步骤中还包括以下处理方法,具体包括:将转换后的数据进行数据清洗;将清洗后的数据进行路径还原并进行关联处理;将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签;其有益效果是:通过将数据转换过程拆分为数据清洗、数据关联和特征判断三个子过程,实现对高速公路稽核业务的数据仓库架构进行完善,从根源改善稽核系统数据质量不高、可解释性差的现状。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种高速稽核业务数据仓库中的ETL处理方法及装置。
背景技术
数据仓库从架构上可以概括为源数据经过ETL处理集中到数据仓库,其中,ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程,是构建数据仓库的重要一环,其工作量约占70%-80%。
在高速公路的收费业务中,在2019年取消省界收费项目实施之后,收费模式发生了变化,在提高了车辆通行效率的同时,也加大了车辆逃费的可能性和对逃费车辆的打击难度。
传统的人工稽核已无法满足,因此,新形势下的稽核业务已引入了AI、数据挖掘等多种前沿技术手段来构建稽核系统。由于高速公路的通行数据存在单对象、多实时,多场景、高纬度,以及弱关联、低质量的特点;使得在实际工作过程中,无论是稽核系统的模型数据还是引入前沿技术手段的数据都存在着数据质量不高、可解释性差、模型准确度不高的情况,进而造成稽核系统与业务人员的实际工作脱节、结果数据浮于表面、模型含义不友好等现实问题。
发明内容
针对现有技术中的技术缺陷,本发明实施例的目的在于提供一种可提高数据仓库质量、提高可解释性的一种高速稽核业务数据仓库中的ETL处理方法及装置。
为实现上述目的,第一方面,本发明实施例提供了一种高速稽核业务数据仓库中的ETL处理方法,包括数据转换步骤,所述转换步骤中还包括以下处理方法,具体包括:
将转换后的数据进行数据清洗;
将清洗后的数据进行路径还原并进行关联处理;
将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
优选地,所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗;
预设时间内的重复数据清洗;
交易数据清洗;
所述门架数据清洗包括:
门架交易数据清洗;
门架牌识别数据清洗;以及
整合所述门架交易数据和门架牌识别数据。
优选地,所述关联处理包括根据PASSID关联通行数据以及通过车牌号关联通行数据;其中,所述PASSID在车辆通行过车道及门架时生成。
优选地,所述关联处理还包括:
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
优选地,所述通行特征包括特情特征和业务特征;
其中,所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断生成的特情维度,代表对应数据所属的特情事实类别;
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
第二方面,本发明实施例还提供了一种高速稽核业务数据仓库中的ETL处理装置,应用于ETL数据转换中,包括清洗模块、关联模块和处理模块;
所述清洗模块,用于将转换后的数据进行数据清洗;
所述关联模块,用于将清洗后的数据进行路径还原并进行关联处理;
所述处理模块,用于将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
优选地,所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗;
预设时间内的重复数据清洗;
交易数据清洗;
所述门架数据清洗包括:
门架交易数据清洗;
门架牌识别数据清洗;以及
整合所述门架交易数据和门架牌识别数据。
优选地,所述关联处理包括根据PASSID关联通行数据以及通过车牌号关联通行数据;其中,所述PASSID在车辆通行过车道及门架时生成。
优选地,所述关联处理还包括:
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
优选地,所述通行特征包括特情特征和业务特征;
其中,所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断生成的特情维度,代表对应数据所属的特情事实类别;
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
实施本发明实施例,通过将数据转换过程拆分为数据清洗、数据关联和特征判断三个子过程,实现对高速公路稽核业务的数据仓库架构进行完善,从根源改善稽核系统数据质量不高、可解释性差的现状;使得在数据装载进数据仓库前已经具备业务层面的准确性和一致性,将数据处理逻辑前置到ETL过程中,在此基础上建设数据仓库层只需进行简单的映射,也减少了数据仓库的建设量。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种高速稽核业务数据仓库中的ETL处理方法的流程图;
图2是本发明实施例提供的一种关联方式的示意图;
图3是本发明实施例提供的另一种关联方式的示意图;
图4是本发明实施例提供的一种逃费模型的应用示意图;
图5是本发明实施例提供的一种高速稽核业务数据仓库中的ETL处理装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供的一种高速稽核业务数据仓库中的ETL处理方法,包括数据转换步骤,所述转换步骤中还包括以下处理方法,具体包括:
S101,将转换后的数据进行数据清洗。
具体地,ETL处理是从源数据抽取所需数据。所述源数据包括:在目前的收费模式下,高速公路的通行业务数据根据采集设备的不同可以分为由天线产生的交易数据、由车牌识别设备产生的牌识数据、由车型识别设备产生的车型识别数据,采集设备种类多样、产生场景丰富;
需要说明的是,车辆的单次通行并不会只产生一条记录,存在一对多的关系,车辆的通行记录会实时传输至上级节点进行处理和存储;
入口数据、途径门架数据和出口数据分别产生于收费站入口、途径门架、收费站出口,在数据库中存储在不同的数据表中,代表了车辆在不同场景下的通行行为。通行数据中包含车辆信息、通行节点信息、通行介质信息、操作人员信息和交易状态信息等上百个字段,从多个维度来描述单次通行行为。
源数据中的数据表所包括的数据有:
入口收费数据;
出口收费数据;
入、出口车牌识别数据;
ETC交易数据流水表;
ETC跨省交易数据流水表;
单省其他交易流水表;
跨省其他交易流水表;
门架计费数据;
门架车牌识别数据;
车道车型识别数据;
门架车型识别数据。
而在数据清洗时,具体包括:
清洗入口数据,区分出有效交易类数据和操作类数据;通过临近产生的两条入口流水的流水类型、通行数量识别出倒车数据,通过节点信息、时间信息、车辆信息识别出入口重复交易,其中包括由系统产生的重复交易和由例如车辆长时间停留等现场操作产生重复交易数据;
清洗出口数据,区分出有效交易类数据和操作类数据;
清洗门架交易数据,区分出有效交易类数据和无效交易类数据;
清洗门架牌识数据,保证一个实体门架对应一条门架牌识数据;
交易类数据作为车辆缴费的数据依据,操作类数据计入特情值,代表车辆通行过节点的数据依据,两类数据共同作为后续模型的数据依据。
S102,将清洗后的数据进行路径还原并进行关联处理。
具体地,所述关联处理包括根据PASS ID关联通行数据以及通过车牌号关联通行数据;其中,所述PASS ID在车辆通行过车道及门架时生成。
需要说明的是,本实施例中根据PASS ID关联通行数据:其中,生成规则见表1,通过PASSID可以将车辆通行高速的一趟完整通行路径的收费数据进行关联。
表1 PASSID生成规则
对于无法用PASSID进行关联的情况,应用车牌号、入口时间、入口站HEX码等信息进行数据关联,该情况下主要包含出口计费方式为在线计费和最小费额两种情况,具体过程参照图2、图3所示。
在另一实施例中,在上述技术方案的基础上,所述关联处理还包括:通过车牌号匹配入口和出省门架牌识数据;
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
具体地,对于出省车辆但是省界门架没有采集到交易数据的情况,通过入口数据与出省牌识数据进行数据关联,关联依据为无法通过前述两种方式关联的入口数据,且该车辆存在入口时间后,预设时间段为12小时内的出省门架牌识数据;这里的12小时只是进行举例,并不是对其进行限制。
S103,将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
具体地,在本实施例中,所述特征判断具体包括以下判断步骤:
路径分类:根据贯穿情况对每个路径进行分类,对应模型判断中的PATH_TYPE_ID字段;
入口时间在高速公路免费时间开始前12个小时内的,打上可能免费标签;
特情分类,对应模型判断中的SPECIAL_TYPE_ID字段;例如:
1001号特情:同一车牌、入口收费站,在相邻11分钟内有冗余记录
2004号特情:判断是否按照最短路径计费;
2012号特情:判断是否是出口坏卡情况;
2013号特情:判断是否是出口无卡情况;
3001号特情:出入口之间存在省界门架的记录;
3002号特情:出站(省)后还有门架流水;
4001号特情:判断入口轴数对应车型是否大于出口计费车型,货车,并排除2轴11的情况;
4003号特情:判断客车出口里程/通行时间(平均时速)<=60,货车出口里程/通行时间(平均时速)<=40;
5001号特情:入出口识别车牌不一致;
5002号特情:入出口交易车牌不一致;
5003号特情:出入口通行介质不一致;
5004号特情:入口识别车牌与交易车牌不一致;
5005号特情:出口识别车牌与交易车牌不一致;
5006号特情:超时低费额;
其中,所述通行特征包括特情特征和业务特征;
所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断,生成的特情维度,代表对应数据所属的特情事实类别;其中,所述第三方软件包括对应的收费软件,例如,ETC门架和入出口车道所承载的收费软件,通过与车辆的通行介质进行通信来产生流水,特情是流水的一个字段。
具体地,生成的特情维度,代表了数据所属的特情事实类别,见表2,具体的取值对应有相应的类型。
表2门架特情类型
特情类型 | 特情取值 |
标签拆卸 | 101 |
标签无卡 | 102 |
标签锁定 | 103 |
标签未到启用日期 | 104 |
... | ... |
特情是对车辆经过节点时,对于本次交易情况的记录,特情数据有上百种,需要对于不同节点的特情数据提取出关键信息形成通行路径的特情特征,见表3。
表3特情特征举例
特情类型 | 数据源 |
出口坏卡 | 出口流水 |
出口无卡 | 出口流水 |
出口按照最短路径收费 | 出口流水 |
... | ... |
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
其中,业务特征从真实业务场景出发,通过构建符合稽核需求的业务特征标签对数据进行分类和降维,业务特征的判断逻辑通常包含多个维度,是对一趟通行路径的客观描述,可以实现对通行数据的快速定位,增强单趟通行路径的可解释性,见表4,表4中这些特情类型是项目中根据业务情景梳理出来的。
表4业务特征举例
特情类型 | 数据源 |
入口11分钟内有相同车辆的重复数据 | 入口流水 |
入口交易车牌号<>入口牌识车牌号(剔除未识别成功的车牌号) | 入口流水 |
出口交易车牌号<>出口牌识车牌号(剔除未识别成功的车牌号) | 出口流水 |
出口识别车牌号<>入口识别车牌号(剔除未识别成功的车牌号) | 入/出口流水 |
完整的通行路径中包含省界门架通行记录 | 入/出口/门架流水 |
出口/省车型<入口/省轴数对应车型 | 入/出口/门架流水 |
超时低速 | 入/出口流水 |
无对应出口,但是该车牌号入口时间一天内有出省门架牌识 | 入/出口/门架流水 |
根据passid对应的出口数据为非有效交易数据 | 入/出口流水 |
... | ... |
应用时,由于传统ETL处理是对数据进行名称、数据类型、编码、位数的统一,消除重复数据、处理空值以及有限性检查等;这样的处理方式在应对高速公路通行数据特点时难以达到数据仓库的质量要求;
因此,本实施例中所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗。
即,车辆在经过车道时,先后压过第一、二个线圈产生一条交易数据,先后压过第二、一个线圈产生一条倒车数据;当同一台车在同一车道先后产生交易数据和倒车数据时,在业务场景上判断为该辆车没有经过收费站,在入口上表现为未驶入高速,在出口上表现为未驶离高速,需要清洗掉此类数据。
预设时间内的重复数据清洗。
应用时,未防止车辆在车道停留时间长导致产生重复交易数据,外部的车道软件一般会设置若干分钟之内相同车道内的相同车辆不允许重复交易,但是仍会有不同车道间的临道干扰,在同一场景下的重复数据通常表现为产生收费站相同、车牌号及颜色相同、业务时间间隔较近,需要将此类数据清洗掉,避免无效的“有入无出”或“有出无入”的结果产生。
交易数据清洗。
这是考虑到,高速公路的外部稽核业务关注车辆是否合法驶入高速及驶离高速时是否收取相应通行费,对车辆在收费站场景产生的非交易类数据不做关注,因此需要将入出口数据区分为交易类数据和非交易类数据,非交易类数据主要包含上述特殊通行行为数据。
所述门架数据清洗包括:
门架交易数据清洗。
根据门架流水中的特情字段(SPECIALTYPE),将字段值包含154|186(反向干扰),193(前排已经处理,查询共享后拒绝处理)的流水剔除,避免影响数据关联的准确度。
门架牌识别数据清洗。
对于2+1车道类型的高速公路,ETC门架会配备8套车牌识别设备,分为车头抓拍5套和车尾抓拍3套,车辆通行门架时会产生车头+车尾两条牌识流水和两张抓拍图片,在稽核业务中,需要将车辆通过同一门架节点产生的两条牌识流水整合成一条,作为该辆车通行过当前节点门架的依据。
以及
整合所述门架交易数据和门架牌识别数据。
即,为了门架交易数据和牌识数据可以进行便捷的关联分析,车辆经过节点时,触发收费软件执行动作,需要为符合匹配条件的牌识数据赋值上对应的PASSID值,作为其和交易数据的绑定关系记录。
从以上描述可以得出,实施本发明实施例所提供的一种高速稽核业务数据仓库中的ETL处理方法,通过将数据转换过程拆分为数据清洗、数据关联和特征判断三个子过程,实现对高速公路稽核业务的数据仓库架构进行完善,从根源改善稽核系统数据质量不高、可解释性差的现状;使得在数据装载进数据仓库前已经具备业务层面的准确性和一致性,将数据处理逻辑前置到ETL过程中,在此基础上建设数据仓库层只需进行简单的映射,也减少了数据仓库的建设量以及简化后续应用中逃费模型的判断逻辑。
进一步地,在另一实施例中,在上述技术方案的基础上,所述方法还包括:
将ETL的处理结果传送至数据仓库中,并作为数据仓库中的预设维度;其中,所述数据仓库中设有逃费模型,所述ETL的处理结果用于明确所述逃费模型的边界。
从而根据所述逃费模型的结果得到嫌疑车辆,对于模型结果可以清晰地看出嫌疑车辆在完整通行路径语境下的所有信息,以及各种判断逻辑之间是否存在交叉,如图4所示。
需要说明的是,图4以倒换通行介质嫌疑车辆为例,此类逃费方式可以通过多种判断逻辑实现,例如入口交易短时间内多次交易、出口超时车辆分析等,均可得到倒换通行介质的嫌疑车辆,但每类判断逻辑之间无关联,且对嫌疑数据需要进行进一步的信息补充,即,补充对应的车辆属性、通行节点和路径汇总等信息结合分析;判断逻辑以通行路径为最小单位,提取倒换通行介质嫌疑车辆的特征,作为通行路径的特征标签,来明确逃费模型的边界,对于模型结果可以清晰地看出嫌疑车辆在完整通行路径语境下的所有信息,以及各种判断逻辑之间是否存在交叉。
再以倒换通行介质的嫌疑车辆结果数据为例,模型结果将多张表的上百个维度,整合成47个主要维度,如表5所示,可以对通行路径进行全面数据描述。
表5模型结果维度
1 | 通行开始时间 | 15 | 通行结束时间 | 32 | 计费里程 |
2 | 入口收费站 | 16 | 出口收费站 | 33 | 通行时长 |
3 | 入口车道 | 17 | 入口车道 | 34 | 是否跨省 |
4 | 入口操作员 | 18 | 出口操作员 | 35 | 通过交易门架数量 |
5 | 入口车牌 | 19 | 出口车牌 | 36 | 首个交易门架 |
6 | 入口识别车牌 | 20 | 出口识别车牌 | 37 | 首个通过门架时间 |
7 | 入口通行介质 | 21 | 出口通行介质 | 38 | 末个交易门架 |
8 | 入口卡类型 | 22 | 出口卡类型 | 39 | 末个通过门架时间 |
9 | 入口车型 | 23 | 出口车型 | 40 | 通过牌识门架数量 |
10 | 入口车种 | 24 | 出口车种 | 41 | 首个牌识门架 |
11 | 入口轴数 | 25 | 出口的入口轴数 | 42 | 首个通过牌识门架时间 |
12 | 入口CPC_ID | 26 | 出口CPC_ID | 43 | 末个牌识门架 |
13 | 入口OBU_ID | 27 | 出口OBU_ID | 44 | 末个通过牌识门架时间 |
14 | 入口ETC_ID | 28 | 出口ETC_ID | 45 | 特征类型 |
29 | 计费方式 | 46 | 匹配类型 | ||
30 | 应收金额 | 47 | 逃费模型名称 | ||
31 | 优惠金额 | ||||
32 | 实付金额 | ||||
33 | 支付类型 |
进一步地,为便于前端人员进行灵活的分析应用,所述方法还包括:
利用BI工具作为数据仓库的展示层,实现基于稽核业务的数据仓库与BI工具对接;
从而可以帮助业务人员全程拖拉拽操作,无需编写SQL语句,来实现数据的分析和探索,同时业务人员可以借助BI工具内置的多种报表、图表样式制作报表,实现数据更大程度的利用;
另外,通过对已定义特征的提前汇总,减小结果数量,避免直接从海量的原始数据中执行计算,可以在不用增加硬件资源的前提下,给业务人员提供大数据量分析的体验。
同时,还可将经过还原的路径各节点数据所对应的图片进行融合后,将图片作为通行路径的新增通行特征,实现以图搜图的功能;其中,以图搜图的结果不仅是零散的节点图像信息,更加可以关联出其对应的路径信息。
进一步地,还可对接数据挖掘工具,例如Oracle的ODM,可以更充分的利用稽核模型结果包含的丰富维度,对于长时间跨度下的模型结果,应用聚类、决策树、线性回归等数据挖掘算法,来实现对逃费行为规律判断的进一步探索。
基于相同的发明构思,本发明实施例提供了一种高速稽核业务数据仓库中的ETL处理装置,应用于ETL数据转换中,如图5所示,包括清洗模块、关联模块和处理模块;
所述清洗模块,用于将转换后的数据进行数据清洗;
所述关联模块,用于将清洗后的数据进行路径还原并进行关联处理;
所述处理模块,用于将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
所述通行特征包括特情特征和业务特征;
其中,所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断生成的特情维度,代表对应数据所属的特情事实类别;
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
应用时,所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗;
预设时间内的重复数据清洗;
交易数据清洗;
所述门架数据清洗包括:
门架交易数据清洗;
门架牌识别数据清洗;以及
整合所述门架交易数据和门架牌识别数据。
进一步地,所述关联处理包括根据PASS ID关联通行数据以及通过车牌号关联通行数据;其中,所述PASS ID在车辆通行过车道及门架时生成;
同时,在另一实施例中,所述关联处理还包括:
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
进一步地,所述ETL处理装置还包括应用模块,所述应用模块用于:
将ETL的处理结果传送至数据仓库中,并作为数据仓库中的预设维度;其中,所述数据仓库中设有逃费模型,所述ETL的处理结果用于明确所述逃费模型的边界。
从而根据所述逃费模型的结果得到嫌疑车辆,对于模型结果可以清晰地看出嫌疑车辆在完整通行路径语境下的所有信息,以及各种判断逻辑之间是否存在交叉。
进一步地,所述ETL处理装置还包括扩展模块,所述扩展模块用于:
利用BI工具作为数据仓库的展示层,实现基于稽核业务的数据仓库与BI工具对接;
从而可以帮助业务人员全程拖拉拽操作,无需编写SQL语句,来实现数据的分析和探索,同时业务人员可以借助BI工具内置的多种报表、图表样式制作报表,实现数据更大程度的利用;另外,通过对已定义特征的提前汇总,减小结果数量,避免直接从海量的原始数据中执行计算,可以在不用增加硬件资源的前提下,给业务人员提供大数据量分析的体验;
将经过还原的路径各节点数据所对应的图片进行融合后,将图片作为通行路径的新增通行特征,实现以图搜图的功能。
需要说明的是,关于处理装置更为具体的工作流程,请参考前述方法实施例部分,在此不再赘述。
上述方案的实施,通过对高速公路稽核业务场景下ETL处理中数据转换的处理逻辑进行改进,简化了数据仓库层的构建工作,提高了模型结果的准确性、可信性和可解释性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种高速稽核业务数据仓库中的ETL处理方法,包括数据转换步骤,其特征在于,所述转换步骤中还包括以下处理方法,具体包括:
将转换后的数据进行数据清洗;
将清洗后的数据进行路径还原并进行关联处理;
将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
2.如权利要求1所述的一种高速稽核业务数据仓库中的ETL处理方法,其特征在于,所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗;
预设时间内的重复数据清洗;
交易数据清洗;
所述门架数据清洗包括:
门架交易数据清洗;
门架牌识别数据清洗;以及
整合所述门架交易数据和门架牌识别数据。
3.如权利要求1所述的一种高速稽核业务数据仓库中的ETL处理方法,其特征在于,所述关联处理包括根据PASSID关联通行数据以及通过车牌号关联通行数据;其中,所述PASSID在车辆通行过车道及门架时生成。
4.如权利要求3所述的一种高速稽核业务数据仓库中的ETL处理方法,其特征在于,所述关联处理还包括:
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
5.如权利要求1至4中任一所述的一种高速稽核业务数据仓库中的ETL处理方法,其特征在于,所述通行特征包括特情特征和业务特征;
其中,所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断生成的特情维度,代表对应数据所属的特情事实类别;
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
6.一种高速稽核业务数据仓库中的ETL处理装置,应用于ETL数据转换中,其特征在于,包括清洗模块、关联模块和处理模块;
所述清洗模块,用于将转换后的数据进行数据清洗;
所述关联模块,用于将清洗后的数据进行路径还原并进行关联处理;
所述处理模块,用于将关联处理后的数据送入预先构建的模型中进行特征判断,以得到对应的通行特征;其中,所述模型中构建有具有多个维度关联的特情事实类别和符合稽核需求的业务特征标签。
7.如权利要求6所述的一种高速稽核业务数据仓库中的ETL处理装置,其特征在于,所述数据清洗包括出入口数据清洗和门架数据清洗;其中,所述出入口数据清洗包括:
倒车数据清洗;
预设时间内的重复数据清洗;
交易数据清洗;
所述门架数据清洗包括:
门架交易数据清洗;
门架牌识别数据清洗;以及
整合所述门架交易数据和门架牌识别数据。
8.如权利要求6所述的一种高速稽核业务数据仓库中的ETL处理装置,其特征在于,所述关联处理包括根据PASSID关联通行数据以及通过车牌号关联通行数据;其中,所述PASSID在车辆通行过车道及门架时生成。
9.如权利要求8所述的一种高速稽核业务数据仓库中的ETL处理装置,其特征在于,所述关联处理还包括:
对于出省车辆但是省界门架没有采集到交易数据时,通过入口数据与出省门架牌识数据进行数据关联;其中,所述关联依据为对应车辆存在入口时间后的预设时间段内的出省门架牌识数据。
10.如权利要求6至9中任一所述的一种高速稽核业务数据仓库中的ETL处理装置,其特征在于,所述通行特征包括特情特征和业务特征;
其中,所述特情特征包括收费业务中门架节点和出入口收费站节点数据中由第三方软件判断生成的特情维度,代表对应数据所属的特情事实类别;
所述业务特征的判断逻辑包含多个维度,通过构建的业务特征标签对数据进行分类和降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111395300.0A CN114036146A (zh) | 2021-11-23 | 2021-11-23 | 一种高速稽核业务数据仓库中的etl处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111395300.0A CN114036146A (zh) | 2021-11-23 | 2021-11-23 | 一种高速稽核业务数据仓库中的etl处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114036146A true CN114036146A (zh) | 2022-02-11 |
Family
ID=80145243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111395300.0A Pending CN114036146A (zh) | 2021-11-23 | 2021-11-23 | 一种高速稽核业务数据仓库中的etl处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115456A (zh) * | 2022-08-29 | 2022-09-27 | 太极计算机股份有限公司 | 高速公路门架交易的汇总方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969314A (zh) * | 2018-09-28 | 2020-04-07 | 广州威阿科技有限公司 | 针对高速路缴费信息的大数据分析检测系统 |
CN112150810A (zh) * | 2020-09-25 | 2020-12-29 | 云从科技集团股份有限公司 | 一种车辆行为管理方法、系统、设备及介质 |
CN112419526A (zh) * | 2020-09-18 | 2021-02-26 | 招商华软信息有限公司 | 高速公路通行费校准方法、装置及存储介质 |
CN112785736A (zh) * | 2020-12-31 | 2021-05-11 | 千方捷通科技股份有限公司 | 高速公路车辆通行费漏费稽核判断方法、装置、介质及设备 |
CN113570854A (zh) * | 2021-06-21 | 2021-10-29 | 陕西交通电子工程科技有限公司 | 一种用于高速公路运营管理的智能稽核控制系统 |
-
2021
- 2021-11-23 CN CN202111395300.0A patent/CN114036146A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969314A (zh) * | 2018-09-28 | 2020-04-07 | 广州威阿科技有限公司 | 针对高速路缴费信息的大数据分析检测系统 |
CN112419526A (zh) * | 2020-09-18 | 2021-02-26 | 招商华软信息有限公司 | 高速公路通行费校准方法、装置及存储介质 |
CN112150810A (zh) * | 2020-09-25 | 2020-12-29 | 云从科技集团股份有限公司 | 一种车辆行为管理方法、系统、设备及介质 |
CN112785736A (zh) * | 2020-12-31 | 2021-05-11 | 千方捷通科技股份有限公司 | 高速公路车辆通行费漏费稽核判断方法、装置、介质及设备 |
CN113570854A (zh) * | 2021-06-21 | 2021-10-29 | 陕西交通电子工程科技有限公司 | 一种用于高速公路运营管理的智能稽核控制系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115456A (zh) * | 2022-08-29 | 2022-09-27 | 太极计算机股份有限公司 | 高速公路门架交易的汇总方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414927B (zh) | 一种票据处理自动生成凭证的方法及装置 | |
CN111126828A (zh) | 一种基于知识图谱的多层资金异常流向监控方法 | |
CN108806003B (zh) | 一种基于机器学习的收费公路绿通车检测方法 | |
CN112967410B (zh) | 一种基于最长公共子序列的偷逃通行费车辆识别方法 | |
CN112925820B (zh) | 一种车辆偷逃通行费的识别方法、装置及系统 | |
CN106651732A (zh) | 一种高速公路异车换卡逃费车辆筛查方法及系统 | |
CN114036198A (zh) | 基于路径算法的高速稽核系统 | |
CN109345649B (zh) | 一种高速公路车道收费辅助监测的实现方法 | |
CN113837886A (zh) | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 | |
CN114036146A (zh) | 一种高速稽核业务数据仓库中的etl处理方法及装置 | |
CN114841712B (zh) | 网约车巡游违规运营状态的确定方法和装置及电子设备 | |
CN108021361A (zh) | 一种高速公路倒卡逃费车辆筛查方法及装置 | |
CN107153906A (zh) | 一种出租车违法行为判定方法及系统 | |
CN116012184A (zh) | 一种财务发票处理方式方法 | |
CN114416686B (zh) | 一种车辆设备指纹carid识别系统及识别方法 | |
CN102945540A (zh) | 在轨道交通中交易的清分方法 | |
CN112419049A (zh) | 额度确定方法和装置 | |
CN112634007A (zh) | 一种信息核对方法及装置 | |
US11961335B1 (en) | Dual mode electronic toll road system | |
Maity et al. | JUIVCDv1: development of a still-image based dataset for indian vehicle classification | |
KR102370784B1 (ko) | 제품품질 개선 및 인력활동에 따른 인공지능 경비산출 관리 시스템 및 그 구동방법 | |
Sujitwanich et al. | Investigating Abnormal Transaction Detection of Manual Toll Collection (MTC) of Expressway | |
CN118379806A (zh) | 一种基于大数据证据链自动绑定的稽查方法 | |
CN115359666A (zh) | 一种基于多源数据交叉验证的异常通行行为检测方法 | |
Arta | ANALYSIS OF IMPORT RECEIPT CYCLE PROCEDURES AT NGURAH RAI CUSTOMS MIDDLE TYPE KPPBC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |