CN112395277A - 一种车辆信息筛选方法、装置、设备及存储介质 - Google Patents

一种车辆信息筛选方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112395277A
CN112395277A CN202011451294.1A CN202011451294A CN112395277A CN 112395277 A CN112395277 A CN 112395277A CN 202011451294 A CN202011451294 A CN 202011451294A CN 112395277 A CN112395277 A CN 112395277A
Authority
CN
China
Prior art keywords
candidate
data set
data
data items
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011451294.1A
Other languages
English (en)
Other versions
CN112395277B (zh
Inventor
罗庆异
谢海强
李俊贤
张龑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merchants China Soft Information Co ltd
Original Assignee
Merchants China Soft Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merchants China Soft Information Co ltd filed Critical Merchants China Soft Information Co ltd
Priority to CN202011451294.1A priority Critical patent/CN112395277B/zh
Publication of CN112395277A publication Critical patent/CN112395277A/zh
Application granted granted Critical
Publication of CN112395277B publication Critical patent/CN112395277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种车辆信息筛选方法、装置、设备及存储介质,该方法包括:获取有关ETC车辆信息的原始数据集合,其中,每个原始数据集合中包含多种表示不同业务类别的数据项;根据不同原始数据集合内部数据项之间的关联关系,对原始数据集合中与频繁项集相比较关联性弱的部分数据项进行剔除,得到第一候选数据集合;依据不同第一候选数据集合之间的相互包含关系对第一候选数据集合中的数据项进行分类,得到第二候选数据集合;对第二候选数据集合中重复的数据项进行统计,得到目标数据集合;在目标数据集合中查询对应的业务类别对ETC车辆执行业务操作。本方案能够避免产生冗余的非频繁项集,减少内存缓冲区的使用,可以降低搜索时间,提升搜索效率。

Description

一种车辆信息筛选方法、装置、设备及存储介质
技术领域
本发明实施例涉及ETC车辆信息查询技术,尤其涉及一种车辆信息筛选方法、装置、设备及存储介质。
背景技术
现有技术中一般使用关联规则算法去挖掘数据库中项集之间的关联规则,查询项集之间的关联关系。
ETC云平台中的车辆信息数据库记录着大量与车辆有关的数据信息,这些数据信息较为杂乱,相互之间缺乏关联关系,若使用现有的关联规则算法对车辆信息数据库中存储的数据项集挖掘关联规则,由于现有的关联规则算法合并了冗余的非频繁项集,会增加内存缓冲区的过度使用和数据传输延迟,存在计算过程延迟消耗的问题,同时,在计算支持度的时候,现有的关联规则算法对数据集的重复分析需要大量的时间开销,在生成候选数据集期间会生成大量的候选集占用过多内存,在存储有大量数据的车辆信息数据库中查询某一类或某几类目标数据则需要耗费大量的搜索时间,搜索效率低且数据冗余过多,从而导致ETC业务操作的执行效率降低。
发明内容
本发明提供一种车辆信息筛选方法、装置、设备及存储介质,以解决在ETC车辆信息数据库中挖掘数据关联规则效率低下、内存占用过度的问题。
第一方面,本发明实施例提供了一种车辆信息筛选方法,所述方法包括:
获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
第二方面,本发明实施例还提供了一种车辆信息筛选装置,所述装置包括:
原始数据集合获取模块,用于获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
第一候选数据集合确定模块,用于根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
第二候选数据集合确定模块,用于依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
目标数据集合确定模块,用于对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
业务操作执行模块,用于在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的车辆信息筛选方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的车辆信息筛选方法。
本发明通过获取有关ETC车辆信息的原始数据集合,其中,每个原始数据集合中包含多种表示不同业务类别的数据项;根据不同原始数据集合内部数据项之间的关联关系,对原始数据集合中与频繁项集相比较关联性弱的部分数据项进行剔除,得到第一候选数据集合,避免产生冗余的非频繁项集,避免内存缓冲区的过度使用,依据不同第一候选数据集合之间的相互包含关系对第一候选数据集合中的数据项进行分类,得到第二候选数据集合,无需额外对数据集进行重复分析,减少计算时间,对第二候选数据集合中重复的数据项进行统计,得到目标数据集合,可以降低搜索时间,提升搜索效率,在目标数据集合中查询对应的业务类别对ETC车辆执行业务操作,进而提高ETC业务操作的执行效率。
附图说明
图1为本发明实施例一提供的一种车辆信息筛选方法的流程图;
图2为本发明实施例二提供的一种车辆信息筛选装置的结构示意图;
图3为本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
关联规则算法Apriori算法在分布式计算架构Map Reduce中实现有两个重要部分:“合并所有可能的候选项目集”和“检查候选集是否满足最低支持级别(最小支持度)”。“合并所有可能的候选项目集”此阶段的主要动作是在地图阶段进行合并接着;对“检查候选集是否满足最小支持度”进行分类和计数,通过计数可以知道频繁项集,过滤掉频繁的项目集。
针对ETC云平台中存储的与ETC车辆信息有关的海量数据,为了挖掘ETC车辆信息之间的关联关系,提升ETC业务操作的效率,本发明提出了一种车辆信息筛选方法,该方法能够基于分布式计算架构Map Reduce进行实现,实质是一种频繁项集的挖掘方法,旨在解决现有的Apriori算法在ETC车辆信息数据库中挖掘数据关联规则效率低下、内存占用过度的问题。本发明所提的方案通过计算每个车辆信息集的长度,可以减少分布式计算中Map映射任务生成的数据量,并减少内存使用量,从而提高关联规则挖掘算法的运算效率。
实施例一
图1为本发明实施例一提供的一种车辆信息筛选方法的流程图,本实施例可适用于对ETC云平台中的车辆信息数据库进行目标数据筛选的情况,该方法可以由车辆信息筛选装置来执行,该车辆信息筛选装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑,等等,该方法具体包括如下步骤:
S101、获取有关ETC车辆信息的原始数据集合。
其中,每个原始数据集合中包含多种表示不同业务类别的数据项,业务类别是指对ETC车辆交易行业中需要处理的对象的不同所进行的种类划分,在本实施例中,业务类别至少包括身份信息、车牌信息、车型信息、缴费信息、ETC卡号、OBU电子标签、行驶轨迹、违章信息中的一种。
在本实施例的一种实现方式中,可以获取多个车辆监管机构在不同路段中对ETC车辆采集的具有不同数据格式的原始数据集合,车辆监管机构可以是交警局、高速公路中的服务厅、高速路段管理局、不同路段中的收费站,等等。
在获取到具有不同数据格式的原始数据集合之后,需要对具有不同数据格式的原始数据集合进行格式归一化,得到格式统一的原始数据集合。
由于不同车辆监管机构与ETC车辆进行交易会产生一些相同类别的业务,比如停车缴费、身份信息确认、车牌识别,等等,并且关于一辆ETC车辆的所有业务数据都可以与该车辆的身份ID进行绑定,通过身份ID可以统一同一辆车的所有业务数据。因此,可以利用不同车辆监管机构之间相同业务类别的关联性,对原始数据集合中的数据项进行归一化,得到有关ETC车辆信息的原始数据集合。
所有的原始数据集合可以被预先存储在分布式架构的数据库中,用以对车辆信息进行关联学习,以解决各种与车辆追踪相关的业务;比如在防盗领域,对于曾经进入过电子围栏的ETC车辆,将车辆的车牌、电子标签和卡号关联起来,建立车辆ETC信息数据库,可以用作车辆黑名单校验、是否是ETC车辆的识别,并提升车辆在路段中整体交易账单的处理速度。
S102、根据不同原始数据集合内部数据项之间的关联关系,对原始数据集合中与频繁项集相比较关联性弱的部分数据项进行剔除,得到第一候选数据集合。
其中,频繁项集是指若干个项的集合,在本说明书中,频繁项集是指在各类数据集中频繁出现的车辆信息数据,包括频繁出现在原始数据集中的各种业务类别的数据项。
在本实施例中,不同原始数据集合内部数据项之间的关联关系可以包括代表不同业务类别的数据项在原始数据集合中出现的概率或频次,还可以包括不同业务类别的数据项相互之间的制约关系,例如哪些业务类别的数据项是绑定在一起出现的,哪些业务类别的数据项是依据先后处理顺序、存在前提条件一同出现的,又例如不同的业务类别所对应的数据项可能在多种条件状态下高频出现,等等。
为使本领域技术人员更好的理解本方案,以代表不同业务类别的数据项在原始数据集合中出现的频次作为一个示例进行说明。
在本示例中,若不同原始数据集合内部数据项之间的关联关系为同一业务类别的数据项在不同原始数据集合中出现的第一频次,则依据第一频次将与频繁项集相比较关联性弱的部分数据项从原始数据集合中剔除,得到第一候选数据集合。
在本示例的具体实现中,可以遍历所有原始数据集合,以确定每个原始数据集合中数据项的总数量,作为每个原始数据集合的原始长度;基于数据项的业务类别和所有的原始长度设定最小支持度,最小支持度是指两种或两种以上的业务类别所对应的数据项同时出现的概率或频次;统计同一业务类别的数据项在所有原始数据集合中出现的频次,作为第一频次;将第一频次低于最小支持度的数据项从原始数据集合中剔除,得到第一候选数据集合。
S103、依据不同第一候选数据集合之间的相互包含关系对第一候选数据集合中的数据项进行分类,得到第二候选数据集合。
在本实施例中,不同的第一候选数据集合之间的相互包含关系是指两个第一候选数据集合之间可能存在相互从属关系,即相互之间存在表示相同的业务类别的数据项,数据项的具体数值可以不相同,例如第一候选数据集合A={a,b,c}从属于第一候选数据集合B={a,b,c,d,e},即第一候选数据集合B包含第一候选数据集合A;或者,相互包含关系也可以是指两个第一候选数据集合存在等同关系,即两个第一候选数据集合各自所包含的数据项不同、但数据项所对应的业务类别均相同,例如第一候选数据集合C={h,k,g}等同于第一候选数据集合D={h,k,g},其中,h,k,g用于表示不同的业务类别。
由于第一候选数据集合是剔除了与频繁项集相比较关联性弱的部分所述数据项后得到,因此两两第一候选数据集合之间可能会存在相互从属关系、存在相同业务类别的数据项,也可能会存在等同关系,即两个第一候选数据集合所包含的数据项所对应的业务类别相同。因此,可以通过统计每个第一候选数据集合中数据项的总数量来初步判断不同的第一候选数据集合之间的相互包含关系。
在一种实现方式中,可以对所有第一候选数据集合进行遍历,以确定每个第一候选数据集合中数据项的总数量,作为每个第一候选数据集合的候选长度。
统计具有相同候选长度的第一候选数据集合在所有的第一候选数据集合中出现的频次,作为第二频次。
将所有的候选长度按照从大到小的顺序进行排序,得到候选长度序列,其中,候选长度序列中的每一类候选长度均具有唯一对应的第二频次。
按照候选长度的排序将第二频次小于预设的最小支持度的候选长度从候选长度序列中剔除,得到目标长度序列。其中,最小支持度可以基于不同ETC业务类别所对应的数据项进行统计分析得到,例如统计某个业务类别所对应的数据项占总业务类别对应的全部数据项的比例、作为业务比例,并统计该业务类别所对应的数据项中的高频词,统计该高频词占全部业务类别所对应的数据项的概率、作为高频词概率,结合业务比例和高频词概率可以计算出最小支持度。
按照目标长度序列中候选长度从小到大的顺序对每个第一候选数据集合中的数据项进行分类,得到第二候选数据集合。比如,将目标长度序列中的每一个候选长度作为对第一候选数据集合划分数据项的阶数;确定目标长度序列中的最大值作为最高阶阶数;确定目标长度序列中的最小值作为最低阶阶数;在依次对所有第一候选数据集合进行数据项分类时,将当前第一候选数据集合所对应的候选长度与最高阶阶数、最低阶阶数进行比较。
若当前第一候选数据集合的候选长度大于最高阶阶数,则将当前第一候选数据集合中的数据项按照在最低阶阶数至最高阶阶数范围内的每一类阶数划分成对应阶数的子集,得到包含多个子集的第二候选数据集合。
若当前第一候选数据集合的候选长度大于最低阶阶数且小于最高阶阶数,则基于目标长度序列中小于当前第一候选数据集合的候选长度的每一类阶数对当前第一候选数据集合中的数据项进行子集划分,得到包含多个子集的第二候选数据集合。
若当前第一候选数据集合的候选长度等于最低阶阶数,则将当前第一候选数据集合作为第二候选数据集合。
S104、对第二候选数据集合中重复的数据项进行统计,得到目标数据集合。
在本实施例中,第二候选数据集合内包括至少一个子集,每个子集包含至少一个表示业务类别的数据项。
由于不同的第二候选数据集合内所包含的子集可能存在等同关系,即两两第二候选数据集合中存在相同的子集,因此,可以对第二候选数据集合中重复的数据项进行统计,获得高频子集,将高频子集进行合并,得到目标数据集合。
具体的,可以在所有的第二候选数据集合中,对具有相同子集的第二候选数据集合取交集,统计相同子集出现的频次,对频次进行升序排序,取频次大于预设的最小支持度的子集进行合并,得到目标数据集合。
在本实施例中,将从与ETC车辆信息有关的海量数据中筛选得到的目标数据集合放入分布式文件系统HDFS(Hadoop Distributed File System)中进行存储,基于分布式计算架构Map Reduce计算实现。
HDFS作为一种关系型数据库,是基于流数据模式访问和处理超大文件的需求而开发的,可以跨多个计算机设备进行数据存储,可以运行于商用服务器上。
HDFS属于分布式系统基础架构Hadoop的一部分,Hadoop分布式的另一部分是分布式计算框架Map Reduce。
MapReduce执行任务的过程主要分为两个处理阶段:Map阶段(映射阶段)和Reduce阶段(减少阶段)。每个阶段都以键(key)\值(value)对作为输入(Input)和输出(Output),Map阶段的输入格式是文本格式,输入目标数据集合的每一行都会被作为文本值,在实际操作期间,用户还需具体定义两个函数:映射函数(map)和规约函数(reduce),需要确定哪个Mapper接口来实现map函数,Mapper具有四种形式参数类型,每种类型均制定Map函数的输入键,输入值,输出键和输出值类型。Map函数处理每个键/值对并生成新一批中间键/值对。MapReduce输入的数据来自HDFS剪切的块,一个块对应一张图。Hadoop对这些键/值进行排序,复制和合并,从而生成哪些具有相同键值的新键/值列表。
本实施例在map过程中,可减少与所求目标数据集合不相关的候选项集的产生,降低了运算复杂度,减少了内存消耗。按照map函数的运算特性,以Key/Value对的形态输出目标数据集合给reduce函数。在Reduce函数中,相同Key的目标数据集合会传送至同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的目标数据集合。每个Reduce Worker会对Key相同的多个目标数据集合进行Reduce操作。最后,一个Key的多条目标数据集合经过Reduce的作用后,将变成一个值。在“判断候选数据集合是否满足最低支持度”的过程中,减少了处理阶段来处理判断,对相同键(候选数据集合)进行分类并累积其值,然后检查候选者集合,如果频次满足最小支持度的,即为高频车辆信息,将其输出并存储在HDFS。
本算法改进了传统的关联规则算法并将其应用到车辆信息学习中,使改进后的算法在MapReduce的运算中,减少了那些与所求目标(车辆交易所需的关键信息,如车牌信息、OBU信息、卡签信息、车型信息)不相关的、没有多大用处的候选项集的产生,从而减少计算机之间的数据传输量,并有效地提高操作性能。当算法运行时,使用每个车辆信息集的长度和最小支持来确定映射任务的最大合并候选集的顺序,从而减少数据输出和内存消耗。
S105、在目标数据集合中查询对应的业务类别对ETC车辆执行业务操作。
在本实施例中,可以从存储有目标数据集合的数据库中对应查询目标数据项,基于目标数据项所对应的业务类别对ETC车辆执行业务操作。
具体的,若目标数据集合中存在业务类别为违章信息的数据项,则对ETC车辆进行拦截,读取违章信息对ETC车辆进行异常检测;若目标数据集合中存在业务类别为身份信息、缴费信息的数据项,则对ETC车辆进行拦截,读取身份信息和缴费信息对ETC车辆进行车辆黑名单校验。
本发明通过获取有关ETC车辆信息的原始数据集合,其中,每个原始数据集合中包含多种表示不同业务类别的数据项;根据不同原始数据集合内部数据项之间的关联关系,对原始数据集合中与频繁项集相比较关联性弱的部分数据项进行剔除,得到第一候选数据集合,避免产生冗余的非频繁项集,避免内存缓冲区的过度使用,依据不同第一候选数据集合之间的相互包含关系对第一候选数据集合中的数据项进行分类,得到第二候选数据集合,无需额外对数据集进行重复分析,减少计算时间,对第二候选数据集合中重复的数据项进行统计,得到目标数据集合,可以降低搜索时间,提升搜索效率,在目标数据集合中查询对应的业务类别对ETC车辆执行业务操作,进而提高ETC业务操作的执行效率。
实施例二
图2为本发明实施例二提供的一种车辆信息筛选装置的结构示意图,该装置具体可以包括如下模块:
原始数据集合获取模块201,用于获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
第一候选数据集合确定模块202,用于根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
第二候选数据集合确定模块203,用于依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
目标数据集合确定模块204,用于对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
业务操作执行模块205,用于在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
在本发明的一个实施例中,所述原始数据集合获取模块201包括:
原始数据集合获取子模块,用于获取多个车辆监管机构在不同路段中对ETC车辆采集的具有不同数据格式的原始数据集合;
格式处理子模块,用于对具有不同数据格式的原始数据集合进行格式归一化,得到格式统一的原始数据集合;
归一化子模块,用于利用不同所述车辆监管机构之间相同业务类别的关联性,对原始数据集合中的数据项进行归一化,得到有关ETC车辆信息的原始数据集合;
其中,所述业务类别至少包括身份信息、车牌信息、车型信息、缴费信息、ETC卡号、OBU电子标签、行驶轨迹、违章信息中的一种。
在本发明的一个实施例中,所述第一候选数据集合确定模块202包括:
第一候选数据集合确定子模块,用于若不同所述原始数据集合内部所述数据项之间的关联关系为同一所述业务类别的所述数据项在不同所述原始数据集合中出现的第一频次,则依据所述第一频次将与频繁项集相比较关联性弱的部分所述数据项从所述原始数据集合中剔除,得到第一候选数据集合;
在本发明的一个实施例中,所述第一候选数据集合确定子模块,具体用于若不同所述原始数据集合内部所述数据项之间的关联关系为同一所述业务类别的所述数据项在不同所述原始数据集合中出现的第一频次,则遍历所有所述原始数据集合,以确定每个所述原始数据集合中所述数据项的总数量,作为每个所述原始数据集合的原始长度;基于所述数据项的所述业务类别和所有的所述原始长度设定最小支持度;统计同一所述业务类别的所述数据项在所有所述原始数据集合中出现的第一频次;将所述第一频次低于所述最小支持度的所述数据项从所述原始数据集合中剔除,得到第一候选数据集合。
在本发明的一个实施例中,所述第二候选数据集合确定模块203包括:
候选长度确定子模块,用于对所有所述第一候选数据集合进行遍历,以确定每个所述第一候选数据集合中所述数据项的总数量,作为每个所述第一候选数据集合的候选长度;
统计确定子模块,用于统计具有相同所述候选长度的所述第一候选数据集合在所有所述第一候选数据集合中出现的第二频次;
候选长度序列确定子模块,用于将所有所述候选长度按照从大到小的顺序进行排序,得到候选长度序列,其中,所述候选长度序列中的每一类所述候选长度均具有唯一对应的所述第二频次;
目标长度序列确定子模块,用于按照所述候选长度的排序将所述第二频次小于预设的最小支持度的所述候选长度从所述候选长度序列中剔除,得到目标长度序列;
第二候选数据集合确定子模块,用于按照所述目标长度序列中所述候选长度从小到大的顺序对每个所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合。
在本发明的一个实施例中,所述第二候选数据集合确定子模块包括:
阶数确定单元,用于将所述目标长度序列中的每一个候选长度作为对第一候选数据集合划分数据项的阶数;
最高阶阶数确定单元,用于确定所述目标长度序列中的最大值作为最高阶阶数;
最低阶阶数确定单元,用于确定所述目标长度序列中的最小值作为最低阶阶数;
条件判断单元,用于在依次对所有所述第一候选数据集合进行数据项分类时,若当前所述第一候选数据集合的所述候选长度大于所述最高阶阶数,则调用第一分类单元,若当前所述第一候选数据集合的所述候选长度大于所述最低阶阶数且小于所述最高阶阶数,则调用第二分类单元,若当前所述第一候选数据集合的所述候选长度等于所述最低阶阶数,则调用第三分类单元。
第一分类单元,用于将当前所述第一候选数据集合中的数据项按照在所述最低阶阶数至所述最高阶阶数范围内的每一类所述阶数划分成对应所述阶数的子集,得到包含多个所述子集的第二候选数据集合;
第二分类单元,用于基于所述目标长度序列中小于当前所述第一候选数据集合的所述候选长度的每一类所述阶数对当前所述第一候选数据集合中的数据项进行子集划分,得到包含多个所述子集的第二候选数据集合;
第三分类单元,用于将当前所述第一候选数据集合作为第二候选数据集合。
在本发明的一个实施例中,所述业务操作执行模块205包括:
第一业务操作子模块,用于若所述目标数据集合中存在所述业务类别为违章信息的数据项,则对所述ETC车辆进行拦截,读取所述违章信息对所述ETC车辆进行异常检测;
第二业务操作子模块,用于若所述目标数据集合中存在所述业务类别为身份信息、缴费信息的数据项,则对所述ETC车辆进行拦截,读取所述身份信息和所述缴费信息对所述ETC车辆进行车辆黑名单校验。
本发明实施例所提供的一种车辆信息筛选装置可执行本发明任意实施例所提供的车辆信息筛选方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图,如图3所示,该计算机设备包括处理器300、存储器301、通信模块302、输入装置303和输出装置304;计算机设备中处理器300的数量可以是一个或多个,图3中以一个处理器300为例;计算机设备中的处理器300、存储器301、通信模块302、输入装置303和输出装置304可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器301作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的车辆信息筛选方法对应的模块(例如,如图2所示的车辆信息筛选装置中的原始数据集合获取模块201、第一候选数据集合确定模块202、第二候选数据集合确定模块203、目标数据集合确定模块204和业务操作执行模块205)。处理器300通过运行存储在存储器301中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的车辆信息筛选方法。
存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器301可进一步包括相对于处理器300远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块302,用于与显示屏建立连接,并实现与显示屏的数据交互。
输入装置303可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。
输出装置304可包括显示屏等显示设备。
需要说明的是,输入装置303和输出装置304的具体组成可以根据实际情况设定。
本实施例提供的计算机设备,可执行本发明任一实施例提供的车辆信息筛选方法,具备相应的功能和有益效果。
实施例四
本发明实施例四还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例的车辆信息筛选方法。
该车辆信息筛选方法包括:
获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的车辆信息筛选方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述车辆信息筛选装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种车辆信息筛选方法,其特征在于,包括:
获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
2.根据权利要求1所述的方法,其特征在于,所述获取有关ETC车辆信息的原始数据集合,包括:
获取多个车辆监管机构在不同路段中对ETC车辆采集的具有不同数据格式的原始数据集合;
对具有不同数据格式的原始数据集合进行格式归一化,得到格式统一的原始数据集合;
利用不同所述车辆监管机构之间相同业务类别的关联性,对原始数据集合中的数据项进行归一化,得到有关ETC车辆信息的原始数据集合;
其中,所述业务类别至少包括身份信息、车牌信息、车型信息、缴费信息、ETC卡号、OBU电子标签、行驶轨迹、违章信息中的一种。
3.根据权利要求1所述的方法,其特征在于,所述根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合,包括:
若不同所述原始数据集合内部所述数据项之间的关联关系为同一所述业务类别的所述数据项在不同所述原始数据集合中出现的第一频次,则依据所述第一频次将与频繁项集相比较关联性弱的部分所述数据项从所述原始数据集合中剔除,得到第一候选数据集合。
4.根据权利要求3所述的方法,其特征在于,所述依据所述第一频次将与频繁项集相比较关联性弱的部分所述数据项从所述原始数据集合中剔除,得到第一候选数据集合,包括:
遍历所有所述原始数据集合,以确定每个所述原始数据集合中所述数据项的总数量,作为每个所述原始数据集合的原始长度;
基于所述数据项的所述业务类别和所有的所述原始长度设定最小支持度;
统计同一所述业务类别的所述数据项在所有所述原始数据集合中出现的第一频次;
将所述第一频次低于所述最小支持度的所述数据项从所述原始数据集合中剔除,得到第一候选数据集合。
5.根据权利要求1所述的方法,其特征在于,所述依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合,包括:
对所有所述第一候选数据集合进行遍历,以确定每个所述第一候选数据集合中所述数据项的总数量,作为每个所述第一候选数据集合的候选长度;
统计具有相同所述候选长度的所述第一候选数据集合在所有所述第一候选数据集合中出现的第二频次;
将所有所述候选长度按照从大到小的顺序进行排序,得到候选长度序列,其中,所述候选长度序列中的每一类所述候选长度均具有唯一对应的所述第二频次;
按照所述候选长度的排序将所述第二频次小于预设的最小支持度的所述候选长度从所述候选长度序列中剔除,得到目标长度序列;
按照所述目标长度序列中所述候选长度从小到大的顺序对每个所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合。
6.根据权利要求5所述的方法,其特征在于,所述按照所述目标长度序列中所述候选长度从小到大的顺序对每个所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合,包括:
将所述目标长度序列中的每一个候选长度作为对第一候选数据集合划分数据项的阶数;
确定所述目标长度序列中的最大值作为最高阶阶数;
确定所述目标长度序列中的最小值作为最低阶阶数;
在依次对所有所述第一候选数据集合进行数据项分类时,若当前所述第一候选数据集合的所述候选长度大于所述最高阶阶数,则将当前所述第一候选数据集合中的数据项按照在所述最低阶阶数至所述最高阶阶数范围内的每一类所述阶数划分成对应所述阶数的子集,得到包含多个所述子集的第二候选数据集合;
若当前所述第一候选数据集合的所述候选长度大于所述最低阶阶数且小于所述最高阶阶数,则基于所述目标长度序列中小于当前所述第一候选数据集合的所述候选长度的每一类所述阶数对当前所述第一候选数据集合中的数据项进行子集划分,得到包含多个所述子集的第二候选数据集合;
若当前所述第一候选数据集合的所述候选长度等于所述最低阶阶数,则将当前所述第一候选数据集合作为第二候选数据集合。
7.根据权利要求1所述的方法,其特征在于,所述在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作,包括:
若所述目标数据集合中存在所述业务类别为违章信息的数据项,则对所述ETC车辆进行拦截,读取所述违章信息对所述ETC车辆进行异常检测;
若所述目标数据集合中存在所述业务类别为身份信息、缴费信息的数据项,则对所述ETC车辆进行拦截,读取所述身份信息和所述缴费信息对所述ETC车辆进行车辆黑名单校验。
8.一种车辆信息筛选装置,其特征在于,所述装置包括:
原始数据集合获取模块,用于获取有关ETC车辆信息的原始数据集合,其中,每个所述原始数据集合中包含多种表示不同业务类别的数据项;
第一候选数据集合确定模块,用于根据不同所述原始数据集合内部所述数据项之间的关联关系,对所述原始数据集合中与频繁项集相比较关联性弱的部分所述数据项进行剔除,得到第一候选数据集合;
第二候选数据集合确定模块,用于依据不同所述第一候选数据集合之间的相互包含关系对所述第一候选数据集合中的数据项进行分类,得到第二候选数据集合;
目标数据集合确定模块,用于对所述第二候选数据集合中重复的数据项进行统计,得到目标数据集合;
业务操作执行模块,用于在所述目标数据集合中查询对应的所述业务类别对所述ETC车辆执行业务操作。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的车辆信息筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的车辆信息筛选方法。
CN202011451294.1A 2020-12-09 2020-12-09 一种车辆信息筛选方法、装置、设备及存储介质 Active CN112395277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011451294.1A CN112395277B (zh) 2020-12-09 2020-12-09 一种车辆信息筛选方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451294.1A CN112395277B (zh) 2020-12-09 2020-12-09 一种车辆信息筛选方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112395277A true CN112395277A (zh) 2021-02-23
CN112395277B CN112395277B (zh) 2024-01-09

Family

ID=74625459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451294.1A Active CN112395277B (zh) 2020-12-09 2020-12-09 一种车辆信息筛选方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112395277B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
CN107146161A (zh) * 2017-04-05 2017-09-08 昆明理工大学 一种基于类别选择的保险检索方法
CN107908711A (zh) * 2017-11-09 2018-04-13 国网四川省电力公司信息通信公司 基于垂直数据分布的稠密数据库快速关联规则挖掘方法
CN109376181A (zh) * 2018-09-25 2019-02-22 深圳市元征科技股份有限公司 一种数据挖掘方法及相关设备
CN109993661A (zh) * 2019-04-04 2019-07-09 凯泰铭科技(北京)有限公司 一种保险理赔数据分析方法和系统
CN110851450A (zh) * 2019-11-12 2020-02-28 重庆邮电大学 一种基于增量计算的伴随车即时发现方法
US20200327105A1 (en) * 2019-04-15 2020-10-15 Otonomo Technologies Ltd. Method and system for scoring automotive data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
CN107146161A (zh) * 2017-04-05 2017-09-08 昆明理工大学 一种基于类别选择的保险检索方法
CN107908711A (zh) * 2017-11-09 2018-04-13 国网四川省电力公司信息通信公司 基于垂直数据分布的稠密数据库快速关联规则挖掘方法
CN109376181A (zh) * 2018-09-25 2019-02-22 深圳市元征科技股份有限公司 一种数据挖掘方法及相关设备
CN109993661A (zh) * 2019-04-04 2019-07-09 凯泰铭科技(北京)有限公司 一种保险理赔数据分析方法和系统
US20200327105A1 (en) * 2019-04-15 2020-10-15 Otonomo Technologies Ltd. Method and system for scoring automotive data
CN110851450A (zh) * 2019-11-12 2020-02-28 重庆邮电大学 一种基于增量计算的伴随车即时发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵秋实;史燕中;方志;蒋遂平;: "基于频繁集的伴随车辆检测算法研究", 《软件》, vol. 37, no. 04, pages 69 - 73 *

Also Published As

Publication number Publication date
CN112395277B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Fielding et al. Performance evaluation for bus transit
CN111177129B (zh) 标签体系的构建方法、装置、设备及存储介质
CN101819573A (zh) 一种自适应的网络舆情识别方法
WO2021254027A1 (zh) 一种可疑社团的识别方法、装置、存储介质和计算机设备
CN112084180A (zh) 一种监控车载应用质量的方法、装置、设备及介质
Ribeiro et al. Process discovery on geolocation data
CN112232606B (zh) 业务数据的预测方法、装置、设备及存储介质
CN110737673B (zh) 一种数据处理的方法及系统
CN111124791A (zh) 一种系统测试方法及装置
CN109191185A (zh) 一种客群分类方法及系统
CN112395277B (zh) 一种车辆信息筛选方法、装置、设备及存储介质
CN112561175A (zh) 交通事故影响因子预测方法、装置、设备及存储介质
CN114708728B (zh) 一种识别交通高峰期的方法、电子设备及存储介质
CN116185797A (zh) 预测服务器资源饱和度的方法、装置及存储介质
CN111369790B (zh) 过车记录校正方法、装置、设备及存储介质
CN110990810B (zh) 一种用户操作数据处理方法、装置、设备及存储介质
CN111368616B (zh) 从车的识别方法、装置及设备
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN113205442A (zh) 基于区块链的电子政务数据反馈管理方法及装置
CN105893599A (zh) 时序数据的比对方法及系统
CN111429110A (zh) 门店标准化审核方法、装置、设备及存储介质
CN110633275A (zh) 一种etc交易数据滞留分析方法及装置
CN110175200A (zh) 一种基于人工智能算法的异常用能分析方法及系统
CN110209853A (zh) 车辆的图片搜索方法、装置和设备
CN112185117B (zh) 一种基于电警数据的优化评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A vehicle information filtering method, device, device, and storage medium

Granted publication date: 20240109

Pledgee: China Merchants Bank Limited by Share Ltd. Guangzhou branch

Pledgor: Merchants China Soft Information Co.,Ltd.

Registration number: Y2024980015578