CN109767617B - 一种基于Apriori的公安交管业务异常数据研判方法 - Google Patents

一种基于Apriori的公安交管业务异常数据研判方法 Download PDF

Info

Publication number
CN109767617B
CN109767617B CN201811560819.8A CN201811560819A CN109767617B CN 109767617 B CN109767617 B CN 109767617B CN 201811560819 A CN201811560819 A CN 201811560819A CN 109767617 B CN109767617 B CN 109767617B
Authority
CN
China
Prior art keywords
data
database
management service
traffic management
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811560819.8A
Other languages
English (en)
Other versions
CN109767617A (zh
Inventor
王家捷
吕建成
叶明辉
吕潭
裴有斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201811560819.8A priority Critical patent/CN109767617B/zh
Publication of CN109767617A publication Critical patent/CN109767617A/zh
Application granted granted Critical
Publication of CN109767617B publication Critical patent/CN109767617B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于Apriori的公安交管业务异常数据研判方法,其步骤如下:针对数据库中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;整合数据库中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;根据Apriori算法,生成候选项集Ck和频繁项集Lk。当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。根据强关联规则和交管业务历史数据,建立数据异常研判模型。该方法建立了异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。

Description

一种基于Apriori的公安交管业务异常数据研判方法
技术领域
本发明涉及交通数据分析领域。具体而言是一种基于Apriori的公安交管业务异常数据研判方法。
背景技术
近年来,各级公安交管部门在智能交通管理和车管、驾管、违法、事故等业务管理建立了较为完整的信息化应用体系,围绕人、车、违法、事故等核心业务对象建立了综合业务数据库,在公安交通管理和服务方面发挥着重要支撑作用。但是,随着业务不断深入开展和系统建设的快速发展,特别是围绕核心业务数据库开展综合分析与数据挖掘需求越来越强烈,现有数据库中数据缺项、业务逻辑错误、均值偏离等问题逐步显现,对自动查找错项数据、自主研判业务异常等提升异常数据研判和分析效率的系统需求强烈。目前,一些深层次的业务逻辑问题和异常状态数据的发现还主要依靠分析人员的工作经验,缺乏系统的、有效的异常数据识别方法,评估效率低、覆盖范围小、难以为业务开展提供很好的指导作用。
发明内容
本发明的目的在于提出一种基于Apriori的公安交管业务异常数据研判方法,将Apriori算法应用于公安交管业务数据分析中,提高公安交管人员的数据分析效率,扩大数据分析覆盖范围。
为实现上述发明目的,本发明采用如下的技术方案:
步骤一:建立公安交管业务数据库D1。
本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。
(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;
(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;
(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。
步骤四:根据Apriori算法,生成候选项集和频繁项集。
(1)设置最小支持度min_sup和最小置信度min_conf;
(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1
(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1
(4)将L1与自身相连接产生候选2项集C2
(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。
步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’
(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。
(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。
步骤六:计算强关联规则。
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
与现有技术相比,本发明的有益效果是:
本发明通过Apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实际过程对本发明做具体的介绍。
本发明的实现路线包括以下几步:
步骤一:建立公安交管业务数据库D1。
本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。
从公安交通管理综合应用平台中获取上述数据的一年历史数据。
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。
(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;
(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;
(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。以人员信息登记表中身份证号字段和性别字段为例。若身份证号码的第17位为奇数,则性别应当为“男”;若身份证号码的第17位为偶数,则性别应当为“女”。根据此函数关系可以判别性别字段的异常数据。
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。
步骤四:根据Apriori算法,生成候选项集和频繁项集。
(1)设置最小支持度min_sup和最小置信度min_conf;
(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1
(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1
(4)将L1与自身相连接产生候选2项集C2
(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。
步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’
(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。
(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。
步骤六:计算强关联规则。
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。
以能够导出事故形态中的“侧面相撞”为例,设置最小支持度为4.0%,最小置信度为60.0%,计算出事故数据间的关联规则如下:
规则①
Figure BDA0001913206540000031
即不按规定让行所导致的交通事故为侧面相撞,该规则的支持度为15.53%,置信度为74.02%。
规则②
Figure BDA0001913206540000032
即在四路交叉口处违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.65%,置信度为64.11%。
规则③
Figure BDA0001913206540000033
即在混合式物理隔离道路上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.33%,置信度为63.77%。
规则④
Figure BDA0001913206540000034
Figure BDA0001913206540000035
即在分车分向式物理隔离方式的正常路段上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为4.37%,置信度为60.02%。
规则⑤
Figure BDA0001913206540000036
Figure BDA0001913206540000037
即在分车式物理隔离的城市主干道上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.30%,置信度为62.79%。
规则⑥
Figure BDA0001913206540000038
Figure BDA0001913206540000039
即夜晚有灯照明条件下在四路交叉口处雨水路面上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.03%,置信度为62.89%。
规则⑦
Figure BDA00019132065400000310
Figure BDA00019132065400000311
即在有冰雪覆盖的分车分向式物理隔离的沥青道路上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为6.14%,置信度为62.97%。
规则⑧
Figure BDA00019132065400000312
Figure BDA00019132065400000313
即在分车式物理隔离的城市主干道三路交叉口处超速行驶所导致的交通事故为侧面相撞,该规则的支持度为6.10%,置信度为64.01%。
规则⑨
Figure BDA00019132065400000314
Figure BDA0001913206540000041
即在夜间有灯照明条件下分车式物理隔离的沥青道路上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为4.03%,置信度为61.58%。
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。
(1)数据缺失补充
将交管业务历史数据中的某条数据记录与关联规则集类比,寻找关联规则集中最大程度满足该条数据记录的关联规则,即该关联规则与该条数据记录最大程度的吻合,获得缺失数据最可能的取值,继而对缺失数据进行弥补。对于同一条数据记录,可能出现多个字段数据缺失的现象,因此在类比过程中,尽量避免在同一关联规则下弥补多个字段缺失数据的情况,而应尽可能分散缺失字段,依据关联规则集中不同的规则逐一弥补缺失数据。
对于某起侧面相撞事故,在其事故数据中存在空缺信息,道路物理隔离方式中所填值为空,其道路类型为城市主干道,路口路段类型为三路交叉口,违法驾驶行为为超速行驶,依据上述步骤四中计算的关联规则集,可判断该起事故信息符合关联规则集中的规则⑧,继而判断其发生道路物理隔离为分车式,即分车式为该起事故发生道路的物理隔离方式最可能取值,将其填入空缺值,即完成该起事故空缺数据的填充。
(2)数据异常研判
在交管业务历史数据中,对属于同一关联规则的事故数据的各字段进行对比分析,得出各字段的正常值阈值。超出阈值的数据判定为异常数据,并根据上述数据缺失补充的方法对异常数据进行修正。
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
本发明通过Apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。

Claims (1)

1.一种基于Apriori的公安交管业务异常数据研判方法,其特征在于,所述的方法的步骤如下:
步骤一:建立公安交管业务数据库D1
公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据;将上述数据存储到所述公安交管业务数据库D1中;
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;
通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;对存在其他确定性函数关系的字段,建立函数关系,判断数据异常;
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;
步骤四:根据Apriori算法,生成候选项集和频繁项集
设置Apriori算法的最小支持度min_sup和最小置信度min_conf;扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;计算C1中每个项的支持度,若支持度大于等于最小支持度,则从C1中确定频繁1项集L1;将L1与自身相连接产生候选2项集C2;计算C2中每个项的支持度,若支持度大于等于最小支持度,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集;
步骤五:当数据库D2增加新的数据集d时,引入参数i,其中1<i<∞;计算新的频繁项集Lk’;保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集;计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间;
步骤六:计算强关联规则
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则;
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型;
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
CN201811560819.8A 2018-12-20 2018-12-20 一种基于Apriori的公安交管业务异常数据研判方法 Expired - Fee Related CN109767617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811560819.8A CN109767617B (zh) 2018-12-20 2018-12-20 一种基于Apriori的公安交管业务异常数据研判方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811560819.8A CN109767617B (zh) 2018-12-20 2018-12-20 一种基于Apriori的公安交管业务异常数据研判方法

Publications (2)

Publication Number Publication Date
CN109767617A CN109767617A (zh) 2019-05-17
CN109767617B true CN109767617B (zh) 2021-02-26

Family

ID=66451349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811560819.8A Expired - Fee Related CN109767617B (zh) 2018-12-20 2018-12-20 一种基于Apriori的公安交管业务异常数据研判方法

Country Status (1)

Country Link
CN (1) CN109767617B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277465A (zh) * 2020-01-20 2020-06-12 支付宝(杭州)信息技术有限公司 一种异常数据报文检测方法、装置及电子设备
CN112015837A (zh) * 2020-08-24 2020-12-01 安徽科力信息产业有限责任公司 一种城市道路高频路径分析方法、系统及存储介质
CN113448761A (zh) * 2021-06-17 2021-09-28 新浪网技术(中国)有限公司 一种根因定位方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739818A (zh) * 2009-11-19 2010-06-16 北京世纪高通科技有限公司 基于关联规则的道路交通事故数据挖掘方法及装置
US9841287B1 (en) * 2015-01-20 2017-12-12 State Farm Mutual Automobile Insurance Company Using train telematics data to provide information in one or more vehicles to reduce accident risk
CN105719155A (zh) * 2015-09-14 2016-06-29 南京理工大学 一种基于Apriori改进算法的关联规则算法
JP6327283B2 (ja) * 2016-04-06 2018-05-23 トヨタ自動車株式会社 車両用情報提供装置
CN108009169B (zh) * 2016-11-02 2020-05-01 中国移动通信有限公司研究院 一种数据处理方法、装置及设备
CN106969924A (zh) * 2017-05-09 2017-07-21 钛柯电子科技(上海)有限公司 一种对轨道交通制动系统进行检测和维护的测试系统和方法
CN108255996A (zh) * 2017-12-29 2018-07-06 西安交大捷普网络科技有限公司 基于Apriori算法的安全日志分析方法
CN108664642A (zh) * 2018-05-16 2018-10-16 句容市茂润苗木有限公司 基于Apriori算法的词性标注规则自动获取方法

Also Published As

Publication number Publication date
CN109767617A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN110415516B (zh) 基于图卷积神经网络的城市交通流预测方法及介质
CN109767617B (zh) 一种基于Apriori的公安交管业务异常数据研判方法
CN108364467B (zh) 一种基于改进型决策树算法的路况信息预测方法
Zong et al. Prediction for traffic accident severity: comparing the Bayesian network and regression models
Kim et al. Calibration of microsimulation models using nonparametric statistical techniques
CN109360421B (zh) 一种基于机器学习的交通信息预测方法及装置、电子终端
CN102722803B (zh) 基于本体和规则的物流运输预警方法
CN108062860B (zh) 基于拥塞传播分析的道路瓶颈识别方法及其系统
CN113380033A (zh) 基于人机混合增强智能的城市交通安全预警方法及系统
CN110400461B (zh) 一种路网变更检测方法
CN113159403B (zh) 路口行人轨迹预测的方法及装置
CN107622656B (zh) 一种重点营运车辆跨区域数据处理方法和系统
Lv et al. Digital twins based VR simulation for accident prevention of intelligent vehicle
Vybornova et al. Automated detection of missing links in bicycle networks
Janstrup et al. A clustering approach to integrate traffic safety in road maintenance prioritization
CN116737857A (zh) 道路数据处理方法、相关装置和介质
CN103852083A (zh) 一种在导航电子地图数据中增加关联多路口属性的方法
CN104598548A (zh) 一种分析农产品价格空间关联性的方法及装置
Zhang et al. An improved method for evaluating eco-driving behavior based-on speed-specific vehicle-specific power distributions
CN111696347B (zh) 一种自动化分析交通事件信息的方法和装置
CN107516287A (zh) 交通事故成因分析方法
Imprialou et al. Multilevel logistic regression modeling for crash mapping in metropolitan areas
CN111553199A (zh) 一种基于计算机视觉的机动车交通违法行为自动检测技术
WO2022142889A1 (zh) 高精度地图更新方法及装置
Xu et al. An assistant decision-supporting method for urban transportation planning over big traffic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210226

Termination date: 20211220

CF01 Termination of patent right due to non-payment of annual fee