CN109767617B - 一种基于Apriori的公安交管业务异常数据研判方法 - Google Patents
一种基于Apriori的公安交管业务异常数据研判方法 Download PDFInfo
- Publication number
- CN109767617B CN109767617B CN201811560819.8A CN201811560819A CN109767617B CN 109767617 B CN109767617 B CN 109767617B CN 201811560819 A CN201811560819 A CN 201811560819A CN 109767617 B CN109767617 B CN 109767617B
- Authority
- CN
- China
- Prior art keywords
- data
- database
- management service
- traffic management
- frequent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于Apriori的公安交管业务异常数据研判方法,其步骤如下:针对数据库中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;整合数据库中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;根据Apriori算法,生成候选项集Ck和频繁项集Lk。当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。根据强关联规则和交管业务历史数据,建立数据异常研判模型。该方法建立了异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。
Description
技术领域
本发明涉及交通数据分析领域。具体而言是一种基于Apriori的公安交管业务异常数据研判方法。
背景技术
近年来,各级公安交管部门在智能交通管理和车管、驾管、违法、事故等业务管理建立了较为完整的信息化应用体系,围绕人、车、违法、事故等核心业务对象建立了综合业务数据库,在公安交通管理和服务方面发挥着重要支撑作用。但是,随着业务不断深入开展和系统建设的快速发展,特别是围绕核心业务数据库开展综合分析与数据挖掘需求越来越强烈,现有数据库中数据缺项、业务逻辑错误、均值偏离等问题逐步显现,对自动查找错项数据、自主研判业务异常等提升异常数据研判和分析效率的系统需求强烈。目前,一些深层次的业务逻辑问题和异常状态数据的发现还主要依靠分析人员的工作经验,缺乏系统的、有效的异常数据识别方法,评估效率低、覆盖范围小、难以为业务开展提供很好的指导作用。
发明内容
本发明的目的在于提出一种基于Apriori的公安交管业务异常数据研判方法,将Apriori算法应用于公安交管业务数据分析中,提高公安交管人员的数据分析效率,扩大数据分析覆盖范围。
为实现上述发明目的,本发明采用如下的技术方案:
步骤一:建立公安交管业务数据库D1。
本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。
(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;
(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;
(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。
步骤四:根据Apriori算法,生成候选项集和频繁项集。
(1)设置最小支持度min_sup和最小置信度min_conf;
(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;
(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1;
(4)将L1与自身相连接产生候选2项集C2;
(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。
步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。
(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。
(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。
步骤六:计算强关联规则。
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
与现有技术相比,本发明的有益效果是:
本发明通过Apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实际过程对本发明做具体的介绍。
本发明的实现路线包括以下几步:
步骤一:建立公安交管业务数据库D1。
本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。
从公安交通管理综合应用平台中获取上述数据的一年历史数据。
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。
(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;
(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;
(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。以人员信息登记表中身份证号字段和性别字段为例。若身份证号码的第17位为奇数,则性别应当为“男”;若身份证号码的第17位为偶数,则性别应当为“女”。根据此函数关系可以判别性别字段的异常数据。
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。
步骤四:根据Apriori算法,生成候选项集和频繁项集。
(1)设置最小支持度min_sup和最小置信度min_conf;
(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;
(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1;
(4)将L1与自身相连接产生候选2项集C2;
(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。
步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。
(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。
(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。
步骤六:计算强关联规则。
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。
以能够导出事故形态中的“侧面相撞”为例,设置最小支持度为4.0%,最小置信度为60.0%,计算出事故数据间的关联规则如下:
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。
(1)数据缺失补充
将交管业务历史数据中的某条数据记录与关联规则集类比,寻找关联规则集中最大程度满足该条数据记录的关联规则,即该关联规则与该条数据记录最大程度的吻合,获得缺失数据最可能的取值,继而对缺失数据进行弥补。对于同一条数据记录,可能出现多个字段数据缺失的现象,因此在类比过程中,尽量避免在同一关联规则下弥补多个字段缺失数据的情况,而应尽可能分散缺失字段,依据关联规则集中不同的规则逐一弥补缺失数据。
对于某起侧面相撞事故,在其事故数据中存在空缺信息,道路物理隔离方式中所填值为空,其道路类型为城市主干道,路口路段类型为三路交叉口,违法驾驶行为为超速行驶,依据上述步骤四中计算的关联规则集,可判断该起事故信息符合关联规则集中的规则⑧,继而判断其发生道路物理隔离为分车式,即分车式为该起事故发生道路的物理隔离方式最可能取值,将其填入空缺值,即完成该起事故空缺数据的填充。
(2)数据异常研判
在交管业务历史数据中,对属于同一关联规则的事故数据的各字段进行对比分析,得出各字段的正常值阈值。超出阈值的数据判定为异常数据,并根据上述数据缺失补充的方法对异常数据进行修正。
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
本发明通过Apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。
Claims (1)
1.一种基于Apriori的公安交管业务异常数据研判方法,其特征在于,所述的方法的步骤如下:
步骤一:建立公安交管业务数据库D1
公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据;将上述数据存储到所述公安交管业务数据库D1中;
步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;
通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;对存在其他确定性函数关系的字段,建立函数关系,判断数据异常;
步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;
步骤四:根据Apriori算法,生成候选项集和频繁项集
设置Apriori算法的最小支持度min_sup和最小置信度min_conf;扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;计算C1中每个项的支持度,若支持度大于等于最小支持度,则从C1中确定频繁1项集L1;将L1与自身相连接产生候选2项集C2;计算C2中每个项的支持度,若支持度大于等于最小支持度,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集;
步骤五:当数据库D2增加新的数据集d时,引入参数i,其中1<i<∞;计算新的频繁项集Lk’;保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集;计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间;
步骤六:计算强关联规则
从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则;
步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型;
步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811560819.8A CN109767617B (zh) | 2018-12-20 | 2018-12-20 | 一种基于Apriori的公安交管业务异常数据研判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811560819.8A CN109767617B (zh) | 2018-12-20 | 2018-12-20 | 一种基于Apriori的公安交管业务异常数据研判方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767617A CN109767617A (zh) | 2019-05-17 |
CN109767617B true CN109767617B (zh) | 2021-02-26 |
Family
ID=66451349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811560819.8A Expired - Fee Related CN109767617B (zh) | 2018-12-20 | 2018-12-20 | 一种基于Apriori的公安交管业务异常数据研判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767617B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277465A (zh) * | 2020-01-20 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 一种异常数据报文检测方法、装置及电子设备 |
CN112015837A (zh) * | 2020-08-24 | 2020-12-01 | 安徽科力信息产业有限责任公司 | 一种城市道路高频路径分析方法、系统及存储介质 |
CN113448761A (zh) * | 2021-06-17 | 2021-09-28 | 新浪网技术(中国)有限公司 | 一种根因定位方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739818A (zh) * | 2009-11-19 | 2010-06-16 | 北京世纪高通科技有限公司 | 基于关联规则的道路交通事故数据挖掘方法及装置 |
US9841287B1 (en) * | 2015-01-20 | 2017-12-12 | State Farm Mutual Automobile Insurance Company | Using train telematics data to provide information in one or more vehicles to reduce accident risk |
CN105719155A (zh) * | 2015-09-14 | 2016-06-29 | 南京理工大学 | 一种基于Apriori改进算法的关联规则算法 |
JP6327283B2 (ja) * | 2016-04-06 | 2018-05-23 | トヨタ自動車株式会社 | 車両用情報提供装置 |
CN108009169B (zh) * | 2016-11-02 | 2020-05-01 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及设备 |
CN106969924A (zh) * | 2017-05-09 | 2017-07-21 | 钛柯电子科技(上海)有限公司 | 一种对轨道交通制动系统进行检测和维护的测试系统和方法 |
CN108255996A (zh) * | 2017-12-29 | 2018-07-06 | 西安交大捷普网络科技有限公司 | 基于Apriori算法的安全日志分析方法 |
CN108664642A (zh) * | 2018-05-16 | 2018-10-16 | 句容市茂润苗木有限公司 | 基于Apriori算法的词性标注规则自动获取方法 |
-
2018
- 2018-12-20 CN CN201811560819.8A patent/CN109767617B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109767617A (zh) | 2019-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415516B (zh) | 基于图卷积神经网络的城市交通流预测方法及介质 | |
CN109767617B (zh) | 一种基于Apriori的公安交管业务异常数据研判方法 | |
CN108364467B (zh) | 一种基于改进型决策树算法的路况信息预测方法 | |
Zong et al. | Prediction for traffic accident severity: comparing the Bayesian network and regression models | |
Kim et al. | Calibration of microsimulation models using nonparametric statistical techniques | |
CN109360421B (zh) | 一种基于机器学习的交通信息预测方法及装置、电子终端 | |
CN102722803B (zh) | 基于本体和规则的物流运输预警方法 | |
CN108062860B (zh) | 基于拥塞传播分析的道路瓶颈识别方法及其系统 | |
CN113380033A (zh) | 基于人机混合增强智能的城市交通安全预警方法及系统 | |
CN110400461B (zh) | 一种路网变更检测方法 | |
CN113159403B (zh) | 路口行人轨迹预测的方法及装置 | |
CN107622656B (zh) | 一种重点营运车辆跨区域数据处理方法和系统 | |
Lv et al. | Digital twins based VR simulation for accident prevention of intelligent vehicle | |
Vybornova et al. | Automated detection of missing links in bicycle networks | |
Janstrup et al. | A clustering approach to integrate traffic safety in road maintenance prioritization | |
CN116737857A (zh) | 道路数据处理方法、相关装置和介质 | |
CN103852083A (zh) | 一种在导航电子地图数据中增加关联多路口属性的方法 | |
CN104598548A (zh) | 一种分析农产品价格空间关联性的方法及装置 | |
Zhang et al. | An improved method for evaluating eco-driving behavior based-on speed-specific vehicle-specific power distributions | |
CN111696347B (zh) | 一种自动化分析交通事件信息的方法和装置 | |
CN107516287A (zh) | 交通事故成因分析方法 | |
Imprialou et al. | Multilevel logistic regression modeling for crash mapping in metropolitan areas | |
CN111553199A (zh) | 一种基于计算机视觉的机动车交通违法行为自动检测技术 | |
WO2022142889A1 (zh) | 高精度地图更新方法及装置 | |
Xu et al. | An assistant decision-supporting method for urban transportation planning over big traffic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210226 Termination date: 20211220 |
|
CF01 | Termination of patent right due to non-payment of annual fee |