CN116013084A

CN116013084A - 交通管控场景确定方法、装置、电子设备及存储介质

Info

Publication number: CN116013084A
Application number: CN202310066821.4A
Authority: CN
Inventors: 杨钧剑; 刘金广; 朱新宇; 戴帅; 赵琳娜; 闫星培; 褚昭明; 成超锋; 于晓娟; 姚雪娇; 刘婉
Original assignee: Road Traffic Safety Research Center Ministry Of Public Security Of People's Republic Of China
Current assignee: Road Traffic Safety Research Center Ministry Of Public Security Of People's Republic Of China
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-04-25
Anticipated expiration: 2043-01-16
Also published as: CN116013084B

Abstract

本发明实施例涉及一种交通管控场景确定方法、装置、电子设备及存储介质，该方法包括：获取第一交通违法数据集；根据第一交通违法数据集中每一个位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息；将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则对应的关联度指标值；根据每一个关联度指标值以及对应的关联度指标预设阈值，确定目标交通管控场景。

Description

交通管控场景确定方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及智能交通技术领域，尤其涉及一种交通管控场景确定方法、装置、电子设备及存储介质。

背景技术

随着我国城市化进程的稳步推进，道路里程和机动车保有量均迅速增长，道路交通通行环境也变得日益复杂。在日常道路交通运行过程中，会发生各类交通违法行为，部分交通违法行为在时空分布上表现出随机性，也有部分交通违法行为的发生存在着一定的规律性。规律性交通违法行为的背后往往存在着某种安全隐患，是亟需交管部门去管控和解决的，这种道路交通中存在的需要管控的问题一般被称为交管场景。由于道路数量多且交管部门人力有限，日常工作中只能覆盖到一些常见场景，很难穷尽所有场景。

目前国内外在交通管控场景领域的研究在以下几个方面还存在着一定的局限性：1)大部分研究还停留在基于交通事故数据来挖掘安全隐患上，但交通事故的绝对数量从数据涵盖的时间尺度上看很少，样本量不足导致规律容易被随机性掩盖；同时现有事故数据的原因分类较为粗糙，分析的精细化不足。2)交通违法数据是交通管理领域重要的大数据种类之一，但是交通违法数据有着数量巨大、更新迅速的特点，需要高效率的算法才能实时处理分析。由于同时兼顾算法的效率和准确性难度很大，目前对交通违法管控场景的研究很少。3)传统的交通管控中心所处理的场景通常为预设的固定场景，难以满足实际工作中迅速变化的业务需求。

发明内容

本申请提供了一种交通管控场景确定方法、装置、电子设备及存储介质，以解决现有技术中的全部或者部分问题。

第一方面，本申请提供了一种交通管控场景确定方法，该方法包括：

获取第一交通违法数据集，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，其中，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；

根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息；

将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；

基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；

根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；

根据目标关联规则确定目标交通管控场景。

通过该方式，获取第一交通违法数据集，根据第一交通违法数据集中的位置信息进行数据离散化操作，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息，能够更准确地识别出具体交管场景的管控范围，同时将邻近违法点位的内在联系纳入后续分析，从而提供更合理的致因分析和决策支持。将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；根据目标关联规则确定目标交通管控场景。数据离散化可以将位置信息相近的数据划分至一个聚类簇中，将位置信息替换为聚类簇标识可以为后续根据第一目标字段进行频繁项集挖掘提供数据，而基于至少一个目标字段的频繁项集挖掘操作，能够挖掘出规律性的交通违法行为，从而根据交通违法行为以及与交通违法行为出现场景(关联规则)的频繁程度，确定亟需管控和解决的场景，从而排除交通安全隐患，极大的提高了道路交通的安全性。

结合第一方面，在本发明第一方面的第一实施例中，获取第一交通违法数据集，包括：

获取第三交通违法数据集以及与第三交通违法数据集对应的场景信息数据集，第三交通违法数据集为通过预设交通违法数据库获取的数据集，第三交通违法数据集中的字段与第一交通违法数据集相同；

根据第三交通违法数据集中第一组预设关联字段与场景信息数据集中第二组预设关联字段的对应关系，利用场景信息数据集对第三交通违法数据集中的待更新目标字段的字段值进行更新，获取第一交通违法数据集。

通过该方式，可以根据场景信息数据集对第三交通违法数据集中待更新的目标字段进行更新，获取所需目标字段的字段值，为后续数据处理提供数据基础。

结合第一方面的第一实施例，在本发明第一方面的第二实施例中，多个目标字段除包括第一目标字段外，还包括如下目标字段中的一个或多个：

用以指示交通违法事件发生主体的第二目标字段、用以指示交通违法事件发生时间的第三目标字段、用以指示交通违法事件发生时的天气的第四目标字段，以及用以指示交通违法事件发生行为的第五目标字段。

通过该方式，交通违法事件发生的主体、时间、天气以及行为是交通违法事件发生的强关联元素，通过上述元素进行频繁项集挖掘，是可以客观和准确的确定交通违法事件发生的场景，为交通管理提供有力的依据。

结合第一方面的第二实施例，在本发明第一方面的第三实施例中，根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息，具体包括：

采用密度聚类方法OPTICS，将每一个交通违法事件发生地的位置信息作为计算目标对象，对第一交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息。

通过该方式，密度聚类方法OPTICS具有对参数敏感性低、抗噪声、能处理任意形状聚类的优点。由于不需确定参数就能得到较优的结果，非常适用于要求高效率、实时性的业务场景，与交通违法数据的数量巨大、更新迅速的特点相匹配。

结合第一方面至第一方面的第三实施例中任一实施例，在本发明第一方面的第四实施例中，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值，包括：

采用频繁项集挖掘算法FP-growth，将第二交通违法数据集中的所有的目标字段的字段值作为频繁项集挖掘对象，对第二交通违法数据集进行频繁项集挖掘，生成多个关联规则以及每一个关联规则分别对应的关联度指标值。

通过该方式，可以从大量的交通违法数据中挖掘出具有规律性的关联规则，从而发现交通事故发生的规律，为后续交通管控场景的确定提供数据依据。

结合第一方面的第四实施例，在本发明第一方面的第五实施例中，关联度指标值，包括支持度指标值和/或置信度指标值和/或提升度指标值，根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则，包括：

从关联规则中筛选出支持度指标大于或者等于预设支持度阈值，和/或，置信度指标大于或者等于预设置信度阈值，和/或，提升度指标大于或者等于预设提升度阈值的关联规则，作为目标关联规则。

通过该方式，可以从较多的关联规则中，筛选出最需要关注的关联规则。

结合第一方面的第五实施例，在本发明第一方面的第六实施例中，每一个目标关联规则中包括先导项，先导项用以指示交通违法事件发生的场景，根据目标关联规则确定目标交通管控场景，包括：

将目标关联规则分别按照每一个关联度指标值进行降序排序；

将关联度指标值排序前A，和/或，置信度指标值排序前B，和/或，提升度指标值排序前C的关联规则对应的先导项作为目标交通管控场景，其中，A、B、C均为正整数。

第二方面，本申请提供了一种交通管控场景确定装置，该装置包括：

获取模块，用于获取第一交通违法数据集，其中，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；

数据离散化模块，用于根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息；

替换模块，用于将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；

频繁项集挖掘模块，用于基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；

筛选模块，用于根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；

确定模块，用于根据目标关联规则确定目标交通管控场景。

可选的，该装置还包括：更新模块；

获取模块，具体用于获取第三交通违法数据集以及与第三交通违法数据集对应的场景信息数据集，第三交通违法数据集为通过预设交通违法数据库获取的数据集，第三交通违法数据集中的字段与第一交通违法数据集相同；

更新模块，用于根据第三交通违法数据集中第一组预设关联字段与场景信息数据集中第二组预设关联字段的对应关系，利用场景信息数据集对第三交通违法数据集中的待更新目标字段的字段值进行更新，获取第一交通违法数据集。

可选的，获取模块中多个目标字段除包括第一目标字段外，还包括如下目标字段中的一个或多个：

可选的，数据离散化模块，具体用于采用密度聚类方法OPTICS，将每一个交通违法事件发生地的位置信息作为计算目标对象，对第一交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息。

可选的，频繁项集挖掘模块，具体用于采用频繁项集挖掘算法FP-growth，将第二交通违法数据集中的所有的目标字段的字段值作为频繁项集挖掘对象，对第二交通违法数据集进行频繁项集挖掘，生成多个关联规则以及每一个关联规则分别对应的关联度指标值。

可选的，筛选模块，具体用于从关联规则中筛选出支持度指标大于或者等于预设支持度阈值，和/或，置信度指标大于或者等于预设置信度阈值，和/或，提升度指标大于或者等于预设提升度阈值的关联规则，作为目标关联规则。

可选的，该装置还包括：排序模块以及处理模块；

排序模块，用于将目标关联规则分别按照每一个关联度指标值进行降序排序；

处理模块，用于将关联度指标值排序前A，和/或，置信度指标值排序前B，和/或，提升度指标值排序前C的关联规则对应的先导项作为目标交通管控场景，其中，A、B、C均为正整数。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例的交通管控场景确定方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面任一项实施例的交通管控场景确定方法的步骤。

附图说明

图1为本发明实施例提供的一种交通管控场景确定方法流程示意图；

图2为本发明实施例提供的两种频繁项集挖掘方法内存占用对比示意图；

图3为本发明实施例提供的两种频繁项集挖掘方法支持度对比示意图；

图4为本发明实施例提供的一种交通管控场景确定装置结构示意图；

图5为本发明实施例提供一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

针对背景技术中所提及的技术问题，本申请实施例提供了一种交通管控场景确定方法，具体参见图1所示，图1为本发明实施例提供的一种交通管控场景确定方法流程示意图，该方法步骤包括：

步骤110，获取第一交通违法数据集。

具体的，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息。第一交通违法数据集可以以数据库表的形式体现，其中包括多个目标字段，多个目标字段包括交通违法事件的信息，至少包括交通违法事件发生地的位置信息，一条交通违法数据中的位置信息可以是该交通违法事件发生的经纬度信息。

在一个可选的例子中，如果交通违法数据中的位置信息为地址文字信息，还可以利用地理编码服务功能，例如高德地图应用提供的地理编码服务功能，实现地址文字信息数据到地理空间坐标的自动转换，当然，也可以自定义地址文字信息数据与地理空间坐标的映射关系，进行转换，例如地址文字信息可能为(东经60度，北纬40度)，转换后的位置信息为(60°E,40°N)，或者，例如将文字信息“崇文门外大街3号”转换为“116.42，39.90”格式，数据格式仅做举例说明，只要是有固定格式的文字数据都可以进行转换，转换后的格式可以根据实际情况而定，在此不做过多限定。

在另一个可选的例子中，如果获取的原始交通违法数据中信息存在缺失，还可以通过获取其他的数据进行关联，对原始交通违法数据中缺失信息进行补充，因此，获取第一交通违法数据集，包括：

获取第三交通违法数据集以及与第三交通违法数据集对应的场景信息数据集；

具体的，第三交通违法数据集为获取的原始数据集，为通过预设交通违法数据库获取的数据集，第三交通违法数据集中的字段与第一交通违法数据集相同。场景信息数据集为与第三交通违法数据集对应的数据集，例如，第三交通违法数据集中的所有交通违法事件发生时间段的场景信息，例如天气信息，第三交通违法数据集中的所有交通违法事件发生时的车辆信息等，第一组预设关联字段与第二组关联字段用于数据关联，例如将第三交通违法数据集中的第一车牌号字段与场景信息数据集中的第二车牌号字段进行匹配，当存在车牌号一致的两条数据时，说明是同一辆车，可以将场景信息数据集中该条车牌号数据中的其他车辆信息补充至第三交通违法数据的相同车牌号的交通违法数据中，第一组预设关联字段和第二组预设关联字段中还可以包括用以指示时间的字段等。

在一个可选的例子中，场景信息数据集包括机动车登记数据和电子监控设备位置数据，将交通违法数据中的车牌号字段和机动车登记数据中的车牌号字段作为关联字段，将交通违法数据与机动车登记数据进行匹配，匹配一致时，获得交通违法数据中的违法车辆的车辆类型、使用性质等车辆登记信息，构成交通违法事件发生的主体信息；将交通违法数据中的监控设备编号字段与电子监控设备数据中的监控设备编号字段作为关联字段，将交通违法数据与监控设备位置信息相匹配，获得交通违法数据中的监控设备位置信息，以经纬度的形式表示；通过互联网信息服务自动获取特定时间(与第三交通违法数据集相同时间段)的天气信息，将交通违法数据中的违法时间字段与天气信息中的时间字段作为关联字段，将交通违法数据与天气信息相匹配，获得交通违法数据中的违法时间下的天气信息，最终获取到第一交通违法数据集，天气数据的获取可以选择高德地图应用、百度地图应用、腾讯地图应用等互联网信息服务。

步骤120，根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息。

具体的，每一个交通违法事件发生地的位置信息为交通违法事件发生的点位，利用数据离散化处理手段，将交通违法数据集中的所有的点位进行聚类，划分为若干个类，每一个类包含若干个空间位置相近的点，也即是，将交通违法数据集中的交通违法数据从位置信息的角度分为若干类，获取多个聚类簇以及每一个聚类簇对应的标识信息，例如聚类簇的编号或者聚类簇ID等唯一标识信息。

在一个可选的实施例中，根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息，具体包括：

具体的，空间数据离散化一般有网格化和聚类两种方式，网格化方式会割裂地理空间信息层面上的关联性，因此采用聚类方式处理空间数据。在获取第一交通违法数据集之后，调用OPTICS方法将每一个交通违法事件发生地的位置信息作为计算目标对象，进行聚类处理。

在一个可选的例子中，位置信息可以以经纬度为例，由于OPTICS方法是一种无监督聚类方法，即经纬度在聚类前没有确定的标签，聚类完成后也难以直接验证聚类的准确性，基于此，可以采用聚类方法的内在评价指标轮廓系数来评价聚类结果的好坏，轮廓系数由各聚类簇之间的凝聚度和分离度确定，例如交通违法数据集中有n条交通违法数据，交通违法数据集为X，假设聚类后，X被分为k个簇，C₁,C₂,...,C_k，对于任一个聚类簇中的节点对象x(该聚类簇中任一条交通违法数据中的经纬度)，计算x与该聚类簇中其他节点对象之间的平均距离a(x)，类似地，b(x)是x到不属于x的所有聚类簇的最小平均距离。假设x∈C_i(1≤i≤k)，对象x的轮廓系数s(x)定义如下：

其中，x与该聚类簇中其他节点对象之间的平均距离a(x)，通过如下公式确定：

其中，x′为聚类簇C_i中其他节点对象。

x到不属于x的所有聚类簇的最小平均距离b(x),通过如下公式确定：

其中，C_j为多个聚类簇中除C_i外的其他聚类簇。

a(x)反映x所属簇的紧凑性，b(x)反映x与其它簇的分离程度。所有对象的轮廓系数的均值称为聚类结果的轮廓系数。轮廓系数的值在-1和1之间，在此范围内，值越大说明聚类效果越好。

在一个具体的实施例中，以某市1月-10月的1420028条交通违法数据进行测试，调用OPTICS的默认参数时获得的轮廓系数为0.816。而表1中显示了聚类算法DBSCAN在不同参数情况下的轮廓系数值。从表中可以发现，OPTICS算法的聚类结果0.816优于各种常用阈值的DBSCAN算法。尽管OPTICS算法在与DBSCAN算法参数相似时效果相近，但DBSCAN算法对参数选择极为敏感，在应用海量数据时网格搜索调参又十分耗费计算资源，因此应用OPTICS算法是更合理的选择。

(表一轮廓系数表)

其中，MinPts为DBSCAN算法中最小数量阈值参数，Eps为DBSCAN算法中核心距离半径参数，以左上角第一个数值0.725为例，代表当核心点的认定标准为核心距离半径40米内有20个数据点时，聚类结果的轮廓系数。

步骤130，将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集。

具体的，将每一条交通违法数据中的第一目标字段替换为所属聚类簇的聚类簇标识信息，其他字段不变，生成第二交通违法数据集。

这样做的目的是为了后续进行频繁项集挖掘做数据准备，因为每条交通违法数据发生的位置信息基本不同，也即是一个交通违法数据集中出现的位置信息尤其是如果位置信息是经纬度信息时，很可能都不重复，而频繁项集挖掘是基于对象出现的频繁程度进行挖掘的，如果每个对象只出现一次是无法进行有效挖掘的，挖掘出的数据也没有参考意义，而通过位置信息进行聚类后，相当于根据位置信息进行了分类，则具有相似位置信息的交通违法数据被划分到一个聚类簇后，就具有了相同的聚类簇标识，将位置信息替换为聚类簇标识后，同一个聚类簇标识可能包含很多条数据，这样交通违法数据在位置信息层面就具有了频繁度，例如，属于A聚类簇的交通违法数据有10条，这十条交通违法数据聚类后的的位置信息为A，属于B聚类簇的交通违法数据有100条，这100条交通违法数据聚类后的位置信息为B，这样就有了后续通过位置信息字段进行频繁项集挖掘的数据基础。

步骤140，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值。

具体的，针对数量庞大的交通安全数据，为了可以获得交通场景和交通违法行为之间的关联关系，遍历收集各种场景组合的频繁程度发现有价值的关联规则，进而明确不同类型交通违法行为在何种交通环境下更容易发生。因此，可以采用频繁项集挖掘算法，对第二交通违法数据集中每一条交通违法数据的目标字段进行频繁项集挖掘，输出的结果即为至少一个关联规则以及每一个关联规则分别对应的关联度指标值，例如生成10条关联规则，关联规则1的关联度指标a的关联度指标值为0.1，关联度指标b的关联度指标值为0.12，关联规则2的关联度指标a的关联度指标值为0.3，关联度指标b的关联度指标值为0.5等等。当交通违法数据量较大，比如几十万甚至几百万条，则其输出的关联规则数据量也会很大，为了后续数据处理的方便，可以预先设定预设关联度指标阈值，则在输出关联规则时，会直接输出大于或者等于预设关联度指标阈值的关联规则，相当于关联规则初筛选，可以基于初筛选后的关联规则再次筛选所需的目标关联规则。

可选的，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值，包括：

关联规则与挖掘的目标字段相关，为了挖掘交通场景和交通违法行为直接的关联，可以将交通场景相关字段和交通违法行为字段作为目标字段进行频繁项集挖掘。

可选的，多个目标字段除包括第一目标字段外，还包括如下目标字段中的一个或多个：

FP-growth算法使用一种频繁模式树(FP-tree)压缩频繁项集，将压缩的数据库分为一组条件数据集，再从每个条件数据集中挖掘出关联规则，算法能够直接在FP-tree上遍历所有频繁项集而不需要构建候选项目集，可以极大地压缩数据库的储存空间。

在一种优选的实施例中，如果第二交通违法数据集中的数据存在更新迅速、数据量巨大的特点，则使用FP-growth算法进行计算处理会消耗大量时间和资源。针对FP-growth算法挖掘大型数据库时效率低下和内存空间利用率较低的问题，使用基于哈希Hash表拆分数据库和结点交换的方法改进FP-growth算法，以提高数据挖掘效率。为验证对FP-growth算法改进的有效性，让改进的FP-growth算法与传统FP-growth算法在相同的实验数据集上运行，分别从运行时间和内存占用的角度对比二者的挖掘效率，内存占用的对比图如图2所示，运行时间的对比图如图3所示。

改进的FP-growth算法使用哈希Hash表存储表头使得项目头表的访问效率更高，利用结点交换的策略，压缩了FP-tree的结构，使其更加紧凑，所以能够在内存占用和时间消耗上具有一定的优势。在相同的支持度下，改进的FP-growth算法在内存占用上明显优于传统FP-growth算法，算法运行时间也少于传统FP-growth算法。但当支持度逐渐增加时，运行时间的差距也在逐渐缩小，其原因在于随着支持度的增加，从原始数据集中抽取出的项数目减少，二者在运行时间上的差距就不再明显。由此可见，对此类问题采用传统的FP-growth算法，将对算力造成极大负担，因此针对更新迅速、数据量巨大的特点的数据，使用Hash表改进的FP-growth算法具有很大的优势。

因此，在一种优选的实施例中，可以使用Hash表改进的FP-growth算法，对第二交通违法数据集中的第一目标字段、第二目标字段、第三目标字段、第四目标字段以及第五目标字段进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值。

步骤150，根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则。

步骤160，根据目标关联规则确定目标交通管控场景。

具体的，对第二交通违法数据集采用频繁项集挖掘操作后，生成至少一条关联规则，每一条关联规则都有通过频繁项集挖掘算法计算输出的关联度指标值，通过设置预设关联度指标预设阈值，可以筛选出大于预设关联度指标预设阈值的关联规则即目标关联规则。

可选的，关联度指标值，包括支持度指标值和/或置信度指标值和/或提升度指标值，根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则，包括：

具体的，关联度指标值可以包括支持度指标值、置信度指标值和提升度指标值中的一种或者多种，可以设置多条筛选规则，筛选规则1为支持度指标值大于0.01，则筛选出所有支持度指标值大于0.01的关联规则，筛选规则2为支持度指标值大于0.01以及置信度指标值大于0.02，则筛选出支持度指标值大于0.01且置信度指标值大于0.02的关联规则，以此类推，也可以根据预设提升度阈值设置筛选规则，具体筛选规则的设定可以根据实际情况而定，根据筛选规则可以筛选出目标关联规则。

因为关联规则是基于目标字段进行挖掘的，因此包括交通违法事件发生的场景以及交通违法事件发生的行为，而目标关联规则中对应的交通违法事件发生的场景即为需要重点关注的目标交通管控场景。

可选的，每一个目标关联规则中包括先导项，先导项用以指示交通违法事件发生的场景，根据目标关联规则确定目标交通管控场景，包括：

具体的，可以将违法交通数据中与交通违法行为发生的场景相关的字段作为关联规则的先导项，例如第一目标字段、第二目标字段、第三目标字段以及第四目标字段，将发生的交通违法行为作为关联规则的后继项，例如第五目标字段，如此，就可以根据每个关联规则的先导项将交通违法行为发生的场景提取出来，提取过程可以是：将目标关联规则分别按照每一个关联度指标值进行降序排序，设置多种筛选规则，例如关联度指标值排序前A或者置信度指标值排序前B或者提升度指标值排序前C的关联规则筛选出来，如果出现重复的关联规则，还需要进行排重处理，或者，将关联度指标值、置信度指标值以及提升度指标值进行组合筛选，筛选出目标关联规则，进而确定目标管控场景。

在一个具体的实施例中，例如同时设定支持度指标阈值、置信度指标阈值以及提升度指标阈值，从所有的关联规则中筛选出目标关联规则，高支持度的关联规则，表征此类频繁项集发生的频率较高；高置信度的关联规则，表征此类频繁项集发生的条件概率比较高，一旦其先导项条件发生，就应格外注意防止后继项的事故发生。

在交通管控场景中，若某个场景的支持度较高而置信度较低，则该场景的支持度较高可能只是因为交通流量大，交通行为主体的基数大，导致各类违法次数较多；若某个场景的支持度较低而置信度较高，则该场景可能存在某种与该特定违法行为相关的管理不合理之处，才导致在该时空环境下总是发生此类特定违法行为。筛选出的关联规则按支持度倒序排序如表二所示：

(表二高支持度关联规则)

其中，Sup为支持度值，Conf为置信度值，Lift为提升度值，先导项为交通违法事件发生的场景，后继项为交通违法事件的行为，地点信息已替换为聚类簇标识。

以表二中第1条关联规则为例，支持度(Sup)是所有关联规则中最高的0.008，表示先导项中场景主体车辆、场景时间、场景地点、场景天气和后继项的违反限制通行规定的违法行为并列发生的场景数占所有场景集合比例较高，置信度(Conf)为0.367表示当场景主体、场景时间、场景地点、场景天气等属性符合第1条关联规则的先导项时，在所有可能发生的违法行为中，发生机动车违反限制通行规定上路行驶的违法行为的概率。关联规则1的置信度较低暗示了该违法行为的支持度高可能只是因为该场景范围内流量较大，场景范围内还有其它需要注意的违法行为。提升度(Lift)为2.874表示上述先导项与后继项之间的关联性是强相关的。

筛选出的关联规则按置信度倒序排序如表三所示：

(表三高置信度关联规则)

以表三中第1条关联规则为例，支持度(Sup)为0.002表示先导项中场景主体车辆、场景时间、场景地点、场景天气和后继项的违反道路交通信号灯通行的违法行为并列发生的场景数占所有场景集合比例较低，置信度(Conf)为0.967表示当场景主体、场景时间、场景地点、场景天气等属性符合第1条关联规则的先导项时，在所有可能发生的违法行为中，发生驾驶机动车违反道路交通信号灯通行的违法行为的概率较大。因此，一旦该场景的先导项发生，交管部门需要在该地点着重对该项违法行为进行监督管理。提升度(Lift)为4.571表示上述先导项与后继项之间的关联性是强相关的。

在另一个具体的实施例中，可以分别基于支持度和置信度从高到低对场景排序，可以按以下标准对场景分别赋分，最后将每个场景的两类分数相加，总分高的场景即为重要管控场景，如表四所示：

支持度或置信度的分数排序	赋分
		前5％	10分
5％—25％	5分
		25％—50％	3分
50％—100％	1分

(表四)

置信度高的关联规则往往表示该场景存在一些基础设施上的本质缺陷，例如夜间流量较小时信号配时的不合理容易引起较多的闯红灯行为、匝道上较多的压线行为可能暗示了交通标线设置的不合理或缺少照明及反光设施等，由此可以帮助交管部门更有效地发现亟需优化改造的问题。提升度作为筛选判断参数，在算法设计校准参数时已将最小阈值设置为1，即输出的结果中并不存在提升度小于1的关联规则，只需关注支持度和置信度即可。

相较于现有的对于道路交通违法管理领域的研究，本文的研究目的并不是探究违法行为的影响因素，而是为交管部门挖掘违法高发场景，帮助交管部门更加高效地管理交通。这里关联规则的前置项并不说明它就是关联结果的原因，而是表示在这条道路上在这个时间点时，这种违法行为较为多发。同时，传统意义上对“事故黑点”、“违法黑点”的挖掘，往往基于单点位置上的事故数量、违法数量来确定，仅仅把单个点位作为高风险点位进行管理。但实际情况中交通流是连续运行的，相邻的风险点位之间往往存在内在联系，这种内在联系是对基础设施、规划布局、周边环境等因素不合理性的暗示。

本发明实施例提供的交通管控场景确定方法，获取第一交通违法数据集，其中，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息；将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；根据目标关联规则确定目标交通管控场景。通过该方式，获取第一交通违法数据集，根据第一交通违法数据集中的位置信息进行数据离散化操作，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息，能够更准确地识别出具体交管场景的管控范围，同时将邻近违法点位的内在联系纳入后续分析，从而提供更合理的致因分析和决策支持。将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；根据目标关联规则确定目标交通管控场景。数据离散化可以将位置信息相近的数据划分至一个聚类簇中，将位置信息替换为聚类簇标识可以为后续根据第一目标字段进行频繁项集挖掘提供数据，而基于至少一个目标字段的频繁项集挖掘操作，能够挖掘出规律性的交通违法行为，从而根据交通违法行为以及与交通违法行为出现场景(关联规则)的频繁程度，确定亟需管控和解决的场景，从而排除交通安全隐患，极大的提高了道路交通的安全性。

以上，为本申请所提供的交通管控场景确定方法实施例，下文中则介绍说明本申请所提供的交通管控场景确定其他实施例，具体参见如下。

图4为本发明实施例提供的一种交通管控场景确定装置，该装置包括：

获取模块401，用于获取第一交通违法数据集，其中，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；

数据离散化模块402，用于根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息；

替换模块403，用于将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；

频繁项集挖掘模块404，用于基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；

筛选模块405，用于根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；

确定模块406，用于根据目标关联规则确定目标交通管控场景。

可选的，该装置还包括：更新模块407；

获取模块401，具体用于获取第三交通违法数据集以及与第三交通违法数据集对应的场景信息数据集，第三交通违法数据集为通过预设交通违法数据库获取的数据集，第三交通违法数据集中的字段与第一交通违法数据集相同；

更新模块407，用于根据第三交通违法数据集中第一组预设关联字段与场景信息数据集中第二组预设关联字段的对应关系，利用场景信息数据集对第三交通违法数据集中的待更新目标字段的字段值进行更新，获取第一交通违法数据集。

可选的，获取模块401中多个目标字段除包括第一目标字段外，还包括如下目标字段中的一个或多个：

可选的，数据离散化模块402，具体用于采用密度聚类方法OPTICS，将每一个交通违法事件发生地的位置信息作为计算目标对象，对第一交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息。

可选的，频繁项集挖掘模块404，具体用于采用频繁项集挖掘算法FP-growth，将第二交通违法数据集中的所有的目标字段的字段值作为频繁项集挖掘对象，对第二交通违法数据集进行频繁项集挖掘，生成多个关联规则以及每一个关联规则分别对应的关联度指标值。

可选的，筛选模块405，具体用于从关联规则中筛选出支持度指标大于或者等于预设支持度阈值，和/或，置信度指标大于或者等于预设置信度阈值，和/或，提升度指标大于或者等于预设提升度阈值的关联规则，作为目标关联规则。

可选的，该装置还包括：排序模块408以及处理模块409；

排序模块408，用于将目标关联规则分别按照每一个关联度指标值进行降序排序；

处理模块409，用于将关联度指标值排序前A，和/或，置信度指标值排序前B，和/或，提升度指标值排序前C的关联规则对应的先导项作为目标交通管控场景，其中，A、B、C均为正整数。

本发明实施例提供的交通管控场景确定装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述，因此这里不再赘述。

本发明实施例提供的一种交通管控场景确定装置，获取第一交通违法数据集，其中，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息；将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集；基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；根据目标关联规则确定目标交通管控场景。通过该方式，获取第一交通违法数据集，根据第一交通违法数据集中的位置信息进行数据离散化操作，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息，能够更准确地识别出具体交管场景的管控范围，同时将邻近违法点位的内在联系纳入后续分析，从而提供更合理的致因分析和决策支持。将属于每一个聚类簇中的交通违法数据的第一目标字段的字段值替换为该聚类簇对应的标识信息，生成第二交通违法数据集，基于第二交通违法数据集中每一条交通违法数据的至少一个目标字段，对第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；根据每一个关联度指标值以及分别对应的关联度指标预设阈值，从至少一个关联规则中筛选出目标关联规则；根据目标关联规则确定目标交通管控场景。数据离散化可以将位置信息相近的数据划分至一个聚类簇中，将位置信息替换为聚类簇标识可以为后续根据第一目标字段进行频繁项集挖掘提供数据，而基于至少一个目标字段的频繁项集挖掘操作，能够挖掘出规律性的交通违法行为，从而根据交通违法行为以及与交通违法行为出现场景(关联规则)的频繁程度，确定亟需管控和解决的场景，从而排除交通安全隐患，极大的提高了道路交通的安全性。

如图5所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信。

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的交通管控场景确定方法，包括：

获取第一交通违法数据集，其中，第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个目标字段中包括用以指示交通违法事件发生地的第一目标字段，第一目标字段的字段值包括发生地的位置信息；

根据目标关联规则确定目标交通管控场景。

可选的，获取第一交通违法数据集，包括：

可选的，根据每一个交通违法事件发生地的位置信息，对第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇对应的标识信息，具体包括：

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述任意一个方法实施例提供的交通管控场景确定方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交通管控场景确定方法，其特征在于，所述方法包括：

获取第一交通违法数据集，其中，所述第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个所述目标字段中包括用以指示所述交通违法事件发生地的第一目标字段，所述第一目标字段的字段值包括所述发生地的位置信息；

根据每一个所述交通违法事件发生地的位置信息，对所述第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息；

基于所述第二交通违法数据集中每一条交通违法数据的至少一个所述目标字段，对所述第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；

根据每一个所述关联度指标值以及分别对应的关联度指标预设阈值，从至少一个所述关联规则中筛选出目标关联规则；

根据所述目标关联规则确定目标交通管控场景。

2.根据权利要求1所述的方法，其特征在于，所述获取第一交通违法数据集，包括：

获取第三交通违法数据集以及与所述第三交通违法数据集对应的场景信息数据集，所述第三交通违法数据集为通过预设交通违法数据库获取的数据集，所述第三交通违法数据集中的字段与所述第一交通违法数据集相同；

根据所述第三交通违法数据集中第一组预设关联字段与所述场景信息数据集中第二组预设关联字段的对应关系，利用所述场景信息数据集对所述第三交通违法数据集中的待更新目标字段的字段值进行更新，获取所述第一交通违法数据集。

3.根据权利要求2所述的方法，其特征在于，多个所述目标字段除包括所述第一目标字段外，还包括如下目标字段中的一个或多个：

用以指示所述交通违法事件发生主体的第二目标字段、用以指示所述交通违法事件发生时间的第三目标字段、用以指示所述交通违法事件发生时的天气的第四目标字段，以及用以指示所述交通违法事件发生行为的第五目标字段。

4.根据权利要求3任一项所述的方法，其特征在于，所述根据每一个所述交通违法事件发生地的位置信息，对所述第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息，具体包括：

采用密度聚类方法OPTICS，将每一个所述交通违法事件发生地的位置信息作为计算目标对象，对所述第一交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述第二交通违法数据集中每一条交通违法数据包括的元素信息，对所述第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值，包括：

采用频繁项集挖掘算法FP-growth，将所述第二交通违法数据集中的所有的目标字段的字段值作为频繁项集挖掘对象，对所述第二交通违法数据集进行频繁项集挖掘，生成多个所述关联规则以及每一个所述关联规则分别对应的关联度指标值。

6.根据权利要求5所述的方法，其特征在于，所述关联度指标值，包括支持度指标值和/或置信度指标值和/或提升度指标值，所述根据每一个所述关联度指标值以及分别对应的关联度指标预设阈值，从至少一个所述关联规则中筛选出目标关联规则，包括：

从所述关联规则中筛选出所述支持度指标大于或者等于预设支持度阈值，和/或，所述置信度指标大于或者等于预设置信度阈值，和/或，所述提升度指标大于或者等于预设提升度阈值的关联规则，作为目标关联规则。

7.根据权利要求6所述的方法，其特征在于，每一个所述目标关联规则中包括先导项，所述先导项用以指示所述交通违法事件发生的场景，所述根据所述目标关联规则确定目标交通管控场景，包括：

将所述目标关联规则分别按照每一个关联度指标值进行降序排序；

将所述关联度指标值排序前A，和/或，所述置信度指标值排序前B，和/或，所述提升度指标值排序前C的关联规则对应的先导项作为目标交通管控场景，其中，A、B、C均为正整数。

8.一种交通管控场景确定装置，其特征在于，所述装置包括：

获取模块，用于获取第一交通违法数据集，其中，所述第一交通违法数据集中每一条交通违法数据包括与交通违法事件对应的至少一个目标字段，至少一个所述目标字段中包括用以指示所述交通违法事件发生地的第一目标字段，所述第一目标字段的字段值包括所述发生地的位置信息；

数据离散化模块，用于根据每一个所述交通违法事件发生地的位置信息，对所述第一交通违法数据集中的交通违法数据进行数据离散化处理，生成多个聚类簇，以及与每一个聚类簇分别对应的标识信息；

频繁项集挖掘模块，用于基于所述第二交通违法数据集中每一条交通违法数据的至少一个所述目标字段，对所述第二交通违法数据集进行频繁项集挖掘，生成至少一个关联规则以及每一个关联规则分别对应的关联度指标值；

筛选模块，用于根据每一个所述关联度指标值以及分别对应的关联度指标预设阈值，从至少一个所述关联规则中筛选出目标关联规则；

确定模块，用于根据所述目标关联规则确定目标交通管控场景。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的交通管控场景确定方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的交通管控场景确定方法的步骤。