CN112270470B

CN112270470B - 一种危险驾驶场景数据分析方法及系统

Info

Publication number: CN112270470B
Application number: CN202011147970.6A
Authority: CN
Inventors: 吴艳; 王丽芳; 吴昊; 张俊智; 李芳�
Original assignee: Institute of Electrical Engineering of CAS
Current assignee: Institute of Electrical Engineering of CAS
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2023-12-05
Anticipated expiration: 2040-10-23
Also published as: CN112270470A

Abstract

本发明涉及一种危险驾驶场景数据分析方法及系统，首先构建危险驾驶场景评估体系，根据危险驾驶场景评估体系，建立危险驾驶场景数据集，然后利用层次分析法计算危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重，对每个属性的重要程度进行量化，进而建立加权危险驾驶场景数据集，最后采用改进的多维加权频繁模式算法在加权危险驾驶场景数据集中按照危险驾驶场景因素的重要性挖掘更多的关联规则。并且改进的多维加权频繁模式算法通过共享前缀项的方法将加权危险驾驶场景数据集压缩存储在多维加权频繁模式树中，降低了算法的空间复杂度，提高了算法的运行效率。

Description

一种危险驾驶场景数据分析方法及系统

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种危险驾驶场景数据分析方法及系统。

背景技术

近些年来，大量的交通事故造成了重大的人员伤亡和巨大的经济损失，如何避免交通事故的发生、如何减少事故中伤亡人员的数量，是道路交通安全研究的重要内容。通过对危险驾驶场景甚至是交通事故的深层分析，不仅可以有针对性的最大限度的预防伤亡道路交通事故的发生，而且对降低道路交通事故总数、保障人民的生命财产安全具有重大意义。如何有效地从海量的危险驾驶场景数据中挖掘出危险驾驶场景要素的频繁模式和各要素之间、以及各要素与事故结果之间的关联规则，进而揭示交通事故影响因素的作用规律，成为了目前研究的重点。

目前，许多学者主要分析驾驶员因素，例如驾驶员的性别、驾驶员的年龄、酒后驾驶和疲劳驾驶等，在挖掘交通事故影响因素的频繁模式方面，现有的方法大多采用Apriori算法和FP-Growth算法，并且假设所有影响因素的重要程度相同。然而，对于相同的目标问题，不同因素的受关注程度是不同的；如果没有对影响因素进行加权处理，那么数据挖掘算法很难发现数据集中相对比较重要的因素的频繁模式。此外，Apriori算法在挖掘数据集的频繁模式时需要多次扫描数据集，时间复杂度很高，算法的执行效率很低；现有的FP-Growth算法通常以项的加权支持度对事物中的项进行排序，该方法打破了共享前缀项的规则，导致算法建立了更多的节点，增加了算法的空间复杂度，增大了算法的遍历空间，降低了算法的执行效率。于此同时，随着自动驾驶汽车的发展，分析静态及动态的危险驾驶场景因素对自动驾驶汽车行驶安全的影响变得越来越重要。

发明内容

本发明的目的是提供一种危险驾驶场景数据分析方法及系统，以实现根据危险驾驶场景影响因素的重要性挖掘更多的影响因素的频繁模式。

为实现上述目的，本发明提供了如下方案：

一种危险驾驶场景数据分析方法，所述数据分析方法包括：

构建危险驾驶场景评估体系；所述危险驾驶场景评估体系包括目标层、中间层和决策层；

根据所述危险驾驶场景评估体系，建立危险驾驶场景数据集；

根据所述危险驾驶场景评估体系和所述危险驾驶场景数据集，采用层次分析法，获得所述危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重；

确定每一条危险驾驶场景数据中决策层的每个要素的属性，将每一条危险驾驶场景数据中决策层的所有要素的属性相对于目标层的组合权重之和作为每一条危险驾驶场景数据的权重，构建加权危险驾驶场景数据集；

基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式。

可选的，所述目标层包括交通事故；

所述中间层包括道路特征、道路设施、自然环境、主车和主车以外交通参与者；

所述道路特征对应的决策层包括道路类型、道路形态、路口类型、路表状态、路面材料、道路情况和车道数；所述道路设施对应的决策层包括交通标识牌、交通信号灯和道路标志线；所述自然环境对应的决策层包括时间和天气；所述主车对应的决策层包括主车的类型、主车的行为、主车的速度、主车驾驶员性别和主车驾驶员年龄；所述主车以外交通参与者对应的决策层包括主车以外交通参与者的类型、主车以外交通参与者的相对位置、主车以外交通参与者的相对行驶方向、主车以外交通参与者的行为和主车以外交通参与者的速度。

可选的，所述根据所述危险驾驶场景评估体系和所述危险驾驶场景数据集，采用层次分析法，获得所述危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重，具体包括：

根据所述危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重；

确定决策层第j个要素的属性n在危险驾驶场景数据集中出现的概率；

基于所述危险驾驶场景数据集，根据所述决策层第j个要素相对于中间层第i项的权重、所述中间层第i项相对于目标层的权重和所述概率，利用公式确定所述危险驾驶场景数据集中决策层第j个要素的属性n相对于目标层的组合权重；

其中，是中间层第i项相对于目标层的权重，w_i,j ⁽²⁾是中间层第i项下对应的决策层第j个要素相对于中间层第i项的权重；p_i,j,n为决策层第j个要素的属性n在危险驾驶场景数据集中出现的概率；w_i,j,n是危险驾驶场景数据集中决策层第j个要素的属性n相对于目标层的组合权重，i＝1,2,3,4,5,…M，M为中间层的项的数量，j＝1,2,3,4,5,…N，N为决策层的要素的数量，n＝1,2,3,4,5,…P，P为决策层第j个要素的属性的数量。

可选的，所述根据所述危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重，具体包括：

利用两两比较的方法构建所述危险驾驶评估体系中相邻上下层之间的判断矩阵k；

根据公式确定所述判断矩阵k的一致性系数的值；

判断所述判断矩阵k的一致性系数的值是否小于预设一致性系数标准值，获得判断结果；

若所述判断结果表示是，则确定所述判断矩阵k的最大特征向量，最大特征向量即为下层相对于上层的权重；

若所述判断结果表示否，则重新构建判断矩阵k，获得更新后的判断矩阵k，返回步骤“根据公式确定所述判断矩阵k的一致性系数的值”；

其中，判断矩阵k为中间层第i项下对应的决策层相对于中间层第i项的判断矩阵或中间层相对于目标层的判断矩阵，判断矩阵k的最大特征向量为中间层第i项下对应的决策层相对于中间层第i项的权重或中间层相对于目标层的权重，CR为判断矩阵k的一致性系数的值，RI为修正系数，CI为判断矩阵k的一致性指标，λ_max为判断矩阵k的最大特征向量，n为判断矩阵k的维度，i＝1,2,3,4,5,…M，M为中间层的项的数量，j＝1,2,3,4,5,…N，N为决策层的要素的数量。

可选的，所述基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式，具体包括：

统计所述加权危险驾驶场景数据集中每一条加权危险驾驶场景数据的支持度计数；

将所述支持度计数与每一条加权危险驾驶场景数据的权重的乘积作为所述每一条加权危险驾驶场景数据的加权支持度；

将加权支持度大于最小支持度阈值的加权危险驾驶场景数据构建初始频繁一项集；

依照支持度计数从大到小的顺序对所述初始频繁一项集中的多条加权危险驾驶场景数据进行排序，获得排序后的频繁一项集；

根据所述排序后的频繁一项集建立初始多维加权频繁模式树；

根据所述初始多维加权频繁模式树，将所述初始频繁一项集中的每一条加权危险驾驶场景数据作为一项，初始化项头表，并建立根节点；所述项头表包含项名、项的支持度计数、项的加权支持度和节点链，节点链初始化为None；所述根节点包含属性名和子节点集；

根据所述排序后的频繁一项集，删除所述加权危险驾驶场景数据集中不属于所述排序后的频繁一项集的加权危险驾驶场景数据，并将所述加权危险驾驶场景数据集中剩余的加权危险驾驶场景数据按照所述排序后的频繁一项集中加权危险驾驶场景数据排列顺序进行排序；

将每个排序后的加权危险驾驶场景数据以节点的形式依次链接到所述初始多维加权频繁模式树中，获得链接后的多维加权频繁模式树；所述节点包含项名、项的支持度计数、项的加权支持度、父节点、子节点集和链接点；

采用递归法挖掘所述链接后的多维加权频繁模式树中的频繁模式，获得所述危险驾驶场景数据集的频繁模式。

一种危险驾驶场景数据分析系统，所述数据分析系统包括：

危险驾驶场景评估体系构建模块，用于构建危险驾驶场景评估体系；所述危险驾驶场景评估体系包括目标层、中间层和决策层；

危险驾驶场景数据集建立模块，用于根据所述危险驾驶场景评估体系，建立危险驾驶场景数据集；

组合权重获得模块，用于根据所述危险驾驶场景评估体系和所述危险驾驶场景数据集，采用层次分析法，获得所述危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重；

加权危险驾驶场景数据集构建模块，用于确定每一条危险驾驶场景数据中决策层的每个要素的属性，将每一条危险驾驶场景数据中决策层的所有要素的属性相对于目标层的组合权重之和作为每一条危险驾驶场景数据的权重，构建加权危险驾驶场景数据集；

频繁模式确定模块，用于基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式。

可选的，所述目标层包括交通事故；

可选的，所述组合权重获得模块，具体包括：

权重获得子模块，用于根据所述危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重；

概率确定子模块，用于确定决策层第j个要素的属性n在危险驾驶场景数据集中出现的概率；

组合权重确定子模块，用于基于所述危险驾驶场景数据集，根据所述决策层第j个要素相对于中间层第i项的权重、所述中间层第i项相对于目标层的权重和所述概率，利用公式确定所述危险驾驶场景数据集中决策层第j个要素的属性n相对于目标层的组合权重；

可选的，所述权重获得子模块，具体包括：

判断矩阵构建单元，用于利用两两比较的方法构建所述危险驾驶评估体系中相邻上下层之间的判断矩阵k；

一致性系数的值确定单元，用于根据公式确定所述判断矩阵k的一致性系数的值；

判断结果获得单元，用于判断所述判断矩阵k的一致性系数的值是否小于预设一致性系数标准值，获得判断结果；

最大特征向量确定单元，用于若所述判断结果表示是，则确定所述判断矩阵k的最大特征向量，最大特征向量即为下层相对于上层的权重；

判断矩阵重新构建单元，用于若所述判断结果表示否，则重新构建判断矩阵k，获得更新后的判断矩阵k，返回步骤“根据公式确定所述判断矩阵k的一致性系数的值”；

可选的，所述频繁模式确定模块，具体包括：

支持度计数确定子模块，用于统计所述加权危险驾驶场景数据集中每一条加权危险驾驶场景数据的支持度计数；

加权支持度获取子模块，用于将所述支持度计数与每一条加权危险驾驶场景数据的权重的乘积作为所述每一条加权危险驾驶场景数据的加权支持度；

初始频繁一项集构建子模块，用于将加权支持度大于最小支持度阈值的加权危险驾驶场景数据构建初始频繁一项集；

排序后的频繁一项集获得子模块，用于依照支持度计数从大到小的顺序对所述初始频繁一项集中的多条加权危险驾驶场景数据进行排序，获得排序后的频繁一项集；

初始多维加权频繁模式树建立子模块，用于根据所述排序后的频繁一项集建立初始多维加权频繁模式树；

项头表子初始化模块，用于根据所述初始多维加权频繁模式树，将所述初始频繁一项集中的每一条加权危险驾驶场景数据作为一项，初始化项头表，并建立根节点；所述项头表包含项名、项的支持度计数、项的加权支持度和节点链，节点链初始化为None；所述根节点包含属性名和子节点集；

排列后的加权危险驾驶场景数据获得子模块，用于根据所述排序后的频繁一项集，删除所述加权危险驾驶场景数据集中不属于所述排序后的频繁一项集的加权危险驾驶场景数据，并将所述加权危险驾驶场景数据集中剩余的加权危险驾驶场景数据按照所述排序后的频繁一项集中加权危险驾驶场景数据排列顺序进行排序；

链接后的多维加权频繁模式树获得子模块，用于将每个排序后的加权危险驾驶场景数据以节点的形式依次链接到所述初始多维加权频繁模式树中，获得链接后的多维加权频繁模式树；所述节点包含项名、项的支持度计数、项的加权支持度、父节点、子节点集和链接点；

频繁模式获得子模块，用于采用递归法挖掘所述链接后的多维加权频繁模式树中的频繁模式，获得所述危险驾驶场景数据集的频繁模式。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种危险驾驶场景数据分析方法及系统，首先构建危险驾驶场景评估体系，根据危险驾驶场景评估体系，建立危险驾驶场景数据集，然后利用层次分析法计算危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重，对每个属性的重要程度进行量化，进而建立加权危险驾驶场景数据集，最后采用改进的多维加权频繁模式算法在加权危险驾驶场景数据集中按照危险驾驶场景因素的重要性挖掘更多的关联规则。

并且改进的多维加权频繁模式算法通过共享前缀项的方法将加权危险驾驶场景数据集压缩存储在多维加权频繁模式树中，降低了算法的空间复杂度，提高了算法的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种危险驾驶场景数据分析方法的流程图；

图2为本发明实施例提供的危险驾驶场景评估体系的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明公开了一种数据挖掘应用于道路危险驾驶场景数据处理的方法，对危险驾驶场景各个要素按特定要素进行标注，然后采用层次分析法(AnalyticHierarchyProcess，简称AHP)计算各个要素的对危险或者事故产生的影响程度，建立加权的危险驾驶场景数据集；在此基础上，采用一种改进的多维加权FP-Growth算法对加权危险驾驶场景数据集进行快速、精准的挖掘，进而揭示危险驾驶场景因素及其组合模式的作用规律。

本发明提供的一种危险驾驶场景数据分析方法，如图1所示，数据分析方法包括：

S101，构建危险驾驶场景评估体系。

危险驾驶场景评估体系包括目标层、中间层和决策层。

目标层包括交通事故。

中间层包括道路特征、道路设施、自然环境、主车和主车以外交通参与者。

道路特征对应的决策层包括道路类型、道路形态、路口类型、路表状态、路面材料、道路情况和车道数；道路设施对应的决策层包括交通标识牌、交通信号灯和道路标志线；自然环境对应的决策层包括时间和天气；主车对应的决策层包括主车的类型、主车的行为、主车的速度、主车驾驶员性别和主车驾驶员年龄；主车以外交通参与者对应的决策层包括主车以外交通参与者的类型、主车以外交通参与者的相对位置、主车以外交通参与者的相对行驶方向、主车以外交通参与者的行为和主车以外交通参与者的速度。

S102，根据危险驾驶场景评估体系，建立危险驾驶场景数据集。

S103，根据危险驾驶场景评估体系和危险驾驶场景数据集，采用层次分析法，获得危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重。

按照心理学家提出的1-9标度法(层次分析法)将各层因素对上层的影响程度进行量化，利用两两比较的方法建立上下层之间的判断矩阵并衡量判断矩阵的一致性，若所建立的判断矩阵的一致性较差，则需要重新构建判断矩阵，具体包括：

根据危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重；

基于危险驾驶场景数据集，根据决策层第j个要素相对于中间层第i项的权重、中间层第i项相对于目标层的权重和概率，利用公式确定危险驾驶场景数据集中决策层第j个要素的属性n相对于目标层的组合权重；

根据危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重，具体步骤为：

利用两两比较的方法构建危险驾驶评估体系中相邻上下层之间的判断矩阵k；

根据公式确定判断矩阵k的一致性系数的值；

判断判断矩阵k的一致性系数的值是否小于预设一致性系数标准值，获得判断结果；优选地，预设一致性系数标准值为0.1。

若判断结果表示是，则确定判断矩阵k的最大特征向量，最大特征向量即为下层相对于上层的权重；

若判断结果表示否，则重新构建判断矩阵k，获得更新后的判断矩阵k，返回步骤“根据公式确定判断矩阵k的一致性系数的值”；

S104，确定每一条危险驾驶场景数据中决策层的每个要素的属性，将每一条危险驾驶场景数据中决策层的所有要素的属性相对于目标层的组合权重之和作为每一条危险驾驶场景数据的权重，构建加权危险驾驶场景数据集。

S105，基于加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定危险驾驶场景数据集的频繁模式，具体包括：

统计所述加权危险驾驶场景数据集中每一条加权危险驾驶场景数据的支持度计数；支持度计数为每一条加权危险驾驶场景数据出现的次数之和。

将每个排序后的加权危险驾驶场景数据以节点的形式依次链接到所述初始多维加权频繁模式树中，获得链接后的多维加权频繁模式树(MultidimensionalWeightedFrequentPatternTree，MWFP-Tree)；所述节点包含项名、项的支持度计数、项的加权支持度、父节点、子节点集和链接点；

本发明提供了一种危险驾驶场景数据分析方法，将每一条危险驾驶场景数据按照场景中要素类别进行标注和赋值，考虑到每个要素的重要程度不同，引入AHP算法对每个要素的重要程度进行量化，进而建立加权危险驾驶场景数据集，为了减少新建节点的数目和挖掘出更多的关联规则，采用多维加权FP-Growth算法对数据集进行挖掘。本发明不仅可以按照危险驾驶场景因素的重要性挖掘更多的关联规则，而且降低了算法的空间复杂度，提高了算法的运行效率。

本发明对应于一种危险驾驶场景数据分析方法还提供了一种危险驾驶场景数据分析系统，数据分析系统包括：危险驾驶场景评估体系构建模块、危险驾驶场景数据集建立模块、组合权重获得模块、加权危险驾驶场景数据集构建模块和频繁模式确定模块。

危险驾驶场景评估体系构建模块，用于构建危险驾驶场景评估体系；危险驾驶场景评估体系包括目标层、中间层和决策层。

危险驾驶场景数据集建立模块，用于根据危险驾驶场景评估体系，建立危险驾驶场景数据集。

组合权重获得模块，用于根据危险驾驶场景评估体系和危险驾驶场景数据集，采用层次分析法，获得危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重。

加权危险驾驶场景数据集构建模块，用于确定每一条危险驾驶场景数据中决策层的每个要素的属性，将每一条危险驾驶场景数据中决策层的所有要素的属性相对于目标层的组合权重之和作为每一条危险驾驶场景数据的权重，构建加权危险驾驶场景数据集。

频繁模式确定模块，用于基于加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定危险驾驶场景数据集的频繁模式。

其中，目标层包括交通事故。

组合权重获得模块，具体包括：权重获得子模块、概率确定子模块和组合权重确定子模块。

权重获得子模块，用于根据危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重。

概率确定子模块，用于确定决策层第j个要素的属性n在危险驾驶场景数据集中出现的概率。

组合权重确定子模块，用于基于危险驾驶场景数据集，根据决策层第j个要素相对于中间层第i项的权重、中间层第i项相对于目标层的权重和概率，利用公式确定危险驾驶场景数据集中决策层第j个要素的属性n相对于目标层的组合权重。

权重获得子模块，具体包括：判断矩阵构建单元、一致性系数的值确定单元、判断结果获得单元、最大特征向量确定单元和判断矩阵重新构建单元。

判断矩阵构建单元，用于利用两两比较的方法构建危险驾驶评估体系中相邻上下层之间的判断矩阵k。

一致性系数的值确定单元，用于根据公式确定判断矩阵k的一致性系数的值。

判断结果获得单元，用于判断判断矩阵k的一致性系数的值是否小于预设一致性系数标准值，获得判断结果。

最大特征向量确定单元，用于若判断结果表示是，则确定判断矩阵k的最大特征向量，最大特征向量即为下层相对于上层的权重。

判断矩阵重新构建单元，用于若判断结果表示否，则重新构建判断矩阵k，获得更新后的判断矩阵k，返回步骤“根据公式确定判断矩阵k的一致性系数的值”。

频繁模式确定模块，具体包括：支持度计数确定子模块、加权支持度获取子模块、初始频繁一项集构建子模块、排序后的频繁一项集获得子模块、初始多维加权频繁模式树建立子模块、初始多维加权频繁模式树建立子模块、项头表子初始化模块、排列后的加权危险驾驶场景数据获得子模块、链接后的多维加权频繁模式树获得子模块和频繁模式获得子模块。

支持度计数确定子模块，用于统计加权危险驾驶场景数据集中每一条加权危险驾驶场景数据的支持度计数。

加权支持度获取子模块，用于将支持度计数与每一条加权危险驾驶场景数据的权重的乘积作为每一条加权危险驾驶场景数据的加权支持度。

初始频繁一项集构建子模块，用于将加权支持度大于最小支持度阈值的加权危险驾驶场景数据构建初始频繁一项集。

排序后的频繁一项集获得子模块，用于依照支持度计数从大到小的顺序对初始频繁一项集中的多条加权危险驾驶场景数据进行排序，获得排序后的频繁一项集。

初始多维加权频繁模式树建立子模块，用于根据排序后的频繁一项集建立初始多维加权频繁模式树。

项头表子初始化模块，用于根据初始多维加权频繁模式树，将初始频繁一项集中的每一条加权危险驾驶场景数据作为一项，初始化项头表，并建立根节点；项头表包含项名、项的支持度计数、项的加权支持度和节点链，节点链初始化为None；根节点包含属性名和子节点集。

排列后的加权危险驾驶场景数据获得子模块，用于根据排序后的频繁一项集，删除加权危险驾驶场景数据集中不属于排序后的频繁一项集的加权危险驾驶场景数据，并将加权危险驾驶场景数据集中剩余的加权危险驾驶场景数据按照排序后的频繁一项集中加权危险驾驶场景数据排列顺序进行排序。

链接后的多维加权频繁模式树获得子模块，用于将每个排序后的加权危险驾驶场景数据以节点的形式依次链接到初始多维加权频繁模式树中，获得链接后的多维加权频繁模式树；节点包含项名、项的支持度计数、项的加权支持度、父节点、子节点集和链接点。

频繁模式获得子模块，用于采用递归法挖掘链接后的多维加权频繁模式树中的频繁模式，获得危险驾驶场景数据集的频繁模式。

本发明提供了一种危险驾驶场景数据分析方法及系统的具体实施例。

为了有效地从海量的危险驾驶场景数据中快速、精准地挖掘出危险驾驶场景要素的频繁模式和各要素之间、以及各要素与事故结果之间的关联规则，这里将按照要素的重要性程度来挖掘加权数据集中的关联规则，具体步骤如下：

步骤一、将每一条危险驾驶场景数据按照场景中要素类别进行标注和赋值。通过观看大量的交通事故视频，按照危险驾驶场景相关要素进行数据标注，采用英文字母来对各个要素数据进行标注，分别使用“A,C,E,…”来表示道路线形、路口类型、路面状态等要素，如表1所示。

表1要素标注

由于视频中所获取的场景信息有限，这里仅对部分要素进行标注。

同时，使用“1，2，3…n”表示每个要素中所包含的不同属性，n为各个要素所含属性的个数。这里以道路形态为例，道路形态的项(属性)包括平面直线、斜坡直线、缓慢平曲线、急转弯平曲线、缓慢斜坡曲线、急转弯斜坡曲线，具体表示形式如表2所示。

表2道路形态的项

项	标示符	项	标示符
				平面直线	A1	急转弯平曲线	A4
斜坡直线	A2	缓慢斜坡曲线	A5
				缓慢平曲线	A3	急转弯斜坡曲线	A6

步骤二、在步骤一的基础上，如图2所示，将步骤一中所标识的危险驾驶场景要素进行分层，其中交通事故作为目标层，道路特征、道路设施、自然环境、其他交通参与者、主车作为中间层，道路特征所包含的要素有道路类型、道路形态、路口类型、路表状态、路面材料、车道数；道路设施所包含的要素有交通标识牌、交通信号灯、道路标志线；自然环境包含的要素有时间、天气；其他交通参与者所包含的要素有其他交通参与者的类型、其他交通参与者的相对位置、其他交通参与者的相对行驶方向、其他交通参与者的行为；主车所包含的要素有主车的类型、主车的行为；这些要素作为决策层。

步骤三、在步骤二所建立的分层结构基础上，按照心理学家提出的1-9标度法将步骤二所述的各层因素对其上一层因素的影响程度进行量化，利用两两比较的方法建立上下层之间的判断矩阵并衡量判断矩阵的一致性，若所建立的判断矩阵的一致性较差，则需要重新构建判断矩阵，其中判断矩阵的一致性的方法如下式子：

式中，CI和CR为一致性系数，λ_max为判断矩阵的最大特征向量，n为矩阵维度，RI为修正系数。CI和CR值越大，判断矩阵的一致性越差，则需要重新构建判断矩阵，当它们的值小于0.1就可以达到要求。其中RI取值与矩阵维度关系如表3所示。

表3RI取值与矩阵维度关系

可以得到中间层MI层相对于目标层TA层的判断矩阵如表4所示。

表4中间层MI层相对于目标层TA层的判断矩阵

TA-MI	MI1	MI2	MI3	MI4	MI5
						MI1	1	2	1	1/2	1/3
MI2	1/2	1	1/3	1/4	1/5
						MI3	1	3	1	1/3	1/2
MI4	2	4	3	1	1
						MI5	3	5	4	1	1

同理，可以得到决策层相对于中间层的判断矩阵如表5-9所示。

表5决策层相对于道路特征的判断矩阵

表6决策层相对于道路设施的判断矩阵

MI2-DM2	DM21	DM22	DM23
				DM21	1	1/3	1/2
DM22	3	1	2
				DM23	2	1/2	1

表7决策层相对于自然环境的判断矩阵

MI3-DM3	DM31	DM32
			DM21	1	1/3
DM22	3	1

表8决策层相对于主车的判断矩阵

MI5-DM5	DM51	DM52
			DM51	1	1/3
DM52	3	1

表9决策层相对于主车以外交通参与者的判断矩阵

MI4-DM4	DM41	DM42	DM43	DM44
					DM41	1	1	5	1/3
DM42	1	1	4	1/2
					DM43	1/5	1/4	1	1/5
DM44	3	2	5	1

步骤四、在步骤三所建立的判断矩阵基础上，计算步骤三所述的每个判断矩阵的最大特征值与其对应的特征向量，其中特征向量就是各层因素相对上层因素的权值，结果如表10所示。

表10各层因素相对上层因素的权值

步骤五、结合步骤三所得到的各层因素相对上层因素的权值，计算决策层相对目标层的组合权重，如下式：

式中i为中间层每个项的编号，j为中间层每个项对应的各个要素，w_i ⁽¹⁾是中间层第i项的权重，w_i,j ⁽²⁾是中间层中i项下第j个要素相对于i项的权重，p_i,j,n为j要素第n个属性/状态在数据集中出现的概率，w_i,j,n是决策层j要素第n个属性/状态相对目标层的组合权重，i＝1,2,3,4,5,…M，M为中间层的项的数量，j＝1,2,3,4,5,…N，N为决策层的要素的数量，n＝1,2,3,4,5,…P，P为决策层第j个要素的属性的数量。

步骤六、在前述步骤的基础上，计算数据集中每一条危险驾驶场景数据(事务)的权值，并进行归一化处理，建立加权危险驾驶场景数据集。其中事务的权值为每个项的权重值之和。

步骤七、在步骤六所建立的加权数据集的基础上，扫描加权数据集，统计每一项支持度计数和加权支持度，如果项的加权支持大于最小支持度(这里可以设置最小支持度为0.4)则保留该项，否则丢弃，进而得到频繁1项集。

步骤八、在步骤七所得到的频繁1项集的基础上，根据频繁1项集建立的多维加权频繁模式树(MWFP-Tree)，初始化项头表，并建立根节点。其中，项头表包含项名、项的支持度计数和项的加权支持度和节点链四个域，节点链初始化为None；根节点包含项名和子节点集两个域。

步骤九、再次扫描步骤六所建立的加权数据集，将每条事务按照步骤七所得的频繁1项集的顺序进行排序，同时删除剩余的项，将事务中的每个项以节点的形式依次链接到步骤八所建立的多维加权频繁模式树(MWFP-Tree)中，其中节点包含项名、项的支持度计数、项的加权支持度、父节点、子节点集和链接点六个域。

通过共享前缀项的方法将加权数据集压缩存储在MWFP-Tree中，以减小计算机内存的开销。

步骤十、步骤九所得到的多维加权频繁模式树(MWFP-Tree)的基础上，采用递归法挖掘MWFP-Tree中的频繁模式。在每一次递归中，从项头表中支持度计数最小的项开始，通过项的节点链找到所有具有相同支持度的节点，然后根据每个节点的父节点寻找项的所有前缀路径，进而构建项的条件事务集；最后，利用项的条件事务集建立条件MWFP-Tree，不断地按照以上方法递归建立条件MWFP-Tree，直到项的条件MWFP-Tree为空，最终获得数据集的频繁模式，至此本发明所述的数据挖掘方法结束。

表11为部分挖掘结果，从挖掘的结果可以看到第一条关联规则表示：前项包含主车是小型车、主车的驾驶行为是直行、道路线形是直线道路、天气是晴天、碰撞对象相对主车的运动方向为横向和后项包含交通事故类型为正面碰撞的频繁模式在数据集中占11％，置信度62％表示在前项发生的情况下有62％的可能性会导致正面碰撞，基于挖掘的结果可以用于事故成因分析、事故预测及预防等，相关研究人员还可以利用危险场景要素的关联规则构建虚拟交通危险场景，为自动驾驶汽车提供危险测试场景。

表11部分挖掘结果

本发明的有益效果是：

(1)采用本发明所述的数据挖掘方法不仅可以按照危险驾驶场景因素的重要性挖掘更多的关联规则，而且降低了算法的空间复杂度，提高了算法的运行效率。

(2)本发明所述的危险驾驶场景数据挖掘方法可以用于预测交通事故的发展趋势，对于构建交通事故预防机制，提高整个道路交通系统安全水平具有重要的意义。

(3)本发明所述的数据挖掘方法适用范围不限于交通领域，可以应用到各个领域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种危险驾驶场景数据分析方法，其特征在于，所述数据分析方法包括：

基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式；

其中，基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式，具体包括：

2.根据权利要求1所述的危险驾驶场景数据分析方法，其特征在于，

所述目标层包括交通事故；

3.根据权利要求1所述的危险驾驶场景数据分析方法，其特征在于，所述根据所述危险驾驶场景评估体系和所述危险驾驶场景数据集，采用层次分析法，获得所述危险驾驶场景数据集中决策层的每个要素的每个属性相对于目标层的组合权重，具体包括：

4.根据权利要求3所述的危险驾驶场景数据分析方法，其特征在于，所述根据所述危险驾驶评估体系，利用层次分析法，获得决策层第j个要素相对于中间层第i项的权重和中间层第i项相对于目标层的权重，具体包括：

根据公式确定所述判断矩阵k的一致性系数的值；

5.一种危险驾驶场景数据分析系统，其特征在于，所述数据分析系统包括：

频繁模式确定模块，用于基于所述加权危险驾驶场景数据集，采用改进的多维加权频繁模式算法，确定所述危险驾驶场景数据集的频繁模式；

其中，所述频繁模式确定模块，具体包括：

6.根据权利要求5所述的危险驾驶场景数据分析系统，其特征在于，

所述目标层包括交通事故；

7.根据权利要求5所述的危险驾驶场景数据分析系统，其特征在于，所述组合权重获得模块，具体包括：

8.根据权利要求7所述的危险驾驶场景数据分析系统，其特征在于，所述权重获得子模块，具体包括：