CN117194995A

CN117194995A - 基于数据挖掘的轨道车辆rams数据关联性分析方法

Info

Publication number: CN117194995A
Application number: CN202311020472.9A
Authority: CN
Inventors: 吕金玲; 马慧芳; 杜冰; 郑瑞防
Original assignee: CRRC Changchun Railway Vehicles Co Ltd
Current assignee: CRRC Changchun Railway Vehicles Co Ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-08

Abstract

本发明涉及数据分析技术领域，具体涉及一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法。本发明通过对历史数据集进行Apriori算法逐层迭代分析，当层数为2时，根据每个项集对应子集的支持度差异和相关系数间的变化相关程度，获得项集的优化支持度；当层数大于2时，根据每个项集前一层级中待调整子集间的关联情况和优化支持度相似情况调整待调整子集，根据调整后的待调整子集获得项集的优化支持度；根据优化支持度确定的频繁项集，将最终频繁项集进行置信度判断，获得的强关联规则进行存储。本发明通过数据处理，对支持度进行优化调整，提高数据关联性分析的准确度和效率，获得可靠性更强的数据关联关系。

Description

基于数据挖掘的轨道车辆RAMS数据关联性分析方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法。

背景技术

城市轨道交通RAMS指标是实现长期运营、维护活动和系统稳定的主要衡量指标。RAMS是可靠性、可用性、可维修性和安全性这四个英文字母的首字母的缩写，是由其英文的第一个字母组成的。轨道列车的RAMS是列车经过长期运用所表现出来的特性，是在系统的整个寿命周期中，通过已有的工程概念、方法、工具盒技术而获得的；它反映出系统能够保证在指定时间内，安全达到轨道交通运输规定水平的置信度。建立轨道车辆RAMS数据关联性模型可以帮助企业进行维修保养计划指定，故障预测、预防及检修，提高车辆可靠性和安全性等方面的工作效率。

Apriori算法是数据挖掘中常用的数据关联性分析算法，可以用来分析数据之间的关联性。但现有Apriori算法中通过支持度进行频发项集获取过程中，支持度对车辆RAMS数据的统计分析效果较差，现有对支持度进行优化的方法中，也仅针对频繁项集选取过程中增加指标进行判断，不能消除支持度较差的影响，对于车辆RAMS数据来说，统计的车辆RAMS相关数据是变化的，使得仅通过频率统计得到的Apriori算法支持度误差较大，无法获得更准确的支持度反映数据间关联性，进而获得的频繁项集质量较差，获取的数据关联性关系可靠性不强。

发明内容

为了解决现有技术中对于车辆RAMS数据采用Apriori算法，无法获得更准确的支持度的技术问题，本发明的目的在于提供一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，所采用的技术方案具体如下：

本发明提供了一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，所述方法包括：

获取轨道车辆RAMS对应的相关数据的历史数据集；采用Apriori算法对历史数据集进行逐层搜索迭代，将每种相关数据对应的数据值作为历史数据集中的项，并获得每个项的支持度，每一层级的层数与层级中项集的项数相等；

在迭代过程中，当层数等于2时，获取当前层级中每个项集所有子集对应的两类相关数据；根据两类相关数据之间的数据变化相关程度和两类相关数据对应子集中项之间的支持度差异程度，获得对应项集的优化系数；通过优化系数将对应项集的支持度进行优化，获得每个项集的优化支持度；

当层级大于2时，获取当前层级中每个项集与前一层级的频繁项集相同的子集，作为对应项集的待调整子集；根据待调整子集之间的关联情况和优化支持度的相似情况，对待调整子集的优化支持度进行更新；根据每个项集对应所有子集的优化支持度，将对应项集的支持度进行优化，获得每个项集的优化支持度；

根据当前层级的项集的优化支持度确定当前层级的频繁项集，将最大层级的频繁项集作为最终频繁项集；根据Apriori算法对最终频繁项集进行置信度判断，获得强关联规则，将强关联规则对应的数据关联关系输入至轨道车辆控制系统中存储。

进一步地，所述优化系数的获取方法包括：

获取两类相关数据在历史数据集中的数据曲线，对数据曲线进行求导获得两类相关数据的数据变化曲线，所述数据变化曲线所在坐标轴上，横坐标为时间，纵坐标为相关数据的数据值的变化幅值；

根据两类相关数据的数据变化曲线之间的变化趋势差异程度，获得对应项集的变化相关性指标；获取两类相关数据对应每个项集的两个真子集，计算两个真子集的项的支持度差异进行负相关映射并归一化处理，获得每个项集的支持度相关指标；

根据所述变化相关性指标和所述支持度相关指标，获得每个项集的优化系数，所述变化相关性指标和所述支持度相关指标均与所述优化系数呈正相关关系。

进一步地，所述根据两类相关数据的数据变化曲线之间的变化趋势差异程度，获得对应项集的变化相关性指标，包括：

计算两类相关数据的数据变化曲线之间的皮尔逊相关系数，并将皮尔逊相关系数的绝对值作为两类相关数据之间的数据相关性指标；

在所述数据变化曲线的横坐标区间上均匀设置预设采样数量个采样点，当每个采样点对应相关数据的变化幅值为正时，将相关数据在对应采样点的特征值设为预设第一特征值；当每个采样点对应相关数据的变化幅值为负时，将相关数据在对应采样点的特征值设为预设第二特征值；

将每个采样点对应相关数据之间的特征值的差值绝对值作为每个采样点的变化特征值，统计所有采样点与下一个采样点的变化特征值不一致的数量，获得两类相关数据之间的变化差异值；

根据两类相关数据之间的数据相关性指标和变化差异值，获得对应项集的变化相关性指标，所述数据相关性指标与所述变化相关性指标呈正相关关系，所述变化差异值与所述变化相关性指标呈负相关关系。

进一步地，所述根据待调整子集之间的关联情况和优化支持度的相似情况，对待调整子集的优化支持度进行更新，包括：

获取每个待调整子集的所有子集，统计在待调整子集之间具有相同子集的数量作为待调整子集之间的重合度；

任选一个待调整子集作为目标子集，当目标子集的优化支持度小于预设优化阈值时，计算目标子集与其他大于预设优化阈值的待调整子集之间的重合度；将重合度大于预设重合阈值的待调整子集作为目标子集的调整子集；

将所有调整子集优化支持度平均值与目标子集优化支持度的比值进行归一化处理，获得目标子集的调整系数；将目标子集的优化支持度与调整系数的乘积作为目标子集更新后的优化支持度。

进一步地，所述根据每个项集对应所有子集的优化支持度，将对应项集的支持度进行优化，获得每个项集的优化支持度，包括：

获得每个项集对应所有子集的优化支持度，将每个项集的支持度与所有子集优化支持度的和值相乘，将乘积归一化处理获得每个项集的优化支持度。

进一步地，所述根据当前层级的项集的优化支持度确定当前层级的频繁项集，包括：

当每一层级的项集的优化支持度大于等于预设频繁阈值时，将对应的项集作为对应层级中的频繁项集。

进一步地，所述根据Apriori算法对最终频繁项集进行置信度判断，获得强关联规则，包括：

获得每个最终频繁项集对应子集间的置信度，将置信度小于预设置信度阈值的项从最终频繁项集中筛除，将筛除后的最终频繁项集作为强关联规则。

进一步地，所述历史数据集的获取方法包括：

将每个采集时刻获取的所有轨道车辆RAMS数据的相关数据的数据值作为一个时刻数据集，将在预设时间段上的所有时刻数据集作为历史数据集。

进一步地，所述通过优化系数将对应项集的支持度进行优化，获得每个项集的优化支持度，包括：

将每个项集中包含所有的项，在同一个时刻数据集中同时出现的频率作为每个项集的支持度；将优化系数与对应项集的支持度的乘积进行归一化处理，获得对应项集的优化支持度。

进一步地，所述每个项的支持度的获取方法：

在历史数据集中，将每个项在对应相关数据的所有项中出现的频率作为每个项的支持度。

本发明具有如下有益效果：

本发明通过对获取的历史数据集进行Apriori算法逐层迭代分析，在迭代过程中，当层级层数为2，分析项与项之间数据关联性时，不仅仅考虑每个项集对应子集的支持度差异，还通过对应相关系数之间的数据变化相关程度，获得每个项集的优化系数，对每个项集进行支持度优化，获得优化支持度。当层级层数大于2时，项集中的项数也大于2，考虑到多项数的项集受前一层级中待调整子集间相关程度的影响，可以进一步对当前层级中每个项集的支持度进行优化，但是待调节子集中存在受误差影响优化支持度不准确的情况，通过待调整子集之间的关联情况和优化支持度相似情况，对待调整子集的优化支持度进行调整，获得新的优化支持度，进一步可根据待调整子集的优化支持度调整对应项集的支持度，获得每个项集的优化支持度。在Apriori算法中，更准确的优化支持度，可以使每一层级确定的频繁项集更精确，质量更高，因此在对最终频繁项集进行置信度判断后，获得的强关联规则表征数据关联性更优，可信度更高。通过数据变化的相关程度对迭代过程中的支持度进行优化调整，使支持度可以反映更准确的数据间关联关系，得到质量更好的频繁项集，提高数据关联性分析的准确度和效率，获得可靠性更强的轨道车辆RAMS数据关联关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法流程图，该方法包括以下步骤：

S1：获取轨道车辆RAMS对应的相关数据的历史数据集；采用Apriori算法对历史数据集进行逐层搜索迭代，将每种相关数据对应的数据值作为历史数据集中的项，并获得每个项的支持度，每一层级的层数与层级中项集的项数相等。

轨道车辆RAMS数据主要包括可靠性，即产品在规定的条件和规定的时间内，完成规定功能的能力；可用性，即产品在任意随机时刻需要和开始执行任务时，处于可工作或可使用状态的程度；可维修性，即产品在规定条件下和规定时间内，按规定的程序和方法进行维修时，保持或恢复到规定状态的能力；安全性，即产品所具有的不导致人员伤亡、系统损坏、重大财产损失、不危害员工健康与环境的能力。

本发明中通过轨道交通系统获取轨道车辆RAMS数据的相关数据集，对于可靠性而言，其相关数据有故障率、平均无故障时间、失效概率，可靠度等。对于可用性而言，其相关数据有停机时间、运行时间、可用时间，可用性等。对于维修性而言，其相关数据有平均维修时间、维修间隔、维修率，维修性等。对于安全性而言，其相关数据有事故发生率、故障对安全的影响、安全保障措施，安全性能等。

Apriori算法为关联规则算法，是一种挖掘关联规则的频繁项集算法，用于发现数据集中一组项集的出现情况。它的基本思想是，如果一个项集是频繁的，那么它的所有子集也必然是频繁的，因此，Apriori算法通过推断频繁项集的超集并排除非频繁项集来加速计算过程。而在使用Apriori算法分析数据之间的关联度时，算法通过分析数据集中项的出现次数，进而获取项的支持度，而在车辆RAMS数据中，由于其所对应的相关数据往往与列车发生故障有关，而列车的故障数据往往会影响对正常项之间关联性的判断，无法有效的反映出不同项之间的关联关系，进而使得获取错误的频繁项集，影响后续数据的关联性分析精度与效率。

首先获取轨道车辆RAMS对应的相关数据的历史数据集，在本发明一个实施例中，每隔一定的时间对相关数据采集一次，例如设置时间间隔为12小时，每隔12小时进行一次数据采集，采集的时间间隔实施者可以自行调整，将每个采集时刻获取的所有轨道车辆RAMS数据的相关数据的数据值作为一个时刻数据集，每个时刻数据集反映一个时刻下的各数据之间的状况，将在预设时间段上的所有时刻数据集作为历史数据集。在本发明实施例中预设时间段为30天，具体数值实施者可以自行调整，通过对一段时间内相关数据之间的关联情况寻找正常情况下相关数据的数据值关联关系，以便后续对异常故障情况进行检测。需要说明的是，对相关数据的采集和具体相关数据的种类，实施者可根据具体的实施情况进行选取采集，例如对安全性的温度采用温度传感器进行获取等，具体采集过程为本领域技术人员熟知的公开数据采集过程，在此不做赘述。

采用Apriori算法对历史数据集进行逐层搜索迭代，其中将每种相关数据对应的数据值作为历史数据集中的一个项进行分析，在迭代中，Apriori算法基于每一项集的支持度进行频繁程度判断，优选地，本发明将历史数据集中，每个项在对应相关数据的所有项中出现的频率作为每个项的支持度。在Apriori算法逐层迭代过程中，将初始层级的层数记为1，此时每个项对应为一个项集，随着层级的层数不断增加，在新层级中的项集，由前一层级中频繁项集构成，并且项数增加一，因此每个层级的层数与层级对应项集中的项数相等。

其中，频繁项集为Apriori算法根据支持度迭代筛选出的项集，频繁项集也表征着数据的关联关系，本发明主要针对迭代过程中的支持度进行优化分析，根据相关程度自适应获得优化支持度，并不断调整优化支持度误差，获得更准确的频繁项集。需要说明的是，对于初始层级的频繁项集，将所有支持度大于预设频繁阈值的项作为频繁项集，将非频繁项集的项进行筛除，进行下一层的分析。在本发明实施例中，预设频繁阈值为0.5。

S2：在迭代过程中，当层数等于2时，获取当前层级中每个项集所有子集对应的两类相关数据；根据两类相关数据之间的数据变化相关程度和两类相关数据对应子集间的支持度差异程度，获得对应项集的优化系数；通过优化系数将对应项集的支持度进行优化，获得每个项集的优化支持度。

在对初始层级进行频繁项集筛选后，继续迭代，当层数为2时，对历史数据集中的每个项进行了初次关联，此时的项为进行初始层级筛选后的频繁项集对应的项。将层数为2的层级作为当前层级，对当前层级中的所有项集的支持度进行优化，项集的支持度为项集中包含所有的项，在同一个时刻数据集中同时出现的频率作为对应项集的支持度。需要说明的是，本发明是对不同相关数据中的数据值进行分析，因此在对项集进行扩展时，不能将同一相关数据的不同项划分至同一项集分析，避免最终结果出现同一相关数据关联的关联性错误的情况。

由于当前层级的层数为2，在当前层级中存在多个由前一层级的频繁项集组成的项集，这些项集中均包含两个项，则每个项集的支持度即为两个项同时出现的频率。对于一般情况而言，当支持度越大，说明对应两个项同时出现的频率越高，两个项的关联性就越大，但是对于车辆的相关数据来说，存在一部分数据是共同变化的，例如当项A增大时，项B减小，由于这种变化是一个周期性的变化，使得项A和项B不同数据值在数据集频率不是很高，支持度较小，但是两个数据的相关性是极强的，是具有相关变化关系，故需要对支持度根据数据变化进行优化调整，解决支持度对于变化数据在关联性分析时的参考性变弱的问题。

由于项集中的项没有排列顺序的限制，因此每个项集中的两个项对应的相关数据均为不同类的，获取当前层级中每个项集所有子集对应的两类相关数据，项集的子集即为每个项集包含的项，需要说明的是，当层级的层数为2时，每个项集的子集仅为单个项构成的集合，仅考虑每个数据值之间的相关性，并不对与每个项集相同的子集进行分析。

根据两类相关数据之间的数据变化相关程度和两类相关数据对应子集间的支持度差异程度，从两个方面分析获得对应项集的优化系数。其中，两类相关数据对应子集间的支持度差异程度，本质上就是分析对应项之间的支持度差异。

在本发明一个实施例中，获取两类相关数据在历史数据集中的数据曲线，对数据曲线进行求导获得两类相关数据的数据变化曲线，通过数据变化曲线便于对相关数据间数据的增减变化趋势进行分析。数据变化曲线所在的坐标轴上，横坐标为时间，纵坐标为相关数据的数据值的变化幅值，变化幅值的大小反映数据值的变化程度，变化幅值的正负反映数据值的变化方向。

根据两类相关数据的数据变化曲线之间的变化趋势差异程度，获得对应项集的变化相关性指标。变化相关性指标反映相关数据间变化趋势的相似情况，优选地，计算两类相关数据的数据变化曲线之间的皮尔逊相关系数，并将皮尔逊相关系数的绝对值作为两类相关数据之间的数据相关性指标，当数据相关性指标越大，说明两个数据变化曲线之间的整体变化相关性越强。需要说明的是，皮尔逊相关系数为本领域技术人员熟知的技术手段，在此不做赘述。

由于数据相关性指标是根据皮尔逊相关系数计算获取的，其反映的变化趋势没有考虑对应位置处的差异情况，因此在数据变化曲线的横坐标区间上均匀设置预设采样数量个采样点，通过每个采样点分析，可以具体对数据变化曲线的对应位置进行具体变化趋势差异的分析。

当每个采样点对应相关数据的变化幅值为正时，说明相关数据在对应采样点处的数据变化方向为正方向，数据值在增大，将相关数据在对应采样点的特征值设为预设第一特征值。当每个采样点对应相关数据的变化幅值为负时，说明相关数据在对应采样点处的数据变化方向为反方向，数据值在减小，将相关数据在对应采样点的特征值设为预设第二特征值。在本发明实施例中，预设第一特征值为1，预设第二特征值为0，具体数值实施者可自行调整，仅需保证第一特征值和第二特征值不相同，可以反映出数据值的变化情况。

需要说明的是，当采样点对应的相关数据的变化幅值为零时，属于数据变化曲线中特殊的变化，在本发明中对于数据趋势的判断并无影响，但为了避免采样点处对应变化幅值正好为零时，无法获得采样点特征值分析，在本发明实施例中，当采样点对应的变化幅值正处于零时，可将相关数据的特征值设置为预设第一特征值进行计算。在本发明其他实施例中，也可以将采样点对应变化幅值为零时的相关数据的特征值设置为预设第二特征值，在此不做限制。

将每个采样点对应相关数据之间的特征值的差值绝对值作为每个采样点的变化特征值，变化特征值反映两个相关数据之间的变化情况是否一致，例如在本发明实施例中，当变化情况一致时，变化特征值为0，当变化不一致时，变化特征值为1。统计所有采样点与下一个采样点的变化特征值不一致的数量，获得两类相关数据之间的变化差异值，当每个采样点与下一个采样点的变化特征值不一致时，说明两个采样点的变化趋势没有相关性。

例如在本发明实施例中，当采样点的变化特征值为1时，说明两个相关数据此时一个在增大，一个在减少，若下一采样点的变化特征值也为1，此时两个相关数据一个在减小一个在增大，则两处变化趋势是具有相关性的，而若下一采样点的变化特征值为0，说明此时两个相关数据均在增大或减小，与前一采样点变化趋势没有关联性。

变化差异值反映两类相关数据之间相同位置变化无相关性的程度，举例而言，当一类相关数据对应采样点的特征值为(1，1，0，0，1，1，0，0)，另一类相关数据对应采样点的特征值为(0，0，1，1，0，0，0，1)，两类相关数据共对8个采样点位置处进行分析，则采样点对应的变化特征值为(1，1，1，1，1，1，0，1)，则每个采样点与下一个采样点变化特征值不一样的数量为2，分别为举例中第6个采样点与第7个采样点，第7个采样点与第8个采样点之间的变化特征值不一样，则变化差异值为2。

根据两类相关数据之间的数据相关性指标和变化差异值，获得对应项集的变化相关性指标，数据相关性指标与变化相关性指标呈正相关关系，变化差异值与变化相关性指标呈负相关关系，在本发明实施例中，通过比值的形式反映数据相关性指标和变化差异值与变化相关性指标的关系，项集的变化相关性指标的具体表达式为：

式中，yh1表示为项集的变化相关性指标，|pex|表示为相关数据之间的数据相关性指标，m表示为相关数据之间的变化差异值，||表示为绝对值提取函数，其中数值1设置的目的是防止分母为零使公式无意义。

在本发明其他实施例中，可以运用其他简单数学运算反映数据相关性指标与变化相关性指标呈正相关关系，变化差异值与变化相关性指标呈负相关关系，例如差值等，在此不做限制。

在对相关数据之间的数据变化相关程度分析后，对子集间的支持度差异程度进行分析，将每个项集对应两个子集中项的支持度差异进行负相关映射并归一化处理，获得每个项集的支持度相关指标，在本发明实施例中，支持度差异为两个项的支持度差值绝对值，为了后续计算的准确性，支持度相关指标的具体表达式为：

yh2＝exp(-|Y_A-Y_B|)

式中，yh2表示为项集的支持度相关指标，Y_A表示为项A的支持度，Y_B表示为项B的支持度，exp()表示为以自然常数为底的指数函数，||表示为绝对值提取函数。

其中，|Y_A-Y_B|表示为项A与项B之间的支持度差异，exp(-|Y_A-Y_B|)表示为通过负数和自然常数为底的指数函数进行负相关映射并归一化处理。当支持度的差异越小时，说明两个项的出现频率越高，相关可能性越大，所以支持度相关指标越大。

根据变化相关性指标和支持度相关指标，获得每个项集的优化系数，变化相关性指标和支持度相关指标均与优化系数呈正相关关系，在本发明实施例中，将变化相关性指标和支持度相关指标相乘，将乘积作为每个项集的优化系数，当变化相关性指标和支持度相关指标越大，说明项集中对应两个子集中的项之间的关联程度越高，需要对支持度的增大程度越多，则优化系数越大。在本发明其他实施例中，可以采用其他数学运算方法反映变化相关性指标和支持度相关指标均与优化系数呈正相关关系，例如加法，幂运算等，在此不做限制。

对于当前层级中每个项集均获得对应的优化系数，通过优化系数将对应项集的支持度进行优化，可以获得每个项集的优化支持度，优选地，将优化系数与对应项集的支持度的乘积进行归一化处理，获得对应项集的优化支持度。当优化系数越大，说明对应项集的子集间相关程度越大，对项集的支持度的优化程度就越高。需要说明的是，归一化为本领域技术人员熟知的技术手段，归一化函数的选择可以为线性归一化或标准归一化等，具体的归一化方法在此不做限定。

通过数据间数据变化的相关程度对每个项集进行了优化支持度的调整，使优化支持度分析数据关联性的可靠性更强。

S3：当层级大于2时，获取当前层级中每个项集与前一层级的频繁项集相同的子集，作为对应项集的待调整子集；根据待调整子集之间的关联情况和优化支持度的相似情况，对待调整子集的优化支持度进行更新；根据每个项集对应所有子集的优化支持度，将对应项集的支持度进行优化，获得每个项集的优化支持度。

对层数为2的层级中每个项集的支持度优化后，可以进入下一层级分析，在进入下一层级分析前，需要根据优化支持度获得当前层级中的频繁项集，并将不属于频繁项集的项集进行筛除，保证层级搜索的严谨性，以便快速寻找最优数据关联性，具体获取方法在步骤S1中已进行说明。

当层级大于2时，层级对应的项集中不断关联了更多的数据，且根据Apriori算法的思想，如果一个项集是频繁的，那么它的所有子集也必然是频繁的，基于前一层频繁项集构成的当前层级的项集对应的子集也均为频繁项集。

获取当前层级中每个项集与前一层级的频繁项集相同的子集，作为对应项集的待调整子集，由于当前层级中的项集是根据待调整子集构成的，当待调整子集中，存在数据关联性强，但是由于存在误差数据或是故障数据，此时对应的频率计算变小，进而待调整子集的优化支持度出现误差时，需要进行调整。

举例而言，在前一层级中拥有频繁项集为(A，B)，(A，C)，(B，C)，(C，D)，(D，E)，但对于当前层级的项集(A，B，C)而言，子集与前一层级的频繁项集相同的子集有(A，B)，(A，C)和(B，C)三个，也即待调整子集也为(A，B)，(A，C)和(B，C)三个。已知项A与项B之间关联性较强，项A与项C之间关联性较强，故(A，B)和(A，C)的优化支持度均较大，故项B与项C之间关联性也应较强，但是由于项B和项C中的数据采集异常或是故障状态使得同时出现频率不高，进而导致(B，C)的优化支持度较小时，需要对(B，C)的优化支持度进行一定的调整。

本发明通过对具有较小优化支持度的待调整子集分析是否存在误差影响，对存在影响的待调整子集进行优化支持度的调整，根据待调整子集之间的关联情况和优化支持度的相似情况，两个条件进行判断，对待调整子集的优化支持度进行更新获得新的优化支持度。

获取每个待调整子集的所有子集，统计在待调整子集之间具有相同子集的数量，并进行归一化处理获得待调整子集之间的重合度，当重合度越高，说明待调整子集之间的相关程度越高，两个子集之间的优化支持度越相似。

任选一个待调整子集作为目标子集，当目标子集的优化支持度小于预设优化阈值时，说明目标子集很有可能为存在误差导致的优化支持度较小，计算目标子集与其他大于预设优化阈值的待调整子集之间的重合度，分析目标子集与其他优化支持度较大的待调整子集的相关程度，将重合度大于预设重合阈值的待调整子集作为目标子集的调整子集。

当存在调整子集时，说明与目标子集相关程度大的待调整子集中，存在优化支持度差异较大的情况，因此进一步通过调整子集对目标子集的优化支持度进行更新。在本发明实施例中，预设优化阈值为0.75，预设重合阈值为0.85，具体数值实施者可根据具体实施情况进行调整。

在本发明一个实施例中，将所有调整子集优化支持度平均值与目标子集优化支持度的比值进行归一化处理，获得目标子集的调整系数，通过比值反映目标子集优化支持度需要调整的程度。将目标子集的优化支持度与调整系数的乘积作为目标子集更新后的优化支持度，减小误差影响。对所有待调整子集均进行更新，获得更准确的待调整子集的优化支持度。

此时根据每个项集对应所有子集的优化支持度，将对应项集的支持度进行优化，获得每个项集的优化支持度，此时项集对应所有子集均具有进行更新后的优化支持度，因此优选地，获得每个项集对应所有子集的优化支持度，将每个项集的支持度与所有子集优化支持度的和值相乘，将乘积归一化处理获得每个项集的优化支持度，实现对具有多个项的项集进行支持度的优化。

至此，可根据Apriori算法不断通过优化支持度进行逐层迭代寻找频繁项集。

S4：根据当前层级的项集的优化支持度确定当前层级的频繁项集，当根据最大层级的频繁项集无法获得下一层级的项集时停止迭代，将最大层级的频繁项集作为最终频繁项集；根据Apriori算法对最终频繁项集进行置信度判断，获得强关联规则，将强关联规则对应的数据关联关系输入至轨道车辆控制系统中存储。

在不断迭代的过程中，每个层级中留下的项集均为根据优化支持度筛选的频繁项集，根据优化支持度确定频繁项集的方法为当每一层级的项集的优化支持度大于等于预设频繁阈值时，将对应的项集作为频繁项集，并将频繁项集以外的项集进行筛除。在本发明实施例中，预设频繁阈值为0.5。当最终层级中的频繁项集无法构成下一次迭代层级中的项集时，停止迭代，将此时最大层级中的频繁项集作为最终频繁项集，此时每个最终频繁项集对应为一个关联规则，表征一种数据关联关系。

进一步地，根据Apriori算法对最终频繁项集进行置信度判断，通过置信度可以获得数据集中的强关联规则，即在Apriori算法中通过置信度找到可信度最高，最重要的关联关系。在本发明一个实施例中，获得每个最终频繁项集对应子集间的置信度，将置信度小于预设置信度阈值的项从最终频繁项集中筛除，将筛除后的最终频繁项集作为强关联规则。强关联规则表示为项之间关联性强且可信度高的关联关系，在本发明实施例中，预设置信度阈值为0.6，实施者可根据实际情况进行调整。需要说明的是，在Apriori算法中对于置信度的计算和强关联规则判断为本领域技术人员熟知的公开计算方法，在此不做赘述。

强关联规则可以表征一种相关数据数据值的关联性，由于采集的相关数据主要用于表征轨道车辆的正常状态，因此获得的强关联规则为相关数据处于正常状态下的数据值之间的关联关系，将强关联规则对应的所有的数据关联关系输入到轨道车辆控制系统中进行存储。通过对历史数据集的自适应分析，获得更准确、质量更好的强关联规则，提高了轨道车辆RAMS数据关联性分析的效率与精度。

后续可以通过检测相关数据与轨道车辆控制系统中的数据关联关系的一致性，发现轨道车辆的异常情况，及时进行检修，提高检修效率。

综上所述，通过对获取的历史数据集进行Apriori算法逐层迭代分析，在迭代过程中，当层级层数为2，分析项与项之间数据关联性时，不仅仅考虑每个项集对应子集的支持度差异，还通过对应相关系数之间的数据变化相关程度，获得每个项集的优化系数，对每个项集进行支持度优化，获得优化支持度。当层级层数大于2时，项集中的项数也大于2，考虑到多项数的项集受前一层级中待调整子集间相关程度的影响，可以进一步对当前层级中每个项集的支持度进行优化，但是待调节子集中存在受误差影响优化支持度不准确的情况，通过待调整子集之间的关联情况和优化支持度相似情况，对待调整子集的优化支持度进行调整，获得新的优化支持度，进一步可根据待调整子集的优化支持度调整对应项集的支持度，获得每个项集的优化支持度。在Apriori算法中，更准确的优化支持度，可以使每一层级确定的频繁项集更精确，质量更高，因此在对最终频繁项集进行置信度判断后，获得的强关联规则表征数据关联性更优，可信度更高。通过数据变化的相关程度对迭代过程中的支持度进行优化调整，提高数据关联性分析的准确度和效率，获得可靠性更强的轨道车辆RAMS数据关联关系。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述方法包括：

在迭代过程中，当层数等于2时，获取当前层级中每个项集所有子集对应的两类相关数据；根据两类相关数据之间的数据变化相关程度和两类相关数据对应子集间的支持度差异程度，获得对应项集的优化系数；通过优化系数将对应项集的支持度进行优化，获得每个项集的优化支持度；

2.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述优化系数的获取方法包括：

根据两类相关数据的数据变化曲线之间的变化趋势差异程度，获得对应项集的变化相关性指标；获取两类相关数据对应每个项集的两个子集，计算两个子集的项的支持度差异进行负相关映射并归一化处理，获得每个项集的支持度相关指标；

3.根据权利要求2所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述根据两类相关数据的数据变化曲线之间的变化趋势差异程度，获得对应项集的变化相关性指标，包括：

4.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述根据待调整子集之间的关联情况和优化支持度的相似情况，对待调整子集的优化支持度进行更新，包括：

5.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述根据每个项集对应所有子集的优化支持度，将对应项集的支持度进行优化，获得每个项集的优化支持度，包括：

6.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述根据当前层级的项集的优化支持度确定当前层级的频繁项集，包括：

7.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述根据Apriori算法对最终频繁项集进行置信度判断，获得强关联规则，包括：

8.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述历史数据集的获取方法包括：

9.根据权利要求8所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述通过优化系数将对应项集的支持度进行优化，获得每个项集的优化支持度，包括：

10.根据权利要求1所述的一种基于数据挖掘的轨道车辆RAMS数据关联性分析方法，其特征在于，所述每个项的支持度的获取方法：