CN112579849A

CN112579849A - 基于全量数据的结构安全影响因素关联分析方法

Info

Publication number: CN112579849A
Application number: CN202110030762.6A
Authority: CN
Inventors: 苏辉; 焦宝; 杜续; 许丽萍; 杨石飞; 时波; 张静
Original assignee: SGIDI Engineering Consulting Group Co Ltd
Current assignee: SGIDI Engineering Consulting Group Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-03-30

Abstract

本发明公开了一种基于全量数据的结构安全影响因素关联分析方法，该关联分析方法通过基于目标结构的全量数据，融合了工程特征数据与变形监测数据，将数据集划分为若干不同风险等级的子集；进行关联分析时，先从结构安全风险等级最高的子集D₀中计算出频繁特征集S，并依次计算各频繁特征组合s在不同子集D_i中出现的概率，在此基础上计算各频繁特征组合对不同结构安全风险等级的子集D_i的提升度，以此作为关联规则评价指标得到可能影响结构安全的因素组合。本发明解决了现有关联分析方法在结构安全领域适用性较差的问题，为结构安全监测与评估提供有效的技术支持。

Description

基于全量数据的结构安全影响因素关联分析方法

技术领域

本发明属于结构安全分析技术领域，具体涉及一种基于全量数据的结构安全影响因素关联分析方法。

背景技术

关联分析是常见的数据挖掘技术，可在大规模数据集中找出变量间的关系，已在各领域较为广泛的应用。工程结构安全的影响因素复杂，对各类影响因素进行关联分析，可以有效地辅助结构安全监测与评估，及时消除结构安全隐患。

目前的面向结构安全的关联分析算法主要有以下几点不足：一是样本数据类型不全，数据集多为离散的特征数据，未考虑结构监测数据等连续类型的数据，而测值数据往往是影响结构安全的关键因素；二是数据样本覆盖不全，关联分析过程主要采用发生结构安全风险的负样本数据集，未考虑正常状态的正样本数据，无法保证关联规则与结构风险间存在相关性；三是未有定量化评价指标，多数关联分析着重于挖掘频繁项集，或仅简单地使用支持度作为各因素间关联规则的评价指标，无法保证结论的可信度。

发明内容

本发明的目的是根据上述现有技术的不足之处，提供一种基于全量数据的结构安全影响因素关联分析方法，该关联分析方法通过基于目标结构的全量数据，融合了工程特征数据与变形监测数据，将数据集划分为若干不同风险等级的子集；进行关联分析时，先从结构安全风险等级最高的子集D₀中计算出频繁特征集S，并依次计算各频繁特征组合s在不同子集D_i中出现的概率，在此基础上计算各频繁特征组合对不同结构安全风险等级的子集D_i的提升度，以此作为关联规则评价指标得到可能影响结构安全的因素组合。

本发明目的实现由以下技术方案完成：

一种基于全量数据的结构安全影响因素关联分析方法，其特征在于所述关联分析方法包括以下步骤：

（1）收集目标结构的变形监测数据；

（2）收集所述目标结构的工程特征数据；

（3）判断所述工程特征数据是否为连续值；若所述工程特征数据为连续值，则对所述工程特征数据进行离散化处理；若所述工程特征数据为非连续值，则进入下一个步骤；

（4）对所述目标结构的所述变形监测数据以及离散化处理后的所述工程特征数据进行数据融合，所述数据融合的方法为：以所述目标结构的最小单元结构为单位，将所述最小单元结构的每一条所述变形监测数据和所述工程特征数据进行结合，得到所述最小单元结构的全部数据，得到数据集D；

（5）基于所述目标结构的所述变形监测数据的取值，将数据集D划分为若干不同结构安全风险等级的子集D_i，i为0、1、2…n；

（6）对结构安全风险等级最高的子集D₀采用关联规则算法从各特征组合中挖掘频繁特征组合s，并记录频繁特征组合s在子集D₀中的出现次数N_(S，0)，将子集D₀中全部的频繁特征组合s共同组成频繁特征集S；其中，所述特征组合为至少一类所述工程特征数据的取值组合；所述特征组合在子集D₀中出现的次数大于阈值时构成频繁特征组合s；

（7）对其它子集D_i按照步骤（6）中的方法依次计算频繁特征集S中各所述特征组合s在D_i中出现的次数N_(S，i)，并计算所述特征组合s的提升度，依次作为关联规则的评价指标，其中，所述特征组合s的提升度lift_s计算方法为：

式中，N_i为子集D_i中数据的条数；

（8）筛选提升度lift_s大于阈值的特征组合s判定为对所述目标结构的安全具有影响的因素组合。

所述目标结构的所述工程特征数据包括勘察数据、设计数据、施工数据、周边环境数据以及周边活动影响数据。

对所述工程特征数据进行离散化处理的方法为：对于相应工程建设规范中有明确规定或说明的特征，按照所述工程建设规范将所述工程特征数据划分为不同的等级；所述工程特征数据中出现间隔特征的，采用自然断点分级法以将所述工程特征数据划分为不同的等级；所述工程特征数据中未出现间隔特征的，采用k-means算法将所述工程特征数据进行聚类分析并根据聚类分析结果将所述工程特征数据划分为若干离散值。

所述关联规则算法为Apriori算法、FP-growth算法、Eclat算法、Prefixspan算法中的一种。

本发明的优点是：关联分析方法基于结构的全量数据，融合了结构特征数据与监测数据（若为连续特征值需进行离散化处理），并基于结构监测数据，使用聚类算法将数据集划分为若干不同风险等级的子集；进行关联分析时，先计算出高风险子集的频繁项集，依次计算各项集在不同风险的子集下出现的概率，在此基础上计算各项集对不同结构风险等级的提升度等关联规则指标，最终得到可能影响结构安全的因素组合；解决了现有关联分析方法在结构安全领域适用性较差的问题，为结构安全监测与评估提供有效的技术支持。

附图说明

图1为本发明中基于全量数据的结构安全影响因素关联分析方法的流程示意图。

具体实施方式

以下结合附图通过实施例对本发明的特征及其它相关特征作进一步详细说明，以便于同行业技术人员的理解：

实施例：如图1所示，本实施例具体涉及一种基于全量数据的结构安全影响因素关联分析方法，适用于工民建、桥梁、隧道等各类结构工程，可为结构安全监测与评估提供辅助支持，该方法主要包括以下步骤：

（1）收集目标结构的变形监测数据，如隧道管片的收敛变形数据，以此作为判断结构安全风险的依据；目标结构的变形监测数据可以是某一时间点的测值，也可以是某段时期内的连续多次测值。其中，目标结构包括结构变形较大或已出现病害的高风险结构和结构安全风险较低的正常结构。

（2）收集目标结构的工程特征数据，该工程特征数据包括但不限于工程的勘察数据、设计数据、施工数据、周边环境数据与周边活动影响数据等。

（3）判断工程特征数据是否为连续值；若工程特征数据为连续值，则对工程特征数据进行离散化处理；若工程特征数据为非连续值，则进入下一个步骤。

其中，工程特征数据的离散化处理方法为：

对于相应工程建设规范中有明确规定或说明的特征，按照工程建设规范将工程特征数据划分为不同的等级；例如，对于连续型特征数据单桥静力触探ps值，可参照《岩土工程勘察规范》，可将其离散化为松散、稍密、中密和密实四个离散值。

对于工程特征数据中出现较明显间隔的特征的，采用自然断点分级法，以将工程特征数据划分为不同的等级；例如，某隧道工程的管片在土层中的埋置深度多位于5~15m范围内，且埋深为10m的管片数量较少，可根据埋深数据的分布情况将埋深数据离散化为5~10m与10~15m两个离散值。

对于工程特征数据中未出现明显间隔的特征的，采用k-means算法将工程特征数据进行聚类分析并根据聚类分析结果将工程特征数据划分为若干离散值。例如，某隧道工程的管片变形数据与沉降数据均无法直接采用自然断点分级法离散化，可使用k-means算法对管片变形与沉降进行聚类，根据每类数据变形与沉降的分布情况，将上述特征数据离散化为与聚类数量相同的若干个离散值。

（4）对目标结构的变形监测数据以及离散化处理后的工程特征数据进行数据融合，数据融合的方法具体为：以目标结构的最小单元结构为单位，将最小单元结构的每一条变形监测数据和工程特征数据进行结合，得到该最小单元结构的全部数据；若最小单元结构有多个变形监测数据，则将不同的变形监测数据视作多条数据；数据融合后得到数据集D。

（5）基于目标结构的变形监测数据的取值，参考工程建设规范，将数据集D划分为若干不同结构安全风险等级的子集D_i，i为0、1、2…n。

（6）对结构安全风险等级最高的子集D₀采用关联规则算法（如Apriori算法、FP-growth算法、Eclat算法、Prefixspan算法等，前述各算法均为数据挖掘领域公知的算法，在此不再赘述）从各特征组合中挖掘频繁特征组合s，并记录频繁特征组合s在子集D₀中的出现次数N_(S，0)，将子集D₀中全部的频繁特征组合s共同组成频繁特征集S；其中，特征组合s为某一类或某几类工程特征数据的取值组合；当某特征组合在子集D₀中出现的次数大于阈值时，称其为频繁特征组合s。

（7）对其它子集D_i按照步骤（6）中的方法依次计算频繁特征集S中各特征组合s在D_i中出现的次数N_(S，i)，并计算特征组合s的提升度，依次作为关联规则的评价指标，其中，特征组合s的提升度lift_s计算方法为：

式中，N_i为子集D_i中数据的条数。

（8）筛选提升度lift_s大于阈值的特征组合s判定为对目标结构的安全具有较大影响的因素组合。

以下以某地铁隧道结构为例进行说明：

目标结构选择为地铁隧道，获取变形监测数据和工程特征数据，其中变形监测数据为隧道结构的某次监测获取的收敛测值数据，工程特征数据为与隧道结构安全相关的若干工程特征数据（包括隧道结构的地质数据、设计数据、施工数据、周边环境数据与周边活动影响数据等）。

对于取值连续的工程特征数据，结合数据的分布情况，使用自然断点分级法对其进行离散化处理。融合隧道结构离散后的工程特征数据与变形监测数据，得到数据集D。依据隧道管片收敛测值的大小，将数据集D划分为若干不同风险等级的子集D₀、D₁与D₂。

对于结构风险等级最高（即收敛测值最大）的子集D₀，采用FP-growth算法得到D₀中出现次数大于阈值的频繁特征集S，并记录S中各特征组合s出现的次数。

在本实施例中的其他子集D₁与D₂中，统计频繁特征集S中各特征组合s的出现次数，并计算提升度lift_s。下表为计算结果的示例。

影响因素组合	<i>D</i><sub><i>0</i></sub>提升度	<i>D</i><sub><i>1</i></sub>提升度	<i>D</i><sub><i>2</i></sub>提升度
				A&B	5.35	2.13	0.90
C	4.42	1.79	0.93
				D	3.63	1.32	0.94
A	2.45	1.21	0.95
				B	2.02	0.97	0.95
A、C、D	1.70	1.01	0.98

在本实施例中，认为提升度lift_s>3对应特征组合与结构风险具有相关性，即当隧道结构包含特征组合A&B、C或D时，有较高的结构安全风险。

Claims

1.一种基于全量数据的结构安全影响因素关联分析方法，其特征在于所述关联分析方法包括以下步骤：

（1）收集目标结构的变形监测数据；

（2）收集所述目标结构的工程特征数据；

（7）对其它子集D_i按照步骤（6）中的方法依次计算频繁特征集S中各所述特征组合s在D_i中出现的次数N_(S，i)，并计算所述特征组合s的提升度，以此作为关联规则的评价指标，其中，所述特征组合s的提升度lift_s计算方法为：

式中，N_i为子集D_i中数据的条数；

2.根据权利要求1所述的一种基于全量数据的结构安全影响因素关联分析方法，其特征在于所述目标结构的所述工程特征数据包括勘察数据、设计数据、施工数据、周边环境数据以及周边活动影响数据。

3.根据权利要求1所述的一种基于全量数据的结构安全影响因素关联分析方法，其特征在于对所述工程特征数据进行离散化处理的方法为：对于相应工程建设规范中有明确规定或说明的特征，按照所述工程建设规范将所述工程特征数据划分为不同的等级；所述工程特征数据中出现间隔特征的，采用自然断点分级法以将所述工程特征数据划分为不同的等级；所述工程特征数据中未出现间隔特征的，采用k-means算法将所述工程特征数据进行聚类分析并根据聚类分析结果将所述工程特征数据划分为若干离散值。

4.根据权利要求1所述的一种基于全量数据的结构安全影响因素关联分析方法，其特征在于所述关联规则算法为Apriori算法、FP-growth算法、Eclat算法、Prefixspan算法中的一种。