CN110852584B

CN110852584B - 一种基于复杂网络分析的风险识别方法

Info

Publication number: CN110852584B
Application number: CN201911043034.8A
Authority: CN
Inventors: 李大庆; 张欣予; 杨健; 陈龙; 周宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-06-10
Anticipated expiration: 2039-10-30
Also published as: CN110852584A

Abstract

本发明提供一种基于复杂网络分析的风险识别方法，其步骤包括：步骤A：找出所有需要判定风险情况的节点，并对每一个节点建立时间序列特征；步骤B：计算所有节点中每两个点的相关性，并根据相关性的结果建立风险骨干网络，计算网络拓扑特性等指标；步骤C：采用机器学习相关方法，基于上一步骤所得的风险骨干网络特征，对风险事件进行分类预测；通过以上的三个步骤完成基于复杂网络分析的风险识别；该方法的通用性强，客观度高，易于操作，解决了生活中风险难以客观衡量评估的问题。

Description

一种基于复杂网络分析的风险识别方法

技术领域

本发明提出了一种基于复杂网络分析的风险识别方法，它涉及风险识别、网络科学等技术领域。

背景技术

风险是指在某一特定环境下，在某一特定时间段内或时间点上，某种损失或不期望结果发生的可能性或不确定性。风险是一种客观存在，并且可以通过采用防范措施防止或降低风险发生导致的损失，却不能消除风险。

风险在生活中各个领域都普遍存在。比如，航海界中渔民出海打渔时有可能遭遇由于天气不佳等原因导致的空猎风险、覆船风险等；而在金融界，投资者购买股票等产品时也存在无法收回本金的风险；即使是普通群众，生活中也可能遭遇灾害带来的风险如地震、洪水、火灾等对人身安全与财产安全造成的损失与侵害。

此外，除上述对单一个体造成的风险外，风险也存在于诸多大型、复杂的系统中，这样的风险相对而言更加难以定位与识别风险因素，例如电力系统、通信网络、交通运输系统、供水系统、金融服务、公共安全等。系统整体与内部构成复杂，关键节点众多，部级连接关系多样，发生在单一节点上的风险能够通过与其他节点的连接与耦合从而进行传播与扩散，形成级联效应，从而为整个系统引入巨大的风险。

由于风险存在的普遍性及其产生的损失给人们的生活甚至社会运行都带来了巨大的影响，因此采用科学的、合理的方法对风险进行准确的评估与判断是十分必要的，尤其是针对上述系统性风险的评估。在风险识别过程中，可以采用多种操作方法，包括基于知识(Knowledge-based)的分析方法、基于模型(Model-based)的分析方法、定性分析和定量分析等。对于非单一节点的系统，充分理解和深入研究系统中各节点之间的连接关系、根据针对关键节点的风险进行度量是实现系统风险识别的重中之重。根据系统的风险划分需求，首先需确定出需要进行分析的各个节点，而如何刻画各节点之间在系统中的连接关系，成为了本发明的重点。

以往无论是基于流行性疾病的风险扩散分析、基于网络拓扑结构的风险传播阈分析还是基于级联失效的风险传播过程分析，都较少将系统在各个时段或时点上的特征进行关联与对比分析，因此上述方法虽然能够针对系统风险进行定量或定性的评估，却是缺少时间动态性特征的。而已有研究表明，系统的风险传播过程在时间上存在相关性，某些节点的风险属性在时间领域中的传播影响亦不容小觑。

本发明首先根据某系统的风险情况判定需求，确定需要判定风险的种类并命名，随后根据该风险的需求确定系统中所有需要判断风险情况的节点，并提取节点的时间序列特征以及确定各个节点的风险变化周期，得到一个最小的公共周期，随即提取基于该公共周期的节点时间序列特征。接着，本发明根据已提取出的时间序列特征，对各节点之间的相似性进行计算，并根据系统的实际情况与该风险的相应情况进行相似性阈值确定，之后将相似性大于阈值的两节点进行连边，建立针对某风险的风险骨干网络，计算网络拓扑特性等指标，最后应用机器学习方法，基于风险网络特征，对某风险进行风险事件分类预测，对该系统中此风险网络所描述的风险及其风险事件进行识别与评价。

本专利通过引入时间序列特征进行节点的相关性计算与分析，考虑到风险传播的时延性，能够评估各个系统节点的时序风险大小，具有较好的通用性及创新性。基于以上的方法基础及现实的意义提出了一种基于复杂网络分析的风险识别方法。

发明内容

(一)发明的目的

本发明主要用于解决在复杂系统与网络结构背景下的风险识别问题，现有的方法大多是使用基于流行性疾病的风险扩散分析、基于网络拓扑结构的风险传播阈分析以及基于级联失效的风险传播过程分析，而这些方法都未将系统在各个时段或时点上的特征进行关联与对比分析，缺少时间动态性特征。因此针对于现有方法的不足，本专利提出了一种基于复杂网络分析的风险识别方法。

通过使用该方法实现在非单一部件、非单一节点系统中的风险网络构建与风险识别，将系统单元/节点的时间序列特征通过合理移动与统一从而加入风险识别方法中，进而能够实现针对节点的时序风险网络分析，发现风险网络关键节点，从而为后续的风险传播抑制与阻断手段提供信息支持。

(二)技术方案

为了实现上述目的，本发明的方法所采用的技术方案是：一种基于复杂网络分析的风险识别方法。

本发明所述的一种基于复杂网络分析的风险识别方法是一种应用复杂网络建模的思想，将风险根据其互相间的相关性的强弱建立网络，并随后应用网络的思想及理论对风险指标进行度量评估。

本发明所述的“一种基于复杂网络分析的风险识别方法”，其步骤如下：

步骤A：找出所有需要判定风险情况的节点，并对每一个节点建立时间序列特征；

步骤B：计算所有节点中每两个点的相关性，并根据相关性的结果建立风险骨干网络，计算网络拓扑特性等指标；

步骤C：采用机器学习相关方法，基于上一步骤所得的风险骨干网络特征，对风险事件进行分类预测；

通过以上步骤，可以实现基于复杂网络分析的风险识别的目的，该方法的通用性强，客观度高，易于操作，解决了生活中风险难以客观衡量评估的问题。

其中，步骤A中所述的“找出所有需要判定风险情况的节点，并对每一个节点建立时间序列特征”，其做法如下：首先确定需要判定风险的种类，并将该风险命名需判定风险(即risk风险)；根据risk风险分析的需求确定出所有需要判断风险情况的节点个数m，并对这些节点分别命名为n₁,n₂,...,n_m，提取所有节点的risk风险随时间变动的信息，并依据这些信息确定出每一个节点的risk风险的时间序列特征(即time_serie_i)，分别命名为time_serie₁,time_serie₂,...,time_serie_m，

以上所述过程的具体步骤如下：

步骤A1：根据risk风险的需求，确定出于该风险有关系或者需要进行该风险判定的所有节点的个数，并将这些节点分别命名为n₁,n₂,...,n_m，其中n_i表示的是第i个节点的名称(time_serie_i表示的是第i个节点的时间序列特征)，后续的表达也将延续该表达方式；

步骤A2：根据所有节点的risk风险随时间变化的情况确定出每一个节点的risk风险变化周期(即T_i)，分别为T₁,T₂,...,T_m，根据每一个节点周期的不同，求出最小的公共周期(即T_common)；

(对于一般的风险相关的节点极有可能出现T₁＝T₂＝...＝T_m＝T_common的情况)；

步骤A3：针对于节点n_i，针对于周期T_i及该节点的risk风险随时间变动的信息，得到周期T_i内的时间序列特征；

步骤A4：计算公共周期T_common与节点n_i的周期T_i的关系，将节点n_i的在周期T_i内的时间序列特征重复放置到公共周期T_common内，得到节点n_i周期T_common内的时间序列特征t-character_i；

步骤A5：针对于所有节点重复步骤A3、A4，直到完成所有节点的时间序列特征的提取。

其中，步骤B中所述的“计算在该风险识别情景下所有节点中每两个点的相关性，根据相关性的结果建立风险骨干网络，计算网络拓扑特性等指标”，其做法如下：首先对于所有的节点中遍历抽取两个节点，并将其对应的时间序列特征进行相似性计算，随后根据所有节点之间的相似性值的情况确定阈值，将两点之间的相似性系数大于阈值的建立两个节点之间的连边，通过遍历完成了risk风险骨干网络的建立，随后计算风险骨干网络的属性；以上所述过程的具体步骤如下：

步骤B1：确定时间序列特征的统计时间窗的长度t-window，随后将公共周期T_common分为w段，其中

步骤B2：针对于每一个节点的时间序列特征t-character_i，根据公共周期T_common分段的情况，分别计算risk风险在每一个分段中风险的平均值，并将该平均值作为该分段的特征值，于是可以得到数组(average_i1,average_i2,...,average_iw)作为节点n_i的时间序列分段特征向量，并命名为character_i，遍历所有节点可以得到所有节点的时间序列分段特征向量；

步骤B3：从所有的节点中提取出两个节点n_x与n_y以及与之对应的时间序列分段特征向量character_x与character_y；

步骤B4：利用皮尔逊系数的计算方法计算节点n_x与n_y的时间序列分段特征向量character_x与character_y，并将结果记录为sim_0_x,y(由于皮尔逊系数的计算方法是常用计算相似性的方法，因此不针对该方法的计算过程进行详细说明)；

步骤B5：由于针对不同节点之间的风险传递可能会存在时延，因此针对于该问题，对于节点n_x与n_y的时间序列分段特征向量character_x与character_y计算相似度的过程中也需要考虑这样的问题；保持节点n_x的时间序列分段特征向量character_x不变，将n_y的时间序列分段特征向量character_y逐次循环后移I个元素，随后得到n_y移动后的时间序列分段特征向量character_I_y(该过程是将向量character_y的第I个元素之后的所有元素向前移动I，将前I个元素向后移动w-I得到新的向量为character_I_y)。从1到w逐个遍历得到节点n_y移动后的时间序列分段特征向量character_I_y；

步骤B6：将节点n_x的时间序列分段特征向量character_x与n_y移动I单位时间序列分段特征向量character_I_y进行皮尔逊系数的求解，并将结果表示为sim_I_x,y；依据以上过程从1到w逐个遍历，得到不同的移动情况下的两节点的相似系数，比较所得的节点n_x与n_y的所有相似性指数(包括sim_0_x,y和sim_I_x,y)的大小，选出最大的值max_sim_I_x,y及其对应的移动值；

步骤B7：遍历所有节点中的两两节点的组合(区分顺序)，重复步骤B3-B6，得到所有两两节点的最大相关系数max_sim_I_i,j；

步骤B8：设定相关性阈值threshold_cor，将所有的节点间相似性的最大值max_sim_I_i,j中大于阈值threshold_cor的建立节点n_i与节点n_j的有向连边，遍历所有节点组合的相关性情况，完成risk风险的骨干网络建立；

步骤B9：对risk风险的骨干网络计算其平均路径长度(即average_path_length)、聚类系数(即clustering_coefficient)、度分布(即degree_distribution)等风险网络特征；

其中，步骤C中所述的“采用机器学习相关方法，基于上一步骤所得的风险骨干网络特征，对风险事件进行分类预测”，其具体做法如下：首先根据上一步骤计算所得风险骨干网络结构特征情况划分风险阈值，随后依据这些指标将不同的但不仅限于：交通网络中可能造成拥堵风险的交通事故进行风险的分类预测，以上所述过程的具体步骤如下：

步骤C1：分别设定平均路径长度指标的风险事件划分阈值(即threshold_{average_path_length})、聚类系数指标的风险事件划分阈值(即threshold_{clustering_coefficient})、度分布指标的风险事件划分阈值(即threshold_{degree_distribution})等，判定该risk风险的骨干网络的平均路径长度average_path_length、聚类系数clustering_coefficient及度分布degree_distribution是否符合风险事件划分阈值标准，其中该risk风险例如但不仅限于交通复杂网络中的拥堵风险；

步骤C2：基于上述结构特征指标，构建risk风险骨干网络风险事件分类指标(即risk_category)

risk_category＝F(a₁,a₂,a₃,…，average_path_length,clustering_coefficient,degree_distribution) (1)

其中a₁,a₂,a₃，……为参数，针对不同的复杂网络，参数的取值与定义可作相应调整，(例如但不仅限于：交通网络中a₁,a₂,a₃，……可分别取“交通信号灯数量”，“路段数量”，“路段流量平均速度”，……)根据实际risk风险可能出现的情况，将风险事件分类指标risk_category划定为不同的类别，(例如但不仅限于交通网络拥堵风险事件可被划分为轻度、中度、重度三类拥堵情况)通过该指标可判定此risk风险整体属于何种组织结构，并对该risk风险进行相应的类别划分。

步骤C3：将风险骨干网络的特征划分测试集与训练集，输入采用的具体机器学习分类模型(包括但不仅限于聚类方法)，根据risk_category的数量设定分类类目数量(例如但不仅限于交通网络拥堵风险事件可被划分为轻度、中度、重度三类拥堵情况)，随后对该机器学习分类模型进行模型训练集的拟合、分类模型的参数调整与模型效果验证评估，最后输出对上述特征描述的risk风险(例如但不仅限于交通网络拥堵风险)进行分类预测结果。

(三)优点创新

本发明具有如下的创新点：

1、通用性强：本专利并不是针对于某一个特定的系统进行的基于复杂网络分析的风险识别方法，而是一种对于各类系统通用的基于复杂网络分析的风险识别方法，因此具有较好的通用性。

2、可移植性好：本专利并没有指定系统节点的时间序列特征内容以及各个时间序列特征与公共时间周期的关系计算方式，因此在具体的不同系统中可以根据实际情况的需要进行特征的删减与计算方法的调整，因此具有很好的可移植性。

3、客观性强：本专利通过引入时间序列的风险特征，提升了该方法的适用性，能够更加客观的进行风险识别。

4、系统性强：本专利是站在整体系统的角度上进行的基于网络方法的风险识别，因此能够把握全局信息的变化，同时发现对于系统全局风险情况具有重要影响的节点，具有良好的系统性。

综上，这种基于复杂网络分析的风险识别方法能够结合时间相关的风险因素与变化，更好地发现系统中的高风险节点，能够弥补现有方法的不足。

附图说明

图1是本发明所述方法框架流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案更加清楚，下面将结合附图及具体实施案例进行详细描述。应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

本发明的目的在于解决在复杂系统与网络结构背景下的风险识别问题，现有的方法很少从去全局系统的角度考虑风险识别的问题，评估的方法在局部的评估效果较好，但是对于全局风险的评估对于经验的要求比较高，当全局分割解耦方法较好时得到的风险识别结果也相对较好，一旦出现解耦效率较低的情况时传统方法对于风险识别的方法短板就成为了致命的缺陷。因此基于现有方法的不足，本专利从全局系统的角度出发，实现基于复杂网络分析的风险识别。该方法拥有通用性强、可移植性好、客观性强、系统性强等特点。下面结合附图说明及具体实施方式对本发明进一步说明。

本发明实施例以某风险识别情景为例，阐述本发明方法。

本发明所述的“一种基于复杂网络分析的风险识别方法”，该方法框架流程图如图1所示，其具体步骤如下：

步骤A：找出在该风险识别情景下所有需要判定风险情况的节点，并对每一个节点建立时间序列特征；

步骤B：计算在该风险识别情景下所有节点中每两个点的相关性，并根据相关性的结果建立风险骨干网络,计算该风险骨干网络的拓扑特性等指标；

步骤C：采用机器学习相关方法，基于风险骨干网络特征，对风险事件进行分类预测；

其中，步骤A中所述的“找出在该风险识别情景下所有需要判定风险情况的节点，并对每一个节点建立时间序列特征”，其做法如下：首先确定需要判定风险的种类，并将该风险命名为risk风险。根据risk风险分析的需求确定出所有需要判断风险情况的节点个数m，并对这些节点分别命名为n₁,n₂,...,n_m，提取所有节点的risk风险随时间变动的信息，并依据这些信息确定出每一个节点的risk风险的时间序列特征，分别命名为time_serie₁,time_serie₂,...,time_serie_m，以上所述过程的具体步骤如下：

步骤A2：根据所有节点的risk风险随时间变化的情况确定出每一个节点的risk风险变化周期，分别为T₁,T₂,...,T_m，根据每一个节点周期的不同，求出最小的公共周期T_common(对于一般的风险相关的节点极有可能出现T₁＝T₂＝...＝T_m＝T_common的情况)；

步骤B6：将节点n_x的时间序列分段特征向量character_x与n_y移动I单位时间序列分段特征向量character_I_y进行皮尔逊系数的求解，并将结果表示为sim_I_x,y。依据以上过程从1到w逐个遍历，得到不同的移动情况下的两节点的相似系数，比较所得的节点n_x与n_y的所有相似性指数(包括sim_0_x,y和sim_I_x,y)的大小，选出最大的值max_sim_I_x,y及其对应的移动值；

其中，步骤C中所述的“采用机器学习相关方法，基于风险骨干网络特征，对风险事件进行分类预测”，其具体做法如下：首先根据上一步骤计算所得风险骨干网络结构特征情况划分风险阈值，随后依据这些指标将不同的但不仅限于：交通网络中可能造成拥堵风险的交通事故进行风险的分类预测，以上所述过程的具体步骤如下：

Claims

1.一种基于复杂网络分析的风险识别方法，其特征在于：其步骤如下：

步骤A：找出所有需要判定风险情况的节点，并对每一个节点建立时间序列特征；确定需要判定风险的种类，并将该风险命名需判定风险即risk风险；

其中，在步骤C中所述的“采用机器学习相关方法，基于上一步骤所得的风险骨干网络特征，对风险事件进行分类预测”，首先根据上一步骤计算所得风险骨干网络结构特征情况划分风险阈值，随后依据这些指标将不同的交通网络中可能造成拥堵风险的交通事故进行风险的分类预测，以上所述过程的具体步骤如下：

步骤C1：分别设定平均路径长度指标的风险事件划分阈值即threshold_{average_path_length}、聚类系数指标的风险事件划分阈值即threshold_{clustering_coefficient}、度分布指标的风险事件划分阈值即threshold_{degree_distribution}，判定该risk风险的骨干网络的平均路径长度average_path_length、聚类系数clustering_coefficient及度分布degree_distribution是否符合风险事件划分阈值标准；

步骤C2：基于上述结构特征指标，构建risk风险骨干网络风险事件分类指标即risk_category；

risk_category＝F(a₁,a₂,a₃,…，average_path_length,clustering_coefficient,degree_distribution)

(1)

其中a₁,a₂,a₃，……为参数，针对不同的复杂网络，参数的取值与定义作相应调整，交通网络中a₁,a₂,a₃，……分别取“交通信号灯数量”，“路段数量”，“路段流量平均速度”；根据实际risk风险出现的情况，将风险事件分类指标risk_category划定为不同的类别，交通网络拥堵风险事件可被划分为轻度、中度、重度三类拥堵情况，通过该指标能判定此risk风险整体属于何种组织结构，并对该risk风险进行相应的类别划分；

步骤C3：将风险骨干网络的特征划分测试集与训练集，输入采用的具体机器学习分类模型，根据risk_category的数量设定分类类目数量，交通网络拥堵风险事件被划分为轻度、中度、重度三类拥堵情况，随后对该机器学习分类模型进行模型训练集的拟合、分类模型的参数调整与模型效果验证评估，最后输出对上述特征描述的risk风险，进行分类预测结果。

2.根据权利要求1所述的一种基于复杂网络分析的风险识别方法，其特征在于：在步骤A中所述的“找出所有需要判定风险情况的节点，并对每一个节点建立时间序列特征”，其做法如下：根据risk风险分析的需求确定出所有需要判断风险情况的节点个数m，并对这些节点分别命名为n₁,n₂,...,n_m，提取所有节点的risk风险随时间变动的信息，并依据这些信息确定出每一个节点的risk风险的时间序列特征即time_serie_i，分别命名为time_serie₁,time_serie₂,...,time_serie_m，以上所述过程的具体步骤如下：

步骤A1：根据risk风险的需求，确定出于该风险有关系及需要进行该风险判定的所有节点的个数，并将这些节点分别命名为n₁,n₂,...,n_m，其中n_i表示的是第i个节点的名称，后续的表达也将延续该表达方式；

步骤A2：根据所有节点的risk风险随时间变化的情况确定出每一个节点的risk风险变化周期即T_i，分别为T₁,T₂,...,T_m，根据每一个节点周期的不同，求出最小的公共周期即T_common；

3.根据权利要求1所述的一种基于复杂网络分析的风险识别方法，其特征在于：在步骤B中所述的“计算所有节点中每两个点的相关性，并根据相关性的结果建立风险骨干网络，计算网络拓扑特性等指标”，其做法如下：首先对于所有的节点中遍历抽取两个节点，并将其对应的时间序列特征进行相似性计算，随后根据所有节点之间的相似性值的情况确定阈值，将两点之间的相似性系数大于阈值的建立两个节点之间的连边，最后通过遍历完成了risk风险骨干网络的建立，随后计算风险骨干网络的属性；以上所述过程的具体步骤如下：

步骤B1：确定时间序列特征的统计时间窗的长度即t-window，随后将公共周期T_common分为w段，其中

如果w为非整数则进行取整处理；

步骤B2：针对于每一个节点的时间序列特征即t-character_i，根据公共周期T_common分段的情况，分别计算risk风险在每一个分段中风险的平均值，并将该平均值作为该分段的特征值，于是能得到数组即(average_i1,average_i2,...,average_iw)作为节点n_i的时间序列分段特征向量即character_i，遍历所有节点能得到所有节点的时间序列分段特征向量；

步骤B4：利用皮尔逊系数的计算方法计算节点n_x与n_y的时间序列分段特征向量character_x与character_y，并将结果记录为节点n_x与n_y的时间序列分段特征向量character_x与character_y的相似性即sim_0_x,y；

步骤B5：由于针对不同节点之间的风险传递有可能会存在时延，因此针对于该问题，对于节点n_x与n_y的时间序列分段特征向量character_x与character_y计算相似度的过程中也需要考虑这样的问题；保持节点n_x的时间序列分段特征向量character_x不变，将n_y的时间序列分段特征向量character_y逐次循环后移I个元素，随后得到n_y移动后的时间序列分段特征向量character_I_y，该过程是将向量character_y的第I个元素之后的所有元素向前移动I，将前I个元素向后移动w-I得到新的向量为character_I_y；从1到w逐个遍历得到节点n_y移动后的时间序列分段特征向量character_I_y；

步骤B6：将节点n_x的时间序列分段特征向量character_x与n_y移动I单位时间序列分段特征向量即character_I_y进行皮尔逊系数的求解，并将结果表示为sim_I_x,y；依据以上过程从1到w逐个遍历，得到不同的移动情况下的两节点的相似系数，比较所得的节点n_x与n_y的所有相似性指数sim_0_x,y和sim_I_x,y的大小，选出最大的值max_sim_I_x,y及其对应的移动值；

步骤B7：遍历所有节点中的两两节点的组合，重复步骤B3-B6，得到所有两两节点的最大相关系数max_sim_I_i,j；

步骤B9：对risk风险的骨干网络计算其平均路径长度，即average_path_length、聚类系数即clustering_coefficient和度分布即degree_distribution风险网络特征。