CN115330177A - 一种基于因果学习的城市公共设施安全风险评估方法 - Google Patents

一种基于因果学习的城市公共设施安全风险评估方法 Download PDF

Info

Publication number
CN115330177A
CN115330177A CN202210953424.4A CN202210953424A CN115330177A CN 115330177 A CN115330177 A CN 115330177A CN 202210953424 A CN202210953424 A CN 202210953424A CN 115330177 A CN115330177 A CN 115330177A
Authority
CN
China
Prior art keywords
risk assessment
monitoring target
risk
target
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210953424.4A
Other languages
English (en)
Other versions
CN115330177B (zh
Inventor
刘克会
王艳霞
邓楠
徐栋
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Science And Tech Research Inst
Original Assignee
Beijing Science And Tech Research Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Science And Tech Research Inst filed Critical Beijing Science And Tech Research Inst
Priority to CN202210953424.4A priority Critical patent/CN115330177B/zh
Publication of CN115330177A publication Critical patent/CN115330177A/zh
Application granted granted Critical
Publication of CN115330177B publication Critical patent/CN115330177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于因果学习的城市公共设施安全风险评估方法,包括有以下步骤:ST一、数据收集;ST二、因果影响因素(特征)发现;ST三、利用ST二选择的特征进行机器学习,用于风险评估,本发明涉及城市安全风险评估技术领域。本发明,解决了传统的城市基础设施风险评估方法通常不具备一般化的基础设施安全风险分析能力,同时,针对某项灾害故障风险,通常存在大量低相关度与无关特征,低相关度与无关特征可能对现有方法造成较大干扰,难以准确获取精确有效的风险评估结果的问题。

Description

一种基于因果学习的城市公共设施安全风险评估方法
技术领域
本发明涉及城市安全风险评估技术领域,特别是涉及一种基于因果学习的城市公共设施安全风险评估方法。
背景技术
城市基础设施的故障灾害风险评估是支持城市正常运转和预防重大公共安全危害事件的必要技术需求。当前随着城市规模不断扩大和城市设施功需求愈加多样、复杂。影响城市基础设施安全和正常运转的因素复杂且覆盖领域广泛,基础设施的故障与灾害风险从“自然风险”向“多灾种综合风险”转变,即由“因素的综合”向“灾种的综合”转变。城市基础设施之间,不同灾种的安全风险因素并非是独立的,其间存在复杂的关联性,不同的影响因素可能直接或间接的导致城市公共设施安全的事件发生。在该场景下,对于某类灾害故障风险的判定,需要在影响城市基础设施的复杂因素中针对性的挖掘某类风险的直接影响因素和间接影响因素,并去除复杂环境中的无关因素,进而减小风险评估中影响因素的复杂性,精确高效的进行评估。另外,现有方法往往没有考虑到不同风险因素之间的有序关系,使得对风险因素进行评估是造成偏差。
对于与本发明相关的专利,中国专利申请CN201710987066.8提出了一种城市公共设施安全预警系统,包括数据采集模块、通信模块和云平台,其中数据采集模块用于采集影响城市公共安全的自来水网数据,通信模块用于将采集到的自来水网数据传送到云平台,云平台用于根据自来水网数据进行自来水网风险管理,并根据风险管理情况发出设施安全预警。
与本发明相关的方案还有中国专利申请CN201910115172.6,该发明提供了一种设施安全管控方法。其通过将待监控设施区域的二维地图图像及三维场景图像发送给安全管控人员当前使用的用户终端进行可视化展示,以使管控人员基于所述用户终端对分布设置在待管控设施区域内的各安全业务子系统进行集中式管理,从而降低监控设施区域的管控难度,提高整个安全管控过程的管控效率。
另外,中国专利申请CN201710813082.5公开了一种市政信息分析及安全评估管理系统,涉及市政分析管控系统领域。其包括用于进行地理信息交互的空间地理数据库;包括用于进行市政管线信息管理的地下管网数据库;包括用于对设备传感信息/信号进行分析处理存储的物联网采集数据库;包括用于市政工程数据信息参照分析的市政行业数据库。该发明通过市政设施安全评估管理系统获取空间地理数据库、物联网采集数据库以及市政行业数据库的相应综合数据信息,以及通过市政管网安全评估子系统对地下管网进相应的安全评估,对市政综合设施进行实时高效的安全评估处理操作,从而降低市政设施的事故率和危险性。
中国专利申请CN201510161940.3发明了一种排水设施安全保护分级智能判定方法,其根据影响排水设施安全保护的第一至四级指标因素,根据各项因素在排水设施安全风险中所占影响权重与排水设施所处的具体环境,通过模糊综合评判法判别不同因素下或多项因素组合下的排水设施风险等级,并提供对应的排水设施安全保护的具体措施,减少了排水设施安全保护分级评价中的主观性,减少了计算工作量,提高了对应的排水设施安全保护的具体措施的准确性。
传统的城市基础设施风险评估方法是通过采集各类数据,并在某种特定的指标体系中对特定风险的相关指标进行分析,从而对设施对象或所处场景、环境的风险系数进行评估,给出设施故障灾害风险预测结果。这种评估系统通常不具备一般化的基础设施安全风险分析能力,仅仅针对多维城市设施安全风险评估体系下的某一子分支进行单一维度的风险评估,评估范围受限,难以对复杂的城市基础设施风险因素进行多方面的有效评估。同时,由于城市设施安全风险影响因素的复杂性,针对某项灾害故障风险,通常存在大量低相关度与无关特征,低相关度与无关特征可能对现有方法造成较大干扰,难以准确获取精确有效的风险评估结果。
发明内容
为了解决传统的城市基础设施风险评估方法通常不具备一般化的基础设施安全风险分析能力,仅仅针对多维城市设施安全风险评估体系下的某一子分支进行单一维度的风险评估,评估范围受限,难以对复杂的城市基础设施风险因素进行多方面的有效评估,同时,由于城市设施安全风险影响因素的复杂性,针对某项灾害故障风险,通常存在大量低相关度与无关特征,低相关度与无关特征可能对现有方法造成较大干扰,难以准确获取精确有效的风险评估结果的问题,本发明的目的是提供一种基于因果学习的城市公共设施安全风险评估方法。
为了实现上述目的,本发明采用如下技术方案:一种基于因果学习的城市公共设施安全风险评估方法,包括有以下步骤:
ST一、数据收集:
步骤a1,通过搜集某一段时间的城市公共设施风险相关信息,作为设施评估的原始数据;
ST二、因果影响因素(特征)发现:
步骤b1,令T表示风险评估结果,风险评估结果T发现其影响因素集合PC;
步骤b2,使用直接因果集合发现算法寻找风险评估目标T的直接因果集合PC;
ST三、利用ST二选择的特征进行机器学习,用于风险评估:
步骤c1,城市公共设施的安全风险评估需要对风险评估结果进行分级;
步骤c2,构建有序logistic回归模型;
步骤c3,本步骤对有序logistic回归进行参数估计,对新的风险评估目标T的风险级别进行预测。
优选的,所述步骤a1中,原始数据记录了多种城市基础设施及其周边情况的相关信息。
优选的,所述步骤b1中,PC表示和风险评估结果T有直接因果关系的影响因素集合,首先我们初始化因果影响因素集合PC为空集。
优选的,所述步骤b2中,算法具体为:
步骤b2-1,将直接因果集合PC初始化为空集,令CanPC表示备选的可能监测目标集合,其初始包含除了T以外的所有监测目标U-{T};
步骤b2-2,本步骤发现备选的直接因果监测目标;对于每个属于备选监测目标集合CanPC的监测目标x,令Sep[X]表示x的条件集合,并利用以下公式计算Sep[X]:
Figure BDA0003790093460000041
Figure BDA0003790093460000051
Figure BDA0003790093460000052
Figure BDA0003790093460000053
其中Z是直接因果集合PC的子集,dep(T,X|Z)的作用是计算以监测目标集合Z为条件下,风险评估目标T和监测目标X的相关性;dep(T,X|Z=z)是在监测目标集合Z的状态为z的条件下,T,X的独立性分析量,其中,t表示T的可能状态数量,c表示X的可能状态数量;O(i,j)表示在所有满足Z=z的数据中,风险评估目标T的状态为i,且监测目标X状态为j的次数;E(i,j)表示在所有满足Z=z的状态中,风险评估目标T取为第i个可能值,且监测目标X取第i个可能值的期望次数;Num(Z=z)表示所有满足Z=z的数据数量;在本方法中,判断以监测目标集合Z为条件,监测目标X和监测目标Y的状态是否独立均采用上述计算dep(X,Y|Z)的做法;如果dep(X,Y|Z)<0.05,则认为以监测目标集合Z为条件,监测目标X和监测目标Y的状态是独立的;类似的,判断监测目标X和Y的状态是否独立采用计算dep(X,Y)的做法,如果dep(X,Y)<0.05,则认为监测目标X和监测目标Y的状态是独立的;该步骤接下来判断以Sep[X]为条件,风险评估目标T和监测目标X是否是独立的;如果以Sep[X]为条件,T和X独立,就从备选监测目标集合CanPC中去掉监测目标X;
步骤b2-3,对于每对属于CanPC的监测目标X,Y,如果X和Y不独立且以Y为条件,风险评估目标T的状态与X独立,就从备选监测目标集合CanPC中去掉监测目标X;
步骤b2-4,本步骤为备选监测目标计算一个相关度评分并选择相关度评分最优的监测目标作为风险评估目标T的直接因果;对于每个属于备选监测目标集合CanPC的监测目标X,计算其相应的相关度评分Score[X]为:
Score[X]=dep(T,X|Sep[X])
令Y为CanPC中相关度评分最大的监测目标,即:
Y=arg maxX∈CanPCScore[X]
将Y添加到直接因果集合PC中,并从CanPC中把Y去除;
步骤b2-5,删除直接因果集合PC中可能是错误判断的监测目标;对于PC中的任意一个监测目标X,取Z为PC-{X}的任意一个子集;如果以Z为条件,T和X独立,那么把直接因果集合PC中的监测目标X删去;
步骤b2-6,重复步骤b2-5,直到该步骤对PC中每个可能监测目标X和每个可能子集Z都进行过一次;步骤b2-7,重复步骤b2-2到步骤b2-6,直到备选监测目标集合CanPC中不再有剩余的监测目标。
优选的,所述步骤c2中,logistic回归模型的定义如下:
Figure BDA0003790093460000071
上式中xk代表上个步骤中求解的因果特征,属于与风险评估目标T有直接因果关系的监测目标集合中的元素,βk表示每个xk的相关系数,K表示监测目标集合的大小;α表示整个模型的截距,∈为误差项,一般由于测量或者观测误差引起,y*代表我们所观测到的风险评估目标T的风险程度包含的某种趋势,但是这种内在趋势不能被直接测量出来;当实际观测的反应变量,即风险评估目标T的风险级别有J种类别时(j=1,2,...,J),相应取值为y=1,y=2,...,y=J,各反应变量取值之间的关系为(y=1)<(y=2)<…<(y=J),这样一来各自变量取值共有J-1个末知的断点,这些断点将各相邻的类别划分开(如同一条线段上的点,根据某种规则找出它上面的J-1个点,将线段再分为J段);形式化的描述为:
如果y*≤μ1,那么y=1;
如果μ1<y*≤μ2,那么y=2;
...
如果μJ-1<y*,那么y=J;
其中μj表示对风险评估目标T的风险级别进行分界的数据点,合计J-1个值,且满足μ1<μ2<μ3<...<μj-1
优选的,所述步骤c3中,根据步骤c2,有序logistic回归同样可以定义为:
Figure BDA0003790093460000081
在有序logistic回归模型里面,logit函数的定义依据是反应变量的发生比;该有序回归模型的发生比的确定方式为:通过该模型里面的因子发生概率依次累积而成,可通过以下公式来预测累积概率:
Figure BDA0003790093460000082
计算出来累积概率之后,那么就可以计算某一风险评估目标T的风险级别属于某一特定类别的概率,即p(y=1),p(y=2),...,p(y=J),其具体的计算过程定义如下:
p(y=1)=p(y*≤1),
即风险评估目标T的风险级别属于类别1的概率可以利用其内在趋势小于1的概率表示,类似的,其它类别可以进行如下计算:
p(y=2)=p(y*≤2)-p(y*≤1),
p(y=3)=p(y*≤3)-p(y*≤2),
......
p(y=J)=1-p(y*≤J-1),
其中,p(y=1)+p(y=2)+…+p(y=J)=1,即风险评估目标T的风险级别一定属于J各类别之一;
有序logistic回归模型包含以下J-1个有序分类函数,对其进行同时估计
Figure BDA0003790093460000091
其中,β0j是反应变量各类中截距a和未知门槛μj的综合;利用已有的观测数据求解相关系数可得到有序logistic回归模型,即可对新的风险评估目标T的风险级别进行预测。
与现有技术相比,本发明实现的有益效果:(1)本发明提出的城市设施安全风险评估方法,能够获取与待评估风险具有高关联度的直接影响因素,利用有序回归算法,并并基于该类高关联度特征进行风险评估预测。
(2)本发明提出的方法,对复杂的设施安全风险因素进行独立性分析检验,能够过滤与与被评估灾害、故障风险无关的城市安全特征。其可以有效降低参与评估的数据维度,从而提高城市设施安全风险分析的效率。
(3)本发明提出的方法,能够适配于各类灾害、故障风险评估方法,并为其提供高质量数据基础。同时,能够从输入特征的角度上为提高风险评估方法的可解释性。
(4)本发明提出的方法能够针对不同灾害、故障风险构建有效特征集合。进而数据收集工作提供指示,有利于提高城市设施风险评估中收集数据的针对性,提升对有效数据的收集效率,尽量避免对无效数据的收集,减小数据收集成本。
(5)本发明提出的有序回归方法能够针对城市设施安全风险评估中的有序标签进行更加准确的估计,有利于提高城市设施风险评估中对风险级别的预测,提升管理效率。
附图说明
以下结合附图和具体实施方式来进一步详细说明本发明:
图1为本发明的流程的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1。
实施例1,
数据收集
步骤a1:通过搜集某一段时间的城市公共设施风险相关信息,作为设施评估的原始数据。原始数据记录了多种城市基础设施及其周边情况的相关信息,例如压力、流量、自身隐患情况、周边环境情况等信息。
因果影响因素(特征)发现
步骤b1:令T表示风险评估结果,例如一般风险、重大风险等。本步骤为风险评估结果T发现其影响因素集合PC。PC表示和风险评估结果T有直接因果关系的影响因素集合。首先我们初始化因果影响因素集合PC为空集。
步骤b2:使用直接因果发现算法寻找风险评估结果T的直接因果影响因素集合PC,该算法的详细过程为:
步骤b2-1:将直接因果影响因素集合PC初始化为空集。令CanPC表示备选的可能数据特征集合,其初始包含除了T以外的所有数据特征U-{T}。
步骤b2-2:本步骤发现备选的直接因果数据特征。对于每个属于备选数据特征集合CanPC的数据特征x,令Sep[X]表示X的条件集合,并利用以下公式计算Sep[X]:
Figure BDA0003790093460000111
Figure BDA0003790093460000112
Figure BDA0003790093460000113
Figure BDA0003790093460000114
其中Z是直接因果集合PC的子集,dep(T,X|Z)的作用是计算以数据特征集合Z为条件下,风险评估结果T和影响因素(特征)X的相关性。dep(T,X|Z=z)是在影响因素集合Z的状态为z的条件下,T,X的独立性分析量,其中,r表示T的可能状态数量,c表示X的可能状态数量。O(i,j)表示在所有满足Z=z的数据中,风险评估结果T的状态为i,且数据特征X状态为j的次数。E(i,j)表示在所有满足Z=z的状态中,风险评估结果T取为第i个可能值,且影响因素X取第j个可能值的期望次数。Num(Z=z)表示所有满足Z=z的数据数量。在本方法中,判断以数据特征集合Z为条件,数据特征X和数据特征Y的状态是否独立均采用上述计算dep(X,Y|Z)的做法。如果dep(X,Y|Z)<0.05,则认为以数据特征集合Z为条件,数据特征X和数据特征Y的状态是独立的。类似的,判断数据特征X和Y的状态是否独立采用计算dep(X,Y)的做法,如果dep(X,Y)<0.05,则认为数据特征X和数据特征Y的状态是独立的。该步骤接下来判断以Sep[X]为条件,风险评估对象T和数据特征X是否是独立的。如果以Sep[X]为条件,T和X独立,就从备选数据特征集合CanPC中去掉数据特征X。
步骤b2-3:对于每对属于CanPC的数据特征X,Y,如果X和Y不独立且以Y为条件,风险评估结果T的状态与X独立,就从备选数据特征集合CanPC中去掉数据特征X。
步骤b2-4:本步骤为备选数据特征计算一个相关度评分并选择相关度评分最优的数据特征作为风险评估结果T的直接因果。对于每个属于备选数据特征集合CanPC的数据特征X,计算其相应的相关度评分Score[X]为:
Score[X]=dep(T,X|Sep[X])
令Y为CanPC中相关度评分最大的数据特征,即:
Y=arg maxX∈CanpCScore[X]
将Y添加到直接因果集合PC中,并从CanPC中把Y去除。
步骤b2-5:删除直接因果集合PC中可能是错误判断的数据特征。对于PC中的任意一个数据特征X,取Z为PC-{X}的任意一个子集。如果以Z为条件,T和X独立,那么把直接因果集合PC中的数据特征X删去。
步骤b2-6:重复步骤b2-5,直到该步骤对PC中每个可能数据特征X和每个可能子集Z都进行过一次。
步骤b2-7:重复步骤b2-2到步骤b2-6,直到备选数据特征集合CanPC中不再有剩余的数据特征。
利用第二步选择的特征进行机器学习,用于风险评估
步骤c1:城市公共设施的安全风险评估需要对风险评估结果进行分级,例如风险级别一般分为低、一般、较大、重大的分类模型不区分结果的类别顺序,但是实际中大多数场景下的分类结果是一个有序的结果,其类别是按照不同程度划分的,即各类别之间需要有等级或程度的划分,例如城市基础设施的安全风险评估中风险评估结果T的风险级别就是一个有序的分类结果,本步骤需要针对风险评估结果T的风险级别进行标记,得到相应的类别标签。
步骤c2:构建有序logistic回归模型,也被称为累积logistic回归模型,该模型的定义如下:
Figure BDA0003790093460000141
上式中xk代表上个步骤中求解的因果影响因素,也成为因果特征,属于与风险评估结果T有直接因果关系的数据特征集合中的元素,βk表示每个xk的相关系数,K表示数据特征集合的大小。α表示整个模型的截距,∈为模型假设的误差项。y*代表我们所观测到的风险评估结果T的风险程度包含的某种趋势,但是这种内在趋势不能被直接测量出来。当实际观测的反应变量,即风险评估结果T的风险级别有J种类别时(j=1,2,...,J),相应取值为y=1,y=2,...,y=J,各反应变量取值之间的关系为(y=1)<(y=2)<...<(y=J),这样一来各自变量取值共有J-1个末知的断点,这些断点将各相邻的类别划分开(如同一条线段上的点,根据某种规则找出它上面的J-1个点,将线段再分为J段)。形式化的描述为:
如果y*≤μ1,那么y=1;
如果μ1<y*≤μ2,那么y=2;
...
如果μJ-1<y*,那么y=J;
其中μj表示对风险评估对象T的风险级别进行分界的数据点,合计J-1个值,且满足μ1<μ2<μ3<...<μJ-1
步骤c3:本步骤对有序logistic回归进行参数估计,根据步骤c2,有序logistic回归同样可以定义为:
Figure BDA0003790093460000151
在有序logistic回归模型里面,logit函数的定义依据是反应变量的发生比。该有序回归模型的发生比的确定方式为:通过该模型里面的因子发生概率依次累积而成,可通过以下公式来预测累积概率:
Figure BDA0003790093460000152
计算出来累积概率之后,那么就可以计算某一风险评估对象T的风险级别属于某一特定类别的概率,即p(y=1),p(y=2),...,p(y=J),其具体的计算过程定义如下:
p(y=1)=p(y*≤1),
即风险评估对象T的风险级别属于类别1的概率可以利用其内在趋势小于1的概率表示,类似的,其它类别可以进行如下计算:
p(y=2)=p(y*≤2)-p(y*≤1),
p(y=3)=p(y*≤3)-p(y*≤2),
......
p(y=J)=1-p(y*≤J-1),
其中,p(y=1)+p(y=2)+…+p(y=J)=1,即风险评估对象T的风险级别一定属于J各类别之一。
有序logistic回归模型包含以下J-1个有序分类函数,对其进行同时估计
Figure BDA0003790093460000161
其中,β0j是反应变量各类中截距a和未知门槛μj的综合。利用已有的观测数据求解相关系数可得到有序logistic回归模型,即可对新的风险评估结果T的风险级别进行预测,得到相应的类别标签。
实施例2,
一、数据预处理
假设输入数据一共包含6项,分别为排水状态,外力破坏程度,室外气温,燃气供应情况,室内气温,电力供应状况。每项数据都采集了5个样本。下面以电力供应状况为例,说明连续形数据的预处理步骤。假设室外气温采集到的数据样本为{1,2,-1,-2,0}。其中的最大值为2,最小值为-2,利用zero-centered方法,将室外气温中的数据归一化为{0.75,1,0.25,0,0.5}。接着,使用等距离散法,用区间划分数据。例如,将[0,1]区间划分为[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.8,1]并为区间编号1、2、3、4、5。将每个数据映射为对应区间的编号。此时,室外气温中的数据就被处理为{4,5,2,1,3}。接着,以排水状态为例,说明离散形数据的预处理步骤。假设外力破坏程度采集到的5个样本为{大,中,中,小,小}。为每个可能的数据状态选定一个数值,例如‘小’对应2,‘中’对应1,‘大’对应0。通过这种方法将外力破坏程度采集到的数据转化为{0,1,1,2,2}。令U为数据特征集合,在本例中
U={排水状态,外力破坏程度,室外气温,燃气供应情况,室内气温,电力供应状况}。
二、因果特征集合发现
步骤b1:【假设对某大型体育活动期间某体育馆周边供暖主管道破坏导致供暖中断风险进行评估,该风险等级的直接因果集合……】假设风险评估对象为供暖管道。将供暖中断事件的直接因果集合PC,协作集合SP,因果扰乱集合PCMTab初始化为空集。
步骤b2:寻找供暖中断风险的直接因果集合PC,过程如下。
步骤b2-1:将直接因果集合PC初始化为空集,将备选数据特征集合
CanPC初始化为供暖中断等级以外的数据特征构成的集合
U-(T}=(排水状态,外力破坏程度,室外气温,燃气供应情况,室内气温,电力供应状况}
步骤b2-2:发现备选的直接因果数据特征。对于备选数据特征集合CanPC中的每一个数据特征,令Sep[数据特征]表示该数据特征的条件集合,并计算Sep[数据特征]。以排水状态为例。首先,选择直接因果集合PC的一个子集Z,对于每个可能的Z的状态z,计算dep(供暖中断风险等级,排水状态|Z=z),公式为:
Figure BDA0003790093460000181
其中,r表示供暖中断风险等级的可能状态数量,c表示排水状态的可能状态数量。例如在本例中,供暖中断风险等级可取“很小”、“小”、“一般”、“较大”、“很大”五种,排水状态可取“优”,“良”,“差”三种。O(i,j)表示在所有满足Z=z的数据中,供暖中断风险等级取为第i个可能值,且排水状态取第j个可能值的次数。E(i,j)表示在所有满足Z=z的数据中,供暖中断风险等级取为第i个可能值,且排水状态取第j个可能值的期望次数,其可以由下式计算:
Figure BDA0003790093460000182
其中Num(Z=z)表示输入数据中Z状态为z的数据数量。
然后,计算dep(供暖中断风险等级评,排水状态|Z),其值可以由dep(供暖中断风险等级,排水状态|Z=z)得到:
Figure BDA0003790093460000191
上述公式的求和号表示对所有可能的Z的状态z求和。
接着,可以计算得到条件集合Sep[排水状态]:
Figure BDA0003790093460000192
用同样的方法,可以计算得到条件集合Sep[室外气温],...,Sep[电力供应状况]。如果对于某个数据特征,以Sep[数据特征]为条件,供暖中断风险等级和此数据特征是独立的,就从备选数据特征集合CanPC中去掉这个数据特征。例如对于排水状态,若有dep(供暖中断风险等级,排水状态|Sep(排水状态))=0,则从CanPC中去掉排水状态,此时CanPC变为{室外气温,燃气供应情况,室内气温,电力供应状况}。
步骤b2-3:假设室内气温和燃气供应情况不独立,且以燃气供应情况为条件,供暖中断风险等级与室内气温独立。那么从CanPC中去掉室内气温。对于每对属于CanPC的因素,均执行上述操作。此时假设CanPC去掉了室内气温变为{燃气供应情况,室外气温,电力供应状况}。
步骤b2-4:对于每个属于CanPC的数据特征,计算相应的评分Score[数据特征]。以燃气供应情况,为例:
Score[燃气供应情况]=dep(供暖中断风险等级,燃气供应情况,|Sep[燃气供应情况])
由此得到评分Score[燃气供应情况],Score[室内气温],Score[电力供应状况]。取Y是CanPC中的因素,且Score[Y]是最大的。例如,假设Score[燃气供应情况]最大,那么就取Y=燃气供应情况。将燃气供应情况添加到直接因果集合PC中,并从CanPC中把燃气供应情况去除。此时PC={燃气供应情况},CanPC={室外气温,电力供应状况}。
步骤b2-5:删除直接因果集合PC中可能是错误判断的数据特征。对于PC中的任意一个数据特征,取Z为其在PC中补集的任意一个子集。如果该数据特征和供暖中断风险等级在以Z为条件下独立,那么将该数据特征从PC中删去。例如,考虑PC中的燃气供应情况,取Z为空集,如果燃气供应情况和供暖中断风险等级独立,那么把燃气供应情况从PC中删去。假设这里不将燃气供应情况删去。
步骤b2-6:重复步骤5,直到无法利用该步骤从PC中删除某个数据特征。
步骤b2-7:重复步骤2到步骤6,直到备选目标集合CanPC为空集。此时得到的PC就是供暖中断风险等级的直接因果集合。假设通过上述方法得到PC={燃气供应情况,室外气温}。
风险评估
步骤c1:利用风险评估对象T的风险级别给数据进行有序标签,例如供暖中断风险等级分为低、一般、较大、重大4个有序类别,对应标签分别为(低:1,一般:2,较大:3,重大:4),利用p1,p2,p3,p4分别表示每一类别的概率。
步骤c2:构建有序logistic回归模型,也被称为累积logistic回归模型,定义如下:
Figure BDA0003790093460000211
其中x1代表燃气供应情况,x2代表室外气温。
步骤c3:对有序logistic模型进行参数估计,即对下面3个有序分类函数进行估计
Figure BDA0003790093460000212
Figure BDA0003790093460000213
Figure BDA0003790093460000221
估计得到参数β0j,βk即得到有序logistic模型,利用该模型即可对于数据样本进行风险评估。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种基于因果学习的城市公共设施安全风险评估方法,其特征在于,包括有以下步骤:
ST一、数据收集:
步骤a1,通过搜集某一段时间的城市公共设施风险相关信息,作为设施评估的原始数据;
ST、因果影响因素(特征)发现:
步骤b1,令T表示风险评估结果,风险评估结果T发现其影响因素集合PC;
步骤b2,使用直接因果集合发现算法寻找风险评估目标T的直接因果集合PC;
ST三、利用ST选择的特征进行机器学习,用于风险评估:
步骤c1,城市公共设施的安全风险评估需要对风险评估结果进行分级;
步骤c2,构建有序logistic回归模型;
步骤c3,本步骤对有序logistic回归进行参数估计,对新的风险评估目标T的风险级别进行预测。
2.根据权利要求1所述的一种基于因果学习的城市公共设施安全风险评估方法,其特征在于:所述步骤a1中,原始数据记录了多种城市基础设施及其周边情况的相关信息。
3.根据权利要求1所述的一种基于因果学习的城市公共设施安全风险评估方法,其特征在于:所述步骤b1中,PC表示和风险评估结果T有直接因果关系的影响因素集合,首先我们初始化因果影响因素集合PC为空集。
4.根据权利要求1所述的一种基于因果学习的城市公共设施安全风险评估方法,其特征在于:所述步骤b2中,算法具体为:
步骤b2-1,将直接因果集合PC初始化为空集,令CanPC表示备选的可能监测目标集合,其初始包含除了T以外的所有监测目标U-{T};
步骤b2-2,本步骤发现备选的直接因果监测目标;对于每个属于备选监测目标集合CanPC的监测目标X,令Sep[X]表示X的条件集合,并利用以下公式计算Sep[X]:
Figure FDA0003790093450000021
Figure FDA0003790093450000022
Figure FDA0003790093450000023
Figure FDA0003790093450000024
其中Z是直接因果集合PC的子集,dep(T,X|Z)的作用是计算以监测目标集合Z为条件下,风险评估目标T和监测目标X的相关性;dep(T,X|Z=z)是在监测目标集合Z的状态为z的条件下,T,X的独立性分析量,其中,r表示T的可能状态数量,c表示X的可能状态数量;O(i,j)表示在所有满足Z=z的数据中,风险评估目标T的状态为i,且监测目标X状态为j的次数;E(i,j)表示在所有满足Z=z的状态中,风险评估目标T取为第i个可能值,且监测目标X取第j个可能值的期望次数;Num(Z=z)表示所有满足Z=z的数据数量;在本方法中,判断以监测目标集合Z为条件,监测目标X和监测目标Y的状态是否独立均采用上述计算dep(X,Y|Z)的做法;如果dep(X,Y|Z)<0.05,则认为以监测目标集合Z为条件,监测目标X和监测目标Y的状态是独立的;类似的,判断监测目标X和Y的状态是否独立采用计算dep(X,Y)的做法,如果dep(X,Y)<0.05,则认为监测目标X和监测目标Y的状态是独立的;该步骤接下来判断以Sep[X]为条件,风险评估目标T和监测目标X是否是独立的;如果以Sep[X]为条件,T和X独立,就从备选监测目标集合CanPC中去掉监测目标X;
步骤b2-3,对于每对属于CanPC的监测目标X,Y,如果X和Y不独立且以Y为条件,风险评估目标T的状态与X独立,就从备选监测目标集合CanPC中去掉监测目标X;
步骤b2-4,本步骤为备选监测目标计算一个相关度评分并选择相关度评分最优的监测目标作为风险评估目标T的直接因果;对于每个属于备选监测目标集合CanPC的监测目标X,计算其相应的相关度评分Score[X]为:
Score[X]=dep(T,X|Sep[X])
令Y为CanPC中相关度评分最大的监测目标,即:
Y=arg maxX∈CanPCScore[X]
将Y添加到直接因果集合PC中,并从CanPC中把Y去除;
步骤b2-5,删除直接因果集合PC中可能是错误判断的监测目标;对于PC中的任意一个监测目标X,取Z为PC-{X}的任意一个子集;如果以Z为条件,T和X独立,那么把直接因果集合PC中的监测目标X删去;
步骤b2-6,重复步骤b2-5,直到该步骤对PC中每个可能监测目标X和每个可能子集Z都进行过一次;
步骤b2-7,重复步骤b2-2到步骤b2-6,直到备选监测目标集合CanPC中不再有剩余的监测目标。
5.根据权利要求1所述的一种基于因果学习的城市公共设施安全风险评估方法,其特征在于:所述步骤c2中,logistic回归模型的定义如下:
Figure FDA0003790093450000041
上式中xk代表上个步骤中求解的因果特征,属于与风险评估目标T有直接因果关系的监测目标集合中的元素,βk表示每个xk的相关系数,K表示监测目标集合的大小;α表示整个模型的截距,∈为误差项,一般由于测量或者观测误差引起,y*代表我们所观测到的风险评估目标T的风险程度包含的某种趋势,但是这种内在趋势不能被直接测量出来;当实际观测的反应变量,即风险评估目标T的风险级别有J种类别时(j=1,2,…,J),相应取值为y=1,y=2,...,y=J,各反应变量取值之间的关系为(y=1)<(y=2)<…<(y=J),这样一来各自变量取值共有J-1个末知的断点,这些断点将各相邻的类别划分开(如同一条线段上的点,根据某种规则找出它上面的J-1个点,将线段再分为J段);形式化的描述为:
如果y*≤μ1,那么y=1;
如果μ1<y*≤μ2,那么y=2;
如果μJ-1<y*,那么y=J;
其中μj表示对风险评估目标T的风险级别进行分界的数据点,合计J-1个值,且满足μ1<μ2<μ3<…<μJ-1
6.根据权利要求1所述的一种基于因果学习的城市公共设施安全风险评估方法,其特征在于:所述步骤c3中,根据步骤c2,有序logistic回归同样可以定义为:
Figure FDA0003790093450000051
在有序logistic回归模型里面,logit函数的定义依据是反应变量的发生比;该有序回归模型的发生比的确定方式为:通过该模型里面的因子发生概率依次累积而成,可通过以下公式来预测累积概率:
Figure FDA0003790093450000061
计算出来累积概率之后,那么就可以计算某一风险评估目标T的风险级别属于某一特定类别的概率,即p(y=1),p(y=2),...,p(y=J),其具体的计算过程定义如下:
p(y=1)=p(y*≤1),
即风险评估目标T的风险级别属于类别1的概率可以利用其内在趋势小于1的概率表示,类似的,其它类别可以进行如下计算:
p(y=2)=p(y*≤2)-p(y*≤1),
p(y=3)=p(y*≤3)-p(y*≤2),
……
p(y=J)=1-p(y*≤J-1),
其中,p(y=1)+p(y=2)+…+p(y=J)=1,即风险评估目标T的风险级别一定属于J各类别之一;
有序logistic回归模型包含以下J-1个有序分类函数,对其进行同时估计
Figure FDA0003790093450000062
其中,β0j是反应变量各类中截距a和未知门槛μj的综合;利用已有的观测数据求解相关系数可得到有序logistic回归模型,即可对新的风险评估目标T的风险级别进行预测。
CN202210953424.4A 2022-08-10 2022-08-10 一种基于因果学习的城市公共设施安全风险评估方法 Active CN115330177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210953424.4A CN115330177B (zh) 2022-08-10 2022-08-10 一种基于因果学习的城市公共设施安全风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210953424.4A CN115330177B (zh) 2022-08-10 2022-08-10 一种基于因果学习的城市公共设施安全风险评估方法

Publications (2)

Publication Number Publication Date
CN115330177A true CN115330177A (zh) 2022-11-11
CN115330177B CN115330177B (zh) 2024-02-13

Family

ID=83921581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210953424.4A Active CN115330177B (zh) 2022-08-10 2022-08-10 一种基于因果学习的城市公共设施安全风险评估方法

Country Status (1)

Country Link
CN (1) CN115330177B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124852A1 (en) * 2014-06-11 2017-05-04 Koninklijke Philips N.V. Personal emergency response system with predictive emergency dispatch risk assessment
CN109117974A (zh) * 2017-06-26 2019-01-01 中国电力科学研究院 一种配电网台区重过载风险评估方法和装置
CN109389795A (zh) * 2018-09-05 2019-02-26 深圳市中电数通智慧安全科技股份有限公司 动态火灾风险评估方法、装置、服务器及存储介质
CN109948932A (zh) * 2019-03-20 2019-06-28 杭州虹晟信息科技有限公司 基于大数据的风险监控分析系统
US10504028B1 (en) * 2019-04-24 2019-12-10 Capital One Services, Llc Techniques to use machine learning for risk management
US20210104330A1 (en) * 2019-10-02 2021-04-08 Kenneth Neumann Systems and methods for generating a genotypic causal model of a disease state
CN112836967A (zh) * 2021-02-03 2021-05-25 武汉理工大学 新能源汽车电池安全风险评估系统
CN113516396A (zh) * 2021-07-21 2021-10-19 苏州市冠伽安全科技有限责任公司 基于模糊层次分析的城市动态风险指数评估方法
US20220092534A1 (en) * 2020-09-18 2022-03-24 International Business Machines Corporation Event-based risk assessment
CN114282675A (zh) * 2021-12-09 2022-04-05 中国人民解放军国防科技大学 一种动态因果网络构建方法、系统及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124852A1 (en) * 2014-06-11 2017-05-04 Koninklijke Philips N.V. Personal emergency response system with predictive emergency dispatch risk assessment
CN109117974A (zh) * 2017-06-26 2019-01-01 中国电力科学研究院 一种配电网台区重过载风险评估方法和装置
CN109389795A (zh) * 2018-09-05 2019-02-26 深圳市中电数通智慧安全科技股份有限公司 动态火灾风险评估方法、装置、服务器及存储介质
CN109948932A (zh) * 2019-03-20 2019-06-28 杭州虹晟信息科技有限公司 基于大数据的风险监控分析系统
US10504028B1 (en) * 2019-04-24 2019-12-10 Capital One Services, Llc Techniques to use machine learning for risk management
US20210104330A1 (en) * 2019-10-02 2021-04-08 Kenneth Neumann Systems and methods for generating a genotypic causal model of a disease state
US20220092534A1 (en) * 2020-09-18 2022-03-24 International Business Machines Corporation Event-based risk assessment
CN112836967A (zh) * 2021-02-03 2021-05-25 武汉理工大学 新能源汽车电池安全风险评估系统
CN113516396A (zh) * 2021-07-21 2021-10-19 苏州市冠伽安全科技有限责任公司 基于模糊层次分析的城市动态风险指数评估方法
CN114282675A (zh) * 2021-12-09 2022-04-05 中国人民解放军国防科技大学 一种动态因果网络构建方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘昕: "基于结构方程模型的因果分析算法研究及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, 15 January 2020 (2020-01-15), pages 138 - 1028 *
刘晓: "基于文本挖掘的灾害多级联动分析与预测研究", 《中国博士学位论文全文数据库工程科技Ⅰ辑》, no. 2, pages 026 - 19 *
许娜: "基于数据挖掘的城市轨道交通建设项目安全风险传递研究", 《中国博士学位论文全文数据库工程科技Ⅱ辑》, no. 3, pages 033 - 7 *

Also Published As

Publication number Publication date
CN115330177B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110647539B (zh) 一种用于车辆故障的预测方法和系统
Ben-Gal Outlier detection
Li et al. Water pipe condition assessment: a hierarchical beta process approach for sparse incident data
Sullivan et al. A control chart for preliminary analysis of individual observations
Mounce et al. Pattern matching and associative artificial neural networks for water distribution system time series data analysis
CN111506478A (zh) 基于人工智能实现告警管理控制的方法
CN109583520B (zh) 一种云模型与遗传算法优化支持向量机的状态评估方法
CN111563524A (zh) 一种多站融合系统运行态势异常监测和告警合并方法
CN112506990A (zh) 一种基于时空信息的水文数据异常检测方法
Wang et al. Data-driven risk assessment on urban pipeline network based on a cluster model
CN110555477A (zh) 一种市政设施故障预测方法及装置
CN114004137A (zh) 一种多源气象数据融合与预处理方法
CN109389325B (zh) 基于小波神经网络的变电站电子式互感器状态评估方法
Wang et al. Pipe failure prediction: A data mining method
CN117196159A (zh) 基于互联网大数据分析的智慧水务分区计量系统
CN112462734B (zh) 一种工业生产设备故障预测分析方法及模型
CN107423190A (zh) 一种日志数据异常指向识别方法及装置
Ahmed et al. A novel Neutrosophic-based machine learning approach for maintenance prioritization in healthcare facilities
CN114519923A (zh) 一种电厂智能诊断预警方法和系统
CN112906288A (zh) 基于正常样本数据的开关柜状态评估方法
CN114625406A (zh) 应用开发管控方法、计算机设备、存储介质
CN117312972A (zh) 一种刮板输送机减速器健康状态识别方法
CN117113038A (zh) 城市水土流失黄泥水事件溯源方法及系统
CN110455370B (zh) 防汛抗旱远程遥测显示系统
CN115330177B (zh) 一种基于因果学习的城市公共设施安全风险评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant