CN114219228A

CN114219228A - 一种基于em聚类算法的体育场疏散评价方法

Info

Publication number: CN114219228A
Application number: CN202111405168.7A
Authority: CN
Inventors: 刘莹; 孙澄; 谭金颖; 孙立博; 甄蒙; 杨阳; 刘芳芳; 刘敏; 王欢; 唐征征
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-22

Abstract

本发明是一种基于EM聚类算法的体育场疏散评价方法，本发明采用K最邻近算法，将新发现的因素合理分类，使得在收集影响疏散因素方面更全面也可以简化庞杂的数据。影响体育场疏散因素指标权重主要以专家预测来决定，具有一定的经验惯性，不够客观，本发明采用PageRank算法加权重，使评价结果具有客观性。面对现在处理体育场疏散评价的算法在实现靠近真实结果时，越复杂，对计算需要时间成本和性能成本高的窘境，本发明提出采用EM聚合算法综合处理数据，即避免使用神经网络使算法复杂，又能高效地得出最优的体育场疏散评价结果。

Description

一种基于EM聚类算法的体育场疏散评价方法

技术领域

本发明涉及建筑安全与疏散评价技术领域，是一种基于EM聚类算法的体育场疏散评价方法。

背景技术

体育场作为大型公共建筑，其有着建造成本高、结构计算复杂、建筑多功能的特点。同时，体育场属于人群密集的场所，体育场疏散也在很大程度上影响着体育场建造成本、结构计算、功能排布。所以，对体育场准确、客观、高效的评价将不仅保证体育场内的安全疏散，还能对体育场设计在建造、结构、功能排布上提供优化建议。

现有对体育场疏散评价方法主要流程为建立因素评判集、建立评语集、确定评价指标的权重、确定评价算法、最终评价结果的确定。在建立因素评判集时，现有评价方法只取重要因素，无法做到全面研究，因为一旦因素考虑越多评价方法就复杂也越困难，亟需寻找合适的解决方法。在确定评价指标的权重时，指标权重主要以专家预测来决定，具有一定的经验惯性，不够客观，且采用单一层次分析法确定权重，导致权重计算精度不够。在确定评价算法方面，现有方法使用的算法有AHP、熵权法、灰色关联度分析法、模糊综合评价法、神经网络法、贝叶斯网络法等，这些算法在实现靠近真实结果时，算法就越复杂，对计算需要时间成本和性能成本，存在着弊端，亟需改进。

发明内容

本发明针对目前体育场评价的各种弊端，本发明的目的在于提供了一种更高效、更全面、更客观、更准确的基于EM聚类算法的体育场疏散评价方法。

本发明提供了一种基于EM聚类算法的体育场疏散评价方法，本发明提供了以下技术方案：

一种基于EM聚类算法的体育场疏散评价方法，所述方法包括以下步骤：

步骤1：建立影响体育场疏散的因素集；

步骤2：采用k最邻近算法对评判因素集进行分类处理；

步骤3：对分类完的评判因素对的体育场疏散进行量化打分，形成映射评语集；

步骤4：采用PageRank算法对评语集的数据的重要程度进行判断加权得到数据矩阵R，对应因素集计算得到加权后评语聚类簇的均值μ_j和方差Σ_i；

步骤5：将评分簇的均值μ和协方差矩阵作为期望最大化EM算法中第j个高斯模型的初始量，并引入训练集的类先验信息；

步骤6：通过EM聚合算法获取均值和方差，得到最优评分期望。

优选地，所述步骤1具体为：

将因素分为建筑设计因素、疏散设备因素、疏散管理因素和人群行为因素，建筑设计因素分为形体因素、流线因素、构成因素三个子类，疏散设备因素分为应急照明系统、灯光疏散指示系统、广播疏散系统、火灾自动报警系统四个子类，疏散管理因素分为维护管理、日常管理两个子类，人群行为因素分为惯性行为、突发行为两个子类，上述分类作为初始分类集。

优选地，所述步骤2具体为：

步骤2.1：根据输入的影响体育场疏散因素与各个初始分类集之间相似度来定义因素和初始分类集里的距离；

步骤2.2：按照距离的递增关系进行排序；

步骤2.3：选取距离最小的K个点；

步骤2.4：确定前K个点所在类别的出现频率；

步骤2.5：返回前K个点中出现频率最高的类别作为影响体育场疏散因素的预测分类。

优选地，所述步骤3具体为：

针对已经分类好的评判因素对现有的体育场进行量化打分，评分通过安全等级来评；评分采用百分制，为使评分趋于准确，将以十分作为一个区间，划分为十个等级，以此避免评分的两极分化；这十个等级分别为非常安全、比较安全、一般安全、稍微安全、稍微不安全、一般不安全、比较不安全、不安全、很不安全，对应[90，100]、[80，90]、[70，80]、[60，70]、[50，60]、[40，50]、[30，40]、[20，30]、[10，20]、[0，10]评分区间；所得到的数据集即为因素集关于安全等级评判的映射，组成体育场疏散评语聚类簇的空间矩阵N。

优选地，所述步骤4具体为：

步骤4.1：将体育场疏散评语聚类簇的空间矩阵N作为PageRank算法里的含i×j个结点的有向图，平稳分布R为这个有向图的PageRank值；

步骤4.2：令t＝0，计算

当R_t+1与R_t充分接近，令R_t+1＝R_t停止迭代；

步骤4.3：否则t＝t+1，执行步骤4.2；

步骤4.4：最后得到体育场疏散评语聚类簇的空间矩阵N的PageRank向量R；

步骤4.5：对体育场疏散评语集的数据的重要程度进行判断加权得到的数据矩阵R，通过下式表示：

步骤4.6：计算得到数据矩阵R的得到每个加权体育场疏散评语聚类簇的均值μ_j和方差Σ_i。

优选地，步骤五具体为：

将评分簇的均值μ和协方差矩阵作为期望最大化EM算法中第j个高斯模型的初始量，通过下式表示出事量θ：

θ＝{μ(θ),∑,(θ)|1≤j≤M}，

引入所述训练集的类先验信息；使用EM聚合算法综合处理体育场疏散评价数据，首先将步骤4处理得到影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R作为初始化数据，即将评分簇的均值μ_j和协方差矩阵Σ_i作为期望最大化EM算法中第j个高斯模型的初始；

构建关于所述数据矩阵R的高斯混合模型的条件密度函数,通过最大化高斯混合模型的条件密度函数中参数θ的似然函数获取E步公式和M步公式。

优选地，关于数据矩阵R中数据x的高斯混合模型的条件密度函数为：

其中，C为影响体育场疏散因素集中第k个因素类别,x为数据矩阵R中的数据,γ为期望最大化EM算法中高斯混合模型与类C间的近似度，π为类C属于期望最大化EM算法中高斯混合模型的概率，θ为唯一标识x的高斯模型的参数,包括均值和协方差，θ_j为第j个高斯模型的均值和协方差参数,p(x|j；θ)为训练子集x属于第j个高斯模型的条件概率,π_jk为C_k数据的第j个高斯模型的概率，满足

γ_jk为第j个高斯模型与C_k数据间的近似度,满足

将均值μ_j和方差Σ_i作为期望最大化EM算法中第j个高斯模型的初始代入上式可得：

。

优选地，所述步骤6具体为：

步骤6.1：输入初始化参数θ⁽⁰⁾,即为影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R的均值μ_j和方差Σ_i；

步骤6.2：执行EM聚合算法中的E步计算，利用当前参数θ^(t)计算Q函数，表达式为：

步骤6.3：执行EM聚合算法中的M步计算，极大化Q函数，求出相应的θ＝argmaxQ(θ,θ^(t))；

步骤四：重复上述步骤6.3和步骤6.3，直至收敛，输出疏散评价系统最优解。

优选地，EM迭代方程中E步按照下式得到数据矩阵R的最大期望值Z⁽ⁱ⁾：

设当t＝i时，迭代计算完成，则上式可转换成：

将均值μ_j和方差Σ_i作为期望最大化EM算法中第j个高斯模型的初始代入式(6)可得：

其中，i表示迭代次数，X表示影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R，隐变量Z表示最后体育场疏散评分结果，x⁽ⁱ⁾表示第i个加权体育场疏散评价数据的特征向量，μ_j表示第i个加权体育场疏散评价数据的均值向量，

表示第i个加权体育场疏散评价数据的协方差矩阵，p(x⁽ⁱ⁾,z⁽ⁱ⁾|μ_j，Σ_i)表示影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R的均值μ_j和方差Σ_i条件下在加权体育场疏散评价数据集属于第i个加权体育场疏散评价数据的概率，Q_i(z⁽ⁱ⁾)表示影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R的均值μ_j和方差Σ_i条件下在加权体育场疏散评价数据集属于第i个加权体育场疏散评价数据的概率值。

优选地，EM迭代方程中M步按照下式得到最大化步骤：

θ＝argmaxQ(θ,θ^(t)) (7)

将影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R的均值μ_j和方差Σ_i作为期望最大化EM算法中第j个高斯模型的初始代入式(7)可得：

本发明具有以下有益效果：

实际体育场工程项目中影响体育场疏散的因素众多，且不同项目影响因素也会可能不一样或是会发现新影响因素，本发明采用K最邻近算法，将新发现的因素合理分类，使得在收集影响疏散因素方面更全面也可以简化庞杂的数据。b.影响体育场疏散因素指标权重主要以专家预测来决定，具有一定的经验惯性，不够客观，本发明采用PageRank算法加权重，使评价结果具有客观性。c.面对现在处理体育场疏散评价的算法在实现靠近真实结果时，越复杂，对计算需要时间成本和性能成本高的窘境，本发明提出采用EM聚合算法综合处理数据，即避免使用神经网络使算法复杂，又能高效地得出最优的体育场疏散评价结果。

附图说明

图1为图1为本发明一种基于EM聚类算法的体育场疏散评价方法的流程图；

图2为本发明对于影响体育馆疏散因素初始分类集的图示表示；

图3为本发明采用k最邻近算法对新输入的因素进行分类处理的流程图；

图4为本发明采用PageRank算法对评语集的数据的重要程度进行判断加权的流程图；

图5为本发明采用EM聚合算法综合数据处理的流程图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1至图5所示，本发明为解决上述技术问题采取的具体优化技术方案是：

步骤1：建立影响体育场疏散的因素集；

所述步骤1具体为：

步骤2：采用k最邻近算法对评判因素集进行分类处理；

所述步骤2具体为：

步骤2.2：按照距离的递增关系进行排序；

步骤2.3：选取距离最小的K个点；

步骤2.4：确定前K个点所在类别的出现频率；

所述步骤3具体为：

所述步骤4具体为：

步骤4.2：令t＝0，计算

当R_t+1与R_t充分接近，令R_t+1＝R_t停止迭代；

步骤4.3：否则t＝t+1，执行步骤4.2；

优选地，步骤5具体为：

θ＝{μ(θ),∑,(θ)|1≤j≤M}，

关于数据矩阵R中数据x的高斯混合模型的条件密度函数为：

γ_jk为第j个高斯模型与C_k数据间的近似度,满足

所述步骤6具体为：

步骤6.4：重复上述步骤6.3和步骤6.3，直至收敛，输出疏散评价系统最优解。

EM迭代方程中E步按照下式得到数据矩阵R的最大期望值Z⁽ⁱ⁾：

设当t＝i时，迭代计算完成，则上式可转换成：

EM迭代方程中M步按照下式得到最大化步骤：

θ＝argmaxQ(θ,θ^(t)) (7)

EM聚合算法是一种隐变量估计方法，它首先需要输入初始化数据，然后观察预期，这两个步骤就是期望步骤，即E步，如果结果存在偏差则需重新估计参数，这被称为最大化步骤，即M步。使用EM聚合算法综合处理体育场疏散评价数据，首先将步骤四处理得到影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R作为初始化数据，即将评分簇的均值μ_j和协方差矩阵Σ_i作为期望最大化EM算法中第j个高斯模型的初始。然后构建关于所述数据矩阵R的高斯混合模型的条件密度函数,通过最大化高斯混合模型的条件密度函数中参数θ的似然函数获取E步公式和M步公式。

所述步骤6的EM聚合算法综合处理数据的算法过程为：将影响体育场疏散因素集关于安全等级评判的映射N加权处理后的数据矩阵R的均值μ_j和方差Σ_i作为期望最大化EM算法中θ的初值然后进行迭代逐渐最大化似然函数。

由Jensen不等式：

其中0≤α_i≤1

令

则有：L(θ)≥B(θ,θ⁽ⁱ⁾)

优化问题转换为：θ⁽ⁱ⁺¹⁾＝argmaxB(θ,θ⁽ⁱ⁾)去除跟θ无关的项，即：

即：

(10)

表示第i个加权体育场疏散评价数据的协方差矩阵。

以上所述仅是一种基于EM聚类算法的体育场疏散评价方法的优选实施方式，一种基于EM聚类算法的体育场疏散评价方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。