CN115204475A

CN115204475A - 一种戒毒场所安全事件风险评估方法

Info

Publication number: CN115204475A
Application number: CN202210762726.3A
Authority: CN
Inventors: 沈俊鑫; 沈冰亮; 马跃文; 尹朝敢; 王保青
Original assignee: Yunnan Drug Rehabilitation Administration; Hangzhou Hikvision Digital Technology Co Ltd; Kunming University of Science and Technology
Current assignee: Yunnan Drug Rehabilitation Administration; Hangzhou Hikvision Digital Technology Co Ltd; Kunming University of Science and Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-18

Abstract

本发明提供一种戒毒场所安全事件风险评估方法，采用融合Borderline‑SMOTE算法和Bagging算法，降低噪音少数类样本对合成样本集准确率的影响，避免合成过多冗余数据影响分类性能，最大限度降低人工合成样本带来噪音的负面影响；同时，本发明方法采用集成LightGBM‑Blending算法能有效解决类别字段过多的问题；智能分析研判评估通过计算与输入因子相联系的输入节点连接权值占全部输入节点总权值对网络输出贡献的比例大小，根据权重贡献率大小，判断输入因子对输出的影响程度，从而确定其重要性；本发明方法的目的在于提供全面、有效、稳定的戒毒场所安全事件风险评估方法。

Description

一种戒毒场所安全事件风险评估方法

技术领域

本发明涉及人工智能、大数据技术和物联网领域，特别是涉及一种戒毒场所安全事件风险评估方法。

背景技术

现有的戒毒场所安全风险管理智慧化水平仍有待进一步提高，主要表现为：一是场所重大安全风险响应不及时，戒毒场所安全研判、风险感知尚未建立完备的体系和模型，对于场所的安全风险预警和综合研判分析亟待解决；二是安全风险预警智能化效果不佳，场所安全、人员风险预测研判基本依靠民警经验，人工智能手段应用不充分；三是所情安全态势评估不智能，无法及时获取业务状态、设施设备运行状态监测数据，基于人工智能的情安全态势评估方法应用不足；四是数据利用率低，安防数据、预警数据、运维数据等没有得到充分利用，无法形成用数据管理和研判、决策闭环。

借力大数据、人工智能等高新技术发展浪潮，提升场所治理精细化水平，推动戒毒工作与社会治理、国家治理同步同向实现现代化，已成为新形势下急需回应的重大命题。大数据时代，开展戒毒场所安全风险评估，对推动新时代司法行政戒毒工作高质量发展具有十分重要的理论与现实意义。

基于戒毒所通过各种途径(综合业务系统、综合安防系统等)记录的关于戒毒人员的41个指标的数据采用大数据算法开展对戒毒人员的风险识别，面临以下3个问题：戒毒人员有风险和无风险的人员在比例上不平衡程度极高，即样本不平衡性高，会造成模型训练效果差、识别精度低；高维样本点的样本空间复杂性在给人工合成新样本增加了难度；戒毒人员行为、心理异常，安防系统捕捉人员异常风险信息识别度难度高，造成数据点在数据空间中有大量噪音点，这部分数据点对分类器有较大影响；戒毒场所安全态势评估面临大量类别字段，而类别型字段由于无法直接作为输入字段使用，往往需要进行二次加工，将进一步加大模型产生误差概率，为保证戒毒场所安全态势评估的可信度，需寻找合理策略处理大量的类别型字段。

发明内容

鉴于以上所述现有技术的缺点，本发明借助人工智能与大数据技术，采用融合Borderline-SMOTE算法和Bagging算法，降低噪音少数类样本对合成样本集准确率的影响，避免合成过多冗余数据影响分类性能，最大限度降低人工合成样本带来噪音的负面影响；同时，本发明方法采用集成LightGBM-Blending算法能有效解决类别字段过多的问题；智能分析研判评估通过计算与输入因子相联系的输入节点连接权值占全部输入节点总权值对网络输出贡献的比例大小，根据权重贡献率大小，判断输入因子对输出的影响程度，从而确定其重要性；本发明方法的目的在于提供实时、高效、智慧的戒毒场所安全事件风险评估方法。

为实现上述目的及其他相关目的，为实现上述目的及其他相关目的，本发明采用的技术方案如下：

一种戒毒场所安全事件风险评估方法，包括步骤：

S1)进行戒毒人员风险评估；

S11)输入样本集S，采用k均值聚类算法将S划分为少数类数据集S_s和多数类数据集S_m，其中x_i∈S_s，i＝1，2，3，…，L(S_s).；

S12)给定阈值T_k，计算x_i(i＝1，2，3，…，L(S_s))与多数类数据集S_m的欧氏距离d_i，若

则x_i归为安全类G_s，若

则x_i归为边界类G_e，若d_i＝T_k则x_i归为噪声类G_n；

S13)用少数类数据集S_s和多数类数据集S_m元素个数比例计算正负类样本不平衡比例后确定采样倍率，从少数类数据集S_s的元素x_i(i＝1，2，3，…，L(S_s))的k近邻中随机抽取若干个样本x_k(1≤k≤L(S_s)，k≠i)，记x_ik＝x_i+random(0，1)*(x_i-x_k)，1≤i，k≤L(S_s)，i≠k为构造的少数类新样本，将x_ik添加到少数类数据集S_s，重复步骤S13)，直到少数类数据集S_s和多数类数据集S_m元素个数比例接近1；

S14)从S中随机抽样b₁条样本，输入弱分类器A₁，作为第一个基学习器B₁；

S15)从S中有放回随机抽样b₂条样本，输入弱分类器A₂，作为第二个基学习器B₂；

S16)以S14)、S15)的方式重复n次，构建n个基学习器B₁至B_n；

S17)输入测试集T到n个基学习器进行测试，通过voting决定测试集T样本的分类结果，其中测试集T第j个样本P_j通过n个基学习器voting后，预测为多数类的票数有m票，则预测为少数类的有n-m票，若n-m≤m，则样本P_j被判定为多数类样本；反之，被判定为少数类样本；

S2)进行戒毒场所安全态势评估，按行业字段对样本集S进行划分后输入基于LightGBM算法的基分类器进行训练，再输入基于LinearBlending算法的次级学习器进行训练，形成戒毒人员风险识别模型M_f；

S3)进行智能分析研判评估；

S31)采集相应的异常行为、门禁设备异常、测温筛查、设备故障、医疗监测以及生理特征六个维度的数据，构建基于BP神经网络模型，进行网络初始化，给各连接权值分别赋一个区间(-1，1)内的随机数，设定误差函数e，给定计算精度值ε和最大学习次数M；

S32)随机选取第k个输入样本以及对应的期望输出：

S33)计算隐含层各神经元的输入和输出：

S34)利用网络期望输出和实际输出，计算误差函数对输出层的各神经元的偏导数δ_o(k)；

S35)利用输出层各神经元的δ_o(k)和隐含层各神经元的输出来修正连接权值

S36)利用隐含层各神经元的δ_h(k)和输入层各神经元的输入修正连接权值：

S37)计算全局误差：

S38)当误差达到E预设精度或者学习次数大于设定的最大次数M，则结束算法，否则，选取下一个学习样本以及对应的输出期望，返回S33)进入下一轮学习；

S39)利用训练好的神经网络模型进行预测，并计算与输入因子相联系的输入节点连接权值占全部输入节点总权值对网络输出贡献的比例大小，其中输入节点i的权重贡献率计算公式为：

式中b_i为第i个输入结点的权重贡献率，W_ij为输入层结点i与隐层结点j的连接权值，V_j为隐层结点j与输出节点的连接权值；

S4)进行所情安全态势评估，输入样本集D＝(x₁，x₂，...，x_n)，输入相似矩阵的生成方式，输入降维后的维度k₁，输入聚类方法，输入聚类后的维度k₂；

S41)根据输入的相似矩阵的生成方式构建样本的相似矩阵SS；

S42)根据相似矩阵SS构建度矩阵D，计算出拉普拉斯矩阵L；

S43)构建标准化后的拉普拉斯矩阵

S44)计算

最小的k₁个特征值所各自对应的特征向量f_a，a＝1，2，3，…，k₁；

S45)特征向量f_a，a＝1，2，3，…，k₁组成的矩阵按行标准化，最终组成L(f_a)×k₁维的特征矩阵F；

S46)对特征矩阵F中的每一行作为一个k₁维的样本，共L(f_a)个样本，用输入的聚类方法进行聚类，聚类维数为k₂；

S47)得到簇划分C(c₁，c₂，...ck₂)；

S48)计算每个簇的样本量、最终的类中心值及类中心间的距离，并以此测算各安全级别对业务执行状态以及设备运行状态具体影响因素的关注程度以及差异；

S5)进行戒治效能分析；

S51)输入戒毒人员画像分析、心理评测分析、诊断评估分析效能描述3方面的指标数据，建立XGBoost模型；

S52)用一部分历史数据和专家打分得出的效能值作为训练集训练XGBoost的效能预测模型，完成模型的训练与优化；

S53)将未打分的历史数据输入模型得出各自的效能得分，这样得到每个戒毒人员戒毒前后的效能对比，并用相对效能和绝对效能得分来得出戒毒人员的戒治效能综合指标评判体系；

S6)对S1)、S2)、S3)、S4)、S5)步骤的输出进行排序得到综合评估。

进一步地，L(S_s)为集合S_s的长度。

进一步地，L(f_a)为向量f_a的长度。

可选地，相似矩阵的生成方式是基于高斯核距离的全连接方式。

可选地，步骤S4)所述的聚类方法为K-Means。

如上所述，本发明方法提供一种戒毒场所安全事件风险评估方法，具有以下有益效果：戒毒安全风险评估数据集存在大量类别型字段，数据集具有明显的非平衡性，因此需要针对不同数据类型、决策目标研究不同人工智能安全风险评估方法。发明方法通过构建基于机器学习的大数据特征选择、分类、聚类和学习训练模型，解决大数据评价多源、多维、异构难题，解决大数据环境下戒毒安全风险评估“维数灾难”问题。首先通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本识别能力，针对戒毒大数据中心平台样本数据非平衡性及高噪声异质性，提出Borderline-SMOTEBagging集成评估方法，该集成评估方法具备良好的样本分类能力和优秀的泛化能力，能有效降低因合成样本形成的噪音所带来的负面影响，且具备良好的少数类样本识别能力。然后针对戒毒人员存在高类型差异性及评价类别型字段过多问题，为防止评估过程出现严重过拟合现象和因二次加工产生的误差，发明方法提供集成LightGBM-Blending集成评估方法，该集成评估方法通过构建以LightGBM为基础的多基分类器，避免对类别特征进行二次处理。

附图说明

图1为一实施例提供的一种戒毒场所安全事件风险评估方法结构示意图；

图2为一实施例提供的一种戒毒场所安全事件风险评估方法实施示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更清楚明白，一下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明。

在一实施例中，一种戒毒场所安全事件风险评估方法，整体架构结构如图1所示；实施流程如图2所示，包括步骤：

S1)进行戒毒人员风险评估；

S12)给定阈值T_k＝5.1，计算x_i(i＝1，2，3，…，L(S_s))与多数类数据集S_m的欧氏距离d_i，若

则x_i归为安全类G_s，若

则x_i归为边界类G_e，若d_i＝T_k则x_i归为噪声类G_n；

S13)用少数类数据集S_s和多数类数据集S_m元素个数比例计算正负类样本不平衡比例后确定采样倍率，从少数类数据集S_s的元素x_i(i＝1，2，3，…，L(S_s))的k近邻中随机抽取20个样本x_k(1≤k≤L(S_s)，k≠i)，记x_ik＝x_i+random(0,1)*(x_i-x_k)，1≤i，k≤L(S_s)，i≠k为构造的少数类新样本，将x_ik添加到少数类数据集S_s，重复步骤S13)，直到少数类数据集S_s和多数类数据集S_m元素个数比例接近1；

S14)从S中随机抽样b₁＝100条样本，输入弱分类器A₁，作为第一个基学习器B₁；

S15)从S中有放回随机抽样b₂＝20条样本，输入弱分类器A₂，作为第二个基学习器B₂；

S16)以S14)、S15)的方式重复n＝10次，构建n＝10个基学习器B₁至B_n；

S17)输入测试集T到n＝10个基学习器进行测试，通过voting决定测试集T样本的分类结果，其中测试集T第j个样本P_j通过n＝10个基学习器voting后，预测为多数类的票数有m票，则预测为少数类的有n-m票，若n-m≤m，则样本P_j被判定为多数类样本；反之，被判定为少数类样本；

S3)进行智能分析研判评估；

S31)采集相应的异常行为、门禁设备异常、测温筛查、设备故障、医疗监测以及生理特征六个维度的数据，构建基于BP神经网络模型，进行网络初始化，给各连接权值分别赋一个区间(-1，1)内的随机数，设定误差函数e，给定计算精度值ε＝1_3和最大学习次数M＝8；

S32)随机选取第k＝90个输入样本以及对应的期望输出：

S33)计算隐含层各神经元的输入和输出：

S37)计算全局误差：

S4)进行所情安全态势评估，输入样本集D＝(x₁，x₂，...，x_n)，输入基于高斯核距离的全连接方式的相似矩阵生成方式，输入降维后的维度k₁＝20，输入聚类方法K-Means，输入聚类后的维度k₂＝20；

S41)根据输入的相似矩阵的生成方式构建样本的相似矩阵SS；

S42)根据相似矩阵SS构建度矩阵D，计算出拉普拉斯矩阵L；

S43)构建标准化后的拉普拉斯矩阵

S44)计算

S47)得到簇划分C(c1，c₂，...c_k2)；

S5)进行戒治效能分析；

S6)对S1)、S2)、S3)、S4)、S5)步骤的输出进行升序排序得到综合评估。

本发明的有益效果是：本发明使用实时频次计数方法简化了当前大多数拼音纠错算法使用的噪声通道模型，有效提高纠错算法效率；而诸如搜索优化(Martins和Silva，2004；Gao等，2010)、机器翻译(Belinkov和Bisk，2017)、词性标记(Van Rooy和Schafer，2002；Sak-aguchi等，2012)等纠错算法，需要全面掌握单词相似性、语言建模和推理，不但复杂度高，而且规模庞大；本发明相对这些算法的规模和复杂度而言，是一个非常轻量级的方法。另外，本发明采用字符字母直接替换方法取代传统的编辑距离计算方法，避免使用其他拼音纠错算法频繁地计算编辑距离。对于词典词库的建立和管理都是针对使用者个体的本地化而言，个性化高、针对性强、规模小。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。