CN114372698A

CN114372698A - 社会风险指数分类模型构建方法、系统、设备和存储介质

Info

Publication number: CN114372698A
Application number: CN202210012522.8A
Authority: CN
Inventors: 朱毅; 陈胜鹏; 雷振; 李飞; 陈雪
Original assignee: Wuda Geoinformatics Co ltd
Current assignee: Wuda Geoinformatics Co ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-19

Abstract

本发明涉及社会安全技术领域，具体涉及社会风险指数分类模型构建方法、系统、设备和存储介质。该方法包括：获取训练集和测试集数据，并对获取的所有数据进行清洗及特征变换处理；划分类别状态，并进行状态分类；将状态分类的训练集数据代入不同分类预测模型中进行训练，并将状态分类测试集数据代入对应的训练后模型中进行预测，得到预测结果；将所述预测结果与测试集数据的实际结果对比，分析使用量化的训练集数据所训练的结果差异性；按状态分类对训练的不同模型进行排名，得到不同阶段、不同算法对数据拟合的偏好程度；基于不同结果衡量指标，聚合每个阶段最优方法，生成一个新的排名，构建形成一个社会风险指数分类模型。

Description

社会风险指数分类模型构建方法、系统、设备和存储介质

技术领域

本发明涉及社会安全技术领域，具体涉及一种社会风险指数分类模型构建方法、系统、设备和存储介质。

背景技术

近年来，党和国家非常重视风险治理的社会稳定风险评估工作的发展。各地政府积极响应，并根据各地的实际情况出台了一系列政策或通知，建立健全政策体系，确保社会稳定风险评估的合法地位，初步建立完善的有效的评估机制。经过近几年的研究探索和发展，社会稳定风险评估工作有了更进一步的发展，涌现了颇具代表性的几种社会稳定风险评估模式，如遂宁模式、烟台模式、淮安模式和上海模式等。但考虑到社会稳定风险评估作为一种新生事物，始于地方政府在实际工作中摸索出来的一种应对社会稳定风险的方法，虽然积累了丰富的工作经验，但对其理论的研究却略显不足。尤其是对于社会稳定风险评估工作核心——社会稳定风险评估指标体系，并没有得到充分的研究和重视。社会稳定风险评估指标的适应性决定了社会稳定风险评估工作是否能够发挥其应有价值。因此，需要加强对指标体系适应性的研究，有必要从学理的角度，从风险和指标体系出发，简要梳理指标体系的研究历程，加强对社会稳定风险评估指标体系的认识。

发明内容

针对上述技术问题，本发明旨在通过相关社会风险的技术研究，构建社会风险指数模型，实现社会治理风险评级，为社会重点治理区域的分级管控和重点治理要素的定期定向隐患排查提供依据。本发明提供了一种社会风险指数分类模型构建方法、系统、设备和存储介质。

为实现上述目的，本发明实施例提供了如下的技术方案：

第一方面，在本发明提供的一个实施例中，提供了一种社会风险指数分类模型构建方法，包括：

获取训练集和测试集数据，并对获取的所有数据进行清洗及特征变换处理；

对处理后的训练集和测试集数据按比例划分类别状态，并以划分的类别状态为标签进行状态分类；

将状态分类的训练集数据代入不同分类预测模型中进行训练，并将状态分类测试集数据代入对应的训练后模型中进行预测，得到预测结果；

将所述预测结果与测试集数据的实际结果对比，分析使用量化的训练集数据所训练的结果差异性；

按状态分类对训练的不同模型进行排名，得到不同阶段、不同算法对数据拟合的偏好程度；

基于准确率和Pearson相关系数的不同结果衡量指标，得到按准确率进行排名和按Pearson相关系数进行排名的方法，聚合每个阶段最优方法，生成一个新的排名，构建形成一个社会风险指数分类模型。

在本发明提供的一些实施例中，获取训练集和测试集数据之前，还包括：

数据采集，所述数据采集为从数据开放平台或数据库中采集数据。

在本发明提供的一些实施例中，所述对获取的所有数据进行清洗及特征变换处理，包括以下步骤：

对采集的所有数据进行数据清洗，对缺失值数据进行补充或删除；

对清洗后数据进行特征变换，对清洗后所有数据进行归一化和标准化处理，并针对数据集中的连续型数值进行数值化处理转换为离散型数值，对不同类别的数据贴上标签。

在本发明提供的一些实施例中，数据进行特征变换处理之后，还包括特征关联性分析，数据的特征关联性分析使用Pearson相关系数衡量数据的两个特征组合之间的线性相关程度，通过计算相关性矩阵，选择关联性强的特征，剔除不相关或冗余的特征，减少特征个数。

在本发明提供的一些实施例中，数据进行特征关联性分析之后，还包括数据集划分，根据数据采集的来源不同进行分类，以采集的数据中的一组数据作为训练集数据，以采集的数据中的另一组作为测试集数据，对训练集和测试集数据按比例划分类别状态时，按照普通级、关注级、严管级以及禁止级4个类别状态进行划分。

第二方面，在本发明提供的另一个实施例中，提供了一种社会风险指数分类模型构建系统，所述社会风险指数分类模型构建系统采用上述社会风险指数分类模型构建方法构建社会风险指数模型，实现社会治理风险评级；所述社会风险指数分类模型构建系统包括：

数据集获取模块，用于采集数据，并对获取的所有数据进行清洗、特征变换处理以及特征关联性分析后划分训练集数据和测试集数据；

状态分类模块，用于将训练集和测试集数据按比例划分类别状态，并以划分的类别状态为标签进行状态分类；

分类排名模块，用于将状态分类的训练集数据代入不同分类预测模型中进行训练，并将状态分类测试集数据代入对应的训练后模型中进行预测，得到预测结果，将所述预测结果与测试集数据的实际结果对比，分析使用量化的训练集数据所训练的结果差异性，按状态分类对训练的不同模型进行排名，得到不同阶段、不同算法对数据拟合的偏好程度；

集成模块，用于根据不同结果衡量指标，得到按不同结果衡量指标进行排名的方法，聚合每个阶段最优方法，生成一个新的排名，构建形成一个社会风险指数分类模型。

第三方面，在本发明提供的又一个实施例中，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器加载并执行所述计算机程序时实现社会风险指数分类模型构建方法的步骤。

第四方面，在本发明提供的再一个实施例中，提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器加载并执行时实现所述社会风险指数分类模型构建方法的步骤。

本发明提供的社会风险指数分类模型构建方法、系统、设备和存储介质，构建的社会风险指数分类模型，相对于现有技术而言，具有如下有益效果：

(1)实现了基于社会统计数据和区域社会安全的关联性可视化分析，通过图分析得到潜在关联性结论。(2)通过建立机器学习模型，实现预测不同地区处于的社会风险程度。(3)设立新指标，与当前的主流指标相比，构建的新指标更注重原始数据的量化，减少了概念抽象的指标对预测性能的影响，且在评估社会风险程度时能更符合当前社会的实际情况。(4)通过新指标的排序能得到一组新的衡量社会风险指数的排名，该排名与世界主流的社会风险指数的排名有着一定的相似度和高度的相关系数，该排名是完全基于量化指标的，因此更容易实现，说服力更强。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。在附图中：

图1为本发明实施例的一种社会风险指数分类模型构建方法的流程图。

图2为本发明实施例的一种社会风险指数分类模型构建方法中特征选择的示意图。

图3为本发明实施例的一种社会风险指数分类模型构建方法中标签化例子的示意图。

图4为本发明实施例的一种社会风险指数分类模型构建方法中排名结果的比较示意图。

图5为本发明实施例中一种社会风险指数分类模型构建系统的系统框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本申请中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本申请中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明示例性实施例中的附图，对本发明示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体地，下面结合附图，对本申请实施例作进一步阐述。

如图1所示，本发明的一个实施例提供一种社会风险指数分类模型构建方法，包括如下步骤：

步骤一、获取训练集和测试集数据。

在本实施例中，获取训练集和测试集数据之前，还包括数据采集，所述数据采集为从数据开放平台或数据库中采集数据。在本实施例中，训练集和测试集数据的采集时，例如：训练集数据是从开放广东（gddata.gd.gov.cn）和珠海市政务服务数据管理局建设的珠海市民生数据开放平台（zhuhai.gov.cn）数据库中获取以下数据。

例如：测试集数据从深圳市政府数据开放平台(opendata.sz.gov.cn)和国家统计局（stats.gov.cn）官网的数据库中获取。

在本实施例中，则可以将珠海市数据作为本模型的训练集数据，将深圳市数据作为本模型的测试集数据。具体数据对应如下：

社会保障指标：包括(1) 医疗保险覆盖率(2) 平均受教育年限(3)生育保险覆盖率(4) 出生时预期寿命 (5)失业率(6)失业保险覆盖率(7) 人均住房面积 (8)恩格尔系数(9) 社会保障支出占GDP比重 (10) 工伤保险覆盖率 (11) 养老保险覆盖率 (12)生活垃圾无害化处理率(13) 廉租房覆盖率。这些指标反应了社会的生存保障和生活质量。

协调发展指标:包括(14) 人均绿地面积 (15) CPI指数 (16)非农产业就业比重(17) 人均国内生产总值增长率(18) 万元GDP综合能耗(19)教育支出占GDP比重(20)居民收入增长率。这些数据反应了社会的经济增长速率和经济健康的情况。

社会公平指标：包括(21) 10%最高收入者与10%最低收入者收入比值 (22)城镇居民可支配收入和农村居民纯收入差距比值(23) 中等收入者的人数比例 (24) 最高收入行业与最低收入行业人均收入差距比 (25)全国居民基尼系数(26) 农村贫困发生率 (27)地区人均收入与全国人均收入差距比例。该数据体现了社会中的空间差距和阶层差距。

社会秩序指标：包括了(28) 社会核心价值认同度 (29) 对社会公共道德的评价值(30) 每万人中的律师人数 (31) 每万人警力配备人数 (32)万人保治安员人数(33)万人义务力量打击违法犯罪数(34)万人保治安员打击违法犯罪数(35)万人义务群防群治队员数(36)上访(含信访)增加率(37)越级上访宗数(38)黄赌毒举报投诉(39)社区投诉纠纷(40)流动人口信息采集率(41)流动人口信息未注销率(42)两拘人员案前居住登记率(43)人民调解受理数(44)人民调解成功率(45)社区矫正人员违反规定人数(46)社区矫正人员重新犯罪人数(47)特殊人群服务纳管率(48)群体性事件数(49)群防群治可视化出勤率(50)选举投票率(51)基层依法自治达标率(52)社会流动率(53)民间组织发育度。

社会安全指标：包括了(54)自然灾害级别(55)事故灾难级别(56)公共卫生事件级别(57) 世界经济衰退影响度 (58)万人重大经济案件立案件数(59)万人重大刑事案件立案件数(60)劳资纠纷增长率 (61) 国际性金融危机影响度 (62)万人多发性侵财案件数(63)万人治安警情数(64)火灾发生宗数(65)生产安全死亡事故数(66)刑事拘留人数(67)黄赌毒及食药品打击人数 (68)国外武装干涉和恐怖主义袭击影响度(69) 国外经济摩擦和制裁影响度 (70)社会安全事件级别

社会舆情指标：包括了(71)工作状况满意度(72)自然环境满意度(73)干群关系满意率(74)权益保护满意度(75)政治文明满意度(76)群众安全感(77)居民生活满意度(78)对司法不公正的可容忍程度(79)对收入差距的可容忍程度(80)对物价上涨的可容忍程度(81)对腐败现象的可容忍程度

建筑物分级指标：包括(82)消防安全隐患数(83)电气安全隐患数(84)生产安全隐患数(85)建筑安全隐患数(86)公共安全隐患数(87)网格管理违规数(88)其它安全隐患数(89)住宅消防安全隐患数(90)住宅建筑安全隐患数(91)住宅公共安全隐患数(92)网格管理违规数(93)住宅其它安全隐患数(94)公共区域消防安全隐患数(95)公共区域建筑安全隐患数(96)公共区域电气安全隐患数(97)网格管理违规数(98)公共区域其它安全隐患数。

在对训练集和测试集数据进行特征选择时，其流程如图2所示。

其中，平安指数排行：各县、区、街道、乡、镇的平安指数排行，其作为在本模型中标签数据来源。

步骤二、数据清洗。

在本实施例中，数据清洗为对所有样本进行数据清洗,即对缺失值进行补充或删除。由于采集的数据集覆盖的年/月/日，地区（县、区、街道、乡、镇）以及数据缺失，为了方便后续的计算，将对所有样本进行数据清洗,即对缺失值进行补充或删除。原始数据—数据清洗—特征变化（连续值，能够数字归一化/标准化）、离散数据（数值化和标签化必须的）。划分为训练集和测试集。

步骤三、特征变换处理。

在本实施例中，特征变换处理涉及归一化，标准化和数值化（标签化）操作，该过程是为了使得特征在机器学习中发挥更好的作用。为了使模型达到更好的预测性能，本申请实现了标准化的处理方式处理连续值，使用数值化（标签化）处理离散值。

对清洗后数据进行特征变换时，对清洗后所有数据进行归一化和标准化处理，并针对数据集中的连续型数值进行数值化处理转换为离散型数值，对不同类别的数据贴上标签。

具体的，由于获得的数据特征的范围覆盖范围不同,将这些值直接输入到模型会导致模型一定程度的失真（不准确）,为了克服缺陷和符合要求的一些算法,一个重要的手段是将数据适当地变化,以下列举了本发明使用的变换方式的几个和它们的特点。

在本实施例中，归一化是将数据变换到十进制数的0和1之间,小数都保留了原始顺序,属于大量的过程,数据处理映射到0到1的范围,使原始数据值差异缩小,方便提供数据处理的模型,因为原始数据太大可能会导致数值问题。例如，在建立回归模型时采用梯度下降法，归一化可以加快计算速度，从而提高模型的收敛效率;在建立KNN分类模型时，需要计算样本间的欧氏距离。归一化计算方法如下公式所示：

其中，

表示数据集的每个元素，

代表数据集最大的元素，

代表数据集最小的元素。归一化的最大缺陷在于值可能会根据数据数量的改变而发生改变，如当有新的数据加入数据集时，都有可能造成

和

的改变，需重新定义。

本发明使用的数据集，无论是数值特征组还是排序特征组，特征值的覆盖范围都比较大，容易给模型带来失真。因此，可以对数据进行规范化处理。因为归一化不仅适用于连续数据，也适用于离散数据。

在本实施例中，标准化过程是一个线性变化的过程，具有不改变原始特征数据顺序的重要性质。在机器学习领域,标准化是广泛用于处理不同类型的数据,尽管维度的数据是不确定的,但每一个通过标准化的数据将成为一个平均值是0,标准差是1的标准数据,在一些常用的机器学习算法,可用于,例如:SVM支持向量机、logistic增长模型等。标准化的公式也相对简单，标准化的公式如下：

其中，

表示样本的均值，

表示样本的标准差。

由于归一化的函数与标准化的函数相似，所以它既可以应用于连续值，也可以应用于离散值，也可以应用于本申请使用的数据特征。

在本实施例中，针对什么时候使用标准化，什么时候使用归一化而言，一般而言，如果需要为模型的结果设置一个范围，则规范化执行得更好;如果特征数据分布集中(理想情况下，没有异常值或极值)，也建议进行归一化处理。但是，如果特征数据中有更多的极端值和干扰值，标准化的效果会更好，因为它可以通过集中间接避免这些条件。为了满足模型的需要，本申请实现了规范化和标准化的处理方式，以便为后续的模型构建提供合适的数据。

在本实施例中，还包括数值化-标签化。获取的数据集可能存在各种形式不一定都是连续型数值，也有数据是离散型数值存在的，例如本申请使用的数据集中的社会核心价值认同度、社区投诉纠纷以及群众安全感所属类别3个特征，这些特征的数据均为离散型数值，无法将其直接使用到机器学习的模型中，因此数值化的作用就是将连续型数值转换为离散型数值，以便模型使用。标签化顾名思义就是给不同类别的数据贴上标签，当数据类型较少时，一般使用离散二值或离散三值代替原来的离散型数值，该过程非常简单，如图3所示，为标签化例子。

标签化是将非数值数据进行分类的有效办法，例如本申请中的群众安全感特征便可使用0代表群众安全感弱，用1代表群众安全感中等，用2代表群众安全感强。但标签化的缺陷是非数值的数据类型不能过多，否则使用标签化后标签的范围覆盖广，会出现数值问题，可以使用标签化后再进行归一化或者标准化的方式解决。

步骤四、特征关联性分析。

在本实施例中，数据进行特征变换处理之后，还包括特征关联性分析。特征关联性分析用于分析两个特征之间的线性相关程度的强弱。

数据的特征关联性分析使用Pearson相关系数衡量数据的两个特征组合之间的线性相关程度，通过计算相关性矩阵，选择关联性强的特征，剔除不相关或冗余的特征，减少特征个数。

在数据分析时，通过使用Pearson相关系数来衡量数据的两个特征组合X和Y之间的线性相关程度，据Cauchy-Schwarz不等式，Pearson相关系数的值域为-1到+1，其中1表示两个特征总正线性相关、0表示无线性相关、-1则表示两个特征总负线性相关，它能被广泛应用于科学领域，也是目前分析两组数据分布趋势、变化趋势一致性程度的最常用方法。数据的特征关联性分析使用Pearson相关系数衡量数据的两个特征组合之间的线性相关程度的计算公式为：

其中，

是两组数据的协方差矩阵，

和

分别代表了两组数据的标准差。

和

分别代表了两组数据的均值，

表示数据的期望。对处理后的数据集取其数据值的特征组的两两特征，进行Pearson系数的计算，结果如下表1所示。

对表1进行分析，着重关注社会保障指标一列，发现社会舆情指标与社会保障指标的相关强度达到了强相关，协调发展指标、社会公平指标与社会保障指标的相关强度均达到了中等程度相关，其余的指标则与社会保障指标接近无相关。同时，还发现社会秩序指标与社会安全指标达到了中等程度相关，可以验证常识上认为的社会越发安全社会保障指标也越高。

同时，建筑物分级指标和社会舆情指标，社会安全指标间的相关强度高于平均水平，表示建筑物安全对社会安全之间关系较大，也验证了建筑安全与社会经济发展之重要关系。加强建筑物安全的预防机制，规范生产行为，使各生产行为符合有关安全生产法律，将有效化解社会领域重大风险，提升社会治理水平。在模型中，建筑物分级指标将作为重要因素来对社会风险模型进行建模和模型训练。

步骤五、数据集划分。

数据进行特征关联性分析之后，还包括数据集划分，根据数据采集的来源不同进行分类，以采集的数据中的一组数据作为训练集数据，以采集的数据中的另一组作为测试集数据，在本实施例中，珠海市数据作为本模型的训练集数据，深圳市数据作为本模型的测试集数据，同时对标签（label，数据中的平安指数排行）按比例划分为普通级、关注级、严管级以及禁止级4个类别状态。

对处理后的训练集和测试集数据按比例划分类别状态，并以划分的类别状态为标签进行状态分类。对训练集和测试集数据按比例划分类别状态时，按照普通级、关注级、严管级以及禁止级4个类别状态进行划分。

在本实施例中，本发明采取的思路将社会风险指数分成普通级、关注级、严管级以及禁止级4个类别，通过多分类模型的结果将产生针对不同的地区，不同范围的社会风险状况分类。从而给出对社会治理策略的建议。

步骤六、状态分类。

以4个类别为标签，将训练集数据代入不同模型中进行训练，再将测试集数据代入模型中进行预测，将预测结果与测试集数据的实际结果对比，通过分析可知使用量化数据所训练的结果差异性不明显。

对处理后的训练集和测试集数据按比例划分类别状态，并以划分的类别状态为标签进行状态分类，将状态分类的训练集数据代入不同分类预测模型中进行训练，并将状态分类测试集数据代入对应的训练后模型中进行预测，得到预测结果，将所述预测结果与测试集数据的实际结果对比，分析使用量化的训练集数据所训练的结果差异性。

在本发明中为探索机器学习模型中区域稳定性分类最有效的方法。不同分类预测模型包括CatBoost模型、MLP多层感知器模型、KNN分类模型、GaussianNB模型、BernoulliNB模型、朴素贝叶斯模型、决策树DT模型、支持向量机SVM模型、随机森林RF模型、Adaboost模型、LogisticRegreesion模型、GBDT梯度提升决策树模型。

具体的，CatBoost，由Prokhorenkova等人于2018年提出。这是一种基于梯度提升决策树的机器学习方法，旨在有效处理类别特征。CatBoost现在可以用于各种各样的领域和问题。该方法不需要对参数进行过多的调整就能获得较强的性能，并能有效地防止过拟合，使模型具有鲁棒性。但处理分类特征需要大量的记忆和时间。

MLP多层感知器(MLP)由输入层、隐含层和输出层组成，是一种简单的神经网络，是其他神经网络结构的基础。传统的机器学习方法需要人工选择特征，而神经网络可以通过层次结构学习更多的任务友好特征。在MLP网络中，各层是完全连接的，即上层的任何神经元都与下层的所有神经元相连。它被广泛用于解决分类问题，不仅可以达到良好的预测性能，而且不容易出现过拟合现象。

KNN（K-Nearest Neighbor）算法是有监督学习中的分类算法。KNN主要是通过测量不同特征值之间的距离来进行分类。

朴素贝叶斯是一类基于概率的算法，根据先验分布的不同，分别有两种不同的应用：BernoulliNB，GaussianNB。BernoulliNB是先验为伯努利分布的朴素贝叶斯方法，而GaussianNB是先验为高斯分布的朴素贝叶斯方法。

决策树（DT）是一种广泛使用的非参数监督算法，可用于分类和回归问题。决策树模拟人们的决策过程，并通过从样本中得出简单的决策规则进行预测。决策树的特点是易于理解，并易于根据生成的决策规则推导相应的逻辑表达式。但是，如果功能太多，预测性能可能会下降。

支持向量机(Support vector machine, SVM)主要应用于解决非线性问题的方法。决策边界是学习样本需要求解的最大容限超平面。支持向量机适用于中小型数据样本、非线性、高维分类等问题，但在解决多分类问题上存在困难。

随机森林（RF）是一种基于整体学习的算法，由决策树和Bagging组成。利用多个决策树对样本进行并行训练，然后对其进行整合形成森林，以增强分类效果和泛化能力。 RF具有强大的抗过拟合能力，并且可以在不进行特征选择的情况下处理高维数据。但是，对于小样本数据或低维数据，可能无法达到良好的分类效果。

Adaboost算法的原理是通过调整弱分类器权值和样本权重的参数，由训练出的分类器中筛选出权值系数最小的分类器，进而组合成一个最终强分类器。

LogisticRegreesion主要应用与解决回归或分类问题，通过先建立代价函数，再进行迭代以求解最优模型参数，最后对所求解模型验证。

GBDT梯度提升决策树是一种基于集成学习思想的算法，它由许多决策树组成，并且前一个决策树的残差用作下一个决策树的输入。通过多次迭代，预测效果越来越好。GBDT可以灵活处理各种数据，并具有良好的预测性能。

步骤七、分类排名。

按状态分类对训练的不同模型进行排名，得到不同阶段、不同算法对数据拟合的偏好程度。

基于状态分类实验，提出了一种按分类进行排名的方法，称为RankingBySort（RBS）。该方法使用分类方法来解决排名问题。以排名（平安指数排行）为标签，将训练集数据代入不同模型中进行训练。同时，分析不同状态下不同方法的结果。结果显示，不同阶段，不同方法的ACC和PCCs不一致，这意味着不同算法对数据拟合的偏好不同。

在本实施例中，基于准确率和Pearson相关系数的不同结果衡量指标，得到按准确率进行排名和按Pearson相关系数进行排名的方法，聚合每个阶段最优方法，生成一个新的排名，构建形成一个社会风险指数分类模型。

所述结果衡量指标中Pearson相关系数表征相对排名的精度，所述Pearson相关系数用于测量数据的两个特征组合之间的线性相关程度，所述Pearson相关系数的范围是-1至+1，其中，1表示两个特征之间的总正线性相关，0表示无线相关，-1代表两个特征之间的总负线性相关。

所述结果衡量指标中准确率表征绝对排名的精度，所述准确率为正确分类的样本占总样本的比例，准确率越高，分类器越好。

具体的，Pearson相关系数（PCCs）：它用于测量数据X和Y的两个特征组合之间的线性关系。根据Cauchy-Schwaz不等式，PCC的范围是-1至+1。其中，1表示两个特征之间的总正线性相关，0表示无线相关，-1代表两个特征之间的总负线性相关。它是目前分析两组数据的分布趋势和变化趋势一致性的最常用方法，在科学领域得到了广泛的应用。表达式公式如下：

准确率（ACC）：准确性（ACC）是指正确分类的样本占总样本的比例。它不考虑预测样本是阳性还是阴性。 ACC是最常见的指标，从结果来看，ACC越高，分类器越好。表达式公式如下：

其中，

表示阳性样品正确预测为阳性，而

表示阴性样品正确预测为阴性。

表示阴性样本被错误地预测为阳性。

表示阳性样本被错误地预测为阴性。

简而言之，ACC代表绝对排名的精度，而PCCs代表相对排名的精度。选择这两个指标从不同方面评估结果。

步骤八、状态分类。

为了探索最有效的机器学习分类算法，将不同的社会环境的各个状态分为四个阶段：普通级、关注级、严管级、和禁止级。比率为2:3:3:2。然后，根据相关性分析得到的具有强关联的特征作为输入，ACC和PCCs作为评估指标。分别使用不同的机器学习方法。结果示于表2。

从表2，有以下观察。显然，LogisticRegreesion方法在ACC指标上表现最好而RandomForest方法在PCCs指标上的性能最佳，其中LogisticRegreesion的ACC达到0.9016，PCC达到0.9391；RandomForest的ACC达到0.8852，PCC达到0.9421。在方法方面，不仅是基于集成学习的CatBoost和RandomForest方法在两个指标上都有不错的表现。逻辑回归方法LogisticRegreesion在结果同样非常优秀。

步骤九、分类排名。

根据步骤八中状态分类的结果，提出了一种新的方法，即：按分类进行排名，称为RankingBySort（RBS）。该方法使用分类方法来解决排名问题。首先，这是一种基于整体学习思想的方法，然后使用不同的分类器来拟合和学习数据，最后通过一个参数来聚合各个具有良好性能的分类器，以获得更好的排名。利用不同的社会风险指数作为排名，并根据2:3:3:2,普通，关注，严管和禁止将社会分为四个阶段。传统的机器学习方法被用作分类器来预测四个阶段的排名，最后对每个阶段的最佳方法进行比较，然后合并成一个新的排名。同样，将所有功能作为输入，并将ACC和PCCs作为评估指标。结果示于表3：

从表3中可以看出。通常，在不同阶段，不同方法的ACC和PCCs不一致，这意味着不同算法对数据拟合的偏好不同。例如，在普通的社会中，DecisionTree方法的ACC高于LogisticRegreesion同时它的PCCs也高于RandomForest，这说明在普通状态下，DecisionTree才是对社会风险评估最好的方法。但在关注阶段的RandomForest的ACC和PCCs确实比其他方法高得多。这表明RandomForest在此任务中可以更准确地预测风险指数略高的社会。在严管阶段，ACC的最高方法是RandomForest，而PCCs的最高方法是MLP。在禁止阶段，ACC和PCCs的最高方法是CatBoost和RandomForest。这表明，传统的机器学习方法仍然可以在非常小的数据集中表现良好。

基于上述观察，本发明采用集成学习的思想在通过一个参数来聚合每个阶段最优方法，这将是一种有效的排名方法。本发明为每个阶段选择具有最高评估指标的方法。根据不同的指标，本发明可以得到一种基于ACC的方法RBS-A，另一种基于PCCs的方法RBS-P。

RBS-A方法由DecisionTree-RandomForest-RandomForest-CatBoost组成，这是每个阶段中最高的ACC方法；

RBS-P方法由DecisionTree-RandomForest-MLP-RandomForest组成，这是每个阶段中最高PCCs的方法。

步骤十、排名比较。

为了进行比较，本发明将训练集中的珠海平安指数（连续值）的排名作为标签数据，然后利用传统的机器学习方法进行建模和与RBS方法进行比较。同样，本发明将所有数据作为输入，并将ACC和PCCs作为评估指标。结果示于表4。

从表4中可以看出，排名结果的比较示意图参见图4所示，就ACC和PCCs而言，本发明的方法始终优于基线。其中，RBS-A优于ACC的基线方法（改善了1.85％），而RBS-P优于PCCs的基线方法（改善了9.02％）。这说明了基于整体学习思想的方法的有效性。可能是因为利用集成学习的思想在每个阶段汇总了可以很好地拟合数据的最佳学习方法，从而提高了预测准确性和相关系数。

在本发明中，本发明基于集成学习的思想提出了一种新的方法RBS。首先，本发明将社会风险指数分为四个阶段。然后，本发明利用一些分类器从各个阶段的数据中提取复杂的模式。最后，本发明汇总每个阶段效果最好的分类器。本发明的方法注重数据的量化，减少了抽象因素对结果的影响，这使得社会风险的分类更加量化。实验结果表明，与其他方法相比，本发明的方法能够同时提高准确性（提高1.85％）和相关系数（提高9.07％）。

在本发明的一个实施例中，参见图5所示，本发明还公开了一种社会风险指数分类模型构建系统，所述社会风险指数分类模型构建系统采用上述社会风险指数分类模型构建方法构建社会风险指数模型，实现社会治理风险评级；所述社会风险指数分类模型构建系统包括数据集获取模块100、状态分类模块200、分类排名模块300以及集成模块400。

所述数据集获取模块100，用于采集数据，并对获取的所有数据进行清洗、特征变换处理以及特征关联性分析后划分训练集数据和测试集数据。

其中，所述数据采集为从数据开放平台或数据库中采集数据。所述对获取的所有数据进行清洗及特征变换处理中，对采集的所有数据进行数据清洗，对缺失值数据进行补充或删除，对清洗后数据进行特征变换，对清洗后所有数据进行归一化和标准化处理，并针对数据集中的连续型数值进行数值化处理转换为离散型数值，对不同类别的数据贴上标签。数据的特征关联性分析使用Pearson相关系数衡量数据的两个特征组合之间的线性相关程度，通过计算相关性矩阵，选择关联性强的特征，剔除不相关或冗余的特征，减少特征个数。

在本实施例中，数据采集。分别从广东（gddata.gd.gov.cn），珠海市政务服务数据管理局建设的珠海市民生数据开放平台（zhuhai.gov.cn），深圳市政府数据开放平台(opendata.sz.gov.cn)和国家统计局（stats.gov.cn）数据库中采集数据。

在本实施例中，特征变换处理涉及归一化，标准化和数值化（标签化）操作，该过程是为了使得特征在机器学习中发挥更好的作用。为了使模型达到更好的预测性能，本发明实现了标准化的处理方式处理连续值，使用数值化（标签化）处理离散值。

在划分数据集时，珠海市数据作为本模型的训练集数据，深圳市数据作为本模型的测试集数据，同时对标签（label，数据中的平安指数排行）按比例划分为普通级、关注级、严管级以及禁止级4个类别状态。

所述状态分类模块200，用于将训练集和测试集数据按比例划分类别状态，并以划分的类别状态为标签进行状态分类。

在本实施例中，以4个类别为标签，将训练集数据代入不同模型中进行训练，再将测试集数据代入模型中进行预测，将预测结果与测试集数据的实际结果对比，通过分析可知使用量化数据所训练的结果差异性不明显。

所述分类排名模块300，用于将状态分类的训练集数据代入不同分类预测模型中进行训练，并将状态分类测试集数据代入对应的训练后模型中进行预测，得到预测结果，将所述预测结果与测试集数据的实际结果对比，分析使用量化的训练集数据所训练的结果差异性，按状态分类对训练的不同模型进行排名，得到不同阶段、不同算法对数据拟合的偏好程度。

在本实施例中，基于状态分类实验，本发明提出了一种按分类进行排名的方法，称为RankingBySort（RBS）。该方法使用分类方法来解决排名问题。以排名（平安指数排行）为标签，将训练集数据代入不同模型中进行训练。同时，分析不同状态下不同方法的结果。结果显示，不同阶段，不同方法的ACC和PCCs不一致，这意味着不同算法对数据拟合的偏好不同。

所述集成模块400，用于根据不同结果衡量指标，得到按不同结果衡量指标进行排名的方法，聚合每个阶段最优方法，生成一个新的排名，构建形成一个社会风险指数分类模型。

在本实施例中，集成方法为根据不同的指标，本发明可以得到一种基于ACC(准确率)的方法RBS-A(RankingBySort/按分类进行排)，另一种基于PCCs(Pearson相关系数)的方法RBS-P。本发明采用集成学习的思想再通过一个参数来聚合每个阶段最优方法，生成一个新的排名。

需要特别说明的是，结果比较时，实验结果表明，与其他方法相比，本发明的方法能够同时提高准确性（提高1.85％）和相关系数（提高9.07％）。

需要特别说明的是，社会风险指数分类模型构建系统在执行时采用如前述的一种社会风险指数分类模型构建方法的步骤，因此，本实施例中对社会风险指数分类模型构建系统的运行过程不再详细介绍。

在一个实施例中，在本发明的实施例中还提供了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的社会风险指数分类模型构建方法，该处理器执行指令时实现上述各方法实施例中的步骤：

在本发明的一个实施例中还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤：

在本发明的一个实施例中还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。

综上所述，本发明提供的社会风险指数分类模型构建方法、系统、设备和存储介质，具有以下功能：(1)实现了基于社会统计数据和区域社会安全的关联性可视化分析，通过图分析得到潜在关联性结论。(2)通过建立机器学习模型，实现预测不同地区处于的社会风险程度。(3)设立新指标，与当前的主流指标相比，构建的新指标更注重原始数据的量化，减少了概念抽象的指标对预测性能的影响，且在评估社会风险程度时能更符合当前社会的实际情况。(4)通过新指标的排序能得到一组新的衡量社会风险指数的排名，该排名与世界主流的社会风险指数的排名有着一定的相似度和高度的相关系数，该排名是完全基于量化指标的，因此更容易实现，说服力更强。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社会风险指数分类模型构建方法，包括：

2.如权利要求1所述的社会风险指数分类模型构建方法，其特征在于：所述对获取的所有数据进行清洗及特征变换处理，包括以下步骤：

3.如权利要求2所述的社会风险指数分类模型构建方法，其特征在于：数据进行特征变换处理之后，还包括特征关联性分析，数据的特征关联性分析使用的是Pearson相关系数来衡量数据之间两个特征组合的线性关系，通过计算相关性矩阵，选择关联性强的特征，剔除不相关或冗余的特征，减少特征个数。

4.如权利要求3所述的社会风险指数分类模型构建方法，其特征在于：数据进行特征关联性分析之后，还包括数据集划分，根据数据采集的来源不同进行分类，以采集的数据中的一组数据作为训练集数据，以采集的数据中的另一组作为测试集数据，对训练集和测试集数据按比例划分类别状态时，按照普通级、关注级、严管级以及禁止级4个类别状态进行划分。

5.如权利要求4所述的社会风险指数分类模型构建方法，其特征在于：将状态分类的训练集数据代入不同分类预测模型中进行训练时，不同分类预测模型包括CatBoost模型、MLP多层感知器模型、KNN分类模型、GaussianNB模型、BernoulliNB模型、朴素贝叶斯模型、决策树DT模型、支持向量机SVM模型、随机森林RF模型、Adaboost模型、LogisticRegreesion模型、GBDT梯度提升决策树模型。

6.如权利要求5所述的社会风险指数分类模型构建方法，其特征在于：所述结果衡量指标中Pearson相关系数表征相对排名的精度，所述Pearson相关系数用于测量数据的两个特征组合之间的线性相关程度，所述Pearson相关系数的范围是-1至+1，其中，1表示两个特征之间的总正线性相关，0表示无线相关，-1代表两个特征之间的总负线性相关。

7.一种社会风险指数分类模型构建系统，其特征在于：所述社会风险指数分类模型构建系统采用权利要求1-6中任意一项所述社会风险指数分类模型的构建方法来构建社会风险指数模型，实现社会治理风险评级；所述社会风险指数分类模型构建系统包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器加载并执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器加载并执行时实现权利要求1至6中任一项所述的方法的步骤。