CN113469288A

CN113469288A - 融合多个机器学习算法的高危人员预警方法

Info

Publication number: CN113469288A
Application number: CN202110862416.4A
Authority: CN
Inventors: 承孝敏; 陈剑; 张宗谦
Original assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Current assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-01

Abstract

本发明公开了一种融合多个机器学习算法的高危人员预警方法，包括：步骤1、数据预处理；步骤2、构建融合多个机器学习算法的模型；步骤3、模型融合；步骤4、模型预测；其中，步骤2中包括构建XGBoost模型、构建CatBoost模型和构建随机森林算法模型。该方法创新了高危人群预测方式，具有更强的泛化能力，实现了精度和稳健性的统一。

Description

融合多个机器学习算法的高危人员预警方法

技术领域

本发明涉及一种融合多个机器学习算法的高危人员预警方法。

背景技术

高危人员的预警对公安部门提前管控决策起到重要的作用。传统的被动式警务已经不能适应当前多发性犯罪模式，需要探索一种新的预警方式。

结合当前大数据技术的广泛应用，相关学者提出了一些新型预测方式，例如，有的学者采用模糊聚类和空间聚类方法对犯罪热点进行识别，有的采用空间回归分析方法对犯罪热点和社会、经济、环境之间的关系进行分析，还有的依据随机森林的方法提出一种预测犯罪的方法。

由此可见，目前针对犯罪风险预警研究主要针对犯罪热点的空间和时间维度进行研究，对高危人员的研究主要集中在现状分析阶段，其缺乏对风险的识别和判断，因而尚未形成权威方法和体系。

随着人工智能发展，使得通过大数据技术分析高危人员的个人信息和社会信息，并从中提取有效特征成为可能。因此，如何利用人工智能结合大数据技术对高危人员进行精准的预警，加强高危人员的控制，是一个迫切和急需解决的技术难题。

发明内容

本发明的目的是提供一种融合多个机器学习算法的高危人员预警方法，该方法创新了高危人群预测方式，具有更强的泛化能力，实现了精度和稳健性的统一。

为了实现上述目的，本发明提供了一种融合多个机器学习算法的高危人员预警方法，包括：

步骤1、数据预处理；

步骤2、构建融合多个机器学习算法的模型；

步骤3、模型融合；

步骤4、模型预测；

其中，步骤2中包括构建XGBoost模型、构建CatBoost模型和构建随机森林算法模型。

优选地，在步骤1中，预处理的样本数据包含数值型和字符型；其中，对数值型数据归一化之后进行使用，对字符型数据进行离散化处理，并且，使用不同的离散值进行处理。

优选地，步骤1中还包括：结合数据本身的业务含义，对异常数据进行剔除或者当作缺失值处理。

优选地，在步骤2中构建的XGBoost模型将CART回归树作为基分类器，学习过程解释为：

其中，k为树的数目，f_k为函数空间F中的1个函数，

为预测值，x_i为输入的第i个样本，F为所有可能的CART集合；

将包含正负样例的训练数据集设定相同的初始化权值w＝0.5，输入到XGBoost模型中训练出第一个弱分类器，并记录错误率；当训练第二次时，根据第一次训练所得的弱分类器的效果重新调整每个样本权重，具体地，提高分错样本的权重，降低分对样本的权重；重复如此，每次迭代训练时采取弱分类器对样本进行分类，记录错误率，同时引入目标函数和正则项；在迭代过程中采取梯度下降法优化损失函数，不断更新弱分类器权重，如此循环，直到弱分类器数量达到给定值；最终，将弱分类器按照不同的权重结合起来，采取的结合策略是将分类错误较小的分类器赋予较大权重，分类错误较大的分类器赋予较小权重。

优选地，在步骤2中构建的CatBoost模型为基于Gradient Boosting和Categorical Features的机器学习算法，用于处理分类特征问题并有效地减少过度拟合；

假设数据集包含n个向量D＝(X_k,y_k)_{k＝1,2,...,n}，其中，X_k＝(x_k ¹,...x_k ^m)是一个包含m特征值的向量，y_k是标签的值，将输入数据值随机排序，生成多个随机排序，根据公式

计算出的数值代替

使用CatBoost对训练集数据随机生成多个不同对序列，设定为s+1个序列，对于每一个序列，又训练n个不同的模型Mi；首先，为第0个序列的每个样本的模型初始化，再按照模型的不同，为其余s个序列的模型进行初始化，共计s*n个值；其次，生成一棵树并更新所述s*n个值，使用0序列为每个叶子节点得到均值用于预测；迭代I次，生成I颗树，最终得到最佳的树结构。

优选地，在步骤2构建的随机森林算法模型中，随机森林为基于分类树的算法，由多个决策树{h(x,θ_i),i＝1,...k}组合构建而成，多个所述决策树之间相互独立且森林中的所有决策树对新的数据样本进行投票，所得投票结果为随机森林的分类结果；因变量Y中有n个观测值，有k个自变量与之相关，在构建分类树时，随机森林会随机地在元数据中重新选择n个观测值，其中有的观测值被选择多次，有的没有被选择到；同时，随机森林随机地从k个自变量选择部分变量进行分类树节点的确定，每次构建的分类树都可能不一样；此时，在随机森林随机生成的几百个至几千个分类树中选择重复程度最高的树作为最终结果；

构建时，使用设定单个决策树的特征子集的特征变量的个数m，分别设置为3，5，7；确定森林树的棵数n分别设置为10，50，100，500；计算特征子集个数和树的棵数的笛卡尔乘积得到参数组合[m,n]；用每一组参数拟合随机森林模型，共得到12个随机森林模型；计算得到每个随机森林模型的袋外估计的精度，选择精度最高的参数作为最优参数组合，并用最优参数组合和全部数据拟合随机森林模型。

优选地，在步骤3中，根据模型预测的结构得分给予模型不同的权重，并加权组成最终模型，以提高模型的泛化能力。

优选地，步骤4包括：在模型融合后，采用5折交叉验证，以保证结果分布均衡；其中，将数据随机分为5组，其中4组数据作为训练集数据，另一组作为测试集，利用此5个模型最终的平均正确率来衡量模型的正确率；

同时，根据三个模型拟合效果分别给定权重值，对训练好的模型带入测试数据值，并对三个模型分别得到的结果带入给定权重做线性融合以得到最终预测结果。

根据上述技术方案，本发明首先分析高危人群特征，获取高危人群的相关个人和行为信息，通过数据晒拆和清洗，构建带有标签的训练数据集。运用机器学习算法XGBoost、CatBoost和随机森林模型分别处理训练数据，根据最终结果，将四个模型算法进行融合，得到最终的用来预测高危人群的模型。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明提供的一种融合多个机器学习算法的高危人员预警方法的流程图；

图2是根据本发明中构建融合多个机器学习算法的模型、模型融合和模型预测的流程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

机器学习算法是从数据中自动分析获得规律，利用规律对未知数据进行预测的方法。基于当前现有高危人员基本属性基础之上，通过衍生、组合生成多维特征，这里既包含了与研究有关的特征，也包含了大量冗余和无关特征。通过融合多个机器学习算法进行建模分析，实现基于机器学习算法的高危人员预警模型。

高危人员的特征可以从身份、行为、轨迹、财务、社会关系等几个方面构建。从公安数据库中获取高危人员的基本属性数据，如性别、年龄、住址、学历、职业、婚姻、住宿、出入境等信息，对存在不完整和不一致的数据进行数据清洗和完善。其中，婚姻属性特征值为已婚、离婚或分居、未婚；职业的特征值为无业、个体从业人、工人、服务行业人员、公司职员、干部、学生。并且，从这些基本特征中衍生出多个特征信息，如住宿年平均次数、住宿季平均次数、住宿月平均次数、住宿周平均次数、住宿时长、在规定时间内换酒店入住比率等特征。

具体的，参见图1，本发明提供的一种融合多个机器学习算法的高危人员预警方法包括：

步骤1、数据预处理，

步骤2、构建融合多个机器学习算法的模型；

步骤3、模型融合；

步骤4、模型预测；

在步骤1中，预处理的样本数据包含数值型和字符型；其中，对数值型数据归一化之后进行使用，对字符型数据进行离散化处理，并且，使用不同的离散值进行处理。例如，对学历特征进行量化处理，按照受教育程度从小学、初中、高中、学士、硕士、博士等类别，分别设为对应的值如从1到6。

此外，步骤1中还包括结合数据本身的业务含义，对异常数据进行剔除或者当作缺失值处理。

如图2所示，在步骤2中构建的XGBoost模型将CART回归树作为基分类器，学习过程解释为：

其中，k为树的数目，f_k为函数空间F中的1个函数，

为预测值，x_i为输入的第i个样本，F为所有可能的CART集合；

构建的CatBoost模型为基于Gradient Boosting和Categorical Features的机器学习算法，用于处理分类特征问题并有效地减少过度拟合；

计算出的数值代替

使用CatBoost对训练集数据随机生成多个不同对序列，设定为s+1个序列，对于每一个序列，又训练n个不同的模型Mi；首先，为第0个序列的每个样本的模型(共计n个)初始化，再按照模型的不同，为其余s个序列的模型进行初始化，共计s*n个值；其次，生成一棵树并更新所述s*n个值，使用0序列为每个叶子节点得到均值用于预测；迭代I次，生成I颗树，最终得到最佳的树结构。

在步骤2构建的随机森林算法模型中，随机森林为基于分类树的算法，由多个决策树{h(x,θ_i),i＝1,...k}组合构建而成，多个所述决策树之间相互独立且森林中的所有决策树对新的数据样本进行投票，所得投票结果为随机森林的分类结果；因变量Y中有n个观测值，有k个自变量与之相关，在构建分类树时，随机森林会随机地在元数据中重新选择n个观测值，其中有的观测值被选择多次，有的没有被选择到；同时，随机森林随机地从k个自变量选择部分变量进行分类树节点的确定，每次构建的分类树都可能不一样；此时，在随机森林随机生成的几百个至几千个分类树中选择重复程度最高的树作为最终结果；

构建时，使用设定单个决策树的特征子集的特征变量的个数m，分别设置为3，5，7；确定森林树的棵数n分别设置为10，50，100，500；计算特征子集个数和树的棵数的笛卡尔乘积得到参数组合[m,n]；用每一组参数拟合随机森林模型，共得到3*4＝12个随机森林模型；计算得到每个随机森林模型的袋外估计的精度，选择精度最高的参数作为最优参数组合，并用最优参数组合和全部数据拟合随机森林模型。

在步骤3中模型融合时，其关键在于模型的差异性，本发明中不同模型采用不同的参数和训练集。根据模型预测的结构得分给予模型不同的权重，并加权组成最终模型，以提高模型的泛化能力。

步骤4中进行模型预测，在模型融合后，采用5折交叉验证，以保证结果分布均衡；其中，将数据随机分为5组，其中4组数据作为训练集数据，另一组作为测试集，利用此5个模型最终的平均正确率来衡量模型的正确率；

由此可见，本发明首先分析高危人群特征，获取高危人群的相关个人和行为信息，通过数据晒拆和清洗，构建带有标签的训练数据集。运用机器学习算法XGBoost、CatBoost和随机森林模型分别处理训练数据，根据最终结果，将4个模型算法进行融合，得到最终的用来预测高危人群的模型。

在此过程中，运用了机器学习算法，对高危人群进行预测，创新了传统高危人群预测方法；同时，运用多个机器学习算法进行融合，获取多个子机器学习算法在数据集上的表达能力，具有更强的泛化能力；此外，还结合了各个子机器学习算法的优势，实现了精度和稳健性的统一。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种融合多个机器学习算法的高危人员预警方法，其特征在于，包括：

步骤1、数据预处理；

步骤2、构建融合多个机器学习算法的模型；

步骤3、模型融合；

步骤4、模型预测；

2.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，在步骤1中，预处理的样本数据包含数值型和字符型；其中，对数值型数据归一化之后进行使用，对字符型数据进行离散化处理，并且，使用不同的离散值进行处理。

3.根据权利要求2所述的融合多个机器学习算法的高危人员预警方法，其特征在于，步骤1中还包括：结合数据本身的业务含义，对异常数据进行剔除或者当作缺失值处理。

4.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，在步骤2中构建的XGBoost模型将CART回归树作为基分类器，学习过程解释为：

其中，k为树的数目，f_k为函数空间F中的1个函数，

为预测值，x_i为输入的第i个样本，F为所有可能的CART集合；

5.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，在步骤2中构建的CatBoost模型为基于Gradient Boosting和Categorical Features的机器学习算法，用于处理分类特征问题并有效地减少过度拟合；

计算出的数值代替

6.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，在步骤2构建的随机森林算法模型中，随机森林为基于分类树的算法，由多个决策树{h(x,θ_i),i＝1,...k}组合构建而成，多个所述决策树之间相互独立且森林中的所有决策树对新的数据样本进行投票，所得投票结果为随机森林的分类结果；因变量Y中有n个观测值，有k个自变量与之相关，在构建分类树时，随机森林会随机地在元数据中重新选择n个观测值，其中有的观测值被选择多次，有的没有被选择到；同时，随机森林随机地从k个自变量选择部分变量进行分类树节点的确定，每次构建的分类树都可能不一样；此时，在随机森林随机生成的几百个至几千个分类树中选择重复程度最高的树作为最终结果；

7.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，在步骤3中，根据模型预测的结构得分给予模型不同的权重，并加权组成最终模型，以提高模型的泛化能力。

8.根据权利要求1所述的融合多个机器学习算法的高危人员预警方法，其特征在于，步骤4包括：在模型融合后，采用5折交叉验证，以保证结果分布均衡；其中，将数据随机分为5组，其中4组数据作为训练集数据，另一组作为测试集，利用此5个模型最终的平均正确率来衡量模型的正确率；