CN115907483A

CN115907483A - 人员风险评估预警的方法

Info

Publication number: CN115907483A
Application number: CN202310015460.0A
Authority: CN
Inventors: 徐保征; 高天启; 刘昊; 徐浩轩
Original assignee: Shandong Hummingbird Internet Of Things Technology Co ltd
Current assignee: Shandong Hummingbird Internet Of Things Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-04
Anticipated expiration: 2043-01-06
Also published as: CN115907483B

Abstract

本发明属于计算机应用技术领域，涉及一种人员风险评估预警的方法。本发明通过对复杂的个体人员信息进行了预处理，提取到有用的风险人员特征信息，进而利于XGboost网络的判断。同时，为了平衡训练过程中的正负样本比例，引入以关键特征信息保留为基础的数据扩增策略，避免模型出现过拟合问题，提高模型的泛化性能。另外，为了加快XGboost模型训练速度，充分利用个体信息和工商信息，使用CPSO混沌粒子群算法，加快模型的收敛，提高模型的鲁棒性和精确度。最后，为了能有效预测出风险个体并给出预警。

Description

人员风险评估预警的方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种人员风险评估预警的方法。

背景技术

现有的基于机器学习的人员预警算法所接受的输入格式基本为单一维度的归一化数据，以基于XGBoost算法的预警模型研究（陆万万,王维芳,马煜敏. 基于XGBoost算法的预警模型研究[J]. 电子设计工程,2022,30(19):49-54+59.）一文为例，文中提出的预警模型要求对具有时间维度的动态轨迹信息以及风险行为记录等数据进行量化处理，统计在一段时间内的相关数据并关于时间维度进行降维。

在具体的算法实施流程中，以基于XGBoost算法的预警模型研究一文为例，该算法针对单一维度的数据划分了训练集、验证集与测试集，利用XGBoost算法优化模型决策树，并设置XGBoost函数的AUC值作为算法的适应度函数，通过粒子群算法对适应度函数的优化，使得模型趋于收敛。

以基于XGBoost算法的预警模型为代表的现有预警模型具有以下不足之处：

1、算法对所处理的数据格式要求较为严格，无法处理诸如人员时空轨迹、社会关系网、商业关系网等复杂结构数据。因此数据预处理过程中损失了大量有用信息。

2、应用传统粒子群算法对XGBoost算法得到的适应度函数进行迭代优化时，迭代后期容易出现过早收敛的现状导致陷入局部最优，同时由于迭代过程中只寻找了粒子的两个最优值，忽略了其他信息，导致算法失去多样性。

发明内容

本发明针对上述的基于XGBoost算法的人员预警模型所存在的技术问题，提出一种方法简单、操作方便且能够有效解决XGBoost算法的预警模型不足的人员风险评估预警的方法。

为了达到上述目的，本发明采用的技术方案为，本发明体提供一种人员风险评估预警的方法，包括以下步骤：

a、首先获取被主管部门标记过的个体的特征信息并根据所提供的特征信息将需要风险评估的个体进行标记处理；

b、然后对获取的特征信息进行离散化处理并将隶属于同一个体的特征进行拼接，形成一维的特征向量；

c、采用随机森林算法获取不同特征信息的权重，并根据权重的大小或专家打分的方式筛选出多维特征向量并将该个体的标记信息构建为人员判断特征向量；

d、将构建的多维特征向量以及人员判断特征向量作为训练集输入若干个XGboost网络进行训练；

e、将XGboost网络的最后的分类结果作为适应度函数，以每个XGboost的模型参数为粒子群，将若干个粒子群按照CPSO的方法进行更新迭代，最终选出最好的粒子群，即得到最优的XGboost模型；

f、将a步骤得到的个体的特征信息代入到XGboost模型，通过设定阈值方式判断该个体是否为风险人员并输出相对应的研判报告进行预警。

作为优选，所述a步骤中，个体的特征信息包括个人信息以及工商信息。

作为优选，所述骤中，个人的特征信息还包括关系信息和轨迹信息；

作为优选，所述c步骤中，采用随机森林算法获取不同特征信息的权重，并根据权重的大小或专家打分的方式筛选出属于个人信息以及工商信息的多维特征向量、属于轨迹信息和关系信息的团体判断特征向量并将该个体的标记信息构建为人员判断特征向量。

作为优选，所述d步骤中，将构建的多维特征向量、人员判断特征向量以及团体判断特征向量作为训练集输入若干个XGboost网络进行训练。

作为优选，还包括g步骤，使用CHAID决策树针对XGboost模型预警的风险个体进行风险团体判断预警。

作为优选，所述g步骤中，CHAID决策树对XGboost模型预警风险个体进行风险团体判断预警方法为：

h1、首先对XGboost模型判断为风险人员的个体进行数据处理，将其作为新增特征信息加入个体特征信息；

h2、核查已确定为风险人员个体与该个体轨迹信息，将包含相同轨迹信息的地方分组并标记；

h3、将风险人员这一标记信息选入因变量中、将团体判断特征向量选入自变量框中；

h4、根据现有的已确定的风险团体构建决策树框架，然后，通过CHAID决策树的分析预测，最终对该个体是否属于风险团体的判断预警。

作为优选，所述b步骤中，利用one-hot编码将隶属于同一个体的特征进行拼接，形成一维的特征向量。

与现有技术相比，本发明的优点和积极效果在于：本发明提供一种人员风险评估预警的方法，通过对复杂的个体人员信息进行了预处理，提取到有用的风险人员特征信息，进而利于XGboost网络的判断。同时，为了平衡训练过程中的正负样本比例，引入以关键特征信息保留为基础的数据扩增策略，避免模型出现过拟合问题，提高模型的泛化性能。另外，为了加快XGboost模型训练速度，充分利用个体信息和工商信息，使用CPSO混沌粒子群算法，加快模型的收敛，提高模型的鲁棒性和精确度。最后，为了能有效预测出风险团体并给出预警，设计了一套全新的基于个人关系信息、轨迹信息等特征信息实现了基于CHAID决策树的风险团体的预警，进而为主管部门的工作提供了便利。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，本实施例提供一种人员风险评估预警的方法，旨在解决现有XGBoost算法的人员预警模型所存在的技术问题。

对于个体是否属于风险人员以及该个体是否参与到团体性质的风险人员，就需要对个体的信息有足够的了解，为此，首先获取被主管部门标记过的个体的特征信息，标记过的个体是在被主管部门登记过相应档案的人员。

其中，特征信息包括个体的个人信息、关系信息、工商信息、标记信息以及轨迹信息，其中，标记信息用于标记个体所涉及问题的类型。就是因何事被主管部门进行标记，比如，风险人员标记信息，那么这个个体的标记信息就是风险人员。个人信息则是单独属于该个体的个人的相关信息，信息越详细越好。关系信息则是指与该个体有关系的人员信息，工商信息则是比如该个体是某单位的法人或股东等涉及到工商类的信息，轨迹信息则是该个体的移动轨迹等信息。

基于数据个体信息对人员目标进行分类打标签处理。在数据中，将标记为风险人员的个体当做负标记样本。其余非风险人员的个体当做正标记样本。

然后，将个体的特性信息进行离散化处理，在本实施例中利用one-hot编码，将个体的不同特征信息进行编码处理，比如，针对风险人员的常见的三个特征，分别赋值[1,0,0]，[0,1,0]和[0,0,1]。将每个个体的特征进行one-hot编码，之后将隶属于同一个体的特征进行拼接，形成一维的特征向量。当然，也可以采用embedding方法之类的进行离散化处理，其主要目的就是用数值代替字符，从而方便训练。

在海量的人员信息中，绝大部分人员并非风险人员，因此在模型训练中存在着严重的正负比例失调问题，本实施例通过XGboost算法来实现判断该个体是否为风险人员来进行判断与预警。而XGboost算法是数据驱动型网络，需要充足的训练样本作为支撑。为了缓解数据不均衡问题，避免模型出现严重的过拟合问题，提高模型的泛化性能。为此，采用随机森林算法获取不同特征信息的权重，并根据权重的大小或专家打分的方式筛选出属于个人信息以及工商信息的多维特征向量并与该个体的标记信息特征构建风险人眼判断特征向量，同时，根据个体的轨迹信息和关系信息构建风险团体判断特征向量。

随机森林算法基于决策树理论，每次从一维的人员特征向量中随机抽取含k个特征的数据子集，然后筛选出其中一个最优特征指标进行划分。一般设定特征个数为：

其中，d为特征指标数。随机森林算法计算流程如下：

1）通过n组袋外数据测试每棵决策树性能，计算得到决策树子模型的误差值；

2）对n组袋外数据的第i组特征添加噪声干扰，计算得到添加噪声干扰后每棵树的误差值；

3）由以上步骤，计算可得前后两次添加噪声干扰后的误差变化平均值；

4）由于特征指标重要性与计算所得误差变化平均值呈正相关。因此，可得特征重要性公式为：

；

5）基于特征指标重要性数值对特征指标进行重要性排序并筛选出其中重要特征指标。

将筛选出的特征进行组合，以权重大小形成新的典型的个体一维特征向量，以此作为个体的风险判断特征依据。

这种客观的筛选方法筛选出来的特征可能不如主观筛选的出来的特征更方便判断，为此，也可以借助主管部门的专家打分的方式筛选出用于训练的特征，比如，在本实施例中，根据个人信息筛选出10个数据要素，根据工商信息筛选出7个数据要素，以及标记信息里面的数据要素作为标签向量。由此共同组成17个数据要素构成的17维特征向量以及风险人员标记信息构建风险人员判断特征向量。

风险人员判断特征用于该个体的是否属于风险人员判断，构成输入到XGboost系统网络的特征向量，即17维数字表征的特征，用x表示，用1维数字表征的个人标签向量，记为y，由此构成数据对（x，y）。

为了判断该个体是否存在团体问题，在本实施例中，选择轨迹信息中的时间和地点2个数据要素，根据关系信息筛选出2个数据要素。综合4个数据要素，构建成4维的特征向量，风险团体判断特征向量。

数据确定了，就可以对模型进行计算，将构建的多维特征向量、人员判断特征向量以及团体判断特征向量作为训练集输入若干个XGboost网络进行训练。若不对团体进行判断，只需要将多维特征向量以及人员判断特征向量作为训练集即可。

接下来对XGboost算法进行简要介绍：

XGBoost 算法对具有稀疏特征的数据处理效果良好，XGBoost算法通过残差拟合多次计算得到预警结果，提高分类精度。

设个体特征样本数据集为：

式中，为第i个样本的属性集，为第i个样本所属的类别，有两类：风险人员与非风险人员，由0和1代表。第棵树的预测结果为：

式中为第k棵树的预测结果，系统网络的损失函数定义如下：

式中为预测值，为真实的样本值。为设置的损失函数，本发明只需进行二分类，即判断该个体是否为风险人员，使用BCELoss（binary cross entropy loss二分类交叉熵损失函数）。K为树的数量，为第k棵树的模型，T为该棵树叶子节点的数量，为每棵树叶节点的分数，为超参数。为正则化项，可以有效避免算法过拟合问题。

为了加快XGboost算法的收敛，加快模型的优化。本实施例使用CPSO（混沌粒子群）算法对XGboost的最终输出结果进行优化。粒子群算法就是在一群可行解里面，寻找一个最好的，XGboost模型有学习率、树的最大参数等一些参数，相当于模型参数，不同的值会导致最后的分类结果不同。我们随机初始化n个XGboost模型，以最后的分类结果作为适应度函数，也就是评判这个模型好坏的标准。在这个适应度函数的空间里，对应着规模为n的粒子群，每个粒子群就是一个xgboost的模型参数，这些粒子群按照CPSO的方法进行更新迭代，最终选出最好的粒子群，也就是最好的XGboost模型，找到最优的参数。通过使用CPSO算法，可以有效提高模型的鲁棒性和精确度，为后续进行风险人员判断提供保障。

最后，使用CHAID决策树针对XGboost模型预警的具有风险人员风险的个体进行风险团体的判断预警。CHAID决策树对模型预警的风险人员的个体进行风险团体的判断预警的方法为：首先对XGboost模型判断为可能风险人员人员的个体进行数据处理，将其作为新增特征信息加入个体特征信息；核查风险人员个体（已经确定风险人员的个体）与该个体轨迹信息，将包含相同轨迹信息的地方分组并标记；将风险人员这一特征信息选入因变量中、将风险团体判断特征向量选入自变量框中根据现有的风险团体构建决策树框架，然后，通过CHAID决策树的分析预测，最终对该个体是否进行风险团体的判断预警。

通过上述的设置，有效实现了对标记人员的风险人员的判断，为主管部门提供有效的风险人员预警和风险团体预警，进而解决了现有XGboost模型判断所存在的不足。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种人员风险评估预警的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的人员风险评估预警的方法，其特征在于，所述a步骤中，个体的特征信息包括个人信息以及工商信息。

3.根据权利要求2所述的人员风险评估预警的方法，其特征在于，所述a步骤中，个人的特征信息还包括关系信息和轨迹信息。

4.根据权利要求3所述的人员风险评估预警的方法，其特征在于，所述c步骤中，采用随机森林算法获取不同特征信息的权重，并根据权重的大小或专家打分的方式筛选出属于个人信息以及工商信息的多维特征向量、属于轨迹信息和关系信息的团体判断特征向量并将该个体的标记信息构建为人员判断特征向量。

5.根据权利要求4所述的人员风险评估预警的方法，其特征在于，所述d步骤中，将构建的多维特征向量、人员判断特征向量以及团体判断特征向量作为训练集输入若干个XGboost网络进行训练。

6.根据权利要求5所述的人员风险评估预警的方法，其特征在于，还包括g步骤，使用CHAID决策树针对XGboost模型预警的风险个体进行风险团体判断预警。

7.据权利要求6所述的人员风险评估预警的方法，其特征在于，所述g步骤中，CHAID决策树对XGboost模型预警风险个体进行风险团体判断预警方法为：

8.根据权利要求7所述的人员风险评估预警的方法，其特征在于，所述b步骤中，利用one-hot编码将隶属于同一个体的特征进行拼接，形成一维的特征向量。