CN117407659A

CN117407659A - 基于机器学习的矛盾纠纷事件升级预测方法

Info

Publication number: CN117407659A
Application number: CN202311695645.7A
Authority: CN
Inventors: 蓝永文; 郑子健; 冯惠斌
Original assignee: Time Channel Information Technology Co ltd
Current assignee: Time Channel Information Technology Co ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-16

Abstract

本发明涉及基于机器学习的矛盾纠纷事件升级预测方法，包括以下步骤：步骤S1：获取矛盾纠纷事件相关人员的特征信息数据，并预处理；步骤S2:对预处理后的特征信息数据进行特征编码；步骤S3:基于卡方检验选择相关性最高的若干个特征；步骤S4:基于类别分布算法对选择出来的若干个特征进行过采样，构建训练数据集和测试数据集；步骤S5：构建K‑Nearest Neighbor模型，并基于训练数据集训练，得到预测模型；步骤S6:将新的矛盾纠纷事件相关人员的特征信息数据经过步骤S1‑S3的处理后，输入预测模型，得到预测结果。本发明实现对可能存在的矛盾升级进行提前预测。

Description

基于机器学习的矛盾纠纷事件升级预测方法

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于机器学习的矛盾纠纷事件升级预测方法。

背景技术

在日常的出警事件中，大部分是人与人之间的矛盾纠纷事件，而该类事件一般情况经过调解都能简单的解决，但是有些矛盾纠纷事件由于各种因素，经过调解后，后续会进一步升级，导致严重的社会治安事件，严重影响社会安全。

然而，目前针对社会矛盾纠纷预警的相关技术中，需要考虑的因素较多，无法靠人工判断哪个事件容易进行升级，缺乏对异常事件的矛盾纠纷升级化的预警，即并不能够实现对可能存在的矛盾升级进行提前预警。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于机器学习的矛盾纠纷事件升级预测方法，实现对可能存在的矛盾升级进行提前预测。

为实现上述目的，本发明采用以下技术方案：

一种基于机器学习的矛盾纠纷事件升级预测方法，包括以下步骤：

步骤S1：获取矛盾纠纷事件相关人员的特征信息数据，并预处理；

步骤S2:对预处理后的特征信息数据进行特征编码；

步骤S3:基于卡方检验选择相关性最高的若干个特征；

步骤S4:基于类别分布算法对选择出来的若干个特征进行过采样，构建训练数据集和测试数据集；

步骤S5：构建K-Nearest Neighbor模型，并基于训练数据集训练，得到预测模型；

步骤S6:将新的矛盾纠纷事件相关人员的特征信息数据经过步骤S1-S3的处理后，输入预测模型，得到预测结果。

进一步的，所述特征信息数据包括13类特征信息，包括：年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。

进一步的，所述预处理具体为：

针对采集到的13类特征信息，年龄、酒店上网次数、网吧上网次数的缺失值均采用平均值进行填充；

针对性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业均增加其他字典项；

并针对采集数据不规整的情况选择将相关字典项进行合并。

进一步的，所述步骤S2具体为：

根据数据中的数据类型进行特征编码，针对年龄、酒店上网次数、网吧上网次数特征采用MinMaxScaler归一化算法将所有年龄缩放至0～1之间；

针对字典类型特征采用独热编码算法进行编码：

（1）对于每个字典类型特征，找出所有不重复的类别；

（2）对于每个样本，根据其字典类型特征的值，找到对应的类别；

（3）对于每个类别，创建一个二进制向量，长度为类别总数；

（4）将对应类别的位置设为1，其他位置设为0；

（5）将所有的二进制向量连接起来，得到独热编码矩阵；

针对结果类型进行LabelEncoder编码进行编码:

找出结果类型的所有不重复类别；

对于每个类别，分配一个唯一的整数值；

将每个样本的结果类型替换为对应的整数值。

进一步的，所述步骤S3具体为：

使用SelectKBest算法，并指定score_func参数为chi2；

将特征编码后的特征信息数据作为输入，对特征进行分组，每个组代表一个类别；

计算每个特征在每个类别中的观测频数Oij；

计算每个特征在每个类别中的期望频数Eij；

根据公式计算所有特征的 chi2 值：

chi2 = sum((Oij - Eij)^2 / Eij)

其中，Oij表示第i个特征在第j个类别中的观测频数，Eij表示第i个特征在第j个类别中的期望频数;

对所有特征的chi2值进行排序，选择排名前H个得分最高的特征。

进一步的，所述类别分布算法,具体为：

计算矛盾纠纷事件未升级样本数量N_majority和矛盾纠纷事件升级数量N_minority；

计算类别分布差异性因子D_factor = N_majority / N_minority；

对于矛盾纠纷事件升级事件的每个样本，计算该样本的过采样倍数Oversampling_factor = D_factor - 1。

生成Oversampling_factor个新的合成样本，作为最终的矛盾纠纷事件升级样本集。

进一步的，所述步骤S5具体为：

构建K-Nearest Neighbor模型，指定G值和距离度量方法为闵可夫斯基距离；

d(x, y) = (sum(|xi - yi|^p))^(1/p)

其中，x和y分别表示两个样本向量的特征值，xi和yi分别表示两个样本向量的第i个特征值，p表示闵可夫斯基距离的阶数；G值表示预测时选择的最近邻居的数量；

使用训练集数据拟合KNN模型，得到预测模型。

进一步的，所述G值的获取，具体如下：

将训练数据集划分为K个折，对于每个K折数据集，将其中一个折作为验证集，其余折作为训练集，对于每个可能的G值，重复以下步骤：

（1）使用K-1个折的数据作为训练集，训练KNN模型；

（2）使用剩下的一个折作为验证集，评估模型的性能；

（3）对于每个G值，计算模型在验证集上的性能指标的平均值；

（4）选择具有最高性能指标平均值的G值作为最优G值；

（5）使用最优G值重新训练KNN模型，使用所有训练数据，得到预测模型。

本发明具有如下有益效果：

1、本发明基于13类特征信息，并对不同类型的特征信息进行不同的预处理，提升数据的准确度，综合考虑多方面影响因素，对矛盾升级进行提前预测，可靠性，准确性高；

2、由于矛盾纠纷事件升级为恶性事件的比例可能非常低，导致正负样本不平衡，本发明基于类别分布算法对样本数据进行处理，处理样本不平衡问题，以提高模型的预测能力。

附图说明

图1为本发明方法流程图；

图2为本发明一实施例中特征相关词云图；

图3为本发明一实施例中的K-Nearest Neighbor模型预测方法；

图4为本发明一实施例中人员信息表示意图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步详细说明：

参考图1，本发明提供一种基于机器学习的矛盾纠纷事件升级预测方法，包括以下步骤：

步骤S2:对预处理后的特征信息数据进行特征编码；

步骤S3:基于卡方检验选择相关性最高的若干个特征；

参考图2，在本实施例中，特征信息数据包括13类特征信息，包括：年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。

在本实施例中，预处理具体为：

并针对采集数据不规整的情况选择将相关字典项进行合并。

如：复婚和再婚进行合并、初中和初中毕业进行合并等。

在本实施例中，步骤S2具体为：

针对字典类型特征采用独热编码算法进行编码：

（1）对于每个字典类型特征，找出所有不重复的类别；

（4）将对应类别的位置设为1，其他位置设为0；

（5）将所有的二进制向量连接起来，得到独热编码矩阵；

针对结果类型进行LabelEncoder编码进行编码:

找出结果类型的所有不重复类别；

对于每个类别，分配一个唯一的整数值；

将每个样本的结果类型替换为对应的整数值。

进一步的，所述步骤S3具体为：

使用SelectKBest算法，并指定score_func参数为chi2；

计算每个特征在每个类别中的观测频数Oij；

计算每个特征在每个类别中的期望频数Eij；

根据公式计算所有特征的 chi2 值：

chi2 = sum((Oij - Eij)^2 / Eij)

在本实施例中，基于类别分布算法,具体为：

计算类别分布差异性因子D_factor = N_majority / N_minority；

在本实施例中，涉事人员信息横向平铺。其横向为涉事人员特征信息，纵向为每一起纠纷案件。经过上述排列后得到如图4所示数据结构：

在本实施例中，步骤S5具体为：

d(x, y) = (sum(|xi - yi|^p))^(1/p)

其中，x和y分别表示两个样本向量的特征值，xi和yi分别表示两个样本向量的第i个特征值，p表示闵可夫斯基距离的阶数；

使用训练集数据拟合KNN模型，得到预测模型。

在本实施例中，G值获取，具体如下：

（1）使用K-1个折的数据作为训练集，训练KNN模型；

（2）使用剩下的一个折作为验证集，评估模型的性能；

（4）选择具有最高性能指标平均值的G值作为最优G值；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，包括以下步骤：

步骤S2:对预处理后的特征信息数据进行特征编码；

步骤S3:基于卡方检验选择相关性最高的若干个特征；

所述类别分布算法,具体为：

计算类别分布差异性因子D_factor = N_majority / N_minority；

对于矛盾纠纷事件升级事件的每个样本，计算该样本的过采样倍数Oversampling_factor = D_factor - 1；

生成Oversampling_factor个新的合成样本，作为最终的矛盾纠纷事件升级样本集；

2.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述特征信息数据包括13类特征信息，包括：年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。

3.根据权利要求2所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述预处理具体为：

并针对采集数据不规整的情况选择将相关字典项进行合并。

4.根据权利要求3所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述步骤S2具体为：

针对字典类型特征采用独热编码算法进行编码：

（1）对于每个字典类型特征，找出所有不重复的类别；

（4）将对应类别的位置设为1，其他位置设为0；

（5）将所有的二进制向量连接起来，得到独热编码矩阵；

针对结果类型进行LabelEncoder编码进行编码:

找出结果类型的所有不重复类别；

对于每个类别，分配一个唯一的整数值；

将每个样本的结果类型替换为对应的整数值。

5.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述步骤S3具体为：

使用SelectKBest算法，并指定score_func参数为chi2；

计算每个特征在每个类别中的观测频数Oij；

计算每个特征在每个类别中的期望频数Eij；

根据公式计算所有特征的 chi2 值：

chi2 = sum((Oij - Eij)^2 / Eij)

6.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述步骤S5具体为：

d(x, y) = (sum(|xi - yi|^p))^(1/p)

其中，x和y分别表示两个样本向量的特征值，xi和yi分别表示两个样本向量的第i个特征值，p表示闵可夫斯基距离的阶数,G值表示预测时选择的最近邻居的数量；

使用训练集数据拟合KNN模型，得到预测模型。

7.根据权利要求6所述的基于机器学习的矛盾纠纷事件升级预测方法，其特征在于，所述G值的获取，具体如下：

（1）使用K-1个折的数据作为训练集，训练KNN模型；

（2）使用剩下的一个折作为验证集，评估模型的性能；

（4）选择具有最高性能指标平均值的G值作为最优G值；