CN114579631A

CN114579631A - 基于概率加权过采样的社区矫正率预测系统及方法

Info

Publication number: CN114579631A
Application number: CN202210096195.9A
Authority: CN
Inventors: 张莉; 魏真; 赵雷; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-06-03
Anticipated expiration: 2042-01-26
Also published as: CN114579631B

Abstract

本发明涉及一种基于概率加权过采样的社区矫正率预测系统，包括数据输入模块输入社区矫正原始数据集合，其包括次要矫正社区原始数据集合和主要矫正社区原始数据集合；过采样模块获得剔除噪音样本点的主要矫正社区数据集合，基于主要矫正社区数据集合获得主要矫正社区样本点集合；将主要社区矫正样本点集合和矫正社区原始数据集合进行求和得社区矫正数据集合，数据训练模块利用社区矫正数据集合进行训练得社区矫正率预测模型；社区矫正率预测模块接收待预测的社区矫正样本，并将其输入至社区矫正率预测模型，输出预测结果。本发明能够达到数据样本数量的平衡，克服因数据样本数量不平衡而导致的检测率低的问题。

Description

基于概率加权过采样的社区矫正率预测系统及方法

技术领域

本发明涉及数据挖掘技术领域，尤其是指一种基于概率加权过采样的社区矫正率预测系统及方法。

背景技术

随着城镇化程度的不断提升，城市社区的人员结构也越来越复杂这就造成了各地区矫正率逐年增加，。为此相关部门迫切需要对社会矫正数据进行分析，并预测出特定地区的潜在矫正率，从而加强对该地区的管理。

目前，数据挖掘方法已经被用到了社区矫正率预测中。有些社区的矫正率较高，这类社区我们称为主要矫正社区，有些社区的矫正率较低，这类社区我们称为次要矫正社区。在日常生活中，反映出来的现象是主要矫正社区较少，次要矫正社区较多，这属于一种数据分布不平衡问题。在数据不平衡的条件下，经典的学习模型对社区矫正检测率往往较低。一种可行的解决方案是让两类数据的数据量达到平衡。过采样方法就是能让数据平衡的一类方法。在现有的过采样方法中，SMOTE(Synthetic Minority Oversampling Technique)是最为经典的过采样方法之一。该方法通过在少数类样本与其同类近邻样本之间进行线性插值，从而生成新的样本点，然而，SMOTE存在对噪音样本点和无用样本点进行过采样，以及采用的线性插值方式使得其生成的样本点缺乏多样性的问题，导致生成的样本点仍为噪音样本点，从而降低分类性能或者生成的样本点对分类性能无影响。Borderline-SMOTE是对SMOTE的一种变体，它识别了噪音、边界以及安全样本点，能够解决SMOTE 中噪音样本点生成和无用样本点生成问题，但是该方法采用SMOTE的生成方式，使得新生成的样本点缺乏多样性以及其未能对每个边界样本点的重要性进行衡量，可能仍然会造成生成的样本重合问题。因此，如何选择哪些样本点参与过采样的过程以及如何选择样本点的生成方式是过采样方法中值得研究的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于概率加权过采样的社区矫正率预测系统及方法，其能够达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。

为解决上述技术问题，本发明提供一种基于概率加权过采样的社区矫正率预测系统，包括：

数据输入模块，所述数据输入模块用于输入社区矫正原始数据集合，其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合；

过采样模块，所述过采样模块用于剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，计算所述主要矫正社区边界样本集合中的样本的选择概率，并根据所述选择概率生成主要社区矫正样本点集合；

数据训练模块，所述数据训练模块用于将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和，获得最终的社区矫正数据集合，利用最终的社区矫正数据集合对神经网络模型进行训练，得到社区矫正率预测模型；

社区矫正率预测模块，所述社区矫正率预测模块用于接收待预测的社区矫正样本，并将其输入至所述社区矫正率预测模型，输出所述社区矫正样本的预测结果，判断该社区矫正样本是否为主要矫正社区。

在本发明的一个实施例中，所述过采样模块包括：

噪音样本点剔除子模块，所述噪音样本点剔除子模块用于计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，得到剔除噪音样本点后的主要矫正社区数据集合；

边界样本确定子模块，所述边界样本确定子模块用于基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合；

选择概率计算子模块，所述选择概率计算子模块用于计算所述主要矫正社区边界样本集合中的边界样本的选择概率；

样本生成子模块，所述样本生成子模块用于基于所述选择概率随机生成新的样本点，得到主要社区矫正样本点集合。

在本发明的一个实施例中，所述边界样本确定子模块包括：

一次寻找近邻样本单元，所述一次寻找近邻样本单元用于寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本，并将近邻样本组成多数类边界样本集合；

二次寻找近邻样本单元，所述二次寻找近邻样本单元用于寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本，并将近邻样本组成主要矫正社区边界样本集合。

在本发明的一个实施例中，所述选择概率计算子模块包括：

局部密度计算单元，所述局部密度计算单元用于计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度；

相对密度计算单元，所述相对密度计算单元用于根据所述局部密度计算边界样本在整个样本空间中的相对密度；

权重计算单元，所述权重计算单元用于根据所述相对密度计算所述边界样本的权重值；

选择概率确定单元，所述选择概率确定单元用于对所述权重值进行归一化操作，得到所述主要矫正社区边界样本集合中的边界样本的选择概率。

在本发明的一个实施例中，所述样本生成子模块包括：

少数类边界样本选择单元，所述少数类边界样本选择单元用于根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本；

欧氏距离计算单元，所述欧氏距离计算单元用于计算所述少数类边界样本与其多数类边界样本之间的欧氏距离；

样本点生成单元，所述样本点生成单元用于将少数类边界样本作为超球体的中心点，以欧氏距离为半径，在所述超球体中随机生成新的样本点；

主要社区矫正样本点集合获得单元，所述主要社区矫正样本点集合获得单元用于对少数类边界样本中的所有样本点，重复样本点生成的步骤，直到得到样本点数量满足要求的主要社区矫正样本点集合。

此外，本发明还提供一种基于概率加权过采样的社区矫正率预测方法，包括：

输入社区矫正原始数据集合，其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合；

剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，计算所述主要矫正社区边界样本集合中的样本的选择概率，并根据所述选择概率生成主要社区矫正样本点集合；

将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和，获得最终的社区矫正数据集合，利用最终的社区矫正数据集合对神经网络模型进行训练，得到社区矫正率预测模型；

接收待预测的社区矫正样本，并将其输入至所述社区矫正率预测模型，输出所述社区矫正样本的预测结果，判断该社区矫正样本是否为主要矫正社区。

在本发明的一个实施例中，剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，包括：

计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，得到剔除噪音样本点后的主要矫正社区数据集合。

在本发明的一个实施例中，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，包括：

寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本，并将近邻样本组成多数类边界样本集合；

寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本，并将近邻样本组成主要矫正社区边界样本集合。

在本发明的一个实施例中，计算所述主要矫正社区边界样本集合中的样本的选择概率，包括：

计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度；

根据所述局部密度计算边界样本在整个样本空间中的相对密度；

根据所述相对密度计算所述边界样本的权重值；

对所述权重值进行归一化操作，得到所述主要矫正社区边界样本集合中的边界样本的选择概率。

在本发明的一个实施例中，根据所述选择概率生成主要社区矫正样本点集合，包括：

根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本；

计算所述少数类边界样本与其多数类边界样本之间的欧氏距离；

将少数类边界样本作为超球体的中心点，以欧氏距离为半径，在所述超球体中随机生成新的样本点；

对少数类边界样本中的所有样本点，重复样本点生成的步骤，直到得到样本点数量满足要求的主要社区矫正样本点集合。

本发明的上述技术方案相比现有技术具有以下优点：

本发明提出了基于概率加权过采样的社区矫正率预测系统及方法，其首先对主要矫正社区的样本点数据进行去噪，然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率，最后依次根据选择概率选择样本生成点，并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明基于概率加权过采样的社区矫正率预测系统的硬件结构示意图。

图2是本发明基于概率加权过采样的社区矫正率预测方法的流程示意图。

其中，附图标记说明如下：10、数据输入模块；20、过采样模块；21、噪音样本点剔除子模块；22、边界样本确定子模块；23、选择概率计算子模块；24、样本生成子模块；30、数据训练模块；40、社区矫正率预测模块。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参阅图1所示，本发明实施例提供一种基于概率加权过采样的社区矫正率预测系统，包括：

数据输入模块10，所述数据输入模块10用于输入社区矫正原始数据集合，其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合；

过采样模块20，所述过采样模块20用于剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，计算所述主要矫正社区边界样本集合中的样本的选择概率，并根据所述选择概率生成主要社区矫正样本点集合；

数据训练模块30，所述数据训练模块30用于将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和，获得最终的社区矫正数据集合，利用最终的社区矫正数据集合对神经网络模型进行训练，得到社区矫正率预测模型；

社区矫正率预测模块40，所述社区矫正率预测模块40用于接收待预测的社区矫正样本，并将其输入至所述社区矫正率预测模型，输出所述社区矫正样本的预测结果，判断该社区矫正样本是否为主要矫正社区。

在本实施例公开的一种基于概率加权过采样的社区矫正率预测系统中，所述过采样模块20包括：

噪音样本点剔除子模块21，所述噪音样本点剔除子模块21用于计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，得到剔除噪音样本点后的主要矫正社区数据集合；

边界样本确定子模块22，所述边界样本确定子模块22用于基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合；

选择概率计算子模块23，所述选择概率计算子模块23用于计算所述主要矫正社区边界样本集合中的边界样本的选择概率；

样本生成子模块24，所述样本生成子模块24用于基于所述选择概率随机生成新的样本点，得到主要社区矫正样本点集合。

其中，所述边界样本确定子模块22包括：

其中，所述选择概率计算子模块23包括：

其中，所述样本生成子模块24包括：

本发明提出了一种基于概率加权过采样的社区矫正率预测系统，其首先对主要矫正社区的样本点数据进行去噪，然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率，最后依次根据选择概率选择样本生成点，并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。

此外，请参阅图2所示，本发明实施例还提供一种基于概率加权过采样的社区矫正率预测方法，包括：

S1：输入社区矫正原始数据集合，其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合；

S2：剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，计算所述主要矫正社区边界样本集合中的样本的选择概率，并根据所述选择概率生成主要社区矫正样本点集合；

S3：将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和，获得最终的社区矫正数据集合，利用最终的社区矫正数据集合对神经网络模型进行训练，得到社区矫正率预测模型；

S4：接收待预测的社区矫正样本，并将其输入至所述社区矫正率预测模型，输出所述社区矫正样本的预测结果，判断该社区矫正样本是否为主要矫正社区。

本发明提出了基于概率加权过采样的社区矫正率预测方法，其首先对主要矫正社区的样本点数据进行去噪，然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率，最后依次根据选择概率选择样本生成点，并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。

在本发明公开的一种基于概率加权过采样的社区矫正率预测方法中，对于上述实施方式的S1，包括：

输入社区矫正原始数据集合D＝{(x_i,y_i)|x_i∈R^d,y_i∈{0,1},i＝1,…,n}，n是社区矫正原始数据集中样本的总数，d是社区矫正原始数据集的特征数，x_i表示第 i条社区矫正数据，y_i是其标签。若y_i＝0，则x_i为次要社区；若y_i＝1，则x_i为主要社区。令D＝D_maj∪D_min，其中D_maj为多数类数据集合，即次要矫正社区原始数据集合，其样本数记为n_maj；D_min为少数类数据集合，即主要矫正社区原始数据集合，其样本数记为n_min。令所需新生成的样本点个数为n_new＝n_maj-n_min。

在本发明公开的一种基于概率加权过采样的社区矫正率预测方法中，对于上述实施方式的S2，包括：

S2.1：计算主要矫正社区原始数据集合中的样本的均值μ＝[μ₁,μ₂,...,μ_d]^T以及标准差σ＝[σ₁,σ₂,...,σ_d]^T。本实施例假定满足一定条件的样本点为噪音样本点，即，若对i∈[1,…,n_min]，j＝1,…,d，只要|x_ij-μ_j|＞4σ_j成立，则该样本点被认为是噪音样本点，若样本点为噪音样本点，则去除这些样本点，得到主要矫正社区数据集合D'_min，其样本点个数记为n'_min。

S2.2：在主要矫正社区数据集合D'_min中，对于其中的每个样本x_i∈D'_min在次要矫正社区原始数据集合D_maj中寻找其k₁个近邻，并将所有找到的近邻样本组成一个多数类的边界样本集合，记为

对于每个多数类的边界样本

在主要矫正社区数据集合D'_min中寻找其k₂个近邻，并将所有找到的近邻样本组成一个少数类的边界样本集合，也就是主要矫正社区边界样本集合，记为

令该集合的数量为

S2.31：计算所有主要矫正社区边界样本x_i在其同类和异类样本点的局部密度：

其中

表示样本x_i和样本

之间的欧氏距离，K是预定义的近邻个数，density_min(x_i)是x_i在其少数类中的局部密度，

表示x_i在其少数类集合D'_min中的第k个近邻样本点；density_maj(x_i)是x_i在其多数类中的局部密度，

表示的是x_i在多数类集合D_maj中的第k个近邻样本。

S2.32：计算所有

在整个样本空间中的相对密度：

S2.33：计算所有

的权重w(x_i):

其中m_i是x_i在两类数据的近邻样本中多数类样本的个数。

S2.34：对权重值进行归一化操作，得到每个主要矫正社区边界样本的选择概率SP(x_i)：

S2.41：根据选择概率SP(x_i)在主要矫正社区边界样本集合

中选择一个少数类的边界样本x_i。

S2.42：计算样本

与其多数类最近邻样本

之间的欧氏距离

S2.43：将样本

作为超球体的中心点，以距离

为半径，在这个以x_i为中心点的超球体中随机选择一个点，即为生成新的样本点。

S2.44：对

中的所有样本点，重复样本生成的S2.41-S2.43，直到样本点数量达到n_new。由此，得到新的主要社区矫正样本点集合D_new。

为了验证本发明提出的基于概率加权过采样的社区矫正率预测系统及其方法的性能。本发明在US_Crime数据集上进行五折交叉验证实验，将数据集随机划分成五份，其中一份作为测试集，其余四份作为训练集进行新数据样本的生成。在样本生成后，对测试集进行分类，采用随机森林RF (n_estimators＝100)和AdaBoost(n_estimators＝50)来对过采样之后得到新的数据集进行分类，我们取十次五折交叉验证得到的平均值作为该实验的结果。在过采样方法中，对比方法采用SMOTE和BorderLine-SMOTE。

采用AUC，F1-score，G-mean三个不同评价指标下对分类效果进行评估，

AUC＝Area Under Receiver Operating Characteristic Curve

其中TP、FN、FP以及TN见表1中的混淆矩阵所示。

表1混淆矩阵

	预测值＝1	预测值＝0
			真实值＝1	TP	FN
真实值＝0	FP	TN

分类结果如表2所示，本发明与SMOTE和BorderLine-SMOTE相比，在AUC， F1-score和G-mean这三个指标下的效果较好。

表2三种过采样方法的结果对比

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于概率加权过采样的社区矫正率预测系统，其特征在于，包括：

2.根据权利要求1所述的基于概率加权过采样的社区矫正率预测系统，其特征在于，所述过采样模块包括：

3.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统，其特征在于，所述边界样本确定子模块包括：

4.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统，其特征在于，所述选择概率计算子模块包括：

5.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统，其特征在于，所述样本生成子模块包括：

6.一种基于概率加权过采样的社区矫正率预测方法，其特征在于，包括：

7.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法，其特征在于，剔除所述主要矫正社区原始数据集合中的噪音样本点，获得剔除噪音样本点后的主要矫正社区数据集合，包括：

8.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法，其特征在于，基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合，包括：

9.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法，其特征在于，计算所述主要矫正社区边界样本集合中的样本的选择概率，包括：

根据所述相对密度计算所述边界样本的权重值；

10.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法，其特征在于，根据所述选择概率生成主要社区矫正样本点集合，包括：