CN114579631A - 基于概率加权过采样的社区矫正率预测系统及方法 - Google Patents

基于概率加权过采样的社区矫正率预测系统及方法 Download PDF

Info

Publication number
CN114579631A
CN114579631A CN202210096195.9A CN202210096195A CN114579631A CN 114579631 A CN114579631 A CN 114579631A CN 202210096195 A CN202210096195 A CN 202210096195A CN 114579631 A CN114579631 A CN 114579631A
Authority
CN
China
Prior art keywords
community
correction
sample
boundary
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210096195.9A
Other languages
English (en)
Other versions
CN114579631B (zh
Inventor
张莉
魏真
赵雷
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210096195.9A priority Critical patent/CN114579631B/zh
Publication of CN114579631A publication Critical patent/CN114579631A/zh
Application granted granted Critical
Publication of CN114579631B publication Critical patent/CN114579631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Algebra (AREA)
  • Fuzzy Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)

Abstract

本发明涉及一种基于概率加权过采样的社区矫正率预测系统,包括数据输入模块输入社区矫正原始数据集合,其包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;过采样模块获得剔除噪音样本点的主要矫正社区数据集合,基于主要矫正社区数据集合获得主要矫正社区样本点集合;将主要社区矫正样本点集合和矫正社区原始数据集合进行求和得社区矫正数据集合,数据训练模块利用社区矫正数据集合进行训练得社区矫正率预测模型;社区矫正率预测模块接收待预测的社区矫正样本,并将其输入至社区矫正率预测模型,输出预测结果。本发明能够达到数据样本数量的平衡,克服因数据样本数量不平衡而导致的检测率低的问题。

Description

基于概率加权过采样的社区矫正率预测系统及方法
技术领域
本发明涉及数据挖掘技术领域,尤其是指一种基于概率加权过采样的社区矫正率预测系统及方法。
背景技术
随着城镇化程度的不断提升,城市社区的人员结构也越来越复杂这就造成了各地区矫正率逐年增加,。为此相关部门迫切需要对社会矫正数据进行分析,并预测出特定地区的潜在矫正率,从而加强对该地区的管理。
目前,数据挖掘方法已经被用到了社区矫正率预测中。有些社区的矫正率较高,这类社区我们称为主要矫正社区,有些社区的矫正率较低,这类社区我们称为次要矫正社区。在日常生活中,反映出来的现象是主要矫正社区较少,次要矫正社区较多,这属于一种数据分布不平衡问题。在数据不平衡的条件下,经典的学习模型对社区矫正检测率往往较低。一种可行的解决方案是让两类数据的数据量达到平衡。过采样方法就是能让数据平衡的一类方法。在现有的过采样方法中,SMOTE(Synthetic Minority Oversampling Technique)是最为经典的过采样方法之一。该方法通过在少数类样本与其同类近邻样本之间进行线性插值,从而生成新的样本点,然而,SMOTE存在对噪音样本点和无用样本点进行过采样,以及采用的线性插值方式使得其生成的样本点缺乏多样性的问题,导致生成的样本点仍为噪音样本点,从而降低分类性能或者生成的样本点对分类性能无影响。Borderline-SMOTE是对SMOTE的一种变体,它识别了噪音、边界以及安全样本点,能够解决SMOTE 中噪音样本点生成和无用样本点生成问题,但是该方法采用SMOTE的生成方式,使得新生成的样本点缺乏多样性以及其未能对每个边界样本点的重要性进行衡量,可能仍然会造成生成的样本重合问题。因此,如何选择哪些样本点参与过采样的过程以及如何选择样本点的生成方式是过采样方法中值得研究的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于概率加权过采样的社区矫正率预测系统及方法,其能够达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。
为解决上述技术问题,本发明提供一种基于概率加权过采样的社区矫正率预测系统,包括:
数据输入模块,所述数据输入模块用于输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
过采样模块,所述过采样模块用于剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
数据训练模块,所述数据训练模块用于将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
社区矫正率预测模块,所述社区矫正率预测模块用于接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
在本发明的一个实施例中,所述过采样模块包括:
噪音样本点剔除子模块,所述噪音样本点剔除子模块用于计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,得到剔除噪音样本点后的主要矫正社区数据集合;
边界样本确定子模块,所述边界样本确定子模块用于基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合;
选择概率计算子模块,所述选择概率计算子模块用于计算所述主要矫正社区边界样本集合中的边界样本的选择概率;
样本生成子模块,所述样本生成子模块用于基于所述选择概率随机生成新的样本点,得到主要社区矫正样本点集合。
在本发明的一个实施例中,所述边界样本确定子模块包括:
一次寻找近邻样本单元,所述一次寻找近邻样本单元用于寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本,并将近邻样本组成多数类边界样本集合;
二次寻找近邻样本单元,所述二次寻找近邻样本单元用于寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本,并将近邻样本组成主要矫正社区边界样本集合。
在本发明的一个实施例中,所述选择概率计算子模块包括:
局部密度计算单元,所述局部密度计算单元用于计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度;
相对密度计算单元,所述相对密度计算单元用于根据所述局部密度计算边界样本在整个样本空间中的相对密度;
权重计算单元,所述权重计算单元用于根据所述相对密度计算所述边界样本的权重值;
选择概率确定单元,所述选择概率确定单元用于对所述权重值进行归一化操作,得到所述主要矫正社区边界样本集合中的边界样本的选择概率。
在本发明的一个实施例中,所述样本生成子模块包括:
少数类边界样本选择单元,所述少数类边界样本选择单元用于根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本;
欧氏距离计算单元,所述欧氏距离计算单元用于计算所述少数类边界样本与其多数类边界样本之间的欧氏距离;
样本点生成单元,所述样本点生成单元用于将少数类边界样本作为超球体的中心点,以欧氏距离为半径,在所述超球体中随机生成新的样本点;
主要社区矫正样本点集合获得单元,所述主要社区矫正样本点集合获得单元用于对少数类边界样本中的所有样本点,重复样本点生成的步骤,直到得到样本点数量满足要求的主要社区矫正样本点集合。
此外,本发明还提供一种基于概率加权过采样的社区矫正率预测方法,包括:
输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
在本发明的一个实施例中,剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,包括:
计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,得到剔除噪音样本点后的主要矫正社区数据集合。
在本发明的一个实施例中,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,包括:
寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本,并将近邻样本组成多数类边界样本集合;
寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本,并将近邻样本组成主要矫正社区边界样本集合。
在本发明的一个实施例中,计算所述主要矫正社区边界样本集合中的样本的选择概率,包括:
计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度;
根据所述局部密度计算边界样本在整个样本空间中的相对密度;
根据所述相对密度计算所述边界样本的权重值;
对所述权重值进行归一化操作,得到所述主要矫正社区边界样本集合中的边界样本的选择概率。
在本发明的一个实施例中,根据所述选择概率生成主要社区矫正样本点集合,包括:
根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本;
计算所述少数类边界样本与其多数类边界样本之间的欧氏距离;
将少数类边界样本作为超球体的中心点,以欧氏距离为半径,在所述超球体中随机生成新的样本点;
对少数类边界样本中的所有样本点,重复样本点生成的步骤,直到得到样本点数量满足要求的主要社区矫正样本点集合。
本发明的上述技术方案相比现有技术具有以下优点:
本发明提出了基于概率加权过采样的社区矫正率预测系统及方法,其首先对主要矫正社区的样本点数据进行去噪,然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率,最后依次根据选择概率选择样本生成点,并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明基于概率加权过采样的社区矫正率预测系统的硬件结构示意图。
图2是本发明基于概率加权过采样的社区矫正率预测方法的流程示意图。
其中,附图标记说明如下:10、数据输入模块;20、过采样模块;21、噪音样本点剔除子模块;22、边界样本确定子模块;23、选择概率计算子模块;24、样本生成子模块;30、数据训练模块;40、社区矫正率预测模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1所示,本发明实施例提供一种基于概率加权过采样的社区矫正率预测系统,包括:
数据输入模块10,所述数据输入模块10用于输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
过采样模块20,所述过采样模块20用于剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
数据训练模块30,所述数据训练模块30用于将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
社区矫正率预测模块40,所述社区矫正率预测模块40用于接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
在本实施例公开的一种基于概率加权过采样的社区矫正率预测系统中,所述过采样模块20包括:
噪音样本点剔除子模块21,所述噪音样本点剔除子模块21用于计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,得到剔除噪音样本点后的主要矫正社区数据集合;
边界样本确定子模块22,所述边界样本确定子模块22用于基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合;
选择概率计算子模块23,所述选择概率计算子模块23用于计算所述主要矫正社区边界样本集合中的边界样本的选择概率;
样本生成子模块24,所述样本生成子模块24用于基于所述选择概率随机生成新的样本点,得到主要社区矫正样本点集合。
其中,所述边界样本确定子模块22包括:
一次寻找近邻样本单元,所述一次寻找近邻样本单元用于寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本,并将近邻样本组成多数类边界样本集合;
二次寻找近邻样本单元,所述二次寻找近邻样本单元用于寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本,并将近邻样本组成主要矫正社区边界样本集合。
其中,所述选择概率计算子模块23包括:
局部密度计算单元,所述局部密度计算单元用于计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度;
相对密度计算单元,所述相对密度计算单元用于根据所述局部密度计算边界样本在整个样本空间中的相对密度;
权重计算单元,所述权重计算单元用于根据所述相对密度计算所述边界样本的权重值;
选择概率确定单元,所述选择概率确定单元用于对所述权重值进行归一化操作,得到所述主要矫正社区边界样本集合中的边界样本的选择概率。
其中,所述样本生成子模块24包括:
少数类边界样本选择单元,所述少数类边界样本选择单元用于根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本;
欧氏距离计算单元,所述欧氏距离计算单元用于计算所述少数类边界样本与其多数类边界样本之间的欧氏距离;
样本点生成单元,所述样本点生成单元用于将少数类边界样本作为超球体的中心点,以欧氏距离为半径,在所述超球体中随机生成新的样本点;
主要社区矫正样本点集合获得单元,所述主要社区矫正样本点集合获得单元用于对少数类边界样本中的所有样本点,重复样本点生成的步骤,直到得到样本点数量满足要求的主要社区矫正样本点集合。
本发明提出了一种基于概率加权过采样的社区矫正率预测系统,其首先对主要矫正社区的样本点数据进行去噪,然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率,最后依次根据选择概率选择样本生成点,并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。
此外,请参阅图2所示,本发明实施例还提供一种基于概率加权过采样的社区矫正率预测方法,包括:
S1:输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
S2:剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
S3:将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
S4:接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
本发明提出了基于概率加权过采样的社区矫正率预测方法,其首先对主要矫正社区的样本点数据进行去噪,然后筛选出主要矫正社区的边界样本点并计算这些边界样本点被选取作为样本生成点的选择概率,最后依次根据选择概率选择样本生成点,并在其次要矫正社区类的邻域内生成新的主要矫正社区样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对社区矫正率检测率较低的问题。
在本发明公开的一种基于概率加权过采样的社区矫正率预测方法中,对于上述实施方式的S1,包括:
输入社区矫正原始数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,…,n},n是社区矫正原始数据集中样本的总数,d是社区矫正原始数据集的特征数,xi表示第 i条社区矫正数据,yi是其标签。若yi=0,则xi为次要社区;若yi=1,则xi为主要社区。令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即次要矫正社区原始数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即主要矫正社区原始数据集合,其样本数记为nmin。令所需新生成的样本点个数为nnew=nmaj-nmin
在本发明公开的一种基于概率加权过采样的社区矫正率预测方法中,对于上述实施方式的S2,包括:
S2.1:计算主要矫正社区原始数据集合中的样本的均值μ=[μ12,...,μd]T以及标准差σ=[σ12,...,σd]T。本实施例假定满足一定条件的样本点为噪音样本点,即,若对i∈[1,…,nmin],j=1,…,d,只要|xijj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到主要矫正社区数据集合D'min,其样本点个数记为n'min
S2.2:在主要矫正社区数据集合D'min中,对于其中的每个样本xi∈D'min在次要矫正社区原始数据集合Dmaj中寻找其k1个近邻,并将所有找到的近邻样本组成一个多数类的边界样本集合,记为
Figure RE-GDA0003630062300000081
对于每个多数类的边界样本
Figure RE-GDA0003630062300000091
在主要矫正社区数据集合D'min中寻找其k2个近邻,并将所有找到的近邻样本组成一个少数类的边界样本集合,也就是主要矫正社区边界样本集合,记为
Figure RE-GDA0003630062300000092
令该集合的数量为
Figure RE-GDA0003630062300000093
S2.31:计算所有主要矫正社区边界样本xi在其同类和异类样本点的局部密度:
Figure RE-GDA0003630062300000094
Figure RE-GDA0003630062300000095
其中
Figure RE-GDA0003630062300000096
表示样本xi和样本
Figure RE-GDA0003630062300000097
之间的欧氏距离,K是预定义的近邻个数,densitymin(xi)是xi在其少数类中的局部密度,
Figure RE-GDA0003630062300000098
表示xi在其少数类集合D'min中的第k个近邻样本点;densitymaj(xi)是xi在其多数类中的局部密度,
Figure RE-GDA0003630062300000099
表示的是xi在多数类集合Dmaj中的第k个近邻样本。
S2.32:计算所有
Figure RE-GDA00036300623000000910
在整个样本空间中的相对密度:
Figure RE-GDA00036300623000000911
S2.33:计算所有
Figure RE-GDA00036300623000000912
的权重w(xi):
Figure RE-GDA00036300623000000913
其中mi是xi在两类数据的近邻样本中多数类样本的个数。
S2.34:对权重值进行归一化操作,得到每个主要矫正社区边界样本的选择概率SP(xi):
Figure RE-GDA00036300623000000914
S2.41:根据选择概率SP(xi)在主要矫正社区边界样本集合
Figure RE-GDA00036300623000000915
中选择一个少数类的边界样本xi
S2.42:计算样本
Figure RE-GDA00036300623000000916
与其多数类最近邻样本
Figure RE-GDA00036300623000000917
之间的欧氏距离
Figure RE-GDA00036300623000000918
S2.43:将样本
Figure RE-GDA00036300623000000919
作为超球体的中心点,以距离
Figure RE-GDA00036300623000000920
为半径,在这个以xi为中心点的超球体中随机选择一个点,即为生成新的样本点。
S2.44:对
Figure RE-GDA00036300623000000921
中的所有样本点,重复样本生成的S2.41-S2.43,直到样本点数量达到nnew。由此,得到新的主要社区矫正样本点集合Dnew
为了验证本发明提出的基于概率加权过采样的社区矫正率预测系统及其方法的性能。本发明在US_Crime数据集上进行五折交叉验证实验,将数据集随机划分成五份,其中一份作为测试集,其余四份作为训练集进行新数据样本的生成。在样本生成后,对测试集进行分类,采用随机森林RF (n_estimators=100)和AdaBoost(n_estimators=50)来对过采样之后得到新的数据集进行分类,我们取十次五折交叉验证得到的平均值作为该实验的结果。在过采样方法中,对比方法采用SMOTE和BorderLine-SMOTE。
采用AUC,F1-score,G-mean三个不同评价指标下对分类效果进行评估,
AUC=Area Under Receiver Operating Characteristic Curve
Figure RE-GDA0003630062300000101
Figure RE-GDA0003630062300000102
Figure RE-GDA0003630062300000103
Figure RE-GDA0003630062300000104
其中TP、FN、FP以及TN见表1中的混淆矩阵所示。
表1混淆矩阵
预测值=1 预测值=0
真实值=1 TP FN
真实值=0 FP TN
分类结果如表2所示,本发明与SMOTE和BorderLine-SMOTE相比,在AUC, F1-score和G-mean这三个指标下的效果较好。
表2三种过采样方法的结果对比
Figure RE-GDA0003630062300000105
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于概率加权过采样的社区矫正率预测系统,其特征在于,包括:
数据输入模块,所述数据输入模块用于输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
过采样模块,所述过采样模块用于剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
数据训练模块,所述数据训练模块用于将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
社区矫正率预测模块,所述社区矫正率预测模块用于接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
2.根据权利要求1所述的基于概率加权过采样的社区矫正率预测系统,其特征在于,所述过采样模块包括:
噪音样本点剔除子模块,所述噪音样本点剔除子模块用于计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,得到剔除噪音样本点后的主要矫正社区数据集合;
边界样本确定子模块,所述边界样本确定子模块用于基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合;
选择概率计算子模块,所述选择概率计算子模块用于计算所述主要矫正社区边界样本集合中的边界样本的选择概率;
样本生成子模块,所述样本生成子模块用于基于所述选择概率随机生成新的样本点,得到主要社区矫正样本点集合。
3.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统,其特征在于,所述边界样本确定子模块包括:
一次寻找近邻样本单元,所述一次寻找近邻样本单元用于寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本,并将近邻样本组成多数类边界样本集合;
二次寻找近邻样本单元,所述二次寻找近邻样本单元用于寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本,并将近邻样本组成主要矫正社区边界样本集合。
4.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统,其特征在于,所述选择概率计算子模块包括:
局部密度计算单元,所述局部密度计算单元用于计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度;
相对密度计算单元,所述相对密度计算单元用于根据所述局部密度计算边界样本在整个样本空间中的相对密度;
权重计算单元,所述权重计算单元用于根据所述相对密度计算所述边界样本的权重值;
选择概率确定单元,所述选择概率确定单元用于对所述权重值进行归一化操作,得到所述主要矫正社区边界样本集合中的边界样本的选择概率。
5.根据权利要求2所述的基于概率加权过采样的社区矫正率预测系统,其特征在于,所述样本生成子模块包括:
少数类边界样本选择单元,所述少数类边界样本选择单元用于根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本;
欧氏距离计算单元,所述欧氏距离计算单元用于计算所述少数类边界样本与其多数类边界样本之间的欧氏距离;
样本点生成单元,所述样本点生成单元用于将少数类边界样本作为超球体的中心点,以欧氏距离为半径,在所述超球体中随机生成新的样本点;
主要社区矫正样本点集合获得单元,所述主要社区矫正样本点集合获得单元用于对少数类边界样本中的所有样本点,重复样本点生成的步骤,直到得到样本点数量满足要求的主要社区矫正样本点集合。
6.一种基于概率加权过采样的社区矫正率预测方法,其特征在于,包括:
输入社区矫正原始数据集合,其中所述社区矫正原始数据集合包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;
剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,计算所述主要矫正社区边界样本集合中的样本的选择概率,并根据所述选择概率生成主要社区矫正样本点集合;
将生成的主要社区矫正样本点集合和社区矫正原始数据集合进行求和,获得最终的社区矫正数据集合,利用最终的社区矫正数据集合对神经网络模型进行训练,得到社区矫正率预测模型;
接收待预测的社区矫正样本,并将其输入至所述社区矫正率预测模型,输出所述社区矫正样本的预测结果,判断该社区矫正样本是否为主要矫正社区。
7.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法,其特征在于,剔除所述主要矫正社区原始数据集合中的噪音样本点,获得剔除噪音样本点后的主要矫正社区数据集合,包括:
计算所述主要矫正社区原始数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,得到剔除噪音样本点后的主要矫正社区数据集合。
8.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法,其特征在于,基于所述主要矫正社区数据集合获得主要矫正社区边界样本集合,包括:
寻找主要矫正社区数据集合中的每个样本在次要矫正社区原始数据集合中的近邻样本,并将近邻样本组成多数类边界样本集合;
寻找多数类边界样本集合中的每个边界样本在所述主要矫正社区数据集合中的近邻样本,并将近邻样本组成主要矫正社区边界样本集合。
9.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法,其特征在于,计算所述主要矫正社区边界样本集合中的样本的选择概率,包括:
计算所述主要矫正社区边界样本集合中的边界样本在其同类和异类样本点的局部密度;
根据所述局部密度计算边界样本在整个样本空间中的相对密度;
根据所述相对密度计算所述边界样本的权重值;
对所述权重值进行归一化操作,得到所述主要矫正社区边界样本集合中的边界样本的选择概率。
10.根据权利要求6所述的基于概率加权过采样的社区矫正率预测方法,其特征在于,根据所述选择概率生成主要社区矫正样本点集合,包括:
根据选择概率在主要矫正社区边界样本集合中选择少数类边界样本;
计算所述少数类边界样本与其多数类边界样本之间的欧氏距离;
将少数类边界样本作为超球体的中心点,以欧氏距离为半径,在所述超球体中随机生成新的样本点;
对少数类边界样本中的所有样本点,重复样本点生成的步骤,直到得到样本点数量满足要求的主要社区矫正样本点集合。
CN202210096195.9A 2022-01-26 2022-01-26 基于概率加权过采样的社区矫正率预测系统及方法 Active CN114579631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210096195.9A CN114579631B (zh) 2022-01-26 2022-01-26 基于概率加权过采样的社区矫正率预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210096195.9A CN114579631B (zh) 2022-01-26 2022-01-26 基于概率加权过采样的社区矫正率预测系统及方法

Publications (2)

Publication Number Publication Date
CN114579631A true CN114579631A (zh) 2022-06-03
CN114579631B CN114579631B (zh) 2023-04-07

Family

ID=81769240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210096195.9A Active CN114579631B (zh) 2022-01-26 2022-01-26 基于概率加权过采样的社区矫正率预测系统及方法

Country Status (1)

Country Link
CN (1) CN114579631B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112365060A (zh) * 2020-11-13 2021-02-12 广东电力信息科技有限公司 电网物联感知数据的预处理方法
CN112836735A (zh) * 2021-01-27 2021-05-25 中山大学 一种优化的随机森林处理不平衡数据集的方法
CN113392908A (zh) * 2021-06-17 2021-09-14 哈尔滨理工大学 基于边界密度的不平衡数据过采样算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112365060A (zh) * 2020-11-13 2021-02-12 广东电力信息科技有限公司 电网物联感知数据的预处理方法
CN112836735A (zh) * 2021-01-27 2021-05-25 中山大学 一种优化的随机森林处理不平衡数据集的方法
CN113392908A (zh) * 2021-06-17 2021-09-14 哈尔滨理工大学 基于边界密度的不平衡数据过采样算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李刘杰: "基于过采样与集成学习的不平衡数据分类方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN114579631B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108898479B (zh) 信用评价模型的构建方法及装置
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN106201897B (zh) 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN110659207A (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN109408562B (zh) 一种基于客户特征的分组推荐方法及其装置
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
Sun et al. Nearest neighbors-based adaptive density peaks clustering with optimized allocation strategy
CN115099335A (zh) 多源异构数据的异常辨识和特征筛选方法、系统
Wu et al. Efficient clustering method based on density peaks with symmetric neighborhood relationship
CN112800115B (zh) 数据处理方法及数据处理装置
Balogun et al. Performance analysis of selected clustering techniques for software defects prediction
Tua et al. Software defect prediction using software metrics with naïve bayes and rule mining association methods
CN109858544A (zh) 基于区间阴影集和密度峰值聚类的钢材质量检测方法
Xiaolong et al. RFC: a feature selection algorithm for software defect prediction
Hou et al. A new density kernel in density peak based clustering
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
Annisa et al. Improved point center algorithm for k-means clustering to increase software defect prediction
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN110176309A (zh) 一种用于预测心血管疾病的医疗数据处理方法
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN114579631B (zh) 基于概率加权过采样的社区矫正率预测系统及方法
CN112508363A (zh) 基于深度学习的电力信息系统状态分析方法及装置
Sun et al. Hierarchical recognition of sparse patterns in large-scale simultaneous inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant