CN110222782A

CN110222782A - 基于密度聚类的有监督二分类数据分析方法及系统

Info

Publication number: CN110222782A
Application number: CN201910508967.3A
Authority: CN
Inventors: 高茜; 马鹏程; 张逸群
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-10

Abstract

本发明公开了一种基于密度聚类的有监督二分类数据分析方法及系统，属于分类预测技术领域，解决的技术问题为如何通过对训练集生物信息数据进行有效的聚类分析来实现测试样本分类预测。包括：将已知类别的生物信息数据标记为0类和1类，对于每类数据，将数据划分为训练集和测试集；通过DBSCAN算法对每类训练集进行密度聚类，得到对应的初始类簇，并生成基于密度距离的初始训练模型；将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，得到对应的类簇，并生成基于密度距离的训练模型；将每个测试样本依次带入上述两类训练模型，得到测试样本的预测类别。系统包括分类模块、初始模型构建模块、训练模型重建模块和类别预测模块。

Description

基于密度聚类的有监督二分类数据分析方法及系统

技术领域

本发明涉及分类预测技术领域，具体地说是一种基于密度聚类的有监督二分类数据分析方法及系统。

背景技术

焦虑症是神经症这一大类疾病中最常见的一种，以焦虑情绪体验为主要特征。主要表现为：无明确客观对象的紧张担心，坐立不安，以及植物神经功能失调症状，如心悸、手抖、出汗、尿频等。近年来，随着社会发展进程加快所产生的巨大社会压力，一度影响到了在大学校园这一特殊环境中学习的学生们，使得国内大学生的心理健康问题逐渐成为大家较为关心的社会问题。目前大多数高校都会采用症状自评量表SCL-90进行心理健康测试，虽然积累了海量的心理数据，但是仅仅停留在表面工作上，学校心理咨询中心的老师通过该系统的大学生心理健康量表对学生心理问题进行测试，能对学生心理问题状况进行一个总体的掌握和简单的统计。

近几年来，有很多学者尝试利用机器学习中的分类模型通过学生的校园数据对学生的表现进行有监督分类预测，这其中就包括K近邻模型、逻辑回归模型、支持向量机模型、决策树模型、随机森林模型等等，但每个模型都或多或少的存在缺点，如样本不均衡干扰预测结果、容易过拟合等原因使得分类预测结果不是很理想，因此，我们仍需研究新的方法或改进已有模型来实现更高效率的预测分析。

基于上述分析，如何对训练集生物信息数据进行有效的分析来实现测试集样本二分类预测，减小样本不均衡给预测结果带来的干扰，并避免分类过程出现过拟合现象，是需要解决技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种基于密度聚类的有监督二分类数据分析方法及系统，来解决如何通过对训练集生物信息数据进行有效的聚类分析来实现测试集样本的分类预测，减小样本不均衡给预测结果带来的干扰，并避免分类过程出现过拟合现象的问题。

第一方面，本发明提供一种基于密度聚类的有监督二分类数据分析方法，包括：

将已知类别的生物信息数据标记为0类和1类，对于每类数据，将数据划分为训练集和测试集；

通过DBSCAN算法对每类训练集进行密度聚类，得到对应的初始类簇，并生成基于密度距离的初始训练模型；

将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，得到对应的类簇，并生成基于密度距离的训练模型；

将每个测试样本依次带入上述两类训练模型，以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，得到测试样本的预测类别。

在上述实施方式中，抽取部分样本对象作为训练集，通过DBSCN算法进行聚类，使得训练集中尽可能多的训练样本归纳到同一个类簇中，并将测试样本带入训练模型，根据测试样本对象与类簇的核心对象距离最小值的大小预测分类，对数据进行有监督的二分类。

DBSCAN算法是一种基于密度的聚类算法，该算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间是紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在，通过将紧密相连的样本划为一类，这样就得到了一个聚类类别；通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

聚类算法原本只是用于进行无监督学习的一种方法，无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相异。本实施方式中，通过构建初始模型以及重建训练模型的方法步骤，可见本实施方式利用密度聚类方法来实现有监督的二分类方法。

作为优选，对于每类数据，抽取较大比例的数据作为训练集，剩余的数据作为测试集。

作为优选，通过DBSCAN算法对每类训练集进行密度聚类，包括：

计算每个训练样本与其他训练样本距离，所述距离为闵可夫斯基距离或欧式距离，计算公式为：

其中，X和Y均表示训练样本，X＝(x₁,x₂,......x_n)，Y＝(y₁,y₂,......,y_n)，x_i表示训练样本X中第i个训练样本特征向量值，y_j表示训练样本Y中第j个训练样本特征向量值，p表示指数次数，当p＝1时，dist(X,Y)表示曼哈顿距离，当p＝2时，dist(X,Y)表示欧式距离；

基于DPClus算法计算每个训练样本对象的局部密度，局部密度计算公式为：

其中，d_ij表示训练样本对象x_i与训练样本对象x_j之间的距离，ε表示基于DBSCAN算法对训练样本进行密度聚类时训练样本对象的半径值，χ(d_ij-ε)函数为0-1函数，当满足d_ij-ε小于0时，χ(d_ij-ε)函数值为1，其他情况下χ(d_ij-ε)函数值为0；

通过预设的半径值ε和密度值m计算半径领域，并基于半径领域对训练样本进行密度聚类，训练集中未聚类至对应初始类簇中的训练样本为噪音样本。

作为优选，将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，包括：

对半径值ε和密度值m进行参数值调整，得到新的半径值ε和密度值m；

通过新的半径值ε和密度值m计算新半径领域，并基于新半径领域对整体测试样本和各类训练样本的集合分别进行密度聚类，保留类簇的核心对象，将两类训练集中仍未聚类至对应类簇中的训练样本删除，即删除噪音样本。

作为优选，以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，包括：

如果测试样本对象到0类类簇的核心对象的最小距离小于等于其半径值ε，到1类簇的核心对象的最小距离大于其半径值ε，所述测试样本对象属于0类簇；

如果测试样本对象到1类类簇的核心对象的最小距离小于等于其半径值ε，到0类簇的核心对象的最小距离大于其半径值ε，所述测试样本对象属于1类簇；

如果测试样本对象既属于0类又属于1类，或者既不属于0类也不属于1类，计算测试样本对象与1类类簇的核心对象之间的最小距离以及其与0类类簇的核心对象之间的最小距离，所述测试样本对象属于上述最小距离更小的类簇；

如果测试样本对象到0类类簇的核心对象的最小距离与到1类簇的核心对象的最小距离相等，则将测试样本对象随机分配到0类类簇或1类类簇。

更优的，还包括：

将测试样本的预测类别与其真实类别进行比较，计算训练模型的预测准确率。

第二方面，本发明提供一种基于密度聚类的二分类数据分析系统，包括：

分类模块，用于将已知类别的生物信息数据标记为0类和1类，并用于将每类数据划分为训练集和测试集；

初始模型构建模块，用于通过DBSCAN算法对每类训练集进行密度聚类，得到对应的初始类簇，并生成基于密度距离的初始训练模型；

训练模型重建模块，用于将测试集依次输入上述两类初始训练模型再次进行密度聚类，得到对应的类簇，并生成基于密度距离的训练模型；

类别预测模块，用于将每个测试样本依次带入上述两类训练模型，以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，得到测试样本的预测类别。

作为优选，初始模型构建模块为具有如下功能的模块：

作为优选，训练模型重建模块为具有如下功能的模块：

更优的，还包括：

模型准确率计算模块，用于将测试样本的预测类别与其真实类别进行比较，计算训练模型的预测准确率。

本发明的基于密度聚类的有监督二分类数据分析方法及系统具有以下优点：

1、本申请抽取部分样本对象作为训练集，通过DBSCN算法进行聚类，使得训练集中尽可能多的训练样本归纳到同一个类簇中，并将测试样本带入训练模型，根据测试样本对象与类簇的核心对象距离最小值的大小预测分类，对数据进行有监督的二分类，具有很高的运算效率，且对数据有很好的适应性和处理能力；

2、基于密度距离分类的方法减少样本不均衡给预测结果带来的干扰，通过识别且删除噪音点的方法尽量避免了分类过程中出现过拟合现象。

附图说明

为了更清除地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

附图1为实施例1基于密度聚类的有监督二分类数据分析方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供一种基于密度聚类的有监督二分类数据分析方法及系统，来解决如何通过对训练集生物信息数据进行有效的聚类分析来实现测试集样本的分类预测，减小样本不均衡给预测结果带来的干扰，并避免分类过程出现过拟合现象的问题。

实施例1：

本发明的基于密度聚类的有监督二分类数据分析方法，包括如下步骤：

S100、将已知类别的生物信息数据标记为0类和1类，对于每类数据，将数据划分为训练集和测试集；

S200、通过DBSCAN算法对每类训练集进行密度聚类，得到对应的初始类簇，并生成基于密度距离的初始训练模型；

S300、将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，得到对应的类簇，并生成基于密度距离的训练模型；

S400、将每个测试样本依次带入上述两类训练模型，以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，得到测试样本的预测类别。

其中，步骤S100中对于每类数据，抽取90％的数据作为训练集，剩余的数据作为测试集。具体的抽取比例不限于90％，可根据需求按照一定比例抽取，一般要求比例大于等于90％。

步骤S200中，通过DBSCAN算法对每类训练集进行密度聚类，包括：

S210、计算每个训练样本与其他训练样本距离，所述距离计算公式为：

其中，X和Y均表示训练样本，X＝(x₁,x₂,......x_n)，Y＝(y₁,y₂,......,y_n)，x_i表示训练样本X中第i个训练样本特征向量值，y_j表示训练样本Y中第j个训练样本特征向量值，p表示指数，当p＝1时，dist(X,Y)表示曼哈顿距离，当p＝2时，dist(X,Y)表示欧式距离；

S220、基于DPClus算法计算每个训练样本对象的局部密度，局部密度计算公式为：

其中，d_ij表示训练样本对象x_i与训练样本对象x_j之间的距离，ε表示基于DBSCAN算法对训练样本进行密度聚类时训练样本对象的半径值；

S230、通过预设的半径值ε和密度值m计算半径领域，并基于半径领域对训练样本进行密度聚类，训练集中未聚类至对应初始类簇中的训练样本为噪音样本。

步骤S300中，将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，包括：

S310、对半径值ε和密度值m进行参数值调整，得到新的半径值ε和密度值m；

S320、通过新的半径值ε和密度值m计算新半径领域，并基于新半径领域对整体测试样本和各类训练样本的集合分别进行密度聚类，保留类簇的核心对象，将两类训练集中仍未聚类至对应类簇中的训练样本删除，即删除噪音样本。

核心对象T为核心对象集，ρ_i为样本t_i的局部密度值。

步骤S400中，以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，包括：

情况一、如果测试样本对象到0类类簇的核心对象的最小距离小于等于其半径值ε，到1类簇的核心对象的最小距离大于其半径值ε，所述测试样本对象属于0类簇；

情况二、如果测试样本对象到1类类簇的核心对象的最小距离小于等于其半径值ε，到0类簇的核心对象的最小距离大于其半径值ε，所述测试样本对象属于1类簇；

情况三、如果测试样本对象既属于0类又属于1类，或者既不属于0类也不属于1类，计算测试样本对象与1类类簇的核心对象之间的最小距离以及其与0类类簇的核心对象之间的最小距离，所述测试样本对象属于上述最小距离更小的类簇；

情况四、如果测试样本对象到0类类簇的核心对象的最小距离与到1类簇的核心对象的最小距离相等，则将测试样本对象随机分配到0类类簇或1类类簇。

测试样本与类簇的核心对象之间最小距离表达式为：min dist(x_j,t_i)。

该方法可用于对生物特征数据进行分类预测。

实施例2：

本发明提供一种基于密度聚类的有监督二分类数据分析系统，包括分类模块、初始模型构建模块、训练模型重建模块和类别预测模块，该系统可通过如实施例1公开的基于密度聚类的有监督二分类数据分析对生物特征数据进行分类。

其中，分类模块，用于将已知类别的生物信息数据标记为0类和1类，并用于将每类数据划分为训练集和测试集。本实施例中，分类模块从每类数据抽取90％作为训练集。

初始模型构建模块为具有如下功能的模块：

训练模型重建模块为具有如下功能的模块：

作为本实施例的进一步改进，还包括：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.基于密度聚类的有监督二分类数据分析方法，其特征在于用于对生物信息数据进行类别预测，包括：

2.根据权利要求1所述的基于密度聚类的有监督二分类数据分析方法，其特征在于对于每类数据，抽取较大比例的数据作为训练集，剩余的数据作为测试集。

3.根据权利要求1或2所述的基于密度聚类的有监督二分类数据分析方法，其特征在于通过DBSCAN算法对每类训练集进行密度聚类，包括：

计算每个训练样本与其他训练样本距离，所述距离计算公式为：

4.根据权利要求3所述的基于密度聚类的有监督二分类数据分析方法，其特征在于将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，包括：

5.根据权利要求1所述的基于密度聚类的有监督二分类数据分析方法，其特征在于以测试样本对象与类簇的核心对象之间的最小距离为判断准则，将每个测试样本对象划分至相应的类簇，包括：

6.根据权利要求1所述的基于密度聚类的有监督二分类数据分析方法，其特征在于还包括：

7.基于密度聚类的有监督二分类数据分析系统，其特征在于包括：

训练模型重建模块，用于将整体测试集依次输入上述两类初始训练模型再次进行密度聚类，得到对应的类簇，并生成基于密度距离的训练模型；

8.根据权利要求7所述的基于密度聚类的有监督二分类数据分析系统，其特征在于初始模型构建模块为具有如下功能的模块：

9.根据权利要求8所述的基于密度聚类的有监督二分类数据分析系统，其特征在于训练模型重建模块为具有如下功能的模块：

10.根据权利要求7、8或9所述的基于密度聚类的有监督二分类数据分析系统，其特征在于还包括：