CN109376790B - 一种基于渗流分析的二元分类方法 - Google Patents

一种基于渗流分析的二元分类方法 Download PDF

Info

Publication number
CN109376790B
CN109376790B CN201811292795.2A CN201811292795A CN109376790B CN 109376790 B CN109376790 B CN 109376790B CN 201811292795 A CN201811292795 A CN 201811292795A CN 109376790 B CN109376790 B CN 109376790B
Authority
CN
China
Prior art keywords
threshold
network
classification
node
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811292795.2A
Other languages
English (en)
Other versions
CN109376790A (zh
Inventor
李大庆
郑参
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201811292795.2A priority Critical patent/CN109376790B/zh
Publication of CN109376790A publication Critical patent/CN109376790A/zh
Application granted granted Critical
Publication of CN109376790B publication Critical patent/CN109376790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于渗流分析的二元分类方法,步骤如下:1.基于数据向量构建指标网络;2.指标网络的渗流分析;3.构建似然函数,确定关键阈值;4.模型评价及验证。通过以上步骤,本发明基于渗流分析进一步为大规模、高维度、高复杂度系统的群体分类及评价分类效果提供技术支持和理论支撑;此外,通过图模型对背景知识进行表达和运用基于相变的渗流理论进行网络分析,使计算复杂度降低,迭代收敛速度快,适合大规模计算,有利于降低计算成本。

Description

一种基于渗流分析的二元分类方法
技术领域
本发明提出一种基于渗流分析的二元分类方法,基于个体单元之间的相关程度构建指标网络,通过进行网络的渗流分析构建二元分类器,运用混淆矩阵进行模型评价,属于机器学习与网络科学交叉领域。
背景技术
二元分类问题在医学、工业、社会分析等领域都应用广泛。随着大数据时代的到来,数据已经成为人们生活中不可缺少的一部分,形成了从数据中来到数据中去的生活方式;移动互联方式的出现,很大程度上丰富了人们产生数据的方式,同时,随着人工智能、机器学习与云计算等现代化理论与技术的出现,为分类问题的解决提供了有力的保障,例如:逻辑回归(Logistic Regression)、支持向量机(Support vector machine,简称SVM)、K均值聚类(k-means clustering)和K邻近算法(K-Nearest Neighbor,简称,KNN)等众多分类模型及算法。
近年来,针对分类的研究,相关学者开发了不同类型的分类模型及相关算法。1958年英国著名的统计学家David Cox论述了逻辑回归模型,主要被应用于具有线性特征的分类问题中去,该模型对数据和场景的适应能力有局限性,当特征空间维度很大时,逻辑回归的性能表现较差,不能够很好地处理大量多类特征或变量;此外,1963年VladimirN.Vapnik、Alexey Ya和Chervonenkis发明了支持向量机(SVM)算法,在高维或无限维空间中构造超平面或超平面集,用于分类、回归或其他任务,如:异常检测等,但SVM算法对大规模训练样本难以实施,由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间;K均值聚类(k-means)最初由Stuart Lloyd于1957年提出,作为脉冲编码调制技术,之后随着信息技术的发展,其大量用于数据聚类分析,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销非常大;K邻近算法(KNN)主要应用到数据挖掘分类中,该算法属于懒惰算法,当进行分类的计算量较大,要扫描全部训练样本计算距离,内存开销大,评分速度慢,导致计算成本增加。
综上所述,目前亟需一种能够针对大规模、高维度与高复杂性数据进行分析的分类模型及算法,降低计算成本,增加迭代速度;因此本发明从网络角度出发,运用渗流理论架构一种普适高效的分类模型,提高具有大规模、高维度与高复杂性等特性数据的分类效率及普适性。
发明内容
(一)发明的目的
本发明目的是提供一种基于渗流分析的二元分类方法。该方法从网络角度考虑个体之间的相关情况,建立网络模型对群体的分类进行评估,形成高效、准确的二元分类器。
(二)技术方法
本发明是一种基于渗流分析的二元分类方法,其具体实施步骤如下:
步骤1,基于数据向量构建指标网络
在建立指标网络过程中,将每个个体单元抽象为节点,每个节点用一个长度为n的向量表示,即每个节点为一个n维向量;在n维空间中求解两向量之间的距离;以个体作为节点、以两节点之间的距离作为边的权重建立指标网络;主要包括:
(1)选取个体单元作为节点;
(2)计算任意两节点之间的距离;
步骤2,指标网络的渗流分析
为了更好的对群体进行分类和发现整个指标网络系统的内在规律,本步骤将对指标网络的渗流进行分析,包括指标网络渗流分析、指标网络度分布分析;
其中指标网络渗流分析是指运用渗流理论选取两节点之间的距离为阈值q对指标网络进行渗流,看其最大连通子图G与次大连通子图SG随阈值q的变化;指标网络度分布分析是指绘制指标网络的度分布图像,看其分布属于何种分布具有何种性质;
步骤3,构建似然函数,确定关键阈值
为了保证步骤2中的渗流阈值q能够将群体准确的分类,本步骤将以渗流阈值q为参数θ构建似然函数,计算每个阈值下的似然,绘制似然随着阈值的变化图,找到最大似然下的阈值,确定关键阈值,即渗流相变点,具体包括以下两个子步骤:
3-1确定群体分布;
3-2构建似然函数;
步骤4,模型评价及验证
为了更好的对网络分析模型进行评价,本步骤中引入运用混淆矩阵(ConfusionMatrix)、受试者工作特征曲线即ROC曲线(Receiver Operating Characteristic Curve,简称ROC曲线)及ROC曲线下方的面积即AUC模型(Area Under Curve,简称AUC)三种评价工具对建立的网络模型进行评价;同时我们也将本方法与机器学习中经典的逻辑回归方法进行对比,分别对两种模型进行评价;也就是说,在步骤4中,运用混淆矩阵、ROC曲线及AUC模型对建立的网络模型进行评价,同时与逻辑回归模型进行对比分析,其具体包括以下两个子步骤:
4-1构建逻辑回归模型;
4-2模型对比分析评价;
其中,在步骤1中所述的“建立指标网络”,其具体做法如下:
在建立指标网络过程中,首先将群体的个体单元抽象为指标网络的节点,节点从1并且开始顺序编号1~N,并且每个节点具有唯一的非重复编号;其次,因为每个个体单元(节点)具有n个指标,因此可以将个体单元抽象为n维向量,在n维空间中计算任意两向量之间的距离度量个体之间的相似程度,公式如下:
Figure BDA0001850353650000051
式中:d(x,y)表示X与Y之间的距离;N表示指标网络总节点的数量;p≥1,p取值不同所表示的距离含义不同,常用的p为1,2,+∞;
上式中p≥1,上式也称为明科夫斯基(Minkowski)距离,根据问题的实际情况选用适合的距离公式;针对指标网络的连边信息,本步骤中针对建立好的指标网络,对所有连边进行编号,即对M条连边按照从0开始顺序编号0~M,此连边为有权无向边。
其中,在步骤2中所述的“对指标网络的渗流分析,包括指标网络渗流分析、指标网络度分布分析”,其具体做法如下:
步骤2-1,运用渗流理论对指标网络进行研究分析,首先将距离阈值进行归一化处理,即
Figure BDA0001850353650000052
当距离阈值q为1时,此时指标网络为全联通网络,而当两节点的之间的连边大于距离阈值q时,则删除连边及剥离节点;随着q的变化,网络出现最大连通子团Gq和次大连通子团SGq,其中Gq代表最大连通子团中节点的数量,SGq代表次大连通子团中节点的数量,如图1所示,在渗流相变点qc次大连通子团SGq发生突变,表示此时指标网络处于最脆弱的阶段,此时群体分类达到最好的效果;
步骤2-2,节点i的度ki定义为与该节点连接的其他节点的数目,在关键阈值qc时,对指标网络中节点度进行统计分析,同时绘制指标网络的度分布图,如图2所示,横轴表示节点度k,纵轴表示度为k的节点占总节点数的比率,即
Figure BDA0001850353650000061
式中:N表示指标网络的总节点数量;k表示指标网络的节点度;Qk表示度为k的节点的数量;
其中,在步骤3中所述的“以渗流阈值q作为参数θ构建似然函数”,其具体做法如下:
步骤3-1,确定群体分布
给定阈值为θ,指标网络渗流将群体分为正常群体(G内,负例,标记为0)与异常群体(G外,正例,标记为1),则在此阈值下每个正常个体的概率为
Figure BDA0001850353650000062
异常个体的概率为
Figure BDA0001850353650000063
步骤3-2,构建似然函数
根据群体特征构建似然函数为:
Figure BDA0001850353650000064
式中:L(θ)表示参数为θ的似然函数;G(θ)表示在阈值为θ时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
似然函数取对数可得:
Figure BDA0001850353650000071
式中:L(θ)表示参数为θ的似然函数;l(θ)表示将参数为θ的似然函数取对数;G(θ)表示在阈值为θ时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,被分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
其中
Figure BDA0001850353650000072
Figure BDA0001850353650000073
分别表示在参数θ下个体属于正常个体和异常个体的概率,y(i)表示第i个个体在训练样本中分类标记的类别,正常标记为0,异常标记为1。
其中,在步骤4中所述的“运用混淆矩阵、ROC曲线及AUC模型对建立的网络模型进行评价,同时与逻辑回归模型进行对比分析”,其具体做法如下:
步骤4-1,构建逻辑回归模型
根据实例数据特征及数据背景知识,设定假设函数:
Figure BDA0001850353650000074
式中:θ表示假设函数hθ(x)的参数;X表示训练样本;
建立成本函数:
Figure BDA0001850353650000081
式中:θ表示成本函数J(θ)的参数;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];y(i)表示第i个训练样本实际属于的类别,正例则y(i)=0,负例则y(i)=1;
运用梯度下降算法求全局最优解,得到参数θ:
Repeat{
Figure BDA0001850353650000082
}
式中:θj表示第j个参数,j∈[1,n+1];α表示学习率;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];
Figure BDA0001850353650000083
表示第i个训练样本的第j个指标;
设定规则将群体分类标记,引入阈值qL,当qL>hθ(x)则分类为异常个体标记为1,当qL≤hθ(x)则分类为正常个体标记为0;
步骤4-2,模型对比分析评价
基于原始标记数据和分类后标记数据分别计算两种模型混淆矩阵中的值,如表1所示,运用ROC曲线和AUC模型对两个模型分类准确率进行评价;
表1分类模型混淆矩阵表
Figure BDA0001850353650000084
表1叙述如下:
(1)准确率Accuracy的计算:
Figure BDA0001850353650000091
式中:TP是正确预测到的正例的数量;TN是正确预测到的负例的数量;FP是把负例预测成正例的数量;FN是把正例预测成负例的数量;
(2)误分类率Error rate的计算:
Figure BDA0001850353650000092
式中:TP是正确预测到的正例的数量;TN是正确预测到的负例的数量;FP是把负例预测成正例的数量;FN是把正例预测成负例的数量;
(3)覆盖率Recall(True Positive Rate,or Sensitivity)的计算:
Figure BDA0001850353650000093
式中:TP是正确预测到的正例的数量;FN是把正例预测成负例的数量;
(4)命中率Precision(Positive Predicted Value,PV+)的计算:
Figure BDA0001850353650000094
式中:TP是正确预测到的正例的数量;FP是把负例预测成正例的数量;
(5)负例的覆盖率Specificity(True Negative Rate)的计算:
Figure BDA0001850353650000101
式中:TN是正确预测到的负例的数量;FP是把负例预测成正例的数量;
(6)负例的命中率Negative predicted value(PV-)的计算:
Figure BDA0001850353650000102
式中:TN是正确预测到的负例的数量;FN是把正例预测成负例的数量;
同时,分别对两种分类模型混淆矩阵中的6项指标随其阈值的变化进行统计分析,如图3所示,对模型的准确性、可靠性及科学性进行评价。
通过以上步骤,本发明为大规模、高维度及搞复杂度的群体系统分类提供了科学可靠的技术支持和理论支撑;此外,相较于传统的分类模型,本发明能够更准确高效的将群体进行分类,降低了计算成本,增加了迭代速度。
(三)优点和功效
本发明提供了一种基于渗流分析的二元分类方法,具有以下三个优点:
(1)网络图模型能够更加直观地对背景知识进行表达,并且能够在高维度与高复杂度的空间下处理数据,表达更丰富的信息,有利于进行理论分析,进一步为群体分类提供技术支持和理论支撑;
(2)基于相变的渗流理论支撑。阈值即为相变点,针对各类复杂系统的高维数据,可以区分数据背后的不同“相”,具有明确的物理意义;
(3)计算复杂度降低。G的计算复杂度为log(N0M0),N0为网络节点规模,M0为网络边的数量,迭代收敛速度快,适合大规模计算,有利于降低计算成本,对于普遍存在的稀疏数据,效果更好。
附图说明
图1是指标网络渗流图。
图2是渗流相变点指标网络度分布图。
图3(a)逻辑回归模型评价指标趋势图。
图3(b)网络模型评价指标趋势图。
图4是分类模型评价对比分析图。
图5是网络模型似然随阈值变化图。
图6是本发明所述的基于渗流分析的二元分类方法流程图。
图中序号、符号、代号说明如下:
q表示指标网络的渗流阈值;
G表示指标网络最大连通子图的大小;
SG表示指标网络次大连通子图的大小;
K表示指标网络节点度的大小;
P(K)表示指标网络节点度的概率;
qL表示逻辑回归分类的阈值;
P表示准确率、误分类率、覆盖率、命中率、负例的覆盖率、负例的命中率;
True_Positive_Rate表示真阳率,即正确预测到正例的数量与实际正例总数量的比值;
1-Specificity表示假阳率,即错误预测到正例的数量与实际正例总数量的比值;
具体实施方式
现结合实施例及附图对本发明进行详细的解释。
本发明实施例的一种基于渗流分析的二元分类方法,见图6所示,其具体实施步骤如下:
步骤1,本发明实施例使用的数据由XX医院XX中心统计提供,研究对象为儿童血液指标,分别为WBC(白细胞)、RBC(红细胞)、HGB(血红蛋白)、PLT(血小板)、HCT(红细胞压积)5项指标,即N=5。在研究过程中,数据中随机抽取1万个数据,将个体单元抽象为节点,每个节点代表一个5维向量,初始节点数N=10000,节点编号从1开始顺序编号1~10000,按照欧式距离公式在5维空间中计算任意两个节点之间的欧式距离,公式如下:
Figure BDA0001850353650000121
式中:d(x,y)表示X与Y之间的欧式距离;N表示指标网络总节点的数量;
同时将任意两节点之间连边,形成初始的指标网络,对统计每条连边起始节点、终止节点编号,并对M条边从0开始顺序编号。
步骤2,指标网络的渗流分析
步骤2-1,指标网络渗流分析
首先将任意两个体单元之间的欧式距离进行归一化处理,即
Figure BDA0001850353650000131
将其作为距离阈值,当任意两节点之间的欧式距离d>q时,则删除连边及剥离节点,血液指标网络形成最大连通子图G和次大连通子团SG,统计G与SG中节点的数量,随着阈值q不断减小,血液指标网络中G与SG的大小不断变化,如图1所示,当q=0.002时,SG发生突变,发生渗流相变,此时血液指标网络处于最脆弱的状态;
步骤2-2,指标网络度分布分析
在渗流相变点q=0.002,对血液指标网络节点度进行统计分析,横坐标表示节点度,纵轴表示度为k的节点占总节点数的比率,即
Figure BDA0001850353650000132
如图2所示,血液指标网络的度分布服从指数分布,并且不同人具有不同的相似程度,平均度<k>=3,表示血液指标网络中每个人平均与3个人相似,有少部分人与10个以上人相似,表征人与人之间具有较大差异,在此阈值下建立血液指标网络对人群进行分类与聚类分析具有重大意义;
步骤3,构建似然函数,确定关键阈值
步骤3-1,确定群体分布
给定阈值θ,根据渗流结果,则每个人属于正常人的概率为
Figure BDA0001850353650000141
属于异常人的概率为
Figure BDA0001850353650000142
步骤3-2,构建似然函数
根据人群特征构建似然函数:
Figure BDA0001850353650000143
式中:L(θ)表示参数为θ的似然函数;G(θ)表示在阈值为θ时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
似然函数取对数可得:
Figure BDA0001850353650000144
式中:L(θ)表示参数为θ的似然函数;l(θ)表示将参数为θ的似然函数取对数;G(θ)表示在阈值为θ时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,被分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
其中
Figure BDA0001850353650000145
Figure BDA0001850353650000146
分别表示在参数θ下个体属于正常人和异常人的概率,y(i)表示第i个人在训练样本中分类标记的类别,正常标记为0,异常标记为1;
如图5所示,对血液指标网络模型的所有阈值q进行遍历,可得似然值随阈值q变化,图中纵轴表示每个阈值下的似然值,横纵表示阈值q,由图5可得,当阈值q=0.002时,血液指标网络的似然取得最大值,因此,可确定血液指标网络模型的唯一参数阈值q=0.002。
步骤4,模型评价及验证
步骤4-1,构建逻辑回归模型
本实施例中人体血液具有5项指标,因此以θ为参数,构建假设函数为:
Figure BDA0001850353650000151
上式中,θ=[θ012345]∈R6×1,即θ为6维行向量,
Figure BDA0001850353650000152
式中:θ表示假设函数hθ(x)的参数;X表示训练样本;m表示训练样本的数量;
因此,Z=θTX=θ0x01x12x23x34x45x5;同时,运用Sigmoid函数对假设函数Hθ(x)进行归一化,Hθ(x)∈(0,1),后续人群标记分类奠定基础;
构建成本函数:
Figure BDA0001850353650000153
式中:θ表示成本函数J(θ)的参数;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];y(i)表示第i个训练样本实际属于的类别,正例则y(i)=0,负例则y(i)=1;
运用梯度下降算法求全局最优解,得到参数θ:
Repeat{
Figure BDA0001850353650000161
}
式中:θj表示第j个参数,j∈[1,n+1];α表示学习率;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];
Figure BDA0001850353650000162
表示第i个训练样本的第j个指标;
设定规则将人群分类标记,引入阈值qL,当qL>hθ(x)则分类为异常人标记为1,当qL≤hθ(x)则分类为正常人标记为0;
步骤4-2,模型对比分析评价
本步骤,针对步骤3和步骤4-1中两种分类模型的分类结果运用混淆矩阵、ROC曲线以及AUC模型进行评价;
首先根据两种模型的分类结果,运用混淆矩阵(如表1所示)计算准确率(Accuracy)、误分类率(Error rate)、覆盖率Recall(True Positive Rate,orSensitivity)、命中率Precision(Positive Predicted Value,PV+)、负例的覆盖率Specificity(True Negative Rate)、负例的命中率Negative predicted value(PV-)六项指标随阈值q/qL的变化,如图3所示,图3(a)图表示逻辑回归模型评价指标趋势图,经分析可得,当阈值qL=0.62时,模型准确率去的最大值为73.78%,误分类率取得最小值为26.22%;图3(b)图表示网络模型评价指标趋势图,经分析可得,当阈值q=0.002时,模型准确率去的最大值为77.08%>73.78%,误分类率取得最小值为22.92%<26.22%;因此,在相同背景下,网络模型比传统的分类模型具有具有更高的准确率;
其次,如图4所示,运用ROC曲线和AUC模型对两种分类模型进行评价,横坐标为1-Specificity假阳率(FPR),纵坐标为TruePositive Rate(TPR)真阳率;ROC曲线上每一个点代表一个阈值,对遍历所有的阈值则得到ROC曲线;当阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1);理想目标为:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,True Positive Rate、Specificity越大效果越好;AUC(Area under Curve):ROC曲线下的面积,介于0.1和1之间。AUC作为数值可以更加直观的评价分类器的好坏,值越大越好;
如图4所示,本实施例中,逻辑回归模型ROC曲线相较于网络模型的ROC曲线更加向(0,1)点靠拢,且偏离45度对角线更大;同时,网络模型AUC=0.810>逻辑回归模型AUC=0.766,因此,可判定网络模型具有更好的分类效果及更高的准确率。

Claims (1)

1.一种基于渗流分析的二元分类系统,其特征在于,所述系统实现如下步骤:
步骤1,研究对象为儿童血液指标,分别为白细胞WBC、红细胞RBC、血红蛋白HGB、血小板PLT、红细胞压积HCT,共5项指标,即n=5;在研究过程中,数据中随机抽取1万个数据,将个体单元抽象为节点,每个节点代表一个5维向量,初始节点数N=10000,节点编号从1开始顺序编号1~10000,按照欧式距离公式在5维空间中计算任意两个节点之间的欧式距离,公式如下:
Figure FDA0002623493610000011
式中:d(x,y)表示x与y之间的欧式距离;N表示指标网络总节点的数量;
同时将任意两节点之间连边,形成初始的指标网络,对统计每条连边起始节点、终止节点编号,并对M条边从0开始顺序编号;
步骤2,指标网络的渗流分析
步骤2-1,运用渗流理论对指标网络进行研究分析,首先将任意两节点之间的欧式距离进行归一化处理,即
Figure FDA0002623493610000012
将其作为渗流阈值;当渗流阈值q为1时,此时指标网络为全联通网络,而当两节点的之间的连边大于渗流阈值q时,则删除连边及剥离节点;随着q的变化,网络出现最大连通子图G和次大连通子图SG,在渗流相变点qc处次大连通子图SG发生突变,表示此时指标网络处于最脆弱的阶段,此时群体分类达到最好的效果;
步骤2-2,节点i的度ki定义为与该节点连接的其他节点的数目,在关键阈值qc时,对指标网络中节点度进行统计分析,同时绘制指标网络的度分布图,横轴表示节点度k,纵轴表示度为k的节点占总节点数的比率,即
Figure FDA0002623493610000021
式中:N表示指标网络的总节点数量;k表示指标网络的节点度;Qk表示度为k的节点的数量;
步骤3,构建似然函数,确定关键阈值
为了保证步骤2中的渗流阈值q能够将群体准确的分类,本步骤将以渗流阈值q为参数构建似然函数,计算每个阈值下的似然,绘制似然随着阈值的变化图,找到最大似然下的阈值,确定关键阈值,即渗流相变点,具体包括以下两个子步骤:
步骤3-1,确定群体分布
给定阈值q,根据渗流结果,则每个人属于正常人的概率为
Figure FDA0002623493610000022
属于异常人的概率为
Figure FDA0002623493610000023
步骤3-2,构建似然函数
根据人群特征构建似然函数:
Figure FDA0002623493610000024
式中:L(q)表示阈值q的似然函数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
似然函数取对数得到:
Figure FDA0002623493610000031
式中:L(q)表示阈值为q的似然函数;l(q)表示将阈值为q的似然函数取对数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,被分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
其中
Figure FDA0002623493610000032
Figure FDA0002623493610000033
分别表示在阈值q下个体属于正常人和异常人的概率,y(i)表示第i个人在训练样本中分类标记的类别,正常标记为0,异常标记为1;
对血液指标网络模型的所有阈值q进行遍历,得到似然值随阈值q变化,纵轴表示每个阈值下的似然值,横轴表示阈值q,当阈值q=0.002时,血液指标网络的似然取得最大值,因此,确定血液指标网络模型的关键阈值qc=0.002;
步骤4,模型评价及验证
步骤4-1,构建逻辑回归模型
人体血液具有5项指标,因此以θ为参数,构建函数为:
Figure FDA0002623493610000034
上式中,θ=[θ012345]∈R6×1,即θ为6维行向量,
Figure FDA0002623493610000035
m=10000,
Figure FDA0002623493610000036
式中:θ表示假设函数hθ(x)的参数;X表示训练样本;m表示训练样本的数量;
因此,Z=θTX=θ0x01x12x23x34x45x5;同时,运用Sigmoid函数对假设函数hθ(x)进行归一化,hθ(x)∈(0,1),为后续人群标记分类奠定基础;
构建成本函数:
Figure FDA0002623493610000041
式中:θ表示成本函数J(θ)的参数;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];y(i)表示第i个训练样本实际属于的类别,正例则y(i)=0,负例则y(i)=1;
运用梯度下降算法求全局最优解,得到参数θ:
Repeat{
Figure FDA0002623493610000042
}
式中:θj表示第j个参数,j∈[0,n];α表示学习率;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];
Figure FDA0002623493610000043
表示第i个训练样本的第j个指标;
设定规则将人群分类标记,引入阈值qL,当qL>hθ(x)则分类为异常人标记为1,当qL≤hθ(x)则分类为正常人标记为0;
步骤4-2,模型对比分析评价
针对步骤3和步骤4-1中两种分类模型的分类结果运用混淆矩阵、ROC曲线以及AUC模型进行评价;
首先根据两种模型的分类结果,运用混淆矩阵计算准确率Accuracy、误分类率Errorrate、覆盖率Recall、命中率Precision、负例的覆盖率Specificity、负例的命中率Negative predicted value六项指标随阈值q/qL的变化;当阈值qL=0.62时,模型准确率取得最大值为73.78%,误分类率取得最小值为26.22%;当阈值q=0.002时,模型准确率取得最大值为77.08%>73.78%,误分类率取得最小值为22.92%<26.22%;
其次,运用ROC曲线和AUC模型对两种分类模型进行评价,横坐标为1-Specificity假阳率FPR,纵坐标为TPR真阳率;ROC曲线上每一个点代表一个阈值,遍历所有的阈值则得到ROC曲线;当阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1);理想目标为:TPR=1,FPR=0,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,True Positive Rate、Specificity越大效果越好;ROC曲线下的面积,介于0.1和1之间;AUC作为数值更加直观的评价分类器的好坏,值越大越好;
逻辑回归模型ROC曲线相较于网络模型的ROC曲线更加向(0,1)点靠拢,且偏离45度对角线更大;同时,网络模型AUC=0.810>逻辑回归模型AUC=0.766,因此,判定网络模型具有更好的分类效果及更高的准确率。
CN201811292795.2A 2018-11-01 2018-11-01 一种基于渗流分析的二元分类方法 Active CN109376790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811292795.2A CN109376790B (zh) 2018-11-01 2018-11-01 一种基于渗流分析的二元分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811292795.2A CN109376790B (zh) 2018-11-01 2018-11-01 一种基于渗流分析的二元分类方法

Publications (2)

Publication Number Publication Date
CN109376790A CN109376790A (zh) 2019-02-22
CN109376790B true CN109376790B (zh) 2021-02-23

Family

ID=65396787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811292795.2A Active CN109376790B (zh) 2018-11-01 2018-11-01 一种基于渗流分析的二元分类方法

Country Status (1)

Country Link
CN (1) CN109376790B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222950B (zh) * 2019-05-16 2021-05-11 北京航空航天大学 一种城市交通的健康指标体系及评估方法
CN111081016B (zh) * 2019-12-18 2021-07-06 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN112115334B (zh) * 2020-09-28 2023-07-21 北京百度网讯科技有限公司 网络社区热点内容的判别方法、装置、设备以及存储介质
CN113283743B (zh) * 2021-05-21 2023-06-20 中国科学院南京地理与湖泊研究所 一种流域中不同生态修复类型生境阈值的判定方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105703957A (zh) * 2016-04-06 2016-06-22 西北工业大学 一种航空电子网络系统的鲁棒性计算方法
CN106327865B (zh) * 2016-08-12 2018-03-20 北京航空航天大学 一种基于渗流分析的城市交通可靠性指标及其实现方法
CN107908645B (zh) * 2017-10-09 2021-09-28 北京航空航天大学 一种基于渗流分析的在线社交平台谣言传播的免疫方法
CN107945036A (zh) * 2017-11-21 2018-04-20 中山大学 一种在线社交网络中有影响力传播者识别与量化的方法
CN108090677B (zh) * 2017-12-19 2022-01-07 北京航空航天大学 一种关键基础设施的可靠性测评方法
CN108109375B (zh) * 2017-12-21 2020-10-09 北京航空航天大学 一种基于渗流分析的城市交通网络可靠性预测方法
CN108664400B (zh) * 2018-05-11 2020-08-04 北京航空航天大学 一种基于相依贝叶斯网络的故障诊断技术的构建方法

Also Published As

Publication number Publication date
CN109376790A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109376790B (zh) 一种基于渗流分析的二元分类方法
CN108023876B (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
Peng et al. A new approach for imbalanced data classification based on data gravitation
Das et al. Automatic clustering using an improved differential evolution algorithm
Pal Soft computing for feature analysis
Ran et al. Comprehensive survey on hierarchical clustering algorithms and the recent developments
CN105469108B (zh) 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
Xie et al. A new internal index based on density core for clustering validation
CN113158955B (zh) 基于聚类引导和成对度量三元组损失的行人重识别方法
Jinyin et al. Fast density clustering algorithm for numerical data and categorical data
Kansizoglou et al. Haseparator: Hyperplane-assisted softmax
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Cordella et al. A feature selection algorithm for handwritten character recognition
Degirmenci et al. iMCOD: Incremental multi-class outlier detection model in data streams
CN117131436A (zh) 面向开放环境的辐射源个体识别方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
Bai et al. A unified deep learning model for protein structure prediction
CN111144550A (zh) 基于同源连续性的单纯形深度神经网络模型及构建方法
CN110348323B (zh) 一种基于神经网络优化的穿戴式设备手势识别方法
CN109214466A (zh) 一种基于密度的新型聚类算法
Elshazly et al. Lymph diseases diagnosis approach based on support vector machines with different kernel functions
Sengupta et al. A scoring scheme for online feature selection: Simulating model performance without retraining
Marrocco et al. On linear combinations of dichotomizers for maximizing the area under the ROC curve
Gao et al. A novel minimum spanning tree clustering algorithm based on density core

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant