CN111651932A

CN111651932A - 一种基于集成分类模型的电力系统在线动态安全评估方法

Info

Publication number: CN111651932A
Application number: CN202010425310.3A
Authority: CN
Inventors: 刘颂凯; 毛丹; 段雨舟; 刘炼; 程江洲; 龚小玉; 杨楠; 李振华; 袁波; 王彦淞; 程杉; 粟世玮; 卢云; 陈曦
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-11

Abstract

一种基于集成分类模型的电力系统在线动态安全评估方法，步骤1：建立一个电力系统安全评估的初始样本集；步骤2：通过特征选择构建一个包含关键变量和相应动态安全分类标签的高效样本集；步骤3：获得能够准确预测电力系统运行状态的动态安全评估模型；步骤4：将实时数据作为动态安全评估模型的输入实现电力系统的在线动态安全评估。本发明的目的是为了解决电力系统DSA过程中的评估数据的不平衡问题和误分类问题所带来的评估误差。

Description

一种基于集成分类模型的电力系统在线动态安全评估方法

技术领域

本法发明涉及电力系统动态安全评估领域，具体涉及一种基于集成分类模型的电力系统在线动态安全评估方法。

背景技术

随着电力系统规模的逐步增大，以及新能源的并网规模不断扩大，给系统的安全稳定运行带来了巨大的挑战，如何保证系统在更经济的条件下安全稳定运行已显得愈来愈重要。因此，电力系统的动态安全分析已经发展成为了研究的重要热点。电力系统的数据具有数据量大、数据种类混杂的特点，快速、准确捕捉电力系统的事故安全报警信号变得更加困难且格外的重要。采用电力系统动态安全评估(Dynamic Security Assessment，DSA)模型对电力系统数据进行安全分类总是存在以下两个问题：

第一、系统中数据样本的分类往往存在两种误分类，即将稳定状态误判为不稳定状态和将不稳定状态误判为稳定状态两种情况，错误的分类对电力系统的危害程度是不一样的，因此迫切需要能有效降低分类误差的方法来提高电力系统的稳定状况；

第二、电力系统中的不平衡数据集分类效果往往不是非常理想，数据的非平衡采样可能会使分类的结果并不能符合实际情况，因此迫切需要新的方法来解决非平衡数据采样带来的影响，提高系统动态安全稳定预测的精确度。

目前常用于电力系统DSA的分类方法有人工神经网络(Artificial NeuralNetwork，ANN)，决策树(Decision Tree，DTs)、随机森林(Random Forest，RF)、支持向量机(Support Vector Machine，SVM)、极限学习机(Extreme Learning Machine，ELM)等。但这些方法往往集中在提高DSA总体分类精度上，将两种误分类同等对待，增加了DSA的误差，并且这些分类方法无法很好的处理数据样本中数据不平衡的问题，对DSA的评估精度产生了一定的影响。

授权公告为CN106849069B的专利文献公开了一种基于Pin-SVM的电力系统暂态稳定评估方法：该方法首先构建原始特征集，分为训练样本数据和测试样本数据；由训练样本数据训练电力系统的暂态稳定评估模型；采用电力系统暂态稳定评估模型对用测试样本数据模拟的电力系统状态进行稳定性评估,针对实际电力系统的故障类型,依据电力系统特征子集相对于电力系统稳定类与不稳定类的隶属度将故障划归到相应的类,当分类为不稳定类,则认为该故障为严重故障；反之,则认为该故障为不严重故障；在故障筛选和稳定评估完成的同时得到评价指标。该发明的缺点是没有考虑不平衡数据及样本数据的误分类对评估结果造成的影响，致使评估结果在置信度方面存在不足。

综上所述，目前的安全评估方法并不能满足现代电力系统对DSA方法的高适应性、高精度的需求。

发明内容

本发明为了解决电力系统DSA过程中的评估数据的不平衡问题和误分类问题所带来的评估误差，提出了一种基于集成分类模型的电力系统动态安全评估方法，采用样本分层的双向过采样(Stratified Bi-directional Oversampling，SBO)方法获取样本，并使用三种高精度NP分类器集成一个DSA模型，对于多个NP分类器的结果采用多数投票的方式得到系统DSA的最终结果，有效提高了DSA的精度。

为了实现上述发明目的，本发明采用了以下方案：

一种基于集成分类模型的电力系统在线动态安全评估方法，包括以下步骤：

步骤1：构建动态安全分类标签，基于电力系统历史运行数据与故障仿真产生的数据，建立一个电力系统安全评估的初始样本集；

步骤2：基于样本分层的双向过采样方法对初始样本集进行采样，并对采样的数据进行预处理，通过特征选择构建一个包含关键变量和相应动态安全分类标签的高效样本集；

步骤3：用获得的高效样本集对基于伞式算法的奈曼皮尔逊综合分类动态安全评估模型进行离线训练及更新，获得能够准确预测电力系统运行状态的动态安全评估模型；

步骤4：基于同步相量测量装置收集的实时数据，将实时数据作为动态安全评估模型的输入实现电力系统的在线动态安全评估。

在步骤1中，根据系统故障潮流仿真计算各种故障对应的极限切除时间(CriticalClearing Time，CCT)，并基于CCT构建相应的动态安全指标如公式(1)所示：

式中：CCT是电力系统某个位置发生故障的极限切除时间；ACT为故障点的实际切除时间；

基于构建的DSI，构建相应的安全分类标签如公式(2)所示：

式中：η为用户自定义的阈值。

在步骤2中，基于SBO方法对初始样本集进行采样，电力系统仿真样本中，大部分样本为安全运行的样本，只有少数异常的包含电力系统不安全运行信息的样本。因此，该方法首先将样本集分为少数类样本和多数类样本，然后基于少数类样本的最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层，然后找到密集层的边界样本，最后对这些边界样本和稀疏层样本进行双向过采样。

在对初始样本集进行采样时，包括以下步骤：

步骤(1)首先将样本分层；

步骤(2)将样本分层后，确定少数类样本的样本密集层边界区域；

步骤(3)得到密集层的边界区域后，采用双向过采样在互为近邻的少数类样本之间合成新样本。

在步骤(1)中，令初始样本集T＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中y_i∈{-1，1}(i＝1,2,...,n)，T为包含n个样本点的二分类数据集，y_i＝1表示对应的样本点属于少数类，记为Q＝{(x₁,1),(x₂,1),...,(x_q,1)}，其中q代表少数类样本数，y_i＝-1表示对应的样本点属于多数类，记为M＝{(x₁,-1),(x₂,-1),...,(x_m,-1)}，其中m代表多数类样本数，T＝Q∪M；

在步骤(2)中，将样本分层后，通过以下四步确定少数类样本的样本密集层边界区域：

a、对

属性个数为d，首先根据公式(3)求两个样本点x_i，x_j之间的欧式距离D(x_i,x_j)，并通过公式(4)计算Q中每个样本的密度Density(x_i)，找到最高密度点x_max：

b、通过公式(5)计算少数类样本之间的平均距离dist_aver：

c、根据公式(6)和公式(7)得到Q的密集层Den_area和稀疏层Spar_area如下：

Den_area＝{D(x_j,x_max)≤dist_aver,x_j∈Q} (6)

Spar_area＝{D(x_j,x_max)＞dist_aver,x_j∈Q} (7)

d、根据公式(8)和公式(9)得到密集层的边界及其边界区域：

在步骤(3)中，得到密集层的边界区域后，采用双向过采样在互为近邻的少数类样本之间合成新样本，对

将双向过采样的样本集定义为Bi_Sample，如公式(10)所示：

Bi_Sample＝{(x_i，x_j)|x_i∈N_k(x_j)∩x_j∈N_k(x_i)} (10)

式中：N_k(x_i)表示x_i的k个近邻。

在步骤2中，基于经过采样后的样本集，采用部分互信息(Partial MutualInformation，PMI)工具对样本集进行特征选择，探索样本集中各输入变量与安全分类标签之间的相关性，构建一个高效样本集；PMI的定义如公式(11)所示：

式中：x，y是在条件z下的随机变量；p为变量x，y的联合概率分布。

在步骤3中，用基于NP准则的伞式算法对多种传统分类器进行改造，最终得到一系列对应的NP分类器；在对多种NP分类器进行训练之前，首先根据电力系统实际需求调整NP分类器的参数，并设置一类分类错误阈值上限α、违规率δ及训练集循环分裂次数N，然后再将高效样本集作为输入进行NP分类器的训练。

在进行NP分类器的训练时，采用以下训练步骤：

(1)根据设定的分裂次数N，将训练集中不稳定分类样本S⁰随机分裂得到样本

和样本

结合稳定分类样本S¹用于基本分类器；

(2)

用于分类器计算违章率上限v_k，并通过计算得到每个样本等级阈值k^*对应的分数阈值

且

结合S¹训练各分类器得分函数f_i，违章率上限v_k和等级阈值k^*的表达式分别如公式(12)和公式(13)所示；

k^*＝min{k∈(1,...,n):v(k)≤δ} (13)

(3)将f_i应用于

得到一组分数阈值候选项τ_i，并将τ_i中元素按递增顺序排序得到sort(τ_i)，找到每一个等级阈值k^*对应的分数阈值

τ_i、sort(τ_i)和k^*的表达式分别如公式(14)-(16)所示：

τ_i＝{t_i，1,...,t_i,n}＝{f_i(x₁),...,f_i(x_n)} (14)

sort(τ_i)＝{t_i,(1),...,t_i,(n)} (15)

(4)基于得分函数和阈值如公式(17)所示构造NP分类器：

(5)重复步骤(1)至(4)，将训练集进行循环分裂训练N次，对于每种类型NP分类器分别构造N多个NP分类器，将一类分类错误分类结果按照公式(18)加权投票的集成方法作为该NP分类器最终结果输出：

最后通过对比分类结果的一类分类错误率(Error I)、准确率(AC)、精确率(PR)与安全类样本召回率(RE)的调和平均值F₁指标来评判各个分类器的性能，并选择三种性能较为优良的分类器来构造DSA模型，对于三种分类器结果采用多数投票的形式获得DSA模型的最终结果，以此得到一个高精度的集成DSA模型。其中Error I、AC、PR、RE和F₁的计算公式分别如公式(19)-(23)所示：

式中：F₁₁表示将实际是稳定状态的样本预测为稳定状态的样本数；F₁₀表示将实际是稳定状态的样本预测为不稳定状态的样本数；F₀₁表示将实际是不稳定状态的样本预测为稳定状态的样本数；F₀₀表示将实际是不稳定状态的样本预测为不稳定状态的样本数。

一种对电力系统安全评估的初始样本集进行采样的方法，它包括以下步骤：

步骤(1)首先将样本分层；

在步骤(1)中，令初始样本集T＝{(x₁，y₁),(x₂,y₂),...,(x_n,y_n)}，其中y_i∈{-1,1}(i＝1,2,...,n)，T为包含n个样本点的二分类数据集，y_i＝1表示对应的样本点属于少数类，记为Q＝{(x₁,1),(x₂,1),...,(x_q,1)}，其中q代表少数类样本数，y_i＝-1表示对应的样本点属于多数类，记为M＝{(x₁,-1),(x₂,-1)，...,(x_m,-1)}，其中m代表多数类样本数，T＝Q∪M；

a、对

b、通过公式(5)计算少数类样本之间的平均距离dist_aver：

Den_area＝{D(x_j,x_max)≤dist_aver,x_j∈Q} (6)

Spar_area＝{D(x_j,x_max)＞dist_aver,x_j∈Q} (7)

d、根据公式(8)和公式(9)得到密集层的边界及其边界区域：

将双向过采样的样本集定义为Bi_Sample，如公式(10)所示：

Bi_Sample＝{(x_i,x_j)|x_i∈N_k(x_j)∩x_j∈N_k(x_i)} (10)

式中：N_k(x_i)表示x_i的k个近邻。

一种对奈曼皮尔逊分类器进行训练的方法，首先根据电力系统实际需求调整NP分类器的参数，并设置一类分类错误阈值上限α、违规率δ及训练集循环分裂次数N，然后再将高效样本集作为输入进行NP分类器的训练，其训练过程包括以下步骤：

和样本

结合稳定分类样本S¹用于基本分类器；

(2)

且

k^*＝min{k∈(1,...,n):v(k)≤δ} (13)

(3)将f_i应用于

τ_i、sort(τ_i)和k^*的表达式分别如公式(14)-(16)所示：

τ_i＝{t_i,1,...,t_i,n}＝{f_i(x₁),...,f_i(x_n)} (14)

sort(τ_i)＝{t_i,(1),...,t_i,(n)} (15)

(4)基于得分函数和阈值如公式(17)所示构造NP分类器：

采用上述技术方案，能带来以下技术效果：

(1)本发明首先将初始样本中的少数类样本分为密集层和稀疏层，然后对密集层边界样本和稀疏层样本进行双向过采样，增加整个初始样本中少数类样本的占比，降低了电力系统安全评估中非平衡数据采样带来的影响，提高了模型的泛化能力；

(2)本技术采用NP准则对传统分类器进行改造，将3种性能良好的NP分类器集成到一个DSA模型中，并对三种NP分类器的结果采用多数投票的机制来确定整个集成DSA模型的最终结果，有效提高了评估模型的分类精度。

附图说明

图1是本发明的整体流程图；

图2是本发明的集成方案示意图；

图3是本发明的双向过采样流程图。

具体实施方式

一种基于集成分类模型的电力系统在线动态安全评估方法，其整体流程图和集体方案示意图分别如图1和图2所示，包括以下步骤：

步骤2：基于样本分层的双向过采样(Stratified Bi-directionalOversampling，SBO)方法对初始样本集进行采样，并对采样的数据进行预处理，通过特征选择构建一个包含关键变量和相应动态安全分类标签的高效样本集；

步骤3：用获得的高效样本集对基于伞式算法的奈曼皮尔逊(Neyman-Pearson，NP)综合分类动态安全评估(Dynamic Security Assessment，DSA)模型进行离线训练及更新，获得能够准确预测电力系统运行状态的DSA模型；

步骤4：基于同步相量测量装置(Phasor Measurement Units，PMUs)收集的实时数据，将实时数据作为DSA模型的输入实现电力系统的在线DSA。

式中：CCT是电力系统某个位置发生故障的极限切除时间；ACT为故障点的实际切除时间。

基于构建的DSI，构建相应的安全分类标签如公式(2)所示：

式中：η为用户自定义的阈值。

在步骤2中，基于SBO方法对初始样本集进行采样，采样过程如图3所示，该方法首先基于最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层，然后找到少数类样本密集层的边界样本，最后对这些边界样本和稀疏层样本进行双向过采样，可以有效降低非平衡数据采样带来的影响。该方法的具体步骤如下：

(1)首先将样本分层：

令初始样本集T＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中y_i∈{-1,1}(i＝1,2,...,n)，T为包含n个样本点的二分类数据集，y_i＝1表示对应的样本点属于少数类，记为Q＝{(x₁,1),(x₂,1),...,(x_q,1)}，其中q代表少数类样本数，y_i＝-1表示对应的样本点属于多数类，记为M＝{(x₁,-1),(x₂,-1),...,(x_m,-1)}，其中m代表多数类样本数，T＝Q∪M。

(2)将样本分层后，通过以下四步确定少数类样本的样本密集层边界区域：

a、对

b、通过公式(5)计算少数类样本之间的平均距离dist_aver：

Den_area＝{D(x_j,x_max)≤dist_aver,x_j∈Q} (6)

Spar_area＝{D(x_j,x_max)＞dist_aver,x_j∈Q} (7)

d、根据公式(8)和公式(9)得到密集层的边界及其边界区域：

(3)得到密集层的边界区域后，采用双向过采样在互为近邻的少数类样本之间合成新样本，对

将双向过采样的样本集定义为Bi_Sample，如公式(10)所示：

Bi_Sample＝{(x_i,x_j)|x_i∈N_k(x_j)∩x_j∈N_k(x_i)} (10)

式中：N_k(x_i)表示x_i的k个近邻。

针对采样后的样本集，用PMI工具对样本集进行特征选择，探索样本集中各输入变量与安全分类标签之间的相关性，构建一个高效样本集。PMI的定义如公式(11)所示：

在步骤3中，用基于NP准则的伞式算法对多种传统分类器进行改造，其中包括RF、AdaBoost、SVM、LDA和Penlog，最终得到一系列对应的NP分类器NP-RF、NP-ADA、NP-SVM、NP-LDA、NP-Penlog。

在对多种NP分类器进行训练之前，首先根据电力系统实际需求调整NP分类器的参数，并设置一类分类错误阈值上限α、违规率δ及训练集循环分裂次数N，然后再将高效样本集作为输入进行NP分类器的训练，训练过程如下：

和样本

结合稳定分类样本S¹用于基本分类器；

(2)

且

k^*＝min{k∈(1,...,n):v(k)≤δ} (13)

(3)将f_i应用于

τ_i、sort(τ_i)和k^*的表达式分别如公式(14)-(16)所示：

τ_i＝{t_i,1,...,t_i,n}＝{f_i(x₁),...,f_i(x_n)} (14)

sort(τ_i)＝{t_i,(1),...,t_i,(n)} (15)

(4)基于得分函数和阈值如公式(17)所示构造NP分类器：

在步骤4中，将PMUs实时收集的系统运行特征数据作为DSA模型的输入，实现电力系统的实时DSA。

实施例：

本发明在一个IEEE 23节点系统和一个IEEE 50机系统进行了测试。其中IEEE 23节点系统包含6台发电机、23个节点以及10台变压器；IEEE 50机系统包含50台发电机、145条母线和453条传输线。测试是在一台装有Intel Core i7处理器和8GB内存的计算机上执行的。基于历史数据库和三相短路故障仿真产生的样本，本次测试IEEE 23节点系统和IEEE50机系统分别获得了2847个样本和5230个样本。对于每个系统获得的样本，其中80％用于训练，20％用于性能测试。

通过五倍交叉验证测试了五个NP分类器的分类性能如表1所示，通过对比各个分类器的Error I、AC和F₁值可以看出这五个分类器总体性能较好，选择其中的三种性能相对较好的NP-ADA、NP-RF和NP-SVM分类器集合成一个DSA模型，并对集成DSA模型的性能进行测试。将α＝0.04，δ＝0.05，N＝1作为DSA模型中NP分类器的基准参数，测试结果如表2所示，由表可知在两个系统的测试中，集成DSA模型的准确率都高达98％以上。并在基准条件下，对以下三种情况进行了分析：固定违规率和分裂次数的条件下改变阈值α、固定阈值和分裂次数的条件下改变违规率δ、固定阈值和违规率的条件下改变分裂次数N。测试结果如表3所示，由表3可知不同条件下的集成DSA模型也具有较高的分类精度，符合现代电力系统的运行要求。

表1

五种NP分类器性能测试

表2

集成DSA模型的性能测试

表3

集成DSA模型在不同阈值、违规率和分裂次数下的性能测试

Claims

1.一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于：在步骤1中，根据系统故障潮流仿真计算各种故障对应的极限切除时间(Critical Clearing Time，CCT)，并基于CCT构建相应的动态安全指标如公式(1)所示：

基于构建的DSI，构建相应的安全分类标签如公式(2)所示：

式中：η为用户自定义的阈值。

3.根据权利要求1所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于：在步骤2中，基于SBO方法对初始样本集进行采样，首先将样本集分为少数类样本和多数类样本，然后基于少数类样本的最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层，然后找到密集层的边界样本，最后对这些边界样本和稀疏层样本进行双向过采样。

4.根据权利要求3所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于，在对初始样本集进行采样时，包括以下步骤：

步骤(1)首先将样本分层；

5.根据权利要求4所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于，在步骤(1)中，令初始样本集T＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中y_i∈{-1,1}(i＝1,2,...,n)，T为包含n个样本点的二分类数据集，y_i＝1表示对应的样本点属于少数类，记为Q＝{(x₁,1),(x₂,1),...,(x_q,1)}，其中q代表少数类样本数，y_i＝-1表示对应的样本点属于多数类，记为M＝{(x₁,-1),(x₂,-1)，...,(x_m,-1)}，其中m代表多数类样本数，T＝Q∪M；

a、对

b、通过公式(5)计算少数类样本之间的平均距离dist_aver：

Den_area＝{D(x_j,x_max)≤dist_aver,x_j∈Q} (6)

Spar_area＝{D(x_j,x_max)＞dist_aver,x_j∈Q} (7)

d、根据公式(8)和公式(9)得到密集层的边界及其边界区域：

将双向过采样的样本集定义为Bi_Sample，如公式(10)所示：

Bi_Sample＝{(x_i,x_j)|x_i∈N_k(x_j)∩x_j∈N_k(x_i)} (10)

式中：N_k(x_i)表示x_i的k个近邻。

6.根据权利要求4或5所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于：在步骤2中，基于经过采样后的样本集，采用部分互信息(Partial MutualInformation，PMI)工具对样本集进行特征选择，探索样本集中各输入变量与安全分类标签之间的相关性，构建一个高效样本集；PMI的定义如公式(11)所示：

7.根据权利要求1至5其中之一所述的一种基于集成分类模型的电力系统在线动态安全评估方法，其特征在于：在步骤3中，用基于NP准则的伞式算法对多种传统分类器进行改造，最终得到一系列对应的NP分类器；在对多种NP分类器进行训练之前，首先根据电力系统实际需求调整NP分类器的参数，并设置一类分类错误阈值上限α、违规率δ及训练集循环分裂次数N，然后再将高效样本集作为输入进行NP分类器的训练。

8.一种对电力系统安全评估的初始样本集进行采样的方法，其特征在于，它包括以下步骤：

步骤(1)首先将样本分层；

9.根据权利要求8所述的对电力系统安全评估的初始样本集进行采样的方法，其特征在于：在步骤(1)中，令初始样本集T＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中y_i∈{-1,1}(i＝1,2,...,n)，T为包含n个样本点的二分类数据集，y_i＝1表示对应的样本点属于少数类，记为Q＝{(x₁,1),(x₂,1),...,(x_q,1)}，其中q代表少数类样本数，y_i＝-1表示对应的样本点属于多数类，记为M＝{(x₁,-1),(x₂,-1),...，(x_m,-1)}，其中m代表多数类样本数，T＝Q∪M；

a、对

b、通过公式(5)计算少数类样本之间的平均距离dist_aver：

Den_area＝{D(x_j,x_max)≤dist_aver,x_j∈Q} (6)

Spar_area＝{D(x_j,x_max)＞dist_aver,x_j∈Q} (7)

d、根据公式(8)和公式(9)得到密集层的边界及其边界区域：

将双向过采样的样本集定义为Bi_Sample，如公式(10)所示：

Bi_Sample＝{(x_i,x_j)|x_i∈N_k(x_j)∩x_j∈N_k(x_i)} (10)

式中：N_k(x_i)表示x_i的k个近邻。

10.一种对奈曼皮尔逊分类器进行训练的方法，其特征在于，首先根据电力系统实际需求调整NP分类器的参数，并设置一类分类错误阈值上限α、违规率δ及训练集循环分裂次数N，然后再将高效样本集作为输入进行NP分类器的训练，其训练过程包括以下步骤：

和样本

结合稳定分类样本S¹用于基本分类器；

(2)

用于分类器计算违章率上限υ_k，并通过计算得到每个样本等级阈值k^*对应的分数阈值

且

结合S¹训练各分类器得分函数f_i，违章率上限υ_k和等级阈值k^*的表达式分别如公式(12)和公式(13)所示；

k^*＝min{k∈(1,...,n):υ(k)≤δ} (13)

(3)将f_i应用于

τ_i、sort(τ_i)和k^*的表达式分别如公式(14)-(16)所示：

τ_i＝{t_i,1,...,t_i,n}＝{f_i(x₁),...，f_i(x_n)} (14)

sort(τ_i)＝{t_i,(1),...,t_i,(n)} (15)

(4)基于得分函数和阈值如公式(17)所示构造NP分类器：

最后通过对比分类结果的一类分类错误率(Error I)、准确率(AC)、精确率(PR)与安全类样本召回率(RE)的调和平均值F₁指标来评判各个分类器的性能，并选择三种性能较为优良的分类器来构造DSA模型，对于三种分类器结果采用多数投票的形式获得DSA模型的最终结果，以此得到一个高精度的集成DSA模型，其中Error I、AC、PR、RE和F₁的计算公式分别如公式(19)-(23)所示：