CN107239660A

CN107239660A - 基于混合整数线性规划的粗糙集模型建立方法和装置

Info

Publication number: CN107239660A
Application number: CN201710407532.0A
Authority: CN
Inventors: 常文兵; 雷景淞; 高春雨; 周晟瀚
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2017-10-10
Anticipated expiration: 2037-06-02
Also published as: CN107239660B

Abstract

本发明提供了一种基于混合整数线性规划的粗糙集模型建立方法和装置，该方法包括：获取原始数据；根据所述原始数据的条件属性和决策属性，确定计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数和性能参数的约束条件，得到基于混合整数线性规划的粗糙集模型，所述目标函数至少包含表征模型条件属性及决策属性的性能参数，所述原始数据用于指示该模型中所述性能参数的取值。本发明还公开相应的基于混合整数线性规划的粗糙集模型建立装置。

Description

基于混合整数线性规划的粗糙集模型建立方法和装置

技术领域

本发明涉及计算技术领域，具体而言，涉及一种基于混合整数线性规划的粗糙集模型建立方法和装置。

背景技术

粗糙集理论是一门关于不确定性的学科，粗糙集理论的核心思想是通过将给定的有限集合表示为上近似集合和下近似集合，并以此来进行对不精确数据的推理，或者发现数据间的关系。粗糙集有一很明显的缺点，对噪声数据很敏感。在实际应用中，对于包含噪声数据的数据集，基于粗糙集的决策模型的精度会比较低。

发明内容

有鉴于此，本发明的目的在于提供一种基于混合整数线性规划的粗糙集模型建立方法和设备，以力图解决或者至少缓解上面存在的问题。

第一方面，本发明的实施例提供一种基于混合整数线性规划的粗糙集模型建立方法，包括：

获取原始数据；

根据所述原始数据的条件属性和决策属性，确定计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数和性能参数的约束条件，得到基于混合整数线性规划的粗糙集模型，所述目标函数至少包含表征模型条件属性及决策属性的性能参数，所述原始数据用于指示该模型中所述性能参数的取值。

可选地，所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

可选地，所述确定所述性能参数的约束条件，包括：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；

确定表征模型条件属性和决策属性的性能参数所满足的平衡条件。

可选地，所述确定表征模型条件属性的性能参数所满足的平衡条件，包括：

M*ss_ijc≥α_c-|Xc_i-Xc_j|,i∈I,j∈I,c∈C

M*(1-ss_ijc)≥|Xc_i-Xc_j|-α_c,i∈I,j∈I,c∈C

ω_c_ij≤ss_ijc+(1-sl_c),i∈I,j∈I,c∈C

ss_ijc≥1-sl_c,i∈I,j∈I,c∈C

其中，i、j分别为属于同一条件属性c的论域中两样本，i、j为自然数；

Xc_i为i样本在条件属性c下的取值；

Xc_j为j样本在条件属性c下的取值；

C为条件属性集；

c为条件属性集中的任意一个属性；

M为任意大数；

α_c为条件属性集的相似度阈值；

ss_ijc的取值为0或1，对于论域I中的任意两个样本点i和j，以及条件属性集中的任意属性c，若ss_ijc＝1，则样本点i和j在属性c上的取值满足对应的相似度阈值α_c，否则为0；

ω_c_ij取值为0或1，对于论域I中任意两个样本点i和j，若ω_c_ij＝1，则i和j可以在同一个由条件属性划分的近似等价类中，反之，i和j无法被划分到同一个条件属性划分的近似等价类中；

sl_c取值为0或1，对于条件属性集中的条件属性c，若sl_c＝1，则该属性c被选择为新的条件属性集参与对论域的划分，否则该条件属性c选择与否对决策规则的建立影响很小，从条件属性集中被剔除。

可选地，所述确定表征模型决策属性的性能参数所满足的平衡条件，包括：

M*ss′_ijd≥α_d-|Xd_i-Xd_j|,i∈I,j∈I,d∈D

M*(1-ss′_ijd)≥|Xd_i-Xd_j|-α_d,i∈I,j∈I,d∈D

ss′_ijd≥1-sl′_d,i∈I,j∈I,d∈D

其中，D为决策属性集；

d为决策属性集中的任意一个属性；

α_d为决策属性集的相似度阈值；

i、j分别为属于同一决策属性d的论域中两样本，i、j为自然数；

Xd_i为i样本在决策属性c下的取值；

Xd_j为j样本在决策属性c下的取值；

ss′_ijd取值为0或1，对于论域I中的任意两个样本点i和j，以及决策属性集中的任意属性d，若ss′_ijd＝1，则样本点i和j在属性d上的取值满足对应的相似度阈值α_d；

ω_d_ij取值为0或1，对于论域I中任意两个样本点i和j，若ω_d_ij＝1，则i和j可以在同一个由决策属性集划分的近似等价类中，反之，i和j无法被划分到同一个决策属性集的近似等价类中；

sl′_d取值为0或1，对于决策属性集中的决策属性d，若sl′_d＝1，则该决策属性d被选择为新的决策属性集并参与对论域的划分，否则决策属性d选择与否对决策规则的建立影响很小，从决策属性集中被剔除。

可选地，在所述获取原始数据之后，还包括：

对原始数据进行缺失值处理和降维处理。

可选地，还包括：

根据所述原始数据及所述约束条件计算所述目标函数，得到原始数据中既为条件属性近似等价类又为决策属性近似等价类的目标近似等价类中的样本数目；

基于所述样本数目和原始数据，计算该基于混合整数线性规划的粗糙集模型的决策精度，所述决策精度用于评价该模型的决策结果。

第二方面，本发明的实施例提供一种模型建立装置，包括：

获取单元，用于获取原始数据；

第一计算单元，用于根据所述原始数据的条件属性和决策属性，确定计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数和性能参数的约束条件，得到基于混合整数线性规划的粗糙集模型，所述目标函数至少包含表征模型条件属性及决策属性的性能参数，所述原始数据用于指示该模型中所述性能参数的取值。

可选地，所述第一计算单元所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数，至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

可选地，所述第一计算单元还用于：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；

可选地，还包括：处理单元，所述处理单元用于：

对原始数据进行缺失值处理和降维处理。

可选地，还包括：第二计算单元，所述第二计算单元用于：

根据本发明的技术方案，可以剔除各个属性集中对决策精度影响较小的属性，自动完成属性筛选过程，实现了属性集对原始的划分，具有很强的可扩展性，可以根据具体的研究对象，选择属性集对论域的具体划分依据和方法，以适应多种数据类型的数据组成的数据集。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于混合整数线性规划的粗糙集模型的建立方法的流程图；

图2为本发明实施例提供的一种基于混合整数线性规划的粗糙集模型的建立装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为根据本发明实施例提供的一种模型建立方法的流程示意图。如图1所示，该方法始于步骤S110。

在步骤S110中，获取原始数据。

可选地，在所述获取原始数据之后，还包括：

对原始数据进行缺失值处理和降维处理。

其中，原始数据的结合称为论域I，缺失值处理算法可以是但不限于多重替代缺失值、直接删除包含缺失值的样本、最大似然估计法、均值代替缺失值等，降维处理算法可以是但不限于主成分分析法等，本发明对此不予限制。由于原始数据相互之间可能存在很强的相关性，通过降维处理以在原始数据的基础上对数据集进行简化。

对于高维度的数据集，首先需要进行降维处理，但是降维处理后的数据集只能在一定程度上代表原始数据集，降维过程的实现实际上是以牺牲部分原始数据集中所蕴含的信息为代价的，而本发明只需要根据数据质量分析进行简单的预处理过程就可以作为该模型的输入数据，最大程度上保留了原始数据集中所包含的全部信息。

在步骤S120中，根据所述原始数据的条件属性和决策属性，确定计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数和性能参数的约束条件，得到基于混合整数线性规划(MILP)的粗糙集模型，所述目标函数至少包含表征模型条件属性及决策属性的性能参数，所述原始数据用于指示该模型中所述性能参数的取值。

可选地，所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的各个性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的各个性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

可选地，所述确定所述性能参数的约束条件，包括：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；

M*ss_ijc≥α_c-|Xc_i-Xc_j|,i∈I,j∈I,c∈C

M*(1-ss_ijc)≥|Xc_i-Xc_j|-α_c,i∈I,j∈I,c∈C

ω_c_ij≤ss_ijc+(1-sl_c),i∈I,j∈I,c∈C

ss_ijc≥1-sl_c,i∈I,j∈I,c∈C

Xc_i为i样本在条件属性c下的取值；

Xc_j为j样本在条件属性c下的取值；

C为条件属性集；

c为条件属性集中的任意一个属性；

M为任意大数；

α_c为条件属性集的相似度阈值；

M*ss′_ijd≥α_d-|Xd_i-Xd_j|,i∈I,j∈I,d∈D

M*(1-ss′_ijd)≥|Xd_i-Xd_j|-α_d,i∈I,j∈I,d∈D

ss_i′_jd≥1-sl′_d,i∈I,j∈I,d∈D

其中，D为决策属性集；

d为决策属性集中的任意一个属性；

α_d为决策属性集的相似度阈值；

Xd_i为i样本在决策属性c下的取值；

Xd_j为j样本在决策属性c下的取值；

其中，条件属性和决策属性一般为根据原始数据的特征进行划分，本发明对此不予限制。在本发明实施例中，计算计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数，如下：

其中，C为条件属性集；

c为条件属性集中的任意一个属性；

D为决策属性集；

d为决策属性集中的任意一个属性；

k_c为根据条件属性集对论域进行划分的近似等价类的集合；

k为k_c中近似等价类的标号，k为自然数；

Y_k为k_c中的第k个近似等价类k是k_d中第k′个近似等价类的下近似集时，该下近似集k中样本的数目；

k_d为根据决策属性集对论域进行划分的近似等价类的集合。

其中，条件属性集合中包括多个条件属性，决策属性集合中包括多个决策属性。在实际应用中，可根据属性的名称为属性编号。

确定所述性能参数的约束条件，如下：

若属于同一条件属性集c的论域中两样本点之间的距离小于该属性对应的相似度阈值α_c，则变量ss_ijc＝1；反之，ss_ijc＝0；建立约束条件如下：

M*ss_ijc≥α_c-|Xc_i-Xc_j|,i∈I,j∈I,c∈C (1)

M*(1-ss_ijc)≥|Xc_i-Xc_j|-α_c,i∈I,j∈I,c∈C (2)

Xc_i为i样本在条件属性c下的取值；

Xc_j为j样本在条件属性c下的取值；

C为条件属性集；

c为条件属性集中的任意一个属性；

M为任意大数；

α_c为条件属性集的相似度阈值；

若选择条件属性c，即sl_c＝1，则该属性被选入条件属性集并参与对论域的划分，建立约束条件(3)；否则，sl_c＝0，即条件属性c对论域的划分没有影响，认为在剔除属性上两样本之间总是存在不可分辨关系，建立约束条件(4)；

ω_c_ij≤ss_ijc+(1-sl_c),i∈I,j∈I,c∈C (3)

ss_ijc≥1-sl_c,i∈I,j∈I,c∈C (4)

其中，ω_c_ij取值为0或1，对于论域I中任意两个样本点i和j，若ω_c_ij＝1，则i和j可以在同一个由条件属性划分的近似等价类中，反之，i和 j无法被划分到同一个条件属性划分的近似等价类中；

论域中任意两个样本点可以划分到一个近似等价类中的必要条件为ω_c_ij＝1成立，即，任意两个样本点在条件属性集的每个属性上都满足对应的相似度阈值，建立约束条件(5)如下：

若决策属性d上两样本点之间的距离小于该属性对应的相似度阈值α_d，则变量ss′_ijd＝1；反之，ss′_ijd＝0；建立约束条件(6)、(7)如下：

M*ss′_ijd≥α_d-|Xd_i-Xd_j|,i∈I,j∈I,d∈D (6)

M*(1-ss′_ijd)≥|Xd_i-Xd_j|-α_d,i∈I,j∈I,d∈D (7)

其中，D为决策属性集；

d为决策属性集中的任意一个属性；

α_d为决策属性集的相似度阈值；

Xd_i为i样本在决策属性c下的取值；

Xd_j为j样本在决策属性c下的取值；

ss′_ijd取值为0或1，对于论域I中的任意两个样本点i和j，以及决策属性集中的任意属性d，若ss′_ijd＝1，则样本点i和j在属性d上的取值满足对应的相似度阈值α_d。

若选择决策属性d，即sl′_d＝1，则该决策属性d被选入决策属性集并参与对论域的划分，建立约束条件(8)；否则，sl′_d＝0，即决策属性d 对论域的划分没有影响，认为在剔除属性上两样本之间总是存在不可分辨关系，建立约束条件(9)；

ω_d_ij≤ss′_ijd+(1-sl′_d),i∈I,j∈I,d∈D (8)

ss′_ijd≥1-sl′_d,i∈I,j∈I,d∈D (9)

其中，ω_d_ij取值为0或1，对于论域I中任意两个样本点i和j，若ω_d_ij＝1，则i和j可以在同一个由决策属性集划分的近似等价类中，反之， i和j无法被划分到同一个决策属性集的近似等价类中；

sl′_d取值为0或1，对于决策属性集中的决策属性d，若sl′_d＝1，则该决策属性d被选择为新的决策属性集并参与对论域的划分，否则决策属性d 选择与否对决策规则的建立影响很小，从决策属性集中被剔除；

论域中任意两个样本点可以划分到一个近似等价类中的必要条件为ω_d_ij＝1成立，即，任意两个样本点在整个决策属性集的每个决策属性上都满足对应的相似度阈值，建立约束条件(10)如下：

为条件属性集的样本分配过程设定初始值，也就是要将指定样本分配到一个条件属性对论域划分后的一个近似等价类中，由变量q_ik的定义可知：i＝1代表论域中编号为1的样本，k＝1代表集合k_c中编号为1的近似等价类，具体做法就是将编号为1的样本划分给编号为1的近似等价类；建立约束条件(11)如下：

q₁₁＝1 (11)

其中，q_ik取值为0或1，对于论域I中的任意样本点i和由条件属性集对论域进行划分得到的近似等价类集合k_c中的任意一个近似等价类k，若 q_ik＝1，则样本点i在近似等价类k中，反之，样本点i不属于近似等价类k。

每个样本属于并且仅属于一个近似等价类，但并不是每一个预先设定的近似等价类中都存在样本，因为在未知具体划分近似等价类的个数的前提下，预先设定的近似等价类集合中近似等价类的个数可能是过剩的，如果预先设定的近似等价类集合中近似等价类的个数少于实际划分的近似等价类个数，那么该模型将会不可解。建立约束条件(12)如下：

论域中的两个样本点i和j同时被分配到一个近似等价类中的前提条件是这两个样本点必须属于同一个近似等价类，当且仅当ω_c_ij＝1时，q_ik和 q_jk才可能同时取1；建立约束条件(13)如下：

其中，q_jk取值为0或1，对于论域I中的任意样本点j和由条件属性集对论域进行划分得到的近似等价类集合k_c中的任意一个近似等价类k，若 q_jk＝1，则样本j在近似等价类k中，反之，样本点j不属于近似等价类k。

变量Q_k的设定是为了统计由条件属性集对论域进行划分得到的各个近似等价类中被分配的样本点的个数；建立约束条件(14)如下：

其中，Q_k为由条件属性集对论域进行划分得到的近似等价类k中的样本的数目；

为决策属性集的样本分配过程设定初始值，也就是要将指定样本点分配到一个决策属性集对论域划分后的一个近似等价类中，由变量q′_ik′的定义可知：i＝1代表论域中编号为1的样本，k′＝1代表集合k_d中编号为1的近似等价类，具体做法就是将编号为1的样本划分给编号为1的近似等价类；建立约束条件(15)如下：

q′₁₁＝1 (15)

其中，q′_ik′取值为0或1，对于论域I中的任意样本点i和由决策属性集对论域进行划分得到的近似等价类集合k_d中的任意一个近似等价类k′，若 q′_ik′＝1，则样本i在近似等价类k′中，反之，样本点i不属于近似等价类k′。

每个样本属于并且仅属于一个近似等价类，但并不是每一个预先设定的近似等价类中都存在样本点，因为在未知具体划分近似等价类的个数的前提下，预先设定的近似等价类集合中近似等价类的个数可能是过剩的，如果预先设定的近似等价类集合中近似等价类的个数少于实际划分的近似等价类个数，那么该模型将会不可解；建立约束条件(16)如下：

论域中的两个样本点i和j同时被分配到一个近似等价类中的前提条件是这两个样本点必须可以属于同一个近似等价类，当且仅当时，q′_ik′和q′_jk′才可能同时取1；建立约束条件(17)如下：

其中，q′_jk′取值为0或1，对于论域I中的任意样本点j和由决策属性集对论域进行划分得到的近似等价类集合k_d中的任意一个近似等价类k′，若q′_jk′＝1，则样本j在近似等价类k′中，反之，样本点j不属于近似等价类k′。

每个样本属于并且仅属于一个近似等价类，但并不是每一个预先设定的近似等价类中都存在样本点，因为在未知具体划分近似等价类的个数的前提下，预先设定的近似等价类集合中近似等价类的个数可能是过剩的，如果预先设定的近似等价类集合中近似等价类的个数少于实际划分的近似等价类个数，那么该模型将会不可解；建立约束条件(18)如下：

其中，Q′_k′为由决策属性集对论域进行划分得到的近似等价类k′中的样本的数目。

根据经典粗糙集中下近似集的定义，选择了既属于条件属性集划分论域得到的近似等价类k又属于决策属性集划分论域得到的近似等价类k′的样本点；建立约束条件(19)如下：

2*e_ikk′≤q_ik+q′_ik′,i∈I,k∈k_c,k′∈k_d (19)

其中，e_ikk′取值为0或1，对于论域I中的任意样本点i和条件属性集的近似等价类k以及决策属性集的近似等价类k′，若e_ikk′＝1，则样本i既属于条件属性集的近似等价类k又属于决策属性集的近似等价类k′。

统计既属于近似等价类k又属于近似等价类k′的样本点的个数；建立约束条件(20)如下：

其中，E_kk′为论域I中既属于条件属性集的近似等价类k又属于决策属性集的近似等价类k′的样本数目。

根据粗糙集中支持度的概念，在模型中设定的下近似集需要满足样本点的最小支持数，建立约束条件(21)和(23)，其中变量f_k标记了对应的近似等价类中的样本点个数是否满足最小支持数，即如果Q_k＜N，则f_k必为0；基于MILP的粗糙集模型引入了可变精度作为提升模型对数据集中噪声信息抵抗能力的辅助方法，建立约束条件(22)根据公式(7)实现带可变精度的粗糙集对下近似集的定义过程；

N*f_k≤N+(Q_k-N) (21)

card(I)*L_kk′≤card(I)+(E_kk′-Q_k*β),k∈k_c,k′∈k_d (22)

L_kk′≤f_k,k∈k_c,k′∈k_d (23)

其中，N为条件属性集的最小支持数，即正整数；

β为可变精度，即常数，0<β<1；

f_k取值为0或1，若f_k＝1，则条件属性集的近似等价类k中的样本个数满足最小支持度数N，近似等价类k可以成为下近似集，反之，近似等价类k不满足成为下近似集的条件；

L_kk′取值为0或1，若L_kk′＝1，则k_c中的近似等价类k是k_d中的近似等价类k′的下近似集。

最后，对模型的下近似集中的样本点个数进行统计，如果一个由条件属性集对论域进行划分得到的近似等价类不是任何一个由决策属性集对论域进行划分得到的近似等价类的下近似集则该近似等价类不为确定区域，其确定区域中样本个数计为0，反之若为下近似集则为确定区域，对应确定区域中样本个数即为该下近似集中样本点的个数；建立约束条件(24)和 (25)如下：

Y_k≤Q_k,k∈k_c (24)

可选地，还包括：

优选地，根据所述原始数据及所述约束条件计算所述目标函数，得到原始数据中既为条件属性近似等价类又为决策属性近似等价类的目标近似等价类中的样本数目的最大值

在一个实施例中，通过模型求解，会得到最优的目标函数值。同时，也会得到相应的Q_k，实现属性的筛选过程；得到E矩阵，确定既在近似等价类k又在等价类k′中的个数；根据以下公式计算该决策系统的决策精度：

其中，λ为决策精度，0<λ＜1。

λ越大说明通过该模型得到的决策结果的精度越高，否则决策结果的精度越低。

另外，应当注意，在本发明中同一字母、字符、参数等表示的含义相同，不再一一解释。

本发明建立的基于MILP的粗糙集模型可用于对柴油机进行评价，原始数据包含了31台国产某型号六缸柴油机的34个装配间隙参数数据和整机质量等级数据，其中，装配间隙参数可作为条件属性，整机质量等级可作为决策属性。通过该模型可得到条件属性集和决策属性集之间存在部分依赖关系：

{柴油机的装配间隙参数}→λ{柴油机的整机质量等级}

对柴油机进行评价时，条件属性与决策属性的依赖度越高，即装配间隙参数与整机质量等级的依赖程度，该模型的决策结果更精确。

图2为本发明实施例提供的一种基于混合整数线性规划的粗糙集模型的建立装置的结构图。该装置包括：获取单元210、第一计算单元220、处理单元230、第二计算单元240。

获取单元210用于获取原始数据。

第一计算单元220，用于根据所述原始数据的条件属性和决策属性，确定计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目所需使用的目标函数和性能参数的约束条件，得到基于混合整数线性规划的粗糙集模型，所述目标函数至少包含表征模型条件属性及决策属性的性能参数，所述原始数据用于指示该模型中所述性能参数的取值。

可选地，所述第一计算单元220所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数，至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

可选地，所述第一计算单元220还用于：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；

可选地，处理单元230用于：

对原始数据进行缺失值处理和降维处理。

可选地，第二计算单元240用于：

本发明实施例所提供的一种MILP的粗糙集模型的建立装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于混合整数线性规划的粗糙集模型建立方法，其特征在于，包括：

获取原始数据；

2.如权利要求1所述的方法，其特征在于，所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

3.如权利要求1所述的方法，其特征在于，所述确定所述性能参数的约束条件，包括：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；

4.如权利要求3所述的方法，其特征在于，所述确定表征模型条件属性的性能参数所满足的平衡条件，包括：

M*ss_ijc≥α_c-|Xc_i-Xc_j|,i∈I,j∈I,c∈C

M*(1-ss_ijc)≥|Xc_i-Xc_j|-α_c,i∈I,j∈I,c∈C

ω_c_ij≤ss_ijc+(1-sl_c),i∈I,j∈I,c∈C

ss_ijc≥1-sl_c,i∈I,j∈I,c∈C

Xc_i为i样本在条件属性c下的取值；

Xc_j为j样本在条件属性c下的取值；

C为条件属性集；

c为条件属性集中的任意一个属性；

M为任意大数；

α_c为条件属性集的相似度阈值；

5.如权利要求3所述的方法，其特征在于，所述确定表征模型决策属性的性能参数所满足的平衡条件，包括：

M*ss′_ijd≥α_d-|Xd_i-Xd_j|,i∈I,j∈I,d∈D

M*(1-ss′_ijd)≥|Xd_i-Xd_j|-α_d,i∈I,j∈I,d∈D

<mrow> <msub> <mi>&omega;</mi> <msub> <mi>d</mi> <mi>ij</mi> </msub> </msub> <mo>&le;</mo> <msubsup> <mi>ss</mi> <mi>ijd</mi> <mo>&prime;</mo> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>sl</mi> <mi>d</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>&Element;</mo> <mi>I</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>I</mi> <mo>,</mo> <mi>d</mi> <mo>&Element;</mo> <mi>D</mi> </mrow>

ss′_ijd≥1-sl′_d,i∈I,j∈I,d∈D

其中，D为决策属性集；

d为决策属性集中的任意一个属性；

α_d为决策属性集的相似度阈值；

Xd_i为i样本在决策属性c下的取值；

Xd_j为j样本在决策属性c下的取值；

6.如权利要求1所述的方法，其特征在于，在所述获取原始数据之后，还包括：

对原始数据进行缺失值处理和降维处理。

7.如权利要求1所述的方法，其特征在于，还包括：

8.一种基于混合整数线性规划的粗糙集模型建立装置，其特征在于，包括：

获取单元，用于获取原始数据；

9.如权利要求8所述的装置，其特征在于，所述第一计算单元所述计算原始数据中既属于条件属性近似等价类又属于决策属性近似等价类的目标近似等价类中的样本数目的目标函数，至少基于条件属性近似等价类集合和决策属性近似等价类集合进行计算，其中，所述条件属性近似等价类至少采用表征模型条件属性的性能参数进行计算，所述条件属性近似等价类集合包括至少一个条件属性近似等价类，所述决策属性近似等价类至少采用表征模型决策属性的性能参数进行计算，所述决策属性近似等价类集合包括至少一个决策属性近似等价类。

10.如权利要求8所述的装置，其特征在于，所述第一计算单元还用于：

确定表征模型条件属性的性能参数所满足的平衡条件；

确定表征模型决策属性的性能参数所满足的平衡条件；