CN111582370A

CN111582370A - 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法

Info

Publication number: CN111582370A
Application number: CN202010383928.8A
Authority: CN
Inventors: 杨杰; 王东; 张显; 杨泮; 刘福禄; 庞正刚; 胡昌荣
Original assignee: Chongqing Industry & Trade Polytechnic
Current assignee: Chongqing Industry & Trade Polytechnic
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-25
Anticipated expiration: 2040-05-08
Also published as: CN111582370B

Abstract

本发明公开了一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法。步骤如下：A数据收集与清洗，获取脑转移瘤患者临床病例数据，过滤预后指标相关信息；选取相关预后指标作为条件属性，选取每个病例对应的肿瘤良恶性作为决策属性形成决策表；B根据A中约简形成的决策表，采用动态群优化算法搜索决策空间中，条件属性数量最少，条件属性相对于标签类别依赖度最大，条件属性间相关度最小的约简属性集合；C将步骤B中约简的脑转移瘤预后指标集合进行分类。本发明在获得的脑转移瘤临床数据的基础上，无需通过人工约简筛选诊断，直接通过算法约简和分类，以获得和约简前同样甚至高于约简前的分类精度。

Description

一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法

技术领域

本发明涉及生物信息学分析技术领域，尤其是涉及一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法。

背景技术

现有技术条件下，预后指标通常用于脑转移放疗，以指导患者决策和临床试验分析。在临床上，探索脑转移癌症患者的预后指标较为困难且敏感性较差。利用生物信息学方法解决临床问题是人工智能领域的一项重要应用。

作为粗糙集的一个重要的泛化模型，模糊粗糙集可以直接处理实值数据，避免数据离散化导致的信息丢失问题，从而更为客观的反映数据本质特征，模糊粗糙集已经有效地应用在了大数据分析、知识依赖性发现、属性子集选择、决策规则发现、分类分析等领域，具有重要的理论研究意义和实际应用价值。

近年来，SRS治疗脑转移在临床实践中变得越来越广泛。它不仅对癌转移性病变有效，而且对多发转移性病变也有效，目前关于最佳预后指标的选择任务繁重且尚在探索阶段，对于NSSLC脑转移的SRS治疗，选择最佳预后指标来预测预后具有重要意义，因此，如何对预后指标进行有效约简以降低分类时所耗的人力、财力成为生物信息学的一个重要的研究方向。

发明内容

为了解决上述问题，本发明提供一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法，以降低预后指标进行有效约简的成本，并提高患者肿瘤良恶性的分类精度。

本发明为了实现上述目的具体采用以下技术方案：

一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法，包括如下步骤：

A.数据收集与清洗：对脑转移癌患者病例数据进行过滤，提取预后指标，预后指标作为条件属性，每个病例对应的肿瘤良恶性作为决策属性形成决策表；

B.约简：根据步骤A中约简形成的决策表，采用动态群优化算法搜索决策空间中条件属性数量最少、条件属性相对于标签类别依赖度最小的约简集合；

C.分类：将步骤B中约简集合对应的属性集采用宽度学习方法进行分类。

更进一步地，所述步骤A中提取的预后指标为年龄、原发肿瘤控制、颅外转移、KPS评分、病变数、最大病变体积、是否化疗。

更进一步地，所述步骤A中在建立决策表前，先对预后指标进行归一化预处理，归一化特征向量的计算方法如下式：

其中，M是属性向量的维数，N为患者病例数据的数量，x_i,j是第i个患者病例数据中的第j个属性元素。

更进一步地，所述步骤B中在约简前需先录入动态群初始化粒子、群首粒子、组数量、种群变异率、停止准则、属性间相关度和属性与类别间依赖度构成的双目标函数，其中，初始化的约简集为空集，样本为整个论域，迭代优化计算满足双目标函数值的Pareto分布解集，即可获取Pareto最优前沿解集对应的约简属性集合。

更进一步地，所述步骤B中需对动态群粒子进行二进制编码，具体编码策略如下：X_i＝[x_i1,x_i2,…,x_in]；

其中，i为第i个粒子，X_i为[0,1]之间的实数，n为粒子的维数，为第i个粒子在第n维上的值；

对x_in进行二值化处理，当x_in<0.5时，取x_in＝0，当x_in>＝0.5时，取x_in＝1。

更进一步地，所述的动态群优化初始化粒子数为30，群首粒子初始化为第1个，组数量为6，种群变异率为0.2，迭代最大次数为100。

更进一步地，所述属性间相关度和属性与类别间依赖度构成的双目标函数，是通过如下结果来判断的：属性间相关度越接近于0，则表示属性间相关度越小，属性与类别件依赖度越接近于1，则表示属性与类别件依赖度越大，粗糙集计算依赖度下限为0.001。

本发明的有益效果如下：

1.本发明提供的方法是根据脑转移癌患者预后指标直接对其进行属性约简和分类研究，能够缩小预后指标维度且保持分类精度不变，具有方便、高效等特点；

2.利用约简后所得属性对患者脑转移癌肿瘤阳恶性进行分类，去掉了冗余属性，避免了临床的大量实验，有效提高了分类精度、减少了分类耗时；

3.处理过程中，属性与类标签之间的依赖度最大，而属性之间的相关度最小，构建双目标优化函数，充分挖掘属性信息，通过动态群优化算法作为多目标优化器，获得的Pareto前沿分布即代表着双目标的最优属性约简解集。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是预后指标约简及分类流程示意图；

图2是Pareto最优前沿分布示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连通”应做广义理解，例如，可以是固定连通，也可以是可拆卸连通，或一体地连通；可以是机械连通，也可以是电连通；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例

本实施提供一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法，包括如下步骤：

以下结合具体情况来对本实施例的方法进行进一步说明：

A、以700名脑转移癌患者为样本，对患者信息进行过滤，收集研究对象病例信息中的年龄、原发肿瘤控制、颅外转移、KPS评分、病变数、最大病变体积、是否化疗等预后指标作为条件属性，选取每个病例对应的肿瘤阴阳性作为决策属性，从而构成决策表，决策表中的条件属性共计700行*56列。病例特征和统计情况见下表1：

表1病例特征和统计情况

特征向量的构成通过归一化处理：

其中，M＝7是属性向量的维数，N＝700为患者病例数据的数量，f(x_i,j)是第i个患者病例数据中的第j个属性元素，x_max，j表示患者病例数据中的第j个属性的最大值，x_min,j表示患者病例数据中的第j个属性的最小值。归一化的目的是将属性向量中的值全部线性归一化到[0,1]区间上，使得特征向量具有相同的量纲。

B、请参见图1所示，利用基于动态群优化算法的模糊粗糙集方法进行属性约简：特征向量建立好之后，针对生成的决策表，通过动态群优化算法的模糊粗糙集方法对决策表中的属性信息进行约简，动态群优化算法是随机搜索算法，能同时兼顾搜索空间中的局部最优和全局最优，搜索得到Pareto最优前沿分布，获得重要属性特征解集，动态群优化算法具体步骤如下:

a.动态群粒子二进制编码：对每个粒子每一维度的解都对应“0”或者“1”，用来表示为使用或者不使用决策表中的相对应维数的属性。通过这一思想的变换，“0”和“1”的数值被赋予了实际意义，实现了将动态群优化算法与属性约简算法的结合。

动态群优化算法粒子编码策略：X_i＝[x_i1,x_i2,…,x_in]；

其中i为第i个粒子，X_i为[0,1]之间的实数，n为粒子的维数，x_in表示第i个粒子在第n维上的值，并对x_in进行二值化处理，处理时，若x_in<0.5，则取x_in＝0，若x_in>＝0.5，则取x_in＝1，x_in＝0即表示不选择该编号对应的属性，x_in＝1即表示选择该编号对应的属性为动态群优化算法中群内粒子参数设置。

b.动态群优化初始化参数设置粒子数为30，群首粒子初始化为第1个，组数量为6，种群变异率为0.2，设定循环条件，迭代次数为30-100次，同时适应度函数值满足Pareto最优前沿分布要求。如图2所示，图中的点即粒子对应的适应度函数值，在双目标函数解集分布中，每个解集同时具有目标函数f₁(属性依赖度)和目标函数f₂(属性相关度)的特征，当粒子在解集空间中满足Pareto最优前沿分布时(定义6)，即适应度函数值满足Pareto最优前沿分布要求。

c.属性依赖度下限：属性间相关度和属性与类别间依赖度构成的双目标函数，是通过属性间相关度越小(接近于0)，属性与类别间依赖度越大(接近于1)来判断的，粗糙集计算依赖度下限选取接近于0的正数作为依赖度下限，本实施例中选择为0.001。

d.通过Lévy分行更新迭代种群适应度值。

e.判断是否满足停止准则；若不满足停止准则，更新当前归档集合，重复d步骤；若满足停止准则，则进入f。停止准则为b中设定的循环条件，即当迭代次数为30-100次、适应度函数值满足Pareto最优前沿分布要求时，为满足停止准则，进入f。

f.获得具有Pareto最优前沿分布的约简属性解集Red。

C、将步骤B中约简集合对应的属性集采用宽度学习方法进行分类，其中约简后的脑转移瘤预后指标属性是低维、重要度排序的集合，本发明采用宽度学习分类方法，对这些约简后的预后指标进行分类，从而获得更好更准确的分类。且本发明的分类方法是基于Matlab实现的，本发明中通过Matlab中构建的宽度学习分类方法首先在训练数据集上训练出分类模型，然后使用该模型对校验数据进行预测数据进行预测。

在本实施例中，经过约简实验和分类实验发现，约简后剩余属性为4个，共计约简掉56-4＝52维，使用宽度学习进行分类(重复30次实验)，约简后平均准确率为89.5％，约简前的分类平均准确率为81.3％，说明在进行属性约简的同时也有效地提高了分类准确率。

其中，本发明中具有如下定义：

定义1：模糊粗糙集

在模糊决策表FD＝(U,R^UD)中，a(x)表示属性a上的x∈U的值，

表示属性子集上的x∈U的属性子集。对于每一个

将一个称为P的模糊相似关系的二元关系联系起来，这是一个满足反射性P(x,x)＝1的二元关系，对称性P(x,y)＝P(y,x)，对于每个x,y,z∈U满足T传递性P(x,y)>T(P(x,z),P(z,y))。实际上，当属性值是符号时，模糊相似关系退化为等价关系，它在U上深层一个分区，用U/P＝{[x]_P|x∈U}表示，其中

是包含x∈U的等价类。

令U是一个非空集，R是U上的模糊等价关系。给定模糊集F∈F(U)，F的上、下近似值定义为：

下近似表示样本属于一个类的确定性，上近似表示样本属于一个类的可能性。使用其他模糊算子推广该模型。

其中，R_S F(x)和R_θ F(x)是样本隶属度X∈U，同时属于决策类F(x)的确定性；

和

表示样本X隶属度X∈U和属于决策类F(U)的可能性。X∈U到模糊正区域由下式给出：

通过模糊正区域的定义，可以使用以下公式计算模糊依赖函数：

如果γ_B(D)＝0，则决策特征集D是独立于条件特征B的集合，如果γ_B(D)＝1，则决策特征集D完全取决于条件特征B的集合，如果0<γ_B(D)<1，则该集合决策特征D部分取决于条件特征B的集合。

定义2：属性间相关度

属性X和Y高度相关，则X传达的大多数信息与Y共享，单独选择的X或Y可能足以描述信息。

熵是对随机变量不确定性的度量。如果离散随机变量X的值属于域Vx，并且概率密度函数为p(x)＝P(X＝x)x∈V，则X的熵定义如下：

如果X和Y是两个具有联合概率密度函数p(x，y)的离散随机变量，则定义X和Y的联合熵。当X已知时，条件熵定义如下：

可以用来测量两个变量X和Y之间的相关性的互信息定义如下：

如果X和Y的相互信息大(小)，则意味着X和Y紧密(不紧密)相关。如果I(X,Y)＝0，则X和Y完全无关或X和Y独立。对于连续随机变量，微分熵和互信息定义如下：

对于连续随机变量，微分熵和互信息定义如下:

定义3:双目标函数

双目标函数分别如定义1和定义2中所述:

f₁＝γ_B(D),f₂＝I(X,Y)

定义4:动态群优化算法

动态群优化算法具有群内通信和社会间的通信以及动物活动模拟的特点。主要包含组内合作、组间交流和组变异三部分。每个可能的搜索路径包含两部分：组员和簇头，并通过随机初始化。组内合作的更新如下公式进行:

其中，

为第i组中第j个成员的第k维向量，

为第i个蔟头第k维向量，G为迭代的次数，b为当前搜索最优值，rand是随机数发生器，范围[0,1]，μ服从均值0、标准差1的正态分，r1和r2是随机选择的两个不同个体的索引，Mr1和Mr2是[0,1]之间的两个值，由用户设置以控制两个部分的突变概率。

定义5:组间交流Lévy飞行更新

组间交流更新使用Lévy飞行模式，如下式：

表示逐项乘法，

and

表示k+1和k代中的第i个组，Lévy(λ)是一个随机数，服从Lévy分布。α₀表示比例因子，b是全局最优解，概率函数的指数形式为Lévy～μ＝t^-λ,(1<λ≤3)，Mantegna R[25]提出的Lévy搜索方程为:

其中λ＝1+β,β∈(0，2].在动态群优化更新算法中,β＝1.5设为常数，s由μ和v决定，μ和v为服从从正态分布得出的两个变量，平均值为0，标准偏差为1。

定义6最优Pareto前沿

如图2所示为解集在二维目标函数空间中一种Pareto前沿，由A至F点的粗线表示f₁、f₂两个目标函数下的最优Pareto前沿。图中实心点A至点F均位于最优边界前沿上，称为最优解，即非支配解；空心G至点L则不是最优解，是被支配的。目标函数个数为2格式，优化后Pareto解集分布为一条曲线。

试验例

利用传统方法对脑转移瘤预后指标约简及分类，传统方法中脑肿瘤独立递归分级(recursive partitioning analysis，RPA)、放射治疗分级(Score Index forRadiosurgery，SIR)、脑转移瘤基本分级(Basic Score for Brain Metastases，BSBM)和分级预后评估(Graded Prognostic Assessment，GPA)的具体内容如下：

根据上述预后评分系统，结合病例数据属性特征，采用SPSS 21.0统计分析软件进行分析和评价。首先，将评分系统分级的病例数据导入SPSS软件中，然后，通过受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)模块绘制ROC曲线图。最后，根据ROC曲线图，得到敏感性、特异性和准确率等评估指标值。将计算结果与本发明提供的方法得到的计算结果进行对比，其具体对比情况如下表2所示：

表2本发明的方法与传统统计方法的预测性能比较(a：卡方检验)

其中,卡方检验的P值大小表示拒绝原假设的可能性的大小。

由上表可可以明显看出，采用本发明的方法后，预测性能获得了明显的提升，且对临床病例数据进行了约简,提取出了关键的预后指标信息属性,避免了临床大量的实验，提高了分类的准确率，减少了分类耗时。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，本发明的专利保护范围以权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，包括如下步骤：

B.约简：根据步骤A中约简形成的决策表，采用动态群优化算法搜索决策空间中条件属性数量最少、条件属性相对于标签类别依赖度最大，条件属性间相关度最小的约简集合；

2.根据权利要求1所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述步骤A中提取的预后指标为年龄、原发肿瘤控制、颅外转移、KPS评分、病变数、最大病变体积、是否化疗。

3.根据权利要求1所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述步骤A中在建立决策表前，先对预后指标进行归一化预处理，归一化特征向量的计算方法如下式：

4.根据权利要求1所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述步骤B中在约简前需先录入动态群初始化粒子、群首粒子、组数量、种群变异率、停止准则、属性间相关度和属性与类别间依赖度构成的双目标函数，其中，初始化的约简集为空集，样本为整个论域，迭代优化计算满足双目标函数值最小的Pareto分布解集，即可获取Pareto最优前沿解集对应的约简属性集合。

5.根据权利要求4所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述步骤B中需对动态群粒子进行二进制编码，具体编码策略如下：

X_i＝[x_i1,x_i2,…,x_in]

其中i为第i个粒子，X_i为[0,1]之间的实数，n为粒子的维数,x_in表示第i个粒子在第n维上的值；并对x_in进行二值化处理，当x_in<0.5时，x_in＝0，当x_in>＝0.5时，x_in＝1。

6.根据权利要求4所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述的动态群优化初始化粒子数为30，群首粒子初始化为第1个，组数量为6，种群变异率为0.2，迭代最大次数为100。

7.根据权利要求4所述的基于粗糙集优化的脑转移瘤预后指标约简及分类方法，其特征在于，所述属性间相关度和属性与类别间依赖度构成的双目标函数，是通过如下结果来判断的：属性间相关度越接近于0，则表示属性间相关度越小，属性与类别件依赖度越接近于1，则表示属性与类别件依赖度越大，粗糙集计算依赖度下限为0.001。