CN112885409A

CN112885409A - 一种基于特征选择的结直肠癌蛋白标志物选择系统

Info

Publication number: CN112885409A
Application number: CN202110059973.2A
Authority: CN
Inventors: 李玲; 杨泰; 王霁; 梁楫坤; 黄玉兰; 张海蓉
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-06-01
Anticipated expiration: 2041-01-18
Also published as: CN112885409B

Abstract

本发明属于结直肠癌蛋白标志物选择技术领域，具体涉及一种基于特征选择的结直肠癌蛋白标志物选择系统；其中数据处理模块采集大肠癌蛋白文本数据，并对数据进行处理，特征排序模块采集数据处理模块输出的数据，并按ReliefF法计算每种大肠癌表达蛋白的权重；特征选择模块使用Lasso方法计算每种大肠癌表达蛋白的特征重要性，最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘，获得每种蛋白质的重要性评分，归一化处理得到每种蛋白质的最终重要性评分，将蛋白质的最终重要性评分从大到小进行排序，选择排名靠前的蛋白质作为输出；辅助临床医生对肿瘤生物标志物的鉴定，分析肿瘤组织与正常组织的蛋白质组差异。

Description

一种基于特征选择的结直肠癌蛋白标志物选择系统

技术领域

本发明属于结直肠癌蛋白标志物选择技术领域，具体涉及一种基于特征选择的结直肠癌蛋白标志物选择系统。

背景技术

结直肠癌(CRC)是全世界第三常见的癌症，也是导致癌症相关死亡的第四大原因。到 2030年，结直肠癌的全球健康负担预计将增加60％。虽然如果在局部早期I/II期被诊断为可通过手术切除接近治愈(高达90％)，但晚期远端转移(即IV期)的患者通常被认为是不可治愈的，5年生存率约为10％。因此，寻找肿瘤相关标志物和早期检测方法具有重要意义。

随着蛋白质组学技术在癌症研究领域的应用日益广泛，蛋白质组学的发展使我们能够深入研究肿瘤生物学。迄今为止，蛋白质组学的研究工作主要集中在组织学亚型表征上，以提高对生物学的理解，并确定临床上使用的候选诊断、预测和预后生物标记物。分析肿瘤组织与正常组织的蛋白质组差异，对促进肿瘤生物标志物的鉴定具有重要意义，为肿瘤的检测和靶向治疗提供了新的机会。传统人工很难在众多的蛋白质特征中找出有用信息。因此如何确定潜在的蛋白质特征成为蛋白质组学技术的首要问题，利用特征选择的算法进行蛋白质标志物选择是必然发展趋势。

发明内容

为了克服上述问题，本发明提供一种基于特征选择的结直肠癌蛋白标志物选择系统，对大肠癌蛋白数据进行分析，辅助临床医生对肿瘤生物标志物的鉴定，分析肿瘤组织与正常组织的蛋白质组差异。

本发明采用如下技术方案：

一种基于特征选择的结直肠癌蛋白标志物选择系统，包括数据处理处理模块、特征排序模块和特征选择模块，其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据，m个样本分为两个类别，其中一半样本为非大肠癌病人样本，另外一半为大肠癌病人样本，并对数据进行处理，将每个样本中非大肠癌表达蛋白的其他蛋白数据删除，然后从每个样本中留下的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白，随后分别对m个样本中的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据，若待用数据中某种大肠癌表达蛋白的含量缺失，则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5％，得到m个样本的待排序蛋白特征文本数据；

特征排序模块用于采集数据处理模块输出的m个样本的待排序蛋白特征文本数据，并计算每个样本中每种蛋白质的权重，再分别将m个样本中相同种类蛋白质的权重累计加和，得到每种大肠癌表达蛋白的权重；

特征选择模块计算每个样本中每种蛋白质的特征重要性，并将获得的特征重要性归一化，再分别将m个样本中相同种类蛋白质的特征重要性累计加和，得到每种大肠癌表达蛋白的特征重要性，最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘，获得每种蛋白质的重要性评分，对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分，将蛋白质的最终重要性评分从大到小进行排序，选择排名前30的蛋白质作为输出。

所述特征排序模块使用ReliefF法计算每种蛋白质的权重，首先按照下式计算m个样本中每个样本分别与其他样本之间的曼哈顿距离：

得到曼哈顿距离矩阵：

其中：d_ij表示第i个样本和第j个样本之间的曼哈顿距离；k为蛋白质的种类，N为样本中蛋白质的种类数，x_ik为蛋白质k在第i个样本中的含量，x_jk为蛋白质k在第j个样本中的含量，m为样本的数量；

然后按下式计算每个样本中每种蛋白质的权重：

其中：从m个样本中随机选择一个样本，然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本，这c个样本构成NH集；从和该样本不同类别的样本中寻找 c个与其曼哈顿距离最近邻的样本，这c个样本构成NM集；W_i(P_l)为第i个样本中第l种蛋白质的权重，S_t是取自NM集中的一个样本，d_it表示第i个样本到样本S_t之间的曼哈顿距离，NM(Si)为NM集中的第i个样本，NH(Si)为NH集中的第i个样本；

将每个样本中的第l种蛋白质的权重累加得到蛋白质l的最终权重W(P_l)：

其中：W(P_l)为蛋白质l在m个样本中的权重之和，进而得到

所述特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性：

其中：

为第n个样本中所有种类蛋白质特征重要性集合，S_n为2c+1个样本中的第n个样本，y_n为S_n的类别，其中S_n的类别为正常细胞时y_n为0，S_n的类别为癌症细胞时y_n为1，

为S_n中的全部种类蛋白质含量的数据集，λ为固定参数，T代表转置；

对

进行归一化处理，得到

其中：

最后按照下式计算每种蛋白质的重要性评分

其中：

为全部种类蛋白质的重要性评分集合；

对

归一化处理得到蛋白质最终重要性评分

其中：

表示N个蛋白质的重要性评分

的累加。

本发明的有益效果：

本发明结合特征选择对结直肠癌蛋白标志物进行选择，实现对蛋白标志物重要性进行排序，提升特征选择速度、准确率以及稳定性。

本发明研究在临床病例获得的数据集上进行了验证，本方法的泛化能力和推广能力可靠性较强。人工评估存在主观性强、耗时的缺陷，基于特征选择的方法可以通过对结直肠癌蛋白标志物进行特征选择来帮助临床医生对肿瘤生物标志物的鉴定，分析肿瘤组织与正常组织的蛋白质组差异，具有良好的应用前景。

具体实施方式

实施例：

下面对本发明作进一步描述。以下实例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明基于特征选择的结直肠癌蛋白标志物选择系统，在临床病例获得的数据集上进行训练验证。

一个样本的大肠癌蛋白文本数据为该样本的大肠组织细胞中蛋白质种类及每种蛋白质的含量数据。

一种基于特征选择的结直肠癌蛋白标志物选择系统，包括数据处理处理模块、特征排序模块和特征选择模块，其中数据处理模块用于采集32个样本的大肠癌蛋白文本数据，32个样本分为两个类别，其中16个样本为非大肠癌病人样本，另外16个为大肠癌病人样本，并对数据进行处理，将每个样本中非大肠癌表达蛋白的其他蛋白数据删除(即大肠癌蛋白文本数据中包含了很多种类的蛋白及每种蛋白的含量，其中有一些种类的蛋白不属于大肠癌表达蛋白，他们的存在与含量多少不是判断大肠癌的指征)，然后从每个样本中留下的2968种大肠癌表达蛋白中挑选出具有代表性的969种大肠癌表达蛋白，随后分别对32个样本中的这969种大肠癌表达蛋白的含量进行log2数据转化后归一化处理，得到待用数据，若待用数据中某种大肠癌表达蛋白的含量缺失，则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5％，得到32个样本的待排序蛋白特征文本数据；

特征排序模块用于采集数据处理模块输出的32个样本的待排序蛋白特征文本数据，并按ReliefF法计算每个样本中每种蛋白的权重，再分别将32个样本中相同种类蛋白质的权重累计加和，得到969种大肠癌表达蛋白的权重，并按权重大小进行排序；曼哈顿距离矩阵从而代表蛋白质特征的重要性，然后计算出各个蛋白质的权重，并以此对蛋白特征进行排序；

所述特征排序模块使用ReliefF法计算每种蛋白质的权重，首先按照下式计算32个样本中每个样本分别与其他样本之间的曼哈顿距离：

得到曼哈顿距离矩阵：

其中：d_ij表示第i个样本和第j个样本之间的曼哈顿距离；k为蛋白质的种类，N为样本中蛋白质的种类数，即N为1、2、3、……969，x_ik为蛋白质k在第i个样本中的含量，x_jk为蛋白质k在第j个样本中的含量，m为样本的数量，即32；

假设S_i样本是从数据中选取的，它的猜中近邻(NH)和猜错近邻(NM)样本被定义为属于同一类别和不同类别的最近的样本。

从32个样本中随机选择一个样本，然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本，c＝6，这c个样本构成NH集；从和该样本不同类别的样本中寻找 c个与其曼哈顿距离最近邻的样本，c＝6，这c个样本构成NM集；

故每个样本中每种蛋白质的权重按下式计算：

其中：W_i(P_l)为第i个样本中第l种蛋白质的权重，c为6是某个样本集的数量，S_t是取自NM集中的一个样本，d_it表示第i个样本到样本S_t之间的曼哈顿距离，NM(Si)为NM集中的第i个样本，NH(Si)为NH集中的第i个样本；

对每个样本中的第l种蛋白质的权重加和得到蛋白质l的最终权重W(P_l)：

其中：W(P_l)蛋白质l在32个样本中的权重之和，进而得到

特征选择模块使用Lasso方法计算每个样本中每种蛋白质的特征重要性，并将获得的特征重要性归一化，再分别将32个样本中相同种类蛋白质的特征重要性累计加和，得到969 种大肠癌表达蛋白的特征重要性，最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘，获得每种蛋白质的重要性评分，对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分，将蛋白质的最终重要性评分从大到小进行排序，选择排名前30的蛋白质作为输出进行研究。说明这前30的蛋白质为值得研究的大肠癌样本。

其中特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性：

其中：

为第n个样本中所有种类蛋白质特征重要性的集合，2c+1为NM数据集和NH数据集的数量总和+1(1代表第n个样本这一个数量)＝13个，S_n为2c+1个样本中的第n个样本，y_n为S_n的类别，其中S_n的类别为正常细胞时y_n为0，S_n的类别为癌症细胞时y_n为1，

为 S_n中的全部种类蛋白质含量的数据集，λ为固定参数人工设置，T代表转置；

对

进行归一化处理，得到

其中：

其中：此处是为了保证求出来的

里面的969个数值都在0-1之间；

按照下式计算每种蛋白质的重要性评分

其中：

为全部种类蛋白质的重要性评分集合，i表示第i个样本，累加32个

为全部种类蛋白质权重的集合；

对

归一化处理得到蛋白质最终重要性评分

其中：

为归一化后的蛋白质最终重要性评分的集合，

表示从1-969个蛋白质的重要性评分

的累加，即取遍所有的

向量的值的和，本公式就是用每一种蛋白质的重要性评分除以整体所有969种蛋白质重要性得分的和，求出的结果均为小于1的数值。

将特征排序模块的结果用于融合由最小绝对收缩与选择算子(LASSO)估计器获得的结果，使用加权投票方法ReliefF和Lasso的排序结果融合，获得最终特征重要性评分，将 969个大肠癌表达蛋白数据按照重要性评分重新排序，选择排名靠前的蛋白质进行研究。

首先，我们计算曼哈顿距离矩阵,用其代表细胞间对蛋白质差异性，继而挑选出癌症组织细胞与正常组织细胞间的差异性蛋白，从而根据差异的大小计算出每种蛋白质的权重；

使用Lasso方法获得特征重要性评分，将获得的969个已经排序好的蛋白质，用于融合由最小绝对收缩与选择算子(LASSO)估计器获得的结果，这样可以有效减少过度拟合的风险，此算法使得模型的一些变量参数可能为0，对于这种参数，我们便可以选择对它们进行剔除，这样我们就可以将969个特征蛋白进行再次的缩减，将无用的蛋白质删除掉；

Lasso构造一个一阶的惩罚函数，满足L1范数，使得969个蛋白特征的一些参数可能为0，使用的正则化惩罚函数形式是L1范数，属于绝对值形式，当λ充分大时可以把某些待估参数精确地收缩到0，对于这种为0的参数，本算法会自动根据是否为0来剔除掉无用变量，从而更好的计算重要性评分，得出最终的蛋白质重要性评分。

使用加权投票方法获得最终特征重要性评分，将969个大肠癌表达蛋白数据按照重要性重新排序，根据具体医生要求选择排名靠前的蛋白质进行生物学研究；

采用的初始化数据集方法，为国际通用处理蛋白组学数据的方法，参考SuhasVasaikar 等人的蛋白数据处理方法，从中挑选癌变前后蛋白含量变化大的蛋白特征作为候选特征，大大简化数据维度；其中该模型对大肠癌蛋白数据集中所有的蛋白质进行比较，比较组织细胞在发生癌症前后的蛋白质含量数值变化，剔除掉含量不变和降低的蛋白质，保留癌症发生前后蛋白质含量水平明显上升的蛋白质数据作为候选数据集，其中对缺失值使用随机小值进行填补为依据有效定量值中最小的5％计算均值，使用0～0.045的均匀分布。

对于二元类问题，ReliefF的评价标准：

该式中，NM(S_i)和NH(S_i)表示的是NM和NH样品集S_i。c表示NM样本集和NH样本集的大小。

最后蛋白质的权重表示为：

假设S_i是从数据中选择样本，我们使用LASSO算法获得其NM和NH集的系数。

正则化参数λ确定模型系数的压缩程度。随着λ的增加，每个变量的系数逐渐被压缩：

表示每组的归一化特征重要性得分。根据上式，我们获得蛋白质的最终重要性得分：

如此设计的理论在于：以往的研究中，往往只对单一特征选择算法进行鲁棒性、稳定性的研究，对多种特征选择算法融合的研究比较少。Marina Skurichina认为特征选择后那些未被选择的特征中可能存在有用的信息。由于对这些特征的忽略可能会导致特征选择的性能变差，建议使用融合的方法对其中一种方法中被忽略特征的有用信息进行利用。但是并不是所有的特征选择准则都能进行融合。如果两种特征选择的准则相似，那么这两种准则的融合对于提高选择算法的稳定性作用不大。因此我们在选取特征选择准则时，准则的多样性是必须考虑的问题。特性互异的准则既可以相互补充又可以避免发生重叠。显然，我们没有必要也不可能对所有的特征选择准则进行融合。为了简化计算，降低计算量，同时达到保证选择准则多样性的目的，本发明选取Lasso方法与ReliefF法的选择准则进行融合。Lasso方法属于特征选择Embedded类中的一种基本方法，它能挑选出那些对模型的训练有重要意义的特征，具有计算代价小，效率高等特点。ReliefF则是一种权值搜索的特征子集选择方法，它具有很强大的容错能力和泛化能力。将两者进行结合发挥出特征选择的更大优势。

Claims

1.一种基于特征选择的结直肠癌蛋白标志物选择系统，其特征在于包括数据处理处理模块、特征排序模块和特征选择模块，其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据，m个样本分为两个类别，其中一半样本为非大肠癌病人样本，另外一半为大肠癌病人样本，并对数据进行处理，将每个样本中非大肠癌表达蛋白的其他蛋白数据删除，然后从每个样本中留下的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白，随后分别对m个样本中的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据，若待用数据中某种大肠癌表达蛋白的含量缺失，则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5％，得到m个样本的待排序蛋白特征文本数据；

2.根据权利要求1所述的一种基于特征选择的结直肠癌蛋白标志物选择系统，其特征在于所述特征排序模块使用ReliefF法计算每种蛋白质的权重，首先按照下式计算m个样本中每个样本分别与其他样本之间的曼哈顿距离：

得到曼哈顿距离矩阵：

然后按下式计算每个样本中每种蛋白质的权重：

其中：从m个样本中随机选择一个样本，然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本，这c个样本构成NH集；从和该样本不同类别的样本中寻找c个与其曼哈顿距离最近邻的样本，这c个样本构成NM集；W_i(P_l)为第i个样本中第1种蛋白质的权重，S_t是取自NM集中的一个样本，d_it表示第i个样本到样本S_t之间的曼哈顿距离，NM(Si)为NM集中的第i个样本，NH(Si)为NH集中的第i个样本；