CN112885409A - 一种基于特征选择的结直肠癌蛋白标志物选择系统 - Google Patents

一种基于特征选择的结直肠癌蛋白标志物选择系统 Download PDF

Info

Publication number
CN112885409A
CN112885409A CN202110059973.2A CN202110059973A CN112885409A CN 112885409 A CN112885409 A CN 112885409A CN 202110059973 A CN202110059973 A CN 202110059973A CN 112885409 A CN112885409 A CN 112885409A
Authority
CN
China
Prior art keywords
protein
samples
sample
colorectal cancer
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110059973.2A
Other languages
English (en)
Other versions
CN112885409B (zh
Inventor
李玲
杨泰
王霁
梁楫坤
黄玉兰
张海蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110059973.2A priority Critical patent/CN112885409B/zh
Publication of CN112885409A publication Critical patent/CN112885409A/zh
Application granted granted Critical
Publication of CN112885409B publication Critical patent/CN112885409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于结直肠癌蛋白标志物选择技术领域,具体涉及一种基于特征选择的结直肠癌蛋白标志物选择系统;其中数据处理模块采集大肠癌蛋白文本数据,并对数据进行处理,特征排序模块采集数据处理模块输出的数据,并按ReliefF法计算每种大肠癌表达蛋白的权重;特征选择模块使用Lasso方法计算每种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名靠前的蛋白质作为输出;辅助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组织的蛋白质组差异。

Description

一种基于特征选择的结直肠癌蛋白标志物选择系统
技术领域
本发明属于结直肠癌蛋白标志物选择技术领域,具体涉及一种基于特征选择的结直肠癌 蛋白标志物选择系统。
背景技术
结直肠癌(CRC)是全世界第三常见的癌症,也是导致癌症相关死亡的第四大原因。到 2030年,结直肠癌的全球健康负担预计将增加60%。虽然如果在局部早期I/II期被诊断为可 通过手术切除接近治愈(高达90%),但晚期远端转移(即IV期)的患者通常被认为是不 可治愈的,5年生存率约为10%。因此,寻找肿瘤相关标志物和早期检测方法具有重要意义。
随着蛋白质组学技术在癌症研究领域的应用日益广泛,蛋白质组学的发展使我们能够深 入研究肿瘤生物学。迄今为止,蛋白质组学的研究工作主要集中在组织学亚型表征上,以提 高对生物学的理解,并确定临床上使用的候选诊断、预测和预后生物标记物。分析肿瘤组织 与正常组织的蛋白质组差异,对促进肿瘤生物标志物的鉴定具有重要意义,为肿瘤的检测和 靶向治疗提供了新的机会。传统人工很难在众多的蛋白质特征中找出有用信息。因此如何确 定潜在的蛋白质特征成为蛋白质组学技术的首要问题,利用特征选择的算法进行蛋白质标志 物选择是必然发展趋势。
发明内容
为了克服上述问题,本发明提供一种基于特征选择的结直肠癌蛋白标志物选择系统,对 大肠癌蛋白数据进行分析,辅助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组 织的蛋白质组差异。
本发明采用如下技术方案:
一种基于特征选择的结直肠癌蛋白标志物选择系统,包括数据处理处理模块、特征排序 模块和特征选择模块,其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据,m个样 本分为两个类别,其中一半样本为非大肠癌病人样本,另外一半为大肠癌病人样本,并对数 据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除,然后从每个样本中留下 的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白,随后分别对m个样本中 的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据,若待用数据中某种大肠 癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白 的含量值的5%,得到m个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的m个样本的待排序蛋白特征文本数据,并计 算每个样本中每种蛋白质的权重,再分别将m个样本中相同种类蛋白质的权重累计加和,得 到每种大肠癌表达蛋白的权重;
特征选择模块计算每个样本中每种蛋白质的特征重要性,并将获得的特征重要性归一化, 再分别将m个样本中相同种类蛋白质的特征重要性累计加和,得到每种大肠癌表达蛋白的特 征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质 的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分, 将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋白质作为输出。
所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算m个样本 中每个样本分别与其他样本之间的曼哈顿距离:
Figure RE-GDA0002977431370000021
得到曼哈顿距离矩阵:
Figure RE-GDA0002977431370000022
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,xik为蛋白质k在第i个样本中的含量,xjk为蛋白质k在第j个样本 中的含量,m为样本的数量;
然后按下式计算每个样本中每种蛋白质的权重:
Figure RE-GDA0002977431370000023
其中:从m个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个 与其曼哈顿距离最近邻的样本,这c个样本构成NH集;从和该样本不同类别的样本中寻找 c个与其曼哈顿距离最近邻的样本,这c个样本构成NM集;Wi(Pl)为第i个样本中第l种蛋白质的权重,St是取自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集中的第i个样本,NH(Si)为NH集中的第i个样本;
将每个样本中的第l种蛋白质的权重累加得到蛋白质l的最终权重W(Pl):
Figure RE-GDA0002977431370000024
其中:W(Pl)为蛋白质l在m个样本中的权重之和,进而得到
Figure RE-GDA0002977431370000025
所述特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要 性:
Figure RE-GDA0002977431370000031
其中:
Figure RE-GDA0002977431370000032
为第n个样本中所有种类蛋白质特征重要性集合,Sn为2c+1个样本中的第n个样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,
Figure RE-GDA0002977431370000033
为Sn中的全部种类蛋白质含量的数据集,λ为固定参数,T代表转置;
Figure RE-GDA0002977431370000034
进行归一化处理,得到
Figure RE-GDA0002977431370000035
其中:
Figure RE-GDA0002977431370000036
最后按照下式计算每种蛋白质的重要性评分
Figure RE-GDA0002977431370000037
Figure RE-GDA0002977431370000038
其中:
Figure RE-GDA0002977431370000039
为全部种类蛋白质的重要性评分集合;
Figure RE-GDA00029774313700000310
归一化处理得到蛋白质最终重要性评分
Figure RE-GDA00029774313700000311
Figure RE-GDA00029774313700000312
其中:
Figure RE-GDA00029774313700000313
表示N个蛋白质的重要性评分
Figure RE-GDA00029774313700000314
的累加。
本发明的有益效果:
本发明结合特征选择对结直肠癌蛋白标志物进行选择,实现对蛋白标志物重要性进行排 序,提升特征选择速度、准确率以及稳定性。
本发明研究在临床病例获得的数据集上进行了验证,本方法的泛化能力和推广能力可靠 性较强。人工评估存在主观性强、耗时的缺陷,基于特征选择的方法可以通过对结直肠癌蛋 白标志物进行特征选择来帮助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组织 的蛋白质组差异,具有良好的应用前景。
具体实施方式
实施例:
下面对本发明作进一步描述。以下实例仅用于更加清楚地说明本发明的技术方案,而不 能以此来限制本发明的保护范围。
本发明基于特征选择的结直肠癌蛋白标志物选择系统,在临床病例获得的数据集上进行 训练验证。
一个样本的大肠癌蛋白文本数据为该样本的大肠组织细胞中蛋白质种类及每种蛋白质 的含量数据。
一种基于特征选择的结直肠癌蛋白标志物选择系统,包括数据处理处理模块、特征排序 模块和特征选择模块,其中数据处理模块用于采集32个样本的大肠癌蛋白文本数据,32个 样本分为两个类别,其中16个样本为非大肠癌病人样本,另外16个为大肠癌病人样本,并 对数据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除(即大肠癌蛋白文本 数据中包含了很多种类的蛋白及每种蛋白的含量,其中有一些种类的蛋白不属于大肠癌表达 蛋白,他们的存在与含量多少不是判断大肠癌的指征),然后从每个样本中留下的2968种 大肠癌表达蛋白中挑选出具有代表性的969种大肠癌表达蛋白,随后分别对32个样本中的 这969种大肠癌表达蛋白的含量进行log2数据转化后归一化处理,得到待用数据,若待用 数据中某种大肠癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本 中含量最低蛋白的含量值的5%,得到32个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的32个样本的待排序蛋白特征文本数据,并 按ReliefF法计算每个样本中每种蛋白的权重,再分别将32个样本中相同种类蛋白质的权 重累计加和,得到969种大肠癌表达蛋白的权重,并按权重大小进行排序;曼哈顿距离矩阵 从而代表蛋白质特征的重要性,然后计算出各个蛋白质的权重,并以此对蛋白特征进行排序;
所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算32个样 本中每个样本分别与其他样本之间的曼哈顿距离:
Figure RE-GDA0002977431370000041
得到曼哈顿距离矩阵:
Figure RE-GDA0002977431370000042
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,即N为1、2、3、……969,xik为蛋白质k在第i个样本中的含量,xjk为蛋白 质k在第j个样本中的含量,m为样本的数量,即32;
假设Si样本是从数据中选取的,它的猜中近邻(NH)和猜错近邻(NM)样本被定义为属于 同一类别和不同类别的最近的样本。
从32个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个与其 曼哈顿距离最近邻的样本,c=6,这c个样本构成NH集;从和该样本不同类别的样本中寻找 c个与其曼哈顿距离最近邻的样本,c=6,这c个样本构成NM集;
故每个样本中每种蛋白质的权重按下式计算:
Figure RE-GDA0002977431370000051
其中:Wi(Pl)为第i个样本中第l种蛋白质的权重,c为6是某个样本集的数量,St是取 自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集 中的第i个样本,NH(Si)为NH集中的第i个样本;
对每个样本中的第l种蛋白质的权重加和得到蛋白质l的最终权重W(Pl):
Figure RE-GDA0002977431370000052
其中:W(Pl)蛋白质l在32个样本中的权重之和,进而得到
Figure RE-GDA0002977431370000053
特征选择模块使用Lasso方法计算每个样本中每种蛋白质的特征重要性,并将获得的特 征重要性归一化,再分别将32个样本中相同种类蛋白质的特征重要性累计加和,得到969 种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重 相乘,获得每种蛋白质的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白 质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋 白质作为输出进行研究。说明这前30的蛋白质为值得研究的大肠癌样本。
其中特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要 性:
Figure RE-GDA0002977431370000054
其中:
Figure RE-GDA0002977431370000055
为第n个样本中所有种类蛋白质特征重要性的集合,2c+1为NM数据集和NH数据集的数量总和+1(1代表第n个样本这一个数量)=13个,Sn为2c+1个样本中的第n个 样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,
Figure RE-GDA0002977431370000056
为 Sn中的全部种类蛋白质含量的数据集,λ为固定参数人工设置,T代表转置;
Figure RE-GDA0002977431370000057
进行归一化处理,得到
Figure RE-GDA0002977431370000058
其中:
Figure RE-GDA0002977431370000059
其中:此处是为了保证求出来的
Figure RE-GDA00029774313700000510
里面的969个数值都在0-1之间;
按照下式计算每种蛋白质的重要性评分
Figure RE-GDA00029774313700000511
Figure RE-GDA00029774313700000512
其中:
Figure RE-GDA0002977431370000061
为全部种类蛋白质的重要性评分集合,i表示第i个样本,累加32个
Figure RE-GDA0002977431370000062
为 全部种类蛋白质权重的集合;
Figure RE-GDA0002977431370000069
归一化处理得到蛋白质最终重要性评分
Figure RE-GDA0002977431370000063
Figure RE-GDA0002977431370000064
其中:
Figure RE-GDA0002977431370000065
为归一化后的蛋白质最终重要性评分的集合,
Figure RE-GDA0002977431370000066
表示从1-969个蛋白质的 重要性评分
Figure RE-GDA0002977431370000067
的累加,即取遍所有的
Figure RE-GDA0002977431370000068
向量的值的和,本公式就是用每一种蛋白质的重要性评 分除以整体所有969种蛋白质重要性得分的和,求出的结果均为小于1的数值。
将特征排序模块的结果用于融合由最小绝对收缩与选择算子(LASSO)估计器获得的结 果,使用加权投票方法ReliefF和Lasso的排序结果融合,获得最终特征重要性评分,将 969个大肠癌表达蛋白数据按照重要性评分重新排序,选择排名靠前的蛋白质进行研究。
首先,我们计算曼哈顿距离矩阵,用其代表细胞间对蛋白质差异性,继而挑选出癌症组 织细胞与正常组织细胞间的差异性蛋白,从而根据差异的大小计算出每种蛋白质的权重;
使用Lasso方法获得特征重要性评分,将获得的969个已经排序好的蛋白质,用于融合 由最小绝对收缩与选择算子(LASSO)估计器获得的结果,这样可以有效减少过度拟合的风 险,此算法使得模型的一些变量参数可能为0,对于这种参数,我们便可以选择对它们进行 剔除,这样我们就可以将969个特征蛋白进行再次的缩减,将无用的蛋白质删除掉;
Lasso构造一个一阶的惩罚函数,满足L1范数,使得969个蛋白特征的一些参数可能 为0,使用的正则化惩罚函数形式是L1范数,属于绝对值形式,当λ充分大时可以把某些待 估参数精确地收缩到0,对于这种为0的参数,本算法会自动根据是否为0来剔除掉无用变 量,从而更好的计算重要性评分,得出最终的蛋白质重要性评分。
使用加权投票方法获得最终特征重要性评分,将969个大肠癌表达蛋白数据按照重要性 重新排序,根据具体医生要求选择排名靠前的蛋白质进行生物学研究;
采用的初始化数据集方法,为国际通用处理蛋白组学数据的方法,参考SuhasVasaikar 等人的蛋白数据处理方法,从中挑选癌变前后蛋白含量变化大的蛋白特征作为候选特征,大 大简化数据维度;其中该模型对大肠癌蛋白数据集中所有的蛋白质进行比较,比较组织细胞 在发生癌症前后的蛋白质含量数值变化,剔除掉含量不变和降低的蛋白质,保留癌症发生前 后蛋白质含量水平明显上升的蛋白质数据作为候选数据集,其中对缺失值使用随机小值进行 填补为依据有效定量值中最小的5%计算均值,使用0~0.045的均匀分布。
对于二元类问题,ReliefF的评价标准:
Figure RE-GDA0002977431370000071
该式中,NM(Si)和NH(Si)表示的是NM和NH样品集Si。c表示NM样本集和NH样本集 的大小。
最后蛋白质的权重表示为:
Figure RE-GDA0002977431370000072
Figure RE-GDA0002977431370000073
假设Si是从数据中选择样本,我们使用LASSO算法获得其NM和NH集的系数。
正则化参数λ确定模型系数的压缩程度。随着λ的增加,每个变量的系数逐渐被压缩:
Figure RE-GDA0002977431370000074
Figure RE-GDA0002977431370000075
Figure RE-GDA0002977431370000076
表示每组的归一化特征重要性得分。根据上式,我们获得蛋白质的最终重要性得分:
Figure RE-GDA0002977431370000077
Figure RE-GDA0002977431370000078
如此设计的理论在于:以往的研究中,往往只对单一特征选择算法进行鲁棒性、稳定性 的研究,对多种特征选择算法融合的研究比较少。Marina Skurichina认为特征选择后那些 未被选择的特征中可能存在有用的信息。由于对这些特征的忽略可能会导致特征选择的性能 变差,建议使用融合的方法对其中一种方法中被忽略特征的有用信息进行利用。但是并不是 所有的特征选择准则都能进行融合。如果两种特征选择的准则相似,那么这两种准则的融合 对于提高选择算法的稳定性作用不大。因此我们在选取特征选择准则时,准则的多样性是必 须考虑的问题。特性互异的准则既可以相互补充又可以避免发生重叠。显然,我们没有必要 也不可能对所有的特征选择准则进行融合。为了简化计算,降低计算量,同时达到保证选择 准则多样性的目的,本发明选取Lasso方法与ReliefF法的选择准则进行融合。Lasso方法 属于特征选择Embedded类中的一种基本方法,它能挑选出那些对模型的训练有重要意义的 特征,具有计算代价小,效率高等特点。ReliefF则是一种权值搜索的特征子集选择方法, 它具有很强大的容错能力和泛化能力。将两者进行结合发挥出特征选择的更大优势。

Claims (3)

1.一种基于特征选择的结直肠癌蛋白标志物选择系统,其特征在于包括数据处理处理模块、特征排序模块和特征选择模块,其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据,m个样本分为两个类别,其中一半样本为非大肠癌病人样本,另外一半为大肠癌病人样本,并对数据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除,然后从每个样本中留下的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白,随后分别对m个样本中的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据,若待用数据中某种大肠癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5%,得到m个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的m个样本的待排序蛋白特征文本数据,并计算每个样本中每种蛋白质的权重,再分别将m个样本中相同种类蛋白质的权重累计加和,得到每种大肠癌表达蛋白的权重;
特征选择模块计算每个样本中每种蛋白质的特征重要性,并将获得的特征重要性归一化,再分别将m个样本中相同种类蛋白质的特征重要性累计加和,得到每种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋白质作为输出。
2.根据权利要求1所述的一种基于特征选择的结直肠癌蛋白标志物选择系统,其特征在于所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算m个样本中每个样本分别与其他样本之间的曼哈顿距离:
Figure FDA0002902154790000011
得到曼哈顿距离矩阵:
Figure FDA0002902154790000012
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,xik为蛋白质k在第i个样本中的含量,xjk为蛋白质k在第j个样本中的含量,m为样本的数量;
然后按下式计算每个样本中每种蛋白质的权重:
Figure FDA0002902154790000021
其中:从m个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NH集;从和该样本不同类别的样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NM集;Wi(Pl)为第i个样本中第1种蛋白质的权重,St是取自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集中的第i个样本,NH(Si)为NH集中的第i个样本;
将每个样本中的第l种蛋白质的权重累加得到蛋白质l的最终权重W(Pl):
Figure FDA0002902154790000022
其中:W(Pl)为蛋白质l在m个样本中的权重之和,进而得到
Figure FDA0002902154790000023
3.根据权利要求2所述的一种基于特征选择的结直肠癌蛋白标志物选择系统,其特征在于所述特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性:
Figure FDA0002902154790000024
其中:
Figure FDA0002902154790000025
为第n个样本中所有种类蛋白质特征重要性的集合,Sn为2c+1个样本中的第n个样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,
Figure FDA0002902154790000026
为Sn中的全部种类蛋白质含量的数据集,λ为固定参数,T代表转置;
Figure FDA0002902154790000027
进行归一化处理,得到
Figure FDA0002902154790000028
其中:
Figure FDA0002902154790000029
最后按照下式计算每种蛋白质的重要性评分
Figure FDA00029021547900000210
Figure FDA00029021547900000211
其中:
Figure FDA00029021547900000212
为全部种类蛋白质的重要性评分集合;
Figure FDA0002902154790000031
归一化处理得到蛋白质最终重要性评分
Figure FDA0002902154790000032
Figure FDA0002902154790000033
其中:
Figure FDA0002902154790000034
表示N个蛋白质的重要性评分
Figure FDA0002902154790000035
的累加。
CN202110059973.2A 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统 Active CN112885409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110059973.2A CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110059973.2A CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Publications (2)

Publication Number Publication Date
CN112885409A true CN112885409A (zh) 2021-06-01
CN112885409B CN112885409B (zh) 2023-03-24

Family

ID=76048677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110059973.2A Active CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Country Status (1)

Country Link
CN (1) CN112885409B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130230A1 (en) * 2003-09-23 2005-06-16 Antoni Davalos Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
US20050181386A1 (en) * 2003-09-23 2005-08-18 Cornelius Diamond Diagnostic markers of cardiovascular illness and methods of use thereof
CN107967410A (zh) * 2017-11-27 2018-04-27 电子科技大学 一种面向基因表达与甲基化数据的融合方法
CN108806796A (zh) * 2018-05-28 2018-11-13 苏州大学 一种医疗数据的特征选择方法及相关装置
CN109190713A (zh) * 2018-09-29 2019-01-11 王海燕 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN109887600A (zh) * 2019-04-16 2019-06-14 上海理工大学 一种对非小细胞肺癌预后生存情况的分析方法
CN111370061A (zh) * 2019-06-20 2020-07-03 深圳思勤医疗科技有限公司 基于蛋白标记物与人工智能的癌症筛查方法
CN111684282A (zh) * 2017-12-05 2020-09-18 迪森德克斯公司 结直肠癌生物标志物的稳健小组
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统
CN111933211A (zh) * 2020-06-28 2020-11-13 北京谷海天目生物医学科技有限公司 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
WO2020245748A1 (en) * 2019-06-03 2020-12-10 Polyvalor, Limited Partnership Methods and systems for assessing a phenotype of a biological tissue of a patient using raman spectroscopy

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130230A1 (en) * 2003-09-23 2005-06-16 Antoni Davalos Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
US20050181386A1 (en) * 2003-09-23 2005-08-18 Cornelius Diamond Diagnostic markers of cardiovascular illness and methods of use thereof
CN107967410A (zh) * 2017-11-27 2018-04-27 电子科技大学 一种面向基因表达与甲基化数据的融合方法
CN111684282A (zh) * 2017-12-05 2020-09-18 迪森德克斯公司 结直肠癌生物标志物的稳健小组
CN108806796A (zh) * 2018-05-28 2018-11-13 苏州大学 一种医疗数据的特征选择方法及相关装置
CN109190713A (zh) * 2018-09-29 2019-01-11 王海燕 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN109887600A (zh) * 2019-04-16 2019-06-14 上海理工大学 一种对非小细胞肺癌预后生存情况的分析方法
WO2020245748A1 (en) * 2019-06-03 2020-12-10 Polyvalor, Limited Partnership Methods and systems for assessing a phenotype of a biological tissue of a patient using raman spectroscopy
CN111370061A (zh) * 2019-06-20 2020-07-03 深圳思勤医疗科技有限公司 基于蛋白标记物与人工智能的癌症筛查方法
CN111933211A (zh) * 2020-06-28 2020-11-13 北京谷海天目生物医学科技有限公司 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CAI,J ET AL.: "feature selection in machine learning: a new perspective", 《NEUROCOMPUTING》 *
NICOLE CHALLITA ET AL.: "New technique for feature selection: Combination between elastic net and relief", 《2015 THIRD INTERNATIONAL CONFERENCE ON TECHNOLOGICAL ADVANCES IN ELECTRICAL, ELECTRONICS AND COMPUTER ENGINEERING (TAEECE)》 *
XIAOKANG ZHANG ET AL.: "An Ensemble Feature Selection Framework Integrating Stability", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
何强等: "基于多模态特征和多分类器融合的前列腺癌放疗中直肠并发症预测模型", 《南方医科大学学报》 *
栾志玲: "DNA基因深度特征选择策略的研究现状及发展趋势", 《佳木斯职业学院学报》 *
邓琳: "基于W-GDipC和LRMR-Ri方法的抗冻蛋白预测研究", 《中国优秀硕士论文全文数据库(基础科学辑)》 *

Also Published As

Publication number Publication date
CN112885409B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US10402748B2 (en) Machine learning methods and systems for identifying patterns in data
Liu et al. Selecting informative genes with parallel genetic algorithms in tissue classification
CN113643756B (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN112635063A (zh) 一种肺癌预后综合预测模型、构建方法及装置
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
Houssein et al. Gene selection for microarray cancer classification based on manta rays foraging optimization and support vector machines
Lin et al. Pattern classification in DNA microarray data of multiple tumor types
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
CN114841241A (zh) 一种基于聚类和距离加权的不平衡数据分类方法
Abbas et al. Multi-cell type and multi-level graph aggregation network for cancer grading in pathology images
CN112885409B (zh) 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN114861940B (zh) 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法
CN115965294A (zh) 一种基于机器学习和环境dna的河流水生态健康评价方法
Haines et al. Machine Learning Models for Histopathological Breast Cancer Image Classification
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
CN113707320A (zh) 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Kong et al. An improved predictor for identifying recombination spots based on support vector machine
Cai et al. A novel gene ranking algorithm based on random subspace method
Kavousi et al. A post-method condition analysis of using ensemble machine learning for cancer prognosis and diagnosis: a systematic review
CN118155724A (zh) 一种基于域适应模型的RNA-seq和ATAC-seq数据整合分析方法
CN116741267A (zh) 基于一致性矩阵评分的单细胞聚类方法及系统
CN116758986A (zh) 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant