CN112885409B - 一种基于特征选择的结直肠癌蛋白标志物选择系统 - Google Patents

一种基于特征选择的结直肠癌蛋白标志物选择系统 Download PDF

Info

Publication number
CN112885409B
CN112885409B CN202110059973.2A CN202110059973A CN112885409B CN 112885409 B CN112885409 B CN 112885409B CN 202110059973 A CN202110059973 A CN 202110059973A CN 112885409 B CN112885409 B CN 112885409B
Authority
CN
China
Prior art keywords
protein
sample
samples
colorectal cancer
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110059973.2A
Other languages
English (en)
Other versions
CN112885409A (zh
Inventor
李玲
杨泰
王霁
梁楫坤
黄玉兰
张海蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110059973.2A priority Critical patent/CN112885409B/zh
Publication of CN112885409A publication Critical patent/CN112885409A/zh
Application granted granted Critical
Publication of CN112885409B publication Critical patent/CN112885409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于结直肠癌蛋白标志物选择技术领域,具体涉及一种基于特征选择的结直肠癌蛋白标志物选择系统;其中数据处理模块采集大肠癌蛋白文本数据,并对数据进行处理,特征排序模块采集数据处理模块输出的数据,并按ReliefF法计算每种大肠癌表达蛋白的权重;特征选择模块使用Lasso方法计算每种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名靠前的蛋白质作为输出;辅助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组织的蛋白质组差异。

Description

一种基于特征选择的结直肠癌蛋白标志物选择系统
技术领域
本发明属于结直肠癌蛋白标志物选择技术领域,具体涉及一种基于特征选择的结直肠癌蛋白标志物选择系统。
背景技术
结直肠癌(CRC)是全世界第三常见的癌症,也是导致癌症相关死亡的第四大原因。到2030年,结直肠癌的全球健康负担预计将增加60%。虽然如果在局部早期I/II期被诊断为可通过手术切除接近治愈(高达90%),但晚期远端转移(即IV期)的患者通常被认为是不可治愈的,5年生存率约为10%。因此,寻找肿瘤相关标志物和早期检测方法具有重要意义。
随着蛋白质组学技术在癌症研究领域的应用日益广泛,蛋白质组学的发展使我们能够深入研究肿瘤生物学。迄今为止,蛋白质组学的研究工作主要集中在组织学亚型表征上,以提高对生物学的理解,并确定临床上使用的候选诊断、预测和预后生物标记物。分析肿瘤组织与正常组织的蛋白质组差异,对促进肿瘤生物标志物的鉴定具有重要意义,为肿瘤的检测和靶向治疗提供了新的机会。传统人工很难在众多的蛋白质特征中找出有用信息。因此如何确定潜在的蛋白质特征成为蛋白质组学技术的首要问题,利用特征选择的算法进行蛋白质标志物选择是必然发展趋势。
发明内容
为了克服上述问题,本发明提供一种基于特征选择的结直肠癌蛋白标志物选择系统,对大肠癌蛋白数据进行分析,辅助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组织的蛋白质组差异。
本发明采用如下技术方案:
一种基于特征选择的结直肠癌蛋白标志物选择系统,包括数据处理模块、特征排序模块和特征选择模块,其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据,m个样本分为两个类别,其中一半样本为非大肠癌病人样本,另外一半为大肠癌病人样本,并对数据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除,然后从每个样本中留下的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白,随后分别对m个样本中的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据,若待用数据中某种大肠癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5%,得到m个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的m个样本的待排序蛋白特征文本数据,并计算每个样本中每种蛋白质的权重,再分别将m个样本中相同种类蛋白质的权重累计加和,得到每种大肠癌表达蛋白的权重;
特征选择模块计算每个样本中每种蛋白质的特征重要性,并将获得的特征重要性归一化,再分别将m个样本中相同种类蛋白质的特征重要性累计加和,得到每种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋白质作为输出。
所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算m个样本中每个样本分别与其他样本之间的曼哈顿距离:
Figure GDA0003956636040000021
得到曼哈顿距离矩阵:
Figure GDA0003956636040000022
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,xik为蛋白质k在第i个样本中的含量,xjk为蛋白质k在第j个样本中的含量,m为样本的数量;
然后按下式计算每个样本中每种蛋白质的权重:
Figure GDA0003956636040000023
其中:从m个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NH集;从和该样本不同类别的样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NM集;Wi(Pl)为第i个样本中第l种蛋白质的权重,St是取自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集中的第i个样本,NH(Si)为NH集中的第i个样本;
将每个样本中的第l种蛋白质的权重累加得到蛋白质l的最终权重W(Pl):
Figure GDA0003956636040000024
其中:W(Pl)为蛋白质l在m个样本中的权重之和,进而得到
Figure GDA0003956636040000025
所述特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性:
Figure GDA0003956636040000031
其中:
Figure GDA0003956636040000032
为第n个样本中所有种类蛋白质特征重要性集合,Sn为2c+1个样本中的第n个样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,/>
Figure GDA0003956636040000033
为Sn中的全部种类蛋白质含量的数据集,λ为固定参数,T代表转置;
Figure GDA0003956636040000034
进行归一化处理,得到/>
Figure GDA0003956636040000035
其中:/>
Figure GDA0003956636040000036
最后按照下式计算每种蛋白质的重要性评分
Figure GDA0003956636040000037
Figure GDA0003956636040000038
其中:
Figure GDA0003956636040000039
为每种蛋白质的重要性评分集合;
Figure GDA00039566360400000310
归一化处理得到蛋白质最终重要性评分集合/>
Figure GDA00039566360400000311
Figure GDA00039566360400000312
其中:
Figure GDA00039566360400000313
表示N个蛋白质的重要性评分/>
Figure GDA00039566360400000314
的累加。
本发明的有益效果:
本发明结合特征选择对结直肠癌蛋白标志物进行选择,实现对蛋白标志物重要性进行排序,提升特征选择速度、准确率以及稳定性。
本发明研究在临床病例获得的数据集上进行了验证,本方法的泛化能力和推广能力可靠性较强。人工评估存在主观性强、耗时的缺陷,基于特征选择的方法可以通过对结直肠癌蛋白标志物进行特征选择来帮助临床医生对肿瘤生物标志物的鉴定,分析肿瘤组织与正常组织的蛋白质组差异,具有良好的应用前景。
具体实施方式
实施例:
下面对本发明作进一步描述。以下实例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明基于特征选择的结直肠癌蛋白标志物选择系统,在临床病例获得的数据集上进行训练验证。
一个样本的大肠癌蛋白文本数据为该样本的大肠组织细胞中蛋白质种类及每种蛋白质的含量数据。
一种基于特征选择的结直肠癌蛋白标志物选择系统,包括数据处理模块、特征排序模块和特征选择模块,其中数据处理模块用于采集32个样本的大肠癌蛋白文本数据,32个样本分为两个类别,其中16个样本为非大肠癌病人样本,另外16个为大肠癌病人样本,并对数据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除(即大肠癌蛋白文本数据中包含了很多种类的蛋白及每种蛋白的含量,其中有一些种类的蛋白不属于大肠癌表达蛋白,他们的存在与含量多少不是判断大肠癌的指征),然后从每个样本中留下的2968种大肠癌表达蛋白中挑选出具有代表性的969种大肠癌表达蛋白,随后分别对32个样本中的这969种大肠癌表达蛋白的含量进行log2数据转化后归一化处理,得到待用数据,若待用数据中某种大肠癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5%,得到32个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的32个样本的待排序蛋白特征文本数据,并按ReliefF法计算每个样本中每种蛋白的权重,再分别将32个样本中相同种类蛋白质的权重累计加和,得到969种大肠癌表达蛋白的权重,并按权重大小进行排序;曼哈顿距离矩阵从而代表蛋白质特征的重要性,然后计算出各个蛋白质的权重,并以此对蛋白特征进行排序;
所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算32个样本中每个样本分别与其他样本之间的曼哈顿距离:
Figure GDA0003956636040000041
得到曼哈顿距离矩阵:
Figure GDA0003956636040000042
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,即N为1、2、3、……969,xik为蛋白质k在第i个样本中的含量,xjk为蛋白质k在第j个样本中的含量,m为样本的数量,即32;
假设Si样本是从数据中选取的,它的猜中近邻(NH)和猜错近邻(NM)样本被定义为属于同一类别和不同类别的最近的样本。
从32个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本,c=6,这c个样本构成NH集;从和该样本不同类别的样本中寻找c个与其曼哈顿距离最近邻的样本,c=6,这c个样本构成NM集;
故每个样本中每种蛋白质的权重按下式计算:
Figure GDA0003956636040000051
其中:Wi(Pl)为第i个样本中第l种蛋白质的权重,c为6是某个样本集的数量,St是取自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集中的第i个样本,NH(Si)为NH集中的第i个样本;
对每个样本中的第l种蛋白质的权重加和得到蛋白质l的最终权重W(Pl):
Figure GDA0003956636040000052
其中:W(Pl)蛋白质l在32个样本中的权重之和,进而得到
Figure GDA0003956636040000053
特征选择模块使用Lasso方法计算每个样本中每种蛋白质的特征重要性,并将获得的特征重要性归一化,再分别将32个样本中相同种类蛋白质的特征重要性累计加和,得到969种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋白质作为输出进行研究。说明这前30的蛋白质为值得研究的大肠癌样本。
其中特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性:
Figure GDA0003956636040000054
其中:
Figure GDA0003956636040000055
为第n个样本中所有种类蛋白质特征重要性的集合,2c+1为NM数据集和NH数据集的数量总和+1(1代表第n个样本这一个数量)=13个,Sn为2c+1个样本中的第n个样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,/>
Figure GDA0003956636040000056
为Sn中的全部种类蛋白质含量的数据集,λ为固定参数人工设置,T代表转置;
Figure GDA0003956636040000057
进行归一化处理,得到/>
Figure GDA0003956636040000058
其中:
Figure GDA0003956636040000059
其中:此处是为了保证求出来的
Figure GDA00039566360400000510
里面的969个数值都在0-1之间;
按照下式计算每种蛋白质的重要性评分
Figure GDA00039566360400000511
Figure GDA00039566360400000512
其中:
Figure GDA0003956636040000061
为每种蛋白质的重要性评分集合,i表示第i个样本,累加32个/>
Figure GDA0003956636040000062
Figure GDA0003956636040000063
为全部种类蛋白质权重的集合;
Figure GDA0003956636040000064
归一化处理得到蛋白质最终重要性评分集合/>
Figure GDA0003956636040000065
Figure GDA0003956636040000066
其中:
Figure GDA0003956636040000067
为归一化后的蛋白质最终重要性评分集合,/>
Figure GDA0003956636040000068
表示从1-969个蛋白质的重要性评分/>
Figure GDA0003956636040000069
的累加,即取遍所有的/>
Figure GDA00039566360400000610
向量的值的和,本公式就是用每一种蛋白质的重要性评分除以整体所有969种蛋白质重要性得分的和,求出的结果均为小于1的数值。
将特征排序模块的结果用于融合由最小绝对收缩与选择算子(LASSO)估计器获得的结果,使用加权投票方法ReliefF和Lasso的排序结果融合,获得最终特征重要性评分,将969个大肠癌表达蛋白数据按照重要性评分重新排序,选择排名靠前的蛋白质进行研究。
首先,我们计算曼哈顿距离矩阵,用其代表细胞间对蛋白质差异性,继而挑选出癌症组织细胞与正常组织细胞间的差异性蛋白,从而根据差异的大小计算出每种蛋白质的权重;
使用Lasso方法获得特征重要性评分,将获得的969个已经排序好的蛋白质,用于融合由最小绝对收缩与选择算子(LASSO)估计器获得的结果,这样可以有效减少过度拟合的风险,此算法使得模型的一些变量参数可能为0,对于这种参数,我们便可以选择对它们进行剔除,这样我们就可以将969个特征蛋白进行再次的缩减,将无用的蛋白质删除掉;
Lasso构造一个一阶的惩罚函数,满足L1范数,使得969个蛋白特征的一些参数可能为0,使用的正则化惩罚函数形式是L1范数,属于绝对值形式,当λ充分大时可以把某些待估参数精确地收缩到0,对于这种为0的参数,本算法会自动根据是否为0来剔除掉无用变量,从而更好的计算重要性评分,得出最终的蛋白质重要性评分。
使用加权投票方法获得最终特征重要性评分,将969个大肠癌表达蛋白数据按照重要性重新排序,根据具体医生要求选择排名靠前的蛋白质进行生物学研究;
采用的初始化数据集方法,为国际通用处理蛋白组学数据的方法,参考SuhasVasaikar等人的蛋白数据处理方法,从中挑选癌变前后蛋白含量变化大的蛋白特征作为候选特征,大大简化数据维度;其中该模型对大肠癌蛋白数据集中所有的蛋白质进行比较,比较组织细胞在发生癌症前后的蛋白质含量数值变化,剔除掉含量不变和降低的蛋白质,保留癌症发生前后蛋白质含量水平明显上升的蛋白质数据作为候选数据集,其中对缺失值使用随机小值进行填补为依据有效定量值中最小的5%计算均值,使用0~0.045的均匀分布。
对于二元类问题,ReliefF的评价标准:
Figure GDA0003956636040000071
该式中,NM(Si)和NH(Si)表示的是NM和NH样品集Si。c表示NM样本集和NH样本集的大小。
最后蛋白质的权重表示为:
Figure GDA0003956636040000072
Figure GDA0003956636040000073
假设Si是从数据中选择样本,我们使用LASSO算法获得其NM和NH集的系数。
正则化参数λ确定模型系数的压缩程度。随着λ的增加,每个变量的系数逐渐被压缩:
Figure GDA0003956636040000074
Figure GDA0003956636040000075
Figure GDA0003956636040000076
表示每组的归一化特征重要性得分。根据上式,我们获得蛋白质的最终重要性得分:
Figure GDA0003956636040000077
Figure GDA0003956636040000078
如此设计的理论在于:以往的研究中,往往只对单一特征选择算法进行鲁棒性、稳定性的研究,对多种特征选择算法融合的研究比较少。Marina Skurichina认为特征选择后那些未被选择的特征中可能存在有用的信息。由于对这些特征的忽略可能会导致特征选择的性能变差,建议使用融合的方法对其中一种方法中被忽略特征的有用信息进行利用。但是并不是所有的特征选择准则都能进行融合。如果两种特征选择的准则相似,那么这两种准则的融合对于提高选择算法的稳定性作用不大。因此我们在选取特征选择准则时,准则的多样性是必须考虑的问题。特性互异的准则既可以相互补充又可以避免发生重叠。显然,我们没有必要也不可能对所有的特征选择准则进行融合。为了简化计算,降低计算量,同时达到保证选择准则多样性的目的,本发明选取Lasso方法与ReliefF法的选择准则进行融合。Lasso方法属于特征选择Embedded类中的一种基本方法,它能挑选出那些对模型的训练有重要意义的特征,具有计算代价小,效率高等特点。ReliefF则是一种权值搜索的特征子集选择方法,它具有很强大的容错能力和泛化能力。将两者进行结合发挥出特征选择的更大优势。

Claims (1)

1.一种基于特征选择的结直肠癌蛋白标志物选择系统,其特征在于包括数据处理模块、特征排序模块和特征选择模块,其中数据处理模块用于采集m个样本的大肠癌蛋白文本数据,m个样本分为两个类别,其中一半样本为非大肠癌病人样本,另外一半为大肠癌病人样本,并对数据进行处理,将每个样本中非大肠癌表达蛋白的其他蛋白数据删除,然后从每个样本中留下的多种大肠癌表达蛋白中挑选出具有代表性的N种大肠癌表达蛋白,随后分别对m个样本中的这N种大肠癌表达蛋白的含量进行log2数据转化得到待用数据,若待用数据中某种大肠癌表达蛋白的含量缺失,则将该缺失的大肠癌表达蛋白的含量记为对应样本中含量最低蛋白的含量值的5%,得到m个样本的待排序蛋白特征文本数据;
特征排序模块用于采集数据处理模块输出的m个样本的待排序蛋白特征文本数据,并计算每个样本中每种蛋白质的权重,再分别将m个样本中相同种类蛋白质的权重累计加和,得到每种大肠癌表达蛋白的权重;
特征选择模块计算每个样本中每种蛋白质的特征重要性,并将获得的特征重要性归一化,再分别将m个样本中相同种类蛋白质的特征重要性累计加和,得到每种大肠癌表达蛋白的特征重要性,最后分别将每种蛋白质的特征重要性与该种蛋白质的权重相乘,获得每种蛋白质的重要性评分,对每种蛋白质的重要性评分归一化处理得到每种蛋白质的最终重要性评分,将蛋白质的最终重要性评分从大到小进行排序,选择排名前30的蛋白质作为输出;
所述特征排序模块使用ReliefF法计算每种蛋白质的权重,首先按照下式计算m个样本中每个样本分别与其他样本之间的曼哈顿距离:
Figure FDA0003956636030000011
得到曼哈顿距离矩阵:
Figure FDA0003956636030000012
其中:dij表示第i个样本和第j个样本之间的曼哈顿距离;k为蛋白质的种类,N为样本中蛋白质的种类数,xik为蛋白质k在第i个样本中的含量,xjk为蛋白质k在第j个样本中的含量,m为样本的数量;
然后按下式计算每个样本中每种蛋白质的权重:
Figure FDA0003956636030000021
其中:从m个样本中随机选择一个样本,然后从和该样本同类别的其他样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NH集;从和该样本不同类别的样本中寻找c个与其曼哈顿距离最近邻的样本,这c个样本构成NM集;Wi(Pl)为第i个样本中第l种蛋白质的权重,St是取自NM集中的一个样本,dit表示第i个样本到样本St之间的曼哈顿距离,NM(Si)为NM集中的第i个样本,NH(Si)为NH集中的第i个样本;
将每个样本中的第l种蛋白质的权重累加得到蛋白质l的最终权重W(Pl):
Figure FDA0003956636030000022
其中:W(Pl)为蛋白质l在m个样本中的权重之和,进而得到
Figure FDA00039566360300000211
所述特征选择模块使用Lasso方法按下式计算每个样本中所有种类蛋白质的特征重要性:
Figure FDA0003956636030000023
其中:
Figure FDA0003956636030000024
为第n个样本中所有种类蛋白质特征重要性的集合,Sn为2c+1个样本中的第n个样本,yn为Sn的类别,其中Sn的类别为正常细胞时yn为0,Sn的类别为癌症细胞时yn为1,
Figure FDA0003956636030000025
为Sn中的全部种类蛋白质含量的数据集,λ为固定参数,T代表转置;
Figure FDA0003956636030000026
进行归一化处理,得到
Figure FDA0003956636030000027
其中:
Figure FDA0003956636030000028
最后按照下式计算每种蛋白质的重要性评分:
Figure FDA0003956636030000029
其中:
Figure FDA00039566360300000210
为每种蛋白质的重要性评分集合;
Figure FDA0003956636030000031
归一化处理得到的蛋白质最终重要性评分集合
Figure FDA0003956636030000032
Figure FDA0003956636030000033
其中:
Figure FDA0003956636030000034
表示N个蛋白质的重要性评分
Figure FDA0003956636030000035
的累加。
CN202110059973.2A 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统 Active CN112885409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110059973.2A CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110059973.2A CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Publications (2)

Publication Number Publication Date
CN112885409A CN112885409A (zh) 2021-06-01
CN112885409B true CN112885409B (zh) 2023-03-24

Family

ID=76048677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110059973.2A Active CN112885409B (zh) 2021-01-18 2021-01-18 一种基于特征选择的结直肠癌蛋白标志物选择系统

Country Status (1)

Country Link
CN (1) CN112885409B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370061A (zh) * 2019-06-20 2020-07-03 深圳思勤医疗科技有限公司 基于蛋白标记物与人工智能的癌症筛查方法
WO2020245748A1 (en) * 2019-06-03 2020-12-10 Polyvalor, Limited Partnership Methods and systems for assessing a phenotype of a biological tissue of a patient using raman spectroscopy

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634360B2 (en) * 2003-09-23 2009-12-15 Prediction Sciences, LL Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
US20050181386A1 (en) * 2003-09-23 2005-08-18 Cornelius Diamond Diagnostic markers of cardiovascular illness and methods of use thereof
CN107967410B (zh) * 2017-11-27 2021-07-30 电子科技大学 一种面向基因表达与甲基化数据的融合方法
EP3721232A1 (en) * 2017-12-05 2020-10-14 DiscernDx, Inc. Robust panels of colorectal cancer biomarkers
CN108806796A (zh) * 2018-05-28 2018-11-13 苏州大学 一种医疗数据的特征选择方法及相关装置
CN109190713A (zh) * 2018-09-29 2019-01-11 王海燕 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN109887600A (zh) * 2019-04-16 2019-06-14 上海理工大学 一种对非小细胞肺癌预后生存情况的分析方法
CN111933211B (zh) * 2020-06-28 2023-10-31 北京谷海天目生物医学科技有限公司 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020245748A1 (en) * 2019-06-03 2020-12-10 Polyvalor, Limited Partnership Methods and systems for assessing a phenotype of a biological tissue of a patient using raman spectroscopy
CN111370061A (zh) * 2019-06-20 2020-07-03 深圳思勤医疗科技有限公司 基于蛋白标记物与人工智能的癌症筛查方法

Also Published As

Publication number Publication date
CN112885409A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Dai et al. Using random forest algorithm for breast cancer diagnosis
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
WO2010030794A1 (en) Machine learning methods and systems for identifying patterns in data
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN112885409B (zh) 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Wu et al. Algorithms for detecting protein complexes in PPI networks: an evaluation study
CN113707320A (zh) 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Kong et al. An improved predictor for identifying recombination spots based on support vector machine
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
Lang et al. Can automatic classification help to increase accuracy in data collection?
CN114155910B (zh) 一种癌症体细胞突变功能影响预测方法
CN111739582B (zh) 一种基于协同作用网络的生物组学数据分析方法
Cai et al. A novel gene ranking algorithm based on random subspace method
Haines et al. Machine Learning Models for Histopathological Breast Cancer Image Classification
CN115965294A (zh) 一种基于机器学习和环境dna的河流水生态健康评价方法
CN116758986A (zh) 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法
Li et al. A novel LASSO-based feature weighting selection method for microarray data classification
Kavousi et al. A post-method condition analysis of using ensemble machine learning for cancer prognosis and diagnosis: a systematic review
Gundu Artificial Intelligence: Using BLAST Algorithm for DNA Classification of Thicket Vegetation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant