CN111739581A - 一种基因组变量综合筛选方法 - Google Patents
一种基因组变量综合筛选方法 Download PDFInfo
- Publication number
- CN111739581A CN111739581A CN202010532686.4A CN202010532686A CN111739581A CN 111739581 A CN111739581 A CN 111739581A CN 202010532686 A CN202010532686 A CN 202010532686A CN 111739581 A CN111739581 A CN 111739581A
- Authority
- CN
- China
- Prior art keywords
- feature
- community
- calculating
- follows
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012216 screening Methods 0.000 title claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 82
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002493 microarray Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 206010028980 Neoplasm Diseases 0.000 description 17
- 201000011510 cancer Diseases 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 108091067554 Homo sapiens miR-381 stem-loop Proteins 0.000 description 3
- 108700020796 Oncogene Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 101150039504 6 gene Proteins 0.000 description 2
- 102000043276 Oncogene Human genes 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000011223 gene expression profiling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004001 molecular interaction Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 1
- IIRWWTKISYTTBL-SFHVURJKSA-N arbutamine Chemical compound C([C@H](O)C=1C=C(O)C(O)=CC=1)NCCCCC1=CC=C(O)C=C1 IIRWWTKISYTTBL-SFHVURJKSA-N 0.000 description 1
- 229960001488 arbutamine Drugs 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012775 microarray technology Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基因组变量综合筛选方法,属于基因组数据分析技术领域。该方法采用非重叠度衡量基因自身的区分能力,通过基因与基因之间的相关性得到基因的影响力,考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。
Description
技术领域
本发明属于基因组数据分析技术领域,发明结合当前高通量技术下基因组数据变量多、噪音多、变量之间协同作用等实际特点,从单分子层面、分子相互作用层面以及网络层面分析了基因组中基因自身差异性、影响力以及基因所处社团的重要性,综合各项指标,筛选基因标志物,有助于后续癌症的检测以及癌症机理的探讨,是一种基因组变量综合评价筛选方法。
背景技术
进入21世纪,生物信息学迅速发展。生物信息学是计算机科学与生物学相结合的新兴学科,主要研究生物信息的采集、存储、分析和解释,通过综合运用计算机技术和生物学技术揭示潜藏在生物大数据背后的生命奥秘。生物学技术领域目前已开发出适合于记录组织样本中基因表达数据的微阵列技术。一些大型癌症基因组平台收集并提供了大量的基因组癌症数据,为全面了解癌症的发生发展机理提供了全新的视角和前所未有的资源支持。
癌症的检测对于提高患者的生存率和生活质量起着至关重要的作用。检测癌症的方法主要有临床症状分析、影像诊断、生化检查和分子诊断等。目前,检测基因表达谱数据已成为一种潜在的癌症检测方法。例如,血小板的基因表达谱数据可以用来检测癌症。利用血小板基因表达谱数据检测肿瘤具有独特的分子诊断学优势,克服了获得组织的困难。
然而,基因组数据的特点是样本量小、特征维度高、噪声多。从众多的基因中筛别出真正与癌症发生发展相关的基因仍然是一个挑战。由于这个原因,许多研究都集中在选择对分类有重要意义的一小群基因上。机器学习算法中的特征选择技术便尤为重要,并且过滤式特征选择方法由于其计算量小、可解释能力强得到了广泛的运用。过滤式特征选择方法先按照某种规则对数据集进行特征选择,再训练学习器。常见的过滤式特征选择算法有mRMR、ReliefF、T-test、ERGS等算法。mRMR算法是基于信息论中最大相关性、最小冗余性的原则进行特征过滤。ReliefF算法依据特征对近邻样本的区分能力对特征赋予不同权重,筛选权重高的特征进行训练学习。T-test算法利用统计理论检验特征分布的差异性。ERGS算法根据特征的非重叠度过滤特征。这些方法主要是依赖特征自身的区分能力而对特征进行筛选。将其用于复杂的生物数据集,却有其一定的局限性。癌症的发生发展往往是多个基因相互作用的结果。基因间的相互作用不可忽视。因此综合考虑基因自身的区分能力、与其他基因的交互作用以及它在基因网络中的作用三个方面将使得基因的评价更为准确。
本发明提出了一种基因组变量综合筛选方法。该方法采用非重叠度衡量基因自身的区分能力,通过基因与基因之间的相关性得到基因的影响力,考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。
发明内容
本发明的目的是建立一种基因组变量综合筛选方法,进行后续基因标志物的研究。本发明根据基因组数据变量多、噪音大、变量间相互作用的特点,提出了一种理论假设:致癌基因的表达水平在正常样本与癌症患者上具有较大的差异,在众多基因中有较大的影响力,在网络中应属于重要的社团。基于该假设,提出了一种基因组变量的综合评价筛选方法。该方法的核心技术为:评价基因组基因自身差异性、基因的影响力以及基因所处社团的重要性。该方法基于非重叠度得到基因差异表达水平得分。基因的非重叠度大,说明基因的表达水平在正常人群与癌症患者之间具有较大的差异,更有可能是致癌基因;基因的非重叠度小,说明基因的表达水平在正常人群与癌症患者之间相似,可能是一个无关变量,它是致癌基因的概率较低。癌症的发生往往是分子相互作用的结果。一个基因发生了变异,与它相关性强的基因也会受到影响。一个影响力大的基因发生变异,将会带来一系列连锁反应,甚至会有牵一发而动全身的效果。从网络角度出发,基因往往会与其他基因形成社团共同起作用,大大小小的社团随之出现。社团的重要性不尽相同。社团的重要性由社团的大小以及社团的差异水平得分决定。一个基因处于重要的社团,其影响力将会进一步扩大。小的社团通常不会产生显著的通路富集注释。在极端情况下,有的基因会成为一个孤立点,这意味着该基因与其他基因没有明显的交互,即使发生了变异,对于网络的影响亦是无足轻重,不会干扰机体的正常运行。社团中差异表达的基因数目大,意味着该社团在疾病的发生发展中参与程度高。反之,社团中差异表达的基因数目微乎其微,那么该社团与疾病的发生发展联系较小。综合基因组基因自身差异性、影响力以及基因所处社团的重要性,筛选出基因标志物,进行后续基因标志物的研究。
为了实现上述目标,本发明采用的技术方案如下:
一种基因组变量综合筛选方法,步骤如下:
使用微阵列数据集,将基因看作变量,将基因的表达值看作变量的值;
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={cj:j=1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i(1≤i≤n)个样本的类标。
步骤一、计算基因差异性得分;
(1.1)计算特征fi(1≤i≤m)在类cj(j=1,2)样本上的有效范围,公式(1)如下:
(1.2)计算fi的重叠区域OAi,公式(2)如下:
(1.3)计算特征fi的重叠区域系数ACi,公式(3)如下:
(1.4)计算特征fi的标准化重叠区域系数NACi,公式(4)如下:
(1.5)计算特征fi的非重叠度wi,公式(5)如下:
wi=1-NACi (5)
(1.6)根据特征fi的非重叠度wi,计算其自身差异性得分DSi,公式(6)如下:
步骤二、计算特征的影响力;
(2.1)计算特征fi(1≤i≤m)与特征fu(1≤u≤m)之间的相关性coriu,公式(7)如下:
(2.2)计算特征fi对特征fu的影响力,公式(8)如下:
公式中abs(coriu)代表特征fi与特征fu相关性的绝对值。
(2.3)计算特征fi的影响力,公式(9)如下:
步骤三、计算特征fi所属社团的重要性;
(3.1)构建稀疏的相关性网络Net,公式(10)如下:
当特征fi与特征fj之间相关性的绝对值大于阈值β,则建立连边,否则特征fi与特征fj之间没有连边。
(3.2)执行快速贪婪算法划分社团。令G={g1,g2,...,gk,...,gl}代表社团集合,l是社团数。令gk={f1’,f2’,...fo’},o是社团gk的社团成员数,f1’,f2’,...fo’是gk的社团成员。
(3.3)评价fi所在社团的重要性。筛选特征集合F中差异性得分大于0的特征构成集合DF,令DF={fv|DSv>0,fv∈F}。fi所在社团的重要性得分公式如下:
MSi=MSSi+MDSi (13)
MSSi代表特征fi所在社团的规模得分,MDSi代表特征fi所在社团的差异性得分,MSi代表特征fi所在社团的综合得分,||代表集合中元素数目。
步骤四、计算特征fi的综合得分,公式如下:
Scorei=DSi*Ii*MSi (14)
步骤五、筛选目标变量;
令已选特征集合为S,S初始化为空集。从特征集合F中选择一个综合得分最高且差异性得分大于0的特征,加入已选特征集合S,并且从特征集合F中删除它以及它在相关性网络Net中的近邻。在剩余的特征集合F中重复此过程,直至特征集合F为空或者已选特征集合S中特征的数量到达一定阈值Ω。
本发明的有益效果:该方法的核心技术基于基因组数据的实际特点,对基因进行了多角度分析与综合评价,挖掘出基因标志物集合,对所选基因标志物进行分类测试,分类性能优越,故本发明为基因组数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。
附图说明
图1为DIM算法流程;
图2为相关性网络图;
图3为基因hsa-miR-18a*盒图;图中,左边是1,右边是2;
图4为基因hsa-miR-381盒图;图中,左边是1,右边是2;
图5为基因hsa-miR-18a*与基因hsa-miR-381的ROC曲线图。
具体实施方式
下面结合技术方案,构建假设的数据集来进一步说明本发明的具体实施方式。假设基因组数据共10个样本,包含两类(1和2),共6个基因变量:f1、f2、f3、f4、f5和f6。
变量评价与筛选:
(1)计算基因的差异性得分。使用公式(1)-(5),计算每个基因的非重叠度,假设f1、f2、f3、f4、f5和f6的非重叠度分别为0.9、0.8、0.8、0.6、0.5、0.4,设置α=0.8,根据公式(6),可以得到每个基因的差异性得分,DS1=0.9,DS2=DS3=0.8,DS4=DS5=DS6=0。
(2)利用基因之间的相关性计算每个基因的影响力。假设基因之间的相关性如下表所示:
表1.基因之间的相关性
根据公式(8),计算每个基因对其他基因的影响力,以f1为例,如下所示:
I12=0.8/(0.8+0.5+0.5+0.5+0.5)=0.29,I13=I14=I15=I16=0.5/(0.5+0.5+0.8+0.8+0.8)=0.15。根据公式(9),计算基因的影响力,I1=0.29+0.15+0.15+0.15+0.15=0.89。其他基因的影响力同理,I2=0.89,I3=I4=I5=I6=1.08。
(3)计算每个基因所在社团的重要性。设置相关性阈值为0.6,如公式(10)所示,构建稀疏的相关性网络Net,如图2所示。按照快速贪婪算法对上述6个基因社团划分为2个社团。社团1包含f1和f2,社团2包含f3、f4、f5和f6。按照公式(11),可以得到模块大小得分MSS1=MSS2=2/6=0.33,MSS3=MSS4=MSS5=MSS6=4/6=0.67。按照公式(12)可以得到模块差异性得分MDS1=MDS2=2/3=0.67,MDS3=MDS4=MDS5=MDS6=1/3=0.33。因此按照公式(13)可以得到MS1=MS2=MS3=MS4=MS5=MS6=1。
(4)计算每个基因的得分。按照公式(14)可得,f1的综合得分为Score1=0.9*0.89*1=0.80,同理f2、f3、f4、f5和f6的最终得分Score2=0.71,Score3=0.86,Score4=Score5=Score6=0。f3的得分最大,并且DS3不为0,首先加入已选特征集合。从特征集合F中去除f3和网络Net中f3的近邻(f4、f5、f6),因此还剩下f1、f2。f1特征得分较大,并且DS1不为0,加入到已选特征集合中,从剩余特征集合F中去除f1和网络Net中f1的一近邻(f2),特征集合F为空,迭代终止。筛选得到的已选特征集合为{f1,f3}。
计算测试集上所有样本的预测情况,并与真实类标相比较,得到分类准确率,验证所选基因的区分能力。
下面的表格为此方法DIM与常用模式识别技术mRMR、ReliefF、T-test、ERGS方法在9个公共数据集上交叉验证50次5倍的分类准确度比较结果(准确度±标准差)。*为t检验中p值小于0.05的显著性差异,加粗字体标记出了在相应数据集上取得的最高分类准确率。从结果可以得出,本技术所确定的特征集合具有较强的区分能力。
表2.准确率对比
以上述表格中的GSE28700数据集为例,该数据集包含44个样本(22个正常样本和22个癌症样本)、556个基因。图3-图4为本方法使用50次5倍交叉验证所选择的特征中出现频率最高的前两位,分别为基因hsa-miR-18a*(图3),基因hsa-miR-381(图4)。从图中可以看出所选择的特征呈现清晰的类间分离趋势。图5为两个特征的ROC曲线图,AUC值达到了0.959,说明筛选得到的这两个特征联合在一块,具有很高的区分能力。
从上述表格中可以看出,该技术可以从基因组数据中挖掘出信息丰富的变量,对于样本的分类具有较高的准确率,为后续基因标志物的研究提供了方向,具有较强的应用价值。
Claims (1)
1.一种基因组变量综合筛选方法,其特征在于,步骤如下:
使用微阵列数据集,将基因看作变量,将基因的表达值看作变量的值;
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={cj:j=1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标,1≤i≤n;
步骤一、计算基因差异性得分;
(1.1)计算特征fi在类cj样本上的有效范围,1≤i≤m,j=1,2;公式(1)如下:
(1.2)计算fi的重叠区域OAi,公式(2)如下:
(1.3)计算特征fi的重叠区域系数ACi,公式(3)如下:
(1.4)计算特征fi的标准化重叠区域系数NACi,公式(4)如下:
(1.5)计算特征fi的非重叠度wi,公式(5)如下:
wi=1-NACi (5)
(1.6)根据特征fi的非重叠度wi,计算其自身差异性得分DSi,公式(6)如下:
步骤二、计算特征的影响力;
(2.1)计算特征fi与特征fu之间的相关性coriu,1≤i≤m,1≤u≤m;公式(7)如下:
(2.2)计算特征fi对特征fu的影响力,公式(8)如下:
公式中abs(coriu)代表特征fi与特征fu相关性的绝对值;
(2.3)计算特征fi的影响力,公式(9)如下:
步骤三、计算特征fi所属社团的重要性;
(3.1)构建稀疏的相关性网络Net,公式(10)如下:
当特征fi与特征fj之间相关性的绝对值大于阈值β,则建立连边,否则特征fi与特征fj之间没有连边;
(3.2)执行快速贪婪算法划分社团;令G={g1,g2,...,gk,...,gl}代表社团集合,l是社团数;令gk={f1’,f2’,...fo’},o是社团gk的社团成员数,f1’,f2’,...fo’是gk的社团成员;
(3.3)评价fi所在社团的重要性;筛选特征集合F中差异性得分大于0的特征构成集合DF,令DF={fv|DSv>0,fv∈F};fi所在社团的重要性得分公式如下:
MSi=MSSi+MDSi (13)
MSSi代表特征fi所在社团的规模得分,MDSi代表特征fi所在社团的差异性得分,MSi代表特征fi所在社团的综合得分,||代表集合中元素数目;
步骤四、计算特征fi的综合得分,公式如下:
Scorei=DSi*Ii*MSi (14)
步骤五、筛选目标变量;
令已选特征集合为S,S初始化为空集;从特征集合F中选择一个综合得分最高且差异性得分大于0的特征,加入已选特征集合S,并且从特征集合F中删除它以及它在相关性网络Net中的近邻;在剩余的特征集合F中重复此过程,直至特征集合F为空或者已选特征集合S中特征的数量到达一定阈值Ω。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532686.4A CN111739581B (zh) | 2020-06-12 | 2020-06-12 | 一种基因组变量综合筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532686.4A CN111739581B (zh) | 2020-06-12 | 2020-06-12 | 一种基因组变量综合筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739581A true CN111739581A (zh) | 2020-10-02 |
CN111739581B CN111739581B (zh) | 2022-10-18 |
Family
ID=72650105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010532686.4A Expired - Fee Related CN111739581B (zh) | 2020-06-12 | 2020-06-12 | 一种基因组变量综合筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739581B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594133A (zh) * | 2024-01-19 | 2024-02-23 | 普瑞基准科技(北京)有限公司 | 用于判别子宫病变类别的生物标志物的筛选方法及其应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866863A (zh) * | 2015-04-27 | 2015-08-26 | 大连理工大学 | 一种生物标志物筛选方法 |
CN109856307A (zh) * | 2019-03-27 | 2019-06-07 | 大连理工大学 | 一种代谢组分子变量综合筛选技术 |
-
2020
- 2020-06-12 CN CN202010532686.4A patent/CN111739581B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866863A (zh) * | 2015-04-27 | 2015-08-26 | 大连理工大学 | 一种生物标志物筛选方法 |
CN109856307A (zh) * | 2019-03-27 | 2019-06-07 | 大连理工大学 | 一种代谢组分子变量综合筛选技术 |
Non-Patent Citations (1)
Title |
---|
谢娟英等: "非平衡基因数据的差异表达基因选择算法研究", 《计算机学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594133A (zh) * | 2024-01-19 | 2024-02-23 | 普瑞基准科技(北京)有限公司 | 用于判别子宫病变类别的生物标志物的筛选方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN111739581B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7761238B2 (en) | Method and apparatus for discovering patterns in binary or categorical data | |
Dettling | BagBoosting for tumor classification with gene expression data | |
CN111276252B (zh) | 一种肿瘤良恶性鉴别模型的构建方法及装置 | |
CN112908414A (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN110890130B (zh) | 基于多类型关系的生物网络模块标志物识别方法 | |
Arslan et al. | Machine learning in epigenomics: Insights into cancer biology and medicine | |
Stolovitzky | Gene selection in microarray data: the elephant, the blind men and our algorithms | |
CN115424666A (zh) | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 | |
CN111739581B (zh) | 一种基因组变量综合筛选方法 | |
Khwaja et al. | A deep autoencoder system for differentiation of cancer types based on DNA methylation state | |
Amaratunga et al. | High-dimensional data | |
CN115662504A (zh) | 一种基于多角度融合的生物组学数据分析方法 | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Qiu et al. | Genomic processing for cancer classification and prediction-Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection | |
CN111164701A (zh) | 针对靶标定序的定点噪声模型 | |
CN116246712B (zh) | 带组稀疏约束多模态矩阵联合分解的数据亚型分类方法 | |
Kostadinova | Data Integration: an approach to improve the preprocessing and analysis of gene expression data | |
Ghai et al. | Proximity measurement technique for gene expression data | |
Wang et al. | The classification of tumor using gene expression profile based on support vector machines and factor analysis | |
Kim et al. | Bayesian validation of fuzzy clustering for analysis of yeast cell cycle data | |
Ma'Sum et al. | Intelligent K-Means clustering for expressed genes identification linked to malignancy of human colorectal carcinoma | |
Subramanian | Cross-correlations in medical data: theory, algorithms, and applications in disease analytics | |
Rudar | Applying Multivariate Decision Trees to Visualize, Select Features, and Gain Insights into Biodiversity Genomics Datasets | |
Ahmad et al. | Gene selection for high dimensional data using k-means clustering algorithm and statistical approach | |
Sun | Novel statistical methods in analyzing single cell sequencing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221018 |