CN112599190B - 一种基于混合分类器来识别耳聋相关基因的方法 - Google Patents
一种基于混合分类器来识别耳聋相关基因的方法 Download PDFInfo
- Publication number
- CN112599190B CN112599190B CN202011497263.XA CN202011497263A CN112599190B CN 112599190 B CN112599190 B CN 112599190B CN 202011497263 A CN202011497263 A CN 202011497263A CN 112599190 B CN112599190 B CN 112599190B
- Authority
- CN
- China
- Prior art keywords
- deafness
- genes
- classifier
- model
- related genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 202
- 206010011878 Deafness Diseases 0.000 title claims abstract description 98
- 208000016354 hearing loss disease Diseases 0.000 title claims abstract description 95
- 231100000895 deafness Toxicity 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000012706 support-vector machine Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 37
- 150000001413 amino acids Chemical class 0.000 claims description 33
- 102000004169 proteins and genes Human genes 0.000 claims description 30
- 238000002474 experimental method Methods 0.000 claims description 28
- 108020004705 Codon Proteins 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 17
- 108091026890 Coding region Proteins 0.000 claims description 12
- 230000035772 mutation Effects 0.000 claims description 10
- -1 aromatic amino acids Chemical class 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000003672 processing method Methods 0.000 claims description 7
- 108700010070 Codon Usage Proteins 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000002378 acidificating effect Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 2
- 238000007637 random forest analysis Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000001537 neural effect Effects 0.000 abstract 1
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 206010061373 Sudden Hearing Loss Diseases 0.000 description 9
- 206010011891 Deafness neurosensory Diseases 0.000 description 4
- 102100037680 Fibroblast growth factor 8 Human genes 0.000 description 4
- 101001027382 Homo sapiens Fibroblast growth factor 8 Proteins 0.000 description 4
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 4
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 4
- 231100000888 hearing loss Toxicity 0.000 description 4
- 230000010370 hearing loss Effects 0.000 description 4
- 102100035730 B-cell receptor-associated protein 31 Human genes 0.000 description 3
- 102100022373 Homeobox protein DLX-5 Human genes 0.000 description 3
- 101000874270 Homo sapiens B-cell receptor-associated protein 31 Proteins 0.000 description 3
- 101000901627 Homo sapiens Homeobox protein DLX-5 Proteins 0.000 description 3
- 101001000631 Homo sapiens Peripheral myelin protein 22 Proteins 0.000 description 3
- 101001082860 Homo sapiens Peroxisomal membrane protein 2 Proteins 0.000 description 3
- 101000635938 Homo sapiens Transforming growth factor beta-1 proprotein Proteins 0.000 description 3
- 102100030564 Peroxisomal membrane protein 2 Human genes 0.000 description 3
- 208000009966 Sensorineural Hearing Loss Diseases 0.000 description 3
- 102100030742 Transforming growth factor beta-1 proprotein Human genes 0.000 description 3
- 208000023573 sensorineural hearing loss disease Diseases 0.000 description 3
- 102100037156 Gap junction beta-2 protein Human genes 0.000 description 2
- 101000954092 Homo sapiens Gap junction beta-2 protein Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 231100000879 sensorineural hearing loss Toxicity 0.000 description 2
- 102100030799 28S ribosomal protein S2, mitochondrial Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 101000636137 Homo sapiens 28S ribosomal protein S2, mitochondrial Proteins 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000009205 Tinnitus Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000023088 sudden sensorineural hearing loss Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 231100000886 tinnitus Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于反向传播神经网络‑支持向量机BPNN‑SVM混合分类器来识别耳聋相关基因的方法,属于数据分析领域。采用反向传播神经网络分类器和支持向量机分类器形成混合分类器,达到使用计算方法结合序列特征对耳聋相关基因进行鉴定的目的。使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,该方法将反向传播神经网络和支持向量机算法结合在一起。为检验该模型的有效性,用训练好的BPNN‑SVM集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。本发明中提出的分类模型具有从大量未知基因中筛选出高可疑耳聋相关基因方面的潜在能力。
Description
技术领域
本发明属于数据分析领域,涉及一种基于BPNN-SVM混合分类器来识别耳聋相关基因的方法。
背景技术
突发性聋,又称突发性感音神经性耳聋(Sudden sensorineural hearing loss--SSNHL),是一种以突然发生的、原因不明,在数秒到数天内迅速发展为特征的听力损伤综合征。它通常被定义为在72小时内发生至少三个连续频率的30分贝或以上的感音神经性耳聋,但其他的定义还包括在12或24小时内的听力损失,以强调突发性听力损失的概念。据统计,全球每年10万人中有5至20个人患有SSNHL,任何年龄阶段都有可能患这种疾病,但发病率最高的时期是40-60岁。听力损失可以涉及任何频率范围,也可以是全身性的,常伴有耳鸣、眩晕、恶心、呕吐等症状。
近些年来,有研究学者认为突发性聋与遗传性耳聋相关基因的突变相关。Janecke,A.R.等通过研究奥地利突发性聋患者的GJB2突变的表型谱和频率,提出进行性听力损失和复发性突发性感音神经性听力损失与GJB2突变相关。Gross等发现MTR A2756G基因型与SSNHL之间存在显著的相关性。Furuta,T.等利用对照试验和统计分析工具发现白细胞介素-1基因(IL1A)多态性与SSNHL和梅尼埃氏病是紧密相关的。Koide,Y.等借助实验方法和多元素logistic回归,分析了UCP2基因多态性与SSNHL有明显的相关性。Cao等对近些年突发性聋的病因的研究进行一个系统的回顾,总结出大量研究支持基因多态性与SSNHL易感性相关。
目前,已经有许多学者对突发性聋的病因和预后进行了研究。多数研究以突发性聋患者为实验组,以正常人为对照组。采用临床实验提取患者DNA,利用PCR扩增技术,并对其产物进行DNA测序(Sanger测序、二代测序、三代基因组测序),借助SPSS软件进行统计分析基因突变位点与突发性聋之间的相关性。这种以试验为主的方法虽然准确率较高,但昂贵又耗时,如对全基因组进行测序需要做大量的实验,耗费大量的人力物力,并不适宜普遍用于突发性聋患者的检测。
在疾病基因检测中,研究者们已经使用分类算法来预测和识别疾病基因,这些方法通常都是以疾病相似性网络、基因和表型相似性网络或者基因表达数据等为特征来训练分类器,利用基于机器学习的分类算法来预测和识别疾病基因。然而,在耳聋相关基因的识别和预测方面,还没有采用计算方法。此外,一些基于实验的特征难以得到。
发明内容
针对上述现有技术的不足,本发明申请所要解决的技术问题是:如何提供一种特征易于获取、分类效果好的分类器来识别耳聋相关基因的方法。
为达到上述目的,本发明提供如下技术方案:
一种基于混合分类器来识别耳聋相关基因的方法,该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因。
可选的,所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVD v8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集∶负集=1∶1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Web of science和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172。
可选的,所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征利用生物信息学工具和编程计算得出;
特征数据预处理为:
待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理。
可选的,所述S3、S4、S5具体为:
将数据集按训练集∶验证集∶测试集=6∶2∶2的比例分开,正负比例1∶1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力;
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选的几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器,
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大。
可选的,所述S6具体为:
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测为耳聋相关基因的次数分别为ABPNN、ASVM;设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因;
采用集成策略:将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,根据S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;k是根据实验中测试集中的正集样本数量决定的,k小于等于正集样本数量;
采用以上集成策略将BPNN分类器和SVM分类器结合起来,对待预测数据集进行分析研究,按照集成模型对未知基因进行排序,得最终预测结果。
本发明的有益效果在于:该方法将反向传播神经网络(BPNN)和支持向量机(SVM)算法简洁有效地结合在一起。实验数据由耳聋数据库DVD v8.2中的149个耳聋相关基因和从染色体中提取的1490个基因组成,数据特征集由基于序列的序列特征、蛋白质特征、信息熵等特征组成,采用训练集∶验证集∶测试集为6∶2∶2的方法进行训练,然后利用集成策略将较优的基分类器集成为最终的分类模型。为检验该模型的有效性,用训练好的集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。62个基因中有5个基因被分类为耳聋相关基因,这说明了本发明中提出的集成分类模型具有从大量未知基因中筛选出高可疑的耳聋相关基因方面的潜在能力。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为数据处理流程图;
图2为整体流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1和图2,本发明的步骤如下:
1)数据收集与融合
数据收集:
用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVD v8.2(Deafness Variation Database v8.2)和NCBI(https://www.ncbi.nlm.nih.gov/)数据库。从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列。
数据融合:
正集:
将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个编码基因序列和463个蛋白质序列;
负集:
从人类基因中去除掉耳聋相关基因对应的序列,接着从剩余的人类基因序列中随机取出1490个基因所对应的基因编码序列和蛋白质序列,构成负集数据,共有3783个编码DNA序列和3783个蛋白质序列。
负集构建说明:
负集数据(非耳聋相关基因)很难确定,因为没有数据库或文章明确指出哪些基因位点突变与耳聋完全无关。关于人类染色体上的总基因数没有统一的说法,大多数研究生学者统计出大约2到2.5万个,本发明中从NCBI上下载已经全部被记录的基因,大约有20035个基因。除了十五项耳聋相关基因检测试剂盒中3个耳聋相关基因和正集的149个基因外,还剩下19883个基因。根据每条相应的人类染色体中149个耳聋相关基因的比例,从19883个基因中随机抽取1490个基因。这1490个基因不包含Web ofScience、EI等数据库文献中提到的耳聋相关基因。将这1490个基因看作与耳聋无关的基因,在相应数据库依次下载每个基因的给基因编码序列和蛋白质序列,并对数据去除重复序列,进行数据清洗,共有3783个编码DNA序列和3783个蛋白质序列。每次实验从中随机选取与正集(463个实例)相同数量的样本构成负集,使得正集:负集=1:1(如表1)。
用这个策略构造一个负集有两个原因。首先,潜在未发现的耳聋相关基因的数量远远少于非耳聋相关基因的数量,潜在耳聋相关基因被选为非耳聋相关基因的几率很小。其次,每个分类器进行A次循环的实验,得出平均的预测结果,提高了稳定性和准确性,降低了选择潜在的耳聋相关基因作为非耳聋相关基因对实验的影响。
待预测数据集:
为了验证模型的准确性和有效性,设计了待预测数据集进行评估。
待测数据集,目前从Web ofscience、EI等数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果(如表1)。
为了提高模型的普适性,避免过拟合情况的出现,实验中将数据集按训练集:验证集:测试集=6:2:2的比例分开,训练集(正负比例1:1)用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来为了测试模型的性能。
表1实验数据集的描述
一个基因可以有多个基因编码序列,每个基因编码序列对应一个蛋白质序列。每个样本代表了该基因编码序列的特征和相应蛋白质序列特征的组合,所以样本的数量等于基因编码序列的数量。
2)特征提取与预处理(特征归一化)
在预测疾病基因的研究中,研究者提出了各种与疾病基因相关的特征,包括高通量实验特征、蛋白-蛋白相互作用数据或基因-表达数据。然而,许多这些特征是基于实验数据,不容易获得,且基于实验数据的新基因组特征普遍缺失,导致计算预测的应用范围有限。为了解决这个问题,将重点放在能较好的表示生物特性的基于序列的特征上。
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征可以利用生物信息学工具和编程计算得出。
特征数据预处理:
由于待分析的序列特征数据集中,某些数据的特征值缺失,如:部分基因编码序列的密码子特征类中的Nc指标值的缺失等。利用常用的缺失值处理办法均值插补补全缺失值;此外,每类特征通常具有不同的量纲和数量级,因此,为了保证预测结果的可靠性,需要对原始指标数据进行标准化处理。本发明采用的标准化处理方法为Min-max标准化。
3)模型的构建
为了提高模型的普适性,避免过拟合情况的出现,实验中将数据集按训练集∶验证集∶测试集=6∶2∶2的比例分开,训练集(正负比例1∶1)用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来为了测试模型的性能。本方法中使用准确性(Accuracy)、召回率(Recall)、精确度(Precision)、F-measure(F1)和G-mean来评估模型的预测分类能力。
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器;
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大;将未标记的样本在2中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;
待预测数据集:在文献数据库中搜集到的62个耳聋相关基因,从NCBI上下载这62个基因所对应的172个基因编码序列,以及基因编码序列相对应的蛋白质序列,计算出54个特征,利用训练好BPNN基分类器、SVM基分类器分别对这172个样本进行实验,循环A次,取A次实验的平均值,其中BPNN基分类器模型预测出的耳聋相关基因为:GATA3、FGF8、PMP22,SVM基分类模型预测出的耳聋相关基因为:FGF8、GATA3、BCAP31、DLX5、TGFB1、MRPS2,利用本发明中的集成策略,将基分类器预测出的结果进行叠加,按预测出的次数进行排序,得到的最后的预测结果为GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1。
在Ensembl、OMIM等数据库中查到了这6个预测为高可疑耳聋相关基因以及其突变位点与疾病表型的关系,GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1相应位点的突变能导致耳聋相关的疾病,这些疾病会导致耳聋或感音神经性听力丧失。本模型将他们预测为高可以耳聋相关基因,这显示了本模型在鉴定出高可疑耳聋相关基因方面的能力。
计算方法预测耳聋相关基因,在突发性聋的预后分析中具有重要意义。本发明基于机器学习的方法,利用BPNN基分类器和SVM基分类器构建了预测高可疑耳聋相关基因的分类模型。文中利用信号处理方法提取基于序列的特征,在数据处理过程中,将数据集分为训练集,验证集和测试集,将BPNN基分类器模型和SVM基分类器模型整合成一个集成模型,然后利用集成模型对测试集进行测试。此外,设计了待预测数据集进一步评估模型的准确性和有效性,包括文献中收集到的62个耳聋相关基因。
分析结果显示,提出的模型能够帮助筛选高可疑耳聋相关基因。文中提出的该计算方法缩小了数据筛选的范围,为生物学家进行耳聋相关基因筛选实验节省了时间和成本,为突发性耳聋的临床提供了必要的指导。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;
所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集:负集=1:1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Web of science和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172;
所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征利用生物信息学工具和编程计算得出;
特征数据预处理为:
待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理;
所述S3、S4、S5具体为:
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力;
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选的几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器,
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大;
所述S6具体为:
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测为耳聋相关基因的次数分别为ABPNN、ASVM;设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因;
采用集成策略:将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,根据S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;k是根据实验中测试集中的正集样本数量决定的,k小于等于正集样本数量;
采用以上集成策略将BPNN分类器和SVM分类器结合起来,对待预测数据集进行分析研究,按照集成模型对未知基因进行排序,得最终预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497263.XA CN112599190B (zh) | 2020-12-17 | 2020-12-17 | 一种基于混合分类器来识别耳聋相关基因的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497263.XA CN112599190B (zh) | 2020-12-17 | 2020-12-17 | 一种基于混合分类器来识别耳聋相关基因的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112599190A CN112599190A (zh) | 2021-04-02 |
CN112599190B true CN112599190B (zh) | 2024-04-05 |
Family
ID=75199059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497263.XA Active CN112599190B (zh) | 2020-12-17 | 2020-12-17 | 一种基于混合分类器来识别耳聋相关基因的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599190B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003094086A2 (en) * | 2002-05-02 | 2003-11-13 | Biotech Research Ventures Pte Limited | Analysis of gene expression data for multi-class prediction |
WO2006044017A2 (en) * | 2004-08-13 | 2006-04-27 | Jaguar Bioscience Inc. | Systems and methods for identifying diagnostic indicators |
JP2006158349A (ja) * | 2004-12-10 | 2006-06-22 | Bml Inc | 難聴を規定する遺伝子変異の検出方法 |
WO2009094713A1 (en) * | 2008-01-29 | 2009-08-06 | Murdoch Childrens Research Institute | Diagnosis and treatment of sensory defect |
WO2010060055A1 (en) * | 2008-11-21 | 2010-05-27 | Duke University | Predicting cancer risk and treatment success |
CN101950326A (zh) * | 2010-09-10 | 2011-01-19 | 重庆大学 | 基于Hurst指数的DNA序列相似性检测方法 |
CN103793600A (zh) * | 2014-01-16 | 2014-05-14 | 西安电子科技大学 | 结合独立分量分析和线性判别分析的癌症预测方法 |
UA90488U (uk) * | 2014-01-13 | 2014-05-26 | Лариса Петрівна Сидорчук | Спосіб прогнозування нейросенсорної приглухуватості у дітей залежно від генотипу гена конексину (сх26) бета 2 |
CN104573410A (zh) * | 2015-01-20 | 2015-04-29 | 合肥工业大学 | 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法 |
WO2017008177A1 (en) * | 2015-07-14 | 2017-01-19 | Capitalbio Corporation | Compositions and methods for detection of genetic deafness gene mutation |
CN106959284A (zh) * | 2017-03-27 | 2017-07-18 | 江苏大学 | 一种区分转基因玉米和非转基因玉米的检测方法 |
CN110111848A (zh) * | 2019-05-08 | 2019-08-09 | 南京鼓楼医院 | 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 |
WO2020041204A1 (en) * | 2018-08-18 | 2020-02-27 | Sf17 Therapeutics, Inc. | Artificial intelligence analysis of rna transcriptome for drug discovery |
CN111575360A (zh) * | 2020-04-07 | 2020-08-25 | 吴丽华 | 一种检测人耳聋基因结构变异的方法及结构变异组和应用 |
CN111933288A (zh) * | 2020-08-21 | 2020-11-13 | 上海交通大学医学院附属第九人民医院 | 基于cnn的先天性耳聋疾病预测方法、系统以及终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060195266A1 (en) * | 2005-02-25 | 2006-08-31 | Yeatman Timothy J | Methods for predicting cancer outcome and gene signatures for use therein |
-
2020
- 2020-12-17 CN CN202011497263.XA patent/CN112599190B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003094086A2 (en) * | 2002-05-02 | 2003-11-13 | Biotech Research Ventures Pte Limited | Analysis of gene expression data for multi-class prediction |
WO2006044017A2 (en) * | 2004-08-13 | 2006-04-27 | Jaguar Bioscience Inc. | Systems and methods for identifying diagnostic indicators |
JP2006158349A (ja) * | 2004-12-10 | 2006-06-22 | Bml Inc | 難聴を規定する遺伝子変異の検出方法 |
WO2009094713A1 (en) * | 2008-01-29 | 2009-08-06 | Murdoch Childrens Research Institute | Diagnosis and treatment of sensory defect |
WO2010060055A1 (en) * | 2008-11-21 | 2010-05-27 | Duke University | Predicting cancer risk and treatment success |
CN101950326A (zh) * | 2010-09-10 | 2011-01-19 | 重庆大学 | 基于Hurst指数的DNA序列相似性检测方法 |
UA90488U (uk) * | 2014-01-13 | 2014-05-26 | Лариса Петрівна Сидорчук | Спосіб прогнозування нейросенсорної приглухуватості у дітей залежно від генотипу гена конексину (сх26) бета 2 |
CN103793600A (zh) * | 2014-01-16 | 2014-05-14 | 西安电子科技大学 | 结合独立分量分析和线性判别分析的癌症预测方法 |
CN104573410A (zh) * | 2015-01-20 | 2015-04-29 | 合肥工业大学 | 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法 |
WO2017008177A1 (en) * | 2015-07-14 | 2017-01-19 | Capitalbio Corporation | Compositions and methods for detection of genetic deafness gene mutation |
CN106959284A (zh) * | 2017-03-27 | 2017-07-18 | 江苏大学 | 一种区分转基因玉米和非转基因玉米的检测方法 |
WO2020041204A1 (en) * | 2018-08-18 | 2020-02-27 | Sf17 Therapeutics, Inc. | Artificial intelligence analysis of rna transcriptome for drug discovery |
CN110111848A (zh) * | 2019-05-08 | 2019-08-09 | 南京鼓楼医院 | 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 |
CN111575360A (zh) * | 2020-04-07 | 2020-08-25 | 吴丽华 | 一种检测人耳聋基因结构变异的方法及结构变异组和应用 |
CN111933288A (zh) * | 2020-08-21 | 2020-11-13 | 上海交通大学医学院附属第九人民医院 | 基于cnn的先天性耳聋疾病预测方法、系统以及终端 |
Non-Patent Citations (5)
Title |
---|
Classifiers for Predicting Coronary Artery Disease Based on Gene Expression Profiles in Peripheral Blood Mononuclear Cells;Liu, Jie,等;《 INTERNATIONAL JOURNAL OF GENERAL MEDICINE》;20211231;第14卷;第5651-5663页 * |
Deafness gene screening based on a multilevel cascaded BPNN model;Liu, Xiao,等;《BMC BIOINFORMATICS》;20230220;第24卷(第1期);第56篇 * |
Random Subspace Aggregation for Cancer Prediction with Gene Expression Profiles;Yang, Liying,等;《BIOMED RESEARCH INTERNATIONAL》;20161231;第2016卷;第4596326篇 * |
支持向量分类器及其在原核生物基因计算识别中的应用;黄国华;《湖南第一师范学院学报》;20110430;第11卷(第2期);第133-136页 * |
耳聋基因的计算预测研究;任美香;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20221015(第10期);E073-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN112599190A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Guidelines for bioinformatics of single-cell sequencing data analysis in Alzheimer’s disease: review, recommendation, implementation and application | |
CN110033860B (zh) | 一种基于机器学习的遗传代谢病检出率提升方法 | |
CA2877430C (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
CN112927757B (zh) | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 | |
KR102382707B1 (ko) | 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
CN107208131A (zh) | 用于肺癌分型的方法 | |
CN113593630A (zh) | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 | |
CN110246544B (zh) | 一种基于整合分析的生物标志物选择方法及系统 | |
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
KR20110054926A (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
CN112599190B (zh) | 一种基于混合分类器来识别耳聋相关基因的方法 | |
CN117393042A (zh) | 一种预测错义突变致病性的分析方法 | |
KR102389479B1 (ko) | 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
CN110957010B (zh) | 一种免疫年龄模型学习方法 | |
Chitode et al. | A comparative study of microarray data analysis for cancer classification | |
Hassan et al. | Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human | |
Xi et al. | SiftCell: A robust framework to detect and isolate cell-containing droplets from single-cell RNA sequence reads | |
KR101147691B1 (ko) | 유전 정보 비교를 이용한 혈연관계 판별장치 | |
CN111020021A (zh) | 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN117437976B (zh) | 基于基因检测的疾病风险筛查方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |