CN112599190B - 一种基于混合分类器来识别耳聋相关基因的方法 - Google Patents

一种基于混合分类器来识别耳聋相关基因的方法 Download PDF

Info

Publication number
CN112599190B
CN112599190B CN202011497263.XA CN202011497263A CN112599190B CN 112599190 B CN112599190 B CN 112599190B CN 202011497263 A CN202011497263 A CN 202011497263A CN 112599190 B CN112599190 B CN 112599190B
Authority
CN
China
Prior art keywords
deafness
genes
classifier
model
related genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011497263.XA
Other languages
English (en)
Other versions
CN112599190A (zh
Inventor
刘晓
任美香
何婷
罗雅川
徐玉桥
左汶奇
钟时勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202011497263.XA priority Critical patent/CN112599190B/zh
Publication of CN112599190A publication Critical patent/CN112599190A/zh
Application granted granted Critical
Publication of CN112599190B publication Critical patent/CN112599190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于反向传播神经网络‑支持向量机BPNN‑SVM混合分类器来识别耳聋相关基因的方法,属于数据分析领域。采用反向传播神经网络分类器和支持向量机分类器形成混合分类器,达到使用计算方法结合序列特征对耳聋相关基因进行鉴定的目的。使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,该方法将反向传播神经网络和支持向量机算法结合在一起。为检验该模型的有效性,用训练好的BPNN‑SVM集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。本发明中提出的分类模型具有从大量未知基因中筛选出高可疑耳聋相关基因方面的潜在能力。

Description

一种基于混合分类器来识别耳聋相关基因的方法
技术领域
本发明属于数据分析领域,涉及一种基于BPNN-SVM混合分类器来识别耳聋相关基因的方法。
背景技术
突发性聋,又称突发性感音神经性耳聋(Sudden sensorineural hearing loss--SSNHL),是一种以突然发生的、原因不明,在数秒到数天内迅速发展为特征的听力损伤综合征。它通常被定义为在72小时内发生至少三个连续频率的30分贝或以上的感音神经性耳聋,但其他的定义还包括在12或24小时内的听力损失,以强调突发性听力损失的概念。据统计,全球每年10万人中有5至20个人患有SSNHL,任何年龄阶段都有可能患这种疾病,但发病率最高的时期是40-60岁。听力损失可以涉及任何频率范围,也可以是全身性的,常伴有耳鸣、眩晕、恶心、呕吐等症状。
近些年来,有研究学者认为突发性聋与遗传性耳聋相关基因的突变相关。Janecke,A.R.等通过研究奥地利突发性聋患者的GJB2突变的表型谱和频率,提出进行性听力损失和复发性突发性感音神经性听力损失与GJB2突变相关。Gross等发现MTR A2756G基因型与SSNHL之间存在显著的相关性。Furuta,T.等利用对照试验和统计分析工具发现白细胞介素-1基因(IL1A)多态性与SSNHL和梅尼埃氏病是紧密相关的。Koide,Y.等借助实验方法和多元素logistic回归,分析了UCP2基因多态性与SSNHL有明显的相关性。Cao等对近些年突发性聋的病因的研究进行一个系统的回顾,总结出大量研究支持基因多态性与SSNHL易感性相关。
目前,已经有许多学者对突发性聋的病因和预后进行了研究。多数研究以突发性聋患者为实验组,以正常人为对照组。采用临床实验提取患者DNA,利用PCR扩增技术,并对其产物进行DNA测序(Sanger测序、二代测序、三代基因组测序),借助SPSS软件进行统计分析基因突变位点与突发性聋之间的相关性。这种以试验为主的方法虽然准确率较高,但昂贵又耗时,如对全基因组进行测序需要做大量的实验,耗费大量的人力物力,并不适宜普遍用于突发性聋患者的检测。
在疾病基因检测中,研究者们已经使用分类算法来预测和识别疾病基因,这些方法通常都是以疾病相似性网络、基因和表型相似性网络或者基因表达数据等为特征来训练分类器,利用基于机器学习的分类算法来预测和识别疾病基因。然而,在耳聋相关基因的识别和预测方面,还没有采用计算方法。此外,一些基于实验的特征难以得到。
发明内容
针对上述现有技术的不足,本发明申请所要解决的技术问题是:如何提供一种特征易于获取、分类效果好的分类器来识别耳聋相关基因的方法。
为达到上述目的,本发明提供如下技术方案:
一种基于混合分类器来识别耳聋相关基因的方法,该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因。
可选的,所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVD v8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集∶负集=1∶1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Web of science和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172。
可选的,所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征利用生物信息学工具和编程计算得出;
特征数据预处理为:
待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理。
可选的,所述S3、S4、S5具体为:
将数据集按训练集∶验证集∶测试集=6∶2∶2的比例分开,正负比例1∶1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力;
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选的几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器,
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大。
可选的,所述S6具体为:
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测为耳聋相关基因的次数分别为ABPNN、ASVM;设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因;
采用集成策略:将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,根据S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;k是根据实验中测试集中的正集样本数量决定的,k小于等于正集样本数量;
采用以上集成策略将BPNN分类器和SVM分类器结合起来,对待预测数据集进行分析研究,按照集成模型对未知基因进行排序,得最终预测结果。
本发明的有益效果在于:该方法将反向传播神经网络(BPNN)和支持向量机(SVM)算法简洁有效地结合在一起。实验数据由耳聋数据库DVD v8.2中的149个耳聋相关基因和从染色体中提取的1490个基因组成,数据特征集由基于序列的序列特征、蛋白质特征、信息熵等特征组成,采用训练集∶验证集∶测试集为6∶2∶2的方法进行训练,然后利用集成策略将较优的基分类器集成为最终的分类模型。为检验该模型的有效性,用训练好的集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。62个基因中有5个基因被分类为耳聋相关基因,这说明了本发明中提出的集成分类模型具有从大量未知基因中筛选出高可疑的耳聋相关基因方面的潜在能力。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为数据处理流程图;
图2为整体流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1和图2,本发明的步骤如下:
1)数据收集与融合
数据收集:
用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVD v8.2(Deafness Variation Database v8.2)和NCBI(https://www.ncbi.nlm.nih.gov/)数据库。从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列。
数据融合:
正集:
将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个编码基因序列和463个蛋白质序列;
负集:
从人类基因中去除掉耳聋相关基因对应的序列,接着从剩余的人类基因序列中随机取出1490个基因所对应的基因编码序列和蛋白质序列,构成负集数据,共有3783个编码DNA序列和3783个蛋白质序列。
负集构建说明:
负集数据(非耳聋相关基因)很难确定,因为没有数据库或文章明确指出哪些基因位点突变与耳聋完全无关。关于人类染色体上的总基因数没有统一的说法,大多数研究生学者统计出大约2到2.5万个,本发明中从NCBI上下载已经全部被记录的基因,大约有20035个基因。除了十五项耳聋相关基因检测试剂盒中3个耳聋相关基因和正集的149个基因外,还剩下19883个基因。根据每条相应的人类染色体中149个耳聋相关基因的比例,从19883个基因中随机抽取1490个基因。这1490个基因不包含Web ofScience、EI等数据库文献中提到的耳聋相关基因。将这1490个基因看作与耳聋无关的基因,在相应数据库依次下载每个基因的给基因编码序列和蛋白质序列,并对数据去除重复序列,进行数据清洗,共有3783个编码DNA序列和3783个蛋白质序列。每次实验从中随机选取与正集(463个实例)相同数量的样本构成负集,使得正集:负集=1:1(如表1)。
用这个策略构造一个负集有两个原因。首先,潜在未发现的耳聋相关基因的数量远远少于非耳聋相关基因的数量,潜在耳聋相关基因被选为非耳聋相关基因的几率很小。其次,每个分类器进行A次循环的实验,得出平均的预测结果,提高了稳定性和准确性,降低了选择潜在的耳聋相关基因作为非耳聋相关基因对实验的影响。
待预测数据集:
为了验证模型的准确性和有效性,设计了待预测数据集进行评估。
待测数据集,目前从Web ofscience、EI等数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果(如表1)。
为了提高模型的普适性,避免过拟合情况的出现,实验中将数据集按训练集:验证集:测试集=6:2:2的比例分开,训练集(正负比例1:1)用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来为了测试模型的性能。
表1实验数据集的描述
一个基因可以有多个基因编码序列,每个基因编码序列对应一个蛋白质序列。每个样本代表了该基因编码序列的特征和相应蛋白质序列特征的组合,所以样本的数量等于基因编码序列的数量。
2)特征提取与预处理(特征归一化)
在预测疾病基因的研究中,研究者提出了各种与疾病基因相关的特征,包括高通量实验特征、蛋白-蛋白相互作用数据或基因-表达数据。然而,许多这些特征是基于实验数据,不容易获得,且基于实验数据的新基因组特征普遍缺失,导致计算预测的应用范围有限。为了解决这个问题,将重点放在能较好的表示生物特性的基于序列的特征上。
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征可以利用生物信息学工具和编程计算得出。
特征数据预处理:
由于待分析的序列特征数据集中,某些数据的特征值缺失,如:部分基因编码序列的密码子特征类中的Nc指标值的缺失等。利用常用的缺失值处理办法均值插补补全缺失值;此外,每类特征通常具有不同的量纲和数量级,因此,为了保证预测结果的可靠性,需要对原始指标数据进行标准化处理。本发明采用的标准化处理方法为Min-max标准化。
3)模型的构建
为了提高模型的普适性,避免过拟合情况的出现,实验中将数据集按训练集∶验证集∶测试集=6∶2∶2的比例分开,训练集(正负比例1∶1)用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来为了测试模型的性能。本方法中使用准确性(Accuracy)、召回率(Recall)、精确度(Precision)、F-measure(F1)和G-mean来评估模型的预测分类能力。
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器;
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大;将未标记的样本在2中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;
待预测数据集:在文献数据库中搜集到的62个耳聋相关基因,从NCBI上下载这62个基因所对应的172个基因编码序列,以及基因编码序列相对应的蛋白质序列,计算出54个特征,利用训练好BPNN基分类器、SVM基分类器分别对这172个样本进行实验,循环A次,取A次实验的平均值,其中BPNN基分类器模型预测出的耳聋相关基因为:GATA3、FGF8、PMP22,SVM基分类模型预测出的耳聋相关基因为:FGF8、GATA3、BCAP31、DLX5、TGFB1、MRPS2,利用本发明中的集成策略,将基分类器预测出的结果进行叠加,按预测出的次数进行排序,得到的最后的预测结果为GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1。
在Ensembl、OMIM等数据库中查到了这6个预测为高可疑耳聋相关基因以及其突变位点与疾病表型的关系,GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1相应位点的突变能导致耳聋相关的疾病,这些疾病会导致耳聋或感音神经性听力丧失。本模型将他们预测为高可以耳聋相关基因,这显示了本模型在鉴定出高可疑耳聋相关基因方面的能力。
计算方法预测耳聋相关基因,在突发性聋的预后分析中具有重要意义。本发明基于机器学习的方法,利用BPNN基分类器和SVM基分类器构建了预测高可疑耳聋相关基因的分类模型。文中利用信号处理方法提取基于序列的特征,在数据处理过程中,将数据集分为训练集,验证集和测试集,将BPNN基分类器模型和SVM基分类器模型整合成一个集成模型,然后利用集成模型对测试集进行测试。此外,设计了待预测数据集进一步评估模型的准确性和有效性,包括文献中收集到的62个耳聋相关基因。
分析结果显示,提出的模型能够帮助筛选高可疑耳聋相关基因。文中提出的该计算方法缩小了数据筛选的范围,为生物学家进行耳聋相关基因筛选实验节省了时间和成本,为突发性耳聋的临床提供了必要的指导。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;
所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集:负集=1:1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Web of science和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172;
所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;
22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;
12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;
3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;
1个Hurst指数;
1个信息理论特征:香农熵;
这些特征利用生物信息学工具和编程计算得出;
特征数据预处理为:
待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理;
所述S3、S4、S5具体为:
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力;
具体步骤如下:
①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选的几种模型进行调参;
②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器,
③假设BPNN、SVM基分类器的输出分别为f1(x)和f2(x),被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大;
所述S6具体为:
判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测为耳聋相关基因的次数分别为ABPNN、ASVM;设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因;
采用集成策略:将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,根据S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;k是根据实验中测试集中的正集样本数量决定的,k小于等于正集样本数量;
采用以上集成策略将BPNN分类器和SVM分类器结合起来,对待预测数据集进行分析研究,按照集成模型对未知基因进行排序,得最终预测结果。
CN202011497263.XA 2020-12-17 2020-12-17 一种基于混合分类器来识别耳聋相关基因的方法 Active CN112599190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011497263.XA CN112599190B (zh) 2020-12-17 2020-12-17 一种基于混合分类器来识别耳聋相关基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011497263.XA CN112599190B (zh) 2020-12-17 2020-12-17 一种基于混合分类器来识别耳聋相关基因的方法

Publications (2)

Publication Number Publication Date
CN112599190A CN112599190A (zh) 2021-04-02
CN112599190B true CN112599190B (zh) 2024-04-05

Family

ID=75199059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011497263.XA Active CN112599190B (zh) 2020-12-17 2020-12-17 一种基于混合分类器来识别耳聋相关基因的方法

Country Status (1)

Country Link
CN (1) CN112599190B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094086A2 (en) * 2002-05-02 2003-11-13 Biotech Research Ventures Pte Limited Analysis of gene expression data for multi-class prediction
WO2006044017A2 (en) * 2004-08-13 2006-04-27 Jaguar Bioscience Inc. Systems and methods for identifying diagnostic indicators
JP2006158349A (ja) * 2004-12-10 2006-06-22 Bml Inc 難聴を規定する遺伝子変異の検出方法
WO2009094713A1 (en) * 2008-01-29 2009-08-06 Murdoch Childrens Research Institute Diagnosis and treatment of sensory defect
WO2010060055A1 (en) * 2008-11-21 2010-05-27 Duke University Predicting cancer risk and treatment success
CN101950326A (zh) * 2010-09-10 2011-01-19 重庆大学 基于Hurst指数的DNA序列相似性检测方法
CN103793600A (zh) * 2014-01-16 2014-05-14 西安电子科技大学 结合独立分量分析和线性判别分析的癌症预测方法
UA90488U (uk) * 2014-01-13 2014-05-26 Лариса Петрівна Сидорчук Спосіб прогнозування нейросенсорної приглухуватості у дітей залежно від генотипу гена конексину (сх26) бета 2
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
WO2017008177A1 (en) * 2015-07-14 2017-01-19 Capitalbio Corporation Compositions and methods for detection of genetic deafness gene mutation
CN106959284A (zh) * 2017-03-27 2017-07-18 江苏大学 一种区分转基因玉米和非转基因玉米的检测方法
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
WO2020041204A1 (en) * 2018-08-18 2020-02-27 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
CN111575360A (zh) * 2020-04-07 2020-08-25 吴丽华 一种检测人耳聋基因结构变异的方法及结构变异组和应用
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060195266A1 (en) * 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094086A2 (en) * 2002-05-02 2003-11-13 Biotech Research Ventures Pte Limited Analysis of gene expression data for multi-class prediction
WO2006044017A2 (en) * 2004-08-13 2006-04-27 Jaguar Bioscience Inc. Systems and methods for identifying diagnostic indicators
JP2006158349A (ja) * 2004-12-10 2006-06-22 Bml Inc 難聴を規定する遺伝子変異の検出方法
WO2009094713A1 (en) * 2008-01-29 2009-08-06 Murdoch Childrens Research Institute Diagnosis and treatment of sensory defect
WO2010060055A1 (en) * 2008-11-21 2010-05-27 Duke University Predicting cancer risk and treatment success
CN101950326A (zh) * 2010-09-10 2011-01-19 重庆大学 基于Hurst指数的DNA序列相似性检测方法
UA90488U (uk) * 2014-01-13 2014-05-26 Лариса Петрівна Сидорчук Спосіб прогнозування нейросенсорної приглухуватості у дітей залежно від генотипу гена конексину (сх26) бета 2
CN103793600A (zh) * 2014-01-16 2014-05-14 西安电子科技大学 结合独立分量分析和线性判别分析的癌症预测方法
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
WO2017008177A1 (en) * 2015-07-14 2017-01-19 Capitalbio Corporation Compositions and methods for detection of genetic deafness gene mutation
CN106959284A (zh) * 2017-03-27 2017-07-18 江苏大学 一种区分转基因玉米和非转基因玉米的检测方法
WO2020041204A1 (en) * 2018-08-18 2020-02-27 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN111575360A (zh) * 2020-04-07 2020-08-25 吴丽华 一种检测人耳聋基因结构变异的方法及结构变异组和应用
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Classifiers for Predicting Coronary Artery Disease Based on Gene Expression Profiles in Peripheral Blood Mononuclear Cells;Liu, Jie,等;《 INTERNATIONAL JOURNAL OF GENERAL MEDICINE》;20211231;第14卷;第5651-5663页 *
Deafness gene screening based on a multilevel cascaded BPNN model;Liu, Xiao,等;《BMC BIOINFORMATICS》;20230220;第24卷(第1期);第56篇 *
Random Subspace Aggregation for Cancer Prediction with Gene Expression Profiles;Yang, Liying,等;《BIOMED RESEARCH INTERNATIONAL》;20161231;第2016卷;第4596326篇 *
支持向量分类器及其在原核生物基因计算识别中的应用;黄国华;《湖南第一师范学院学报》;20110430;第11卷(第2期);第133-136页 *
耳聋基因的计算预测研究;任美香;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20221015(第10期);E073-2 *

Also Published As

Publication number Publication date
CN112599190A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
Wang et al. Guidelines for bioinformatics of single-cell sequencing data analysis in Alzheimer’s disease: review, recommendation, implementation and application
CN110033860B (zh) 一种基于机器学习的遗传代谢病检出率提升方法
CA2877430C (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN107208131A (zh) 用于肺癌分型的方法
CN113593630A (zh) 一种家庭冠心病患病风险评估及其风险因素鉴定系统
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及系统
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN111020020A (zh) 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法
KR20110054926A (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
CN112599190B (zh) 一种基于混合分类器来识别耳聋相关基因的方法
CN117393042A (zh) 一种预测错义突变致病性的分析方法
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
CN110957010B (zh) 一种免疫年龄模型学习方法
Chitode et al. A comparative study of microarray data analysis for cancer classification
Hassan et al. Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human
Xi et al. SiftCell: A robust framework to detect and isolate cell-containing droplets from single-cell RNA sequence reads
KR101147691B1 (ko) 유전 정보 비교를 이용한 혈연관계 판별장치
CN111020021A (zh) 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN117437976B (zh) 基于基因检测的疾病风险筛查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant