CN112599190B

CN112599190B - 一种基于混合分类器来识别耳聋相关基因的方法

Info

Publication number: CN112599190B
Application number: CN202011497263.XA
Authority: CN
Inventors: 刘晓; 任美香; 何婷; 罗雅川; 徐玉桥; 左汶奇; 钟时勋
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-04-05
Anticipated expiration: 2040-12-17
Also published as: CN112599190A

Abstract

本发明涉及一种基于反向传播神经网络‑支持向量机BPNN‑SVM混合分类器来识别耳聋相关基因的方法，属于数据分析领域。采用反向传播神经网络分类器和支持向量机分类器形成混合分类器，达到使用计算方法结合序列特征对耳聋相关基因进行鉴定的目的。使用少量训练样本对混合分类器进行训练，并通过不断迭代循环，寻找分类效果最好的分类器进行分类，该方法将反向传播神经网络和支持向量机算法结合在一起。为检验该模型的有效性，用训练好的BPNN‑SVM集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。本发明中提出的分类模型具有从大量未知基因中筛选出高可疑耳聋相关基因方面的潜在能力。

Description

一种基于混合分类器来识别耳聋相关基因的方法

技术领域

本发明属于数据分析领域，涉及一种基于BPNN-SVM混合分类器来识别耳聋相关基因的方法。

背景技术

突发性聋，又称突发性感音神经性耳聋(Sudden sensorineural hearing loss--SSNHL)，是一种以突然发生的、原因不明，在数秒到数天内迅速发展为特征的听力损伤综合征。它通常被定义为在72小时内发生至少三个连续频率的30分贝或以上的感音神经性耳聋，但其他的定义还包括在12或24小时内的听力损失，以强调突发性听力损失的概念。据统计，全球每年10万人中有5至20个人患有SSNHL，任何年龄阶段都有可能患这种疾病，但发病率最高的时期是40-60岁。听力损失可以涉及任何频率范围，也可以是全身性的，常伴有耳鸣、眩晕、恶心、呕吐等症状。

近些年来，有研究学者认为突发性聋与遗传性耳聋相关基因的突变相关。Janecke,A.R.等通过研究奥地利突发性聋患者的GJB2突变的表型谱和频率，提出进行性听力损失和复发性突发性感音神经性听力损失与GJB2突变相关。Gross等发现MTR A2756G基因型与SSNHL之间存在显著的相关性。Furuta,T.等利用对照试验和统计分析工具发现白细胞介素-1基因(IL1A)多态性与SSNHL和梅尼埃氏病是紧密相关的。Koide,Y.等借助实验方法和多元素logistic回归，分析了UCP2基因多态性与SSNHL有明显的相关性。Cao等对近些年突发性聋的病因的研究进行一个系统的回顾，总结出大量研究支持基因多态性与SSNHL易感性相关。

目前，已经有许多学者对突发性聋的病因和预后进行了研究。多数研究以突发性聋患者为实验组，以正常人为对照组。采用临床实验提取患者DNA，利用PCR扩增技术，并对其产物进行DNA测序(Sanger测序、二代测序、三代基因组测序)，借助SPSS软件进行统计分析基因突变位点与突发性聋之间的相关性。这种以试验为主的方法虽然准确率较高，但昂贵又耗时，如对全基因组进行测序需要做大量的实验，耗费大量的人力物力，并不适宜普遍用于突发性聋患者的检测。

在疾病基因检测中，研究者们已经使用分类算法来预测和识别疾病基因，这些方法通常都是以疾病相似性网络、基因和表型相似性网络或者基因表达数据等为特征来训练分类器，利用基于机器学习的分类算法来预测和识别疾病基因。然而，在耳聋相关基因的识别和预测方面，还没有采用计算方法。此外，一些基于实验的特征难以得到。

发明内容

针对上述现有技术的不足，本发明申请所要解决的技术问题是：如何提供一种特征易于获取、分类效果好的分类器来识别耳聋相关基因的方法。

为达到上述目的，本发明提供如下技术方案：

一种基于混合分类器来识别耳聋相关基因的方法，该方法包括以下步骤：

S1：数据收集与融合；

S2：样本的特征提取与预处理；

S3：将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练；

S4：选择BPNN分类器和SVM分类器；

S5：将未标记的样本在S4中训练好的分类器进行预测，得到预测结果为R_BPNN、R_SVM；

S6：判断两个分类器的预测结果，每个分类器实验A次，两个分类器的预测耳聋相关基因的次数分别为A_BPNN、A_SVM，设置一个候选耳聋相关基因的阈值T₁，若A_BPNN≥T₁且A_SVM≥T₁，则为候选耳聋相关基因，将两个分类器预测为候选耳聋相关基因的次数加起来计为S，根据多次实验设置一个阈值T，当S≥T时，则这个基因即为可疑耳聋相关基因，最后对S的大小进行排序，选出排序最前k个基因作为高可疑耳聋相关基因。

可选的，所述S1具体为：

数据收集：用于模型训练、验证的耳聋相关基因数据来源于两个数据库，即耳聋变异数据库DVD v8.2和NCBI数据库；从DVD数据库中提取149个耳聋相关的基因，从NCBI上下载基因所对应的基因编码序列和蛋白质序列；

数据融合：

正集：将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配，删除重复的序列，构成正集数据，共463个基因编码序列和463个蛋白质序列；

负集：从人类基因中去除掉耳聋相关基因对应的序列，接着随机取出1490个基因所对应的基因编码序列和蛋白质序列，共有3783个编码DNA序列和3783个蛋白质序列；每次实验从中随机选取与正集相同数量的样本构成负集，使得正集∶负集＝1∶1；该1490个基因与耳聋基因无关；

待测数据集：为验证模型的准确性和有效性，从Web of science和EI数据库中的文献中搜集到的跟耳聋相关的基因62个，共172个基因编码序列和蛋白质序列，获取他们序列的特征，并将所得到的特征集作为待预测特征集，用训练好的模型对他们进行分类，看分类效果；

将数据集按训练集：验证集：测试集＝6:2:2的比例分开，正负比例1:1的训练集用来训练模型；

数据集为正集P时，基因数为149，基因编码序列数为463，蛋白质序列数为463，样本数为463；

数据集为负集N时，基因数为143，基因编码序列数为463，蛋白质序列数为463，样本数为463；

数据集为待预测数据集时，基因数为62，基因编码序列数为172，蛋白质序列数为172，样本数为172。

可选的，所述S2具体为：

选择的特征集共有54个特征，具体包括：

2个固有特征：基因编码片段长度、氨基酸长度；

13个密码子偏性特征：第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率；

22个氨基酸使用频率特征：20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数；

12个氨基酸理化性质特征：分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量；

3个跨膜螺旋特征：跨膜螺旋氨基酸预期数，前60个氨基酸中跨膜螺旋氨基酸预期数，采用N-best方式预测的跨膜螺旋；

1个Hurst指数；

1个信息理论特征：香农熵；

这些特征利用生物信息学工具和编程计算得出；

特征数据预处理为：

待分析的序列特征数据集中，利用缺失值处理办法均值插补补全缺失值；每类特征具有不同的量纲和数量级，采用Min-max标准化处理方法对原始指标数据进行标准化处理。

可选的，所述S3、S4、S5具体为：

将数据集按训练集∶验证集∶测试集＝6∶2∶2的比例分开，正负比例1∶1的训练集用来训练模型，验证集用来调节模型的参数，测试集在模型训练前单独提取出来，使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力；

具体步骤如下：

①选择数种机器学习算法模型，分别对他们进行训练，每个算法模型实验重复次数设置为A次，每次实验中随机取出训练集对模型进行训练，记录每次实验中验证集模型的性能评价指标值，对所选的几种模型进行调参；

②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型；使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器，

③假设BPNN、SVM基分类器的输出分别为f₁(x)和f₂(x)，被预测为弱可疑耳聋相关基因的次数越多，成为耳聋相关基因的可能性就越大。

可选的，所述S6具体为：

判断两个分类器的预测结果，每个分类器实验A次，两个分类器的预测为耳聋相关基因的次数分别为A_BPNN、A_SVM；设置一个候选耳聋相关基因的阈值T₁，若A_BPNN≥T₁且A_SVM≥T₁，则为候选耳聋相关基因；

采用集成策略：将两个分类器预测为候选耳聋相关基因的次数加起来计为S，根据多次实验设置一个阈值T，当S≥T时，根据S的大小进行排序，选出排序最前k个基因作为高可疑耳聋相关基因；k是根据实验中测试集中的正集样本数量决定的，k小于等于正集样本数量；

采用以上集成策略将BPNN分类器和SVM分类器结合起来，对待预测数据集进行分析研究，按照集成模型对未知基因进行排序，得最终预测结果。

本发明的有益效果在于：该方法将反向传播神经网络(BPNN)和支持向量机(SVM)算法简洁有效地结合在一起。实验数据由耳聋数据库DVD v8.2中的149个耳聋相关基因和从染色体中提取的1490个基因组成，数据特征集由基于序列的序列特征、蛋白质特征、信息熵等特征组成，采用训练集∶验证集∶测试集为6∶2∶2的方法进行训练，然后利用集成策略将较优的基分类器集成为最终的分类模型。为检验该模型的有效性，用训练好的集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。62个基因中有5个基因被分类为耳聋相关基因，这说明了本发明中提出的集成分类模型具有从大量未知基因中筛选出高可疑的耳聋相关基因方面的潜在能力。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为数据处理流程图；

图2为整体流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1和图2，本发明的步骤如下：

1)数据收集与融合

数据收集：

用于模型训练、验证的耳聋相关基因数据来源于两个数据库，即耳聋变异数据库DVD v8.2(Deafness Variation Database v8.2)和NCBI(https://www.ncbi.nlm.nih.gov/)数据库。从DVD数据库中提取149个耳聋相关的基因，从NCBI上下载基因所对应的基因编码序列和蛋白质序列。

数据融合：

正集：

将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配，删除重复的序列，构成正集数据，共463个编码基因序列和463个蛋白质序列；

负集：

从人类基因中去除掉耳聋相关基因对应的序列，接着从剩余的人类基因序列中随机取出1490个基因所对应的基因编码序列和蛋白质序列，构成负集数据，共有3783个编码DNA序列和3783个蛋白质序列。

负集构建说明：

负集数据(非耳聋相关基因)很难确定，因为没有数据库或文章明确指出哪些基因位点突变与耳聋完全无关。关于人类染色体上的总基因数没有统一的说法，大多数研究生学者统计出大约2到2.5万个，本发明中从NCBI上下载已经全部被记录的基因，大约有20035个基因。除了十五项耳聋相关基因检测试剂盒中3个耳聋相关基因和正集的149个基因外，还剩下19883个基因。根据每条相应的人类染色体中149个耳聋相关基因的比例，从19883个基因中随机抽取1490个基因。这1490个基因不包含Web ofScience、EI等数据库文献中提到的耳聋相关基因。将这1490个基因看作与耳聋无关的基因，在相应数据库依次下载每个基因的给基因编码序列和蛋白质序列，并对数据去除重复序列，进行数据清洗，共有3783个编码DNA序列和3783个蛋白质序列。每次实验从中随机选取与正集(463个实例)相同数量的样本构成负集，使得正集：负集＝1：1(如表1)。

用这个策略构造一个负集有两个原因。首先，潜在未发现的耳聋相关基因的数量远远少于非耳聋相关基因的数量，潜在耳聋相关基因被选为非耳聋相关基因的几率很小。其次，每个分类器进行A次循环的实验，得出平均的预测结果，提高了稳定性和准确性，降低了选择潜在的耳聋相关基因作为非耳聋相关基因对实验的影响。

待预测数据集：

为了验证模型的准确性和有效性，设计了待预测数据集进行评估。

待测数据集，目前从Web ofscience、EI等数据库中的文献中搜集到的跟耳聋相关的基因62个，共172个基因编码序列和蛋白质序列，获取他们序列的特征，并将所得到的特征集作为待预测特征集，用训练好的模型对他们进行分类，看分类效果(如表1)。

为了提高模型的普适性，避免过拟合情况的出现，实验中将数据集按训练集：验证集：测试集＝6:2:2的比例分开，训练集(正负比例1:1)用来训练模型，验证集用来调节模型的参数，测试集在模型训练前单独提取出来为了测试模型的性能。

表1实验数据集的描述

一个基因可以有多个基因编码序列，每个基因编码序列对应一个蛋白质序列。每个样本代表了该基因编码序列的特征和相应蛋白质序列特征的组合，所以样本的数量等于基因编码序列的数量。

2)特征提取与预处理(特征归一化)

在预测疾病基因的研究中，研究者提出了各种与疾病基因相关的特征，包括高通量实验特征、蛋白-蛋白相互作用数据或基因-表达数据。然而，许多这些特征是基于实验数据，不容易获得，且基于实验数据的新基因组特征普遍缺失，导致计算预测的应用范围有限。为了解决这个问题，将重点放在能较好的表示生物特性的基于序列的特征上。

选择的特征集共有54个特征，具体包括：

2个固有特征：基因编码片段长度、氨基酸长度；

1个Hurst指数；

1个信息理论特征：香农熵；

这些特征可以利用生物信息学工具和编程计算得出。

特征数据预处理：

由于待分析的序列特征数据集中，某些数据的特征值缺失，如：部分基因编码序列的密码子特征类中的Nc指标值的缺失等。利用常用的缺失值处理办法均值插补补全缺失值；此外，每类特征通常具有不同的量纲和数量级，因此，为了保证预测结果的可靠性，需要对原始指标数据进行标准化处理。本发明采用的标准化处理方法为Min-max标准化。

3)模型的构建

为了提高模型的普适性，避免过拟合情况的出现，实验中将数据集按训练集∶验证集∶测试集＝6∶2∶2的比例分开，训练集(正负比例1∶1)用来训练模型，验证集用来调节模型的参数，测试集在模型训练前单独提取出来为了测试模型的性能。本方法中使用准确性(Accuracy)、召回率(Recall)、精确度(Precision)、F-measure(F1)和G-mean来评估模型的预测分类能力。

具体步骤如下：

①选择数种机器学习算法模型，分别对他们进行训练，每个算法模型实验重复次数设置为A次，每次实验中随机取出训练集对模型进行训练，记录每次实验中验证集模型的性能评价指标值，对所选几种模型进行调参；

②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型；使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器；

③假设BPNN、SVM基分类器的输出分别为f₁(x)和f₂(x)，被预测为弱可疑耳聋相关基因的次数越多，成为耳聋相关基因的可能性就越大；将未标记的样本在2中训练好的分类器进行预测，得到预测结果为R_BPNN、R_SVM；

判断两个分类器的预测结果，每个分类器实验A次，两个分类器的预测耳聋相关基因的次数分别为A_BPNN、A_SVM，设置一个候选耳聋相关基因的阈值T₁，若A_BPNN≥T₁且A_SVM≥T₁，则为候选耳聋相关基因，将两个分类器预测为候选耳聋相关基因的次数加起来计为S，根据多次实验设置一个阈值T，当S≥T时，则这个基因即为可疑耳聋相关基因，最后对S的大小进行排序，选出排序最前k个基因作为高可疑耳聋相关基因；

待预测数据集：在文献数据库中搜集到的62个耳聋相关基因，从NCBI上下载这62个基因所对应的172个基因编码序列，以及基因编码序列相对应的蛋白质序列，计算出54个特征，利用训练好BPNN基分类器、SVM基分类器分别对这172个样本进行实验，循环A次，取A次实验的平均值，其中BPNN基分类器模型预测出的耳聋相关基因为：GATA3、FGF8、PMP22，SVM基分类模型预测出的耳聋相关基因为：FGF8、GATA3、BCAP31、DLX5、TGFB1、MRPS2，利用本发明中的集成策略，将基分类器预测出的结果进行叠加，按预测出的次数进行排序，得到的最后的预测结果为GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1。

在Ensembl、OMIM等数据库中查到了这6个预测为高可疑耳聋相关基因以及其突变位点与疾病表型的关系，GATA3、FGF8、DLX5、PMP22、BCAP31、TGFB1相应位点的突变能导致耳聋相关的疾病，这些疾病会导致耳聋或感音神经性听力丧失。本模型将他们预测为高可以耳聋相关基因，这显示了本模型在鉴定出高可疑耳聋相关基因方面的能力。

计算方法预测耳聋相关基因，在突发性聋的预后分析中具有重要意义。本发明基于机器学习的方法，利用BPNN基分类器和SVM基分类器构建了预测高可疑耳聋相关基因的分类模型。文中利用信号处理方法提取基于序列的特征，在数据处理过程中，将数据集分为训练集,验证集和测试集,将BPNN基分类器模型和SVM基分类器模型整合成一个集成模型，然后利用集成模型对测试集进行测试。此外，设计了待预测数据集进一步评估模型的准确性和有效性,包括文献中收集到的62个耳聋相关基因。

分析结果显示，提出的模型能够帮助筛选高可疑耳聋相关基因。文中提出的该计算方法缩小了数据筛选的范围，为生物学家进行耳聋相关基因筛选实验节省了时间和成本，为突发性耳聋的临床提供了必要的指导。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于混合分类器来识别耳聋相关基因的方法，其特征在于：该方法包括以下步骤：

S1：数据收集与融合；

S2：样本的特征提取与预处理；

S4：选择BPNN分类器和SVM分类器；

S6：判断两个分类器的预测结果，每个分类器实验A次，两个分类器的预测耳聋相关基因的次数分别为A_BPNN、A_SVM，设置一个候选耳聋相关基因的阈值T₁，若A_BPNN≥T₁且A_SVM≥T₁，则为候选耳聋相关基因，将两个分类器预测为候选耳聋相关基因的次数加起来计为S，根据多次实验设置一个阈值T，当S≥T时，则这个基因即为可疑耳聋相关基因，最后对S的大小进行排序，选出排序最前k个基因作为高可疑耳聋相关基因；

所述S1具体为：

数据收集：用于模型训练、验证的耳聋相关基因数据来源于两个数据库，即耳聋变异数据库DVDv8.2和NCBI数据库；从DVD数据库中提取149个耳聋相关的基因，从NCBI上下载基因所对应的基因编码序列和蛋白质序列；

数据融合：

负集：从人类基因中去除掉耳聋相关基因对应的序列，接着随机取出1490个基因所对应的基因编码序列和蛋白质序列，共有3783个编码DNA序列和3783个蛋白质序列；每次实验从中随机选取与正集相同数量的样本构成负集，使得正集：负集＝1：1；该1490个基因与耳聋基因无关；

数据集为待预测数据集时，基因数为62，基因编码序列数为172，蛋白质序列数为172，样本数为172；

所述S2具体为：

选择的特征集共有54个特征，具体包括：

2个固有特征：基因编码片段长度、氨基酸长度；

1个Hurst指数；

1个信息理论特征：香农熵；

这些特征利用生物信息学工具和编程计算得出；

特征数据预处理为：

待分析的序列特征数据集中，利用缺失值处理办法均值插补补全缺失值；每类特征具有不同的量纲和数量级，采用Min-max标准化处理方法对原始指标数据进行标准化处理；

所述S3、S4、S5具体为：

将数据集按训练集：验证集：测试集＝6:2:2的比例分开，正负比例1:1的训练集用来训练模型，验证集用来调节模型的参数，测试集在模型训练前单独提取出来，使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力；

具体步骤如下：

③假设BPNN、SVM基分类器的输出分别为f₁(x)和f₂(x)，被预测为弱可疑耳聋相关基因的次数越多，成为耳聋相关基因的可能性就越大；

所述S6具体为：