CN115083519B

CN115083519B - 一种基于多来源基因数据库的基因相关特征融合预测方法

Info

Publication number: CN115083519B
Application number: CN202210549008.8A
Authority: CN
Inventors: 郭红燕; 雷易鸣; 哈春芳; 李圆; 黄翠玉; 尚春亮; 陈柯辛; 郭华; 马远
Original assignee: Peking University; Peking University Third Hospital Peking University Third Clinical Medical College; General Hospital of Ningxia Medical University
Current assignee: Peking University; Peking University Third Hospital Peking University Third Clinical Medical College; General Hospital of Ningxia Medical University
Priority date: 2022-05-18
Filing date: 2022-05-20
Publication date: 2024-06-14
Anticipated expiration: 2042-05-20
Also published as: CN115083519A

Abstract

本发明公布了一种基于多来源基因数据库的基因相关特征融合预测方法，建立基于动态阈值的迭代随机森林方法，针对多来源基因数据库的特征基因集合进行计算，根据特征重要性的分布设定动态阈值，对基因数据进行全局优化，并生成不同的特征基因集合，通过融合不同来源的基因数据库及相应的不同特征基因集合，实现对基因相关特征的融合预测。使用本发明方法可实现对不同来源基因数据库、不同机器学习框架、多个特征基因集合进行融合预测计算，实现数据之间的协同，有效地提升基因相关特征预测的准确性。

Description

一种基于多来源基因数据库的基因相关特征融合预测方法

技术领域

本发明涉及基于基因数据的分析预测技术，尤其涉及一种基于多来源基因数据库，对基因相关特征进行融合分析预测的技术。

背景技术

生物的很多特征，比如某种外貌和生理特征、某种生活和行为习惯、某种治疗方法敏感性等，都和基因有着一定联系。随着数据分析技术和计算机技术的进步，目前逐步开展了基于基因数据对基因相关特征进行预测分析的工作，选择出更具生物学意义的特征基因是基因相关特征预测分析的关键。

但是，现有的特征基因计算技术中，普遍存在基因数据维度高和样本量小的困难。所以，针对不同的基因数据库，现有技术大多采用了不同的方法计算出不同的特征基因集合。这造成计算结果依赖于不同来源数据库的各自特点和所使用的特征基因计算方法，最终导致不同数据库中筛选出的特征基因集合各成体系而无法协同。现有技术针对具有多来源基因数据库，难以实现对基因相关特征的融合分析预测，基因相关特征预测的准确性和有效性低。

发明内容

本发明提出了一种基于多来源基因数据库的基因相关特征融合预测方法，针对多来源基因数据库实现对基因相关特征的融合分析预测，有效地提升基因相关特征预测的准确性。

为方便起见，本发明中一些术语名称定义如下：

基因相关特征：和基因相关的一些特性，如：与基因相关的某种外貌和生理特征、生活和行为习惯、治疗方法敏感性等；

特征基因：在所有的基因中，存在部分基因对某种基因相关特征的影响较为显著，这部分更具生物学意义、影响更为显著的基因被称为特征基因；筛选出这些更具生物学意义的特征基因是基因相关特征分析的关键步骤，有利于后续的生物学原理分析和靶向药物研发等。每个基因相关特征都对应着不同的特征基因。

特征重要性(variable importance measures)简称VIM：在随机森林中，每个基因都对应有一个特征重要性的值，特征重要性的值衡量了该基因为随机森林带来了多少贡献和增益；特征重要性的计算，可采用基尼指标(也称基尼指数，简称Gini)衡量随机森林的特征重要性。

本发明提出的方法适用于预测各种基因相关特征，比如与基因相关的某种外貌和生理特征、生活和行为习惯、治疗方法敏感性等。在实现多数据库特征基因计算时，往往计算量较大，需要平衡计算成本和全局最优性，因此，本发明创新性地提出基于动态阈值的迭代随机森林方法，在针对多来源基因数据库的特征基因集合计算中，根据特征重要性的分布设定动态阈值，实现了对大量基因数据的全局优化，减小预测方法运算的复杂度。通过将基于动态阈值的迭代随机森林方法应用在不同的多来源基因数据库的大量数据上，并生成不同的特征基因集合，通过融合不同来源的基因数据库以及相应的不同特征基因集合，实现对基因相关特征的融合预测，通过多个基因数据库的数据的协同，提升基因相关特征预测的准确性。

本发明的技术方案如下：

一种基于多来源基因数据库的基因相关特征融合预测方法，包括如下步骤。

1)收集得到多来源基因数据库，不同的基因数据库均包含基因数据(包括基因表达水平值)、基因相关特征表现等相关信息，将多来源基因数据库记为DataBase1,DataBase2，…，DataBaseN。

2)分别对多来源基因数据库的数据进行标准化处理和数据增强，得到DataBase1*,DataBase2*，…，DataBaseN*。

3)建立动态阈值迭代随机森林方法，对多来源基因数据库的特征基因集合进行计算；

对N个不同来源的基因数据库DataBase1*,DataBase2*，…，DataBaseN*，设计并采用动态阈值迭代随机森林方法，对不同基因数据库逐一进行特征基因集合的计算，得到N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}，其具体操作包括：

31)通过差异基因比较的方法，对各基因数据库中的个体样本的基因数量进行删减；

32)设计动态阈值迭代随机森林方法，对多来源基因数据库的特征基因集合进行计算；

321)计算得到多来源基因数据库的特征重要性，即每个基因的特征重要性；

特征重要性，即基因为随机森林带来了多少贡献和增益，是由该基因为随机森林中每棵决策树带来的贡献和增益求平均值得到的，这种贡献和增益用基尼指标来衡量。用基尼指标(也称基尼指数，简称Gini)衡量随机森林的特征重要性的方法具体为：

假设有多来源基因数据库的m个基因，基因1，基因2，基因3，...，基因m，每个基因都对应着它在随机森林的特征重要性，分别是VIM1，VIM2，VIM3，...，VIMm。为了计算VIM1，VIM2，VIM3，...，VIMm，我们首先计算这m个基因在每棵决策树中带来的贡献和增益。以基因i为例，在随机森林中任意一棵决策树中，基因i在树中的任一节点所带来的贡献和增益可以直接表示为该节点分叉前后的基尼指标改变量，将决策树中出现基因i的所有节点的基尼指标改变量进行计算并求和后，即可得到基因i在这棵决策树中带来的贡献和增益。按上述方法计算基因i在每棵决策树中带来的贡献和增益的值，再对这些值求平均，即可得到VIMi，即基因i在随机森林中的特征重要性。

322)将多来源基因数据库的特征重要性近似拟合为某种概率分布(如卡方分布)；再通过设定动态阈值，对随机森林方法进行改进；采用动态阈值迭代随机森林方法进行迭代求解，得到全局最优特征子集；

本发明创新性地通过单样本K-S检验，通过选取部分样本描述整体样本的分布情况，将多来源基因数据库的特征重要性的分布拟合为卡方分布，为特征删除设定动态阈值，来平衡全局最优特征子集的求解和运行时间开销。

在本发明具体实施中，通过单样本K-S检验，在每轮迭代中，将多来源基因数据库的特征重要性拟合得到对应的卡方分布参数，再根据卡方分布的分位点动态地确定阈值。

323)采用具有动态阈值的迭代随机森林法进行多轮迭代，求解得到全局最优特征子集；

本发明按照动态阈值来批量删除重要性较低的特征，以减少迭代次数、缩短算法运行时间开销。采用具有动态阈值的迭代随机森林法进行多轮迭代后，筛选出特征基因子集。最终获得N个不同的特征基因集合，记为{SigGen1}，{SigGen2}，…，{SigGenN}。

4)对各数据库样本进行合并，并对样本的基因进行筛除，只保留所有样本均具有的基因，最终得到一个新的基因数据库DataBaseAll*；

5)将步骤3)得到的N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}进行集合合并，合并得到一个特征基因集合{SigGenAll^}；再遍历{SigGenAll^}中的特征基因，去掉步骤4)中得到的新基因数据库DataBaseAll*各样本中未包含的基因，最终得到合并后的特征基因集合{SigGenAll*}。

6)采用机器学习算法构造基因分类器，实现基因相关特征进行预测；

具体实施时，本发明基于支持向量机算法SVM(Support Vector Machine)构造基因相关特征预测模型，基于融合后数据库DataBaseAll*和特征基因集合{SigGenAll*}，对基因相关特征预测模型进行训练；

再利用训练好的基因相关特征预测模型，对待预测基因数据进行预测分析，实现基因相关特征预测。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于多来源基因数据库基因相关特征融合预测方法，建立一种平衡计算成本和全局最优性的，具有动态阈值的迭代随机森林法，并使用该方法对不同来源基因数据库、不同机器学习框架、多个特征基因集合进行融合预测计算，实现数据之间的协同，有效地提升基因相关特征预测的准确性。

附图说明

图1为本发明实施例采用的数据增强方法SMOTE算法示意图。

图2为本发明实施例中采用的决策树算法的示意图。

图3为迭代随机森林法和本发明提出的具有动态阈值的迭代随机森林法的每次迭代过程的示意图；

图3示意了在每轮迭代中，迭代随机森林和具有动态阈值的迭代随机森林法的流程差异，图中黑色虚线框中的步骤为本发明进行基因相关特征进行融合分析预测所采用的具有动态阈值的迭代随机森林法以实现对基因进行删减。

图4是本发明方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

基因相关特征可以表现为某种外貌和生理特征、某种生活和行为习惯、某种治疗方法敏感性等。本发明提供一种基于多来源基因数据库的基因相关特征融合预测方法，考虑到相关数据库的公认度和获取难度，本发明具体实施中，收集了关于基因和卵巢癌化疗敏感性的相关特性，以下以关于基因和卵巢癌化疗敏感性的相关特性为例，来说明本发明的具体实施方式。

本发明提供的基于多来源基因数据库的基因相关特征融合预测方法流程如图4所示，具体包括如下步骤。

1.收集得到多来源基因数据库，不同的基因数据库均包含基因数据、基因相关特征表现等相关信息；

根据网络公开资源或测试等不同来源，得到基因相关特征的多个不同来源基因数据库，记为DataBase1,DataBase2，…，DataBaseN，其中N为不同来源数据库的数量。各数据库的个体样本包含基因表达水平值、基因相关特征表现等相关信息。

2.分别对多来源基因数据库的数据进行标准化处理和数据增强；

分别对N个不同来源基因数据库DataBase1,DataBase2，…，DataBaseN逐一进行标准化处理，并进行基因数据增强处理，得到N个不同的标准化及增强的基因数据库DataBase1*,DataBase2*，…，DataBaseN*。其具体操作步骤包括：

首先，每个数据库单独对基因数据进行标准化处理，即用基因表达水平减去该基因在该数据库所有样本的平均值，再除以该基因在所有样本的标准差，使得基因在每个数据库中表达水平的均值为0，标准差为1。

其次，用数据增强算法对每个数据库进行过采样，来避免类不平衡问题。类不平衡(class-imbalance)是指数据的类别分布不均。比如在预测卵巢癌化疗敏感性这个二分类问题中，正类样本指具有卵巢癌化疗敏感性的样本，负类样本指不具有卵巢癌化疗敏感性的样本，假设有1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有995个、负类样本仅5个，就意味着存在类不平衡问题。在这个例子中负类样本数较少，负类是少数类。类不平衡问题会影响预测效果，因此本发明通过SMOTE(syntheticminority oversampling technique)算法对少数类进行过采样，过采样后正类样本数与负类样本数相同，避免了类不平衡问题。SMOTE过采样是一种经典的数据增强方法，其步骤如下所示：

(1).对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻，一般k取3。

(2).根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为

(3).对于每一个随机选出的近邻分别与原样本x按照图1构建新的样本x_new，表示为如下公式。

式中，rand(0,1)指的是生成一个在0-1之间的随机数。

最后，处理后得到的数据库记为DataBase1*,DataBase2*，…，DataBaseN*。

3.建立动态阈值迭代随机森林方法，分别对多来源基因数据库进行计算，分别得到不同基因数据库的特征基因集合；

分别对N个不同的数据库DataBase1*,DataBase2*，…，DataBaseN*，创新性地设计并采用动态阈值迭代随机森林方法，逐一进行特征基因集合的计算，通过筛选特征基因，得到N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}，其具体操作包括：

首先，对各基因数据库中的个体样本的基因数量进行删减；具体是通过差异基因比较的方法，通过设定差异阈值，将各基因数据库中的个体样本的基因数量减少一个量级左右。

然后，本发明创新性地设计和采用动态阈值迭代随机森林方法对特征基因进行筛选。基于迭代随机森林方法，根据特征重要性的分布设定动态阈值，并筛选出特征重要性高于所设置阈值的基因数据，以减小运算复杂度，更快收敛得到最优基因相关特征子集，并在多轮迭代后得到特征基因。下面展开介绍迭代随机森林算法和设定动态阈值的动态阈值迭代随机森林方法。

迭代随机森林是基于决策树和随机森林的一种算法。迭代随机森林的输入是个体样本的基因表达水平向量，比如个体样本的基因数量是M，那么此个体样本对应的输入是M维向量，向量中的元素是基因1、基因2…基因M的表达水平的值。决策树的树形结构决定了其能够根据样本数据的特征对数据进行准确分类，其中，叶子节点代表了该组样本数据的基本类别，其余节点代表了样本数据按不同属性进行划分的过程。基于以上特点，决策树能够清晰直观地对样本数据进行分类，在分类同时具有强解释性的特点。决策树的算法流程图参见图2。随机森林法的主要思想是在决策树算法的基础上加入融合策略，是一种通过多种决策树投票继而确定变量类别，实行变量分类的方法，随机森林法能最大程度地保证变量分类的客观性与公正性。在使用随机森林法对变量进行分类时，可以快捷地通过众数选择的方式，直观地给出变量的分类。当一个变量输入后，多个决策树会同时按照自身的分类标准对变量进行分类，反馈结果最多的类别便是变量的分类，大大提高了变量分类的效率。迭代随机森林指的是从数据集中的全部特征集开始迭代地运行随机森林算法，在每次迭代中，删掉随机森林中所有未用到的特征。去掉这些特征后，构建新的随机森林，直到特征数量小于设定值。

然而，对于多来源基因数据库中的大型基因表达数据集的所有基因运行迭代随机森林算法是不可行的，因为算法会耗费过多的算力和时间。现有的解决方法是将基因数据集分成多个基因数据子集，这时算法将运行较快，但这种解决方法会失去全局最优解，可能无法选取出最优的基因特征子集。为了解决这个问题，本发明创新性地提出了具有动态阈值的迭代随机森林法，来平衡计算成本和全局最优性。本发明设计的具有动态阈值的迭代随机森林法在每次迭代中，将特征重要性近似拟合为某种概率分布，再根据分布的分位点确定动态阈值，依照阈值来批量删除重要性较低的特征，以此来实现减少迭代次数、缩短算法运行时间开销的目标。动态阈值的确定与随机森林的特征重要性和单样本K-S检验有关。

特征重要性(variable importance measures)简称VIM。在随机森林中，每个基因都对应有一个特征重要性的值，特征重要性的值衡量了该基因为随机森林带来了多少贡献和增益。该基因为随机森林带来了多少贡献和增益，是由该基因为随机森林中每棵决策树带来的贡献和增益求平均值得到的，这种贡献和增益用基尼指标来衡量。用基尼指标(也称基尼指数，简称Gini)衡量随机森林的特征重要性的方法具体为：

迭代随机森林法在每次删除特征时确定的阈值是0(即每棵树出现过的特征都保留)，这样会导致每次删除的特征相对少，迭代次数较多，运行时间较长。本发明创新性地将特征重要性的分布拟合为某种特定分布，根据分布的参数为特征删除设定动态阈值，来平衡全局最优特征子集的求解和运行时间开销。动态阈值的设定可以分为两个步骤，第一步是将特征重要性拟合为特定分布，第二步是根据拟合出的分布的参数确定动态阈值。在第一步中，把特征重要性的分布拟合为某种特定分布时，本发明采用了单样本K-S检验法，单样本K-S检验的最大优势便是能够通过部分样本的选取，对整体样本的分布情况进行描述，通过局部样本给出整体变量所满足的分布关系。单样本K-S检验可以对单样本变量的大致分布做出判断，通过拟合的方法，检验其与其他分布，如正态分布、泊松分布等的相似性关系，继而确认单样本所满足的分布规律。在我们的实施例中，通过单样本K-S检验，发现特征重要性的分布与自由度为1的卡方分布较为相似。因此在第二步中，可以用自由度为1的卡方分布的参数来确定动态阈值。在我们的实施例中，采用了卡方分布的95分位数作为动态阈值。分位数(又称分位点)是指用分割点将概率分布范围分为几个具有相同概率的连续区间，每个分割点都代表一个数值，常用的分位数有二分位数、四分位数、百分位数等，分割点的数量比划分出的区间少1，例如99个分割点能分出100个区间。在我们的实施例中使用的卡方分布的95分位数，指的是用99个分割点将卡方分布分为100个具有相同概率的连续区间，其中第95个分割点代表的数值，我们将这个数值设定为动态阈值。值得注意的是，虽然本实施例中仅用了95分位数，采用其他常用的分位数如二分位数、四分位数等作为动态阈值也是可以的。

依照上述的具有动态阈值的随机森林方法进行多轮迭代后，具有动态阈值的迭代随机森林模型筛选出了特征基因子集，供后续分析处理。最终，通过采用动态阈值迭代随机森林方法获得了最终得到N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}。

4.对各数据库样本进行合并，并对样本的基因进行筛除，得到一个新基因数据库；

对N个不同的数据库DataBase1*,DataBase2*，…，DataBaseN*的所有样本进行合并，得到一个数据库DataBaseAll*。其过程是：合并DataBase1,DataBase2，…，DataBaseN的所有样本，合并为一个数据库DataBaseAll^。然后检查DataBaseAll^的所有样本的基因，删除只存在于部分样本中的基因而只保留所有样本均具有的基因，最终所得的数据库为合并后的数据库DataBaseAll*。

5.各数据库特征基因集合的合并

对基于N个不同数据库DataBase1*,DataBase2*，…，DataBaseN*得到的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}的进行集合合并，保留各集合内所有的特征基因而合并为一个特征基因集合{SigGenAll^}。然后对{SigGenAll^}中的各特征基因进行检查，去掉DataBaseAll*各样本基因中并未包含的基因，最终得到合并后的特征基因集合{SigGenAll*}。

6.基因相关特征的融合预测：在得到特征基因之后，建立特征基因与基因相关特征的联系，进而通过特征基因预测基因相关特征；

在获得合并后的特征基因集合{SigGenAll*}后，本发明构造了分类器，来建立特征基因集合{SigGenAll*}与基因相关特征的联系。训练分类器的目标是将特征基因的表达水平值和基因相关特征建立对应归类关系，从而在预测时根据基因数据库中的基因表达水平值，就可以预测基因相关特征。训练和预测所使用的样本来自上文所述的、合并后的数据库DataBaseAll*。DataBaseAll*中的每一个样本，都包括了该样本在特征基因集合{SigGenAll*}的表达水平值，和该样本的基因相关特征。以卵巢癌化疗敏感性为例，特征基因集合{SigGenAll*}包含57个特征基因，那么用于训练和预测的每一个样本都是一个58维的向量，其中57维分别是57个特征基因的表达水平值，另外1维表示该样本是否具有卵巢癌化疗敏感性。在训练阶段，DataBaseAll*中70％的数据是训练集，以训练集的{SigGenAll*}的基因表达水平值和基因相关特征作为输入，来训练分类器。在预测时，DataBaseAll*中其余30％测试集的基因表达水平值是输入，基因相关特征是分类器的输出。

具体实施时，构造分类器选用机器学习算法，比如SVM支持向量机模型，逻辑回归模型，梯度提升树模型等等。本发明具体实施例构造了SVM模型作为分类器，对基因相关特征进行预测判决。SVM(Support Vector Machine)支持向量机算法常用于提升模型的泛化能力，具有十分普遍的应用。SVM模型泛化能力的提高主要依赖于其最优决策边界的选择能力，SVM能够通过超平面的搭建，得出数据的最优决策边界。训练的过程是将基因表达水平值和基因相关特征建立对应归类关系，从而在预测时根据基因表达水平值预测得出基因相关特征。

以下具体实施例收集到的多来源数据库包含国际公开TCGA数据库(癌症基因组图谱，The Cancer Genome Atlas，https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)和自测患者数据库，两个数据库的个体样本包含基因数据。具有卵巢癌化疗敏感性的样本简称为敏感样本，不具有卵巢癌化疗敏感性的样本简称为耐药样本。其中，TCGA数据库包含74个耐药样本和69个敏感样本。自测数据库包含17个耐药样本和31个敏感样本，通过SMOTE算法数据预处理后获得了62个样本(31个耐药样本和31个敏感样本)。

通过差异基因分析的方法，通过设定差异阈值将数据库个体样本的基因数量减少一个量级。TCGA数据库每个样本中包含的约1.2万个基因被筛选出了约1500个敏感样本和耐药样本间有显著性差异的基因子集。自测患者数据库每个样本中包含的约2万个原始基因筛选出了约2300个敏感样本和耐药样本间有显著性差异的基因子集。差异基因分析方法用来判断某个基因在敏感样本和耐药样本间是否有显著性差异，筛选出有显著性差异的基因；具体而言，假设某基因在敏感样本和耐药样本的表达没有差异(零假设)，然后基于此假设，通过T检验(T-test，比较两个平均数的差异是否显著的常用方法)确定P-value，如果P-value<0.05，说明小概率事件出现了，应该拒绝零假设，即某基因在敏感样本和耐药样本的表达有显著差异。

在本实施例中，我们通过单样本K-S检验，发现特征重要性的分布与自由度为1的卡方分布较为相似。本实施例采用了自由度为1的卡方分布的95分位数作为动态阈值。自由度为1的卡方分布的95分位数，指的是用99个分割点将自由度为1的卡方分布分为100个具有相同概率的连续区间，其中第95个分割点代表的数值，我们将这个数值设定为动态阈值，从而实行动态阈值的迭代随机森林算法，计算特征基因集合。其中，根据TCGA数据库得到116个候选特征基因，根据自测患者数据库得到24个候选特征基因。由于数据库中包含了样本的无进展生存期，通过SPSS软件进行比例风险回归模型分析，TCGA数据库得到包含50个基因的特征基因集合，'FOXA1','CEBPA','ACTL6A','ARRB1','AKT1','MAPK14','ETS1','BRCA1','RAD21','TAF1','BCAS2','CTNNB1','RAB18','CARM1','RAB3GAP1','MAX','AURKA','STAT3','MAPK3','ATR','USF1','YY1','RXRA','HSP90AA1','ATF1','CCNB1','COPS6','ACTR1A','ACTG1','GSK3B','FAM20A','AQR','RELA','PSMA1','CDK7','PSMA4','PSMA3','GPS1','ACTB','CCNB2','MYC','ALYREF','NFYB','AURKAIP1','FOS','SPI1','ACTR5','NEDD8','PSMA2','USF2'。自测患者数据库得到7个特征基因集合，'ID1','GJB2','GLI2','PCDHB5','CCDC42','KIF26B','ZKSCAN1'。其中，TCGA数据库得到的50个特征基因在TCGA数据库测试集上的验证精度AUC(Area Under Curve)值为0.997，自测患者数据库得到的7个特征基因在自测患者数据库上的验证精度AUC值为0.962。

在融合预测阶段，将TCGA数据库和自测患者数据库进行合并作为数据集，同时将TCGA数据库得到50个特征基因集合和自测患者数据库得到7个特征基因集合进行合并作为特征基因集合，构造用于融合预测的SVM方法构造分类器，训练分类器时的输入为基因表达水平值和基因相关特性；预测时，输入为待预测的基因表达水平值，分类器的输出是基因相关特性。本实施例在多数据库上融合出的特征基因集合，基于TCGA数据库和自测患者基因数据库，采用本发明方法进行融合合并的合并基因数据集作为训练数据和测试数据，其结果表明，本发明方法对药物基因相关特征(耐药性)预测的准确率达到了84％。而如果直接用未融合时50个特征基因集合或者7个特征基因集合进行验证，其准确率均不超过70％，实现了基因相关特征预测准确性的显著提升。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于多来源基因数据库的基因相关特征融合预测方法，建立基于动态阈值的迭代随机森林方法，针对多来源基因数据库的特征基因集合进行计算，根据特征重要性的分布设定动态阈值，对基因数据进行全局优化，并生成不同的特征基因集合，通过融合不同来源的基因数据库及相应的不同特征基因集合，实现对基因相关特征的融合预测；包括如下步骤：

1)收集得到多来源基因数据库，不同的基因数据库均包含基因数据、基因相关特征表现相关信息；基因数据包括基因表达水平值；

2)分别对多来源基因数据库的数据进行标准化处理和数据增强，得到的数据库记为DataBase1*,DataBase2*，…，DataBaseN*；

3)设计动态阈值迭代随机森林方法，对步骤2)得到的N个多来源基因数据库的特征基因集合逐一进行计算，得到N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}；包括：

31)对各基因数据库中的个体样本的基因数量进行删减；

321)计算得到多来源基因数据库中每个基因在随机森林中的特征重要性；

基因的特征重要性表示基因为随机森林带来的贡献和增益，由基因为随机森林中每棵决策树带来的贡献和增益求平均值得到；

322)通过设定动态阈值批量删除重要性低的特征，以减少迭代次数；设定动态阈值包括：将特征重要性拟合为某种概率分布；再根据拟合出的概率分布的参数动态地确定阈值；

323)采用动态阈值迭代随机森林方法进行多轮迭代，在每轮迭代中拟合出对应的分布参数，求解得到全局最优特征子集，筛选出特征基因子集，获得N个不同的特征基因集合，记为{SigGen1}，{SigGen2}，…，{SigGenN}；

5)将步骤3)得到的N个不同的特征基因集合{SigGen1}，{SigGen2}，…，{SigGenN}进行集合合并，得到一个特征基因集合{SigGenAll^}；再遍历{SigGenAll^}中的特征基因，去掉步骤4)中得到的新基因数据库DataBaseAll*各样本中未包含的基因，最终得到合并后的特征基因集合{SigGenAll*}；

6)采用机器学习算法构造基因分类器，即基因相关特征预测模型；然后基于融合后数据库DataBaseAll*和特征基因集合{SigGenAll*}，对基因相关特征预测模型进行训练；

训练基因分类器时的输入为基因表达水平值和基因相关特性；

再利用训练好的基因相关特征预测模型，对待预测基因数据进行预测分析；预测时输入为待预测的基因表达水平值，分类器的输出是基因相关特性；实现基因相关特征预测。

2.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤31)具体是采用差异基因比较的方法，对各基因数据库中的个体样本的基因数量进行删减。

3.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤321)中，采用基尼指标Gini表示基因的特征重要性；具体包括：

设多来源基因数据库的m个基因，基因1，基因2，基因3，...，基因m，每个基因都对应其在随机森林的特征重要性，分别是VIM1，VIM2，VIM3，...，VIMi，...，VIMm；

首先计算m个基因在每棵决策树中带来的贡献和增益；

基因i在树中的任一节点所带来的贡献和增益表示为该节点分叉前后的基尼指标改变量；

将决策树中出现基因i的所有节点的基尼指标改变量进行计算并求和，得到基因i在决策树中带来的贡献和增益；

计算得到基因i在每棵决策树中带来的贡献和增益的值，再对这些值求平均，即可得到基因i在随机森林中的特征重要性VIMi。

4.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤322)中，采用单样本K-S检验，将基因的特征重要性拟合为卡方分布；再根据卡方分布的分位点动态地确定阈值。

5.如权利要求4所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，确定动态阈值具体包括如下步骤：

第一步，将基因的特征重要性分布拟合为卡方分布时，采用单样本K-S检验法，对单样本变量通过拟合的方法，检验其与其他分布的相似性关系，确认将特征重要性的分布拟合为自由度为1的卡方分布；

第二步，采用自由度为1的卡方分布的参数来确定动态阈值；具体采用卡方分布的95分位数作为动态阈值。

6.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤2)中，数据增强方法具体是：通过SMOTE算法进行过采样，使得过采样后正类样本数与负类样本数相同。

7.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤31)中，对各基因数据库中的个体样本的基因数量进行删减，具体是通过差异基因比较的方法，通过设定差异阈值，将各基因数据库中的个体样本的基因数量减少一个量级。

8.如权利要求1所述基于多来源基因数据库的基因相关特征融合预测方法，其特征是，步骤6)中，构造分类器采用的机器学习模型算法为SVM支持向量机模型、逻辑回归模型和梯度提升树模型，构造出基因相关特征融合预测模型，对基因相关特征进行预测判决。