CN103065029A

CN103065029A - 用于肿瘤检测的基因选择方法

Info

Publication number: CN103065029A
Application number: CN 201110319228
Authority: CN
Inventors: 孙鑫; 刘衍珩; 朱建启; 李飞鹏
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2011-10-20
Filing date: 2011-10-20
Publication date: 2013-04-24

Abstract

本发明公开了一种用于肿瘤检测的基因选择方法，按下列步骤进行：预处理模块对初始输入样本进行预处理，生成候选基因集合；基因权值评估模块对候选基因集合中的每个基因赋予相同的权值，进入基因选择流程；基因选择模块计算每个基因的优先级，选择具有最高优先级的基因作为最新选择基因，并将其加入最优基因集合；相关性分析模块根据最新选择基因计算候选基因集合中的每个基因的权值的调整系数；基因权值评估模块根据调整系数对基因的权值进行调整，并继续进行基因选择流程；选择结束后，输出最优基因集合给分类器。本发明能够挑选出与肿瘤相关的最优基因集合用于诊断，更符合实际情况，满足高精度的肿瘤诊断的需求。

Description

用于肿瘤检测的基因选择方法

技术领域

本发明涉及一种用于肿瘤检测的基因选择方法，尤其涉及一种用于肿瘤检测的对DNA微阵列中肿瘤相关基因进行选择的基因选择方法

背景技术

常规的肿瘤检测方法是建立在形态学基础之上的，它高度依赖于病理学专家对肿瘤组织的主观判断。环境条件的差异性给疾病的诊断带来许多不确定性的因素，进而影响预测判断的结果。DNA微阵列随着人类基因组的研究应运而生，它使用微缩技术，将核酸高密集有序地排列在固定的区域内作为微型的DNA检测器件，以发现DNA中基因的内在联系。对癌症和正常的DNA片段进行比对操作，同时观察数千种基因的各自表达情况，并利用数据分析技术推断出基因之间的相互关系，依此对疾病的类型和诊断等做出精确的判断，从而帮助专家对疾病做出正确的诊断。

由于DNA微阵列是某组织或细胞中所有基因的表达数据，维数通常达到几千或上万维，但在实际应用中只有很小一部分基因对肿瘤诊断具有价值，而大部分基因是无用的或与分析无关的。同时，由于实际临床治疗中病例样本一般较少和微阵列实验成本很高等原因，大多数基因表达样本集都具有很少数量的样本和数以万计的基因，过多的基因对数据分析方法而言是不适宜的。开发有效的基因表达数据分析和学习工具已经成为肿瘤检测研究的热点问题之一。基因选择是利用机器学习的方法从成千上万个基因中挑选出与肿瘤检测相关的基因，从而建立精简的预测模型，为肿瘤的治疗提供可靠的诊断结果。在机器学习的应用中，基因选择又被称为特征选择。目前，现有的机器学习中的特征选择方法常常是选择与目标相关性最大且冗余性最小的特征，而在DNA微阵列中往往是几个高度相关的基因共同表达一类疾病，因此已有的特征选择算法在肿瘤检测的应用中并不理想。

发明内容

本发明的目的在于提供一种用于肿瘤检测的对DNA微阵列中肿瘤相关基因进行选择的基因选择方法，能够根据已选基因与待选基因之间的相关性特征动态地调整待选基因的权值，从而最大限度地选出具有较高正确诊断率基因，提供可靠的诊断结果和治疗方案。

一种用于肿瘤检测的基因选择方法，包括以下步骤：

1.预处理模块获取初始输入的基因样本，并对初始样本进行预处理，生成候选基因集合，并提供给基因权值评估模块；

2.所述基因权值评估模块首先对输入的所述候选基因集合中的每个基因赋予相同的权值为1，生成加权候选基因集合，并进入基因选择流程；

3.所述基因选择流程为：

A.基因选择模块从所述基因权值评估模块获得所述加权候选基因集合；

B.所述基因选择模块计算每个基因与目标类的相关度并乘以该基因的权值，得到每个基因的优先级；

C.所述基因选择模块按照候选基因集合中每个基因的优先级从大到小依次排列，具有最高优先级的基因成为最新选择基因，将该基因加入最优基因集合，并将其从候选基因集合中删除；

D.所述基因选择模块判断是否符合终止条件，如果不符合，将所述最新选择基因输入相关性分析模块，继续进行步骤E；如果符合终止条件，则结束基因选择，输出最优基因集合给分类器；

E.所述相关性分析模块对候选基因集合中的每个基因与所述最新选择基因之间进行相关性分析，计算所述候选基因集合中的每个基因的权值的调整系数，进而获得调整系数向量；

F.所述基因权值评估模块根据所述调整系数向量对候选基因集合中的每个基因的权值进行调整，得到新的加权候选基因集合，再返回到步骤A。

其中：

步骤1所述预处理包括规范化处理和离散化处理，所述候选基因集合为特征矩阵，列数表示基因数，行数为样本数，其大小由输入样本决定；所述规范化处理是通过计算样本的均值μ和标准方差σ，对每个样本所对应的基因值x规范化为(x-μ)/σ，从而使得每个基因的均值为0和标准方差为1；所述离散化处理的方法是：基因值的范围为(-∞，-0.5]时转化为1，基因值的范围在(-0.5，0.5)的转化为2，基因值的范围为[0.5，+∞)转化为3。

步骤3B所述的基因与目标类的相关度是指该基因与目标类之间共享信息的程度，本发明采用信息论中的互信息并将其归一化后度量。基因与目标类的相关度表示为R(gclass)，计算方法如公式(1)所示：

R (g, class) = 2 \frac{I (g; class)}{H (g) + H (class)} (0 \leq R (g, class) \leq 1) - - - (1)

其中g和class分别表示所述候选基因集合中的一个基因和目标类，H(g)和H(class)分别表示g和class的熵，I(g；class)为g和class的互信息。本发明提到的关于信息论中熵、互信息和条件互信息的基本概念为：

熵是随机变量不确定性的度量。一个离散随机变量X，其取值空间为S_X，概率密度函数为p(x)，x∈S_X，则X的熵定义为：

H (X) = - \underset{x &Element; S_{X}}{Σ} p (x) \log p (x) - - - (2)

两个离散随机变量X和Y共享信息的程度用互信息来度量：

I (X; Y) = \underset{x &Element; S_{X}}{Σ} \underset{y &Element; S_{Y}}{Σ} p (x, y) \log \frac{p (x, y)}{p (x) p (y)} - - - (3)

在变量Z已知的条件下，变量X和Y共享信息的程度用条件互信息来度量

I (X; Y | Z) = \underset{x &Element; S_{X}}{Σ} \underset{y &Element; S_{Y}}{Σ} \underset{z &Element; S_{Z}}{Σ} p (x, y, z) \log \frac{p (x, y | z)}{p (x | z) p (y | z)} - - - (4)

步骤3D所述终止条件为判断最优基因集合中基因的个数是否超出设定的阈值规定的个数。所述阈值的取值范围在[20，30]。所述分类器为朴素贝叶斯分类器，所述分类器还可以为其他类型的分类器，如支持向量机、多层神经网络等。

步骤3E所述相关性分析为依赖性、冗余性和无关性分析，本发明首先计算所述候选基因集合中每个基因g与目标类class之间的互信息I(g；class)，以及将所述最新选择基因g_new作为已知条件的情况下基因g与目标类class之间的条件互信息I(g；class|g_new)，然后，计算I(g；class|g_new)和I(g；class)之间的差值，如公式(5)所示：

ε＝I(g；class|g_new)-I(g；class) (5)

如果ε大于0，则基因g相对于所述最新选择基因g_new是依赖的，如果ε小于0，则基因g相对于所述最新选择基因g_new是冗余的，如果ε等于0，则基因g与所述最新选择基因g_new是无关的。

所述基因的调整系数是该基因g与所述最新选择基因进行相关性分析后，该基因的权值需调整的比率。其计算方法如公式(6)所示：

θ (g) = 2 \frac{ϵ}{H (g) + H (class)} (- 1 \leq θ (g) \leq 1) - - - (6)

所述调整系数向量是所述候选基因集合中所有基因的调整系数构成的向量，向量的长度等于候选基因集合中基因的个数。

步骤3F所述根据调整系数向量对候选基因集合中的每个基因的权值进行调整，其调整方法如公式(7)所示：

ω(g)＝1+θ(g) (7)

其中g为所述候选基因集合中的一个基因，ω(g)为该基因的权值，θ(g)是该基因的调整系数。

附图说明

图1为本发明的模块关系示意图

图2是本发明的数据预处理流程示意图

图3是本发明的特征选择流程示意图

具体实施方式

下面结合附图和实施例进一步对本发明加以说明。

参照图1，示出了说明本发明的一个实施例中一种用于肿瘤检测的基因选择方法的模块关系图。

(一)预处理模块1获取初始输入的基因样本，该初始样本含有N个基因、M个样本和一个目标类；预处理模块1对初始样本进行预处理后得到候选基因集合，候选基因集合是特征矩阵，列数N表示基因个数，行数M为样本数量；预处理模块1将候选基因集合输入基因权值评估模块2；

其中，预处理包括规范化处理和离散化处理，其流程如图2所示：

所述预处理模块1获取初始输入的基因样本。首先，该预处理模块1对初始输入基因样本进行规范化处理；然后，该预处理模块1对规范化处理后的基因样本进行离散化处理；最后，该预处理模块1生成候选基因集合，预处理结束。

所述规范化处理方法为：通过计算样本的均值μ和标准方差σ，对每个样本所对应的基因值x规范化为(x-μ)/σ，从而使得每个基因的均值为0和标准方差为1。

所述离散化处理方法为：基因值的范围为(-∞，-0.5]时转化为1，基因值的范围在(-0.5，0.5)的转化为2，基因值的范围为[0.5，+∞)转化为3。

(二)基因权值评估模块2的输入有两种：候选基因集合和调整系数向量。所述候选基因集合由预处理模块1提供，基因权值评估模块2对该候选基因集合中的每个基因初始化相同的权值为1，并将加权后的加权候选基因集合输入给基因选择模块3进入基因选择流程；所述调整系数向量由相关性分析模块4提供，用于在基因选择模块3每次选择特征后动态调整候选基因集合中的每个基因的权值。

如图3所示，所述基因选择流程为：

A.所述基因选择模块3从所述基因权值评估模块2获得加权候选基因集合；

B.所述基因选择模块3计算每个基因与目标类的相关度并乘以该基因的权值，得到每个基因的优先级；

所述的基因与目标类的相关度是指该基因与目标类之间共享信息的程度，本发明采用信息论中的互信息并将其归一化后度量。基因与目标类的相关度表示为R(g，class)，计算方法如公式(1)所示：

R (g, class) = 2 \frac{I (g; class)}{H (g) + H (class)} (0 \leq R (g, class) \leq 1) - - - (1)

其中g和class分别表示所述候选基因集合中的一个基因和目标类，H(g)和H(class)分别表示g和class的熵，I(g；class)为g和class的互信息。

所述基因的优先级在本实施例中代表该基因在肿瘤检测中的重要程度，其计算方法为：R(g，class)×ω(g)，其中ω(g)为所述基因权值评估模块2赋予该基因的权值。

C.所述基因选择模块3按照候选基因集合中每个基因的优先级从大到小依次排列，具有最高优先级的基因成为最新选择基因，将该基因加入最优基因集合，并将其从候选基因集合中删除；

D.所述基因选择模块3判断是否符合终止条件，如果不符合，将所述最新选择基因输入相关性分析模块4，继续进行步骤E；如果符合终止条件，则结束基因选择，输出最优基因集合给分类器5；

所述终止条件为判断最优基因集合中基因的个数是否超出设定的阈值规定的个数。在本实施例中所述阈值为30。本发明所述阈值不限于30，其取值范围可以在[20，30]。所述分类器5在本实施例中为朴素贝叶斯分类器，本发明所述分类器还可以为其他类型的分类器，如支持向量机、多层神经网络等。

E.所述相关性分析模块4对候选基因集合中的每个基因与所述最新选择基因之间进行相关性分析，计算所述候选基因集合中的每个基因的调整系数，获得调整系数向量；所述相关性分析为依赖性、冗余性和无关性分析。本实施例首先计算所述候选基因集合中每个基因g与目标类class之间的互信息I(g；class)，以及将所述最新选择基因g_new作为已知条件的情况下基因g与目标类class之间的条件互信息I(g；class|g_new)；然后计算I(g；class|g_new)和I(g；class)之间的差值，如公式(2)所示：

ε＝I(g；class|g_new)-I(g；class) (2)

所述基因的调整系数是该基因g与所述最新选择基因进行相关性分析后，该基因的权值需调整的比率。其计算方法如公式(3)所示：

θ (g) = 2 \frac{ϵ}{H (g) + H (class)} (- 1 \leq θ (g) \leq 1) - - - (3)

F.所述基因权值评估模块2根据所述调整系数向量对候选基因集合中的每个基因的权值进行调整，得到新的加权候选基因集合，再返回步骤A。

所述根据调整系数向量对候选基因集合中的每个基因的权值进行调整，其调整方法如公式(4)所示：

ω(g)＝1+θ(g) (4)

本实施例中未详细描述之处为公知技术，本领域技术人员都能实现，因此这里不再累述。本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下，还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明，而是由权利要求书的范围来确定的。

Claims

1.一种用于肿瘤检测的基因选择方法，其特征在于该方法包括以下步骤：

(一)预处理模块获取初始输入的基因样本，并对初始样本进行预处理，生成候选基因集合；

(二)基因权值评估模块首先对输入的所述候选基因集合中的每个基因赋予相同的权值为1，生成加权候选基因集合，并进入基因选择流程；

(三)所述基因选择流程为：

B.所述基因选择模块计算每个基因与目标类的相关度并乘以该基因的权值，得到每个基因的优先级；其中，基因与目标类的相关度是指该基因与目标类之间共享信息的程度，采用信息论中的互信息并将其归一化后度量；基因与目标类的相关度表示为R(g，class)，计算方法如公式(1)所示：

R (g, class) = 2 \frac{I (g; class)}{H (g) + H (class)} (0 \leq R (g, class) \leq 1) - - - (1)

其中g和class分别表示所述候选基因集合中的一个基因和目标类，H(g)和H(class)分别表示g和class的熵，I(g；class)为g和class的互信息，所述熵和互信息是信息论中的基本概念；

2.根据权利要求1所述的一种用于肿瘤检测的基因选择方法，其特征在于步骤(一)所述的预处理包括规范化处理和离散化处理。

3.根据权利要求2所述的一种用于肿瘤检测的基因选择方法，其特征在于所述的规范化处理是通过计算样本的均值μ和标准方差σ，对每个样本所对应的基因值x规范化为(x-μ)/σ，从而使得每个基因的均值为0和标准方差为1。

4.根据权利要求2所述的一种用于肿瘤检测的基因选择方法，其特征在于所述离散化处理的方法是：基因值的范围为(-∞，-0.5]时转化为1，基因值的范围在(-0.5，0.5)的转化为2，基因值的范围为[0.5，+∞)转化为3。

5.根据权利要求1所述的一种用于肿瘤检测的基因选择方法，其特征在于步骤(三)E所述相关性分析为依赖性、冗余性和无关性分析，首先计算所述候选基因集合中每个基因g与目标类class之间的互信息I(g；class)，以及将所述最新选择基因g_new作为已知条件的情况下基因g与目标类class之间的条件互信息I(g；class|g_new)，然后，计算I(g；class|g_new)和I(g；class)之间的差值，如公式(2)所示：

ε＝I(g；class|g_new)-I(g；class) (2)

6.根据权利要求5所述的一种用于肿瘤检测的基因选择方法，其特征在于步骤(三)E所述基因的调整系数是该基因g与所述最新选择基因进行相关性分析后，该基因的权值需调整的比率，其计算方法如公式(3)所示：

θ (g) = 2 \frac{ϵ}{H (g) + H (class)} (- 1 \leq θ (g) \leq 1) - - - (3)

其中H(g)和H(class)分别是g和class的熵；

7.根据权利要求6所述的一种用于肿瘤检测的基因选择方法，其特征在于步骤(三)F所述根据调整系数向量对候选基因集合中的每个基因的权值进行调整，其调整方法如公式(4)所示：

ω(g)＝1+θ(g) (0≤ω(g)≤2) (4)