CN104091096A

CN104091096A - 基于模糊测度的基因重要度追踪方法

Info

Publication number: CN104091096A
Application number: CN201410361374.6A
Authority: CN
Inventors: 王金凤
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2014-07-25
Filing date: 2014-07-25
Publication date: 2014-10-08

Abstract

本发明公开了一种基于模糊测度的基因重要度追踪方法，将人体的各个基因看作预测特征，通过模糊积分的变形构造线性方程组，采用L1-norm归一化方法求解模糊测度值，获得一组带有少量非零值的解，从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解，摈除了传统的假设特征独立的前提，认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响，而影响的程度由求解得到的模糊测度值来描述，可以快速确定影响疾病发生的重要基因或基因组合。

Description

基于模糊测度的基因重要度追踪方法

技术领域

本发明涉及一种基因重要度追踪方法，尤其是一种基于模糊测度的基因重要度追踪方法，属于生物信息技术领域。

背景技术

目前，研究发现人类疾病的发病和基因序列中某些基因的突变有直接的关系。但是基因序列往往是包含成千上万个基因的长串，即使通过多种基因筛选技术到最后，仍然是无法确定哪些基因和疾病有着重要关系。有些研究者借助计算机辅助工具进行特征提取的工作，但是所得到的重要基因的前提假设是各个基因之间是独立作用毫不相关的。事实上，事物的特征之间的交互作用往往也影响着目标决策，因此，基因之间的交互组合对疾病所起到的作用不容忽视。

传统的模糊测度是模糊积分计算中所用到的参数，应用于分类或者回归模型中，通常采用遗传算法学习得到，当数据特征数量较多时，复杂度也会随之增大。

发明内容

本发明的目的是为了解决上述现有技术的缺陷，提供一种可以快速确定影响疾病发生的重要基因或基因组合的基于模糊测度的基因重要度追踪方法。

本发明的目的可以通过采取如下技术方案达到：

基于模糊测度的基因重要度追踪方法，其特征在于所述方法包括：将人体的各个基因看作预测特征，通过模糊积分的变形构造线性方程组，采用L1-norm归一化方法求解模糊测度值，获得一组带有少量非零值的解，从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。

作为一种实施方案，所述方法包括以下步骤：

S1、将人体的各个基因看作预测特征，而基因序列所对应的疾病分类为预测目标；

S2、通过模糊积分的变形构造线性方程组，具体如下：

S21、设一个数据集合为训练集，含有l个例子，每个例子包含一个决策特征Y和n个预测特征x₁，x₂，...，x_n；

其中，正整数l表示数据集的大小；决策特征Y指示每个例子属于哪一类；预测特征是数字类型的，它们的值由一个n维向量f(x₁)，f(x₂)，...，f(x_n)所表示；

S22、通过模糊积分的计算来完成基于模糊测度的目标值，如下式：

&Integral; fdμ = Σ_{j = 1}^{2^{n} - 1} z_{j} μ_{j}

其中，

对于j＝1，2，…，2ⁿ-1都会有空集为0的惯例；其中，表示的小数部分；上述公式中，如果将j以二进制的形式j_nj_n-1…j₁表示，则有和

{i | frc (\frac{j}{2^{i}}) &Element; [0, \frac{1}{2})} = {i | j_{i} = 0};

S23、根据已知的疾病DNA数据库，建立一组以模糊测度μ为未知变量的线性方程；

S3、采用L1-norm归一化方法，使得的值最小，从而会得到一组带有少量非零值的解，通过调节其中的参数λ来控制非零值的个数；

S4、根据步骤S3得到的非零值的解，追踪到与之相对应的基因及基因组合对疾病影响的重要度。

作为一种实施方案，所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。

本发明相对于现有技术具有如下的有益效果：

1、本发明的基于模糊测度的基因重要度追踪方法，摈除了传统的假设特征独立的前提，认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响，而影响的程度(重要度)由求解得到的模糊测度值来描述，可以快速确定影响疾病发生的重要基因或基因组合。

2、本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解，从而解得的模糊测度值带有很少的非零值，非零值所对应的基因或基因组合则对疾病有着重要的作用，非零值越大说明所对应的基因或基因组合的重要度越高。

附图说明

图1为本发明的基于模糊测度的基因重要度追踪方法流程示意图。

具体实施方式

实施例1：

首先说明模糊测度的使用能够很好地描述特征之间的交互作用对决策的影响，具体如下例所示：

令X表示同一个车间内的所有工人集合，而且他们每天的产量相同；对于我们考虑A组工人工作的情况，每一组可能都有不同的工作方式：存在合作或者单独工作；令μ(A)表示A组成员一小时的产量，那么集合函数μ:P(X)→[0，∞)是单调的并且因此它是模糊测度，模糊测度并不一定是可加的；令A和B是X的不相交子集，来看一下A和B的产量μ(A∪B)如何，如果A和B分别独立工作，那么有μ(A∪B)＝μ(A)+μ(B)，但是，由于他们通常都会彼此交互影响，上面的等式并不总是成立，A和B有效率的合作会导致μ(A∪B)＞μ(A)+μ(B)，相反，如果A的操作和B的操作不和谐兼容的话，产量则会降低，如μ(A∪B)＜μ(A)+μ(B)。

对于每一个特征和每一组特征子集，都有一个不同的模糊测度值与之对应，来描述其对目标决策的影响力，由于模糊测度的非可加性，特征对目标的影响是不独立的，使得所有特征对于目标决策的全局贡献不仅仅是每个特征贡献的简单加和。

现在用下面这个例子进行进一步说明，假设已经观察到了一个病人的三个基因，希望由此来判断他(她)的疾病，基因可以被看作是信息源，构成全集X＝{x₁，x₂，x₃}。可以用模糊测度μ来说明他们中单独每一个以及联合体对于疾病预测的贡献度，如表1所示。

表1定义在X＝{x₁，x₂，x₃}上的模糊测度示例

可以看到μ(x₂，x₃})＞μ(x₂})+μ({x₃})，即x₂和x₃的联合贡献要大于它们各自贡献之和，这说明x₂和x₃之间的交互对于彼此的影响具有提升作用；另一种情况，如μ({x₁，x₂})＜μ({x₁})+μ({x₂})，表明x₁和x₂是彼此压制的。

如图1所示，本实施例的基于模糊测度的基因重要度追踪方法，包括以下步骤：

S2、通过模糊积分的变形构造线性方程组，具体为：

其中，正整数l表示数据集的大小；决策特征Y指示每个例子属于哪一类，一般它是分类的特征，它的值来自于一个无序的有限域。此分类特征所有可能的值的集合可以由C＝c₁，c₂，...，x_m表示，指一个特定的分类；预测特征是数字类型的，它们的值由一个n维向量f(x₁)，f(x₂)，...，f(x_n)所表示，向量的范围是n维欧几里得空间的子集，被称作特征空间；例如，第j个例子包含n个特征和一个决策值，即可以表示为(x_j(x₁)，f_j(x₂)，...，f_j(x_n)，Y_j)，j＝1，2，...，l。

&Integral; fdμ = Σ_{j = 1}^{2^{n} - 1} z_{j} μ_{j}

其中，

{i | frc (\frac{j}{2^{i}}) &Element; [0, \frac{1}{2})} = {i | j_{i} = 0};

S23、根据已知的疾病DNA数据库，以步骤S22中求得的z值为系数，建立一组以模糊测度μ为未知变量的线性方程，如下所示：

z_{11} μ_{1} + z_{12} μ_{2} + . . . + z_{{1,2}^{n} - 1} μ_{2^{n} - 1} = y_{1}

z_{21} μ_{1} + z_{22} μ_{2} + . . . + z_{{2,2}^{n} - 1} μ_{2^{n} - 1} = y_{2}

……

z_{l 1} μ_{1} + z_{l 2} μ_{2} + . . . + z_{{l, 2}^{n} - 1} μ_{2^{n} - 1} = y_{l}

所述L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成，由于LASSO方法是一种压缩估计方法，基于Gauss-Seidel迭代的LASSO是简单且快速的，因此我们用其来解L1-Norm问题，最终解得具有最少非零值的模糊测度解。

实施例2：

本实施例是一个应用实例。

为了更好地说明此专利的效果，我们以一组肝炎疾病的基因序列数据为例，肝炎数据通过聚类可以分为四种类型(B、C1、C2和C3)，每一类的数据库如表2描述。

子库	无病	有病	总人数
				B	51	37	88
C1	10	16	26
				C2	18	22	40
C3	19	25	44
				总合	98	100	198

表2定义在X＝{x₁，x₂，x₃}上的模糊测度示例

基因序列通过前期的生物技术特征筛选方法，剩余5个基因位(x₁、x₂、x₃、x₄和x₅)，每个基因位的取值分别为A、C、G和T。现在使用模糊测度方法来进一步跟踪各个基因和基因组合对疾病的影响程度，具体的实施采用Matlab7.2编程实现，其中L1-norm方法求解模糊测度可直接调用LASSO函数包来完成，经过多次实验，最终压缩参数确定在100，对此四种类型的子数据库进行求解，所得压缩后的模糊测度值分别列在表3-表6中。

基因位	B	基因位	B	基因位	B	基因位	B
								x₁	0.495	x₁，x₄	0.738	x₁，x₅	0	x₁，x₄，x₅	0.472
x₂	0.232	x₂，x₄	0.102	x₂，x₅	0	x₂，x₄，x₅	0
								x₁，x₂	0	x₁，x₂，x₄	0	x₁，x₄，x₅	0	x₁，x₂，x₄，x₅	0.45
x₃	0.094	x₃，x₄	0.252	x₃，x₅	0	x₃，x₄，x₅	0
								x₁，x₃	0.175	x₁，x₃，x₄	0.566	x₁，x₃，x₅	1.488	x₁，x₃，x₄，x₅	0.26
x₂，x₃	-0.035	x₂，x₃，x₄	-0.035	x₂，x₃，x₅	0	x₂，x₃，x₄，x₅	0.941
								x₁，x₂，x₃	0	x₁，x₂，x₃，x₄	0	x₁，x₂，x₃，x₅	0	X	0
x₄	0.333	x₅	0.457	x₄，x₅	0

表3 B类肝炎的基因重要度

基因位	C1	基因位	C1	基因位	C1	基因位	C1
								x₁	0.260	x₁，x₄	0	x₁，x₅	0.840	x₁，x₄，x₅	0
x₂	0	x₂，x₄	0	x₂，x₅	0.500	x₂，x₄，x₅	0
								x₁，x₂	0	x₁，x₂，x₄	0	x₁，x₂，x₅	0.687	x₁，x₂，x₄，x₅	0
x₃	0	x₃，x₄	0	x₃，x₅	0	x₃，x₄，x₅	0
								x₁，x₃	0	x₁，x₃，x₄	0	x₁，x₃，x₅	0.765	x₁，x₃，x₄，x₅	0
x₂，x₃	0	x₂，x₃，x₄	0	x₂，x₃，x₅	0.900	x₂，x₃，x₄，x₅	0.600
								x₁，x₂，x₃	0.445	x₁，x₂，x₃，x₄	0	x₁，x₂，x₃，x₅	0.472	X	0.443
x₄	0	x₅	0	x₄，x₅	0

表4 C1类肝炎的基因重要度

基因位	C2	基因位	C2	基因位	C2	基因位	C2
								x₁	0.45	x₁，x₄	-0.604	x₁，x₅	0.757	x₁，x₄，x₅	0
x₂	0	x₂，x₄	0	x₂，x₅	0.829	x₂，x₄，x₅	0
								x₁，x₂	0.007	x₁，x₂，x₄	0	x₁，x₂，x₅	0.395	x₁，x₂，x₄，x₅	0.558
x₃	-0.183	x₃，x₄	0	x₃，x₅	0	x₃，x₄，x₅	0
								x₁，x₃	0.86	x₁，x₃，x₄	0	x₁，x₃，x₅	0.5	x₁，x₃，x₄，x₅	0
x₂，x₃	0	x₂，x₃，x₄	0	x₂，x₃，x₅	0.107	x₂，x₃，x₄，x₅	0
								x₁，x₂，x₃	0	x₁，x₂，x₃，x₄	0	x₁，x₂，x₃，x₅	0.565	X	0.687
x₄	0.196	x₅	1.374	x₄，x₅	0.631

表5 C2类肝炎的基因重要度

基因位	C3	基因位	C3	基因位	C3	基因位	C3
								x₁	0.26	x₁，x₄	0	x₁，x₅	0.84	x₁，x₄，x₅	0
x₂	0	x₂，x₄	0	x₂，x₅	0.5	x₂，x₄，x₅	0
								x₁，x₂	0	x₁，x₂，x₄	0	x₁，x₂，x₅	0.687	x₁，x₂，x₄，x₅	0
x₃	0	x₃，x₄	0	x₃，x₅	0	x₃，x₄，x₅	0
								x₁,x₃	0	x₁，x₃，x₄	0	x₁,x₃，x₅	0.765	x₁，x₃，x₄，x₅	0
x₂，x₃	0	x₂，x₃，x₄	0	x₂，x₃，x₅	0.9	x₂，x₃，x₄，x₅	0.6
								x₁，x₂，x₃	0.445	x₁，x₂，x₃，x₄	0	x₁，x₂，x₃，x₅	0.472	X	0.443
x₄	0	x₅	0	x₄，x₅	0

表6 C3类肝炎的基因重要度

以C3子类为例可以看出，最重要的基因组合是{x₂，x₃，x₅}，重要度为0.9，意味着当x₂、x₃和x₅同时发生突变时最容易导致HBV的疾病出现；同时，对于所有的非零值所对应的10项组合，按照模糊测度值由大到小排序，前8项都包含着基因位x₅依此可见，x₅是对结果有着消极影响最为显著的一项，另一个现象是有模糊测度值对应的几组基因组合{x₁，x₅}{x₂，x₅}{x₁，x₂，x₅}{x₃，x₅}{x₁，x₃，x₅}，在加入了基因位x₄之后，模糊测度值变为0，表明前者影响作用被x₄抑制并消减。即便是最重要的{x₂，x₃，x₅}在加入x₄后，重要度值也被消减至了0.6，可见x₄是一个积极的基因位。

综上所述，本发明方法摈除了传统的假设特征独立的前提，认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响，而影响的程度求解得到的模糊测度值来描述，可以快速确定影响疾病发生的重要基因或基因组合。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于模糊测度的基因重要度追踪方法，其特征在于所述方法包括：将人体的各个基因看作预测特征，通过模糊积分的变形构造线性方程组，采用L1-norm归一化方法求解模糊测度值，获得一组带有少量非零值的解，从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。

2.根据权利要求1所述的基于模糊测度的基因重要度追踪方法，其特征在于所述方法包括以下步骤：

S2、通过模糊积分的变形构造线性方程组，具体如下：

&Integral; fdμ = Σ_{j = 1}^{2^{n} - 1} z_{j} μ_{j}

其中，

{i | frc (\frac{j}{2^{i}}) &Element; [0, \frac{1}{2})} = {i | j_{i} = 0};

3.根据权利要求1或2所述的基于模糊测度的基因重要度追踪方法，其特征在于：所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。