CN104091096A - 基于模糊测度的基因重要度追踪方法 - Google Patents

基于模糊测度的基因重要度追踪方法 Download PDF

Info

Publication number
CN104091096A
CN104091096A CN201410361374.6A CN201410361374A CN104091096A CN 104091096 A CN104091096 A CN 104091096A CN 201410361374 A CN201410361374 A CN 201410361374A CN 104091096 A CN104091096 A CN 104091096A
Authority
CN
China
Prior art keywords
gene
fuzzy
importance degree
value
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410361374.6A
Other languages
English (en)
Inventor
王金凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN201410361374.6A priority Critical patent/CN104091096A/zh
Publication of CN104091096A publication Critical patent/CN104091096A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于模糊测度的基因重要度追踪方法,将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。

Description

基于模糊测度的基因重要度追踪方法
技术领域
本发明涉及一种基因重要度追踪方法,尤其是一种基于模糊测度的基因重要度追踪方法,属于生物信息技术领域。
背景技术
目前,研究发现人类疾病的发病和基因序列中某些基因的突变有直接的关系。但是基因序列往往是包含成千上万个基因的长串,即使通过多种基因筛选技术到最后,仍然是无法确定哪些基因和疾病有着重要关系。有些研究者借助计算机辅助工具进行特征提取的工作,但是所得到的重要基因的前提假设是各个基因之间是独立作用毫不相关的。事实上,事物的特征之间的交互作用往往也影响着目标决策,因此,基因之间的交互组合对疾病所起到的作用不容忽视。
传统的模糊测度是模糊积分计算中所用到的参数,应用于分类或者回归模型中,通常采用遗传算法学习得到,当数据特征数量较多时,复杂度也会随之增大。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供一种可以快速确定影响疾病发生的重要基因或基因组合的基于模糊测度的基因重要度追踪方法。
本发明的目的可以通过采取如下技术方案达到:
基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。
作为一种实施方案,所述方法包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体如下:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示;
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫ fdμ = Σ j = 1 2 n - 1 z j μ j
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有 { i | frc ( j 2 i ) ∈ [ 0 , 1 2 ) } = { i | j i = 0 } ;
S23、根据已知的疾病DNA数据库,建立一组以模糊测度μ为未知变量的线性方程;
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。
作为一种实施方案,所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。
本发明相对于现有技术具有如下的有益效果:
1、本发明的基于模糊测度的基因重要度追踪方法,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度(重要度)由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。
2、本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解,从而解得的模糊测度值带有很少的非零值,非零值所对应的基因或基因组合则对疾病有着重要的作用,非零值越大说明所对应的基因或基因组合的重要度越高。
附图说明
图1为本发明的基于模糊测度的基因重要度追踪方法流程示意图。
具体实施方式
实施例1:
首先说明模糊测度的使用能够很好地描述特征之间的交互作用对决策的影响,具体如下例所示:
令X表示同一个车间内的所有工人集合,而且他们每天的产量相同;对于我们考虑A组工人工作的情况,每一组可能都有不同的工作方式:存在合作或者单独工作;令μ(A)表示A组成员一小时的产量,那么集合函数μ:P(X)→[0,∞)是单调的并且因此它是模糊测度,模糊测度并不一定是可加的;令A和B是X的不相交子集,来看一下A和B的产量μ(A∪B)如何,如果A和B分别独立工作,那么有μ(A∪B)=μ(A)+μ(B),但是,由于他们通常都会彼此交互影响,上面的等式并不总是成立,A和B有效率的合作会导致μ(A∪B)>μ(A)+μ(B),相反,如果A的操作和B的操作不和谐兼容的话,产量则会降低,如μ(A∪B)<μ(A)+μ(B)。
对于每一个特征和每一组特征子集,都有一个不同的模糊测度值与之对应,来描述其对目标决策的影响力,由于模糊测度的非可加性,特征对目标的影响是不独立的,使得所有特征对于目标决策的全局贡献不仅仅是每个特征贡献的简单加和。
现在用下面这个例子进行进一步说明,假设已经观察到了一个病人的三个基因,希望由此来判断他(她)的疾病,基因可以被看作是信息源,构成全集X={x1,x2,x3}。可以用模糊测度μ来说明他们中单独每一个以及联合体对于疾病预测的贡献度,如表1所示。
表1定义在X={x1,x2,x3}上的模糊测度示例
可以看到μ(x2,x3})>μ(x2})+μ({x3}),即x2和x3的联合贡献要大于它们各自贡献之和,这说明x2和x3之间的交互对于彼此的影响具有提升作用;另一种情况,如μ({x1,x2})<μ({x1})+μ({x2}),表明x1和x2是彼此压制的。
如图1所示,本实施例的基于模糊测度的基因重要度追踪方法,包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体为:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类,一般它是分类的特征,它的值来自于一个无序的有限域。此分类特征所有可能的值的集合可以由C=c1,c2,...,xm表示,指一个特定的分类;预测特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示,向量的范围是n维欧几里得空间的子集,被称作特征空间;例如,第j个例子包含n个特征和一个决策值,即可以表示为(xj(x1),fj(x2),...,fj(xn),Yj),j=1,2,...,l。
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫ fdμ = Σ j = 1 2 n - 1 z j μ j
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有 { i | frc ( j 2 i ) ∈ [ 0 , 1 2 ) } = { i | j i = 0 } ;
S23、根据已知的疾病DNA数据库,以步骤S22中求得的z值为系数,建立一组以模糊测度μ为未知变量的线性方程,如下所示:
z 11 μ 1 + z 12 μ 2 + . . . + z 1,2 n - 1 μ 2 n - 1 = y 1
z 21 μ 1 + z 22 μ 2 + . . . + z 2,2 n - 1 μ 2 n - 1 = y 2
……
z l 1 μ 1 + z l 2 μ 2 + . . . + z l , 2 n - 1 μ 2 n - 1 = y l
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
所述L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成,由于LASSO方法是一种压缩估计方法,基于Gauss-Seidel迭代的LASSO是简单且快速的,因此我们用其来解L1-Norm问题,最终解得具有最少非零值的模糊测度解。
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。
实施例2:
本实施例是一个应用实例。
为了更好地说明此专利的效果,我们以一组肝炎疾病的基因序列数据为例,肝炎数据通过聚类可以分为四种类型(B、C1、C2和C3),每一类的数据库如表2描述。
子库 无病 有病 总人数
B 51 37 88
C1 10 16 26
C2 18 22 40
C3 19 25 44
总合 98 100 198
表2定义在X={x1,x2,x3}上的模糊测度示例
基因序列通过前期的生物技术特征筛选方法,剩余5个基因位(x1、x2、x3、x4和x5),每个基因位的取值分别为A、C、G和T。现在使用模糊测度方法来进一步跟踪各个基因和基因组合对疾病的影响程度,具体的实施采用Matlab7.2编程实现,其中L1-norm方法求解模糊测度可直接调用LASSO函数包来完成,经过多次实验,最终压缩参数确定在100,对此四种类型的子数据库进行求解,所得压缩后的模糊测度值分别列在表3-表6中。
基因位 B 基因位 B 基因位 B 基因位 B
x1 0.495 x1,x4 0.738 x1,x5 0 x1,x4,x5 0.472
x2 0.232 x2,x4 0.102 x2,x5 0 x2,x4,x5 0
x1,x2 0 x1,x2,x4 0 x1,x4,x5 0 x1,x2,x4,x5 0.45
x3 0.094 x3,x4 0.252 x3,x5 0 x3,x4,x5 0
x1,x3 0.175 x1,x3,x4 0.566 x1,x3,x5 1.488 x1,x3,x4,x5 0.26
x2,x3 -0.035 x2,x3,x4 -0.035 x2,x3,x5 0 x2,x3,x4,x5 0.941
x1,x2,x3 0 x1,x2,x3,x4 0 x1,x2,x3,x5 0 X 0
x4 0.333 x5 0.457 x4,x5 0
表3 B类肝炎的基因重要度
基因位 C1 基因位 C1 基因位 C1 基因位 C1
x1 0.260 x1,x4 0 x1,x5 0.840 x1,x4,x5 0
x2 0 x2,x4 0 x2,x5 0.500 x2,x4,x5 0
x1,x2 0 x1,x2,x4 0 x1,x2,x5 0.687 x1,x2,x4,x5 0
x3 0 x3,x4 0 x3,x5 0 x3,x4,x5 0
x1,x3 0 x1,x3,x4 0 x1,x3,x5 0.765 x1,x3,x4,x5 0
x2,x3 0 x2,x3,x4 0 x2,x3,x5 0.900 x2,x3,x4,x5 0.600
x1,x2,x3 0.445 x1,x2,x3,x4 0 x1,x2,x3,x5 0.472 X 0.443
x4 0 x5 0 x4,x5 0
表4 C1类肝炎的基因重要度
基因位 C2 基因位 C2 基因位 C2 基因位 C2
x1 0.45 x1,x4 -0.604 x1,x5 0.757 x1,x4,x5 0
x2 0 x2,x4 0 x2,x5 0.829 x2,x4,x5 0
x1,x2 0.007 x1,x2,x4 0 x1,x2,x5 0.395 x1,x2,x4,x5 0.558
x3 -0.183 x3,x4 0 x3,x5 0 x3,x4,x5 0
x1,x3 0.86 x1,x3,x4 0 x1,x3,x5 0.5 x1,x3,x4,x5 0
x2,x3 0 x2,x3,x4 0 x2,x3,x5 0.107 x2,x3,x4,x5 0
x1,x2,x3 0 x1,x2,x3,x4 0 x1,x2,x3,x5 0.565 X 0.687
x4 0.196 x5 1.374 x4,x5 0.631
表5 C2类肝炎的基因重要度
基因位 C3 基因位 C3 基因位 C3 基因位 C3
x1 0.26 x1,x4 0 x1,x5 0.84 x1,x4,x5 0
x2 0 x2,x4 0 x2,x5 0.5 x2,x4,x5 0
x1,x2 0 x1,x2,x4 0 x1,x2,x5 0.687 x1,x2,x4,x5 0
x3 0 x3,x4 0 x3,x5 0 x3,x4,x5 0
x1,x3 0 x1,x3,x4 0 x1,x3,x5 0.765 x1,x3,x4,x5 0
x2,x3 0 x2,x3,x4 0 x2,x3,x5 0.9 x2,x3,x4,x5 0.6
x1,x2,x3 0.445 x1,x2,x3,x4 0 x1,x2,x3,x5 0.472 X 0.443
x4 0 x5 0 x4,x5 0
表6 C3类肝炎的基因重要度
以C3子类为例可以看出,最重要的基因组合是{x2,x3,x5},重要度为0.9,意味着当x2、x3和x5同时发生突变时最容易导致HBV的疾病出现;同时,对于所有的非零值所对应的10项组合,按照模糊测度值由大到小排序,前8项都包含着基因位x5依此可见,x5是对结果有着消极影响最为显著的一项,另一个现象是有模糊测度值对应的几组基因组合{x1,x5}{x2,x5}{x1,x2,x5}{x3,x5}{x1,x3,x5},在加入了基因位x4之后,模糊测度值变为0,表明前者影响作用被x4抑制并消减。即便是最重要的{x2,x3,x5}在加入x4后,重要度值也被消减至了0.6,可见x4是一个积极的基因位。
综上所述,本发明方法摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (3)

1.基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。
2.根据权利要求1所述的基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括以下步骤:
S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标;
S2、通过模糊积分的变形构造线性方程组,具体如下:
S21、设一个数据集合为训练集,含有l个例子,每个例子包含一个决策特征Y和n个预测特征x1,x2,...,xn
其中,正整数l表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是数字类型的,它们的值由一个n维向量f(x1),f(x2),...,f(xn)所表示;
S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
∫ fdμ = Σ j = 1 2 n - 1 z j μ j
其中,
对于j=1,2,…,2n-1都会有空集为0的惯例;其中,表示的小数部分;上述公式中,如果将j以二进制的形式jnjn-1…j1表示,则有 { i | frc ( j 2 i ) ∈ [ 0 , 1 2 ) } = { i | j i = 0 } ;
S23、根据已知的疾病DNA数据库,建立一组以模糊测度μ为未知变量的线性方程;
S3、采用L1-norm归一化方法,使得的值最小,从而会得到一组带有少量非零值的解,通过调节其中的参数λ来控制非零值的个数;
S4、根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响的重要度。
3.根据权利要求1或2所述的基于模糊测度的基因重要度追踪方法,其特征在于:所述采用L1-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。
CN201410361374.6A 2014-07-25 2014-07-25 基于模糊测度的基因重要度追踪方法 Pending CN104091096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410361374.6A CN104091096A (zh) 2014-07-25 2014-07-25 基于模糊测度的基因重要度追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410361374.6A CN104091096A (zh) 2014-07-25 2014-07-25 基于模糊测度的基因重要度追踪方法

Publications (1)

Publication Number Publication Date
CN104091096A true CN104091096A (zh) 2014-10-08

Family

ID=51638812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410361374.6A Pending CN104091096A (zh) 2014-07-25 2014-07-25 基于模糊测度的基因重要度追踪方法

Country Status (1)

Country Link
CN (1) CN104091096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951649A (zh) * 2015-05-27 2015-09-30 华南农业大学 一种基于高斯模糊积分的hbv分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374197B1 (en) * 1999-05-10 2002-04-16 The United States Of America As Represented By The Secretary Of The Navy Fuzzy logic based model assessment system and method for contact tracking
CN102509273A (zh) * 2011-11-21 2012-06-20 电子科技大学 基于同质片和模糊测度的乳腺超声图像的肿瘤分割方法
CN103353985A (zh) * 2013-03-27 2013-10-16 西华大学 一种图像高斯模糊的测度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374197B1 (en) * 1999-05-10 2002-04-16 The United States Of America As Represented By The Secretary Of The Navy Fuzzy logic based model assessment system and method for contact tracking
CN102509273A (zh) * 2011-11-21 2012-06-20 电子科技大学 基于同质片和模糊测度的乳腺超声图像的肿瘤分割方法
CN103353985A (zh) * 2013-03-27 2013-10-16 西华大学 一种图像高斯模糊的测度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KWONGSAK LEUNG等: "data mining on DNA sequences of hepatitis B virus", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
L MIKENINA等: "Improved feature selection and classifiction by the 2-additive fuzzy measure", 《FUZZY SETS&SYSTEMS》 *
WANG JINFENG等: "L1-norm regularizaiton based nonlinear integrals", 《ADVANCE IN NEURAL NETWORKS,6TH INTERNATIONAL SYMPOSIUM ON NEURAL NETWORKS,ISNN2009,WUHAN,CHINA,MAY26-29,2009 PRODEEDINGS,PART I》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951649A (zh) * 2015-05-27 2015-09-30 华南农业大学 一种基于高斯模糊积分的hbv分类方法

Similar Documents

Publication Publication Date Title
CN110334843B (zh) 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置
Alexandridis et al. Cooperative learning for radial basis function networks using particle swarm optimization
CN103489033A (zh) 融合自组织映射与概率神经网络的增量式学习方法
CN110390275A (zh) 一种基于迁移学习的手势分类方法
Matsui Variable and boundary selection for functional data via multiclass logistic regression modeling
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN110555989A (zh) 一种基于Xgboost算法的交通量预测方法
alias Balamurugan et al. NB+: an improved naive Bayesian algorithm
CN111126499A (zh) 一种基于二次聚类的用电行为模式分类方法
CN109508697A (zh) 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质
WO2024077969A1 (zh) 一种基于多周期特征的lstm-svr地铁车站温度预测方法
Chowdhury et al. Adaptive regulatory genes cardinality for reconstructing genetic networks
CN103150383A (zh) 一种短文本数据的事件演化分析方法
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN108764280A (zh) 一种基于症状向量的医学数据处理方法和系统
CN108920900A (zh) 基因表达谱数据的无监督极限学习机特征提取系统及方法
Adeyemo et al. Effects of normalization techniques on logistic regression in data science
Dubey et al. An efficient adaptive feature selection with deep learning model-based paddy plant leaf disease classification
Hassan et al. Quantitative description of genomic evolution of olfactory receptors
CN104091096A (zh) 基于模糊测度的基因重要度追踪方法
CN111667886B (zh) 一种动态蛋白质复合物识别方法
CN114978931B (zh) 基于流形学习的网络流量预测方法、装置及存储介质
CN116106751A (zh) 一种基于Informer的锂离子电池荷电状态估计方法
CN103198357A (zh) 基于nsga-ⅱ优化改进的模糊分类模型构造方法
CN105279388A (zh) 多层云计算框架协同的孕龄新生儿脑病历集成约简方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141008

RJ01 Rejection of invention patent application after publication