CN110459266B - Snp致病因素与疾病关联关系模型建立方法 - Google Patents

Snp致病因素与疾病关联关系模型建立方法 Download PDF

Info

Publication number
CN110459266B
CN110459266B CN201910539328.3A CN201910539328A CN110459266B CN 110459266 B CN110459266 B CN 110459266B CN 201910539328 A CN201910539328 A CN 201910539328A CN 110459266 B CN110459266 B CN 110459266B
Authority
CN
China
Prior art keywords
snp
disease
model
pathogenic
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910539328.3A
Other languages
English (en)
Other versions
CN110459266A (zh
Inventor
张军英
朱皓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910539328.3A priority Critical patent/CN110459266B/zh
Publication of CN110459266A publication Critical patent/CN110459266A/zh
Application granted granted Critical
Publication of CN110459266B publication Critical patent/CN110459266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种SNP致病因素与疾病关联关系模型建立方法,采集当前SNP致病因素对应的样本数据集;依据初始值对样本数据集进行绝对划分;基于机器学习方法的SNP致病因素与疾病关联关系建模;建模结果准确性评价;确定SNP致病因素与疾病的关联关系模型。本发明通过绝对划分的方法,降低了各个SNP致病因素之间的相互影响程度,使建立的每个SNP致病因素与疾病的关联关系模型更准确。本发明操作简单,只需要输入原始的SNP数据和所有的SNP致病因素,即可得到每个SNP致病因素与疾病的较为准确的关联关系模型。

Description

SNP致病因素与疾病关联关系模型建立方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种SNP致病因素与疾病关联关系模型建立方法。
背景技术
目前,最接近的现有技术:
SNP:单核苷酸多态性(SingleNucleotidePolymorphisms),是指在基因组上由单个核苷酸(A,T,C,G)变异所引起的多态性。越来越多的研究证据表明SNP与疾病有着密切的关系,而这种关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础。深入了解SNP与疾病之间的关联关系能够为理解疾病的致病机理提供可能性,也能够在治疗和战胜复杂疾病的道路上更进一步。
可将SNP与疾病关联关系的研究分为两类:SNP级和SNP因素级。SNP级关联关系研究,是对从基因组数据中找出的与疾病表型关联的SNP子集,建立这些SNP与疾病表型的关联关系模型。SNP因素级关联关系研究,则是通过从基因组数据中找出的与疾病表型相关的所有SNP致病因素,建立其中每一个SNP致病因素与疾病表型的关联关系。前者是建立的是一个SNP子集与疾病表型的关联关系,后者则是针对多个SNP子集中的每一个,建立其与疾病表型的关联关系。目前SNP级研究非常广泛,而SNP因素级研究极其有限。
在SNP级关联关系上目前的做法是:训练一个分类器,分类器的结构和参数就给出了这个SNP子集与疾病表型的关联关系。各类分类器都有在这个问题上的应用,包括多层感知器网络、决策树、支持向量机、随机森林等等。
在SNP因素级关联关系问题上,目前技术非常有限,典型的是通过多层感知器(MLP)来实现。
基于MLP的SNP致病因素与疾病关联关系建模方法,其基本思路是为每一个SNP致病因素分别建立MLP神经网络,步骤如下:
1)建立MLP神经网络,随机初始化网络连接的权值,并设定相关参数;
2)输入样本数据(包括SNP数据及对应类别);
3)迭代训练网络,直到网络收敛稳定;
4)用SNP致病因素的各种SNP状态组合作为测试数据输入网络,网络的输出即为对应组合分类为有病的后验概率。
SNP致病因素对疾病的影响方式和影响程度不明确。虽然已有的方法能够建立出SNP致病因素与疾病关联关系模型,但其所建立模型的准确性并不能达到预期,因此还需要进一步探索更好的方法和技术。
综上所述,现有技术存在的问题是:
SNP致病因素对疾病的影响方式和影响程度不明确。
解决上述技术问题的难度:
1.现有的方法所建立的模型准确率低;
2.SNP数据具有小样本特性,样本量少使建模难度高、准确率受影响;
3.某种特定疾病下往往其致病因素的个数不仅仅是一个,每个致病因素与疾病表型的关联关系是不同的,且是非确定的。
解决上述技术问题的意义:
越来越多的研究证据表明SNP与疾病有着密切的关系,特别是复杂疾病,常常是多个SNP致病因素引起的,其与每个SNP致病因素的关联关系也是多种多样的,认识这些关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础,深入了解SNP与疾病之间的关联关系能够为我们理解疾病的致病机理提供可能性,也能够让在治疗和战胜复杂疾病的道路上更进一步。
发明内容
针对现有技术存在的问题,本发明提供了一种SNP致病因素与疾病关联关系模型建立方法。
本发明是这样实现的,一种SNP致病因素与疾病关联关系模型建立方法,所述SNP致病因素与疾病关联关系模型建立方法包括:
步骤一,采集当前SNP致病因素对应的样本数据集;
步骤二,依据初始值对样本数据集进行绝对划分;
步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;
步骤四,建模结果准确性评价;
步骤五,确定SNP致病因素与疾病的关联关系模型。
进一步,所述SNP致病因素与疾病关联关系模型建立方法具体包括:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;
输出为当前SNP致病因素与疾病的关联关系模型PM;
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样(bootstrap),产生t个相同规模的重采样数据集;
2)fori=1:t
对于重采样数据集Ti,分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IMi
3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;
Figure BDA0002102090250000031
4)fori=1:t
对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi
5)按照公式,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;
Figure BDA0002102090250000041
6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005),则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4);
步骤1)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型。
所述2)进一步包括:
通过CART决策树算法训练一个预测模型;
将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,...,3k);
当前SNP致病因素与疾病的初始化关联关系模型IMi,其中IMi=(Pi1,Pi2,...,Pij);
end for。
所述4)进一步包括:
利用第i个划分后的数据集Hi,分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PMi
通过CART决策树算法训练一个预测模型;
将当前这个k-way的SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij
得到当前SNP致病因素与疾病的关联关系模型PMi:PMi=(Pi1,Pi1,...,Pij);endfor
进一步,所述建模结果准确性评价包括:
通过用均方误差和JS散度对所建立的SNP致病因素与疾病关联关系模型的准确性进行评价,两种评价指标包括:
评价指标1:MSE均方误差,在统计学中,MSE指估计值与真值之差平方的期望值,其定义式为:
Figure BDA0002102090250000051
其中,对于任一SNP致病因素,N表示SNP状态组合的个数,其值为N=3k,k表示当前SNP致病因素中所含的SNP数目;ri为获得的第i个SNP状态组合下致病概率的估计值;oi为第i个SNP状态下的致病概率的真实值;MSE的值越小,预测模型准确度越高;
评价指标2:JS散度,JS散度是描述概率分布P和Q分布的相似性的,其定义,其中的KL表示KL散度:
Figure BDA0002102090250000052
鉴于一个含有k个SNP的SNP致病因素,其与疾病的关联关系模型中包含有3k个概率,对于两个分别含k个SNP的SNP致病因素与疾病关联关系M1和M2之间的相似程度,用它们之间的JS散度的平均值计算:
Figure BDA0002102090250000053
其中,Pi表示关联关系模型M1中第i个SNP致病因素组合所对应的概率,Qi表示关联关系模型M2中第i个SNP致病因素组合所对应的概率。
本发明的另一目的在于提供一种应用所述SNP致病因素与疾病关联关系模型建立方法的SNP致病因素与疾病关联关系模型建立系统,所述SNP致病因素与疾病关联关系模型建立系统包括:
SNP数据模块,用于采集当前SNP致病因素对应的样本数据集;
绝对划分模块,用于依据初始值对样本数据集进行绝对划分;
关联关系建模模块,用于建立基于机器学习方法的SNP致病因素与疾病关联关系模型;
性能评价模块,用于对建模结果进行准确性评价。
本发明的另一目的在于提供一种应用所述SNP致病因素与疾病关联关系模型建立方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:
本发明在技术上提出了通过机器学习方法建立多SNP致病因素中每个致病因素与疾病关联关系的方法和技术。在技术上通过绝对划分的方法,降低了各个SNP致病因素之间的相互影响程度,使建立的每个SNP致病因素与疾病的关联关系模型更准确。
本发明操作简单,只需要输入原始的SNP数据和所有的SNP致病因素,即可得到每个SNP致病因素与疾病的较为准确的关联关系模型。
附图说明
图1是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模系统结构示意图。
图中:1、SNP数据模块;2、绝对划分模块;3、关联关系建模模块;4、性能评价模块。
图2是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的方法流程图。
图3是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的技术路线图。
图4是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的流程图。
图5是本发明实施例提供的(98)、(78)与疾病的关联关系模型直方图。
图6是本发明实施例提供的(6093)、(4475)与疾病的关联关系模型直方图。
图7是本发明实施例提供的(8583100)与疾病的关联关系模型直方图。
图8是本发明实施例提供的(972047)与疾病的关联关系模型直方图。
图9是本发明实施例提供的各模型与真实模型的均方误差。
图10是本发明实施例提供的各模型与真实模型的JS散度。
图11是本发明实施例提供的两种算法所得模型与真实模型的均方误差图。
图12是本发明实施例提供的两种算法所得模型与真实模型的JS散度图。
图13是本发明实施例提供的(130199177958)与疾病的关联关系模型直方图。
图14是本发明实施例提供的(66357206952)与疾病的关联关系模型直方图。
图15是本发明实施例提供的(102091180050234964)与疾病的关联关系模型直方图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的目的在于解决SNP致病因素对疾病的影响方式和影响程度不明确的问题。提供了一种SNP致病因素与疾病关联关系模型建立方法与系统。
下面结合附图对本发明的技术方案作详细描述。
如图1所示,本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模系统包括:
SNP数据模块1、绝对划分模块2、关联关系建模模块3、性能评价模块4。
SNP数据模块1,用于采集当前SNP致病因素对应的样本数据集;
绝对划分模块2,用于依据初始值对样本数据集进行绝对划分;
关联关系建模模块3,用于建立基于机器学习方法的SNP致病因素与疾病关联关系模型;
性能评价模块4,用于对建模结果进行准确性评价。
如图2到图4所示,本发明实施例提供的SNP致病因素与疾病关联关系模型建立方法包括:
S101:采集当前SNP致病因素对应的样本数据集;
S102:依据初始值对样本数据集进行绝对划分;
S103:基于机器学习方法的SNP致病因素与疾病关联关系建模;
S104:建模结果准确性评价;
S105:确定SNP致病因素与疾病的关联关系模型。
在本发明实施例提供的SNP致病因素与疾病关联关系模型建立方法中:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵。k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM。
输出为当前SNP致病因素与疾病的关联关系模型PM。
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样(bootstrap),产生t个相同规模的重采样数据集;
2)fori=1:t
对于重采样数据集Ti,分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IMi
(1)通过CART决策树算法训练一个预测模型;
(2)将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,...,3k);
(3)当前SNP致病因素与疾病的初始化关联关系模型IMi,其中IMi=(Pi1,Pi2,...,Pij);
end for
3)按照公式(1),对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM。
Figure BDA0002102090250000091
4)for i=1:t
(1)对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi
(2)利用第i个划分后的数据集Hi,分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PMi
a.通过CART决策树算法训练一个预测模型;
b.将当前这个k-way的SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij
c.得到当前SNP致病因素与疾病的关联关系模型PMi:PMi=(Pi1,Pi1,...,Pij);endfor
5)按照公式(2),对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;
Figure BDA0002102090250000092
6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005),则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4。
上述步骤不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM。
对每个SNP致病因都素重复上面的过程,即获得了每个SNP致病因素与疾病的关联关系模型。
进一步,步骤四中建模结果准确性评价包括:
通过用均方误差和JS散度对所建立的SNP致病因素与疾病关联关系模型的准确性进行评价,两种评价指标包括:
评价指标1:MSE均方误差,在统计学中,MSE指估计值与真值之差平方的期望值,其定义式为
Figure BDA0002102090250000101
其中,对于任一SNP致病因素,N表示SNP状态组合的个数,其值为N=3k,k表示当前SNP致病因素中所含的SNP数目;ri为通过方法和技术获得的第i个SNP状态组合下致病概率的估计值;oi为第i个SNP状态下的致病概率的真实值;MSE的值越小,预测模型准确度越高;
评价指标2:JS散度,JS散度是用来描述概率分布P和Q分布的相似性的,其定义如式(4),其中的KL表示KL散度:
Figure BDA0002102090250000102
鉴于一个含有k个SNP的SNP致病因素,其与疾病的关联关系模型中包含有3k个概率,对于两个分别含k个SNP的SNP致病因素与疾病关联关系M1和M2之间的相似程度,用它们之间的JS散度的平均值计算,如公式(5)所示。
Figure BDA0002102090250000111
其中,Pi表示关联关系模型M1中第i个SNP致病因素组合所对应的概率,Qi表示关联关系模型M2中第i个SNP致病因素组合所对应的概率。
下面结合具体实施例对本发明的技术效果作进一步描述。
实施例:
A.Dat100数据集
本组实验数据来自纽约市癌症控制项目。针对这组数据,生物学家在100个SNP、2000个样本的数据Dat100中,同时嵌入了总计7个SNP致病因素,分别为SNP致病因素(98),(78),(6093),(4475),(8583100),(972047),(2581879299)(下面分别用编号为1,2,...,7表示这7个致病因素),每个致病因素与疾病的概率关联关系均已给出。
用本发明的技术完成了这组数据的每个SNP致病因素与疾病关联关系模型的建立。图5至图8为Dat100数据集中的前六个致病因素通过AD-DTEM方法的建模结果直方图。
本发明还利用在该组实验数据上已知的真实SNP致病因素与疾病关联关系模型,对每个SNP致病因素与疾病的关联关系模型在评价指标MSE和JS散度上进行了准确性评价。为说明绝对划分建模方法AD-DTEM方法的有效性,将其结果与未进行绝对划分的建模方法所得的初始化结果进行比较。图9和图10分别为各个SNP致病因素的初始化关联关系模型和收敛后的关联关系模型的均方误差MSE和JS散度。
从图9和图10可以看到,对Dat100数据集中的每一个SNP致病因素,显然收敛后的关联关系模型都比初始的关联关系模型更加接近真实的关联关系模型。总体看,通过AD-DTEM方法所建立的Dat100数据集中的7个SNP致病因素对应的关联关系模型与真实关联关系模型的平均均方误差值仅仅为0.0172,平均JS散度值仅仅为0.019。其中,第五个SNP致病因素(8583100)经过绝对划分建立的关联关系模型与初始化关联关系模型相比,均方误差值由0.14463下降到了0.0030222,下降了97.9%,JS散度值由0.18263下降到了0.0085029,下降了95.3%。同时,在Dat100数据集的7个SNP致病因素中,第7个SNP致病因素(2581879299)对应的关联关系模型上,均方误差值和JS散度值数值最高,说明在建立的7个关联关系模型中,这个模型的准确度相对来说是最低的。究其原因,这个SNP致病因素中包含5个SNP,总计243个SNP状态,却只有2000个样本,从而出现严重的维数灾难现象。尽管如此,引入了AD-DTEM方法还是使SNP致病因素(2581879299)的准确性更高,更加接近真实的关联关系模型。
为了验证本发明所提出算法的有效性,将AD-DTEM方法与基于MLP的建模方法进行了比较,得到的结果如图11和图12所示。
显然,所建立的模型与真实模型之间的均方误差最多不超过0.12,表明AD-DTEM方法在关联关系模型建立上取得了较好的性能,与已有的基于MLP的建模方法比较,本发明提出的AD-DTEM方法虽然在针对SNP致病因素(98)、(8583100)所建立的与疾病的关联关系模型中准确性略低,但在其余各个SNP致病因素上所建立的模型准确性都明显高于出MLP建模方法,尤其是在SNP致病因素(78)上,其准确性提升相当明显。这一结果验证了本发明所提出的AD-DTEM方法在SNP与疾病关联关系建模问题的准确性和有效性。
经与最大熵方法所给出的SNP致病因素与疾病关联关联建模的性能比较,本发明的性能也明显优于最大熵方法。
B.真实肺癌数据集
真实肺腺癌数据Lung共包含191个疾病样本,99个对照样本,有238304个SNP,其中有5.55%的数据丢失。
采用AD-DTEM技术,对Lung数据集中的6个SNP致病因素(130199177958),(66357206952),(102091180050234964),(48316144695181381),(7938116763236441),(4144076592236930)进行SNP致病因素与肺癌关联关系建模,图13至图15给出了其中的前三个致病因素的建模结果。
本发明主要完成多SNP致病因素与疾病关联关系的模型建立,能够准确估计每个SNP致病因素与疾病的关联关系。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:
步骤一,采集当前SNP致病因素对应的样本数据集,所述SNP为单核苷酸多态性;
步骤二,依据初始值对样本数据集进行绝对划分;
步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;
步骤四,建模结果准确性评价;
步骤五,确定SNP致病因素与疾病的关联关系模型;
所述SNP致病因素与疾病关联关系模型建立方法具体包括:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;
输出为当前SNP致病因素与疾病的关联关系模型PM;
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样bootstrap,产生t个相同规模的重采样数据集;
2)
对于重采样数据集Ti,建立当前SNP致病因素其与疾病的初始关联关系模型IMi:其中i=1,2,3…,t;
3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;
Figure FDA0003515694660000011
4)
对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi
5)用划分后的数据集,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;
Figure FDA0003515694660000021
6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值,threshold为0.005,则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4);
步骤4)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型;
所述2)进一步包括:
通过CART决策树算法训练一个预测模型;
将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,...,3k);则当前SNP致病因素与疾病的初始化关联关系模型为IMi=(Pi1,Pi2,...,Pij);
所述4)进一步包括:
用第i个划分后的数据集Hi,分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PMi:通过CART决策树算法训练一个预测模型;将当前这个k-way的SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij;得到当前SNP致病因素与疾病的关联关系模型PMi:PMi=(Pi1,Pi1,...,Pij)。
2.如权利要求1所述的SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述建模结果准确性评价包括:
通过用均方误差和JS散度对所建立的SNP致病因素与疾病关联关系模型的准确性进行评价,两种评价指标包括:
评价指标1:MSE均方误差,在统计学中,MSE指估计值与真值之差平方的期望值,其定义式为:
Figure FDA0003515694660000031
其中,对于任一SNP致病因素,N表示SNP状态组合的个数,其值为N=3k,k表示当前SNP致病因素中所含的SNP数目;ri为获得的第i个SNP状态组合下致病概率的估计值;oi为第i个SNP状态下的致病概率的真实值;MSE的值越小,预测模型准确度越高;
评价指标2:JS散度,JS散度是描述概率分布P和Q分布的相似性的,其定义,其中的KL表示KL散度:
Figure FDA0003515694660000032
鉴于一个含有k个SNP的SNP致病因素,其与疾病的关联关系模型中包含有3k个概率,对于两个分别含k个SNP的SNP致病因素与疾病关联关系M1和M2之间的相似程度,用它们之间的JS散度的平均值计算:
Figure FDA0003515694660000033
其中,Pi表示关联关系模型M1中第i个SNP致病因素组合所对应的概率,Qi表示关联关系模型M2中第i个SNP致病因素组合所对应的概率。
3.一种应用权利要求1所述SNP致病因素与疾病关联关系模型建立方法的SNP致病因素与疾病关联关系模型建立系统,其特征在于,所述SNP致病因素与疾病关联关系模型建立系统包括:
SNP数据模块,用于采集当前SNP致病因素对应的样本数据集;
绝对划分模块,用于依据初始值对样本数据集进行绝对划分;
关联关系建模模块,用于建立基于机器学习方法的SNP致病因素与疾病关联关系模型;
性能评价模块,用于对建模结果进行准确性评价。
4.一种应用权利要求1~2任意一项所述SNP致病因素与疾病关联关系模型建立方法的信息数据处理终端。
CN201910539328.3A 2019-06-20 2019-06-20 Snp致病因素与疾病关联关系模型建立方法 Active CN110459266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539328.3A CN110459266B (zh) 2019-06-20 2019-06-20 Snp致病因素与疾病关联关系模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539328.3A CN110459266B (zh) 2019-06-20 2019-06-20 Snp致病因素与疾病关联关系模型建立方法

Publications (2)

Publication Number Publication Date
CN110459266A CN110459266A (zh) 2019-11-15
CN110459266B true CN110459266B (zh) 2022-04-08

Family

ID=68481020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539328.3A Active CN110459266B (zh) 2019-06-20 2019-06-20 Snp致病因素与疾病关联关系模型建立方法

Country Status (1)

Country Link
CN (1) CN110459266B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708907B (zh) * 2022-04-11 2023-01-31 广州盛安医学检验有限公司 一种基于基因大数据的病症关联分析系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
CN108345769A (zh) * 2018-03-12 2018-07-31 南方医科大学 一种整合图像空间信息的基于体素点全基因组关联分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN108345769A (zh) * 2018-03-12 2018-07-31 南方医科大学 一种整合图像空间信息的基于体素点全基因组关联分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关联分析中SNP与疾病关联关系建模研究;孙宇;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20120215;摘要,第一章 绪论,第三章 SNP与疾病关联关系建模研究及实验,第四章硬划分方法模型的适应性研究 *

Also Published As

Publication number Publication date
CN110459266A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
CN110969250B (zh) 一种神经网络训练方法及装置
CN104298893B (zh) 一种基因表达缺失数据的填补方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN117523291A (zh) 基于联邦知识蒸馏和集成学习的图像分类方法
CN107609588A (zh) 一种基于语音信号的帕金森患者updrs得分预测方法
JP2007200302A (ja) 収束基準を利用する多目的最適化のためのモデルベースおよび遺伝ベースの子孫生成の組み合わせ
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN110717617A (zh) 一种基于深度图网络自编码器的无监督关系预测方法
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
CN115985503B (zh) 基于集成学习的癌症预测系统
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN109948242A (zh) 基于特征哈希的网络表示学习方法
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN115359845A (zh) 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
CN114417095A (zh) 一种数据集划分方法及装置
US20220284261A1 (en) Training-support-based machine learning classification and regression augmentation
Hasan et al. Multistrategy self‐organizing map learning for classification problems
CN113762370A (zh) 一种结合高斯随机场的深度网络集合生成方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
CN104462817A (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant