CN112270957B - 高阶snp致病组合数据检测方法、系统、计算机设备 - Google Patents
高阶snp致病组合数据检测方法、系统、计算机设备 Download PDFInfo
- Publication number
- CN112270957B CN112270957B CN202011121291.1A CN202011121291A CN112270957B CN 112270957 B CN112270957 B CN 112270957B CN 202011121291 A CN202011121291 A CN 202011121291A CN 112270957 B CN112270957 B CN 112270957B
- Authority
- CN
- China
- Prior art keywords
- snp
- pathogenic
- data
- algorithm
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 97
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012216 screening Methods 0.000 claims abstract description 27
- 238000001162 G-test Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000000528 statistical test Methods 0.000 claims abstract description 15
- 238000010845 search algorithm Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 238000012804 iterative process Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 38
- 238000005457 optimization Methods 0.000 claims description 27
- 201000010099 disease Diseases 0.000 claims description 26
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 5
- 101100177269 Arabidopsis thaliana HCAR gene Proteins 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 5
- 125000003729 nucleotide group Chemical group 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于致病SNP组合数据检测技术领域,公开了一种高阶SNP致病组合数据检测方法、系统、计算机设备,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成SNP样本矩阵;根据数据中SNP位点和样本量的大小,设置搜索算法参数;将SNP样本数据读入,进行高阶SNP致病组合位点筛选,将和声搜索策略的全局搜索能力与差分演化算法的快速计算能力进行融合;进行迭代搜索;迭代过程结束后,合并4个独立种群中的个体;采用改进的G‑test统计检验方法进行样本的差异显著性检验;通过G‑test检验的SNP组合被认为是可能的高阶SNP致病组合。本发明有效地降低了对致病模型的偏好性。
Description
技术领域
本发明属于致病SNP组合数据检测技术领域,尤其涉及一种高阶SNP致病组合数据检测方法、系统、计算机设备。
背景技术
目前:差分演化算法是一种智能搜索方法,基于群体的启发式优化算法,对优化目标的特征没有限定性条件,并且具有很强的全局搜索能力。对于如下优化模型:maximum f(X);其中,f(X)表示目标函数,旨在寻找一组X,使得目标函数值最大。差分演化的主要思想是:
(1)在搜索空间中随机初始化种群(包含多个待优化个体):
X1,X2,...,XNP(NP表示种群中个体的数量)。计算每个个体的适应值(关联强度):f(X1),f(X2),...,f(XNP);
(2)对每个个体进行变异,如对个体X1进行差分变异:
V1=Xr1+F(Xr2-Xr3);
(3)然后进行交叉操作:i=1,2,…,k.(k 表示X的维度);
(4)计算新个体U1的适应值;
(5)选择操作:如果f(X1)<f(U1),则用新个体U1替换种群的X1;
(6)重复(2)-(5),直到满足结束条件(如最大迭代次数)。当算法结束时,种群当中适应值最大的个体就是最优解。
高阶SNP致病组合位点:单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是指在基因组水平上单个碱基位点变异引起的多态性,可能是单个碱基的转换(transition)或颠换(transversion),也可能是由于碱基的插入或缺失所致。在序列1中的一个碱基对C-G在序列2中表现为A-T,该位点就被称为1个SNP 位点。在人类全基因组上,这样的SNP位点超过300万个,通常情况下,绝大部分SNP不会给人类的健康带来威胁,但是,有些SNP变异位点与人类的健康密切关联。高阶SNP致病组合位点是指多个SNP共同作用于某一复杂疾病,如果某个人的基因组序列中这几个位点同时出现了SNP变异,得病的概率会明显升高,称这样的SNP组合为高阶SNP致病组合。
现有技术通过单个SNP与疾病状态进行相关性分析,已经发现了很多易感基因,然而,其解释性并不是很好。“高阶SNP组合是可能形成复杂疾病的重要原因”已经在生物医学界得到广泛认可,但是,由于高阶SNP组合的数量极大,在进行高阶SNP致病组合探测时,受“组合爆炸”问题的影响,现有计算机难以检测所有可能的SNP组合,成为现有技术遇到的重大挑战。另外,正确判断高阶SNP组合是否与疾病状态具有关联性也是一个重要且复杂的研究课题,现有方法往往存在对致病模型的偏好性,难以适用于所有致病组合的判断。
目前,针对致病SNP的检测方法,从搜索的角度可以分为以下几种:
1.Exhaustive Search(穷举搜索);通过枚举所有k-order(k个SNP的组合)SNP 组合,采用某一方法对其进行关联性评价。优点是不会漏判某一可能的致病 SNP组合,缺点是计算量极大,当k>3时,无法在有效时间内完成计算。
2.Stochastic search(随机搜索);采用随机抽样的思想在解空间进行搜索,能够大幅降低计算量,但成功率较低,偏好于具有边际效应的SNP组合。
3.Machine learning-based methods(基于机器学习的方法);基于机器学习的方法(如随机森林,支持向量机等)采用特征选择的思想从高维的SNP集合中去除对提升分类性能无效的SNP。缺点是该方法计算量很大,面对“小样本,高维度”的数据,性能往往不够理想。
4.Stepwise search(逐步搜索法);该方法采用统计方法筛选出新的SNP集合,然后,利用新集合中SNP组合高阶SNP组合,从中发现致病的高阶SNP 组合。该方法优点是:计算量小,搜索速度快。缺点是:难以发现无边际效应 (或具有低边际效应)的致病SNP组合。
5.Swarm Intelligence-based search(基于群智能的搜索);基于群智能的搜索算法(如遗传算法,粒子群优化,蚁群优化和差分演化等)利用种群中个体自身携带的信息进行相互学习和交流,可以明显提升搜索效率。但是,现有算法只是针对某些特定的SNP仿真模型设计,不具有通用性,在面对SNP维度超过 10万以上的样本数据时,性能急剧下降。
从判断SNP组合与疾病状态的关联性(评价方法)角度,可以分为以下几种:统计检验方法。该方法(如卡方检验,T检验等)根据疾病样本和正常样本中,基因型的分布进行统计显著性差异分析,筛选出具有较大差异的SNP组合。互信息。利用信息论的思想,对SNP组合的基因型与疾病状态进行关联性分析。机器学习。利用机器学习的思想,对指定SNP组合对应的样本数据进行训练和测试,进而评价该SNP组合的分类性能。基于贝叶斯网络的评价方法。贝叶斯网络是一个两层概率图形模型,其中一层由一组SNP节点组成,另一层由一个疾病节点组成。它们的条件依赖关系表示为有向无环图中的一组边。
上述评价各有优劣势,统计检验方法具有理论基础,但面临多重检验问题;互信息和贝叶斯网络评价法都是轻量级评价方法,但存在对模型的偏好性。机器学习的优点是可以评价和比较任意阶数的SNP组合,但是,计算量很大。现有技术虽然在高阶SNP检测中展现出了一定的效果,但总体还存在以下不足之处:检测方法计算复杂度很大;检测结果的灵敏度不高;检测方法存在对致病模型的偏好性。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术过于依赖SNP致病模型,导致检测方法存在对某些仿真模型的偏好性,难以适用于未知模型的检测。
(2)现有统计检验方法使用的P-value阈值由人为确定,导致检测结果的灵敏度不高。
(3)现有的群智能搜索算法采用单一或重复功能的目标函数,搜索性能大幅降低。
(4)现有技术对于存在的多个致病SNP组合的数据,检测效果较低。
解决以上问题及缺陷的难度为:(1)人类基因组上的SNP位点数量巨大,超过300万,使得高阶SNP组合的数据量极大,不能对所有可能的k(k>2)阶SNP组合进行与疾病状态的关联性鉴定。(2)人们对某一复杂疾病的致病模型未知,而现有的关联性评价方法大都存在对致病模型的偏好性,使得鉴定准确率较低。(3)目前采用的方法基本都是在某一特定的仿真模型上有效,但对于实际问题,其检测结果的可解释性依然不高。
解决以上问题及缺陷的意义为:本发明旨在提升现有方法的检测性能,主要从提高搜索速度和关联性评价方法入手。采用混合的差分演化算法可以增强从高维SNP数据中搜索高阶SNP的速度,多种群和多个具有互补性能的关联性评价函数可以增强对致病模型的偏好性,降低假阳性和假阴性错误率。
发明内容
针对现有技术存在的问题,本发明提供了一种高阶SNP致病组合数据检测方法、系统、计算机设备。
本发明是这样实现的,一种高阶SNP致病组合数据检测方法,所述高阶SNP 致病组合数据检测方法包括:
数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数;
数据读取,将SNP样本数据读入,开始准备第一阶段搜索;
利用混合差分演化算法进行高阶SNP致病组合位点筛选;
开始进行优化迭代,直到达到最大迭代次数,算法终止;
迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合;
通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
进一步,所述高阶SNP致病组合数据检测方法的算法参数设置有最大进化代数MaxT,种群大小,交叉概率CR,缩放因子F,和声记忆库选择概率HMCR。
进一步,所述高阶SNP致病组合数据检测方法利用混合差分演化算法进行高阶SNP致病组合位点筛选包括:随机初始化4个大小相同的种群,对其中每个个体,采用四个关联性评价函数进行关联强度评价,评价函数的定义如下:
互熵:ME(X)=H(X)+H(y)-H([X,y]);
贝叶斯网络:其中,I表示该SNP组合中基因型的数量,J表示疾病状态的数量;ni表示第i个基因型的总数量,nij表示第i个基因型在具有疾病状态j的样本数量;
正则化联合熵:
表示第i个基因型在正常样本中的数量,/>表示第i个基因型在疾病样本中的数量;/>和/>分别表示X中第j个SNP的第S个基因型在正常样本和疾病样本中的数量;
卡方值的倒数:Oi表示第i个基因型的样本数量,Ei表示第 i个基因型的期望数量。
进一步,所述高阶SNP致病组合数据检测方法采用四个关联性评价函数互熵,贝叶斯网络,正则化联合熵和卡方值;四个关联性评价函数的值越大表示 SNP组合X与疾病状态的关联强度越强。
进一步,所述高阶SNP致病组合数据检测方法采用混合的差分演化搜索策略,该搜索策略采用智能搜索算法,智能搜索算法为遗传算法,粒子群优化或蚁群优化。
进一步,所述高阶SNP致病组合数据检测方法采用多种群和多目标评价方法,采用某一类似的评价方法代替其中某一个,或多个。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数;
数据读取,将SNP样本数据读入,开始准备第一阶段搜索;
利用混合差分演化算法进行高阶SNP致病组合位点筛选;
开始进行优化迭代,直到达到最大迭代次数,算法终止;
迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合;
通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数;
数据读取,将SNP样本数据读入,开始准备第一阶段搜索;
利用混合差分演化算法进行高阶SNP致病组合位点筛选;
开始进行优化迭代,直到达到最大迭代次数,算法终止;
迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合;
通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的高阶SNP致病组合数据检测方法。
本发明的另一目的在于提供一种实施所述的高阶SNP致病组合数据检测方的高阶SNP致病组合数据检测系统,所述高阶SNP致病组合数据检测系统包括:
数据预处理模块,用于利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置模块,用于根据数据中SNP位点和样本量的大小,设置搜索算法参数.;
数据读取模块,用于将SNP样本数据读入,开始准备第一阶段搜索;
组合位点筛选模块,用于利用混合差分演化算法进行高阶SNP致病组合位点筛选;
优化迭代模块,用于开始进行优化迭代,直到达到最大迭代次数,算法终止;
种群个体合并模块,用于迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
不显著的SNP组合去除,用于采用改进的G-test统计检验方法进行差异显著性检验,去除不显著的SNP组合;
高阶SNP致病组合筛选模块,用于通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提出一种新型的群智能搜索技术,利用混合的差分演化算法降低检测高阶SNP致病组合的计算复杂度。采用具有互补功能的多个目标函数进行SNP致病组合的评价,降低对致病模型的偏好性。为了增强差分演化算法的全局搜索能力,将其与和声搜索策略相结合,使其能够具有速度快,全局搜索能力强等优势。
本发明采用一种全新的混合差分演化搜索策略,将差分演化和和声搜索策略相结合,使其不但能够利用个体之间的差异进行快速学习,还可以从历史记录中选择性学习,具备高效的搜索能力。
本发明采用四个种群和四个相互独立且能够互补的关联性评价方法,每个种群以其中一个评价方法作为选择标准,不同于传统的多目标优化方法,这里采用独立的选择策略,互不干涉,能够避免评价方法对致病模型的偏好性,增强了优化算法的学习能力,并且可以保持种群的多样性,阻止了算法过早收敛,导致搜索停滞。
本发明从搜索策略上采用了新型的框架技术,搜索效率有了明显提升。多个独立、互补的关联性评价方法增强了对致病模型的通用性,提高检测结果的准确率和灵敏度。
本发明的方法容易理解,易实现,计算复杂度低,将差分演化和和声搜索策略相结合,增强了算法的全局搜索能力,多种群和多目标评价方法,有效提升了种群的多样性,避免搜索过早停滞,并且提升了对多样性致病模型的通用性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的高阶SNP致病组合数据检测方法流程图。
图2是本发明实施例提供的高阶SNP致病组合数据检测系统的结构示意图;
图2中:1、数据预处理模块;2、算法参数设置模块;3、数据读取模块; 4、组合位点筛选模块;5、优化迭代模块;6、种群个体合并模块;7、不显著的SNP组合去除模块;8、高阶SNP致病组合筛选模块。
图3是本发明实施例提供的高阶SNP致病组合数据检测方法的实现流程图。
图4是本发明实施例提供的基于混合差分演化算法的高阶SNP致病组合位点搜索流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种高阶SNP致病组合数据检测方法、系统、计算机设备,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的高阶SNP致病组合数据检测方法包括以下步骤:
S101:数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
S102:算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数,主要有最大进化代数MaxT,种群大小,交叉概率CR,缩放因子F,和声记忆库选择概率HMCR等;
S103:数据读取,将SNP样本数据读入,开始准备第一阶段搜索;
S104:利用混合差分演化算法进行高阶SNP致病组合位点筛选;
S105:开始进行优化迭代,直到达到最大迭代次数,算法终止;
S106:迭代过程结束后,合并4个种群的个体(SNP组合),作为第一阶段的筛选结果;
S107:采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合;
S108:通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
本发明提供的高阶SNP致病组合数据检测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的高阶SNP致病组合数据检测方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的高阶SNP致病组合数据检测系统包括:
数据预处理模块1,用于利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置模块2,用于根据数据中SNP位点和样本量的大小,设置搜索算法参数.;
数据读取模块3,用于将SNP样本数据读入,开始准备第一阶段搜索;
组合位点筛选模块4,用于利用混合差分演化算法进行高阶SNP致病组合位点筛选;
优化迭代模块5,用于开始进行优化迭代,直到达到最大迭代次数,算法终止;
种群个体合并模块6,用于迭代过程结束后,合并4个种群的个体(SNP 组合),作为第一阶段的筛选结果;
不显著的SNP组合去除模块7,用于采用改进的G-test统计检验方法进行差异显著性检验,去除不显著的SNP组合;
高阶SNP致病组合筛选模块8,用于通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
下面结合附图对本发明的技术方案作进一步的描述。
SNP:单核苷酸多态性(Single nucleotide polymorphism),
高阶SNP致病组合:2个或2个以上SNP位点协同致病的组合。
多目标差分演化:一多种群智能优化方法,旨在优化多个目标,增强对致病模型的识别能力。
如图3所示,本发明提供的高阶SNP致病组合数据检测方法具体包括以下步骤:
(1)数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,进一步整理成样本矩阵。
(2)算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数.主要有最大进化代数MaxT,种群大小,交叉概率CR,缩放因子F,和声记忆库选择概率HMCR等。
(3)数据读取。将SNP样本数据读入,开始准备第一阶段搜索。
(4)利用混合差分演化算法进行高阶SNP致病组合位点筛选;
按照图4所示流程:
首先,随机初始化4个大小相同的种群,对其中每个个体,采用四个关联性评价函数(互熵,贝叶斯网络,正则化联合熵和卡方值)进行关联强度评价,评价函数的定义如下:
互熵:ME(X)=H(X)+H(y)-H([X,y]);
贝叶斯网络:其中,I表示该SNP组合中基因型的数量,J表示疾病状态的数量。ni表示第i个基因型的总数量,nij表示第i个基因型在具有疾病j的样本数量。
正则化联合熵:
表示第i个基因型在正常样本中的数量,/>表示第i个基因型在疾病样本中的数量;/>和/>分别表示X中第j个SNP的第S个基因型在正常样本和疾病样本中的数量。
卡方值的倒数:(Oi表示第i个基因型的样本数量,Ei表示第 i个基因型的期望数量)。
上述四个关联性评价函数的值越大表示SNP组合X与疾病状态的关联强度越强。
(5)按照图3右侧的流程开始进行优化迭代,直到达到最大迭代次数,算法终止。
(6)迭代过程结束后,合并4个种群的个体(SNP组合),作为第一阶段的筛选结果。
(7)采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合。
(8)最后通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
使用密度峰值检测算法对数据进行计算。
本发明分为两个阶段,第一阶段采用混合的差分演化搜索策略,该搜索策略也可以采用智能搜索算法,例如遗传算法,粒子群优化和蚁群优化,但是,不可直接套用。本发明将差分演化与和声搜索进行了合理的融合,使得搜索性能得到了提升。
本发明采用了多种群和多目标评价方法,可以采用某一类似的评价方法代替其中某一个,或多个,但需要保证其能够相互互补,而不是冗余。
第二阶段,采用了改进的G-Test统计检验方法,改进的目的是减少个别“少见样本”带来的统计差异,避免造成假阳性错误。这里的G-Test方法可以用“设计的更好的统计检验方法”代替。
表1-表4是本发明进行仿真实验的计算结果与比较。分别对12个具有边际效应致病模型和8个无边际效应的致病模型进行了检测比较分析。
表1给出了对12个具有边际效应的致病模型(DME)检测准确率的比较结果。可以明显看出,和其它四个优秀的群智能优化方法相比较,本发明的检测准确率是最高的。
表2中比较了本发明与其它4个群智能优化算法在对12个DME仿真模型检测时运算时间比较。容易看出,本发明在搜索速度上具有明显优势。
表3和表4中是对8个高阶无边际效应致病模型的测试结果,可以看出,本发明不论在检测结果还是搜索速度上都是最优的。
表1检测结果比较(准确率)
表2.运行时间比较(单位:秒)
表3无边际效应高阶致病模型检测准确率(单位:%)
表4无边际效应高阶致病模型检测所需时间(单位:秒)
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种高阶SNP致病组合数据检测方法,其特征在于,所述高阶SNP致病组合数据检测方法包括:
数据预处理,利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置,根据数据中SNP位点和样本量的大小,设置搜索算法参数;
数据读取,将SNP样本数据读入,开始准备第一阶段搜索;
利用混合差分演化算法进行高阶SNP致病组合位点筛选,将和声搜索策略与差分演化算法相结合,旨在有效增强算法的全局搜索能力;该算法中,采用了四个独立的种群,并使用了四个具有互补性的关联性评价函数进行SNP组合的关联性评价;
开始进行优化迭代,直到达到最大迭代次数,算法终止;
迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
采用改进的G-test统计检验方法进行差异显著性检验,进一步去除不显著的SNP组合;
通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合;
算法参数设置有最大进化代数MaxT,种群大小,交叉概率CR,缩放因子F,和声记忆库选择概率HMCR;
利用混合差分演化算法进行高阶SNP致病组合位点筛选包括:将和声搜索策略与差分演化算法相融合,随机初始化4个大小相同的种群,对其中每个个体,采用四个新型的且互补的关联性评价函数进行关联强度评价,评价函数的定义如下:
(1)互熵:ME(X)=H(X)+H(y)-H([X,y]);ni表示该SNP组合的样本中,第i个基因型的数量,n表示所有样本的总数量;
(2)贝叶斯网络:其中,I表示该SNP组合中基因型的数量,J表示疾病状态的数量;ni表示第i个基因型的总数量,nij表示第i个基因型在具有疾病j的样本数量;
(3)正则化联合熵:
表示第i个基因型在正常样本中的数量,/>表示第i个基因型在疾病样本中的数量;/>和/>分别表示X中第j个SNP的第S个基因型在正常样本和疾病样本中的数量;
(4)卡方值的倒数: Oi表示第i个基因型的样本数量,Ei表示第i个基因型的期望数量,采用卡方值而不是卡方检验P-Value,是因为卡方值能够更好地比较解得优劣性,而P-value在样本量较少时,很容易产生假阳性错误。
2.如权利要求1所述的高阶SNP致病组合数据检测方法,其特征在于,所述高阶SNP致病组合数据检测方法采用四个关联性评价函数:互熵,贝叶斯网络,正则化联合熵和卡方值;四个关联性评价函数的值越大表示SNP组合X与疾病状态的关联强度越强。
3.如权利要求1所述的高阶SNP致病组合数据检测方法,其特征在于,所述高阶SNP致病组合数据检测方法采用混合的差分演化搜索策略,该搜索策略采用将两个群体智能优化算法和声搜索与差分演化相结合,增强算法的全局搜索能力。
4.如权利要求1所述的高阶SNP致病组合数据检测方法,其特征在于,所述高阶SNP致病组合数据检测方法采用多种群和多目标函数评价方法,其中,多种群能够保持种群的多样性,增强算法检测多个高阶SNP致病组合的能力;多个关联性评价函数,可以增强算法的通用性,降低对致病模型的偏好性。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~4任意一项所述方法的步骤。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~4任意一项所述方法的步骤。
7.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~4任意一项所述的高阶SNP致病组合数据检测方法。
8.一种实施权利要求1~4任意一项所述的高阶SNP致病组合数据检测方的高阶SNP致病组合数据检测系统,其特征在于,所述高阶SNP致病组合数据检测系统包括:
数据预处理模块,用于利用Plink从VCF文件中读取出PED,MAP格式数据,整理成样本矩阵;
算法参数设置模块,用于根据数据中SNP位点和样本量的大小,设置搜索算法参数.;
数据读取模块,用于将SNP样本数据读入,开始准备第一阶段搜索;
组合位点筛选模块,用于利用混合差分演化算法进行高阶SNP致病组合位点筛选;
优化迭代模块,用于开始进行优化迭代,直到达到最大迭代次数,算法终止;
种群个体合并模块,用于迭代过程结束后,合并4个种群的个体,作为第一阶段的筛选结果;
不显著的SNP组合去除,用于采用改进的G-test统计检验方法进行差异显著性检验,去除不显著的SNP组合;
高阶SNP致病组合筛选模块,用于通过G-test检验的SNP组合被认为是可能的高阶SNP致病组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121291.1A CN112270957B (zh) | 2020-10-19 | 2020-10-19 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121291.1A CN112270957B (zh) | 2020-10-19 | 2020-10-19 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270957A CN112270957A (zh) | 2021-01-26 |
CN112270957B true CN112270957B (zh) | 2023-11-07 |
Family
ID=74338759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121291.1A Active CN112270957B (zh) | 2020-10-19 | 2020-10-19 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270957B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223611B (zh) * | 2021-04-16 | 2024-02-20 | 杭州电子科技大学 | 一种基于全基因组序列snp数据的快速特征选择方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN103366100A (zh) * | 2013-06-25 | 2013-10-23 | 西安电子科技大学 | 从全基因组中过滤与复杂疾病无关snp的方法 |
CN105718999A (zh) * | 2016-01-25 | 2016-06-29 | 深圳大学 | 一种启发式代谢共表达网络的构建方法及系统 |
CN108133272A (zh) * | 2018-01-15 | 2018-06-08 | 大连民族大学 | 一种复杂网络社区检测的方法 |
CN108808667A (zh) * | 2018-06-22 | 2018-11-13 | 江苏师范大学 | 一种基于变策略动态差分进化算法的电力系统经济调度法 |
CN108985523A (zh) * | 2018-08-03 | 2018-12-11 | 北京邮电大学 | 一种改进和声搜索优化的小波神经网络短期电力负荷预测方法 |
CN109801681A (zh) * | 2018-12-11 | 2019-05-24 | 江苏大学 | 一种基于改进的模糊聚类算法的snp选择方法 |
CN109903811A (zh) * | 2019-05-14 | 2019-06-18 | 慧算医疗科技(上海)有限公司 | 一种无对照体细胞突变检测方法及装置 |
CN111062462A (zh) * | 2019-11-12 | 2020-04-24 | 中山大学 | 基于差分进化算法的局部搜索和全局搜索融合方法及系统 |
CN111327050A (zh) * | 2020-03-06 | 2020-06-23 | 西安建筑科技大学 | 基于混合策略的二进制差分进化算法的含分布式电源的配电网重构方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012522790A (ja) * | 2009-03-31 | 2012-09-27 | ウィッテン,マシュー,アール. | 組成物および使用の方法 |
BR112017020982A2 (pt) * | 2015-05-01 | 2019-11-12 | Halliburton Energy Services Inc | método e sistema para estimar parâmetros de uma formação geológica, e, dispositivo não transitório de armazenamento legível por máquina. |
-
2020
- 2020-10-19 CN CN202011121291.1A patent/CN112270957B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN103366100A (zh) * | 2013-06-25 | 2013-10-23 | 西安电子科技大学 | 从全基因组中过滤与复杂疾病无关snp的方法 |
CN105718999A (zh) * | 2016-01-25 | 2016-06-29 | 深圳大学 | 一种启发式代谢共表达网络的构建方法及系统 |
CN108133272A (zh) * | 2018-01-15 | 2018-06-08 | 大连民族大学 | 一种复杂网络社区检测的方法 |
CN108808667A (zh) * | 2018-06-22 | 2018-11-13 | 江苏师范大学 | 一种基于变策略动态差分进化算法的电力系统经济调度法 |
CN108985523A (zh) * | 2018-08-03 | 2018-12-11 | 北京邮电大学 | 一种改进和声搜索优化的小波神经网络短期电力负荷预测方法 |
CN109801681A (zh) * | 2018-12-11 | 2019-05-24 | 江苏大学 | 一种基于改进的模糊聚类算法的snp选择方法 |
CN109903811A (zh) * | 2019-05-14 | 2019-06-18 | 慧算医疗科技(上海)有限公司 | 一种无对照体细胞突变检测方法及装置 |
CN111062462A (zh) * | 2019-11-12 | 2020-04-24 | 中山大学 | 基于差分进化算法的局部搜索和全局搜索融合方法及系统 |
CN111327050A (zh) * | 2020-03-06 | 2020-06-23 | 西安建筑科技大学 | 基于混合策略的二进制差分进化算法的含分布式电源的配电网重构方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于SNP位点的身高预测模型的评估;焦会永;孙亚男;景晓溪;刘京;江丽;李彩霞;叶健;刘凡;黄艳梅;赵雯婷;;法医学杂志(第02期);全文 * |
基于锦标赛选择变异策略的改进差分进化算法及函数优化;傅嗣鹏;乔俊飞;韩红桂;;计算机科学(第S1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112270957A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070141B (zh) | 一种网络入侵检测方法 | |
Sun et al. | Large-scale multiple testing under dependence | |
CN111612039A (zh) | 异常用户识别的方法及装置、存储介质、电子设备 | |
Guo et al. | Feature selection based on Rough set and modified genetic algorithm for intrusion detection | |
Cui et al. | Learning global pairwise interactions with Bayesian neural networks | |
CN111726349B (zh) | 基于ga优化的gru并行网络流量异常检测方法 | |
CN110853756A (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
WO2024045989A1 (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
CN102622535A (zh) | 一种基于多序列比对遗传算法的处理方法及装置 | |
CN112270957B (zh) | 高阶snp致病组合数据检测方法、系统、计算机设备 | |
KR20190138960A (ko) | 딥러닝 기반의 질환 위험 유전 변이 발굴 장치 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
Versteeg et al. | Local constraint-based causal discovery under selection bias | |
CN111126560A (zh) | 一种基于云遗传算法优化bp神经网络的方法 | |
Qin et al. | Malaria cell detection using evolutionary convolutional deep networks | |
CN112183598A (zh) | 一种基于遗传算法的特征选择方法 | |
Choi et al. | A poisson log-normal model for constructing gene covariation network using RNA-seq data | |
CN116647844A (zh) | 一种基于堆叠集成算法的车载网络入侵检测方法 | |
Fu et al. | A computational study of using genetic algorithms to develop intelligent decision trees | |
Uthayan | A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization | |
CN113704570A (zh) | 基于自监督学习式进化的大规模复杂网络社区检测方法 | |
CN117474106B (zh) | 一种基于全流程并行遗传算法的贝叶斯网络结构学习方法 | |
CN114070621B (zh) | 面向网络数据流分类的在线稀疏学习方法及系统 | |
CN114996256B (zh) | 一种基于类别平衡的数据清洗方法 | |
CN112530521B (zh) | 基于生成对抗网络的snp上位交互识别方法、系统及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |