CN109817340B - 疾病风险分布信息确定方法、装置、存储介质及设备 - Google Patents

疾病风险分布信息确定方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN109817340B
CN109817340B CN201910039620.9A CN201910039620A CN109817340B CN 109817340 B CN109817340 B CN 109817340B CN 201910039620 A CN201910039620 A CN 201910039620A CN 109817340 B CN109817340 B CN 109817340B
Authority
CN
China
Prior art keywords
data
data set
analyzed
disease risk
operation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910039620.9A
Other languages
English (en)
Other versions
CN109817340A (zh
Inventor
贾瑞凯
肖芳
叶桦
郭森
贾延凯
廖国娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genewiz Suzhou Ltd
Original Assignee
Genewiz Suzhou Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genewiz Suzhou Ltd filed Critical Genewiz Suzhou Ltd
Priority to CN201910039620.9A priority Critical patent/CN109817340B/zh
Publication of CN109817340A publication Critical patent/CN109817340A/zh
Application granted granted Critical
Publication of CN109817340B publication Critical patent/CN109817340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了疾病风险分布信息确定方法、装置、存储介质及设备。该方法包括:获取预设疾病对应的待分析数据集,其中,待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的等位基因型频率和疾病风险值,获取预设精度区间数目,并根据预设精度区间数目、预设上限值和预设下限值确定精度区间,基于精度区间对待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。本发明实施例通过采用上述技术方案,可以达到减少运算量,提高确定疾病风险分布信息的效率的技术效果。

Description

疾病风险分布信息确定方法、装置、存储介质及设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及疾病风险分布信息确定方法、装置、存储介质及设备。
背景技术
目前,随着大数据时代的来临,大数据分析应用而生,大数据分析是指对规模巨大的数据进行分析,在基因测序及下游产业有非常广阔的应用,单核苷酸多态性(SingleNucleotide Polymorphism,SNP)数据与疾病风险相关研究就是其中之一。
SNP主要是指在基因组水平上由单个核苷酸的变异所引起的脱氧核糖核酸(deoxyribonucleic acid,DNA)序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究。人类组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic),两种等位基因组合就有三种等位基因型。
全基因组关联研究(Genome-wide association study,GWAS)借助于高通量测序和基因芯片技术,可以同时分析基因组中成千上万个SNP位点,进而找出在患者和健康人中等位基因型频率显著不同的SNP,这些SNP即是和疾病发生相关联的。
当前基于基因检测判断疾病风险的技术已趋于成熟,根据SNP分型信息、等位基因型频率信息和SNP对应的发病风险数据,构建人群疾病风险分布有利于明确疾病在人群中的发病规律。然而,受限于SNP数量繁多,组合呈指数增长,计算量庞大,计算效率低下,亟需一种高效确定疾病风险分布信息的方案。
发明内容
本发明实施例的目的是提供疾病风险分布信息确定方法、装置、存储介质及设备,可以提高确定疾病风险分布信息的效率。
第一方面,本发明实施例提供了一种疾病风险分布信息确定方法,包括:
获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。
第二方面,本发明实施例提供了一种疾病风险分布信息确定装置,包括:
数据集获取模块,用于获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
精度区间确定模块,用于获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
疾病风险分布信息确定模块,用于基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明实施例提供的疾病风险分布信息确定方法。
第四方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本发明实施例提供的疾病风险分布信息确定方法。
本发明实施例中提供的疾病风险分布信息确定方案,获取预设疾病对应的待分析数据集,其中,待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的等位基因型频率和疾病风险值,根据获取的预设精度区间数目、预设上限值和预设下限值确定精度区间,再基于精度区间对待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息。通过采用上述技术方案,利用精度区间对待分析数据以及中间组合运算结果进行标准化,并根据最终运算结果确定疾病风险分布信息,可以达到减少运算量,提高确定疾病风险分布信息的效率的技术效果。
附图说明
图1为本发明实施例提供的一种疾病风险分布信息确定方法的流程示意图;
图2为本发明实施例提供的又一种疾病风险分布信息确定方法的流程示意图;
图3为本发明实施例提供的一种疾病风险分布信息示意图;
图4为本发明实施例提供的一种疾病风险分布信息确定装置的结构框图;
图5为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本发明实施例提供的一种疾病风险分布信息确定方法的流程示意图,该方法可以由疾病风险分布信息确定装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图1所示,该方法包括:
步骤101、获取预设疾病对应的待分析数据集。
其中,所述待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值。例如,三种等位基因型分别被记为第一等位基因型、第二等位基因型和第三等位基因型,则每个待分析数据组中包括第一等位基因型对应的第一数据和第二数据、第二等位基因型对应的第一数据和第二数据、以及第三等位基因型对应的第一数据和第二数据。
本发明实施例中,对预设疾病的种类不做限定,N的数目以及具体的SNP位点可以根据预设疾病进行确定,如选择该预设疾病对应的致病SNP位点。
性状是由基因控制的,控制显性性状的为显性基因(用大写字母,如A),控制隐性性状的为隐性基因(用小写字母,如a),基因在体细胞中成对存在,所以一般一个个体的基因型就有:AA,Aa,aa。A和a就可以表示一对等位基因。它们的定义为:同源染色体的相同位置上,控制相对性状的一对基因。针对人类疾病,人是二倍体生物,大部分的时候同源染色体的相同位置的碱基是一致的,基因是一段DNA序列,而SNP是一个碱基的DNA序列,与上述情况类似,当存在SNP的时候,有类似于A和a的情况,同时也会有AA、Aa、aa三种分型。分型对应的在人群中的比例叫等位基因型频率,三种分型频率之和为1。疾病风险值是一个衡量疾病与SNP之间关系强弱的指标,取值范围是0~1,疾病风险值越大表示该SNP与疾病相关性越强,反之表示相关性越弱。SNP是单个碱基的多态性,碱基有4种,A、G、C和T,所以SNP分型有AA、AC、AG、AT、CC、CG、CT、GG、GT和TT十种,一个SNP位点,对于二倍体来说只能是A、G、C和T中选2个,如果选A和C,那就是AA、CC和AC三种情况,也就是说三种等位基因型分别为AA、CC和AC。
目前,大数据时代由于数据不再局限于单一维度,多维数据组合分析成为主流,然而多维数据组合数量随着维度增加而产生的指数式增长成为阻碍分析的关键因素。对于SNP数据与疾病风险相关研究,SNP数量繁多,组合数目呈指数增长,为确定疾病风险分布信息带来了极大的困难。
假设待分析的SNP数据集中存在N个独立SNP数据,也即N个待分析数据组,每个独立SNP数据均包含三种分型(等位基因型),从每个SNP数据中选取一种分型,则组合数目计算公式为:
Sum=3N
假设N的值为100,即有100个SNP,则组合数目为:3100≈5.15*1047。该数据量在百亿次/秒的计算速度下需要1.63*1030年才能计算完成,随着SNP数量的增加,该数字将会呈指数式增长。可见,目前的计算机很难完成该量级的数据运算,使得疾病风险分布信息的确定无法实现。
而本发明实施例中,针对大数据分析注重宏观层面的特点,并结合等位基因型频率以及疾病风险值的数值特性,采用精度作为衡量计算量和结果准确性的标准,可以减少运算量,提高效率,详见后续步骤中的说明。
步骤102、获取预设精度区间数目,并根据预设精度区间数目、预设上限值和预设下限值确定精度区间。
示例性的,预设精度区间数目可以根据实际情况进行设置,本发明实施例不做限定,例如,10万。预设精度区间数目设置得越大,计算结果越精确,运算量也会随之增加。
示例性的,本步骤可针对第一数据和/或第二数据进行。第一数据为等位基因型频率,三种等位基因型分别对应的第一数据的和为1,对应的预设上限值可以是1,对应的预设下限值可以为0;第一数据为疾病风险值,每种等位基因型分别对应的第二数据的范围均在0至1之间,对应的预设上限值可以是1,对应的预设下限值可以为0。当然,也可根据实际获取的待分析数据集进行确定。例如,当待分析数据集中的第二数据均小于0.5时,也可将预设上限值设定为0.5。
具体的,假设预设精度区间数目为M,预设上限值为a,预设下限值为b,根据预设精度区间数目、预设上限值和预设下限值确定精度区间可以是,先计算区间大小c,c=(a-b)/M,然后在a至b之间进行精度区间划分,得到M个精度区间,如a至a+c,a+c至a+2c,……,依次类推。
步骤103、基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息。
其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。
示例性的,疾病风险分布信息中可以包括经过组合计算后得到的疾病风险值与在人群中占比的对应关系。假设预设精度区间数目为10万,那么疾病风险分布信息可包括10万个疾病风险值与各疾病风险在人群中占比的对应关系。其中,组合疾病风险值可以由每种组合中各疾病风险值的平均值来确定,对应的在人群中占比可以由每种组合中等位基因型频率的乘积来确定。
本发明实施例在计算过程中,可以采用边组合并计算的方式进行。例如,可以先针对第1个待分析数据组和第2个待分析数据组进行组合计算,得到第1个运算结果(中间组合运算结果),然后再将第1个运算结果和第3个待分析数据组进行组合计算,得到第2个运算结果,依次类推。在进行组合运算过程中,基于精度区间对待分析数据集(也即每个待分析数据组)以及中间组合运算结果进行标准化,进而减少运算量。
示例性的,基于精度区间进行标准化的操作可以是,确定待标准化数据中的数据所处的目标精度区间,以目标精度区间对应的区间数值代替待标准化数据中的数据,得到标准化后的数据。此处的数据可以是第一数据和/或第二数据,可选的,此处的数据为第二数据。示例性的,可以根据实际情况确定各精度区间对应的区间数值,例如,可以是精度区间的上限值、下限值或中间值等。这样,当有至少两个数据落入同一个目标精度区间时,就可以用目标精度区间对应的区间数值来代替至少两个数据,从而可以有效减少组合数目,进而降低运算量。
最后,当待分析数据集中所有的待分析数据组都参与运算结束后,得到最终运算结果,可以根据最终运算结果确定疾病风险分布信息。
本发明实施例中提供的疾病风险分布信息确定方法,获取预设疾病对应的待分析数据集,其中,待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的等位基因型频率和疾病风险值,根据获取的预设精度区间数目、预设上限值和预设下限值确定精度区间,再基于精度区间对待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息。通过采用上述技术方案,利用精度区间对待分析数据以及中间组合运算结果进行标准化,并根据最终运算结果确定疾病风险分布信息,可以达到减少运算量,提高确定疾病风险分布信息的效率的技术效果。
在一些实施例中,所述基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,包括:基于所述精度区间对第1个待分析数据组和第2个待分析数据组进行标准化,得到第1个标准数据组和第2个标准数据组,并采用预设算法对所述第1个标准数据组和所述第2个标准数据组中的数据进行运算,得到第1个运算结果;对于第3至第N个待分析数据组中的每个待分析数据组,将当前待分析数据组记为第K个待分析数据组,基于所述精度区间对所述第K个待分析数据组进行标准化,得到第K个标准数据组,基于所述精度区间对第K-2个运算结果进行标准化,得到第K-2个标准运算结果,并采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果;依据第N-1个运算结果确定疾病风险分布信息。这样设置的好处在于,采用边组合并计算的方式进行,依次对各待分析数据组和中间组合运算结果进行标准化,有效减少组合数目的同时,减少标准化后数据所占用的存储空间,节约运算资源。
在一些实施例中,基于所述精度区间进行标准化的操作包括:对于待标准化数据,确定待标准化数据中的第二数据所处的目标精度区间,以所述目标精度区间对应的区间数值代替所述待标准化数据中的第二数据,得到标准化后的第二数据,其中,所述待标准化数据包括所述第1个待分析数据组、所述第2个待分析数据组、所述第K个待分析数据组和所述第K-2个运算结果;将待标准化数据中的第一数据和对应的标准化后的第二数据记为标准数据组。这样设置的好处在于,对待标准化数据进行合理的标准化,有效减少组合数目的同时,提高结果准确性。
在一些实施例中,所述将待标准化数据中的第一数据和标准化后的第二数据记为标准数据组,包括:当存在至少两个第二数据处于同一目标精度区间时,计算所述至少两个第二数据对应的第一数据的第一乘积,并将所述第一乘积记为标准化后的第二数据对应的标准化后的第一数据;将所述标准化后的第一数据和对应的标准化后的第二数据记为标准数据组。这样设置的好处在于,在运算过程中合理保留第一数据和第二数据的对应关系,提高结果准确性。
在一些实施例中,所述采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果,包括:计算所述第K-2个标准运算结果中的第一数据,与所述第K个标准数据组中的第一数据的乘积,得到第二乘积;计算所述第K-2个标准运算结果中的第二数据与K的乘积,得到第三乘积,计算所述第三乘积与所述第K个标准数据组中的第二数据的和,再计算所述和与K+1的商;将所述第一乘积和所述商作为第K-1个运算结果。这样设置的好处在于,快速合理地计算疾病风险分布信息中包括的组合疾病风险值和与其对应的在人群中占比。
图2为本发明实施例提供的又一种疾病风险分布信息确定方法的流程示意图,该方法包括如下步骤:
步骤201、获取预设疾病对应的待分析数据集。
其中,所述待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值。示例性的,某疾病存在100个致病SNP位点,那么此处的N可以为100。
步骤202、获取预设精度区间数目,并根据预设精度区间数目、预设上限值和预设下限值确定精度区间。
本发明实施例中针对第二数据,即疾病风险值来确定精度区间。示例性的,预设精度区间数目为10万,预设上限值为1,预设下限值为0,可将风险上下限之差平均分为10万个区间,区间大小为1*10-6。其中,SNP分型对应的疾病风险范围为0至1,计算组合的疾病风险时,取组合中各个SNP分型的疾病风险均值,则组合结果对应的疾病风险范围也在0至1之间,故预设上限值为1,预设下限值为0。
步骤203、基于精度区间对第1个待分析数据组和第2个待分析数据组进行标准化,得到第1个标准数据组和第2个标准数据组。
示例性的,本步骤中针对第二数据,即疾病风险值进行标准化操作。以第1个待分析数据组为例,其中包含了3个疾病风险值,分别确定每个疾病风险值所处的目标精度区间,并以目标精度区间的上限值来代替当前疾病风险值。在第1个标准数据组和第2个标准数据组中,第一数据保持不变,即分别与第1个待分析数据组和第2个待分析数据组相同。
步骤204、采用预设算法对第1个标准数据组和第2个标准数据组中的数据进行运算,得到第1个运算结果。
示例性的,本步骤可包括:计算第1个标准数据组中的第一数据和第2个标准数据组中的第一数据的乘积,计算第1个标准数据组中的第二数据和第2个标准数据组中的第二数据的平均值,将上述乘积和平均值作为第1个运算结果。
步骤205、对于第3至第N个待分析数据组中的每个待分析数据组,将当前待分析数据组记为第K个待分析数据组,基于精度区间对第K个待分析数据组进行标准化,得到第K个标准数据组,基于精度区间对第K-2个运算结果进行标准化,得到第K-2个标准运算结果,并采用预设算法对第K-2个标准运算结果和第K个标准数据组进行运算,得到第K-1个运算结果。
示例性的,本步骤中针对第二数据,即疾病风险值进行标准化操作。
对于第K个待分析数据组,其中包含了3个疾病风险值,分别确定每个疾病风险值所处的目标精度区间,并以目标精度区间的上限值来代替当前疾病风险值。在第K个标准数据组中,第一数据保持不变,即与第K个待分析数据组中的第一数据相同。
对于第K-2个运算结果,由于K的取值不同,所包含的疾病风险值的数目可能不同,最大值为精度区间数目的3倍,在进行标准化操作时,分别确定每个疾病风险值所处的目标精度区间,并以目标精度区间的上限值来代替当前疾病风险值,成为标准化后的第K-2个运算结果中的疾病风险值。当存在至少两个疾病风险值落入同一个目标精度区间时,以目标精度区间对应的上限值来代替该至少两个疾病风险值。同时,可选的,对于第一数据来说,当存在至少两个疾病风险值落入同一个目标精度区间时,计算至少两个疾病风险值对应的等位基因型频率的乘积,并将该乘积作为标准化后的第K-2个运算结果中的等位基因型频率。
示例性的,采用预设算法对第K-2个标准运算结果和第K个标准数据组进行运算,得到第K-1个运算结果,包括:计算第K-2个标准运算结果中的第一数据,与第K个标准数据组中的第一数据的乘积,得到第二乘积;计算第K-2个标准运算结果中的第二数据与K的乘积,得到第三乘积,计算第三乘积与第K个标准数据组中的第二数据的和,再计算和与K+1的商;将第一乘积和商作为第K-1个运算结果。具体的,将第K-2个标准运算结果中的等位基因型频率与第K个标准数据组中的等位基因型频率相乘,将乘积作为第K-1个运算结果中的等位基因型频率;在第K-2个标准运算结果中的疾病风险值基础上乘以K,再加上第K个标准数据组中的疾病风险值,最后再除以K+1,将所得的数值作为第K-1个运算结果中的疾病风险值。
本步骤中,对于第3至第N个待分析数据组中的每个待分析数据组,循环执行上述操作,最终得到第N-1个运算结果。
步骤206、依据第N-1个运算结果确定疾病风险分布信息。
示例性的,第N-1个运算结果中会包含10万个疾病风险值(即经过组合运算后的疾病风险值),以及每个组合疾病风险值对应的人群中占比(即经过组合运算后的等位基因型频率)。
示例性的,图3为本发明实施例提供的一种疾病风险分布信息示意图,使用R软件对运算结果进行可视化展示,如图3所示,横坐标为疾病风险值,纵坐标为疾病风险在人群中的占比,由10万个数据点绘制得到该图像。
本发明实施例提供的疾病风险分布信息确定方法,在获取预设疾病对应的待分析数据集后,针对疾病风险值根据预设精度区间数目来确定精度区间,在进行组合运算过程中,基于精度区间对待分析数据集以及中间组合运算结果中的疾病风险值进行标准化,并依据最终运算结果确定疾病风险分布信息,采用精度作为衡量计算量和结果准确性的标准,使用精度区间把SNP分型组合对应的疾病风险值纳入统一体系,将运算量由指数量级简化为线性量级,极大的减少运算量,提高效率。
为了便于说明本发明所达到的技术效果,下面对运算量进行进一步说明。如前文举例,假设N的值为100,采用传统运算方式确定疾病风险分布信息时,组合数目为3100,也就是说运算次数要达到3100次。而采用本发明中的技术方案,假设预设精度区间数目为1000,则相当于将组合计算结果类归于1000个精度区间内,精度则为千分之一。K值为当前处理的SNP位点的数目,K的取值范围为1到100,K值与运算组合数目的关系如表1所示:
表1、K值与运算组合数目的关系
K值 运算前最大组合数目 运算后最大组合数目 精度区间数
1 1 3 1000
2 3 9 1000
... ... ... 1000
9 1000 1000 1000
10 1000 1000 1000
100 1000 1000 1000
如表1所示,本发明实施例的技术方案将指数增长的组合对应的结果约束于有限性的精度区间内,之后每增加一组独立数据,只需要在原来计算的结果上,进行Y次运算即可,Y的计算公式如下:
Y=3*精度区间数目
忽略运算时最大组合数目小于精度区间数的情况,组合数目(也即运算次数)、SNP数目及预设精度区间数目的关系可以使用公式进行估算,估算公式如下所示:
Sum=3×N×S
其中,S为预设精度区间数目,N为SNP数目,则运算次数约为30万次,相比于传统方式中的3100次,极大地减少了运算量。
图4为本发明实施例提供的一种疾病风险分布信息确定装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行疾病风险分布信息确定方法来进行疾病风险分布信息的确定。如图4所示,该装置包括:
数据集获取模块401,用于获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
精度区间确定模块402,用于获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
疾病风险分布信息确定模块403,用于基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。
本发明实施例中提供的疾病风险分布信息确定装置,获取预设疾病对应的待分析数据集,其中,待分析数据集中包括N个SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的等位基因型频率和疾病风险值,根据获取的预设精度区间数目、预设上限值和预设下限值确定精度区间,再基于精度区间对待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息。通过采用上述技术方案,利用精度区间对待分析数据以及中间组合运算结果进行标准化,并根据最终运算结果确定疾病风险分布信息,可以达到减少运算量,提高确定疾病风险分布信息的效率的技术效果。
可选的,所述基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,包括:
基于所述精度区间对第1个待分析数据组和第2个待分析数据组进行标准化,得到第1个标准数据组和第2个标准数据组,并采用预设算法对所述第1个标准数据组和所述第2个标准数据组中的数据进行运算,得到第1个运算结果;
对于第3至第N个待分析数据组中的每个待分析数据组,将当前待分析数据组记为第K个待分析数据组,基于所述精度区间对所述第K个待分析数据组进行标准化,得到第K个标准数据组,基于所述精度区间对第K-2个运算结果进行标准化,得到第K-2个标准运算结果,并采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果;
依据第N-1个运算结果确定疾病风险分布信息。
可选的,于所述精度区间进行标准化的操作包括:
对于待标准化数据,确定待标准化数据中的第二数据所处的目标精度区间,以所述目标精度区间对应的区间数值代替所述待标准化数据中的第二数据,得到标准化后的第二数据,其中,所述待标准化数据包括所述第1个待分析数据组、所述第2个待分析数据组、所述第K个待分析数据组和所述第K-2个运算结果;
将待标准化数据中的第一数据和对应的标准化后的第二数据记为标准数据组。
可选的,所述将待标准化数据中的第一数据和标准化后的第二数据记为标准数据组,包括:
当存在至少两个第二数据处于同一目标精度区间时,计算所述至少两个第二数据对应的第一数据的第一乘积,并将所述第一乘积记为标准化后的第二数据对应的标准化后的第一数据;
将所述标准化后的第一数据和对应的标准化后的第二数据记为标准数据组。
可选的,所述目标精度区间对应的区间数值为所述目标精度区间的上限值、下限值或中间值。
可选的,所述采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果,包括:
计算所述第K-2个标准运算结果中的第一数据,与所述第K个标准数据组中的第一数据的乘积,得到第二乘积;
计算所述第K-2个标准运算结果中的第二数据与K的乘积,得到第三乘积,计算所述第三乘积与所述第K个标准数据组中的第二数据的和,再计算所述和与K+1的商;
将所述第一乘积和所述商作为第K-1个运算结果。
可选的,所述预设上限值为1,所述预设下限值为0。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行疾病风险分布信息确定方法,该方法包括:
获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的疾病风险分布信息确定操作,还可以执行本发明任意实施例所提供的疾病风险分布信息确定方法中的相关操作。
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的疾病风险分布信息确定装置。图5为本发明实施例提供的一种计算机设备的结构框图。计算机设备500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的疾病风险分布信息确定方法。
本发明实施例提供的计算机设备,利用精度区间对待分析数据以及中间组合运算结果进行标准化,并根据最终运算结果确定疾病风险分布信息,可以达到减少运算量,提高确定疾病风险分布信息的效率的技术效果。
上述实施例中提供的疾病风险分布信息确定装置、存储介质以及计算机设备可执行本发明任意实施例所提供的疾病风险分布信息确定方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的疾病风险分布信息确定方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种疾病风险分布信息确定方法,其特征在于,包括:
获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系;
所述基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,包括:
基于所述精度区间对第1个待分析数据组和第2个待分析数据组进行标准化,得到第1个标准数据组和第2个标准数据组,并采用预设算法对所述第1个标准数据组和所述第2个标准数据组中的数据进行运算,得到第1个运算结果;
对于第3至第N个待分析数据组中的每个待分析数据组,将当前待分析数据组记为第K个待分析数据组,基于所述精度区间对所述第K个待分析数据组进行标准化,得到第K个标准数据组,基于所述精度区间对第K-2个运算结果进行标准化,得到第K-2个标准运算结果,并采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果;
依据第N-1个运算结果确定疾病风险分布信息;
所述基于所述精度区间进行标准化的操作包括:
对于待标准化数据,确定待标准化数据中的第二数据所处的目标精度区间,以所述目标精度区间对应的区间数值代替所述待标准化数据中的第二数据,得到标准化后的第二数据,其中,所述待标准化数据包括所述第1个待分析数据组、所述第2个待分析数据组、所述第K个待分析数据组和所述第K-2个运算结果;
将待标准化数据中的第一数据和对应的标准化后的第二数据记为标准数据组。
2.根据权利要求1所述的方法,其特征在于,所述将待标准化数据中的第一数据和标准化后的第二数据记为标准数据组,包括:
当存在至少两个第二数据处于同一目标精度区间时,计算所述至少两个第二数据对应的第一数据的第一乘积,并将所述第一乘积记为标准化后的第二数据对应的标准化后的第一数据;
将所述标准化后的第一数据和对应的标准化后的第二数据记为标准数据组。
3.根据权利要求1所述的方法,其特征在于,所述目标精度区间对应的区间数值为所述目标精度区间的上限值、下限值或中间值。
4.根据权利要求2所述的方法,其特征在于,所述采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果,包括:
计算所述第K-2个标准运算结果中的第一数据,与所述第K个标准数据组中的第一数据的乘积,得到第二乘积;
计算所述第K-2个标准运算结果中的第二数据与K的乘积,得到第三乘积,计算所述第三乘积与所述第K个标准数据组中的第二数据的和,再计算所述和与K+1的商;
将所述第一乘积和所述商作为第K-1个运算结果。
5.根据权利要求1所述的方法,其特征在于,所述预设上限值为1,所述预设下限值为0。
6.一种疾病风险分布信息确定装置,其特征在于,包括:
数据集获取模块,用于获取预设疾病对应的待分析数据集,其中,所述待分析数据集中包括N个单核苷酸多态性SNP位点分别对应的待分析数据组,每个待分析数据组中包括三种等位基因型分别对应的第一数据和第二数据,所述第一数据为等位基因型频率,所述第二数据为疾病风险值;
精度区间确定模块,用于获取预设精度区间数目,并根据所述预设精度区间数目、预设上限值和预设下限值确定精度区间;
疾病风险分布信息确定模块,用于基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,其中,所述疾病风险分布信息中包括组合疾病风险值与在人群中占比的对应关系;
所述基于所述精度区间对所述待分析数据集以及中间组合运算结果进行标准化,并依据最终运算结果确定疾病风险分布信息,包括:
基于所述精度区间对第1个待分析数据组和第2个待分析数据组进行标准化,得到第1个标准数据组和第2个标准数据组,并采用预设算法对所述第1个标准数据组和所述第2个标准数据组中的数据进行运算,得到第1个运算结果;
对于第3至第N个待分析数据组中的每个待分析数据组,将当前待分析数据组记为第K个待分析数据组,基于所述精度区间对所述第K个待分析数据组进行标准化,得到第K个标准数据组,基于所述精度区间对第K-2个运算结果进行标准化,得到第K-2个标准运算结果,并采用预设算法对所述第K-2个标准运算结果和所述第K个标准数据组进行运算,得到第K-1个运算结果;
依据第N-1个运算结果确定疾病风险分布信息;
所述基于所述精度区间进行标准化的操作包括:
对于待标准化数据,确定待标准化数据中的第二数据所处的目标精度区间,以所述目标精度区间对应的区间数值代替所述待标准化数据中的第二数据,得到标准化后的第二数据,其中,所述待标准化数据包括所述第1个待分析数据组、所述第2个待分析数据组、所述第K个待分析数据组和所述第K-2个运算结果;
将待标准化数据中的第一数据和对应的标准化后的第二数据记为标准数据组。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
CN201910039620.9A 2019-01-16 2019-01-16 疾病风险分布信息确定方法、装置、存储介质及设备 Active CN109817340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039620.9A CN109817340B (zh) 2019-01-16 2019-01-16 疾病风险分布信息确定方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910039620.9A CN109817340B (zh) 2019-01-16 2019-01-16 疾病风险分布信息确定方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN109817340A CN109817340A (zh) 2019-05-28
CN109817340B true CN109817340B (zh) 2023-06-23

Family

ID=66604433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910039620.9A Active CN109817340B (zh) 2019-01-16 2019-01-16 疾病风险分布信息确定方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN109817340B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1593084A4 (en) * 2003-02-14 2008-12-10 Intergenetics Inc STATISTICALLY IDENTIFYING AN INCREASED DISEASE RISK
EP2775412A1 (en) * 2013-03-07 2014-09-10 Medesso GmbH Method of generating a medical suggestion as a support in medical decision making
CN104789688A (zh) * 2015-05-12 2015-07-22 首都儿科研究所 与中国人群先天性巨结肠发生相关的单核苷酸多态性标记物及其应用
CN107345248A (zh) * 2017-06-26 2017-11-14 思畅信息科技(上海)有限公司 基于大数据的基因与位点风险评估方法及其系统
CN108221058A (zh) * 2017-12-29 2018-06-29 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用

Also Published As

Publication number Publication date
CN109817340A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
US8428886B2 (en) Genotype calling
Siegmund et al. False discovery rate for scanning statistics
US11854666B2 (en) Noninvasive prenatal screening using dynamic iterative depth optimization
US9218451B2 (en) Processing data from genotyping chips
Yuan et al. Probability theory-based SNP association study method for identifying susceptibility loci and genetic disease models in human case-control data
US20140067355A1 (en) Using Haplotypes to Infer Ancestral Origins for Recently Admixed Individuals
Topa et al. Gaussian process test for high-throughput sequencing time series: application to experimental evolution
Franke et al. eQTL analysis in humans
NZ745249A (en) Methods and systems for detection of abnormal karyotypes
Huang et al. Evaluation of variant detection software for pooled next-generation sequence data
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
US20240221954A1 (en) Disease prediction methods and devices, electronic devices, and computer readable storage media
Bisschop et al. Sweeps in time: leveraging the joint distribution of branch lengths
Stegle et al. Accounting for non-genetic factors improves the power of eQTL studies
CN109817340B (zh) 疾病风险分布信息确定方法、装置、存储介质及设备
Guha et al. Bayesian hidden Markov modeling of array CGH data
Bérard et al. Unsupervised classification for tiling arrays: ChIP-chip and transcriptome
Hassani et al. Accuracy of prediction of simulated polygenic phenotypes and their underlying quantitative trait loci genotypes using real or imputed whole-genome markers in cattle
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
Zhu et al. Fast variance component analysis using large-scale ancestral recombination graphs
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
Atefi et al. Accuracy of genomic prediction under different genetic architectures and estimation methods
de Deus et al. Comparison of kinship estimates in Santa Inês sheep using microsatellite and genome-wide SNP markers
Andorf et al. Integration of a systems biological network analysis and QTL results for biomass heterosis in Arabidopsis thaliana
US20050009046A1 (en) Identification of haplotype diversity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant