CN113707222A

CN113707222A - 用于预测预定疾病风险的方法、计算设备和存储介质

Info

Publication number: CN113707222A
Application number: CN202110858283.3A
Authority: CN
Inventors: 邢传华; 王湧
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-26

Abstract

本公开涉及一种用于预测预定疾病风险的方法、计算设备和存储介质。该方法包括：生成每个待测样本的多个基因的基因突变数据；获取与每个待测样本相关联的多个非基因数据；经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数；针对每个待测样本，基于每个基因上的基因突变、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数；以及基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以预测待测样本的预定疾病风险。本公开能够针对个体更早、更准确地预测发展为预定疾病的风险。

Description

用于预测预定疾病风险的方法、计算设备和存储介质

技术领域

本公开总体上涉及生物信息处理，并且具体地，涉及用于预测预定疾病风险的方法、计算设备和存储介质。

背景技术

即便在现代医学已经取得长足进步的当下，一些复杂的预定疾病(例如而不限于癌症)依然是导致人类死亡的重要原因之一。癌症源于正常细胞转变为肿瘤细胞的多阶段过程，从癌前病变发展到恶性肿瘤需要一个过程，而临床表现出现较晚的情况很常见。如果能早期发现和治疗预定疾病病例，可以一定程度降低癌症患者的死亡率。因此，预定疾病(例如癌症)风险的早期和准确预测变得尤为重要。

传统的用于早期筛查或者预测预定疾病(例如癌症)的风险的方案主要包括：影像学筛查、内镜筛查、肿瘤标志物筛查以及多基因风险分数(PRS)预测。对于影像学筛查而言，其通常需要肿瘤达到一定尺寸后才能有效检测，因此存在滞后性，另外，影像学筛查所采用的超声、X射线、CT、MRI等测试手段通常会伴随有辐射。对于内镜筛查而言，其所使用的胃镜、结直肠镜、膀胱镜等存在侵入性强、容易引发不适与交叉感染的不足，而且检测范围相对有限。对于肿瘤标志物筛查而言，其存在假阴性率及假阳性率偏高的不足之处。而多基因风险分数(PRS)主要是通过计算多个单核苷酸多态性(SNP)的效应大小加权的得分以计算出风险分数从而鉴别关于预定疾病发生的不同级别的风险。然而，PRS所反映的是遗传风险概率，而对于绝大部分复杂疾病(例如包括癌症)的发生都是遗传和环境等因素(比如吸烟、饮酒、空气污染等等)交互作用的结果，因此仅考虑遗传风险的PRS技术难以准确地预测个体发生预定疾病的风险。

综上，传统的用于预测预定疾病的风险的方案存在侵入性强、明显滞后性、或者准确性较差等不足之处，难以有效实现针对个体更早、更准确地预测发展为预定疾病的风险。

发明内容

本公开提供一种用于预测预定疾病风险的方法、计算设备和计算机存储介质，能够针对个体更早、更准确地预测发展为预定疾病的风险。

根据本公开的第一方面，提供了一种用于预测预定疾病风险的风险的方法。该方法包括：获取多个待测样本的基因测序数据，以便生成每个待测样本的多个基因的基因突变数据；

获取与每个待测样本相关联的多个非基因数据；经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数；针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数；以及基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以基于绝对风险和预定阈值的比较预测待测样本的预定疾病风险。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：至少一个处理单元；至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令当由至少一个处理单元执行时，使得计算设备执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。

在一些实施例中，用于预测预定疾病风险的方法还包括：获取与每个待测样本相关联的多个预定组学数据；以及将所生成的每个待测样本的多个基因的基因突变数据、所获取的多个非基因数据和多个预定组学数据进行归一化处理，以用于确定基因突变、非基因数据和预定组学数据每个待测样本的表型的协同影响。

在一些实施例中，确定用于指示突变和非基因数据对每个待测样本的表型的影响的权重函数包括：基于序列核关联性检验算法，确定多个稀有变异与多个稀有变异针对每个待测样本的表型的协同影响的权重函数。

在一些实施例中，基于绝对风险和预定阈值的比较预测待测样本的预定疾病风险包括：基于关于待测样本的风险分数、风险因素分布数据、预定年龄的目标人群发生预定疾病的发病率和死亡率，计算待测样本的所属对象在预定时间段内发生预定疾病的绝对风险；确定绝对风险是否大于或者等于预定阈值；响应于确定绝对风险大于或者等于预定阈值，确定待测样本的所属对象满足关于预定疾病的高风险条件；以及响应于确定绝对风险小于预定阈值，确定待测样本的所属对象不满足关于预定疾病的高风险条件。

在一些实施例中，计算待测样本的所属对象发生预定疾病的风险分数包括：基于每个基因上的基因突变数据与对应基因突变权重的加权和、非基因数据与对应非基因数据权重的乘积、预定组学数据与对应组学数据权重的乘积，计算待测样本的所属对象发生预定疾病的风险分数。

在一些实施例中，非基因数据是基于与待测样本相关联的微生物数据、细胞数据、临床信息、免疫标志物信息、待测样本的所属对象的目标区域的图像数据中的至少一项而生成。

在一些实施例中，预定组学数据包括转录组学数据、蛋白组学数据和代谢组学数据中的至少一种组学数据。

在一些实施例中，针对每个非基因数据，叠加每个基因所对应的非基因数据子权重，以便生成每个非基因数据的对应非基因数据权重；以及针对每个预定组学数据，叠加每个基因所对应的组学数据子权重，以便生成每个预定组学数据的对应组学数据权重。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于预测预定疾病风险的方法的系统的示意图。

图2示出了根据本公开的实施例的用于预测预定疾病风险的方法的流程图。

图3示出了根据本公开的实施例的用于确定基因突变、所获取的多个非基因数据和多个预定组学数据与表型效应影响的方法的流程图。

图4示出了根据本公开的实施例的用于预测待测样本的预定疾病风险的方法的流程图。

图5示出了根据本公开的实施例的用于比较绝对风险与预定阈值的方法的示意图。

图6示意性示出了适于用来实现本公开实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文提及，传统的用于早期筛查或者预测预定疾病(例如而不限于癌症)的风险的方案主要包括：影像学筛查、内镜筛查、肿瘤标志物筛查以及多基因风险分数(PRS)预测。上述方法存在侵入性强、明显滞后性、或者准确性较差等不足之处，因此，传统的用于早期筛查或者预测预定疾病的风险的方案难以实现针对个体更早、更准确地预测发展为预定疾病的风险。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于预测预定疾病风险的方案。在该方案中，通过基于基因测序数据生成关于待测样本的多个基因的基因突变数据，以及获取与待测样本相关联的多个非基因数据；然后经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数。本公开可以获取基因突变数据和非基因数据等不同数据源对待测样本表型的协同影响。另外，本公开通过针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和它们的对应权重，计算待测样本的所属对象发生预定疾病的风险分数；以及基于所计算的关于待测样本的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以预测预测待测样本的预定疾病风险，本公开能够突破单基因维度的风险预测，而是基于系统医学原理，通过模型算法集合多基因、多非基因因子等多源信息，最大化捕捉预定疾病信号。应当理解，预定疾病的发生是通过多基因和多种致病因子联合作用，以及经过多个阶段的发生发展产生的。预定疾病在早期发生的时候，弱小的预定疾病信号可能发生在身体的各个不同部分，体现在不同的数据源中。因而，本公开上述方法能够针对待测对象个体更早、更准确地预测发展为预定疾病的风险。

图1示出了根据本公开的实施例的用于预测预定疾病风险的方法的系统100的示意图。如图1所示，系统100例如包括计算设备110、测序设备130、服务器140、用户终端150和网络160。计算设备110可以通过网络160以有线或者无线的方式与计算设备110、测序设备130、服务器140、用户终端150进行数据交互。

计算设备110，例如是生信服务器，其用于预测预定疾病风险。具体而言，计算设备110可以获取例如来自测序设备130的多个待测样本的基因测序数据，获取例如来自服务器140和用户终端150的与每个待测样本相关联的多个非基因数据和预定组学数据。计算设备110还可以基于所获取的基因测序数据生成每个待测样本的多个基因的基因突变数据；以及经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数；以及针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数。计算设备110还可以基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以预测待测样本的预定疾病风险。

在一些实施例中，计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。

计算设备110例如包括基因突变数据生成单元112、非基因数据获取单元114、权重函数确定单元116、待测样本风险分数计算单元118、预定疾病风险预测单元120。上述基因突变数据生成单元112、非基因数据获取单元114、权重函数确定单元116、待测样本风险分数计算单元118、预定疾病风险预测单元120可以配置在一个或者多个计算设备110上。

关于基因突变数据生成单元112，其用于获取关于多个待测样本的基因测序数据，以便生成每个待测样本的多个基因的基因突变数据。

关于非基因数据获取单元114，其用于获取与每个待测样本相关联的多个非基因数据。

关于权重函数确定单元116，其用于经由回归算法，确定用于指示基因突变数据和非基因数据对每个待测样本的表型的影响的权重函数。

关于待测样本风险分数计算单元118，其用于针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数。

关于预定疾病风险预测单元120，其用于基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以基于绝对风险和预定阈值的比较预测待测样本的预定疾病风险。

关于测序设备130，其用于基于待测对象的待测样本(例如血液样本或者组织样本)进行基因测序，以便基于测序结果生成关于多个待测样本的基因测序数据，并将所生成的基因测序数据发送至计算设备110。

服务器140例如而不限于是医疗机构的服务器，其可以将关于用户的非基因数据(例如，与待测样本相关联的微生物数据、细胞数据、临床信息、免疫标志物信息、待测样本的所属对象的目标区域的图像数据中的至少一项而生成)和预定组学数据(转录组学数据、蛋白组学数据和代谢组学数据中的至少一种组学数据)发送给发送至计算设备110。

用户终端例如可以将用户的部分非基因数据，例如年龄、性别、预定疾病家族史等信息发送给计算设备110。

以下将结合图2描述根据本公开的实施例的用于预测预定疾病风险的方法。图2示出了根据本公开的实施例的用于预测预定疾病风险的方法200的流程图。应当理解，方法200例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备110获取关于多个待测样本的基因测序数据，以便生成每个待测样本的多个基因的基因突变数据。

关于多个待测样本(例如组织样本或者血液样本)的基因测序数据例如是基于高通量测序(high-throughput sequencing)而生成的。

生成每个待测样本的多个基因的基因突变数据的方法例如包括，针对所获取的基因测序数据进行数据预处理、数据比对及质控、变异识别和变异注释。肿瘤基因突变类型包括点突变、插入、缺失、基因重排、拷贝数异常等基因突变。

基因测序数据进行质量控制的方法例如包括：基于碱基识别质量值(Base CallQuality scores)、过滤后有效Reads数、有效测序深度等进行质量控制。在一些实施例中，为提高生成基因突变的质量，可以重复两次突变生成。例如，第一次生成基因突变数据后，针对单位点，插入和删除突变进行了提取，过滤和基本质量分数的核查。再次生成的基因突变数据用于预测预定疾病风险。

在步骤204处，计算设备110获取与每个待测样本相关联的多个非基因数据。在一些实施例中，计算设备110除了获取与每个待测样本相关联的多个非基因数据，还获取与每个待测样本相关联的预定组学数据。非基因数据例如是基于与待测样本相关联的微生物数据、细胞数据、临床信息、免疫标志物信息、待测样本的所属对象的目标区域的图像数据中的至少一项而生成。

在步骤206处，计算设备110经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数。

应当理解，预定疾病(例如癌症)的发生，通常是由遗传因素和环境因素共同作用的结果。以下结合公式(1)说明代表用于确定多个基因变异和非基因数据对于样本表型的关联性影响的回归模型。该回归模型例如是逻辑回归模型。

logit(Y_i＝1)＝τS_i+γ^TZ_i (1)

在上述公式(1)中，i代表第i个样本，i＝1,...,n。S_i代表加权基因变异数据G_i的线性组合。S_i＝ξ^TG_i。ξ代表权重，其是一个m×1的权重向量，即ξ＝(ξ₁,...,ξ_m)^T。G_i代表第i个样本上的观察到的基因突变，其可以是稀有基因突变，其也可以是常见基因突变。G_ij代表第i个样本上的第j个基因突变。j＝1,...J。τ代表系数，其为常数。γ^T代表与第i个样本的非基因数据Z_i相关联的回归系数向量。Z_i代表与第i个样本相关联的非基因数据，Z_ij代表第i个样本上j个非基因数据。

以下结合公式(2)至(5)来说明用于确定权重函数的方法。在零假设H₀:τ＝0的情况下，分数统计可以表达为。

在上述公式(2)中，

代表采用γ的有约束的最大似然估计。U代表分数统计。通过求解如下公式(3)，U的方差可以利用以下公式(4)和(5)来估计。

在零假设的情况下，测试统计T＝U/V^1/2近似遵循标准正态分布。

在一些实施例中，确定用于指示突变数据针对表型的影响的权重函数的方法例如包括：基于序列核关联性检验算法，确定多个稀有变异与多个稀有变异针对每个待测样本的表型的协同影响的权重函数。

应当理解，传统的全基因组关联研究(genome-wide association studies)通常识别与预定疾病(例如复杂疾病)相关联的常见变异(常见变异例如是MAF大于5％的基因变异)，但是遗漏了稀有变异(稀有变异例如而不限于是MAF小于或者等于5％或者1％的基因变异)对于复杂疾病的影响。这主要是因为GWAS是基于混合线性模型对基因变异进行逐个检验，然而由于稀有变异单个变异出现频率很低，因此，该GWAS对稀有变异的检测效力较低。研究表明，稀有变异与常见变异共同作用于待测样本的表型，并且与非基因数据存在关联作用。

关于序列核关联性检验(sequence kernel association test，SKAT)，其是方差组分检验的一种。SKAT假设每个基因分型的回归系数服从平均值为0、方差为w_jτ的任意分布(w_j是预先给定的变异j的权重，τ是方差组分)。

零假设时，τ＝0。可以使用方差组分分数检验。对应的方差组分分数统计可以表达为以下公式(6)所示方式。

在上述公式(6)中，K＝GWG′,其代表加权线性函数，表示个体间的遗传相似性。G是一个n×p的矩阵，(i,j)位置的值是基因突变j在样本i上的值，W＝diag(ξ₁,...，ξ_m)包含m个突变位点的权重。

是零假设下的y的预估平均值。在零假设下，对于预定疾病患者，

如果对于连续性的值的y，

和

都是在零假设的情况下通过回归模型估计来的。在零假设的情况下，Q满足一个混合的卡方分布，可以用计算有效的Davies方法计算。ξ_m是预先给定的变异m的权重，其反映了变异m对方差组分分数统计的相对贡献。

序列核关联性检验可以从贝塔分布中抽取权重值。以下结合公式(7)说明权重值ξ_m的计算方式。

在上述公式(7)中，a1,a2为根据预先经验而确定的。序列核关联性检验算法中，默认a1＝1且a2＝25。例如，稀有变异的权重且低频变异(1％<MAF<5％)。则可以确定与稀有变异对应的基因变异权重。

通过采用上述手段，本公开能够综合考虑常见变异和稀有变异对预定疾病风险的影响，因此，能够更为准确地预测预定疾病风险。而且，通过采用SKAT，本公开可直接拟合调整非基因数据时的表型与基因内基因变异数据(包括常见变异和稀有变异)的关系，因而能够显著提高用于确定稀有变异、常见变异针对表型的协同影响的方法的效能。

在步骤208处，计算设备110针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数。

关于计算待测样本的所属对象发生预定疾病的风险分数的方法，其例如包括：基于每个基因上的基因突变数据与对应基因突变权重的加权和、非基因数据与对应非基因数据权重的乘积、预定组学数据与对应组学数据权重的乘积，计算待测样本的所属对象发生预定疾病的风险分数。应当理解，预定疾病的发生是通过多基因和多种致病因子联合作用，经过多个阶段的发生发展产生的。其中基因信息在不同状态表现为基因组学，转录组学，蛋白组学和代谢组学等。通过在在计算待测样本的风险数据时，不仅考虑测序技术中的多基因突变以及非基因数据对预定疾病风险的联合影响，而且还同时考虑多基因突变、非基因因子与其他预定组学数据对预定疾病风险的联合影响，藉此，利于更为准确地预测预定疾病的风险。

以下结合公式(8)说明用于计算待测样本的风险数据的算法。假设共有n个样本，q个非基因数据，L个基因，基因l(l＝1，...，L)上有p_l个突变点。

MRS＝α₀+α′₁G_i1+α′₂G_i2+…+α′_LG_iL+β′X_i+γ′Z_i+∈_i, (8)

在上述公式(8)中，α₀代表截距，

代表关于第l个基因的基因突变权重。例如，第l个基因上发现p_l个基因突变。G_ij代表第i个样本上的第j个基因突变。β＝[β₁，...,β_q]′代表非基因数据权重。X_i代表与第i个样本相关联的非基因数据。γ＝[γ₁,...γ_m]′代表与第i个样本相关联的组学数据权重。Z_ij代表第i个样本上j个非基因数据。MRS代表关于待测样本的发生预定疾病的风险分数。MRS是基于多基因、多非基因数据和多组学的关于预定疾病的风险分数。

以下结合公式(9)说明关于非基因数据权重β＝[β₁,...,β_q]′的计算方式。

在上述公式(9)中，q代表非基因数据的个数。

代表与第q个非基因数据的对应非基因数据权重。该对应非基因数据权重β_q是经由针对每个非基因数据，叠加每个基因所对应的非基因数据子权重而生成的。应当理解，例如q个非基因数据(例如年龄、预定疾病家族史、微生物数据、临床信息、免疫标志物信息、待测样本的所属对象的目标区域的图像数据等)对于每个待测样本的所属对象均是一样的。但是，在针对L个基因中的每个基因，在考虑其协数据(非基因数据)的影响时，产生了不同的非基因数据权重，因此，针对L个基因的非基因数据权重进行叠加，以生成q个非基因数据相关联的q个非基因数据权重。

以下结合公式(10)说明关于组学数据权重γ＝[γ₁,...γ_m]′的计算方式。

在上述公式(10)中，m代表预定组学数据的个数。

代表第m个预定组学数据的对应组学数据权重。该组学数据权重γ_m是经由针对待测样本的L个基因叠加每个基因所对应的组学数据子权重而生成的。

在步骤210处，计算设备110基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以基于绝对风险和预定阈值的比较预测待测样本的预定疾病风险。

关于绝对风险(absolute risk)，其指示具备某特定风险因素集(其包括基因变异数据、非基因数据以及它们的相互作用项)的待测样本的所属对象在预定年龄时未发生预定疾病而在预定时间段内发生该预定疾病的概率。

关于预定时间段，其例如是5年、10年、15年或者一生(即，待测样本所属对象的生存期间)。

关于用于预测待测样本的预定疾病风险的方法，其例如包括：基于关于待测样本的风险分数、风险因素分布数据、预定年龄的目标人群发生预定疾病的发病率和死亡率，计算待测样本的所属对象在预定时间段内发生预定疾病的绝对风险；确定绝对风险是否大于或者等于预定阈值；响应于确定绝对风险大于或者等于预定阈值，确定待测样本的所属对象满足关于预定疾病的高风险条件；以及响应于确定绝对风险小于预定阈值，确定待测样本的所属对象不满足关于预定疾病的高风险条件。下文将结合图4说明用于预测待测样本的预定疾病风险的方法，在此，不再赘述。

在上述方案中，通过基于基因测序数据生成关于待测样本的多个基因的基因突变数据，以及获取与待测样本相关联的多个非基因数据；然后经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数。本公开可以获取基因突变数据和非基因数据等不同数据源对待测样本表型的协同影响。另外，本公开通过针对每个待测样本，基于每个基因上的基因突变、非基因数据和它们的对应权重，计算待测样本的所属对象发生预定疾病的风险分数；以及基于所计算的关于待测样本的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以预测预测待测样本的预定疾病风险，本公开能够突破单基因维度的风险预测，而是基于系统医学原理，通过模型算法集合多基因、多非基因因子等多源信息，最大化捕捉预定疾病信号。应当理解，预定疾病的发生是通过多基因和多种致病因子联合作用，以及经过多个阶段的发生发展产生的。预定疾病在早期发生的时候，弱小的预定疾病信号可能发生在身体的各个不同部分，体现在不同的数据源中。因而，本公开上述方法能够针对待测对象个体更早、更准确地预测发展为预定疾病的风险。

以下将结合图3描述根据本公开的实施例的用于确定多基因、多非基因数据、多组学数据与表型效应影响的方法300。图3示出了根据本公开的实施例的用于确定基因突变数据、所获取的多个非基因数据和多个预定组学数据与表型效应影响的方法300的流程图。应当理解，方法300例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤302处，计算设备110获取与每个待测样本相关联的多个预定组学数据。预定组学数据例如而不限于包括：转录组学数据，蛋白组学数据和代谢组学数据中的至少一种组学数据。

在步骤304处，计算设备110将所生成的每个待测样本的多个基因的基因突变数据、所获取的多个非基因数据和多个预定组学数据进行归一化处理，用以确定基因突变、非基因数据和预定组学数据每个待测样本的表型的协同影响。通过采用上述技术手段，本公开能够通过多基因和多非基因风险和多组态数据等多种致病因子联合作用，针对待测对象个体更早、更准确地预测发展为预定疾病的风险。

以下将结合图4和图5描述根据本公开的实施例的用于预测在预定时间段内发生疾病的风险的方法图4示出了根据本公开的实施例的用于预测待测样本的预定疾病风险的方法400的流程图。图5示出了根据本公开的实施例的用于比较在绝对风险与预定阈值的方法500的示意图。应当理解，方法400例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤402处，计算设备110基于关于待测样本的风险分数、风险因素分布数据、预定年龄的目标人群发生预定疾病的发病率和死亡率，计算待测样本的所属对象在预定时间段内发生预定疾病的绝对风险。

以下结合公式(11)说明用于预测特定年龄发病率的方法。

在上述公式(11)中，I(a|Z)代表预定年龄a发生疾病的概率。a代表预定年龄。Z＝(Z₁,…,Z_k)代表风险因素，其包括基因变异(例如，遗传风险因素)、非基因数据(例如，环境风险因素)以及它们的相互作用项。在一些实施例中，风险因素还包括预定组学数据。

代表关于待测样本的风险分数。I₀(a)代表预定年龄的目标人群发生预定疾病的平均基准风险(average baseline hazard)，其例如指示同性别同年龄的目标人群发生预定疾病结局的平均风险水平。Ea代表风险因素分布数据，其通常需要根据风险因素Z在无病基础人群(到年龄a未死于其他原因)中的分布来计算。

以下结合公式(12)说明用于确定预定时间段内的绝对风险的方法。

在上述公式(12)中，m(v|Z)代表由于其他原因而造成的预定年龄的死亡率。u代表给定年龄，在该给定年龄假设待测对象仍然没有预定疾病，并且在给定年龄之前不会因其他原因死亡。R_a,a+s代表待测对象当前年龄a将在预定时间段[a,s+a]内发展为疾病的绝对风险。预定时间段内的绝对风险由在预定时间段内所有给定年龄u发生疾病的概率之和所确定。

在步骤404处，计算设备110确定绝对风险是否大于或者等于预定阈值。

如图5所示，标记510指示关于待测样本的风险分数小于1％的25至70岁之间的女性10年内发生乳腺癌的绝对风险曲线。标记512指示关于待测样本的风险分数为1-5％的10年内发生乳腺癌的绝对风险曲线。标记514指示关于待测样本的风险分数为5-10％的10年内发生乳腺癌的绝对风险曲线。标记516指示关于待测样本的风险分数为10-20％的10年内发生乳腺癌的绝对风险曲线。标记518指示关于待测样本的风险分数为20-40％的10年内发生乳腺癌的绝对风险曲线。标记520指示关于待测样本的风险分数为40-60％的10年内发生乳腺癌的绝对风险曲线。标记522指示关于待测样本的风险分数为10-20％的10年内发生乳腺癌的绝对风险曲线。标记524指示关于待测样本的风险分数为80-90％的10年内发生乳腺癌的绝对风险曲线。标记526指示关于待测样本的风险分数为90-95％的10年内发生乳腺癌的绝对风险曲线。标记528指示关于待测样本的风险分数为95-99％的10年内发生乳腺癌的绝对风险曲线。标记530指示关于待测样本的风险分数为大于99％的10年内发生乳腺癌的绝对风险曲线。标记540指示预定阈值。该预定阈值例如为2.6％。

在步骤406处，如果计算设备110确定绝对风险大于或者等于预定阈值，确定待测样本的所属对象满足关于预定疾病的高风险条件。例如，如果确定所计算的待测样本的所属对象的10年内发生乳腺癌的绝对风险大于2.6％，则确定发生预定疾病的风险为高。

在步骤408处，如果计算设备110确定绝对风险小于预定阈值，确定待测样本的所属对象不满足关于预定疾病的高风险条件。即，如果确定所计算的待测样本的所属对象的10年内发生乳腺癌的绝对风险小于2.6％，则确定发生预定疾病的风险为低。

图5指示了不同年龄的10年乳腺癌绝对风险，并指示了处于不同的关于待测样本的风险分数水平的女性达到预定阈值(例如为2.6％)的年龄。

图6示意性示出了适于用来实现本公开实施例的电子设备600的框图。设备600可以是用于实现执行图2、图3和图4所示的方法200、300和400的设备。如图6所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可存储设备600操作所需的各种程序和数据。CPU、ROM以及RAM通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608，中央处理单元601执行上文所描述的各个方法和处理，例如执行方法200、300和400。例如，在一些实施例中，方法200、300和400可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法200、300和400的一个或多个操作。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300和400的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上该仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于预测预定疾病风险的方法，包括：

获取多个待测样本的基因测序数据，以便生成每个待测样本的多个基因的基因突变数据；

获取与每个待测样本相关联的多个非基因数据；

经由回归算法，确定用于指示基因突变和非基因数据对每个待测样本的表型的影响的权重函数；

针对每个待测样本，基于每个基因上的基因突变数据、非基因数据和对应权重，计算待测样本的所属对象发生预定疾病的风险分数；以及

基于所计算的待测样本的所属对象发生预定疾病的风险分数，确定所属对象在预定时间内发生预定疾病的绝对风险，用以基于所述绝对风险和预定阈值的比较预测待测样本的预定疾病风险。

2.根据权利要求1所述的方法，还包括：

获取与每个待测样本相关联的多个预定组学数据；以及

将所生成的每个待测样本的多个基因的基因突变数据、所获取的多个非基因数据和多个预定组学数据进行归一化处理，用以确定基因突变、非基因数据和预定组学数据对每个待测样本的表型的协同影响。

3.根据权利要求1所述的方法，其中确定用于指示突变和非基因数据对每个待测样本的表型的影响的权重函数包括：

基于序列核关联性检验算法，确定多个稀有变异与多个稀有变异针对每个待测样本的表型的协同影响的权重函数。

4.根据权利要求1所述的方法，其中基于所述绝对风险和预定阈值的比较预测待测样本的预定疾病风险包括：

基于关于待测样本的风险分数、风险因素分布数据、预定年龄的目标人群发生预定疾病的发病率和死亡率，计算待测样本的所属对象在预定时间段内发生预定疾病的绝对风险；

确定所述绝对风险是否大于或者等于预定阈值；

响应于确定所述绝对风险大于或者等于预定阈值，确定待测样本的所属对象满足关于预定疾病的高风险条件；以及

响应于确定所述绝对风险小于预定阈值，确定待测样本的所属对象不满足关于预定疾病的高风险条件。

5.根据权利要求2所述的方法，其中计算待测样本的所属对象发生预定疾病的风险分数包括：

基于每个基因上的基因突变数据与对应基因突变权重的加权和、非基因数据与对应非基因数据权重的乘积、预定组学数据与对应组学数据权重的乘积，计算待测样本的所属对象发生预定疾病的风险分数。

6.根据权利要求1所述的方法，所述非基因数据是基于与所述待测样本相关联的微生物数据、细胞数据、临床信息、免疫标志物信息、待测样本的所属对象的目标区域的图像数据中的至少一项而生成。

7.根据权利要求2所述的方法，所述预定组学数据包括转录组学数据、蛋白组学数据和代谢组学数据中的至少一种组学数据。

8.根据权利要求5所述的方法，还包括：

针对每个非基因数据，叠加每个基因所对应的非基因数据子权重，以便生成每个非基因数据的对应非基因数据权重；以及

针对每个预定组学数据，叠加每个基因所对应的组学数据子权重，以便生成每个预定组学数据的对应组学数据权重。

9.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述计算设备执行根据权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行根据权利要求1至8中任一项所述的方法。