CN109074428A

CN109074428A - 计算机实现的针对群体的药物安全性评估

Info

Publication number: CN109074428A
Application number: CN201680081365.9A
Authority: CN
Inventors: 李桂花; 保罗·J·帕克
Original assignee: As Co
Current assignee: As Co; Cipherome Inc
Priority date: 2015-12-12
Filing date: 2016-12-12
Publication date: 2018-12-21
Also published as: KR20180124840A; US20170357751A1; JP2019505934A; EP3387570A1; WO2017100794A1

Abstract

一种计算机实现的药物评估方法和系统提供用于通过执行与群体内的个体的基因序列变异信息相关联的特定计算来评估药物或药物组的安全性。该系统计算群体内的个体的各种得分，并在确定药物对整个群体的安全性时最终将所述得分组合起来。药物评估方法和系统可以进一步配置成识别对药物或药物组具有高风险副作用的个体。药物评估基于基因序列变异信息来提供通用药物安全性信息，而无需针对每种药物识别特定的遗传标记。

Description

计算机实现的针对群体的药物安全性评估

相关申请的交叉引用

本申请要求于2015年12月12日提交的美国临时申请第62/266,578号的权益，该申请的全部内容通过引用并入本文中。

技术领域

本发明总体上涉及计算机实现的药物安全性评估，更具体地涉及计算机实现的对整个一群个体的药物安全性的评估。

背景技术

临床研究通常在假设以下情况下进行：群体中在与对药物的吸收、代谢、作用和排泄相关联的基因方面，不存在显著变化。结果，在涉及2000至3000名受试者的小规模临床研究中，具有高药物遗传学风险的亚群可能代表人数不足，而且药物的所有副作用并非都是通过临床研究被发现的。事实上，存在许多药物，其曾在市场上被发布，但后来由于通过临床研究未被发现的副作用而被撤回。以前，在进行或分析临床研究时，通常尚未发现高风险亚群。

遗传分析能够预测对药物或化学品的反应。例如，遗传差异(例如，涉及药物代谢的酶的遗传多态性)与许多药物的功效或副作用相关联。药物的功效或副作用在个体之间可能是不同的，这是因为取决于个体的特定遗传变异，药物代谢可能会更慢或更快。

研究人员已经开展了这方面的研究，以确定与遗传变异相关联的药物反应，并且确定要治疗的疾病的严重程度、药物-药物相互作用，还有患者的年龄、营养状况和肝/肾功能，以及患者的环境因素例如气候或食物。例如，研究人员已经通过评估选择候选基因对患者对药物反应的多态性的影响，研究了某些药物在慢性病患者中的疗效。此外，已经完成了关于例如用单核苷酸多态性(SNP)作为标记物的基因组信息与药物反应/副作用等之间的相互关系的基于药物遗传学或基于药物基因组学的研究。

然而，很难找到能够预测对每种药物的反应的针对每种药物的这种遗传标记物。对药物的反应通常是由于个体的基因组序列的遗传变异、药物和难以控制或识别的各种其他因素之间复杂的相互作用。与相关基因的较大变异性相关联的药物更可能引起多种药物反应。除了基于使用例如单核苷酸多态性的标记物对群体的观察性研究的方法之外，先前的工作不提供针对各种亚群的有用且可靠的药物信息。

发明内容

计算机实现的药物安全性评估用于在不需要识别遗传标记物的情况下预测药物的安全性。药物安全性评估系统通过分析个体的基因序列变异信息来推断蛋白质损伤。在一些实施方式中，该系统基于此来计算个体的药物安全性得分。评估系统还提供了通过分析给定群体内的每个个体的基因序列变异信息和个体药物安全性得分来评估药物安全性的方法。此外，在一些实施方式中，系统计算指示群体的药物安全性的群体药物安全性得分。因此，该系统能够在不需要识别遗传标记物的情况下预测对药物的群体反应。它还能够预测对药物具有副作用的高风险的亚群。

本发明的评价方法和系统适用于可以获得关于药物的代谢、作用、副作用等的药效学或药代动力学中涉及的蛋白质信息的全系列药物。对于传统的药物基因组学研究，要求对每个药物-基因对进行研究，但实际上不可能研究所有众多的药物-基因对，因为对的数目与药物数目和基因标记物数目的乘积成比例地增加。因此，这些常规研究不能提供足够的数据，并且由于研究对象的选择和群体组之间的差异而导致高统计误差。相反，这里描述的评估系统和方法可与直接应用于定制药物治疗，因此可以获得几乎所有药物-基因对的数据。此外，该方法可以通过在计算群体药物安全性得分和个体药物安全性得分分布曲线时应用群体组之间的差异来被应用。

本发明的一些实施方式涉及用于评估药物的安全性的计算机实现的方法，包括以下步骤：(1)由评估系统获得群体内的多个个体中的每个个体的基因序列变异信息，其中，基因序列变异信息与和药物的药效学或药代动力学相关联的一个或更多个基因有关；(2)由评估系统使用基因序列变异信息来计算群体内的多个个体中的每个个体的蛋白质损伤得分；(3)由评估系统基于蛋白质损伤得分来计算群体内的多个个体中的每个个体的个体药物安全性得分，以生成一组个体药物安全性得分；以及(4)由评估系统基于该组个体药物安全性得分来确定该群体的药物的安全性。

在一些实施方式中，确定药物的安全性的步骤包括：获得表示该组个体药物安全性得分的曲线。在一些实施方式中，该步骤还包括：计算曲线下面积(AUC)、标准化曲线下面积(S-AUC)、曲线上面积(AUPC)或标准化曲线上面积(S-AUPC)。

在一些实施方式中，用于评估药物的安全性的方法还包括使用以下等式计算群体药物安全性得分的步骤：

其中，Sp是该群体的群体药物安全性得分，d1至dn是群体内的第i(从1到n)个个体的个体药物安全性得分，AUC_d是药物d的曲线下面积，AUPC_d是药物d的曲线上面积，N或n是群体内的个体的数目。

在一些实施方式中，确定药物的安全性的步骤包括：识别具有低于或高于阈值的个体药物安全性得分的个体。在一些实施方式中，阈值(T)通过以下等式来计算：

其中，T是满足0<T<1的有理数，di是群体内第i(从1到n)个个体的个体药物安全性得分，n是群体内的个体的数目，κ是非零有理数，并且μ是(i)该组个体药物安全性得分的平均值或(ii)该组个体药物安全性得分的曲线下面积。

在一些实施方式中，基于曲线的形状来确定阈值(T)。在一些实施方式中，基于曲线的斜率的变化来计算阈值(T)。在一些实施方式中，通过将曲线与和具有相似药效学或药代动力学的不同药物或先前识别为不安全的不同药物的对应的不同曲线进行比较来确定阈值(T)。

在一些实施方式中，阈值(T)的范围是：从0.1至0.5、从0.2至0.4从0.25至0.35或者为0.3。在一些实施方式中，用于评估药物的安全性的方法还包括提供具有低于阈值或高于阈值的个体药物安全性得分的个体的列表的步骤。

在一些实施方式中，确定药物的安全性的步骤还包括：计算群体内的具有低于阈值的个体药物安全性得分的个体的数目或比率。在一些实施方式中，该方法还包括计算群体的群体药物安全性得分的步骤，其中，群体药物安全性得分与群体内的具有低于阈值的药物安全性得分的个体的数目或比率有关。

在一些实施方式中，确定药物的安全性的步骤包括：计算群体内的多个个体的个体药物安全性得分的平均值，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均(Pythagorean mean)、希罗平均(Heronian mean)、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均(winsorized mean)、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法、加权乘法或其组合构成的组的一种或更多种算法来计算平均值。

在一些实施方式中，评估药物的安全性的方法还包括提供通过由等式计算的群体的群体药物安全性得分的步骤：

其中，Sd是群体药物安全性得分，di或d1至dn是群体内的个体(从1到n)的个体药物安全性得分，并且n是针对其获得个体药物安全性得分的群体内的个体的数目。

在一些实施方式中，基因序列变异信息是与基因外显子内的核苷酸的取代、添加或缺失有关的信息。在一些实施方式中，核苷酸的取代、添加或缺失是由染色体的断裂、缺失、复制、倒位或易位引起的。

在一些实施方式中，评估药物的安全性的方法还包括使用选自由SIFT(耐受与不耐受分选(Sorting Intolerant From Tolerant))、PolyPhen、PolyPhen-2(多态性表型分型)、MAPP(蛋白质多态性的多变量分析)、Logre(Log R Pfam E值)、突变评估器、Condel、GERP(基因组进化速率分析)、CADD(组合注释依赖性消耗)、MutationTaster、MutationTaster2、PROVEAN、PMuit、CEO(组合熵优化)、SNPeffect、fathmm、MSRV(多选规则投票)、Align-GVGD、DANN、Eigen、KGGSeq、LRT(似然比检验)、MetaLR、MetaSVM、MutPred、PANTHER、Parepro、phastCons、PhD-SNP、phyloP、PON-P、PON-P2、SiPhy、SNAP、SNPs&GO、VEP(变异效应预测器)、VEST(变异效应评分工具)、SNAP2、CAROL、PaPI、Grantham、SInBaD、VAAST、REVEL、CHASM(体细胞突变的特定于癌症的高通量注释)、mCluster、nsSNPAnayzer、SAAPpred、HanSa、CanPredict、FIS和BONGO(图上联接(Bonds ON Graphs))构成的组的一种或更多种算法从基因序列变异信息中获得基因序列变异得分的步骤。

在一些实施方式中，基因序列变异得分用于计算蛋白质损伤得分或个体药物安全性得分。

在一些实施方式中，评估药物的安全性的方法还包括从基因序列变异信息中获得多个基因序列变异得分的步骤，其中，基因序列变异信息涉及取代、添加或删除基因内的多个核苷酸。在一些实施方式中，蛋白质损伤得分被计算为多个基因序列变异得分的平均值。在一些实施方式中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均(Pythagorean mean)、希罗平均(Heronian mean)、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均(winsorizedmean)、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法和加权乘法构成的组的一种或更多种算法来计算平均值。

在一些实施方式中，蛋白质损伤得分通过以下等式来计算：

其中，Sg是由基因g编码的蛋白质的蛋白质损伤得分，n是与多个基因序列变异得分对应的多个核苷酸的数目，vi是与第i个基因序列变异对应的基因序列变异得分，并且p是非零实数。

在一些实施方式中，蛋白质损伤得分通过以下等式来计算：

其中，Sg是由基因g编码的蛋白质的蛋白质损伤得分，n是与多个基因序列变异得分对应的多个核苷酸的数目，vi是与第i个基因序列变异对应的基因序列变异得分，并且wi是分配给第i个基因序列变异的基因序列变异得分vi的权重。

在一些实施方式中，评估安全性的方法还包括获得蛋白质损伤得分的步骤，其中，蛋白质损伤得分中的每个对应于药物的药效学或药代动力学所涉及的多种蛋白质中的每一种。在一些实施方式中，个体药物安全性得分被计算为蛋白质损伤得分的平均值。在一些实施方式中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均(Pythagorean mean)、希罗平均(Heronian mean)、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均(winsorizedmean)、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法和加权乘法构成的组的一种或更多种算法来计算平均值。

在一些实施方式中，个体药物安全性得分通过以下等式来计算：

其中，Sd是药物d的个体药物安全性得分，n是药物d的药效学或药代动力学所涉及的按照一种或更多种基因编码的蛋白质的数目，gi是按照药物d的药效学或药代动力学所涉及的一种或更多种基因编码的蛋白质的蛋白质损伤得分，并且p是非零实数。

其中，Sd是药物d的药物得分，n是由药物d的药效学或药代动力学所涉及的一种或更多种基因编码的蛋白质的数目，gi是按照药物d的药效学或药代动力学所涉及的一种或更多种基因编码的蛋白质的蛋白质损伤得分，并且wi是指分配给由药物d的药效学或药代动力学所涉及的一种或更多种基因编码的蛋白质的蛋白质损伤得分gi的权重。

本发明的一些实施方式涉及评估药物组的安全性的计算机实现的方法，包括以下步骤：(1)识别属于药物组的药物；(2)获得每种药物的群体药物安全性得分，从而生成一组群体药物安全性得分，其中，通过上述方法来计算群体药物安全性得分；以及(3)分析该组群体药物安全性得分。

在一些实施方式中，评估药物组的安全性的方法还包括基于分析来确定药物之间的优先顺序的步骤。

在一些实施方式中，分析该组群体药物的安全性得分的步骤包括：计算该组群体药物安全性得分的平均值，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均(Pythagorean mean)、希罗平均(Heronian mean)、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均(winsorized mean)、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法、加权乘法或其组合构成的组的一种或更多种算法来计算平均值。

在一些实施方式中，基于以下来执行识别属于该药物组的药物的步骤：(i)已知的药物分类方法，(ii)已知可由药物治疗的症状，(iii)药物的化学性质，(iv)药物的吸收或排泄机制，或者(v)药物的靶点。

本发明的一些实施方式涉及评估药物对受试者的安全性的方法，包括以下步骤：(1)获得受试者的基因序列变异信息，其中，基因序列变异信息与和药物的药效学或药代动力学相关联的一个或更多个基因相关联；(2)使用基因序列变异信息获得受试者的蛋白质损伤得分；(3)基于蛋白质损伤得分来获得受试者的受试者药物安全性得分；以及(4)通过将受试者药物安全性得分与通过上述任何方法获得的该组个体药物安全性得分进行比较，确定药物对受试者的安全性。

在一些实施方式中，确定药物对受试者的安全性的步骤包括确定在该组个体药物安全性得分内受试药物安全性得分的位置的步骤。

在一些实施方式中，确定药物对受试者的安全性的步骤包括以下步骤：(1)绘制具有该组个体药物安全性得分的曲线；(2)获得曲线下面积(AUC)，标准化曲线下面积(S-AUC)、曲线上面积(AUPC)或标准化曲线上面积(S-AUPC)；以及(3)将受试者药物安全性得分与AUC、S-AUC、AUPC或S-AUPC进行比较。

在一些实施方式中，确定药物对受试者的安全性的步骤包括以下步骤：(1)获得与该组个体药物安全性得分对应的阈值(T)，其中，阈值(T)通过以下等式来计算：

其中，di是群体内的第i(从1到n)个个体的个体药物安全性得分，n是群体内的个体的数目，κ是非零有理数，并且μ是(i)个体药物安全性得分的平均值或(ii)个体药物安全性得分的曲线下面积；以及(2)将受试者药物安全性得分与阈值(T)进行比较。

在一些实施方式中，确定药物对受试者的安全性的步骤包括以下步骤：(1)获得通过以下等式计算的群体的群体药物安全性得分：

其中，Sd是群体的群体药物安全性得分，di是群体内的第i(从1到n)个个体的个体药物安全性得分，并且n是群体内的个体的数目；以及(2)将受试者药物安全性得分与群体药物安全性得分(Sd)进行比较。

在一些实施方式中，评估药物对受试者的安全性的方法还包括基于药物对受试者的安全性来开出药物的处方的步骤。

本发明的一些实施方式还涉及一种包括存储的指令的计算机可读介质，其中，指令在由处理器执行时使处理器执行上述方法中的任何方法。在一些实施方式中，说明书还使处理器提供与药物的安全性、药物组的安全性或者药物对受试者的安全性有关的报告。

本发明的一些实施方式涉及用于评估药物的安全性的系统，包括：(1)上述计算机可读介质；(2)输出单元，其提供与药物的安全性有关的报告。在一些实施方式中，输出单元通过电子邮件、SMS消息传递、网络发布、电话呼叫、电子消息传递、上传或下载来提供报告。在一些实施方式中，该系统还包括数据库，以搜索或检索关于与药物的药效学或药代动力学相关联的一种或更多种基因的信息。

附图说明

图1是根据本发明的示例性实施方式的包括用于使用群体内的个体的基因序列变异来提供药物安全性信息的系统的计算环境的示意图。

图2是图示根据本发明的示例性实施方式的用于使用群体内的个体的基因序列变异来评估药物安全性的各种方法的每个步骤的流程图。

图3示意性地图示了用于计算基因序列变异得分(V_1-13)、与Gene_1-d(S_g(a),S_g(b),S_g(c),S_g(d),…)相对应的蛋白质损伤得分、个体药物安全性得分(S_d(k),S_d(j),…)和群体药物安全性得分(S_p)的方法。图3还描述了通过将个体的药物安全性得分(用于H1的S_d(k)和用于H1的S_d(j))与对应于每种药物的个体药物安全性得分分布曲线进行比较来预测个体的药物安全性的方法。

图4A提供了来自2504个个体(由1000个阶段Ⅲ的基因组计划提供)的个体药物安全性得分的三个分布曲线，每个分布曲线与先前根据DrugBank、UN和EMA从市场撤回的药物相对应。(分别为：用于丙吡胺的具有三角形的顶部线；用于普鲁卡因酰胺的具有圆圈的中间线；以及用于奎尼丁的具有矩形的底部线)

图4B提供了表示用于每种药物的曲线下面积(AUC)的条形图。用于丙吡胺的AUC被测定为1-α，用于普鲁卡因酰胺的AUC被测定为1-(α+β)，并且用于奎尼丁的AUC被测定为1-(α+β+γ)。

图4C提供了具有三个条的图，每个条表示与个体药物安全性得分的分布曲线中的底部30％或70％相对应的个体药物安全性得分。

图5A至图5I提供了基于它们的群体药物安全性得分来呈现各种药物的撤回率的直方图。X轴提供了用于0与1之间的不同范围的群体药物安全性得分的10个得分段，并且y轴提供了与各个得分段相对应的药物的平均撤回率。

图6A至图6F提供了用于瑞舒伐他汀的个体药物安全性得分的分布曲线，每个分布曲线与五个种族组中的一个相对应——图6B用于美国人(AMR)，图6C用于欧洲人(EUR)，图6D用于东亚人(EAS)，图6E用于非洲人(AFR)，图6F用于南亚人(SAS)，并且图6A用于所有五个种族组的组合。图6A中的箭头指示具有以0.3作为个体药物安全性得分的个体的排名。图6B至图6F中的箭头指示在每个种族组内具有相同排名(30)的个体药物安全性得分的个体的个体药物安全性得分。

图7A至图7F提供了通过由WHO提供的解剖学治疗学化学(ACT)分类系统被分类为抗精神病药的六种不同药物的个体药物安全性得分的分布曲线。图7A用于奥沙西泮，图7B用于溴西泮，图7C用于氟地西泮，图7D用于凯他唑仑，图7E用于普拉西泮，并且图7F用于托非索泮。

图8A至图8F提供了通过由WHO提供的解剖学治疗血化学(ACT)分类系统被分类为脂类改性剂的六种不同药物的个体药物安全性得分的分布曲线。图8A用于辛伐他汀，图8B用于氟伐他汀，图8C用于阿托伐他汀，图8D用于普伐他汀，图8E用于瑞舒伐他汀，并且图8F用于匹伐他汀。

附图仅出于说明的目的描绘了本发明的各种实施方式。本领域技术人员将从以下论述中容易地认识到，在不脱离本文中描述的本发明的原理的情况下，可以采用本文中图示的结构和方法的替选实施方式。

6.具体实施方式

6.1.定义

除非另有定义，否则本文中使用的所有技术和科学术语具有由本发明所属领域的技术人员通常理解的含义。如本文中使用的，以下术语具有以下所赋予的含义。

本发明中使用的术语“药代动力学(PK)或药代动力学参数”指的是涉及药物在特定时间段内在体内的吸收、迁移、分配、转化和排泄的药物的特性，并且包括药物的分布容积(Vd)、清除率(CL)、生物利用度(F)和吸收率系数(k_a)，或者最大血浆浓度(C_max)、最大血浆浓度的时间点(T_max)、关于特定时间段内血浆浓度的变化的曲线下面积(AUC)等。本发明中使用的术语“药代动力学或药代动力学参数”指的是涉及药物关于身体及其机制的生理和生化行为的特性——即，由药物引起的身体的反应或作用。

本发明中使用的术语“药物的酶蛋白的药代动力学参数”包括V_max、K_m、K_cat/K_m等。当基质浓度非常高时，V_max是最大酶反应速率，并且K_m是导致反应达到1/2V_max的基质浓度。K_m可以被认为是相应酶与相应基质之间的亲和性。随着K_m降低，相应酶与相应基质之间的结合力减小。K_cat——其被称为酶的转换数——指的是当酶以最大速率被活化时在每个酶活性位点中1秒内被代谢的基质分子的数目，并且意指酶反应实际发生得有多快。

在本发明中使用的术语“序列变异信息”指的是与在基因中的核苷酸的取代、添加或缺失有关的信息。取代、添加或缺失可以位于基因的外显子或内含子、或其他调节序列中。

在本发明中使用的术语“基因序列变异得分”指的是个体基因序列变异的程度的数字得分，当基因序列变异在对蛋白质进行编码的基因的外显子区域被发现时，引起由基因编码的蛋白质的氨基酸序列变异(取代、添加或缺失)或转录调节的变异，并且因此引起蛋白质表达的显著变化。可以考虑到基因组序列中的氨基酸的进化保守的程度、改性的氨基酸的物理特性对相应蛋白质的结构或功能的影响程度等来计算基因序列变异得分。

在本发明中使用的术语“蛋白质损伤得分”指的是通过基于基因序列变异得分来计算的得分。如果在对蛋白质进行编码的基因区域中存在单个显著序列变异，则基因序列变异得分与蛋白质损伤得分相同。如果存在对蛋白质进行编码的两个或更多个基因序列变异，则蛋白质损伤得分被计算为各个变异计算的基因序列变异得分的平均值。

本发明中使用的术语“个体药物安全性得分”指的是通过找出涉及药物的药效学或药代动力学的一个或更多个靶蛋白——例如涉及药物代谢的酶蛋白、转运蛋白或载体蛋白——而相对于特定药物和个体计算出的值。可以基于对涉及药物关于个体的药效学或药代动力学的蛋白质进行编码的一个或更多个基因的蛋白质损伤得分来计算个体药物安全性得分。

本发明中使用的术语“群体药物安全性得分”指的是基于属于药物的特定群体的个体的个体药物安全性得分而计算的值。可以通过计算个体药物安全性得分分布曲线的曲线下面积(AUC)并且将AUC除以构成群体的个体的数目来获得群体药物安全性得分(S-AUC)。类似地，通过将个体药物安全性得分分布曲线上面积除以构成群体的个体的数目而获得的值被称为标准化曲线上面积(S-AUPC)，并且它可以被用作群体药物安全性得分。在一些实施方式中，可以通过计算属于特定群体的个体的个体药物安全性得分的平均值来获得群体药物安全性得分。

本发明中使用的术语“个体药物安全性得分分布曲线”或“个体药物安全性得分的分布曲线”指的是特定群体内的个体的个体药物安全性得分的分布的图表。它包括通过绘制从较低得分到较高得分的个体药物安全性得分而获得的线图、使用密度估计函数绘制的密度曲线、直方图等，但是不限于此。

本发明中使用的术语“药物安全性阈值得分”指的是允许使用群体内的个体的个体药物安全性得分或它们的分布曲线来测定高风险亚群的特定药物安全性得分。具有低于特定药物的阈值得分的个体药物安全性得分的个体比具有高于阈值得分的个体药物安全性得分的个体具有引起与药物的药效学或药代动力学相关联的蛋白质的损伤的更多的变异。

6.2.其他说明性约定

本文中列举的范围被理解成包括所列举的端点在内的范围内的所有值的简写。例如，1至50的范围被理解成包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49和50构成的组中的任何数字、数字组合或子范围。

除非另有指示，否则对具有一个或更多个立体中心的化合物的引用意指立体异构体中的每个立体异构体、以及立体异构体的所有组合。

6.3.用于执行本发明的方法

6.3.1.用于评估药物安全性的系统

图1是根据本发明的示例性实施方式的包括用于使用群体内的个体的基因序列变异信息来评估药物安全性的系统的计算环境的示意图。计算环境包括全部通过网络320连接的一个或更多个客户端设备310、一个或更多个服务器315和药物安全性评估系统10。

客户端设备310是能够接收用户输入以及经由网络320发送和/或接收数据的计算设备。在一个实施方式中，客户端设备310是常规的计算机系统，例如桌上型或膝上型计算机。可替选地，客户端设备310可以是具有计算机功能的设备，例如个人数字助理(PDA)、移动电话、智能电话或另一合适的设备。客户端设备310被配置成经由网络320进行通信。在一个实施方式中，客户端设备310执行允许客户端设备310的用户与药物安全性评估系统10进行交互的应用。例如，客户端设备310执行使得能够经由网络320进行客户端设备310与药物安全性评估系统10之间的交互的应用。在一些实施方式中，客户端设备310允许用户将输入提供至药物安全性评估10，并且用户还可以从药物安全性评估系统10接收在客户端设备310的用户界面上显示的信息。作为一个示例，客户端设备310可以由对执行研究或者获得关于特定感兴趣药物在感兴趣群体中的药物安全性的信息感兴趣的制药公司或研究机构来操作。在该示例中，公司或机构使用客户端设备310来请求药物安全性评估，并且在一些情况下，将关于药物和群体的数据提供至药物安全性评估系统10。在一些实施方式中，客户端设备310被用于为感兴趣群体内的许多个体提供基因序列信息。药物安全性评估系统10执行评估并且将关于该群体的药物的安全性的结果提供至客户端设备310。结果可以被显示在客户端设备310上的用户界面中。

网络320包括使用有线和/或无线通信系统的局域网和/或广域网的任何组合。在一个实施方式中，网络320使用标准通信技术和/或协议。例如，网络320包括使用诸如以太网、802.11、全球微波互联接入(WiMAX)、3G、4G、码分多址(CDMA)、数字用户线(DSL)等的技术的通信链路。用于经由网络320进行通信的网络协议的示例包括多协议标签交换(MPLS)、传输控制协议/因特网协议(TCP/IP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。可以使用任何合适的格式——例如，超文本标记语言(HTML)或可扩展标记语言(XML)——来表示通过网络320交换的数据。在一些实施方式中，可以使用任何合适的一种技术或多种技术来对网络320的通信链路中的全部或一些进行加密。

服务器315是能够经由网络320发送和/或接收数据的计算设备。服务器315还可以是服务器的集合。服务器315可以与药物安全性评估系统10相关联，并且可以用作存储装置或者可以从系统发送/接收数据。在一些实施方式中，服务器315可以是与向系统10发送和接收数据的药物安全性评估系统10分离的外部系统。例如，服务器315可以由将患者的序列信息发送至系统10的实验室拥有。在一些实施方式中，服务器是用于提供对关于药物、基因变异或药物-蛋白质关系的数据库的访问的装置。并且通过通信模块500连接至药物安全性评估系统10，以便交换各种类型的信息。在一些实施方式中，一个或更多个服务器315由对感兴趣的群体和药物的药物安全性评估感兴趣或者请求感兴趣的群体和药物的药物安全性评估的一方来操作。

药物安全性评估系统10可以包括各种模块/部件，模块/部件包括具有序列变异模块410、蛋白质损伤得分模块420、个体药物安全性得分模块430、个体药物安全性得分分布模块440、群体药物安全性模块450、高风险亚群模块460、受试者药物安全性模块470和药物组安全性模块480的计算单元400。药物安全性评估系统10还可以包括通信模块550、用户输入模块510、显示模块520和存储模块600。在其他实施方式中，系统10可以包括用于各种应用的附加的、更少的或不同的模块。计算单元400中的多个模块被配置成计算与药物安全性评估相关联的某些得分。首先简要介绍这些模块，并且在该介绍之后更详细地描述得分。

计算单元400的序列变异模块410被配置成计算患者的涉及药物或药物组的药效学或药代动力学的一个或更多个基因序列变异。这些计算的序列变异被用于评估药物安全性。在一些实施方式中，序列变异模块410仅获得或接收群体内的个体的该个体序列变异信息。个人可以直接提供个体可以访问的序列变异信息，具有序列变异信息的第三方——例如制药者或进行临床研究的公司——可以提供序列变异信息，或者该信息可以由模块500从进行序列变异分析的实验室接收到以确定个体序列变异。在一些情况下，原始序列数据被提供给模块500，并且模块确定变异。

在一个实施方式中，序列变异模块410计算基因序列变异得分，这在下面更详细地描述。可以针对感兴趣的群体内的每个个体来计算基因序列变异得分。得分指示引起由基因编码的蛋白质的氨基酸序列变异(取代、添加或缺失)或转录控制变异的个体基因组序列变异的程度，并且因此当在对蛋白质进行编码的基因的外显子区域中发现基因组序列变异时引起蛋白质的结构和/或功能的显著变化或损伤。

计算单元400的蛋白质损伤得分模块420被配置成基于个体的基因序列变异信息来计算个体的个体蛋白质损伤得分。通过汇总或组合基因序列变异得分(或以其他方式组合另一定量的基因序列变异)来计算蛋白质损伤得分，以得到由序列变异引起的对个体的蛋白质的损伤或改性的指示。在不存在蛋白质损伤得分的实施方式中，该模块可以不存在或者可以不被使用。

计算单元400的个体药物安全性得分模块430被配置成通过将个体蛋白质损伤得分与药物-蛋白质关系相关联来计算药物的个体药物安全性得分。在不存在药物安全性得分的实施方式中，该模块可以不存在或者可以不被使用。

计算单元400的个体药物安全性得分分布模块440被配置成提供个体药物安全性得分的分布曲线。在不存在个体药物安全性得分曲线的实施方式中，该模块可以不存在或者可以不被使用。

计算单元400的群体药物安全性模块450被配置成评估群体的药物的安全性。在一些实施方式中，模块450计算群体药物安全性得分，这在下面更详细地进行了描述。

计算单元400的高风险亚群模块460被配置成识别具有药物的高风险——例如，药物将早亚群中引起不良副作用的高风险——的个体。在不存在高风险亚群的识别的实施方式中，该模块可以不存在或者可以不被使用。

计算单元400的受试者药物安全性模块470被配置成评估受试者的药物的安全性。例如，模块460可以相对于个体的群体、针对单个个体提供药物的评估。在一些实施方式中，模块将数据传送到计算单元400的不同模块，例如个体药物安全性得分模块430、个体药物安全性得分分布模块440和群体药物安全性得分模块490，以针对受试者评估药物安全性。在不存在针对受试者的药物的安全性的评价的实施方式中，该模块可以不存在或者可以不被使用。

计算单元400的药物组安全性模块480被配置成评估药物组的安全性。在一些实施方式中，模块480可以访问关于药物或药物组的信息。该信息可以从与评估系统相关联的存储装置获取，或者可以由另一实体例如客户端设备或服务器来提供。在不存在药物组的安全性的评估的实施方式中，该模块可以不存在或者可以不被使用。

用户输入模块510被配置成接收来自用户的关于药物或药物组的输入信息，或者被配置成访问存储关于有效治疗特定疾病的药物或药物组的信息并且提取相关信息的存储装置600，并且因此这可以被用于计算和提供药物的个体和群体药物安全性得分。用户输入模块510还可以接收来自用户的其他输入，例如关于群体的信息如种族、性别、年龄、受影响的疾病或症状。用户输入模块510还可以接收可以被用于评估药物安全性的其他信息。

模块520被配置成向客户端设备显示或提供显示由各个模块计算的值或者用于确定药物安全性和作为计算或确定的基础的信息的计算过程。

通信模块500控制药物安全性评价系统10与外部实体之间的通信，利如通过网络320的通信。例如，模块500可以管理与实验室的通信以接收序列变异信息。

存储装置600可以是可以存储可以由系统10的部件访问的信息的任何数据库或数据存储装置(或知识库)或数据库的集合。数据库可以被直接安装在服务器中，并且还可以取决于目的连接至经由因特网可访问的各种生命科学数据库。在根据本发明的系统中，包括访问信息、计算的信息的数据库或服务器和连接至其的用户界面可以被用作彼此链接。

在一些实施方式中，如果产生关于药物-蛋白质关系的新的药理学/生物化学信息，则可以立即更新该系统，以用于进一步改善的药物选择的个性化。在示例性实施方式中，当数据库或知识库被更新时，存储在相应模块中的基因序列变异信息、基因序列变异得分、蛋白质损伤得分、个体药物安全性得分、群体药物安全性得分以及作为其计算基础的信息被更新。

可以通过硬件、固件、软件或其组合来实现根据本发明的方法。如果该方法由软件实现，则存储器介质可以包括可以由设备例如计算机读取的任何存储器介质或传输介质。例如，计算机可读介质可以包括ROM(只读存储器)；RAM(随机存取存储器)；磁盘存储器介质；光存储器介质；闪存设备；以及其他电、光或声信号传输介质。

在一些实施方式中，本发明提供了包括执行处理器的执行模块的计算机可读介质，该处理器执行包括以下的操作：从个体的基因组序列信息中获取与特定药物的药效学或药代动力学相关联的一个或更多个基因序列变异信息的步骤；使用基因序列变异信息计算个体的蛋白质损伤得分的步骤；以及计算针对个体的个体药物安全性得分和针对群体的群体药物安全性得分的步骤。处理器还可以包括：通过使用上述个体药物安全性得分和/或群体药物安全性得分在适用于个体的药物中确定优先顺序；或者通过使用上述个体药物安全性得分和/或群体药物安全性得分来确定是否使用适用于个体的药物。

另一方面，本发明涉及使用群体内的个体的基因序列变异信息提供药物安全性信息的系统，包括：数据库，以搜索或检索与施加至个体的药物相关的基因或蛋白质相关联的信息；通信单元，其可以访问数据库；序列变异模块，其基于所述信息来计算与药物的药效学或药代动力学相关联的一个或更多个基因序列变异信息；蛋白质损伤得分模块，其使用基因序列变异信息来计算个体的蛋白质损伤得分；个体药物安全性得分模块，其计算个体的个体药物安全性得分；以及群体药物安全性得分模块，其计算群体药物安全性得分；以及显示单元，其显示由计算模块计算的值。在本发明中，模块可以指用于驱动硬件以实现本发明的技术精神的硬件和软件的功能或结构组合。例如，模块可以是预定代码和执行预定代码的硬件资源的逻辑单元。对于本领域技术人员而言明显的是，模块不一定指物理连接的代码或一种硬件。

计算单元400中的每个“模块”是指预定代码和执行预定代码以用于根据本发明基于与药物和分析目标的基因有关的基因序列变异得分、蛋白质损伤得分、个体药物安全性得分、群体药物安全性得分以及作为其计算基础的信息来计算每个得分，而不一定指物理连接的代码或一种硬件。

图2示出了根据本发明的示例性实施方式的使用群体的基因序列变异信息提供药物安全性信息和识别高风险亚群的各种方法的每个步骤。在本发明的一些实施方式中，用于提供药物安全性信息的方法通过顺序执行以下操作来被执行：(1)接收或被输入群体中的个体的基因序列变异信息(S100)；(2)接收或被输入与特定药物有关的信息(S110)；(3)确定个体的基因序列变异信息(S120)；(4)针对特定药物计算个体的蛋白质损伤得分(S130)；以及(5)针对特定药物计算个体药物安全性得分(S140)。群体内的个体的个体药物安全性得分可以用于：(1)评估药物对群体的安全性(S150)；(2)评估药物组的安全性(S160)；(3)计算群体药物安全性得分(S170)；(4)识别高风险亚群(S180)；或(5)评估针对受试者的药物的安全性。

作为一个示例，在步骤S100处，药物安全性评估系统可以从请求药物评估的制药公司或研究机构或者从测序实验室接收群体中的多个个体的基因组序列信息，并且该数据可以通过网络被提供。在S110处提供的信息可以包括与被评估的药物有关的数据以及可能包括与药物的药效学或药代动力学有关的基因的数据。在S120处，可以使用多个个体的基因组序列信息和与药物相关联的信息来确定基因序列变异信息。在步骤S130处，可以使用基因序列变异信息来计算由与药物相关联的基因编码的每种蛋白质的蛋白质损伤得分。在步骤S140处，可以使用蛋白质损伤得分来计算个体药物安全性得分。当多个基因与药物相关联时，个体药物安全性得分可以被计算为多个蛋白质损伤得分的平均值，每个蛋白质损伤得分与多个基因中的一个基因相对应。针对给定群体中的多个个体的每个个体计算个体药物安全性得分，以产生一组个体药物安全性得分。

在S150处，可以使用该组个体药物安全性得分来评估药物对群体的安全性。在一些实施方式中，通过在S170处接收群体药物安全性得分来完成评估。在S170处，可以基于该组个体药物安全性得分来计算群体药物安全性得分。在一些实施方式中，通过计算该组个体药物安全性得分的平均值，或通过测量该组个体药物安全性得分的曲线下面积来获得群体药物安全性得分。在S190处，可以使用群体药物安全性得分和该组个体药物安全性得分来评估药物对受试者的安全性。在一些情况下，可以通过将受试者的个体药物安全性得分与群体药物安全性得分进行比较，或者通过将个体药物安全性得分的分布与受试者的个体药物安全性得分进行比较来确定药物受试者的药物安全性。

在一些实施方式中，可以使用该组个体药物安全性得分或群体药物安全性得分来评估药物组的安全性(S160)。药物组可以基于已知的药物分类方法来被确定，例如WHO的解剖学治疗化学(ACT)分类系统、用于相同症状的药物、具有相似化学性质的药物、共享途径的药物、具有相同吸收机制或排泄机制的药物、具有相同目标的药物等，但不限于此。药物组的安全性可以被计算为该药物组内的药物的群体药物得分的平均值。在一些实施方式中，可以使用该组个体药物安全性得分和群体药物安全性得分来识别可能对药物具有不良副作用的亚群(S180)。可以通过识别具有低于阈值得分的个体药物安全性得分的个体来识别高风险亚群。

图3示意性地示出了根据本发明的示例性实施方式的使用群体内的个体的基因序列变异计算群体药物安全性得分和计算个体的药物安全性等级的方法。在一些实施方式中，该方法包括识别与和药物(d(k)或d(j))的药效学和药代动力学相关联的基因(基因a、b、c以及d)相对应的基因序列变异信息(V1、V2、V3、...V12、V13)。这在群体的多个个体中的每个个体上或者在群体的所有个体上执行，例如在个体H₁、H₂、H₃、H₄、......H_n上执行。使用基因序列变异信息(V1，V2，V3，...V12，V13)来针对每个个体和针对基因a、b、c以及d中的每个基因计算蛋白质损伤得分(S_g(a)、S_g(b)、S_g(c)以及S_g(d))。使用个体的蛋白质损伤得分来计算每个个体的个体药物安全性得分(S_d(k)或S_d(j))。如图3的底部所示，可以将个体药物安全性得分绘制为分布曲线，其中，个体药物安全性得分范围为0至1。可以通过将个体的个体药物安全性得分在分布曲线内从最低至最高进行排序来计算个体(例如，H1)的药物安全等级。群体的群体药物安全性得分(Sp)可以被计算为分布曲线下面积或群体中的个体药物安全性得分(Sd)的平均值，因此这是将个体得分的组合表示作为整个群体得分。

在下文中，将参照以下示例更详细地描述本发明。提供以下实施方式以详细说明本发明，而非限制本发明的范围。

6.3.2.基因序列变异信息

本发明基于以下发现：可以通过分析群体内的个体的基因序列变异信息来评估药物安全性。通过引用将其全部内容并入本文的PCT/KR2014/007685A提出了一种通过分析个体的基因序列变异信息并基于其计算个体的药物安全性得分来推断蛋白质损伤的方法。在申请PCT/KR2014/007685A中公开的获得、计算以及使用基因序列变异信息的方法可以在本文公开的方法中采用。

一方面，本发明涉及用于使用群体的基因序列变异来计算药物安全性得分和识别高风险亚群的方法，包括：从个体的基因序列信息中确定与特定药物的药效学或药代动力学相关联的一个或更多个基因序列变异信息的步骤；使用基因序列变异信息计算个体的蛋白质损伤得分的步骤；以及通过将个体的蛋白质损伤得分和药物与蛋白质之间的相互关系相关联来计算个体的个体药物安全性得分和群体的群体药物安全性得分的步骤。

基因序列变异信息是指与个体的基因序列变异或多态性有关的信息。在本发明中，基因序列变异或多态性特别地发生在编码药物的药效学或药代动力学所涉及的蛋白质的基因的外显子区域，但不限于此。

本发明中使用的术语“序列变异信息”是指与基因中核苷酸的取代、添加或缺失有关的信息。取代、添加或缺失可以由许多原因引起。例如，它可以由包括染色体的断裂、缺失、复制、倒位和/或易位的结构异常引起。

另一方面，序列的多态性是指个体之中的基因组中存在的序列的差异。在序列的多态性中，单核苷酸多态性(SNP)是最常见的形式。它是指由A、T、C以及G组成的序列的一个碱基的差异。包括SNP的序列多态性可以被表示为SNV(单核苷酸变异)、STRP(短串联重复多态性)或包括VNTR(数目可变串联重复序列)的多聚体变异以及CNV(拷贝数变异)。

在本发明的方法中，在个体基因组中发现的序列变异或多态性信息与特定药物的药效学或药代动力学所涉及的蛋白质相关联地收集。也就是说，本发明中使用的序列变异信息是特别地在参与对特定疾病治疗有效的特定药物的药效学或药代动力学的一个或更多个基因的外显子区域中发现的变异信息，例如，在获得的个体的基因组序列信息中，编码与药物相关的目标蛋白的基因、药物代谢所涉及的酶蛋白、转运蛋白和载体蛋白，但不限于此。

可以通过使用公知的测序方法来确定本发明中使用的个体的基因组序列信息。此外，可以使用商业上可获得的服务，例如由提供商业化服务的Complete Genomics、BGI(北京基因组研究所)、Knome、Macrogen、DNALink等提供的服务，但不限于此。

在本发明中，个体的基因组序列中存在的基因序列变异信息可以通过使用各种方法来提取，并且可以通过使用以下算法通过序列比较分析来获取：例如ANNOVAR(Wang等，核酸研究(Nucleic Acids Research)，2010；38(16):e164)、SVA(序列变异分析)(Ge等，生物信息学(Bioinformatics)，2011；27(14)：1998-2000)、BreakDancer(Chen等，Nat Methods，2009年9月；6(9)：677-81)等，其将序列与参考组例如HG19的基因组序列进行比较。

可以通过各种手段获得基因序列变异信息。在一些实施方式中，通过计算机系统接收/获取信息来获得基因序列变异信息。在这方面，本发明的方法还包括通过计算机系统接收基因序列变异信息的步骤。在一些实施方式中，从储存器设备或数据库获得基因序列变异信息。在一些实施方式中，通过分析基因组序列获得基因序列变异信息。

本发明中使用的计算机系统可以包括或访问一个或更多个数据库，数据库包含与特定药物的药效学或药代动力学所涉及的基因有关的信息，例如，编码与药物相关的目标蛋白的基因、药物代谢所涉及的酶蛋白、转运蛋白、载体蛋白等。这些数据库可以包括提供与基因/蛋白质/药物-蛋白质相互作用等有关的信息的公共或非公共数据库或者知识库，包括例如DrugBank(http://drugbank.ca/)、KEGG DRUG(http://www.genome.jp/kegg/drug/)、PharmGKB(http://www.pharmgkb.org/)等，但不限于此。

在本发明中，特定药物可以是用户输入的信息、根据处方输入的信息或从包含与对治疗特定疾病有效的药物有关的信息的数据库输入的信息。处方可以包括电子处方，但限于此。

本发明中使用的术语“基因序列变异得分”是指个体基因序列变异程度的数值得分，当在编码蛋白质的基因的外显子区域中发现基因序列变异时，其引起由基因编码的蛋白质的氨基酸序列变异(取代、添加或缺失)或者转录调控的变异，并且因此引起蛋白质表达的显著变化。可以考虑基因组序列中氨基酸的进化保守程度、改性的氨基酸的物理特征对相应蛋白质的结构或功能的影响程度等来计算基因序列变异得分。

在本发明的示例性实施方式中，使用SIFT(耐受性与不耐受性分选(SortingIntolerant From Tolerant))算法来计算个体基因序列变异得分。在SIFT算法的情况下，基因序列变异以例如VCF(变体调用格式)文件的形式被输入，并且对由各个基因序列变异对相应基因引起的损伤程度进行评分。在SIFT算法的情况下，当计算后的得分接近0时，认为由相应基因编码的蛋白质被严重受损并因此其功能受损，而当计算的得分接近1时，认为由相应基因编码的蛋白质保持其正常功能。

在另一算法PolyPhen-2的情况下，计算的得分越高，认为由相应基因编码的蛋白质的功能受损越严重。

最近，报道了通过比较和组合SIFT、PolyPhen-2、MAPP、Logre and MutationAssessor来提出Condel算法的研究(Gonzalez-Perez,A.&Lopez-Bigas,N.,Improving theassessment of the outcome of nonsynonymous SNVs with a consensusdeleteriousness score,Condel.The American Journal of Human Genetics 2011；88:440-449)。在该研究中，作为与损伤蛋白质的基因序列变异和具有较小影响的基因序列变异有关的一组已知数据，通过使用HumVar和HumDiv(Adzhubei，IA等，Amethod and serverfor predicing damaging missense mutation.Nature Methods，2010；7(4)：248-249)对上述五种算法进行比较。结果，上述五种算法中的至少三种算法同样地检测到97.9％的损伤蛋白质的基因序列变异和97.3％的对HumVar影响较小的基因序列变异，并且上述五种算法中的至少三种算法同样地检测到99.7％的损伤蛋白质基因序列变异和98.8％的对HumDiv影响较小的基因序列变异。此外，作为绘制示出五种算法以及利用HumDiv和HumVar的算法的组合的计算结果的准确性的ROC(接收者操作曲线)的结果，确认了AUC(接收者操作曲线下面积)一致性相当高(69％至88.2％)。也就是说，上述算法在计算方法上不同，但计算出的基因序列变异得分却彼此显著相关。因此，将通过任何上述算法或采用任何算法的方法计算的基因序列变异得分应用于根据本发明的计算个体蛋白质损伤得分和个体药物安全性得分的步骤包括在本发明的范围内。

6.3.3蛋白质损伤得分

基因序列变异得分可以用于计算个体的蛋白质损伤得分。例如，可以通过使用以下算法根据基因序列变异信息来计算蛋白质损伤得分：例如SIFT(Sorting IntolerantFrom Tolerant,Pauline C等,Genome Res.2001年5月；11(5):863-874；Pauline C等,Genome Res.2002年3月；12(3):436-446；Jing Hul等,Genome Biol.2012；13(2):R9)；PolyPhen、PolyPhen-2(Polymorphism Phenotyping,Ramensky V等,核酸研究(NucleicAcids Res).2002年9月1日；30(17):3894-3900)；Adzhubei等,Nat Methods 7(4):248-249(2010))；MAPP(Eric A.等,Multivariate Analysis of Protein Polymorphism,基因组研究(Genome Research)2005；15:978-986)；Logre(Log R Pfam E-value,Clifford R.J.等,生物信息学(Bioinformatics)2004；20:006-1014)；Mutation Assessor(Reva B等,GenomeBiol.2007；8:R232,http://mutatioassessor.org/)；Condel(Gonzalez-Perez A等.,TheAmerican Journal of Human Genetics 2011；88:440-449,http://bg.upf.edu/ fannsdb/)；GERP(Cooper等,Genomic Evolutionary Rate Profiling,Genome Res.2005；15；901-913,http://mendel.standford.edu/SidowLab/downloads/gerp/)；CADD(Combined Annotation-Dependent Depletion,http://cadd.gs.washington.edu/)；MutationTester、MutationTester2(Schwarz等,MutationTester2:mutation predictionfor the deep-sequencing age.Nature Methods 2014；11:361-362,http:// www.mutationtester.org/)；PROVEAN(Choi等,PLoS One 2012；7(10):e46688)；PMut(Ferrer-Costa等,Proteins2004；57(4):811-819,http://mmb.pcb.ub.es/PMut/)；CEO(Combinatorial Entropy Optimization,Reva等,Genome Biol.2007；8(11):R232)；SNPeffect(Reumers等,Bioinformatics 2006；22(17):2183-2185,http:// snpeffect.vib.be)；FATHMM(Shihab等,Functional Analysis through Hidden MarkovModels,Hum Mutat 2013；34:57-65,http://fathmm.biocompute.org.uk/)等，但不限于此。

上述算法被配置成识别每个基因序列变异对蛋白质功能具有多大影响或是否存在任何其他影响。这些算法具有共同的方面在于：它们基本上被配置成考虑由相应基因编码的蛋白质的氨基酸序列和由个体基因序列变异引起的相关效应，从而来确定对相应蛋白质的结构和/或功能的影响。

本发明中使用的术语“蛋白质损伤得分”是指当在对单个蛋白质的基因编码中发现两个或更多个显著序列变异使得单个蛋白质具有两个或更多个基因序列变异得分时基于基因序列变异得分计算的得分。如果在对蛋白质进行编码的基因区域中存在单个显著序列变异，则基因序列变异得分与蛋白质损伤得分相同。如果对蛋白质的编码中存在两个或更多个基因序列变异，则蛋白质损伤得分被计算为针对各个变异所计算的基因序列变异得分的平均值。这样的平均值可以被计算为例如几何均值、算术均值、调和均值、算术几何均值、算术调和均值、几何调和均值、毕达哥拉斯均值(Pythagorean mean)、四分位数均值(interquartile mean)、二次均值、截断均值、温塞均值(winsorized mean)、加权均值、加权几何均值、加权算术均值、加权调和均值、函数均值、幂均值、广义f均值(generalized f-mean)、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势的度量、简单乘法或加权乘法，或通过计算值的函数运算来计算这样的平均值，然而不限于此。

在本发明的示例性实施方案中，蛋白质损伤得分通过下面的等式1计算。下面的等式1可以以各种方式进行修改，并且因此，本发明不限于此。

[等式1]

在等式1中，S_g是由基因g编码的蛋白质的蛋白质损伤得分，n是基因g的序列变异中的用于分析的靶序列变异的数量，v_i是第i个基因序列变异的基因序列变异得分，p是除0以外的实数。在等式1中，当p的值为1时，蛋白质损伤得分成为算术均值，如果p的值为-1，则蛋白质损伤得分成为调和均值，如果p的值接近极限0，则蛋白质损伤得分成为几何均值。

在本发明的另一示例性实施方案中，蛋白质损伤得分通过下面的等式2计算。

[等式2]

在等式2中，S_g是由基因g编码的蛋白质的蛋白质损伤得分，n是基因g的序列变异中的用于分析的靶序列变异的数量，v_i是第i个基因序列变异的基因序列变异得分，并且w_i是分配给v_i的权重。如果所有的权重w_i具有相同的值，则蛋白质损伤得分S_g成为基因序列变异得分v_i的几何均值。可以考虑相应蛋白质的类别、相应蛋白质的药效学或药代动力学分类、相应药物的酶蛋白的药代动力学参数、群体组或种族分布来分配权重。

6.3.4.个体药物安全性得分

根据本发明的方法，通过将上述蛋白质损伤得分与药物蛋白质关系相关联来计算个体药物安全性得分。

在一个实施方案中，如果一种或多种特定药物的药效学或药代动力学所涉及的两种或更多种蛋白质被损伤，则药物安全性得分被计算为蛋白质损伤得分的平均值。这样的平均值可以被计算为例如几何均值、算术均值、调和均值、算术几何均值、算术调和均值、几何调和均值、毕达哥拉斯均值、四分位数均值、二次均值、截断均值、温塞均值、加权均值、加权几何均值、加权算术均值、加权调和均值、函数均值、幂均值、广义f均值、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势的度量、简单乘法或加权乘法，或通过计算值的函数运算来计算平均值，然而不限于此。

个体药物安全得分可以通过调整相应药物的药效学或药代动力学所涉及的靶蛋白、药物代谢所涉及的酶蛋白、考虑药理学特性的转运蛋白或载体蛋白的权重来计算，并且可以考虑相应药物的酶蛋白的药代动力学参数、群体组，种族分布等来分配权重。此外，尽管不直接与相应药物相互作用，但是可以考虑与相应药物的前体和相应药物的代谢产物相互作用的蛋白质，例如药理学途径所涉及的蛋白质，并且其蛋白质损伤得分可以被组合以计算个体药物安全性得分。此外，还可以考虑并组合与相应药物的药效学或药代动力学所涉及的蛋白质显著地相互作用的蛋白质的蛋白质损伤得分，以计算个体药物安全性得分。可以在诸如PharmGKB(Whirl-Carrillo等人，Clinical Pharmacology&Therapeutics，2012；92(4)：414-4171)、MIPS Mammalian Protein-Protein Interaction Database(Pagel等人，Bioinformatics，2005；21(6)：832-834)、BIND(Bader等人，BiomolecularInteraction Network Database，Nucleic Acids Res，2003年1月1日；31(1)：248-50)、Reactome(Joshi-Tope等人，Nucleic Acids Res，2005年1月1日；33(Database issue)：D428-32)等的公知生物学数据库中搜索关于相应药物的药理学途径所涉及的蛋白质的信息，所述蛋白质与途径中的蛋白质显著地相互作用或涉及其信号转导途径。

在本发明的示例性实施方案中，通过下面的等式3来计算个体药物安全性得分。下面的等式3可以以各种方式进行修改，并且因此，本发明不限于此。

[等式3]

在等式3中，S_d是药物d的个体药物安全性得分，n是药物d的药效学或药代动力学所直接涉及或与相应药物的前体或相应药物的代谢产物相互作用的蛋白质例如通过选自药理途径所涉及的基因组的一种或更多种基因所编码的蛋白质的数量，g_i是药物d的药效学或药代动力学所直接涉及或与相应药物的前体或相应药物的代谢产物相互作用的蛋白质例如通过选自药理学途径所涉及的基因组的一种或更多种基因所编码的蛋白质的蛋白质损伤得分，并且p是除0以外的实数。在等式3中，当p的值为1时，药物安全性得分成为算术均值，如果p的值为-1，则药物安全性得分成为调和均值，如果p的值接近极限0，则个体药物安全性得分成为几何均值。

在本发明的又一示例性实施方案中，个体药物安全性得分通过下面的等式4来计算。

[等式4]

在等式4中，S_d是药物d的个体药物安全性得分，n是药物d的药效学或药代动力学所直接涉及或与相应药物的前体或相应药物的代谢产物相互作用的蛋白质例如通过选自药理途径所涉及的基因组的一种或更多种基因所编码的蛋白质的数量，g_i是药物d的药效学或药代动力学所直接涉及或与相应药物的前体或相应药物的代谢产物相互作用的蛋白质例如通过选自药理学途径所涉及的基因组的一种或更多种基因所编码的蛋白质的蛋白质损伤得分，并且w_i是分配给g_i的权重。如果所有的权重w_i具有相同的值，则个体药物安全性得分S_d成为蛋白质损伤得分g_i的几何均值。可以考虑蛋白质的类别、蛋白质的药效学或药代动力学分类、相应药物的酶蛋白的药代动力学参数、群体组或种族分布来分配权重。

在本发明的示例性实施方案中使用的几何均值计算方法的情况下，不管药物蛋白质关系的特性如何，权重被均等地分配。然而，如在又一示例性实施方案中所述，可以通过考虑每个药物蛋白质关系特性来分配权重从而来计算药物安全性得分。例如，可以将不同的得分分配给药物的靶蛋白和与药物相关的转运蛋白。此外，可以通过向相应药物的酶蛋白分配作为权重的药代动力学参数K_m、V_max和K_cat/K_m来计算个体药物安全性得分。此外，例如，由于靶蛋白在药理作用方面被认为比转运蛋白质更重要，因此其可以被分配较高的权重，或者转运蛋白或载体蛋白可以相对于其效果对浓度敏感的药物而被分配高的权重，但是本发明不限于此。可以根据药物和与药物有关的蛋白质之间的关系的特性以及药物与蛋白质之间的相互作用的特性来精确地调整权重。可以使用被配置成考虑药物与蛋白质之间的相互作用的特性来分配权重的复杂算法。例如，靶蛋白和转运蛋白可以分别被分配2个点和1个点。

在以上描述中，已经例示了仅与药物直接相互作用的蛋白质。然而，如在本发明的示例性实施方案中，上述等式的预测能力可以通过使用关于与相应药物的前体或相应药物的代谢产物相互作用的蛋白质、与相应药物的药效学或药代动力学所涉及的蛋白质显著相互作用的蛋白质以及其信号转导途径所涉及的蛋白质的信息来提高。也就是说，通过使用关于蛋白质相互作用网络或药理学途径的信息，可以使用关于与其相关的各种蛋白质的信息。也就是说，即使在与药物直接相互作用的蛋白质中未发现显著变异并且因此不存在针对蛋白质计算的蛋白质损伤得分或不存在损伤(例如，当应用SIFT算法时的1.0点)，与蛋白质相互作用或蛋白质所涉及的相同信号转导途径的蛋白质的蛋白质损伤得分的平均值(例如，几何均值)可以用作蛋白质的蛋白质损伤得分，以便用于计算个体药物安全性得分。

可以相对于可以从其获取关于一种或更多种关联蛋白质的信息的所有药物或选自所述药物中的一些药物来计算个体药物安全性得分。此外，个体药物安全性得分可以被转换成等级。

6.3.5.群体药物安全性得分

在本发明的一些实施方案中，通过使用个体药物安全性得分来计算群体药物安全性得分。

在本发明中使用的术语“群体药物安全性得分”是指属于药物的特定群体的个体的个体药物安全性得分的平均值。可以通过计算个体药物安全性得分分布曲线、通过从较低得分到较高得分来绘制属于群体的个体的药物安全性得分所获得的曲线的曲线下面积(AUC)并且将AUC除以构成群体的个体的数量来获得群体药物安全性得分。这被称为标准化曲线下面积(S-AUC)。当群体中的所有药物安全性得分均为1时，即当不存在引起蛋白质功能异常的药物相关基因的变异时，曲线下面积等于构成群体的个体的数量。类似地，通过将个体药物安全性得分分布曲线上面的面积除以构成群体的个体的数量而获得的值被称为标准化曲线上面积(S-AUPC)，并且其可以用作群体药物安全性得分。等于S-AUC的1-(S-AUPC)也可用作群体药物安全性得分。

群体药物安全性得分可以针对各个药物或考虑药物的特性的药物组来被计算。药物组可以基于诸如WHO的解剖学治疗化学(ACT)分类系统、用于相同症状的药物、具有相似化学性质的药物、药物共享途径、具有相同吸收或排泄机制的药物、具有相同靶标的药物等的已知药物分类方法来确定，然而不限于此。

在本发明的示例性实施方案中，群体药物安全性得分通过等式5来计算。然而，等式5可以进行各种修改，并且本发明不限于此。

[等式5]

在等式5中，S_P是计算为群体内的个体的个体药物安全性得分的均值群体药物安全性得分，N或n为通过个体基因变异分析来计算个体药物安全性得分d的个体的数量，S_d是受试个体的个体药物安全性得分。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义群体，然而不限于此。群体药物安全性得分可以在不同群体之间不同。

[等式6]

在等式6中，S_P是计算为群体内的个体的个体药物安全性得分d_1-n的均值，AUC_d为群体的个体药物安全性得分分布曲线下面的面积，AUPC_d是群体的个体药物安全性得分分布曲线上面的面积，N是通过个体基因变异分析来计算个体药物安全性得分d的个体的数量。通过将AUC除以属于该群体的个体的数量而获得的值是标准化曲线下面积。通过将AUPC除以属于该群体的个体的数量而获得的值是标准化曲线上面积。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义群体，然而不限于此。群体药物安全性得分可以在不同群体之间不同。

在本发明中使用的术语“个体药物安全性得分分布曲线”或“个体药物安全性得分的分布曲线”是指特定群体内的个体的个体药物安全性得分的分布的曲线图。其包括通过从较低得分到较高得分来绘制个体药物安全性得分所获得的线图、使用密度估计函数绘制的密度曲线、直方图等，但不限于此。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义本文中的群体，然而不限于此。群体药物安全性得分可以相对于不同群体和药物而不同。

6.3.6.应用

6.3.6.1.高风险亚群的识别

在本发明的示例性实施方案中，通过等式7来计算用于识别高风险亚群的药物安全性阈值得分。然而，等式7可以被修改，并且本发明不限于此。

[等式7]

在等式7中，T是基于根据个体药物安全性得分分布曲线的S-AUC所计算的药物安全性阈值得分或群体的个体药物安全性得分d的算术均值。T是满足0<T<1的有理数。N是通过个体基因变异分析来计算个体药物安全性得分d的个体的数量，d_i是第i个个体的个体药物安全性得分，μ是计算为算术均值或标准化的个体药物安全性得分分布曲线下面的面积的群体药物安全性得分，κ为非零有理数。当κ为1时，T成为与个体药物安全性得分的标准差减去群体药物安全性得分μ对应的得分。当κ为2时，其成为与个体药物安全性得分的标准差的2倍减去群体药物安全性得分μ对应的得分。κ可以根据群体内的个体药物安全性得分的分布而变化。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义群体，然而不限于此。药物安全性阈值得分可以针对不同群体和药物而不同。

在本发明中使用的术语“高风险亚群”是指具有等于或低于药物安全性阈值得分的药物安全得分的个体群。其为具有引起与相应药物的药效学或药代动力学相关联的蛋白质的损伤的许多变异并且易受药物影响的亚群。可以基于个体药物安全性得分分布曲线的图案来确定药物安全性阈值得分。也就是说，当存在形成药物的个体药物安全性得分分布曲线中的具有非常低的得分分布的岛的亚群时，可以将药物安全性阈值得分计算为限定岛的个体药物安全性得分。

[等式8]

R＝{x|x,其中，d＜T}

在等式8中，R是群体中的具有低于药物安全性阈值得分的得分的高风险亚群的比率或分数，x是具有低于药物安全性阈值得分的个体药物安全性得分(d)的个体。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义群体，然而不限于此。药物安全性阈值得分可以针对不同群体和药物而不同。

在本发明的另一示例性实施方案中，可以通过对与从市场上被撤回或其使用已受限的药物对应的药物安全性得分的分析来估计阈值得分。

[等式9]

R＝{x|x,其中，d≤T_w}

在等式9中，R是群体中的具有低于药物安全性阈值得分的得分的高风险亚群的比率或部分，x是具有低于药物安全性阈值得分的个体药物安全性得分的个体，d是个体药物安全性得分。在一些实施方案中，T_w为基于从市场上被撤回或其使用已受限的药物所计算的0.3。可以基于性别、年龄、种族、疾病组、药物治疗组等来不同地定义群体，然而不限于此。药物安全性阈值得分可以针对不同群体和药物而不同，并且不限于0.3。

一旦识别了高风险亚群，结果可以由制药商、运营临床研究的公司或其他制药公司用于开发药物、设计临床研究或销售靶向特定群体的药物。当内科医生决定是否开出某种药物的处方时也可以由他们使用该结果。当患者决定是否使用某种药物时也可以由他们使用该结果。

6.3.6.2.评估受试者的药物安全性

在一些实施方式中，个体药物安全性得分分布曲线可以使用于评估针对受试者的药物的安全性。例如，可以将受试者的个体药物安全性得分与群体内多个个体的个体药物安全性得分或得分的分布曲线进行比较。如果受试者具有低于上述阈值得分或低于群体中的大多数个体的个体药物安全性得分，则受试者更可能具有与药物的药效学和药代动力学相关联的基因的变异并且更有可能对药物表现出不希望的副作用。可以针对药物组内的许多药物执行类似的分析，以识别用于在药物组内使用的最安全的药物。

可以将分析结果提供给受试者或针对受试者的内科医生。内科医生可以依靠结果来开出药物的处方，例如，通过调整药物的剂量。因此，虽然可以为了防止药物的副作用而执行本发明的方法，但是不限于此。

6.4.示例

提供以下示例是为了说明而非限制。

6.4.1.示例1：

通过分析涉及从市场撤回的药物的药效学或药代动力学的基因中发现的序列变异信息证明了本发明中公开的方法的有效性。

由FDA批准并且在市场上销售的任何药物都可以在广泛使用时根据后期市场监测(PMS)的结果被命令要被从市场撤回。药物从市场上这样的撤回是医学上重要的问题。即使在严格临床试验的整个过程之后批准的药物也可以在实际应用步骤中引起造成巨大的生命损失和经济损失的不可预测的副作用，并且因此可以被撤回。即使进行大规模临床试验也无法发现的个体反应差异被认为是从市场上撤回药物的原因之一。根据本发明的用于识别高风险亚群的方法提供了用于分别用高风险亚群和低风险亚群检测药物、批准靶向特定亚群的药物并且根据受试者是否属于高风险组或低风险组来开出药物的处方或调整药物剂量的方法。

为了验证，针对包括从市场上撤回或限制使用的药物的1041种药物分析了2504个个体的基因序列变异信息。为了建立从市场上撤回的药物的综合清单，除了已经包括从DrugBank数据库中从市场撤回的药物清单之外，还对作为由联合国发布的从全球市场撤回的药物的最全面数据的来自欧洲药品管理局(EMA)的药物清单和“由政府批准禁止、撤回、严格限制或不禁止消费和/或销售的产品的综合清单：药物”的版本8、10、12和14进行了总体审查。最后，建立了从至少一个国家撤回的578种药物的清单，并且确认其中的154种药物被包括在上述1041种药物中。此外，由于未从市场撤回但是严格限制使用的药物，包括来自自2003年以来由美国老年医学协会发布的老年人可能不适当药物使用的Beers标准的137种药物的260种药物和由美国FDA命令药物标签上标记药物遗传学的信息的148种药物被包括作为预防药物。针对260种药物中的165种药物进行了分析，这些药物被包括在1041种药物中。通过基于2504人的基因组序列变异使用SIFT算法计算基因序列变异得分并且获取从基因序列变异得分计算的2504个个体药物安全性得分的算术平均值来获得每种药物的群体药物安全性得分。结果，撤回组、限制组(来自Beers标准和FDA药物基因学数据库的药物)和另一组的群体药物安全性得分分别为0.558±0.17,0.549±0.15,0.542±0.15和0.635±0.19，并且作为单因素方差分析的结果，其差异显著(F＝17.54，p<0.001)。此外，作为post-Tukey分析的结果，撤回药物与另一种药物之间的p值和限制药物与另一种药物之间的p值显示出统计学显著性，其中p<0.001。撤回药物与限制药物之间没有发现显著差异(针对撤回药物与FDA药物遗传学药物的p值＝0.889；针对撤回药物与Beers标准药物的p值＝0.978；针对FDA药物基因学药物与Beers标准药物的p值为＝0.994)。也就是说，可以看出，在研究群体中，具有较低群体药物安全性得分的药物显著更可能被从市场撤回或限制使用。

6.4.2.示例2：

根据药物相关基因中发现的个体遗传变异的多样性，个体药物安全性得分显示出从最低得分0至最高得分1的广泛分布。如果与特定群体组中药物的药效学或药代动力学相关的基因没有功能变异，则所有药物安全性得分将均为1。因此，个体药物安全性得分分布曲线下面积将为1，并且药物的效果将如预期的那样被实现。

图4A至图4C呈现了示出用于使用如上所述计算出的个体药物安全性得分来评估药物安全性的方法的图。图4A示出了三个分布曲线，其代表来自2504个个体(由1000个基因组计划的第三阶段提供)的个体药物安全性得分，每个与根据ATC分类系统属于C01BA抗心律失常药的三种药物-丙吡胺、普鲁卡因酰胺和奎尼丁之一对应。根据DrugBank、联合国和EMA，这些药物已经被从市场撤回。顶部曲线(具有三角形)与丙吡胺对应，中间曲线(具有圆圈)与普鲁卡因酰胺对应，并且底部曲线(具有矩形)与奎尼丁对应。分布曲线示出了与每种药物对应的个体药物安全性得分具有不同的形状和模式。图4B提供了条形图，每个条形图表示每种药物的曲线下面积(AUC)。如图的右侧所示，丙吡胺的AUC测定为1-α，普鲁卡因酰胺的AUC测定为1-(α+β)，并且奎尼丁的AUC测定为1-(α+β+Υ)。图4C提供了表示与每种药物的个体药物安全性得分的最底部30％或70％对应的个体药物安全性得分的三个条形图。上部两个柱用于丙吡胺，中间两个柱用于普鲁卡因酰胺，并且底部两个柱用于奎尼丁。

6.4.3.示例3：

将各种药物的群体药物安全性得分计算为2504个个体药物安全性得分的曲线下面积(AUC)，并且在图5A至图5I的相对频率直方图中被可视化。基于其群体药物得分将每种药物分别分配到0与1之间的10个得分段之一(x轴，也称为“群体有害得分”)，然后，与相应得分段对应的药物的撤回率被呈现在y轴上(“药物撤回的相对频率”)。基于从包括DrugBank、联合国和EMA数据库的各种数据库可获取的信息来计算撤回率。

图5A基于至少两个数据库(n＝30，最暗)、基于DrugBank(n＝20，第二最暗)、基于联合国(n＝63，第三最暗)并且基于EMA(n＝41，最亮)提供了药物撤回率。图5B基于联合国和EMA(n＝2，最暗)、仅基于联合国(n＝43，第二最暗)以及仅基于EMA(n＝48，最亮)提供了药物撤回率。图5C基于联合国和DrugBank(n＝28，最暗)、仅基于DrugBank(n＝20，第二最暗)以及仅基于联合国(n＝65，最亮)提供了药物撤回率。图5D仅基于EMA(n＝43，较暗)以及仅基于DrugBank(n＝48，较亮)提供药物撤回率。图5E基于UN(n＝93)提供药物撤回率。图5F基于EMA(n＝43)提供药物撤回率。图5G基于DrugBank(n＝48)提供药物撤回率。图5H基于FDA药物基因组学药物(n＝96)提供药物撤回率。图5I基于Beers标准(n＝90)提供药物撤回率。

图5A进一步提供了针对三种不同药物的个体药物安全性得分的三个分布曲线-第一种药物具有0与0.1之间的群体药物安全性得分、第二种药物具有0.4与0.5之间的群体药物安全性得分以及第三种药物具有0.8与0.9之间的群体药物安全性得分。

该分析表明具有较低群体药物安全性得分的药物更有可能从市场被撤回或限制使用。特别地，具有群体药物安全性得分低于0.3的药物更有可能从市场被撤回或限制使用。

6.4.4.示例4：

申请人进一步证明个体药物安全性得分的分布对于如图6A至图6F所示的不同的群体具有不同的模式。图6A至图6F提供了曲线图，每个曲线图表示针对罗苏伐他汀的各个药物安全性得分的分布曲线。每个图与五个种族组中的一个对应-图6B为美国(AMR)、图6C为欧洲(EUR)、图6D为东亚(EAS)、图6E为非洲(AFR)、图6F为南亚(SAS)以及图6A为所有五个种族组的组合。图6A中的箭头表示具有0.3的个体的排名作为相应群体内的个体药物安全性得分。图6B至图6F中的箭头表示在相应的种族组中具有相同排名(30)的个体药物安全性得分的个体。该分析表明，每个群体组具有在与罗苏伐他汀的药效学和药代动力学相关的基因中的不同的遗传变异，并且可以通过本发明的方法识别该差异。

6.4.5.示例5：

个体可以对相同药物组内的不同药物有不同的反应。例如，如图7A至图7F所示，通过解剖学治疗化学(ACT)分类分类为抗精神病药的N05BA药物(苯二氮衍生物)显示出不同的个体药物安全性得分分布模式。如图8A至图8F所示，通过由WHO提供的解剖学治疗化学(ACT)分类系统分类为脂质修饰剂的C10AA药物(HMG CoA还原酶抑制剂)也显示出不同的个体药物安全性得分分布模式。

这些个体药物安全性得分的分布曲线可以用于通过识别受试者在针对每种药物的个体药物安全性得分分布曲线内的排名来选择用于受试者的最安全的药物。例如，受试者可以处于针对第一药物的高风险亚群中，但是不处于针对第二药物的高风险亚群中。在该情况下，受试者可以选择第一药物而不是第二药物。

该曲线图还可以用于计算针对药物组的群体药物安全性得分。在本发明的一些实施方式中，可以计算药物组内多种药物的群体药物安全性得分的平均值以评估药物组的安全性。

6.4.6.其他：

尽管已经详细描述了本发明的示例性实施方式，但是本发明的权利范围不限于此。由使用所附权利要求中限定的本发明的基本概念的本领域技术人员进行的各种修改和改进也被包括在本发明的权利范围内。

7.参考引用

本申请中引用的所有出版物、专利、专利申请和其他文献通过引用被整体并入本文中以用于所有目的，其程度如同每个单独的出版物、专利、专利申请或其他文献被单独指出通过引用被并入以用于所有目的。

8.等同方式

本公开内容提供了用于通过执行与群体内个体的基因序列变异信息相关联的某些计算来评估药物或药物组的安全性的计算机实现的方法和系统。虽然已经说明和描述了各种具体实施方式，但是上述说明不是限制性的。将理解，在不偏离本发明的精神和范围的情况下可以进行各种改变。在查阅本说明书之后，许多变型对于本领域技术人员而言将变得明显。

Claims

1.一种用于评估药物的安全性的计算机实现的方法，包括以下步骤

由评估系统获得群体内的多个个体中的每个个体的基因序列变异信息，其中，所述基因序列变异信息与和所述药物的药效学或药代动力学相关联的一个或更多个基因有关；

由所述评估系统使用所述基因序列变异信息来计算所述群体内的多个个体中的每个个体的蛋白质损伤得分；

由所述评估系统基于所述蛋白质损伤得分来计算所述群体内的多个个体中的每个个体的个体药物安全性得分，以生成一组个体药物安全性得分；以及

由所述评估系统基于所述一组个体药物安全性得分来确定所述群体的所述药物的安全性。

2.根据权利要求1所述的方法，其中，确定所述药物的安全性的步骤包括：获得表示所述一组个体药物安全性得分的曲线。

3.根据权利要求2所述的方法，其中，确定所述药物的安全性的步骤还包括：计算曲线下面积(AUC)、标准化曲线下面积(S-AUC)、曲线上面积(AUPC)或标准化曲线上面积(S-AUPC)。

4.根据权利要求2至3中任一项所述的方法，还包括使用以下等式来计算群体药物安全性得分的步骤：

其中，Sp是所述群体的群体药物安全性得分，d1至dn是所述群体内的第i(从1到n)个个体的个体药物安全性得分，AUC_d是药物d的曲线下面积，AUPC_d是所述药物d的曲线上面积，并且N或n是所述群体内的个体的数目。

5.根据权利要求1所述的方法，其中，确定所述药物的安全性的步骤包括：识别具有低于或高于阈值的个体药物安全性得分的个体。

6.根据权利要求5所述的方法，其中，所述阈值(T)通过以下等式来计算：

其中，T是满足0<T<1的有理数，d_i是所述群体内第i(从1到n)个个体的个体药物安全性得分，n是所述群体内的个体的数目，κ是非零有理数，并且μ是(i)所述一组个体药物安全性得分的平均值或(ii)所述一组个体药物安全性得分的曲线下面积。

7.根据权利要求5所述的方法，其中，基于所述曲线的形状来确定所述阈值(T)。

8.根据权利要求7所述的方法，其中，基于所述曲线的斜率的变化来计算所述阈值(T)。

9.根据权利要求5所述的方法，其中，通过将所述曲线与和具有相似药效学或药代动力学的不同药物或先前识别为不安全的不同药物对应的不同曲线进行比较来确定所述阈值(T)。

10.根据权利要求5至9中任一项所述的方法，其中，所述阈值(T)的范围是：从0.1至0.5、从0.2至0.4、或从0.25至0.35、或者为0.3。

11.根据权利要求5至10中任一项所述的方法，还包括提供具有低于阈值或高于阈值的个体药物安全性得分的所述个体的列表的步骤。

12.根据权利要求5至11中任一项所述的方法，其中，确定所述药物的安全性的步骤还包括：计算所述群体内的具有低于所述阈值的个体药物安全性得分的个体的数目或比率。

13.根据权利要求5至11中任一项所述的方法，还包括计算所述群体的群体药物安全性得分的步骤，其中，所述群体药物安全性得分与所述群体内的具有低于所述阈值的药物安全性得分的个体的数目或比率有关。

14.根据权利要求1所述的方法，其中，确定所述药物的安全性的步骤包括：计算所述群体内的多个个体的个体药物安全性得分的平均值，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、希罗平均、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法、加权乘法或其组合构成的组的一种或更多种算法来计算所述平均值。

15.根据权利要求14所述的方法，还包括提供通过以下等式计算的所述群体的群体药物安全性得分的步骤：

其中，Sp是所述群体药物安全性得分，d_i或S_d是所述群体内的个体的个体药物安全性得分(i为从1到n)，并且n或N是所述群体内被获得个体药物安全性得分的个体的数目。

16.根据上述权利要求中任一项所述的方法，其中，所述基因序列变异信息是与所述基因的外显子内的核苷酸的取代、添加或缺失有关的信息。

17.根据权利要求16所述的方法，其中，所述核苷酸的取代、添加或缺失是由染色体的断裂、缺失、复制、倒位或易位引起的。

18.根据上述权利要求中任一项所述的方法，还包括使用选自由SIFT(耐受与不耐受分选)、PolyPhen、PolyPhen-2(多态性表型分型)、MAPP(蛋白质多态性的多变量分析)、Logre(Log R Pfam E值)、突变评估器、Condel、GERP(基因组进化速率分析)、CADD(组合注释依赖性消耗)、MutationTaster、MutationTaster2、PROVEAN、PMuit、CEO(组合熵优化)、SNPeffect、fathmm、MSRV(多选规则投票)、Align-GVGD、DANN、Eigen、KGGSeq、LRT(似然比检验)、MetaLR、MetaSVM、MutPred、PANTHER、Parepro、phastCons、PhD-SNP、phyloP、PON-P、PON-P2、SiPhy、SNAP、SNPs&GO、VEP(变异效应预测器)、VEST(变异效应评分工具)、SNAP2、CAROL、PaPI、Grantham、SInBaD、VAAST、REVEL、CHASM(体细胞突变的特定于癌症的高通量注释)、mCluster、nsSNPAnayzer、SAAPpred、HanSa、CanPredict、FIS和BONGO(图上联接)构成的组的一种或更多种算法根据所述基因序列变异信息获得基因序列变异得分的步骤。

19.根据权利要求18所述的方法，其中，所述基因序列变异得分被用于计算所述蛋白质损伤得分或所述个体药物安全性得分。

20.根据上述权利要求中任一项所述的方法，还包括根据所述基因序列变异信息获得多个基因序列变异得分的步骤，其中，所述基因序列变异信息与所述基因内的多个核苷酸的取代、添加或缺失有关。

21.根据权利要求20所述的方法，其中，所述蛋白质损伤得分被计算为所述多个基因序列变异得分的平均值。

22.根据权利要求21所述的方法，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、希罗平均、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法和加权乘法构成的组的一种或更多种算法来计算所述平均值。

23.根据权利要求20所述的方法，其中，所述蛋白质损伤得分通过以下等式来计算：

其中，S_g是由基因g编码的蛋白质的蛋白质损伤得分，n是与所述多个基因序列变异得分对应的所述多个核苷酸的数目，v_i是与第i个基因序列变异对应的基因序列变异得分，并且p是非零实数。

24.根据权利要求20所述的方法，其中，所述蛋白质损伤得分通过以下等式来计算：

其中，Sg是由基因g编码的蛋白质的蛋白质损伤得分，n是与所述多个基因序列变异得分对应的所述多个核苷酸的数目，v_i是与第i个基因序列变异对应的基因序列变异得分，并且w_i是分配给第i个基因序列变异的基因序列变异得分v_i的权重。

25.根据上述权利要求中任一项所述的方法，还包括获得蛋白质损伤得分的步骤，其中，所述蛋白质损伤得分中的每个对应于所述药物的药效学或药代动力学所涉及的所述多种蛋白质中的每一种。

26.根据权利要求25所述的方法，其中，所述个体药物安全性得分被计算为所述蛋白质损伤得分的平均值。

27.根据权利要求26所述的方法，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、希罗平均、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法和加权乘法构成的组的一种或更多种算法来计算所述平均值。

28.根据权利要求25所述的方法，其中，所述个体药物安全性得分通过以下等式来计算：

其中，S_d是药物d的个体药物安全性得分，n是由所述药物d的药效学或药代动力学所涉及的一个或更多个基因编码的蛋白质的数目，g_i是由所述药物d的药效学或药代动力学所涉及的一个或更多个基因编码的所述蛋白质的蛋白质损伤得分，并且p是非零实数。

29.根据权利要求25所述的方法，其中，所述个体药物安全性得分通过以下等式来计算：

其中，S_d是药物d的药物得分，n是由所述药物d的药效学或药代动力学所涉及的一个或更多个基因编码的蛋白质的数目，g_i是由所述药物d的药效学或药代动力学所涉及的一个或更多个基因编码的所述蛋白质的蛋白质损伤得分，并且w_i是指分配给由所述药物d的药效学或药代动力学所涉及的一个或更多个基因编码的所述蛋白质的蛋白质损伤得分g_i的权重。

30.一种评估药物组的安全性的计算机实现的方法，包括以下步骤：

识别属于所述药物组的药物；

获得针对所述药物中的每一种的群体药物安全性得分，从而生成一组群体药物安全性得分，其中，通过根据权利要求4、13和15中任一项所述的方法来计算所述群体药物安全性得分；以及

分析所述一组群体药物安全性得分。

31.根据权利要求30所述的方法，还包括基于所述分析来确定所述药物之间的优先顺序的步骤。

32.根据权利要求30至31中任一项所述的方法，其中，分析所述一组群体药物安全性得分的步骤包括：

计算所述一组群体药物安全性得分的平均值，其中，使用选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、希罗平均、反调和平均、均方根偏差、质心平均、四分位数平均、二次平均、截断平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数平均、幂平均、广义f平均、百分位数、最大值、最小值、众数、中值、中间范围、集中趋势度量、简单乘法、加权乘法或其组合构成的组的一种或更多种算法来计算所述平均值。

33.根据权利要求30至32中任一项所述的方法，其中，基于以下来执行识别属于所述药物组的药物的步骤：(i)已知药物分类方法，(ii)已知能够由所述药物治疗的症状，(iii)所述药物的化学性质，(iv)所述药物的吸收或排泄机制，或者(v)所述药物的靶点。

34.一种评估药物对受试者的安全性的方法，包括以下步骤：

获得所述受试者的基因序列变异信息，其中，所述基因序列变异信息与和所述药物的药效学或药代动力学相关联的一个或更多个基因相关联；

使用所述基因序列变异信息获得所述受试者的蛋白质损伤得分；

基于所述蛋白质损伤得分来获得所述受试者的受试者药物安全性得分；以及

通过将所述受试者药物安全性得分与根据权利要求1所述的方法获得的所述一组个体药物安全性得分进行比较，确定所述药物对所述受试者的安全性。

35.根据权利要求34所述的方法，其中，确定所述药物对所述受试者的安全性的步骤包括确定在所述一组个体药物安全性得分内所述受试者药物安全性得分的位置的步骤。

36.根据权利要求34所述的方法，其中，确定所述药物对所述受试者的安全性的步骤包括以下步骤：

使用所述一组个体药物安全性得分来绘制曲线；

获得曲线下面积(AUC)、标准化曲线下面积(S-AUC)、曲线上面积(AUPC)或标准化曲线上面积(S-AUPC)；以及

将所述受试者药物安全性得分与所述AUC、所述S-AUC、所述AUPC或所述S-AUPC进行比较。

37.根据权利要求34所述的方法，其中，确定所述药物对所述受试者的安全性的步骤包括以下步骤：

获得与所述一组个体药物安全性得分对应的阈值(T)，其中，所述阈值(T)通过以下等式来计算：

其中，d_i是所述群体内的第i(从1到n)个个体的个体药物安全性得分，n是所述群体内的个体的数目，κ是非零有理数，并且μ是(i)所述一组个体药物安全性得分的平均值或(ii)所述一组个体药物安全性得分的曲线下面积；以及

将所述受试者药物安全性得分与所述阈值(T)进行比较。

38.根据权利要求34所述的方法，其中，确定所述药物对所述受试者的安全性的步骤包括以下步骤：

获得通过以下等式计算的所述群体的群体药物安全性得分：

其中，S_d是所述群体的群体药物安全性得分，d_i是所述群体内的第i(从1到n)个个体的个体药物安全性得分，并且n是所述群体内的个体的数目；以及

将所述受试者药物安全性得分与所述群体药物安全性得分(Sd)进行比较。

39.根据权利要求34至38中任一项所述的方法，还包括基于所述药物对所述受试者的安全性来开出所述药物的处方的步骤。

40.一种包括存储的指令的计算机可读介质，其中，所述指令在由处理器执行时使所述处理器执行根据权利要求1至39中任一项所述的方法。

41.根据权利要求40所述的方法，其中，所述指令还使所述处理器提供与所述药物的安全性、所述药物组的安全性或者所述药物对所述受试者的安全性有关的报告。

42.一种用于评估药物的安全性的系统，包括：

根据权利要求41所述的计算机可读介质；以及

输出单元，提供与所述药物的安全性有关的报告。

43.根据权利要求42所述的系统，其中，所述输出单元通过电子邮件、SMS消息传递、网络发布、电话呼叫、电子消息传递、上传或下载来提供所述报告。

44.根据权利要求42至43中任一项所述的系统，还包括数据库，以搜索或检索关于与所述药物的药效学或药代动力学相关联的一个或更多个基因的信息。