CN112951327B

CN112951327B - 药物敏感预测方法、电子设备及计算机可读存储介质

Info

Publication number: CN112951327B
Application number: CN202110175355.4A
Authority: CN
Inventors: 马少华; 方璐; 范家旗; 冯懿琳; 王旭康; 王子天; 戴琼海
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2023-10-27
Anticipated expiration: 2041-02-09
Also published as: WO2022170909A1; CN112951327A

Abstract

本申请公开了一种药物敏感预测方法、电子设备及计算机可读存储介质，涉及药物检测技术领域，通过获取待训练癌细胞组织的基因测序数据和药物特征数据，根据药物特征数据对基因测序数据进行预处理后得到基因样本数据，根据基因样本数据和药物特征数据进行验证处理，得到预测模型和基因预测列表，通过基因预测列表和预测模型对待测癌细胞组织进行药物敏感性预测，能够快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高药效预测效率。

Description

药物敏感预测方法、电子设备及计算机可读存储介质

技术领域

本申请涉及药物检测技术领域，尤其是涉及一种药物敏感预测方法、电子设备及计算机可读存储介质。

背景技术

在精准医学时代，基于患者的临床特征和基因组学对癌症患者的药物反应性预测，对于协助临床医生制定有效且毒性低的治疗方案至关重要。药物反应的预测模型通常会在不同的数据集上进行训练。目前最广泛应用的药物预测模型是基于监督学习技术，采用的监督学习方法包括回归模型和分类模型。前者可生成具体的药物敏感性数值，如IC50(The half maximal inhibitory concentration，半数抑制浓度)，后者则可生成药物反应的水平，如高灵敏度的药物反应和低灵敏度的药物反应。

目前存在一些研究和方法，致力于发现基因组/转录组和癌症用药效果的关系，从而辅助癌症给药方案，提高癌症用药疗效。但是目前的研究和方案距离实际应用还有一段距离，无法高效地应用于临床场景。例如，关于利用监督学习的手段根据基因组或转录组预测药物的反应性，存在一定的不足：数据分析局限于现有的数据库，缺乏实验和临床验证；方法基于RNA测序技术，而非小基因集，无法应用快速的基因表达测定手段，而RNA测序需要几天至几周的时间，不适用于临床常需要的术中或术后立即用药的情形；药效预测仅止步于数据分析，未提出具体、快速的应用方案，实际应用困难、成本高、时间久。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种药物敏感预测方法，能够快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高药效预测效率。

本申请还提出一种具有上述药物敏感预测方法的电子设备。

本申请还提出一种具有上述药物敏感预测方法的计算机可读存储介质。

根据本申请的第一方面实施例的药物敏感预测方法，包括：获取待训练癌细胞组织的基因测序数据和药物特征数据；根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据；根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表；通过所述预测模型和所述基因预测列表对待测癌细胞组织进行药物敏感性预测。

根据本申请实施例的药物敏感预测方法，至少具有如下有益效果：通过获取待训练癌细胞组织的基因测序数据和药物特征数据，根据药物特征数据对基因测序数据进行预处理后得到基因样本数据，根据基因样本数据和药物特征数据进行验证处理，得到预测模型和基因预测列表，通过基因预测列表和预测模型对待测癌细胞组织进行药物敏感性预测，能够快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高药效预测效率。

根据本申请的一些实施例，所述基因测序数据包括第一测序数据，所述药物特征数据包括药物敏感性数据；对应的，所述获取待训练癌细胞组织的基因测序数据和药物特征数据，包括：基于基因组数据库获取待训练癌细胞组织的所述第一测序数据和对应的所述药物敏感性数据。

根据本申请的一些实施例，所述根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据，包括：对所述第一测序数据进行标准化处理，得到第一样本数据；根据所述第一样本数据和所述药物敏感性数据的药敏相关系数对所述第一样本数据进行筛选，得到第二样本数据；根据所述药物敏感性数据对所述第二样本数据进行评分判定，得到所述第二样本数据的评分参数；基于所述评分参数对所述第二样本数据进行筛选处理，得到所述基因样本数据。

根据本申请的一些实施例，所述根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表，包括：获取所述基因样本数据与所述药物敏感性数据的药敏相关系数，获取所述基因样本数据的评分参数，所述基因样本数据包括多个基因片段；根据所述药敏相关系数和所述评分参数对所述多个基因片段进行降序排列；对降序排列后的所述多个基因片段进行验证处理，得到所述预测模型的模型参数和基因列表数目；根据所述基因列表数目生成所述基因预测列表，根据所述模型参数确定所述预测模型。

根据本申请的一些实施例，所述基因测序数据包括第二测序数据，所述药物特征数据包括药物效果分级数据；对应的，所述获取待训练癌细胞组织的基因测序数据和药物特征数据，包括：基于基因组图谱数据库获取待训练癌细胞组织的第二测序数据和药物效果分级数据。

根据本申请的一些实施例，所述根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据，包括：对所述第二测序数据进行标准化处理，得到第三样本数据；根据所述药物效果分级数据对所述第三样本数据进行检验，得到所述基因样本数据。

根据本申请的一些实施例，所述根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表，包括：获取所述基因样本数据的多个基因片段的基因评分；根据所述基因评分对所述多个基因片段进行降序排列；对降序排列后的所述多个基因片段进行交叉验证，得到所述预测模型的模型参数和基因列表数目；根据所述基因列表数目和对应的所述多个基因片段生成所述基因预测列表，根据所述模型参数确定所述预测模型。

根据本申请的一些实施例，所述通过所述预测模型和所述基因预测列表对所述待测癌细胞组织进行药物敏感性预测，包括：根据所述基因预测列表获取待测癌细胞组织对应的基因片段；获取所述基因片段的基因表达量；将所述基因表达量输入所述预测模型中，获取所述待测癌细胞组织的药物敏感性结果。

根据本申请的第二方面实施例的电子设备，包括：至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如第一方面所述的药物敏感预测方法。

根据本申请的电子设备，至少具有如下有益效果：通过执行第一方面实施例中提到的药物敏感预测方法，能够快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高药效预测效率。

根据本申请的第三方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的药物敏感预测方法。

根据本申请的计算机可读存储介质，至少具有如下有益效果：通过执行第一方面实施例中提到的药物敏感预测方法，能够快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高药效预测效率。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1为本申请实施例中药物敏感预测方法的一具体流程示意图；

图2为本申请实施例中药物敏感预测方法的步骤S200的一具体流程示意图；

图3为本申请实施例中药物敏感预测方法的步骤S200的另一具体流程示意图；

图4为本申请实施例中药物敏感预测方法的步骤S300的一具体流程示意图；

图5为本申请实施例中药物敏感预测方法的步骤S300的另一具体流程示意图；

图6为本申请实施例中药物敏感预测方法的步骤S400的一具体流程示意图；

图7为本申请实施例中药物敏感预测方法的一具体应用实例图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

需要说明的是，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同流程图中的顺序执行所示出或描述的步骤。如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“以下”，均应理解为包括本数。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本申请的实施例，并且除非另外要求，否则不会对本申请的范围施加限制。大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

需要说明的是，如无特殊说明，在实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

基于此，本申请实施例提供了一种药物敏感预测方法、电子设备及计算机可读存储介质，能够基于较少的基因数量，对癌症药效进行快速预测，避免了药效预测对RNA测序等耗时较长的测序技术的依赖，并且减少药效预测的成本。

第一方面，本申请实施例提供了一种药物敏感预测方法。

在一些实施例中，参照图1，示出了本申请实施例中药物敏感预测方法的流程示意图。其具体包括步骤：

S100，获取待训练癌细胞组织的基因测序数据和药物特征数据；

S200，根据药物特征数据对基因测序数据进行预处理，得到基因样本数据；

S300，根据基因样本数据和药物特征数据进行验证处理，得到预测模型和基因预测列表；

S400，通过预测模型和基因预测列表对待测癌细胞组织进行药物敏感性预测。

在步骤S100中，本申请实施例中需要获取待训练癌细胞组织的基因测序数据和对应的不同药物的药物特征数据，其中基因测序数据是指待训练癌细胞组织的RNA(核糖核酸，Ribonucleic Acid)测序数据；待测药物的药物特征数据是指应用于待训练癌细胞组织的不同药物的敏感性数据或者药物效果等数据，例如该待训练癌细胞组织相关药物的药物敏感性的IC50(half maximal inhibitory concentration，半抑制浓度)数据，IC50为50％抑制浓度时所对应的浓度，半数抑制是用来衡量抗体灵敏度；IC50的数值越低,说明抗体的灵敏度越高；例如关于癌细胞组织的药物效果分级数据，临床效果分级数据用于表示该癌细胞组织的临床用药的效果，具备不同的效果等级。

在一些实施例中，本申请实施例中的待训练癌细胞组织可以是从基因数据库中挑选出来的任一癌细胞组织；也可以是从基因数据库中获取的临床病人的癌细胞组织样本；该待训练癌细胞组织用于为后续建立预测模型提供训练数据。

以挑选出的待训练的癌细胞组织为例，可以基于基因组数据库进行癌细胞组织的基因测序数据和待测药物的药物特征数据的获取，其中基因组数据库为抗癌药物敏感性基因组学数据库(Genomics of Drug Sensitivity in Cancer，GDSC)和癌细胞系百科全书(Cancer Cell Line Encyclopedia，CCLE)。具体地说，通过查阅抗癌药物敏感性基因组学数据库和癌细胞系百科全书得到所需要的的相关资料，即癌细胞组织的基因测序数据和待测药物的药物特征数据。

抗癌药物敏感性基因组学数据库(Genomics of Drug Sensitivity in Cancer，GDSC)由英国桑格研究院开发，收集肿瘤细胞对待测药物的敏感度和反应。癌基因组的变异会影响临床治疗的效果，不同的靶点对药物的反应也有很大不同。因此这类数据对于发现潜在的肿瘤治疗靶点之分重要。GDSC的数据来自75000个实验，描述了约200个抗癌药物在1000多种肿瘤细胞中的反应。该数据库中的癌基因组突变信息来自COSMIC数据库，包括癌基因点突变、基因扩增与丢失、组织类型以及表达谱等。用户可以从化合物、癌基因和细胞系3个层面对数据库进行检索，癌基因或细胞系对不同药物的反应会被详细列出，并且结果会以图形化的界面加以展示，包括统计分析，火山图及相关文献等。检索结果以及整个数据库都可由用户下载以进行后续分析。

癌细胞系百科全书通过对覆盖三十多种组织来源的947种人类癌细胞系进行了大规模深度测序，整合了DNA突变、基因表达和染色体拷贝数等遗传信息。

通过抗癌药物敏感性基因组学数据库和癌细胞系百科全书直接进行查找，获得癌细胞组织对应的第一测序数据和对应的药物敏感性数据，其中第一测序数据是指癌细胞组织的RNA测序数据，RNA测序数据是通过RNA-seq(转录组测序)技术测序得到的数据，转录组指在某一生理条件下，细胞内所有转录组产物的集合。转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和，主要包括mRNA和ncRNA。药物敏感性数据是指关于该癌细胞组织相关药物的IC50数据。

以临床病人的癌细胞组织样本为例，基于肿瘤基因组图谱数据库(The CancerGenome Atlas，TCGA)获取到临床病人的癌细胞组织样本所对应的第二测序数据和药物效果分级数据，其中肿瘤基因组图谱数据库收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据、基因组变异、mRNA(信使RNA)表达、miRNA(micro RNA)表达、甲基化等数据，是癌症研究者很重要的数据来源。

在步骤S200中，根据获取到的药物特征数据对获取到癌细胞组织的基因测序数据进行预处理，得到预处理后的基因样本数据。

在一些实施例中，以挑选出需要预测的癌细胞组织为例，参考图2，步骤S200具体包括步骤：

S211，对第一测序数据进行标准化处理，得到第一样本数据；

S212，根据第一样本数据和药物敏感性数据的药敏相关系数对第一样本数据进行筛选，得到第二样本数据；

S213，根据药物敏感性数据对第二样本数据进行评分判定，得到第二样本数据的评分参数；

S214，基于评分参数对第二样本数据进行筛选处理，得到基因样本数据。

在步骤S211中，对获取到的第一测序数据进行标准化处理，得到第一样本数据，其中标准化处理是指将第一测序数据即对待训练癌细胞组织的RNA测序数据进行标准化基因长度和测序深度，即可得到第一测序数据对应的TPM(Transcripts Per Kilobase of exonmodel per Million mapped reads，每千个碱基的转录每百万映射读取的转录本数)，再根据第一测序数据的TPM对第一测序数据进行筛选，得到第一样本数据，例如筛选TPM低于1的第一测序数据，得到筛选后的第一测序数据，即第一样本数据。在实际应用中，第一测序数据为多个基因片段，通过对第一测序数据进行标准化处理，即可基于多个基因的基因表达量进行第一测序数据的筛选，筛选掉TPM低于1的基因片段，保留TPM高于1的基因片段。

在步骤S212中，根据第一样本数据和对应的待测药物的药物敏感性数据的药敏相关系数，对第一样本数据进行筛选，得到第二样本数据。其中药敏相关系数是第一样本数据中的各个基因的TPM和第一样本数据相关用药即某一待测药物的IC50数据之间的皮尔逊相关系数(Pearson correlation coefficient)，其中皮尔逊相关系数用于度量两个变量之间的相关程度，其值介于-1与1之间，其中两个变量分别为基因的TPM和样本用药的IC50数据。通过计算第一样本数据的TPM和对应的某一药物的药物敏感性数据即IC50数据的皮尔逊相关系数，筛选掉皮尔逊相关系数绝对值低于0.1的第一样本数据即皮尔逊相关系数系数绝对值低于0.1的基因片段，得到第二样本数据。

在步骤S213和步骤S214中，通过药敏相关系数对第一样本数据筛选得到第二样本数据后，根据相关用药的药物敏感性数据对第二样本进行评分判定，得到第二样本数据的评分参数，通过评分参数对第二样本数据进行筛选处理，得到筛选后的基因样本数据。例如，基于费雪线性判别方法进行评分判定，通过计算待测药物所适用的部分癌细胞组织的基因表达量的均值和标准差，基于计算得到的均是和标准差进行评分参数的计算，根据计算得到的评分参数对癌细胞组织所对应的基因进行筛选，得到筛选后的基因，即基因样本数据，在实际应用中，基因样本数据为多个基因片段的集合。在实际应用中，计算该药物的药物敏感性数据即IC50数据最高的癌细胞组织系中的15％的基因片段的基因表达量的均值E1和标准差STD1，再计算药物的药物敏感性数据即IC50数据最低的癌细胞组织中的15％的基因片段的基因表达量的均值E2和标准差STD2，根据计算得到的基因表达量的均值E1、均值E2、标准差STD1和标准差STD2，通过公式(E1-E2)/(STD1+STD2)进行计算得到评分参数，保留评分参数最高的部分的第二样本数据，作为筛选得到的基因样本数据，其中基因样本数据包括若干个基因片段，该基因片段的数目选取可以根据实际需求进行设定，以根据数目对第二样本数据进行筛选。

在一些实施例中，以临床病人的癌细胞组织为例，参考图3，步骤S200具体包括步骤：

S221，对第二测序数据进行标准化处理，得到第三样本数据；

S222，根据药物效果分级数据对第三样本数据进行检验，得到基因样本数据。

在步骤S221中，对获取到的第二测序数据进行标准化处理，得到第三样本数据，其中标准化处理是指将第二测序数据即癌细胞组织的RNA测序数据标准化基因长度，再标准化测序深度，即可得到第二测序数据对应的TPM，再根据第二测序数据的TPM对第二测序数据进行筛选，得到第三样本数据，例如筛选TPM低于1的第二测序数据，得到筛选后的第二测序数据，即第三样本数据。在实际应用中，第二测序数据为多个基因片段，通过对第一测序数据进行标准化处理，即可基于多个基因片段的表达量进行第二测序数据的筛选，筛选掉TPM低于1的基因片段，保留得到TPM高于1的基因片段。

在步骤S222中，根据待测药物对癌细胞组织的药物效果分级数据对第三样本数据进行检验，得到检验处理后的基因样本数据。具体地说，基于曼-惠特尼U检验方法对第三样本数据进行检验，根据药物效果分级数据划分第三样本数据为有效数据或无效数据，计算有效数据所对应的第三样本数据中的基因片段的基因表达量和无效数据所对应的第三样本数据中的基因片段的基因表达量，作为计算得到的数据值，保留数据值小于一定数值的基因片段，例如小于0.1的基因片段，作为基因样本数据。其中从癌症基因组图谱中获取到的待测药物针对某一癌细胞组织的药物效果分级数据包括多种数据，例如“完全缓解”，“部分缓解”，“疾病稳定”，“疾病进展”等，其中可以定义“完全缓解”，“部分缓解”，“疾病稳定”为“有效”，“疾病进展”为“无效”，则可以根据药物效果分级数据将第三样本数据分为有效样本数据或无效样本数据。

在步骤S300中，根据预处理得到的基因样本数据和待测药物的药物特征数据进行验证，得到待测药物的预测模型和基因预测列表。其中待测药物的预测模型是指基于预设的数学模型进行验证，得到该预测模型的最优参数；基因预测列表是指癌细胞组织中关于该待测药物的药物敏感性预测起到关键预测作用的基因片段。

在一些实施例中，以挑选出需要预测的癌细胞组织为例，参考图4，步骤S300具体包括步骤：

S311，获取基因样本数据与药物敏感性数据的药敏相关系数，获取基因样本数据的评分参数；

S312，根据药敏相关系数和评分参数对多个基因片段进行降序排列；

S313，对降序排列后的多个基因片段进行验证处理，得到预测模型的模型参数和基因列表数目；

S314，根据基因列表数目生成基因预测列表，根据模型参数确定预测模型。

在步骤S311和步骤S312中，获取基因样本数据中的多个基因片段与药物的药物敏感性数据所对应的药敏相关系数，以及获取基因样本数据的评分参数，其中药敏相关系数是指在步骤S212中获取到的药敏相关系数，评分参数则是指步骤S213中获取到的评分参数，通过结合药敏相关系数和评分参数，在一定的权值分配下，计算基因样本数据中各个基因片段所对应的评分得分，根据计算得到的各个基因片段的评分得分对其进行降序排列。在实际应用中，设定药敏相关系数为S1，对应的权值为0.3，评分参数即费雪判别得分为S2，对应的权值为0.7，则基因片段的评分计算为S＝0.3*S1+0.7*S2。根据计算得到的基因片段进行依次降序排列，得到降序排列后的基因样本数据。

在步骤S313和步骤S314中，对降序排列后的基因样本数据中的多个基因片段进行验证处理，得到预测模型的模型参数和基因列表数目。其中验证处理是指，依次选取排列后的基因样本中的前n个基因片段，其中n的取值可以根据实际需求进行设定，例如设定n的取值范围为10个至30个基因。基于K近邻回归模型，枚举回归模型的模型参数k，选取最接近的k个临近点，对待训练癌细胞组织所对应的药物敏感性数据进行预测，并进行5折交叉验证，得到预测结果。在实际应用中，基于获取到的基因样本数据，根据K近邻算法建立对关于待训练癌组织细胞对某一药物的预测模型，该预测模型具备最优的模型参数，即具备最优的k值，以及根据具体的基因样本数据中的基因片段的数目即n值，例如前n个基因片段能够得到该预测模型的最优模型参数，则该基因样本数据中的前n个基因片段组成基因预测列表。在可能实施的应用实例中，模型参数的获取是将基于预测模型进行交叉验证后得到的接收者操作特征曲线(Receiver operating characteristic，ROC)的曲线下面积(Area undercurve，AUC)最大的情况对应的基因片段数目n和邻近参数k确定为最终的模型参数。

在可能实施的应用实例中，以待训练癌细胞组织为结直肠癌细胞系为例，GDSC数据库中存有各细胞系的第一测序数据即RNA测序数据和细胞系在不同药物作用下的IC50数据，用药药物选取为紫杉醇、5-氟尿嘧啶、环磷酰胺、顺铂四种化疗药，针对上述条件进行示例性说明。

通过GDSC数据库获取结直肠癌细胞系的RNA测序数据和紫杉醇的IC50数据，通过对RNA测序数据进行预处理后，对RNA测序数据进行评分排序；选取基因评分排序后的前10个基因，分别针对K近邻回归模型的k值为1至30的情况进行紫杉醇的IC50数据的预测，并对预测结果进行交叉验证，计算出AUC的值，记录下不同K值所得到的最大的AUC值，以及AUC值最大时所对应的k值；再选取基因评分排序后的前11个基因，分别针对K近邻回归模型的k值为1至30的情况进行紫杉醇的IC50数据的预测，并对预测结果进行交叉验证，计算出新的AUC的值，记录下不同K值所得到的新的最大的AUC值，以及新的AUC值最大时所对应的k值，针对基因选取数目n值为10至30的情况重复上述操作，最终得到最大的AUC值以及AUC值所对应的n值和k值。针对该n_max和k_max作为该K近邻回归模型的模型参数。并且根据得到的n_max可以确定针对紫杉醇的药敏预测的基因预测列表包括基因评分排序的前n_max个基因，以及K近邻回归模型的最优模型参数k_max。

再针对另外3种药5-氟尿嘧啶、环磷酰胺、顺铂重复上述操作，得到每种药物的基因预测列表和对应的K近邻回归模型的最优参数k_max。由此可知，针对四种化合药能够构建得到各自对应的预测模型以及预测模型所对应的最优参数k_max，并且四种化和药存在各自对应的基因预测列表；在实际应用中，可以将四种化合药的基因预测列表汇聚成一个大的基因预测列表集合，当需要对待测的癌细胞组织进行预测时，则可以直接根据该基因预测列表集合提取对应的多个关键基因片段，多个关键基因片段不仅仅针对单个化合药，从而保证数据的充分性。

当需要预测一个新的结直肠癌细胞系的癌细胞组织针对这四种药物的药敏表现时，可以通过上述建立的K近邻回归模型对其进行药敏预测，预测出药物作用的IC50值，从而能够判断各个药物对应的药物反应情况，并且能够针对各自的药物反应情况高效地制定合适的用药方案。

在一些实施例中，以临床病人的癌细胞组织为例，参考图5，步骤S300具体包括步骤：

S321，获取基因样本数据的多个基因片段的基因评分；

S322，根据基因评分对多个基因片段进行降序排列；

S323，对降序排列后的多个基因片段进行交叉验证，得到预测模型的模型参数和基因列表数目；

S324，根据基因列表数目和对应的多个基因片段生成基因预测列表，根据模型参数确定预测模型。

在步骤S321和步骤S322中，获取基因样本数据中的多个基因片段的基因评分，其中基因评分是通过步骤S221中所提到的曼-惠特尼U检验方法计算得到的基因片段的P值的相反数，根据获取到的基因评分的大小对多个基因片段进行降序排列。

在步骤S323中，对降序排列后的多个基因片段进行交叉验证，得到预测模型的模型参数和基因列表数目，作为多个基因片段所针对的某一药物的药效预测模型的模型参数。其中预测模型是指某一药物针对某一临床病人的癌细胞组织的药效预测的K近邻分类模型，该模型具有关于该癌细胞组织的最优模型参数，模型参数包括最优的近邻参数和基因片段的参数。具体地说，依次选取降序排列后的前n个基因片段，其中n的取值可以根据实际需求进行选取，例如n取值为10至30，并枚举K近邻分类模型的参数k，参数k表示选取k个临近点，其中k的取值可以根据实际需求进行选取，例如k取值为1至30，根据枚举的参数k所对应的K近邻回归模型预测药物是否有效，并根据“有效”或者“无效”做5折交叉验证，根据交叉验证后得到的新的预测结果，计算新的预测结果的准确率和F1评分(F1-score)。确定每一种参数k和n所得到的准确率和F1评分中数值最大的情况所对应的模型参数k和n作为预测模型的最优模型参数，并且前n个基因片段组成基因预测列表。其中F1评分是统计学中用来衡量二分类模型精确度的一种指标。

在可能实施的应用实例中，以临床病人的癌细胞组织样本为结直肠癌细胞系，待测药物为5-氟尿嘧啶为例，针对上述条件进行示例性说明。

通过TCGA数据库获取临床病人的结直肠癌细胞系样本的RNA测序数据和5-氟尿嘧啶的临床用药的药效分级数据，对RNA测序数据进行标准化处理后，舍弃TPM低于1的基因，并且计算有效样本数据和无效样本数据之间的各个基因片段对应的基因表达量的数据值，通过曼-惠特尼U检验方法得到的P值，并针对P值大小对基因片段进行升序排列，筛选掉P值大于0.1的基因片段，保留P值小于0.1的基因片段，并根据药物效果分级数据标记RNA测序数据中的有效数据或者无效数据。

以n取值10至30为例，先取结直肠癌细胞中根据基因评分排序后的前10个基因片段，分别对预测模型的参数k等于1至30的情况，用K近邻分类模型预测5-氟尿嘧啶的IC50数据值，并针对IC50数据值进行5折交叉验证，得到该5-氟尿嘧啶对结直肠癌细胞样本的预测结果即有效或者无效，通过预测结果计算出各个模型参数所对应的K近邻分类模型的预测结果的准确率，记录下最大的准确率，以及最大准确率所对应的参数k值和n值；再去基因评分排序的前11个基因，重复枚举K近邻分类模型的参数k等于1至30的情况，重新记录下新的最大的准确率数值和对应的参数k值和n值，或者当前最大准确率大于n等于10时所得到的最大准确率，则记录该新的准确率数据和对应的参数k值和n值，若不大于则无需记录；以此类推，针对n等于10至30的情况重复执行上述操作，最终得到所有情况下的最大的准确率以及对应的n_max和k_max值。例如，对于结直肠癌和5-氟尿嘧啶的预测结果，得到的n_max的值为15，k_max的值为5，则选取前15个基因片段作为基因预测列表，即关键预测基因列表。

在本申请实施例中，通过执行步骤S300能够获取到进行药效预测所需的基因集即基因预测列表，使得在应用到实际药效预测时，可以通过获取少量的基因，实现对药物的药效预测，提升预测速度以及减少预测成本；并且避免了药效预测对RNA测序等耗时长的测序技术的依赖，可快速进行病人的癌症药效预测，适用于术中或术后进行个体化用药。

在步骤S400中，通过生成的预测模型和基因预测列表进行药物敏感性预测，例如对某一种待测药物关于某一癌细胞组织的药物敏感性预测。具体地说，通过建立起的预测模型，以及基因预测列表中的关键基因，对癌细胞组织进行快速药物敏感性预测。

在一些实施例中，参考图6，步骤S400具体还包括：

S410，根据基因预测列表获取待测癌细胞组织对应的基因片段；

S420，获取基因片段的基因表达量；

S430，将基因表达量输入预测模型中，获取待测癌细胞组织的药物敏感性结果。

在步骤S410和步骤S420中，根据执行步骤S300获取到的基因预测列表，从待测癌细胞组织中提取对应的关键的基因片段，该基因片段的提取数目根据基因预测列表中的数目进行选取；可以基于qPCR技术或者基因芯片等技术从癌细胞组织中提取出对应的基因片段后，快速测量各个基因片段的基因表达量。

在步骤S430和步骤S440中，将各个基因片段的基因表达量通过待训练癌细胞组织所进行的标准化处理后，输入到预测模型中，输出该待测癌细胞组织的关于预测模型所对应的某一药物是否有效的预测结果，该预测结果表示该预测模型所对应的药物对当前癌细胞组织的药物敏感性结果。需要说明的是，在实际应用中，通过执行步骤S100至步骤S300，可以建立多个不同的预测模型，不同的预测模型针对不同的待测药物进行建立，而待测药物的选取则是针对癌细胞组织的类别进行选取，例如本申请实施例中，癌细胞组织的类别选用结直肠癌细胞系为例，则针对结直肠癌细胞系选用紫杉醇、5-氟尿嘧啶、环磷酰胺、顺铂四种化疗药，则针对该四种化疗药分别执行步骤S100至步骤S300进行预测模型和基因预测列表的生成，每一种化疗药对应各自的预测模型和基因预测列表。当需要预测某一化疗药对临床病人的用药效果或者对结直肠癌癌细胞系的用药效果时，则选取对应的预测模型，输入提取到的癌细胞组织的基因样本，获取对应的基因表达量进行用药效果预测。可以预估某一化疗药对临床病人的癌细胞组织预测是否有效；也可以预估某一化疗药对同一系别的癌细胞组织的用药效果即IC50数据值等。

在可能实施的应用实例中，以预测某一药物对癌细胞系的IC50数据为例，本申请实施例中通过GDSC、CCLE数据库中的待训练癌细胞系的RNA测序数据和表示药物敏感性的IC50数据，对获取到的RNA测序数据进行预处理，该预处理包括基于基因表达量进行过滤、基于基因表达量与IC50数据相关性进行过滤以及通过费雪线性判断进行过滤，最终保留部分基因片段；用K近邻回归模型进行交叉验证，枚举K近邻回归模型的参数，挑选出使交叉验证准确率最高的模型参数，确定预测模型的最优参数以及构建生成的基因预测列表；当对癌细胞组织的药物敏感性进行预测时，则可以根据基因预测列表获取癌细胞组织的关键基因片段，通过qPCR技术或基因芯片技术获取关键基因片段的基因表达量，将基因表达量作为预测模型的输入参数，得到该癌细胞组织的药物敏感性的预测结果即预测IC50数据值。

在可能实施的应用实例中，以预测某一药物对临床病人的癌细胞组织是否有效为例，通过TCGA数据库获取临床病人的癌组织细胞样本的RNA测序数据以及对应的临床用药的药物效果分级数据；对获取到的RNA测序数据进行预处理，其中预处理包括基于基因表达量进行过滤和通过曼-惠特尼U检验方法进行过滤，得到预处理后的基因片段；用K近邻回归模型进行交叉验证，枚举K近邻回归模型的参数，挑选出使交叉验证准确率最高的模型参数，确定预测模型的最优参数以及构建生成的基因预测列表；当需要对临床病人的癌细胞组织的用药效果进行预测时，可以根据基因预测列表获取临床病人的癌细胞组织的关键基因片段，通过qPCR技术或者基因芯片技术获取关键基因片段的基因表达量，将基因表达量进行标准化处理后作为预测模型的输入参数，得到预测模型所对应的药物对临床病人的癌细胞组织的预测结果即药效预测，预测该药物是否有效或无效，可以根据用药是否有效对临床病人指定适宜的方法进行用药。

在可能实施的应用实例中，针对于临床病人的肿瘤癌细胞组织进行药效预测，参考图7，针对该肿瘤癌细胞组织存在若干个候选药物，例如候选药物1、候选药物2以及候选药物3，每种候选药物都有对应的基因预测列表，分别为基因预测列表1、基因预测列表2和基因预测列表3，其中基因预测列表在实际应用中包含大约十余个对应的关键基因，可以将三种候选药物的基因预测列表汇集成一个集合即基于预测列表集；并且，候选药物1、候选药物2和候选药物3有各自训练好的预测模型，分别为预测模型1、预测模型2和预测模型3；另一方面，获取临床病人的肿瘤癌细胞组织，通过qPCR技术或基因芯片技术结合基因预测列表获取对应的基因片段的基因表达量，对基因表达量进行标准化处理后，作为各个候选药物所对应的预测模型的输入，从而得到候选药物1、候选药物2和候选药物3各自对应的药效预测，即预测候选药物1、候选药物2和候选药物3对该临床病人的肿瘤癌细胞组织是否有效，根据该预测结果制定临床病人的个体化给药方案，实现精准医疗

在本申请实施例中，通过使用qPCR技术或基因芯片对基因片段进行快速测定基因表达量，能够缩短整个药效预测的耗时，便于在临床手术中或者临床手术后及时给鱼用药方案建议，有效避免了药效预测对RNA测序等耗时长的测序技术的依赖；并且通过减少药效预测所需的基因集，快速精确地实现对临床病人的药物反应性预测，减少预测成本和时间成本，提高预测效率。

第二方面，本申请实施例还提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行第一方面实施例中提到的药物敏感预测方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本申请第一方面实施例中提到的药物敏感预测方法。处理器通过运行存储在存储器中的非暂态软件程序以及指令，从而实现上述第一方面实施例中提到的药物敏感预测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述第一方面实施例中提到的药物敏感预测方法。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述第一方面实施例中提到的药物敏感预测方法所需的非暂态软件程序以及指令存储在存储器中，当被一个或者多个处理器执行时，执行上述第一方面实施例中提到的药物敏感预测方法。

第三方面，本申请实施例还提供了计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于：执行第一方面实施例中提到的药物敏感预测方法；

在一些实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被第二方面实施例的电子设备中的一个处理器执行，可使得上述一个或多个处理器执行上述第一方面实施例中提到的药物敏感预测方法。

以上所描述的设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

Claims

1.药物敏感预测方法，其特征在于，包括：

获取待训练癌细胞组织的基因测序数据和药物特征数据；所述基因测序数据包括第一测序数据，所述药物特征数据包括药物敏感性数据；

根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据；

根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表；

通过所述预测模型和所述基因预测列表对待测癌细胞组织进行药物敏感性预测；

其中，所述根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表，包括：

获取所述基因样本数据与所述药物敏感性数据的药敏相关系数，获取所述基因样本数据的评分参数，所述基因样本数据包括多个基因片段；

根据所述药敏相关系数和所述评分参数对所述多个基因片段进行降序排列；

对降序排列后的所述多个基因片段进行验证处理，得到所述预测模型的模型参数和基因列表数目；

根据所述基因列表数目生成所述基因预测列表，根据所述模型参数确定所述预测模型。

2.根据权利要求1所述的药物敏感预测方法，其特征在于，所述根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据，包括：

对所述第一测序数据进行标准化处理，得到第一样本数据；

根据所述第一样本数据和所述药物敏感性数据的药敏相关系数对所述第一样本数据进行筛选，得到第二样本数据；

根据所述药物敏感性数据对所述第二样本数据进行评分判定，得到所述第二样本数据的评分参数；

基于所述评分参数对所述第二样本数据进行筛选处理，得到所述基因样本数据。

3.根据权利要求1所述的药物敏感预测方法，其特征在于，所述基因测序数据包括第二测序数据，所述药物特征数据包括药物效果分级数据；

对应的，所述获取待训练癌细胞组织的基因测序数据和药物特征数据，包括：

基于基因组图谱数据库获取待训练癌细胞组织的第二测序数据和药物效果分级数据。

4.根据权利要求3所述的药物敏感预测方法，其特征在于，所述根据所述药物特征数据对所述基因测序数据进行预处理，得到基因样本数据，包括：

对所述第二测序数据进行标准化处理，得到第三样本数据；

根据所述药物效果分级数据对所述第三样本数据进行检验，得到所述基因样本数据。

5.根据权利要求4所述的药物敏感预测方法，其特征在于，所述根据所述基因样本数据和所述药物特征数据进行验证处理，得到预测模型和基因预测列表，包括：

获取所述基因样本数据的多个基因片段的基因评分；

根据所述基因评分对所述多个基因片段进行降序排列；

对降序排列后的所述多个基因片段进行交叉验证，得到所述预测模型的模型参数和基因列表数目；

根据所述基因列表数目和对应的所述多个基因片段生成所述基因预测列表，根据所述模型参数确定所述预测模型。

6.根据权利要求1或5所述的药物敏感预测方法，其特征在于，所述通过所述预测模型和所述基因预测列表对所述待测癌细胞组织进行药物敏感性预测，包括：

根据所述基因预测列表获取待测癌细胞组织对应的基因片段；

获取所述基因片段的基因表达量；

将所述基因表达量输入所述预测模型中，获取所述待测癌细胞组织的药物敏感性结果。

7.电子设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如权利要求1至6任一项所述的药物敏感预测方法。

8.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的药物敏感预测方法。