CN116403731A

CN116403731A - 基于深度学习的错义突变对临床药效影响预测方法及系统

Info

Publication number: CN116403731A
Application number: CN202310382801.8A
Authority: CN
Inventors: 林关宁; 刘喆
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-07

Abstract

本发明提供了一种基于深度学习的错义突变对临床药效影响预测方法及系统，包括：步骤S1：获取并预处理药物和突变蛋白序列数据集；步骤S2：将药物输入数据进行规范化；步骤S3：将突变蛋白序列输入数据进行规范化；步骤S4：根据规范后的数据搭建深度学习模型，输出预测分类。本发明可以在仅使用药物自身结构属性和突变蛋白序列的条件下进行突变对临床药效影响的预测；由于本发明使用的特征维度较少，本发明支持高通量突变药效影响预测，计算开销小；本发明可以在保持可解释性的前提下，用深度学习方法进行高精度的突变对临床用药影响的预测，且输入特征允许不包含临床用药信息和晶体结构测定实验信息。

Description

基于深度学习的错义突变对临床药效影响预测方法及系统

技术领域

本发明涉及生物学领域，具体地，涉及一种基于深度学习的错义突变对临床药效影响预测方法及系统。

背景技术

本世纪最大的挑战之一是精准医疗，特别是对个性化疾病药物的探索。例如在癌症领域，近十几年来靶向癌症治疗与生存率的提高显著相关，因此已成为癌症药物治疗的标准策略之一。然而，许多疾病的靶向药物治疗会出现药物耐药的问题，许多研究探讨了耐药机制出现的原因，表示耐药突变的发生可能是其中重要的原因之一，使微环境发生改变从而逃避靶向药物的影响。值得注意的是，寻找成功的治疗策略需要多种实验条件、细胞系和不同的时间序列建模技术，所有这些与传统的假设驱动实验方法都是代价昂贵和耗时的。因此，基于大数据开发计算方法预测突变对临床药效的影响，不仅可以节约计算成本，也可以为临床用药提供指导和预警。

近年来，大规模药物筛选项目数据的公开发布促进了精准医疗的发展。已经有一些工具被发布用于预测突变对药物临床药效的改变和影响。现有的工具可以大致分为两类，一类是通过收集生物实验测定数据，预测突变对于蛋白-药物结合亲和力的改变(ΔΔG)，该值是一个连续数值；另一类是通过收集临床文献标注数据，预测突变是否会改变药物的药效，也即判断一个突变是否为耐药突变，该做法把问题建模成二分类。第一类工具的典型代表为PremPLI，其使用了生物实验测定的突变对于蛋白-药物结合亲和力的改变(ΔΔG)数据集，搭建了深度学习模型进行训练和预测；而第二类工具目前仅有Yu-Feng Lin等人通过搜集抗癌症药物数据，通过获取以及模拟蛋白-药物对接后的晶体结构，搭建了SVM机器学习框架进行训练和预测。

在临床应用场景中，由于亲和力的改变缺乏统一的判断阈值，无法直接地将预测结果同临床药效进行对应，因此二分类的做法无疑是更为直接和有效的。然而，获取、模拟蛋白-药物对接后的晶体结构无疑会增大计算开销，在复杂数据的建模上深度学习也被证明有优于机器学习的表现，且非抗癌药物的突变耐药性预测也值得研究，因此，使用深度学习方法在尽可能不限制输入信息的情况下，预测突变对药物临床药效的改变非常有意义。

使用计算方法从药物属性和蛋白序列出发预测突变对临床药效的影响非常具有挑战性。不同的错义突变(mi ssense mutation)差别非常细微，要求模型对不同的药物-突变组合进行特征的学习和区分。突变对临床药效影响预测问题可简单描述为：给定一个药物和一个错义突变，根据给定药物的结构信息(SMILE结构式、PubChem子结构分子指纹)，以及蛋白突变前后的序列，用计算方法预测该突变是否会对该药物对临床药效产生影响，该问题是一个二分类问题。

随着计算能力和存储能力的快速发展，机器学习和深度学习逐渐显现出其在复杂问题建模和预测上的能力，例如在计算机视觉领域和自然语言处理领域。目前能够二分类预测突变对临床药效是否会有影响的工具只有Yu-Feng Lin等人于2022年发布的基于抗癌药物数据集开发的模型DRSP。该工作从蛋白质结构的角度出发进行预测，使用了来自癌症体细胞突变目录(COSMIC)数据库的数据，该数据库中的数据都由文献收集而来。该工作使用了支持向量机(SVM)对数据进行建模，如果没有已知的药物-蛋白结合的晶体结构信息则使用模拟对接的结构。该方法使用的测试集包含了3个耐药突变，针对真实晶体结构训练的模型能够将3个突变都预测正确，而针对模拟晶体结构训练的模型只能将其中的1个突变预测正确。

首先，现有的二分类预测工具DRSP是专门针对抗癌药物进行的开发，其在其他疾病的用药场景下的预测能力有限。其次，DRSP由于模型架构和表示能力的限制，训练得到的工具在新数据集上的泛化性和精度皆无法保证。另外，DRSP对蛋白-药物对接后的晶体结构依赖过大，而对接复合物的准确结构的获取需要生物实验，模拟对接复合物的结构得到的模型精度不足，这违背了我们希望开发低成本高精度工具的初衷。此外，现有的工具没有对模型学到的信息进行解释，无法得知训练过程中是哪些特征起到了关键作用，不利于后续对突变的耐药性机制进行研究和挖掘。

专利文献CN107038351A公开了一种系统性预测组学变异对药效影响的方法，包括：1)、通过已知临床意义变异寻找决定药效的蛋白三维功能子区域，对基因/蛋白位点进行归类建立功能子区域数据库T2；2)、将未知临床意义变异与所述功能子区域数据库T2进行比对，通过分析未知临床意义变异与已知临床意义变异是否归属同一功能子区域、变异类型，以及氨基酸性质变化的是否相似预测未知临床意义变异是否和已知意义变异有相同的药效影响。但该发明没有在保持可解释性的前提下，用深度学习方法进行高精度的突变对临床用药影响的预测，且输入特征允许不包含临床用药信息和晶体结构测定实验信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习的错义突变对临床药效影响预测方法及系统。

根据本发明提供的一种基于深度学习的错义突变对临床药效影响预测方法，包括：

步骤S1：获取并预处理药物和突变蛋白序列数据集；

步骤S2：将药物输入数据进行规范化；

步骤S3：将突变蛋白序列输入数据进行规范化；

步骤S4：根据规范后的数据搭建深度学习模型，输出预测分类。

优选地，在所述步骤S1中：

从PharmGKB和Civic数据库中下载所有已标注的突变对药效影响的条目；

步骤S1.1：去除非单点错义突变的条目、去除有数据缺失的条目、去除包含预设字符的条目、去除数据集内部标签矛盾和判断难度大于预设标准的条目，保留有影响和无影响的条目；

步骤S1.2：结合基因突变和转录本信息将突变映射到蛋白层面；

步骤S1.3：将不同来源的数据集进行合并，若出现重复条目则保留一条，若出现标签矛盾条目，在来源中都将该条目去除；

步骤S1.4：在数据集中去除了DRSP使用的测试集，并将标签编码成数字作为训练和测试数据集：突变会影响药效为1，突变不会影响药效为0。

优选地，在所述步骤S2中：

将输入药物的药物名通过PubChem API进行匹配，获取药物的分子结构式信息以及子结构分子指纹；药物的分子结构式进行拓扑图编码并制作成Pytorch格式的数据；

药物子结构分子指纹是881维的0-1向量，表示该药物是否包含某种特定的子结构。

优选地，在所述步骤S3中：

从蛋白质数据库UniProt中下载突变蛋白序列，将突变前后的序列获取30维的HHBlits特征；将突变前的序列使用AlphaFold2预测蛋白质的三级结构，并计算每个残基对应的二级结构和相对溶剂可及表面积，每个残基的二级结构特征是3维的0-1向量，每个残基的相对溶剂可及表面积特征是1维的连续数值；

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

对于突变前后蛋白的所有特征，以突变位置为中心、前后各保留预设氨基酸的长度、总长为预设个氨基酸的形式制作了特征切片。

优选地，在所述步骤S4中：

深度学习框架包括图卷积层、全连接层以及Transformer块；其中，每个Transformer块都由自注意力机制实现，每个输入药物的分子结构式经过图编码被输入图卷积层进行学习，为GCN分支；药物的分子指纹由一个Transformer块进行特征学习，为药物的分子指纹分支；在突变特征学习上，每个突变的二级结构特征、相对溶剂可及表面积特征以及突变前后的HHBlits特征被输入同一个全连接层进行学习，为序列属性分支；突变前后的序列One-Hot特征各自分别由一个Transformer块进行特征学习，为序列One-Hot分支；

在深度学习网络的第二层，药物的分子指纹分支的输出和序列属性分支进行了合并，并输入第二层全连接层进行学习；两个为序列One-Hot分支的输出在合并后输入第二层全连接层进行学习；

在深度学习网络的第三层，合并了两个第二层全连接层以及GCN分支的输出，并输入第三层全连接层进行学习，合并完成的输入经过SoftMax激活函数进行预测分类输出。

根据本发明提供的一种基于深度学习的错义突变对临床药效影响预测系统，包括：

模块M1：获取并预处理药物和突变蛋白序列数据集；

模块M2：将药物输入数据进行规范化；

模块M3：将突变蛋白序列输入数据进行规范化；

模块M4：根据规范后的数据搭建深度学习模型，输出预测分类。

优选地，在所述模块M1中：

模块M1.1：去除非单点错义突变的条目、去除有数据缺失的条目、去除包含预设字符的条目、去除数据集内部标签矛盾和判断难度大于预设标准的条目，保留有影响和无影响的条目；

模块M1.2：结合基因突变和转录本信息将突变映射到蛋白层面；

模块M1.3：将不同来源的数据集进行合并，若出现重复条目则保留一条，若出现标签矛盾条目，在来源中都将该条目去除；

模块M1.4：在数据集中去除了DRSP使用的测试集，并将标签编码成数字作为训练和测试数据集：突变会影响药效为1，突变不会影响药效为0。

优选地，在所述模块M2中：

优选地，在所述模块M3中：

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

优选地，在所述模块M4中：

与现有技术相比，本发明具有如下的有益效果：

1、本发明可以在仅使用药物自身结构属性和突变蛋白序列的条件下进行突变对临床药效影响的预测；

2、由于本发明使用的特征维度较少，本发明支持高通量突变药效影响预测，计算开销小；

3、本发明可以在保持可解释性的前提下，用深度学习方法进行高精度的突变对临床用药影响的预测，且输入特征允许不包含临床用药信息和晶体结构测定实验信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明从输入数据到预测输出的内部框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的一种基于深度学习的错义突变对临床药效影响预测方法，如图1所示，包括：

步骤S1：获取并预处理药物和突变蛋白序列数据集；

具体地，在所述步骤S1中：

步骤S2：将药物输入数据进行规范化；

具体地，在所述步骤S2中：

步骤S3：将突变蛋白序列输入数据进行规范化；

具体地，在所述步骤S3中：

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

具体地，在所述步骤S4中：

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明还提供一种基于深度学习的错义突变对临床药效影响预测系统，所述基于深度学习的错义突变对临床药效影响预测系统可以通过执行所述基于深度学习的错义突变对临床药效影响预测方法的流程步骤予以实现，即本领域技术人员可以将所述基于深度学习的错义突变对临床药效影响预测方法理解为所述基于深度学习的错义突变对临床药效影响预测系统的优选实施方式。

模块M1：获取并预处理药物和突变蛋白序列数据集；

具体地，在所述模块M1中：

模块M2：将药物输入数据进行规范化；

具体地，在所述模块M2中：

模块M3：将突变蛋白序列输入数据进行规范化；

具体地，在所述模块M3中：

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

具体地，在所述模块M4中：

实施例3：

实施例3为实施例1的优选例，以更为具体地对本发明进行说明。

本发明涉及计算机技术、计算生物学在耐药性预测领域的应用，使用深度学习方法从药物属性特征以及蛋白序列特征出发预测突变对临床药效的影响的情况。

本发明的目的是为了填补通用的突变对药效影响二分类预测的空白，仅使用药物本身的结构信息和蛋白突变序列信息，在允许特征空缺的情况下，在临床标注数据集上进行深度学习训练，做出精确可靠的预测，并利用注意力机制赋予模型可解释性。

步骤1：获取、预处理数据集

训练深度学习模型需要一套非冗余的标准数据库。我们于2022年12月21日从PharmGKB和Civic数据库中下载了所有已标注的突变对药效影响的条目。第一步，我们去除了非单点错义突变的条目、去除了有数据缺失的条目、去除了包含异常字符的条目、去除数据集内部标签矛盾和难以判断的条目，仅保留有影响和无影响的条目。第二步，我们结合基因突变和转录本信息将突变映射到了蛋白层面；第三步，我们将两个不同来源的数据集进行合并，若出现重复条目则仅保留一条，若出现标签矛盾条目则在两个来源中都将该条目去除。第四步，为了和DRSP工具进行公平对比，我们在数据集中去除了DRSP使用的测试集，以便后续进行外部验证评价本发明的有效性。至此，我们保留了710条突变-药效条目，并将标签编码成数字(突变会影响药效：1，突变不会影响药效：0)，作为本发明的训练和测试数据集。

步骤2：药物输入数据规范化

本发明需要获取输入药物的结构特征。我们将输入药物的药物名通过PubChemAPI进行匹配，从而获取药物的分子结构式SMILE信息以及子结构分子指纹Fingerprint。药物的分子结构式SMILE通过基于python开发的RDKit包以及Pytorch Geometric包进行拓扑图编码并制作成Pytorch格式的数据。药物子结构分子指纹是881维的0-1向量，表示该药物是否包含某种特定的子结构(substructure)，如附图1所示。

步骤3：突变蛋白序列输入数据规范化

本发明需要获取突变前后的蛋白质序列。我们从蛋白质数据库UniProt中下载了突变蛋白的序列，并将突变前后的序列都送入HHBlits软件以获取30维的HHBlits特征。此外，我们还将突变前的序列送入AlphaFold2软件预测突变前后蛋白的三级结构，并借助DSSP软件计算每个残基对应的二级结构(Secondary Structure)和相对溶剂可及表面积(Relative Accessible Surface Area)，每个残基的二级结构特征是3维的0-1向量，每个残基的相对溶剂可及表面积特征是1维的连续数值。随后，我们对突变前后的蛋白质序列进行了每个残基20维的One-Hot编码。最后，为了统一蛋白序列输入尺寸，对于突变前后蛋白的所有特征，我们都以突变位置为中心、前后各保留30个氨基酸的长度、总长为61个氨基酸的形式制作了特征切片，如附图1所示。通过上述处理，每一个突变都有突变前后各61×20维度的One-Hot特征、突变前后各61×30维度的HHBlits特征、突变前61×3维度的二级结构特征、以及突变前61×1维的相对溶剂可及表面积特征。

步骤4：搭建深度学习模型

本发明的深度学习框架由3个重要组件组成，如附图1所示，分别是图卷积层(GCN)、全连接层(Fully-connected Layer)以及Transformer块。其中，每个Transformer块都由自注意力机制实现。每个输入药物的分子结构式SMILE经过图编码被送入图卷积层进行学习(被称为GCN分支)，而药物的分子指纹Fingerprint则由一个Transformer块进行特征学习(被称为药物的分子指纹分支)。在突变特征学习上，每个突变的二级结构特征、相对溶剂可及表面积特征以及突变前后的HHBlits特征被送入同一个全连接层进行学习(被称为序列属性分支)，而突变前后的序列One-Hot特征则各自分别由一个Transformer块进行特征学习(被称为序列One-Hot分支)。随后，在深度学习网络的第二层，药物的分子指纹分支的输出和序列属性分支进行了合并，并送入第二层全连接层进行学习；而两个序列One-Hot的输出也在合并后送入第二层全连接层进行学习。在网络的第三层，我们合并了两个第二层全连接层以及GCN分支的输出，并送入第三层全连接层进行学习。至此不同的输入分支都已经完成了合并。最后，合并完成的输入经过SoftMax激活函数进行预测分类输出。

整个模型框架的代码实现、训练和测试都是使用的Pytorch深度学习框架，整个实验是在一块NVIDIA 3090GPU上进行的。模型训练的Batch size为128，学习率为0.0005，模型主要的超参数(包括网络层数、Batch size、学习率等)经过寻优都选择了使验证集结果最好的数值。神经网络参数的训练使用了Adam优化器。

本发明可以在仅使用药物自身结构属性和突变蛋白序列的条件下进行突变对临床药效影响的预测。为了全方位评价本发明的技术效果，我们将数据集中的130个条目作为独立测试集，并将DRSP使用的3条测试条目作为外部测试集。经过训练和五折交叉验证，我们的发明在独立测试集上达到的预测精度(ACC)为0.84，F1分数(F1-score)为0.88，受试者曲线下面积(AUC)为0.91。而在外部测试集上则全部预测正确。

由于本发明使用的特征维度较少，本发明支持高通量突变药效影响预测，计算开销小。值得一提的是，目前市面上只有本发明可以在保持可解释性的前提下，用深度学习方法进行高精度的突变对临床用药影响的预测，且输入特征允许不包含临床用药信息和晶体结构测定实验信息，这是本发明所特有的。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于深度学习的错义突变对临床药效影响预测方法，其特征在于，包括：

步骤S1：获取并预处理药物和突变蛋白序列数据集；

步骤S2：将药物输入数据进行规范化；

步骤S3：将突变蛋白序列输入数据进行规范化；

2.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法，其特征在于，在所述步骤S2中：

4.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法，其特征在于，在所述步骤S3中：

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

5.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法，其特征在于，在所述步骤S4中：

6.一种基于深度学习的错义突变对临床药效影响预测系统，其特征在于，包括：

模块M1：获取并预处理药物和突变蛋白序列数据集；

模块M2：将药物输入数据进行规范化；

模块M3：将突变蛋白序列输入数据进行规范化；

7.根据权利要求6所述的基于深度学习的错义突变对临床药效影响预测系统，其特征在于，在所述模块M1中：

8.根据权利要求6所述的基于深度学习的错义突变对临床药效影响预测系统，其特征在于，在所述模块M2中：

9.根据权利要求6所述的基于深度学习的错义突变对临床药效影响预测系统，其特征在于，在所述模块M3中：

对突变前后的蛋白质序列进行每个残基20维的One-Hot编码；

10.根据权利要求6所述的基于深度学习的错义突变对临床药效影响预测系统，其特征在于，在所述模块M4中：