CN117524346A

CN117524346A - 一种多视图癌症药物反应预测系统

Info

Publication number: CN117524346A
Application number: CN202311547057.9A
Authority: CN
Inventors: 滕志霞; 尹铭鑫; 李丹; 汪国华
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-06
Anticipated expiration: 2043-11-20

Abstract

一种多视图癌症药物反应预测系统，涉及生物信息技术领域，本申请采用多视图的策略代替了通过GCN在细胞系‑药物异质图上聚合已知反应信息的传统方法，充分利用了已知的细胞系‑药物的所有反应信息。引入ILGCN，在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明在提高预测性能的同时，也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验，验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据，因此本申请的技术方案提升了癌症药物反应预测准确率。

Description

一种多视图癌症药物反应预测系统

技术领域

本发明涉及生物信息技术领域，具体为一种多视图癌症药物反应预测系统。

背景技术

癌症是一种复杂的基因类疾病。由于肿瘤的异质性，同一癌症类型的患者使用相同药物治疗时，效果可能不尽相同。而癌症药物反应预测可以帮助患者制定个性化的治疗方案，在精准医疗中起着关键的作用。

随着药物基因组学的不断发展，相关数据库已得以建立，这些数据库提供了许多人类细胞系及其对药物反应的全基因组信息。这些宝贵的数据已广泛应用于构建癌症药物反应(Cancer drug response prediction，CDR)预测模型，为精准医疗的发展做出了贡献。

近年来，研究人员已经提出了许多CDR预测方法。例如，GraphDRP采用图卷积网络(Graph Convolutional Network，GCN)来提取药物的图表示特征，并使用单组学数据来表示细胞系，以进行癌症药物反应预测。DeepTTA则利用Transformer技术来挖掘药物的子结构特征，并采用基因表达组学数据来表示细胞系，用于癌症药物反应预测。TGSA则在TGDRP模型的基础上，利用细胞系和药物之间的相似性信息来更新提取的细胞系和药物特征，并进行癌症药物反应预测。

虽然以前的方法在CDR预测方面取得一定进展，但仍存在改进的空间。首先，之前提出的大多数CDR方法未充分利用细胞系和药物的多元数据以及它们之间的反应信息。进而导致提取细胞系与药物的特征不能完全表示细胞系和药物。

发明内容

本发明的目的是：针对现有CDR预测方法未充分利用已知细胞系和药物数据，使得模型对细胞系和药物的特征提取有所遗漏，导致癌症药物反应预测准确率低的问题，提出一种多视图癌症药物反应预测系统。

本发明为了解决上述技术问题采取的技术方案是：

一种多视图癌症药物反应预测系统，包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块；

所述数据获取模块具体执行如下步骤：

步骤a1：获取每种药物的PubChem ID，并根据PubChem ID得到该药物的SMILES数据，之后利用Rdkit工具包将SMILES数据转化为该药物对应的药物分子图；

步骤a2：选择癌症细胞系百科全书数据集中包含的细胞系多组学数据，所述细胞系多组学数据包括基因表达数据、拷贝数变异数据和细胞突变数据；

步骤a3：在COSMIC数据库中获取致癌关键基因，最后在STRING数据库中收集与致癌关键基因有关的PPI数据，并利用PPI数据作为细胞系中节点的关联关系，所述节点即为基因；

步骤a4：选择癌症药物敏感性基因组学中GDSC2版本的数据，之后在GDSC2版本的数据中获取药物和细胞系反应数据，之后根据PubChemID以及细胞系多组学数据在药物和细胞系反应数据中筛选对应的药物和细胞系反应数据，即细胞系-药物反应数据；

步骤a5：将细胞系多组学数据作为细胞系中节点的特征表示，并结合节点的关联关系，进而得到细胞系图；

所述细胞系及药物特征提取模块具体执行如下步骤：

步骤b1：利用GCN对每种药物对应的药物分子图进行图级结构特征提取，对所有药物对应的药物分子图提取完成后，得到图级结构特征矩阵；

步骤b2：首先利用ESPF算法将SMILES数据分解为药物子序列，然后通过Transformer对药物子序列进行特征提取，得到药物的亚结构特征，对所有药物对应的SMILES数据提取完成后，得到药物的亚结构特征矩阵；

步骤b3：将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接，得到药物特征矩阵；

步骤b4：利用GAT在细胞系图中捕获节点的特征和生物网络拓扑信息，并利用节点的特征和生物网络拓扑信息得到细胞系特征矩阵H_c∈R^Nc×Fc，其中，N_c表示药物的数量，F_c表示细胞系特征维度；

所述相似性网络构建模块具体执行如下步骤：

步骤c1：计算药物特征矩阵中药物特征之间的余弦相似性，进而构建药物相似性网络；

步骤c2：计算细胞系特征矩阵中细胞系特征之间的余弦相似性，进而构建细胞系相似性网络；

步骤c3：利用KNN重构药物相似性网络和细胞系相似性网络；

所述相似性信息提取模块具体执行如下步骤：

步骤d1：利用细胞系-药物反应数据构建异质图；

步骤d2：在异质图上生成药物的特征表示，并将生成的药物的特征表示作为重构后的药物相似性网络中的初始节点特征，并利用ILGCN从药物相似性网络中提取相似性信息，并根据提取到的相似性信息得到最终药物特征表示；

步骤d3：在异质图上生成细胞系的特征表示，并将生成的细胞系的特征表示作为重构后的细胞系相似性网络中的初始节点特征，并利用ILGCN从细胞系相似性网络中提取相似性信息，并根据提取到的相似性信息得到最终细胞系特征表示；

所述反应敏感性模块具体执行如下步骤：

步骤e1：利用FNN统一最终药物特征表示和最终细胞系特征表示的维度；

步骤e2：将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接，得到拼接特征向量表示；

步骤e3：将拼接特征向量表示作为基础预测癌细胞系对药物的反应敏感性，并利用FNN和Sigmoid函数对癌细胞系对药物的反应敏感性进行预测。

进一步的，所述步骤b2中利用ESPF算法将SMILES数据分解为药物子序列的具体步骤为：

步骤b21：创建词汇集V，所述词汇集V中包含药物及药物对应的SMILES序列；

步骤b22：将药物对应的SMILES序列进行拆分，得到SMILES序列所对应的所有基础子序列，最后利用SMILES序列及该SMILES序列所对应的所有基础子序列构建药物语料库；

步骤b23：遍历所有SMILES序列及该SMILES序列所对应的所有基础子序列，得到每个SMILES序列中连续的基础子序列的全部组合；

步骤b24：将所有SMILES序列中重复的组合进行统计，并选取重复率最高的连续的基础子序列的组合作为标记子序列，之后将标记子序列加入词汇集V中，并与词汇集V中SMILES序列对应；

步骤b25：重复步骤b24，直至重复率低于阈值或词汇集V的大小达到最大长度θ为止；

步骤b26：利用词汇集V中标记子序列将对应的SMILES序列进行划分，得到基础子序列和标记子序列的集合R＝{R₁,R₂,....,R_β}，β表示药物子结构序列的长度，集合R即为药物子序列的分解结果。

进一步的，所述步骤b2中得到药物的亚结构特征矩阵的具体步骤为：

步骤b21：将集合R＝{R₁,R₂,....,R_β}转换为矩阵M^d∈R^β×θ，矩阵M^d中每一列是二元向量，代表第j个药物子序列的索引；

步骤b22：利用字典查找矩阵生成每个药物的特征表示/>表示为：

其中，γ表示每个药物亚结构的潜在嵌入的大小；

步骤b23：利用查找字典引入位置嵌入/>表示为：

其中，是一个二元向量，其中第j位为1，最终的嵌入/>表示：

步骤b24：将最终的药物嵌入表示输入Transformer编码器，所述Transformer编码器包括多头注意层、规范化层和前馈全连接层，所述Transformer编码器具体执行如下步骤：

首先，在多头注意层中，设置heads＝8，输入到多头注意层变换如下：

其中，W^Q、W^Q和W^V均表示可学习的权重参数，d_k表示药物特征向量的维度，X_j表示多头注意层输出的药物j特征表示；

其次，在多头注意层后添加规范化层，规范化层变换表示为：

X'_j＝LayerNorm(X_j+MultiHeadAttention(X_j))

其中，X'_j表示规范化层输出的药物j特征表示；

之后，规范化层的输出被输入到前馈全连接层，表示为：

h_j＝max(0,X'_jW₁+b₁)W₂+b₂

其中，W₁∈R^ω×ε，b₁∈R^ε，均表示可学习的参数，h_j表示药物j特征表示；

最后，将所有药物特征进行拼接，得到药物的亚结构特征矩阵。

进一步的，所述步骤b3中将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接表示为：

H_d＝H_d1||H_d2

其中，H_d1表示图级结构特征矩阵，H_d2表示药物的亚结构特征矩阵；

所述步骤b3中将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接的拼接比例为15：1。

进一步的，所述步骤b1中，GCN的节点特征更新公式为：

其中，∈表示可学习的参数，MLP表示多层感知机，k表示k第层神经网络，表示节点v的邻居节点的集合，/>表示节点v在第k层的特征表示，/>表示邻居节点u在第(k-1)层的特征表示。

进一步的，所述细胞系特征矩阵中细胞系特征更新公式为：

其中，W^l-1表示权重矩阵，N(i)表示节点i邻居节点的集合，表示节点i与节点j之间的注意力权重，/>表示节点i更新后的节点特征表示，h_i ^(l-1)表示节点i在第(l-1)层的节点特征表示，σ表示非线性转换函数。

进一步的，所述药物相似性网络和细胞系相似性网络表示为：

其中，sim_i,j表示细胞系相似性网络，sim_m.n表示药物相似性网络，f_ci表示细胞系i的特征，f_cj表示细胞系j的特征，f_dm表示药物m的特征，f_dn表示药物n的特征。

进一步的，所述步骤c3中利用KNN重构后的药物相似性网络和细胞系相似性网络表示为：

其中，N_i表示细胞系i邻居节点的集合，S_cell表示重构后的细胞系相似性网络，N_m表示细胞系m邻居节点的集合，S_drug表示重构后的药物相似性网络。

进一步的，所述ILGCN的传播规则为：

其中，表示邻接矩阵，/>表示/>的度矩阵，λ表示残差连接的比例，W^(k)表示第k层ILGCN的权重参数；

其中，K表示ILGCN的总层数，H^(k)表示第k层的特征表示，H表示最终药物特征表示或最终细胞系特征表示。

进一步的，所述步骤e2中将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接表示为：

其中，表示最终细胞系特征表示，f_c ^k表示最终药物特征表示，f_c,d表示拼接特征向量表示。

本发明的有益效果是：

本申请采用GCN在分子图上提取药物整体结构信息，采用Transformer提取药物亚结构信息，并将提取的两种特征以特定比例拼接生成最终的药物特征表示。接着以STRING数据库中的PPI网络为框架构建细胞系图，并使用GAT在细胞系图上提取细胞系特征，充分考虑到了细胞系各组学数据间的内在联系。通过细胞系相似网络和药物相似网络利用了细胞系间和药物之间的相似信息，减少了同质节点之间的异质性。在增强了预测模型的泛化能力的同时，也提高了模型预测新的细胞系-药物对反应的性能。采用多视图的策略代替了通过GCN在细胞系-药物异质图上聚合已知反应信息的传统方法，充分利用了已知的细胞系-药物的所有反应信息。引入ILGCN，在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明在提高预测性能的同时，也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验，验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据，因此本申请的技术方案提升了癌症药物反应预测准确率。

附图说明

图1为本申请预测流程图；

图2为不同组织下模型预测结果；

图3为在GDSC数据集上与其他对比方法进行五折交叉验证实验预测性能比较图1；

图4为在GDSC数据集上与其他对比方法进行五折交叉验证实验预测性能比较图2；

图5为在GDSC数据集上不同维度的细胞系和药物特征对模型预测性能的影响对比图1；

图6为在GDSC数据集上不同维度的细胞系和药物特征对模型预测性能的影响对比图2；

图7为在GDSC数据集上ILGCN层数对模型预测性能的影响。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种多视图癌症药物反应预测系统，包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块；

所述数据获取模块具体执行如下步骤：

步骤a1：获取每种药物的PubChemID，并根据PubChemID得到该药物的SMILES数据，之后利用Rdkit工具包将SMILES数据转化为该药物对应的药物分子图；

所述细胞系及药物特征提取模块具体执行如下步骤：

步骤b4：利用GAT在细胞系图中捕获节点的特征和生物网络拓扑信息，并利用节点的特征和生物网络拓扑信息得到细胞系特征矩阵H_c∈R^Nc×Fc，其中，N_c表示药物的数量，F_c表示细胞系特征维度，F_c＝256；

所述相似性网络构建模块具体执行如下步骤：

步骤c3：利用KNN重构药物相似性网络和细胞系相似性网络；

所述相似性信息提取模块具体执行如下步骤：

步骤d1：利用细胞系-药物反应数据构建异质图；

所述反应敏感性模块具体执行如下步骤：

具体实施方式二：本实施方式所述的基于深度图神经网络的多视图癌症药物反应预测方法，具体包括以下步骤：

S1：收集整理药物信息、细胞系多组学数据、人类细胞系药物反应信息、癌症关键基因、PPI数据，得到模型的原始数据集。

在本实施例中，需要获取五部分的数据集：

S11：获得药物的特征数据：本申请按照GDSC中记录的药物PubchemID号，通过Python开源软件包Pubchempy(https://github.com/mcs07/PubChemPy)来得到药物的SMILES数据，之后通过Rdkit工具包将SMILES数据转化为包含药物的分子图，以便进行下一步研究。

S12：获得细胞系的多组学数据：本申请在CCLE中获取细胞系多组学数据。本申请主要选择基因表达、拷贝数变异、体细胞突变等三种组学数据来表示癌症细胞系。

S13：获得药物-细胞系的反应数据：GDSC中提供了大量的细胞系-药物反应数据，由于第一代基因测序技术和第二代基因测序技术间存在较大的差异，因此本申请选择基于第二代基因测序技术得到的GDSC2版本的反应数据，而将GDSC1的反应数据删掉。此外，本申请还在COSMIC数据库中获取了784个致癌关键基因，最后，本申请在STRING数据库中取置信度为0.9，收集了有关致癌关键基因的PPI数据。

S14：数据预处理：首先，去掉没有PubChemID号的药物从而确保所选药物的SMILES数据都可找到，最终筛选得到222种药物。其次，在CCLE中获取细胞系的组学数据。为了仅使用同时具有三种类型组学数据的细胞系，因此对于缺少基因表达、拷贝数变异、体细胞突变等三种组学数据任意一种或两种组学的细胞系，都进行筛除，最终本申请得到568个人类癌症细胞系，这些细胞系都同时具有三种组学表示。最后，本申请根据CCLE中记录的细胞系和药物对GDSC2中原始细胞系-药物反应数据进行筛选，最终得到103336条细胞系-药物反应数据。

S2：特征提取，GTMVCDR采用GCN和Transformer的组合提取药物特征，并利用GAT在构建好的细胞系图上提取特征，得到药物与细胞系的特征表示。具体包括以下2个部分：

S21：首先，对于药物的整体分子结构而言，利用GCN在之前构建好的药物分子图上提取图级结构特征然后通过Transformer在切分好的药物子序列上提取药物的特定亚结构特征。最后将两种方式得到的药物与特征矩阵拼接。其中GCN中节点特征更新公式如下：

其中∈是一个可学习的参数，MLP为多层感知机，k代表第k层神经网络，为节点v的邻居节点的集合，/>是节点v更新后的节点特征表示。

本申请采用Transformer提取药物子结构信息，首先本申请使用ExplainableSubstructure Partition Fingerprint(ESPF)算法处理药物SMILES，将其作为Transformer编码器的输入。ESPF基于字节对编码(Byte Pair Encoding，BPE)算法，ESPF将药物的SMILES序列分解为一系列连续的子序列，其中包括药物结构中的特殊官能团。ESPF使用的大量药物SMILES数据预先构建了标记化药物子结构语料库。

基于药物子结构语料库，本申请进一步对222种癌症药物的SMILES进行了拆分，得到了特定的离散亚结构序列。具体流程如下：首先，创建一个初始的词汇集V，包含了222种药物的唯一SMILES序列。接着对整个药物语料库进行标记，得到标记化语料库T。本申请扫描了整个标记化语料库，以识别最频繁的连续标记药物。然后本申请用连续出现次数最多的新标记更新标记化语料库T。迭代地扫描标记化语料库来不断更新词汇集V，识别和更新最频繁的连续标记药物，直到新标记的频率低于特定阈值λ或者V的大小达到最大长度θ。最终本申请可以得到一个药物子序列集合R＝{R₁,R₂,....,R_β}，其大小为β，其中R_j∈T，每一个子结构序列都来自T。

本申请将药物子结构序列转换为矩阵M^d∈R^β×θ，其中β为药物子结构序列的长度，θ为药物亚结构的最大长度。矩阵M^d中每一列是二元向量，代表第j个药物子结构的索引。本申请通过定义一个可学习的字典查找矩阵/>来生成每个药物的嵌入表示/>

其中γ为每个药物亚结构的潜在嵌入的大小。

为了获取药物结构的位置信息，本申请通过一个查找字典来引入位置嵌入E_posj：

其中是一个二元向量，其中第j位为1。最终的嵌入/>表示：

基于上述预处理的子结构的表示，本申请使用Transformer编码器来为不同亚结构分配不同的权重，从而生成精准的药物表示。Transformer编码器层包括三个子层，即多头注意层、前馈全连接层和规范化层。

在多注意层中，本申请设置heads＝8，药物表示X_i输入到多头注意层变换如下：

为了防止多层计算导致的参数偏移或不稳定，本申请在多头注意层后添加了规范化层，使特征值保持在合理范围内。公式如下：

X'_j＝LayerNorm(X_j+MultiHeadAttention(X_j))

其中，X'_j表示规范化层输出的药物j特征表示；

之后，规范化层的输出被输入到前馈全连接层，表示为：

h_j＝max(0,X'_jW₁+b₁)W₂+b₂

最后，将所有药物特征进行拼接，得到药物的亚结构特征矩阵H_d2。

最后，本申请将药物特征矩阵H_d1和药物特征矩阵H_d2进行拼接操作，得到最终的药物特征矩阵N_d为细胞系的数量，F_d为药物嵌入维度。值得注意的是，本申请通过大量的实验确定药物特征/>和药物特征/>相对较合适的拼接比例为15：1。拼接操作如下式所示。

H_d＝H_d1||H_d2

S22：使用GAT在前面构建好的细胞系图中捕获节点的特征和生物网络拓扑信息。最后采用最大池化方法得到细胞系特征f_c，细胞系特征拼接后得到细胞系特征矩阵H_c∈R^Nc ^×Fc(F_c＝256)，其中N_c为药物的数量，F_c为细胞系特征维度，细胞系特征更新如下：

其中W^l-1为权重矩阵，N(i)为节点i邻居节点的集合，为节点i与节点j之间的注意力权重，/>是节点i更新后的节点特征表示。

S3：基于提取的药物特征和细胞系特征计算相似性，构建细胞系相似性网络和药物相似性网络。用KNN算法为每个细胞系和药物选择K个最相似的同质邻居节点，以此来重构细胞系相似性网络和药物相似性网络。

S31：基于提取的药物特征和细胞系特征计算余弦相似性，构建细胞系相似性网络和药物相似性网络。具体计算公式如下所示：

其中f_c表示细胞系特征，f_d表示药物特征。

S32：采用KNN算法确定最相似的邻居节点，本申请设置K为5重构细胞系相似性网络和药物相似性网络。重构相似性网络表示如下：

其中N_i为细胞系i邻居节点的集合，S_cell是细胞系相似性网络。N_m为细胞系m邻居节点的集合，S_drug是细胞系相似性网络。

S4：根据已知细胞系药物反应构建异质图，本申请基于多视图的策略，通过多视图中的子结构，在异质图上生成细胞系和药物的特征表示，分别用作在S3中习得的细胞系相似性网络和药物相似性网络中的初始节点特征。利用ILGCN从相似性网络中提取相似性信息，得到最终细胞系和药物的特征表示。

S41：根据已知的药物反应数据构建细胞系-药物异质图G_r＝(V,ε)，其中V是细胞系节点和药物节点的集合并且V＝V_c+V_d，G_r包含了所有已知的细胞系和药物的敏感反应与耐药反应。基于多视图的策略，通过多视图中的子结构分别生成以细胞系为中心的视图V_c和以药物为中心的视图V_d。然后在V_c和V_d中分别生成细胞系和药物的特征表示。细胞系和药物的特征分别用作在S3中习得的细胞系相似性网络和药物相似性网络中的初始节点特征。

S42：采用图神经网络在细胞系相似性网络和药物相似性网络上聚合相似性信息。为了解决高阶GCN中的过平滑问题，本申请采用ILGCN编码器分别在细胞系相似性网络和药物相似性网络上聚合邻居节点信息。ILGCN的传播规则如下所示：

其中β为残差连接的比例，本申请设置为0.2。

最后，将来自不同层的表示组合为：

其中K为ILGCN的总层数，为可学习的参数，H^(k)为第k层的特征表示，H为最后得到的细胞系或药物特征矩阵。

S5：利用FNN药物和细胞系特征的维度，将药物特征和细胞系特征进行拼接，并以此为基础预测癌细胞系对药物的反应敏感性。使用FNN和Sigmoid函数预测癌细胞系对药物的反应敏感性

S51：利用FNN统一药物特征和细胞系特征的维度(调整药物特征和细胞系特征的维度为256维)。

S52：将药物特征和细胞系特征进行拼接，并以此为基础预测癌细胞系对药物的反应敏感性。

进一步地，拼接公式为：

为最后得到的细胞系特征表示，f_c ^k为最后得到的药物特征向量表示，f_c,d为拼接特征向量表示。

S53：使用FNN和Sigmoid函数预测癌细胞系对药物的反应敏感性

进一步地，具体预测公式为：

因此本申请的损失函数可以表示为：

其中为训练集中的所有细胞系-药物反应对，p_cd是细胞系-药物反应对的真实标签。

S6：在GDSC和CCLE数据集上，通过多种实验，检验与评估模型性能。如图3至图6所示。

S61：中为了检验与评估本申请的性能，本申请在两个不同数据集上进行了评估，并且使用了AUC(ROC曲线下方的面积大小)、AUPR(PR曲线下面积)，精确度(Precision)、召回率(Recall)、F1分数(F1-score)等作为评价指标，AUROC为ROC(接受者操作特征)曲线下面积，ROC曲线横坐标为FP，纵坐标为TP。AUPR为PR曲线下面积，PR曲线横坐标为Precision，纵坐标为Recall。具体计算公式如下：

其中TP表示预测正确的药物-细胞系关联关系的数量，FP表示预测错误的药物-细胞系关联关系数量，TN表示预测正确的非药物-细胞系关联关系数量，FN表示预测错误的非药物-细胞系关联关系数量。

实施例：

为了评估不同深度的ILGCN对预测性能的影响，本实施例分别建立了层数为1，2，3，4，5的不同深度的图卷积网络模型，并计算了每一种深度的AUC与AUPR值，并进行了对比。如图7所示，当层数为5层时，预测性能达到最佳，这表明，当层数为5层的图卷积网络最为合适，证明了本申请采用的基于残差连接和注意力机制的高阶图卷积网络ILGCN在一定程度了缓解了高阶GCN的过平滑问题。

为了评估本申请的优越性，本申请在GDSC和CCLE数据集上将本申请与其他先进的癌症药物反应预测方法GraphCDR，GraphDRP，DeepTTA，DeepCDR进行对比实验，结果如表1、图3和图4所示。上述结果表明，融合药物的全局和亚结构特征的方法与细胞系的多组学数据的使用促进了预测性能的提升。其次在GDSC和CCLE两个数据集上都表现良好，表明本申请具有良好的鲁棒性与泛化能力。

表1GDSC和CCLE数据集上独立测试性能比较结果

表2模型在不同设置下的性能比较

表3预测得分排名前20的细胞系药物对

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种多视图癌症药物反应预测系统，其特征在于包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块；

所述数据获取模块具体执行如下步骤：

步骤a4：选择癌症药物敏感性基因组学中GDSC2版本的数据，之后在GDSC2版本的数据中获取药物和细胞系反应数据，之后根据PubChem ID以及细胞系多组学数据在药物和细胞系反应数据中筛选对应的药物和细胞系反应数据，即细胞系-药物反应数据；

所述细胞系及药物特征提取模块具体执行如下步骤：

步骤b4：利用GAT在细胞系图中捕获节点的特征和生物网络拓扑信息，并利用节点的特征和生物网络拓扑信息得到细胞系特征矩阵其中，N_c表示药物的数量，F_c表示细胞系特征维度；

所述相似性网络构建模块具体执行如下步骤：

步骤c3：利用KNN重构药物相似性网络和细胞系相似性网络；

所述相似性信息提取模块具体执行如下步骤：

步骤d1：利用细胞系-药物反应数据构建异质图；

所述反应敏感性模块具体执行如下步骤：

2.根据权利要求1所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤b2中利用ESPF算法将SMILES数据分解为药物子序列的具体步骤为：

3.根据权利要求2所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤b2中得到药物的亚结构特征矩阵的具体步骤为：

其中，γ表示每个药物亚结构的潜在嵌入的大小；

步骤b23：利用查找字典引入位置嵌入/>表示为：

其中，是一个二元向量，其中第j位为1，最终的嵌入/>表示：

X'_j＝LayerNorm(X_j+MultiHeadAttention(X_j))

其中，X'_j表示规范化层输出的药物j特征表示；

之后，规范化层的输出被输入到前馈全连接层，表示为：

h_j＝max(0,X'_jW₁+b₁)W₂+b₂

其中，W₁∈R^ω×ε，b₁∈R^ε，W₂∈R^ε×θ，b₂∈R^θ均表示可学习的参数，h_j表示药物j特征表示；

4.根据权利要求3所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤b3中将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接表示为：

H_d＝H_d1||H_d2

5.根据权利要求4所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤b1中，GCN的节点特征更新公式为：

6.根据权利要求5所述的一种多视图癌症药物反应预测系统，其特征在于所述细胞系特征矩阵中细胞系特征更新公式为：

7.根据权利要求6所述的一种多视图癌症药物反应预测系统，其特征在于所述药物相似性网络和细胞系相似性网络表示为：

其中，sim_i,j表示细胞系相似性网络，sim_m.n表示药物相似性网络，f_ci表示细胞系i的特征，f_cj表示细胞系j的特征，f_dm表示药物m的特征,f_dn表示药物n的特征。

8.根据权利要求7所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤c3中利用KNN重构后的药物相似性网络和细胞系相似性网络表示为：

9.根据权利要求8所述的一种多视图癌症药物反应预测系统，其特征在于所述ILGCN的传播规则为：

10.根据权利要求9所述的一种多视图癌症药物反应预测系统，其特征在于所述步骤e2中将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接表示为：

其中，表示最终细胞系特征表示，/>表示最终药物特征表示，f_c,d表示拼接特征向量表示。