CN115579051A

CN115579051A - 差异表达谱预测模型训练方法、预测方法及装置

Info

Publication number: CN115579051A
Application number: CN202211193415.6A
Authority: CN
Inventors: 胡靖�; 赵国栋; 方晓敏; 何径舟; 王凡; 郜杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-06
Anticipated expiration: 2042-09-28
Also published as: CN115579051B

Abstract

本公开提供了差异表达谱预测模型训练方法、预测方法及装置，涉及计算机技术领域，尤其涉及人工智能技术领域下的深度学习和生物计算等技术。具体实现方案为：获取样本药物的初始分子表示；获取样本生物体的初始基因表示；将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。采用本公开，可以提高预测差异表达谱的准确性。

Description

差异表达谱预测模型训练方法、预测方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域下的深度学习和生物计算等技术。

背景技术

药物筛选是指通过适当的方法，对可能作为药物使用的物质(采样)进行生物活性、药理作用和药用价值的评估。目前，药物研发过程中，所采用的药物筛选方法通常是对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱，用于表征生物体在使用药物前后的预测基因差异，再作为药物筛选的依据。然而，采用这种方式预测的差异表达谱的准确度较低。

发明内容

本公开提供了一种差异表达谱预测模型训练方法、预测方法及装置。

根据本公开的第一方面，提供了一种差异表达谱预测模型训练方法，包括：

获取样本药物的初始分子表示；

获取样本生物体的初始基因表示；

将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；

通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

根据本公开的第二方面，提供了一种差异表达谱预测方法，包括：

获取目标药物的初始分子表示；

获取目标生物体的初始基因表示；

将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征目标生物体在使用目标药物前后的预测基因差异，差异表达谱预测模型通过第一方面提供的差异表达谱预测模型训练方法训练获得。

根据本公开的第三方面，提供了一种差异表达谱预测模型训练装置，包括：

第一训练处理模块，用于获取样本药物的初始分子表示；

第二训练处理模块，用于获取样本生物体的初始基因表示；

第三训练处理模块，用于将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；

训练模块，用于通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

根据本公开的第四方面，提供了一种差异表达谱预测装置，包括：

第一预测处理模块，用于获取目标药物的初始分子表示；

第二预测处理模块，用于获取目标生物体的初始基因表示；

预测模块，用于将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征目标生物体在使用目标药物前后的预测基因差异，差异表达谱预测模型通过第一方面提供的差异表达谱预测模型训练方法训练获得。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；

与至少一个处理器通信连接的存储器；

存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的差异表达谱预测模型训练方法和/或第二方面提供的差异表达谱预测方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的差异表达谱预测模型训练方法和/或第二方面提供的差异表达谱预测方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面提供的差异表达谱预测模型训练方法和/或第二方面提供的差异表达谱预测方法。

采用本公开，可以提高预测差异表达谱的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例所提供的一种差异表达谱预测模型训练方法的流程示意图；

图2是本公开实施例所提供的一种差异表达谱预测模型训练方法的辅助性说明图；

图3是本公开实施例所提供的差异表达谱预测模型训练方法的另一种辅助性说明图；

图4是本公开实施例所提供的差异表达谱预测模型训练方法的另一种流程示意图；

图5是本公开实施例所提供的差异表达谱预测模型训练方法的另一种辅助性说明图；

图6是本公开实施例提供的一种差异表达谱预测模型训练方法的应用场景示意图；

图7是本公开实施例所提供的一种差异表达谱预测方法的流程示意图；

图8是本公开实施例提供的一种差异表达谱预测方法的应用场景示意图；

图9是本公开实施例所提供的一种差异表达谱预测模型训练装置的结构示意图；

图10是本公开实施例所提供的一种差异表达谱预测装置的结构示意图；

图11是用来实现本公开实施例的差异表达谱预测模型训练方法和/或差异表达谱预测方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如背景技术所述的，药物筛选是指通过适当的方法，对可能作为药物使用的物质(采样)进行生物活性、药理作用和药用价值的评估。目前，药物研发过程中，所采用的药物筛选方法通常是对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱，用于表征生物体在使用药物前后的预测基因差异，再作为药物筛选的依据。

但是，经发明人研究发现，相关技术中，仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱，而并未考虑到样本药物与生物体环境的交互学习，因此，所获得的预测差异表达谱的准确性较低。

基于以上背景，为提高预测差异表达谱的准确性，本公开实施例提供了一种差异表达谱预测模型训练方法，该差异表达谱预测模型训练方法可以应用于电子设备。以下，将结合图1所示流程示意图，对本公开实施例提供的一种差异表达谱预测模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S101，获取样本药物的初始分子表示；

步骤S102，获取样本生物体的初始基因表示；

步骤S103，将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；

步骤S104，通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，该实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

其中，样本药物可以是小分子药物，例如，可以是小分子靶向药物。

在执行步骤S101时，首先，可以确定出样本药物的分子结构，也即，确定出样本药物包括的所有药物原子，再描述出每个药物原子的属性特征和连接特征。其中，药物原子的属性特征可以包括原子类型、原子杂化态以及该药物原子是否为电离中心等，药物原子的连接特征可以包括该药物原子与其K阶邻居原子的连接方式，以及该K阶邻居原子的属性特征。其中，K的取值可以是但不限于2、3、4等。此后，对每个药物原子的属性特征和连接特征进行向量化处理，获得一个P维向量表示，作为该药物原子的初始原子表示，最后，整合所有药物原子的初始原子表示，生成样本药物的初始分子表示，也即，样本药物的图编码。其中，P的取值可以是但不限于16、32等。

示例性地，初始分子表示为：

X11、X12……X1P；

X21、X22……X2P；

X31、X32……X3P；

……

XZ1、XZ2……XZP

其中，X11、X12……X1P用于表征所有药物原子中第一个药物原子的初始原子表示，X21、X22……X2P用于表征所有药物原子中第二个药物原子的初始原子表示，X31、X32……X3P用于表征所有药物原子中第三个药物原子的初始原子表示，以此类推，XZ1、XZ2……XZP用于表征所有药物原子中最后一个药物原子的初始原子表示。

此外，若样本药物为人体用药，则样本生物体为人体；若样本药物为兽用药，则样本生物体为对应兽类生物体。

在执行步骤S102时，首先，可以确定出样本药物所针对的多个靶点基因，例如，若样本生物体为人体，则可以将基因生物学领域所确定出的978个人体核心基因作为多个靶点基因。此后，生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。例如，针对每个靶点基因，可以生成一个N维向量表示，作为该靶点基因的初始向量表示，该N维向量表示中的每个元素为一个初始化的超参数，用于表征该靶点基因的某一属性特征。其中，N的取值可以是但不限于64、128等。

示例性地，初始基因表示为：

Y11、Y12……Y1N；

Y21、Y22……Y2N；

Y31、Y32……Y3N；

……

YM1、YM2……YMN

其中，Y11、Y12……Y1N用于表征多个靶点基因中第一个靶点基因Y1的初始向量表示，Y21、Y22……Y2N用于表征多个靶点基因中第二个靶点基因Y2的初始向量表示，Y31、Y32……Y3N用于表征多个靶点基因中第三个靶点基因Y3的初始向量表示，以此类推，YM1、YM2……YMN用于表征多个靶点基因中最后一个靶点基因YM的初始向量表示。

在获得样本药物的初始分子表示，以及样本生物体的初始基因表示之后，再将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异。此后，通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型。其中，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

其中，待训练模型用于根据初始分子表示和初始基因表示，实现样本药物与生物体环境的交互学习，输出预测差异表达谱。基于此，可以理解的是，本公开实施例中，待训练模型可以包括至少一个注意力模型，至少用于引入初始分子表示与初始基因表示之间的相关性计算(注意力计算)，从而实现样本药物与生物体环境的交互学习。差异表达谱预测模型是通过预测差异表达谱和实际差异表达谱对待训练模型进行训练获得的，因此，与待训练模型具有相同的模型结构，区别在于模型参数在经过训练后被更新。

采用本公开实施例提供的差异表达谱预测模型训练方法，可以获取样本药物的初始分子表示，以及获取样本生物体的初始基因表示；再将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，用于表征样本生物体在使用样本药物前后的预测基因差异；最后，通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。由于本公开中，预测差异表达谱是待训练模型根据样本药物的初始分子表示和样本生物体的初始基因表示输出的，实现了样本药物与生物体环境的交互学习，因此，相对于仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱的处理方案而言，可以提高预测差异表达谱的准确性。

在一些可选的实施方式中，步骤S101包括步骤S1011、步骤S1012和步骤S1013(附图中未示出)。

步骤S1011，获取第二目标原子的三维空间坐标信息，该第二目标原子为样本药物中的任何一个药物原子；

步骤S1012，生成对应于第二目标原子、且携带有三维空间坐标信息的初始原子表示；

步骤S1013，根据初始原子表示，生成样本药物的初始分子表示。

如前所述的，在步骤S101时，可以确定出样本药物的分子结构，也即，确定出样本药物包括的所有药物原子，再描述出每个药物原子的属性特征和连接特征。其中，药物原子的属性特征可以包括原子类型、原子杂化态以及该药物原子是否为电离中心等，药物原子的连接特征可以包括该药物原子与其K阶邻居原子的连接方式，以及该K阶邻居原子的属性特征。此后，对每个药物原子的属性特征和连接特征进行向量化处理，获得对应的向量表示，作为该药物原子的初始原子表示，最后，整合所有药物原子的初始原子表示，生成样本药物的初始分子表示。

基于步骤S1011、步骤S1012和步骤S1013，可以理解的是，本公开实施例中，药物原子的连接特征除可以包括该药物原子与其K阶邻居原子的连接方式，以及该K阶邻居原子的属性特征之外，还可以包括该药物原子的三维空间坐标信息。

在以上实施方式中，由于药物原子的连接特征除可以包括该药物原子与其K阶邻居原子的连接方式，以及该K阶邻居原子的属性特征之外，还可以包括该药物原子的三维空间坐标信息，因此，能够更好地表征样本药物的分子结构，以进一步提高预测差异表达谱的准确性。

对于步骤S102，以样本生物体为人体为例，若仅将基因生物学领域所确定出的978个人体核心基因作为多个靶点基因，再基于这多个靶点基因获得预测差异表达谱，那么，在将该预测差异表达谱作为药物筛选的依据，获得目标药物分子之后，由于多个靶点基因并不全面，因此，目标药物分子在作用到人体之后，就可能出现脱靶效应。基于此，为提高预测差异表达谱的可用性，在一些可选的实施方式中，步骤S102包括步骤S1021、步骤S1022和步骤S1023(附图中未示出)。

步骤S1021，确定样本生物体内的全量基因；

步骤S1022，将全量基因作为多个靶点基因；

步骤S1023，生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。

同样，样本生物体为人体为例，约包括20000个基因，因此，可以将这20000个基因作为多个靶点基因，再生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。

在以上实施方式中，并非仅将基因生物学领域所确定出的978个人体核心基因作为多个靶点基因，再基于这多个靶点基因获得预测差异表达谱，而是将样本生物体内的全量基因作为多个靶点基因，再基于这多个靶点基因获得具有高可用性的预测差异表达谱。因此，在将该预测差异表达谱作为药物筛选的依据，获得目标药物分子之后，由于多个靶点基因的全面性，目标药物分子在作用到人体之后，不会出现脱靶效应。

在一些可选的实施方式中，待训练模型包括图神经网络模型和基因迭代模型。其中，图神经网络模型可以是图卷积神经网络(Graph Convolutional Network，GCN)，而基因迭代模型可以包括至少一个注意力模型。

基于待训练模型的以上模型结构，步骤S103可以包括步骤S1031、步骤S1032和步骤S1033(附图中未示出)。

步骤S1031，将初始分子表示输入图神经网络模型，获得图神经网络模型根据初始分子表示输出的样本药物的特征表示；

步骤S1032，将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示；

步骤S1033，根据特征表示和目标基因表示，获得预测差异表达谱。

以图神经网络模型为GCN为例，GCN内部可以包括K层卷积层，将初始分子表示输入GCN之后，通过GCN对初始分子表示进行特征提取处理，获得样本药物的特征表示，包括样本药物中每个药物原子的特征向量表示，也即，样本药物的特征表示为样本药物的原子级特征表示，从而能够更好地表征样本药物的分子结构。其中，药物原子的特征向量表示与靶点基因的初始向量表示具有相同维度，例如，靶点基因的初始向量表示是一个N维向量表示，则药物原子的特征向量表示同样需要调整为是一个N维向量表示。在获得样本药物的特征表示之后，将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示，再根据特征表示和目标基因表示，获得预测差异表达谱。

在以上实施方式中，采用了图神经网络模型对初始分子表示进行特征提取处理，获得样本药物的特征表示，由于图神经网络模型具有高可靠性，因此，能够更好地表征样本药物的分子结构。同时，以上实施方式中还采用了基因迭代模型，以根据特征表示和初始基因表示，对初始基因表示进行迭代处理，从而能够更好地实现样本药物与生物体环境的交互学习，以进一步提高预测差异表达谱的准确性。

在一些可选的实施方式中，基因迭代模型包括两个注意力模型，例如，包括药物基因互作模型和蛋白质互作模型。其中，药物基因互作模型可以是多头注意力(Multi-headAttention)模型，而蛋白质互作模型可以是Transformer模型、Graph Transformer模型等。

基于基因迭代模型的以上模型结构，步骤S1032可以包括步骤S10321、步骤S10322和步骤S10323(附图中未示出)。

步骤S10321，将特征表示和初始基因表示输入药物基因互作模型，获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，该中间基因表示包括样本生物体内多个靶点基因的中间向量表示；

步骤S10322，根据中间基因表示和样本生物体的基因拓扑结构，构建蛋白质互作网络，该蛋白质互作网络携带有多个靶点基因的中间向量表示，以及多个靶点基因之间的互作关系；

步骤S10323，将蛋白质互作网络输入蛋白质互作模型，获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，该目标基因表示包括多个靶点基因的最终向量表示。

其中，基因拓扑结构可以是预先构建的，包括样本生物体的多个靶点基因，以及多个靶点基因之间的互作关系。在获得中间基因表示之后，将每个靶点基因的中间向量表示映射到基因拓扑结构上的该靶点基因，则成功构建蛋白质互作网络。

在以上实施方式中，不仅基于药物基因互作模型引入了初始分子表示与初始基因表示之间的相关性计算(注意力计算)，从而实现了样本药物与生物体环境的交互学习，还基于蛋白质互作模型的设置，考虑到了样本生物体在使用样本药物前后在靶点基因之间引起的级联反应，最终，将这两者同时反应到了预测差异表达谱中，以进一步提高预测差异表达谱的准确性。

此外，如前所述的，特征表示包括样本药物中每个药物原子的特征向量表示，基于此，步骤S10321中“获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示”具体可以包括：

通过药物基因互作模型确定出第一目标原子的特征向量表示，作为目标原子表示，该第一目标原子为样本药物中的任何一个药物原子；

通过药物基因互作模型计算目标原子表示与初始基因表示之间的第一相关性；

获得药物基因互作模型根据第一相关性，对初始基因表示进行更新输出的中间基因表示。

请结合图2，示例性地，第一目标原子为药物原子X1、且目标原子表示为：X11'、X12'……X1N'，此外，如前所述的，初始基因表示可以为：

Y11、Y12……Y1N；

Y21、Y22……Y2N；

Y31、Y32……Y3N；

……

YM1、YM2……YMN

首先，分别计算出向量(X11'，X12'……X1N')与向量(Y11，Y12……Y1N)、向量(Y21，Y22……Y2N)、向量(Y31，Y32……Y3N)……向量(YM1，YM2……YMN)的第一点乘结果，记作第一点乘结果X1Y1、第一点乘结果X1Y2、第一点乘结果X1Y3……第一点乘结果X1YN。其中，第一点乘结果X1Y1用于表征药物原子X1与第一个靶点基因Y1之间的相关度，第一点乘结果X1Y2用于表征药物原子X1与第二个靶点基因Y2之间的相关度，第一点乘结果X1Y3用于表征药物原子X1与第三个靶点基因Y3之间的相关度，以此类推，第一点乘结果X1YN用于表征药物原子X1与最后一个靶点基因YM之间的相关度、且结合图2中的相关度灰度表征柱，第一点乘结果X1Y1、第一点乘结果X1Y2、第一点乘结果X1Y3和第一点乘结果X1YN均小于0.006。最后，融合与向量(X11'，X12'……X1N')对应的所有第一点乘结果，获得目标原子表示与初始基因表示之间的第一相关性，再根据获得的所有第一相关性，对初始基因表示进行更新，获得中间基因表示。

以上操作可以通过药物基因互作模型，例如，多头注意力模型实现，本公开实施例对此不作赘述。

由于步骤S10321的执行过程中，可以确定出第一目标原子的特征向量表示，作为目标原子表示，并计算目标原子表示与初始基因表示之间的第一相关性，再根据第一相关性，对初始基因表示进行更新，获得中间基因表示。因此，能够清晰样本药物中每个药物原子与多个靶点基因之间的影响力，从而为样本药物所能够提供的药物疗效提供一定的生物学机理解释。

进一步地，同样如前所述，蛋白质互作模型可以是Graph Transformer模型，在蛋白质互作模型为Graph Transformer模型的情况下，步骤S10323中“获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示”具体可以包括：

通过蛋白质互作模型根据多个靶点基因之间的互作关系，从多个靶点基因中确定出与目标基因存在互作关系的相关基因，该目标基因为多个靶点基因中的任何一个靶点基因；

通过蛋白质互作模型计算目标基因与相关基因之间的第二相关性；

获得蛋白质互作模型根据第二相关性，对多个靶点基因的中间向量表示进行更新输出的目标基因表示。

请结合图3，示例性地，目标基因为基因Y1，则可以根据多个靶点基因之间的互作关系，从多个靶点基因中确定出与目标基因Y1存在互作关系的相关基因，包括靶点基因Y2和靶点基因Y3。Y11'、Y12'……Y1N'用于表征靶点基因Y1的中间向量表示，Y21'、Y22'……Y2N'用于表征靶点基因Y2的中间向量表示，Y31'、Y32'……Y3N'用于表征靶点基因Y3的中间向量表示。此后，分别计算出向量(Y11'，Y12'……Y1N')与向量(Y21'，Y22'……Y2N')和向量(Y31'，Y32'……Y3N')的第二点乘结果。最后，将与向量(Y11'，Y12'……Y1N')对应的所有第二点乘结果，作为Y1基因与相关基因(靶点基因Y2和靶点基因Y3)之间的第二相关性，再根据获得的所有第二相关性，对多个靶点基因的中间向量表示进行更新，获得目标基因表示。

以上操作可以通过蛋白质互作模型，例如，Graph Transformer模型实现，本公开实施例对此不作赘述。

由于步骤S10323的执行过程中，可以根据多个靶点基因之间的互作关系，从多个靶点基因中确定出与目标基因存在互作关系的相关基因，并计算目标基因与相关基因之间的第二相关性，再根据第二相关性，对多个靶点基因的中间向量表示进行更新，获得目标基因表示。因此，能够清晰多个靶点基因中每个靶点基因的相关基因，以及其与相关基因之间的影响力，也即，能够清晰样本生物体在使用样本药物前后在靶点基因之间引起的级联反应，从而为样本药物所能够提供的药物疗效提供更深层的生物学机理解释。

此外，在蛋白质互作模型为Graph Transformer模型的情况下，由于GraphTransformer模型中，全连接层在进行融合处理的过程中，仅会计算目标基因与相关基因之间的第二相关性，而不会计算目标基因与每个靶点基因的相关性，这种引入图稀疏性策略的计算方式，能够极大降低计算量，从而提高模型训练效率。

在一些可选的实施方式中，步骤S1033包括步骤S10331和步骤S10332。

步骤S10331，对特征表示和目标基因表示进行残差处理，获得残差处理结果；

步骤S10332，将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

其中，对特征表示和目标基因表示进行残差处理可以通过预设的残差处理模型执行，例如，通过残差处理模型，将特征表示和目标基因表示相加，获得相加结果，作为残差处理结果。

其中，预测差异表达谱可以是包括978个元素的向量表示。

此外，感知机可以是多层感知机(Multi layered Perceptron，MLP)，相对于单层感知机(Single Layer Perceptron，SLP)而言，能够进一步提高预测差异表达谱的准确性。

在一些可选的实施方式中，执行步骤S1033之前，还需要对特征表示进行池化处理，获得池化处理结果。此后，在执行步骤S1033时，可以根据池化处理结果和目标基因表示，获得预测差异表达谱。例如，对池化结果和目标基因表示进行残差处理，获得残差处理结果，再将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

示例性地，池化结果为X1、X2……XN，目标基因表示为：

Y11”、Y12”……Y1N”；

Y21”、Y22”……Y2N”；

Y31”、Y32”……Y3N”；

……

YM1”、YM2”……YMN”

此后，可以通过广播(Broadcast)方式，对池化结果和目标基因表示进行残差处理，获得残差处理结果：

Y11”+X1、Y12”+X2……Y1N”+XN；

Y21”+X1、Y22”+X2……Y2N”+XN；

Y31”+X1、Y32”+X2……Y3N”+XN；

……

YM1”+X1、YM2”+X2……YMN”+XN

获得残差处理结果之后，将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

在以上实施方式中，由于是在对特征表示进行池化处理，获得池化处理结果之后，根据池化处理结果和目标基因表示获得预测差异表达谱的。因此，不仅能够减少特征表示中存在的部分干扰信息，从而进一步提高预测差异表达谱的准确性，还能够进一步降低计算量，以提高模型训练效率。

以下，将结合图4和图5，对本公开实施例提供的一种差异表达谱预测模型训练方法完整性流程进行说明。

图4和图5所示示例中，样本生物体为人体，样本生物体包括的20000个基因将作为多个靶点基因。待训练模型包括图神经网络模型和基因迭代模型。其中，图神经网络模型为GCN，基因迭代模型包括药物基因互作模型和蛋白质互作模型，而药物基因互作模型为多头注意力模型，蛋白质互作模型为Graph Transformer模型。

差异表达谱预测模型训练方法完整性流程，包括：

步骤S401，获取样本药物的初始分子表示，以及样本生物体的初始基因表示；

步骤S402，将初始分子表示输入GCN，获得GCN根据初始分子表示输出的样本药物的特征表示；

步骤S403，将特征表示和初始基因表示输入多头注意力模型，获得多头注意力模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，该中间基因表示包括样本生物体内多个靶点基因的中间向量表示；

步骤S404，根据中间基因表示和样本生物体的基因拓扑结构，构建蛋白质互作网络，该蛋白质互作网络携带有多个靶点基因的中间向量表示，以及多个靶点基因之间的互作关系；

步骤S405，将蛋白质互作网络输入Graph Transformer模型，获得GraphTransformer模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，该目标基因表示包括多个靶点基因的最终向量表示；

步骤S406，对特征表示进行池化处理，获得池化处理结果；

步骤S407，对池化结果和目标基因表示进行残差处理，获得残差处理结果；

步骤S408，将残差处理结果输入MLP，获得MLP对残差处理结果进行映射输出处理输出的预测差异表达谱。

其中，预测差异表达谱可以是包括978个元素的向量表示。

综上所述，采用本公开实施例提供的差异表达谱预测模型训练方法，可以获取样本药物的初始分子表示，以及获取样本生物体的初始基因表示；再将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，用于表征样本生物体在使用样本药物前后的预测基因差异；最后，通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。由于本公开中，预测差异表达谱是待训练模型根据样本药物的初始分子表示和样本生物体的初始基因表示输出的，实现了样本药物与生物体环境的交互学习，因此，相对于仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱的处理方案而言，可以提高预测差异表达谱的准确性。

请参阅图6，为本公开实施例提供的一种差异表达谱预测模型训练方法的场景示意图。

如前所述的，本公开实施例提供的差异表达谱预测模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

电子设备可以在接收到用户终端发送的模型训练任务之后，用于：

获取样本药物的初始分子表示；

获取样本生物体的初始基因表示；

将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；

通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，该实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

在获得差异表达谱预测模型之后，可以将差异表达谱预测模型保存和/或发送给用户终端。

其中，样本药物的初始分子表示、样本生物体的初始基因表示，以及实际差异表达谱可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

需要说明的是，本公开实施例中，图6所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图6示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

本公开还提供了一种差异表达谱预测方法，该差异表达谱预测方法可以应用于电子设备。以下，将结合图7所示流程示意图，对本公开实施例提供的一种差异表达谱预测方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S701，获取目标药物的初始分子表示；

步骤S702，获取目标生物体的初始基因表示；

步骤S703，将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征目标生物体在使用目标药物前后的预测基因差异。

其中，差异表达谱预测模型通过前述差异表达谱预测模型训练方法训练获得。

由于差异表达谱预测模型通过前述差异表达谱预测模型训练方法训练获得的，因此：

在一些可选的实施方式中，差异表达谱预测模型包括经过训练的图神经网络模型和基因迭代模型，那么，步骤S703可以包括：

将初始分子表示输入图神经网络模型，获得图神经网络模型根据初始分子表示输出的样本药物的特征表示；

将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示；

根据特征表示和目标基因表示，获得预测差异表达谱。

在一些可选的实施方式中，基因迭代模型包括药物基因互作模型和蛋白质互作模型，将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示，可以包括：

将特征表示和初始基因表示输入药物基因互作模型，获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，该中间基因表示包括样本生物体内多个靶点基因的中间向量表示；

根据中间基因表示和样本生物体的基因拓扑结构，构建蛋白质互作网络，该蛋白质互作网络携带有多个靶点基因的中间向量表示，以及多个靶点基因之间的互作关系；

将蛋白质互作网络输入蛋白质互作模型，获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，目标基因表示包括多个靶点基因的最终向量表示。

在一些可选的实施方式中，特征表示包括样本药物中每个药物原子的特征向量表示，获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，可以包括：

在一些可选的实施方式中，获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，可以包括：

获得蛋白质互作模型根据第二相关性，对多个靶点基因的中间向量表示进行更新，获得目标基因表示。

在一些可选的实施方式中，根据特征表示和目标基因表示，获得预测差异表达谱，可以包括：

对特征表示和目标基因表示进行残差处理，获得残差处理结果；

将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

在一些可选的实施方式中，根据特征表示和目标基因表示，获得预测差异表达谱之前，还可以包括：

对特征表示进行池化处理，获得池化处理结果；

根据特征表示和目标基因表示，获得预测差异表达谱，包括：

根据池化处理结果和目标基因表示，获得预测差异表达谱。

在一些可选的实施方式中，获取样本药物的初始分子表示，可以包括：

获取第二目标原子的三维空间坐标信息，该第二目标原子为样本药物中的任何一个药物原子；

生成对应于第二目标原子、且携带有三维空间坐标信息的初始原子表示；

根据初始原子表示，生成样本药物的初始分子表示。

在一些可选的实施方式中，获取样本生物体的初始基因表示，可以包括：

确定样本生物体内的全量基因；

将全量基因作为多个靶点基因；

生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。

以上各个步骤的具体实施可参见前面的差异表达谱预测模型训练方法实施例，在此不作赘述。

采用本公开实施例提供的差异表达谱预测方法，可以获取目标药物的初始分子表示，以及目标生物体的初始基因表示；再将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，用于表征目标生物体在使用目标药物前后的预测基因差异。由于差异表达谱预测模型通过前述差异表达谱预测模型训练方法训练获得，因此，预测差异表达谱是待训练模型根据样本药物的初始分子表示和样本生物体的初始基因表示输出的，实现了样本药物与生物体环境的交互学习，相对于仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱的方案而言，可以提高预测差异表达谱的准确性。

请参阅图8，为本公开实施例提供的一种差异表达谱预测方法的场景示意图。

如前所述的，本公开实施例提供的差异表达谱预测方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

电子设备可以在接收到用户终端发送的差异表达谱预测任务之后，用于：

获取目标药物的初始分子表示；

获取目标生物体的初始基因表示；

将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征目标生物体在使用目标药物前后的预测基因差异。

在获得预测差异表达谱之后，可以将预测差异表达谱保存和/或发送给用户终端。

其中，目标药物的初始分子表示，以及目标生物体的初始基因表示可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

需要说明的是，本公开实施例中，图8所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图8示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

为了更好地实施差异表达谱预测模型训练方法，本公开实施例还提供一种差异表达谱预测模型训练装置，该差异表达谱预测模型训练装置具体可以集成在电子设备中。以下，将结合图9所示结构示意图，对公开实施例提供的一种差异表达谱预测模型训练装置进行说明。

该模型训练装置可以包括：第一训练处理模块901，用于获取样本药物的初始分子表示；第二训练处理模块902，用于获取样本生物体的初始基因表示；第三训练处理模块903，用于将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，该预测差异表达谱用于表征样本生物体在使用样本药物前后的预测基因差异；训练模块904，用于通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，该实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。

在一些可选的实施方式中，待训练模型包括图神经网络模型和基因迭代模型，第三训练处理模块903可以用于：将初始分子表示输入图神经网络模型，获得图神经网络模型根据初始分子表示输出的样本药物的特征表示；将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示；根据特征表示和目标基因表示，获得预测差异表达谱。

在一些可选的实施方式中，基因迭代模型包括药物基因互作模型和蛋白质互作模型，第三训练处理模块903可以用于：将特征表示和初始基因表示输入药物基因互作模型，获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，该中间基因表示包括样本生物体内多个靶点基因的中间向量表示；根据中间基因表示和样本生物体的基因拓扑结构，构建蛋白质互作网络，该蛋白质互作网络携带有多个靶点基因的中间向量表示，以及多个靶点基因之间的互作关系；将蛋白质互作网络输入蛋白质互作模型，获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，目标基因表示包括多个靶点基因的最终向量表示。

在一些可选的实施方式中，特征表示包括样本药物中每个药物原子的特征向量表示，第三训练处理模块903可以用于：通过药物基因互作模型确定出第一目标原子的特征向量表示，作为目标原子表示，该第一目标原子为样本药物中的任何一个药物原子；通过药物基因互作模型计算目标原子表示与初始基因表示之间的第一相关性；获得药物基因互作模型根据第一相关性，对初始基因表示进行更新输出的中间基因表示。

在一些可选的实施方式中，第三训练处理模块903可以用于：通过蛋白质互作模型根据多个靶点基因之间的互作关系，从多个靶点基因中确定出与目标基因存在互作关系的相关基因，该目标基因为多个靶点基因中的任何一个靶点基因；通过蛋白质互作模型计算目标基因与相关基因之间的第二相关性；获得蛋白质互作模型根据第二相关性，对多个靶点基因的中间向量表示进行更新输出的目标基因表示。

在一些可选的实施方式中，第三训练处理模块903可以用于：对特征表示和目标基因表示进行残差处理，获得残差处理结果；将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

在一些可选的实施方式中，所述第三训练处理模块903，还用于：先对特征表示进行池化处理，获得池化处理结果；在获得池化处理结果之后，根据池化处理结果和目标基因表示，获得预测差异表达谱。

在一些可选的实施方式中，第一训练处理模块901可以用于：获取第二目标原子的三维空间坐标信息，该第二目标原子为样本药物中的任何一个药物原子；生成对应于第二目标原子、且携带有三维空间坐标信息的初始原子表示；根据初始原子表示，生成样本药物的初始分子表示。

在一些可选的实施方式中，第二训练处理模块902用于：确定样本生物体内的全量基因；将全量基因作为多个靶点基因；生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的差异表达谱预测模型训练方法实施例，在此不作赘述。

采用本公开实施例提供的差异表达谱预测模型训练装置，可以获取样本药物的初始分子表示，以及获取样本生物体的初始基因表示；再将初始分子表示和初始基因表示输入待训练模型，获得待训练模型根据初始分子表示和初始基因表示输出的预测差异表达谱，用于表征样本生物体在使用样本药物前后的预测基因差异；最后，通过预测差异表达谱和实际差异表达谱对待训练模型进行训练，获得差异表达谱预测模型，实际差异表达谱用于表征样本生物体在使用样本药物前后的实际基因差异。由于本公开中，预测差异表达谱是待训练模型根据样本药物的初始分子表示和样本生物体的初始基因表示输出的，实现了样本药物与生物体环境的交互学习，因此，相对于仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱的处理方案而言，可以提高预测差异表达谱的准确性。

为了更好地实施差异表达谱预测装置，本公开实施例还提供一种差异表达谱预测装置，该差异表达谱预测装置具体可以集成在电子设备中。以下，将结合图10所示结构示意图，对公开实施例提供的一种差异表达谱预测装置进行说明。

该差异表达谱预测装置可以包括：第一预测处理模块1001，用于获取目标药物的初始分子表示；第二预测处理模块1002，用于获取目标生物体的初始基因表示；预测模块1003，用于将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，预测差异表达谱用于表征目标生物体在使用目标药物前后的预测基因差异。

在一些可选的实施方式中，差异表达谱预测模型包括图神经网络模型和基因迭代模型，预测模块1003可以用于：将初始分子表示输入图神经网络模型，获得图神经网络模型根据初始分子表示输出的样本药物的特征表示；将特征表示和初始基因表示输入基因迭代模型，获得基因迭代模型根据特征表示和初始基因表示，对初始基因表示进行迭代处理输出的目标基因表示；根据特征表示和目标基因表示，获得预测差异表达谱。

在一些可选的实施方式中，基因迭代模型包括药物基因互作模型和蛋白质互作模型，预测模块1003可以用于：将特征表示和初始基因表示输入药物基因互作模型，获得药物基因互作模型根据特征表示和初始基因表示之间的交互作用，对初始基因表示进行更新输出的中间基因表示，该中间基因表示包括样本生物体内多个靶点基因的中间向量表示；根据中间基因表示和样本生物体的基因拓扑结构，构建蛋白质互作网络，该蛋白质互作网络携带有多个靶点基因的中间向量表示，以及多个靶点基因之间的互作关系；将蛋白质互作网络输入蛋白质互作模型，获得蛋白质互作模型根据多个靶点基因之间的互作关系，对多个靶点基因的中间向量表示进行更新输出的目标基因表示，该目标基因表示包括多个靶点基因的最终向量表示。

在一些可选的实施方式中，特征表示包括样本药物中每个药物原子的特征向量表示，预测模块1003可以用于：通过药物基因互作模型确定出第一目标原子的特征向量表示，作为目标原子表示，该第一目标原子为样本药物中的任何一个药物原子；通过药物基因互作模型计算目标原子表示与初始基因表示之间的第一相关性；获得药物基因互作模型根据第一相关性，对初始基因表示进行更新输出的中间基因表示。

在一些可选的实施方式中，预测模块1003可以用于：通过蛋白质互作模型根据多个靶点基因之间的互作关系，从多个靶点基因中确定出与目标基因存在互作关系的相关基因，该目标基因为多个靶点基因中的任何一个靶点基因；通过蛋白质互作模型计算目标基因与相关基因之间的第二相关性；获得蛋白质互作模型根据第二相关性，对多个靶点基因的中间向量表示进行更新输出的目标基因表示。

在一些可选的实施方式中，预测模块1003可以用于：对特征表示和目标基因表示进行残差处理，获得残差处理结果；将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

在一些可选的实施方式中，预测模块1003可以用于：先对特征表示进行池化处理，获得池化处理结果；再根据特征表示的池化处理结果和目标基因表示，进行残差处理，获得残差处理结果；将残差处理结果输入感知机，获得感知机对残差处理结果进行映射输出处理输出的预测差异表达谱。

在一些可选的实施方式中，第一预测处理模块1001可以用于：获取第二目标原子的三维空间坐标信息，该第二目标原子为样本药物中的任何一个药物原子；生成对应于第二目标原子、且携带有三维空间坐标信息的初始原子表示；根据初始原子表示，生成样本药物的初始分子表示。

在一些可选的实施方式中，第二预测处理模块1002用于：确定样本生物体内的全量基因；将全量基因作为多个靶点基因；生成多个靶点基因的初始向量表示，作为样本生物体的初始基因表示。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的差异表达谱预测方法实施例，在此不作赘述。

采用本公开实施例提供的差异表达谱预测装置，可以获取目标药物的初始分子表示，以及目标生物体的初始基因表示；再将初始分子表示和初始基因表示输入差异表达谱预测模型，获得差异表达谱预测模型根据初始分子表示和初始基因表示输出的预测差异表达谱，用于表征目标生物体在使用目标药物前后的预测基因差异。由于差异表达谱预测模型通过前述差异表达谱预测模型训练方法训练获得，因此，预测差异表达谱是待训练模型根据样本药物的初始分子表示和样本生物体的初始基因表示输出的，实现了样本药物与生物体环境的交互学习，相对于仅对样本药物进行解析，获得分子表示，然后，直接通过感知机映射输出预测差异表达谱的方案而言，可以提高预测差异表达谱的准确性。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。如前所述的，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的计算机程序或从存储单元1108加载到随机访问存储器(Random Access Memory，RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如，差异表达谱预测模型训练方法和/或差异表达谱预测方法。例如，在一些可选的实施方式中，差异表达谱预测模型训练方法和/或差异表达谱预测方法可分别被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些可选的实施方式中，计算机程序的部分或全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的差异表达谱预测模型训练方法和/或差异表达谱预测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行差异表达谱预测模型训练方法和/或差异表达谱预测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System On Chip，SOC)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)显示器或液晶显示器(Liquid Crystal Display，LCD))；以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或包括中间件部件的计算系统(例如，应用服务器)、或包括前端部件的计算系统(例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local AreaNetwork，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种差异表达谱预测模型训练方法，包括：

获取样本药物的初始分子表示；

获取样本生物体的初始基因表示；

将所述初始分子表示和所述初始基因表示输入待训练模型，获得所述待训练模型根据所述初始分子表示和所述初始基因表示输出的预测差异表达谱，所述预测差异表达谱用于表征所述样本生物体在使用所述样本药物前后的预测基因差异；

通过所述预测差异表达谱和实际差异表达谱对所述待训练模型进行训练，获得差异表达谱预测模型，所述实际差异表达谱用于表征所述样本生物体在使用所述样本药物前后的实际基因差异。

2.根据权利要求1所述的方法，其中，所述待训练模型包括图神经网络模型和基因迭代模型，所述将所述初始分子表示和所述初始基因表示输入待训练模型，获得所述待训练模型根据所述初始分子表示和所述初始基因表示输出的预测差异表达谱，包括：

将所述初始分子表示输入所述图神经网络模型，获得所述图神经网络模型根据所述初始分子表示输出的所述样本药物的特征表示；

将所述特征表示和所述初始基因表示输入所述基因迭代模型，获得所述基因迭代模型根据所述特征表示和所述初始基因表示，对所述初始基因表示进行迭代处理输出的目标基因表示；

根据所述特征表示和所述目标基因表示，获得所述预测差异表达谱。

3.根据权利要求2所述的方法，其中，所述基因迭代模型包括药物基因互作模型和蛋白质互作模型，所述将所述特征表示和所述初始基因表示输入基因迭代模型，获得所述基因迭代模型根据所述特征表示和所述初始基因表示，对所述初始基因表示进行迭代处理输出的目标基因表示，包括：

将所述特征表示和所述初始基因表示输入所述药物基因互作模型，获得所述药物基因互作模型根据所述特征表示和所述初始基因表示之间的交互作用，对所述初始基因表示进行更新输出的中间基因表示，所述中间基因表示包括所述样本生物体内多个靶点基因的中间向量表示；

根据所述中间基因表示和所述样本生物体的基因拓扑结构，构建蛋白质互作网络，所述蛋白质互作网络携带有所述多个靶点基因的中间向量表示，以及所述多个靶点基因之间的互作关系；

将所述蛋白质互作网络输入所述蛋白质互作模型，获得所述蛋白质互作模型根据所述多个靶点基因之间的互作关系，对所述多个靶点基因的中间向量表示进行更新输出的所述目标基因表示，所述目标基因表示包括所述多个靶点基因的最终向量表示。

4.根据权利要求3所述的方法，其中，所述特征表示包括所述样本药物中每个药物原子的特征向量表示，所述获得所述药物基因互作模型根据所述特征表示和所述初始基因表示之间的交互作用，对所述初始基因表示进行更新输出的中间基因表示，包括：

通过所述药物基因互作模型确定出第一目标原子的特征向量表示，作为目标原子表示，所述第一目标原子为所述样本药物中的任何一个药物原子；

通过所述药物基因互作模型计算所述目标原子表示与所述初始基因表示之间的第一相关性；

获得所述药物基因互作模型根据所述第一相关性，对所述初始基因表示进行更新输出的所述中间基因表示。

5.根据权利要求3所述的方法，其中，所述获得所述蛋白质互作模型根据所述多个靶点基因之间的互作关系，对所述多个靶点基因的中间向量表示进行更新输出的所述目标基因表示，包括：

通过所述蛋白质互作模型根据所述多个靶点基因之间的互作关系，从所述多个靶点基因中确定出与目标基因存在互作关系的相关基因，所述目标基因为所述多个靶点基因中的任何一个靶点基因；

通过所述蛋白质互作模型计算所述目标基因与所述相关基因之间的第二相关性；

获得所述蛋白质互作模型根据所述第二相关性，对所述多个靶点基因的中间向量表示进行更新输出的所述目标基因表示。

6.根据权利要求2所述的方法，其中，所述根据所述特征表示和所述目标基因表示，获得所述预测差异表达谱，包括：

对所述特征表示和所述目标基因表示进行残差处理，获得残差处理结果；

将所述残差处理结果输入感知机，获得所述感知机对所述残差处理结果进行映射输出处理输出的所述预测差异表达谱。

7.根据权利要求2～6中任一项所述的方法，其中，所述根据所述特征表示和所述目标基因表示，获得所述预测差异表达谱之前，还包括：

对所述特征表示进行池化处理，获得池化处理结果；

所述根据所述特征表示和所述目标基因表示，获得所述预测差异表达谱，包括：

根据所述池化处理结果和所述目标基因表示，获得所述预测差异表达谱。

8.根据权利要求1所述的方法，其中，所述获取样本药物的初始分子表示，包括：

获取第二目标原子的三维空间坐标信息，所述第二目标原子为所述样本药物中的任何一个药物原子；

生成对应于所述第二目标原子、且携带有所述三维空间坐标信息的初始原子表示；

根据所述初始原子表示，生成所述样本药物的初始分子表示。

9.根据权利要求1所述的方法，其中，所述获取样本生物体的初始基因表示，包括：

确定所述样本生物体内的全量基因；

将所述全量基因作为多个靶点基因；

生成所述多个靶点基因的初始向量表示，作为所述样本生物体的初始基因表示。

10.一种差异表达谱预测方法，包括：

获取目标药物的初始分子表示；

获取目标生物体的初始基因表示；

将所述初始分子表示和所述初始基因表示输入差异表达谱预测模型，获得所述差异表达谱预测模型根据所述初始分子表示和所述初始基因表示输出的预测差异表达谱，所述预测差异表达谱用于表征所述目标生物体在使用所述目标药物前后的预测基因差异，所述差异表达谱预测模型通过权利要求1～9中任一项所述的方法训练获得。

11.一种差异表达谱预测模型训练装置，包括：

第一训练处理模块，用于获取样本药物的初始分子表示；

第二训练处理模块，用于获取样本生物体的初始基因表示；

第三训练处理模块，用于将所述初始分子表示和所述初始基因表示输入待训练模型，获得所述待训练模型根据所述初始分子表示和所述初始基因表示输出的预测差异表达谱，所述预测差异表达谱用于表征所述样本生物体在使用所述样本药物前后的预测基因差异；

训练模块，用于通过所述预测差异表达谱和实际差异表达谱对所述待训练模型进行训练，获得差异表达谱预测模型，所述实际差异表达谱用于表征所述样本生物体在使用所述样本药物前后的实际基因差异。

12.根据权利要求11所述的装置，其中，所述待训练模型包括图神经网络模型和基因迭代模型，所述第三训练处理模块用于：

将所述特征表示和所述初始基因表示输入所述基因迭代模型获得所述基因迭代模型根据所述特征表示和所述初始基因表示，对所述初始基因表示进行迭代处理输出的目标基因表示；

13.根据权利要求12所述的装置，其中，所述基因迭代模型包括药物基因互作模型和蛋白质互作模型，所述第三训练处理模块用于：

14.根据权利要求13所述的装置，其中，所述特征表示包括所述样本药物中每个药物原子的特征向量表示，所述第三训练处理模块用于：

获得通过所述药物基因互作模型根据所述第一相关性，对所述初始基因表示进行更新输出的所述中间基因表示。

15.根据权利要求13所述的装置，其中，所述第三训练处理模块用于：

16.根据权利要求12所述的装置，其中，所述第三训练处理模块用于：

17.根据权利要求12～16中任一项所述的装置，其中，所述第三训练处理模块，还用于：先对所述特征表示进行池化处理，获得池化处理结果；在获得所述池化处理结果之后，根据所述池化处理结果和所述目标基因表示，获得所述预测差异表达谱。

18.根据权利要求11所述的装置，其中，所述第一训练处理模块用于：

19.根据权利要求11所述的装置，其中，所述第二训练处理模块用于：

确定所述样本生物体内的全量基因；

将所述全量基因作为多个靶点基因；

20.一种差异表达谱预测装置，包括：

第一预测处理模块，用于获取目标药物的初始分子表示；

第二预测处理模块，用于获取目标生物体的初始基因表示；

预测模块，用于将所述初始分子表示和所述初始基因表示输入差异表达谱预测模型，获得所述差异表达谱预测模型根据所述初始分子表示和所述初始基因表示输出的预测差异表达谱，所述预测差异表达谱用于表征所述目标生物体在使用所述目标药物前后的预测基因差异，所述差异表达谱预测模型通过权利要求1～9中任一项所述的方法训练获得。

21.一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可以被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1～10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1～10中任一项所述的方法。