CN115662538B

CN115662538B - 毒性预测模型的构建方法及预测模型、预测方法及装置

Info

Publication number: CN115662538B
Application number: CN202211682054.1A
Authority: CN
Inventors: 王小东; 汪晓晓; 姚盟成; 高祥瑞; 李阳; 张帆; 郭雪玉; 赖力鹏
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-03-28
Anticipated expiration: 2042-12-27
Also published as: CN115662538A

Abstract

本申请提供了毒性预测模型的构建方法及预测模型、预测方法及装置，解决了现有技术中药物毒性预测准确性差的技术问题。本申请提供的药物毒性预测模型的构建方法，获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像，对高内涵图像进行预处理得到多张单细胞图像，以多张单细胞图像随机分为训练集以及验证集，并对初始预测模型进行训练和验证，以得到药物毒性预测模型。在对模型进行训练的时候，输入为多张单细胞图像，去掉了原始高内涵图像中大量的冗余信息；以单细胞图像为单位进行特征提取，将提取的特征组合成特征序列并进一步进行特征聚合，从而将化合物与毒性的生理特征建立联系，从而提高药物毒性预测的准确性。

Description

毒性预测模型的构建方法及预测模型、预测方法及装置

技术领域

本申请涉及药物安全性评价技术领域，具体涉及毒性预测模型的构建方法及预测模型、预测方法及装置。

背景技术

众所周知，药物研发是高投入、高风险的领域，一款药物从研发到上市售卖平均需要花费10-15年、平均投入数亿美元，而且平均每5000-10000个进入研发管线的分子中只有一个能够研发成功。而心脏安全性、肾脏安全性、肝脏安全性为目前药物退市和退出临床试验的主要原因之一。

随着计算机技术和机器学习技术的发展，使用深度学习网络进行药物的药代动力学性质和毒性预测为药物研发提供了一种新策略。

然而，现有的使用深度学习网络的预测方法中，根据化合物本身的结构进行预测，但是这种预测存在适应性较差的问题，特别是对于结构新颖的化合物小分子，预测准确性差的问题。

发明内容

有鉴于此，本申请提供了毒性预测模型的构建方法及预测模型、预测方法及装置，解决了现有技术中药物毒性预测方法适应性差，尤其是对于结构新颖的化合物小分子，预测准确性差的技术问题。

作为本申请的第一方面，本申请提供了一种药物毒性预测模型的构建方法，包括：获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像；对所述高内涵图像进行预处理，以获取多张单细胞图像；将多张单细胞图像随机分为训练集以及验证集；基于深度学习算法构建初始预测模型；将所述训练集输入所述初始预测模型进行训练得到多个训练后的预测模型；以及将所述验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型。

在本申请一实施例中，所述初始预测模型包括基于卷积神经网络的单细胞图像特征编码器以及基于Transformer模型的多细胞图像特征编码器。在本申请一实施例中，将所述训练集输入所述初始预测模型进行训练得到多个训练后的预测模型，包括：将多张所述单细胞图像输入所述单细胞图像特征编码器中，以提取所述单细胞图像各自的一维特征，并进一步将所述单细胞图像各自的一维特征组合成特征序列；将所述特征序列输入至所述多细胞图像特征编码器中，以提取多张所述单细胞图像之间的聚合特征；以及将所述聚合特征送入分类器中，得到预测结果，并结合相应的毒性分类标签计算损失，通过反向传播不断迭代优化，得到多个训练后的预测模型。

在本申请一实施例中，所述多细胞图像特征编码器为由自注意力层构建的多细胞图像特征编码器；其中，将所述特征序列输入至多细胞图像特征编码器中，以提取多张所述单细胞图像之间的聚合特征，包括：将所述特征序列输入至多细胞图像特征编码器中进行自注意力关联，以提取有效图像特征；以及根据所述有效图像特征将多张所述单细胞图像的特征聚合成一个一维特征进行分类，以提取多张所述单细胞图像之间的聚合特征。

在本申请一实施例中，对所述高内涵图像进行预处理，以获取多张单细胞图像，包括：对所述高内涵图像进行细胞定位，以确定单细胞的位置；以及根据所述单细胞的位置对所述高内涵图像进行分割和拼接，以确定单细胞图像。

在本申请一实施例中，将所述验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型，包括：将多张单细胞图像分为多组验证组；将每组验证组中的单细胞图像分别输入所述多个训练后的预测模型进行验证，以得到各个训练后的预测模型输出的相应化合物的验证毒性；根据每个训练后的预测模型输出的相应化合物的验证毒性与相应化合物的毒性分类标签确定每个训练后的预测模型的平均验证结果；以及根据所述平均验证结果，选择在验证过程中表现符合预设条件的训练后的预测模型为药物毒性预测模型。

需要说明的是，所述预设条件可根据需要进行设置，例如平均验证结果显示预测准确性最高的1个或平均验证结果显示预测准确性较高的N个(N＞1)。

在本申请一实施例中，所述毒性分类标签包括药物心脏毒性分类标签，药物肝脏毒性分类标签、药物肾脏毒性分类标签中的任何一种或者多种组合。

作为本申请的第二方面，本申请还提供了一种由上述所述的药物毒性预测模型的构建方法构建的药物毒性预测模型。

作为本申请的第三方面，本申请还提供了一种药物毒性的预测方法，包括：获取经待测药物处理检测细胞得到的高内涵图像；对所述高内涵图像进行预处理，以获取多张单细胞图像；将所述多张单细胞图像输入至上述所述的药物毒性预测模型中进行预测，以得到所述药物的毒性。

作为本申请的第四方面，本申请还提供了一种药物毒性的预测装置，其包括：高内涵图像获取模块，用于获取经待测药物处理检测细胞得到的高内涵图像；预处理模块，用于对所述高内涵图像进行预处理，以获取多张单细胞图像；以及上述所述的药物毒性预测模型，用于对所述多张单细胞图像进行预测，以得到所述待测药物的毒性。

本申请提供的药物毒性预测模型的构建方法，通过获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像，然后对高内涵图像进行预处理得到多张单细胞图像，然后以多张单细胞图像随机分为训练集以及验证集，并以训练集为输入对初始预测模型进行训练得到多个训练后的预测模型，将验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型。在对模型进行训练的时候，初始预测模型输入为对高内涵图像进行预处理得到的多张单细胞图像，以多张单细胞图像为输入，去掉了原始高内涵图像中大量的冗余信息，噪音等，从而降低了外在实验因素对预测结果的影响；以单细胞图像为单位进行特征提取，然后将提取获得的特征组合成特征序列，并进一步进行特征聚合，从而将化合物与毒性的生理特征建立联系，从而提高了药物毒性预测的准确性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目标、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1所示为本申请一实施例提供的一种药物毒性预测模型的构建方法的流程示意图；

图2所示为本申请另一实施例提供的一种药物毒性预测模型的构建方法的流程示意图；

图3所示为本申请另一实施例提供的一种药物毒性预测模型的构建方法的流程示意图；

图4所示为本申请另一实施例提供的一种药物毒性预测模型的构建方法的流程示意图；

图5所示为本申请另一实施例提供的一种药物毒性预测模型的构建方法的流程示意图；

图6所示为本申请一实施例提供的一种药物毒性的预测方法的流程示意图；

图7所示为本申请一实施例提供的药物毒性的预测装置的工作原理图；

图8所示为本申请一实施例提供的电子设备的工作原理图。

具体实施方式

本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后、顶、底……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

申请概述

随着计算机技术的飞速发展，特别是人工智能相关的机器学习和深度学习的发展，目前也有一些深度学习和机器学习预测药物毒性的方法，这种方法主要是通过人工智能的方法，根据化合物本身的结构进行预测，但是这种预测存在较大的问题，就是对于结构新颖的化合物小分子存在预测准确性差的问题。

心脏安全性的问题是目前药物退市和退出临床试验的主要原因之一。特别是一些心血管疾病治疗药物和一些抗肿瘤药物会显著性的造成心脏毒性副作用引发的心律失衡（QT延长）。为了避免新药的心脏毒性造成药物研发的资金和生命的巨大损伤，心脏毒性的评估在药物研发中是一种十分必要的步骤。并且ICH对心脏毒性的检测提供了详细的指南（E14/S7B），明确了药物心脏风险的判断标准；美国FDA在2013年提出了CiPA（Comprehensive in vitro Proarrhythmia Assay ）项目，项目目的在于构建新的临床药物体外心脏安全性评估体系和标准，以达到临床前药物的准确性和有效性，尽量避免QT的人体临床试验，以达到药物研发的降本增效的效果。

心脏毒性主要体现在心肌细胞的毒性，hERG（human Ether-a-go-go RelatedGene）是编码心脏钾离子通道蛋白的基于，此蛋白介导一种延迟整流钾电流，一般来说，抑制心肌细胞中的hERG会造成心脏动作电位时程中QT间期延长，从而导致心脏毒性。iPSC-CMs是人源化干细胞诱导的心肌细胞，能够准确性的反应体内心脏的毒性，是目前体外药物心脏毒性评估的主要载体。目前，体外hERG评价方法主要有三类：电生理（膜片钳，金标准）、基于细胞荧光的检测方法、配体结合检测方法，但方法普遍存在操作复杂、通量低，成本高的问题。

综上所述，目前药物心脏毒性预测主要存在如下问题：（1）传统的膜片钳技术存在成本高、通量低、信息量少的问题；（2）基于结果的人工智能的方法预测心脏毒性的方法存在着适应性较差的问题，特别是对于结构新颖的化合物小分子，其准确性较差。

本申请提供的药物毒性预测模型的构建方法，通过获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像，然后对高内涵图像进行预处理得到多张单细胞图像，然后以多张单细胞图像随机分为训练集以及验证集，并以训练集为输入对初始预测模型进行训练得到多个训练后的预测模型，将验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型。在对模型进行训练的时候，初始预测模型输入为对高内涵图像进行预处理得到的多张单细胞图像，以多张单细胞图像为输入，去掉了原始高内涵图像中大量的冗余信息，噪音等，从而降低了外在实验因素对预测结果的影响；以单细胞图像为单位进行特征提取，然后将提取获得的特征组合成特征序列，并进一步进行特征聚合，以获取细胞图像的聚合特征，从而将化合物与毒性的生理特征建立联系，从而提高了药物毒性预测的准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方式进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

作为本申请的第一方面，本申请提供了一种药物毒性预测模型的构建方法，如图1所示，该药物毒性预测模型的构建方法，包括如下步骤：

步骤S10：获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像；

可选的，毒性分类标签包括药物心脏毒性分类标签，药物肝脏毒性分类标签、药物肾脏毒性分类标签中的任何一种或者多种组合。

当毒性分类标签包括药物心脏毒性分类标签时，检测细胞则为人源心肌细胞，例如iPSC-CMs细胞。

当毒性分类标签为药物肝脏毒性分类标签时，检测细胞可以为人源肝细胞。

当毒性分类标签为药物肾脏毒性分类标签时，检测细胞可以为人源肾细胞。

具体的，当毒性分类标签为药物心脏毒性分类标签时，本申请则是药物心脏毒性预测模型的构建方法，得到的为药物心脏毒性预测模型，采用该药物心脏毒性预测模型即可预测药物的心脏毒性。

当毒性分类标签为药物肝脏毒性分类标签时，本申请则是药物肝脏毒性预测模型的构建方法，得到的为药物肝脏毒性预测模型，采用该药物肝脏毒性预测模型即可预测药物的肝脏毒性。

当毒性分类标签为药物心脏毒性分类标签以及药物肝脏毒性分类标签时，本申请则是药物心脏、肝脏毒性预测模型的构建方法，得到的为药物心脏、肝脏毒性预测模型，采用该药物心脏、肝脏毒性预测模型即可预测药物的心脏、肝脏毒性。即既可以预测药物心脏毒性也可以预测药物肝脏毒性。

具体的：步骤S10（获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像）可以具体包括如下步骤：

（1）首先，选择化合物，其中化合物的挑选方法包括：

利用chembl数据库的python API接口，下载所有具有hERG IC50的化合物分子，通过去重和过滤没有具体hERG IC50值的药物分子，再结合实验室的具体情况，一共选取了100个化合物进行后续实验。根据心脏hERG IC50的值给化合物打上有毒和无毒的标签，当化合物的心脏hERG IC50的值小于或者等于10μm时，确定化合物为有毒，即给予该化合物有毒标签。当化合物的心脏hERG IC50的值大于10μm时，确定化合物为无毒，即给予该化合物无毒标签。100个化合物分子中58个为有心脏毒性化合物，42个为无心脏毒性化合物。

（2）检测细胞的复苏以及培养。

检测细胞可以根据药物对器官种类的毒性而定，例如当检测药物心脏毒性时，检测细胞可以为人源心肌细胞。

当检测药物心脏毒性时，检测细胞为人源心肌细胞，例如iPSC-CMs细胞。iPSC-CMs细胞是指由iPSC（induced Pluripotent Stem Cell，诱导多能干细胞）诱导分化的心肌细胞（cardiomyocyte，CM），由于其人源性，较好的均一性，具有与心肌细胞一致的离子通道、动作电位等属性；其广泛应用于高通量的药物筛选、药物评价等方面。

以下以iPSC-CMs细胞为检测细胞为例进行介绍：

将冻存的iPSC-CMs细胞于37°培养箱化开后离心，用cardiomyocytes platingmedium重悬，计数，按照合适的细胞密度（1.2*10^4个/孔）将细胞铺在提前包被有vtn的384孔培养板中，60μl/孔，铺板后将细胞培养板于培养箱进行培养，这天记为D0。

D1天时，用maintenance medium进行半量换液，此后每隔一天换液一次。

（3）以上述100个带有毒性分类标签（例如有毒标签、无毒标签）的化合物分别处理检测细胞。

具体的，按照前述（2）的方法获得培养好的检测细胞，当D4时，iPSC-CMs细胞开始出现节律性的跳动，化合物按照10μM的浓度，3倍稀释，往后稀释6个浓度点，3个重复，每孔去除培养板中原本培养基，用maintenance medium培养基稀释称1×系列化合物梯度加到细胞中，60μl/孔，将细胞培养板于培养箱进行培养。

（4）高内涵染色和高内涵成像

高内涵是一种用于基础医学领域的医学科研仪器，主要用于细胞表型拍照和记录，目前主要应用于研究细胞形态学发生变化的科学和产业中，广泛应用药物筛选、毒性评估等等。一般来说，高内涵成像是需要对带有一定染料的细胞进行成像，需要提前对细胞不同的细胞器或者位置进行染色，染色剂根据不同的目的选择不同的染料。

具体的：高内涵染色：将加药72h后的细胞拿出培养箱，细胞离心后，每孔吸走约30μl左右体积，用maintenance medium配制 2×染料（10uM CM-H2DCFDA+40nM TMRM+10ug/mlHoechst）,30μl/孔加入到细胞中，在培养箱中孵育30min，30min后，弃去约3/4液体，用HBSS清洗两遍后，用HBSS配制2nM YOYO-3，50μl/孔加入到孔板中，室温孵育10min后，加入HBSS清洗两遍后进行高内涵拍照。

高内涵成像：将孔板放置于高内涵中，分别用滤光片进行拍照，调整曝光参数，设置孔数和相应的视野数，用20倍水镜进行拍照以获得iPSC-CMs细胞的高内涵图像。

具体的，拍摄到的高内涵图像数量与带有毒性分类标签的化合物的数量，以及带有毒性分类标签的化合物处理检测细胞是的浓度有关，例如当选取100个带有毒性分类标签的化合物，每个化合物处理检测细胞的浓度有3个时，那么100个带有毒性分类标签的化合物分别处理检测细胞后，即可获取300张高内涵图像。

步骤S20：对高内涵图像进行预处理，以获取多张单细胞图像；

步骤S20是对步骤S10获得的每张高内涵图像进行预处理，以获取每张高内涵图像的多张单细胞图像。

由于对每张高内涵图像进行预处理，获取多张单细胞图像，即在预处理的过程中，去掉了原始高内涵图像中大量的冗余信息，提高了预测的准确性。

步骤S30：将多张单细胞图像随机分为训练集以及验证集；

具体的，当步骤S10中选取了100个带有毒性分类标签的化合物时，那么在步骤S10中则会得到100组高内涵图像，那么在步骤S20中将会得到100组单细胞图像，每组单细胞图像包括由一张高内涵图像被预处理后得到的多张单细胞图像。

当每个化合物处理检测细胞的浓度有多个时，可将不同浓度的同一化合物的高内涵图像形成1个组，并进一步将每组高内涵图像获得的单细胞图像设为1个组；也可以将得到的高内涵图像根据化合物和浓度的不同，分别形成相应的组，从而得到相应组数的单细胞图像。

在一具体实施例中，将不同浓度的同一化合物的高内涵图像形成1个组，并进一步将每组高内涵图像获得的单细胞图像设为1个组，以100个化合物为例，可获得100组单细胞图像；将100组单细胞图像随机分为训练集以及验证集，其中训练集包括多组单细胞图像，验证集包括多组单细胞图像。

在一具体实施例中，将化合物分成训练化合物（60个分子，其中，有心脏毒性化合物36个，无心脏毒性化合物24个）和验证化合物（40个分子，其中，有心脏毒性化合物22个，无心脏毒性化合物18个）；相应的，各训练化合物处理检测细胞得到的高内涵图像以及基于这些高内涵图像进一步得到的单细胞图像为训练集；各验证化合物处理检测细胞得到的高内涵图像以及基于这些高内涵图像进一步得到的单细胞图像为验证集。

步骤S40：基于深度学习算法构建初始预测模型；

步骤S50：将训练集输入初始预测模型进行训练得到多个训练后的预测模型；

具体的，训练集可以为上述所述的60组单细胞图像。

步骤S60：将验证集分别输入至多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型。

具体的，验证集可以为上述所述的40组单细胞图像。

在一具体实施例中，为了加速预测模型的预测速度，从每个验证化合物得到的多张单细胞图像中随机选择预设数量（例如100张、200张、300张、400张、500张等等）的单细胞图像作为该验证化合物对应的验证组单细胞图像；为了进一步避免随机选择导致的验证结果差异，可进行多次（例如3、5、7、10、15、20等等）随机选择，从而使得每个验证化合物获得相应组数的验证组单细胞图像，并对这些验证组各自获得的验证结果取平均值，得到相应的验证结果，并基于多个验证化合物的验证结果计算各个训练后的预测模型的准确性。

在本申请一实施例中，初始预测模型包括基于卷积神经网络的单细胞图像特征编码器以及基于Transformer模型的多细胞图像特征编码器。

其中，卷积神经网络由多个模块构成，包含卷积层，激活层以及标准化层，层内有short-cut结构。

Transformer 模型是一种深度学习神经网络，它通过跟踪序列数据中的关系来学习上下文并由此学习序列的含义。Transformer 模型应用了自注意力机制，以建模序列中数据之间的关系，得到序列的高内涵语义。

通过单细胞图像特征编码器可以为单个细胞图像为单位进行特征提取，提取到单细胞图像的一维特征，避免了实验导致的细胞在不同孔之间分布不均匀的影响。然后，多细胞图像特征编码器以多个单个细胞图像的一维特征组合成的特征序列为单位进行全局特征的提取，以提取多张单细胞图像之间的聚合特征，避免了单个细胞的表现不能体现化合物的毒性。

本实施例中，本申请的发明人创造性的将卷积神经网络和Transformer模型结合应用在细胞表型上的模型；优选地，Transformer模型中添加了drop path机制，使其不容易过拟合。在单细胞图像特征编码器中添加了自适应图像调节层，以自动调整图像到合适的通道数来让模型预测，从而可针对不同的实验数据进行预测。

在本申请的一具体实施例中，得到最佳心脏毒性预测模型的预测准确度可到91%；而现有技术中的心脏毒性预测模型（deepprofiler、cellprofiler）的预测准确度仅为55%。

在本申请一实施例中，如图2所示，步骤S50（将训练集输入初始预测模型进行训练得到多个训练后的预测模型）具体包括如下步骤：

步骤S501：将多张单细胞图像输入单细胞图像特征编码器中，以提取单细胞图像的一维特征，并进一步将所述单细胞图像各自的一维特征组合成特征序列；

具体的，单细胞图像特征编码器为基于卷积神经网络的编码器，对单细胞图像进行特征提取，可以提取每张单细胞图像的一维特征；并在获得多张单细胞图像各自的一维特征之后进行组合获得特征序列。

步骤S502：将特征序列输入至多细胞图像特征编码器中，以提取多张单细胞图像之间的聚合特征；

多细胞图像特征编码器为Transformer 模型，它通过跟踪序列数据中的关系来学习上下文并由此学习序列的含义，它应用了自注意力机制，以建模序列中数据之间的关系，得到序列的高内涵语义。

因此通过多细胞图像编码器可以对多个单细胞的一维特征组合成的特征序列进行特征聚合，以提取多个单细胞之间的相互影响以及相互依赖的关系，即提取多个单细胞之间的有效聚合特征，以获取多张单细胞图像之间的聚合特征。

步骤S503：将所述聚合特征送入分类器中，得到预测结果，并结合相应的毒性分类标签计算损失，通过反向传播不断迭代优化，得到多个训练后的预测模型。

本申请通过单细胞图像特征编码器可以为单个细胞图像为单位进行特征提取，提取到单细胞图像的一维特征，避免了实验导致的细胞在不同孔之间分布不均匀的影响。然后，多细胞图像特征编码器以多个单个细胞图像的一维特征组合成的特征序列为单位进行全局特征的提取，以提取多张单细胞图像之间的聚合特征，避免了单个细胞的表现不能体现化合物的毒性，从而提高了模型预测的准确性。

在本申请一实施例中，如图3所示，多细胞图像特征编码器为由自注意力层构建的多细胞图像特征编码器；此时，步骤S502（将特征序列输入至多细胞图像特征编码器中，以提取多张单细胞图像之间的聚合特征）具体包括如下步骤：

步骤S5021：将特征序列输入至多细胞图像特征编码器中进行自注意力关联，以提取有效图像特征；以及

步骤S5022：根据有效图像特征将多张单细胞图像的特征聚合成一个一维特征进行分类，以提取多张单细胞图像之间的聚合特征。

在本申请一实施例中，如图4所示，步骤S20（对高内涵图像进行预处理，以获取多张单细胞图像）具体包括如下步骤：

步骤S201：对高内涵图像进行细胞定位，以确定单细胞的位置；

本实施例中使用CellProfiler软件，自定义模块对所获得的高内涵图像进行预处理。具体的，先由Load Images模块导入高内涵图像数据，CorrectIlluminationCalculate对每个通道的明暗水平进行计算，输出并保存每个通道的图像明场计算后的明场图像。然后使用Load Images 模块导入明场图像，使用CorrectIlluminationApply模块进行均匀光照处理，分别利用IdentifyPrimaryObjects、IdentifySecondaryObjects和IdentifyTertiaryObjects模块定位细胞和、细胞和细胞质，由MeasureObjectSizeShape模块计算细胞核和细胞大小以及位置并由ExportToSpreadsheet模块输出细胞位置定位结果，即输出单细胞的位置。

步骤S202：根据单细胞的位置对高内涵图像进行分割和拼接，以确定单细胞图像。

经步骤S201即可确定单细胞的具体位置，然后使用Deepprofiler软件的export-sc模块，利用由CellProfiler获取的单细胞的位置对高内涵图像进行切割和拼接。首先，分别对细胞核、线粒体膜电位、线粒体活性氧进行基于细胞核中心坐标对裁切，提取96*96大小的图像；然后将裁切后的图像进行水平拼接，得到288*96大小的图像；最后将图像按照板-孔-视野的文件夹进行归类整理，以获取单细胞图像。

在本申请一实施例中，如图5所示，步骤S60（将验证集分别输入至多个训练后的预测模型进行验证，并根据验证结果从多个训练后的预测模型中确定药物毒性预测模型）具体包括如下步骤：

步骤S601：将多张单细胞图像分为多组验证组；

步骤S602：将每组验证组中的单细胞图像分别输入多个训练后的预测模型进行验证，以得到各个训练后的预测模型输出的相应化合物的验证毒性；

步骤S603：根据每个训练后的预测模型输出的相应化合物的验证毒性与相应化合物的毒性分类标签确定每个训练后的预测模型的平均验证结果；以及

步骤S604：根据所述平均验证结果，选择在验证过程中表现符合预设条件的训练后的预测模型为药物毒性预测模型。

需要说明的是，步骤S604中的预设条件可根据需要进行设置，例如平均验证结果显示预测准确性最高的1个或平均验证结果显示预测准确性较高的N个(N＞1)。

示例性模型

作为本申请的第二方面，本申请还提供了一种药物毒性预测模型，该药物毒性预测模型由上述所述的药物毒性预测模型的构建方法构建而成。

可选的，该药物毒性预测模型可以单一毒性预测模型，即药物毒性预测模型只能预测一种药物毒性，例如：药物心脏毒性预测模型，可以预测药物的心脏毒性；也可以为药物肝脏毒性预测模型，可以预测药物的肝脏毒性；也可以为药物肾脏毒性预测模型，可以预测药物的肾脏毒性。

该药物毒性预测模型还可以为复合毒性预测模型，即药物毒性预测模型可以预测药物的两种以上的毒性，例如：药物心脏、肾脏毒性预测模型，可以同时预测药物的心脏毒性以及药物的肾脏毒性。

可选的，药物毒性预测模型包括基于卷积神经网络的单细胞图像特征编码器以及基于Transformer模型的多细胞图像特征编码器。

示例性预测方法

作为本申请的第三方面，本申请还提供了一种药物毒性的预测方法，如图6所示，该药物毒性的预测方法包括如下步骤：

步骤S1：获取经待测药物处理检测细胞得到的高内涵图像；

具体的，待测药物指的是需要检测药物毒性的待测药物。

需要说明的是，所述待预测药物可为药物研发过程中的各类型的候选药物或已上市药物，可为小分子化合物、多肽、抗体、重组蛋白、ADC、PROTAC等，优选小分子化合物。

检测细胞指的是药物检测的毒性种类的细胞，例如若检测药物的心脏毒性，则检测细胞则为人源心肌细胞；若检测药物的肾脏毒性，则检测细胞为人源肾脏细胞。

具体的，获取经待测药物处理检测细胞得到的高内涵图像的具体方式可以采用上述步骤S10中所述的（获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像）所包括的而具体步骤，再此不再做赘述。

步骤S2：对高内涵图像进行预处理，以获取多张单细胞图像；

具体的，对高内涵图像进行预处理，以获取多张单细胞图像，以去掉原始高内涵图像中大量的冗余信息，提高了预测的准确性。

具体的，对高内涵图形进行预处理的具体方式可以采用上述步骤S20（对高内涵图像进行预处理，以获取多张单细胞图像）所包括的具体步骤，在此不再做赘述。

步骤S3：将多张单细胞图像输入上述所述的药物毒性预测模型中进行预测，以得到药物的毒性。

本申请提供的药物毒性的预测方法，当对待测药物的毒性进行预测时，输入为高内涵图像经过预处理得到的多张单细胞图形，然后药物毒性预测模型以单细胞图像为单位进行特征提取，然后将提取获得的特征组合成特征序列，并进一步进行特征聚合，以获取细胞图像的聚合特征，从而将化合物与毒性的生理特征建立联系，既考虑了单细胞的局部信息，又考虑了多细胞带来的全局信息。并且能够降低由实验设备，实验手法，采样和其他一些难以避免的影响带来的噪音，从而提高了药物毒性预测的准确性以及化合物适应性。

示例性预测装置

作为本申请的第四方面，本申请还提供了一种药物毒性的预测装置，如图7所示，该药物毒性的预测装置包括：

高内涵图像获取模块100，用于获取经待测药物处理检测细胞得到的高内涵图像；

预处理模块200，用于对高内涵图像进行预处理，以获取多张单细胞图像；以及

上述所述的药物毒性预测模型300，用于对多张单细胞图像进行预测，以得到待测药物的毒性。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。图8所示为本申请一实施例提供的电子设备的结构示意图。

如图8所示，电子设备600包括一个或多个处理器601和存储器602。

处理器601可以是中央处理单元（CPU）或者具有信息处理能力和/或信息执行能力的其他形式的处理单元，并且可以控制电子设备600中的其他组件以执行期望的功能。

存储器601可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序信息，处理器601可以运行所述程序信息，以实现上文所述的本申请的各个实施例的方法或者其他期望的功能。

在一个示例中，电子设备600还可以包括：输入装置603和输出装置604，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置603可以包括例如键盘、鼠标等等。

该输出装置604可以向外部输出各种信息。该输出装置604可以包括例如显示器、通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备600中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备600还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序信息，所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序信息，所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方式。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

以上所述仅为本申请创造的较佳实施例而已，并不用以限制本申请创造，凡在本申请创造的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请创造的保护范围之内。

Claims

1.一种药物毒性预测模型的构建方法，其特征在于，包括：

获得经多个带有毒性分类标签的化合物分别处理检测细胞得到的相应的高内涵图像；

对所述高内涵图像进行预处理，以获取多张单细胞图像；

将多张单细胞图像随机分为训练集以及验证集；

基于深度学习算法构建初始预测模型；

将所述训练集输入所述初始预测模型进行训练得到多个训练后的预测模型；以及

将所述验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型；

对所述高内涵图像进行预处理，以获取多张单细胞图像，包括：

对所述高内涵图像进行细胞定位，以确定单细胞的位置；以及

根据所述单细胞的位置对所述高内涵图像进行分割和拼接，以确定单细胞图像。

2.根据权利要求1所述的构建方法，其特征在于，所述初始预测模型包括基于卷积神经网络的单细胞图像特征编码器以及基于Transformer模型的多细胞图像特征编码器。

3.根据权利要求2所述的构建方法，其特征在于，将所述训练集输入所述初始预测模型进行训练得到多个训练后的预测模型，包括：

将多张所述单细胞图像输入所述单细胞图像特征编码器中，以提取所述单细胞图像各自的一维特征，并进一步将所述单细胞图像各自的一维特征组合成特征序列；

将所述特征序列输入至所述多细胞图像特征编码器中，以提取多张所述单细胞图像之间的聚合特征；以及

将所述聚合特征送入分类器中，得到预测结果，并结合相应的毒性分类标签计算损失，通过反向传播不断迭代优化，得到多个训练后的预测模型。

4.根据权利要求3所述的构建方法，其特征在于，所述多细胞图像特征编码器为由自注意力层构建的多细胞图像特征编码器；

其中，将所述特征序列输入至多细胞图像特征编码器中，以提取多张所述单细胞图像之间的聚合特征，包括：

将所述特征序列输入至多细胞图像特征编码器中进行自注意力关联，以提取有效图像特征；以及

根据所述有效图像特征将多张所述单细胞图像的特征聚合成一个一维特征进行分类，以提取多张所述单细胞图像之间的聚合特征。

5.根据权利要求1所述的构建方法，其特征在于，将所述验证集分别输入至所述多个训练后的预测模型进行验证，并根据验证结果从所述多个训练后的预测模型中确定药物毒性预测模型，包括：

将多张单细胞图像分为多组验证组；

将每组验证组中的单细胞图像分别输入所述多个训练后的预测模型进行验证，以得到各个训练后的预测模型输出的相应化合物的验证毒性；

根据每个训练后的预测模型输出的相应化合物的验证毒性与相应化合物的毒性分类标签确定每个训练后的预测模型的平均验证结果；以及

根据所述平均验证结果，选择在验证过程中表现符合预设条件的训练后的预测模型为药物毒性预测模型。

6.根据权利要求1所述的构建方法，其特征在于，所述毒性分类标签包括药物心脏毒性分类标签，药物肝脏毒性分类标签、药物肾脏毒性分类标签中的任何一种或者多种组合。

7.一种由权利要求1-6任一项所述的药物毒性预测模型的构建方法构建的药物毒性预测模型。

8.一种药物毒性的预测方法，其特征在于，包括：

获取经待测药物处理检测细胞得到的高内涵图像；

对所述高内涵图像进行预处理，以获取多张单细胞图像；

将所述多张单细胞图像输入至权利要求7所述的药物毒性预测模型中进行预测，以得到所述药物的毒性。

9.一种药物毒性的预测装置，其特征在于，包括：

高内涵图像获取模块，用于获取经待测药物处理检测细胞得到的高内涵图像；

预处理模块，用于对所述高内涵图像进行预处理，以获取多张单细胞图像；以及

权利要求7所述的药物毒性预测模型，用于对所述多张单细胞图像进行预测，以得到所述待测药物的毒性。