CN115240778A

CN115240778A - 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质

Info

Publication number: CN115240778A
Application number: CN202210957122.4A
Authority: CN
Inventors: 郑杰; 王诗珂; 刘勇; 吴敏; 冯艺苗; 刘鑫
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-10-25
Anticipated expiration: 2042-08-10
Also published as: CN115240778B

Abstract

本申请公开了一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质，通过获取基因数据，将基因数据中的待匹配基因和被推荐基因分别组成多个候选基因对，将候选基因对输入训练完毕的对比学习模型得到各候选基因对的基因嵌入，基于各候选基因对的基因嵌入，计算各候选基因对中两基因的相似度，作为各候选基因对的得分结果，选定得分最高的候选基因对中的被推荐基因作为待匹配基因的合成致死基因搭档。本申请利用对比学习框架达到仅用已知的合成致死基因作为正样本训练模型并推荐合成致死基因搭档的效果，排除现有技术对负样本的依赖，有效缓解基因样本的稀缺问题，较现有技术相比具备优越的预测性能。

Description

基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质

技术领域

本申请涉及生物信息学领域，特别是涉及一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质。

背景技术

癌症主要是由细胞中的关键基因突变引起的。癌变过程涉及复杂的基因调控，因此，识别基因关系对于阐明癌症发生的生物过程、控制癌症发展都发挥着重要作用。合成致死(Synthetic lethality,SL)被认为能够发现潜在抗癌药物靶点的关键基因关系，即对两个基因的扰动会杀死细胞而对单个基因的扰动不会损害细胞活力。因此，通过靶向致癌基因的合成致死基因搭档能达到选择性杀死癌细胞而保持正常细胞存活的双重作用，是一种很有前景的抗癌治疗方法。

对合成致死基因关系的挖掘最先是从生物学实验开始的，比如RNA干扰和以CRISPR为代表的基因编辑技术。然而生物学实验面临成本高昂、脱靶效应、基因敲除不成功等潜在风险。对快速价廉的基于计算的合成致死基因预测方法的需求呼之欲出。

基于数据驱动的合成致死基因对计算方法可分为统计推断和监督式机器学习两类。统计推断方法高度依赖于对合成致死基因概念和作用机制的假设，如一对合成致死基因往往是共同表达但很少发生共同突变、具有相似的生物功能或具有相似的网络特性等。统计推断方法的缺点在于，这些经验式的先验假设可能是带有偏见或不完整的，且这些方法不能直接利用实验确定的合成致死基因对去拓展新的潜在合成致死基因对。监督式机器学习方法通常将合成致死基因预测作为二分类的任务，以已知的合成致死基因对作为正样本，以其他一些基因对为负样本训练预测模型。与统计推理方法相比，有监督学习可以更自动地捕获隐藏在数据中的合成致死基因对关系。然而，监督式学习方法的缺陷在于，高质量的非合成致死基因数据难以获得，质量参差的负样本实际上人为引入了噪声，且大多数监督式学习方法将合成致死基因预测建模为分类或矩阵重建任务，与实际运用场景中的用户需求不一致。在实际场景中，受限于下游实验验证成本，用户通常更关心的是在被预测为合成致死基因对的基因列表头部中真实合成致死基因所占的比例，而不是模型对所有数据的整体预测性能。因此，合成致死基因的预测问题更适合被建模为对给定基因推荐合成致死基因搭档的基因排序问题，这将有助于降低实验验证成本且提高合成致死基因对预测的精确度。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质，用于解决现有技术中合成致死基因的预测过于依赖未标注的负样本而导致预测效果不佳的问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于对比学习的合成致死基因搭档的推荐方法，包括：

获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据；将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入；基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果；选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

于本申请的第一方面的一些实施例中，所述对比学习模型的训练步骤，包括：

获取合成致死基因对数据；对所述合成致死基因对数据的原始特征做数据增强处理，得到增强特征；将所述原始特征和增强特征输入所述对比学习模型，得到所述合成致死基因对数据的基因嵌入；基于所述合成致死基因对数据的基因嵌入，优化所述对比学习模型以最大化所述合成致死基因对数据中第一基因和第二基因的相似度。

于本申请的第一方面的一些实施例中，所述数据增强处理的步骤，包括：

获取每个特征维度下所述合成致死基因对数据中所有基因的特征均值；随机选定所述合成致死基因对数据中第一基因和第二基因的部分特征维度，利用所述特征均值替换所述部分特征维度下的原始特征。

于本申请的第一方面的一些实施例中，所述合成致死基因对数据的基因嵌入包括目标分支嵌入和在线分支嵌入，由如下步骤得到：

将所述原始特征输入所述对比学习模型的目标分支，经目标编码器处理后得到目标分支嵌入；将所述增强特征输入所述对比学习模型的在线分支，经在线编码器处理后得到在线分支嵌入；其中，所述在线编码器和目标编码器具有相同结构与不同权重值，二者均为前馈网络模型，包括三个线性变换层，其中，所述线性变换层之间还包括批标准化处理环节和激活函数层。

于本申请的第一方面的一些实施例中，优化所述对比学习模型的步骤，包括：

将所述在线分支嵌入输入预测器；所述预测器根据所述在线分支嵌入中第一基因的基因嵌入，预测第二基因的基因嵌入；定义损失函数，使所述预测器的预测结果不断接近所述目标分支嵌入。

于本申请的第一方面的一些实施例中，所述得分的计算方式如下：

其中，(g_i,g_j)表示输入所述对比学习模型的基因对，s(g_i,g_j)表示基因对(g_i,g_j)的得分，f_θ表示在线编码器，

表示预测器，T表示矩阵转置操作。

于本申请的第一方面的一些实施例中，所述基于对比学习的合成致死基因搭档的推荐方法还包括通过交叉验证方式检验所述对比学习模型的性能，其中，所述交叉验证方式包括交叉验证方式一、交叉验证方式二、交叉验证方式三：

交叉验证方式一：按照基因对划分数据集，其中，所述数据集包括训练集、验证集和测试集；交叉验证方式二：按照基因划分数据集，其中，测试集中仅有一个基因在训练集中出现；交叉验证方式三：按照基因划分数据集，其中，测试集中的基因不在训练集中出现。

为实现上述目的及其他相关目的，本申请的第二方面提供一种基于对比学习的合成致死基因搭档的推荐，包括：

数据获取模块，用于获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据；对比学习模块，用于将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入；得分计算模块，用于基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果；基因推荐模块，用于选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述方法。

综上所述，本申请所提供的一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质，具有以下有益效果：

不同于现有技术中将合成致死基因的预测建模为二分类任务，本申请所提供的一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质将自监督学习中的对比学习框架引入合成致死基因预测领域，将合成致死基因预测问题建模为更加合适的为给定基因推荐合成致死搭档的排序问题。与现有技术相比，本申请采用无需负样本的对比学习框架，有效解决现有技术中有标注负样本难以获取，以及参差负样本容易导致人为引入噪声的问题，克服了对人为选取负样本的依赖。同时根据实验结果，本申请在常用的实验参数设置下，预测性能均优越于现有的基线模型，较现有技术提升显著，在合成致死基因搭档的预测领域具备良好前景。

附图说明

图1显示为本申请一实施例中基于对比学习的合成致死基因搭档推荐方法的流程示意图。

图2显示为本申请一实施例中对比学习模型NSF4SL的框架示意图。

图3显示为本申请一实施例中交叉验证实验设置示意图。

图4显示为本申请一实施例中交叉验证实验结果示意图。

图5显示为本申请一实施例中电子终端的结构示意图。

图6显示为本申请一实施例中所述装置的结果示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

为解决上述背景技术中的问题，本发明提供一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质，旨在解决现有技术中合成致死基因的预测过于依赖负样本导致预测效果不佳的问题。与此同时，为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

<1>对比学习(Contrastive Learning)：机器学习领域术语，指一种自监督学习方法，用于在没有标签的情况下，通过让模型学习数据的相似或不同来学习数据集的一般特征。

<2>合成致死(Synthetic Lethality)：遗传学领域术语，指两个非致死基因同时失活将导致细胞死亡的现象，用于描述不同基因之间的互补性致死作用。例如，如果发现肿瘤细胞中存在特定基因A失活，那么用药物抑制它的合成致死搭档基因B，使两者都失活，而健康的体细胞因为有正常的基因A，能够保证正常的生理功能的表达，不会受到药物的伤害，从而只特异性的杀死该类肿瘤细胞，健康的体细胞不受影响依然维持健康状态。

<3>待匹配基因：未知其合成致死基因搭档的基因。

<4>被推荐基因：用于与待匹配基因组合检验是否存在合成致死关系的其它基因。

<5>基因嵌入(Gene Embedding)：基因特征经向量化处理后的结果。

本发明实施例提供一种基于对比学习的合成致死基因搭档的推荐方法、一种基于对比学习的合成致死基因搭档的推荐装置、终端以及存储用于实现基于对比学习的合成致死基因搭档的推荐方法的可执行程序的存储介质。就基于对比学习的合成致死基因搭档的推荐方法的实施而言，本发明实施例将对基于在线学习的合成致死基因搭档的推荐方法、装置、终端及介质的示例性实施场景进行说明。

如图1所示，展示了本发明实施例中的一种基于对比学习的合成致死基因搭档的推荐方法的流程示意图。本实施例中的基于对比学习的合成致死基因搭档的推荐方法主要包括如下各步骤：

步骤S11：获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据。

具体的，在上述本实施例中，所述基因数据可以存储在设定装置中，设定装置可以与合成致死基因搭档推荐装置进行网络连接，以获取所述基因数据，上述的网络连接可以是无线或有线网络连接。若设定装置与合成致死基因搭档推荐装置是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

步骤S12：将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入。

举例来说，若待匹配基因是基因g₁，被推荐基因数据列表由基因g₂、基因g₃、基因g₄、基因g₅、基因g₆……基因g_n等(n-1)个其它基因组成，将所述被推荐基因数据列表中的所有基因分别与待匹配基因g₁组成共计(n-1)个候选基因对：(g₁，g₂)，(g₁，g₃)，(g₁，g₄)，(g₁，g₅)……(g₁，g_n)。其中，所述待匹配基因由人为选定，指需要为其推荐合成致死基因搭档的基因。所述被推荐基因列表中的基因可以是人为选定的可能与待匹配基因存在合成致死关系的其它基因，也可以是采用其它标准筛选的其它基因，亦或是随机选取的其它基因，本实施例对此不作限定。

具体的，本发明将所述对比学习模型命名为NSF4SL(Negative-sample-free forSynthetic Lethality)，所述NSF4SL对比学习模型采用双分支网络框架，具体包括一个在线分支和一个目标分支，所述在线分支包括一个在线编码器f_θ和一个预测器

所述目标分支包括一个目标编码器f_ξ，其中在线编码器f_θ和目标编码器f_ξ的模型架构相同，权重分别为θ和ξ。NSF4SL对比学习模型将同一对基因的原始特征和增强特征分别输入所述目标分支和在线分支，从而预测所述基因对中的基因是否存在合成致死关系，且无需依赖于负样本。所述NSF4SL对比学习模型的具体结构，如图2所示。

于本实施例的一些实施过程中，所述对比学习模型的训练步骤，包括：

步骤S121：获取合成致死基因对数据。

具体的，所述合成致死基因对数据指的是现有技术中已知的合成致死基因对的信息，相关信息的来源可以是基因数据库、论文等。

步骤S122：对所述合成致死基因对数据的原始特征做数据增强处理，得到增强特征。

于本实施例的一些实施过程中，所述数据增强处理的步骤，包括：

具体的，首先计算所述合成致死基因对数据中所有基因数据在每个特征维度下的特征均值，其中，基因特征通过在SynLethKG(综合性合成致死基因数据库)上使用TransE模型训练得到，应理解的是，这一训练过程属于本领域的现有技术手段，此处不作赘述；其次，随机选定所述合成致死基因对数据中第一基因和第二基因的部分特征维度；最后，利用前述求得的特征均值替换该特征均值所对应的特征维度下的原始特征的值，以此完成数据增强处理的步骤。

举例来说，上述过程包括：获取若干已知的合成致死基因对的数据(g_a，g_b)，(g_c，g_d)，(g_e，g_f)……；依次计算每个特征维度下(假设存在特征维度α，β，γ……)上述合成致死基因对数据中所有基因的特征均值AVG(α)，AVG(β)，AVG(γ)……；随机选定若干特征维度，如特征维度α，特征维度β；利用选定的特征维度α和特征维度β的合成致死基因对中所有基因的特征均值AVG(α)，AVG(β)替换已知的合成致死基因对的数据(g_a，g_b)，(g_c，g_d)，(g_e，g_f)……中基因的原始特征值。

步骤S123：将所述原始特征和增强特征输入所述对比学习模型，得到所述合成致死基因对数据的基因嵌入。

于本实施例的一些实施过程中，所述合成致死基因对数据的基因嵌入包括目标分支嵌入和在线分支嵌入，由如下步骤得到：将所述原始特征输入所述对比学习模型的目标分支，经目标编码器处理后得到目标分支嵌入；将所述增强特征输入所述对比学习模型的在线分支，经在线编码器处理后得到在线分值嵌入，其中，所述在线编码器和目标编码器具有相同结构与不同权重值，二者均为前馈网络模型，包括三个线性变换层，其中，所述线性变换层之间还包括批标准化处理环节和激活函数层。

具体的，所述前馈网络模型是人工神经网络的一种，采用单向多层结构，其中每一层包含若干个神经元，在此种神经网络中，各神经元可以接收前一层神经元的信号，并产生输出到下一层，其中，第0层叫输入层，最后一层叫输出层，其他中间层叫做隐含层(或隐藏层、隐层)，隐藏层可以是一层，也可以是多层。于本实施例中，所述前馈网络模型的主要结构由三个线性变换层组成，也可以采用数量更多的线性变换层，本实施例对此不作限定。

所述激活函数层是指向所述前馈神经网络中引入非线性因素，通过激活函数层后所述前馈神经网络就可以拟合各种曲线，从而构建更加精确的模型。于本实施例中，所述激活函数可以是Sigmoid，Tanh，ReLU，Leaky ReLu等函数，本实施例对此不作限定。

所述批标准化处理即批量归一化(Batch Normalization)，是为了克服神经网络层数加深导致难以训练而诞生的一种算法，其作用在于将分散的数据统一以便于计算。

对于层l的基因嵌入g^l,其计算过程表示如下：

其中，W_l是可学习参数，b是偏置项，σ是激活函数，T代表矩阵转置操作。

所述对比学习模型的具体结构，参考图2。

步骤S124：基于所述合成致死基因对数据的基因嵌入，优化所述对比学习模型以最大化所述合成致死基因对数据中第一基因和第二基因的相似度。

于本实施例的一些实施过程中，所述对比学习模型的优化步骤，包括：

举例来说，假设(g_i,g_j)为已知的相互之间存在合成致死关系的一对输入基因的原始特征，它们在经过步骤S122所述的数据增强处理后的增强特征

输入在线编码器f_θ，两个基因的原始特征向量输入目标编码器f_ξ，在线编码器f_θ之后的预测器

使用(g_i,g_j)中每个基因的在线编码器输出不断接近另一个基因的目标编码器输出。

形式上，在线分支输出定义为：

目标分支输出定义为：

优化目标定义为：

其中，h(·)为内积函数，

和

分别代表基因对

中两基因的相似性，L(Loss)代表损失函数，当损失函数L的值达到最小时，基因对(g_i,g_j)中两基因的相似度为最大。

于本实施例的一些实施过程中，在执行完上述S121～S124步骤后，还包括步骤S125：

步骤S125：通过交叉验证方式检验所述对比学习模型的性能，其中，所述交叉验证方式包括交叉验证方式一、交叉验证方式二、交叉验证方式三：

交叉验证方式一：按照基因对划分训练集、验证集和测试集数据；交叉验证方式二：按照基因划分训练集、验证集和测试集数据，其中，测试集中仅有一个基因在训练集中出现；交叉验证方式三：按照基因划分训练集、验证集和测试集数据，其中，测试集中的基因不在训练集中出现。

交叉验证(Cross-Validation)是在机器学习建立模型和验证模型参数时常用的办法，一般被用于评估一个机器学习模型的表现。其具体步骤就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

于本实施例中，所述交叉验证方式为五折交叉验证，也可以采用三折、四折或其他数目的交叉验证方式，本实施例对此不作限定。具体的，本实施例所述的五折交叉验证包括如下步骤：首先，随机地将数据集切分为5个互不相交且大小相同的子集；然后将4个子集当成训练集训练模型，剩下的一个子集当测试集测试模型；将上一步对可能的5种选择重复进行(每次挑一个不同的子集做测试集)；据此，5个模型均得到训练，计算每个模型在相应的测试集上的测试误差，得到5个测试误差，对这5个测试误差取平均值便得到交叉验证误差。

为进一步准确地评估模型性能，本实施例设置三组不同的五折交叉验证方式：交叉验证方式一：按照基因对划分训练集、验证集和测试集数据；交叉验证方式二：按照基因划分训练集、验证集和测试集数据，其中，测试集中仅有一个基因在训练集中出现；交叉验证方式三：按照基因划分训练集、验证集和测试集数据，其中，测试集中的基因不在训练集中出现。

如图3所示，CV1，CV2，CV3分别为交叉验证方式一、交叉验证方式二及交叉验证方式三。图4为所述对比学习模型NSF4SL和基线模型在CV1，CV2和CV3三种实验设置下的预测性能比较，其中，Ratio列代表训练过程所使用的训练数据集大小；Metric列的指标为Recall@K和NDCG@K(K＝10，20和50),具体的，Recall代表召回率，用于反应模型的预测准确率，Recall@K则代表得分最高的前K个合成致死搭档中是真实合成致死搭档的个数；NDCG代表归一化折损累计增益，用于反应模型的排序能力，在得分最高的前K个合成致死搭档中，真实的合成致死搭档的排名越靠前，NDCG@K的值越大；DDGCN，KG4SL，SL²MF，GRSMF为其它应用于合成致死基因预测的基线模型；↑列代表在此实验条件下对比学习模型NSF4SL相较于最好的基线模型的提升百分比；NSF45SL代表本发明所提出的对比学习模型的性能，括号中是该对比学习模型的标准差，其中，每行的最优值用粗体标出。

步骤S13：基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果。

于本实施例的一些实施过程中，所述得分结果的计算方式如下：

表示预测器，T表示矩阵转置操作。

步骤S14：选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

举例来说，若待匹配基因是基因g₁，被推荐基因数据列表由基因g₂、基因g₃、基因g₄、基因g₅、基因g₆……基因g_n等(n-1)个其它基因组成，将所述被推荐基因数据列表中的所有基因分别与待匹配基因g₁组成共计(n-1)个候选基因对：(g₁，g₂)，(g₁，g₃)，(g₁，g₄)，(g₁，g₅)……(g₁，g_n)。根据步骤S13所述得分结果计算公式计算所述(n-1)个候选基因对的得分s(g₁，g₂)，s(g₁，g₃)，s(g₁，g₄)，s(g₁，g₅)，……s(g₁，g_n)，若其中s(g₁，g₂)的值最大，则选定基因g₂作为基因g₁的合成致死基因搭档。

需要说明的是，根据用户对合成致死基因搭档推荐数量的不同需求，本实施例选定的合成致死基因搭档数量包括但不限于1个，举例来说，若用户所需求的合成致死基因搭档数量为m个，则本合成致死基因搭档推荐方法将选取基于步骤S13所得到的候选基因对得分中分数前m个候选基因对中的待推荐基因作为推荐对象，所述实施例及其等同变换同样落入本发明的保护范围之内。

本发明实施例提供的基于对比学习的合成致死基因搭档的推荐方法可以采用终端侧或服务器侧实施，就基于对比学习的合成致死基因搭档的推荐终端的硬件结构而言，请参阅图5，为本发明实施例提供的基于对比学习的合成致死基因搭档的推荐终端500的一个可选的硬件结构示意图，该终端500可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于对比学习的合成致死基因搭档的推荐终端500包括：至少一个处理器501、存储器502、至少一个网络接口504和用户接口506。装置中的各个组件通过总线系统505耦合在一起。可以理解的是，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统。

其中，用户接口506可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

可以理解，存储器502可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器502用于存储各种类别的数据以支持基于对比学习的合成致死基因搭档的推荐终端500的操作。这些数据的示例包括：用于在基于对比学习的合成致死基因搭档的推荐终端500上操作的任何可执行程序，如操作系统5021和应用程序5022；操作系统5021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的基于对比学习的合成致死基因搭档的推荐方法可以包含在应用程序5022中。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器501可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，基于对比学习的合成致死基因搭档的推荐终端500可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable LogicDevice)，用于执行前述方法。

如图6所示，展示了本发明实施例中的一种基于对比学习的合成致死基因搭档的推荐装置的结构示意图。本实施例中，基于对比学习的合成致死基因搭档的推荐装置600包括：

数据获取模块601，用于获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据；

对比学习模块602，用于将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入；

得分计算模块603，用于基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果；

基因推荐模块604，用于选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

需要说明的是：上述实施例提供的基于对比学习的合成致死基因搭档的推荐装置在进行基于对比学习的合成致死基因搭档的推荐时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的一种基于对比学习的合成致死基因搭档的推荐装置与基于对比学习的合成致死基因搭档的推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供的一种基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质，本发明提供了一种提高基于对比学习的合成致死基因搭档的推荐效率的方法，用于解决现有技术中合成致死基因的预测过于依赖负样本导致预测效果不佳的问题。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于对比学习的合成致死基因搭档的推荐方法，其特征在于，包括：

获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据；

将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入；

基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果；

选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

2.根据权利要求1所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，所述对比学习模型的训练步骤，包括：

获取合成致死基因对数据；

对所述合成致死基因对数据的原始特征做数据增强处理，得到增强特征；

将所述原始特征和增强特征输入所述对比学习模型，得到所述合成致死基因对数据的基因嵌入；

基于所述合成致死基因对数据的基因嵌入，优化所述对比学习模型以最大化所述合成致死基因对数据中第一基因和第二基因的相似度。

3.根据权利要求2所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，所述数据增强处理的步骤，包括：

获取每个特征维度下所述合成致死基因对数据中所有基因的特征均值；

随机选定所述合成致死基因对数据中第一基因和第二基因的部分特征维度，利用所述特征均值替换所述部分特征维度下的原始特征。

4.根据权利要求2所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，所述合成致死基因对数据的基因嵌入包括目标分支嵌入和在线分支嵌入，由如下步骤得到：

将所述原始特征输入所述对比学习模型的目标分支，经目标编码器处理后得到目标分支嵌入；

将所述增强特征输入所述对比学习模型的在线分支，经在线编码器处理后得到在线分支嵌入；

其中，所述在线编码器和目标编码器具有相同结构与不同权重值，二者均为前馈网络模型，包括三个线性变换层，其中，所述线性变换层之间还包括批标准化处理环节和激活函数层。

5.根据权利要求4所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，所述对比学习模型的优化步骤，包括：

将所述在线分支嵌入输入预测器；

所述预测器根据所述在线分支嵌入中第一基因的基因嵌入，预测第二基因的基因嵌入；

定义损失函数，使所述预测器的预测结果不断接近所述目标分支嵌入。

6.根据权利要求1所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，所述得分结果的计算方式如下：

其中，(g_i,g_j)表示输入所述对比学习模型的基因对数据，s(g_i,g_j)表示基因对(g_i,g_j)的得分，f_θ表示在线编码器，

表示预测器，T表示矩阵转置操作。

7.根据权利要求2所述的基于对比学习的合成致死基因搭档的推荐方法，其特征在于，还包括通过交叉验证方式检验所述对比学习模型的性能，其中，所述交叉验证方式包括交叉验证方式一、交叉验证方式二、交叉验证方式三：

交叉验证方式一：按照基因对划分数据集，其中，所述数据集包括训练集、验证集和测试集；

交叉验证方式二：按照基因划分数据集，其中，测试集中仅有一个基因在训练集中出现；

交叉验证方式三：按照基因划分数据集，其中，测试集中的基因不在训练集中出现。

8.一种基于对比学习的合成致死基因搭档的推荐装置，其特征在于，包括：

数据获取模块，用于获取基因数据，其中，所述基因数据包括被推荐基因数据列表和待匹配基因数据；

对比学习模块，用于将所述被推荐基因数据列表中的各被推荐基因数据分别与所述待匹配基因数据组成多个候选基因对，将所述候选基因对输入训练完毕的对比学习模型，得到所述各候选基因对的基因嵌入；

得分计算模块，用于基于所述各候选基因对的基因嵌入，计算各候选基因对中待匹配基因数据和被推荐基因数据的相似度，作为各候选基因对的得分结果；

基因推荐模块，用于选定得分最高的候选基因对中的被推荐基因作为所述待匹配基因的合成致死基因搭档。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述方法。