CN112309497B

CN112309497B - 一种基于Cycle-GAN的蛋白质结构预测方法及装置

Info

Publication number: CN112309497B
Application number: CN202011579598.6A
Authority: CN
Inventors: 华权高; 赵海义; 舒芹
Original assignee: Wuhan Genecreate Biological Engineering Co ltd
Current assignee: Wuhan Genecreate Biological Engineering Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02
Anticipated expiration: 2040-12-28
Also published as: CN112309497A

Abstract

本发明涉及基于Cycle‑GAN的蛋白质结构预测方法及装置，其方法包括：获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；根据第一图像、第二图像、核磁共振图像构建模型数据集；利用所述模型数据集对Cycle‑GAN进行训练直至其损失函数值低于阈值停止训练；将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle‑GAN，得到待预测蛋白质的三维图像。本发明利用Cycle‑GAN对晶体衍射图像、核磁共振图像与冷冻电镜图像重建融合，得到冷冻电镜图像，在提高了分辨率的同时，降低了预测蛋白质高分辨率结构的成本。

Description

一种基于Cycle-GAN的蛋白质结构预测方法及装置

技术领域

本发明涉及生物信息和深度学习领域，尤其涉及一种基于Cycle-GAN的蛋白质结构预测方法及装置。

背景技术

目前，蛋白质三维结构测定的实验手段有X－射线晶体学、核磁共振（NMR）和近几年兴起的冷冻电镜技术。但X－射线晶体学需要蛋白质分离提纯并结晶，只能测定单晶，反映静态结构信息，无法测定溶液中的信息。对一些柔性的、结构复杂的生物大分子蛋白质来说，比较难以得到所需的晶体结构。核磁共振方法无需结晶，可以在液体状态测出三维结构，但分辨率不高，目前NMR只能用于测定小分子和中型蛋白质的结构。

冷冻电镜（Cryo-Electron Microscopy,Cryo-EM）技术，利用快速冷冻技术对样品进行冷冻固定，对样品进行电子成像，利用高灵敏底片进行成像记录，利用扫描仪对底片进行数字化，对数字化的图像进行二维图像处理，完成样品的三维重构计算。冷冻电镜技术可以解析出不适合应用Ｘ射线晶体学和核磁共振技术进行分析的样品，如难以结晶的膜蛋白、大分子复合体等，并能捕捉动态结构变化信息。冷冻电镜技术没有结晶和长度限制，是蛋白质结构解析最有前途的技术，但缺点是实验设备和实验成本过于高昂。

图像融合（Image Fusion）是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等，最大限度的提取各自信道中的有利信息，最后综合成高质量的图像，提升原始图像的空间分辨率和光谱分辨率。

Cycle-GAN（Cycle-Consistent Generative Adversarial Networks，循环一致性生成对抗网络）是朱俊彦等人在2017年在arxiv上发表的一篇关于图片风格迁移的论文（ZHU J Y,PARK T,ISOLA P,etal.UnpairedImage-to-image Translation UsingCycle-Consistent Adversarial Networks[EB/OL].[2017-03-30].https://arxiv.org/pdf/1703.10593.pdf）。

发明内容

本发明为提高传统X射线晶体学或核磁共振检测的蛋白质图像分辨率，同时在一定程度上减少冷冻电镜的使用，在本发明的第一方面提供了一种基于Cycle-GAN的蛋白质结构预测方法，包括如下步骤：获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像。

在本发明的一些实施例中，所述将所述冷冻电镜图像进行有监督数据增强包括如下步骤：若蛋白质对应的冷冻电镜图像数量为1，则对所述冷冻电镜图像进行单样本增强；所述单样本增强包括几何变换、颜色变换；若蛋白质对应的冷冻电镜图像数量大于1，则对所述冷冻电镜图像进行多样本增强。进一步的，所述几何变换至少包括对图像的翻转、旋转、剪裁、变形、缩放中的一种；所述颜色变换至少包括对图像的内容进行模糊、擦除、填充、噪声叠加、颜色更换中的一种。

在本发明的一些实施例中，所述Cycle-GAN包括第一Cycle-GAN、第二Cycle-GAN，所述第一Cycle-GAN包括第一生成器、第一判别器、第一重构生成器、第一重构判别器，所述第二Cycle-GAN包括第二生成器、第二判别器、第二重构生成器、第二重构判别器；所述第一生成器，用于根据X射线晶体衍射图像生成对应的冷冻电镜图像；所述第一判别器，用于判断所述第一生成器生成的冷冻电镜图像的真实性；第一重构生成器，用于根据冷冻电镜图像生成对应的X射线晶体衍射图像、第一重构判别器用于判断所述第一重构生成器生成的X射线晶体衍射图像的真实性；所述第二生成器，用于根据核磁共振图像生成对应的冷冻电镜图像；所述第二判别器，用于判断所述第二生成器生成的冷冻电镜图像的真实性；第二重构生成器，用于根据冷冻电镜图像生成对应的核磁共振图像，第二重构判别器用于判断所述第二重构生成器生成的核磁共振图像的真实性。

参考图2，进一步的，所述第一Cycle-GAN的损失函数为：

L(G,F,P _x ,P _y )=L _GAN1 (G,P _y ,X,Y)+L _GAN2 (F,P _x ,Y,X)+λL _cyc (G,F)，其中L(G,F,P _x ,P _y )表示第一Cycle-GAN的损失函数，L _GAN1 (G,P _y ,X,Y)表示第一生成器与第一判别器的损失函数， L _GAN2 (F,P _x ,Y,X)表示第一重构生成器与第一重构判别器的损失函数，L _cyc (G,F)表示第一生成器与第一重构生成器的循环一致性的损失函数，G表示第一生成器，F表示第一重构生成器，X表示X射线晶体衍射图像样本，Y表示目标标签，P _x表示第一生成器生成的冷冻电镜图像的真实性概率，P _y表示第一重构生成器生成的X射线晶体衍射图像的真实性概率，λ表示循环一致性损失的权重。

在本发明的一些实施例中，所述将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像包括如下步骤：将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

在本发明的第二方面，种基于Cycle-GAN的蛋白质结构预测装置，包括获取模块、增强模块、构建模块、训练模块、生成模块，所述获取模块，用于获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；所述增强模块，用于将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；所述构建模块，用于将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；所述训练模块，用于将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；所述生成模块，用于将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像。

进一步的，所述生成模块包括分类模块、聚类模块、匹配模块、融合模块，所述分类模块，用于将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；所述聚类模块，用于对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；所述匹配模块，用于建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；所述融合模块，用于根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

在本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

在本发明的第四方面，一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

有益效果：

1.本发明利用Cycle-GAN对X射线晶体衍射图像、核磁共振图像与冷冻电镜图像进行特征学习，得到冷冻电镜图像，在提高了X射线晶体衍射图像、核磁共振图像的分辨率的同时，也降低了预测蛋白质高分辨率结构的成本；

2.根据冷冻电镜图像的样本数量采用不同方式的数据增强，以提高蛋白质电镜图像样本数量，与X射线晶体衍射图像、核磁共振图像的样本相适应，以减少模型过拟合或欠拟合而导致的泛化性差的问题；Cycle-GAN最大的优点是对数据集的要求低，不需要成对的数据集便可以实现不同图片域的转换，这大大降低了生成对抗网络对于数据集的要求；

3.由于X射线晶体衍射、核磁共振与冷冻电镜的成像原理不同，三者在应用场景上形成互补，从而提高了各自预测蛋白质三维结构图像的鲁棒性：X射线晶体衍射法需要高质量蛋白质结晶体，而结晶的过程是一种缓慢沉淀过程，X射线衍射图谱中容易出现模糊和波纹；此外，长时间在X射线环境下对实验人员健康造成伤害；而核磁共振对pH、对蛋白质浓度、无机盐浓度均有较高的要求，冷冻电镜成本的购买和使用成本高；基于本发明，上述X射线衍射图出现模糊或波纹的情况下，仍然可以得到高分辨率的蛋白质解耦三维结构图，通过第一Cycle-GAN、第二Cycle-GAN的输出图像互相作为对方的输入，便可以得到对应的X－射线晶体衍射图、核磁共振图像。

附图说明

图1为本发明的一些实施例中的基于Cycle-GAN的蛋白质结构预测方法的基本流程图；

图2为本发明的一些实施例中的第一Cycle-GAN或第二Cycle-GAN的结构示意图；

图3a为本发明的一些实施例中的生成器结构示意图；

图3b为本发明的一些实施例中的判别器结构示意图；

图4为本发明的一些实施例中的冷冻电镜图重构的多种类平均示图实例；

图5为本发明的一些实施例中的基于Cycle-GAN的蛋白质结构预测装置的结构示意图；

图6为本发明的电子设备的基本结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

参考图1至图2，在本发明的第一方面提供了一种基于Cycle-GAN的蛋白质结构预测方法，包括如下步骤：S101.获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；S102.将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；S103.将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；S104.将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；S105.将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像。

由于冷冻电镜图像设备的购买和使用成本昂贵，为获取更多的样本，需要对获得的冷冻电镜图像数据集进行扩充，在本发明的一些实施例中，所述将所述冷冻电镜图像进行有监督数据增强包括如下步骤：若蛋白质对应的冷冻电镜图像数量为1，则对所述冷冻电镜图像进行单样本增强；所述单样本增强包括几何变换、颜色变换；若蛋白质对应的冷冻电镜图像数量大于1，则对所述冷冻电镜图像进行多样本增强。进一步的，所述几何变换至少包括对图像的翻转、旋转、剪裁、变形、缩放中的一种；所述颜色变换至少包括对图像的内容进行模糊、擦除、填充、噪声叠加、颜色更换中的一种。目前，常见冷冻电镜的数据集为cryo-EM冷冻电镜数据集，可以通过少量的冷冻电镜图像与cryo-EM冷冻电镜数据集进行结合，来提高冷冻电镜的样本数量和多样性。

在本发明的一些实施例中的步骤S102中，所述Cycle-GAN包括第一Cycle-GAN、第二Cycle-GAN，所述第一Cycle-GAN包括第一生成器、第一判别器、第一重构生成器、第一重构判别器，所述第二Cycle-GAN包括第二生成器、第二判别器、第二重构生成器、第二重构判别器；所述第一生成器，用于根据X射线晶体衍射图像生成对应的冷冻电镜图像；所述第一判别器，用于判断所述第一生成器生成的冷冻电镜图像的真实性；第一重构生成器，用于根据冷冻电镜图像生成对应的X射线晶体衍射图像、第一重构判别器用于判断所述第一重构生成器生成的X射线晶体衍射图像的真实性；所述第二生成器，用于根据核磁共振图像生成对应的冷冻电镜图像；所述第二判别器，用于判断所述第二生成器生成的冷冻电镜图像的真实性；第二重构生成器，用于根据冷冻电镜图像生成对应的核磁共振图像，第二重构判别器用于判断所述第二重构生成器生成的核磁共振图像的真实性。可以理解，上述真实性通过与实际拍摄的X射线晶体衍射图像、核磁共振图像、冷冻电镜图像进行比较，得到的相应概率或相似度指标来表征。

参考图2，进一步的，所述第一Cycle-GAN的损失函数为：L(G,F,P _x ,P _y )=L _GAN1 (G,P _y , X,Y)+L _GAN2 (F,P _x ,Y,X)+λL _cyc (G,F)，其中L(G,F,P _x ,P _y )表示第一Cycle-GAN的损失函数，L _GAN1 (G,P _y ,X,Y)第一生成器与第一判别器的损失函数，L _GAN2 (F,P _x ,Y,X)表示第一重构生成器与第一重构判别器的损失函数，L _cyc (G,F)表示第一生成器与第一重构生成器的循环一致性的损失函数，G表示第一生成器，F表示第一重构生成器，X表示X射线晶体衍射图像样本，Y表示目标标签（来源于真实样本），G(x)代表生成样本，G(F(y))代表第一生成器生成的重建样本，F(y)代表第一重构生成器生成的生成样本。P _x表示第一生成器生成的冷冻电镜图像的真实性概率，P _y表示第一重构生成器生成的X射线晶体衍射图像的真实性概率，λ表示循环一致性损失的权重，λ取值在区间[-1,1]。可以理解，X域或Y域分别代表不同类型图像样本，即X域或Y域并不局限于代表X射线晶体衍射图像、核磁共振图像或冷冻电镜图像。

示意性地，如图3a所示，生成器（包括但不限于第一判别器、第二判别器、第一重构判别器、第二重构判别器）编码部分由编码部分、转换部分、解码部分构成：转换部分采用9层残差块，解码部分由3组微步幅卷积层构成，其中字母C表示卷积层，卷积层结构采用Convolution InstanceNorm-ReLU结构；转换部分的残差块由字母R表示，采用Resnet结构；微步幅卷积层则由U代表，采用fractional-raided Convolution-Instance norm-ReLU结构。字母后首位数字表征该层采用的卷积核尺寸，S-x表示步幅为x，末尾的数字则代表卷积核数目，例如C3s-2-64表示该组卷积层卷积核尺寸为3×3，卷积核数目为64,步幅为2。输入图像尺寸固定为256×256×3，经过多次下采样（卷积和池化）、上采样（反卷积反池化）还原为256×256×3的混合图像。

如图3b所示，判别器（包括但不限于第一判别器、第二判别器、第一重构判别器、第二重构判别器）由5组卷积层构成，真实图像（上述的正样本、负样本、目标标签）和生成图像作为输入，尺寸固定为256×256×3，经由5组卷积层运算，最后输出图像判定为真实图像的概率值。C4s-2-64表示该组卷积层卷积核尺寸为3×3，卷积核数目为64，步幅为2。相应的，第二Cycle-GAN与第一Cycle-GAN的结构以及损失函数相似或相同，在此不再赘述。

可以理解，由于晶体衍射图像、核磁共振图像与电镜的成像原理不同，三者之间形成互补，从而提高了蛋白质三维结构图像的鲁棒性。因此，将第一Cycle-GAN、第二Cycle-GAN的其中任意一方的输出作为另一方的输入，即可得到相应的拟合图像。

参考图4，在本发明的一些实施例中的步骤S105中，所述将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像包括如下步骤：将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

参考图5，在本发明的第二方面，一种基于Cycle-GAN的蛋白质结构预测装置1，包括获取模块11、增强模块12、构建模块13、训练模块14、生成模块15，所述获取模块11，用于获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；所述增强模块12，用于将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；所述构建模块13，用于将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；所述训练模块14，用于将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；所述生成模块15，用于将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像。

进一步的，所述生成模块15包括分类模块、聚类模块、匹配模块、融合模块，所述分类模块，用于将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；所述聚类模块，用于对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；所述匹配模块，用于建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；所述融合模块，用于根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

参考图6，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Cycle-GAN的蛋白质结构预测方法，其特征在于，包括如下步骤：

获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；

将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；

将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；

将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；所述Cycle-GAN包括第一Cycle-GAN、第二Cycle-GAN，所述第一Cycle-GAN包括第一生成器、第一判别器、第一重构生成器、第一重构判别器，所述第二Cycle-GAN包括第二生成器、第二判别器、第二重构生成器、第二重构判别器；所述第一生成器，用于根据X射线晶体衍射图像生成对应的冷冻电镜图像；所述第一判别器，用于判断所述第一生成器生成的冷冻电镜图像的真实性；第一重构生成器，用于根据冷冻电镜图像生成对应的X射线晶体衍射图像、第一重构判别器用于判断所述第一重构生成器生成的X射线晶体衍射图像的真实性；所述第二生成器，用于根据核磁共振图像生成对应的冷冻电镜图像；所述第二判别器，用于判断所述第二生成器生成的冷冻电镜图像的真实性；第二重构生成器，用于根据冷冻电镜图像生成对应的核磁共振图像；第二重构判别器用于判断所述第二重构生成器生成的核磁共振图像的真实性;

将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像;所述将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像包括如下步骤：将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

2.根据权利要求1所述的基于Cycle-GAN的蛋白质结构预测方法，其特征在于，所述将所述冷冻电镜图像进行有监督数据增强包括如下步骤：

若蛋白质对应的冷冻电镜图像数量为1，则对所述冷冻电镜图像进行单样本增强；所述单样本增强包括几何变换、颜色变换；

若蛋白质对应的冷冻电镜图像数量大于1，则对所述冷冻电镜图像进行多样本增强。

3.根据权利要求2所述的基于Cycle-GAN的蛋白质结构预测方法，其特征在于，所述几何变换至少包括对图像的翻转、旋转、剪裁、变形、缩放中的一种；所述颜色变换至少包括对图像的内容进行模糊、擦除、填充、噪声叠加、颜色更换中的一种。

4.根据权利要求1所述的基于Cycle-GAN的蛋白质结构预测方法，其特征在于，所述第一Cycle-GAN的损失函数为：

L(G,F,P _x ,P _y )=L _GAN1 (G,P _y ,X,Y)+L _GAN2 (F,P _x ,Y,X)+λL _cyc (G,F)，

其中L(G,F,P _x ,P _y )表示第一Cycle-GAN的损失函数，L _GAN1 (G,P _y ,X,Y)表示第一生成器与第一判别器的损失函数，L _GAN2 (F,P _x ,Y,X)表示第一重构生成器与第一重构判别器的损失函数，L _cyc (G,F)表示第一生成器与第一重构生成器的循环一致性的损失函数，G表示第一生成器，F表示第一重构生成器，X表示X射线晶体衍射图像样本，Y表示目标标签，P _x表示第一生成器生成的冷冻电镜图像的真实性概率，P _y表示第一重构生成器生成的X射线晶体衍射图像的真实性概率，λ表示循环一致性损失的权重。

5.一种基于Cycle-GAN的蛋白质结构预测装置，其特征在于，包括获取模块、增强模块、构建模块、训练模块、生成模块，

所述获取模块，用于获取多个蛋白质的X射线晶体衍射图像、核磁共振图像和冷冻电镜图像，记X射线晶体衍射图像为第一图像、核磁共振图像为第二图像；

所述增强模块，用于将所述冷冻电镜图像进行有监督数据增强，所述有监督数据增强包括单样本增强、多样本增强；

所述构建模块，用于将与冷冻电镜图像属于相同蛋白质的第一图像或第二图像作为正样本，剩下的第一图像或第二图像作为负样本；将正样本对应的冷冻电镜图像作为目标标签；根据正样本、负样本和目标标签构建模型数据集；

所述训练模块，用于将所述模型数据集划分为训练集、验证集和测试集，利用所述模型数据集对Cycle-GAN进行训练直至其损失函数值低于阈值且不再变化，停止训练，得到训练完成的Cycle-GAN；所述Cycle-GAN包括第一Cycle-GAN、第二Cycle-GAN，所述第一Cycle-GAN包括第一生成器、第一判别器、第一重构生成器、第一重构判别器，所述第二Cycle-GAN包括第二生成器、第二判别器、第二重构生成器、第二重构判别器；所述第一生成器，用于根据X射线晶体衍射图像生成对应的冷冻电镜图像；所述第一判别器，用于判断所述第一生成器生成的冷冻电镜图像的真实性；第一重构生成器，用于根据冷冻电镜图像生成对应的X射线晶体衍射图像、第一重构判别器用于判断所述第一重构生成器生成的X射线晶体衍射图像的真实性；所述第二生成器，用于根据核磁共振图像生成对应的冷冻电镜图像；所述第二判别器，用于判断所述第二生成器生成的冷冻电镜图像的真实性；第二重构生成器，用于根据冷冻电镜图像生成对应的核磁共振图像；第二重构判别器用于判断所述第二重构生成器生成的核磁共振图像的真实性;

所述生成模块，用于将待预测蛋白质结构的第一图像或第二图像输入到所述训练完成的Cycle-GAN，得到对应的冷冻电镜图像；将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像;所述将所述对应的冷冻电镜图像进行滤波去噪、融合和三维重构，得到待预测蛋白质的三维图像包括如下步骤：将所述冷冻电镜图像进行分类，得到颗粒数据和投影图；对冷冻电镜图像中的颗粒数据进行PCA降维，然后在降维后的低维数据空间中对所述颗粒数据进行聚类，得到了聚类后的类平均图；建立投影图和类平均图之间的关系，基于KNN算法匹配所述类平均图与其对应的投影图，得到颗粒数据的若干个侯选角度；根据所述若干个候选角度进行搜索，直至得到所有颗粒数据的真实投影角度；融合所有真实投影角度对应的颗粒数据和投影图，并得到蛋白质三维图像。

6.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。