CN112270727B

CN112270727B - 基于ai技术绘制毒株蛋白质图像的方法

Info

Publication number: CN112270727B
Application number: CN202011149016.0A
Authority: CN
Inventors: 王利; 张辉
Original assignee: Inner Mongolia University for Nationlities
Current assignee: Inner Mongolia University for Nationlities
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-09-23
Anticipated expiration: 2040-10-23
Also published as: CN112270727A

Abstract

本发明公开了一种基于AI技术绘制毒株蛋白质图像的方法，该方法针对毒株蛋白质序列、结构与绘画作品在表现形式上的特点，基于AI技术实现了由毒株蛋白质结构生成绘画作品的方法，从而建立起毒株蛋白质序列与绘画作品的一一对应关系，以辅助毒株蛋白质的分析研究。该方法将毒株蛋白质以绘画作品的方式进行表达后，在进行毒株蛋白质的研究时，可通过绘画作品从视觉上直观看到不同毒株蛋白质的区别之处，同时也为毒株的研究增加乐趣，为毒株蛋白质的研究提供了一种新的方式方法。

Description

基于AI技术绘制毒株蛋白质图像的方法

技术领域

本发明公开涉及人工智能应用的技术领域，尤其涉及一种基于基于AI技术绘制毒株蛋白质图像的方法。

背景技术

在生命科学领域，AI技术也逐渐开启无法替代的数据分析地位。蛋白质作为生命体的重要组成，具有序列的多样性和功能结构的复杂性，以致蛋白质研究至今依然是科学家们难以彻底攻破的生命领域。

目前，进行蛋白质表征的方式主要由蛋白质的氨基酸序列以及空间结构等，是否可通过其他形式进行蛋白质的表征，以提升蛋白质的可视化效果，便于分析，成为人们研究的焦点。

发明内容

鉴于此，本发明提供了一种基于AI技术绘制毒株蛋白质图像的方法，通过AI技术将毒株蛋白质以绘画作品的形式进行表征，增加蛋白质可视化效果，辅助蛋白质的分析研究。

本发明提供的技术方案，具体为，一种基于AI技术绘制毒株蛋白质图像的方法，该方法包括如下步骤：

S1：获取毒株蛋白质样本的一级结构以及二级结构；

S2：将所述毒株蛋白质样本一级结构中的氨基酸序列视为线性排列，形成一维单通道数据；

S3：依据所述毒株蛋白质样本的二级结构，分别获取三通道氨基酸分子空间点数据和三通道氨基酸分子空间连线纹理数据；

S4：基于生成式对抗网络构建蛋白质图像生成模型，采用多个毒株蛋白质样本，分别以图像风格以及蛋白质序列作为约束条件，进行所述蛋白质图像生成模型的训练，获得模型参数；

S5：在步骤S4获得的模型参数下，利用蛋白质图像生成模型进行毒株蛋白质的图像绘制。

优选，步骤S2中，将所述毒株蛋白质样本一级结构中的氨基酸序列视为线性排列，形成一维单通道数据，具体为：

依据图像灰度值0～255的取值范围，设置组成蛋白质的20种氨基酸的值为s₁～s₂₀，并归一化为0-1之间的小数；

依据所述毒株蛋白质样本中氨基酸的序列以及所述氨基酸对应的数值，形成一维单通道数据。

进一步优选，步骤S3中，依据所述毒株蛋白质样本的二级结构，分别获取氨基酸分子空间点数据和氨基酸分子空间连线纹理数据，具体为：

根据图像灰度值0～255的取值范围，设置组成蛋白质的20种氨基酸的值为s₁～s₂₀，并归一化为0-1之间的小数，且同一种氨基酸在一级结构中的值与在二级结构中的值相等；

将所述毒株蛋白质样本二级结构中氨基酸分子在三维空间的投影，分别形成氨基酸分子点状分布图像和氨基酸分子连接线纹理图像后，结合设置的氨基酸对应值，分别获得三通道氨基酸分子空间点数据和三通道氨基酸分子空间连线纹理数据。

进一步优选，所述多个毒株蛋白质样本包括：自然毒株蛋白质样本以及采用生成式对抗网络增加的毒株蛋白质样本。

进一步优选，步骤S4中所述图像风格的约束条件是基于指定图像提取的，其具体提取方法为：

采用VGG16作为特征提取网络，输出向量元素包括：全画面颜色特征、局部颜色分布特征、饱和度、全画面平均亮度、局部亮度分布特征、8方向纹理特征、基本线条绘画特征以及画面构图特征。

进一步优选，步骤S4中，基于生成式对抗网络构建蛋白质图像生成模型，包括：

图像生成器、图像判别器、图像风格判别器、图像特征提取、蛋白质逆向生成器以及蛋白质判别器；

所述蛋白质图像生成模型的训练过程包括：

S401：将毒株蛋白质样本中一级结构的单通道数据、毒株蛋白质样本中二级结构的氨基酸分子空间点三通道数据、毒株蛋白质样本中二级结构的氨基酸分子空间连线纹理三通道数据以及指定图像经由图像特征提取获得的图像约束特征的单通道数据输入到图像生成器中，生成图像；

S402：通过所述图像判别器判断所述图像生成器所生成的图像与真实图像的差距；

S403：通过所述图像风格判别器判断所生成的图像是否为符合指定画风；

S404：依据步骤S402和步骤403的判别结果，调整所述图像生成器和所述图像风格判别器对应的模型参数，直至符合阈值要求；

S405：通过所述蛋白质逆向生成器，以所述图像生成器生成的图像以及蛋白质序列约束作为其输入，生成人造蛋白质序列；

S406：通过所述蛋白质判别器判别所述人造蛋白质序列与真实蛋白质序列的差距，如果差距超过阈值，调整所述图像生成器和所述图像判别器对应的模型参数后，重复步骤S401～步骤S405，直至所述人造蛋白质序列与真实蛋白质序列的差距符合阈值要求。

进一步优选，所述图像生成器的第一层为蛋白质氨基酸特征采集层，由一个一通道和两个三通道构成的混合卷积层，采用不同线路进行输入数据的卷积处理，其中，对于输入的蛋白质一级结构数据，依据氨基酸分布特性，采用20种7×1卷积核，步长＝7；依据氨基酸分子三维空间点稀疏分布特征，对应氨基酸种类设置20种7×7×3卷积核，步长＝7；蛋白质二级结构数据，依氨基酸分子三维空间连线，对应8方向纹理，设置8种5×5×3卷积；

第二层是池化层，对于一维和二维数据，分别采用3×1和3×3均值池化；

第三层是数据、约束合并层，根据二维数据的m×n的特点，折叠一维数据；

第四层是卷积，为特征提取层，根据图像生约束的数据特征，采用与特征对应的m个3×3卷积核，步长＝1；

其他层次，采用CYCGAN模型，各层激活函数采用ReLu函数，输出层采用Softmax进行综合，并转换成图像。

进一步优选，所述蛋白质图像生成模型的目标函数为：

G(X₁,X₂,X₃|C₁)＝max(E_P[f_p(X₁,X₂,X₃|C₁)])；

生成器G1与判别器D1联合目标函数为：

L₁(D,G)＝min_Gmax_D(E_x[log(D(Y₁,I))]+E_y[log(1-D(G(X₁,X₂,X₃|C₁)))])；

判别器D2的目标函数为：

L₂(Y₁)＝max(E_p[f_p(Y₁)])；

生成器F2的目标函数为：

F(Y₁|L,Y₄)＝max(E_p[f_p(Y₁|L,Y₄)])；

判别器D3的目标函数为：

L₃(Z|X₁,X₂,X₃)＝max(E_p[f_p(Z|X₁,X₂,X₃)])；

模型总目标函数为：

T＝min(G+L₁+L₂+F+L₃)；

其中，X1是蛋白质一级氨基酸分子顺序结构数据、X2是蛋白质二级结构氨基酸分子空间分布数据、X3是蛋白质二级结构氨基酸分子连线纹理数据、Z是由F2生成的人造蛋白质序列、I是指定图像、C1是由I得到的图像生成约束、Y1是图像生成器G1生成的图像数据、Y4是对Z的判别结果、L是蛋白质序列特性约束。

进一步优选，所述毒株蛋白质为新冠状病毒蛋白质。

本发明提供的基于AI技术绘制毒株蛋白质图像的方法，该方法针对毒株蛋白质序列、结构与绘画作品在表现形式上的特点，基于AI技术实现了由毒株蛋白质结构生成绘画作品的方法，从而建立起毒株蛋白质序列与绘画作品的一一对应关系，以辅助毒株蛋白质的分析研究。该方法将毒株蛋白质以绘画作品的方式进行表达后，在进行毒株蛋白质的研究时，可通过绘画作品从视觉上直观看到不同毒株蛋白质的区别之处，同时也为毒株的研究增加乐趣，为毒株蛋白质的研究提供了一种新的方式方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质图像的方法的框架流程图；

图2为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质图像的方法的具体流程示意图；

图3为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质图像的方法中基于生成式对抗网络构建的蛋白质图像生成模型图；

图4为本发明公开实施例提供的一种基于基于AI技术绘制毒株蛋白质图像的方法中对于蛋白质图像生成模型的训练流程图；

图5为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质图像的方法中图像生成器G1的模型结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的方法的例子。

为了实现从另一种角度进行毒株蛋白质的表征，以辅助蛋白质的分析研究，本实施方案提供了一种基于AI技术绘制毒株蛋白质图像的方法。

不同的毒株蛋白质都是由20种氨基酸通过不同的排列、空间连接构成，绘画艺术作品，是通过画家对生活的理解、对事物和景色的感受由线条、色彩构成，二者虽然分别属于完全不同的生物和艺术范畴，但都有着丰富的结构特征和形态表现特征。

本实施方案通过分析蛋白质分子氨基酸序列、一二级结构的空间分布与连接特点以及绘画作品之间的相关性，运用AI技术的应用优势，探讨挖掘生命大分子功能结构预测的方法及其转换成绘画作品的可能性。以功能结构不同的新冠状病毒(2019-nCOV)为研究基样，运用AI技术转换成绘画作品，以提升微观分子结构的可视化效果，从而更便于分析蛋白质的功能与特征。

本实施方案提供的基于AI技术绘制毒株蛋白质图像的方法中，主要包括：建立新冠病毒蛋白质生成绘画图像的训练、检验数据集，针对新冠病毒样本量不足，分析新冠病毒序列特征，采用生成式对抗技术增加新冠病毒训练样本；设计基于氨基酸结构与图像再构象的映射关系，基于生成式对抗网络技术建立蛋白质生成图像模型，训练相关参数，建立关联性；蛋白质一级和二级结构、绘画风格与绘画规则作为约束，输入生成器；生成符合特定画风的绘画作品；以生成的图像作为新的输入，分别送入图像风格判别器和蛋白质生成器，图像风格判别器用于判断所生成的图像是否符合绘画约束，蛋白质生成器用于生成类蛋白质二、三级结构，并与原始蛋白质进行对比，确保图像与蛋白质的关联性。

参见图1，为基于AI技术绘制毒株蛋白质图像的方法的整体框架流程，在该框架流程的指导下，参见图2，本实施方案提供的基于AI技术绘制毒株蛋白质图像的方法的方法，具体包括如下步骤：

S1：获取毒株蛋白质样本的一级结构以及二级结构；

在上述方法中，毒株蛋白质样本的一级结构数据、毒株蛋白质样本的二级结构数据、图像约束特征以及蛋白质序列约束均作为输入数据。

其中，

毒株蛋白质一级结构数据：以蛋白质数据氨基酸一级序列，其主链蛋白质可以近似于由20种氨基酸分子依蛋白质物化性质前后线性连接，次链蛋白质氨基酸可以就近插入主链，一级结构数据形成一维单通道数据。为数据处理方便，依据图像灰度值0～255的取值范围，设置组成蛋白质的20种氨基酸的值为均匀分布的s₁～s₂₀，并归一化为[0,1]之间的小数。

毒株蛋白质二级结构数据，包括氨基酸分子空间分布、氨基酸分子连接线纹理两部分。蛋白质序列二级结构，由于存在α螺旋、β折叠，并且主链也连接有若干次链接氨基酸，二级结构成为三维空间分布，各分子独立分布于空间各点，同时，各分子以C原子为核心，以脱水形成天然连接，形成天然连接线。依据氨基酸分子三维空间投影，形成氨基酸分子点状分布和氨基酸分子连接线纹理两种图像。各氨基酸在三维空间三个坐标系的投影形成主链骨架氨基酸、次链接氨基酸的三维点状分布灰度图像，构建三通道数据，根据图像灰度值0～255的取值范围，设置代表20种氨基酸分子空间分布的值与一级结构的值相同，为s1～s20。各连接线，也在三个坐标系上完成投影，形成各坐标系上的纹理图像。

图像约束特征：约束特征提取采用VGG16作为特征提取网络，输出向量元素包括：全画面颜色特征、局部颜色分布特征、饱和度、全画面平均亮度、局部亮度分布特征、8方向纹理特征、基本线条绘画特征、画面构图特征。

蛋白质序列约束条件：以新冠病毒一级、二级结构的氨基酸序列一维、三维特性抽象的综合特征作为模型的蛋白质序列约束。

由于在蛋白质图像生成模型的训练过程中，需要大量毒株蛋白质的样本数据，而对于一些病毒而言，由于样本量较少，无法满足训练的要求，例如：新冠病毒，此时可通过人造方式进行毒株蛋白样本的扩增，以满足模型的训练要求，对于毒株蛋白样本的扩增的方法可以选多种，本方案中采用生成式对抗网络的深度学习模式来增加的毒株蛋白质样本。

参见图3，为本实施方案提供的一种基于生成式对抗网络构建的蛋白质图像生成模型，该模型基于生成式对抗模型，以毒株蛋白生成图像、特定图像作品风格为研究对像，设计蛋白质到图像的生成模型，该模型包括：图像生成器G1、图像判别器D1、图像风格判别器D2、图像特征提取F1、蛋白质逆向生成器F2以及蛋白质判别器D3构成，输入蛋白质一级X1、二级结构特点图X2、二级结构纹理图X3，图像约束特征C1以及蛋白质特征L，即可生成并输出图像作品。

对于上述蛋白质图像生成模型的训练过程，参见图4，包括：

S401：将毒株蛋白质样本中一级结构的单通道数据、毒株蛋白质样本中二级结构的氨基酸分子空间点三通道数据、毒株蛋白质样本中二级结构的氨基酸分子空间连线纹理三通道数据以及指定图像I经由图像特征提取F1获得的图像约束特征的单通道数据输入到图像生成器G1中，生成图像Y1；

S402：通过所述图像判别器D1判断所述图像生成器G1所生成的图像与真实图像的差距；即，区分是原有图像作品还是G1生成的图像作品；

S403：通过所述图像风格判别器D2判断所生成的图像是否为符合指定画风；控制G1生成的图像风格与特定画风相一致；

S404：依据步骤S402和步骤403的判别结果，调整所述图像生成器G1和所述图像风格判别器D1对应的模型参数，直至符合阈值要求；D1与D2的判别结果共同影响图像生成器G1和图像判别器D1的相关参数；

S405：通过所述蛋白质逆向生成器F2，以所述图像生成器G1生成的图像以及蛋白质序列约束L作为其输入，生成人造蛋白质序列Z；Z作为蛋白质判别器D3的输入，判别Z与真实蛋白质序列的差距，促进模型生成的图像与特定的蛋白质序列产生对应关系；

S406：通过所述蛋白质判别器D3判别所述人造蛋白质序列Z与真实蛋白质序列X1的差距，如果差距超过阈值，调整所述图像生成器G1和所述图像判别器D1对应的模型参数后，重复步骤S401～步骤S405，直至所述人造蛋白质序列Z与真实蛋白质序列X1的差距符合阈值要求；通过F2和D3，控制生成的图像可以还原出真实蛋白质，防止G1和D2模型训练出现伪合格参数。

图像生成器G1数据输入：输入数据包括蛋白质一级结构蛋白质链状单通道数据、二级结构生成的三通道氨基酸分子空间点数据、三通道氨基酸分子空间连线纹理数据、图像约束特征组成的单通道数据。多种数据共同构成混合多通道数据。

参见图5，为图像生成器G1的模型结构示意图，该图像生成器G1的所述图像生成器(G1)的第一层为蛋白质氨基酸特征采集层，提取蛋白质氨基酸分布特征，不引入图像生成约束，模型更新参数时，将不更新该层卷积核。建立混合卷积方式，采用一通道、三通道混合卷积，分别对应蛋白质氨基酸链式一级结构和蛋白质氨基酸空间折叠二级结构、蛋白质纹理，采集病毒蛋白质氨基酸多种分布特征。为提取蛋白质氨基酸分子连接顺序特征，对于输入的蛋白质一级结构数据，依氨基酸稀疏分布特性，采用20种7×1卷积核，步长＝7。蛋白质二级结构数据，依氨基酸分子三维空间点稀疏分布特征，对应氨基酸种类设置20种7×7×3卷积核，步长＝7；蛋白质二级结构数据，依氨基酸分子三维空间连线，对应8方向纹理，设置8种5×5×3卷积。为得到蛋白质一级分子顺序和二级空间分子点分布的图像特征，计算过程，不采用传统卷积的点积方法，采用按位异或方法。该层，最终得到氨基酸的一维与二维空间点分布映射特征。二级空间分子连接纹理的图像特征，采用传统的卷积计算；

第二层是池化层，为减少氨基酸分子空间点分布图像、纹理图像过度稀疏，造成后续计算存在大量无用计算点的问题，对于一维和二维数据，分别采用3×1和3×3均值池化；

第三层是数据、约束合并层，本层输入除了以第二层的输出作为本层的输入以外，引入图像生成约束。本层全部数据分别来源于蛋白质一级结构、约束、二级结构的空间点分布、二级结构的纹理，多样性数据出现异构问题。根据二维数据的m×n的特点，折叠一维数据，即，一维数据二维化；

上述所述蛋白质图像生成模型的目标函数为：

G(X₁,X₂,X₃|C₁)＝max(E_P[f_p(X₁,X₂,X₃|C₁)])；

生成器G1与判别器D1联合目标函数为：

判别器D2的目标函数为：

L₂(Y₁)＝max(E_p[f_p(Y₁)])；

生成器F2的目标函数为：

F(Y₁|L,Y₄)＝max(E_p[f_p(Y₁|L,Y₄)])；

判别器D3的目标函数为：

L₃(Z|X₁,X₂,X₃)＝max(E_p[f_p(Z|X₁,X₂,X₃)])；

模型总目标函数为：

T＝min(G+L₁+L₂+F+L₃)；

上述实施方案提供的基于AI技术绘制毒株蛋白质图像的方法，尤其适用于新冠状病毒蛋白质的研究使用。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述的内容，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于AI技术绘制毒株蛋白质图像的方法，其特征在于，包括如下步骤：

S1：获取毒株蛋白质样本的一级结构以及二级结构；

2.根据权利要求1所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，步骤S2中，将所述毒株蛋白质样本一级结构中的氨基酸序列视为线性排列，形成一维单通道数据，具体为：

3.根据权利要求2所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，步骤S3中，依据所述毒株蛋白质样本的二级结构，分别获取氨基酸分子空间点数据和氨基酸分子空间连线纹理数据，具体为：

4.根据权利要求1所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，所述多个毒株蛋白质样本包括：自然毒株蛋白质样本以及采用生成式对抗网络增加的毒株蛋白质样本。

5.根据权利要求1所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，步骤S4中所述图像风格的约束条件是基于指定图像提取的，其具体提取方法为：

6.根据权利要求1所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，步骤S4中，基于生成式对抗网络构建蛋白质图像生成模型，包括：

图像生成器G1、图像判别器D1、图像风格判别器D2、图像特征提取F1、蛋白质逆向生成器F2以及蛋白质判别器D3；

所述蛋白质图像生成模型的训练过程包括：

S402：通过所述图像判别器D1判断所述图像生成器G1所生成的图像与真实图像的差距；

S403：通过所述图像风格判别器D2判断所生成的图像是否为符合指定画风；

S404：依据步骤S402和步骤403的判别结果，调整所述图像生成器G1和所述图像风格判别器D1对应的模型参数，直至符合阈值要求；

S405：通过所述蛋白质逆向生成器F2，以所述图像生成器G1生成的图像以及蛋白质序列约束L作为其输入，生成人造蛋白质序列Z；

S406：通过所述蛋白质判别器D3判别所述人造蛋白质序列Z与真实蛋白质序列X1的差距，如果差距超过阈值，调整所述图像生成器G1和所述图像判别器D1对应的模型参数后，重复步骤S401～步骤S405，直至所述人造蛋白质序列Z与真实蛋白质序列X1的差距符合阈值要求。

7.根据权利要求6所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，所述图像生成器G1的第一层为蛋白质氨基酸特征采集层，由一个一通道和两个三通道构成的混合卷积层，采用不同线路进行输入数据的卷积处理，其中，对于输入的蛋白质一级结构数据，依据氨基酸分布特性，采用20种7×1卷积核，步长＝7；依据氨基酸分子三维空间点稀疏分布特征，对应氨基酸种类设置20种7×7×3卷积核，步长＝7；蛋白质二级结构数据，依氨基酸分子三维空间连线，对应8方向纹理，设置8种5×5×3卷积；

8.根据权利要求6所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，所述蛋白质图像生成模型的目标函数为：

G(X₁,X₂,X₃|C₁)＝max(E_P[f_p(X₁,X₂,X₃|C₁)])；

生成器G1与判别器D1联合目标函数为：

L₁(D,G)＝min_G max_D(E_x[log(D(Y₁,I))]+E_y[log(1-D(G(X₁,X₂,X₃|C₁)))])；

判别器D2的目标函数为：

L₂(Y₁)＝max(E_p[f_p(Y₁)])；

生成器F2的目标函数为：

F(Y₁L,Y₄)＝max(E_p[f_p(Y₁L,Y₄)])；

判别器D3的目标函数为：

L₃(ZX₁,X₂,X₃)＝max(E_p[f_p(ZX₁,X₂,X₃)])；

模型总目标函数为：

T＝min(G+L₁+L₂+F+L₃)；

9.根据权利要求1所述基于AI技术绘制毒株蛋白质图像的方法，其特征在于，所述毒株蛋白质为新冠状病毒蛋白质。