CN109326008B

CN109326008B - 基于mss的三维分子结构形变过程演示方法

Info

Publication number: CN109326008B
Application number: CN201811135482.6A
Authority: CN
Inventors: 严珂; 花君
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2023-01-20
Anticipated expiration: 2038-09-28
Also published as: CN109326008A

Abstract

本发明公开了一种基于MSS的三维分子结构形变过程演示方法，通过图形处理器来构建三维分子皮肤表面，形成分子结构视图，利用皮肤流复合体拆分所述分子皮肤表面，以加速分子皮肤表面表面的形成，得到所述快速分子结构视图；采集分子结构样本，包括大量的低分子化合物的分子结构样本，根据所采集到的分子结构样本，对结构空间进行增采样，来构建以分子皮肤表面为基础的形状空间；将整个形变路径分为多个分路径，在每个分路径中，源形状和目标形状极为接近，产生诸多有效形变路径，在源文件和目标文件被指定的情况下，采用多种有效的形变路径来演示形变过程。采用本发明，提升了分子可视化的计算速度，并在此基础上实现了可控的形变过程。

Description

基于MSS的三维分子结构形变过程演示方法

技术领域

本发明涉及计算机图形技术领域，具体地说是一种基于MSS的三维分子结构形变过程演示方法。

背景技术

分子可视化(molecular visualization)作为科学可视化(scientificvisualization)的重要组成部分，在计算机辅助的生物信息学领域正发挥着重要的作用。分子可视化软件(如Pymol,VMD,chimera等等)运用计算机图形学技术将分子的三维立体模型显现在屏幕上,帮助人们更好的理解和学习不同分子结构在生物信息学中发挥的作用。分子结构的具体表现形式有很多种，常见的具现化形式包括球棍模型、丝带模型、分子表面模型等等。现有技术中，主流的分子可视化软件当中，分子表面模型往往采用溶剂排除表面，选择面狭窄而且溶剂排除表面计算复杂，该方式不利于后期处理(比如三维形变、曲面分析等等)。

Molecular skin surface(分子皮肤表面，MSS)作为一个在1999年才被发明的分子曲面模型在分子结构视图方面有着广阔的前景。作为分子结构的一种表示方法，MSS有着以下的优点：

1.MSS是一种隐性曲面，作为二维的流形(2-manifold)MSS有着在曲面任意位置C2光滑的特性。

2.MSS不会自我相交。

3.MSS可以简单地被拆分为球形曲面和双曲面，这些曲面都可以用二次方程来表示，非常方便。

4.MSS的三维网格具有最小角保证，利于一些后期处理，比如曲面分析等。

5.MSS可以自由的形变。

MSS的简单构造过程以及自由的形变特性很好地满足了高分子可视化以及快速形变的需求。现有的MSS由于起步较晚处于起步阶段，虽然能满足一些特定的市场需求，但是仍然存在着一些不足，MSS的分子形变过程仍然存在很大的计算量，虽然现有技术一直在进行形变路径可控的研究和努力，但还无法实现形变路径做出最优化判断和可行的形变路径。

发明内容

有鉴于此，本发明针对上述现有技术存在的无法实现可控形变路径的问题，提供了一种形变路径可控的基于MSS的三维分子结构形变过程演示方法，同时降低了三维分子结构形变过程的计算量。

本发明的技术解决方案是，提供一种以下的基于MSS的三维分子结构形变过程演示方法，包括快速分子结构视图的构建、综合广泛的形状空间的构建和可控的形变过程；

所述的快速分子结构视图的构建：通过图形处理器来构建三维分子皮肤表面，形成分子结构视图，利用皮肤流复合体拆分所述分子皮肤表面，以加速分子皮肤表面表面的形成，得到所述快速分子结构视图；

所述综合广泛的形状空间的构建：采集分子结构样本，包括大量的低分子化合物的分子结构样本，根据所采集到的分子结构样本，对结构空间进行增采样，来构建以分子皮肤表面为基础的形状空间；

所述可控的形变过程：将整个形变路径分为多个分路径，在每个分路径中，源形状和目标形状极为接近，在已经构建的综合广泛的形状空间中产生诸多有效形变路径，在源文件和目标文件被指定的情况下，采用多种有效的形变路径来演示形变过程。

作为改进，对构建完成的以分子皮肤表面为基础的形状空间进行分类，使相似的形状分在同一类中，通过主成分分析法降维来实现；在每一类中对形状进行编号并在俩俩形体之间产生形变路径，产生部分合理的形变路径和一些不合理的形变路径，所述形变路径的合理与否由人工指定或自动生成；采用不同的分类方法或者不同的类别数量，以产生诸多有效形变路径。

作为改进，根据对源形状和目标形状的编号，在源形状和目标形状之间设置或添加一层或多层中间形状，从源形状提供可变形的中间形状供选择，一直持续到达到目标形状为止。

作为改进，所述形变路径的合理与否的判断采用机器学习方式进行筛选，在积累了一定量的训练集，经过训练后，由支持向量学习机或极限学习机自动识别合理与不合理的形变路径，并通过对所述支持向量学习机或极限学习机进行限定后，使得对未知的形变路径做出最优化判断，从而得到可行的优化形变路径。

作为改进，基于有效形变路径{S1,…,Sn,True}和无效形变路径{S1,…,Sn,False}，将其作为训练集，在有支撑向量机中对测试集{S1,…,Sn}是否有效做出判断，并通过以下能量方程来判断最优形变

其中，Ek代表每一个子形变中的能量变化，而E(t)代表了整个形变过程中的能量消耗。

作为改进，所述利用皮肤流复合体拆分所述分子皮肤表面采用如下方式实现的：利用贝塞尔曲面，将分子皮肤表面拆分为贝塞尔三角曲面和贝塞尔四角曲面的集合。

采用以上方法，本发明与现有技术相比，具有以下优点：分子可视化对计算速度要求很高，本发明利用了对分子皮肤表面的降维拆分，降低了分子可视化的计算量，实现高效的计算速度，并在此基础上实现了可控的形变过程，在引入机器学习的技术后，能够自动选取有效形变路径。

附图说明

图1为本发明实施例中基于MSS的三维分子结构形变过程演示方法的示意图；

图2为一个由四个球体形成的MSS模型；

图3为基于MSS的三维分子结构的MSS拆分示意图；

图4为本发明中一个咖啡因模型直接形变成为一个基因片段模型的示意图；

图5为源形状和目标形状更加相似的形变示意图；

图6为添加中间形状以完善形变过程的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外，本发明之附图中为了示意的需要，并没有完全精确地按照实际比例绘制，在此予以说明。

如图1所示，本发明的一种基于MSS的三维分子结构形变过程演示方法，包括快速分子结构视图的构建、综合广泛的形状空间的构建和可控的形变过程；其中，MSS为Molecular skin surface(分子皮肤表面，MSS)的简称。

图1中所示，所述快速合理的机器学习方法，是在积累了一定的训练集(一些合理的形变路径(True)和一些不合理的形变路径(False)后，系统将自动识别合理与不合理的路径，可以运用到的机器学习方法包括贝叶斯网络、SVM等。快速合理只是本发明为了表达的需要而进行的限定，并不构成对本申请专业术语和保护范围的特殊限定。

对构建完成的以分子皮肤表面为基础的形状空间进行分类，使相似的形状分在同一类中，通过主成分分析法降维来实现；在每一类中对形状进行编号并在俩俩形体之间产生形变路径，产生部分合理的形变路径和一些不合理的形变路径，所述形变路径的合理与否由人工指定或自动生成；采用不同的分类方法或者不同的类别数量，以产生诸多有效形变路径。

根据对源形状和目标形状的编号，在源形状和目标形状之间设置或添加一层或多层中间形状，从源形状提供可变形的中间形状供选择，一直持续到达到目标形状为止。

所述形变路径的合理与否的判断采用机器学习方式进行筛选，在积累了一定量的训练集，经过训练后，由支持向量学习机或极限学习机自动识别合理与不合理的形变路径，并通过对所述支持向量学习机或极限学习机进行限定后，使得对未知的形变路径做出最优化判断，从而得到可行的优化形变路径。

基于有效形变路径{S1,…,Sn,True}和无效形变路径{S1,…,Sn,False}，将其作为训练集，在有支撑向量机中对测试集{S1,…,Sn}是否有效做出判断，并通过以下能量方程来判断最优形变路

如图2所示，示意了MSS拆分成球体的方程和轮廓。MSS是由一些球体集来定义的，由这些球体集形成的加权德洛内三角网格(Delaunay triangulation)和泰森多边形(Voronoi diagram)拆分MSS到了球形曲面和双曲面。本发明还采用了更优化的拆分方式，如图3所示，进一步利用皮肤流复合体(skin flow complex,SFC)拆分这些球曲面和双曲面到贝塞尔三角曲面和贝塞尔四角曲面的集合。这些拆分的方法保证了MSS可视化的可实现性以及算法效率。即所述利用皮肤流复合体拆分所述分子皮肤表面采用如下方式实现的：利用贝塞尔曲面，将分子皮肤表面拆分为贝塞尔三角曲面和贝塞尔四角曲面的集合。

在已知源形状和目标形状近似或者已知源形状和目标形状原子的一一对应关系的前提下，能够很好做出形变演示。为了更好地展示本发明的形变过程，如图4，直接从一个咖啡因的分子模型形变为一个基因片段。由于源形状与目标形状相差太远，中间形状的有效性无法保证，需要做的是提供一个拥有足够数量的形状空间。如图5所示，在每一次的形变过程中，源形状和目标形状具有相似性，这样的形变过程有效性能够得到保证。

本实施例中，整个形变过程研究可以分为以下七步来进行：

(1)样本采集。从已有的数据库中下载尽可能多的分子结构数据来构建以MSS为基础的形状空间(如在RCSB protein data bank中，仅蛋白质类已经超过3万组数据)。

(2)建立分层体系(降维)。Level of details(LOD)是处理复杂三维模型的常规手段。在我们前期的研究中，已经拥有一些手段来处理复杂的分子结构模型。首先，将每个分子结构模型视作一个球体集合。然后，利用无监督机器学习分类方法(比如K-meansclustering method)将其内部的球体分作可数类。最后，我们将每一类的球体集用单个球体来表示。从一定程序上实现了降维的需求。这样的LOD降维处理方法其实也来自于生物信息学方面的灵感。在生物信息学中，因为微观分子的复杂性，普通计算机无法满足直观视觉的需要。分子结构的可视化往往也采用宏观、介观和微观三个层次的缩放。在宏观与介观层次，一些低分子化合物和分子集合也往往用单个球体来表示。

(3)基于LOD的分类。在这一步中，我们将构建完成的MSS模型分类，使相似的形状分在同一类中。对于两个分子模型Si和Sj的相似度，使用距离方程：

来进行判断。其中Si[k]代表了Si中第k个球体。在没有LOD的辅助下，这样的分类会很慢，LOD可以加速分类过程。最后，无监督机器学习分类方法将再次被利用。常见的可用的机器学习(无监督)分类方法包括：K-means Clustering、Hierarchical Clustering、K-medoids Clustering、Fuzzy C-means Clustering以及Adaboost等等。

(4)在子形状空间内形成子形变过程演示。分类后的形状空间可以被视作被分割成了一个个子空间。我们每一类中对形状进行编号并利用已有的自动形变技术在俩俩形体之间产生形变过程。由于在每一类中，俩俩形体往往是类似的，这一步将产生部分合理的形变过程和一些不合理的形变过程。形变的合理与否可以由人工(专家)指定，也可以在拥有一定数量的训练集合以后利用机器学习方法自动生成。每一个形变过程将被贴上标签(True或者False)。

(5)形变路径的形成。在第(3)步中采用不同的分类方法或者不同的类别数量(number of clusters)并重复从第(1)步到第(4)步的处理过程，在已有的形状空间中产生尽可能多的有效形变路径。这样，在源文件和目标文件被指定的情况下，往往拥有不止一种有效的形变路径来演示形变过程。

(6)训练子集的采集。这一步也可以被视作是具体操作者应用软件的流程。首先，操作者应该提供源形状和目标形状的编号。而系统将从源形状提供可变形的形体供研究人员选择。而这样的选择将一直持续到到达目标形体为止。在形变的过程中，操作者可以自行添加中间形体以完善形变过程(图6)。这样的选取过程当然也可以由机器自动完成，在收集到一定训练子集的前提下，我们可以试验用机器学习方法(有监督学习，如SVM)来自动选取形变路径。

(7)自动选取形变路径。在这一步之前，我们假设已经得到了一定数量的有效形变路径{S1,…,Sn,True}和无效形变路径{S1,…,Sn,False}。这样的训练子集在有监督学习方法比如支撑向量机(SVM)中可以对测试集{S1,…,Sn}做出有效的判断。对于一对相同的源形状和目标形状而言，这样的测试集可能有很多组。并且，最终的有效形变组合也可能不止一组。我们需要找到一个合适的能量方程来帮助判断最优形变路径。

虽然以上将实施例分开说明和阐述，例如，方法和系统可以作为两套发明，即可基于本发明的方法形成相应的演示系统，但涉及部分共通之技术，在本领域普通技术人员看来，可以在实施例之间进行替换和整合，涉及其中一个实施例未明确记载的内容，则可参考有记载的另一个实施例。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化。总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于MSS的三维分子结构形变过程演示方法，包括快速分子结构视图的构建、综合广泛的形状空间的构建和可控的形变过程；

2.根据权利要求1所述的基于MSS的三维分子结构形变过程演示方法，其特征在于：对构建完成的以分子皮肤表面为基础的形状空间进行分类，使相似的形状分在同一类中，通过主成分分析法降维来实现；在每一类中对形状进行编号并在俩俩形体之间产生形变路径，产生部分合理的形变路径和一些不合理的形变路径，所述形变路径的合理与否由人工指定或自动生成；采用不同的分类方法或者不同的类别数量，以产生诸多有效形变路径。

3.根据权利要求1或2所述的基于MSS的三维分子结构形变过程演示方法，其特征在于：根据对源形状和目标形状的编号，在源形状和目标形状之间设置或添加一层或多层中间形状，从源形状提供可变形的中间形状供选择，一直持续到达到目标形状为止。

4.根据权利要求2所述的基于MSS的三维分子结构形变过程演示方法，其特征在于：所述形变路径的合理与否的判断采用机器学习方式进行筛选，在积累了一定量的训练集，经过训练后，由支持向量学习机或极限学习机自动识别合理与不合理的形变路径，并通过对所述支持向量学习机或极限学习机进行限定后，使得对未知的形变路径做出最优化判断，从而得到可行的优化形变路径。

5.根据权利要求4所述的基于MSS的三维分子结构形变过程演示方法，其特征在于：基于有效形变路径{S1,…,Sn,True}和无效形变路径{S1,…,Sn,False}，将其作为训练集，在有支撑向量机中对测试集{S1,…,Sn}是否有效做出判断，并通过以下能量方程来判断最优形变路径：

6.根据权利要求2所述的基于MSS的三维分子结构形变过程演示方法，其特征在于：所述利用皮肤流复合体拆分所述分子皮肤表面采用如下方式实现的：利用贝塞尔曲面，将分子皮肤表面拆分为贝塞尔三角曲面和贝塞尔四角曲面的集合。