CN111897987B

CN111897987B - 一种基于演化计算多视图融合的分子结构图检索方法

Info

Publication number: CN111897987B
Application number: CN202010666319.3A
Authority: CN
Inventors: 梁新彦; 郭倩; 钱宇华; 朱哲清; 彭甫镕
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-05-31
Anticipated expiration: 2040-07-10
Also published as: CN111897987A

Abstract

本发明涉及一种基于演化计算多视图融合的分子结构图检索方法。包括：步骤1，使用旋转、平移、缩放等操作来增强数据；步骤2，利用增强的数据训练多个深度模型作为多视图特征提取器；步骤3，利用训练好的多视图提取器提取增强数据的多视图特征；步骤4，通过演化算法搜索性能优良的多视图融合模型用于获取分子结构图分类模型和数据集的融合特征；步骤5，直接使用分类模型或者利用融合的特征计算得到的待检索图与检索库中分子图的相似性的排序值对待检索分子结构图完成检索。本发明用于解决在化学信息学领域无需依赖分子结构式编码字符，直接基于图像的化学分子结构式检索问题。

Description

一种基于演化计算多视图融合的分子结构图检索方法

技术领域

本发明涉及化学信息学化学分子结构检索领域，具体涉及一种基于演化计算多视图融合的分子结构图检索方法。

背景技术

化学结构式检索是化学信息学领域的核心工作之一，是一种以输入化学分子结构图形为检索内容的化学信息搜索方式。该方式是目前化学化工人才在科研或订购化学试剂时候常用的搜索。

目前，化学结构检索主要采用预先定义的分子结构编码的方法。例如，基于简化分子线性输入规范(SMILES)的结构式检索，该方法首先需要将化学结构拆成符号来代表的碎片，然后再将他们排成一长串，形成化学结构的线性码，然后采用字符串比对的策略实现分子结构检索。基于SMILES检索是目前我国掌握的结构式检索方法中采用最多的方法。然而，该方法面对不规整或复杂的SMILES匹配，可能失效。

基于分子结构编码检索的方法需要按照事先设计的编码方式对全部分子结构图进行字符编码，这个过程不但耗时耗力，而且易标注错误。设计不依赖于专家规则的编码，直接使用分子结构图作为检索对象是非常必要和重要的。在计算机视觉领域，深度学习作为目前最成功的表示学习方法之一，已经在人脸识别、物体分类等方面取得很大成功。利用已有的深度学习模型自动建立分子结构图的特征表示是可行的。有效的特征表示对于分子结构检索性能起着核心和基础性作用，然而，单一的深度模型不能很好的捕捉其特征。如果能利用现存的不同深度模型分别提取其不同视角的特征，通过某种方式融合这些不同视角的特征，则对于基于图的分子结构式检索具有重要意义。本专利首先对数据集进行旋转、缩放等操作来增强数据集，然后借助于多个现有的深度模型对增强后数据进行多视图特征提取，然后针对提取的多视图特征的融合方式，提出了基于演化计算多视图融合模型的分子结构图检索方法。

发明内容

本发明目的是提供一种基于演化计算多视图融合的分子结构图检索方法。

本发明所采取的技术方案是：一种基于演化计算多视图融合的分子结构图检索方法，包括以下步骤：

步骤1，数据增强：给定一个分子结构图数据集，表示为D＝{(x_i,y_i)|1≤i≤|D|}，其中x_i表示分子结构图，y_i表示x_i的类别；首先，采用数据增强方法来增强分子结构图数据集D；然后，统一将增强数据集中的图缩放为w×h大小，其中：w表示图像宽度，h表示图像高度；最后，获取增强数据集中每张图片不同缩小比例的图副本，通过采用在外边距填充像素255的方式将缩小得到的图放大为w×h，通过该过程产生的全部分子结构图构成的数据集记为D^*；

步骤2，训练多视图特征提取器：给定一组深度卷积网络N＝{AlexNet、VGG、ResNet、DenseNet、GoogLeNet、Inception}；首先，使用数据集D^*的类别数替换N中每个网络分类层的神经元个数，交叉熵作为每个网络的损失函数；然后，使用数据集D^*分别训练N中的6个网络；

步骤3，提取数据集D^*的多视图特征：移除N中所有网络的最后一层即分类层，将被移除分类层的网络，表示为G＝{g_i|1≤i≤|N|})作为多视图特征提取器；G中每个网络g_i可以提取数据集D^*的一个视图特征，表示为

其中v表示视图编号，n表示图像总数；经过此过程，获取得到数据集D^*的6个视图特征，记为V＝{V₁,V₂,V₃,V₄,V₅,V₆}；

步骤4，通过演化算法搜索满意的多视图融合模型

步骤4.1，参数约定：种群大小表示为T；第t代种群表示为P_t＝{p_i|1≤i≤T}，其中p_i表示种群中的第i个个体；用于融合两个视图特征的融合算子集合F＝{F_i|1≤i≤|F|}，融合算子总数记为|F|；

步骤4.2，个体编码：种群中的个体p_i,1≤i≤T向量编码了参与融合的视图编号及融合这些视图所使用的融合算子两种信息，向量p_i的长度记为2|Vⁱ|-1，其中|Vⁱ|表示个体p_i中参与融合的视图数；p_i的前|Vⁱ|个元素用于编码参与融合的视图编号,该部分元素的取值p_i[j](1≤j≤|Vⁱ|)互不相同且1≤p_i[j]≤|Vⁱ|。p_i[j]的后|Vⁱ|-1个元素用于编码视图融合所融合算子,该部分每个元素的值p_i[j](1≤p_i[j]≤|F|,|Vⁱ|+1≤j≤2|Vⁱ|-1)表示使用F中第p_i[j]个融合算子来融合上一次的融合结果与第j-|Vⁱ|+1视图；

步骤4.3，个体解码：每个个体p_i可以解码为一个多视图融合网络；具体过程为：如果2|Vⁱ|-1＝1，该个体只包含一个视图，不需要执行融合操作，即融合网络

否则，根据式(1)和(2)得到p_i对应的融合网络

其中：dense(input,units)表示一个全连接层,input和units表示它的两个参数，input为待输入特征，units为该层神经元个数；

最后，将融合网络的输出

利用式(3)映射到类别空间，

其中：classes表示数据集D^*的分子结构类别总数；

步骤4.4，种群初始化：依照步骤4.2随机生成T个个体，表示为P₀＝{p_i|1≤i≤T}。依照步骤2(3)将P₀中每个个体解码为一个多视图融合网络；

步骤4.5，适应度值函数：通过最小化交叉熵损失来训练每一个多视图融合网络，利用式(3)计算每个个体的适应度值；

其中：y为样本x的真实类别，pre_y融合多视图网络预测的类别，即多视图融合网络输出output中最大概率值所对应的类别，I(·)表示一个示性函数，当条件为真，函数值为1，否者为0；

步骤4.6，通过选择、交叉、变异产生下一代种群：定义一个临时存放种群的集合Q_t＝φ；

交叉过程：随机在上一代种群P_t选择两个个体，然后在这两个个体中选择适应度值最高的个体，记作p₁，重复该过程，再选出个体p₂，随机生成0～1范围的随机数r，如果r小于预先指定的交叉概率p_c，分别在p₁,p₂中随机选择一个位置i，j(1≤i≤|V¹|，1≤j≤|V²|),借助于i，p₁将在位置i，|V¹|和|V¹+i+1|分割为四部分，分别表示为[p₁[1],...,p₁[i]]，[p₁[i+1],...,p₁[|V¹|]]，[p₁[|V¹|+1],...,p₁[|V¹|+i-1]]和[p₁[|V¹|+i],...,p₁[2|V¹|-1]]；同理，p₂将在位置j，|V²|和|V²|+j+1分割为四部分，分别表示为[p₂[1],...,p₂[j]]，[p₂[j+1],...,p₂[|V²|]]和[p₂[|V²|+j],...,p₂[2|V²|-1]]。利用式(4)和(5)产生p₁和p₂的后代；

分别对后代个体o₁和o₂中出现两次的视图去重，以个体o₁为例，假设在o₁个体中，一个视图编号出现两次，记第二次出现的编号位置为i，删除o₁中o₁[i]和o₁[|V¹|+i-1]两个元素，重复该过程，直到o₁中无重复视图编号出现，采用相同的去重方法，对个体o₂进行去重操作，将去重后代o₁和o₂存放到Q_t中，如果r大于等于预先指定的交叉概率p_c，将个体p₁和p₂存放到Q_t中，重复上述步骤，为Q_t产生总数不少于T个体；

变异过程：对Q_t中的每个个体执行如下步骤：随机生成0～1范围的随机数r，如果r小于预先指定的变异p_m，随机在该个体中选择一个位置，记为i，如果i≤|V|，随机生成一个视图编号替换该位置的视图编号；如果i＞|V|，随机选择F中的一个融合算子替换该位置的融合算子；

选择过程：定义下一代种群集合P_t+1＝φ；从P_t和Q_t合并组成的个体集P_t∪Q_t中随机选择两个个体，记为p₁和p₂，将这两个体中拥有最大适应度值的个体放到P_t+1；重复该过程，直到P_t+1中的个体数不少于P_t；找到P_t∪Q_t中拥有最大适应度值的个体，记为p_best，如果p_best不在P_t+1中，那么用p_best替换掉P_t+1中拥有最小适应度值的个体；按照步骤4.3个体解码方式将P_t+1解码为相应的多视图融合网络，然后按照步骤4.5依次计算每个多视图融合网络的适应度值；

步骤4.7，重复执行步骤4.6N次，选择由P_N中拥有最大适应度值个体确定的模型作为最终的融合模型，表示为EF；在模型演化全过程，设置一个个体共享池(记为P_share)避免相同个体重复计算；将演化过程中产生的全部个体编码以字符串的形式存到P_share；新生成的个体p在训练前先判断是否存在于P_share，如果存在，直接将P_share中个体对应的适应度值赋值给p；否则，解码为对应的多视图融合模型，然后通过训练该模型来获得它的适应度值；

步骤5，基于EF模型，提供两种检索方式：方式一，将检索问题作为一个超大规模的分类问题，直接输入待检索图到EF得到其的类分布概率，对输出概率按降序排序，输出前K个值对应的分子结构图；方式二，首先，移除EF的最后一层即分类层，表示为EF*；然后，依次将数据库D^*中图输入EF*中，将其最后一层的输出作为对应图的特征；输入待检索图到EF*，EF*的输出作为检索图的特征；利用待检索图特征与D^*中图的特征依次计算待检索图与D^*全部分子结构图的余弦相似性；对计算出的相似性值按降序排序，输出前K个值对应的分子结构图。

上述技术方案的进一步方案是，所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声的方法。

上述技术方案的进一步方案是，所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的网络。

本发明的优点如下：

第一、全过程只用到分子结构图自身，避免了传统分子式结构检索方法需对分子结构图进行复杂字符编码如Molfile、SMILES，编码过程易出错，错误的编码严重影响检索。

第二、利用不同的深度卷积网络提取分子结构图的多视图特征，采用演化计算的方法自动选择有用的视图以及它们之间最优的融合方式，无需过多的人为参与,易于使用，检索方便。

第三、本发明的检索过程算法可部署在GPU、TPU硬件，且对于简单、复杂的分子结构式检索具有一致的检索速度，保证了高效的检索效率。

附图说明

图1是基于演化计算多视图融合的分子结构图检索方法的整体流程；

图2是基于演化计算多视图融合的分子结构图检索方法的整体框架；

图3是个体p₁和p₂通过交叉产生后代o₁和o₂；

图4是六个待融合视图的多视图融合网络及其个体编码。

具体实施方式

如图1至图4所示，一种基于演化计算多视图融合的分子结构图检索方法，包括以下步骤：

步骤4，通过演化算法搜索满意的多视图融合模型

否则，根据式(1)和(2)得到p_i对应的融合网络

最后，将融合网络的输出

利用式(3)映射到类别空间，

其中：classes表示数据集D^*的分子结构类别总数；

o₁＝[p₁[1],...,p₁[i],p₂[j+1],...,p₂[|V²|],p₁[|V¹|+1],

...,p₁[|V¹|+i-1],p₂[|V²|+j],...,p₂[2|V²|-1]] (4)

o₂＝[p₂[1],...,p₂[j],p₁[i+1]，...，p₁[|V¹|],p₂[|V²|+1],

...,p₂[|V²|+j-1]],p₁[|V¹|+i],...,p₁[2|V¹|-1]] (5)

上述技术方案的进一步方案是，所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声中的任意方法。

上述技术方案的进一步方案是，所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的任意网络。

实验结果表明本方法能够自动给出多视图融合模型，有效提升基于图的分子结构检索精度。

Claims

1.一种基于演化计算多视图融合的分子结构图检索方法，其特征在于，包括以下步骤：

步骤2，训练多视图特征提取器：给定一组深度卷积网络N＝{AlexNet、VGG、ResNet、DenseNet、GoogLeNet、Inception}，其中N_i表示一个深度卷积网络；首先，使用数据集D^*的类别数替换N中每个网络分类层的神经元个数，交叉熵作为每个网络的损失函数；然后，使用数据集D^*分别训练N中的6个网络；

步骤3，提取数据集D^*的多视图特征：移除N中所有网络的最后一层即分类层，将被移除分类层的网络，表示为G＝{g_i|1≤i≤|N|}作为多视图特征提取器；G中每个网络g_i可以提取数据集D^*的一个视图特征，表示为

步骤4，通过演化算法搜索满意的多视图融合模型

步骤4.2，个体编码：种群中的个体p_i,1≤i≤T向量编码了参与融合的视图编号及融合这些视图所使用的融合算子两种信息，向量p_i的长度记为2|Vⁱ|-1，其中|Vⁱ|表示个体p_i中参与融合的视图数；p_i的前|Vⁱ|个元素用于编码参与融合的视图编号,该部分元素的取值p_i[j](1≤j≤|Vⁱ|)互不相同且1≤p_i[j]≤|Vⁱ|； p_i[j]的后|Vⁱ|-1个元素用于编码视图融合所融合算子,该部分每个元素的值p_i[j](1≤p_i[j]≤|F|,|Vⁱ|+1≤j≤2|Vⁱ|-1)表示使用F中第p_i[j]个融合算子来融合上一次的融合结果与第j-|Vⁱ|+1视图；

否则，根据式(1)和(2)得到p_i对应的融合网络

最后，将融合网络的输出

利用式(3)映射到类别空间，

其中：classes表示数据集D^*的分子结构类别总数；

步骤4.4，种群初始化：依照步骤4.2随机生成T个个体，表示为P₀＝{p_i|1≤i≤T}；依照步骤2(3)将P₀中每个个体解码为一个多视图融合网络；

其中：y为样本x的真实类别，pre_y融合多视图网络预测的类别，即多视图融合网络输出output中最大概率值所对应的类别，I(g)表示一个示性函数，当条件为真，函数值为1，否者为0；

交叉过程：随机在上一代种群P_t选择两个个体，然后在这两个个体中选择适应度值最高的个体，记作p₁，重复该过程，再选出个体p₂，随机生成0～1范围的随机数r，如果r小于预先指定的交叉概率p_c，分别在p₁,p₂中随机选择一个位置i，j(1≤i≤|V¹|，1≤j≤|V²|),借助于i，p₁将在位置i，|V¹|和|V¹+i+1|分割为四部分，分别表示为[p₁[1],K,p₁[i]]，[p₁[i+1],K,p₁[|V¹|]]，[p₁[|V¹|+1],K,p₁[|V¹|+i-1]]和[p₁[|V¹|+i],K,p₁[2|V¹|-1]]；同理，p₂将在位置j，|V²|和|V²|+j+1分割为四部分，分别表示为[p₂[1],K,p₂[j]]，[p₂[j+1],K,p₂[|V²|]]和[p₂[|V²|+j],K,p₂[2|V²|-1]]；利用式(4)和(5)产生p₁和p₂的后代；

分别对后代个体o₁和o₂中出现两次的视图去重，在个体o₁中，一个视图编号出现两次，记第二次出现的编号位置为i，删除o₁中o₁[i]和o₁[|V¹|+i-1]两个元素，重复该过程，直到o₁中无重复视图编号出现，采用相同的去重方法，对个体o₂进行去重操作，将去重后代o₁和o₂存放到Q_t中，如果r大于等于预先指定的交叉概率p_c，将个体p₁和p₂存放到Q_t中，重复上述步骤，为Q_t产生总数不少于T个体；

选择过程：定义下一代种群集合P_t+1＝φ；从P_t和Q_t合并组成的个体集P_tUQ_t中随机选择两个个体，记为p₁和p₂，将这两个体中拥有最大适应度值的个体放到P_t+1；重复该过程，直到P_t+1中的个体数不少于P_t；找到P_tUQ_t中拥有最大适应度值的个体，记为p_best，如果p_best不在P_t+1中，那么用p_best替换掉P_t+1中拥有最小适应度值的个体；按照步骤4.3个体解码方式将P_t+1解码为相应的多视图融合网络，然后按照步骤4.5依次计算每个多视图融合网络的适应度值；

步骤4.7，重复执行步骤4.6N次，选择由P_N中拥有最大适应度值个体确定的模型作为最终的融合模型，表示为EF；在模型演化全过程，设置一个个体共享池避免相同个体重复计算；将演化过程中产生的全部个体编码以字符串的形式存到P_share；新生成的个体p在训练前先判断是否存在于P_share，如果存在，直接将P_share中个体对应的适应度值赋值给p；否则，解码为对应的多视图融合模型，然后通过训练该模型来获得它的适应度值；

2.根据权利要求1所述的一种基于演化计算多视图融合的分子结构图检索方法，其特征在于：所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声的任意一种方法。

3.根据权利要求1所述的一种基于演化计算多视图融合的分子结构图检索方法，其特征在于：所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的任意一种网络。