CN111897987B - 一种基于演化计算多视图融合的分子结构图检索方法 - Google Patents

一种基于演化计算多视图融合的分子结构图检索方法 Download PDF

Info

Publication number
CN111897987B
CN111897987B CN202010666319.3A CN202010666319A CN111897987B CN 111897987 B CN111897987 B CN 111897987B CN 202010666319 A CN202010666319 A CN 202010666319A CN 111897987 B CN111897987 B CN 111897987B
Authority
CN
China
Prior art keywords
view
individual
fusion
network
molecular structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010666319.3A
Other languages
English (en)
Other versions
CN111897987A (zh
Inventor
梁新彦
郭倩
钱宇华
朱哲清
彭甫镕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202010666319.3A priority Critical patent/CN111897987B/zh
Publication of CN111897987A publication Critical patent/CN111897987A/zh
Application granted granted Critical
Publication of CN111897987B publication Critical patent/CN111897987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于演化计算多视图融合的分子结构图检索方法。包括:步骤1,使用旋转、平移、缩放等操作来增强数据;步骤2,利用增强的数据训练多个深度模型作为多视图特征提取器;步骤3,利用训练好的多视图提取器提取增强数据的多视图特征;步骤4,通过演化算法搜索性能优良的多视图融合模型用于获取分子结构图分类模型和数据集的融合特征;步骤5,直接使用分类模型或者利用融合的特征计算得到的待检索图与检索库中分子图的相似性的排序值对待检索分子结构图完成检索。本发明用于解决在化学信息学领域无需依赖分子结构式编码字符,直接基于图像的化学分子结构式检索问题。

Description

一种基于演化计算多视图融合的分子结构图检索方法
技术领域
本发明涉及化学信息学化学分子结构检索领域,具体涉及一种基于演化计算多视图融合的分子结构图检索方法。
背景技术
化学结构式检索是化学信息学领域的核心工作之一,是一种以输入化学分子结构图形为检索内容的化学信息搜索方式。该方式是目前化学化工人才在科研或订购化学试剂时候常用的搜索。
目前,化学结构检索主要采用预先定义的分子结构编码的方法。例如,基于简化分子线性输入规范(SMILES)的结构式检索,该方法首先需要将化学结构拆成符号来代表的碎片,然后再将他们排成一长串,形成化学结构的线性码,然后采用字符串比对的策略实现分子结构检索。基于SMILES检索是目前我国掌握的结构式检索方法中采用最多的方法。然而,该方法面对不规整或复杂的SMILES匹配,可能失效。
基于分子结构编码检索的方法需要按照事先设计的编码方式对全部分子结构图进行字符编码,这个过程不但耗时耗力,而且易标注错误。设计不依赖于专家规则的编码,直接使用分子结构图作为检索对象是非常必要和重要的。在计算机视觉领域,深度学习作为目前最成功的表示学习方法之一,已经在人脸识别、物体分类等方面取得很大成功。利用已有的深度学习模型自动建立分子结构图的特征表示是可行的。有效的特征表示对于分子结构检索性能起着核心和基础性作用,然而,单一的深度模型不能很好的捕捉其特征。如果能利用现存的不同深度模型分别提取其不同视角的特征,通过某种方式融合这些不同视角的特征,则对于基于图的分子结构式检索具有重要意义。本专利首先对数据集进行旋转、缩放等操作来增强数据集,然后借助于多个现有的深度模型对增强后数据进行多视图特征提取,然后针对提取的多视图特征的融合方式,提出了基于演化计算多视图融合模型的分子结构图检索方法。
发明内容
本发明目的是提供一种基于演化计算多视图融合的分子结构图检索方法。
本发明所采取的技术方案是:一种基于演化计算多视图融合的分子结构图检索方法,包括以下步骤:
步骤1,数据增强:给定一个分子结构图数据集,表示为D={(xi,yi)|1≤i≤|D|},其中xi表示分子结构图,yi表示xi的类别;首先,采用数据增强方法来增强分子结构图数据集D;然后,统一将增强数据集中的图缩放为w×h大小,其中:w表示图像宽度,h表示图像高度;最后,获取增强数据集中每张图片不同缩小比例的图副本,通过采用在外边距填充像素255的方式将缩小得到的图放大为w×h,通过该过程产生的全部分子结构图构成的数据集记为D*
步骤2,训练多视图特征提取器:给定一组深度卷积网络N={AlexNet、VGG、ResNet、DenseNet、GoogLeNet、Inception};首先,使用数据集D*的类别数替换N中每个网络分类层的神经元个数,交叉熵作为每个网络的损失函数;然后,使用数据集D*分别训练N中的6个网络;
步骤3,提取数据集D*的多视图特征:移除N中所有网络的最后一层即分类层,将被移除分类层的网络,表示为G={gi|1≤i≤|N|})作为多视图特征提取器;G中每个网络gi可以提取数据集D*的一个视图特征,表示为
Figure BDA0002578228700000021
其中v表示视图编号,n表示图像总数;经过此过程,获取得到数据集D*的6个视图特征,记为V={V1,V2,V3,V4,V5,V6};
步骤4,通过演化算法搜索满意的多视图融合模型
步骤4.1,参数约定:种群大小表示为T;第t代种群表示为Pt={pi|1≤i≤T},其中pi表示种群中的第i个个体;用于融合两个视图特征的融合算子集合F={Fi|1≤i≤|F|},融合算子总数记为|F|;
步骤4.2,个体编码:种群中的个体pi,1≤i≤T向量编码了参与融合的视图编号及融合这些视图所使用的融合算子两种信息,向量pi的长度记为2|Vi|-1,其中|Vi|表示个体pi中参与融合的视图数;pi的前|Vi|个元素用于编码参与融合的视图编号,该部分元素的取值pi[j](1≤j≤|Vi|)互不相同且1≤pi[j]≤|Vi|。pi[j]的后|Vi|-1个元素用于编码视图融合所融合算子,该部分每个元素的值pi[j](1≤pi[j]≤|F|,|Vi|+1≤j≤2|Vi|-1)表示使用F中第pi[j]个融合算子来融合上一次的融合结果与第j-|Vi|+1视图;
步骤4.3,个体解码:每个个体pi可以解码为一个多视图融合网络;具体过程为:如果2|Vi|-1=1,该个体只包含一个视图,不需要执行融合操作,即融合网络
Figure BDA0002578228700000031
否则,根据式(1)和(2)得到pi对应的融合网络
Figure BDA0002578228700000032
Figure BDA0002578228700000033
Figure BDA0002578228700000034
其中:dense(input,units)表示一个全连接层,input和units表示它的两个参数,input为待输入特征,units为该层神经元个数;
最后,将融合网络的输出
Figure BDA0002578228700000035
利用式(3)映射到类别空间,
Figure BDA0002578228700000036
其中:classes表示数据集D*的分子结构类别总数;
步骤4.4,种群初始化:依照步骤4.2随机生成T个个体,表示为P0={pi|1≤i≤T}。依照步骤2(3)将P0中每个个体解码为一个多视图融合网络;
步骤4.5,适应度值函数:通过最小化交叉熵损失来训练每一个多视图融合网络,利用式(3)计算每个个体的适应度值;
Figure BDA0002578228700000037
其中:y为样本x的真实类别,pre_y融合多视图网络预测的类别,即多视图融合网络输出output中最大概率值所对应的类别,I(·)表示一个示性函数,当条件为真,函数值为1,否者为0;
步骤4.6,通过选择、交叉、变异产生下一代种群:定义一个临时存放种群的集合Qt=φ;
交叉过程:随机在上一代种群Pt选择两个个体,然后在这两个个体中选择适应度值最高的个体,记作p1,重复该过程,再选出个体p2,随机生成0~1范围的随机数r,如果r小于预先指定的交叉概率pc,分别在p1,p2中随机选择一个位置i,j(1≤i≤|V1|,1≤j≤|V2|),借助于i,p1将在位置i,|V1|和|V1+i+1|分割为四部分,分别表示为[p1[1],...,p1[i]],[p1[i+1],...,p1[|V1|]],[p1[|V1|+1],...,p1[|V1|+i-1]]和[p1[|V1|+i],...,p1[2|V1|-1]];同理,p2将在位置j,|V2|和|V2|+j+1分割为四部分,分别表示为[p2[1],...,p2[j]],[p2[j+1],...,p2[|V2|]]和[p2[|V2|+j],...,p2[2|V2|-1]]。利用式(4)和(5)产生p1和p2的后代;
Figure BDA0002578228700000041
Figure BDA0002578228700000042
分别对后代个体o1和o2中出现两次的视图去重,以个体o1为例,假设在o1个体中,一个视图编号出现两次,记第二次出现的编号位置为i,删除o1中o1[i]和o1[|V1|+i-1]两个元素,重复该过程,直到o1中无重复视图编号出现,采用相同的去重方法,对个体o2进行去重操作,将去重后代o1和o2存放到Qt中,如果r大于等于预先指定的交叉概率pc,将个体p1和p2存放到Qt中,重复上述步骤,为Qt产生总数不少于T个体;
变异过程:对Qt中的每个个体执行如下步骤:随机生成0~1范围的随机数r,如果r小于预先指定的变异pm,随机在该个体中选择一个位置,记为i,如果i≤|V|,随机生成一个视图编号替换该位置的视图编号;如果i>|V|,随机选择F中的一个融合算子替换该位置的融合算子;
选择过程:定义下一代种群集合Pt+1=φ;从Pt和Qt合并组成的个体集Pt∪Qt中随机选择两个个体,记为p1和p2,将这两个体中拥有最大适应度值的个体放到Pt+1;重复该过程,直到Pt+1中的个体数不少于Pt;找到Pt∪Qt中拥有最大适应度值的个体,记为pbest,如果pbest不在Pt+1中,那么用pbest替换掉Pt+1中拥有最小适应度值的个体;按照步骤4.3个体解码方式将Pt+1解码为相应的多视图融合网络,然后按照步骤4.5依次计算每个多视图融合网络的适应度值;
步骤4.7,重复执行步骤4.6N次,选择由PN中拥有最大适应度值个体确定的模型作为最终的融合模型,表示为EF;在模型演化全过程,设置一个个体共享池(记为Pshare)避免相同个体重复计算;将演化过程中产生的全部个体编码以字符串的形式存到Pshare;新生成的个体p在训练前先判断是否存在于Pshare,如果存在,直接将Pshare中个体对应的适应度值赋值给p;否则,解码为对应的多视图融合模型,然后通过训练该模型来获得它的适应度值;
步骤5,基于EF模型,提供两种检索方式:方式一,将检索问题作为一个超大规模的分类问题,直接输入待检索图到EF得到其的类分布概率,对输出概率按降序排序,输出前K个值对应的分子结构图;方式二,首先,移除EF的最后一层即分类层,表示为EF*;然后,依次将数据库D*中图输入EF*中,将其最后一层的输出作为对应图的特征;输入待检索图到EF*,EF*的输出作为检索图的特征;利用待检索图特征与D*中图的特征依次计算待检索图与D*全部分子结构图的余弦相似性;对计算出的相似性值按降序排序,输出前K个值对应的分子结构图。
上述技术方案的进一步方案是,所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声的方法。
上述技术方案的进一步方案是,所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的网络。
本发明的优点如下:
第一、全过程只用到分子结构图自身,避免了传统分子式结构检索方法需对分子结构图进行复杂字符编码如Molfile、SMILES,编码过程易出错,错误的编码严重影响检索。
第二、利用不同的深度卷积网络提取分子结构图的多视图特征,采用演化计算的方法自动选择有用的视图以及它们之间最优的融合方式,无需过多的人为参与,易于使用,检索方便。
第三、本发明的检索过程算法可部署在GPU、TPU硬件,且对于简单、复杂的分子结构式检索具有一致的检索速度,保证了高效的检索效率。
附图说明
图1是基于演化计算多视图融合的分子结构图检索方法的整体流程;
图2是基于演化计算多视图融合的分子结构图检索方法的整体框架;
图3是个体p1和p2通过交叉产生后代o1和o2
图4是六个待融合视图的多视图融合网络及其个体编码。
具体实施方式
如图1至图4所示,一种基于演化计算多视图融合的分子结构图检索方法,包括以下步骤:
步骤1,数据增强:给定一个分子结构图数据集,表示为D={(xi,yi)|1≤i≤|D|},其中xi表示分子结构图,yi表示xi的类别;首先,采用数据增强方法来增强分子结构图数据集D;然后,统一将增强数据集中的图缩放为w×h大小,其中:w表示图像宽度,h表示图像高度;最后,获取增强数据集中每张图片不同缩小比例的图副本,通过采用在外边距填充像素255的方式将缩小得到的图放大为w×h,通过该过程产生的全部分子结构图构成的数据集记为D*
步骤2,训练多视图特征提取器:给定一组深度卷积网络N={AlexNet、VGG、ResNet、DenseNet、GoogLeNet、Inception};首先,使用数据集D*的类别数替换N中每个网络分类层的神经元个数,交叉熵作为每个网络的损失函数;然后,使用数据集D*分别训练N中的6个网络;
步骤3,提取数据集D*的多视图特征:移除N中所有网络的最后一层即分类层,将被移除分类层的网络,表示为G={gi|1≤i≤|N|})作为多视图特征提取器;G中每个网络gi可以提取数据集D*的一个视图特征,表示为
Figure BDA0002578228700000071
其中v表示视图编号,n表示图像总数;经过此过程,获取得到数据集D*的6个视图特征,记为V={V1,V2,V3,V4,V5,V6};
步骤4,通过演化算法搜索满意的多视图融合模型
步骤4.1,参数约定:种群大小表示为T;第t代种群表示为Pt={pi|1≤i≤T},其中pi表示种群中的第i个个体;用于融合两个视图特征的融合算子集合F={Fi|1≤i≤|F|},融合算子总数记为|F|;
步骤4.2,个体编码:种群中的个体pi,1≤i≤T向量编码了参与融合的视图编号及融合这些视图所使用的融合算子两种信息,向量pi的长度记为2|Vi|-1,其中|Vi|表示个体pi中参与融合的视图数;pi的前|Vi|个元素用于编码参与融合的视图编号,该部分元素的取值pi[j](1≤j≤|Vi|)互不相同且1≤pi[j]≤|Vi|。pi[j]的后|Vi|-1个元素用于编码视图融合所融合算子,该部分每个元素的值pi[j](1≤pi[j]≤|F|,|Vi|+1≤j≤2|Vi|-1)表示使用F中第pi[j]个融合算子来融合上一次的融合结果与第j-|Vi|+1视图;
步骤4.3,个体解码:每个个体pi可以解码为一个多视图融合网络;具体过程为:如果2|Vi|-1=1,该个体只包含一个视图,不需要执行融合操作,即融合网络
Figure BDA0002578228700000072
否则,根据式(1)和(2)得到pi对应的融合网络
Figure BDA0002578228700000073
Figure BDA0002578228700000081
Figure BDA0002578228700000082
其中:dense(input,units)表示一个全连接层,input和units表示它的两个参数,input为待输入特征,units为该层神经元个数;
最后,将融合网络的输出
Figure BDA0002578228700000083
利用式(3)映射到类别空间,
Figure BDA0002578228700000084
其中:classes表示数据集D*的分子结构类别总数;
步骤4.4,种群初始化:依照步骤4.2随机生成T个个体,表示为P0={pi|1≤i≤T}。依照步骤2(3)将P0中每个个体解码为一个多视图融合网络;
步骤4.5,适应度值函数:通过最小化交叉熵损失来训练每一个多视图融合网络,利用式(3)计算每个个体的适应度值;
Figure BDA0002578228700000085
其中:y为样本x的真实类别,pre_y融合多视图网络预测的类别,即多视图融合网络输出output中最大概率值所对应的类别,I(·)表示一个示性函数,当条件为真,函数值为1,否者为0;
步骤4.6,通过选择、交叉、变异产生下一代种群:定义一个临时存放种群的集合Qt=φ;
交叉过程:随机在上一代种群Pt选择两个个体,然后在这两个个体中选择适应度值最高的个体,记作p1,重复该过程,再选出个体p2,随机生成0~1范围的随机数r,如果r小于预先指定的交叉概率pc,分别在p1,p2中随机选择一个位置i,j(1≤i≤|V1|,1≤j≤|V2|),借助于i,p1将在位置i,|V1|和|V1+i+1|分割为四部分,分别表示为[p1[1],...,p1[i]],[p1[i+1],...,p1[|V1|]],[p1[|V1|+1],...,p1[|V1|+i-1]]和[p1[|V1|+i],...,p1[2|V1|-1]];同理,p2将在位置j,|V2|和|V2|+j+1分割为四部分,分别表示为[p2[1],...,p2[j]],[p2[j+1],...,p2[|V2|]]和[p2[|V2|+j],...,p2[2|V2|-1]]。利用式(4)和(5)产生p1和p2的后代;
o1=[p1[1],...,p1[i],p2[j+1],...,p2[|V2|],p1[|V1|+1],
...,p1[|V1|+i-1],p2[|V2|+j],...,p2[2|V2|-1]] (4)
o2=[p2[1],...,p2[j],p1[i+1],...,p1[|V1|],p2[|V2|+1],
...,p2[|V2|+j-1]],p1[|V1|+i],...,p1[2|V1|-1]] (5)
分别对后代个体o1和o2中出现两次的视图去重,以个体o1为例,假设在o1个体中,一个视图编号出现两次,记第二次出现的编号位置为i,删除o1中o1[i]和o1[|V1|+i-1]两个元素,重复该过程,直到o1中无重复视图编号出现,采用相同的去重方法,对个体o2进行去重操作,将去重后代o1和o2存放到Qt中,如果r大于等于预先指定的交叉概率pc,将个体p1和p2存放到Qt中,重复上述步骤,为Qt产生总数不少于T个体;
变异过程:对Qt中的每个个体执行如下步骤:随机生成0~1范围的随机数r,如果r小于预先指定的变异pm,随机在该个体中选择一个位置,记为i,如果i≤|V|,随机生成一个视图编号替换该位置的视图编号;如果i>|V|,随机选择F中的一个融合算子替换该位置的融合算子;
选择过程:定义下一代种群集合Pt+1=φ;从Pt和Qt合并组成的个体集Pt∪Qt中随机选择两个个体,记为p1和p2,将这两个体中拥有最大适应度值的个体放到Pt+1;重复该过程,直到Pt+1中的个体数不少于Pt;找到Pt∪Qt中拥有最大适应度值的个体,记为pbest,如果pbest不在Pt+1中,那么用pbest替换掉Pt+1中拥有最小适应度值的个体;按照步骤4.3个体解码方式将Pt+1解码为相应的多视图融合网络,然后按照步骤4.5依次计算每个多视图融合网络的适应度值;
步骤4.7,重复执行步骤4.6N次,选择由PN中拥有最大适应度值个体确定的模型作为最终的融合模型,表示为EF;在模型演化全过程,设置一个个体共享池(记为Pshare)避免相同个体重复计算;将演化过程中产生的全部个体编码以字符串的形式存到Pshare;新生成的个体p在训练前先判断是否存在于Pshare,如果存在,直接将Pshare中个体对应的适应度值赋值给p;否则,解码为对应的多视图融合模型,然后通过训练该模型来获得它的适应度值;
步骤5,基于EF模型,提供两种检索方式:方式一,将检索问题作为一个超大规模的分类问题,直接输入待检索图到EF得到其的类分布概率,对输出概率按降序排序,输出前K个值对应的分子结构图;方式二,首先,移除EF的最后一层即分类层,表示为EF*;然后,依次将数据库D*中图输入EF*中,将其最后一层的输出作为对应图的特征;输入待检索图到EF*,EF*的输出作为检索图的特征;利用待检索图特征与D*中图的特征依次计算待检索图与D*全部分子结构图的余弦相似性;对计算出的相似性值按降序排序,输出前K个值对应的分子结构图。
上述技术方案的进一步方案是,所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声中的任意方法。
上述技术方案的进一步方案是,所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的任意网络。
实验结果表明本方法能够自动给出多视图融合模型,有效提升基于图的分子结构检索精度。

Claims (3)

1.一种基于演化计算多视图融合的分子结构图检索方法,其特征在于,包括以下步骤:
步骤1,数据增强:给定一个分子结构图数据集,表示为D={(xi,yi)|1≤i≤|D|},其中xi表示分子结构图,yi表示xi的类别;首先,采用数据增强方法来增强分子结构图数据集D;然后,统一将增强数据集中的图缩放为w×h大小,其中:w表示图像宽度,h表示图像高度;最后,获取增强数据集中每张图片不同缩小比例的图副本,通过采用在外边距填充像素255的方式将缩小得到的图放大为w×h,通过该过程产生的全部分子结构图构成的数据集记为D*
步骤2,训练多视图特征提取器:给定一组深度卷积网络N={AlexNet、VGG、ResNet、DenseNet、GoogLeNet、Inception},其中Ni表示一个深度卷积网络;首先,使用数据集D*的类别数替换N中每个网络分类层的神经元个数,交叉熵作为每个网络的损失函数;然后,使用数据集D*分别训练N中的6个网络;
步骤3,提取数据集D*的多视图特征:移除N中所有网络的最后一层即分类层,将被移除分类层的网络,表示为G={gi|1≤i≤|N|}作为多视图特征提取器;G中每个网络gi可以提取数据集D*的一个视图特征,表示为
Figure FDA0003505699510000011
其中v表示视图编号,n表示图像总数;经过此过程,获取得到数据集D*的6个视图特征,记为V={V1,V2,V3,V4,V5,V6};
步骤4,通过演化算法搜索满意的多视图融合模型
步骤4.1,参数约定:种群大小表示为T;第t代种群表示为Pt={pi|1≤i≤T},其中pi表示种群中的第i个个体;用于融合两个视图特征的融合算子集合F={Fi|1≤i≤|F|},融合算子总数记为|F|;
步骤4.2,个体编码:种群中的个体pi,1≤i≤T向量编码了参与融合的视图编号及融合这些视图所使用的融合算子两种信息,向量pi的长度记为2|Vi|-1,其中|Vi|表示个体pi中参与融合的视图数;pi的前|Vi|个元素用于编码参与融合的视图编号,该部分元素的取值pi[j](1≤j≤|Vi|)互不相同且1≤pi[j]≤|Vi|; pi[j]的后|Vi|-1个元素用于编码视图融合所融合算子,该部分每个元素的值pi[j](1≤pi[j]≤|F|,|Vi|+1≤j≤2|Vi|-1)表示使用F中第pi[j]个融合算子来融合上一次的融合结果与第j-|Vi|+1视图;
步骤4.3,个体解码:每个个体pi可以解码为一个多视图融合网络;具体过程为:如果2|Vi|-1=1,该个体只包含一个视图,不需要执行融合操作,即融合网络
Figure FDA0003505699510000021
否则,根据式(1)和(2)得到pi对应的融合网络
Figure FDA0003505699510000022
Figure FDA0003505699510000023
Figure FDA0003505699510000024
其中:dense(input,units)表示一个全连接层,input和units表示它的两个参数,input为待输入特征,units为该层神经元个数;
最后,将融合网络的输出
Figure FDA0003505699510000025
利用式(3)映射到类别空间,
Figure FDA0003505699510000026
其中:classes表示数据集D*的分子结构类别总数;
步骤4.4,种群初始化:依照步骤4.2随机生成T个个体,表示为P0={pi|1≤i≤T};依照步骤2(3)将P0中每个个体解码为一个多视图融合网络;
步骤4.5,适应度值函数:通过最小化交叉熵损失来训练每一个多视图融合网络,利用式(3)计算每个个体的适应度值;
Figure FDA0003505699510000027
其中:y为样本x的真实类别,pre_y融合多视图网络预测的类别,即多视图融合网络输出output中最大概率值所对应的类别,I(g)表示一个示性函数,当条件为真,函数值为1,否者为0;
步骤4.6,通过选择、交叉、变异产生下一代种群:定义一个临时存放种群的集合Qt=φ;
交叉过程:随机在上一代种群Pt选择两个个体,然后在这两个个体中选择适应度值最高的个体,记作p1,重复该过程,再选出个体p2,随机生成0~1范围的随机数r,如果r小于预先指定的交叉概率pc,分别在p1,p2中随机选择一个位置i,j(1≤i≤|V1|,1≤j≤|V2|),借助于i,p1将在位置i,|V1|和|V1+i+1|分割为四部分,分别表示为[p1[1],K,p1[i]],[p1[i+1],K,p1[|V1|]],[p1[|V1|+1],K,p1[|V1|+i-1]]和[p1[|V1|+i],K,p1[2|V1|-1]];同理,p2将在位置j,|V2|和|V2|+j+1分割为四部分,分别表示为[p2[1],K,p2[j]],[p2[j+1],K,p2[|V2|]]和[p2[|V2|+j],K,p2[2|V2|-1]];利用式(4)和(5)产生p1和p2的后代;
Figure FDA0003505699510000031
Figure FDA0003505699510000032
分别对后代个体o1和o2中出现两次的视图去重,在个体o1中,一个视图编号出现两次,记第二次出现的编号位置为i,删除o1中o1[i]和o1[|V1|+i-1]两个元素,重复该过程,直到o1中无重复视图编号出现,采用相同的去重方法,对个体o2进行去重操作,将去重后代o1和o2存放到Qt中,如果r大于等于预先指定的交叉概率pc,将个体p1和p2存放到Qt中,重复上述步骤,为Qt产生总数不少于T个体;
变异过程:对Qt中的每个个体执行如下步骤:随机生成0~1范围的随机数r,如果r小于预先指定的变异pm,随机在该个体中选择一个位置,记为i,如果i≤|V|,随机生成一个视图编号替换该位置的视图编号;如果i>|V|,随机选择F中的一个融合算子替换该位置的融合算子;
选择过程:定义下一代种群集合Pt+1=φ;从Pt和Qt合并组成的个体集PtUQt中随机选择两个个体,记为p1和p2,将这两个体中拥有最大适应度值的个体放到Pt+1;重复该过程,直到Pt+1中的个体数不少于Pt;找到PtUQt中拥有最大适应度值的个体,记为pbest,如果pbest不在Pt+1中,那么用pbest替换掉Pt+1中拥有最小适应度值的个体;按照步骤4.3个体解码方式将Pt+1解码为相应的多视图融合网络,然后按照步骤4.5依次计算每个多视图融合网络的适应度值;
步骤4.7,重复执行步骤4.6N次,选择由PN中拥有最大适应度值个体确定的模型作为最终的融合模型,表示为EF;在模型演化全过程,设置一个个体共享池避免相同个体重复计算;将演化过程中产生的全部个体编码以字符串的形式存到Pshare;新生成的个体p在训练前先判断是否存在于Pshare,如果存在,直接将Pshare中个体对应的适应度值赋值给p;否则,解码为对应的多视图融合模型,然后通过训练该模型来获得它的适应度值;
步骤5,基于EF模型,提供两种检索方式:方式一,将检索问题作为一个超大规模的分类问题,直接输入待检索图到EF得到其的类分布概率,对输出概率按降序排序,输出前K个值对应的分子结构图;方式二,首先,移除EF的最后一层即分类层,表示为EF*;然后,依次将数据库D*中图输入EF*中,将其最后一层的输出作为对应图的特征;输入待检索图到EF*,EF*的输出作为检索图的特征;利用待检索图特征与D*中图的特征依次计算待检索图与D*全部分子结构图的余弦相似性;对计算出的相似性值按降序排序,输出前K个值对应的分子结构图。
2.根据权利要求1所述的一种基于演化计算多视图融合的分子结构图检索方法,其特征在于:所述的数据增强方法采用上下翻转、左右翻转、随机旋转、移位、缩放、裁剪、平移、调节对比度、调节亮度、调节色度、调节饱和度、高斯模糊、锐化、添加高斯噪声、添加椒盐噪声、添加泊松噪声、添加乘性噪声的任意一种方法。
3.根据权利要求1所述的一种基于演化计算多视图融合的分子结构图检索方法,其特征在于:所述的一组深度卷积网络采用AlexNet、ZF-Net、VGG、NiN、ResNet、DenseNet、GoogLeNet、Inception的任意一种网络。
CN202010666319.3A 2020-07-10 2020-07-10 一种基于演化计算多视图融合的分子结构图检索方法 Active CN111897987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010666319.3A CN111897987B (zh) 2020-07-10 2020-07-10 一种基于演化计算多视图融合的分子结构图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010666319.3A CN111897987B (zh) 2020-07-10 2020-07-10 一种基于演化计算多视图融合的分子结构图检索方法

Publications (2)

Publication Number Publication Date
CN111897987A CN111897987A (zh) 2020-11-06
CN111897987B true CN111897987B (zh) 2022-05-31

Family

ID=73192347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010666319.3A Active CN111897987B (zh) 2020-07-10 2020-07-10 一种基于演化计算多视图融合的分子结构图检索方法

Country Status (1)

Country Link
CN (1) CN111897987B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396134B (zh) * 2021-01-20 2021-07-02 季华实验室 发光材料性质的预测方法、系统、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1706002A (zh) * 2002-10-17 2005-12-07 英特尔公司 用于检测和鉴定分子结构的扫描探针显微图像基于模型的融合
CN108062529A (zh) * 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN108920077A (zh) * 2018-06-27 2018-11-30 青岛清原精准农业科技有限公司 基于动态手势库识别的化学结构式绘制方法
CN109686413A (zh) * 2018-12-24 2019-04-26 杭州费尔斯通科技有限公司 一种基于es倒排索引的化学分子式检索方法
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
WO2019229270A1 (en) * 2018-06-01 2019-12-05 HighChem s.r.o Identification of chemical structures

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1706002A (zh) * 2002-10-17 2005-12-07 英特尔公司 用于检测和鉴定分子结构的扫描探针显微图像基于模型的融合
CN108062529A (zh) * 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
WO2019148852A1 (zh) * 2018-01-31 2019-08-08 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
WO2019229270A1 (en) * 2018-06-01 2019-12-05 HighChem s.r.o Identification of chemical structures
CN108920077A (zh) * 2018-06-27 2018-11-30 青岛清原精准农业科技有限公司 基于动态手势库识别的化学结构式绘制方法
CN109686413A (zh) * 2018-12-24 2019-04-26 杭州费尔斯通科技有限公司 一种基于es倒排索引的化学分子式检索方法
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chemical Structure Similarity Search for Ligand-based Virtual Screening: Methods and Computational Resources;Xin Yan;《Current Drug Targets》;20161101;第17卷(第14期);1580-1585 *
一种基于图塌缩的药物分子检索方法;瞿经纬;《北京大学学报(医学版)》;20180306;第46卷(第3期);368-374 *
二维化学分子结构图端点信息提取的研究;朱宁等;《淮海工学院学报(自然科学版)》;20130915(第03期);39-42 *
基于双路注意力机制的化学结构图像识别;季秀怡等;《计算机工程》;20191118;第46卷(第09期);219-226 *

Also Published As

Publication number Publication date
CN111897987A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN106980641B (zh) 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN106503106B (zh) 一种基于深度学习的图像哈希索引构建方法
CN110570346B (zh) 一种基于循环生成对抗网络对书法进行风格迁移的方法
Song et al. Learnable tree filter for structure-preserving feature transform
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
CN112084877B (zh) 基于nsga-net的遥感图像识别方法
CN113378973B (zh) 一种基于自注意力机制的图像分类方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN104428793B (zh) 用于转换基于梯度直方图的图像描述符的方法和相关图像处理设备
CN109902808B (zh) 一种基于浮点数位变异遗传算法优化卷积神经网络的方法
CN111897987B (zh) 一种基于演化计算多视图融合的分子结构图检索方法
CN110083734B (zh) 基于自编码网络和鲁棒核哈希的半监督图像检索方法
CN114638836A (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN114860973A (zh) 一种面向小样本场景的深度图像检索方法
CN108446605A (zh) 复杂背景下双人交互行为识别方法
CN114241267A (zh) 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法
CN106951501B (zh) 一种基于多图匹配的三维模型检索方法
CN112784831A (zh) 融合多层特征增强注意力机制的文字识别方法
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
CN108388574B (zh) 基于triplet深度二值网络的快速人脸检索方法
CN116415592A (zh) 一种方面情感三元组抽取方法
CN112905820B (zh) 一种基于逻辑学习的多图检索方法
CN115471576A (zh) 基于深度学习的点云无损压缩方法和装置
CN109918659B (zh) 一种基于不保留最优个体遗传算法优化词向量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant