CN111860507B

CN111860507B - 基于对抗学习的化合物图像分子结构式提取方法

Info

Publication number: CN111860507B
Application number: CN202010728797.2A
Authority: CN
Inventors: 陈琳; 尚明生; 朱帆
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-09-20
Anticipated expiration: 2040-07-20
Also published as: CN111860507A

Abstract

本发明为基于对抗学习的化合物图像分子结构式提取方法，属于深度学习、图像识别和化合物分子式提取领域，包含以下步骤：S1：构建由化合物图像和SMILES码组成的数据对的数据集；S2：搭建由SMILES码生成器和SMILES码判定器构成的对抗网络，并进行网络权重初始化；S3：对对抗网络进行交替训练，并进行测试；S4：将需要提取分子结构式的化合物图像输入到SMILES码生成器，生成SMILES码。本发明提高了化合物图像特征提取的自适应性和泛化性能，并融入了对化合物生成规则的判定，提高了分子结构式提取的识别率、精度和鲁棒性。

Description

基于对抗学习的化合物图像分子结构式提取方法

技术领域

本发明涉及一种基于对抗学习的化合物图像分子结构式提取方法，属于深度学习、图像识别和化合物分子式提取，尤其适用于化合物图像分子结构式提取。

背景技术

在药物研发工作中经常需要阅读大量的文档，例如各种期刊杂志发表的文章、专利等。这些文档包含了很多化合物的结构信息，并且通常以图片的形式进行描述。虽然这种图形化的化学结构方便了大家浏览，但是却不能对其直接进行编辑。当然，我们可以依照图片中的化学结构在化学编辑器中进行绘制，但这种人工提取的方式太费时费力，而且还容易出错，特别是化学结构数量多难以实现快速处理。在信息化快速发展的今天，亟需可以帮助我们从图片中自动提取化学结构的工具，类似于光学字符识别技术(OCR)，这些工具就是利用OCR技术识别图片中的文字，所以不管是各种类型的图片、PDF、扫描版的文档等，都可以通过OCR处理实现电子化，极大地节省了用户的时间。

当前，大多数关于分子数据的出版物都没有提供分子结构的计算机可读格式，如简化分子线性输入规范(Simplified Molecular Input Line Entry System，SMILES)、Connection table等。而现有的提取方法依赖于人工定制的规则和人工设计的识别特征，这些识别规则和特征在常规简单化合物结构提取时可以保持较高的识别率，但在实际应用场景中识别率和准确性都比较低，例如：所处理的图像中化学结构样式复杂、出版物存在不同的风格、存在各类噪声、较低的分辨率不能适应识别需求等各类问题。人工设计的规则和特征难以获取较高的自适应性和泛化性能力，同时各种规则和特征也存在相互依赖关系，如化合物分子式切分、化学键与化学符号特征相互依赖，化学键分割效果不好通常容易导致漏识别或者错误识别。

发明内容

有鉴于此，本发明提供一种基于对抗学习的化合物图像分子结构式提取方法，能够提高化合物图像特征提取的自适应性和泛化性能，并能够融入对化合物生成规则的判定，提高分子结构式提取的识别率、精度和鲁棒性。

为达到上述目的，本发明提供如下技术方案：

基于对抗学习的化合物图像分子结构式提取方法，包含以下步骤：

S1：输入化合物分子式SMILES码数据库，利用化合物图像生成工具生成其对应的化合物图像，构建由化合物图像和SMILES码组成的数据对的数据集；

S2：搭建由SMILES码生成器和SMILES码判定器构成的对抗网络，并进行网络权重初始化；

S3：将数据集按一定比例分为训练集和测试集，利用训练集数据对对抗网络进行交替训练，并利用测试集数据进行测试；

S4：将需要提取分子结构式的化合物图像输入到SMILES码生成器，生成SMILES码。

进一步，所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成，具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、随机噪声生成器生成噪声，并与图像特征进行concat连接作为SMILES码解码器的输入向量；(3)、SMILES码解码器对输入向量进行解码操作，生成SMILES码。

进一步，所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成，具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量，该词向量为文本特征；(3)、将图像特征和文本特征输入到全连接层后得到整体特征；(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。

更进一步，步骤(4)所述的三个分类器的构成和分类结果分别为：(一)、由softmax构成的分类器，判定生成的SMILES码是否对应当前化合物图像；(二)、由softmax构成的分类器，判定生成的SMILES码是否与训练集数据对中的SMILES码一致；(三)、由分类树构成的分类器，判定生成的SMILES码是否符合化合物生成规则，即是否为真的SMILES码。

进一步，所述的化合物图像特征提取网络为深度卷积神经网络(CNN网络)；所述的SMILES码解码器和SMILES码编码器分别为多级串联的双向长短期记忆人工神经网络(LTSM网络)。

进一步，所述的步骤S3具体为：(1)、人为的将数据集按一定比例分为训练集和测试集；(2)、构建SMILES码判定器的损失函数，并采用训练集进行训练；(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试，使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确，同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布，从而使得SMILES码判定器无法判定对错。

更进一步，所述的SMILES码判定器的损失函数L_D为：

L_D＝log(S_r)+α·log(S_w)+β·log(1-S_f) ①

其中，log(S_r)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度，log(S_w)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度，log(1-S_f)为SMILES码判定器生成的SMILES码的化学生成规则的相似度，α和β为人为设定的0～1范围内的超参数；

所述的交替训练损失函数L为；

L＝E_S～P[log(D(S))]+E_z～N[log(1-D(G(I，z)))] ②

其中，S表示SMILES码，S～P表示SMILES码对应的化合物图像分布，z～N表示噪声生成器的正态分布，E[·]为期望，D(S)为SMILES码在SMILES码判定器中的判定概率，I为化合物图像，D(G(I，z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。

进一步，化合物分子结构图像都需要进行预处理，具体包含：灰度化处理，以及采用固定均值进行归一化处理，缩放图像大小至固定大小等。

本发明的有益效果在于：本发明提供了一种基于对抗学习的化合物图像分子结构式提取方法，通过端到端的深度卷积网络特征提取和训练方式，具有更高的自适应和泛化能力，利用对抗生成方式进行交替训练，提高了分子结构式提取的识别率，在对抗训练中融入多种判定形式以及对化合物生成规则的判定，提高了分子结构式提取的精度和鲁棒性。

附图说明

为了使本发明的目的、技术方案更加清晰明白，本发明提供如下附图进行说明：

图1为基于对抗学习的化合物图像分子结构式提取方法流程图；

图2为本发明实施例的SMILES码生成器构架图；

图3为本发明实施例的SMILES码判定器结构图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例：

针对现有的期刊数据库进行化合物图像分子结构式提取，本实施例提供一种基于对抗学习的化合物图像分子结构式提取方法。

结合图1，基于对抗学习的化合物图像分子结构式提取方法，包含以下步骤：

S1、构建数据集；

S101，利用化合物图像生成工具RDkit数据库中自带的30万种化合物的分子式SMILES码作为输入的SMILES码数据库；

S102，将数据库中的所有SMILES码，利用RDkit生成2D的化合物结构图像，并进行预处理；

S103，将30万条SMILES码和化合物图像一一对应，组成的＜化合物图像，SMILES码＞数据对作为数据集。

进一步，所有的化合物分子结构图像都需要进行预处理，具体包含：灰度化处理，以及采用固定均值进行归一化处理，缩放图像大小至固定的300*300大小等。

S2、搭建由SMILES码生成器和SMILES码判定器构成的对抗网络，并进行网络权重初始化；

S201，建立化合物图像特征提取的CNN网络，具体为：采用传统CNN模型(VGG16、ResNet-50等)中的全连接层部分，并利用大规模图像数据ImageNet进行权重初始化，经过卷积操作和多级池化模块等多种操作，通过一个全连接层得到一个低维度的特征向量，最终得到输入化合物图像I的化合物图像特征向量h，其公式表达式如下：

h＝f(I) (2-1)

S202，建立SMILES码解码器和SMILES码编码器的多级串联的双向LTSM网络，并进行权重初始化，SMILES码编码器负责将输入的SMILES码S进行字符串解析成词向量，而SMILES码解码器负责将输入的图像特征向量h和词向量

转换为SMILES码S，其公式表达式如下：

其中，

为组合concat连接。

S203，结合图2所示，SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成，具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、随机噪声生成器生成服从正态分布的噪声z～N(0，1)，并与图像特征进行concat连接作为SMILES码解码器的输入向量；(3)、SMILES码解码器对输入向量进行解码操作，生成SMILES码，其公式表达式如下：

S204，结合图3所示，所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成，具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量，该词向量为文本特征；(3)、将图像特征和文本特征输入到全连接层后得到整体特征；(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。

其中，三个分类器的构成和分类结果分别为：(一)、由softmax构成的匹配程度分类器，判定生成的SMILES码是否对应当前化合物图像；(二)、由softmax构成的识别结果分类器，判定生成的SMILES码是否与训练集数据对中的SMILES码一致；(三)、由分类树构成的化合物SMILES码真假分类器，判定生成的SMILES码是否符合化合物生成规则，即是否为真的SMILES码。

S3、将数据集按一定比例分为训练集和测试集，利用训练集数据对对抗网络进行交替训练，并利用测试集数据进行测试；

具体为：(1)、人为的将数据集按8∶2的比例分为训练集和测试集；(2)、构建SMILES码判定器的损失函数，并采用训练集进行训练，优化SMILES码判定器的参数；(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试，进一步调整SMILES码生成器和SMILES码判定器的参数，使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确，同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布，从而使得SMILES码判定器无法判定对错。

更进一步，所述的SMILES码判定器的损失函数LD为：

L_D＝log(S_r)+α·log(S_w)+β·log(1-S_f) (3-1)

其中，log(S_r)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度，log(S_w)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度，log(1-S_f)为SMILES码判定器生成的SMILES码的化学生成规则的相似度，α和β为超参数，本实施例中设定为1；

所述的交替训练损失函数L为；

L＝E_S～P[log(D(S))]+E_z～N[log(1-D(G(I，z)))] (3-2)

其中，S～P表示SMILES码对应的化合物图像分布，z～N表示噪声生成器的正态分布，E[·]为期望，D(S)为SMILES码在SMILES码判定器中的判定概率，D(G(I，z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。

S4：将期刊数据库中需要提取分子结构式的化合物图像输入到训练好的SMILES码生成器中，生成SMILES码。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.基于对抗学习的化合物图像分子结构式提取方法，其特征在于，包含以下步骤：

S4：将需要提取分子结构式的化合物图像输入到SMILES码生成器，生成SMILES码；

所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成；所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成；所述的化合物图像特征提取网络为CNN网络；所述的SMILES码解码器和SMILES码编码器分别为多级串联的双向LSTM 网络。

2.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法，其特征在于，所述的SMILES码生成器具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、随机噪声生成器生成噪声，并与图像特征进行concat连接作为SMILES码解码器的输入向量；(3)、SMILES码解码器对输入向量进行解码操作，生成SMILES码。

3.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法，其特征在于，所述的SMILES码判定器具体工作原理为：(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取；(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量，该词向量为文本特征；(3)、将图像特征和文本特征输入到全连接层后得到整体特征；(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。

4.根据权利要求3所述的基于对抗学习的化合物图像分子结构式提取方法，其特征在于，步骤(4)所述的三个并联的分类器的构成和分类结果分别为：(一)、由softmax构成的分类器，判定生成的SMILES码是否对应当前化合物图像；(二)、由softmax构成的分类器，判定生成的SMILES码是否与训练集数据对中的SMILES码一致；(三)、由分类树构成的分类器，判定生成的SMILES码是否符合化合物生成规则，即是否为真的SMILES码。

5.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法，其特征在于，所述的步骤S3具体为：(1)、人为的将数据集按一定比例分为训练集和测试集；(2)、构建SMILES码判定器的损失函数，并采用训练集进行训练；(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试，使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确，同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布，从而使得SMILES码判定器无法判定对错。

6.根据权利要求5所述的基于对抗学习的化合物图像分子结构式提取方法，其特征在于，所述的SMILES码判定器的损失函数L_D为：

L_D＝log(S_r)+α·log(S_w)+β·log(1-S_f) ①

所述的交替训练损失函数L为；

L＝E_S～P[log(D(S))]+E_z～N[log(1-D(G(I，z)))] ②