CN114581920A

CN114581920A - 一种双分支多层次特征解码的分子图像识别方法

Info

Publication number: CN114581920A
Application number: CN202210218123.7A
Authority: CN
Inventors: 刘聪; 汤文阳; 张坤
Original assignee: Yancheng Institute of Technology
Current assignee: Yancheng Institute of Technology
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-03

Abstract

本发明公开了一种双分支多层次特征解码的分子图像识别方法。将待识别分子结构图缩放为两个不同分辨率的图像，并分别输入到两个复杂度不同的卷积神经网络，获取分子结构图的不同空间分辨率的特征信息，并通过融合多层次交叉注意力机制的Transformer解码器解析出分子结构图对应的InchI文本。双分支多层次特征Transformer解码的分子图像识别方法，通过对大尺寸分子图像高效充分地特征提取，显著有效地提高了分子结构图识别的准确率和鲁棒性。

Description

一种双分支多层次特征解码的分子图像识别方法

技术领域

本发明涉及分子图像识别领域，具体来讲是一种双分支多层次特征解码的分子图像识别方法。

背景技术

分子骨架式结构图（Skeletal formula）是一种使用了数百年的结构符号，也是化学家最常用的描述分子结构的方式，但由于大部分分子结构的化学信息以图像的形式呈现，失去了分子的化学意义。因此，将分子结构图转化为计算机能够直接识别的InchI等结构化信息数据格式引起了科学界的广泛关注。

随着深度学习技术在计算机视觉中的视觉场景理解领域取得巨大成功，有一些研究尝试使用深度学习方法来对分子图像进行识别。

目前，与本发明最相似的现有技术为季秀怡,李建华等人在《基于双路注意力机制的化学结构图像识别》提出了基于深度学习的分子结构图像识别方法，该深度神经网络模型由编码和解码两部分组成。具体地,首先使用ResNet对图像进行特征提取并对参数进行微调得到空间特征图和通道特征图的特征向量信息。将两个向量分别经过空间注意力机制和通道注意力机制得到两个新的特征图向量信息并进行融合。将融合后的向量信息送入LSTM解码器进行解析。

在图像预处理阶段，若是将数据集图像统一为小尺寸，大尺寸图像缩小为小尺寸图像，图像被压缩致使图像丢失许多分子结构的细节，许多特征无法进行识别。若是将数据集图像统一为大尺寸，使用目前较为常见的模型进行特征提取，则需要的计算资源非常庞大，对于当前的计算机硬件不可行；若是使用浅层神经网络对大尺寸图像进行特征提取，则浅层神经网络的图像特征提取能力不足。

为解决以上问题,本发明提出了一种双分支多层次特征Transformer解码的分子图像识别方法, 采用双分支的卷积神经网络提取高分辨率图像和低分辨率图像的特征向量信息,并采用融合多层次交叉注意力机制的Transformer 解码器结构，最终得到分子结构图的文本表示。

发明内容

本发明通过提供一种双分支多层次特征Transformer解码的分子图像识别方法，改善了目前分子图像识别方法中，高分辨率分子结构图特征提取可能存在的对硬件要求较高、特征提取不充分等问题，提高模型分子图像识别的准确率和鲁棒性。

为实现本发明的目的，提供一种双分支多层次特征Transformer解码的分子图像识别方法，包括如下步骤：

InchI文本序列以离散的字符表示，并且无法直接输入到解码器模型中，所以需要先将数据集中的InchI文本序列转化为整数形式表示。

训练得到一种基于神经网络模型的双分支多层次特征Transformer解码的模型作为分子结构图识别方法，提高分子结构图识别的准确率；；

将获取的分子结构图输入到编码器进行图像特征提取，得到图像的特征向量信息；

将所述图像的向量特征输入到解码器——Transformer（一种深度学习模型）解码器网络模型中，解码器部分结合所述分子结构图像的特征信息进行语义信息提取，得到分子图像的结构化信息数据格式InchI文本序列；

所述的编码器采用双分支卷积神经网络构成，所述的解码器采用融合多层次交叉注意力机制的Transformer 解码器结构；

将分子结构图像数据集的每一个分子图像，都以缩放为两个不同分辨率，同时输入模型；对于高分辨率分子结构图像，采用层数较少，模型较为简单的卷积神经网络进行特征提取；对于低分辨率图像，采用层数较多，模型较为复杂的卷积神经网络进行特征提取。将上述双分支特征提取模型串联共同构成编码器特征提取部分；

将所述提取的特征向量分别与其维度相同的位置编码叠加，形成新的特征向量；

建立融合多层次交叉注意力机制的Transformer 解码器模型，将每个分子图像对应的InchI文本向量化并传入模型，得到语义信息；

将向量化的InchI序列与位置编码叠加，并将向量传入掩码多头注意力层（MaskedMulti-Head Attention），使用掩码是为了防止当前生成的词对后面的词有依赖。通过所述层，捕获当前生成的词与已解码的词之间的关联，并生成一个新的向量；

特征向量从掩码多头注意力层输出，并进入与编码器交互的多层次交叉注意力机制层。这里使用两个串联的多头注意力层与编码器进行交互，加深图像与文本之间的联系。

最后，解码器输出部分，模型通过一次线性变换和一个分类器层得到输出的概率分布，然后通过词典，输出概率最大的对应的单词作为我们的预测输出。同时，解码器的每次输出作为下一时刻解码器的输入；

当输出完成后，即得到分子结构图像对应的InchI文本序列；

使用性能评估指标对本发明分子图像识别方法进行性能评估。

上述基于双分支多层次特征Transformer解码的模型，该模型包括分子结构图像特征提取部分和InchI序列文本生成部分。其中，对于分子结构图像特征提取部分，采用双分支的卷积神经网络提取高/低分辨率图像的特征向量信息；对于InchI文本序列生成部分，采用融合多层次交叉注意力机制的Transformer 解码器结构，最终得到分子结构图的InchI序列文本。这样，本发明实施例简单地自动识别分子结构图像，提高大尺寸分子结构图像识别的精度率和鲁棒性，从而分子结构图像识别结果的准确性。

附图说明

图1为本发明实施例提供的分子结构图识别的方法流程图。

图2为本发明实施例提供的分子结构图识别的整体架构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实例为了简单地自动识别分子结构图像，且提高识别的准确率，将神经网络模型引入分子结构图识别的实现中。随着神经网络模型地快速发展，可以将神经网络模型应用到分子结构图像的识别当中。本发明实施例的神经网络模型结合计算机视觉技术和文本处理技术，可用于生成描述分子图像的InchI文本序列。

具体来说，本发明实施例中的神经网络模型采用一种基于神经网络模型的双分支多层次特征Transformer解码的模型，该模型包含两个主要部分：分子结构图像特征提取和InchI序列文本生成。其中，对于分子结构图像特征提取部分，采用双分支的卷积神经网络提取高/低分辨率图像的特征向量信息；对于InchI文本序列生成部分，采用融合多层次交叉注意力机制的Transformer 解码器结构，最终得到分子结构图的InchI序列文本。

因此，本发明实施例简单地自动识别分子结构图像，且提高分子结构图像识别的准确率。

图一为本发明实施例提供的分子结构图识别的方法流程图，其步骤为：

设置编码器-解码器深度神经网络作为分子结构图像识别模型，模型包括编码器部分—图像特征提取和解码器部分—InchI文本序列自动生成；

在这里，编码器部分采用双分支卷积神经网络构成，解码器部分采用融合多层次交叉注意力机制的Transformer 解码器结构；

将分子结构图像输入到编码器部分进行特征提取，得到特征向量，与位置编码结合送入解码器部分。本实施例采用正余弦编码方式，正余弦位置编码公式如下：

将图像的特征向量信息送入解码器中，解码器根据所属图像的特征信息进行语义信息提取，得到分子结构图像对应的InchI文本。

在本发明实例中，所述的图像特征提取是指计算机经过一系列运算将一幅图像转化成一个特征矩阵或是特征向量，通常以固定长度的向量进行表示，该固定长度的向量就是图像的特征向量信息。特征提取通常采用卷积神经网络，包括MobileNet、ResNet、EfficientNet或AlexNet等；

图2为本发明实施例提供的分子结构图识别的整体架构图，对于高分辨率分子结构图像，采用层数较少，模型较为简单的卷积神经网络MobileNet进行特征提取；对于低分辨率图像，采用层数较多，模型较为复杂的卷积神经网络EfficientNet B5进行特征提取，包括：

将图像转化为高分辨率图像和低分辨率图像进行输入；

图像被输入到高分辨率图像特征提取模型和低分辨率图像特征提取模型当中；

双分支特征提取模型对分子图像进行特征提取，分别得到固定维度的特征编码。

在本发明实施例中，解码器部分是给定已经存在于序列中的InchI文本单词情况下预测下一个InchI序列文本的概率。

由于InchI文本序列中总的字符较少，但是字符之间存在相似性（如左右括号成对出现），因此为了体现字符间的相似性，本发明模型采用字符嵌入的方式对字符进行编码。除了InchI文本的字符外，还加入起始，结束符号‘<SOS>’，‘<EOS>’和补全符号‘<PAD>’，构建字符词典。

本发明实例使用融合双分支注意力机制的Transformer 解码器结构作为解码器，在每个输出时间点上，在序列中生成一个新的InchI文本单词，然后使用字符嵌入(word2Vec)对生成的每个InchI字符进行编码，并将其融合位置编码作为输入传递给解码器用于生成后续的InchI字符。

模型解码器的具体步骤为：

输入固定维度的特征编码；

将特征编码融合位置编码向量形成新的特征编码；

将新的特征编码向量输入到解码器中；

解码器结合固定维度的特征编码进行语义信息提取，输出InchI序列文本。

可以看出，本发明实施例中的分子结构图识别模型功能包括图像特征提取和InchI序列文本生成，图像特征通过输入到解码器的双分支注意力机制层与解码器部分进行交互。假设分子结构图I对应的InchI序列文本为S，序列长度为n，即S={S₁,S₂,……,S_n}，本发明实施例的S₁为<SOS>，S_n为<EOS>。在本发明的实施例中，在解码器部分，将序列文本向量化，输入进多头注意力机制，捕获当前生成的词与已解码的词之间的关联，并生成一个新的向量；并将新的向量输入进与图像特征模型的编码器部分像交互的双分支注意力机制层，这里使用两个串联的多头注意力层与编码器进行交互，加深图像与文本之间的联系。最后，解码器输出部分，模型通过一次线性变换和一个Softmax层（一个分类器层）得到输出的概率分布，然后通过词典，输出概率最大的对应的单词作为我们的预测输出。整个模型的架构如图二所示。

在对分子结构图像的识别模型进行训练时，输入一个图像会输出该图像对应的InchI文本序列，并且文本序列的生成过程是每一时刻生成一个单词，先前生成的单词会作为输入用于后续单词的生成，这样就训练得到一个分子结构图像的识别模型。

本发明的实施例中，对于训练得到的分子结构图像的识别模型，如何评价其好坏是一个重要的问题。本发明的实施例采用编辑距离（Levenshtein Distance）对所述模型进行评价。编辑距离度量了字符串A，仅通过插入，删除和替换三种操作，能转变为为字符串B的最少次数。编辑距离具有以下优点：很容易理解；1）得到的匹配度较高；2）被广泛用于字符串匹配。

在采用编辑距离对训练得到的InchI序列文本进行评估时，若编辑距离数值越小，即得到的InchI序列文本与参考序列文本越相似，分子结构图像的识别系统质量就越好。

可以看出，本发明实施例构建了一个分子结构图识别模型，融合了计算机视觉技术和文本处理技术。首先将每个分子图像缩放为高/低分辨率，对图像进行高分辨率和低分辨率的双分支特征提取，采用卷积神经网络，对于高分辨率分子结构图像，采用层数较少，模型较为简单的卷积神经网络MobileNet进行特征提取；对于低分辨率图像，采用层数较多，模型较为复杂的卷积神经网络EfficientNet B5进行特征提取，得到所述特征图的高分辨率的特征向量信息和低分辨率的特征向量信息；其次是文本序列处理，将word2ved训练好的模型融合进来作为词向量的初始化一起提取语义信息，然后使用融合多层次交叉注意力机制的解码器将图像提取的双分支特征与文本序列处理的输出进行融合，经过全连接层用于最终预测。这样，就取得了较高的准确性及分子结构图识别较好的流畅性。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种双分支多层次特征解码的分子图像识别方法，其特征在于，包括如下步骤：

S10，将待识别的分子结构图缩放为两个不同分辨率的图像；

S20，构建双分支卷积神经网络模型提取图像的两个不同分辨率混合的特征信息；

S30，构建融合多层次交叉注意力机制的Transformer解码器模型；

S40，结合S20、S30中模型构建一种双分支多层次特征Transformer解码的网络架；

S50，使用双分支多层次特征的Transformer解码的分子图像识别方法，得到分子结构图对应的InchI文本。

2.如权利要求1所述的一种双分支多层次特征解码的分子图像识别方法，其特征在于，所述步骤S20构建双分支卷积神经网络模型提取图像的两个不同分辨率混合的特征信息的具体步骤为：

使用双分支卷积神经网络模型提取图像的不同分辨率混合的特征信息；对于高分辨率图像，采用层数较少，复杂度较低的卷积神经网络进行分子图特征提取；对于低分辨率图像，采用层数较多，复杂度较高的卷积神经网络进行分子结构图特征提取。

3.如权利要求1所述的一种双分支多层次特征解码的分子图像识别方法，其特征在于，所述步骤S30融合多层次交叉注意力机制的Transformer解码器模型，以Transformer解码器作为基干网络，在注意力层使用多层次交叉注意力机制代替原来的交叉注意力机制。