CN117392691A

CN117392691A - 一种化学结构式提取方法、系统、设备及存储介质

Info

Publication number: CN117392691A
Application number: CN202311444844.0A
Authority: CN
Inventors: 唐博文; 牛张明; 张龙; 黄俊杰; 王晓枫; 马超; 江荧辉; 肖祥路; 晋旭锐
Original assignee: Hangzhou Derizhi Pharmaceutical Technology Co ltd
Current assignee: Hangzhou Derizhi Pharmaceutical Technology Co ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-12
Anticipated expiration: 2043-11-01
Also published as: CN117392691B

Abstract

本发明涉及一种化学结构式提取方法、系统、设备及存储介质，其中方法包括以下步骤：获取目标文档图像；使用基于深度学习的分割模型对目标文档图像进行分割；分割步骤具体为：生成用于标识各化学结构式的二进制掩码集；对目标文档图像进行二值化处理，通过分割模型预测图像中的目标化学结构式，将目标化学结构式对应的像素置为黑色，背景对应的像素置为白色，形成二值化图像；基于二值化图像更新二进制掩码集；完成分割后，基于更新后的二进制掩码集提取各个目标化学结构式的图像。

Description

一种化学结构式提取方法、系统、设备及存储介质

技术领域

本发明涉及一种化学结构式提取方法、系统、设备及存储介质，属于化学结构提取技术领域。

背景技术

对于化学领域技术人员的工作来说，需要阅读大量化学类书籍和文献，其中包含的很多化合物结构信息，通常会以图片的形式表示。当看到感兴趣的化合物时，往往希望能将这些化学结构提取出来，便于使用和编辑。

现有技术如公开号为“CN115631507A”的发明专利公开了一种化学结构识别方法及识别系统，方法包括：基于历史文献资料获取包含化学结构的图像的原始数据集，并且根据原始数据集生成图像分割数据集和图像识别数据集；针对需要进行化学结构识别的文献资料，把PDF格式的文献资料都转换成若干个待识别图像，在若干个待识别图像中识别化学结构，提取化学结构图像；根据图像识别数据集，分别生成图像识别学习数据集和图像识别测试数据集，通过图像识别模型识别出化学结构图像中的化学原子，以及超文本；基于化学原子和超文本，推理构建化学分子图，解析输出符合SMILES或者InChI规范的化学结构式，能从PDF格式的文档中提取出机器可读格式的化学结构式。除了该专利公开的方案之外，现有技术还有如molMiner,Decimer等已应用于市场的化学结构式提取工具。

上述现有技术存在的问题是：1)并不能保证将每一个化学结构式剥离出来；2)可能2个或多个结构式同时出现在一个分割图像中，也不能避免非化学结构的组件或元素出现在分割图像中；3)需要定义不同尺度大小的anchor对图像进行扫描计算出候选区或掩码膜，这种计算通常费时，而且得到候选区域或掩码膜通常包含很多非化学结构的组件，并且候选区域通常不会和单个化学结构式完美契合，经常一个掩码膜同时包含不同化学结构式的不同部分，尤其是在化学结构式排列比较密集的情况下。这种计算候选区域来识别化学结构不够直接，即只有化学结构类的像素和非化学结构类的像素，不存在类似中间体的候选区域；4)该方法只局限于2D化学结构的识别，不能能识别3D的化学结构；5)Decimer使用掩码膜然后求出中心位置坐标在向上下左右4个方向跨越阈值式扩增，效率比较低；6)Decimer类后处理方法需要手动定义跨越阈值，如果值太大会导致相隔较远的不同化学结构式合并出现在同一个分割图像，如果过小，会导致扩增减弱或没扩增导致识别分割的化学结构不完整。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种化学结构式提取方法、系统、设备及存储介质。

本发明的技术方案如下：

一方面，本发明提出一种化学结构式提取方法，包括以下步骤：

获取目标文档图像；

使用基于深度学习的分割模型对目标文档图像进行分割；

分割步骤具体为：

通过分割模型预测图像中的目标化学结构式，生成用于标识各化学结构式的二进制掩码集；

对目标文档图像进行二值化处理，将目标化学结构式对应的像素置为黑色，背景对应的像素置为白色，形成二值化图像；

基于二值化图像更新二进制掩码集；

完成分割后，基于更新后的二进制掩码集提取各个目标化学结构式的图像。

作为优选实施方式，所述二进制掩码集中的每一元素的位置与目标文档图像中每一像素的位置相对应；所述二进制掩码集中包含多个掩码子集，每一掩码子集对应一个目标化学结构式的像素区域。

作为优选实施方式，所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为：

获取目标文档图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像；

或者获取二值图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像。

作为优选实施方式，所述基于二值化图像更新二进制掩码集的步骤包括：

识别图像中针对每个化学结构式的至少一个像素位置并用白色掩码标记；

将白色掩码的位置对应的二值图像中的黑色像素设为起点，进行邻居搜索，并将新遇到的黑色邻居像素对应的位置收集起来作为新的起点并迭代下一轮邻居搜索，直至没有新的邻居产生，此时在二进制掩码集中，将收集到的所有起点对应的位置更新成白色掩码，若掩码页所含任一白色掩码的位置不在起点集合中，则将该位置的白色掩码纠正更新为背景黑色掩码。

作为优选实施方式，在更新二进制掩码集之后，还包括步骤：

基于更新后的二进制掩码集，使用连接组件标记算法对二进制掩码集中不相连的白色掩码筛选为不同的组件或掩码子集；其中组件或掩码子集的高度和宽度必须同时大于等于预设的阈值，该阈值根据掩码页的尺寸调整，筛选后的每一个组件或掩码子集对应输入图像中一个完整的目标化学结构式；

当生成的目标化学结构式的图像数量大于1时，基于原输入图像所属文档中的页码排序和目标化学结构式的图像在图像中的位置为各目标化学结构式的图像进行命名。

作为优选实施方式，所述对目标文档图像进行二值化处理的步骤具体为：

将目标文档图像进行复制并将复制得到的副本转换为灰度图像；

对灰度图像进行缩放处理，使其与更新后的二进制掩码集的张量处于同一尺度大小；

对缩放后的灰度图像进行腐蚀处理去除图像中的噪声；

对经腐蚀处理的灰度图像进行二值化处理以获得二值化图像；

对二值化后图像进行膨胀处理使得目标化学结构式中的各元素符号和化学键相连。

作为优选实施方式，还包括以下步骤：

获取提取到的各个目标化学结构式的图像的分辨率；

当各个目标化学结构式的图像的分辨率低于预设的分辨率阈值时，对各个目标化学结构式的图像进行上采样处理生成超分辨率图像。

另一方面，本发明还提出一种化学结构式提取系统，包括：

原始图像获取模块，用于获取目标文档图像；

图像分割模块，使用基于深度学习的分割模型对目标文档图像进行分割；

图像分割模块具体包括：

掩码集生成单元，通过分割模型预测图像中的目标化学结构式，生成用于标识各化学结构式的二进制掩码集；

二值化处理单元，用于对目标文档图像进行二值化处理，将目标化学结构式对应的像素置为黑色，背景对应的像素置为白色，形成二值化图像；

掩码更新单元，基于二值化图像更新二进制掩码集；

化学结构式图像提取模块，基于更新后的二进制掩码集提取各个目标化学结构式的图像。

再一方面，本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例所述的化学结构式提取方法。

再一方面，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的化学结构式提取方法。

本发明具有如下有益效果：

本发明能够对排版密集的化学结构进行分割；对于较大的结构或者模糊的结构不会出现将结构拆分或切碎的情况；生成的分割图像能保留原始图像一致的分辨率和色彩信息。

附图说明

图1为本发明实施例一的方法流程示意图；

图2为本发明实施例中邻居搜索的邻居定义示例图；

图3为本发明实施例中对二值化后图像进行膨胀处理的示例图；

图4为本发明实施例中对基础化学结构式进行识别的示例图；

图5为本发明实施例中对3D化学结构式进行识别的示例图；

图6为本发明实施例中对特殊绘制的化学结构式进行识别的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一：

参见图1，本实施例提出一种化学结构式提取方法，包括以下步骤：

S100、获取待识别的目标文档图像。

S200、使用如Vision-Transformers等基于深度学习的分割模型对目标文档图像进行分割。

本实施例中，S200具体包括：

S201、获取/生成用于标识各化学结构式的二进制掩码集。

S202、对目标文档图像进行二值化处理，通过分割模型预测图像中的目标化学结构式，将目标化学结构式对应的像素置为黑色，背景对应的像素置为白色，形成二值化图像。

S203、基于二值化图像更新二进制掩码集。

S300、获取包括各个化学结构式的图像。

本实施例中，S300具体包括：

S301、完成分割后，基于更新后的二进制掩码集提取各个目标化学结构式的图像。

S302、基于图像页码与二进制掩码集中各个掩码子集的顺序生成各目标化学结构式的图像的图像序号，以图像序号为文件名并保存为png、jpg、svg等常见计算机存储图片格式。

作为本实施例的优选实施方式，在步骤S201中，获取/生成的二进制掩码集中的每一元素的位置与目标文档图像中每一像素的位置相对应；所述二进制掩码集中包含多个掩码子集，每一掩码子集对应一个目标化学结构式的像素区域。

作为本实施例的优选实施方式，在步骤S301中，提取各个目标化学结构式的图像的方法为：

S3011、获取目标文档图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像；

S3012、或者获取二值图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像。

作为本实施例的优选实施方式，在步骤S203中，所述基于二值化图像更新二进制掩码集的步骤包括：

S2031、识别图像中针对每个化学结构式的至少一个像素位置并用白色掩码标记；

S2032、将白色掩码的位置对应的二值图像中的黑色像素设为起点，进行邻居搜索，并将新遇到的黑色邻居像素对应的位置收集起来作为新的起点并迭代下一轮邻居搜索，直至没有新的邻居产生，此时在二进制掩码集中，将收集到的所有起点对应的位置更新成白色掩码，若掩码页所含任一白色掩码的位置不在起点集合中，则将该位置的白色掩码纠正更新为背景黑色掩码。

基于更新后的二进制掩码集中白色掩码的位置即为各个化学结构式的像素位置，基于获取的化学结构式的像素位置信息可快速生成各个化学结构式的目标图像,或直接在原输入图像中分割出化学结构式的图像，这种分割方式得到的目标图像与原输入图像中的分辨率以及色彩等参数一致。

其中，设计的邻居搜索算法定义如下：

参见图2，如果起点为5号像素，则邻居定义为1～9号像素(5号除外)如图2中A所示，也可以根据需求，限制邻居定义为上下左右的位置，即2-8-4-6像素，也可以根据需要扩大邻居外围如图2中B所示。

作为本实施例的优选实施方式，步骤S203在更新二进制掩码集之后，还包括步骤S204：

基于更新后的二进制掩码集，使用连接组件标记算法(connected componentlabeling algorithm)对二进制掩码集中不相连的白色掩码筛选为不同的组件或掩码子集。

其中组件或掩码子集的高度和宽度必须同时大于等于预设的阈值，该阈值根据掩码页的尺寸调整，例如当掩码页尺寸为512X512时，阈值设置为(20，20)，筛选后的每一个组件或掩码子集对应输入图像中一个完整的目标化学结构式；

当生成的目标化学结构式的图像数量大于1时，各个目标化学结构式的图像的自动命名规则基于原输入图像所属文档中的页码排序和包含该分割图像最小矩形左上顶点对应的像素位置坐标(y,x)，像素位置排序为y值由上往下递增，x值由左往右递增，同一页面中分割的化学结构式的图像命名排序先根据y值决定，同y时则根据x值决定，值越小排序越靠前,根据分割图像的有序命名可以方便后期溯源；

分割图像最小矩形的4个顶点坐标(y,x)，由白色掩码子集的位置或坐标根据最大和最小值求得，即左上顶点(y_min,x_min),右上(y_min,x_max),左下顶点(y_min,x_man),右下(y_man,x_max)；

白色掩码子集以及对应的最小矩形会根据前述缩放因子(H1/H2,W1/W2)，逆向缩放回原始输入图像的大小，并在原始大小尺寸下完成化学结构式的分割，注意这里的分割并非简单根据缩放后的矩形直接在原图上裁剪完成，否则原始图像中非化学结构的组件如结构代号，化学反应的线条或箭头等；

根据缩放后的掩码子集数组A生成同大小尺寸元素全为0的生成数组B，同时根据缩放后的矩形在原始输入图像中截取对应的图像数组C，此时A,B,C三者尺寸一致，参照掩码子集中的白色掩码的位置将数组B中对应位置的值设置成图像数组C同位置的值，迭代所有的掩码子集并得到对应生成数组，将生成数组使用Pillow python包转成分割图像，这些生成的分割图像与原始图像拥有相同色彩和分辨率，同时避免了非化学结构等元素或组件参入。

原始输入图像可以是彩色图像，灰度图像，二值化图像。

在二进制掩码集更新后，基于更新后的掩码集根据缩放因子进行逆缩放，使二进制掩码集大小与原始输入图像一致并对齐，从原始输入图像中提取白色掩码所覆盖的像素区域获得各目标化学结构式的图像。基于上述实施方式，本实施例生成的各目标化学结构式的图像能保留与原始输入图像一致的分辨率和色彩信息。

作为本实施例的优选实施方式，在步骤S202中，所述对目标文档图像进行二值化处理的步骤具体为：

如图3所示，(注：图3中黑色背景图，是二值化图像与原图叠合，仅是为了展示像素变化的过程，实际中白色像素中没有结构)将目标文档图像进行复制并将复制得到的副本转换为灰度图像；

对灰度图像进行缩放处理，使其与更新后的二进制掩码集的张量处于同一尺度大小，即根据深度学习模型的最终输出来调整；如二进制掩码集的张量维度大小为B_C_H1_W1(Batch，channel,Heigt,Width),缩放后为B_C_H2_W2,该灰度图像缩放后大小为H2_W2,则缩放因子为(H1/H2,W1/W2)；

对缩放后的灰度图像进行腐蚀处理以去除灰度图像中的噪声；

对二值化后图像进行膨胀处理使得目标化学结构式中的各元素符号和化学键相连，即各个元素或基团的文字符号和化学键的两端间隙中的白色像素位置以黑色像素填充。基于上述实施方式，本实施例提供的方法对于较大的化学结构式或者模糊的化学结构式不会出现将结构拆分或切碎的情况。

作为本实施例的优选实施方式，本实施例的方法还包括以下步骤：

获取提取到的各个目标化学结构式的图像的分辨率；

本实施例基于深度学习的分割模型采用Vision-Transformers模型，Vision-Transformers模型能识别2D也能识别3D的化学结构，并且相比与Decimer使用掩码膜然后求出中心位置坐标在向上下左右4个方向跨越阈值式扩增，本实施例的方法直接基于预测的像素来进行邻居搜索扩增，效率提高至少一倍。并且，本实施例的后处理方法不需跨越阈值，基于像素级别的邻居搜索可以保证每一个化学结构识别分割都是完整的。

为了验证本实施例提供的方法的有效性和优越性，以下提供部分具体案例：

如图4所示，图4中左侧为待识别目标文档图像的示例原图，该原图来自于MolMiner发表论文中的案例，文中表示模型在此页的分割能力上有待提高，无法分离排版过近的结构。图4中右侧图片为MolMiner工具的分割结果，中间为使用本实施例方法。如之前所描述本实施例方法采用的是识别目标掩码子集，然后根据其像素顶点坐标形成的最小矩形进行逆向缩放回原始输入图像的大小。所以如图4中箭头所示，即使在原图中分割选框有重叠也不会互相干扰，这个示例表明本实施例的方法的分割效果相较于MolMiner而言更强,。

如图5所示，图5中左侧为包含3D化学结构式的待识别目标文档图像的示例原图，右侧为使用本实施例方法对这个示例原图的分割效果输出在方框中。可以看出，本实施例提供的方法对3D的化学结构式也具有一定的识别度。

如图6所示，图6中左侧为待识别目标文档图像的示例原图，右侧为使用现有的是开源模块Decimer模块的分割识别结果，中间为使用本实施例方法对这个示例原图的分割识别效果，右图Decimer对彩色结构识别成功率较低，有近半结构未识别(未用方框标注的结构)。因此，对于结构较小与结构本身带有彩色元素或者结构背景具有彩色元素的化学结构的识别，本实施例提供的方法识别能力更强，并且输出颜色与原图一致，这种彩色识别能力有利于识别期刊文章中的化学结构。

实施例二：

本实施例提出一种化学结构式提取系统，包括：

原始图像获取模块，用于获取目标文档图像；该模块用于实现实施例一中步骤S100的功能，在此不再赘述；

图像分割模块，使用基于深度学习的分割模型对目标文档图像进行分割；该模块用于实现实施例一中步骤S200的功能，在此不再赘述；

图像分割模块具体包括：

掩码集生成单元，通过分割模型预测图像中的目标化学结构式，用于生成用于标识各化学结构式的二进制掩码集；该单元用于实现实施例一中步骤S201的功能，在此不再赘述；

二值化处理单元，用于对目标文档图像进行二值化处理，将目标化学结构式对应的像素置为黑色，背景对应的像素置为白色，形成二值化图像；该单元用于实现实施例一中步骤S202的功能，在此不再赘述；

掩码更新单元，基于二值化图像更新二进制掩码集；该单元用于实现实施例一中步骤S203的功能，在此不再赘述；

化学结构式图像提取模块，基于更新后的二进制掩码集提取各个目标化学结构式的图像；该模块用于实现实施例一中步骤S300的功能，在此不再赘述。

实施例三：

本实施例提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例所述的化学结构式提取方法。

实施例四：

本实施例提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的化学结构式提取方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种化学结构式提取方法，其特征在于，包括以下步骤：

获取目标文档图像；

使用基于深度学习的分割模型对目标文档图像进行分割；

分割步骤具体为：

基于二值化图像更新二进制掩码集；

2.根据权利要求1所述的一种化学结构式提取方法，其特征在于：

所述二进制掩码集中的每一元素的位置与目标文档图像中每一像素的位置相对应；所述二进制掩码集中包含多个掩码子集，每一掩码子集对应一个目标化学结构式的像素区域。

3.根据权利要求1所述的一种化学结构式提取方法，其特征在于，所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为：

4.根据权利要求1所述的一种化学结构式提取方法，其特征在于，所述基于二值化图像更新二进制掩码集的步骤包括：

5.根据权利要求4所述的一种化学结构式提取方法，其特征在于，在更新二进制掩码集之后，还包括步骤：

6.根据权利要求1所述的一种化学结构式提取方法，其特征在于，所述对目标文档图像进行二值化处理的步骤具体为：

对缩放后的灰度图像进行腐蚀处理去除图像中的噪声；

7.根据权利要求1所述的一种化学结构式提取方法，其特征在于，还包括以下步骤：

获取提取到的各个目标化学结构式的图像的分辨率；

8.一种化学结构式提取系统，其特征在于，包括：

原始图像获取模块，用于获取目标文档图像；

图像分割模块具体包括：

掩码更新单元，基于二值化图像更新二进制掩码集；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的化学结构式提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一项所述的化学结构式提取方法。