CN114121179A - 化学结构式的提取方法及提取装置 - Google Patents
化学结构式的提取方法及提取装置 Download PDFInfo
- Publication number
- CN114121179A CN114121179A CN202210106652.8A CN202210106652A CN114121179A CN 114121179 A CN114121179 A CN 114121179A CN 202210106652 A CN202210106652 A CN 202210106652A CN 114121179 A CN114121179 A CN 114121179A
- Authority
- CN
- China
- Prior art keywords
- image
- structural formula
- chemical structural
- mask matrix
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例提供一种化学结构式的提取方法和提取装置。在该提取方法中,获取包括至少一个化学结构式的图像。然后,识别至少一个化学结构式中的各个化学结构式的轮廓,并获取用于标识至少一个化学结构式的掩膜矩阵。掩膜矩阵的元素与图像的像素相对应。掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域。候选区域中的元素是第一元素,候选区域之外的元素是第二元素。对图像进行二值化处理以获得图像对应的二值图像。二值图像包括黑色像素和白色像素。接着,基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域。之后,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体地,涉及化学结构式的提取方法及提取装置。
背景技术
化学信息在各种出版物(例如,专利、文献、网页、图片等)中以文本和图像的形式传播。很多化学信息不容易由机器可读,而从文档中手动提取化学信息是一个耗时且容易出错的过程。随着化学信息量的不断增加,对化学信息的自动提取需求日益增加。例如,在一些情况下,人们可能期待从文档中自动提取出化学结构式。
化学结构式是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的化学式。化学结构式可以完整地绘出分子内每个原子间的化学键。多数化学结构式的结构比较复杂,符号种类繁多,且在排版时可能与其他附加信息混合排列。
发明内容
本文中描述的实施例提供了一种化学结构式的提取方法、提取装置以及存储有计算机程序的计算机可读存储介质。
根据本公开的第一方面,提供了一种化学结构式的提取方法。在该提取方法中,获取包括至少一个化学结构式的图像。然后,识别至少一个化学结构式中的各个化学结构式的轮廓,并获取用于标识至少一个化学结构式的掩膜矩阵。掩膜矩阵的元素与图像的像素相对应。掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域。候选区域中的元素是第一元素,候选区域之外的元素是第二元素。对图像进行二值化处理以获得图像对应的二值图像。二值图像包括黑色像素和白色像素。接着,基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域。之后,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像。
在本公开的一些实施例中,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像包括:获取图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成目标图像。
在本公开的一些实施例中,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像包括:获取二值图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成目标图像。
在本公开的一些实施例中,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像包括:将二值图像中与掩膜矩阵的第二元素对应的像素设置成白色像素;获取图像中针对至少一个化学结构式的感兴趣区域;以及获取二值图像中与感兴趣区域相对应的像素来生成目标图像。
在本公开的一些实施例中,获取图像中针对至少一个化学结构式的感兴趣区域包括:识别图像中针对每个化学结构式的相应感兴趣区域;基于调整后的掩膜矩阵来调整相应感兴趣区域以使得每个感兴趣区域包括一个化学结构式所占的区域;计算感兴趣区域的数量;响应于感兴趣区域的数量大于1,确定任意两个感兴趣区域之间的重合度;以及响应于任意两个感兴趣区域之间的重合度大于阈值重合度,将两个感兴趣区域合并成一个感兴趣区域。
在本公开的一些实施例中,提取方法还包括:分别获取目标图像中与每一个感兴趣相对应的像素以生成相应的子目标图像。
在本公开的一些实施例中,基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域包括:将掩膜矩阵的候选区域中与二值图像中的白色像素相对应的元素设置成第二元素;确定二值图像中与掩膜矩阵的第一元素相对应的黑色像素;分别以所确定的黑色像素中的每一个黑色像素作为种子像素;以及对种子像素执行以下操作:在二值图像中搜索与该种子像素的距离在阈值范围内的黑色像素;以及响应于在阈值范围内搜索到黑色像素,将二值图像中从该种子像素到所搜索到的黑色像素之间的像素作为扩展像素,将掩膜矩阵中与扩展像素相对应的元素设置为第一元素,以及将所搜索到的黑色像素作为种子像素。
在本公开的一些实施例中,对图像进行二值化处理以获得图像对应的二值图像包括:将图像转换成灰度图像;对灰度图像进行腐蚀处理以去除灰度图像中的噪声;对经腐蚀处理的灰度图像进行二值化处理以获得二值图像。
在本公开的一些实施例中,提取方法还包括:确定图像的分辨率;以及响应于图像的分辨率低于阈值分辨率,对图像执行上采样以生成超分辨率图像。
根据本公开的第二方面,提供了一种化学结构式的提取装置。该提取装置包括至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得提取装置执行根据本公开的第一方面所述的方法的步骤。
根据本公开的第三方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1a和图1b是从文档中提取化学结构式的示例性示意图;
图2是根据本公开的实施例的用于化学结构式的提取方法的示例性流程图;
图3是根据本公开的实施例的基于二值图像来调整掩膜矩阵的过程的示例性流程图;
图4是根据本公开的实施例的基于二值图像来调整掩膜矩阵的结果的示意图;
图5是根据本公开的实施例的基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像的过程的示例性流程图;
图6是根据本公开的实施例的获取图像中针对至少一个化学结构式的感兴趣区域的过程的示例性流程图;以及
图7是根据本公开的实施例的化学结构式的提取装置的示意性框图。
附图中的元素是示意性的,没有按比例绘制。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。此外,诸如“第一”和“第二”的术语仅用于将一个元素(或元素的一部分)与另一个元素(或元素的另一部分)区分开。
如上所述,多数化学结构式的结构比较复杂,符号种类繁多,且在排版时可能与其他附加信息混合排列。因此,从文档中提取出仅包括化学结构式的图片并不容易。有些软件可以提取文档(例如,PDF、Word格式的文件)中的图片文件,但确认图片中包括化学结构式以及从影印版文档中提取化学结构式图片仍然存在困难。
随着深度学习技术发展,实例分割(Instance segmentation)技术已经非常成熟,可以方便的从图片中提取出人们感兴趣的物体。使用大量人工标注的数据集(例如,标注化学结构式),深度学习模型可以识别图片中是否包括化学结构式,以及化学结构式的位置,并确定其感兴趣区域(Region of Interest,简称 ROI)、物体遮罩或掩膜(mask)位置等。然后,通过截取ROI中的像素来提取化学结构式。
然而,即使使用了大量标注样本,通过深度学习方法来提取化学结构式仍有可能存在例如以下问题:
(1)识别结果错误或者不完整(可能是标注样本无法覆盖真实世界带来的偏差)。图1a示出了这种情况的示例性示意图。在图1a中,位于上半部分的一个化学结构式被错误地识别成了两个化学结构式。它们分别由ROI 110和ROI 120限定,其中由阴影部分表示它们分别对应的掩膜111和121。位于下半部分的一个化学结构式被不完整地识别。该化学结构式由ROI 130限定,其中由阴影部分表示其对应的掩膜131。从图1a中可见,该化学结构式仅有一部分被识别出。
(2)由于文档中图例、反应箭头、标点符号、图表混排等原因,所提取的化学结构式中包括杂质。图1b示出了这种情况的示例性示意图。在图1b中,ROI 210中包括了图标“33”,ROI 220中包括了图标“34”,ROI 230中包括了反应箭头的一部分。这些杂质都是不期望出现在所提取的化学结构式中的。
本公开的实施例提供了一种化学结构式的提取方法。图2示出根据本公开的实施例的用于化学结构式的提取方法200的示例性流程图。下面参考图2来描述化学结构式的提取过程。
在图1的框S202处,获取包括至少一个化学结构式的图像。在本公开的一些实施例中,图像可以是直接在计算机设备上绘制的图像,也可以是影印版文件的扫描图像,还可以是从其他格式的文件转换成的图像。例如,针对PDF格式的文件,使用pdf2image工具将PDF格式的文件转换为例如JPG格式的图片文件。在PDF格式的文件包括多页的情况下,可按页转换。图片文件按“文档名_页码.jpg”的文件名来存储。针对Word文件,使用Word转PDF工具(例如pywin32程序)将Word文件转换为PDF文件后,再使用pdf2image工具将PDF格式的文件转换为图片格式的文件(例如JPG、PNG格式)。
在本公开的一些实施例中,还可确定图像的分辨率。如果图像的分辨率低于阈值分辨率,则可对图像执行上采样以生成超分辨率图像。然后,从所生成的超分辨率图像中提取化学结构式。这样,通过提高图像的分辨率,可更准确地提取化学结构式。
下面主要以图1a所示的图像为例来说明从包括两个化学结构式的图像中提取化学结构式的过程。本领域的技术人员应理解,本公开的实施例还可以应用于包括其他数量的化学结构式的图像。
在框S204处,识别至少一个化学结构式中的各个化学结构式的轮廓。如上所述,可通过深度学习模型来确定化学结构式的掩膜。该深度学习模型可例如是Mask R-CNN模型、B-MR-CNN模型、 PointRend模型、Mask Transfiner模型、BPR模型、RefineMask模型、BCNet模型等。在图1a的示例中,可通过深度学习模型获得掩膜111、121和131。掩膜111、121和131的边界就是所识别出的三个化学结构式的轮廓。从图1a中可见,通过深度学习模型确定的轮廓可能并不准确。
在框S206处,获取用于标识至少一个化学结构式的掩膜矩阵。掩膜矩阵的元素与图像的像素相对应。例如,在图像包括1080×1920个像素的情况下,掩膜矩阵可以是一个1080×1920的矩阵。掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域。候选区域中的元素是第一元素,候选区域之外的元素是第二元素。在图1a的示例中,所识别的三个化学结构式的轮廓之内的像素是掩膜111、121和131所覆盖的像素。掩膜111、121和131对应于掩膜矩阵的候选区域。在一个示例中,候选区域中的第一元素的值可以为True(真)或1,候选区域之外的第二元素的值可以为False(假)或0。
此外,在图像是彩色图像的情况下,掩膜矩阵可以是一个三维(红绿蓝)的矩阵,每一维包括1080×1920个元素。在一个示例中,三维的掩膜矩阵可被合并成一维的掩膜矩阵。例如,在每一维的掩膜矩阵的同一位置处的元素都为第一元素的情况下,合并后的掩膜矩阵的该位置处的元素被设置成第一元素。在其他位置处的元素都被设置成第二元素。或者,在每一维的掩膜矩阵的同一位置处的元素都为第二元素的情况下,合并后的掩膜矩阵的该位置处的元素为第二元素。在其他位置处的元素都被设置成第一元素。
在框S208处,对图像进行二值化处理以获得图像对应的二值图像。二值图像包括黑色像素和白色像素。在本公开的一些实施例中,在图像是彩色图像的情况下,可将图像转换成灰度图像。这样,三维图像可被转换成一维图像。
然后,可对灰度图像进行腐蚀处理以去除灰度图像中的噪声。在腐蚀处理的过程中,可将灰度图像中的0值(表示黑色像素)扩充到邻近像素,从而扩大黑色部分,减小白色部分。腐蚀处理可用来提取图像中的骨干信息,去掉毛刺,去掉孤立的像素。在本公开的一些实施例中,可定义结构元素selem,用于设定局部区域的形状和大小。在一个示例中,selem的设置方法可以是,确定图像的高和宽中的最大值,将最大值除以185。如果最大值除以185的商大于或者等于2,将模糊因子blur_factor设置为该商向下取整之后的整数值。如果该商小于2,则将blur_factor设置为2。然后,按blur_factor设置kernel矩阵。假设blur_factor=3,则selem对应的kernel矩阵为:
接着,可对经腐蚀处理的灰度图像进行二值化处理以获得二值图像。在一个示例中,可设置针对二值化的阈值。如果经腐蚀处理的灰度图像中的单个像素的值超过该阈值,则将该像素设置为白色像素。否则,将该像素设置为黑色像素。二值化可确保过滤掉由于低质量扫描而导致的非白色背景或残留物。
在框S210处,基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域。图3示出基于二值图像来调整掩膜矩阵的过程的示例性流程图。
在图3的框S302处,将掩膜矩阵的候选区域中与二值图像中的白色像素相对应的元素设置成第二元素。如上所述,候选区域中的第一元素的值可以为True或1,候选区域之外的第二元素的值为可以False或0。也就是说,如果候选区域中的某个元素与二值图像中的白色像素相对应,则将该元素的值修改成False或0。即,该元素从第一元素被修改成第二元素。通过上述操作,候选区域的范围被缩小以更贴近化学结构式。
在框S304处,确定二值图像中与掩膜矩阵的第一元素相对应的黑色像素。在本公开的一些实施例中,可先找到二值图像中的黑色像素。然后确定掩膜矩阵中与黑色像素相对应的位置上的像素是否是第一元素。如果是,则记录下该位置。二值图像中位于所记录的位置处的黑色像素就是与掩膜矩阵的第一元素相对应的黑色像素。
在框S306处,分别以所确定的黑色像素中的每一个黑色像素作为种子像素。种子像素可作为候选区域的起点,其旨在用于尝试将候选区域向四个方向进行扩展。
在框S308处,在二值图像中搜索与该种子像素的距离在阈值范围内的黑色像素。在本公开的一些实施例中,阈值范围可根据图像的分辨率来确定。分辨率越大,则阈值范围越大。例如,对于分辨率为1080×1920的图像,阈值范围可被设置为距离种子像素不超过5个像素的范围。对于分辨率为480×640的图像,阈值范围可被设置为距离种子像素不超过2个像素的范围。
在框S310处,确定在阈值范围内是否搜索到黑色像素。如果在阈值范围内搜索到黑色像素(在框S310处为“是”),则在框S312处将二值图像中从该种子像素到所搜索到的黑色像素之间的像素作为扩展像素。在一个示例中,假设阈值范围是距离种子像素不超过2个像素的范围。如果种子像素位于[2602, 502]处,并且在[2602, 504]处搜索到黑色像素,则将[2602, 503]和[2602, 504]处的像素作为扩展像素。在这种情况下,即使[2602, 503]处的像素不是黑色像素,其也可作为扩展像素。同样地,如果种子像素位于[2602, 502]处,并且在[2604, 502]处搜索到黑色像素,则将[2603, 502]和[2604, 502]处的像素作为扩展像素。在这种情况下,即使[2603, 502]处的像素不是黑色像素,其也可作为扩展像素。
在框S314处,将掩膜矩阵中与扩展像素相对应的元素设置为第一元素。在[2603,502]和[2604, 502]处的像素是扩展像素的情况下,将掩膜矩阵中[2603, 502]和[2604,502]处的元素的值设置成True或1。
框S312和S314处的操作相当于对图像上黑色的物体进行加粗,扩大候选区域,以使一些轻微断开的物体联通起来。例如元素符号与短线之间有空隙。借助于像素扩展来扩大候选区域,相当于使得元素符号与短线被联通起来。
在框S316处,将所搜索到的黑色像素作为种子像素。然后过程进行到框S308,在二值图像中搜索与该种子像素的距离在阈值范围内的黑色像素。这样经过多次循环,可以将候选区域扩大,将原本未被包括到候选区域中的部分化学结构式也包括到候选区域中。
如果在阈值范围内没有搜索到黑色像素(在框S310处为“否”),则在框S318处确定是否完成整个图像的搜索。如果没有完成整个图像的搜索(在框S318处为“否”),则过程进行到框S306,继续使用种子像素来进行候选区域的扩展。如果完成整个图像的搜索(在框S318处为“是”),则过程进行到框S320,结束对掩膜矩阵的调整。
图4示出了图1a中的图像在经过上述处理之后的视图。阴影部分411和421对应于调整后的掩膜矩阵的候选区域。
回到图2,在框S212处,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像。在本公开的一些实施例中,可获取图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成提取出至少一个化学结构式的目标图像。例如,可确定所获取的像素的位置,在目标图像的相应位置处设置相应的像素值,从而提取出该至少一个化学结构式。在图4的示例中,可获取图像中与阴影部分411和421相对应的像素来生成目标图像。在目标图像中,提取出了上下两个完整的化学结构式。在图像是彩色图像的情况下,目标图像也可以是彩色图像。
在本公开的另一些实施例中,可获取二值图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成目标图像。由于二值图像是在框S202处获取的图像的二值化的表现形式,因此,也可以从二值图像来生成目标图像。所生成的目标图像只具有黑色像素和白色像素。
在本公开的又一些实施例中,还可通过图5所示的过程来生成提取出至少一个化学结构式的目标图像。在图5的框S502处,可将二值图像中与掩膜矩阵的第二元素对应的像素设置成白色像素。这样可以去除掉二值图像中的杂质。在图1b的示例中,图标“33”、图标“34”、图标“35”、符号“+”、反应箭头以及反应箭头上的字都可以被去掉。
在框S504处,可获取图像中针对至少一个化学结构式的感兴趣区域。图6示出了根据本公开的实施例的获取图像中针对至少一个化学结构式的感兴趣区域的过程的示例性流程图。
在框S602处,识别图像中针对每个化学结构式的相应感兴趣区域。该图像是在框S202处获取的图像。可通过深度学习模型来识别图像中针对每个化学结构式的感兴趣区域。该深度学习模型可例如是Mask R-CNN模型、B-MR-CNN模型、 PointRend模型、MaskTransfiner模型、BPR模型、RefineMask模型、BCNet模型等。在本公开的一些实施例中,框S602处的操作可与图2的框S204处的操作或框S206处的操作并行地执行。在图1a的示例中,所识别的感兴趣区域可以是ROI 110、ROI 120和ROI 130。
在框S604处,基于调整后的掩膜矩阵来调整相应感兴趣区域以使得每个感兴趣区域包括一个化学结构式所占的区域。在本公开的一些实施例中,在框S210处调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域之后,可调整相应感兴趣区域。在图1a的示例中,ROI 110可被调整成如图4所示的ROI 410',ROI 120可被调整成如图4所示的ROI 410,ROI 130可被调整成如图4所示的ROI 420。
在框S606处,计算感兴趣区域的数量。在图4的示例中,感兴趣区域的数量为3。
在框S608处,确定感兴趣区域的数量是否大于1。如果感兴趣区域的数量大于1(在框S608处为“是”),则在框S610处确定任意两个感兴趣区域之间的重合度。在图4的示例中,可确定ROI 410'与ROI 410之间的重合度。
在框S612处确定这两个感兴趣区域之间的重合度是否大于阈值重合度。阈值重合度可例如被设置为80%。本领域的技术人员应了解,阈值重合度的值还可以被设置成其它合理的值。
如果这两个感兴趣区域之间的重合度大于阈值重合度(在框S612处为“是”),则在框S614处将这两个感兴趣区域合并成一个感兴趣区域。假设图4中的ROI 410'与ROI 410之间的重合度为95%,则其大于阈值重合度(80%)。因此,在图4的示例中,可将ROI 410'与ROI410合并成一个感兴趣区域。合并后的感兴趣区域可以是ROI 410'与ROI 410中的任一个,或者是包括ROI 410'与ROI 410二者的区域。然后,过程进行到框S606,重新计算感兴趣区域的数量。
如果这两个感兴趣区域之间的重合度不大于阈值重合度(在框S612处为“否”),则过程进行到框S610,继续确定任意两个感兴趣区域之间的重合度。这里不重复确定已确定过的两个感兴趣区域之间的重合度。如果存在已合并的感兴趣区域,则可确定已合并的感兴趣区域与其它感兴趣区域的重合度。
如果任意两个感兴趣区域之间的重合度都已经被确定过,尽管在图6中未示出,可结束获取图像中针对至少一个化学结构式的感兴趣区域。
回到图5,在框S506处,可获取二值图像中与感兴趣区域相对应的像素来生成目标图像。在图4的示例中,可获取二值图像中与ROI 410(或ROI 410',或ROI 410与ROI 410'的组合框)和ROI 420相对应的像素来生成目标图像。
在本公开的一些实施例中,可分别获取目标图像中与每一个感兴趣区域相对应的像素以生成相应的子目标图像。在图4的示例中,可获取二值图像中与ROI 410(或ROI410',或ROI 410与ROI 410'的组合框)相对应的像素来生成一个子目标图像。可获取二值图像中与ROI 420相对应的像素来生成另一个子目标图像。借助于感兴趣区域,可灵活地提取图像中的一个或多个化学结构式。
图7示出根据本发明的实施例的化学结构式的提取装置700的示意性框图。如图7所示,该装置700可包括处理器710和存储有计算机程序的存储器720。当计算机程序由处理器710执行时,使得装置700可执行如图2所示的方法200的步骤。在一个示例中,装置700可以是计算机设备或云计算节点。装置700可获取包括至少一个化学结构式的图像。然后,装置700可识别至少一个化学结构式中的各个化学结构式的轮廓,并获取用于标识至少一个化学结构式的掩膜矩阵。掩膜矩阵的元素与图像的像素相对应。掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域。候选区域中的元素是第一元素,候选区域之外的元素是第二元素。装置700可对图像进行二值化处理以获得图像对应的二值图像。二值图像包括黑色像素和白色像素。接着,装置700可基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域。之后,装置700可基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像。
在本公开的一些实施例中,装置700可获取图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成目标图像。
在本公开的一些实施例中,装置700可获取二值图像中与掩膜矩阵的调整后的候选区域相对应的像素来生成目标图像。
在本公开的一些实施例中,装置700可将二值图像中与掩膜矩阵的第二元素对应的像素设置成白色像素;获取图像中针对至少一个化学结构式的感兴趣区域;以及获取二值图像中与感兴趣区域相对应的像素来生成目标图像。
在本公开的一些实施例中,装置700可识别图像中针对每个化学结构式的相应感兴趣区域;基于调整后的掩膜矩阵来调整相应感兴趣区域以使得每个感兴趣区域包括一个化学结构式所占的区域;计算感兴趣区域的数量;响应于感兴趣区域的数量大于1,确定任意两个感兴趣区域之间的重合度;以及响应于任意两个感兴趣区域之间的重合度大于阈值重合度,将两个感兴趣区域合并成一个感兴趣区域。
在本公开的一些实施例中,装置700可分别获取目标图像中与每一个感兴趣相对应的像素以生成相应的子目标图像。
在本公开的一些实施例中,装置700可将掩膜矩阵的候选区域中与二值图像中的白色像素相对应的元素设置成第二元素;确定二值图像中与掩膜矩阵的第一元素相对应的黑色像素;分别以所确定的黑色像素中的每一个黑色像素作为种子像素;以及对种子像素执行以下操作:在二值图像中搜索与该种子像素的距离在阈值范围内的黑色像素;以及响应于在阈值范围内搜索到黑色像素,将二值图像中从该种子像素到所搜索到的黑色像素之间的像素作为扩展像素,将掩膜矩阵中与扩展像素相对应的元素设置为第一元素,以及将所搜索到的黑色像素作为种子像素。
在本公开的一些实施例中,装置700可将图像转换成灰度图像;对灰度图像进行腐蚀处理以去除灰度图像中的噪声;对经腐蚀处理的灰度图像进行二值化处理以获得二值图像。
在本公开的一些实施例中,装置700可确定图像的分辨率;以及响应于图像的分辨率低于阈值分辨率,对图像执行上采样以生成超分辨率图像。
在本公开的实施例中,处理器710可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器720可以是使用数据存储技术实现的任何类型的存储器,包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。
此外,在本公开的实施例中,装置700也可包括输入设备730,例如相机、键盘、鼠标等,用于获取包括至少一个化学结构式的图像。另外,装置700还可包括输出设备740,例如显示器等,用于输出目标图像。
在本公开的其它实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时能够实现如图2至图3和图5至图6所示的方法的步骤。
综上所述,根据本公开的实施例的化学结构式的提取方法能够更准确地自动提取文件中的化学结构式,避免所提取的化学结构式错误、不完整或者包括杂质。
附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
除非上下文中另外明确地指出,否则在本文和所附权利要求中所使用的词语的单数形式包括复数,反之亦然。因而,当提及单数时,通常包括相应术语的复数。相似地,措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地,术语“包括”和“或”应当解释为包括在内的,除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处,特别是当其位于一组术语之后时,所述“示例”仅仅是示例性的和阐述性的,且不应当被认为是独占性的或广泛性的。
适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解,本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解,本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。
以上对本公开的若干实施例进行了详细描述,但显然,本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。
Claims (10)
1.一种化学结构式的提取方法,包括:
获取包括至少一个化学结构式的图像;
识别所述至少一个化学结构式中的各个化学结构式的轮廓;
获取用于标识所述至少一个化学结构式的掩膜矩阵,所述掩膜矩阵的元素与所述图像的像素相对应,所述掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域,所述候选区域中的元素是第一元素,所述候选区域之外的元素是第二元素;
对所述图像进行二值化处理以获得所述图像对应的二值图像,所述二值图像包括黑色像素和白色像素;
基于所述二值图像来调整所述掩膜矩阵以使得调整后的候选区域对应于所述图像中所述至少一个化学结构式所占的区域;以及
基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像。
2.根据权利要求1所述的提取方法,其中,基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像包括:
获取所述图像中与所述掩膜矩阵的所述调整后的候选区域相对应的像素来生成所述目标图像;或者
获取所述二值图像中与所述掩膜矩阵的所述调整后的候选区域相对应的像素来生成所述目标图像。
3.根据权利要求1所述的提取方法,其中,基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像包括:
将所述二值图像中与所述掩膜矩阵的所述第二元素对应的像素设置成所述白色像素;
获取所述图像中针对所述至少一个化学结构式的感兴趣区域;以及
获取所述二值图像中与所述感兴趣区域相对应的像素来生成所述目标图像。
4.根据权利要求3所述的提取方法,其中,获取所述图像中针对所述至少一个化学结构式的感兴趣区域包括:
识别所述图像中针对每个化学结构式的相应感兴趣区域;
基于所述调整后的掩膜矩阵来调整相应感兴趣区域以使得每个感兴趣区域包括一个化学结构式所占的区域;
计算所述感兴趣区域的数量;
响应于所述感兴趣区域的数量大于1,确定任意两个感兴趣区域之间的重合度;以及
响应于任意两个感兴趣区域之间的重合度大于阈值重合度,将所述两个感兴趣区域合并成一个感兴趣区域。
5.根据权利要求4所述的提取方法,还包括:
分别获取所述目标图像中与每一个感兴趣相对应的像素以生成相应的子目标图像。
6.根据权利要求1所述的提取方法,其中,基于所述二值图像来调整所述掩膜矩阵以使得调整后的候选区域对应于所述图像中所述至少一个化学结构式所占的区域包括:
将所述掩膜矩阵的所述候选区域中与所述二值图像中的所述白色像素相对应的元素设置成所述第二元素;
确定所述二值图像中与所述掩膜矩阵的所述第一元素相对应的黑色像素;
分别以所确定的黑色像素中的每一个黑色像素作为种子像素;以及
对所述种子像素执行以下操作:
在所述二值图像中搜索与该种子像素的距离在阈值范围内的黑色像素;以及
响应于在所述阈值范围内搜索到黑色像素,将所述二值图像中从该种子像素到所搜索到的黑色像素之间的像素作为扩展像素,将所述掩膜矩阵中与所述扩展像素相对应的元素设置为所述第一元素,以及将所搜索到的黑色像素作为所述种子像素。
7.根据权利要求1所述的提取方法,其中,对所述图像进行二值化处理以获得所述图像对应的二值图像包括:
将所述图像转换成灰度图像;
对所述灰度图像进行腐蚀处理以去除所述灰度图像中的噪声;
对经腐蚀处理的灰度图像进行二值化处理以获得所述二值图像。
8.根据权利要求1所述的提取方法,还包括:
确定所述图像的分辨率;以及
响应于所述图像的分辨率低于阈值分辨率,对所述图像执行上采样以生成超分辨率图像。
9.一种化学结构式的提取装置,包括:
至少一个处理器;以及
存储有计算机程序的至少一个存储器;
其中,当所述计算机程序由所述至少一个处理器执行时,使得所述提取装置执行根据权利要求1至8中任一项所述的提取方法的步骤。
10.一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在由处理器执行时实现根据权利要求1至8中任一项所述的提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106652.8A CN114121179B (zh) | 2022-01-28 | 2022-01-28 | 化学结构式的提取方法及提取装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106652.8A CN114121179B (zh) | 2022-01-28 | 2022-01-28 | 化学结构式的提取方法及提取装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114121179A true CN114121179A (zh) | 2022-03-01 |
CN114121179B CN114121179B (zh) | 2022-12-13 |
Family
ID=80362106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210106652.8A Active CN114121179B (zh) | 2022-01-28 | 2022-01-28 | 化学结构式的提取方法及提取装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114121179B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173536A1 (zh) * | 2022-03-15 | 2023-09-21 | 平安科技(深圳)有限公司 | 化学式识别方法、装置、计算机设备及存储介质 |
CN117392691A (zh) * | 2023-11-01 | 2024-01-12 | 杭州德睿智药科技有限公司 | 一种化学结构式提取方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700084A (zh) * | 2012-09-28 | 2014-04-02 | 淮海工学院 | 基于区域尺寸和弯曲度的化学分子结构图分割方法 |
US20140301608A1 (en) * | 2011-08-26 | 2014-10-09 | Council Of Scientific & Industrial Research | Chemical structure recognition tool |
CN112488917A (zh) * | 2019-09-12 | 2021-03-12 | 北京地平线信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN113392819A (zh) * | 2021-08-17 | 2021-09-14 | 北京航空航天大学 | 一种批量化学术图像自动分割标注装置和方法 |
CN113589644A (zh) * | 2021-07-15 | 2021-11-02 | 中国科学院上海光学精密机械研究所 | 基于亚分辨率辅助图形种子插入的曲线型逆向光刻方法 |
-
2022
- 2022-01-28 CN CN202210106652.8A patent/CN114121179B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140301608A1 (en) * | 2011-08-26 | 2014-10-09 | Council Of Scientific & Industrial Research | Chemical structure recognition tool |
CN103700084A (zh) * | 2012-09-28 | 2014-04-02 | 淮海工学院 | 基于区域尺寸和弯曲度的化学分子结构图分割方法 |
CN112488917A (zh) * | 2019-09-12 | 2021-03-12 | 北京地平线信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN113589644A (zh) * | 2021-07-15 | 2021-11-02 | 中国科学院上海光学精密机械研究所 | 基于亚分辨率辅助图形种子插入的曲线型逆向光刻方法 |
CN113392819A (zh) * | 2021-08-17 | 2021-09-14 | 北京航空航天大学 | 一种批量化学术图像自动分割标注装置和方法 |
Non-Patent Citations (3)
Title |
---|
KOHULAN RAJAN 等: "DECIMER-Segmentation: Automated extraction of chemical structure depictions from scientific literature", 《JOURNAL OF CHEMINFORMATICS》 * |
KOHULAN RAJAN: "DECIMER-Image-Segmentation", 《HTTPS://GITHUB.COM/KOHULAN/DECIMER-IMAGE-SEGMENTATION》 * |
管燕 等: "化学分子结构图分割算法", 《山东大学学报(工学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173536A1 (zh) * | 2022-03-15 | 2023-09-21 | 平安科技(深圳)有限公司 | 化学式识别方法、装置、计算机设备及存储介质 |
CN117392691A (zh) * | 2023-11-01 | 2024-01-12 | 杭州德睿智药科技有限公司 | 一种化学结构式提取方法、系统、设备及存储介质 |
CN117392691B (zh) * | 2023-11-01 | 2024-04-19 | 杭州德睿智药科技有限公司 | 一种化学结构式提取方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114121179B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN114121179B (zh) | 化学结构式的提取方法及提取装置 | |
KR101185712B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 프로그램을 기억하는 컴퓨터 판독 기억 매체 | |
KR101617681B1 (ko) | 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 | |
JP4646797B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
US20020191847A1 (en) | Portable text capturing method and device therefor | |
JP2007183742A (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
US9892114B2 (en) | Methods and systems for efficient automated symbol recognition | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN112818983B (zh) | 一种利用图片相识度判断字符倒置的方法 | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
CN115410191B (zh) | 文本图像识别方法、装置、设备和存储介质 | |
CN114064961A (zh) | 一种扫描件存档方法及装置 | |
JP7367540B2 (ja) | 画像評価装置および画像評価プログラム | |
CN111428067B (zh) | 公文图片获取方法、装置及电子设备 | |
JP4471202B2 (ja) | 画像処理装置、画像処理方法及び同方法に用いるプログラム | |
Khan et al. | An efficient, cost effective and user friendly approach for MCQs treatment | |
JP2010092426A (ja) | 画像処理装置、画像処理方法およびプログラム | |
Rusiñol et al. | Automatic index generation of digitized map series by coordinate extraction and interpretation | |
JPH0535914A (ja) | 画像傾き検出方法 | |
CN117671708A (zh) | 一种电力设备检测报告扫描件的表格提取方法及装置 | |
CN113989314A (zh) | 一种基于霍夫变换直线检测去除页眉页脚的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |