CN114241505A - 化学结构图像的提取方法、装置、存储介质及电子设备 - Google Patents

化学结构图像的提取方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114241505A
CN114241505A CN202111563835.4A CN202111563835A CN114241505A CN 114241505 A CN114241505 A CN 114241505A CN 202111563835 A CN202111563835 A CN 202111563835A CN 114241505 A CN114241505 A CN 114241505A
Authority
CN
China
Prior art keywords
original image
chemical structure
pixel
chemical
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111563835.4A
Other languages
English (en)
Other versions
CN114241505B (zh
Inventor
刘小红
肖红忠
李召军
钮振江
费超远
刘刚娣
郑明月
陆晓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Almai Biotechnology Co ltd
Suzhou Almai Biotechnology Co ltd
Original Assignee
Shanghai Almai Biotechnology Co ltd
Suzhou Almai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Almai Biotechnology Co ltd, Suzhou Almai Biotechnology Co ltd filed Critical Shanghai Almai Biotechnology Co ltd
Priority to CN202111563835.4A priority Critical patent/CN114241505B/zh
Publication of CN114241505A publication Critical patent/CN114241505A/zh
Priority to PCT/CN2022/092351 priority patent/WO2023115790A1/zh
Application granted granted Critical
Publication of CN114241505B publication Critical patent/CN114241505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了化学结构图像的提取方法、装置、存储介质及电子设备,提取方法包括:获取原始图像,其中,原始图像中包含有N个化学结构式;确定原始图像中每个像素的属性信息;基于属性信息以及原始图像提取N张化学结构图像,其中,每张化学结构图像中包含一个化学结构式。相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度。

Description

化学结构图像的提取方法、装置、存储介质及电子设备
技术领域
本公开涉及化学信息学技术领域,特别涉及化学结构图像的提取方法、装置、存储介质及电子设备。
背景技术
在期刊和专利等电子刊物中,有机化合物或药物分子通常以不可编辑的图片形式的化学结构式来表示,自动从此类图片文件中识别出计算机可读的化学结构对应的化学文本(包括但不限于Inchi、Smiles、IUPAC),可以使化学家快速地获取有参考价值的“化学数据”。但在识别出上述格式的化学文本时,通常需要将化学结构式图片转变成其他文件格式如SMILES、SDF、MOL等,并且,在一个图片中包含多个化学结构式的情况下,需要将每个化学结构式单独提取出来,以确保化学式识别的准确度。
目前的提取方法如下:基于规则的方法通过图片矢量化之后,根据线条宽度、长度等统计特征将线条和节点解释为键和原子,进而完成对化学结构图像的提取,例如OSRA1,OCSR2(CLiDE)等,该方法虽然简单,但提取精度和提取效率均较低;另外现有的基于机器学习的方法同样是对图像进行矢量化后进行键、节点文本的分类,然后将其合并组装,最后经化学知识校准后得到分子图,例如ChemOCR3,该方法同样精确度较低,并且无法处理包含噪音的数据,导致化学式识别的准确度仍较低。
发明内容
有鉴于此,本公开实施例的目的在于提供一种化学结构图像的提取方法、装置、存储介质及电子设备,用于解决现有技术存在的化学结构图像的提取精度和提取效率均较低以及包含噪音数据等问题。
第一方面,本公开实施例提供了一种化学结构图像的提取方法,其中,包括:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
在一种可能的实施方式中,所述确定所述原始图像中每个像素的属性信息,包括:
通过预测算法,确定每个所述像素属于化学结构式像素的概率值及其所属化学结构式的类别;
将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于所述预设阈值的概率值对应的像素标记为第二标识,其中,所述第一标识表征该像素属于化学结构式像素及所述类别,所述第二标识表征该像素属于非化学结构式像素;
基于所述第一标识和所述第二标识确定所述属性信息。
在一种可能的实施方式中,所述基于所述第一标识和所述第二标识确定所述属性信息,包括:
将相邻的第一标识确定为一个标识数组;
基于所述标识数组、所述标识数组的数量以及所述第二标识生成属性矩阵,该属性矩阵用于表征所述原始图像的属性信息。
在一种可能的实施方式中,所述属性矩阵的维数与所述原始图像中化学结构式的个数相同,所述属性矩阵的每一维数据中包含一个所述标识数组。
在一种可能的实施方式中,所述基于所述属性信息以及所述原始图像提取N张化学结构图像,包括:
针对所述属性矩阵的每一维数据,生成一张所述化学结构图像。
在一种可能的实施方式中,所述针对所述属性矩阵的每一维数据,生成一张所述化学结构图像,包括:
针对每一维数据,从所述原始图像中提取所述第一标识对应的原始像素值;
利用所述原始像素值和预设的背景像素值生成一张所述化学结构图像。
在一种可能的实施方式中,每张所述化学结构图像的尺寸与所述原始图像的尺寸相同。
第二方面,本公开实施例还提供了一种化学结构图像的提取装置,其包括:
获取模块,其配置为获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定模块,其配置为确定所述原始图像中每个像素的属性信息;
提取模块,其配置为基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
第三方面,本公开实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
第四方面,本公开实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开实施例通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开所提供的化学结构图像的提取方法的流程图;
图2示出了本公开所提供的提取方法中确定原始图像中每个像素的属性信息的流程图;
图3示出了本公开所提供的提取方法中生成一张化学结构图像的流程图;
图4示出了本公开所提供的化学结构图像的提取装置的结构示意图;
图5示出了本公开所提供的电子设备的结构示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所申请的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
第一方面,为便于对本公开进行理解,首先对本公开所提供的一种化学结构图像的提取方法进行详细介绍。如图1所示,为本公开实施例提供的化学结构图像的提取方法具体包括以下步骤:
S101,获取原始图像,其中,原始图像中包含有N个化学结构式。
这里,在期刊和专利等出版物中,有机化合物通常以化学结构式的形式来表示,进而,用户在查阅期刊、专利等出版物时,期刊、专利等文件中包含化学结构式的每一页均可以作为原始图像。其中,原始图像可以是JPG格式、PNG格式等。
在具体实施中,原始图像中包含有N个化学结构式,N的取值范围为大于或等于1,也即原始图像中可以包含有一个化学结构式,也可以包含多个化学结构式。
S102,确定原始图像中每个像素的属性信息。
在实际应用中,原始图像中包含有文字、插图等,因此,可以预先确定原始图像中每个像素的属性信息以实现精确提取化学结构图像的目的。
具体地,图2示出了确定原始图像中每个像素的属性信息的方法流程图,其中,具体步骤包括S201-S203。
S201,通过预测算法,确定每个像素属于化学结构式像素的概率值及其所属化学结构式的类别。
S202,将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于预设阈值的概率值对应的像素标记为第二标识,其中,第一标识表征该像素属于化学结构式像素及类别,第二标识表征该像素属于非化学结构式像素。
S203,基于第一标识和第二标识确定属性信息。
在具体实施中,利用预先设定的预测算法来对原始图像中的每个像素进行计算,以确定该像素是否属于化学结构式像素。例如,针对每个像素,查看该像素相邻的所有像素是否属于化学结构式像素,基于属于化学结构式像素的像素占比确定该像素属于化学结构式像素的概率值。
在计算得到每个像素属于化学结构式像素的概率值之后,还可以进一步地确定该像素所属化学结构式的类别,其中,该类别表示该像素所属化学结构式为原始图像中的第几个化学结构式,例如,原始图像中包含三个化学结构式的情况下,则可以设置三个类别等,其中,化学结构式可以按照在原始图像中出现的顺序确定其对应的类别等。之后,将大于预设阈值的概率值对应的像素标记为第一标识,将小于或等于预设阈值的概率值对应的像素标记为第二标识,进而基于第一标识和第二标识确定属性信息。其中,第一标识表征该像素属于化学结构式像素及类别,第二标识表征该像素属于非化学结构式像素。
在实际应用中,由于相邻的第一标识对应的所有像素能够组合形成一个完整的化学结构式,因此,将相邻的第一标识确定为一个标识数组,也即该一个标识数组表征一个化学结构式。在将相邻的第一标识确定为一个标识数组之后,基于标识数组、标识数组的数量以及第二标识生成属性矩阵,该属性矩阵用于表征原始图像的属性信息。
值得说明的是,属性矩阵的维数与原始图像中化学结构式的个数相同,例如,原始图像中包含有N个化学结构式,则得到的属性矩阵为N维的矩阵;并且属性矩阵的每一维数据中包含一个标识数组,该标识数组可以为一个向量,也即,每一维数据表征一个化学结构式。
当然,该预测算法还可以是预先训练好的模型,将原始图像作为该预测模型的输入,以使该预测模型输出属性矩阵。这里,在对预测模型进行训练之前,先采集用于训练的训练数据集,其中,训练数据集中包括原始图像样本以及其属性矩阵样本,在实际应用中,为了提高预测模型的训练效率,该训练数据集中原始图像样本对应的属性矩阵样本为人工标注并生成的。
在训练过程中,依次将训练数据集中的原始图像样本及其对应的属性矩阵样本转化成输入向量,并将该输入向量输入到待训练的预测模型中,经待训练的预测模型对输入向量进行计算,得到实际属性矩阵,计算实际属性矩阵与属性矩阵样本之间的误差是否在允许范围内,若误差不在允许范围内,调整待训练的预测模型的参数,利用调整参数之后的预测模型进行下一轮的训练,直至误差落入允许范围内,完成预测模型的训练。
值得说明的是,可用的人工智能技术包括但不局限于感知机算法、卷积神经网络、循环神经网络和注意力机制网络等。
在实际应用中,还可以采集用于测试的测试数据集以及用于验证的验证数据集,利用测试数据集对预测模型进行测试,得到测试结,进而根据测试结果对预测模型进行修正;之后,利用验证数据集对预测模型进行验证,得到验证结果,以确保预测模型的准确性等。其中,测试数据集和验证数据集同样包括原始图像样本及其对应的属性矩阵样本。
这里,在进行模型训练的过程中,可以设置多个待训练的预测模型,并对每个待训练的预测模型分别进行训练,在利用验证数据集进行验证时,将验证结果最好的待训练的预测模型作为最终的预测模型。
上述训练过程可以完全实现自动化操作,也即运行bash train.sh进行模型的训练即可,但在预测过程中需要指定原始图片所在的路径。
S103,基于属性信息以及原始图像提取N张化学结构图像,其中,每张化学结构图像中包含一个化学结构式。
在得到原始图像中每个像素的属性信息之后,针对属性矩阵的每一维数据,生成一张化学结构图像,具体地,依次利用属性矩阵中的每一维数据和原始图像生成一张图像,该图像中仅包含一个化学结构式,也即化学结构图像。
可选地,参照图3示出的方法流程图来生成一张化学结构图像,其中,具体步骤包括S301和S302。
S301,针对每一维数据,从原始图像中提取第一标识对应的原始像素值。
S302,利用原始像素值和预设的背景像素值生成一张化学结构图像。
在得到属性矩阵并针对属性矩阵中的每一维数据进行图像生成时,先从原始图像中提取第一标识对应的原始像素值,也即查找该维数据中第一标识对应的像素在原始图像中的像素值,也即RGB值。
之后,利用原始像素值和预设的背景像素值生成一张化学结构图像,其中,该背景像素值可以根据实际需求进行设定,例如化学结构式的颜色为白色,便可以设置背景像素值为黑色对应的RGB值,以使得化学结构图像中的化学结构式能够较为清晰的显示等。
这里,每张化学结构图像的尺寸与原始图像的尺寸相同。
相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开实施例通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度
基于同一发明构思,本公开的第二方面还提供了一种化学结构图像的提取装置,由于本公开中的装置解决问题的原理与本公开上述化学结构图像的提取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,化学结构图像的提取装置包括:
获取模块401,其配置为获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定模块402,其配置为确定所述原始图像中每个像素的属性信息;
提取模块403,其配置为基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
在另一实施例中,所述确定模块402具体配置为:
通过预测算法,确定每个所述像素属于化学结构式像素的概率值及其所属化学结构式的类别;
将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于所述预设阈值的概率值对应的像素标记为第二标识,其中,所述第一标识表征该像素属于化学结构式像素及所述类别,所述第二标识表征该像素属于非化学结构式像素;
基于所述第一标识和所述第二标识确定所述属性信息。
在另一实施例中,所述确定模块402在基于所述第一标识和所述第二标识确定所述属性信息时,包括:
将相邻的第一标识确定为一个标识数组;
基于所述标识数组、所述标识数组的数量以及所述第二标识生成属性矩阵,该属性矩阵用于表征所述原始图像的属性信息。
在另一实施例中,所述属性矩阵的维数与所述原始图像中化学结构式的个数相同,所述属性矩阵的每一维数据中包含一个所述标识数组。
在另一实施例中,所述提取模块403具体配置为:
针对所述属性矩阵的每一维数据,生成一张所述化学结构图像。
在另一实施例中,所述提取模块403在针对所述属性矩阵的每一维数据,生成一张所述化学结构图像时,包括:
针对每一维数据,从所述原始图像中提取所述第一标识对应的原始像素值;
利用所述原始像素值和预设的背景像素值生成一张所述化学结构图像。
在另一实施例中,每张所述化学结构图像的尺寸与所述原始图像的尺寸相同。
相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开实施例通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度。
本公开的第三方面还提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤:
S11,获取原始图像,其中,所述原始图像中包含有N个化学结构式;
S12,确定所述原始图像中每个像素的属性信息;
S13,基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
计算机程序被处理器执行确定所述原始图像中每个像素的属性信息时,还具体被处理器执行如下步骤:通过预测算法,确定每个所述像素属于化学结构式像素的概率值及其所属化学结构式的类别;将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于所述预设阈值的概率值对应的像素标记为第二标识,其中,所述第一标识表征该像素属于化学结构式像素及所述类别,所述第二标识表征该像素属于非化学结构式像素;基于所述第一标识和所述第二标识确定所述属性信息。
计算机程序被处理器执行基于所述第一标识和所述第二标识确定所述属性信息时,具体被处理器执行如下步骤:将相邻的第一标识确定为一个标识数组;基于所述标识数组、所述标识数组的数量以及所述第二标识生成属性矩阵,该属性矩阵用于表征所述原始图像的属性信息。
计算机程序被处理器执行化学结构图像的提取方法时,所述属性矩阵的维数与所述原始图像中化学结构式的个数相同,所述属性矩阵的每一维数据中包含一个所述标识数组。
计算机程序被处理器执行基于所述属性信息以及所述原始图像提取N张化学结构图像时,还被处理器执行如下步骤:针对所述属性矩阵的每一维数据,生成一张所述化学结构图像。
计算机程序被处理器执行针对所述属性矩阵的每一维数据,生成一张所述化学结构图像时,还被处理器执行如下步骤:针对每一维数据,从所述原始图像中提取所述第一标识对应的原始像素值;利用所述原始像素值和预设的背景像素值生成一张所述化学结构图像。
计算机程序被处理器执行化学结构图像的提取方法时,每张所述化学结构图像的尺寸与所述原始图像的尺寸相同。
相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开实施例通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本公开的第四方面还提供了一种电子设备,如图5所示,该电子设备至少包括存储器501和处理器502,存储器501上存储有计算机程序,处理器502在执行存储器501上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序执行的方法如下:
S21,获取原始图像,其中,所述原始图像中包含有N个化学结构式;
S22,确定所述原始图像中每个像素的属性信息;
S23,基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
处理器在执行存储器上存储的确定所述原始图像中每个像素的属性信息时,还执行如下计算机程序:通过预测算法,确定每个所述像素属于化学结构式像素的概率值及其所属化学结构式的类别;将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于所述预设阈值的概率值对应的像素标记为第二标识,其中,所述第一标识表征该像素属于化学结构式像素及所述类别,所述第二标识表征该像素属于非化学结构式像素;基于所述第一标识和所述第二标识确定所述属性信息。
处理器在执行存储器上存储的基于所述第一标识和所述第二标识确定所述属性信息时,还执行如下计算机程序:将相邻的第一标识确定为一个标识数组;基于所述标识数组、所述标识数组的数量以及所述第二标识生成属性矩阵,该属性矩阵用于表征所述原始图像的属性信息。
处理器在执行存储器上存储的化学结构图像的提取方法时,所述属性矩阵的维数与所述原始图像中化学结构式的个数相同,所述属性矩阵的每一维数据中包含一个所述标识数组。
处理器在执行存储器上存储的基于所述属性信息以及所述原始图像提取N张化学结构图像时,还执行如下计算机程序:针对所述属性矩阵的每一维数据,生成一张所述化学结构图像。
处理器在执行存储器上存储的针对所述属性矩阵的每一维数据,生成一张所述化学结构图像时,还执行如下计算机程序:针对每一维数据,从所述原始图像中提取所述第一标识对应的原始像素值;利用所述原始像素值和预设的背景像素值生成一张所述化学结构图像。
处理器在执行存储器上存储的化学结构图像的提取方法时,每张所述化学结构图像的尺寸与所述原始图像的尺寸相同。
相较于现有技术中基于规则的方法以及基于机器学习的方法,本公开实施例通过原始图像中每个像素的属性信息提取每个化学结构式对应的化学结构图像,提高了提取精度和提取效率,能够有效去除化学结构图像中的噪音数据,进而提高基于化学结构图像进行化学式识别的准确度。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本邻域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

Claims (10)

1.一种化学结构图像的提取方法,其特征在于,包括:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
2.根据权利要求1所述的提取方法,其特征在于,所述确定所述原始图像中每个像素的属性信息,包括:
通过预测算法,确定每个所述像素属于化学结构式像素的概率值及其所属化学结构式的类别;
将大于预设阈值的概率值对应的像素标记为第一标识,以及将小于或等于所述预设阈值的概率值对应的像素标记为第二标识,其中,所述第一标识表征该像素属于化学结构式像素及所述类别,所述第二标识表征该像素属于非化学结构式像素;
基于所述第一标识和所述第二标识确定所述属性信息。
3.根据权利要求2所述的提取方法,其特征在于,所述基于所述第一标识和所述第二标识确定所述属性信息,包括:
将相邻的第一标识确定为一个标识数组;
基于所述标识数组、所述标识数组的数量以及所述第二标识生成属性矩阵,该属性矩阵用于表征所述原始图像的属性信息。
4.根据权利要求3所述的提取方法,其特征在于,所述属性矩阵的维数与所述原始图像中化学结构式的个数相同,所述属性矩阵的每一维数据中包含一个所述标识数组。
5.根据权利要求3所述的提取方法,其特征在于,所述基于所述属性信息以及所述原始图像提取N张化学结构图像,包括:
针对所述属性矩阵的每一维数据,生成一张所述化学结构图像。
6.根据权利要求5所述的提取方法,其特征在于,所述针对所述属性矩阵的每一维数据,生成一张所述化学结构图像,包括:
针对每一维数据,从所述原始图像中提取所述第一标识对应的原始像素值;
利用所述原始像素值和预设的背景像素值生成一张所述化学结构图像。
7.根据权利要求1-6中任一所述的提取方法,其特征在于,每张所述化学结构图像的尺寸与所述原始图像的尺寸相同。
8.一种化学结构图像的提取装置,其特征在于,包括:
获取模块,其配置为获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定模块,其配置为确定所述原始图像中每个像素的属性信息;
提取模块,其配置为基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
9.一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取原始图像,其中,所述原始图像中包含有N个化学结构式;
确定所述原始图像中每个像素的属性信息;
基于所述属性信息以及所述原始图像提取N张化学结构图像,其中,每张所述化学结构图像中包含一个化学结构式。
CN202111563835.4A 2021-12-20 2021-12-20 化学结构图像的提取方法、装置、存储介质及电子设备 Active CN114241505B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111563835.4A CN114241505B (zh) 2021-12-20 2021-12-20 化学结构图像的提取方法、装置、存储介质及电子设备
PCT/CN2022/092351 WO2023115790A1 (zh) 2021-12-20 2022-05-12 化学结构图像的提取方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111563835.4A CN114241505B (zh) 2021-12-20 2021-12-20 化学结构图像的提取方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114241505A true CN114241505A (zh) 2022-03-25
CN114241505B CN114241505B (zh) 2023-04-07

Family

ID=80759572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111563835.4A Active CN114241505B (zh) 2021-12-20 2021-12-20 化学结构图像的提取方法、装置、存储介质及电子设备

Country Status (2)

Country Link
CN (1) CN114241505B (zh)
WO (1) WO2023115790A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115790A1 (zh) * 2021-12-20 2023-06-29 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备
WO2023165018A1 (zh) * 2022-03-01 2023-09-07 苏州阿尔脉生物科技有限公司 化学反应流程图中元素的提取方法及装置
CN116721713A (zh) * 2023-08-09 2023-09-08 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062529A (zh) * 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
CN109166130A (zh) * 2018-08-06 2019-01-08 北京市商汤科技开发有限公司 一种图像处理方法及图像处理装置
CN111709293A (zh) * 2020-05-18 2020-09-25 杭州电子科技大学 一种基于ResUNet神经网络的化学结构式分割方法
US20210295114A1 (en) * 2018-12-07 2021-09-23 Huawei Technologies Co., Ltd. Method and apparatus for extracting structured data from image, and device
CN113642537A (zh) * 2021-10-14 2021-11-12 武汉大学 一种医学图像识别方法、装置、计算机设备及存储介质
CN113762303A (zh) * 2020-11-23 2021-12-07 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360993B2 (en) * 2017-11-09 2019-07-23 International Business Machines Corporation Extract information from molecular pathway diagram
CN114241505B (zh) * 2021-12-20 2023-04-07 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062529A (zh) * 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
CN109166130A (zh) * 2018-08-06 2019-01-08 北京市商汤科技开发有限公司 一种图像处理方法及图像处理装置
US20210295114A1 (en) * 2018-12-07 2021-09-23 Huawei Technologies Co., Ltd. Method and apparatus for extracting structured data from image, and device
CN111709293A (zh) * 2020-05-18 2020-09-25 杭州电子科技大学 一种基于ResUNet神经网络的化学结构式分割方法
CN113762303A (zh) * 2020-11-23 2021-12-07 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN113642537A (zh) * 2021-10-14 2021-11-12 武汉大学 一种医学图像识别方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G. ZAMORA,AND ETC: "Efficient visualization of encoded Fourier transform infrared microscopic data of osteoporotic bone", 《PROCEEDINGS 14TH IEEE SYMPOSIUM ON COMPUTER-BASED MEDICAL SYSTEMS. CBMS 2001》 *
宋杰等: "基于深度学习的数字病理图像分割综述与展望", 《软件学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115790A1 (zh) * 2021-12-20 2023-06-29 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备
WO2023165018A1 (zh) * 2022-03-01 2023-09-07 苏州阿尔脉生物科技有限公司 化学反应流程图中元素的提取方法及装置
CN116721713A (zh) * 2023-08-09 2023-09-08 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置
CN116721713B (zh) * 2023-08-09 2023-10-31 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Also Published As

Publication number Publication date
WO2023115790A1 (zh) 2023-06-29
CN114241505B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
US10853623B2 (en) Method and apparatus for generating information
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN108197670B (zh) 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN107731228B (zh) 英文语音信息的文本转换方法和装置
US11270099B2 (en) Method and apparatus for generating facial feature
CN108229522B (zh) 神经网络的训练方法、属性检测方法、装置及电子设备
CN111428448B (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN113065525B (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN110807472B (zh) 图像识别方法、装置、电子设备及存储介质
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN111067522A (zh) 大脑成瘾结构图谱评估方法及装置
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN110197213B (zh) 基于神经网络的图像匹配方法、装置和设备
CN111967383A (zh) 年龄估计方法、年龄估计模型的训练方法和装置
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN115049851B (zh) 基于YOLOv5网络的目标检测方法、装置和设备终端
CN115659221A (zh) 一种教学质量的评估方法、装置及计算机可读存储介质
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
CN112084889A (zh) 一种图像行为识别方法、装置、计算设备及存储介质
CN116912921B (zh) 表情识别方法、装置、电子设备及可读存储介质
CN116912920B (zh) 表情识别方法及装置
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant