CN114581924A - 化学反应流程图中元素的提取方法及装置 - Google Patents

化学反应流程图中元素的提取方法及装置 Download PDF

Info

Publication number
CN114581924A
CN114581924A CN202210206448.3A CN202210206448A CN114581924A CN 114581924 A CN114581924 A CN 114581924A CN 202210206448 A CN202210206448 A CN 202210206448A CN 114581924 A CN114581924 A CN 114581924A
Authority
CN
China
Prior art keywords
chemical reaction
element information
flow chart
extraction model
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210206448.3A
Other languages
English (en)
Inventor
刘小红
申圣珂
肖红忠
李召军
钮振江
费超远
刘刚娣
郑明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Almai Biotechnology Co ltd
Suzhou Almai Biotechnology Co ltd
Original Assignee
Shanghai Almai Biotechnology Co ltd
Suzhou Almai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Almai Biotechnology Co ltd, Suzhou Almai Biotechnology Co ltd filed Critical Shanghai Almai Biotechnology Co ltd
Priority to CN202210206448.3A priority Critical patent/CN114581924A/zh
Priority to PCT/CN2022/092361 priority patent/WO2023165018A1/zh
Publication of CN114581924A publication Critical patent/CN114581924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种化学反应流程图中元素的提取方法及装置,提取方法包括获取目标图像,其中,目标图像中包括化学反应流程图;利用预先训练好的提取模型,从化学反应流程图中提取元素信息,其中,元素信息包括元素的类型和坐标。相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。

Description

化学反应流程图中元素的提取方法及装置
技术领域
本公开涉及化学信息学技术领域,特别涉及化学反应流程图中元素的提取方法及装置。
背景技术
在期刊和专利等电子刊物中,有机化学反应式通常以反应流程图的形式表示,反应流程图中可能包含箭头(如单向箭头、多向箭头等)、指示标识等元素,反应流程图中的元素对后续从期刊和专利等电子刊物中提取化学反应式的精确度产生一定影响。
目前,存在识别箭头元素的方法:针对一特定元素预先定义一参照形状,之后,检测特定图像中是否包含预先定义的参照形状,进而确定特定图像中是否包含特定元素。但该种方法准确率较低,泛化性较差。
发明内容
有鉴于此,本公开实施例的目的在于提供一种化学反应流程图中元素的提取方法及装置,用于解决现有技术存在的元素提取准确率较低以及泛化性较差等问题。
第一方面,本公开实施例提供了一种化学反应流程图中元素的提取方法,其中,包括:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
在一种可能的实施方式中,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:
识别所述目标图像中的每个化学反应流程图。
在一种可能的实施方式中,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:
将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
在一种可能的实施方式中,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:
所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
在一种可能的实施方式中,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
在一种可能的实施方式中,训练所述提取模型的步骤包括:
获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
在一种可能的实施方式中,所述提取方法还包括:
所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
将最小的第二误差对应的调整参数后的提取模型作为提取模型。
第二方面,本公开实施例还提供了一种化学反应流程图中元素的提取装置,其包括:
获取模块,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
提取模块,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
第三方面,本公开实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
第四方面,本公开实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开所提供的化学反应流程图中元素的提取方法的流程图;
图2示出了本公开所提供的提取方法中训练提取模型的流程图;
图3示出了本公开所提供的提取方法中验证提取模型的流程图;
图4示出了本公开所提供的化学反应流程图中元素的提取装置的结构示意图;
图5示出了本公开所提供的电子设备的结构示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所申请的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
第一方面,为便于对本公开进行理解,首先对本公开所提供的一种化学反应流程图中元素的提取方法进行详细介绍。如图1所示,为本公开实施例提供的化学反应流程图中元素的提取方法具体包括以下步骤:
S101,获取目标图像,其中,目标图像中包括化学反应流程图。
在期刊和专利等电子刊物中,有机化学反应式通常以化学反应流程图的形式表示,因此,为了不遗漏期刊、专利中每页包含的每一个化学反应流程图,可以将包括化学反应流程图的每页期刊、专利均作为一个目标图像,也就是说,每个目标图像中可以包括一个或多个。相应地,可以从期刊、专利等电子刊物中预先提取出目标图像。
其中,目标图像可以是JPG格式、PNG格式等。
S102,利用预先训练好的提取模型,从化学反应流程图中提取元素信息,其中,元素信息包括元素的类型和坐标。
在具体实施中,该提取模型为利用大量的历史数据预先训练好的,并且,定期或不定期的对该提取模型进行更新训练,以提高提取模型的准确性。
值得说明的是,在利用预先训练好的提取模型,从化学反应流程图中提取元素信息之前,需要对目标图像进行识别,以识别出目标图像中的每个化学反应流程图,之后将化学反应流程图作为提取模型的输入,相较于将目标图像作为提取模型的输入,提取模型运算效率和准确性均较高。
在利用预先训练好的提取模型,从化学反应流程图中的提取元素信息时,将所有化学反应流程图作为提取模型的输入,按照预设转换算法将化学结构子图像转换为特征向量,以使提取模型对化学反应流程图对应的特征向量进行计算,从而输出化学反应流程图中的元素信息。其中,预设转换算法可以为化学结构子图像与特征向量之间的映射关系等。
作为其中一个示例地,提取模型对化学反应流程图进行计算时,提取模型对每个化学反应流程图对应的特征向量分别进行计算,得到多个候选元素信息以及每个候选元素信息对应的概率值;进一步地,选取概率值大于预设阈值的候选元素信息作为化学反应流程图中的元素信息。
其中,存在化学反应流程图或整个目标图像中包括多个元素的情况,因此,在目标图像中包括多个元素的情况下,多个元素信息之间通过预设间隔符进行间隔,间隔符可以为标点符号、特殊符号等。
作为一个示例地,元素信息包括元素的类型和坐标。例如,元素为箭头时,元素的类型可以包括单向箭头、双向箭头以及多向箭头等,元素的坐标可以包括箭头每个端点的坐标等。元素信息还可以包括元素的方向,例如箭头与水平方向之间的夹角等。
值得说明的是,本公开实施例是以从目标图像中识别出化学反应流程图,并将化学反应流程图作为提取模型输入为例进行阐述的,在实际应用中,也可以将目标图像直接作为提取模型的输入,以使提取模型直接对目标图像进行计算以提取元素信息。
本公开实施例还提供了训练提取模型的方法,具体参照图2示出的步骤,其包括S201-S204。
S201,获取训练集,训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息。
S202,将第一化学反应流程图样本转化为第一输入向量,并将第一输入向量输入至待训练的提取模型中,得到第一实际元素信息。
S203,计算第一实际元素信息与第一理论元素信息之间的第一误差是否在允许范围内。
S204,若第一误差不在允许范围内,调整待训练的提取模型的参数,直至第一误差落入允许范围内。
在具体实施中,先获取训练集,训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息,该第一元素的第一理论元素信息为人工转换得到的,或者由预设算法进行自动转换之后人工进行校验之后得到的。
之后,按照预设转换算法将第一化学反应流程图样本转化为第一输入向量,其中,可以基于预先建立的字典将第一化学反应流程图样本转化为第一输入向量,其中,该字典中包括化学反应流程图样本与输入向量之间的映射关系以及元素信息与输出向量之间的映射关系。之后,将第一输入向量输入至待训练的提取模型中,经待训练的提取模型对第一输入向量进行计算,得到第一实际元素信息,当然,待训练的提取模型也会计算得到多个候选元素,而第一实际元素信息为待训练的提取模型计算得到的概率值最大的候选元素的元素信息。其中,待训练的提取模型对第一输入向量进行计算得到的为第一输出向量,基于字典将第一输出向量转化为候选元素信息。
本公开实施例中的待训练的提取模型包括但不限于感知机算法、卷积神经网络、循环神经网络以及注意力机制网络等,可选地,待训练的提取模型用特征提取器-翻译器架构,特征提取器和翻译器均由神经网络组成。当然,本领域技术人员应知晓的是,上述为本公开的一个实施例,并不限定于此。
在得到第一实际元素信息之后,计算第一实际元素信息与第一理论元素信息之间的第一误差,并确定该第一误差是否在允许范围内。若误差不在允许范围内,调整待训练的提取模型的参数,利用调整参数之后的提取模型进行下一轮将训练,直至第一误差落入允许范围内,完成提取模型的训练。
在具体实施中,模型中的处理层数量不同或处理层的顺序不同均可能导致计算得到的结果不同,因此,可以预先建立多个待训练的提取模型,在对每个待训练的提取模型完成训练之后,利用验证集确定最终的提取模型,具体参照图3示出的方法流程图,步骤包括S301-S303。
S301,待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的提取模型中,得到第二实际元素信息。
S302,计算每个第二实际元素信息与验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差。
S303,将最小的第二误差对应的调整参数后的提取模型作为提取模型。
这里,在待训练的提取模型为多个的情况下,利用验证集包括的第二化学反应流程图样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的提取模型中,得到第二实际元素信息,其中,将第二化学反应流程图样本转化为第二输入向量的方式与将第一化学反应流程图样本转化为第一输入向量的方式相同,在此,便不做过多赘述。
在得到每个调整参数后的提取模型对应的第二实际元素信息之后,计算该第二实际元素信息与验证集包括的第二理论元素信息之间的第二误差,也即该调整参数后的提取模型产生的误差。
之后,从多个第二误差中选取最小的第二误差,将最小的第二误差对应的调整参数后的提取模型作为提取模型。
进一步地,还可以利用测试集对最终确定的提取模型进行测试,以进一步验证提取模型的准确性。另外,还可以周期性的对提取模型进行更新训练,以确保提取模型的准确性。
在验证和更新的过程中,可以运行bash train.sh进行提取模型的训练,以完全实现自动化操作,自动化程度较高,节省人工成本。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
基于同一发明构思,本公开的第二方面还提供了一种化学反应流程图中元素的提取装置,由于本公开中的装置解决问题的原理与本公开上述化学反应流程图中元素的提取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,化学反应流程图中元素的提取装置包括:
获取模块401,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
提取模块402,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
在另一实施例中,化学反应流程图中元素的提取装置还包括识别模块403,其配置为:
识别所述目标图像中的每个化学反应流程图。
在另一实施例中,提取模块402具体配置为:
将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
在另一实施例中,提取模块402中提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,具体包括:
所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
在另一实施例中,化学反应流程图中元素的提取装置还包括分隔模块404,其配置为:
在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
在另一实施例中,化学反应流程图中元素的提取装置还包括第一训练模块405,其配置为:
获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
在另一实施例中,化学反应流程图中元素的提取装置还包括第二训练模块406,其配置为:
所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
本公开的第三方面还提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤:
S11,获取目标图像,其中,所述目标图像中包括化学反应流程图;
S12,利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
计算机程序被处理器执行利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还具体被处理器执行如下步骤:识别所述目标图像中的每个化学反应流程图。
计算机程序被处理器执行利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息时,具体被处理器执行如下步骤:将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
计算机程序被处理器执行提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,还被处理器执行如下步骤:所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本公开的第四方面还提供了一种电子设备,如图5所示,该电子设备至少包括存储器501和处理器502,存储器501上存储有计算机程序,处理器502在执行存储器501上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序执行的方法如下:
S21,获取目标图像,其中,所述目标图像中包括化学反应流程图;
S22,利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
处理器在执行存储器上存储的利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还执行如下计算机程序:识别所述目标图像中的每个化学反应流程图。
处理器在执行存储器上存储的利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息时,还执行如下计算机程序:将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
处理器在执行存储器上存储的提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,还执行如下计算机程序:所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本邻域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

Claims (10)

1.一种化学反应流程图中元素的提取方法,其特征在于,包括:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
2.根据权利要求1所述的提取方法,其特征在于,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:
识别所述目标图像中的每个化学反应流程图。
3.根据权利要求1或2所述的提取方法,其特征在于,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:
将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
4.根据权利要求3所述的提取方法,其特征在于,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:
所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
5.根据权利要求1-4中任一所述的提取方法,其特征在于,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
6.根据权利要求1所述的提取方法,其特征在于,训练所述提取模型的步骤包括:
获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
7.根据权利要求6所述的提取方法,其特征在于,还包括:
所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
将最小的第二误差对应的调整参数后的提取模型作为提取模型。
8.一种化学反应流程图中元素的提取装置,其特征在于,包括:
获取模块,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
提取模块,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
9.一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
CN202210206448.3A 2022-03-01 2022-03-01 化学反应流程图中元素的提取方法及装置 Pending CN114581924A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210206448.3A CN114581924A (zh) 2022-03-01 2022-03-01 化学反应流程图中元素的提取方法及装置
PCT/CN2022/092361 WO2023165018A1 (zh) 2022-03-01 2022-05-12 化学反应流程图中元素的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206448.3A CN114581924A (zh) 2022-03-01 2022-03-01 化学反应流程图中元素的提取方法及装置

Publications (1)

Publication Number Publication Date
CN114581924A true CN114581924A (zh) 2022-06-03

Family

ID=81772057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206448.3A Pending CN114581924A (zh) 2022-03-01 2022-03-01 化学反应流程图中元素的提取方法及装置

Country Status (2)

Country Link
CN (1) CN114581924A (zh)
WO (1) WO2023165018A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678734A (zh) * 2012-09-06 2014-03-26 北京化工大学 一种石脑油高温蒸汽裂解制乙烯分子反应模型优化方法
US20160239751A1 (en) * 2015-02-17 2016-08-18 The Mathworks, Inc. Multimodal input processing
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN112543931A (zh) * 2018-03-07 2021-03-23 爱思唯尔有限公司 自动识别专利文献中相关化合物的方法、系统和存储介质
WO2021131324A1 (ja) * 2019-12-26 2021-07-01 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776787B (zh) * 2018-06-04 2020-09-29 京东数字科技控股有限公司 图像处理方法及装置、电子设备、存储介质
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
EP3876236A1 (en) * 2020-03-04 2021-09-08 Merck Patent GmbH Extracting chemical structures from digitized images
CN114241505B (zh) * 2021-12-20 2023-04-07 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678734A (zh) * 2012-09-06 2014-03-26 北京化工大学 一种石脑油高温蒸汽裂解制乙烯分子反应模型优化方法
US20160239751A1 (en) * 2015-02-17 2016-08-18 The Mathworks, Inc. Multimodal input processing
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN112543931A (zh) * 2018-03-07 2021-03-23 爱思唯尔有限公司 自动识别专利文献中相关化合物的方法、系统和存储介质
WO2021131324A1 (ja) * 2019-12-26 2021-07-01 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱新广等: "光合作用研究技术", 30 September 2021, 上海科学技术出版社, pages: 257 - 266 *

Also Published As

Publication number Publication date
WO2023165018A1 (zh) 2023-09-07

Similar Documents

Publication Publication Date Title
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN111079683B (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN110390340B (zh) 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN110704597B (zh) 对话系统可靠性校验方法、模型生成方法及装置
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN110825857A (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN112819050B (zh) 知识蒸馏和图像处理方法、装置、电子设备和存储介质
CN110781413A (zh) 兴趣点确定方法及装置、存储介质、电子设备
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN115937071A (zh) 一种图像检测方法、装置、设备及介质
CN116612500B (zh) 行人重识别模型训练方法及装置
CN103049629A (zh) 一种检测噪音数据的方法及装置
CN114581924A (zh) 化学反应流程图中元素的提取方法及装置
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN116306777A (zh) 模型精度损失定位方法、装置和电子设备
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质
CN115760908A (zh) 基于胶囊网络感知特征的绝缘子跟踪方法和装置
CN110135419B (zh) 一种自然场景下端到端文本识别方法
CN111194004B (zh) 基站指纹定位方法、装置和系统、计算机可读存储介质
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN115988100B (zh) 基于多协议自适应的设备智能感知物联网网关管理方法
CN116226778B (zh) 基于三维分析平台的挡土墙结构异常分析方法及系统
CN113486980B (zh) 基于自表示字典对的铝电解槽况识别方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination