CN115762667A - 化学反应类型的识别方法、装置、计算机设备 - Google Patents

化学反应类型的识别方法、装置、计算机设备 Download PDF

Info

Publication number
CN115762667A
CN115762667A CN202211480879.5A CN202211480879A CN115762667A CN 115762667 A CN115762667 A CN 115762667A CN 202211480879 A CN202211480879 A CN 202211480879A CN 115762667 A CN115762667 A CN 115762667A
Authority
CN
China
Prior art keywords
chemical reaction
reaction formula
atomic
model
sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211480879.5A
Other languages
English (en)
Other versions
CN115762667B (zh
Inventor
吴海超
曾琢
肖强胜
姚文浩
杨承颖
陆文洋
公维博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Woshi Digital Technology Co ltd
Original Assignee
Suzhou Woshi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Woshi Digital Technology Co ltd filed Critical Suzhou Woshi Digital Technology Co ltd
Priority to CN202211480879.5A priority Critical patent/CN115762667B/zh
Publication of CN115762667A publication Critical patent/CN115762667A/zh
Application granted granted Critical
Publication of CN115762667B publication Critical patent/CN115762667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及化学反应类型的识别方法、装置和计算机设备。所述方法包括:获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;确定所述标记化学反应式对应的图模型;提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。本申请关注于原子反应位点和原子反应位点预设范围的特征信息,该特征信息能够更加明显表征反应前后、反应变化的信息,因而能够准确地进行化学反应式的分类。

Description

化学反应类型的识别方法、装置、计算机设备
技术领域
本申请涉及人工智能技术领域,特别是涉及化学反应类型的识别方法、装置和计算机设备。
背景技术
化学反应的分类和索引,为合成路线设计提供了技术基础,在生物制药、材料合成等领域是不可或缺的。然而,相关技术中,采用规则模型对化学反应式进行分类,其中规则模型中各种规则的编写依赖人工编写,针对数以万计的化学反应类型,该类成本较高。另一相关技术中,通过提取反应物和生成物的分子特征信息进行反应分类,但是该方法需要提前标记化学反应式中各物质的角色,并且由于分子特征信息易受官能团的影响,导致该方法在类别更多的数据集上分类准确度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种化学反应类型的识别方法、装置和计算机设备。
第一方面,本申请提供了一种化学反应类型的识别方法。所述方法包括:
所述方法包括:
获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;
确定所述标记化学反应式对应的图模型;
提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
在一种可能的实现方式中,所述获取标记化学反应式,包括:
获取目标化学反应式;
将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
在一种可能的实现方式中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得,包括:
获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建初始标注模型,所述标注模型中设置有训练参数;
将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
在一种可能的实现方式中,所述图模型至少包括图节点以及图节点间的连线,所述确定所述标记化学反应式对应的图模型,包括:
基于所述标记化学反应式中的各原子,确定图模型的图节点;
基于所述标记化学反应式中的原子之间的化学键,确定所述图模型的图节点间的连线;
将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
在一种可能的实现方式中,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别,包括:
提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
在一种可能的实现方式中,所述将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型,包括:
对所述特征信息进行降维处理,得到处理后的特征信息;
将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
在一种可能的实现方式中,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别,包括:
将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
第二方面,本申请还提供了一种化学反应查询方法,包括:
获取目标化学反应式;
按照本公开实施例任一项所述的化学反应类型的识别方法,识别所述目标化学反应式的类型;
从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
第三方面,本申请还提供了一种化学反应类型的识别装置。所述装置包括:
第一获取模块,用于获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;
确定模块,用于确定所述标记化学反应式对应的图模型;
分类模块,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
在一种可能的实现方式中,所述获取模块包括:
获取子模块,用于获取目标化学反应式;
生成子模块,用于将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
在一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建模块,用于构建初始标注模型,所述标注模型中设置有训练参数;
预测模块,用于将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
调参模块,用于基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
在一种可能的实现方式中,所述确定模块,包括:
第一确定子模块,用于基于所述标记化学反应式中的各原子,确定图模型的图节点;
第二确定子模块,用于基于所述标记化学反应式中的原子之间的化学键,确定图模型的图节点间的连线;
处理子模块,用于将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
在一种可能的实现方式中,所述分类模块,包括:
提取子模块,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
第一分类子模块,用于将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
在一种可能的实现方式中,所述第一分类子模块,包括:
处理单元,用于对所述特征信息进行降维处理,得到处理后的特征信息;
分类单元,用于将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
在一种可能的实现方式中,所述分类模块,包括:
第二分类子模块,用于将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
第四方面,本申请还提供了一种化学反应查询装置,包括:
第三获取模块,用于获取目标化学反应式;
识别模块,用于根据本公开实施例任一项所述的化学反应类型的识别装置,识别所述目标化学反应式的类型;
查询模块,用于从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例任一项所述的方法的步骤。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例任一项所述的方法的步骤。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例任一项所述的方法的步骤。
上述化学反应类型的识别方法、装置、计算机设备、存储介质和计算机程序产品,通过获取目标化学反应式的标记化学反应式,确定标记化学反应式的图模型,并提取图模型中原子反应位点及原子反应位点预设范围内的特征信息,相较于传统方法中,提取整个化学反应式的特征信息,本公开实施例,关注于原子反应位点和原子反应位点预设范围的特征信息,该特征信息能够更加明显表征反应前后、反应变化的信息,因而能够准确地进行化学反应式的分类。
附图说明
图1为一个实施例中化学反应类型的识别方法的第一流程示意图。
图2为一个实施例中标记化学反应式的结构示意图。
图3为一个实施例中标记化学反应式对应图模型的结构示意图。
图4为一个实施例中化学反应式对应反应位点的结构示意图。
图5为一个实施例中标记化学反应式的结构示意图。
图6为图5中标记化学反应式对应反应位点的预设范围变化的结构示意图。
图7为一个实施例中特征信息聚类可视化的界面图。
图8为一个实施例中标注模型的训练过程示意图。
图9为一个实施例中图神经网络的结构示意图。
图10为一个实施例中图神经网络处理过程示意图。
图11为一个实施例中化学反应查询方法的流程示意图。
图12为一个实施例中一种化学反应类型的识别装置结构框图。
图13为一个实施例中一种化学反应查询装置结构框图。
图14为一个实施例中计算机设备的内部结构图。
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种化学反应类型的识别方法,所述方法应用于服务器或终端,包括以下步骤:
步骤S101,获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系。
本公开实施例中,所述目标化学反应式包括待分类的化学反应式。在一个示例中,可以将所述目标化学反应式通过键盘输入或自动获取的方式得到所述目标化学反应式。所述反应物到产物之间的原子的映射关系可以包括反应物中的原子与产物的原子的对应关系,例如反应物中的第一氧原子对应产物中的第二氧原子,该第一氧原子与第二氧原子属于同一个元素。图2为一个实施例中标记化学反应式的结构示意图。参考图2,所示,反应物中的原子与产物的原子采用相同的数字符号表示。需要说明的是,所述标记方式不限于上述举例,例如,相同的字母或相同的字符等作为所述标记方式,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
步骤S103,确定所述标记化学反应式对应的图模型。
本公开实施例中,确定所述标记化学反应式对应的图模型,即确定所述标记化学反应式中反应物对应的分子图模型以及产物对应分子图模型。分子图模型中,化合物以原子为节点,键为边的图形表示,节点存储信息(标签)。具体的,在一示例性实施例中,可以包括基于所述标记化学反应式中的各原子,确定图模型的图节点;基于所述标记化学反应式中的原子之间的化学键,确定所述图模型的图节点间的连线;将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。在另一示例性实施例中,还可以通过现有的分子图模型生成算法,例如,CGR(Condensed Graph ofReaction,浓缩稠密图)算法。CGR图模型可以根据反应物到产物之间原子的映射关系,自动的生成图模型。图3为一个实施例中标记化学反应式对应图模型的结构示意图。参考图3所示。图3中,左边边框内表示某一个标记化学反应式的图模型,右边边框内表示提取的原子反应位点。图4为一个实施例中CGR图模型的结构示意图。参考图4所示CGR图模型是通过原子映射得到的。
步骤S105,提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别。
本公开实施例中,所述原子反应位点包括反应物经过化学反应到产物的过程中原子的连接关系发生变化的位点。在一示例性实施例中,可以通过反应物到产物之间原子的映射关系得到原子反应位点。在一示例性实施例中,可以以所述原子反应位点为圆心,预设长度为半径,确定的圆的范围作为所述预设范围。图4为一个实施例中化学反应式对应反应位点的结构示意图。参考图4所示,图4中,N原子和O原子的化学键均发生了变化,属于反应位点。所述原子反应位点预设范围可以包括反应位点处的原子以及以所述原子为中心周围预设范围的原子或化学键。其中,预设范围可以包括0、1、2、3…,预设范围的大小可以根据计算量和预测准确度进行调整。图5为一个实施例中标记化学反应式的结构示意图。图6为图5中标记化学反应式对应反应位点的预设范围变化的结构示意图。参考图6所示,随着预设范围不断地增加,化学位点以及预设范围内的原子和化学键数量不断地在增加。在一个示例中,提取原子反应位点及所述原子反应位点预设范围的特征信息,可以通过预训练机器学习模型或摩根指纹编码的方式。所述特征信息可以包括原子电荷分布、化学键数量、原子标识等。在另一个示例中,还可以通过查询最大公共子结构(Maximum commonsubstructure)的方法,确定原子反应位点。在一个示例中,还可以对提取的特征信息使用预设算法(例如使用t-sne算法)进行降维处理。
本公开实施例中,基于特征信息,对标记化学反应式进行分类可以包括:在一个示例中,可以将所述特征信息输入至预训练的分类模型,得出标记化学反应式的类型。在另一个示例中,图7为一个实施例中特征信息聚类可视化的界面图。参考图7所示,可以将特征信息输入至聚类模型中,对特征信息进行空间分类及可视化显示,得出标记化学反应式的类型。在另一个示例中,利用图神经网络提取图模型的原子反应位点及原子反应位点预设范围内的特征信息,并对特征信息进行分类,得到标记化学反应式的类别。需要说明的是,由于标记化学反应式包括目标化学反应式,因此,标记化学反应式的类别即为目标化学反应式的类别。
本公开实施例通过获取目标化学反应式的标记化学反应式,确定标记化学反应式的图模型,并提取图模型中原子反应位点及原子反应位点预设范围内的特征信息,相较于传统方法中,提取整个化学反应式的特征信息,本公开实施例关注于原子反应位点和原子反应位点预设范围的特征信息,该特征信息能够更加明显表征反应前后、反应变化的信息,因而能够准确地进行化学反应式的分类。
在一种可能的实现方式中,所述获取标记化学反应式,包括:
获取目标化学反应式;
将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
本公开实施例中,利用通过机器学习的预设标注模型对目标化学反应式进行标记,输出标记化学反应式。其中,所述预设标注模型可以包括基于自注意力机制的神经网络模型,例如Transformer网络、LSTM网络、Non-Local网络、ViT网络等。在一个示例中,参考图8所示,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得,包括:
获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建初始标注模型,所述标注模型中设置有训练参数;
将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
本公开实施例,所述对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理可以包括对某个原子位点进行掩盖,以预测该原子位点的原子标识。本公开实施例中,所述预设标注模型基于自注意力机制。注意力模块能够自动地学习影响权重αij用来捕捉编码器隐藏状态hi和解码器隐藏状态sj的相关性。注意力影响权重的学习是通过在原始网络结构中增加一个前馈网络来实现的。这一前馈网络的注意力影响权重αij是编码器隐藏状态值hj和解码器内部隐藏状态值Si-1的函数。影响权重αij可以通过下式获得:
Figure BDA0003961524820000101
Figure BDA0003961524820000102
其中,
Figure BDA0003961524820000103
Wa,Ua是注意力网络的权重值,Tx表示输入序列。
采用本公开实施例标注模型的训练方法,可以准确地注意到产物中影响反应物中的原子或者反应物中影响产物的原子,从而确定出反应物和产物中同一原子的概率比较高,通过卷积神经网络获取上下文信息,准确地预测掩膜处的原子,从而实现反应物和产物中原子的配对,并进行标记,得到标记化学反应式。通过本公开实施例的标注模型能够快速准确地得到标记化学反应式。
在一种可能的实现方式中,所述图模型包括图节点以及图节点间的连线,所述确定所述标记化学反应式对应的图模型,包括:
基于所述标记化学反应式中的各原子,确定图模型的图节点;
基于所述标记化学反应式中的原子之间的化学键,确定图模型的图节点间的连线;
将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
本公开实施例,提供了分子图模型的一般实现方式,可以不借助任何工具而得到标记化学反应式对应的图模型。
在一种可能的实现方式中,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别,包括:
提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
本公开实施例中,所述预设范围可以包括根据实际需求设置,例如原子反应位点周围预设2个化学键的范围以内,或者预设3个化学键的范围以内。也可以进利用原子反应位点的特征信息,此时可以看作预设范围为0个化学键的范围以内。
本公开实施例中,所述第一预分类模型,可以包括基于已有的人工智能网络,例如随机森林分类型,通过有监督或无监督的训练获得。在一示例性实施例中,具体的训练方式可以包括:获取样本集合,所述样本集合包括样本特征信息;所述样本特征信息上标注有化学反应类型;构建初始标注模型,所述标注模型中设置有训练参数;将所述样本特征信息输入至所述第一预分类模型,得到预测结果;基于所述预测结果与所述标注的化学反应类型之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
通过本公开实施例的第一预分类模型,能够根据原子反应位点及所述原子反应位点预设范围内的特征信息,准确地预测标记化学反应式的反应类型。
在一种可能的实现方式中,所述将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型,包括:
对所述特征信息进行降维处理,得到处理后的特征信息;
将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
本公开实施例中,在提取的原子反应位点和原子反应位点预设范围的特征信息数量较多的情况下,可以对特征信息进行降维处理。具体降维的方法可以包括采用knn(最邻近结点算法),将所述特征信息限缩到预设数量的特征信息;在另一示例性实施例中,可以通过计算相似度,将相似度小于预设值的两特征信息确定为同一特征信息,进行降维;在另一示例性实施例中,还可以将所述特征信息与预设特征数据库中的特征信息进行相似度的计算,确定特征信息的类别。
本公开实施例,可以根据具体的应用场景选择对应的特征信息进行降维处理方法,提高了分类的准确性。
在一种可能的实现方式中,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别,包括:
将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别。
本公开实施例中,参考图9所示,将图模型901输入至图神经网络,由于图神经网络包含注意力机制,可以自动的提取图模型中的原子反应位点及所述原子反应位点预设范围内的特征信息。所述特征信息可以包括原子特征和键特征,其中,原子特征可以包括原子序号、形式电荷、原子连接度、连接氢数量等;所述键特征可以包括键级、共轭、环等。并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别。参考图10所示,图10中的序号1、2、3分别表示3个原子,通过化学键进行连接,图神经网络提取了原子及化学键的特征信息,并进行融合,通过全连接层实现特征信息的分类。
图11为一个实施例中化学反应查询方法的流程示意图,参考图11所示,所述方法包括:
步骤S1101,获取目标化学反应式。
步骤S1103,按照本公开实施例中任一项所述的化学反应类型的识别方法,识别所述目标化学反应式的类型。
步骤S1105,从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
本公开实施例中,数据库中包括化学反应式与反应类型的关联关系,例如,同一反应类型的化学反应式可以包括多个。在一个示例中,所述数据库中的化学反应式的反应类型可以通过本公开实施例任一项所述的化学反应类型的识别方法识别确定。在一个示例中,可以根据需求,设置不同的查询和分类颗粒度。通过本公开实施例的方法,可以方便快速的查询目标化学反应式同类型的化学反应式。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的化学反应类型的识别方法的化学反应类型的识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个化学反应类型的识别装置实施例中的具体限定可以参见上文中对于化学反应类型的识别方法的限定,在此不再赘述。
在一个实施例中,如图12所示,提供了一种化学反应类型的识别装置,包括:
第一获取模块1201,用于获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;
确定模块1203,用于确定所述标记化学反应式对应的图模型;
分类模块1205,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
在一种可能的实现方式中,所述获取模块包括:
获取子模块,用于获取目标化学反应式;
生成子模块,用于将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
在一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建模块,用于构建初始标注模型,所述标注模型中设置有训练参数;
预测模块,用于将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
调参模块,用于基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
在一种可能的实现方式中,所述确定模块,包括:
第一确定子模块,用于基于所述标记化学反应式中的各原子,确定图模型的图节点;
第二确定子模块,用于基于所述标记化学反应式中的原子之间的化学键,确定图模型的图节点间的连线;
处理子模块,用于将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
在一种可能的实现方式中,所述分类模块,包括:
提取子模块,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
第一分类子模块,用于将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
在一种可能的实现方式中,所述第一分类子模块,包括:
处理单元,用于对所述特征信息进行降维处理,得到处理后的特征信息;
分类单元,用于将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
在一种可能的实现方式中,所述分类模块,包括:
第二分类子模块,用于将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
上述化学反应类型的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的化学反应查询方法的化学反应查询装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个化学反应查询装置实施例中的具体限定可以参见上文中对于化学反应类型的识别方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种化学反应查询装置,包括:
第三获取模块,用于获取目标化学反应式;
识别模块,用于根据本公开实施例任一项所述的化学反应类型的识别装置,识别所述目标化学反应式的类型;
查询模块,用于从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
上述化学反应类型的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种化学反应类型的识别方法或者实现一种化学反应查询方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种化学反应类型的识别方法,或者实现一种化学反应查询方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (19)

1.一种化学反应类型的识别方法,其特征在于,所述方法包括:
获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;
确定所述标记化学反应式对应的图模型;
提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
2.根据权利要求1所述的方法,其特征在于,所述获取标记化学反应式,包括:
获取目标化学反应式;
将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
3.根据权利要求2所述的方法,其特征在于,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得,包括:
获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建初始标注模型,所述标注模型中设置有训练参数;
将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
4.根据权利要求1所述的方法,其特征在于,所述图模型至少包括图节点以及图节点间的连线,所述确定所述标记化学反应式对应的图模型,包括:
基于所述标记化学反应式中的各原子,确定图模型的图节点;
基于所述标记化学反应式中的原子之间的化学键,确定所述图模型的图节点间的连线;
将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
5.根据权利要求1所述的方法,其特征在于,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述标记化学反应式的类别,包括:
提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
6.根据权利要求5所述的方法,其特征在于,所述将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型,包括:
对所述特征信息进行降维处理,得到处理后的特征信息;
将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
7.根据权利要求1所述的方法,其特征在于,所述提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别,包括:
将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
8.一种化学反应查询方法,其特征在于,包括:
获取目标化学反应式;
按照权利要求1至7中任一项所述的化学反应类型的识别方法,识别所述目标化学反应式的类型;
从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
9.一种化学反应类型的识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取标记化学反应式,其中,所述标记化学反应式包括目标化学反应式,以及在所述目标化学反应式上标注有反应物到产物之间原子的映射关系;
确定模块,用于确定所述标记化学反应式对应的图模型;
分类模块,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息,并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
10.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
获取子模块,用于获取目标化学反应式;
生成子模块,用于将所述目标化学反应式输入至预设标注模型,输出标记化学反应式;其中,所述预设标注模型为根据样本化学反应式与样本标记化学反应式的对应关系训练获得。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取样本集合,所述样本集合包括第一样本化学反应式和第二样本化学反应式;其中,所述第二样本化学反应式为对所述第一样本化学反应式中反应物或产物的原子位点进行随机掩膜处理获得;
构建模块,用于构建初始标注模型,所述标注模型中设置有训练参数;
预测模块,用于将所述第二样本化学反应式输入至所述初始标注模型,得到掩膜处理后的所述原子位点上的预测原子,以及除所述原子位点以外的其他原子位点上对所述预测原子的影响权重;
调参模块,用于基于所述预测原子与所述第一样本化学反应式中所述原子位点对应原子之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,包括:
第一确定子模块,用于基于所述标记化学反应式中的各原子,确定图模型的图节点;
第二确定子模块,用于基于所述标记化学反应式中的原子之间的化学键,确定图模型的图节点间的连线;
处理子模块,用于将所述标记化学反应式中反应物到产物之间原子的映射关系添加到所述图节点上,得到所述图模型。
13.根据权利要求9所述的装置,其特征在于,所述分类模块,包括:
提取子模块,用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;
第一分类子模块,用于将所述特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型;其中,所述第一预设分类模型为根据样本特征信息与化学反应式的类型的对应关系训练获得。
14.根据权利要求13所述的装置,其特征在于,所述第一分类子模块,包括:
处理单元,用于对所述特征信息进行降维处理,得到处理后的特征信息;
分类单元,用于将所述处理后的特征信息输入至第一预设分类模型,输出所述目标化学反应式的类型。
15.根据权利要求9所述的装置,其特征在于,所述分类模块,包括:
第二分类子模块,用于将所述图模型输入至第二预设分类模型,输出所述目标化学反应式的类型;其中,所述第二预设分类模型基于图神经网络训练得到,所述第二预设分类模型用于提取所述图模型的原子反应位点及所述原子反应位点预设范围内的特征信息;并基于所述特征信息,对所述标记化学反应式进行分类,得到所述目标化学反应式的类别。
16.一种化学反应查询装置,其特征在于,包括:
第三获取模块,用于获取目标化学反应式;
识别模块,用于根据权利要求9至15中任一项所述的化学反应类型的识别装置,识别所述目标化学反应式的类型;
查询模块,用于从预设的数据库中查询与所述类型相匹配的化学反应式;其中,所述数据库包括化学反应式与反应类型的关联关系。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤或者实现权利要求8所述的方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤或者实现权利要求8所述的方法的步骤。
19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤或者实现权利要求8所述的方法的步骤。
CN202211480879.5A 2022-11-24 2022-11-24 化学反应类型的识别方法、装置、计算机设备 Active CN115762667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211480879.5A CN115762667B (zh) 2022-11-24 2022-11-24 化学反应类型的识别方法、装置、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211480879.5A CN115762667B (zh) 2022-11-24 2022-11-24 化学反应类型的识别方法、装置、计算机设备

Publications (2)

Publication Number Publication Date
CN115762667A true CN115762667A (zh) 2023-03-07
CN115762667B CN115762667B (zh) 2024-05-28

Family

ID=85336915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211480879.5A Active CN115762667B (zh) 2022-11-24 2022-11-24 化学反应类型的识别方法、装置、计算机设备

Country Status (1)

Country Link
CN (1) CN115762667B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392691A (zh) * 2023-11-01 2024-01-12 杭州德睿智药科技有限公司 一种化学结构式提取方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021042503A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN113707214A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 代谢物标记方法、装置、计算机设备及存储介质
CN113948157A (zh) * 2020-07-16 2022-01-18 腾讯科技(深圳)有限公司 化学反应分类方法、装置、电子设备及存储介质
WO2022048671A1 (zh) * 2020-09-07 2022-03-10 华为技术有限公司 事件分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021042503A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN113948157A (zh) * 2020-07-16 2022-01-18 腾讯科技(深圳)有限公司 化学反应分类方法、装置、电子设备及存储介质
WO2022048671A1 (zh) * 2020-09-07 2022-03-10 华为技术有限公司 事件分类方法和装置
CN113707214A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 代谢物标记方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392691A (zh) * 2023-11-01 2024-01-12 杭州德睿智药科技有限公司 一种化学结构式提取方法、系统、设备及存储介质
CN117392691B (zh) * 2023-11-01 2024-04-19 杭州德睿智药科技有限公司 一种化学结构式提取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN115762667B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Zhou et al. Atrank: An attention-based user behavior modeling framework for recommendation
Liu et al. Feature selection based on quality of information
Eberle et al. Building and interpreting deep similarity models
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
KR102295805B1 (ko) 학습 데이터 관리 방법
Zhao et al. Deep image clustering with category-style representation
Schimunek et al. Context-enriched molecule representations improve few-shot drug discovery
CN115762667B (zh) 化学反应类型的识别方法、装置、计算机设备
CN115274008A (zh) 基于图神经网络的分子性质预测方法和系统
JP7353874B2 (ja) 材料特性予測装置および材料特性予測方法
Lagrari et al. An efficient model of text categorization based on feature selection and random forests: Case for Business documents
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
El-Atta et al. Two-class support vector machine with new kernel function based on paths of features for predicting chemical activity
CN116503031B (zh) 基于简历解析的人员相似性计算方法、装置、设备及介质
CN112988964A (zh) 文本韵律边界预测的方法、装置、设备及存储介质
Renjith et al. Pragmatic evaluation of the impact of dimensionality reduction in the performance of clustering algorithms
Liu et al. DNN2LR: Interpretation-inspired feature crossing for real-world tabular data
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
US11886445B2 (en) Classification engineering using regional locality-sensitive hashing (LSH) searches
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
Shubh et al. Handwriting recognition using deep learning
CN114496068A (zh) 蛋白质二级结构预测方法、装置、设备及存储介质
dos Santos et al. Digital Twin simulation models: a validation method based on machine learning and control charts
CN113901223B (zh) 企业分类模型的生成方法、装置、计算机设备、存储介质
CN117078112B (zh) 应用于企业异常用电管理的能耗检测方法及数据分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant