CN113140260B - 合成物的反应物分子组成数据预测方法和装置 - Google Patents

合成物的反应物分子组成数据预测方法和装置 Download PDF

Info

Publication number
CN113140260B
CN113140260B CN202010065048.6A CN202010065048A CN113140260B CN 113140260 B CN113140260 B CN 113140260B CN 202010065048 A CN202010065048 A CN 202010065048A CN 113140260 B CN113140260 B CN 113140260B
Authority
CN
China
Prior art keywords
reactant
composition
information
composition data
structure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065048.6A
Other languages
English (en)
Other versions
CN113140260A (zh
Inventor
丁强刚
赵沛霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010065048.6A priority Critical patent/CN113140260B/zh
Publication of CN113140260A publication Critical patent/CN113140260A/zh
Application granted granted Critical
Publication of CN113140260B publication Critical patent/CN113140260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种合成物的反应物分子组成数据预测方法和装置,所述方法包括:获取合成物的第一分子组成数据;将第一分子组成数据转换为对应的合成物图结构信息;根据合成物图结构信息预测得到反应物图结构信息;将反应物图结构信息转换为反应物的第二分子组成数据,其中,该反应物用于合成该合成物。采用本申请的方法能够提高预测准确度。

Description

合成物的反应物分子组成数据预测方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种合成物的反应物分子组成数据预测方法和装置。
背景技术
有机合成为药物领域和材料领域提供了广泛的化合物。逆合成法,是指从合成物推导出反应物的方法。传统的合成物的反应物分子组成数据预测方法是通过递归把合成物数据分解成一组可用的反应物数据实现的。然而,传统的方式,预测的准确度不高。
发明内容
基于此,有必要针对预测得到的反应物分子的组成数据准确度不高的技术问题,提供一种合成物的反应物分子组成数据预测方法和装置。
一种合成物的反应物分子组成数据预测方法,所述方法包括:
获取合成物的第一分子组成数据;
将所述第一分子组成数据转换为对应的合成物图结构信息;
根据所述合成物图结构信息预测得到反应物图结构信息;
将所述反应物图结构信息转换为所述反应物的第二分子组成数据其中,所述反应物用于合成所述合成物。
一种反应物预测模型训练方法,所述方法包括:
获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
将所述样本分子组成数据转换为对应的合成物图结构信息样本;
将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
一种合成物的反应物分子组成数据预测装置,所述装置包括:
第一获取模块,用于获取合成物的第一分子组成数据;
第一转换模块,用于将所述第一分子组成数据转换为对应的合成物图结构信息;
预测模块,用于根据所述合成物图结构信息预测得到反应物图结构信息;
第二转换模块,将所述反应物图结构信息转换为所述反应物的第二分子组成数据,其中,所述反应物用于合成所述合成物。
一种反应物预测模型训练装置,所述装置包括:
第二获取模块,用于获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
图结构信息样本转换模块,用于将所述样本分子组成数据转换为对应的合成物图结构信息样本;
输入模块,用于将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
调整模块,用于根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取合成物的第一分子组成数据;
将所述第一分子组成数据转换为对应的合成物图结构信息;
根据所述合成物图结构信息预测得到反应物图结构信息;
将所述反应物图结构信息转换为所述反应物的第二分子组成数据其中,所述反应物用于合成所述合成物。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
将所述样本分子组成数据转换为对应的合成物图结构信息样本;
将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取合成物的第一分子组成数据;
将所述第一分子组成数据转换为对应的合成物图结构信息;
根据所述合成物图结构信息预测得到反应物图结构信息;
将所述反应物图结构信息转换为所述反应物的第二分子组成数据其中,所述反应物用于合成所述合成物。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
将所述样本分子组成数据转换为对应的合成物图结构信息样本;
将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
上述合成物的反应物分子组成数据预测方法、装置、计算机可读存储介质和计算机设备,可应用于化学分子组成数据,获取合成物的第一分子组成数据,将第一分子组成数据转换为对应的合成物图结构信息,将分子组成数据用图结构表示,能够利用分子的整体结构信息,获取的第一分子组成数据对应的信息更丰富;根据合成物图结构信息预测得到反应物图结构信息,将反应物图结构信息转换为反应物的第二分子组成数据,即对分子的整体结构信息进行预测得到反应物图结构信息,转化得到的第二分子组成数据更加准确,且不受规则库的限制,可以预测全新的化学逆合成反应路径。
附图说明
图1为一个实施例中合成物的反应物分子组成数据预测方法的应用环境图;
图2为一个实施例中合成物的反应物分子组成数据预测方法的流程示意图;
图3为一个实施例中获取第一分子组成数据对应的合成物点特征矩阵的流程示意图;
图4为另一个实施例中合成物的反应物分子组成数据预测方法的流程示意图;
图5为一个实施例中反应物预测模型训练方法的流程示意图;
图6为一个实施例中合成物样本分子和参考反应物分子组成数据的示意图;
图7为另一个实施例中合成物样本分子和参考反应物分子组成数据的示意图;
图8为一个实施例中合成物的反应物分子组成数据预测装置的装置框图;
图9为一个实施例中反应物预测模型训练装置框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中合成物的反应物分子组成数据预测方法的应用环境图。该合成物的反应物分子组成数据预测方法应用于合成物信息处理系统。该合成物信息处理系统包括终端110和服务器120。终端110和服务器120均为计算机设备。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图1的应用环境也适用于反应物预测模型训练方法。合成物的反应物分子组成数据预测方法和反应物预测模型训练方法均可以仅应用于终端110,或者仅应用于服务器120。合成物的反应物分子组成数据预测方法可通过分子组成数据预测程序实现。反应物预测模型训练方法可通过模型训练程序实现。分子组成数据预测程序和模型训练程序均可应用于终端110或者服务器120。终端110可从服务器120获取合成物的第一分子组成数据,或者服务器120可从终端110获取合成物的第一分子组成数据。
在一个实施例中,由于分子可能有许多可能的分解方式,对合成物的逆合成反应分析通常会导致大量可能的路线。选择一个合适的合成路线是一个巨大的挑战,因为路线之间的差异往往是很微妙的。因此,计算机程序预测分子逆合成路线的方法被用于辅助设计新分子,其中大多数方法依赖于手工编码的反应模板。以这些模板为基础,根据泛化的反应规则建立合成路线。因此,这些方法的准确性取决于模板和反应规则的可用性。基于规则的系统需要一个广泛的和最新的规则库,该系统必须能够涵盖大多数已知的合成方法。但由于新反应的数量不断增加,建立规则库往往并不能完全覆盖所有的化学逆合成反应。此外,一个简单的模板通常不足以可靠地预测逆合成反应。基于人工制定的模板的分子逆合成算法具有一定的局限性。它们不能预测出人工制定的规则库之外的反应,也就不能预测全新的化学逆合成路径。预测化学逆合成反应路径是指一个合成物分子组成数据能通过逆合成反应预测得到哪些反应物分子组成数据。
因此,如图2所示,本申请实施例提供了一种合成物的反应物分子组成数据预测方法的流程示意图。本实施例主要以该方法应用于上述图1中的终端110或服务器120来举例说明。参照图2,该合成物的反应物分子组成数据预测方法具体包括如下步骤:
步骤202,获取合成物的第一分子组成数据。
其中,合成物是指能够根据至少两个化学分子进行合成的化合物。即,至少两个化学分子通过合成反应可生成合成物。合成物即合成物分子。合成物中包括合成物原子。化合物是由两种或两种以上不同元素组成的纯净物。纯净物是指由一种单质或一种化合物组成的聚合物。第一分子组成数据即表示合成物分子组成数据。合成物的第一分子组成数据的表现形式可以是合成物的化学式图像或者合成物的分子字符串。其中,合成物分子字符串具体可以是合成物的化学式、合成物的分子式、可以是合成物的SMILES(Simplifiedmolecular input line entry specification,分子线性输入规范)字符串、可以是WLN(Wiswesser Line-formula Chemical Notation,韦氏线型化学代码)、或者也可以是InChI(International Chemical Identifier,国际化合物标识码)等不限于此。分子式(molecular formula)是用元素符号表示纯净物,即单质或者化合物分子的组成及相对分子质量的化学组成式。
具体地,分子组成数据预测程序从终端或者服务器中获取合成物的第一分子组成数据。第一分子组成数据中还可包含原子名称、原子名称对应的个数等。
步骤204,将第一分子组成数据转换为对应的合成物图结构信息。
其中,图(Graph)结构是由顶点和连接顶点的边构成的离散结构。图结构信息可包括点特征矩阵和边特征矩阵。合成物图结构信息可用于描述合成物的第一分子组成数据的结构信息,例如合成物化学键信息、合成物的原子信息、合成物的维度信息等。每个第一分子组成数据均有对应的合成物图结构信息。
具体地,分子组成数据预测程序将第一分子组成字符串转换成对应的合成物图结构信息。或者,分子组成数据预测程序将第一分子组成图像转化为对应的合成物图结构信息。
步骤206,根据合成物图结构信息预测得到反应物图结构信息。
具体地,在化学领域中,一些化学键较不稳定,容易断裂。那么,分子组成数据预测程序可根据合成物图结构信息中的合成物化学键信息将合成物图结构信息分解为用于合成该合成物的反应物对应的反应物图结构信息,其中,合成物图结构信息中包含化学键信息。
步骤208,将反应物图结构信息转换为反应物对应的第二分子组成数据,其中,该反应物用于合成该合成物。
其中,反应物能够通过合成反应生成合成物。或者,第二分子组成数据是指第一分子组成数据经过逆合成反应后预测得到的分子组成数据。第二分子组成数据即反应物分子组成数据。反应物的第二分子组成数据的表现形式可以是反应物的化学式,可以是反应物的分子式,可以是反应物图像,可以是反应物的SMILES(Simplified molecular inputline entry specification,分子线性输入规范)字符串,可以是WLN(Wiswesser Line-formula Chemical Notation,韦氏线型化学代码),也可以是InChI(InternationalChemical Identifier,国际化合物标识码)等不限于此。
具体地,反应物图结构信息中包含了反应物点特征矩阵以及反应物边特征矩阵。那么,分子组成数据预测程序根据反应物图结构信息中的反应物点特征矩阵以及反应物边特征矩阵,转换为反应物对应的第二分子组成数据。
本实施例中,当第一分子组成数据为第一分子组成字符串时,第一分子组成字符串中可以不包含氢原子。例如有机第一分子组成字符串,由于有机物中大多数分子由C(碳)、H(氢)和O(氧)三种原子构成,而H原子对有机物的化学性质影响较小,因此,在构建图结构信息时,一些H原子可以省略。那么,不包含氢原子的第一分子组成字符串,对应的合成物图结构信息、反应物图结构信息、第二分子组成字符串中均可以不包含氢原子数据。
本实施例中,由于一些第一分子组成数据可为对称性结构,因此预测的反应物图结构信息可以只有一种。那么,转换得到的第二分子组成数据也可以只有一种。
上述合成物的反应物分子组成数据预测方法,可应用于化学分子组成数据,获取合成物的第一分子组成数据,将第一分子组成数据转换为对应的合成物图结构信息,将分子组成数据用图结构表示,能够利用分子的整体结构信息,获取的第一分子组成数据对应的信息更丰富;根据合成物图结构信息预测得到反应物图结构信息,将反应物图结构信息转换为反应物的第二分子组成数据,即对分子的整体结构信息进行预测得到反应物图结构信息,转化得到的第二分子组成数据更加准确,且不受规则库的限制,可以预测全新的化学逆合成反应路径。
在一个实施例中,将第一分子组成数据转换为对应的合成物图结构信息,包括:获取第一分子组成数据对应的合成物点特征矩阵;获取第一分子组成数据对应的合成物边特征矩阵;根据合成物点特征矩阵以及合成物边特征矩阵得到合成物图结构信息。
其中,合成物点特征矩阵可以是指第一分子组成数据中每个原子数据的原子信息得到的。合成物边特征矩阵可以根据第一分子组成数据中各原子之间的连接关系、各原子之间的化学键信息中至少一种得到的。
具体地,分子组成数据预测程序可获取第一分子组成数据中每个原子数据的原子信息,根据每个原子数据的原子信息确定点特征矩阵。分子组成数据预测程序将合成物点特征矩阵以及合成物边特征矩阵进行组合,得到合成物图结构信息。例如,点特征矩阵为F,边特征矩阵为D,那么合成物图结构信息G={D,F},即G等于D和F的集合。
上述合成物的反应物分子组成数据预测方法,获取第一分子组成数据对应的合成物点特征矩阵,获取第一分子组成数据对应的合成物边特征矩阵,能够通过第一分子组成数据的合成物点特征矩阵以及合成物边特征矩阵构建合成物图结构信息,得到更准确的第一分子组成数据相关信息,从而使得预测出的第二分子组成数据更加准确。
在一个实施例中,如图3所示,为一个实施例中获取第一分子组成数据对应的合成物点特征矩阵的流程示意图,包括:
步骤302,获取第一分子组成数据中每个原子数据的第一原子信息。
其中,第一原子信息用于表征合成物原子自身的信息。第一原子信息包括合成物原子的元素信息、价态信息、度信息、是否属于苯环的信息中至少一种但不限于此。元素信息包括原子在元素周期表的排行、元素的名称、相对原子质量中至少一种但不限于此。例如碳元素在元素周期表中排第6,碳元素的名称为C,碳元素的相对原子质量为12.01。
价态又称化合价或者原子价,价态是各种元素的一个原子或原子团、基与其他原子相互化合的数目。原子在不同化合物中的价态可以不相同。例如,在CO(一氧化碳)中碳的价态为+2价,而在CO2(二氧化碳)中碳的价态为+4价。价态信息包括该原子在该化合物中的价态。
原子的度信息包括连接了该原子的其他原子的数量。例如CO2,其中的碳原子与两个氧原子相连接,两个氧原子均分别与碳原子相连接。那么C原子的度信息可以为2。
具体地,分子组成数据预测程序获取第一分子组成数据中每个原子数据的第一原子信息。例如,CO2,将它看成0-C-0的结构,C为一个原子数据,O(左)为一个原子数据,O(右)为一个原子数据,那么需要获取O(左)、C、O(右)的第一原子信息。
步骤304,将第一原子信息转换为原子特征向量。
其中,原子特征向量用于表征原子特征。原子特征向量可以是Q维向量。Q为大于或等于1的自然数。
具体地,每种原子信息具有相同的维度。例如,每个原子的原子特征向量的维度均为Q维。分子组成数据预测程序将第一原子信息转换为原子特征向量。
本实施例中,即使两个原子的原子信息完全相同,也需要分别转换成原子特征向量。
步骤306,根据原子特征向量确定第一分子组成数据对应的原子特征矩阵。
具体地,分子组成数据预测程序按照预设顺序,根据原子特征向量,确定第一分子组成数据对应的原子特征矩阵。例如,CO,将它看成0-C的结构,可以按照O、C的顺序确定第一分子组成数据对应的原子特征矩阵。当视为C-0结构时,可按照C、O的顺序确定第一分子组成数据对应的原子特征矩阵。
步骤308,将原子特征矩阵作为合成物点特征矩阵。
具体地,分子组成数据预测程序将原子特征矩阵作为点特征矩阵。
上述合成物的反应物分子组成数据预测方法,获取第一分子组成数据中每个原子的第一原子信息,将第一原子信息转换为原子特征向量,根据原子特征向量确定第一分子组成数据对应的原子特征矩阵,将原子特征矩阵作为点特征矩阵,可根据原子信息构建点特征矩阵,能够考虑更多的合成物信息,提高反应物预测的准确度。
在一个实施例中,获取第一分子组成数据对应的合成物边特征矩阵,包括:获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;将第一化学键特征矩阵作为合成物边特征矩阵。
其中,化学键特征矩阵中可包括一对原子之间的化学键的特征。第一化学键特征矩阵是根据合成物中各原子之间第一的化学键信息确定的。化学键特征矩阵可包含官能团信息。而官能团可确定化学分子的化学性质。化学键(chemical bond)会影响分子的化学性质。第一化学键特征矩阵可包括合成物中各原子之间连接的化学键类型、键能、键合距离中至少一种但不限于此。化学键类型可以分为离子键、共价键和金属键,而共价键又可区分为极性键和非极性键。
键能(Bond Energy)是从能量因素衡量化学键强弱的物理量。键能越大,本身能量就越低,键能越小,本身能量越高。一般来说,键能越大,化学键越牢固,化学键越不容易断裂。那么,当第一分子组成数据中某个化学键的键能较小时,该化学键容易断裂,从而得到第二分子组成数据。键合距离是指两个或以上的原子核之间形成化学键所必需的最短距离。
由于空间中任意两点都在同一平面中,因此,各原子之间的空间特征可视为在同一平面中。
具体地,分子组成数据预测程序获取合成物中各合成物原子之间的第一化学键特征信息;根据第一化学键信息构建第一分子组成数据对应的第一化学键特征矩阵。第一化学键特征矩阵为N×N×P维的张量。其中,N为第一分子组成数据数,P为化学键特征的维度。其中N和P均为大于或等于1的正整数。P可取决于化学键特征的种类数量。例如,CO2,O-C-O中包括O(左)和C之间的化学键特征A,以及C和O(右)之间的化学键特征B。那么A和B可组合成第一分子组成数据的化学键特征矩阵。
上述合成物的反应物分子组成数据预测方法,获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;将第一化学键特征矩阵作为合成物边特征矩阵,能够通过合成物的化学键信息分析得到第一分子组成数据包含的化学性质信息,从而根据这些化学性质信息等预测第二分子组成数据,相较于仅有点和边的图结构,能够得到更加丰富的第一分子组成数据中包含的信息,从而提高反应物预测的准确度。
在一个实施例中,获取第一分子组成数据对应的合成物边特征矩阵,包括:获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是根据合成物中各原子之间的连接信息确定的;获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;根据邻接矩阵以及第一化学键特征矩阵确定合成物边特征矩阵。
其中,合成物中各原子之间的连接具有无向性。即只需得到原子a和原子b相连,原子b和原子c相连等信息即可。
具体地,分子组成数据预测程序根据合成物中各原子之间的连接信息可确定第一分子组成数据对应的邻接矩阵。例如,分子A中,原子a与原子b相连,原子b和原子c相连接,形成链式结构。那么,构建的邻接矩阵中第一列表示a原子,第二列表示b原子,第三列表示c原子;第一行表示a原子,第二行表示b原子,第三行表示c原子。以0表示未连接,1表示连接。那么可根据上述连接关系生成邻接矩阵Z。
将第一分子组成数据对应的第一化学键特征矩阵设为E。那么分子组成数据预测程序根据邻接矩阵以及化学键特征矩阵可确定合成物边特征矩阵为{Z,E}。即边特征矩阵可通过集合的形式表示。
上述合成物的反应物分子组成数据预测方法,获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是根据合成物中各原子之间的连接信息确定的;获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的化学键信息确定的;根据邻接矩阵以及第一化学键特征矩阵确定合成物边特征矩阵,能够充分考虑合成物分子的结构信息等,并且采用计算机能够识别计算的矩阵进行预测,提高第二分子组成数据的预测准确度。
在一个实施例中,根据合成物图结构信息预测得到反应物图结构信息,包括:将合成物图结构信息输入至目标反应物预测模型,得到反应物图结构信息,其中,目标反应物预测模型是根据合成物图结构信息样本训练而成的。
其中,反应物图结构信息可用于描述第二分子组成数据的结构信息,例如反应物的原子信息、反应物化学键信息、反应物的维度信息等。
目标反应物预测模型用于将合成物图结构信息转换为反应物图结构信息。目标反应物预测模型是根据合成物图结构信息样本进行训练得到的。目标反应物预测模型具体可以是将合成物图结构信息样本输入至初始图神经网络中进行训练得到的。图神经网络(Graph Neural Network,GNN)具体可以是GAT(Graph Attention Network,图注意力网络)、GCN(Graph Convolutional Network,图卷积网络)、MPNN(Message Passing NeuralNetwork,消息传递神经网络)等不限于此。
具体地,分子组成数据预测程序将合成物图结构信息输入至目标反应物预测模型,得到至少一组反应物图结构信息。一组反应物图结构信息是指在同一个化学逆合成预测反应中预测得到的反应物图结构信息。由于一个第一分子组成数据经过逆合成反应预测后,会预测出至少一组对应的第二分子组成数据。即,当化学逆合成反应预测条件不相同时,预测得到的第二分子组成数据可能会不相同。一个第一分子组成数据可能对应多种逆合成路径,预测得到多组第二分子组成数据。目标反应物预测模型可根据合成物图结构信息,预测得到概率最大的k种反应物图结构信息。其中,k为大于或等于1的正整数。目标反应物预测模型可通过集束搜索(Beam search)算法输出至少一组反应物图结构信息,可同时预测出至少一种第二分子组成数据,得到不同的反应路径,提高第二分子组成数据预测效率。
在一个实施例中,反应物预测模型的训练方式包括:获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;将样本分子组成数据转换为对应的合成物图结构信息样本;将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
其中,样本分子组成数据用于训练得到目标反应物预测模型。分子组成测试数据可用于测试目标反应物预测模型是否符合预测标准即是否符合预测正确率等。参考反应物图结构信息是指合成物样本分子对应的正确的反应物图结构信息。即目标反应物图结构信息的标签。参考反应物图结构信息是指参考反应物分子组成数据对应的图结构信息。参考反应物分子可用于合成该合成物样本分子。
初始反应物预测模型是指未经训练的反应物预测模型。初始反应物预测模型可以是未经训练的图神经网络。具体可以是GAT、GCN、MPNN等。
具体地,分子组成数据预测程序获取合成物样本分子对应的样本分子组成数据,以及与参考反应物分子对应的参考反应物图结构信息。分子组成数据预测程序将样本分子组成数据转换为对应的合成物图结构信息样本。将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息。分子组成数据预测程序根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型中的参数值,当满足迭代条件时,得到目标反应物预测模型。其中,迭代条件可以是训练次数达到预设训练次数、预测的正确率达到正确率阈值等不限于此。
本实施例中,合成信息处理程序可以先获取样本分子组成数据,将样本分子组成数据转换为对应的合成物图结构信息样本之后再获取参考反应物图结构信息。或者,分子组成数据预测程序先获取样本分子组成数据,将样本分子组成数据转换为对应的合成物图结构信息样本,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息之后,再获取参考反应物图结构信息。或者,合成信息处理程序先获取参考反应物图结构信息,再获取样本分子组成数据等不限于此。
上述合成物的反应物分子组成数据预测方法,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息,将样本分子组成数据转换为对应的合成物图结构信息样本,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型,能够训练得到用于预测化学逆合成反应的反应物预测模型,并且输入的分子数据丰富,得到的目标反应物预测模型预测出的结果则更加准确。
在一个实施例中,将第一分子组成数据转换为对应的合成物图结构信息,包括:按照预设原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息。
具体地,预设原子排列顺序是指分子组成数据预测程序预先设定的原子排列顺序。由于图结构是无序的,比如一个分子包含ABC三个原子,那么可以用ACB、CBA等等形式表示该分子,该分子中原子顺序并不是唯一确定的。那么,可为该分子设置顺序,例如可以在进行图结构信息转换之前为每个原子标记顺序,可以将SMILES字符串的顺序作为预设原子顺序,也可以将WLN字符串的顺序作为预设原子顺序,还可以将InChI字符串的顺序作为预设原子顺序,或者将第一分子组成数据的分子式作为预设原子顺序。
由于合成物图结构信息包括合成物点特征矩阵以及合成物边特征矩阵。那么分子组成数据预测程序可按照预设原子排列顺序构建合成物点特征矩阵,按照预设原子排列顺序构建合成物边特征矩阵,使合成物点特征矩阵与合成物边特征矩阵能够相对应。
上述合成物的反应物分子组成数据预测方法,按照预设原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息,能够唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,从而降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,按照预设原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息,包括:获取第一分子组成数据中每个原子数据的第一原子信息;将第一原子信息转换为原子特征向量;按照预设原子排列顺序对原子特征向量进行排序,确定第一分子组成数据对应的原子特征矩阵;获取合成物中各合成物原子数据之间的第一化学键信息,以及按照预设原子排列顺序对第一化学键信息进行排序,确定第一分子组成数据对应的合成物边特征矩阵;根据原子特征矩阵以及合成物边特征矩阵得到合成物图结构信息。
上述合成物的反应物分子组成数据预测方法,能够通过原子特征矩阵以及合成物边特征矩阵唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,从而降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,按照预设原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息,包括:获取第一分子组成数据中每个原子数据的第一原子信息;将第一原子信息转换为原子特征向量;按照预设原子排列顺序对原子特征向量进行排序,确定第一分子组成数据对应的原子特征矩阵;获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是按照预设原子顺序且根据合成物中各原子之间的连接信息确定的,各原子之间的连接信息按照预设原子排列顺序进行排列;获取第一分子组成数据中各合成物原子之间的第一化学键特征信息,以及按照预设原子排列顺序对第一化学键特征信息进行排序,确定第一分子组成数据对应的合成物边特征矩阵;根据原子特征矩阵、邻接矩阵和合成物边特征矩阵得到合成物图结构信息。
上述合成物的反应物分子组成数据预测方法,能够通过原子信息、原子之间的连接信息以及化学键特征矩阵唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,从而降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,按照预设顺序将第一分子组成数据转换为对应的合成物图结构信息,包括:获取第一分子组成数据的合成物原子排列顺序;按照合成物原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息。
其中,合成物原子排列顺序可以是合成物化学式中原子排列顺序、第一分子组成数据式中原子排列顺序、SMILES字符串的顺序、WLN字符串的顺序或InChI字符串的顺序不限于此。
具体地,分子组成数据预测程序获取第一分子组成字符串的合成物原子排列顺序。分子组成数据预测程序按照合成物原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息。例如,相同第一分子组成数据的不同化学式OC(=O)C(Br)(Cl)N、ClC(Br)(N)C(=O)O、O=C(O)C(N)(Br)Cl,化学式的写法不相同,而按照SMILES字符串的排列顺序,上述三种化学式的SMILES字符串均是NC(Cl)(Br)C(=O)O,能够唯一确定第一分子组成数据图结构信息。
本实施例中,第一分子组成数据中可以不包含氢原子。即第一分子组成字符串和第一分子组成图像中均可以不包含氢原子。那么合成物原子排列顺序中,可不包含氢原子的排列顺序。
上述合成物的反应物分子组成数据预测方法,获取第一分子组成数据的合成物原子排列顺序,按照合成物原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息,不需要手动设定,按照合成物原子排列顺序就能够唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵。将反应物图结构信息转换为对应的第二分子组成数据,包括:将反应物点特征矩阵转换为第二原子信息;将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息;根据第二原子信息以及第二化学键特征信息将反应物图结构信息转换为第二分子组成数据。
其中,反应物点特征矩阵用于表示反应物图结构信息中的点的特征。反应物点特征矩阵可用于表征反应物的第二原子信息。第二原子信息用于表征反应物原子自身的信息。第二原子信息可包括反应物原子的元素信息、价态信息、度信息、是否属于苯环的信息中至少一种但不限于此。
反应物边特征矩阵用于表示反应物边特征矩阵中的边。反应物边特征矩阵包括反应物的第二化学键特征矩阵,还可以包括反应物的第二邻接矩阵。第二化学键特征信息可由第二分子组成数据中各原子之间进行连接的化学键信息确定的。第二化学键特征信息可包括反应物中各反应物原子之间连接的化学键类型、键能、键合距离中至少一种但不限于此。
具体地,分子组成数据预测程序将合成物图结构信息输入至反应物预测模型中,得到的是反应物点特征矩阵以及反应物边特征矩阵。分子组成数据预测程序将反应物点特征矩阵转换为第二原子信息。将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息。那么,分子组成数据预测程序根据第二原子信息以及第二化学键特征信息即可还原出第二分子组成数据。
例如,给定一个图结构信息,其中有6个原子构成一个环,每个原子均为C原子,并且每条边都是方向键,可以唯一确定该图结构信息表示的是一个苯环。
上述合成物的反应物分子组成数据预测方法,将反应物点特征矩阵转换为第二原子信息,将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息,根据第二原子信息以及第二化学键特征信息将反应物图结构信息转换为第二分子组成数据,能够根据原子信息以及化学键特征信息还原出第二分子组成数据,从而模拟化学逆合成反应,预测得到第二分子组成数据,由第一分子组成数据预测得到第二分子组成数据,由于处理过程中得到的分子信息较丰富,因此预测的第二分子组成数据更加准确。
在一个实施例中,反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵。将反应物图结构信息转换为对应的第二分子组成数据,包括:将反应物点特征矩阵转换为第二原子信息;将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征矩阵以及各反应物原子之间的第二连接信息;根据第二原子信息、第二连接信息以及第二化学键特征信息将反应物图结构信息转换为第二分子组成数据。
具体地,第二连接信息用于表示各第二分子组成数据之间原子的连接信息。第二连接信息通过邻接矩阵表示。那么,合成物信息处理信息根据每个原子的第二原子信息、各原子之间的连接关系、各原子之间化学键特征,即可还原出第二分子组成数据,从而模拟化学逆合成反应,由第一分子组成数据预测得到第二分子组成数据,由于处理过程中得到的分子信息较丰富,因此预测的第二分子组成数据更加准确。
在一个实施例中,如图4所示,为另一个实施例中合成物的反应物分子组成数据预测方法的流程示意图。其中402为第一分子组成数据,404为合成物点特征矩阵,406为合成物边特征矩阵。经过反应物预测模型后得到反应物图结构信息。反应物图结构信息包括反应物点特征矩阵408和反应物边特征矩阵410。将反应物图结构信息转换为第二分子组成数据412和第二分子组成数据414。其中如分子414中的化学键4144可用于表示OH官能团与环不在同一平面,化学键4142可用于表示O=C-CH3与环不在同一平面。
在一个实施例中,越来越多的文献提出无规则库的逆合成反应预测方法。常见的做法是将预测逆合成反应路径的问题转变为机器翻译的问题。基于SMILES表示法,我们可以将任意的分子式用唯一确定的SMILES字符串表示。因此,将合成物和反应物都用SMILES字符串表示后,逆合成反应预测问题就转变成合成物SMILES字符串到反应物SMILES串的机器翻译问题。这种基于机器翻译的逆合成预测方法没有规则库的限制,所以可以产生全新的逆合成反应路径。尽管SMILES字符串能够和分子式完全相互转换,但其暗含的分子结构信息十分的微弱,现有的机器翻译模型难以从SMILES字符串中捕捉到分子的结构信息。而分子结构信息,例如苯环、碳链等对预测逆合成反应十分重要。因此,基于机器翻译的方法依然具有一定的局限性,得到的结果准确性不高。
在一个实施例中,一种合成物的反应物分子组成数据预测方法,包括:
步骤a1,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息。
步骤a2,将样本分子组成数据转换为对应的合成物图结构信息样本。
步骤a3,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息。
步骤a4,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
步骤a5,获取合成物的第一分子组成数据。
步骤a6,获取第一分子组成数据中每个原子数据的第一原子信息。
步骤a7,将第一原子信息转换为原子特征向量。
步骤a8,根据原子特征向量确定第一分子组成数据对应的原子特征矩阵。
步骤a9,将原子特征矩阵作为合成物点特征矩阵。
步骤a10,获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是根据合成物中各原子之间的第一连接信息确定的。
步骤a11,获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键特征信息确定的。
步骤a12,根据邻接矩阵以及第一化学键特征矩阵确定合成物边特征矩阵。
步骤a13,根据合成物点特征矩阵以及合成物边特征矩阵得到合成物图结构信息。
步骤a14,将合成物图结构信息输入至目标反应物预测模型,得到反应物图结构信息,其中,目标反应物预测模型是根据合成物图结构信息样本训练而成的。
步骤a15,将反应物点特征矩阵转换为第二原子信息,反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵。
步骤a16,将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息。
步骤a17,根据第二原子信息以及第二化学键特征信息将反应物图结构信息转换为第二分子组成数据。
上述合成物的反应物分子组成数据预测方法,可应用于化学分子组成数据,将分子组成数据用包含原子信息、化学键特征信息、连接信息的图结构表示,能够利用分子的整体结构信息,获取的第一分子组成数据信息更丰富,即对分子的整体结构信息进行预测等得到反应物图结构信息,经过模型预测后得到的第二分子组成数据更加准确,也能够得到更为丰富的第二分子组成数据,且不受规则库的限制,可以预测全新的化学逆合成反应路径。
在一个实施例中,如图5所示,为一个实施例中反应物预测模型训练方法的流程示意图,该方法包括:
步骤502,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息。
步骤504,将样本分子组成数据转换为对应的合成物图结构信息样本。
步骤506,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息。
步骤508,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
上述反应物预测模型训练方法,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息,将样本分子组成数据转换为对应的合成物图结构信息样本,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型,能够训练得到用于预测化学逆合成反应的反应物预测模型,并且输入的分子信息丰富,得到的目标反应物预测模型预测出的第二分子组成数据准确度更高。
在一个实施例中,目标反应物图结构信息包括目标点特征矩阵和目标边特征矩阵,参考反应物图结构信息包括参考点特征矩阵和参考边特征矩阵。
根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,包括:获取目标点特征矩阵与参考点特征矩阵之间的第一差异信息;获取目标边特征矩阵与参考边特征矩阵之间的第二差异信息;根据第一差异信息和第二差异信息调整初始反应物预测模型的参数值。
其中,在百分百正确的情况下,目标点特征矩阵和参考点特征矩阵为相同的点特征矩阵,目标边特征矩阵和参考边特征矩阵为相同的边特征矩阵。
第一差异信息用于表示目标点特征矩阵与参考点特征矩阵之间的差异。第二差异信息用于表示目标边特征矩阵与参考边特征矩阵之间的差异。差异信息具体可以用损失函数表示。具体可以是任意的概率向量距离函数,例如KL散度、交叉熵或均方差等不限于此。
具体地,模型训练程序将目标点特征矩阵和参考点特征矩阵输入至概率向量距离函数,得到第一差异信息。模型训练程序将目标边特征矩阵和参考边特征矩阵输入至概率向量距离函数,得到第二差异信息。模型训练程序调整初始反应物预测模型的参数值,使第一差异信息和第二差异信息之和达到最小值。
例如,损失函数如下:
/>
其中,F表示点特征矩阵(feature),F1表示目标点特征矩阵,F2表示参考点特征矩阵。A表示边特征矩阵,A1表示目标边特征矩阵,A2表示参考边特征矩阵。dist1和dist2可以是任意的概率向量函数。dist1函数和dist2函数可以相同,也可以不相同。通过损失函数最小化参考反应物图结构信息以及反应物预测模型输出的目标反应物图结构信息,不断更新反应物预测模型的参数值。
上述反应物预测模型训练方法,通过获取目标点特征矩阵与参考点特征矩阵之间的第一差异信息;获取目标边特征矩阵与参考边特征矩阵之间的第二差异信息;根据第一差异信息和第二差异信息调整初始反应物预测模型的参数值,能够根据点特征矩阵和边特征矩阵不断调整模型参数值,不断提高反应物预测模型训练的准确率。
在一个实施例中,获取参考反应物分子对应的参考反应物图结构信息,包括:获取样本分子组成数据的合成物原子排列顺序;获取参考反应物分子对应的参考反应物分子组成数据;按照合成物原子排列顺序将参考反应物分子组成数据转换为参考反应物图结构信息。
具体地,模型训练程序获取样本分子组成数据中各合成物原子的排列顺序,以及参考反应物分子对应的参考反应物分子组成数据,按照合成物原子排列顺序构建参考反应物的点特征矩阵和边特征矩阵,确定参考反应物图结构信息。
上述反应物预测模型训练方法,获取样本分子组成数据中各合成物原子的排列顺序,按照各合成物原子的排列顺序将第二分子组成数据转换为参考反应物图结构信息,可确定一个唯一参考反应物图结构信息,能够使得样本分子组成数据的特征矩阵和反应物样本分子的特征矩阵对应起来,可降低反应物预测模型的训练难度,提高训练效率。
在一个实施例中,按照合成物原子排列顺序将参考反应物分子对应的参考反应物分子组成数据转换为参考反应物图结构信息,包括:按照合成物原子排列顺序确定参考反应物分子组成数据中的各原子数据的目标排列顺序;按照目标排列顺序构建参考点特征矩阵;按照目标排列顺序构建参考边特征矩阵;根据参考点特征矩阵以及参考边特征矩阵得到参考反应物图结构信息。
具体地,模型训练程序可按照合成物原子排列顺序,为参考反应物分子组成数据中的原子配置顺序标识。即样本分子组成数据中原子数据对应的顺序标识和参考反应物分子组成数据中原子数据对应的顺序标识相同。模型训练程序按照顺序标识构建参考点特征矩阵以及参考边特征矩阵。模型训练程序将参考点特征矩阵以及参考边特征矩阵组合,得到参考反应物图结构信息。例如,参考点特征矩阵为U,参考边特征矩阵为V,那么参考反应物图结构信息W={U,V},即W等于U和V的集合。
例如,图6为一个实施例中样本分子组成数据和参考反应物分子组成数据的示意图。如图6所示,样本分子组成数据中的合成物原子排列顺序如(a)图。那么得到的参考反应物分子组成数据的目标排列顺序如(b)图和(c)图。合成物信息处理顺序将样本分子组成数据的和合成物原子排列顺序映射到参考反应物分子组成数据的目标排列顺序。(a)图中按照样本分子组成数据映射的顺序构建参考反应物分子组成数据的参考点特征矩阵和参考边特征矩阵。而Br(溴)602由于是新生成的原子,即在原样本分子组成数据中无该原子数据对应的顺序标识,那么该参考反应物分子组成数据中也无该原子数据对应的顺序标识。Br(溴)602可在Br(顺序标识3)之后构建对应的参考点特征矩阵以及参考边特征矩阵。因此,图6中(b)图和(c)图中的参考反应物分子组成数据的目标排列顺序与参考反应物分子组成数据的SMILES字符串的排列顺序无关。
上述合成物的反应物分子组成数据预测方法,按照合成物原子排列顺序确定参考反应物分子组成数据中的各原子数据的目标排列顺序;按照目标排列顺序构建参考点特征矩阵;按照目标排列顺序构建参考边特征矩阵;根据参考点特征矩阵以及参考边特征矩阵得到参考反应物图结构信息,可更加迅速且便捷地确定唯一的参考反应物图结构信息,能够使得样本分子组成数据的特征矩阵和参考反应物分子组成数据的特征矩阵对应起来,可降低反应物预测模型的训练难度,提高训练效率。
在一个实施例中,图7为另一个实施例中样本分子组成数据和参考反应物分子组成数据的示意图。一个参考反应物分子组成数据可以有不同的排列顺序,可以是按照如图7的SMILES字符串的顺序,也可以按照图6的样本分子组成数据的顺序。那么,按照图7的SMILES字符串的顺序将参考反应物分子组成数据转换为参考反应物图结构信息,后续将参考反应物图结构信息转化为参考反应物分子组成数据时效率可以更高。而按照图6的排列顺序,能够降低反应物预测模型的训练难度,提高训练效率。
在一个实施例中,将样本分子组成数据转换为对应的合成物图结构信息样本,包括:获取样本分子组成数据对应的合成物样本点特征矩阵;获取样本分子组成数据对应的合成物样本边特征矩阵;根据合成物样本点特征矩阵以及合成物样本边特征矩阵得到合成物图结构信息样本。
在一个实施例中,获取样本分子组成数据对应的合成物样本点特征矩阵包括:获取样本分子组成数据中每个原子数据的第一样本原子信息;将第一样本原子信息转换成样本原子特征向量;根据样本原子特征向量确定样本分子组成数据对应的样本原子特征矩阵;将样本原子特征矩阵作为合成物样本点特征矩阵。
在一个实施例中,获取样本分子组成数据对应的合成物样本边特征矩阵,包括:获取样本分子组成数据对应的样本化学键特征矩阵,其中,样本化学键特征矩阵是根据合成物样本分子中各合成物样本原子之间的化学键信息确定的;将样本化学键特征矩阵作为合成物样本边特征矩阵。
在一个实施例中,获取样本分子组成数据对应的合成物样本边特征矩阵,包括:获取样本分子组成数据对应的样本邻接矩阵,其中,样本邻接矩阵是根据合成物中各样本原子之间的连接信息确定的;取样本分子组成数据对应的样本化学键特征矩阵,其中,样本化学键特征矩阵是根据合成物样本分子中各合成物样本原子之间的化学键信息确定的;根据样本邻接矩阵以及样本化学键特征矩阵确定合成物样本边特征矩阵。
图2和3为一个实施例中合成物的反应物分子组成数据预测方法的流程示意图,图5为一个实施例中反应物预测模型训练方法的流程示意图。应该理解的是,虽然图2、3和5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3和5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,为一个实施例中合成物的反应物分子组成数据预测装置的装置框图,包括第一获取模块802、第一转换模块804、预测模块806和第二转换模块808,其中:
第一获取模块802,用于获取合成物的第一分子组成数据;
第一转换模块804,用于将第一分子组成数据转换为对应的合成物图结构信息;
预测模块806,用于根据合成物图结构信息预测得到反应物图结构信息;
第二转换模块808,用于将反应物图结构信息转换为反应物的第二分子组成数据,其中,该反应物用于合成该合成物。
上述合成物的反应物分子组成数据预测装置,应用于化学分子组成数据,获取合成物的第一分子组成数据,将第一分子组成数据转换为对应的合成物图结构信息,将分子组成数据用图结构表示,能够利用分子的整体结构信息,获取的第一分子组成数据对应的信息更丰富;根据合成物图结构信息预测得到反应物图结构信息,将反应物图结构信息转换为反应物的第二分子组成数据,即对分子的整体结构信息进行预测得到反应物图结构信息,转化得到的第二分子组成数据更加准确,且不受规则库的限制,可以预测全新的化学逆合成反应路径。
在一个实施例中,第一转换模块804用于获取第一分子组成数据对应的合成物点特征矩阵;获取第一分子组成数据对应的合成物边特征矩阵;根据合成物点特征矩阵以及合成物边特征矩阵得到合成物图结构信息。
上述合成物的反应物分子组成数据预测装置,获取第一分子组成数据对应的合成物点特征矩阵,获取第一分子组成数据对应的合成物边特征矩阵,根据点特征矩阵以及边特征矩阵得到合成物图结构信息,能够通过第一分子组成数据的点特征矩阵以及边特征矩阵构建合成物图结构信息,得到更准确的第一分子组成数据相关信息,从而使得预测出的第二分子组成数据更加准确。
在一个实施例中,第一转化模块用于获取第一分子组成数据中每个原子数据的第一原子信息;将第一原子信息转换为原子特征向量;根据原子特征向量确定第一分子组成数据对应的原子特征矩阵;将原子特征矩阵作为点特征矩阵。
上述合成物的反应物分子组成数据预测装置,获取第一分子组成数据中每个原子的第一原子信息,将第一原子信息转换为原子特征向量,根据原子特征向量确定第一分子组成数据对应的原子特征矩阵,将原子特征矩阵作为点特征矩阵,可根据原子信息构建点特征矩阵,能够考虑更多的合成物信息,提高反应物预测的准确度。
在一个实施例中,第一转换模块804用于获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;将第一化学键特征矩阵作为合成物边特征矩阵。
上述合成物的反应物分子组成数据预测装置,获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;将第一化学键特征矩阵作为合成物边特征矩阵,能够通过合成物的化学键信息分析得到第一分子组成数据的化学性质信息,从而根据这些化学性质信息等预测第二分子组成数据,相较于仅有点和边的图结构,能够得到更加丰富的第一分子组成数据中包含的信息,从而提高反应物预测的准确度。
在一个实施例中,第一转换模块804用于获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是根据合成物中各原子之间的连接信息确定的;获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的第一化学键信息确定的;根据邻接矩阵以及第一化学键特征矩阵确定合成物边特征矩阵。
上述合成物的反应物分子组成数据预测装置,获取第一分子组成数据对应的邻接矩阵,其中,邻接矩阵是根据合成物中各原子之间的连接信息确定的;获取第一分子组成数据对应的第一化学键特征矩阵,第一化学键特征矩阵是根据合成物中各合成物原子之间的化学键信息确定的;根据邻接矩阵以及第一化学键特征矩阵确定合成物边特征矩阵,能够充分考虑合成物分子的结构信息等,并且采用计算机能够识别计算的矩阵进行预测,提高第二分子组成数据的预测准确度。
在一个实施例中,预测模块806用于将合成物图结构信息输入至目标反应物预测模型,得到反应物图结构信息,其中,目标反应物预测模型是根据合成物图结构信息样本训练而成的。上述合成物的反应物分子组成数据预测装置,能够通过模型预测得到反应物图结构信息,提高第二分子组成数据预测准确性。
在一个实施例中,合成物的反应物分子组成数据预测装置还包括模型训练模块。模型训练模块用于获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;将样本分子组成数据转换为对应的合成物图结构信息样本;将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
上述合成物的反应物分子组成数据预测装置,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息,将样本分子组成数据转换为对应的合成物图结构信息样本,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型,能够训练得到用于预测化学逆合成反应的反应物预测模型,并且输入的分子数据丰富,得到的目标反应物预测模型预测出的结果则更加准确。
在一个实施例中,第一转换模块804用于按照预设原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息。
上述合成物的反应物分子组成数据预测装置,按照预设原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息,能够唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,从而降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,第一转换模块804用于获取第一分子组成数据的合成物原子排列顺序;按照合成物原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息。
上述合成物的反应物分子组成数据预测装置,获取第一分子组成数据的合成物原子排列顺序,按照合成物原子排列顺序将第一分子组成数据转换为对应的合成物图结构信息,不需要手动设定,按照合成物原子排列顺序就能够唯一地确定合成物图结构信息,降低合成物图结构信息的随机性,能够使得第一分子组成数据中的信息一一对应,降低反应物预测模型训练难度,同时提高反应物预测模型的预测出反应物图结构信息的效率。
在一个实施例中,反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵。第二转换模块808用于将反应物点特征矩阵转换为第二原子信息;将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息;根据第二原子信息以及第二化学键特征矩阵将反应物图结构信息转换为第二分子组成数据。
上述合成物的反应物分子组成数据预测装置,将反应物点特征矩阵转换为第二原子信息,将反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息,根据第二原子信息以及第二化学键特征信息将反应物图结构信息转换为第二分子组成数据,能够根据原子信息以及化学键特征信息还原出第二分子组成数据,从而模拟化学逆合成反应,预测得到第二分子组成数据,由第一分子组成数据预测得到第二分子组成数据,由于处理过程中得到的分子信息较丰富,因此预测的第二分子组成数据更加准确。
在一个实施例中,如图9所示,为一个实施例中反应物预测模型训练装置框图,包括第二获取模块902、图结构信息样本转换模块904、输入模块906和调整模块908,其中:
第二获取模块902,用于获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
图结构信息样本转换模块904,用于将合成物样本分子数据转换为对应的合成物图结构信息样本;
输入模块906,用于将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
调整模块908,用于根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
上述反应物预测模型训练装置,获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息,将样本分子组成数据转换为对应的合成物图结构信息样本,将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息,根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型,能够训练得到用于预测化学逆合成反应的反应物预测模型,并且输入的分子信息丰富,得到的目标反应物预测模型预测出的第二分子组成数据准确度更高。
在一个实施例中,目标反应物图结构信息包括目标点特征矩阵和目标边特征矩阵,参考反应物图结构信息包括参考点特征矩阵和参考边特征矩阵。调整模块908用于获取目标点特征矩阵与参考点特征矩阵之间的第一差异信息;获取目标边特征矩阵与参考边特征矩阵之间的第二差异信息;根据第一差异信息和第二差异信息调整初始反应物预测模型的参数值。
上述反应物预测模型训练装置,通过获取目标点特征矩阵与参考点特征矩阵之间的第一差异信息;获取目标边特征矩阵与参考边特征矩阵之间的第二差异信息;根据第一差异信息和第二差异信息调整初始反应物预测模型的参数值,能够根据点特征矩阵和边特征矩阵不断调整模型参数值,不断提高反应物预测模型训练的准确率。
在一个实施例中,第二获取模块902用于获取样本分子组成数据的合成物原子排列顺序;获取参考反应物分子对应的参考反应物分子组成数据;按照合成物原子排列顺序将参考反应物分子组成数据转换为参考反应物图结构信息。
上述反应物预测模型训练装置,获取样本分子组成数据中各合成物原子的排列顺序,按照各合成物原子的排列顺序将第二分子组成数据转换为参考反应物图结构信息,可确定一个唯一参考反应物图结构信息,能够使得样本分子组成数据的特征矩阵和反应物样本分子的特征矩阵对应起来,可降低反应物预测模型的训练难度,提高训练效率。
在一个实施例中,第二获取模块902用于按照合成物原子排列顺序确定参考反应物分子组成数据中的各原子数据的目标排列顺序;按照目标排列顺序构建参考点特征矩阵;按照目标排列顺序构建参考边特征矩阵;根据参考点特征矩阵以及参考边特征矩阵得到参考反应物图结构信息。
上述合成物的反应物分子组成数据预测装置,按照合成物原子排列顺序确定参考反应物分子组成数据中的各原子数据的目标排列顺序;按照目标排列顺序构建参考点特征矩阵;按照目标排列顺序构建参考边特征矩阵;根据参考点特征矩阵以及参考边特征矩阵得到参考反应物图结构信息,可更加迅速且便捷地确定唯一的参考反应物图结构信息,能够使得样本分子组成数据的特征矩阵和参考反应物分子组成数据的特征矩阵对应起来,可降低反应物预测模型的训练难度,提高训练效率。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现合成物的反应物分子组成数据预测方法、反应物预测模型训练方法中至少一种。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行合成物的反应物分子组成数据预测方法、反应物预测模型训练方法中至少一种。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的合成物的反应物分子组成数据预测装置、反应物预测模型训练装置均可以实现为一种计算机程序的形式。计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该合成物的反应物的分子组成数据预测装置和反应物预测模型训练装置的各个程序模块,比如,图8所示的第一获取模块、第一转换模块、预测模块和第二转换模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的合成物信息处理中的步骤。
例如,图10所示的计算机设备可以通过如图9所示的反应物预测模型训练装置中的第二获取模块执行获取合成物样本分子以及对应的参考反应物图结构信息。计算机设备可通过图结构信息样本转换模块执行将合成物样本分子转换为对应的合成物图结构信息样本。计算机设备可通过输入模块执行将合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息。计算机设备可通过调整模块执行根据目标反应物图结构信息与参考反应物图结构信息之间的差异,调整初始反应物预测模型的参数值,得到目标反应物预测模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述合成物的反应物分子组成数据预测方法的步骤。此处合成物的反应物分子组成数据预测方法的步骤可以是上述各个实施例的合成物的反应物分子组成数据预测方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述合成物的反应物分子组成数据预测方法的步骤。此处合成物的反应物分子组成数据预测方法的步骤可以是上述各个实施例的合成物的反应物分子组成数据预测方法中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述反应物预测模型训练方法的步骤。此处反应物预测模型训练方法的步骤可以是上述各个实施例的反应物预测模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述反应物预测模型训练方法的步骤。此处反应物预测模型训练方法的步骤可以是上述各个实施例的反应物预测模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (26)

1.一种合成物的反应物分子组成数据预测方法,其特征在于,所述方法包括:
获取合成物的第一分子组成数据;
将所述第一分子组成数据转换为对应的合成物图结构信息;
将所述合成物图结构信息输入至目标反应物预测模型,预测得到反应物图结构信息;
将所述反应物图结构信息转换为所述反应物的第二分子组成数据,其中,所述反应物用于合成所述合成物;
其中,所述目标反应物预测模型的训练方式包括:获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;将所述样本分子组成数据转换为对应的合成物图结构信息样本;将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一分子组成数据转换为对应的合成物图结构信息,包括:
获取所述第一分子组成数据对应的合成物点特征矩阵;
获取所述第一分子组成数据对应的合成物边特征矩阵;
根据所述合成物点特征矩阵以及所述合成物边特征矩阵得到合成物图结构信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一分子组成数据对应的合成物点特征矩阵,包括:
获取所述第一分子组成数据中每个原子数据的第一原子信息;
将所述第一原子信息转换为原子特征向量;
根据所述原子特征向量确定所述第一分子组成数据对应的原子特征矩阵;
将所述原子特征矩阵作为所述合成物点特征矩阵。
4.根据权利要求2所述的方法,其特征在于,所述获取所述第一分子组成数据对应的合成物边特征矩阵,包括:
获取所述第一分子组成数据对应的第一化学键特征矩阵,所述第一化学键特征矩阵是根据所述合成物中各合成物原子之间的第一化学键信息确定的;
将所述第一化学键特征矩阵作为所述合成物边特征矩阵。
5.根据权利要求2所述的方法,其特征在于,所述获取第一分子组成数据对应的合成物边特征矩阵,包括:
获取所述第一分子组成数据对应的邻接矩阵,其中,所述邻接矩阵是根据所述合成物中各原子之间的第一连接信息确定的;
获取所述第一分子组成数据对应的第一化学键特征矩阵,所述第一化学键特征矩阵是根据所述合成物中各合成物原子之间的第一化学键特征信息确定的;
根据所述邻接矩阵以及所述第一化学键特征矩阵确定合成物边特征矩阵。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述第一分子组成数据转换为对应的合成物图结构信息,包括:
按照预设原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息。
7.根据权利要求6所述的方法,其特征在于,所述按照预设原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息,包括:
获取所述第一分子组成数据的合成物原子排列顺序;
按照所述合成物原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵;
所述将所述反应物图结构信息转换为反应物的第二分子组成数据,包括:
将所述反应物点特征矩阵转换为第二原子信息;
将所述反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息;
根据所述第二原子信息以及所述第二化学键特征信息将所述反应物图结构信息转换为所述反应物的第二分子组成数据。
9.一种反应物预测模型训练方法,其特征在于,所述方法包括:
获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
将所述样本分子组成数据转换为对应的合成物图结构信息样本;
将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
10.根据权利要求9所述的方法,其特征在于,所述目标反应物图结构信息包括目标点特征矩阵和目标边特征矩阵,所述参考反应物图结构信息包括参考点特征矩阵和参考边特征矩阵;
所述根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,包括:
获取所述目标点特征矩阵与所述参考点特征矩阵之间的第一差异信息;
获取所述目标边特征矩阵与所述参考边特征矩阵之间的第二差异信息;
根据所述第一差异信息和所述第二差异信息调整所述初始反应物预测模型的参数值。
11.根据权利要求9所述的方法,其特征在于,所述获取参考反应物分子对应的参考反应物图结构信息,包括:
获取所述样本分子组成数据的合成物原子排列顺序;
获取参考反应物分子对应的参考反应物分子组成数据;
按照所述合成物原子排列顺序将所述参考反应物分子组成数据转换为参考反应物图结构信息。
12.根据权利要求11所述的方法,其特征在于,按照所述合成物原子排列顺序将参考反应物分子对应的参考反应物分子组成数据转换为参考反应物图结构信息,包括:
按照所述合成物原子排列顺序确定所述参考反应物分子组成数据中的各原子数据的目标排列顺序;
按照所述目标排列顺序构建参考点特征矩阵;
按照所述目标排列顺序构建参考边特征矩阵;
根据所述参考点特征矩阵以及所述参考边特征矩阵得到参考反应物图结构信息。
13.一种合成物的反应物分子组成数据预测装置,其特征在于,所述装置包括:
模型训练模块,用于获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;将所述样本分子组成数据转换为对应的合成物图结构信息样本;将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型;
第一获取模块,用于获取合成物的第一分子组成数据;
第一转换模块,用于将所述第一分子组成数据转换为对应的合成物图结构信息;
预测模块,用于将所述合成物图结构信息输入至所述目标反应物预测模型,预测得到反应物图结构信息;
第二转换模块,将所述反应物图结构信息转换为所述反应物的第二分子组成数据,其中,所述反应物用于合成所述合成物。
14.根据权利要求13所述的装置,其特征在于,所述第一转换模块还用于获取所述第一分子组成数据对应的合成物点特征矩阵;获取所述第一分子组成数据对应的合成物边特征矩阵;根据所述合成物点特征矩阵以及所述合成物边特征矩阵得到合成物图结构信息。
15.根据权利要求14所述的装置,其特征在于,所述第一转换模块还用于获取所述第一分子组成数据中每个原子数据的第一原子信息;将所述第一原子信息转换为原子特征向量;根据所述原子特征向量确定所述第一分子组成数据对应的原子特征矩阵;将所述原子特征矩阵作为所述合成物点特征矩阵。
16.根据权利要求14所述的装置,其特征在于,所述第一转换模块还用于获取所述第一分子组成数据对应的第一化学键特征矩阵,所述第一化学键特征矩阵是根据所述合成物中各合成物原子之间的第一化学键信息确定的;将所述第一化学键特征矩阵作为所述合成物边特征矩阵。
17.根据权利要求14所述的装置,其特征在于,所述第一转换模块还用于获取所述第一分子组成数据对应的邻接矩阵,其中,所述邻接矩阵是根据所述合成物中各原子之间的第一连接信息确定的;获取所述第一分子组成数据对应的第一化学键特征矩阵,所述第一化学键特征矩阵是根据所述合成物中各合成物原子之间的第一化学键特征信息确定的;根据所述邻接矩阵以及所述第一化学键特征矩阵确定合成物边特征矩阵。
18.根据权利要求13至17任一项所述的装置,其特征在于,所述第一转换模块还用于按照预设原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息。
19.根据权利要求18所述的装置,其特征在于,所述第一转换模块还用于获取所述第一分子组成数据的合成物原子排列顺序;按照所述合成物原子排列顺序将所述第一分子组成数据转换为对应的合成物图结构信息。
20.根据权利要求13至17任一项所述的装置,其特征在于,所述反应物图结构信息包括反应物点特征矩阵和反应物边特征矩阵;
所述第二转换模块还用于将所述反应物点特征矩阵转换为第二原子信息;将所述反应物边特征矩阵转换为各反应物原子之间的第二化学键特征信息;根据所述第二原子信息以及所述第二化学键特征信息将所述反应物图结构信息转换为所述反应物的第二分子组成数据。
21.一种反应物预测模型训练装置,其特征在于,所述装置包括:
第二获取模块,用于获取合成物样本分子对应的样本分子组成数据,以及参考反应物分子对应的参考反应物图结构信息;
图结构信息样本转换模块,用于将所述样本分子组成数据转换为对应的合成物图结构信息样本;
输入模块,用于将所述合成物图结构信息样本输入至初始反应物预测模型中,得到目标反应物图结构信息;
调整模块,用于根据所述目标反应物图结构信息与所述参考反应物图结构信息之间的差异,调整所述初始反应物预测模型的参数值,得到目标反应物预测模型。
22.根据权利要求21所述的装置,其特征在于,所述目标反应物图结构信息包括目标点特征矩阵和目标边特征矩阵,所述参考反应物图结构信息包括参考点特征矩阵和参考边特征矩阵;
所述调整模块,还用于获取所述目标点特征矩阵与所述参考点特征矩阵之间的第一差异信息;获取所述目标边特征矩阵与所述参考边特征矩阵之间的第二差异信息;根据所述第一差异信息和所述第二差异信息调整所述初始反应物预测模型的参数值。
23.根据权利要求21所述的装置,其特征在于,所述第二获取模块还用于获取所述样本分子组成数据的合成物原子排列顺序;获取参考反应物分子对应的参考反应物分子组成数据;按照所述合成物原子排列顺序将所述参考反应物分子组成数据转换为参考反应物图结构信息。
24.根据权利要求23所述的装置,其特征在于,所述第二获取模块还用于按照所述合成物原子排列顺序确定所述参考反应物分子组成数据中的各原子数据的目标排列顺序;按照所述目标排列顺序构建参考点特征矩阵;按照所述目标排列顺序构建参考边特征矩阵;根据所述参考点特征矩阵以及所述参考边特征矩阵得到参考反应物图结构信息。
25.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
CN202010065048.6A 2020-01-20 2020-01-20 合成物的反应物分子组成数据预测方法和装置 Active CN113140260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065048.6A CN113140260B (zh) 2020-01-20 2020-01-20 合成物的反应物分子组成数据预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065048.6A CN113140260B (zh) 2020-01-20 2020-01-20 合成物的反应物分子组成数据预测方法和装置

Publications (2)

Publication Number Publication Date
CN113140260A CN113140260A (zh) 2021-07-20
CN113140260B true CN113140260B (zh) 2023-09-08

Family

ID=76809014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065048.6A Active CN113140260B (zh) 2020-01-20 2020-01-20 合成物的反应物分子组成数据预测方法和装置

Country Status (1)

Country Link
CN (1) CN113140260B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838536B (zh) * 2021-09-13 2022-06-10 烟台国工智能科技有限公司 翻译模型构建方法、产物预测模型构建方法及预测方法
CN114613446A (zh) * 2022-03-11 2022-06-10 冰洲石生物科技(上海)有限公司 交互式/化学合成路线设计方法、系统、介质及电子设备
CN115130655A (zh) * 2022-05-22 2022-09-30 上海图灵智算量子科技有限公司 解决逆合成中产物反应中心预测的方法
CN115171807B (zh) * 2022-09-07 2022-12-06 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和系统
JP2024079152A (ja) * 2022-11-30 2024-06-11 横河電機株式会社 反応性予測システム、反応性予測方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789047A (zh) * 2010-02-05 2010-07-28 四川大学 基于逆向合成的有机小分子化合物可合成性评价方法
CN104021265A (zh) * 2013-03-01 2014-09-03 上海交通大学 复杂体系反应通路计算系统及其实现方法
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109507352A (zh) * 2019-01-02 2019-03-22 杭州辛孚能源科技有限公司 一种预测石化生产中任意流股分子组成的方法
CN109872780A (zh) * 2019-03-14 2019-06-11 北京深度制耀科技有限公司 一种化学合成路线的确定方法及装置
CN109885378A (zh) * 2019-01-04 2019-06-14 平安科技(深圳)有限公司 模型训练方法、装置、计算机设备及计算机可读存储介质
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110659723A (zh) * 2019-09-03 2020-01-07 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置、介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129130A (ko) * 2018-03-05 2020-11-17 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789047A (zh) * 2010-02-05 2010-07-28 四川大学 基于逆向合成的有机小分子化合物可合成性评价方法
CN104021265A (zh) * 2013-03-01 2014-09-03 上海交通大学 复杂体系反应通路计算系统及其实现方法
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109507352A (zh) * 2019-01-02 2019-03-22 杭州辛孚能源科技有限公司 一种预测石化生产中任意流股分子组成的方法
CN109885378A (zh) * 2019-01-04 2019-06-14 平安科技(深圳)有限公司 模型训练方法、装置、计算机设备及计算机可读存储介质
CN109872780A (zh) * 2019-03-14 2019-06-11 北京深度制耀科技有限公司 一种化学合成路线的确定方法及装置
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110659723A (zh) * 2019-09-03 2020-01-07 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置、介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Schwaller P ,et al..Molecular Transformer for Chemical Reaction Prediction and Uncertainty Estimation.arXiv:1811.02633v1.2018,1-11. *

Also Published As

Publication number Publication date
CN113140260A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113140260B (zh) 合成物的反应物分子组成数据预测方法和装置
Noh et al. Inverse design of solid-state materials via a continuous representation
Ren et al. An invertible crystallographic representation for general inverse design of inorganic crystals with targeted properties
CN110277144B (zh) 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
Medasani et al. Predicting defect behavior in B2 intermetallics by merging ab initio modeling and machine learning
Ghanekar et al. Adsorbate chemical environment-based machine learning framework for heterogeneous catalysis
Kang et al. A multi-modal pre-training transformer for universal transfer learning in metal–organic frameworks
US7292958B2 (en) Systems and methods for predicting materials properties
Wang et al. Multi-body effects in a coarse-grained protein force field
US20060040322A1 (en) Method of construction and selection of virtual libraries in combinatorial chemistry
US11455440B2 (en) Graphic user interface assisted chemical structure generation
Honrao et al. Augmenting machine learning of energy landscapes with local structural information
Ji et al. Complementary calibration: Boosting general continual learning with collaborative distillation and self-supervision
Kingsbury et al. A flexible and scalable scheme for mixing computed formation energies from different levels of theory
Dong et al. DeepXRD, a deep learning model for predicting XRD spectrum from material composition
Shimakawa et al. Extrapolative prediction of small-data molecular property using quantum mechanics-assisted machine learning
US7158891B2 (en) Method and system to build optimal models of 3-dimensional molecular structures
Zhu et al. WyCryst: Wyckoff inorganic crystal generator framework
US20220406404A1 (en) Adversarial framework for molecular conformation space modeling in internal coordinates
Jablonka et al. Is GPT-3 all you need for machine learning for chemistry?
Poelking et al. BenchML: an extensible pipelining framework for benchmarking representations of materials and molecules at scale
Kumar et al. Accelerated discovery of perovskite materials guided by machine learning techniques
Sayeed et al. Structure feature vectors derived from Robocrystallographer text descriptions of crystal structures using word embeddings
Mitnik et al. Non‐physical Species in Chemical Kinetic Models: A Case Study of Diazenyl Hydroxy and Diazenyl Peroxide
Couespel et al. Machine learning reveals regime shifts in future ocean carbon dioxide fluxes inter-annual variability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048675

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant