CN111223532B - 确定目标化合物的反应物的方法、设备、装置、介质 - Google Patents

确定目标化合物的反应物的方法、设备、装置、介质 Download PDF

Info

Publication number
CN111223532B
CN111223532B CN201911113717.6A CN201911113717A CN111223532B CN 111223532 B CN111223532 B CN 111223532B CN 201911113717 A CN201911113717 A CN 201911113717A CN 111223532 B CN111223532 B CN 111223532B
Authority
CN
China
Prior art keywords
vector
neural network
target compound
reactant
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911113717.6A
Other languages
English (en)
Other versions
CN111223532A (zh
Inventor
毛科龙
赵沛霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen Tencent Computer Systems Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911113717.6A priority Critical patent/CN111223532B/zh
Publication of CN111223532A publication Critical patent/CN111223532A/zh
Application granted granted Critical
Publication of CN111223532B publication Critical patent/CN111223532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种确定目标化合物的反应物的方法、设备、装置、介质,所述方法包括:获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。

Description

确定目标化合物的反应物的方法、设备、装置、介质
技术领域
本公开涉及人工智能化学领域,具体的涉及一种确定目标化合物的反应物的方法、设备、装置、介质。
背景技术
人工智能(Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。近年来,属于人工智能领域的深度学习方法被应用于化学领域,例如,基于深度学习方法来预测化合物的反应物。典型的方法是将基于化学反应规则的先验知识与执行候选排序的神经网络相结合,通过将先验知识库中所有规则应用于给定化合物来得到反应物的可能性排序,从而实现给定化合物的反应物的智能预测。
然而,上述基于化学反应规则预测化合物的反应物的过程在根本上依赖于基于化学反应规则的先验知识,这些化学反应规则仅适用于具有非常特定的反应物和产物的有限的反应集,因此不能对知识库之外的反应物做出准确的预测。此外,由于化学反应规则只关注反应中心的局部分子环境,使得其必然不足以代表基础化学。进一步地,上述化学反应规则并未考虑到立体化学的知识,忽略了化合物的拓扑结构特征对于反应物预测的影响。由于基于化学反应规则预测化合物的反应物过程中的以上缺陷,影响了反应物预测的准确性,也限制了基于深度学习方法来进行反应物预测的实际应用。
发明内容
本公开提供一种确定目标化合物的反应物的方法、设备、装置、介质,用于准确的确定目标化合物的反应物。
根据本公开的一方面,提供了一种确定目标化合物的反应物的方法,包括:获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。
根据本公开的一些实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本。
根据本公开的一些实施例,所述生成序列向量包括:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;以及,按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。
根据本公开的一些实施例,所述确定目标化合物的反应物的方法,还包括获取所述目标化合物的文本表示:基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。
根据本公开的一些实施例,所述目标化合物包括n个反应物,对于第i个反应物,生成所述第i个反应物的表征向量包括:在第i时间步,所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。
根据本公开的一些实施例,所述确定目标化合物的反应物的方法,还包括:利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,所述交叉熵损失函数表示为:
Figure BDA0002273476290000021
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。
根据本公开的另一方面,还提供了一种确定目标化合物的反应物的设备,包括:获取单元,配置成获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;拓扑结构特征提取单元,配置成利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;排序单元,配置成按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;翻译单元,配置成基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。
根据本公开的一些实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本,所述排序单元配置成:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;和按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。
根据本公开的一些实施例,所述获取单元还配置成:基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。
根据本公开的一些实施例,所述目标化合物包括n个反应物,对于第i个反应物,所述翻译单元配置成:在第i时间步,利用所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。
根据本公开的一些实施例,所述确定目标化合物的反应物的设备,还包括训练单元,配置成利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,所述交叉熵损失函数表示为:
Figure BDA0002273476290000031
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。
根据本公开的又一方面,还提供了一种确定目标化合物的反应物的装置,包括:处理器;和存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如上所述的确定目标化合物的反应物的方法。
根据本公开的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的确定目标化合物的反应物的方法。
根据本公开提供的确定目标化合物的反应物的方法,基于目标化合物的拓扑结构的表征向量和文本表示来生成反应物的表征向量,从而提高反应物预测的准确性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开的确定目标化合物的反应物的方法流程图;
图2示出了图神经网络的处理流程示意图;
图3示出了基于根据本公开的方法确定目标化合物的反应物的处理流程示意图;
图4示出了根据本公开实施例的确定目标化合物的反应物的设备的示意性框图;
图5示出了根据本公开实施例的确定目标化合物的反应物的装置的示意图;
图6示出了根据本公开实施例的示例性计算设备的架构的示意图;
图7示出了根据本公开实施例的计算机可读存储介质的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
如今,新的化合物不断推动着材料、农业、环境和医学科学等技术的发展。如何能够快速准确地得到这些新的化合物的合成路径是一项非常重要的应用,对于推动生化、医疗、环境等各行业的发展具有很大的积极推动作用。在给定化合物的情况下,获得与该化合物对应的一系列反应物的过程可以称为逆合成反应路径。通过研究逆合成反应路径,可以确定化合物的反应物,从而确定化合物的合成路径。根据确定的合成路径能够更加高效、准确地生产该化合物。此外,准确的反应物预测还有助于加快药物研制、材料科学等多领域的研究发展以及落地应用。
本公开提供了一种确定目标化合物的反应物的方法,用于基于目标化合物的拓扑结构的表征向量和文本表示来生成反应物的表征向量,实现化合物的反应物的准确预测,从而确定化合物的合成路径。
图1示出了根据本公开的确定目标化合物的反应物的方法流程图,首先,在步骤S101,获取所述目标化合物的拓扑结构的表征向量。根据本公开实施例,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量。接着,在步骤S102,利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量。
所述拓扑结构特征提取神经网络是人工智能神经网络的一种,相比于传统的卷积神经网络,拓扑结构特征提取神经网络的输入为拓扑结构的表征向量,用于提取拓扑结构信息。所述拓扑结构由结点和边组成,可以表示为G=(V,E),其中,V表示结点(Vertices),E表示边(Edges),每个结点可以用于表示一个对象,边表示结点之间的关联关系。在实际应用场景中,很多数据都可以表示成拓扑结构的形式。例如,在化学领域中,每个原子可以表示为一个结点,原子之间的化学键则可以表示为边。所述拓扑结构数据可以包括结点的表征向量和边的表征向量。所述拓扑结构特征提取神经网络可以有效地提取输入的拓扑结构的表征向量中的空间特征,从而准确地基于拓扑结构信息来进行性质预测。关于拓扑结构特征提取神经网络以及拓扑结构的表征向量,将在下文中详细描述。
接着,如图1所示,在步骤S103,按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量,在步骤S104,基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。所述翻译神经网络用于基于输入的序列向量输出目标化合物的反应物的表征向量。基于输出的反应物的表征向量,可以确定所述目标化合物的反应物,从而实现反应物的预测。一般地,所述目标化合物可以对应于多个反应物。换句话说,利用所述多个反应物可以合成产生所述目标化合物。
以下,将结合附图,对根据本公开的确定目标化合物的反应物的方法进行详细描述。
作为一个示例,所述拓扑结构特征提取神经网络可以是图神经网络,所述拓扑结构的表征向量可以是图结构数据(Graph)。所述图结构数据经过图神经网络处理后,可以实现结点的性质预测、结点分类等应用。特别地,将图神经网络应用于化学领域中,例如,通过利用图神经网络对输入的对应于化学分子的图结构数据进行处理可以实现快速、准确地预测该化学分子的化学性质,得到结点的表征向量。
根据本公开实施例,所述图结构数据包括结点的表征向量和边的表征向量,分别用于表示所述结点V和边E的性质,所述表征向量例如可以具有矩阵的数据形式。图神经网络的输出可以是每个结点的特征向量,表示对每个结点的性质特征的概括。具体的,所述图神经网络可以基于python语言和pytorch库,部署在搭载Linux操作系统和GPU计算资源的服务器上。
图2示出了图神经网络的处理流程示意图,其输入为包括结点(对应于原子)的表征向量和边(对应于原子之间的化学键)的表征向量的图结构数据,其中,输入的结点的表征向量可以对应于结点的初始性质特征。经由所示出的图神经网络的处理,输出的结点的特征向量表示对于结点的性质特征的概括。
如图2所示,图神经网络中可以包括多个由激活函数连接的隐藏层。在图神经网络的每个隐藏层中,结点的表征向量将被更新一次。具体地,对于每个结点,可以利用传递矩阵和与该结点相连的结点的表征向量来更新该结点的表征向量。其中,所述传递矩阵表示相连结点之间的信息传递方式,相连的结点可以是指有边相连的一对结点。例如,对于图2中的结点a,可以通过与该结点a相连的三个结点的表征向量来更新该结点a的表征向量,类似地,可以对图结构数据中的其他结点(诸如,结点b、c)依次更新其表征向量。
在图神经网络中,可以根据实际的应用需求来设置隐藏层的个数。所述激活函数可以是非线性函数,用于对数据进行归一化处理,以使得将数据范围限制在一定数值范围之内,诸如0至1之间,还用于打破神经网络中的线性映射关系。例如,所述激活函数可以是修正线性单元(Rectified Linear Unit,ReLU)。
在图神经网络中,输入的图结构数据在经过n个隐藏层处理之后,结点的表征向量被更新了n次,得到的输出结果是基于所述n次更新得到的结点的表征向量,即,图神经网络输出各个结点的特征向量,或者可以称为结点性质的预测表征向量,其表示对每个结点的性质特征的概括。
举例来说,所述图神经网络可以是图卷积网络(Graph Convolutional Networks,GCN)、图注意力网络(Graph Attention Networks,GAT)、信息传递神经网络(MessagePassing Neural Network,MPNN)。作为一个应用实例,MPNN可以应用于预测化学分子的性质,性质预测结果以结点的表征向量的形式输出。
在根据本公开的方法中,可以将目标化合物建模成图结构数据,并由诸如MPNN的图神经网络来进行处理,提取目标化合物的拓扑结构信息并输出各个结点的特征向量。由于所述结点的特征向量是基于目标化合物的拓扑结构信息分析得到的,其包含对于目标化合物的拓扑结构的概括。
接着,在基于目标化合物的拓扑结构数据得到结点的特征向量之后,可以按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量。所述目标化合物的文本表示是指以文本的形式来表示目标化合物。
根据本公开的方法还包括获取所述目标化合物的文本表示。根据本公开的一个实施例,可以基于简化分子线性输入规范(Simplified molecular input line entryspecification,SMILES)获取所述目标化合物的文本表示,例如,可以称为SMILES表示。SMILES是一种用ASCII字符串明确描述分子结构的规范,每个化学分子具有与其对应的唯一地SMILES表达式。例如,原子用方括号内的化学元素符号表示,示意性地,[Au]表示“金”,[OH-]表示氢氧根离子,有机物中的C、N、O、P、S、Br、Cl、I等原子可以省略方括号,此外,在SMILES表示中,氢原子将被省略。例如,环己烷(C6H12)的SMILES表示是(C1)-(C)-(C)-(C)-(C)-(C)-1,三氟甲烷CHF3的SMILES表示是C(F)(F)F。
根据本公开的另一实施例,可以基于国际化合物标识(International ChemicalIdentifier,InChI)获取所述目标化合物的文本表示,例如,可以称为InChI编码。所述InChI编码是一串由斜杠(/)隔开的有层级关系的数字组成。例如,乙醇CH3-CH2-OH的InChI编码1/C2H6O/c1-2-3/h3H,2H2,1H3
基于SMILES或者InChI可以唯一地获得目标化合物的文本表示。根据本公开实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本。所述原子文本即对应于化合物中的原子,所述非原子文本可以是文本表示中除原子文本之外的文本,例如,数字。举例来说,对于SMILES表示为(C1)-(C)-(C)-(C)-(C)-(C)-1的环己烷,原子文本对应于SMILES表示中包括的碳原子C,非原子文本对应于SMILES表示中的数字1。
根据本公开实施例,在步骤S103中,按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量包括:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;
对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量。所述结点的特征向量是由拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成的,具有矩阵的形式。所述生成的随机向量可以是与结点的特征向量相同尺寸的矩阵。接着,可以按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。
举例来说,对于SMILES表示为(C1)-(C)-(C)-(C)-(C)-(C)-1的环己烷,首先,可以由拓扑结构特征提取神经网络生成各个碳原子的特征向量,例如,示意性地表示为向量1、向量2、向量3、向量4、向量5和向量6。接着,可以生成随机向量1和随机向量2来分别地表示SMILES表示中的数字1。接着,可以按照SMILES表示中各个文本的顺序来对上述向量进行排序,得到序列向量。所述序列向量可以是上述向量的串联。
根据本公开实施例,所述目标化合物包括n个反应物,对于第i个反应物,生成所述第i个反应物的表征向量包括:在第i时间步(timestep),所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。例如,对于第i个反应物,n为大于2的整数,i为大于等于1且小于等于n的整数。
根据本公开实施例,所述翻译神经网络的输入是按照所述目标化合物的文本表示得到的序列向量,输出是反应物的表征向量。上述翻译神经网络将得到目标化合物的反应物的过程等效于文本翻译的过程。
所述翻译神经网络可以是包括编码神经网络(Encoder)和解码神经网络(Decoder)的指针生成神经网络(Pointer to Generator)。一般地,目标化合物对应于多个反应物,所述指针生成神经网络将逐步地输出所述多个反应物的中的每一个反应物的表征向量。具体的,在每一时间步,所述指针生成神经网络生成当前时间步的反应物的预测概率分布。所述当前时间步生成的预测概率分布用于确定当前时间步的反应物的表征向量。一般地,可以将预测概率分布中概率值最大的向量作为当前时间步的反应物的表征向量,并输出该表征向量。换句话说,指针生成神经网络以时间步为单位,逐个地确定目标化合物的所有反应物,即“翻译”反应物的过程。换句话说,所述翻译神经网络可以基于目标化合物的序列向量来逐个时间步地输出n个反应物的表征向量。例如,在第i时间步,翻译神经网络将输出第i反应物的表征向量。
具体的,对于包括编码神经网络和解码神经网络的指针生成神经网络,在每一时间步,所述编码神经网络基于所述序列向量生成编码隐藏状态向量,所述解码神经网络基于所述编码隐藏状态向量以及上一时间步输出的反应物的表征向量来生成解码隐藏状态向量。接着,可以基于所述编码隐藏状态向量和解码隐藏状态向量确定所述预测概率分布。例如,可以通过Softmax函数将编码隐藏状态向量和解码隐藏状态向量中的各元素归一化为0到1之间的概率值,并输出预测概率分布中概率值最大的向量,作为当前时间步的反应物的表征向量。
举例来说,所述翻译神经网络可以是基于循环神经网络(Recurrent NeuralNetwork,RNN)。所述循环神经网络是以序列(sequence)数据为输入、在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
根据本公开的方法,可以基于目标化合物的拓扑结构的表征向量和文本表示来确定目标化合物的反应物。由于生成反应物的过程结合了目标化合物的拓扑结构信息以及文本表示中的序列信息,可以有效地提高确定的反应物的准确性,避免了上述基于化学反应规则预测化合物的反应物的过程中过度依赖化学反应规则的先验知识,对于新的目标化合物,也能准确地确定其反应物。
根据本公开实施例,所述确定目标化合物的反应物的方法还可以包括:利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络。
所述目标化合物可以作为训练化合物,所述训练化合物包括已知的n个标签反应物,作为真实反应物。接着,可以获取所述训练化合物的拓扑结构的表征向量,利用拓扑结构特征提取神经网络基于所述训练化合物的拓扑结构的表征向量生成结点的特征向量;按照所述训练化合物的文本表示,基于所述结点的特征向量生成序列向量;基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。上述过程与结合图1的描述类似,在此不再赘述。接着,可以通过减小翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,即,使得翻译神经网络输出的反应物逐渐地接近真实反应物。所述交叉熵损失函数可以表示为:
Figure BDA0002273476290000101
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。根据本公开实施例,可以通过构建训练化合物数据库,基于数据库内的训练化合物来大量地训练所述拓扑结构特征提取神经网络和翻译神经网络的网络参数,以提高反应物预测的准确性。
图3示出了基于根据本公开的方法确定目标化合物的反应物的处理流程示意图。如图3所示,对于期望得到其反应物的目标化合物,首先获取所述目标化合物的拓扑结构的表征向量301,利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量。接着,按照所述目标化合物的文本表示302,基于所述结点的特征向量生成序列向量。接着,包括编码神经网络和解码神经网络的翻译神经网络305接收所述序列向量,并基于所述序列向量,逐步地生成反应物的表征向量。例如,如图3中示出的,在所述目标化合物包括两个反应物303和反应物304的情况下,即,n为2,翻译神经网络将在第1时间步输出第1个反应物303的表征向量,接着,在第2时间步输出第2个反应物304的表征向量。
本公开提供了一种确定目标化合物的反应物的方法,通过将拓扑结构特征提取神经网络和翻译神经网络相结合,将目标化合物看作是一个拓扑结构的数据,利用拓扑结构特征提取神经网络来挖掘化合物的拓扑结构信息,并将得到的拓扑结构信息融合进入翻译神经网络的处理过程中,实现化合物的拓扑结构信息以及基于文本表示的序列表示信息的融合。根据本公开的方法,可以有效提升逆合成反应路径预测的准确性,有助于分子合成推断任务。
根据本公开的另一方面,还提供了一种确定目标化合物的反应物的设备。图4示出了根据本公开实施例的确定目标化合物的反应物的设备的示意性框图。
如图4所示,所述确定目标化合物的反应物的设备1000包括获取单元1010、拓扑结构特征提取单元1020、排序单元1030以及翻译单元1040。根据本公开实施例,所述获取单元1010可以配置成获取所述目标化合物的图结构数据,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量。所述拓扑结构特征提取单元1020可以配置成利用拓扑结构特征提取神经网络基于所述目标化合物的图结构数据生成结点的特征向量。根据本公开实施例,所述图结构数据包括结点的表征向量和边的表征向量,分别用于表示所述结点V和边E的性质,所述表征向量例如可以具有矩阵的数据形式。图神经网络的输出可以是每个结点的特征向量,表示对每个结点的性质特征的概括。
作为一个示例,所述拓扑结构特征提取神经网络可以是图神经网络,所述拓扑结构的表征向量可以是图结构数据(Graph)。所述图结构数据经过图神经网络处理后,可以实现结点的性质预测、结点分类等应用。特别地,将图神经网络应用于化学领域中,例如,通过利用图神经网络对输入的对应于化学分子的图结构数据进行处理可以实现快速、准确地预测该化学分子的化学性质,得到结点的表征向量。
所述排序单元1030可以配置成按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量。
根据本公开的一些实施例,所述获取单元1010还可以配置成:基于简化分子线性输入规范(SMILES)或国际化合物标识(InChI),获取所述目标化合物的文本表示。基于SMILES或者InChI可以唯一地获得目标化合物的文本表示。
举例来说,对于SMILES表示为(C1)-(C)-(C)-(C)-(C)-(C)-1的环己烷,首先,可以由拓扑结构特征提取神经网络生成各个碳原子的特征向量,例如,示意性地表示为向量1、向量2、向量3、向量4、向量5和向量6。接着,可以生成随机向量1和随机向量2来分别地表示SMILES表示中的数字1。接着,可以按照SMILES表示中各个文本的顺序来对上述向量进行排序,得到序列向量。所述序列向量可以是上述向量的串联。
根据本公开的一些实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本,所述排序单元1030配置成:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;和按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。
所述翻译单元1040可以配置成基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。根据本公开实施例,所述翻译神经网络可以是包括编码神经网络(Encoder)和解码神经网络(Decoder)的指针生成神经网络(Pointer to Generator)。
根据本公开的一些实施例,所述目标化合物包括n个反应物,对于第i个反应物,所述翻译单元1040可以配置成:在第i时间步,利用所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。例如,对于第i个反应物,n为大于2的整数,i为大于等于1且小于等于n的整数。如图4所示,根据本公开的一些实施例,所述确定目标化合物的反应物的设备1000还可以包括训练单元1050。所述训练单元1050可以配置成利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,所述交叉熵损失函数表示为:
Figure BDA0002273476290000131
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。
根据本公开提供的确定目标化合物的反应物的设备1000,通过将拓扑结构特征提取神经网络和翻译神经网络相结合,将目标化合物看作是一个图数据,利用拓扑结构特征提取神经网络来挖掘化合物的拓扑结构信息,并将得到的拓扑结构信息融合进入翻译神经网络的处理过程中,实现化合物的拓扑结构信息以及基于文本表示的序列表示信息的融合,从而可以有效提升逆合成反应路径预测的准确性,有助于分子合成推断任务。
根据本公开的又一方面,还提供了一种确定目标化合物的反应物的装置。图5示出了根据本公开实施例的确定目标化合物的反应物的装置2000的示意图。
如图5所示,所述装置2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的确定目标化合物的反应物的方法。
根据本公开实施例的方法或装置也可以借助于图6所示的计算设备3000的架构来实现。如图6所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的确定目标化合物的反应物的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图6所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图6示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。图7示出了根据本公开的存储介质的示意图4000。
如图7所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的确定目标化合物的反应物的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述系统和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims (10)

1.一种确定目标化合物的反应物的方法,包括:
获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;
利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;
按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量,其中,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本,并且,对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;以及按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量;
基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。
2.根据权利要求1所述的方法,还包括:获取所述目标化合物的文本表示:
基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。
3.根据权利要求1所述的方法,其中,所述目标化合物包括n个反应物,对于第i个反应物,生成所述第i个反应物的表征向量包括:在第i时间步,所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,
基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,
其中,所述翻译神经网络包括编码神经网络和解码神经网络。
4.根据权利要求3所述的方法,还包括:利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,
所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,
所述交叉熵损失函数表示为:
Figure FDA0004085299050000021
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。
5.一种确定目标化合物的反应物的设备,包括:
获取单元,配置成获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;
拓扑结构特征提取神经网络单元,配置成利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;
排序单元,配置成按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量,其中,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本,并且,对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;以及按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量;
翻译单元,配置成基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。
6.根据权利要求5所述的设备,其中,所述获取单元还配置成:基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。
7.根据权利要求5所述的设备,其中,所述目标化合物包括n个反应物,所述翻译单元配置成:
在第i时间步,利用所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,
基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,
其中,所述翻译神经网络包括编码神经网络和解码神经网络。
8.根据权利要求7所述的设备,还包括训练单元,配置成利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,
所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,
所述交叉熵损失函数表示为:
Figure FDA0004085299050000031
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。
9.一种确定目标化合物的反应物的装置,包括:
处理器;和
存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如权利要求1-4中任一项所述的确定目标化合物的反应物的方法。
10.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-4中任一项所述的确定目标化合物的反应物的方法。
CN201911113717.6A 2019-11-14 2019-11-14 确定目标化合物的反应物的方法、设备、装置、介质 Active CN111223532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113717.6A CN111223532B (zh) 2019-11-14 2019-11-14 确定目标化合物的反应物的方法、设备、装置、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113717.6A CN111223532B (zh) 2019-11-14 2019-11-14 确定目标化合物的反应物的方法、设备、装置、介质

Publications (2)

Publication Number Publication Date
CN111223532A CN111223532A (zh) 2020-06-02
CN111223532B true CN111223532B (zh) 2023-06-20

Family

ID=70829000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113717.6A Active CN111223532B (zh) 2019-11-14 2019-11-14 确定目标化合物的反应物的方法、设备、装置、介质

Country Status (1)

Country Link
CN (1) CN111223532B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798934B (zh) * 2020-06-23 2023-11-14 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN113948157B (zh) * 2020-07-16 2023-09-15 腾讯科技(深圳)有限公司 化学反应分类方法、装置、电子设备及存储介质
CN112309508A (zh) * 2020-11-02 2021-02-02 苏州创腾软件有限公司 化合物的解析方法、装置、计算机设备和存储介质
US20220165366A1 (en) * 2020-11-23 2022-05-26 International Business Machines Corporation Topology-Driven Completion of Chemical Data
CN114822703A (zh) * 2021-01-27 2022-07-29 腾讯科技(深圳)有限公司 一种化合物分子的逆合成预测方法以及相关装置
CN113838536B (zh) * 2021-09-13 2022-06-10 烟台国工智能科技有限公司 翻译模型构建方法、产物预测模型构建方法及预测方法
CN114613446A (zh) * 2022-03-11 2022-06-10 冰洲石生物科技(上海)有限公司 交互式/化学合成路线设计方法、系统、介质及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101284843A (zh) * 2007-04-10 2008-10-15 德古萨有限责任公司 用于制备通式R(4-m-n)AClmHn,特别是硅烷的化合物或高纯化合物的方法和装置
CN103272637A (zh) * 2007-04-10 2013-09-04 赢创德固赛有限责任公司 用于制备通式R(4-m-n)AClmHn,特别是硅烷的化合物或高纯化合物的方法和装置
CN105871742A (zh) * 2016-03-24 2016-08-17 合肥工业大学 一种片上网络中基于虚拟输出队列机制的自适应路由器
CN106599609A (zh) * 2017-01-13 2017-04-26 景德镇陶瓷大学 一种新的基于ChEBI描述的药物分子相似性计算方法
WO2017125950A2 (en) * 2016-01-22 2017-07-27 Council Of Scientific & Industrial Research A method for harvesting 3d chemical structures from file formats
WO2018099812A1 (en) * 2016-12-01 2018-06-07 Syngenta Participations Ag Pesticidally active heterocyclic derivatives with sulfur containing substituents
CN108291257A (zh) * 2015-09-24 2018-07-17 阿布维特罗有限责任公司 亲和-寡核苷酸缀合物及其用途
CN108694588A (zh) * 2018-04-13 2018-10-23 平安普惠企业管理有限公司 虚拟资源请求方法及终端设备
CN108880846A (zh) * 2017-05-16 2018-11-23 清华大学 为网络中节点确定向量表示形式的方法及装置
CN110117284A (zh) * 2018-02-06 2019-08-13 江苏奥赛康药业有限公司 含氮杂环类化合物及其制备方法和用途
WO2019154210A1 (zh) * 2018-02-08 2019-08-15 腾讯科技(深圳)有限公司 机器翻译的方法、设备以及计算机可读存储介质
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110390997A (zh) * 2019-07-17 2019-10-29 成都火石创造科技有限公司 一种化学分子式拼接方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324844B2 (en) * 2016-12-22 2019-06-18 Apple Inc. Memory consistency in graphics memory hierarchy with relaxed ordering
US10810210B2 (en) * 2017-05-12 2020-10-20 Battelle Memorial Institute Performance and usability enhancements for continuous subgraph matching queries on graph-structured data

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103272637A (zh) * 2007-04-10 2013-09-04 赢创德固赛有限责任公司 用于制备通式R(4-m-n)AClmHn,特别是硅烷的化合物或高纯化合物的方法和装置
CN101284843A (zh) * 2007-04-10 2008-10-15 德古萨有限责任公司 用于制备通式R(4-m-n)AClmHn,特别是硅烷的化合物或高纯化合物的方法和装置
CN108291257A (zh) * 2015-09-24 2018-07-17 阿布维特罗有限责任公司 亲和-寡核苷酸缀合物及其用途
WO2017125950A2 (en) * 2016-01-22 2017-07-27 Council Of Scientific & Industrial Research A method for harvesting 3d chemical structures from file formats
CN105871742A (zh) * 2016-03-24 2016-08-17 合肥工业大学 一种片上网络中基于虚拟输出队列机制的自适应路由器
WO2018099812A1 (en) * 2016-12-01 2018-06-07 Syngenta Participations Ag Pesticidally active heterocyclic derivatives with sulfur containing substituents
CN106599609A (zh) * 2017-01-13 2017-04-26 景德镇陶瓷大学 一种新的基于ChEBI描述的药物分子相似性计算方法
CN108880846A (zh) * 2017-05-16 2018-11-23 清华大学 为网络中节点确定向量表示形式的方法及装置
CN110117284A (zh) * 2018-02-06 2019-08-13 江苏奥赛康药业有限公司 含氮杂环类化合物及其制备方法和用途
WO2019154210A1 (zh) * 2018-02-08 2019-08-15 腾讯科技(深圳)有限公司 机器翻译的方法、设备以及计算机可读存储介质
CN108694588A (zh) * 2018-04-13 2018-10-23 平安普惠企业管理有限公司 虚拟资源请求方法及终端设备
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110390997A (zh) * 2019-07-17 2019-10-29 成都火石创造科技有限公司 一种化学分子式拼接方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Graph transformation policy network for chemical reaction prediction";Kien Do等;《In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;第750–760页 *
"SMILES表达式的子结构关系检测算法";彭彬等;《计算机工程与设计》;第39卷(第3期);第746-751页 *

Also Published As

Publication number Publication date
CN111223532A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111223532B (zh) 确定目标化合物的反应物的方法、设备、装置、介质
CN110277144B (zh) 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
CN112925516A (zh) 用上下文信息进行槽填充
CN113064586B (zh) 一种基于抽象语法树增广图模型的代码补全方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
Liu et al. Diffusion action segmentation
Phan et al. Consensus-based sequence training for video captioning
CN112397155B (zh) 一种单步逆向合成方法及系统
Mitton et al. A graph vae and graph transformer approach to generating molecular graphs
CN110807335A (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN114489669A (zh) 一种基于图学习的Python语言代码片段生成方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN111651668B (zh) 用户画像的标签生成方法及装置、存储介质、终端
Rodríguez et al. A comparative study of different machine learning methods for dissipative quantum dynamics
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
Tuli et al. FlexiBERT: Are current transformer architectures too homogeneous and rigid?
Zhu et al. Associative learning mechanism for drug‐target interaction prediction
Lin et al. Knowledge-guided recurrent neural network learning for task-oriented action prediction
CN117312559A (zh) 基于树结构信息感知的方面级情感四元组抽取方法及系统
CN113065322A (zh) 一种代码段注释生成方法、系统及可读存储介质
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
Pernkopf et al. Floating search algorithm for structure learning of Bayesian network classifiers
CN113392929B (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024423

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant