CN115171807B - 一种分子编码模型训练方法、分子编码方法和系统 - Google Patents

一种分子编码模型训练方法、分子编码方法和系统 Download PDF

Info

Publication number
CN115171807B
CN115171807B CN202211086961.XA CN202211086961A CN115171807B CN 115171807 B CN115171807 B CN 115171807B CN 202211086961 A CN202211086961 A CN 202211086961A CN 115171807 B CN115171807 B CN 115171807B
Authority
CN
China
Prior art keywords
model
molecular
neural network
coding
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211086961.XA
Other languages
English (en)
Other versions
CN115171807A (zh
Inventor
张百成
鲍琦
韩甜甜
宋炤坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Jiqian Quantum Technology Co ltd
Original Assignee
Hefei Jiqian Quantum Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Jiqian Quantum Technology Co ltd filed Critical Hefei Jiqian Quantum Technology Co ltd
Priority to CN202211086961.XA priority Critical patent/CN115171807B/zh
Publication of CN115171807A publication Critical patent/CN115171807A/zh
Application granted granted Critical
Publication of CN115171807B publication Critical patent/CN115171807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种分子编码模型训练方法、分子编码方法和系统。所述分子编码模型训练方法包括以下步骤:构建第一神经网络模型和第二神经网络模型组成的自主学习模型;第一神经网络模型的输入为分子的特征表示,其输出为分子编码;第二神经网络模型的输入为第一神经网络模型的输出,第二神经网络模型的输出为获得该分子的各种反应类型对应的概率;构建标注样本库,令自主学习模型学习训练样本以训练模型参数,当自主学习模型参数固定,则提取第一神经网络模型作为分子编码模型。该分子编码模型获得的分子编码能更好的体现分子的特性,从而提高分子对比的精确性。

Description

一种分子编码模型训练方法、分子编码方法和系统
技术领域
本发明涉及分子编码领域,尤其涉及一种分子编码模型训练方法、分子编码方法和系统。
背景技术
目前的分子编码方法主要是生成分子指纹,即通过各种算法(例如Morgan)将任意分子转化为等长的分子指纹(形式上是一个比特串,即只包含0和1的数组),如下表1所示。这些算法各有侧重,但都是从分子的拓扑结构出发,通过哈希化分子的子结构来产生分子指纹。因而所产生的分子指纹很好地描述了分子的拓扑结构特征。
表1:分子指纹举例
Figure 478019DEST_PATH_IMAGE001
分子编码方法有很多目的,其中一个非常重要的目的是比较分子相似性,可以用于分子/反应数据库的模糊检索。比较相似性的方法是计算两个分子编码的cosine(余弦)相似性,如果使用分子指纹,则为计算两个分子的分子指纹的相似性。
分子指纹目前存在的问题是只包含分子的结构特征,而很多分子的结构相似,并不代表其化学性质相似。因此,只描述了分子的结构特征的分子指纹导致很多情况下无法通过分子指纹找到期望的相似分子。如表1中的三个分子,如果使用分子指纹判断其相似性,M3与M1相似性最高,但实际上,从化学反应性的角度讲,M2与M1的相似性更高。
可见,现有的分子指纹,难以得到化学研究方向上期待的结果。
发明内容
为了解决上述现有技术中分子指纹的缺陷,本发明提出了一种分子编码模型训练方法、分子编码方法和系统。
本发明采用以下技术方案:
本发明的目的之一提供了一种分子编码模型训练方法,包括以下步骤:
S1、构建第一神经网络模型和第二神经网络模型组成的自主学习模型;第一神经网络模型的输入为分子的特征表示,其输出为分子编码;第二神经网络模型的输入为第一神经网络模型的输出,第二神经网络模型的输出为获得该分子的各种反应类型对应的概率,概率之和为1;
S2、构建标注样本库,标注样本库包含多个标注有反应类型的分子样本,分子样本为分子的特征表示;
S3、从标注样本库中选择多个标注样本作为训练样本,令自主学习模型学习训练样本以训练模型参数,当自主学习模型参数固定,则提取第一神经网络模型作为分子编码模型。
优选的,S3具体包括以下分步骤:
S31、从标注样本库中选择多个标注样本作为训练样本,令自主学习模型学习训练样本以训练模型参数,当模型参数迭代次数达到设定次数,则从标注样本库中选择多个标注样本作为测试样本,根据测试样本对应的模型标注和人工标注之间的差值,计算模型精确度;所述模型标注为自主学习模型以分子样本为输入时的输出,所述人工标注为分子样本自带的作为标注的反应类型;
S32、判断模型精确度是否达到设定值;模型精确度达不到设定值,则返回S31;模型精确度达到设定值,则固定第一神经网络模型作为分子编码模型。
优选的,模型精确度的计算公式为:Q=K1/K2;其中,Q表示模型精确度,K2表示本轮训练采用的测试样本数量,K1表示本轮训练中命中的测试样本数量;所述命中指的是分子样本的模型标注中概率最大的n个反应类型中包含该分子样本对应的人工标注。
优选的,1≤n≤3。
优选的,所述特征表示包括化学特征和结构特征,化学特征包括边特征和顶点特征,所述边特征为键的类型,所述顶点特征包括原子序数、连接氢原子数、形式电荷和价态中的一个或者多个;所述结构特征为分子中所有原子及原子间的键连关系。
优选的,分子的化学特征和结构特征通过软件rdkit提取。
本发明的目的之二提供了一种分子编码方法,采用上述的分子编码模型获取分子编码。
一种分子编码方法,包括以下步骤:
获取分子编码模型,分子编码模型采用所述的分子编码模型训练方法获得;
获取待编码分子的化学特征和结构特征,并输入所述分子编码模型,获取待编码分子的分子编码。
本发明的目的之三提供了一种分子编码系统,为上述的分子编码模型和分子编码方法提供了载体。
一种融合结构特征与化学特征的分子编码系统,包括存储模块和处理模块,存储模块中存储有分子编码模型,分子编码模型采用所述的分子编码模型训练方法获得;处理模块用于提取待编码分子的化学特征和结构特征并输入所述分子编码模型,以获取分子编码。
本发明的优点在于:
(1)本发明提出的一种分子编码模型训练方法,在训练分子编码模型时以精准预测可获得分子的反应类型作为目标,通过该分子编码模型获得的分子编码能更好的体现分子的特性,从而提高分子对比的精确性。
(2)本发明中分子编码模型通过神经网络自主学习的方式获得,简单高效,收敛速度快。且本发明中,将第一神经网络模型和第二神经网络模型组合训练,通过第二神经网络模型生成该分子的反应类型作为预测结果,为分子编码的精确性提供了可靠的评估指标,保证了通过该分子编码模型获得的分子编码的可靠性和准确。
(3)本发明中第二神经网络模型的输出为获得该分子的各种反应类型对应的概率,如此结合第二神经网络模型获得的反应类型中是否包含准确的反应类型,以及准确的反应类型在第二神经网络模型获得的反应类型中的概率值来推算自主学习模型实际上也就是分子编码的精确程度,为分子编码的测评保留了一定的容错空间,有利于自主学习模型的快速收敛。
(4)本发明中,第二神经网络模型输出的概率数量可设计多个,以提高命中真实的反应类型的概率;计算精确度时,可灵活调整计算公式,以提高模型精确度。
(5)本发明中可根据分子编码的需求,灵活设置第一神经网络的输入数据,使得分子编码模型的编码空间更加灵活,能满足更多需求。
(6)本发明提供的分子编码方法和系统,直接采用上述的分子编码模型获取高精度的分子编码。
附图说明
图1为一种分子编码模型训练流程图;
图2为另一种分子编码模型训练流程图;
图3为实施例1和对比例中模型训练精度对比图;
图4为通过分子编码和分子指纹检索到的相似分子对比。
具体实施方式
实施例1
本实施例中首先构建由第一神经网络和第二神经网络组成的自主学习模型,自主学习模型的训练如图1、图2所示。
第一神经网络模型的输入为分子的特征表示,即分子的化学特征和结构特征,化学特征包括边特征和顶点特征,所述边特征为键的类型,所述顶点特征包括原子序数、连接氢原子数、形式电荷和价态中的一个或者多个;所述结构特征为分子中所有原子及原子间的键连关系。第一神经网络模型的输出为分子编码。本实施例中,分子的化学特征和结构特征通过软件rdkit提取。
第二神经网络模型的输入为第一神经网络模型的输出,第二神经网络模型的输出为获得该分子的各种反应类型对应的概率,概率之和为1。
本实施例中,首先令自主学习模型学习标注样本,以迭代第一神经网络和第二神经网络的参数,当自主学习模型参数固定,则提取参数固定的第一神经网络作为分子编码模型,该分子编码模型基于分子的化学特征和结构特征获取分子编码。
该分子编码模型在学习过程中考虑到了获得该分子的反应的可能性,通过该分子编码模型获得的编码融合了分子的化学特征和结构特征,在利用该编码进行分子相似性对比时,对比结果更加符合分子的化学特征和结构特征的一致性,对比结果更加可靠。
为了证明本实施例中获得的分子编码模型的可靠性,本实施例中提供了一个对比例。本对比例中直接以软件rdkit提取分子指纹。
本对比例中,对上述的第二神经网络进行训练,训练步骤具体如下:
首先将第二神经网络参数初始化,并构建标注有反应类型的分子指纹作为第二标注样本;
选择多个第二标注样本作为第二训练样本,令第二神经网络学习所述第二训练样本以更新网络参数;
当第二神经网络参数迭代次数达到设定次数,则选择多个第二标注样本作为第二测试样本,测试第二神经网络的模型精确度;该设定次数等于上述自主学习模型训练过程的S31中的设定次数,即第二神经网络训练过程中每一个轮次采用的第二训练样本数量与自主学习模型训练过程中每一个轮次采用的训练样本数量相等;
重复以上两步,直至第二神经网络学习的第二训练样本数量达到自主学习模型学习的训练样本数量。
第二神经网络的模型精确度的计算方式与上述自主学习模型的模型精确度的计算方式相同,即:Q=K1/K2;其中,Q表示模型精确度,K2表示本轮训练采用的测试样本/第二测试样本数量,K1表示本轮训练中命中的测试样本/第二测试样本数量;所述命中指的是分子样本的模型标注中概率最大的n个反应类型中包含该分子样本对应的人工标注,人工标注即为分子样本自带的作为标注的反应类型。本实施例中,取n=3。
本实施例中,训练样本数量和模型精度之间的对应关系如图3所示。其中横坐标K表示模型学习的训练样本数量,纵坐标Top-K准确度表示模型精确度,曲线“融合结构特征和化学特征的分子编码”表示实施例1中自主学习模型学习的训练样本数量和模型精确度的映射关系;曲线“分子指纹”表示对比例中第二神经网络学习的第二训练样本数量和模型精确度的映射关系。
实施例1中自主学习模型的模型精确度和训练样本数量之间的映射关系,以及对比例中第二神经网络的模型精确度和训练样本数量之间的映射关系,统计如下表所示。
表2;实施例1和对比例中模型精确度统计
Figure 582373DEST_PATH_IMAGE002
结合图3和上表2可知,本实施例提供的分子编码模型在判断反应类型上精确度更高,最少只需要5-10个训练样本就可以达到分子指纹的最优效果。
本实施例中,进一步提供一组反应物分子,然后对该组反应物分子分别以实施例1提供的分子编码模型和软件rdkit获得分子编码和分子指纹,然后分别根据分子编码和分子指纹获得各反应物分子的最相似的分子结构,具体如图4所示。从分子结构式可直观获得,第1组到第4组中,通过分子编码对比获得的最相似分子相比通过分子指纹对比获得的最相似分子在从分子结构式上更加精确,从图4第5组可知,通过分子编码对比获得的最相似分子和反应物分子均包含苯环连苯环的结构,即图中虚线所示;而通过分子指纹对比获得的最相似分子不包含苯环连苯环的结构。可见本实施例提供的分子编码模型获得的分子编码相对于现有的分子指纹在分子相似性对比上更加优异可信。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

Claims (7)

1.一种分子编码方法,其特征在于,包括以下步骤:
获取分子编码模型;
获取待编码分子的化学特征和结构特征,并输入所述分子编码模型,获取待编码分子的分子编码;
分子编码模型的获得,包括以下步骤:
S1、构建第一神经网络模型和第二神经网络模型组成的自主学习模型;第一神经网络模型的输入为分子的特征表示,其输出为分子编码;第二神经网络模型的输入为第一神经网络模型的输出,第二神经网络模型的输出为获得该分子的各种反应类型对应的概率,概率之和为1;
S2、构建标注样本库,标注样本库包含多个标注有反应类型的分子样本,分子样本为分子的特征表示;
S3、从标注样本库中选择多个标注样本作为训练样本,令自主学习模型学习训练样本以训练模型参数,当自主学习模型参数固定,则提取第一神经网络模型作为分子编码模型。
2.如权利要求1所述的分子编码方法,其特征在于,S3具体包括以下分步骤:
S31、从标注样本库中选择多个标注样本作为训练样本,令自主学习模型学习训练样本以训练模型参数,当模型参数迭代次数达到设定次数,则从标注样本库中选择多个标注样本作为测试样本,根据测试样本对应的模型标注和人工标注之间的差值,计算模型精确度;所述模型标注为自主学习模型以分子样本为输入时的输出,所述人工标注为分子样本自带的作为标注的反应类型;
S32、判断模型精确度是否达到设定值;模型精确度达不到设定值,则返回S31;模型精确度达到设定值,则固定第一神经网络模型作为分子编码模型。
3.如权利要求2所述的分子编码方法,其特征在于,模型精确度的计算公式为:Q=K1/K2;其中,Q表示模型精确度,K2表示本轮训练采用的测试样本数量,K1表示本轮训练中命中的测试样本数量;所述命中指的是分子样本的模型标注中概率最大的n个反应类型中包含该分子样本对应的人工标注。
4.如权利要求3所述的分子编码方法,其特征在于,1≤n≤3。
5.如权利要求1所述的分子编码方法,其特征在于,所述特征表示包括化学特征和结构特征,化学特征包括边特征和顶点特征,所述边特征为键的类型,所述顶点特征包括原子序数、连接氢原子数、形式电荷和价态中的一个或者多个;所述结构特征为分子中所有原子及原子间的键连关系。
6.如权利要求5所述的分子编码方法,其特征在于,分子的化学特征和结构特征通过软件rdkit提取。
7.一种融合结构特征与化学特征的分子编码系统,其特征在于,包括存储模块和处理模块,存储模块中存储有分子编码模型;处理模块用于提取待编码分子的化学特征和结构特征并输入所述分子编码模型,以实现如权利要求1-6任一项所述的分子编码方法,获取分子编码。
CN202211086961.XA 2022-09-07 2022-09-07 一种分子编码模型训练方法、分子编码方法和系统 Active CN115171807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211086961.XA CN115171807B (zh) 2022-09-07 2022-09-07 一种分子编码模型训练方法、分子编码方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211086961.XA CN115171807B (zh) 2022-09-07 2022-09-07 一种分子编码模型训练方法、分子编码方法和系统

Publications (2)

Publication Number Publication Date
CN115171807A CN115171807A (zh) 2022-10-11
CN115171807B true CN115171807B (zh) 2022-12-06

Family

ID=83481213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211086961.XA Active CN115171807B (zh) 2022-09-07 2022-09-07 一种分子编码模型训练方法、分子编码方法和系统

Country Status (1)

Country Link
CN (1) CN115171807B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115739182B (zh) * 2022-11-17 2024-01-16 合肥机数量子科技有限公司 含单分散铁原子的过氧化物模拟酶及其制备方法和用途
CN116110051B (zh) * 2023-04-13 2023-07-14 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN112133379A (zh) * 2020-09-18 2020-12-25 武汉智化科技有限公司 一种化学反应搜索方法、装置及系统、图形处理器
CN113140260A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN113160902A (zh) * 2021-04-09 2021-07-23 大连理工大学 一种预测化学反应产物对映选择性的方法
CN113409893A (zh) * 2021-06-25 2021-09-17 成都职业技术学院 一种基于图像卷积的分子特征提取及性能预测方法
CN114093435A (zh) * 2021-10-21 2022-02-25 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN114530258A (zh) * 2022-01-28 2022-05-24 华南理工大学 一种深度学习药物相互作用预测方法、装置、介质和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049548A1 (en) * 2000-04-03 2002-04-25 Libraria, Inc. Chemistry resource database
US11450410B2 (en) * 2018-05-18 2022-09-20 Samsung Electronics Co., Ltd. Apparatus and method for generating molecular structure

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN113140260A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN112133379A (zh) * 2020-09-18 2020-12-25 武汉智化科技有限公司 一种化学反应搜索方法、装置及系统、图形处理器
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN113160902A (zh) * 2021-04-09 2021-07-23 大连理工大学 一种预测化学反应产物对映选择性的方法
CN113409893A (zh) * 2021-06-25 2021-09-17 成都职业技术学院 一种基于图像卷积的分子特征提取及性能预测方法
CN114093435A (zh) * 2021-10-21 2022-02-25 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN114530258A (zh) * 2022-01-28 2022-05-24 华南理工大学 一种深度学习药物相互作用预测方法、装置、介质和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Neural Networks for the Prediction of Organic Chemistry Reactions;Wei JN et al.;《ACS Cent Science》;20161026;第2卷(第10期);725-732 *
机器学习设计单步逆向合成反应的研究进展;陈颖莹 等;《化学通报》;20220831;第85卷(第8期);第951-959页 *
陈颖莹 等.机器学习设计单步逆向合成反应的研究进展.《化学通报》.2022,第85卷(第8期),第951-959页. *

Also Published As

Publication number Publication date
CN115171807A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN115171807B (zh) 一种分子编码模型训练方法、分子编码方法和系统
CN113610173B (zh) 一种基于知识蒸馏的多跨域少样本分类方法
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN108491528B (zh) 一种图像检索方法、系统及装置
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN112397155B (zh) 一种单步逆向合成方法及系统
Sun et al. Find the best path: An efficient and accurate classifier for image hierarchies
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN112766507B (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN115985386A (zh) 一种多模态药物-蛋白质靶点相互作用预测方法及系统
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN111444316A (zh) 一种面向知识图谱问答的复合问句解析方法
CN115544070A (zh) 一种基于轨迹表示学习的相似度查询优化方法
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类系统及分类方法
CN116302953A (zh) 一种基于增强嵌入向量语义表示的软件缺陷定位方法
CN114418111A (zh) 标签预测模型训练及样本筛选方法、装置、存储介质
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN113393898B (zh) 一种基于自监督学习的宏基因组重叠群分类方法
CN117829153B (zh) 一种基于轻量化预训练模型的实体识别方法和装置
CN110851673B (zh) 一种改进的集束搜索方法及问答系统
CN116028589A (zh) 一种地址识别方法、装置和电子设备
CN116469470A (zh) 一种基于Transformer网络改进的分子-蛋白质反应预测分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant