CN113066539A - 预测方法及相关装置、设备 - Google Patents

预测方法及相关装置、设备 Download PDF

Info

Publication number
CN113066539A
CN113066539A CN202110303541.1A CN202110303541A CN113066539A CN 113066539 A CN113066539 A CN 113066539A CN 202110303541 A CN202110303541 A CN 202110303541A CN 113066539 A CN113066539 A CN 113066539A
Authority
CN
China
Prior art keywords
representation
sample
drug
detected
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110303541.1A
Other languages
English (en)
Inventor
胡志强
毕研广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202110303541.1A priority Critical patent/CN113066539A/zh
Publication of CN113066539A publication Critical patent/CN113066539A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请公开了一种预测方法及相关装置、设备,其中,预测方法包括:获取待测药物的第一原始表示和待测蛋白质的第二原始表示,其中,第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息;对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,并对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示;利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示;基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果。上述方案,能够提高反应预测效果。

Description

预测方法及相关装置、设备
技术领域
本申请涉及信息技术领域,特别是涉及一种预测方法及相关装置、设备。
背景技术
药物研发通常耗时漫长,从实验室合成,到成为市场上批准、流通的药物,往往需要数十年的周期,在此期间更是要消耗大量的资金、人力与物力,成本巨大。
得益于电子信息技术的发展,计算机技术在药物研发过程中发挥着越来越重要的作用。在此过程中,作为药物研发中重要一环的药物靶蛋白反应预测,同样受益于计算机技术,有效地降低了其成本开支。然而,目前采用计算机技术来进行药物靶蛋白预测仍然存在预测效果较差的问题。有鉴于此,如何提高反应预测效果成为亟待解决的问题。
发明内容
本申请提供一种预测方法及相关装置、设备。
本申请第一方面提供了一种预测方法,包括:获取待测药物的第一原始表示和待测蛋白质的第二原始表示,其中,第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息;对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,并对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示;利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示;基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果。
因此,通过获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息,并对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,以及对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示,从而利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示,并基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果,由于最终融合特征表示是由待测药物对应的第一特征表示对待测蛋白质对应的第二特征表示进行互相关处理得到的,而互相关处理反应的是两个表示在不同相对位置上的相互匹配程度,故最终融合特征能够反应待测药物的分子与待测蛋白质的肽链等结构在不同相对位置的相互匹配程度,从而通过互相关处理能够模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
其中,待测药物的第一特征表示包含对应于不同感受野的多个第一特征表示;利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示,包括:基于感受野,将多个第一特征表示进行排序;依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相关处理,得到与选择的第一特征表示对应的第一融合特征表示;将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示;重复执行依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示。
因此,待测药物的第一特征表示包括对应于不同感受野的多个第一特征表示时,基于感受野将多个第一特征表示进行排序,从而依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相互处理,得到与选择的第一特征表示对应的第一融合特征表示,进而将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示,并重复执行上述依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止后,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示,故在待测药物的第一特征表示包括对应于不同感受野的多个第一特征表示时,能够逐深度地进行互相关处理,从而能够在不同感受野通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
其中,每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均为预设尺寸。
因此,将每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均设置为预设尺寸,能够降低反应预测过程中对于待测药物中原子数量和待测蛋白质中氨基酸数量的敏感程度,从而能够自适应地处理不定长数据。
其中,基于感受野,将多个第一特征表示进行排序包括:按照感受野由小到大的顺序,将多个第一特征表示进行排序。
因此,将第一特征表示按照感受野由小到大进行排序,从而感受野按照由小到大的顺序,将第一特征表示和第二特征表示进行互相关处理,进而能够按照感受野由小到大的顺序通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
其中,互相关处理的步骤包括:将第一特征表示以预设步长在第二特征表示中进行滑动卷积。
因此,将第一特征表示以预设步长在第二特征表示中进行滑动卷积以进行互相关处理,能够有利于根据需要调整预设步长,从而能够有利于根据需要调整反应预测的速度与效果。
其中,对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,包括:利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示;对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示,包括:利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示;基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果,包括:利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果。
因此,利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示,利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果,从而能够利用反应预测网络执行反应预测,从而能够有利于提高反应预测的效率和鲁棒性。
其中,第一原始表示包括待测药物的分子无向图,第一提取子网络包括图网络;和/或,第二原始表示包括以一维序列表示的待测蛋白质的一级结构序列,第二提取子网络包括一维卷积。
因此,将第一原始表示设置为包括待测药物的分子无向图,将第一提取子网络设置为包括图网络,能够使得反应预测更加符合客观事实,从而能够有利于提高反应预测效果;将第二原始表示设置为包括以一维序列表示的待测蛋白质的一级结构序列,将第二提取子网络设置为包括一维卷积,能够使得反应预测更加符合客观事实,从而能够有利于提高反应预测效果。
其中,在利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果之前,方法还包括:利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示。
因此,在利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果之前,还利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示,能够有利于将最终融合特征表示充分融合,从而能够有利于提高反应预测的效果。
其中,在利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示之前,方法还包括:获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果,且第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息;利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示;利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示;利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果;利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数。
因此,通过获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果,且第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息,并利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示,从而利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示,进而利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果,并利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数,故能够在利用反应预测网络对待测药物和待测蛋白质进行反应预测之前,对反应预测网络进行训练,从而能够有利于提高反应预测的准确性和鲁棒性。
其中,预测反应结果包括待测药物和待测蛋白质之间有反应、无反应中的任一种;样本实际反应结果包括样本药物和样本蛋白质之间有反应、无反应中的任一种,样本预测反应结果包括样本药物和样本蛋白质之间有反应、无反应中的任一种。
因此,将预测反应结果设置为包括待测药物和待测蛋白质之间有反应、无反应中的任一种,将样本实际反应结果设置为包括样本药物和样本蛋白质之间有反应、无反应中的任一种,将样本预测反应结果设置为包括样本药物和样本蛋白质之间有反应、无反应中的任一种,能够有利于提高反应预测的鲁棒性。
本申请第二方面提供了一种预测装置,包括:信息获取模块、特征提取模块、互相关处理模块和分类预测模块,信息获取模块用于获取待测药物的第一原始表示和待测蛋白质的第二原始表示,其中,第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息;特征提取模块用于对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,并对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示;互相关处理模块用于利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示;分类预测模块用于基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果。
本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的预测方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的预测方法。
上述方案,通过获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息,并对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,以及对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示,从而利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示,并基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果,由于最终融合特征表示是由待测药物对应的第一特征表示对待测蛋白质对应的第二特征表示进行互相关处理得到的,而互相关处理反应的是两个表示在不同相对位置上的相互匹配程度,故最终融合特征能够反应待测药物的分子与待测蛋白质的肽链等结构在不同相对位置的相互匹配程度,从而通过互相关处理能够模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
附图说明
图1是本申请预测方法一实施例的流程示意图;
图2是本申请预测方法一实施例的状态示意图;
图3是训练反应预测网络一实施例的流程示意图;
图4是本申请预测方法另一实施例的流程示意图;
图5是本申请预测装置一实施例的框架示意图;
图6是本申请电子设备一实施例的框架示意图;
图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请预测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取待测药物的第一原始表示和待测蛋白质的第二原始表示。
在一个实施场景中,待测药物可以是新合成的药物,待测蛋白质可以根据实际情况(如根据待测药物作用的靶标)进行设置,例如,当待测药物的适应症为I型糖尿病时,待测蛋白质可以包括钠/葡萄糖共转运蛋白1(SLC5A1);或者,当待测药物的适应症为便秘型肠易激综合征时,待测蛋白质可以包括钠/氢交换因子3(SLC9A3),以上举例仅为实际实施过程中的几种可能情况,具体可以根据实际应用需要进行设置,在此不做限定。在另一个实施场景中,待测药物也可以是已有的药物,待测蛋白质可以根据已有药物新开发的适应症进行设置,例如,待测药物原适应症为解热止痛,新开发的适应症为抗血栓,则待测蛋白质可以根据“抗血栓”这一适应症进行设置,其他场景可以根据实际应用需要进行设置,在此不做限定。
本公开实施例中,第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息。
在一个实施场景中,待测药物的第一原始表示具体可以包括待测药物的分子无向图。在一个具体的实施场景中,第一原始表示可以采用简化分子线性输入规范(SimplifiedMolecular Input Line Entry System,SMILES)序列进行表示,SMILES是一种用ACSII字符串明确描述分子结构的规范,具体在此不再赘述。
在一个实施场景中,待测蛋白质的第二原始表示具体可以包括以一维序列表示的待测蛋白质的第一结构序列。具体地,在蛋白质中,多肽中氨基酸的排列顺序,包括二硫键的位置,称之为蛋白质的一级结构。蛋白质的一级结构决定其空间构象,一级结构相似的多肽或蛋白质具有相似的功能,即蛋白质的一级结构决定其生物学功能。
步骤S12:对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,并对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示。
在一个实施场景中,可以预先训练一包括第一提取子网络的反应预测网络,从而可以采用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,从而可以有利于提高反应预测的效率和鲁棒性。在一个具体的实施场景中,第一提取子网络可以包括图网络,例如,可以包括图卷积网络(Graph ConvolutionalNetwork,GCN)、图神经网络(Graph Neural Network,GNN)等,具体根据实际应用需要进行设置,在此不做限定。在另一个具体的实施场景中,第一原始表示包括待测药物的分子无向图,第一提取子网络包括图网络,从而可以使得后续反应预测更加符合客观事实,进而能够有利于提高反应预测效果。
在一个实施场景中,预先训练的反应预测网络还可以包括第二提取子网络,从而可以利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示,从而可以有利于提高反应预测的效率和鲁棒性。在一个具体的实施场景中,第二提取子网络可以包括一维卷积,例如,可以包括至少一个一维卷积核,具体根据实际应用需要进行设置,在此不做限定。在另一个具体的实施场景中,第二原始表示包括以一维序列表示的待测蛋白质的一级结构序列,第二提取子网络包括一维卷积,从而可以使得后续反应预测更加符合客观事实,进而能够有利于提高反应预测效果。
请结合参阅图2,图2是本申请预测方法一实施例的状态示意图。第一原始表示包括待测药物的分子无向图,第二原始表示包括以一维序列表示的待测蛋白质的一级结构序列,第一提取子网络包括图网络,如图2所示,具体可以包括至少一个顺序连接卷积层,利用至少一个顺序连接的卷积层可以提取得到至少一个第一原始表示的特征表示,该特征表示对应不同的卷积层具有不同感受野,具体地,浅层卷积层所提取得到的特征表示具有较小的感受野,深层卷积层所提取得到的特征表示具有较大的感受野,再将第一原始表示的特征表示分别经过全局池化后,可以得到待测药物的第一特征表示。在一个具体的实施场景中,第一特征表示为一维特征向量,其向量长度可以为第一数值,例如,5、10、15、20等等,在此不做限定。请继续结合参阅图2,第二提取子网络具体可以包括一维卷积,从而利用一维卷积对第二原始表示进行特征提取,并经过池化处理之后,可以得到第二特征表示。在一个具体的实施场景中,第二特征表示为具有多个通道的一维特征向量,其向量长度可以为第二数值,例如,50、100、150、200等等,在此不做限定。
步骤S13:利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示。
互相关处理反应的是两个表示在不同相对位置上的相互匹配程度。在一个具体的实施场景中,可以将第一特征表示以预设步长在第二特征表示中进行滑动卷积。需要说明的是,预设步长可以根据实际应用需要进行设置,例如,预设步长可以设置为1、2、3等等,在此不做限定。为了获取到第一特征表示和第二特征表示在各个不同位置上的相互匹配程度,可以将预设步长设置地尽可能地小,如可以将预设步长直接设置为1。以预设步长为1为例,在第一特征表示以一维向量表示为[1 4 2 1 3],第二特征表示以一维向量表示为[1 42 1 1 2 1 2]的情况下,可以将第一特征表示中间元素“2”作为锚点,分别与第二特征表示的各个元素对齐后进行点积求和,不足补“0”,且每次点积求和之后,将锚点与第二特征表示中下一个元素对齐并再次进行点积求和,直至锚点与第二特征表示中最后一个元素对齐并执行完毕点积求和为止,从而可以得到长度与第二特征表示相同的融合特征表示,即为[12 17 25 21 13 16 13 10],由于第一特征表示中各个元素能够表示待测药物的原子,而第二特征表示中各个元素能够表示待测蛋白质的多肽等结构,故通过将第一特征表示对第二特征表示进行互相关处理,能够模拟待测药物与待测蛋白质的反应机制,相较于简单地将第一特征表示和第二特征表示进行拼接处理,本公开实施例所得到的最终融合特征表示能够更加准确地表示待测药物和待测蛋白质间的反应。当第一特征表示和第二特征表示为其他数值时可以以此类推,在此不再一一举例。
在一个实施场景中,待测药物的第一特征表示可以包含对应于不同感受野的多个第一特征表示,故可以基于感受野,将多个第一特征表示进行排序,具体地,可以按照感受野由小到大的顺序,将多个第一特征表示进行排序,从而依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相关处理,得到与选择的第一特征表示对应的第一融合特征表示,进而将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示,重复执行上述依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示。故此,在待测药物的第一特征表示包括对应于不同感受野的多个第一特征表示时,能够逐深度地进行互相关处理,从而能够在不同感受野通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
在一个具体的实施场景中,请继续结合参阅图2,待测药物的第一特征表示包含对应于不同感受野的三个第一特征表示,如图2所示,三个第一特征表示由下至上的感受野逐渐增大,故可以先选择最下一个第一特征表示,并利用该第一特征表示对第二特征表示进行互相关处理,得到第一融合特征表示,将得到的第一融合特征表示作为新的第二特征表示,从而继续选择中间一个第一特征表示对其进行互相关处理,又得到与其对应的第一融合特征表示,将其作为新的第二特征表示,进而继续选择最上一个第一特征表示对其进行互相关处理,又得到与其对应的第一融合特征表示,至此全部第一特征表示均被选择完毕,故可以将最后得到的第一融合特征表示作为最终融合特征表示,从而能够逐深度地进行互相关处理,在不同感受野通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。当包含的第一特征表示为其他数值(例如,2个、4个、5个等等)时,可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均为预设尺寸,例如,每一第一融合特征表示以及最终融合特征表示均为多通道的一维向量,该一维向量的长度可以第三数值(如,50、100、150、200等等),通道数可以为第四数值(如,5、10、15、20等等),上述数值举例仅为实际实施时可能采用的数值,具体可以根据实际应用需要进行设置,在此不做限定。故此,将每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均设置为预设尺寸,能够降低反应预测过程中对于待测药物中原子数量和待测蛋白质中氨基酸数量的敏感程度,从而能够自适应地处理不定长数据。
步骤S14:基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果。
在一个实施场景中,反应预测网络还可以包括分类预测子网络,从而可以利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果。具体地,预测反应结果可以包括有反应、无反应中的任一种,例如,当反应预测结果包括有反应时,表示待测蛋白质对待测药物有药物反应;反之,则表示待测蛋白质对待测药物无药物反应。
请结合参阅图2,在一个实施场景中,反应预测网络还可以包括循环神经子网络,循环神经子网络是一种循环神经网络(Recurrent Neural Network,RNN),是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络,具体在此不再赘述。故此,可以利用反应预测网络的循环神经子网络先对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示,从而利用反应预测网络的分类预测子网络对该新的最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果。故此,利用循环神经子网络能够有利于将最终融合特征表示充分融合,从而能够有利于提高反应预测的效果。在另一个实施场景中,也可以将待测药物和待测蛋白质的最终融合特征表示压缩成为单通道的一维向量,从而利用反应预测网络的分类预测子网络对该一维向量进行分类预测,得到待测药物和待测蛋白质之间的反应预测结果。具体地,可以采用全局平均池化或全局最大池化将最终融合特征表示压缩成为单通道的一维向量,在此不做限定。
在一个实施场景中,为了开发某一适应症的药物,待测蛋白质可以为该适应症对应的靶蛋白,从而可以将至少一个候选药物作为待测药物,分别利用至少一个待测药物的第一原始表示和待测蛋白质的第二原始表示,得到至少一个待测药物分别与待测蛋白质之间的预测反应结果,从而可以从至少一个候选药物中快速且准确地筛选得到与靶蛋白具有药物反应的目标药物,进而能够省去耗时耗力、繁琐贵重的实验测试。
上述方案,通过获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息,并对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,以及对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示,从而利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示,并基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果,由于最终融合特征表示是由待测药物对应的第一特征表示对待测蛋白质对应的第二特征表示进行互相关处理得到的,而互相关处理反应的是两个表示在不同相对位置上的相互匹配程度,故最终融合特征能够反应待测药物的分子与待测蛋白质的肽链等结构在不同相对位置的相互匹配程度,从而通过互相关处理能够模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
请参阅图3,图3是训练反应预测网络一实施例的流程示意图。具体可以包括如下步骤:
步骤S31:获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果。
本公开实施例中,第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息,分子结构信息和氨基酸序列信息具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,可以选取已经明确实际反应结果的药物、蛋白质组合,并将每一组合中的药物作为样本药物,将对应组合中的蛋白质作为样本蛋白质。例如,已经明确沃塞洛托(Voxelotor)的适应症包括镰状细胞病,其作用于血红蛋白亚基-ɑ,故可以将沃塞洛托(Voxelotor)作为样本药物,血红蛋白亚基-ɑ作为样本蛋白质,其样本实际反应结果为有反应;或者,例如,已经明确塞利尼索(Selinexor)的适应症包括多发性骨髓瘤,其作用于转运蛋白Exportin 1(XPO1),故可以将塞利尼索(Selinexor)作为样本药物,转运蛋白Exportin 1(XPO1)作为样本蛋白质,其样本实际反应结果为有反应。以上仅为实际实施过程中可能采用的样本,具体可以根据实际应用需要进行设置,在此不做限定。
在一个实施场景中,第一样本原始表示可以包括样本药物的分子无向图,第二样本原始表示可以包括以一维序列表示的样本蛋白质的一级结构序列,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S32:利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示。
请结合参阅图2,利用第一提取子网络可以对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用第二特征提取子网络可以对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。在一个具体的实施场景中,第一样本特征表示可以为一维向量,其向量长度可以为第一数值,第二样本特征表示可以为多通道的一维向量,其向量长度可以为第二数值,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S33:利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示。
互相关处理的具体步骤可以参阅前述公开实施例中的相关描述,在此不再赘述。
在一个实施场景中,样本药物的第一样本特征表示可以包含对应不同感受野的多个第一样本特征表示,则可以基于感受野将多个第一样本特征表示进行排序,具体可以按照感受野由小到大的顺序,将多个第一样本特征表示进行排序,从而依序选择一个第一样本特征表示,并利用选择第一样本特征表示将对第二样本特征表示进行互相关处理,得到与选择的第一样本特征表示对应的第一样本融合特征表示,将选择的第一样本特征表示对应的第一样本融合特征表示,作为新的第二样本特征表示,进而重复执行上述依序选择一个第一样本特征表示的步骤以及后续步骤,直至多个第一样本特征表示均被选择为止,将基于最后选择的第一样本特征表示得到的第一样本融合特征表示,作为最终样本融合特征表示。
在一个具体的实施场景中,每个第一样本特征表示对应的第一样本融合特征表示和最终样本融合特征表示的尺寸均为预设尺寸。例如,每一第一样本融合特征表示以及最终样本融合特征表示均为多通道的一维向量,该一维向量的长度可以第三数值(如,50、100、150、200等等),通道数可以为第四数值(如,5、10、15、20等等),上述数值举例仅为实际实施时可能采用的数值,具体可以根据实际应用需要进行设置,在此不做限定。
步骤S34:利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果。
在一个实施场景中,在利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测之前,还可以利用反应预测网络的循环神经子网络对最终样本融合特征表示进行编码处理,并将循环神经网络的隐藏层的状态作为新的最终样本融合特征表示,从而利用反应预测网络的分类预测子网络对新的最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果。循环神经子网络具体可以参阅前述公开实施例中的相关描述,在此不再赘述。在另一个实施场景中,在利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测之前,也可以将最终样本融合特征表示压缩为单通道的一维向量,并将其作为新的最终样本融合特征表示,从而利用反应预测网络的分类预测子网络对新的最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果。具体地,可以通过全局平均池化或全局最大池化进行压缩,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在一个实施场景中,样本预测反应结果可以包括有反应、无反应中的任一种。例如,当样本预测反应结果包括有反应时,表示样本蛋白质对样本药物有药物反应,反之,则表示样本蛋白质对样本药物无药物反应。
步骤S35:利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数。
在一个具体的实施场景中,可以利用二分类交叉熵损失函数计算样本实际反应结果和样本预测反应结果之间的损失值,并利用损失值调整反应预测网络的网络参数。
在另一个具体的实施场景中,可以采用随机梯度下降(Stochastic GradientDescent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用损失值对反应预测网络的网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
在又一个具体的实施场景中,还可以设置一训练结束条件,当满足训练结束条件时,可以结束对反应预测网络的训练。具体地,训练结束条件可以包括:损失值小于一预设损失阈值;当前训练次数达到预设次数阈值(例如,500次、1000次等),在此不做限定。
区别于前述实施例,通过获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果,且第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息,并利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示,从而利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示,进而利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果,并利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数,故能够在利用反应预测网络对待测药物和待测蛋白质进行反应预测之前,对反应预测网络进行训练,从而能够有利于提高反应预测的准确性和鲁棒性。
请参阅图4,图4是本申请预测方法另一实施例的流程示意图。具体可以包括如下步骤:
步骤S41:获取待测药物的第一原始表示和待测蛋白质的第二原始表示。
本公开实施例中,第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息。
具体请参阅前述公开实施例中的相关步骤。
步骤S42:利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,并利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示。
本公开实施例中,待测药物的第一特征表示包含对应于不同感受野的多个第一特征表示。在一个实施场景中,第一提取子网络可以包括图网络,第二提取子网络可以包括一维卷积。
具体请参阅前述公开实施例中的相关步骤。
步骤S43:基于感受野,将多个第一特征表示进行排序。
在一个实施场景中,可以按照感受野由小到大的顺序,将多个第一特征表示进行排序。
具体可以参阅前述公开实施例中的相关步骤。
步骤S44:依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相关处理,得到与选择的第一特征表示对应的第一融合特征表示。
互相关处理反应的是两个表示在不同相对位置上的相互匹配程度。在一个实施场景中,可以将第一特征表示以预设步长在第二特征表示中进行滑动卷积。具体请参阅前述公开实施例中的相关步骤。
步骤S45:将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示。
具体请参阅前述公开实施例中的相关步骤。
步骤S46:重复执行依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示。
在一个实施场景中,每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均为预设尺寸。具体请参阅前述公开实施例中的相关步骤。
步骤S47:利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示。
具体请参阅前述公开实施例中的相关步骤。
步骤S48:利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果。
在一个实施场景中,预测反应结果可以包括待测药物和待测蛋白质之间有反应、无反应中的任一种。
具体请参阅前述公开实施例中的相关步骤。
区别于前述实施例,通过获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息,继而利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,并利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示,从而基于感受野,将多个第一特征表示进行排序,并依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相关处理,得到与选择的第一特征表示对应的第一融合特征表示,将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示,重复执行依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示,能够逐深度地进行互相关处理,从而能够在不同感受野通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示,能够有利于将最终融合特征表示充分融合。故此,上述方案能够提高反应预测的效果。
请参阅图5,图5是本申请预测装置50一实施例的框架示意图。预测装置50包括:信息获取模块51、特征提取模块52、互相关处理模块53和分类预测模块54,信息获取模块51用于获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息;特征提取模块52用于对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,并对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示;互相关处理模块53用于利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示;分类预测模块54用于基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果。
上述方案,通过获取待测药物的第一原始表示和待测蛋白质的第二原始表示,且第一原始表示包括待测药物的分子结构信息,第二原始表示包括待测蛋白质的氨基酸序列信息,并对第一原始表示进行第一特征提取,得到待测药物的第一特征表示,以及对第二原始表示进行第二特征提取,得到待测蛋白质的第二特征表示,从而利用第一特征表示对第二特征表示进行互相关处理,得到待测药物和待测蛋白质的最终融合特征表示,并基于最终融合特征表示,得到待测药物和待测蛋白质之间的预测反应结果,由于最终融合特征表示是由待测药物对应的第一特征表示对待测蛋白质对应的第二特征表示进行互相关处理得到的,而互相关处理反应的是两个表示在不同相对位置上的相互匹配程度,故最终融合特征能够反应待测药物的分子与待测蛋白质的肽链等结构在不同相对位置的相互匹配程度,从而通过互相关处理能够模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
在一些公开实施例中,待测药物的第一特征表示包含对应于不同感受野的多个第一特征表示,互相关处理模块53包括特征排序子模块,用于基于感受野,将多个第一特征表示进行排序,互相关处理模块53包括互相关子模块,用于依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相关处理,得到与选择的第一特征表示对应的第一融合特征表示,互相关处理模块53包括特征获取子模块,用于将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示,互相关处理模块53包括重复执行子模块,用于重复执行依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示。
区别于前述实施例,待测药物的第一特征表示包括对应于不同感受野的多个第一特征表示时,基于感受野将多个第一特征表示进行排序,从而依序选择一个第一特征表示,并利用选择的第一特征表示对第二特征表示进行互相互处理,得到与选择的第一特征表示对应的第一融合特征表示,进而将选择的第一特征表示对应的第一融合特征表示,作为新的第二特征表示,并重复执行上述依序选择一个第一特征表示的步骤以及后续步骤,直至多个第一特征表示均被选择为止后,将基于最后选择的第一特征表示得到的第一融合特征表示,作为最终融合特征表示,故在待测药物的第一特征表示包括对应于不同感受野的多个第一特征表示时,能够逐深度地进行互相关处理,从而能够在不同感受野通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
在一些公开实施例中,每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均为预设尺寸。
区别于前述实施例,将每个第一特征表示对应的第一融合特征表示和最终融合特征表示的尺寸均设置为预设尺寸,能够降低反应预测过程中对于待测药物中原子数量和待测蛋白质中氨基酸数量的敏感程度,从而能够自适应地处理不定长数据。
在一些公开实施例中,特征排序子模块具体用于按照感受野由小到大的顺序,将多个第一特征表示进行排序。
区别于前述实施例,将第一特征表示按照感受野由小到大进行排序,从而感受野按照由小到大的顺序,将第一特征表示和第二特征表示进行互相关处理,进而能够按照感受野由小到大的顺序通过互相关处理模拟待测药物和待测蛋白质的反应机制,进而能够提高反应预测效果。
在一些公开实施例中,互相关处理的步骤包括:将第一特征表示以预设步长在第二特征表示中进行滑动卷积。
区别于前述实施例,将第一特征表示以预设步长在第二特征表示中进行滑动卷积以进行互相关处理,能够有利于根据需要调整预设步长,从而能够有利于根据需要调整反应预测的速度与效果
在一些公开实施例中,特征提取模块52具体用于利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,并利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示,分类预测模块54具体用于利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果。
区别于前述实施例,利用反应预测网络的第一提取子网络对第一原始表示进行特征提取,得到待测药物的第一特征表示,利用反应预测网络的第二提取子网络对第二原始表示进行特征提取,得到待测蛋白质的第二特征表示,利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果,从而能够利用反应预测网络执行反应预测,从而能够有利于提高反应预测的效率和鲁棒性。
在一些公开实施例中,第一原始表示包括待测药物的分子无向图,第一提取子网络包括图网络;和/或,第二原始表示包括以一维序列表示的待测蛋白质的一级结构序列,第二提取子网络包括一维卷积。
区别于前述实施例,将第一原始表示设置为包括待测药物的分子无向图,将第一提取子网络设置为包括图网络,能够使得反应预测更加符合客观事实,从而能够有利于提高反应预测效果;将第二原始表示设置为包括以一维序列表示的待测蛋白质的一级结构序列,将第二提取子网络设置为包括一维卷积,能够使得反应预测更加符合客观事实,从而能够有利于提高反应预测效果。
在一些公开实施例中,预测装置50还包括编码处理模块,用于利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示。
区别于前述实施例,在利用反应预测网络的分类预测子网络对最终融合特征表示进行分类预测,得到待测药物和待测蛋白质之间的预测反应结果之前,还利用反应预测网络的循环神经子网络对最终融合特征表示进行编码处理,并将循环神经子网络的隐藏层的状态作为新的最终融合特征表示,能够有利于将最终融合特征表示充分融合,从而能够有利于提高反应预测的效果。
在一些公开实施例中,预测装置50还包括样本信息获取模块,用于获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果,且第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息,预测装置50还包括样本特征提取模块,用于利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示,预测装置50还包括样本互相关处理模块,用于利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示,预测装置50还包括样本分类预测模块,用于利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果,预测装置50还包括网络参数调整模块,用于利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数。
区别于前述实施例,通过获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和样本药物与样本蛋白质之间的样本实际反应结果,且第一样本原始表示包括样本药物的分子结构信息,第二样本原始表示包括样本蛋白质的氨基酸序列信息,并利用反应预测网络的第一提取子网络对第一样本原始表示进行特征提取,得到样本药物的第一样本特征表示,并利用反应预测网络的第二提取子网络对第二样本原始表示进行特征提取,得到样本蛋白质的第二样本特征表示,从而利用第一样本特征表示对第二样本特征表示进行互相关处理,得到样本药物和样本蛋白质的最终样本融合特征表示,进而利用反应预测网络的分类预测子网络对最终样本融合特征表示进行分类预测,得到样本药物和样本蛋白质之间的样本预测反应结果,并利用样本实际反应结果和样本预测反应结果之间的差异,调整反应预测网络的网络参数,故能够在利用反应预测网络对待测药物和待测蛋白质进行反应预测之前,对反应预测网络进行训练,从而能够有利于提高反应预测的准确性和鲁棒性。
在一些公开实施例中,预测反应结果包括待测药物和待测蛋白质之间有反应、无反应中的任一种;样本实际反应结果包括样本药物和样本蛋白质之间有反应、无反应中的任一种,样本预测反应结果包括样本药物和样本蛋白质之间有反应、无反应中的任一种。
区别于前述实施例,将预测反应结果设置为包括待测药物和待测蛋白质之间有反应、无反应中的任一种,将样本实际反应结果设置为包括样本药物和样本蛋白质之间有反应、无反应中的任一种,将样本预测反应结果设置为包括样本药物和样本蛋白质之间有反应、无反应中的任一种,能够有利于提高反应预测的鲁棒性。
请参阅图6,图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62,处理器62用于执行存储器61中存储的程序指令,以实现上述任一预测方法实施例的步骤。在一个具体的实施场景中,电子设备60可以包括但不限于:微型计算机、服务器,此外,电子设备60还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一预测方法实施例的步骤。处理器62还可以称为中央处理单元(Central Processing Unit,CPU)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
上述方案,能够提高反应预测效果。
请参阅图7,图7为本申请计算机可读存储介质70一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701,程序指令701用于实现上述任一预测方法实施例的步骤。
上述方案,能够提高反应预测效果。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(Processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种预测方法,其特征在于,包括:
获取待测药物的第一原始表示和待测蛋白质的第二原始表示;其中,所述第一原始表示包括所述待测药物的分子结构信息,所述第二原始表示包括所述待测蛋白质的氨基酸序列信息;
对所述第一原始表示进行第一特征提取,得到所述待测药物的第一特征表示,并对所述第二原始表示进行第二特征提取,得到所述待测蛋白质的第二特征表示;
利用所述第一特征表示对所述第二特征表示进行互相关处理,得到所述待测药物和所述待测蛋白质的最终融合特征表示;以及
基于所述最终融合特征表示,得到所述待测药物和所述待测蛋白质之间的预测反应结果。
2.根据权利要求1所述的方法,其特征在于,所述待测药物的第一特征表示包含对应于不同感受野的多个所述第一特征表示;以及
所述利用所述第一特征表示对所述第二特征表示进行互相关处理,得到所述待测药物和所述待测蛋白质的最终融合特征表示,包括:
基于所述感受野,将多个所述第一特征表示进行排序;
依序选择一个所述第一特征表示,并利用选择的所述第一特征表示对所述第二特征表示进行互相关处理,得到与选择的所述第一特征表示对应的第一融合特征表示;
将选择的所述第一特征表示对应的第一融合特征表示,作为新的所述第二特征表示;
重复执行所述依序选择一个所述第一特征表示的步骤以及后续步骤,直至所述多个所述第一特征表示均被选择为止,将基于最后选择的所述第一特征表示得到的第一融合特征表示,作为所述最终融合特征表示。
3.根据权利要求2所述的方法,其特征在于,每个所述第一特征表示对应的第一融合特征表示和所述最终融合特征表示的尺寸均为预设尺寸;
和/或,所述基于所述感受野,将多个所述第一特征表示进行排序包括:
按照所述感受野由小到大的顺序,将多个所述第一特征表示进行排序。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述互相关处理的步骤包括:
将所述第一特征表示以预设步长在所述第二特征表示中进行滑动卷积。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述第一原始表示进行第一特征提取,得到所述待测药物的第一特征表示,包括:
利用反应预测网络的第一提取子网络对所述第一原始表示进行特征提取,得到所述待测药物的第一特征表示;以及
所述对所述第二原始表示进行第二特征提取,得到所述待测蛋白质的第二特征表示,包括:
利用所述反应预测网络的第二提取子网络对所述第二原始表示进行特征提取,得到所述待测蛋白质的第二特征表示;以及
所述基于所述最终融合特征表示,得到所述待测药物和所述待测蛋白质之间的预测反应结果,包括:
利用所述反应预测网络的分类预测子网络对所述最终融合特征表示进行分类预测,得到所述待测药物和所述待测蛋白质之间的预测反应结果。
6.根据权利要求5所述的方法,其特征在于,所述第一原始表示包括所述待测药物的分子无向图,所述第一提取子网络包括图网络;
和/或,所述第二原始表示包括以一维序列表示的所述待测蛋白质的一级结构序列,所述第二提取子网络包括一维卷积。
7.根据权利要求5或6所述的方法,其特征在于,在所述利用所述反应预测网络的分类预测子网络对所述最终融合特征表示进行分类预测,得到所述待测药物和所述待测蛋白质之间的预测反应结果之前,所述方法还包括:
利用反应预测网络的循环神经子网络对所述最终融合特征表示进行编码处理,并将所述循环神经子网络的隐藏层的状态作为新的所述最终融合特征表示。
8.根据权利要求5或6所述的方法,其特征在于,在所述利用反应预测网络的第一提取子网络对所述第一原始表示进行特征提取,得到所述待测药物的第一特征表示之前,所述方法还包括:
获取样本药物的第一样本原始表示、样本蛋白质的第二样本原始表示和所述样本药物与所述样本蛋白质之间的样本实际反应结果;其中,所述第一样本原始表示包括所述样本药物的分子结构信息,所述第二样本原始表示包括所述样本蛋白质的氨基酸序列信息;
利用所述反应预测网络的第一提取子网络对所述第一样本原始表示进行特征提取,得到所述样本药物的第一样本特征表示,并利用所述反应预测网络的第二提取子网络对所述第二样本原始表示进行特征提取,得到所述样本蛋白质的第二样本特征表示;
利用所述第一样本特征表示对所述第二样本特征表示进行互相关处理,得到所述样本药物和所述样本蛋白质的最终样本融合特征表示;
利用所述反应预测网络的分类预测子网络对所述最终样本融合特征表示进行分类预测,得到所述样本药物和所述样本蛋白质之间的样本预测反应结果;以及
利用所述样本实际反应结果和所述样本预测反应结果之间的差异,调整所述反应预测网络的网络参数。
9.根据权利要求8所述的方法,其特征在于,所述预测反应结果包括所述待测药物和所述待测蛋白质之间有反应、无反应中的任一种;所述样本实际反应结果包括所述样本药物和所述样本蛋白质之间有反应、无反应中的任一种,所述样本预测反应结果包括所述样本药物和所述样本蛋白质之间有反应、无反应中的任一种。
10.一种预测装置,其特征在于,包括:
信息获取模块,用于获取待测药物的第一原始表示和待测蛋白质的第二原始表示;其中,所述第一原始表示包括所述待测药物的分子结构信息,所述第二原始表示包括所述待测蛋白质的氨基酸序列信息;
特征提取模块,用于对所述第一原始表示进行第一特征提取,得到所述待测药物的第一特征表示,并对所述第二原始表示进行第二特征提取,得到所述待测蛋白质的第二特征表示;
互相关处理模块,用于利用所述第一特征表示对所述第二特征表示进行互相关处理,得到所述待测药物和所述待测蛋白质的最终融合特征表示;
分类预测模块,用于基于所述最终融合特征表示,得到所述待测药物和所述待测蛋白质之间的预测反应结果。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的预测方法。
12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至9任一项所述的预测方法。
CN202110303541.1A 2021-03-22 2021-03-22 预测方法及相关装置、设备 Withdrawn CN113066539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303541.1A CN113066539A (zh) 2021-03-22 2021-03-22 预测方法及相关装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303541.1A CN113066539A (zh) 2021-03-22 2021-03-22 预测方法及相关装置、设备

Publications (1)

Publication Number Publication Date
CN113066539A true CN113066539A (zh) 2021-07-02

Family

ID=76563132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303541.1A Withdrawn CN113066539A (zh) 2021-03-22 2021-03-22 预测方法及相关装置、设备

Country Status (1)

Country Link
CN (1) CN113066539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360644A (zh) * 2021-12-30 2022-04-15 山东师范大学 T细胞受体与抗原表位的结合预测方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102046809A (zh) * 2008-04-05 2011-05-04 单细胞科技公司 筛选产生生物活性剂的单细胞的方法
CN105608433A (zh) * 2015-12-23 2016-05-25 北京化工大学 一种基于核协同表达的高光谱图像分类方法
CN106707258A (zh) * 2017-03-03 2017-05-24 电子科技大学 一种非高斯背景下微动目标多参数估计方法
US20170228523A1 (en) * 2016-02-04 2017-08-10 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for analyzing relation between drug and protein
CN108140131A (zh) * 2015-10-04 2018-06-08 艾腾怀斯股份有限公司 用于将卷积网络应用于空间数据的系统和方法
CN108257109A (zh) * 2018-02-11 2018-07-06 中国科学院微电子研究所 一种数据融合方法及装置
CN110289055A (zh) * 2019-06-25 2019-09-27 中国人民解放军军事科学院军事医学研究院 药物靶标的预测方法、装置、计算机设备和存储介质
CN110569747A (zh) * 2019-08-20 2019-12-13 南京农业大学 一种利用图像金字塔与Faster-RCNN快速统计大田水稻稻穗数的方法
CN111026935A (zh) * 2019-12-05 2020-04-17 中国科学院自动化研究所 基于自适应度量融合的跨模态检索重排序方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112381128A (zh) * 2020-11-06 2021-02-19 中国人民解放军空军预警学院雷达士官学校 一种基于目标特征分集评选的多传感器动态融合识别方法
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102046809A (zh) * 2008-04-05 2011-05-04 单细胞科技公司 筛选产生生物活性剂的单细胞的方法
CN108140131A (zh) * 2015-10-04 2018-06-08 艾腾怀斯股份有限公司 用于将卷积网络应用于空间数据的系统和方法
CN105608433A (zh) * 2015-12-23 2016-05-25 北京化工大学 一种基于核协同表达的高光谱图像分类方法
US20170228523A1 (en) * 2016-02-04 2017-08-10 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for analyzing relation between drug and protein
CN106707258A (zh) * 2017-03-03 2017-05-24 电子科技大学 一种非高斯背景下微动目标多参数估计方法
CN108257109A (zh) * 2018-02-11 2018-07-06 中国科学院微电子研究所 一种数据融合方法及装置
CN110289055A (zh) * 2019-06-25 2019-09-27 中国人民解放军军事科学院军事医学研究院 药物靶标的预测方法、装置、计算机设备和存储介质
CN110569747A (zh) * 2019-08-20 2019-12-13 南京农业大学 一种利用图像金字塔与Faster-RCNN快速统计大田水稻稻穗数的方法
CN111026935A (zh) * 2019-12-05 2020-04-17 中国科学院自动化研究所 基于自适应度量融合的跨模态检索重排序方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112381128A (zh) * 2020-11-06 2021-02-19 中国人民解放军空军预警学院雷达士官学校 一种基于目标特征分集评选的多传感器动态融合识别方法
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEN, M (WEN, MING): "Deep-Learning-Based Drug-Target Interaction Prediction", JOURNAL OF PROTEOME RESEARCH, vol. 16, no. 4, pages 1401 - 1409 *
邱陈辉;赵奋强;段丁娜;夏顺仁;: "基于卷积稀疏表示的鲁棒性PET和CT图像融合方法", 航天医学与医学工程, no. 01, pages 66 - 73 *
高兵;刘美娜;谢彪;王玉鹏;孙琳;张秋菊;: "基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究", 中国卫生统计, no. 05, pages 663 - 665 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360644A (zh) * 2021-12-30 2022-04-15 山东师范大学 T细胞受体与抗原表位的结合预测方法及系统

Similar Documents

Publication Publication Date Title
CN110689920B (zh) 一种基于深度学习的蛋白质-配体结合位点预测方法
US11694769B2 (en) Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
Wang et al. Predicting protein–protein interactions from protein sequences by a stacked sparse autoencoder deep neural network
Zhou et al. Deep supervised and convolutional generative stochastic network for protein secondary structure prediction
WO2020014767A1 (en) Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
JP4549314B2 (ja) イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品
CN112381227B (zh) 神经网络生成方法、装置、电子设备及存储介质
CN113066525A (zh) 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN112052816B (zh) 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN106529204A (zh) 一种基于半监督学习的交联质谱多谱排序方法
CN112287965A (zh) 图像质量检测模型训练方法、装置和计算机设备
CN112289370A (zh) 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN114496064A (zh) Ccs预测模型构建方法、装置、设备及可读存储介质
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN113066539A (zh) 预测方法及相关装置、设备
CN117434429B (zh) 芯片的稳定性测试方法及相关装置
CN114429641A (zh) 一种时序动作检测方法、装置、存储介质及终端
Ismail et al. FEPS: a tool for feature extraction from protein sequence
CN114093415A (zh) 肽段可检测性预测方法
CN113507608A (zh) 图像编码方法、装置、电子设备
CN117316305A (zh) 一种自组装短肽预测模型的处理方法和装置
US11948664B2 (en) Autoencoder with generative adversarial network to generate protein sequences
CN112309495B (zh) 基于机器学习的海藻固碳蛋白预测方法及系统
CN109800873B (zh) 图像处理方法及装置
CN114743591A (zh) 一种mhc可结合肽链的识别方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210702

WW01 Invention patent application withdrawn after publication