CN114999578A - 配体筛选模型构建方法及装置、筛选方法、设备和介质 - Google Patents

配体筛选模型构建方法及装置、筛选方法、设备和介质 Download PDF

Info

Publication number
CN114999578A
CN114999578A CN202210654267.7A CN202210654267A CN114999578A CN 114999578 A CN114999578 A CN 114999578A CN 202210654267 A CN202210654267 A CN 202210654267A CN 114999578 A CN114999578 A CN 114999578A
Authority
CN
China
Prior art keywords
ligand
graph
graph network
network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210654267.7A
Other languages
English (en)
Inventor
吴俊峰
金羽童
潘麓蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyi Technology Shanghai Co ltd
Original Assignee
Hong Kong Yuanyi Wisdom Co ltd
US One Smart Technology Co ltd
Huiyi Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hong Kong Yuanyi Wisdom Co ltd, US One Smart Technology Co ltd, Huiyi Technology Shanghai Co ltd filed Critical Hong Kong Yuanyi Wisdom Co ltd
Priority to CN202210654267.7A priority Critical patent/CN114999578A/zh
Priority to PCT/CN2022/104629 priority patent/WO2023236306A1/zh
Publication of CN114999578A publication Critical patent/CN114999578A/zh
Priority to US17/931,917 priority patent/US20230402135A1/en
Priority to US18/173,122 priority patent/US20230402125A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种配体筛选模型构建方法及装置、筛选方法、设备和介质,属于药物筛选领域,方法包括获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签;基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边;采用随机初始化向量标识配体图网络中的各节点的权重向量;根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。通过本公开的处理方案,准确地对不同尺度的生物和化学实验中化合物的性质进行预测。

Description

配体筛选模型构建方法及装置、筛选方法、设备和介质
技术领域
本发明涉及药物筛选领域,具体涉及一种配体筛选模型构建方法及配体筛选模型构建装置、药物配体筛选方法、设备和介质。
背景技术
药物发现长久以来都是时间与金钱消耗大的过程,随着计算机技术的发展,计算方法被大量应用于药物研发中,药物虚拟筛选是其中最具应用价值的技术之一。
在药物发现和虚拟筛选中一般通过分析分子指纹来刻画化学分子的结构或功能相似性。但现有的分子指纹生成方法依赖于开发者的手工特征提取,这对开发者提出了很高的要求,开发者需要对领域知识有很深的了解,否则不利于后续的虚拟筛选或药物发现。
发明内容
因此,为了克服上述现有技术的缺点,本发明提供一种可以准确地对不同尺度的生物和化学实验中化合物的性质进行预测的配体筛选模型构建方法及配体筛选模型构建装置、药物配体筛选方法、设备和介质。
为了实现上述目的,本发明提供一种配体筛选模型构建方法,包括:获取药物配体训练集,所述药物配体训练集包含药物配体化学式以及分类标签;基于配体化学式,绘制配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量;根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型。
在其中一个实施例中,所述采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给所述节点作为其权重向量。
在其中一个实施例中,所述根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,包括:根据所述配体图网络的连接关系获取各所述节点的权重向量以及与该节点连接的关联节点的关联权重向量;将所述权重向量和所述关联权重向量整合,得到所述节点的重构权重向量;根据所述重构权重向量生成重构图网络。
在其中一个实施例中,所述根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型,包括:对所述配体图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征;根据所述分类标签采用深度学习网络学习所述层级网络特征,构建配体筛选模型。
在其中一个实施例中,所述对所述配体图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征,包括:对所述配体图网络和所述至少两层所述重构图网络通过函数分别进行特征提取,得到函数向量特征;将所述函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
一种药物配体筛选方法,包括:基于目标配体的配体化学式,绘制目标配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;将所述目标配体图网络输入配体筛选模型,并输出对所述目标配体的分析结果,其中,所述配体筛选模型为上述的方法训练得到的。
一种配体筛选模型构建装置,所述装置包括:训练集获取模块,用于获取药物配体训练集,所述药物配体训练集包含药物配体化学式以及分类标签;图网络绘制模块,用于基于配体化学式,绘制配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;向量标识模块,用于采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量;重构模块,用于根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;模型训练模块,用于根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明的优点在于:通过对与配体化学式对应的配体图网络进行建模分析,且在建模时采用配体图网络和重构图网络而非传统的基于分子指纹(Fingerprint)的方式,仅通过机器学习识别同一配体两种不同的图网络,不仅可以有效减少人工特征设计,还可以扩大特征的覆盖范围,提升效率与准确度,且通过利用了大数据以及深度学习方法,大量节省了分子动力学以及量子力学、量子化学等计算消耗,对计算速度有大幅度提升。本发明可以更好的模拟小分子在不同生理环境下的结构多样性,并准确地对不同尺度的生物和化学实验中化合物的性质进行预测。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的实施例中配体筛选模型构建方法的流程示意图;
图2是本发明的实施例中重构步骤的流程示意图;
图3是本发明的实施例中配体筛选模型构建装置的结构框图;
图4是本发明的实施例中计算机设备的内部结构图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
如图1所示,本公开实施例提供一种配体筛选模型构建方法,可以应用在终端或服务器上,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,方法包括以下步骤:
步骤101,获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签。
服务器可以获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签。受体在药理学上是指糖蛋白或脂蛋白构成的生物大分子,存在于细胞膜、胞浆或细胞核内。不同的受体有特异的结构和构型。受体是细胞表面或亚细胞组分中的一种分子,可以识别并特异地与有生物活性的化学信号物质(配体)结合,从而激活或启动一系列生物化学反应,最后导致该信号物质特定的生物效应。配体指对受体具有识别能力并能与之结合的物质,也就是指药。药物配体训练集中的药物配体可以是已经经过验证的药物配体。分类标签可以是说明该药物配体性质的文字或字母等,也可以是与受体关联的内容等。
步骤102,基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边。
服务器基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边。当两个原子之间存在化学键时,无论该化学键是单键、双键还是三键,均绘制为一条边。配体图网络可以是在拓扑空间内按图结构组织以进行关系推理的函数集合,图结构可以由两个集合组成:节点集合(Node)与边集合(Edge),其中边集合描述节点之间如何互相连接。
步骤103,采用随机初始化向量标识配体图网络中的各节点的权重向量。
服务器采用随机初始化向量标识配体图网络中的各节点的权重向量。服务器可以随机生成任一条边的权重值,而后根据生成的权重值赋予各节点对应的权重向量。在其中一个实施例中,采用随机初始化向量标识配体图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。例如,服务器可以采取均匀分布的方式将权重值赋予各条边,而后再根据生成的权重值赋予各节点对应的权重向量。均匀分布是指向量中每一个值都是等概率分布在(0,1)区间。正态分布是指向量中每一个值都是符合在(0,1)区间的正态分布。
步骤104,根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。
服务器根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。优选地,服务器重构图网络的层数为3~6层。服务器每次均是基于新建的重构图网络重复重构步骤,因而每次的重构图网络均不同,且每个节点包含的信息也逐渐丰富。
步骤105,根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。
服务器根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。深度学习网络可以是BP神经网络(Back Propagation)、卷积网络、神经网络等。服务器通过学习网络确定配体图网络和至少两层重构图网络中的网络特征,并将该网络特征训练与分类标签对应,构建得到配体筛选模型。
上述方法,通过对与配体化学式对应的配体图网络进行建模分析,且在建模时采用配体图网络和重构图网络而非传统的基于分子指纹(Fingerprint)的方式,仅通过机器学习识别同一配体两种不同的图网络,不仅可以有效减少人工特征设计,还可以扩大特征的覆盖范围,提升效率与准确度,且通过利用了大数据以及深度学习方法,大量节省了分子动力学以及量子力学、量子化学等计算消耗,对计算速度有大幅度提升。本发明可以更好的模拟小分子在不同生理环境下的结构多样性,并准确地对不同尺度的生物和化学实验中化合物的性质进行预测。
如图2所示,在其中一个实施例中,根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,包括以下步骤:
步骤201,根据配体图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
服务器根据配体图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
步骤202,将权重向量和关联权重向量整合,得到节点的重构权重向量。
服务器将权重向量和关联权重向量整合,得到节点的重构权重向量。在一个实施例中,整合公式为
Figure 121192DEST_PATH_IMAGE001
,其中
Figure 412496DEST_PATH_IMAGE002
为连接所有节点i的节点的集合,v i 为第i个节点,i、j为节点编号,
Figure 945109DEST_PATH_IMAGE003
为第k层网络i、j编号节点的向量,
Figure 471905DEST_PATH_IMAGE004
为边的向量,fk为第k层网络。
步骤203,根据重构权重向量生成重构图网络。
服务器根据重构权重向量生成重构图网络。
在其中一个实施例中,根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型,包括:对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建配体筛选模型。
服务器对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征。在一个实施例中,服务器可以分别提取配体图网络和重构图网络的图片特征,分析图网络中的图片细节。在一个实施例中,服务器可以分别提取配体图网络和重构图网络的向量特征,进而分析图网络。具体地,服务器可以根据公式
Figure 609626DEST_PATH_IMAGE005
,其中R为readout函数(特征读取函数)。服务器可以采用加和与取平均两种方式选取向量特征。
在其中一个实施例中,对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对配体图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
服务器对配体图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征。服务器根据公式
Figure 196465DEST_PATH_IMAGE006
,得到函数向量特征。其中R为readout函数(特征读取函数)。服务器采用取平均数的方式选取向量特征。服务器将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。服务器可以将softmax函数作为分类器的直接函数,并计算实现在概率空间的归一化操作。softmax函数具体数学公式为
Figure 216373DEST_PATH_IMAGE007
,其作用是把计算得到的结果从整个实数域归一化到(0,1)区间,从而表示各节点之间的概率。
上述方法,只保留了最核心的化合物信息(比如:原子序数、单键双键等节点或边的信息)作为连接的原子信息,从而能更高效地完成模型训练,并提取出高质量的模型特征。
本申请还提供了一种药物配体筛选方法,包括:
基于目标配体的配体化学式,绘制目标配体图网络,配体图网络中原子为节点,化学键为连接节点的边;
将目标配体图网络输入配体筛选模型,并输出对目标配体的分析结果,其中,配体筛选模型为上述的方法训练得到的。
在一个实施例中,如图3所示,提供了一种配体筛选模型构建装置,装置包括训练集获取模块301、图网络绘制模块302、向量标识模块303、重构模块304和模型训练模块305。
训练集获取模块301,用于获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签。
图网络绘制模块302,用于基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边。
向量标识模块303,用于采用随机初始化向量标识配体图网络中的各节点的权重向量。
重构模块304,用于根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。
模型训练模块305,用于根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。
在其中一个实施例中,向量标识模块包括:
向量标识单元,用于采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在其中一个实施例中,重构模块304包括:
权重向量获取单元,用于根据配体图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
整合单元,用于将权重向量和关联权重向量整合,得到节点的重构权重向量。
重构单元,用于根据重构权重向量生成重构图网络。
在其中一个实施例中,模型训练模块包括:
特征提取单元,用于对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征。
模型构建单元,用于根据分类标签采用深度学习网络学习层级网络特征,构建配体筛选模型。
在其中一个实施例中,模型训练模块包括:
向量特征提取单元,用于对配体图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征。
归一化单元,用于将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种配体筛选装置,该装置包括图网络绘制模块和配体分析模块。
图网络绘制模块,用于基于目标配体的配体化学式,绘制目标配体图网络,配体图网络中原子为节点,化学键为连接节点的边。
配体分析模块,用于将目标配体图网络输入配体筛选模型,并输出对目标配体的分析结果,其中,配体筛选模型为上述的方法训练得到的。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储药物配体训练集或者配体筛选模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种配体筛选模型构建方法或药物配体筛选方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签;基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边;采用随机初始化向量标识配体图网络中的各节点的权重向量;根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。
在一个实施例中,处理器执行计算机程序时实现的采用随机初始化向量标识配体图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在一个实施例中,处理器执行计算机程序时实现的根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,包括:根据配体图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量;将权重向量和关联权重向量整合,得到节点的重构权重向量;根据重构权重向量生成重构图网络。
在一个实施例中,处理器执行计算机程序时实现的根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型,包括:对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建配体筛选模型。
在一个实施例中,处理器执行计算机程序时实现的对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对配体图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:基于目标配体的配体化学式,绘制目标配体图网络,配体图网络中原子为节点,化学键为连接节点的边;将目标配体图网络输入配体筛选模型,并输出对目标配体的分析结果,其中,配体筛选模型为上述的方法训练得到的。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取药物配体训练集,药物配体训练集包含药物配体化学式以及分类标签;基于配体化学式,绘制配体图网络,配体图网络中原子为节点,化学键为连接节点的边;采用随机初始化向量标识配体图网络中的各节点的权重向量;根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型。
在一个实施例中,计算机程序被处理器执行时实现的采用随机初始化向量标识配体图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在一个实施例中,计算机程序被处理器执行时实现的根据配体图网络的连接关系重构配体图网络的各节点,得到重构图网络,包括:根据配体图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量;将权重向量和关联权重向量整合,得到节点的重构权重向量;根据重构权重向量生成重构图网络。
在一个实施例中,计算机程序被处理器执行时实现的根据分类标签对配体图网络和至少两层重构图网络进行深度学习,构建配体筛选模型,包括:对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建配体筛选模型。
在一个实施例中,计算机程序被处理器执行时实现的对配体图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对配体图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:基于目标配体的配体化学式,绘制目标配体图网络,配体图网络中原子为节点,化学键为连接节点的边;将目标配体图网络输入配体筛选模型,并输出对目标配体的分析结果,其中,配体筛选模型为上述的方法训练得到的。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种配体筛选模型构建方法,其特征在于,包括:
获取药物配体训练集,所述药物配体训练集包含药物配体化学式以及分类标签;
基于配体化学式,绘制配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;
采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量;
根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;
根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型。
2.根据权利要求1所述的方法,其特征在于,所述采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量包括:
采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给所述节点作为其权重向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,包括:
根据所述配体图网络的连接关系获取各所述节点的权重向量以及与该节点连接的关联节点的关联权重向量;
将所述权重向量和所述关联权重向量整合,得到所述节点的重构权重向量;
根据所述重构权重向量生成重构图网络。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型,包括:
对所述配体图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征;
根据所述分类标签采用深度学习网络学习所述层级网络特征,构建配体筛选模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述配体图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征,包括:
对所述配体图网络和所述至少两层所述重构图网络通过函数分别进行特征提取,得到函数向量特征;
将所述函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
6.一种药物配体筛选方法,其特征在于,包括:
基于目标配体的配体化学式,绘制目标配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;
将所述目标配体图网络输入配体筛选模型,并输出对所述目标配体的分析结果,其中,所述配体筛选模型为权利要求1~5中任一项所述的方法训练得到的。
7.一种配体筛选模型构建装置,其特征在于,所述装置包括:
训练集获取模块,用于获取药物配体训练集,所述药物配体训练集包含药物配体化学式以及分类标签;
图网络绘制模块,用于基于配体化学式,绘制配体图网络,所述配体图网络中原子为节点,化学键为连接所述节点的边;
向量标识模块,用于采用随机初始化向量标识所述配体图网络中的各所述节点的权重向量;
重构模块,用于根据所述配体图网络的连接关系重构所述配体图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;
模型训练模块,用于根据所述分类标签对所述配体图网络和所述至少两层所述重构图网络进行深度学习,构建配体筛选模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210654267.7A 2022-06-10 2022-06-10 配体筛选模型构建方法及装置、筛选方法、设备和介质 Pending CN114999578A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210654267.7A CN114999578A (zh) 2022-06-10 2022-06-10 配体筛选模型构建方法及装置、筛选方法、设备和介质
PCT/CN2022/104629 WO2023236306A1 (zh) 2022-06-10 2022-07-08 配体筛选模型构建方法及装置、筛选方法、设备和介质
US17/931,917 US20230402135A1 (en) 2022-06-10 2022-09-14 Ligand screening model construction method and device, a screening method, a device, and a medium
US18/173,122 US20230402125A1 (en) 2022-06-10 2023-02-23 Drug screening model construction method, a drug screening model construction device, a drug screening method, apparatus and a medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210654267.7A CN114999578A (zh) 2022-06-10 2022-06-10 配体筛选模型构建方法及装置、筛选方法、设备和介质

Publications (1)

Publication Number Publication Date
CN114999578A true CN114999578A (zh) 2022-09-02

Family

ID=83032962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210654267.7A Pending CN114999578A (zh) 2022-06-10 2022-06-10 配体筛选模型构建方法及装置、筛选方法、设备和介质

Country Status (3)

Country Link
US (2) US20230402135A1 (zh)
CN (1) CN114999578A (zh)
WO (1) WO2023236306A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240720A1 (zh) * 2022-06-16 2023-12-21 慧壹科技(上海)有限公司 药物筛选模型构建方法及装置、筛选方法、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020223434A1 (en) * 2019-04-30 2020-11-05 The Trustees Of Columbia University In The City Of New York Classifying neurological disease status using deep learning
US20210142173A1 (en) * 2019-11-12 2021-05-13 The Cleveland Clinic Foundation Network-based deep learning technology for target identification and drug repurposing
CN111816252B (zh) * 2020-07-21 2021-08-31 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN113066528B (zh) * 2021-04-12 2022-07-19 山西大学 基于主动半监督图神经网络的蛋白质分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240720A1 (zh) * 2022-06-16 2023-12-21 慧壹科技(上海)有限公司 药物筛选模型构建方法及装置、筛选方法、设备和介质

Also Published As

Publication number Publication date
WO2023236306A1 (zh) 2023-12-14
US20230402125A1 (en) 2023-12-14
US20230402135A1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
Wang et al. RMDL: Recalibrated multi-instance deep learning for whole slide gastric image classification
CN110096526A (zh) 一种用户属性标签的预测方法及预测装置
Parikh et al. From appearance to context-based recognition: Dense labeling in small images
CN107862173A (zh) 一种先导化合物虚拟筛选方法和装置
Czarnowski et al. An approach to data reduction for learning from big datasets: Integrating stacking, rotation, and agent population learning techniques
CN111933225B (zh) 药物分类方法、装置、终端设备以及存储介质
CN112132776A (zh) 基于联邦学习的视觉检测方法及系统、存储介质、设备
CN114999578A (zh) 配体筛选模型构建方法及装置、筛选方法、设备和介质
Cao et al. A survey of mix-based data augmentation: Taxonomy, methods, applications, and explainability
CN108108769B (zh) 一种数据的分类方法、装置及存储介质
Carissimo et al. Validation of community robustness
Zheng et al. Coarse-to-fine salient object detection with low-rank matrix recovery
Wang et al. CWC-transformer: a visual transformer approach for compressed whole slide image classification
Shiga et al. Efficient semi-supervised learning on locally informative multiple graphs
CN115188430A (zh) 药物筛选模型构建方法及装置、筛选方法、设备和介质
CN113345564B (zh) 一种基于图神经网络的患者住院时长早期预测方法及装置
CN114974398A (zh) 一种信息处理方法、装置及计算机可读存储介质
Lu et al. Soft-orthogonal constrained dual-stream encoder with self-supervised clustering network for brain functional connectivity data
Aksar et al. Prodigy: Towards unsupervised anomaly detection in production hpc systems
CN110059813A (zh) 利用gpu集群更新卷积神经网络的方法、装置及设备
CN113837216B (zh) 数据分类方法、训练方法、装置、介质及电子设备
CN109460777A (zh) 图片分类方法、装置及计算机可读存储介质
Kong et al. Toward large-scale histopathological image analysis via deep learning
Yang et al. Graph Contrastive Learning for Clustering of Multi-layer Networks
CN110517783A (zh) 模型训练方法、装置以及心脏疾病诊断装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230314

Address after: Building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Huiyi Technology (Shanghai) Co.,Ltd.

Address before: 201316 building C, No. 888, Huanhu West Second Road, Lingang New Area, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant before: Huiyi Technology (Shanghai) Co.,Ltd.

Applicant before: Hong Kong Yuanyi Wisdom Co.,Ltd.

Applicant before: U.S. One Smart Technology Co.,Ltd.