CN111816252B - 一种药物筛选方法、装置及电子设备 - Google Patents
一种药物筛选方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111816252B CN111816252B CN202010704024.0A CN202010704024A CN111816252B CN 111816252 B CN111816252 B CN 111816252B CN 202010704024 A CN202010704024 A CN 202010704024A CN 111816252 B CN111816252 B CN 111816252B
- Authority
- CN
- China
- Prior art keywords
- network
- target
- protein
- molecules
- molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Automation & Control Theory (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种药物筛选方法、装置、电子设备,方法包括:确定分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;确定药物筛选模型中的图神经网络的节点信息传递子网络;基于蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的边线信息传递子网络;通过药物筛选模型对蛋白质分子和目标分子结合;基于蛋白质分子和目标分子结合产物的活性实现对药物的筛选,由此,能够有效的通过药物筛选模型表现蛋白质图和小分子图的结构特征,实现准确地将蛋白质分子和目标分子进行结合,还能够高效地对药物数据库中所包含的数量巨大的蛋白质分子和目标分子进行处理,提升药物筛选的效率,节省药物筛选的时间。
Description
技术领域
本发明涉及信息处理技术,尤其涉及药物筛选方法、装置、及电子设备。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
传统药物研发中对药物进行筛选的过程需要消耗大量的资源,使得研发周期大幅度增加同时研发费用巨大,造成资源的浪费,因此,将人工智能技术应用于药物筛选中,可以大幅度的减少相关实验所需的时间和费用,并且通过有效的利蛋白质和小分子的特征信息,确定相应的蛋白质活性,实现对药物的筛选,可以增加药物筛选的准确性,提升药物筛选的效率。
发明内容
有鉴于此,本发明实施例提供一种药物筛选方法、装置及电子设备,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种药物筛选方法包括:
获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;
确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;
基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;
基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;
基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;
基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
本发明实施例还提供了一种药物筛选装置,包括:
信息传输模块,用于获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;
信息处理模块,用于确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;
所述信息处理模块,用于基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;
所述信息处理模块,用于基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;
所述信息处理模块,用于基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;
所述信息处理模块,用于基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
上述方案中,
所述信息处理模块,用于确定所述蛋白质分子中的不同氨基酸链的空间位置;
所述信息处理模块,用于基于所述不同氨基酸链的空间位置,确定每对氨基酸之间的距离,并对所述每对氨基酸之间的距离进行标准化处理,形成标准氨基酸距离;
所述信息处理模块,用于基于氨基酸距离阈值,确定所述蛋白质分子对应的氨基酸矩阵图;
所述信息处理模块,用于基于所述蛋白质分子对应的氨基酸矩阵图,确定所述蛋白质分子的结构特征;
所述信息处理模块,用于确定所述目标分子所对应的原子和化学键,并基于所述目标分子所对应的原子和化学键,确定所述目标分子的结构特征。
上述方案中,
所述信息处理模块,用于基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链对应的节点特征;
所述信息处理模块,用于基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链到中心节点的所有边线的特征;
所述信息处理模块,用于基于所述目标氨基酸链对应的节点特征和目标氨基酸链到中心节点的所有边线的特征,确定所述药物筛选模型中的图神经网络的节点信息传递子网络,并通过所述节点信息传递子网络产生所述图神经网络中的新节点,实现对所述蛋白质分子中不同氨基酸链的嵌入。
上述方案中,
所述信息处理模块,用于确定与所述目标氨基酸链对应的节点相连接的所有节点的集合;
所述信息处理模块,用于对所述图神经网络模型中的全部节点的更新函数进行线性处理与偏置处理,形成与所述图神经网络模型中的全部节点相匹配的更新函数;
所述信息处理模块,用于根据与所述图神经网络模型中的全部节点相匹配的更新函数,通过所述节点信息传递子网络产生所述图神经网络中的新节点;
所述信息处理模块,用于将所述蛋白质分子中不同氨基酸链嵌入至所述图神经网络中的新节点。
上述方案中,
所述信息处理模块,用于基于所述蛋白质分子的结构特征,确定所述边线信息传递子网络中任一边线的特征;
所述信息处理模块,用于根据所述任一边线的特征,确定对应的边线信息传递子网络的信息特征和状态特征;
所述信息处理模块,用于根据所述图神经网络中的任一节点,确定对应的临边集合的关联特征;
所述信息处理模块,用于基于所述边线信息传递子网络的信息传递函数和节点更新函数,通过对边线信息传递子网络的信息特征、状态特征以及临边集合的关联特征的迭代处理,将边线信息传递子网络的处理结果嵌入图神经网络中的边线中。
上述方案中,
所述信息处理模块,用于确定所述目标分子的有机结构;
所述信息处理模块,用于基于所述目标分子的有机结构,确定所述目标分子所对应的原子与化学键;
所述信息处理模块,用于将所述目标分子所对应的原子作为目标分子图神经网络的节点;
所述信息处理模块,用于将所述目标分子所对应的化学键作为目标分子图神经网络的边线;
所述信息处理模块,用于通过所述目标分子图神经网络的节点和所述目标分子图神经网络的边线,确定所述目标分子的图神经网络的结构。
上述方案中,
所述信息处理模块,用于确定与所述药物筛选模型相匹配的自注意力读出函数;
所述信息处理模块,用于通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述蛋白质分子的结构特征中的第一节点特征向量和第一边线特征向量;
所述信息处理模块,用于通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述目标分子的结构特征中的第二节点特征向量和第二边线特征向量;
所述信息处理模块,用于对所述第一节点特征向量和第二节点特征向量进行拼接,并对所述第一边线特征向量和第二边线特征向量进行拼接,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合。
上述方案中,
所述信息处理模块,用于确定与所述自注意力读出函数相匹配的自注意力权重矩阵;
所述信息处理模块,用于基于所述自注意力权重矩阵,通过所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征确定蛋白质分子的嵌入表示向量;
所述信息处理模块,用于基于所述自注意力权重矩阵,通过所述目标分子的图神经网络确定所述目标分子的嵌入向量表示。
上述方案中,所述装置还包括:
训练模块,用于基于所述药物数据库中的药物信息参数,确定与所述药物筛选模型相匹配的训练样本集合与验证样本集合,其中,所述训练样本集合包括至少一组训练样本;
所述训练模块,用于通过所述药物筛选模型提取与所述训练样本相匹配的特征集合;
所述训练模块,用于根据与所述训练样本相匹配的特征集合对所述药物筛选模型进行训练,以实现确定与所述药物筛选模型相适配的模型参数。
上述方案中,
所述训练模块,用于确定与所述药物筛选模型相匹配的多维损失函数;
所述训练模块,用于基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述多维损失函数对所述药物筛选模型的参数进行调整,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合,实现对药物的筛选。
上述方案中,
所述信息处理模块,用于将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果送至区块链网络,以使
所述区块链网络的节点将所述目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
上述方案中,
所述信息处理模块,用于接收所述区块链网络中的其他节点的数据同步请求;
所述信息处理模块,用于响应于所述数据同步请求,对所述其他节点的权限进行验证;
所述信息处理模块,用于当所述其他节点的权限通过验证时,控制当前节点与所述其他节点之间进行数据同步,以实现所述其他节点获取目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
上述方案中,
所述信息处理模块,用于响应于查询请求,解析所述查询请求以获取对应的对象标识;
所述信息处理模块,用于根据所述对象标识,获取区块链网络中的目标区块内的权限信息;
所述信息处理模块,用于对所述权限信息与所述对象标识的匹配性进行校验;
所述信息处理模块,用于当所述权限信息与所述对象标识相匹配时,在所述区块链网络中获取相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果;
所述信息处理模块,用于响应于所述查询请求,将所获取的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果向相应的客户端进行推送,以实现所述客户端获取所述区块链网络中所保存的相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前述的药物筛选方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前述的药物筛选方法。
本发明实施例具有以下有益效果:
本发明通过获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;由此,可以实现基于蛋白质分子和目标分子结合产物的活性实现对药物的筛选,通过本申请所提供的药物筛选模型不但能够有效的通过药物筛选模型表现蛋白质图和小分子图的结构特征,实现准确地将蛋白质分子和目标分子进行结合,还能够高效地对药物数据库中所包含的数量巨大的蛋白质分子和目标分子进行处理,提升药物筛选的效率,节省药物筛选的时间。
附图说明
图1为本发明实施例提供的药物筛选方法的使用场景示意图;
图2为本发明实施例提供的药物筛选装置的组成结构示意图;
图3为本发明实施例提供的药物筛选方法一个可选的流程示意图;
图4为本发明实施例中蛋白质分子的结构示意图;
图5为本发明实施例提供的药物筛选方法一个可选的流程示意图;
图6为本发明实施例提供的药物筛选方法一个可选的流程示意图;
图7为本发明实施例药物筛选方法一个可选的处理过程示意图;
图8为本发明实施例药物筛选方法一个可选的处理过程示意图;
图9是本发明实施例提供的药物筛选装置100的架构示意图;
图10是本发明实施例提供的区块链网络1100中区块链的结构示意图;
图11是本发明实施例提供的区块链网络1100的功能架构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
3)模型训练,对图像数据集进行多分类学习。该模型可采用Tensor Flow、 torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
4)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
5)图神经网络(Graph Neural Network,GNN):一种直接作用于图结构上的神经网络,主要针对非欧几里得空间结构(图结构)的数据进行处理。具有忽略节点的输入顺序;在计算过程中,节点的表示受其周围邻居节点的影响,而图本身连接不变;图结构的表示使得可以进行基于图的推理。通常,图神经网络由两个模块组成:传播模块(PropagationModule)和输出模块(Output Module),传播模块用于图中节点之间传递信息并更新状态,输出模块用于基于图的节点和边的向量表示,根据不同的任务定义目标函数。图神经网络有:图卷积神经网络(Graph Convolutional Networks,GCNs),门控图神经网络(GatedGraph Neural Networks, GGNNs)以及基于注意力机制的图注意力神经网络(GraphAttention Networks, GAT)。
6)有向图:表示物件与物件之间的关系,可以通过有序三元组(V(D),A(D),ψD)来表示有向图,其中ψD为关联函数,它是A(D)中的每一个元素对应于V(D) 的有序元素对。
7)分子,由组成的原子按照一定的键合顺序和空间排列而结合在一起的整体,这种键合顺序和空间排列关系称为分子结构。
8)蛋白质分子,由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质。由α—氨基酸按一定顺序结合形成一条多肽链,再由一条或一条以上的多肽链按照其特定方式结合而成的高分子化合物,其中,蛋白质是由一条或多条多肽链组成的生物大分子,每一条多肽链有二十至数百个氨基酸残基(-R)不等。
9)药物筛选,是将药物筛选的过程在计算机上模拟,对化合物可能的活性作出预测,进而对比较有可能成为药物的化合物进行有针对性的实体筛选,可以表现为应用分子对接技术,筛选需要获知药物作用靶标的分子结构,通过分子模拟手段计算化合物库中的小分子与靶标结合的能力,预测候选化合物的生理活性,建立合理的药效团模型、准确测定或预测靶标蛋白质的分子结构、精确和快速地计算候选化合物与靶标相互作用的自由能变化是进行药物筛选的关键。
10)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
例如,部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用;调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录,并对区块链的状态数据库进行操作,包括更新操作(包括增加、删除和修改状态数据库中的键值对)和查询操作(即查询状态数据库中的键值对)。
11)区块链(Block chain),是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
12)区块链网络(Block chain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
13)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。
其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
14)智能合约(Smart Contracts),也称为链码(Chain code)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对账本数据库的键值对数据进行更新或查询的操作。
15)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(Po W,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPo S,Delegated Proof-of-Stake)、消逝时间量证明 (Po ET,Proof of Elapsed Time)等。
图1为本发明实施例提供的药物筛选方法的使用场景示意图,参见图1,在本申请实施例所提供的药物筛选方法应用中,终端包括终端10-1和终端10-2,其中终端10-1位于开发人员侧,用以控制药物筛选模型的训练与使用,终端10-2 位于用户侧,用以请求对目标药物进行筛选;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
终端10-2位于用户侧,用于发出药物筛选请求,请求药物数据库中包含的蛋白质分子和目标分子进行筛选。
作为一个示例,服务器200用于布设所述药物筛选装置以实现本发明所提供的药物筛选方法,后者可以布设经过训练的药物筛选模型,以实现在不同的环境中(例如对靶向性药物或者化学药物进行筛选的环境中)的药物进行筛选,具体的,在使用药物筛选模型之前,需要对药物筛选模型进行训练,具体过程包括:基于所述药物数据库中的药物信息参数,确定与所述药物筛选模型相匹配的训练样本集合与验证样本集合,其中,所述训练样本集合包括至少一组训练样本;通过所述药物筛选模型提取与所述训练样本相匹配的特征集合;根据与所述训练样本相匹配的特征集合对所述药物筛选模型进行训练,以实现确定与所述药物筛选模型相适配的模型参数。当然,本发明所提供的药物筛选装置可以基于对同一目标分子在不同药物筛选环境中的药物筛选模型为进行训练,最终在用户界面(UI UserInterface)上呈现出与通过药物筛选模型所确定蛋白质分子和目标分子结合产物的活性检测结果,所得到通过药物筛选模型所确定蛋白质分子和目标分子结合产物的活性检测结果还可以供其他应用程序调用,当然,与相应的药物数据库相匹配的药物筛选模型也可以迁移至不同的药物筛选进程(例如靶向性药物筛选进程、化学药物筛选进程或者高分子药物筛选进程)。
当然对药物筛选模型训练完成之后,就可以通过药物筛选模型进行推荐,具体包括:获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
下面对本发明实施例的药物筛选装置的结构做详细说明,药物筛选装置可以各种形式来实施,如带有药物筛选装置处理功能的专用终端,也可以为设置有药物筛选装置处理功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的药物筛选装置的组成结构示意图,可以理解,图2仅仅示出了药物筛选装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的药物筛选装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。药物筛选装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的药物筛选装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的药物筛选装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的药物筛选方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路 (ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD, Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的药物筛选装置采用软硬件结合实施的示例,本发明实施例所提供的药物筛选装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的药物筛选方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的药物筛选装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的药物筛选方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持药物筛选装置的操作。这些数据的示例包括:用于在药物筛选装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从药物筛选方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的药物筛选装置可以采用软件方式实现,图2示出了存储在存储器202中的药物筛选装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括药物筛选装置,药物筛选装置中包括以下的软件模块:
信息传输模块2081和信息处理模块2082。当药物筛选装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的药物筛选方法,其中,药物筛选装置中各个软件模块的功能,包括:
信息传输模块2081,用于获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;
信息处理模块2082,用于确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;
所述信息处理模块2082,用于基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;
所述信息处理模块2082,用于基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;
所述信息处理模块2082,用于基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;
所述信息处理模块2082,用于基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
在一些实施例中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端(如终端10-1)可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在实际应用中,本申请实施例提供的药物筛选模型可以应用于结构生物学以及医学领域,通过分子生成模型实现药物发现、分子优化、分子合成等。
继续结合图2示出的药物筛选装置说明本发明实施例提供的虚拟物品推方法,首先介绍部署于服务器中的药物筛选模型的训练过程,其中,参见图3,图 3为本发明实施例提供的药物筛选方法一个可选的流程示意图,可以理解地,图 3所示的步骤可以由运行药物筛选装置的各种电子设备执行,例如可以是如带有药物筛选装置的专用终端、药物数据库服务器或者药品提供商的服务器集群,其中,带有药物筛选装置的专用终端可以为前序图2所示的实施例中带有药物筛选装置的电子设备。为了克服传统药物筛选方式所造成的药物筛选不准确以及效率低的缺陷,本发明所提供的技术方案使用了人工智能技术,人工智能AI (Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面针对图3示出的步骤进行具体说明。
步骤301:药物筛选装置获取药物数据库中包含的蛋白质分子和目标分子。
其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子。
其中,对药物数据库中的化合物可能的活性预测,进而对有可能成为临床药物的化合物进行有针对性的实体筛选,可以通过应用分子对接技术,将能被药物分子作用的标靶大分子与药物小分子进行拼接,形成新的化合物,预测候选化合物的生理活性,
步骤302:药物筛选装置确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征。
在本发明的一些实施例中,确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征,可以通过以下方式实现:
确定所述蛋白质分子中的不同氨基酸链的空间位置;基于所述不同氨基酸链的空间位置,确定每对氨基酸之间的距离,并对所述每对氨基酸之间的距离进行标准化处理,形成标准氨基酸距离;基于氨基酸距离阈值,确定所述蛋白质分子对应的氨基酸矩阵图;基于所述蛋白质分子对应的氨基酸矩阵图,确定所述蛋白质分子的结构特征;确定所述目标分子所对应的原子和化学键,并基于所述目标分子所对应的原子和化学键,确定所述目标分子的结构特征。
步骤303:药物筛选装置基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络。
在本发明的一些实施例中,基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的节点信息传递子网络,可以通过以下方式实现:
基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链对应的节点特征;基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链到中心节点的所有边线的特征;基于所述目标氨基酸链对应的节点特征和目标氨基酸链到中心节点的所有边线的特征,确定所述药物筛选模型中的图神经网络的节点信息传递子网络,并通过所述节点信息传递子网络产生所述图神经网络中的新节点,实现对所述蛋白质分子中不同氨基酸链的嵌入。其中,参考图4,图4为本发明实施例中蛋白质分子的结构示意图,其中,在药物筛选的过程中,由于分子是不同的原子通过化学键建立连接,因此,可以看成一个有节点和边构成的图神经网络,而在分子表示方法上,由于分子的结构无法直接输入一个神经网络进行训练和学习,所以需要投射到一个矢量化空间,即通过特征化进行处理。具体来说,参考图4,蛋白质具有空间结构,其是通过氨基酸链在空间中折形成的,而基于其结构文件就可以计算出每对氨基酸之间的距离,其中标准化氨基酸之间的空间距离参考公式1
这里d’为缩放尺度,这里取3.8°A表示第i个氨基酸到第j个氨基酸之间的距离。得到了距离矩阵之后可以使用固定阈值(threshold)d0,可以计算出蛋白质图的邻接矩阵,其中,蛋白质图的邻接矩阵计算参考公式2:
再以氨基酸为图顶点就可以得到蛋白质图Gprotein。
在本发明的一些实施例中,通过所述节点信息传递子网络产生所述图神经网络中的新节点,实现对所述蛋白质分子中不同氨基酸链的嵌入,可以通过以下方式实现:
确定与所述目标氨基酸链对应的节点相连接的所有节点的集合;对所述图神经网络模型中的全部节点的更新函数进行线性处理与偏置处理,形成与所述图神经网络模型中的全部节点相匹配的更新函数;根据与所述图神经网络模型中的全部节点相匹配的更新函数,通过所述节点信息传递子网络产生所述图神经网络中的新节点;将所述蛋白质分子中不同氨基酸链嵌入至所述图神经网络中的新节点。其中,由于图神经网络(Graph NeuralNetwork,GNN):一种直接作用于图结构上的神经网络,主要针对非欧几里得空间结构(图结构)的数据进行处理。具有忽略节点的输入顺序;在计算过程中,节点的表示受其周围邻居节点的影响,而图本身连接不变;图结构的表示使得可以进行基于图的推理。通常,图神经网络由两个模块组成:传播模块(Propagation Module)和输出模块 (Output Module),传播模块用于图中节点之间传递信息并更新状态,输出模块用于基于图的节点和边的向量表示,根据不同的任务定义目标函数。因此,通过确定与目标氨基酸链对应的节点相连接的所有节点的集合,可以将结构种类多样的蛋白质分子中不同氨基酸链嵌入至图神经网络中所不断产生的新节点,在介绍针对不同药物筛选环境的药物筛选模型的工作过程前,首先介绍信息传递网络(MPNN Message Passing Neural Networks)的工作过程,具体来说,MPNN的前向传播包括两个阶段,第一个阶段称为message passing(信息传递)阶段,第二个阶段称为readout(读取)阶段。对于给定的图神经网络 G=(V,E)G=(V,E)G=(V,E),其中VVV是所有节点,EEE是所有边。信息传递阶段,会执行多次信息传递过程。对于一个特定的节点V,参考公式3和公式4,
进一步地,对于不同的药物筛选环境,节点信息传递子网络的节点(即 MPNN模型更新结点V)通过聚集它周围的节点特征以及对应的到中心节点v的所有边特征ewv,通过D步产生一个新的结点V,具体来说,参考公式 5、公式6以及公式7:
这里N(v)就是节点V的邻接点集合,σ(·)是神经网络的激活函数,这里信息汇集函数用的是拼接函数,结点更新函数用的是线性变换加偏置。边信息evk在信息传递中被视为了μattached。Win和Wα这两个权重在所有更新步骤中共享。
步骤304:药物筛选装置基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络。
在本发明的一些实施例中,基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络,可以通过以下方式实现:
基于所述蛋白质分子的结构特征,确定所述边线信息传递子网络中任一边线的特征;根据所述任一边线的特征,确定对应的边线信息传递子网络的信息特征和状态特征;根据所述图神经网络中的任一节点,确定对应的临边集合的关联特征;基于所述边线信息传递子网络的信息传递函数和节点更新函数,通过对边线信息传递子网络的信息特征、状态特征以及临边集合的关联特征的迭代处理,将边线信息传递子网络的处理结果嵌入图神经网络中的边线中。其中,对于药物筛选模型的信息处理过程中,对于给定的一个边向量evw,信息向量和状态向量可以通过公式11、公式12以及公式13进行建模:
在公式(11-13)中,可以定义邻边集evw为所有从节点v出发(除了w之外)的边。这里的信息传递函数和结点更新函数与节点信息传递网络相同,且这里的关联特征μattached为节点特征xk。
继续参考图5,图5为本发明实施例提供的药物筛选方法一个可选的流程示意图,图5所示的步骤可以由运行药物筛选装置的各种电子设备执行,例如可以是如带有药物筛选装置的专用终端、药物数据库服务器或者药品提供商的服务器集群,其中,带有药物筛选装置的专用终端可以为前序图2所示的实施例中带有药物筛选装置的电子设备,具体包括:
步骤501:药物筛选装置确定所述目标分子的有机结构。
步骤502:药物筛选装置基于所述目标分子的有机结构,确定所述目标分子所对应的原子与化学键。
步骤503:药物筛选装置将所述目标分子所对应的原子作为目标分子图神经网络的节点。
步骤504:药物筛选装置将所述目标分子所对应的化学键作为目标分子图神经网络的边线。
步骤505:药物筛选装置通过所述目标分子图神经网络的节点和所述目标分子图神经网络的边线,确定所述目标分子的图神经网络的结构。
当药物筛选装置确定目标分子的图神经网络的结构之后,继续通过后续步骤通过药物筛选模型对蛋白质分子与目标分子进行筛选。
步骤305:药物筛选装置基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合。
在本发明的一些实施例中,基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合,可以通过以下方式实现:
确定与所述药物筛选模型相匹配的自注意力读出函数;通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述蛋白质分子的结构特征中的第一节点特征向量和第一边线特征向量;通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述目标分子的结构特征中的第二节点特征向量和第二边线特征向量;对所述第一节点特征向量和第二节点特征向量进行拼接,并对所述第一边线特征向量和第二边线特征向量进行拼接,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合。其中,参考图6,继续参考图6,图6为本发明实施例提供的药物筛选方法一个可选的流程示意图,图6所示的步骤可以由运行药物筛选装置的各种电子设备执行,例如可以是如带有药物筛选装置的专用终端、药物数据库服务器或者药品提供商的服务器集群,可以根据分子图和蛋白质图的嵌入表示向量,确定自注意力权重矩阵。
通过自注意力读出函数得到分子图和蛋白质图的嵌入表示。给定一个信息传递网络的输出H∈Rn*a,自注意力矩阵S可以通过公式16表示为:
S=solf max(W2tanh(W1HT)) 公式16
其中,W1∈Rhattan*a,W2∈Rr*hattan都是可学习参数。前序公式中,这个W2是一个线性变换,将a维空间的节点嵌入变换到hattn维空间中,然后经过双曲正切函数tanh(·)进行非线性映射,接着W2将hattn维空间中的嵌入再线性变换到r维空间中,得到的r个不同角度的节点重要性分布,值越大代表这个节点的越重要,最后再经过solf max(·)函数让每个视角的重要性值和为1,使其符合一个权重分布的特性。为了节点和边信息传递网络提取的特征信息在训练过程中可以有信息交互,所以这里让注意力参数在两个模型上进行共享。
得到了自注意力权重矩阵S∈Rr*n之后,可以得到固定大小的包含了结点重要性的图的向量表示为公式17:
ξ∈Rr*a 公式17
ξ∈flatten(SH)
其中,flatten(·)表示将矩阵SH 展开成一维向量。
进一步地,还可以将蛋白质表示和分子表示拼接起来,即可结合小分子和蛋白质的信息,参考公式18和公式19,其中:
其中,cat(·,·,·,·,·,·)是拼接函数,FCN是全连接神经网络,和是蛋白质图经过信息传递网络与读出函数后得到的节点特征向量表示和边特征向量表示,类似地,和是小分子的节点特征向量和边特征向量表示。
在本发明的一些实施例中,所述方法还包括:
确定与所述自注意力读出函数相匹配的自注意力权重矩阵;基于所述自注意力权重矩阵,通过所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征确定蛋白质分子的嵌入表示向量;基于所述自注意力权重矩阵,通过所述目标分子的图神经网络确定所述目标分子的嵌入向量表示。其中,参考图7,图7为本发明实施例药物筛选方法一个可选的处理过程示意图,其中,药物筛选模型中其中,图神经网络的层间的传播方式参考公式20:
其中:I是单位矩;是的度矩阵;H是每一层的特征。构建的图神经网络有N个节点(node),每个节点代表目标对象的一个关联对象,这些节点的特征组成一个N×D维的矩阵X,然后各个节点之间的关系也会形成一个N×N 维的矩阵A,也称为邻接矩阵。X和A便是药物筛选装置的训练模块的输入。
其中,tanh为多层网络间的激活函数参考公式21:
步骤306:药物筛选装置基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
进一步地,结合前序图2所示,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述实施例所提供的药物筛选方法。
继续参考图8,图8为本发明实施例药物筛选方法一个可选的处理过程示意图,可以理解地,图3所示的步骤可以由运行药物筛选装置的各种电子设备执行,例如可以是如带有药物筛选装置的专用终端、药物数据库服务器或者药品提供商的服务器集群,其中,带有药物筛选装置的专用终端可以为前序图2所示的实施例中带有药物筛选装置的电子设备。具体包括以下步骤:
步骤801:药物筛选装置基于所述药物数据库中的药物信息参数,确定与所述药物筛选模型相匹配的训练样本集合与验证样本集合。
其中,所述训练样本集合包括至少一组训练样本。
步骤802:药物筛选装置通过所述药物筛选模型提取与所述训练样本相匹配的特征集合。
步骤803:药物筛选装置根据与所述训练样本相匹配的特征集合对所述药物筛选模型进行训练,以实现确定与所述药物筛选模型相适配的模型参数。
在本发明的一些实施例中,所述方法还包括:
确定与所述药物筛选模型相匹配的多维损失函数;基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述多维损失函数对所述药物筛选模型的参数进行调整,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合,实现对药物的筛选。其中,在对药物筛选模型的训练过程中,可以使用多个损失函数来对模型进行多监督训练。例如使用双分支均方差值损失函数(MSE Mean Square Error)。其中,双分支均方差值损失函数可以分别通过公式22以及公式23表示:
Lpreda=MSE(preda,Target) 公式22
Lpredb=MSE(predb,Target) 公式23
在本发明的一些实施例中,为了使得上面的公式22和公式23所示的两个双分支均方差值损失函数的预测值相同,可以通过公式24附加差异性损失,
Ldis=MSE(preda,predb) 公式24
由此,可以有效的限制某一类的极值分布,从而限制此类的离散程度,有效的提升算法对不平衡数据的鲁棒性,也可以有效地防止药物筛选模型的处理结果过拟合。
同时考虑到实际应用中不但可以通过固定的药物筛选服务器实现本申请的方案,同时由于药物数据库中蛋白质分子和目标分子的数量众多,因此还可以通过药物筛选服务器群组实现本申请的方案,因此,通过药物筛选信息区块链,不同的终端中同时获取药物筛选模型时,可以通过部署在区块链网络中的经过训练药物筛选模型,快速地对蛋白质分子和目标分子进行药物筛选,同时服务器群中的不同服务器(节点)获取区块链网络中目标分子结合产物的活性筛选结果。
具体来说,可以将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果送至区块链网络,以使
所述区块链网络的节点将所述目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
其中,本发明实施例可结合云技术实现,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
结合前序图1所示,本发明实施例所提供的目标对象确定方法可以通过相应的云端设备实现,例如:终端(包括终端10-1和终端10-2)通过网络300连接位于云端的服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。值得说明的是,服务器200可为实体设备,也可为虚拟化设备。
在本发明的一些实施例中所述方法还包括:
接收所述区块链网络中的其他节点的数据同步请求;响应于所述数据同步请求,对所述其他节点的权限进行验证;当所述其他节点的权限通过验证时,控制当前节点与所述其他节点之间进行数据同步,以实现所述其他节点获取目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
在本发明的一些实施例中,还可以响应于查询请求,解析所述查询请求以获取对应的对象标识;根据所述对象标识,获取区块链网络中的目标区块内的权限信息;对所述权限信息与所述对象标识的匹配性进行校验;当所述权限信息与所述对象标识相匹配时,在所述区块链网络中获取相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果;响应于所述查询请求,将所获取的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果向相应的客户端进行推送,以实现所述客户端获取所述区块链网络中所保存的相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
参见图9,图9是本发明实施例提供的药物筛选装置100的架构示意图,包括区块链网络1100(示例性示出了共识节点1110-1至共识节点1110-3)、认证中心3000、业务主体400和业务主体500,下面分别进行说明。
区块链网络1100的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络1100;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络1100,此时,成为区块链网络1100中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络1100的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络1100的共识节点1110的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络1100中,通过区块链网络1100实现数据和业务处理过程的可信和可追溯。
区块链网络1100中的共识节点接收来自不同业务主体(例如图9中示出的业务主体400和业务主体500)的客户端节点(例如,图9中示出的归属于业务主体400的客户端节点410、以及归属于服务器500的客户端节点510)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点410/510可以订阅区块链网络1100中感兴趣的事件,例如区块链网络1100中特定的组织/通道中发生的交易,由共识节点1110推送相应的交易通知到客户端节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现药物筛选进程的管理与处理为例,说明区块链网络的示例性应用。
参见图9,管理环节涉及的多个业务主体,如业务主体400可以是基于人工智能的药物筛选装置,业务主体500可以是带有药物筛选进程显示(操作)功能的显示系统,从认证中心3000进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心3000对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备 (例如终端或者服务器)运行的客户端都可以向区块链网络1100请求接入而成为客户端节点。
业务主体400的客户端节点410用于获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选;将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果发送至区块链网络1100。
其中,将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果发送至区块链网络1100,可以预先在客户端节点410设置业务逻辑,当形成相应的药物筛选进程时,客户端节点410将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果自动发送至区块链网络1100,也可以由业务主体400的业务人员在客户端节点410中登录,手动打包目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果,并将其发送至区块链网络1100。在发送时,客户端节点410根据目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点410的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络1100中的共识节点1110。
区块链网络1100中的共识节点1110中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体400的身份,确认业务主体400是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点1110自己的数字签名(例如,使用节点1110-1的私钥对交易的摘要进行加密得到),并继续在区块链网络1100 中广播。
区块链网络1100中的共识节点1110接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络1100中的共识节点1110广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果的交易,在状态数据库中添加包括目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果的键值对。
业务主体500的业务人员在客户端节点510中登录,输入目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果查询请求,客户端节点510根据目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络1100中的共识节点1110。
区块链网络1100中的共识节点1110中接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的更新某一文目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果的交易,根据不同目标用户标识更新状态数据库中该目标用户对应的键值对;对于提交的查询某个目标用户的交易,从状态数据库中查询目标用户对应的键值对,并返回交易结果。
值得说明的是,在图9中示例性地示出了将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果直接上链的过程,但在另一些实施例中,对于目标用户的数据量较大的情况,客户端节点410可将目标用户的哈希以及相应的药物筛选进程的哈希成对上链,将原始的目标用户以及相应的目标药物筛选进程存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目标用户以及相应的目标药物筛选进程后,可结合区块链网络1100中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图10,图10是本发明实施例提供的区块链网络 1100中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。其中,存储在区块链网络中的目标用户可以是不同药物数据库场景中的药物筛选进程,通过存储在区块链网络中可以实现不同的节点之间共享这些目标用户。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图11,图11是本发明实施例提供的区块链网络1100的功能架构示意图,包括应用层 1101、共识层1102、网络层1103、数据层1104和资源层1105,下面分别进行说明。
资源层1105封装了实现区块链网络1100中的各个节点1110的计算资源、存储资源和通信资源。
数据层1104封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层1103封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络1100中节点1110之间的通信,数据传播机制保证了交易在区块链网络1100中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点1110之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络1100的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络1100的权限;业务主体身份管理用于存储允许接入区块链网络1100的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层1102封装了区块链网络1100中的节点1110对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和 DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点1110接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络1100的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层1101封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
由此,相比于传统技术中的药物筛选技术,本申请能够通过药物筛选模型在没有人工干预的情况下,较快速地给出药物-靶向蛋白可能的相互作用对,从而节省药物研发试验成本,加快了药物新功能的挖掘和发现,节省药物筛选成本,也提升了用户的使用体验。
有益技术效果:
本发明通过获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;确定所述分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;基于所述蛋白质分子的结构特征,确定药物筛选模型中的图神经网络的节点信息传递子网络;基于所述蛋白质分子的结构特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;由此,可以实现基于蛋白质分子和目标分子结合产物的活性实现对药物的筛选,通过本申请所提供的药物筛选模型不但能够有效的通过药物筛选模型表现蛋白质图和小分子图的结构特征,实现准确地将蛋白质分子和目标分子进行结合,还能够高效地对药物数据库中所包含的数量巨大的蛋白质分子和目标分子进行处理,提升药物筛选的效率,节省药物筛选的时间。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种药物筛选方法,其特征在于,所述方法包括:
获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;
确定分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;
基于所述蛋白质分子的结构特征,利用目标氨基酸链节点和边线,确定药物筛选模型中的图神经网络的节点信息传递子网络;
基于所述蛋白质分子的结构特征,利用边线特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;
基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;
基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
2.根据权利要求1所述的方法,其特征在于,所述确定分子样本对中的蛋白质分子的结构特征和目标分子的结构特征,包括:
确定所述蛋白质分子中的不同氨基酸链的空间位置;
基于所述不同氨基酸链的空间位置,确定每对氨基酸之间的距离,并对所述每对氨基酸之间的距离进行标准化处理,形成标准氨基酸距离;
基于氨基酸距离阈值,确定所述蛋白质分子对应的氨基酸矩阵图;
基于所述蛋白质分子对应的氨基酸矩阵图,确定所述蛋白质分子的结构特征;
确定所述目标分子所对应的原子和化学键,并基于所述目标分子所对应的原子和化学键,确定所述目标分子的结构特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述蛋白质分子的结构特征,利用目标氨基酸链节点和边线,确定药物筛选模型中的图神经网络的节点信息传递子网络,包括:
基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链对应的节点特征;
基于所述蛋白质分子的结构特征,确定所述蛋白质分子中的目标氨基酸链到中心节点的所有边线的特征;
基于所述目标氨基酸链对应的节点特征和目标氨基酸链到中心节点的所有边线的特征,确定所述药物筛选模型中的图神经网络的节点信息传递子网络,并通过所述节点信息传递子网络产生所述图神经网络中的新节点,实现对所述蛋白质分子中不同氨基酸链的嵌入。
4.根据权利要求3所述的方法,其特征在于,所述通过所述节点信息传递子网络产生所述图神经网络中的新节点,实现对所述蛋白质分子中不同氨基酸链的嵌入,包括:
确定与所述目标氨基酸链对应的节点相连接的所有节点的集合;
对所述图神经网络模型中的全部节点的更新函数进行线性处理与偏置处理,形成与所述图神经网络模型中的全部节点相匹配的更新函数;
根据与所述图神经网络模型中的全部节点相匹配的更新函数,通过所述节点信息传递子网络产生所述图神经网络中的新节点;
将所述蛋白质分子中不同氨基酸链嵌入至所述图神经网络中的新节点。
5.根据权利要求3所述的方法,其特征在于,所述基于所述蛋白质分子的结构特征,利用边线特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络,包括:
基于所述蛋白质分子的结构特征,确定所述边线信息传递子网络中任一边线的特征;
根据所述任一边线的特征,确定对应的边线信息传递子网络的信息特征和状态特征;
根据所述图神经网络中的任一节点,确定对应的临边集合的关联特征;
基于所述边线信息传递子网络的信息传递函数和节点更新函数,通过对边线信息传递子网络的信息特征、状态特征以及临边集合的关联特征的迭代处理,将边线信息传递子网络的处理结果嵌入图神经网络中的边线中。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标分子的有机结构;
基于所述目标分子的有机结构,确定所述目标分子所对应的原子与化学键;
将所述目标分子所对应的原子作为目标分子图神经网络的节点;
将所述目标分子所对应的化学键作为目标分子图神经网络的边线;
通过所述目标分子图神经网络的节点和所述目标分子图神经网络的边线,确定所述目标分子的图神经网络的结构。
7.根据权利要求1所述的方法,其特征在于,所述基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合,包括:
确定与所述药物筛选模型相匹配的自注意力读出函数;
通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述蛋白质分子的结构特征中的第一节点特征向量和第一边线特征向量;
通过所述自注意力读出函数、所述图神经网络的节点信息传递子网络和边线信息传递子网络,确定所述目标分子的结构特征中的第二节点特征向量和第二边线特征向量;
对所述第一节点特征向量和第二节点特征向量进行拼接,并对所述第一边线特征向量和第二边线特征向量进行拼接,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定与所述自注意力读出函数相匹配的自注意力权重矩阵;
基于所述自注意力权重矩阵,通过所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征确定蛋白质分子的嵌入表示向量;
基于所述自注意力权重矩阵,通过所述目标分子的图神经网络确定所述目标分子的嵌入向量表示。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述药物数据库中的药物信息参数,确定与所述药物筛选模型相匹配的训练样本集合与验证样本集合,其中,所述训练样本集合包括至少一组训练样本;
通过所述药物筛选模型提取与所述训练样本相匹配的特征集合;
根据与所述训练样本相匹配的特征集合对所述药物筛选模型进行训练,以实现确定与所述药物筛选模型相适配的模型参数。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
确定与所述药物筛选模型相匹配的多维损失函数;
基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述多维损失函数对所述药物筛选模型的参数进行调整,以实现通过所述药物筛选模型对所述蛋白质分子和目标分子结合,实现对药物的筛选。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
将目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果送至区块链网络,以使
所述区块链网络的节点将所述目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
接收所述区块链网络中的其他节点的数据同步请求;
响应于所述数据同步请求,对所述其他节点的权限进行验证;
当所述其他节点的权限通过验证时,控制当前节点与所述其他节点之间进行数据同步,以实现所述其他节点获取目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括:
响应于查询请求,解析所述查询请求以获取对应的对象标识;
根据所述对象标识,获取区块链网络中的目标区块内的权限信息;
对所述权限信息与所述对象标识的匹配性进行校验;
当所述权限信息与所述对象标识相匹配时,在所述区块链网络中获取相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果;
响应于所述查询请求,将所获取的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果向相应的客户端进行推送,以实现所述客户端获取所述区块链网络中所保存的相应的目标分子的化学式、蛋白质分子的化学式和所述蛋白质分子和目标分子结合产物的活性筛选结果。
14.一种药物筛选装置,其特征在于,所述装置包括:
信息传输模块,用于获取药物数据库中包含的蛋白质分子和目标分子,其中,所述目标分子为药物小分子、所述蛋白质分子为能被药物分子作用的标靶大分子;
信息处理模块,用于确定分子样本对中的蛋白质分子的结构特征和目标分子的结构特征;
所述信息处理模块,用于基于所述蛋白质分子的结构特征,利用目标氨基酸链节点和边线,确定药物筛选模型中的图神经网络的节点信息传递子网络;
所述信息处理模块,用于基于所述蛋白质分子的结构特征,利用边线特征,确定所述药物筛选模型中的图神经网络的边线信息传递子网络;
所述信息处理模块,用于基于所述图神经网络的节点信息传递子网络、边线信息传递子网络以及所述蛋白质分子的结构特征和目标分子的结构特征,通过所述药物筛选模型对所述蛋白质分子和目标分子结合;
所述信息处理模块,用于基于所述蛋白质分子和目标分子结合产物的活性实现对药物的筛选。
15.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至13任一项所述药物筛选方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704024.0A CN111816252B (zh) | 2020-07-21 | 2020-07-21 | 一种药物筛选方法、装置及电子设备 |
PCT/CN2021/107509 WO2022017405A1 (zh) | 2020-07-21 | 2021-07-21 | 一种药物筛选方法、装置及电子设备 |
US17/900,149 US20220415433A1 (en) | 2020-07-21 | 2022-08-31 | Drug screening method and apparatus, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704024.0A CN111816252B (zh) | 2020-07-21 | 2020-07-21 | 一种药物筛选方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816252A CN111816252A (zh) | 2020-10-23 |
CN111816252B true CN111816252B (zh) | 2021-08-31 |
Family
ID=72861461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010704024.0A Active CN111816252B (zh) | 2020-07-21 | 2020-07-21 | 一种药物筛选方法、装置及电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220415433A1 (zh) |
CN (1) | CN111816252B (zh) |
WO (1) | WO2022017405A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816252B (zh) * | 2020-07-21 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
US11403316B2 (en) | 2020-11-23 | 2022-08-02 | Peptilogics, Inc. | Generating enhanced graphical user interfaces for presentation of anti-infective design spaces for selecting drug candidates |
CN112420124B (zh) * | 2021-01-19 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备和存储介质 |
CN112860810B (zh) * | 2021-02-05 | 2023-07-14 | 中国互联网络信息中心 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
CN113011282A (zh) * | 2021-02-26 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、电子设备及计算机存储介质 |
WO2022226940A1 (en) * | 2021-04-29 | 2022-11-03 | Huawei Cloud Computing Technologies Co., Ltd. | Method and system for generating task-relevant structural embeddings from molecular graphs |
US11512345B1 (en) | 2021-05-07 | 2022-11-29 | Peptilogics, Inc. | Methods and apparatuses for generating peptides by synthesizing a portion of a design space to identify peptides having non-canonical amino acids |
CN113488112A (zh) * | 2021-06-10 | 2021-10-08 | 五邑大学 | 一种共价结合预测方法及装置 |
CN113707236B (zh) * | 2021-08-30 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN113707214B (zh) * | 2021-08-31 | 2024-05-24 | 平安科技(深圳)有限公司 | 代谢物标记方法、装置、计算机设备及存储介质 |
CN113566864A (zh) * | 2021-09-03 | 2021-10-29 | 合肥米克光电技术有限公司 | 一种基于5g和边缘计算的分布式机器视觉系统 |
CN114283899A (zh) * | 2021-10-19 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种训练分子结合模型的方法、分子筛选方法及装置 |
CN114049922B (zh) * | 2021-11-09 | 2022-06-03 | 四川大学 | 基于小规模数据集和生成模型的分子设计方法 |
CN114974405A (zh) * | 2022-05-07 | 2022-08-30 | 上海图灵智算量子科技有限公司 | 基于量子gnn的结合能预测方法 |
CN114999578A (zh) * | 2022-06-10 | 2022-09-02 | 慧壹科技(上海)有限公司 | 配体筛选模型构建方法及装置、筛选方法、设备和介质 |
CN115188430A (zh) * | 2022-06-16 | 2022-10-14 | 慧壹科技(上海)有限公司 | 药物筛选模型构建方法及装置、筛选方法、设备和介质 |
CN115132270A (zh) * | 2022-07-13 | 2022-09-30 | 深圳先进技术研究院 | 药物筛选方法及系统 |
CN115101146B (zh) * | 2022-07-29 | 2024-09-06 | 郑州大学 | 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统 |
CN115662509B (zh) * | 2022-10-09 | 2023-08-08 | 北京科技大学 | 基于图神经网的表观遗传靶点预测的分类方法及装置 |
CN118629487A (zh) * | 2023-03-08 | 2024-09-10 | 深圳先进技术研究院 | 基于图卷积神经网络模型的蛋白质分子模拟结果分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493925A (zh) * | 2018-11-20 | 2019-03-19 | 北京晶派科技有限公司 | 一种确定药物和药物靶点关联关系的方法 |
WO2019081781A1 (en) * | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | NEURAL GRAPH NETWORK SYSTEMS FOR GENERATING STRUCTURED REPRESENTATIONS OF OBJECTS |
CN110010199A (zh) * | 2019-03-27 | 2019-07-12 | 华中师范大学 | 一种分析识别蛋白质特异性药物结合口袋的方法 |
CN110767266A (zh) * | 2019-11-04 | 2020-02-07 | 山东省计算中心(国家超级计算济南中心) | 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 |
US10614912B2 (en) * | 2014-08-17 | 2020-04-07 | Hyperfine, Llc | Systems and methods for comparing networks, determining underlying forces between the networks, and forming new metaclusters when saturation is met |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040204861A1 (en) * | 2003-01-23 | 2004-10-14 | Benner Steven Albert | Evolution-based functional proteomics |
JP5905781B2 (ja) * | 2012-06-13 | 2016-04-20 | 学校法人沖縄科学技術大学院大学学園 | 相互作用予測装置、相互作用予測方法、および、プログラム |
US10249389B2 (en) * | 2017-05-12 | 2019-04-02 | The Regents Of The University Of Michigan | Individual and cohort pharmacological phenotype prediction platform |
US11995557B2 (en) * | 2017-05-30 | 2024-05-28 | Kuano Ltd. | Tensor network machine learning system |
AU2019231255A1 (en) * | 2018-03-05 | 2020-10-01 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation |
CN109033738B (zh) * | 2018-07-09 | 2022-01-11 | 湖南大学 | 一种基于深度学习的药物活性预测方法 |
CN110910951B (zh) * | 2019-11-19 | 2023-07-07 | 江苏理工学院 | 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法 |
CN111816252B (zh) * | 2020-07-21 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
CN112151128A (zh) * | 2020-10-16 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 相互作用信息的确定方法、装置、设备及存储介质 |
-
2020
- 2020-07-21 CN CN202010704024.0A patent/CN111816252B/zh active Active
-
2021
- 2021-07-21 WO PCT/CN2021/107509 patent/WO2022017405A1/zh active Application Filing
-
2022
- 2022-08-31 US US17/900,149 patent/US20220415433A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614912B2 (en) * | 2014-08-17 | 2020-04-07 | Hyperfine, Llc | Systems and methods for comparing networks, determining underlying forces between the networks, and forming new metaclusters when saturation is met |
WO2019081781A1 (en) * | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | NEURAL GRAPH NETWORK SYSTEMS FOR GENERATING STRUCTURED REPRESENTATIONS OF OBJECTS |
CN109493925A (zh) * | 2018-11-20 | 2019-03-19 | 北京晶派科技有限公司 | 一种确定药物和药物靶点关联关系的方法 |
CN110010199A (zh) * | 2019-03-27 | 2019-07-12 | 华中师范大学 | 一种分析识别蛋白质特异性药物结合口袋的方法 |
CN110767266A (zh) * | 2019-11-04 | 2020-02-07 | 山东省计算中心(国家超级计算济南中心) | 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 |
Non-Patent Citations (2)
Title |
---|
《Drug target protein-protein interaction networks: A systematic perspective》;Yanghe Feng等;《BioMed Reaserch International》;20170611;全文 * |
张腾李浪.《 药物潜在靶标预测模型及算法研究》.《中国优秀硕士学位论文全文数据库 医药卫生科技辑》.2020, * |
Also Published As
Publication number | Publication date |
---|---|
CN111816252A (zh) | 2020-10-23 |
US20220415433A1 (en) | 2022-12-29 |
WO2022017405A1 (zh) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816252B (zh) | 一种药物筛选方法、装置及电子设备 | |
Duan et al. | Distributed artificial intelligence empowered by end-edge-cloud computing: A survey | |
Aledhari et al. | Federated learning: A survey on enabling technologies, protocols, and applications | |
Biamonte et al. | Complex networks from classical to quantum | |
CN111931678B (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
CN111681091B (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN110825975B (zh) | 一种信息推荐方法、装置、设备及计算机可读存储介质 | |
CN110569377A (zh) | 一种媒体文件的处理方法和装置 | |
CN112104892A (zh) | 一种多媒体信息处理方法、装置、电子设备及存储介质 | |
CN110929806B (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN112989186B (zh) | 资讯信息推荐模型训练方法、装置、电子设备及存储介质 | |
CN111242230A (zh) | 基于人工智能的图像处理方法及图像分类模型训练方法 | |
CN112749827A (zh) | 金融信息处理方法、装置、电子设备及存储介质 | |
CN113569111B (zh) | 对象属性识别方法、装置、存储介质及计算机设备 | |
CN113014566A (zh) | 恶意注册的检测方法、装置、计算机可读介质及电子设备 | |
CN110555482A (zh) | 基于人工智能的低俗图片识别方法、装置及电子设备 | |
CN112989074A (zh) | 多媒体信息推荐方法、装置、电子设备及存储介质 | |
CN116978449A (zh) | 相互作用界面的预测方法、装置、电子设备及存储介质 | |
CN112861009A (zh) | 基于人工智能的媒体账号推荐方法、装置及电子设备 | |
CN114120006B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
Zhang et al. | Af-dndf: Asynchronous federated learning of deep neural decision forests | |
US20210012001A1 (en) | Storage medium, information processing method, and information processing apparatus | |
Mishra et al. | Blockchain and IoT based infrastructure for secure smart city using deep learning algorithm with dingo optimization | |
Krishnan et al. | Federated Learning | |
CN113033209B (zh) | 文本关系抽取方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030052 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |