CN117831640A - 基于超算的医药产业数字孪生平台 - Google Patents
基于超算的医药产业数字孪生平台 Download PDFInfo
- Publication number
- CN117831640A CN117831640A CN202410248080.6A CN202410248080A CN117831640A CN 117831640 A CN117831640 A CN 117831640A CN 202410248080 A CN202410248080 A CN 202410248080A CN 117831640 A CN117831640 A CN 117831640A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- feature
- molecular
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 11
- 239000003814 drug Substances 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 45
- 229940079593 drug Drugs 0.000 claims abstract description 39
- 230000035495 ADMET Effects 0.000 claims abstract description 29
- 238000010535 acyclic diene metathesis reaction Methods 0.000 claims abstract description 29
- 238000000455 protein structure prediction Methods 0.000 claims abstract description 19
- 239000003596 drug target Substances 0.000 claims abstract description 15
- 238000003041 virtual screening Methods 0.000 claims abstract description 15
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 13
- 238000012827 research and development Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 100
- 238000012545 processing Methods 0.000 claims description 40
- 238000012800 visualization Methods 0.000 claims description 32
- 150000003384 small molecules Chemical group 0.000 claims description 31
- 230000003334 potential effect Effects 0.000 claims description 30
- 239000000126 substance Substances 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 22
- 239000003446 ligand Substances 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 19
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 15
- 238000013523 data management Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000036541 health Effects 0.000 claims description 11
- 201000010099 disease Diseases 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 claims description 7
- 238000009792 diffusion process Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 108020004707 nucleic acids Proteins 0.000 claims description 4
- 102000039446 nucleic acids Human genes 0.000 claims description 4
- 150000007523 nucleic acids Chemical class 0.000 claims description 4
- -1 small molecule compound Chemical class 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000007876 drug discovery Methods 0.000 abstract description 4
- 238000009510 drug design Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 241000894007 species Species 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000010521 absorption reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000001988 toxicity Effects 0.000 description 6
- 231100000419 toxicity Toxicity 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000029142 excretion Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000004060 metabolic process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 231100000086 high toxicity Toxicity 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 102100039148 Ankyrin repeat domain-containing protein 49 Human genes 0.000 description 2
- 101000889457 Homo sapiens Ankyrin repeat domain-containing protein 49 Proteins 0.000 description 2
- 102000006668 UniProt protein families Human genes 0.000 description 2
- 108020004729 UniProt protein families Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 229930014626 natural product Natural products 0.000 description 2
- 230000006916 protein interaction Effects 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000005156 Dehydration Diseases 0.000 description 1
- 208000002249 Diabetes Complications Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000003241 Fat Embolism Diseases 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 208000012659 Joint disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000009453 Thyroid Nodule Diseases 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036983 biotransformation Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008384 membrane barrier Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 208000023958 prostate neoplasm Diseases 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001839 systemic circulation Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及人工智能领域,特别是涉及一种基于超算的医药产业数字孪生平台,包括:物理层、数据层、数字孪生层、应用层及用户层,应用层,将接收到的医药数据孪生体发送至医药应用模块,所述医药应用模块包括AI药物靶点发现模块、蛋白质结构预测模块、智能分子生成模块、分子ADMET属性预测模块及AI药物虚拟筛选模块,实现基于医药数据孪生体的药物发现。通过本申请实现面向药物发现前期阶段的基于数字孪生平台进行药物设计,降低制药成本、缩短药物研发周期、辅助规划药品市场投放。
Description
技术领域
本申请涉及人工智能领域,特别是涉及一种基于超算的医药产业数字孪生平台。
背景技术
数字孪生是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。数字孪生是个普遍适应的理论技术体系,可以在众多领域应用,在产品设计、产品制造、医学分析、工程建设等领域应用较多。在国内应用最深入的是工程建设领域,关注度最高、研究最热的是智能制造领域。
传统制药深陷“反摩尔定律”,尽管制药公司几十年来不断增加投资,但投资得到的上市新药数目每9年就减少一半,药物研发周期长、投入高、成功率低,需先对数万个小分子测试筛选,最后只有少数几个能推进到临床。
现有的基于人工智能的结构预测工具可以帮助药物发现,但目前,结构预测工具只是用来增加从实验获得的结构知识,在没有实验证据的情况下,纯粹从模型结构开始药物设计工作,还无法满足药物发现的需求。
发明内容
本申请实施例提供了一种基于超算的医药产业数字孪生平台,以实现面向药物发现前期阶段的基于数字孪生平台进行药物设计,降低制药成本、缩短药物研发周期、辅助规划药品市场投放,为制药行业、医疗行业的信息化和智能化运营提供了蓝本。
本申请实施例提供了一种基于超算的医药产业数字孪生平台,基于GPU集群搭建,平台包括:物理层、数据层、数字孪生层、应用层及用户层;
其中,所述物理层采用高性能计算体系架构;所述物理层连接有物联网终端设备,物联网终端设备包括多种类型的传感器,物联网终端设备通过传感器采集到的数据通过有线网络或无线网络高速传输至数据层;
数据层,用于获取包括生物多样性数据、生物医药数据及医疗健康数据的多源异构数据并进行数据预处理,具体的,所述生物多样性数据、生物医药数据及医疗健康数据的获取包括物联网获取方式、互联网获取方式及专家库获取方式,互联网获取方式为基于互联网爬取或数据下载,物联网获取方式为通过物联网终端设备获取,专家库获取方式主要用于专业性较强的数据的获取,专家库由领域专家收集提供,以保证数据质量和数据的权威性。
数字孪生层,用于搭建基于ZooKeeper的分布式大数据存储计算体系,并搭建人工智能应用框架,利用所述分布式大数据存储计算体系及所述人工智能应用框架基于所述多源异构数据构建医药数据孪生体,所述医药数据孪生体的数据载体包括医药产业数据库、医药产业知识图谱及医药产业数据管理系统,所述医药产业数据库是基于医药产业海量关系数据筛选并基于领域分类建立,所述医药产业知识图谱是基于医药产业海量非关系型数据通过图数据库存储得到的多个典型医药产业知识图谱,所述医药产业数据管理系统是基于医药产业数据库及医药产业知识图谱构建的提供数据管理、数据查询等服务的系统;其中,所述分布式大数据存储计算体系采用ZooKeeper实现配置预调度,体系包括数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层,所述人工智能应用框架包括硬件基础、软件框架。
应用层,将接收到的医药数据孪生体发送至医药应用模块,所述医药应用模块包括AI药物靶点发现模块、蛋白质结构预测模块、智能分子生成模块、分子ADMET属性预测模块及AI药物虚拟筛选模块,实现基于医药数据孪生体的药物发现;其中:
所述AI药物靶点发现模块用于挖掘所述医药产业知识图谱中的药物-靶点知识图谱中的子图数据进行特征提取及特征融合得到潜在作用靶点的一级结构序列;
蛋白质结构预测模块用于基于所述潜在作用靶点的一级结构序列预测所述潜在作用靶点的三维结构并识别输出其活性口袋结构;
智能分子生成模块用于基于所述活性口袋结构生成智能小分子结构;
分子ADMET属性预测模块用于预测所述智能小分子结构的ADMET属性并基于预测的ADMET属性批量筛选智能小分子结构,对大量的智能小分子进行人体内吸收、分配、代谢、排泄、毒性预测,剔除毒性高、水溶性差、稳定性差的小分子结构;
AI药物虚拟筛选模块用于基于所述活性口袋结构及所述分子ADMET属性预测模块筛选得到的智能小分子结构进行蛋白质-配体亲和力评价,基于评价的亲和力分值筛选智能小分子结构用于化学合成,进一步经过细胞级实验、生物实验、临床实验等最终完成药物研发;
在其中一些实施例中,所述数据层包括数据获取模块、数据传输模块、数据处理模块、数据产品模块及数据中心模块,其中,所述数据处理模块包括:
数据清洗单元,用于对多源异构数据采用自动和半自动的方法进行数据清洗、剔除冗余数据,清洗操作包括但不限于缺失值处理、重复项删除、离群值处理、格式和类型转换、数据归一化处理、数据集成、数据转换、数据简化;
数据解析单元,用于采用自动化的方式对数据清洗单元输出的文本类型的数据进行解析,编写自动化解析程序,提取文本数据中的实体、实体属性、实体间的关系;
数据对齐单元,用于采用自动化和半自动化的方法对数据解析单元处理后的多源异构数据进行数据对齐操作,对齐多种数据类型、多种数据来源中相同的实体,并进行实体消歧操作。
在其中一些实施例中,所述医药数据孪生体的可视化方式包括集成插件可视化方式及Web可视化方式,所述集成插件可视化方式通过集成生物医药领域分子3D可视化插件实现,所述Web可视化方式通过将数据层和应用层的数据以Web前台页面的形式实现。
在其中一些实施例中,所述AI药物靶点发现模块进一步包括:
子图获取单元,用于获取用户选定的疾病节点、基因节点或药物节点作为目标节点,挖掘药物-靶点知识图谱中与所述目标节点具有预设关联深度的子图数据,所述子图数据中包括:药物实体、靶点实体、化合物实体、核酸实体及实体间关系;
子图特征处理单元,用于将所述子图数据特征提取得到第一特征矩阵、第二特征矩阵,第一特征矩阵大小为n*n,第二特征矩阵大小为n*d,将第一特征矩阵和第二特征矩阵进行特征融合后输入图卷积神经网络GCN,依次经GCN Layer1层、GCN Layer2层、……、GCNLayerk层进行数据处理后经全连接层输出预测结果,输出预测结果为潜在作用靶点的一级结构序列,其中,n为子图数据中的节点个数,d为提取后的特征数量。
在其中一些实施例中,所述AI药物靶点发现模块配置有靶点信息展示、靶点关联信息查询、分子结构可视化、分子图绘制及数据上传下载等交互单元。
在其中一些实施例中,所述蛋白质结构预测模块进一步包括:
序列建模单元,用于接收所述潜在作用靶点的一级结构序列,分别利用同源建模方法和AlphaFold2方法对所述一级结构序列进行建模,生成潜在作用靶点的第一三级结构和第二三级结构,筛选所述第一三级结构和第二三级结构中的最优结构作为潜在作用靶点的三维结构;
活性识别单元,用于对所述潜在作用靶点的三维结构进行活性点位识别,输出的活性口袋结构。
在其中一些实施例中,所述蛋白质结构预测模块配置有基于结构序列的检索、分子结构可视化、基于物种的蛋白质结构检索、数据上传下载等交互单元。
在其中一些实施例中,所述智能分子生成模块进一步包括:
数据获取单元,用于获取所述潜在作用靶点的活性口袋结构,基于所述医药产业数据库中的小分子化合物数据库数据抽取目标蓝本小分子的分子骨架结构及药效团结构;
分子特征处理单元,用于采用带注意力机制的分子特征提取方法对所述活性口袋结构、目标蓝本小分子结构及所述目标蓝本小分子的分子骨架结构及药效团结构进行特征提取,分别得到靶点口袋结构特征、小分子结构特征、分子骨架特征及药效团特征并通过矩阵乘法运算进行特征融合;
分子批量生成单元,用于将分子特征处理单元融合后的特征输入图扩散模型中,进行特征聚集、特征传播及图扩散处理,批量生成智能小分子结构。
在其中一些实施例中,所述智能分子生成模块配置有结合亲和力数据查询、分子结构可视化、基于蛋白质结构数据的检索、存量数据管理、在线数据获取、数据上传下载等交互单元。
在其中一些实施例中,所述分子ADMET属性预测模块进一步包括:
特征提取单元,用于接收所述智能分子生成模块生成的智能小分子结构提取特征得到原子特征矩阵Atom Feature Matrix和化学键特征矩阵Bond Feature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix、库伦矩阵特征Coulomb Matrix和分子描述符Molecular Description;
特征聚合单元,用于将化学键特征矩阵Bond Feature Matrix输入至图注意力神经网络进行特征聚集Bond Aggregation及信息传递Message Passing Layers得到向量化的化学键特征,并将向量化的化学键特征依次与原子特征矩阵Atom Feature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix及库伦矩阵特征CoulombMatrix进行特征聚合操作,得到待预测小分子特征;
参数预测单元,用于将所述待预测小分子特征输入所述图注意力神经网络与所述分子描述符Molecular Description进行聚合操作,将聚合后的特征经前馈层FeedForward输出分子的性质参数,所述性质参数包括但不限于吸收参数、分配参数、代谢参数、排泄参数及毒性参数,基于所述分子的性质参数对智能小分子结构进行筛选,剔除毒性高、水溶性差、稳定性差的智能小分子结构后将剩余智能小分子结构转换为.mol格式的结构。
在其中一些实施例中,所述分子ADMET属性预测模块配置有分子结构可视化、分子图绘制、数据上传下载等交互单元。
在其中一些实施例中,所述AI药物虚拟筛选模块进一步包括:
数据预处理单元,获取所述蛋白质结构预测模块的活性口袋结构及所述分子ADMET属性预测模块筛选后的智能小分子结构,对所述活性口袋结构及智能小分子结构进行预处理后利用分子构象预测方法进行处理,得到的小分子活性构象,所述预处理操作包括去水处理和加氢处理;
亲和力评价单元,基于所述小分子活性构象及所述活性口袋结构输入至一蛋白质-配体结合亲和力模型进行特征处理,输出亲和力分值,基于所述亲和力分值筛选分值排名靠前的智能小分子结构用于药物研发。
在其中一些实施例中,所述亲和力评价单元中蛋白质-配体结合亲和力模型进行特征处理具体包括:
将小分子活性构象作为配体结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过两层图注意力层Graph attention layer和全局最大池化层Global max pooling进行特征提取得到配体结构特征矩阵;
将活性口袋结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过三层图注意力层Graph attention layer和全局最大池化层Global maxpooling进行特征提取得到靶点口袋特征矩阵;
融合配体结构特征矩阵及靶点口袋特征矩阵得到复合物结构特征后经两层全连接层FC layer输出所述亲和力分值。
在其中一些实施例中,所述AI药物虚拟筛选模块配置有存量数据管理、在线数据获取、数据下载等功能单元,并配置有支持结合亲和力数据查询、分子结构可视化、复合物结构可视化、基于结构的检索、数据上传下载等交互单元。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的医药产业数字孪生平台的架构图;
图2是根据本申请实施例的分布式大数据存储计算体系示意图;
图3是根据本申请实施例的人工智能应用框架示意图;
图4是根据本申请实施例的医药应用模块结构示意图;
图5是根据本申请实施例的蛋白质-配体复合物3D结构参考图;
图6是根据本申请实施例的AI药物靶点发现模块的结构示意图;
图7是根据本申请实施例的蛋白质结构预测模块的结构示意图;
图8是根据本申请实施例的智能分子生成模块的结构示意图;
图9是根据本申请实施例的分子ADMET属性预测模块的原理结构示意图;
图10是根据本申请实施例的AI药物虚拟筛选模块的原理结构示意图;
图11是根据本申请实施例的蛋白质-配体结合亲和力模型的原理示意图。
图中:
AI药物靶点发现模块1;蛋白质结构预测模块2;智能分子生成模块3;分子ADMET属性预测模块4;AI药物虚拟筛选模块5;子图获取单元101;子图特征处理单元102;序列建模单元201;活性识别单元202;数据获取单元301;分子特征处理单元302;分子批量生成单元303;特征提取单元401;特征聚合单元402;参数预测单元403;数据预处理单元501;亲和力评价单元502。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
ADMET:A指Absorption,即药物从作用部位进入体循环的过程;D指Distribution,即药物吸收后通过细胞膜屏障向各组织、器官或者体液进行转运的过程;M指Metabolism(Biotransformation),即药物在体内受酶系统或者肠道菌丛的作用而发生结构转化的过程;E指Excretion,即药物以原型或者代谢产物的形式排出体外的过程;T指Toxicity,即药物对机体的毒性。
本申请实施例提供了一种基于超算的医药产业数字孪生平台,基于GPU集群搭建,GPU集群集成10块H800高性能显卡,半精度浮点运算算力高达8P,如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的平台较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图1是根据本申请实施例的医药产业数字孪生平台的架构图,参考图1所示,本申请实施例的医药产业数字孪生平台包括:物理层、数据层、数字孪生层、应用层及用户层;
其中,所述物理层采用高性能计算体系架构,硬件结构上,高性能计算系统包含计算节点、I/O节点、登录节点、管理节点、高速网络、存储系统等构成,网络采用核心IB网络、速度高达100Gbps,存储具备1.2PB,虚拟环境采用Linux,足以支撑医药产业数字孪生平台的构建、运营工作,本申请的物理层用于为平台运行提供物理设备、数据感知设备等硬件支撑;所述物理层连接有物联网终端设备,物联网终端设备包括多种类型的传感器,物联网终端设备通过传感器采集到的数据通过有线网络或无线网络高速传输至数据层;
数据层用于获取包括生物多样性数据、生物医药数据及医疗健康数据的多源异构数据并进行数据预处理,具体的,所述生物多样性数据、生物医药数据及医疗健康数据的获取包括物联网获取方式、互联网获取方式及专家库获取方式,互联网获取方式为基于互联网爬取或数据下载,物联网获取方式为通过物联网终端设备获取,如通过传感器采集生物的体征数据或通过佩戴智能手表或智能血压计等设备采集患者的心率、血压、血氧等健康数据,尽管本申请实施例对数据获取进行了示例,但实际应用中可以基于数据获取的目的对基于物联网终端设备的生物多样性数据、生物医药数据及医疗健康数据进行适应性扩展或调整,以满足实际需要;专家库获取方式主要用于专业性较强的数据的获取,专家库由领域专家收集提供,以保证数据质量和数据的权威性。
上述多种数据源中,所述生物多样性数据包括基于WoRMS的物种分类、Catalogueof Life 全球生物物种名录、NCBI Taxonomy物种分类树、GBIF 生物多样性发现数据(Global Biodiversity Information Facility,GBIF)、中国生物物种名录2020及海洋生物数据,可通过查询或接入相应平台API获取数据,用于提供全球物种分类与演化数据,具体如表1所示;
所述生物医药数据包括BioGrid数据库的蛋白质相互作用数据、Uniprot蛋白质数据、NCBI Gene数据库、DrugBank数据库、Pfam蛋白质结构域、Chemspider数据、Pubchem化合物数据、PubMed文献数据、Uniprot蛋白质数据、Huri 人类蛋白质相互作用、CaNDis疾病药物检索数据库的疾病通路、PMC文献全文、DUD-E数据、Binding MOAD数据集及PDBBind数据集等数据来源,具体如表2所示,从而提供蛋白质、基因、核酸、疾病及其科学文献等方面的数据基础。
所述医疗健康数据包括糖尿病并发症预警数据集、中国流动人口动态监测数据、前列腺肿瘤预警数据集、中医古方数据集、心血管病合理用药数据库、肝癌生物标志物的挖掘及基于分子对接的多靶点天然产物的抗肿瘤活性数据等,具体如表3所示,涵盖常见疾病、人口、临床等方面的数据。
基于如上数据源,数据层用于提供数据获取、数据传输、数据处理、数据产品及数据中心等服务,获取的数据在数据类别方面,涵盖生物多样性与物种演化、生物医药、医疗健康等多个领域的数据;数据类型方面,涵盖文本、音频、图片、视频等各种数据类型;数据体量方面,数据量高达44T、涵盖40多个开源数据集。
需要说明的是,基于上述表1-表3的本申请的数据对其中具体数据来源进行更新扩展的情形也属于本申请的保护范围。
数字孪生层用于搭建基于ZooKeeper的分布式大数据存储计算体系,并搭建人工智能应用框架,利用所述分布式大数据存储计算体系及所述人工智能应用框架基于所述多源异构数据构建医药数据孪生体,所述医药数据孪生体的数据载体包括医药产业数据库、医药产业知识图谱及医药产业数据管理系统,所述医药产业数据库是基于医药产业海量关系数据筛选并基于领域分类建立,所述医药产业知识图谱是基于医药产业海量非关系型数据通过图数据库存储得到的多个典型医药产业知识图谱,所述医药产业数据管理系统是基于医药产业数据库及医药产业知识图谱构建的提供数据管理、数据查询等服务的系统,从而支持医药产业领域大数据、云计算、人工智能、高性能计算及可视化显示等服务。
参考图2所示,上述分布式大数据存储计算体系采用ZooKeeper实现配置预调度,体系包括数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层,其中,数据来源层的数据获取自所述数据层的多源异构数据,包括结构化数据、半结构化数据及非结构化数据;数据传输层支持Sqoop工具的数据传输、Flume系统日志收集,数据存储层支持HDFS文件存储和HBase非关系型数据库,其中,HBase是分布式、面向列的开源数据库,适用于非结构化数据存储;资源管理层采用YARN资源管理系统,以提升集群利用率;数据计算层采用MapReduce离线计算、SparkCore内存计算和Storm实时计算,并支持Hive数据查询、Mahout数据挖掘、SparkMlib数据挖掘、SparkR数据分析、SparkSql数据查询、SparkStreaming实时计算等;任务调度层采用Oozie任务调度方法和Azkaban任务调度方法;业务模型层用于支持业务模型、数据可视化、业务应用等服务。
参考图3所示,所述人工智能应用框架包括硬件基础、软件框架,硬件基础包括GPU集群、中央处理器CPU、FPGA(Field Programmable Gate Array)及ASIC芯片(ApplicationSpecific Integrated Circuit)等基础硬件资源,所述软件框架为支撑TensorFlow、MXNet、Caffe、CNTK、PaddlePaddle等深度学习软件框架,以支撑计算机视觉、自然语言处理、图深度学习、智能语音等人工智能技术的实现,基于上述硬件基础及软件框架为医药产业或食品产业提供行业应用、产品、平台或服务。
应用层,将接收到的医药数据孪生体发送至医药应用模块,参考图4所示,所述医药应用模块包括AI药物靶点发现模块1、蛋白质结构预测模块2、智能分子生成模块3、分子ADMET属性预测模块4及AI药物虚拟筛选模块5,实现基于医药数据孪生体的药物发现;其中:
AI药物靶点发现模块1用于挖掘所述医药产业知识图谱中的药物-靶点知识图谱中的子图数据进行特征提取及特征融合得到潜在作用靶点的一级结构序列;蛋白质结构预测模块2用于基于所述潜在作用靶点的一级结构序列预测所述潜在作用靶点的三维结构并识别输出其活性口袋结构;智能分子生成模块3用于基于所述活性口袋结构生成智能小分子结构;分子ADMET属性预测模块4用于预测所述智能小分子结构的ADMET属性并基于预测的ADMET属性批量筛选智能小分子结构,对大量的智能小分子进行人体内吸收、分配、代谢、排泄、毒性预测,剔除毒性高、水溶性差、稳定性差的小分子结构;AI药物虚拟筛选模块5用于基于所述活性口袋结构及所述分子ADMET属性预测模块4筛选得到的智能小分子结构进行蛋白质-配体亲和力评价,基于评价的亲和力分值筛选智能小分子结构用于化学合成,进一步经过细胞级实验、生物实验、临床实验等最终完成药物研发。
此外,应用模块还可以开发得到专门的制药应用模块、医疗应用模块及视频应用模块,从而输出服务数据、知识数据和融合衍生数据以面向制药行业、医疗行业、食品行业的其他应用提供解决方案。
举例但不限于,本申请实施例中所述用户层的用户对象包括制药企业、医疗机构、科研院所、食品企业、互联网用户,基于本申请的数字孪生平台可以面向各类用户对象提供信息化和智能化服务,其中,面向制药企业提供如药物虚拟筛选、智能药物生成、药品市场分析、病患分析等服务,提高药企的信息化管理水平、实现降低制药成本、缩短药物研发周期及辅助规划药品市场投放;面向医疗机构如AI辅助诊疗、医学影像识别等服务,提升医疗机构信息化和智能化水平,降低人力成本、提升诊疗效率;面向科研院所提供医药产业大数据分析、药物靶点发现、蛋白质结构预测、ADMET预测、AI模型研究等服务,增加科研成果产出、提升科研成果转换速度;面向食品企业提供如食品信息系统构建、食品溯源、食品开发、食品质量检测等服务,提升行业信息化和智能化水平,保障社会食品安全;面向互联网用户如健康问答、医学问诊、用药知识科普等服务,提升广大互联网用户医学医药知识水平。基于此,本申请的数字孪生平台调整数据源扩展食品相关数据基础后,还可以应用于食品开发、食品溯源、食品质量检测、生物进化与种群演化、经济作物分析、动植物天然产物分析、中药有效成分分析等领域。
在其中一些实施例中,参考图1所示,数据层包括数据获取模块、数据传输模块、数据处理模块、数据产品模块及数据中心模块,其中,数据处理模块包括:数据清洗单元、数据解析单元(即图1所示的数据转换)及数据对齐单元,具体配置为:
数据清洗单元用于对多源异构数据采用自动和半自动的方法进行数据清洗、剔除冗余数据,清洗操作包括但不限于缺失值处理、重复项删除、离群值处理、格式和类型转换、数据归一化处理、数据集成、数据转换、数据简化,缺失值处理可通过删除行/列中缺失的值、用统计数据(均值,中位数,模态)或预测(回归,kNN)填充缺失值、根据其他样本的值估计缺失值、根据趋势预测缺失值、掩盖或扰乱缺失的值等方法实现,重复项删除为识别并消除数据集中重复或冗余的条目,离群值处理为识别和处理数据集中与其余数据显著不同的异常值,考虑异常值对结果的潜在影响,并仔细选择适当的方法来处理它们,如移除、修剪、替换、归纳或转换,格式和类型转换包括但不限于将字符串形式转换为数字格式,或将数字格式化为特定的字符串形式,数据归一化处理的方法包括但不限于Min-Max方法、Z-Score方法,数据集成是将来自多个来源的数据组合到单个统一视图中,数据转换为将数据从源格式映射到目标格式,并且通常涉及到操作聚合或在该过程中过滤数据,此处可以进行适应性配置,在此不做具体限定,数据简化是通过数据压缩、聚合或降维等方法来实现数据的简化或汇总,以减少数据的大小或复杂性,使其更易于管理、分析和可视化,使其更容易处理大型数据集;
数据解析单元用于采用自动化的方式对数据清洗单元输出的文本类型的数据进行解析,编写自动化解析程序,提取文本数据中的实体、实体属性、实体间的关系;
数据对齐单元,用于采用自动化和半自动化的方法对数据解析单元处理后的多源异构数据进行数据对齐操作,对齐多种数据类型、多种数据来源中相同的实体,并进行实体消歧操作。
在其中一些实施例中,所述医药数据孪生体的可视化方式包括集成插件可视化方式及Web可视化方式,所述集成插件可视化方式通过集成生物医药领域分子3D可视化插件实现,图5所示为以蛋白质-配体复合物3D结构的可视化效果参考图,所述Web可视化方式通过将数据层和应用层的数据以Web前台页面的形式实现。其中,生物医药领域分子3D可视化插件包括但不限于JavaScript Protein Viewer、3Dmol Viewer、NGL、ChemDoodle、PyMOL、GLmol、Crystal Studio、QuteMol、CueMol、TexMol、RasMol、Mol*等插件,可实现分子结构的3D可视化展示。
参考图6所示,上述实施例中AI药物靶点发现模块1进一步包括:
子图获取单元101,用于获取用户选定的疾病节点、基因节点或药物节点作为目标节点,挖掘药物-靶点知识图谱中与所述目标节点具有预设关联深度的子图数据,子图数据中包括:药物实体、靶点实体、化合物实体、核酸实体及实体间关系,本申请实施例将预设关联深度配置为4;
子图特征处理单元102,用于将所述子图数据特征提取得到第一特征矩阵、第二特征矩阵,第一特征矩阵大小为n*n,第二特征矩阵大小为n*d,图6中第一特征矩阵表示为矩阵A,第二特征矩阵表示为特征B,将第一特征矩阵和第二特征矩阵进行特征融合后输入图卷积神经网络GCN,依次经GCN Layer1层、GCN Layer2层、……、GCN Layerk层进行数据处理后经全连接层输出预测结果,预测结果的类别包括:链接预测、节点分类及图分类,本申请实施例以链接预测LinkPrediction作为预测结果类别,待预测节点分类为靶点,即输出预测结果为潜在作用靶点的一级结构序列,其中,n为子图数据中的节点个数,d为提取后的特征数量,图卷积神经网络的激活函数采用线性整流函数ReLU。
在其中一些实施例中,所述AI药物靶点发现模块1配置有靶点信息展示、靶点关联信息查询、分子结构可视化、分子图绘制及数据上传下载等交互单元,并通过用户层与制药企业用户对象互动。
参考图7所示,本申请实施例的蛋白质结构预测模块2进一步包括:序列建模单元201及活性识别单元202。序列建模单元201用于接收所述潜在作用靶点的一级结构序列,分别利用同源建模方法和AlphaFold2方法对所述一级结构序列进行建模,生成潜在作用靶点的第一三级结构和第二三级结构,筛选所述第一三级结构和第二三级结构中的最优结构作为潜在作用靶点的三维结构;活性识别单元202用于对所述潜在作用靶点的三维结构进行活性点位识别,输出靶点.pdb格式的活性口袋结构。
基于如上单元,本申请实施例的蛋白质结构预测模块2通过集成同源建模、AlphaFold2,可实现蛋白质三维结构预测。
在其中一些实施例中,所述蛋白质结构预测模块2配置有基于结构序列的检索、分子结构可视化、基于物种的蛋白质结构检索、数据上传下载等交互单元,并通过用户层与制药企业用户对象互动。
参考图8所示,本申请实施例的智能分子生成模块3进一步包括:数据获取单元301、分子特征处理单元302及分子批量生成单元303,数据获取单元301用于获取所述潜在作用靶点的活性口袋结构,基于所述医药产业数据库中的小分子化合物数据库数据抽取目标蓝本小分子的分子骨架结构及药效团结构,其中,所述目标蓝本小分子是用户需求的小分子,采用RDKit工具库抽取得到分子骨架结构及药效团结构;分子特征处理单元302用于采用带注意力机制的分子特征提取方法对所述活性口袋结构、目标蓝本小分子结构及所述目标蓝本小分子的分子骨架结构及药效团结构进行特征提取,分别得到靶点口袋结构特征、小分子结构特征、分子骨架特征及药效团特征并通过矩阵乘法运算进行特征融合,提取过程中通过对分子骨架特征及药效团特征添加注意力机制实现了捕捉蓝本小分子的整体结构及理化特性并存储为特征矩阵以便于进行特征融合;分子批量生成单元303用于将分子特征处理单元302融合后的特征输入图扩散模型中,配置重原子个数、生成数量等超参数批量进行多次特征聚集、特征传播及图扩散处理,批量生成智能小分子结构。
基于如上单元,本申请实施例的智能分子生成模块3基于医药产业数据库中的小分子化合物数据库数据,通过训练智能分子生成模型融合靶点的活性口袋结构、小分子骨架结构及药效团特征以生成智能分子。
在其中一些实施例中,所述智能分子生成模块3配置有结合亲和力数据查询、分子结构可视化、基于蛋白质结构数据的检索、存量数据管理、在线数据获取、数据上传下载等交互单元,并通过用户层与制药企业用户对象互动。
参考图9所示,分子ADMET属性预测模块4进一步包括:特征提取单元401、特征聚合单元402及参数预测单元403,特征提取单元401用于接收所述智能分子生成模块3生成的智能小分子结构提取特征得到原子特征矩阵Atom Feature Matrix和化学键特征矩阵BondFeature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix、库伦矩阵特征Coulomb Matrix和SMILES格式的分子描述符Molecular Description;其中,原子特征矩阵Atom Feature Matrix和化学键特征矩阵Bond Feature Matrix用于量化分子的原子特征和化学键特征;特征聚合单元402用于将化学键特征矩阵Bond Feature Matrix输入至图注意力神经网络进行特征聚集Bond Aggregation及信息传递Message PassingLayers得到向量化的化学键特征,并将向量化的化学键特征依次与原子特征矩阵AtomFeature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix及库伦矩阵特征Coulomb Matrix进行特征聚合操作,得到待预测小分子特征;参数预测单元403用于将所述待预测小分子特征输入所述图注意力神经网络与所述分子描述符MolecularDescription进行聚合操作,将聚合后的特征经前馈层Feed Forward输出分子的性质参数,所述性质参数包括但不限于吸收参数、分配参数、代谢参数、排泄参数及毒性参数,基于所述分子的性质参数对智能小分子结构进行筛选,剔除毒性高、水溶性差、稳定性差的智能小分子结构后将剩余智能小分子结构转换为.mol格式的结构,可选的,毒性高、水溶性差、稳定性差的评价阈值可以基于实际需求进行适应性配置,在此不作具体赘述。
基于如上单元,本申请实施例的分子ADMET属性预测模块4可以基于图注意力神经网络实现分子的物理化学性质、药物化学性质、药代动力学性质、亲脂性、水溶性、毒性和可成药性等性质的细粒度预测。
在其中一些实施例中,所述分子ADMET属性预测模块4配置有分子结构可视化、分子图绘制、数据上传下载等交互单元,并通过用户层与制药企业用户对象互动。
参考图10所示,本申请实施例的AI药物虚拟筛选模块5进一步包括:
数据预处理单元501,获取所述蛋白质结构预测模块2的靶点.pdb格式的活性口袋结构及所述分子ADMET属性预测模块4筛选后的.mol格式的智能小分子结构,对所述活性口袋结构及智能小分子结构进行预处理后利用分子构象预测方法进行处理,得到.mol格式的小分子活性构象,所述预处理操作包括去水处理和加氢处理;
亲和力评价单元502,基于所述小分子活性构象及所述活性口袋结构输入至一蛋白质-配体结合亲和力模型进行特征处理,输出亲和力分值,基于所述亲和力分值筛选分值排名靠前的智能小分子结构用于药物研发。
参考图11所示,所述亲和力评价单元502中蛋白质-配体结合亲和力模型进行特征处理具体包括:
将小分子活性构象作为配体结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过两层图注意力层Graph attention layer和全局最大池化层Global max pooling进行特征提取得到配体结构特征矩阵;
将活性口袋结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过三层图注意力层Graph attention layer和全局最大池化层Global maxpooling进行特征提取得到靶点口袋特征矩阵;
融合配体结构特征矩阵及靶点口袋特征矩阵得到复合物结构特征后经两层全连接层FC layer输出所述亲和力分值。
在其中一些实施例中,所述AI药物虚拟筛选模块5配置有存量数据管理、在线数据获取、数据下载等功能单元,并配置有支持结合亲和力数据查询、分子结构可视化、复合物结构可视化、基于结构的检索、数据上传下载等交互单元,并通过用户层与制药企业用户对象互动。
在另外一些实施例中,上述硬件基础及软件框架为医疗行业提供行业应用、产品、平台或服务时,提供如AI辅助诊疗、医药知识智能推广、医学影像识别等服务,提升医疗机构信息化和智能化水平,降低人力成本、提升诊疗效率。其中,AI辅助诊疗服务通过在医药知识图谱的基础上融合大语言模型方法,实现了诊断模型、病情理解、名医专家库等子单元,足以支撑基于语义和基于知识的AI辅助诊疗功能,服务于疾病诊疗、辅助决策、病例分析等应用场景,提供疾病风险监控、病例质控、分诊导诊、诊断类辅助决策、病例大数据分析等典型应用;医药知识智能推广服务基于Neo4J图数据库、pytorch深度学习框架集成医学知识图谱、语义交互算法、语音识别模型、语音合成模型等大数据及人工智能方法,服务于医药知识科普应用、产业应用、科研应用等应用场景,提供用药知识助手、健康问答、病患人群分析、药品市场分析、精准营销、学术前沿追踪、学术知识推广等功能;医学影像识别服务基于大规模医学影像数据,收集并处理了海量CT、B超、核磁共振、内镜影像等医学临床数据,通过训练并集成多个医学图像分割、医学图像智能标注、细粒度医学影像识别等AI模型以支撑多项AI关键技术,应用于医学影像诊断、医学图像分割、医学影像分析等场景提供肿瘤检测、脂肪栓塞检测、骨关节疾病医学影像诊断、甲状腺结节分割、病理切片影像分析等功能。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于超算的医药产业数字孪生平台,其特征在于,基于GPU集群搭建,平台包括:物理层、数据层、数字孪生层、应用层及用户层;
其中,所述物理层采用高性能计算体系架构,所述物理层连接有物联网终端设备,物联网终端设备采集到的数据传输至数据层;
数据层,用于获取包括生物多样性数据、生物医药数据及医疗健康数据的多源异构数据并进行数据预处理;
数字孪生层,用于搭建基于ZooKeeper的分布式大数据存储计算体系,并搭建人工智能应用框架,利用所述分布式大数据存储计算体系及所述人工智能应用框架基于所述多源异构数据构建医药数据孪生体,所述医药数据孪生体的数据载体包括医药产业数据库、医药产业知识图谱及医药产业数据管理系统,所述医药产业数据库是基于医药产业海量关系数据筛选并基于领域分类建立,所述医药产业知识图谱是基于医药产业海量非关系型数据通过图数据库存储得到的,所述医药产业数据管理系统是基于医药产业数据库及医药产业知识图谱构建的提供数据管理、数据查询服务的系统;
应用层,将接收到的医药数据孪生体发送至医药应用模块,所述医药应用模块包括AI药物靶点发现模块、蛋白质结构预测模块、智能分子生成模块、分子ADMET属性预测模块及AI药物虚拟筛选模块,实现基于医药数据孪生体的药物发现;其中:
所述AI药物靶点发现模块用于挖掘所述医药产业知识图谱中的药物-靶点知识图谱中的子图数据进行特征提取及特征融合得到潜在作用靶点的一级结构序列;
蛋白质结构预测模块用于基于所述潜在作用靶点的一级结构序列预测所述潜在作用靶点的三维结构并识别输出其活性口袋结构;
智能分子生成模块用于基于所述活性口袋结构生成智能小分子结构;
分子ADMET属性预测模块用于预测所述智能小分子结构的ADMET属性并基于预测的ADMET属性批量筛选智能小分子结构;
AI药物虚拟筛选模块用于基于所述活性口袋结构及所述分子ADMET属性预测模块筛选得到的智能小分子结构进行蛋白质-配体亲和力评价,基于评价的亲和力分值筛选智能小分子结构用于化学合成。
2.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述数据层包括数据处理模块,其中,所述数据处理模块包括:
数据清洗单元,用于对多源异构数据采用自动和半自动的方法进行数据清洗、剔除冗余数据;
数据解析单元,用于采用自动化的方式对数据清洗单元输出的文本类型的数据进行解析,提取文本数据中的实体、实体属性、实体间的关系;
数据对齐单元,用于采用自动化和半自动化的方法对数据解析单元处理后的多源异构数据进行数据对齐操作,对齐相同的实体,并进行实体消歧操作。
3.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述医药数据孪生体的可视化方式包括集成插件可视化方式及Web可视化方式,所述集成插件可视化方式通过集成生物医药领域分子3D可视化插件实现,所述Web可视化方式通过将数据层和应用层的数据以Web前台页面的形式实现。
4.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述AI药物靶点发现模块进一步包括:
子图获取单元,用于获取用户选定的疾病节点、基因节点或药物节点作为目标节点,挖掘药物-靶点知识图谱中与所述目标节点具有预设关联深度的子图数据,所述子图数据中包括:药物实体、靶点实体、化合物实体、核酸实体及实体间关系;
子图特征处理单元,用于将所述子图数据特征提取得到第一特征矩阵、第二特征矩阵,第一特征矩阵大小为n*n,第二特征矩阵大小为n*d,将第一特征矩阵和第二特征矩阵进行特征融合后输入图卷积神经网络GCN进行数据处理后经全连接层输出预测结果,输出预测结果为潜在作用靶点的一级结构序列,其中,n为子图数据中的节点个数,d为提取后的特征数量。
5.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述蛋白质结构预测模块进一步包括:
序列建模单元,用于接收所述潜在作用靶点的一级结构序列,分别利用同源建模方法和AlphaFold2方法对所述一级结构序列进行建模,生成潜在作用靶点的第一三级结构和第二三级结构,筛选所述第一三级结构和第二三级结构中的最优结构作为潜在作用靶点的三维结构;
活性识别单元,用于对所述潜在作用靶点的三维结构进行活性点位识别,输出活性口袋结构。
6.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述智能分子生成模块进一步包括:
数据获取单元,用于获取所述潜在作用靶点的活性口袋结构,基于所述医药产业数据库中的小分子化合物数据库数据抽取目标蓝本小分子的分子骨架结构及药效团结构;
分子特征处理单元,用于采用带注意力机制的分子特征提取方法对所述活性口袋结构、目标蓝本小分子的结构及所述目标蓝本小分子的分子骨架结构及药效团结构进行特征提取,分别得到靶点口袋结构特征、小分子结构特征、分子骨架特征及药效团特征并进行特征融合;
分子批量生成单元,用于将分子特征处理单元融合后的特征输入图扩散模型中,进行特征聚集、特征传播及图扩散处理,批量生成智能小分子结构。
7.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述分子ADMET属性预测模块进一步包括:
特征提取单元,用于接收所述智能分子生成模块生成的智能小分子结构提取特征得到原子特征矩阵Atom Feature Matrix、化学键特征矩阵Bond Feature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix、库伦矩阵特征Coulomb Matrix和分子描述符Molecular Description;
特征聚合单元,用于将化学键特征矩阵Bond Feature Matrix输入至图注意力神经网络进行特征聚集及信息传递得到向量化的化学键特征,并将向量化的化学键特征依次与原子特征矩阵Atom Feature Matrix、邻接矩阵特征Adjacency Matrix、距离矩阵特征Distance Matrix及库伦矩阵特征Coulomb Matrix进行特征聚合操作,得到待预测小分子特征;
参数预测单元,用于将所述待预测小分子特征输入所述图注意力神经网络与所述分子描述符Molecular Description进行聚合操作,将聚合后的特征经前馈层输出分子的性质参数,基于所述分子的性质参数对智能小分子结构进行筛选。
8.根据权利要求1所述的基于超算的医药产业数字孪生平台,其特征在于,所述AI药物虚拟筛选模块进一步包括:
数据预处理单元,获取所述蛋白质结构预测模块的活性口袋结构及所述分子ADMET属性预测模块筛选后的智能小分子结构,对所述活性口袋结构及智能小分子结构进行预处理后利用分子构象预测方法进行处理,得到的小分子活性构象;
亲和力评价单元,基于所述小分子活性构象及所述活性口袋结构输入至一蛋白质-配体结合亲和力模型进行特征处理,输出亲和力分值,基于所述亲和力分值筛选分值排名靠前的智能小分子结构用于药物研发。
9.根据权利要求8所述的基于超算的医药产业数字孪生平台,其特征在于,所述亲和力评价单元中蛋白质-配体结合亲和力模型进行特征处理具体包括:
将小分子活性构象作为配体结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过两层图注意力层Graph attention layer和全局最大池化层Global max pooling进行特征提取得到配体结构特征矩阵;
将活性口袋结构经特征化处理得到其原子层面特征、化学键层面特征和亲和力层面特征,经过三层图注意力层Graph attention layer和全局最大池化层Global max pooling进行特征提取得到靶点口袋特征矩阵;
融合配体结构特征矩阵及靶点口袋特征矩阵得到复合物结构特征后经两层全连接层FC layer输出所述亲和力分值。
10.根据权利要求1所述基于超算的医药产业数字孪生平台,其特征在于,所述分布式大数据存储计算体系采用ZooKeeper实现配置预调度,体系包括数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410248080.6A CN117831640B (zh) | 2024-03-05 | 2024-03-05 | 基于超算的医药产业数字孪生平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410248080.6A CN117831640B (zh) | 2024-03-05 | 2024-03-05 | 基于超算的医药产业数字孪生平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117831640A true CN117831640A (zh) | 2024-04-05 |
CN117831640B CN117831640B (zh) | 2024-05-14 |
Family
ID=90523169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410248080.6A Active CN117831640B (zh) | 2024-03-05 | 2024-03-05 | 基于超算的医药产业数字孪生平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831640B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663214A (zh) * | 2012-05-09 | 2012-09-12 | 四川大学 | 一种集成药物靶标预测系统的构建和预测方法 |
CN112768012A (zh) * | 2021-01-27 | 2021-05-07 | 奥来恩医药(苏州)有限公司 | 一种基于人工智能的药物开发系统 |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
KR102356257B1 (ko) * | 2021-05-17 | 2022-02-09 | (주)제이엘케이 | 인공 지능 기반의 유전체 분석 및 의약 물질 개발 방법 및 시스템 |
US11264140B1 (en) * | 2020-12-16 | 2022-03-01 | Ro5 Inc. | System and method for automated pharmaceutical research utilizing context workspaces |
CN114360639A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 基于人工智能的药物靶点作用关系确定方法及装置 |
WO2022161323A1 (zh) * | 2021-01-28 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品 |
CN114913917A (zh) * | 2022-06-01 | 2022-08-16 | 徐州医科大学 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
US20230098833A1 (en) * | 2021-09-17 | 2023-03-30 | The University Of Hong Kong | Deepdrug: an expert-led directed graph neural networking drug-repurposing framework for identification of a lead combination of drugs protecting against alzheimer's disease and related disorders |
CN116679652A (zh) * | 2023-07-07 | 2023-09-01 | 奥明(宁波)生物医药有限公司 | 一种智造环状rna药物的数字孪生平台 |
US20230290435A1 (en) * | 2022-03-10 | 2023-09-14 | Wipro Limited | Method and system for selecting candidate drug compounds through artificial intelligence (ai)-based drug repurposing |
WO2023196872A1 (en) * | 2022-04-06 | 2023-10-12 | Predictiv Care, Inc. | Disease or drug association providing system for digital twins with genetic information screened by artificial intelligence |
KR20230143921A (ko) * | 2022-04-06 | 2023-10-13 | 프리딕티브 케어, 인코포레이티드 | 인공지능에 의해 선별된 유전자 정보를 갖는 디지털 트윈에 대한 질병 또는 약물 연관성 제공 시스템 |
WO2023207795A1 (zh) * | 2022-04-26 | 2023-11-02 | 吴运良 | 一种基于医疗健康的数字孪生建立方法、装置和存储介质 |
CN117292759A (zh) * | 2023-08-28 | 2023-12-26 | 青岛国实科技集团有限公司 | 基于国产超算平台的蛋白质-配体亲和力评价方法 |
WO2024011837A1 (zh) * | 2022-07-13 | 2024-01-18 | 深圳先进技术研究院 | 药物筛选方法及系统 |
-
2024
- 2024-03-05 CN CN202410248080.6A patent/CN117831640B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663214A (zh) * | 2012-05-09 | 2012-09-12 | 四川大学 | 一种集成药物靶标预测系统的构建和预测方法 |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
US11264140B1 (en) * | 2020-12-16 | 2022-03-01 | Ro5 Inc. | System and method for automated pharmaceutical research utilizing context workspaces |
CN112768012A (zh) * | 2021-01-27 | 2021-05-07 | 奥来恩医药(苏州)有限公司 | 一种基于人工智能的药物开发系统 |
WO2022161323A1 (zh) * | 2021-01-28 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品 |
KR102356257B1 (ko) * | 2021-05-17 | 2022-02-09 | (주)제이엘케이 | 인공 지능 기반의 유전체 분석 및 의약 물질 개발 방법 및 시스템 |
US20230098833A1 (en) * | 2021-09-17 | 2023-03-30 | The University Of Hong Kong | Deepdrug: an expert-led directed graph neural networking drug-repurposing framework for identification of a lead combination of drugs protecting against alzheimer's disease and related disorders |
CN114360639A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 基于人工智能的药物靶点作用关系确定方法及装置 |
WO2023134062A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的药物靶点作用关系确定方法及装置 |
US20230290435A1 (en) * | 2022-03-10 | 2023-09-14 | Wipro Limited | Method and system for selecting candidate drug compounds through artificial intelligence (ai)-based drug repurposing |
WO2023196872A1 (en) * | 2022-04-06 | 2023-10-12 | Predictiv Care, Inc. | Disease or drug association providing system for digital twins with genetic information screened by artificial intelligence |
KR20230143921A (ko) * | 2022-04-06 | 2023-10-13 | 프리딕티브 케어, 인코포레이티드 | 인공지능에 의해 선별된 유전자 정보를 갖는 디지털 트윈에 대한 질병 또는 약물 연관성 제공 시스템 |
WO2023207795A1 (zh) * | 2022-04-26 | 2023-11-02 | 吴运良 | 一种基于医疗健康的数字孪生建立方法、装置和存储介质 |
CN114913917A (zh) * | 2022-06-01 | 2022-08-16 | 徐州医科大学 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
WO2024011837A1 (zh) * | 2022-07-13 | 2024-01-18 | 深圳先进技术研究院 | 药物筛选方法及系统 |
CN116679652A (zh) * | 2023-07-07 | 2023-09-01 | 奥明(宁波)生物医药有限公司 | 一种智造环状rna药物的数字孪生平台 |
CN117292759A (zh) * | 2023-08-28 | 2023-12-26 | 青岛国实科技集团有限公司 | 基于国产超算平台的蛋白质-配体亲和力评价方法 |
Non-Patent Citations (3)
Title |
---|
KANISHKA SONI; YASHA HASIJA: "Artificial Intelligence Assisted Drug Research and Development", 《2022 IEEE DELHI SECTION CONFERENCE (DELCON)》, 20 April 2022 (2022-04-20) * |
ROOHALLAH ALIZADEHSANI等: "Explainable Artificial Intelligence for Drug Discovery and Development: A Comprehensive Survey", 《IEEE ACCESS》, 4 March 2024 (2024-03-04) * |
高丽;刘艾林;杜冠华;: "计算机辅助药物设计在新药研发中的应用进展", 中国药学杂志, no. 09, 8 May 2011 (2011-05-08) * |
Also Published As
Publication number | Publication date |
---|---|
CN117831640B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tran et al. | The current research landscape of the application of artificial intelligence in managing cerebrovascular and heart diseases: A bibliometric and content analysis | |
Zhao et al. | Tomato leaf disease diagnosis based on improved convolution neural network by attention module | |
Kumar et al. | Big data analytics for healthcare industry: impact, applications, and tools | |
Alonso et al. | A systematic review of techniques and sources of big data in the healthcare sector | |
Altun et al. | Monkeypox detection using CNN with transfer learning | |
Popescu et al. | Skin lesion classification using collective intelligence of multiple neural networks | |
Yuvalı et al. | Classification comparison of machine learning algorithms using two independent CAD datasets | |
Hu et al. | Utilizing Chinese admission records for MACE prediction of acute coronary syndrome | |
Strzelecki et al. | Machine learning for biomedical application | |
Ogundokun et al. | Human posture detection using image augmentation and hyperparameter-optimized transfer learning algorithms | |
Ray et al. | Dimensionality reduction for human activity recognition using google colab | |
Xia et al. | Adaptive aggregated attention network for pulmonary nodule classification | |
Bhuiyan et al. | iHealthcare: Predictive model analysis concerning big data applications for interactive healthcare systems | |
Gómez-Pulido et al. | Predicting the appearance of hypotension during hemodialysis sessions using machine learning classifiers | |
Aslan et al. | A novel proposal for deep learning-based diabetes prediction: converting clinical data to image data | |
Niu et al. | SMNet: symmetric multi-task network for semantic change detection in remote sensing images based on CNN and transformer | |
Diaz-Flores et al. | Evolution of artificial intelligence-powered technologies in biomedical research and healthcare | |
Kumar et al. | Flamingo-optimization-based deep convolutional neural network for iot-based arrhythmia classification | |
Liu et al. | Addlight: An energy-saving adder neural network for cucumber disease classification | |
Liu et al. | Edge guided context aggregation network for semantic segmentation of remote sensing imagery | |
Bostanci et al. | Machine learning analysis of RNA-seq data for diagnostic and prognostic prediction of colon cancer | |
Carvalho et al. | Integrating domain knowledge into deep learning for skin lesion risk prioritization to assist teledermatology referral | |
Shi et al. | TCU-Net: transformer embedded in convolutional u-shaped network for retinal vessel segmentation | |
Sampath et al. | Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction | |
Chang et al. | Prediction of hypertension outcomes based on gain sequence forward tabu search feature selection and xgboost |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |