CN114913939A - 高通量平台和机器学习优化的药物组合设计方法及装置 - Google Patents
高通量平台和机器学习优化的药物组合设计方法及装置 Download PDFInfo
- Publication number
- CN114913939A CN114913939A CN202210845111.7A CN202210845111A CN114913939A CN 114913939 A CN114913939 A CN 114913939A CN 202210845111 A CN202210845111 A CN 202210845111A CN 114913939 A CN114913939 A CN 114913939A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- data set
- performance
- drug combination
- mixture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 110
- 239000000890 drug combination Substances 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013461 design Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 title claims abstract description 39
- 239000000203 mixture Substances 0.000 claims abstract description 149
- 238000012549 training Methods 0.000 claims abstract description 93
- 150000008574 D-amino acids Chemical class 0.000 claims abstract description 91
- 238000012216 screening Methods 0.000 claims abstract description 49
- 239000003242 anti bacterial agent Substances 0.000 claims abstract description 28
- 229940088710 antibiotic agent Drugs 0.000 claims abstract description 27
- 231100000053 low toxicity Toxicity 0.000 claims abstract description 26
- 230000000844 anti-bacterial effect Effects 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 241000894006 Bacteria Species 0.000 claims abstract description 16
- 230000003013 cytotoxicity Effects 0.000 claims abstract description 12
- 231100000135 cytotoxicity Toxicity 0.000 claims abstract description 12
- 206010059866 Drug resistance Diseases 0.000 claims abstract description 8
- 230000003214 anti-biofilm Effects 0.000 claims description 42
- 239000003814 drug Substances 0.000 claims description 17
- 229940079593 drug Drugs 0.000 claims description 14
- 230000006872 improvement Effects 0.000 claims description 13
- 230000003115 biocidal effect Effects 0.000 claims description 12
- 238000002474 experimental method Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000003235 crystal violet staining Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000004083 survival effect Effects 0.000 claims description 5
- 208000035143 Bacterial infection Diseases 0.000 abstract description 3
- 208000022362 bacterial infectious disease Diseases 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000013329 compounding Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 241000191967 Staphylococcus aureus Species 0.000 description 4
- 229960003669 carbenicillin Drugs 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000845 anti-microbial effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 229960002518 gentamicin Drugs 0.000 description 3
- 238000013537 high throughput screening Methods 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 239000012528 membrane Substances 0.000 description 3
- 238000002493 microarray Methods 0.000 description 3
- ONIBWKKTOPOVIA-SCSAIBSYSA-N D-Proline Chemical compound OC(=O)[C@H]1CCCN1 ONIBWKKTOPOVIA-SCSAIBSYSA-N 0.000 description 2
- ROHFNLRQFUQHCH-RXMQYKEDSA-N D-leucine Chemical compound CC(C)C[C@@H](N)C(O)=O ROHFNLRQFUQHCH-RXMQYKEDSA-N 0.000 description 2
- 229930182819 D-leucine Natural products 0.000 description 2
- COLNVLDHVKWLRT-MRVPVSSYSA-N D-phenylalanine Chemical compound OC(=O)[C@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-MRVPVSSYSA-N 0.000 description 2
- 229930182832 D-phenylalanine Natural products 0.000 description 2
- 229930182820 D-proline Natural products 0.000 description 2
- 229930182827 D-tryptophan Natural products 0.000 description 2
- QIVBCDIJIAJPQS-SECBINFHSA-N D-tryptophane Chemical compound C1=CC=C2C(C[C@@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-SECBINFHSA-N 0.000 description 2
- OUYCCCASQSFEME-MRVPVSSYSA-N D-tyrosine Chemical compound OC(=O)[C@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-MRVPVSSYSA-N 0.000 description 2
- 229930195709 D-tyrosine Natural products 0.000 description 2
- 229930182566 Gentamicin Natural products 0.000 description 2
- CEAZRRDELHUEMR-URQXQFDESA-N Gentamicin Chemical compound O1[C@H](C(C)NC)CC[C@@H](N)[C@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](NC)[C@@](C)(O)CO2)O)[C@H](N)C[C@@H]1N CEAZRRDELHUEMR-URQXQFDESA-N 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 229940124350 antibacterial drug Drugs 0.000 description 2
- 230000032770 biofilm formation Effects 0.000 description 2
- FPPNZSSZRUTDAP-UWFZAAFLSA-N carbenicillin Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)C(C(O)=O)C1=CC=CC=C1 FPPNZSSZRUTDAP-UWFZAAFLSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009036 growth inhibition Effects 0.000 description 2
- 238000013090 high-throughput technology Methods 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 239000004135 Bone phosphate Substances 0.000 description 1
- 208000003322 Coinfection Diseases 0.000 description 1
- 108090000204 Dipeptidase 1 Proteins 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 241000194017 Streptococcus Species 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- -1 aminoglycoside Substances 0.000 description 1
- 229940126575 aminoglycoside Drugs 0.000 description 1
- 239000004599 antimicrobial Substances 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 239000003899 bactericide agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 102000006635 beta-lactamase Human genes 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 239000003120 macrolide antibiotic agent Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 229960002180 tetracycline Drugs 0.000 description 1
- 229930101283 tetracycline Natural products 0.000 description 1
- 235000019364 tetracycline Nutrition 0.000 description 1
- 150000003522 tetracyclines Chemical class 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Toxicology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
Abstract
本发明提出一种高通量平台和机器学习优化的药物组合设计方法及装置,涉及药物组合技术领域。包括:利用高通量平台构建机器学习初始数据集;将初始数据集输入到多种机器学习模型中,对多种回归模型分别进行训练;利用机器学习模型和全局优化算法对未知D‑氨基酸混合物进行预测;对候选混合物配方进行实验迭代反馈对机器学习优化后的D‑氨基酸混合物和多种抗生素的药物组合进行高通量的性能筛选,其中,筛选的性能为细菌对抗生素的耐药性,药物组合的抗菌效率和细胞毒性。本发明提供的技术方案解决了现有办法对药物组合性能筛选评价的局限性,显著提高了药物组合鉴定的规模,效率和可重复性,设计出解决细菌感染问题的低毒高效治疗方案。
Description
技术领域
本发明涉及药物组合设计技术领域,特别是指一种高通量平台和机器学习优化的药物组合设计方法及装置。
背景技术
细菌感染是造成植入手术失败,医疗设备损坏,甚至患者死亡的最重要的原因。构筑具有杀菌或者抗细菌黏附功能的表面是解决细菌感染的最普遍的手段,然而,一旦有狡猾的细菌逃脱抗菌剂的攻击,并成功附着在表面,那么它们就会快速形成生物膜,大大减弱杀菌物质的作用,造成严重的感染。因此,生物膜的顽固性使其难以治疗和根除,传统的抗菌涂层设计思路无法有效对抗生物膜。能够直接抑制生物膜形成或是根除预先存在的生物膜的多重抗菌表面是对抗生物膜的有效手段,该手段首先保证了杀菌物质的长效性,降低了患者二次感染的风险;同时,它还可以降低杀菌物质的最小抑菌浓度,增强抗菌表面的生物相容性。
D型氨基酸被证明是一种生物相容性极佳的抗生物膜药物。研究表明,相比于单独使用某一种D-氨基酸,多种D-氨基酸的混合使用对细胞膜形成的抑制作用更加显著。然而,基于试错实验的传统办法受困于巨大的样本数量,难以对D-氨基酸混合物的抗生物性能进行优化。如何快速发现目标性能优异的D-氨基酸混合物是一个巨大的挑战。机器学习是一种主动学习方法,它从“一个小数据集”开始,并将实验结果动态地添加到训练数据中,以加速寻找潜在目标的解决方案。但在回归研究中,只利用模型的结果,而在不确定性最大的搜索空间中缺乏采样点,容易使预测值局限于局部极小值,导航潜在空间最优解的采集函数是回归研究的关键。
同时,D-氨基酸和抗生素的药物组合具备潜在的协同作用。研究人员声称,引入D-氨基酸,可以有效提高抗生素的抗菌效果,显著降低抗生素的细胞毒性。如何快速,精确,可重复地对药物组合进行筛选,释放D-氨基酸的抗生物膜潜能,赋予抗生素更广阔的应用前景,是目前面对的挑战。
发明内容
针对现有技术中在不确定性最大的搜索空间中缺乏采样点,容易使预测值局限于局部极小值,以及如何快速精确可重复地对药物组合进行筛选的问题,本发明提出了一种高通量平台和机器学习优化的药物组合设计方法及装置。
为解决上述技术问题,本发明提供如下技术方案:
一方面,提供了一种高通量平台和机器学习优化的药物组合设计方法,该方法应用于电子设备,包括以下步骤:
S1:构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
S2:基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
S3:以预期改善EI值为标准,对所述候选混合物进行优化,得到目标性能优异的混合物配比,获得优化候选混合物;
S4:将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,步骤S1中,构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型,包括:
S11:通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
S12:通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
S13:通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
S14:通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
可选地,所述初始训练数据集包括:输入数据集和输出数据集;所述输入数据集为候选混合物中各单元的配比,所述输出数据集为候选混合物的抗生物膜性能。
可选地,步骤S2还包括:
通过统计推断法对每一种候选混合物分别进行n次预测,其中,n≥1000,取预测均值作为性能预测值。
可选地,以预期改善EI值为标准,对所述候选混合物的混合物配比进行优化,获得优化候选混合物,包括:
S31:选取EI值最大的候选混合物的组合方式,作为实验迭代的候选配方,通过实验得到候选配方的真实值;
S32:将候选配方的真实值添加到初始训练数据集中,对初始训练数据集进行数据扩充;
S33:对扩充后的初始数据集重复执行S2-S32,直到候选配方满足预设要求,得到目标性能优异的混合物配比,获得优化候选混合物。
可选地,预设要求包括:D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值。
可选地,步骤S4中,将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计,包括:
S41:通过高通量平台,利用不同浓度的多种抗生素对细菌耐药性进行筛选,获得优化候选混合物与抗生素的药物组合;
S42:利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,低毒高效的标准为:在24小时内,药物组合的抗菌效率大于90%,细胞存活率大于95%。
一方面,提供了一种高通量平台和机器学习优化的药物组合设计装置,该装置应用于电子设备,该装置包括:
模型训练模块,用于构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
性能预测模块,用于基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
配比优化模块,用于以预期改善EI值为标准,对所述候选混合物进行优化,得到目标性能优异的混合物配比,获得优化候选混合物;
药物组合模块,用于将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,模型训练模块,用于通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
通过10倍交叉验证对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种高通量平台和机器学习优化的药物组合设计方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种高通量平台和机器学习优化的药物组合设计方法。
本发明实施例的上述技术方案至少具有如下有益效果:
上述方案中,(1)本发明构建的高通量平台和机器学习策略相结合的设计方法,可以快速准确的创建机器学习原始数据集,并且通过贝叶斯优化算法,高效导航潜在空间的最优解,避免局部极值,在少量迭代次数的前提下,发现极佳的D-氨基酸复配方式。
(2) 使用高通量平台探索D-氨基酸-抗生素药物组合的联合治疗可行性,快速挖掘药物组合的联合行为(协同/拮抗),全面表征药物组合的应用前景,显著提高开发效率,有效降低研发成本,提供对科研,应用等方面的技术指导,为低毒高效的药物组合开发提供新思路。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的流程图;
图2是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的流程图;
图3是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的抗生物膜性能OD570值机器学习模型预测值和实验值的拟合曲线图;
图4是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的基于贝叶斯优化算法的实验迭代反馈结果图;
图5是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的D-氨基酸混合物与抗生素联合行为的热图;
图6a是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的24h细胞毒性筛选结果图;
图6b是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的48h细胞毒性筛选结果图;
图7是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的对铜绿假单胞菌及其生物膜的生长抑制率图;
图8a是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的用荧光共聚焦显微镜表征的表面活细菌分布情况示意图;
图8b是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的死细菌分布情况示意图;
图9是发明实施例提供的一种高通量平台和机器学习优化的药物组合设计装置框图;
图10本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种高通量平台和机器学习优化的药物组合设计方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的高通量平台和机器学习优化的药物组合设计方法流程图,该方法的处理流程可以包括如下的步骤:
S101:构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
S102:基于最优模型,通过EGO(Efficient Global Optimization,全局优化算法),对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
S103:以预期改善EI值为标准,对所述候选混合物进行优化,得到目标性能优异的混合物配比,获得优化候选混合物;
S104:将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,步骤S101中,构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型,包括:
S111:通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
S112:通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
S113:通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
S114:通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
可选地,所述初始训练数据集包括:输入数据集和输出数据集;所述输入数据集为候选混合物中各单元的配比,所述输出数据集为候选混合物的抗生物膜性能。
可选地,步骤S102还包括:
通过统计推断法对每一种候选混合物分别进行n次预测,其中,n≥1000,取预测均值作为性能预测值。
可选地,以预期改善EI值为标准,对所述候选混合物的混合物配比进行优化,获得优化候选混合物,包括:
S131:选取EI值最大的候选混合物的组合方式,作为实验迭代的候选配方,通过实验得到候选配方的真实值;
S132:将候选配方的真实值添加到初始训练数据集中,对初始训练数据集进行数据扩充;
S133:对扩充后的初始数据集重复执行S102-S132,直到候选配方满足预设要求,得到目标性能优异的混合物配比,获得优化候选混合物。
可选地,预设要求包括:D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值。
可选地,步骤S104中,将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计,包括:
S141:通过高通量平台,利用不同浓度的多种抗生素对细菌耐药性进行筛选,获得优化候选混合物与抗生素的药物组合;
S142:利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,低毒高效的标准为:在24小时内,药物组合的抗菌效率大于90%,细胞存活率大于95%。
本发明实施例中,提出了一种由高通量技术和机器学习算法相结合的创新方法,以快速和系统地识别治疗微生物感染的药物组合。在前人数据不足的情况下,利用高通量平台创建原始数据集,并通过机器学习模型和贝叶斯优化算法解锁药物复配比例-抗生物膜性能的复杂关系;此外,用高通量平台对药物组合的多项性能进行高效,低成本的筛选。本发明为高效低毒抗细菌感染的药物组合设计提供了新方法,显著提高了药物组合设计的效率,降低了开发成本。
本发明实施例提供了一种高通量平台和机器学习优化的药物组合设计方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的高通量平台和机器学习优化的药物组合设计方法流程图,该方法的处理流程可以包括如下的步骤:
S201:通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
一种可行的实施方式中,对十种已报道的具有抗生物膜性能的D-氨基酸进行表征,表征方法为结晶紫染色法,挑选出其中五种性能较好的。
S202:通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
一种可行的实施方式中,高通量平台的主要装置为一台可以精确移液的多功能非接触式微阵列打印机。
一种可行的实施方式中,D-氨基酸混合物的复配方式包括一元,二元,三元,四元,五元。
S203:通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
S204:通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
一种可行的实施方式中,初始训练数据集包括:输入数据集和输出数据集;输入数据集为D-氨基酸混合物中各单元的配比,输出数据集为混合物的抗生物膜性能。
一种可行的实施方式中,设定的对模型进行训练的训练集和测试集的比例为4:1。
S205:基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值。
一种可行的实施方式中,得到候选混合物的性能预测值包括:通过统计推断法对每一种候选混合物分别进行n次预测,其中,n≥1000,取预测均值作为性能预测值。
S206:选取EI值最大的候选混合物的组合方式,作为实验迭代的候选配方,通过实验得到候选配方的真实值;
S207:将候选配方的真实值添加到初始训练数据集中,对初始训练数据集进行数据扩充;
S208:对扩充后的初始数据集重复执行S205-S207,直到候选配方满足预设要求,得到目标性能优异的混合物配比,获得优化候选混合物。
一种可行的实施方式中,预设要求包括:D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值,且真实值的变化趋势逐渐平缓,即前后两个真实值的差值缩短在10%以内。
本发明实施例中,探索发现了一系列D-氨基酸混合物的复配方式,并成功找到了抗生物膜性能优于目前所有文献报道的混合物复配方式。
S209:通过高通量平台,利用不同浓度的多种抗生素对细菌耐药性进行筛选,获得优化候选混合物与抗生素的药物组合;
S210:利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
一种可行的实施方式中,低毒高效的标准为:在24小时内,抗菌效率大于90%,细胞存活率大于95%。
一种可行的实施方式中,药物组合是指D-氨基酸混合物和抗生素,耐药性筛选是为后续药物组合中,抗生素的浓度做参考,比如这个细菌耐药性很强,那么我们在药物组合中相应的就要提高抗生素的浓度,来保证有杀菌的效果。就是将药物组合的水溶液直接作用于细菌,如链球菌,金黄色葡萄球菌等革兰氏阳性菌,大肠杆菌,铜绿假单胞菌等革兰氏阴性菌。
下面通过四组实验数据对本申请的方案进行详细阐述:
实施例1
a.整理公开发表的文献资料,选定十种具有抗生物膜性能的D-氨基酸,通过高通量平台对这十种D-氨基酸在100μm浓度下对铜绿假单胞菌的抗生物膜性能进行快速的评估,筛选出其中五种性能较好的,对其进行一元,二元,三元,四元,五元混合,对混合物在最终浓度100μm的情况下的抗生物性能进行十轮高通量表征,得到约1000条数据。
本发明实施例中,高通量平台的主体框架为一台多功能非接触式微阵列打印机,由多功能工作台、吸液多孔板、压电移液针头、实时摄影机、清洗/干燥装置等模块构建而成。根据预设程序进行的工作方式可以简单的归纳为吸液、优化、移液、验证、清洗、干燥等步骤。微阵列打印机的压电移液针头可以将低至皮升的体积精确地分配到各种孔板以及材料表面,并提供移液的实时影像;实时摄影机可以对移液参数进行优化,并对针头的工作状态进行验证,确保移液的准确性和重复性。
b.对所有数据进行归一化处理,去除明显的偏移值,用剩余数据的平均值构建原始数据集。
c.建立复配方式→抗生物性能回归模型,将原始数据集中的混合物比例作为输入端,抗生物性能作为输出端,训练多种回归模型,通过10倍交叉验证对各模型的超参数进行调优,其中对模型进行训练的训练集和测试集的比例为4:1,训练集在回归模型训练时使用,测试集用于测试回归模型的精度,用均方误差来评价回归模型的精度。在实际应用中,交叉验证的倍数、超参数优化的手段以及模型精度的判别标准可以根据具体情况进行调整。
根据上述步骤得出的实验真实值和模型预测值绘制散点图,如图3所示,具体方法为:以高通量平台获得的实验数据为横坐标,以机器学习模型的预测值为纵坐标做散点图,当散点越靠近45°线时 ,说明实验值和预测值越接近,模型的精度越好,随机森林的模型精度最好,均方误差值为46.24。
d. 选取步骤c中的最优模型,结合统计推断和贝叶斯优化算法,获得大量D-氨基酸混合物的性能预测值和预期改善值(EI),选取EI值最大的数据作为迭代候选。所有D-氨基酸的比例均在0-100%之间,步长设为5%,预测数据为10626个。用结晶紫染色法评价该复配方式的抗生物性能,并将结果添加到原始数据集中,重复此过程,直到发现具有优异目标性能且该性能在迭代过程中无显著变化的D-氨基酸混合物。
根据步骤d的方法进行实验迭代,共有4种氨基酸混合物的性能优于原始数据集中的所有样本,如图4,混合物的复配方式如表1所示。最终在循环5-3中,最优混合物被成功发现,它由15%的D-酪氨酸,15%的D-色氨酸,60%的D-亮氨酸,10%的D-苯丙氨酸和0%的D-脯氨酸混合而成,具有目前已报道的最佳抗生物膜效率。
表1 D-氨基酸混合物预测结果表
e.对288种机器学习优化后的D-氨基酸混合物-抗生素药物组合的联合治疗可行性进行高通量筛选,筛选的结果用热图的方式呈现,如图5。在对12种抗生素的筛选中,β内酰胺酶类,氨基糖苷类,四环素类,大环内酯类等四类抗生素和D-氨基酸混合物相互协同,具备联合治疗的潜力。
实施例2
在实施例2中与实施例1的不同之处在于:在步骤a中,还可以将D-氨基酸及其混合物的最终浓度设定为500μm;步骤c中,高斯回归的模型精度最好,均方误差值为42.62;步骤d中,最优混合物由15%的D-酪氨酸,15%的D-色氨酸,55%的D-亮氨酸,10%的D-苯丙氨酸和5%的D-脯氨酸混合而成,具有目前已报道的最佳抗生物膜效率。
对机器学习优化后的D-氨基酸混合物-抗生素药物组合的细胞毒性进行高通量筛选,如图6a以及图6b。在对8种抗生素的筛选中,D-氨基酸混合物-庆大霉素的细胞毒性最低,具备联合治疗的潜力。
实施例3:
不同之处在于:步骤a中,还可以将D-氨基酸及其混合物的最终浓度设定为200μm;步骤c中,高斯回归的模型精度最好,均方误差值为45.25;步骤d中,步长设为2%,预测数据为316251个。
对机器学习优化后的D-氨基酸混合物-抗生素药物组合对铜绿假单胞菌及其生物膜的生长抑制率进行高通量筛选,对其中最具应用潜力的D-氨基酸混合物-庆大霉素药物组合进行全面的表征,如图7。200μm的D-氨基酸混合物和4mg/l的庆大霉素联合用药,可以在24h内杀灭90%以上的铜绿假单胞菌,可以抑制96%的生物膜形成。机器学习优化的D-氨基酸混合物释放了D-氨基酸的抗生物膜潜能,为低毒高效的药物组合提供了新的治疗可能性。
实施例4:
不同之处在于:步骤a 中,对这十种D-氨基酸在200μm浓度下对金黄色葡萄球菌的抗生物膜性能进行快速的评估,筛选出其中六种性能较好的,对其进行一元,二元,三元,四元,五元,六元混合,对混合物在最终浓度200μm的情况下的抗生物性能进行十轮高通量表征,得到约1500条数据;步骤c中,高斯回归的模型精度最好,均方误差值为46.98;步骤d中,步长设为10%,预测数据为2082个。
对机器学习优化后的D-氨基酸混合物-羧苄青霉素药物组合对金黄色葡萄球菌抗菌性能进行评估,评估结果用荧光共聚焦活死染色呈现,如图8a,8b。当表面暴露于药物组合时,由于缺乏有组织的生物膜结构,细菌高度分散,且视野里,活细菌数量急剧减少,死细菌数量显著增多。这是由于D-氨基酸混合物的引入,极大的抑制了生物膜的形成,在没有生物膜保护的情况下,细菌对抗生素的抵抗力大大降低,少量的抗生素就可以对细菌造成极佳的杀灭能力。D-氨基酸混合物-羧苄青霉素药物组合在不牺牲羧苄青霉素优异抗菌效果的前提下,大大减少了它的用量要求,解决了羧苄青霉素的细胞毒性问题,显著抑制了金黄色葡萄球菌的生长和生物膜的形成。
本发明实施例中,由于D-氨基酸是一种应用前景极佳的抗生物膜药物,但其发展受限于难以找到D-氨基酸混合物的最佳复配比例,从而释放它真正的应用潜能。传统的实验试错法成本极高,且无法在短时间内对上万种复配方式进行表征。本发明构建的高通量平台和机器学习策略相结合的设计方法,可以快速准确的创建机器学习原始数据集,并且通过贝叶斯优化算法,高效导航潜在空间的最优解,避免局部极值,在少量迭代次数的前提下,发现极佳的D-氨基酸复配方式。
使用高通量平台探索D-氨基酸-抗生素药物组合的联合治疗可行性,快速挖掘药物组合的联合行为(协同/拮抗),全面表征药物组合的应用前景,显著提高开发效率,有效降低研发成本,提供对科研,应用等方面的技术指导,为低毒高效的药物组合开发提供新思路。
图9据一示例性实施例示出的一种高通量平台和机器学习优化的药物组合设计装置框图。参照图9该装置300包括:
模型训练模块310,用于通过高通量平台构建机器学习初始训练数据集;通过训练数据集分别对预设的机器学习回归模型进行训练以及优化;
性能预测模块320,用于基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
配比优化模块330,用于以预期改善EI值为标准,对候选混合物进行优化,得到目标性能优异的混合物配比;
药物组合模块340,用于对优化后的候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,模型训练模块310,用于通过结晶紫染色法,对现有的具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能前五的D-氨基酸;
通过高通量平台对这五种D-氨基酸按不同配比组成的混合物的抗生物膜性能进行表征,将表征结果构建为初始训练数据集,对初始训练数据集进行归一化处理;
将初始训练数据集分别输入至六种机器学习回归模型进行训练,得到每个机器学习回归模型的均方误差值;
选取均方误差值最小的机器学习回归模型进行优化。
可选地,初始训练数据集包括:输入数据集和输出数据集;输入数据集为D-氨基酸混合物中各单元的配比,输出数据集为混合物的抗生物膜性能。
可选地,性能预测模块320,还用于通过统计推断法对每一种D-氨基酸混合物分别进行1000次预测,取预测均值作为最终性能预测值。
可选地,配比优化模块330,用于选取EI值最大的D-氨基酸组合方式作为实验迭代的候选配方,用实验的方法得到这些候选配方的真实值;
将候选配方的真实值添加到初始训练数据集中,对初始训练数据集进行扩充;
对扩充后的初始数据集重复执行性能预测以及初始训练数据集扩充,直到候选配方满足预设要求,得到目标性能优异的混合物配比。
可选地,预设要求包括:D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值,且真实值的变化趋势逐渐平缓。
可选地,药物组合模块340,用于利用高通量平台对铜绿假单胞菌的细菌耐药性进行筛选,筛选用到的不同浓度抗生素共有98种;
利用高通量平台对药物组合的抗菌性能进行筛选,筛选用到的药物组合方式共有288种;
利用高通量平台对药物组合的细胞毒性进行筛选,筛选用到的药物组合方式共有32种,最终筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
可选地,低毒高效的标准为:在24小时内,抗菌效率大于90%,细胞存活率大于95%。
本发明实施例中,提出了一种由高通量技术和机器学习算法相结合的创新方法,以快速和系统地识别治疗微生物感染的药物组合。在前人数据不足的情况下,利用高通量平台创建原始数据集,并通过机器学习模型和贝叶斯优化算法解锁药物复配比例-抗生物膜性能的复杂关系;此外,用高通量平台对药物组合的多项性能进行高效,低成本的筛选。本发明为高效低毒抗细菌感染的药物组合设计提供了新方法,显著提高了药物组合设计的效率,降低了开发成本。
图10本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述高通量平台和机器学习优化的药物组合设计方法的步骤:
S1:构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
S2:基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
S3:以预期改善EI值为标准,对所述候选混合物进行优化,得到目标性能优异的混合物配比,获得优化候选混合物;
S4:将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述高通量平台和机器学习优化的药物组合设计方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种高通量平台和机器学习优化的药物组合设计方法,其特征在于,包括以下步骤:
S1:构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
S2:基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
S3:以预期改善EI值为标准,对所述候选混合物进行优化,得到目标性能优异的混合物配比,获得优化候选混合物;
S4:将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型,包括:
S11:通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
S12:通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
S13:通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
S14:通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
3.根据权利要求2所述的方法,其特征在于,所述初始训练数据集包括:输入数据集和输出数据集;所述输入数据集为候选混合物中各单元的配比,所述输出数据集为候选混合物的抗生物膜性能。
4.根据权利要求2所述的方法,其特征在于,所述步骤S2还包括:
通过统计推断法对每一种候选混合物分别进行n次预测,其中,n≥1000,取预测均值作为性能预测值。
5.根据权利要求2所述的方法,其特征在于,所述步骤S3中,以预期改善EI值为标准,对所述候选混合物的混合物配比进行优化,获得优化候选混合物,包括:
S31:选取EI值最大的候选混合物的组合方式,作为实验迭代的候选配方,通过实验得到候选配方的真实值;
S32:将候选配方的真实值添加到初始训练数据集中,对初始训练数据集进行数据扩充;
S33:对扩充后的初始数据集重复执行S2-S32,直到候选配方满足预设要求,得到目标性能优异的混合物配比,获得优化候选混合物。
6.根据权利要求5所述的方法,其特征在于,所述预设要求包括:候选混合物的实验真实值低于初始训练数据集中的所有值。
7.根据权利要求5所述的方法,其特征在于,所述步骤S4中,将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计,包括:
S41:通过高通量平台,利用不同浓度的多种抗生素对细菌耐药性进行筛选,获得优化候选混合物与抗生素的药物组合;
S42:利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
8.根据权利要求7所述的方法,其特征在于,所述步骤S42中,所述低毒高效的标准为:在24小时内,药物组合的抗菌效率大于90%,细胞存活率大于95%。
9.一种高通量平台和机器学习优化的药物组合设计装置,其特征在于,所述装置适用于权利要求1-8中任意一项所述的方法,装置包括:
模型训练模块,用于构建用于机器学习的初始训练数据集,通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化,选取最优模型;
性能预测模块,用于确定最优模型中的算法,通过所述算法对候选混合物的抗生物膜性能进行预测,获得预期改善EI值;
配比优化模块,用于基于最优模型,通过全局优化算法EGO,对候选混合物的抗生物膜性能进行预测,得到候选混合物的性能预测值和预期改善EI值;
药物组合模块,用于将优化候选混合物与抗生素进行药物组合,将组合后的药物进行高通量的性能筛选,筛选出低毒高效的组合方式,完成高通量平台和机器学习优化的药物组合设计。
10.根据权利要求9所述的装置,其特征在于,模型训练模块,用于通过结晶紫染色法,对多个具有抗生物膜性能的D-氨基酸进行表征,筛选出表征性能结果前五的D-氨基酸;
通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物,对D-氨基酸混合物的抗生物膜性能进行表征,构建为初始训练数据集,对所述初始训练数据集进行归一化处理;其中,将不同配比的D-氨基酸混合物定义为候选混合物;
通过所述初始训练数据集对多个机器学习回归模型分别进行训练,得到每个机器学习回归模型的均方误差值;
通过10倍交叉验证对每个机器学习回归模型的超参数进行调优,选取均方误差值最小的机器学习回归模型作为最优模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210845111.7A CN114913939B (zh) | 2022-07-19 | 2022-07-19 | 高通量平台和机器学习优化的药物组合设计方法及装置 |
US17/978,472 US20240028916A1 (en) | 2022-07-19 | 2022-11-01 | Method And Device For Drug Combination Design By High-Throughput Platform And Machine Learning For Optimizing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210845111.7A CN114913939B (zh) | 2022-07-19 | 2022-07-19 | 高通量平台和机器学习优化的药物组合设计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114913939A true CN114913939A (zh) | 2022-08-16 |
CN114913939B CN114913939B (zh) | 2022-11-15 |
Family
ID=82772554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210845111.7A Active CN114913939B (zh) | 2022-07-19 | 2022-07-19 | 高通量平台和机器学习优化的药物组合设计方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240028916A1 (zh) |
CN (1) | CN114913939B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891238A (zh) * | 2024-03-13 | 2024-04-16 | 青岛科技大学 | 一种阻拦着舰装备中定长冲跑阀故障诊断方法 |
CN118155760A (zh) * | 2024-03-13 | 2024-06-07 | 镇江先锋植保科技有限公司 | 砜吡草唑和嘧硫草醚组合物的制备工艺及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118036293B (zh) * | 2024-02-06 | 2024-07-30 | 安徽工程大学 | 一种基于代理模型的抗cmas热障涂层材料开发方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105144190A (zh) * | 2013-01-31 | 2015-12-09 | 科德克希思公司 | 鉴定具有相互作用的组分的生物分子的方法、系统和软件 |
CN111052248A (zh) * | 2017-09-05 | 2020-04-21 | 自适应噬菌体治疗公司 | 细菌菌株对治疗组合物的敏感性谱的确定方法 |
CN112089702A (zh) * | 2020-09-11 | 2020-12-18 | 北京科技大学 | 基于纳米氮化钛和微胶囊的光热响应药物载体及制备方法 |
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
CN113461810A (zh) * | 2021-05-17 | 2021-10-01 | 深圳市福田区格物智康病原研究所 | 一种抗新型冠状病毒刺突蛋白的全人源单克隆抗体及其应用 |
CN113474840A (zh) * | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
-
2022
- 2022-07-19 CN CN202210845111.7A patent/CN114913939B/zh active Active
- 2022-11-01 US US17/978,472 patent/US20240028916A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105144190A (zh) * | 2013-01-31 | 2015-12-09 | 科德克希思公司 | 鉴定具有相互作用的组分的生物分子的方法、系统和软件 |
CN111052248A (zh) * | 2017-09-05 | 2020-04-21 | 自适应噬菌体治疗公司 | 细菌菌株对治疗组合物的敏感性谱的确定方法 |
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
CN113474840A (zh) * | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
CN112089702A (zh) * | 2020-09-11 | 2020-12-18 | 北京科技大学 | 基于纳米氮化钛和微胶囊的光热响应药物载体及制备方法 |
CN113461810A (zh) * | 2021-05-17 | 2021-10-01 | 深圳市福田区格物智康病原研究所 | 一种抗新型冠状病毒刺突蛋白的全人源单克隆抗体及其应用 |
Non-Patent Citations (1)
Title |
---|
潘林等: "解淀粉芽孢杆菌鉴定、育种及其抗细菌活性研究进展", 《高师理科学刊》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891238A (zh) * | 2024-03-13 | 2024-04-16 | 青岛科技大学 | 一种阻拦着舰装备中定长冲跑阀故障诊断方法 |
CN117891238B (zh) * | 2024-03-13 | 2024-05-28 | 青岛科技大学 | 一种阻拦着舰装备中定长冲跑阀故障诊断方法 |
CN118155760A (zh) * | 2024-03-13 | 2024-06-07 | 镇江先锋植保科技有限公司 | 砜吡草唑和嘧硫草醚组合物的制备工艺及系统 |
CN118155760B (zh) * | 2024-03-13 | 2024-10-22 | 镇江先锋植保科技有限公司 | 砜吡草唑和嘧硫草醚组合物的制备工艺及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114913939B (zh) | 2022-11-15 |
US20240028916A1 (en) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913939B (zh) | 高通量平台和机器学习优化的药物组合设计方法及装置 | |
Shukla et al. | An improved crystal violet assay for biofilm quantification in 96-well microtitre plate | |
Pabst et al. | Gel-entrapped Staphylococcus aureus bacteria as models of biofilm infection exhibit growth in dense aggregates, oxygen limitation, antibiotic tolerance, and heterogeneous gene expression | |
DE102010006450B4 (de) | Gestufte Suche nach Mikrobenspektren in Referenzbibiliotheken | |
Cooper et al. | Expression profiles reveal parallel evolution of epistatic interactions involving the CRP regulon in Escherichia coli | |
Krishnamurthi et al. | Microampere electric current causes bacterial membrane damage and two-way leakage in a short period of time | |
Chiarello et al. | Captive bottlenose dolphins and killer whales harbor a species-specific skin microbiota that varies among individuals | |
Meriggi et al. | Saccharomyces cerevisiae induces immune enhancing and shapes gut microbiota in social wasps | |
Van Bonn et al. | Aquarium microbiome response to ninety‐percent system water change: Clues to microbiome management | |
Becker et al. | Low-load pathogen spillover predicts shifts in skin microbiome and survival of a terrestrial-breeding amphibian | |
De Meester et al. | Genetic composition of resident populations influences establishment success of immigrant species | |
Kim et al. | In vitro antibacterial and antibiofilm effects of cold atmospheric microwave plasma against Pseudomonas aeruginosa causing canine skin and ear infections | |
Yang et al. | Artificial intelligence-accelerated high-throughput screening of antibiotic combinations on a microfluidic combinatorial droplet system | |
Lowman et al. | Equine sinusitis aetiology is linked to sinus microbiome by amplicon sequencing | |
Clausen et al. | Modeling complex measurement error in microbiome experiments | |
Ellison et al. | Longitudinal patterns in the skin microbiome of wild, individually marked frogs from the Sierra Nevada, California | |
Virendra et al. | Metagenomic analysis unravels novel taxonomic differences in the uterine microbiome between healthy mares and mares with endometritis | |
Martínez et al. | Identifying targets of selection in laboratory evolution experiments | |
Fischbach et al. | The next frontier of systems biology: higher-order and interspecies interactions | |
Lin et al. | Discovering novel antimicrobial peptides in generative adversarial network | |
Duffy et al. | A porcine model for the development and testing of preoperative skin preparations | |
Otto et al. | Interactions between pili affect the outcome of bacterial competition driven by the type VI secretion system | |
Tan et al. | Adage analysis of publicly available gene expression data collections illuminates pseudomonas aeruginosa-host interactions | |
Brown | BIGDATA: Small: DA: DCM: Low-memory streaming prefilters for biological sequencing data | |
US20120015834A1 (en) | Methods for artificial combinatorial control of biological systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |