JP2023525635A - Filtering Artificial Intelligence-Designed Molecules for Laboratory Testing - Google Patents

Filtering Artificial Intelligence-Designed Molecules for Laboratory Testing Download PDF

Info

Publication number
JP2023525635A
JP2023525635A JP2022557669A JP2022557669A JP2023525635A JP 2023525635 A JP2023525635 A JP 2023525635A JP 2022557669 A JP2022557669 A JP 2022557669A JP 2022557669 A JP2022557669 A JP 2022557669A JP 2023525635 A JP2023525635 A JP 2023525635A
Authority
JP
Japan
Prior art keywords
subset
candidate
computer
simulation
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022557669A
Other languages
Japanese (ja)
Inventor
ダス、ペイエル
シップシガン、フラヴィウ
ワドハーワン、カヒニ
パディー、インキット
ヴィジル、エナーラ
チェン、ピンユウ
モジシルコヴィッチ、アレクサンドラ
セルク、トム
ドス サントス、シセーロ ノグエリア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023525635A publication Critical patent/JP2023525635A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Toxicology (AREA)
  • Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • General Business, Economics & Management (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)

Abstract

ラボラトリ試験のための人工知能により設計された分子のフィルタリングラボラトリ思念のために人工知能(AI)設計分子をフィルタリングするための技術である。実施形態によれば、コンピュータ実装方法は、プロセッサに動作的に結合されたシステムにより、1つ又はそれ以上の分類器を使用するAI設計分子の分類に基づいて、候補医薬としてのAI設計分子のセットからAI設計分子の第1のサブセットを選択することを含むことができる。本方法は、システムにより、1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補医薬と、1つ又はそれ以上の生物学的ターゲットとの間の分子相互作用の評価に基づいて、ウェット・ラボラトリ試験のための前記候補医薬の第2のサブセットを選択することを含む。Filtering Artificial Intelligence-Designed Molecules for Laboratory Testing Techniques for filtering artificial intelligence (AI)-designed molecules for laboratory testing. According to embodiments, a computer-implemented method comprises classifying AI-designed molecules as candidate drugs by a system operatively coupled to a processor based on classification of the AI-designed molecules using one or more classifiers. Selecting a first subset of AI-designed molecules from the set can be included. The method comprises a system, using one or more computer simulations, based on evaluation of molecular interactions between the drug candidate and one or more biological targets. • Selecting a second subset of said candidate drugs for laboratory testing.

Description

本発明は、人工知能(AI)により設計された分子に関し、より詳細には、ラボラトリ試験のためAI設計分子をフィルタリングするための技術に関する。 The present invention relates to artificial intelligence (AI) designed molecules, and more particularly to techniques for filtering AI designed molecules for laboratory testing.

以下は、本開示の1つ又はそれ以上の実施形態の基本的な理解を提供するための概要を提示する。この要約は、キー要素又は重要な要素を特定すること、又は特定の実施形態の如何なる範囲又は請求の範囲の如何なる範囲を画定することを意図しない。その唯一の目的は、後に提示される、より詳細な説明のものを除外し、簡略化した形態において概念を提示することにある。本明細書において説明される1つ又はそれ以上の実施形態においては、ラボラトリ試験のためにAI設計分子をフィルタリングするためのデバイス、システム、コンピュータ実装方法、又はコンピュータ・プログラム製品、又はそれらの組み合わせが説明される。 The following presents a summary to provide a basic understanding of one or more embodiments of the disclosure. It is not intended to identify key or critical elements or to delineate any scope of particular embodiments or any scope of the claims. Its sole purpose is to present some concepts in a simplified form in order to preclude the more detailed description that is presented later. In one or more embodiments described herein, a device, system, computer-implemented method, or computer program product, or combinations thereof, for filtering AI-designed molecules for laboratory testing is explained.

実施形態によれば、コンピュータ実装方法は、プロセッサに動作的に結合されたシステムにより、1つ又はそれ以上の分類器を使用するAI設計分子の分類に基づいて、候補医薬としてのAI設計分子のセットから人工知能(AI)設計分子の第1のサブセットを選択することを含むことができる。本方法は、システムにより、1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補医薬と、1つ又はそれ以上の生物学的ターゲットとの間の分子相互作用の評価に基づいて、ウェット・ラボラトリ試験のための前記候補医薬の第2のサブセットを選択することを含む。 According to embodiments, a computer-implemented method comprises classifying AI-designed molecules as candidate drugs by a system operatively coupled to a processor based on classification of the AI-designed molecules using one or more classifiers. Selecting a first subset of artificial intelligence (AI) designed molecules from the set can be included. The method comprises a system, using one or more computer simulations, based on evaluation of molecular interactions between the drug candidate and one or more biological targets. • Selecting a second subset of said candidate drugs for laboratory testing.

いくつかの実装においては、前記1つ又はそれ以上の分類器は、前記AI設計分子の分子シーケンスに基づいて、人工知能(AI)設計分子が1つ又はそれ以上のターゲット医薬の定義された特徴を有するものか又は有しないものかとして分類する1つ又はそれ以上の機械学習モデルを含む。これらの実装について、前記第1のサブセットは、前記1つ又はそれ以上の定義された特徴を有する前記第1のサブセットに基づいて選択されることができる。前記第2のサブセットは、さらに前記1つ又はそれ以上のコンピュータ・シミュレーションにおける1つ又はそれ以上のターゲット分子相互作用の特徴を示す第2のサブセットに基づいて選択されることができる。 In some implementations, the one or more classifiers are based on the molecular sequence of the AI-designed molecule and the artificial intelligence (AI)-designed molecule identifies one or more defined characteristics of the target drug. contains one or more machine learning models that classify as having or not having For these implementations, the first subset can be selected based on the first subset having the one or more defined characteristics. The second subset can be selected further based on a second subset that characterizes one or more target molecule interactions in the one or more computer simulations.

1つ又はそれ以上の実施形態においては、前記候補医薬は、候補抗微生物薬を含むことができる。これらの実施形態について、前記分類は、前記システムにより人工知能(AI)設計分子が抗微生物性ペプチド(AMP)、ブロード・スペクトラムの抗微生物性、無毒性、又は有効性又は構造化されたことからなる群から選択される少なくとも1つ又はそれ以上の特徴を含むか否かを判断することを含む。本方法はさらに、前記システムにより、前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補抗微生物薬と、1つ又はそれ以上の病原体の脂質又は別の細胞成分を含むモデル脂質二重層と、力場との間の相互作用の傾向を評価することを含むことができ、ここで、前記第2のサブセットを選択することは、前記相互作用の傾向の定義されたレベルを示す前記第2のサブセットに基づいて、前記第2のサブセットを選択することを含む。 In one or more embodiments, the candidate medicament may comprise a candidate antimicrobial agent. For these embodiments, the classification is based on whether the artificial intelligence (AI) designed molecule was an antimicrobial peptide (AMP), broad spectrum antimicrobial, non-toxic, or effective or structured by the system. determining whether it includes at least one or more features selected from the group consisting of: The method further comprises using the one or more computer simulations to generate the candidate antimicrobial agent and one or more model lipid bilayers comprising one or more pathogen lipids or other cellular components, by the system. evaluating a propensity for interaction between the overlay and a force field, wherein selecting said second subset exhibits a defined level of propensity for said interaction; Selecting the second subset based on the second subset.

これらの実施形態のいくつかの実装においては、本方法はさらに、前記システムにより、初期コンピュータ・シミュレーションを使用して有効及び不活性のシーケンスを有するテスト・タンパクと、少なくとも1つの病原体のモデル脂質二重層又は別の細胞成分と、力場との間を相互作用させること、及び前記システムにより、前記初期コンピュータ・シミュレーションに基づいて、抗微生物活性に相関する前記モデル・バクテリアの二重層から導出される1つ又はそれ以上の特徴を選択することを含むことができる。本方法はさらに、前記システムにより、前記候補抗微生物薬が前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して決定されるような前記1つ又はそれ以上の特徴を示すか否かに基づいて、前記第2のサブセットに含ませる前記候補抗微生物薬を評価することを含む。 In some implementations of these embodiments, the method further comprises using the system to generate test proteins having active and inactive sequences and at least one pathogen model lipid molecule using initial computer simulations. interacting between the bilayer or another cellular component and a force field, and the system derives from the bilayer of the model bacteria that correlates with antimicrobial activity based on the initial computer simulations. It can include selecting one or more features. The method further comprises, by the system, based on whether the candidate antimicrobial exhibits the one or more characteristics as determined using the one or more computer simulations. , evaluating said candidate antimicrobial agents for inclusion in said second subset.

前記AI設計分子が抗微生物薬であることが意図される種々の実施形態においては、前記ウェット・ラボラトリ試験は:1つ又はそれ以上のグラム陽性バクテリア又は別のタイプの病原体に対して前記第2のサブセットを試験すること、1つ又はそれ以上のグラム陰性バクテリア又は別のタイプの病原体に対して前記第2のサブセットを試験すること、前記第2のサブセットの毒性をin-vitroで試験すること又は前記第2のサブセットの毒性をin-vivoで試験することを含むことができる。 In various embodiments in which the AI-designed molecule is intended to be an antimicrobial agent, the wet laboratory test is: against one or more Gram-positive bacteria or another type of pathogen; testing said second subset against one or more Gram-negative bacteria or another type of pathogen; testing said second subset for toxicity in-vitro or testing said second subset for toxicity in-vivo.

いくつかの実施形態においては、開示されたシステムに関連して説明された要素は、コンピュータ・システム、コンピュータ・プログラム製品又は別の形態といった異なる形態において実体化されることができる。 In some embodiments, the elements described in connection with the disclosed system may be embodied in different forms such as computer systems, computer program products or other forms.

図1は、1つ又はそれ以上の実施形態による人工知能(AI)設計された分子の候補をフィルタリングするための実施例のパイプラインのハイレベルのフロー図を示す。FIG. 1 depicts a high-level flow diagram of an example pipeline for filtering candidate artificial intelligence (AI)-designed molecules according to one or more embodiments. 図2は、1つ又はそれ以上の実施形態によるウェット・ラボラトリ試験のためにAI設計分子のフィルタリングを容易にする実施例の、非限定的なシステム200のブロック図を示す。FIG. 2 illustrates a block diagram of an example, non-limiting system 200 that facilitates filtering AI-designed molecules for wet laboratory testing in accordance with one or more embodiments. 図3Aは、1つ又はそれ以上の実施形態によるヒューリスティックスス・ベースなスクリーニング・コンポーネントの実施例のブロック図を示す。FIG. 3A shows a block diagram of an example of a heuristics-based screening component according to one or more embodiments. 図3Bは、1つ又はそれ以上の実施形態によるヒューリスティックス・ベースなスクリーニング・コンポーネントの実施例のブロック図を示す。FIG. 3B illustrates a block diagram of an example heuristics-based screening component in accordance with one or more embodiments. 図4は、1つ又はそれ以上の実施形態による候補抗微生物性ペプチド(antimicrobial peptides:AMPs)についての実施例のヒューリスティックス分類の結果を示すテーブルを提供する。FIG. 4 provides a table showing example heuristic classification results for candidate antimicrobial peptides (AMPs) according to one or more embodiments. 図5Aは、1つ又はそれ以上の実施形態によるシミュレーション・ベースのスクリーニング・コンポーネントの実施例のブロック図を示す。FIG. 5A shows a block diagram of an example simulation-based screening component in accordance with one or more embodiments. 図5Bは、1つ又はそれ以上の実施形態によるシミュレーション・ベースのスクリーニング・コンポーネントの実施例のブロック図を示す。FIG. 5B shows a block diagram of an example simulation-based screening component in accordance with one or more embodiments. 図6は、1つ又はそれ以上の実施形態によるAMPの粗視化分子動力学シミュレーションのスナップショットを提供する。FIG. 6 provides a snapshot of a coarse-grained molecular dynamics simulation of AMPs according to one or more embodiments. 図7は、1つ又はそれ以上の実施形態による候補AMPsについての実施例のシミュレーション結果を示すテーブルを提供する。FIG. 7 provides a table showing example simulation results for candidate AMPs according to one or more embodiments. 図8は、1つ又はそれ以上の実施形態による混同行列の実施例を示す。FIG. 8 shows an example of a confusion matrix in accordance with one or more embodiments. 図9は、1つ又はそれ以上の実施形態によるラボラトリ試験のためにAI設計分子をフィルタリングするための、実施例で非限定的なコンピュータ実装方法のハイレベルのフロー図を示す。FIG. 9 illustrates a high-level flow diagram of an example, non-limiting, computer-implemented method for filtering AI-designed molecules for laboratory testing according to one or more embodiments. 図10は、1つ又はそれ以上の実施形態によるラボラトリ試験のために候補のAI設計された抗微生物性分子をフィルタリングするための実施例で非限定的なコンピュータ実装方法のハイレベルのフロー図を示す。FIG. 10 depicts a high-level flow diagram of an example, non-limiting, computer-implemented method for filtering candidate AI-designed antimicrobial molecules for laboratory testing according to one or more embodiments. show. 図11は、開示されたフィルタリング技術を使用する、約100,000のAI設計された候補ペプチドのセットから識別された候補AMPsのトップ20について、実際のシミュレーション結果を示すテーブルを提供する。FIG. 11 provides a table showing actual simulation results for the top 20 candidate AMPs identified from a set of approximately 100,000 AI-designed candidate peptides using the disclosed filtering technique. 図12は、本明細書において説明された1つ又はそれ以上の実施形態を容易にすることができる実施例で非限定的な動作環境のブロック図を示す。FIG. 12 illustrates a block diagram of an example, non-limiting operating environment that can facilitate one or more embodiments described herein.

以下の詳細な説明は、単なる例示であり、かつ実施形態の限定、又は用途、又はそれら両方、又は実施形態の使用を限定することを意図しない。さらに、先行する技術分野、又は発明の概要のセクション、又は発明の詳細な説明内に提示された、明示的又は暗示的な情報に結び付ける意図はない。 The following detailed description is merely exemplary and is not intended to limit the embodiments, or the applications, or both, or the uses of the embodiments. Furthermore, there is no intention to bind any information, either expressed or implied, presented in the prior art or summary section or detailed description of the invention.

機械学習(ML)及び人工知能(AI)は、新規な分子設計、具体的には新規な医薬品を設計することについてますます使用されてきた。しかしながら、新規な医薬品を発見するためにML/AIを使用する場合、多くの問題がある。例えば、バランスのとれていない分類及びノイジー又は粗なラベル又はそれらの両方のために、多くのML/AI分子設計技術は、ウェット・ラボラトリ実験を使用して合理的に評価をするには多すぎる候補を生成する。例えば、いくつかのML/AI分子設計方法は、数千~数十万の候補を生成することができる。現在では、ウェット・ラボラトリ環境において単一の候補を合成し、かつ試験するための最小のコストは、3~5000ドルの間にある。加えて、ウェットlabにおいてたった20の候補を合成し、テストするための平均的時間は、約1月である。したがって、新規な医薬品及び他の新規な分子をML及びAIを使用して開発することは、この高い費用及び時間を浪費するパイプラインにより顕著に妨げられている。 Machine learning (ML) and artificial intelligence (AI) have been increasingly used for designing new molecules, specifically new pharmaceuticals. However, there are many problems when using ML/AI to discover new drugs. For example, due to unbalanced classification and noisy or coarse labeling or both, many ML/AI molecular design techniques are too numerous to be reasonably evaluated using wet laboratory experiments. Generate candidates. For example, some ML/AI molecular design methods can generate thousands to hundreds of thousands of candidates. Currently, the minimum cost to synthesize and test a single candidate in a wet laboratory environment is between $3-5000. Additionally, the average time to synthesize and test only 20 candidates in the wet lab is approximately one month. Therefore, the development of new pharmaceuticals and other novel molecules using ML and AI is significantly hampered by this high cost and time-consuming pipeline.

開示される主題は、ウェット・ラボラトリ試験のためにAI設計分子を効率的にフィルタリングするためのシステム、コンピュータ実装方法又はコンピュータ・プログラム製品を指向する。AI設計分子は、非医薬品使用のために設計された新規な分子に加えて、種々のターゲット・クラスのため特定の特性を有する種々のタイプの医薬品を含むことができる。開示される技術は、ウェット・ラボラトリ試験のために利用可能な候補の数を顕著に減少させるために使用されることができる(例えば、約100,000候補から約20候補まで)と共に、またウェット・ラボラトリ試験における相対的に高い成功率を保証する(例えば少なくとも10%の成功率)。1つ又はそれ以上の実施形態においては、フィルタリング・プロセスは、ヒューリスティックス・ベースのスクリーニング・プロセス及びその後のコンピュータ・シミュレーション・スクリーニング・プロセスを含む。 The disclosed subject matter is directed to systems, computer-implemented methods, or computer program products for efficiently filtering AI-designed molecules for wet laboratory testing. AI-designed molecules can include novel molecules designed for non-pharmaceutical use, as well as different types of drugs with specific properties for different target classes. The disclosed techniques can be used to significantly reduce the number of candidates available for wet laboratory testing (eg, from about 100,000 candidates to about 20 candidates), as well as wet • Ensuring a relatively high success rate in laboratory trials (eg at least 10% success rate). In one or more embodiments, the filtering process includes a heuristics-based screening process followed by a computer simulation screening process.

1つ又はそれ以上の実施形態においては、ヒューリスティックス・ベースのスクリーニング・プロセスは、1つ又はそれ以上の分類モデル/アルゴリズム(又は本明細書においては“分類器”として参照される)を開発すること又は適用すること又はそれらの両方を含み、初期候補のそれぞれ(又はいくつかの実装においては1つ又はそれ以上)が1つ又はそれ以上の定義されたターゲット特徴(すなわち、関心のある特徴)を有するか否かを、それらのそれぞれの分子シーケンス(例えば、タンパク・シーケンス、遺伝子/核酸シーケンス、ポリマー・シーケンスなど)の分析に基づいて、決定又は推定する。1つ又はそれ以上の定義されたターゲット特徴は、それぞれの候補の意図する使用又は目的に基づいて選択され、したがって変化することができる。例えば、新規な医薬品としてAI設計分子について、1つ又はそれ以上のターゲット特徴は、分子の所望される生物学的活性に基づいて選択されることができる。この点において、いくつかの実施形態においては、候補は、抗微生物薬として使用するためのAI設計ペプチドを含むことができる。これらの実施形態とともに、1つ又はそれ以上の定義された特徴は、(これらに限定されないが)、抗微生物性ペプチド(AMPs)、ブロード・スペクトラムの抗微生物性、低又は無毒性、高い有効性を有するか又は有しないか、及び定義された構造(例えば、らせん構造、プリーツ・シート構造、コイル構造など)の定義された構造を有することを含むことができる。この点において、1つ又はそれ以上の分類器は、それらのそれぞれの分子シーケンスに基づいて、候補AI設計分子の大きな初期セットをフィルタして、定義された特徴の1つ又はそれ以上を有することを識別、又は推定することができる。ヒューリスティックス・ベースのスクリーニング・プロセスに基づいて選択される候補サブセットは、一般に本明細書において、“第1のサブセット”として参照されるとともに、1つ又はそれ以上の候補を含むことができる。第1のサブセットに含まれる候補の数は、フィルタ基準を適用することによって適切に設定することができる(例えば、要求される定義された特徴の数、要求される特徴の組み合わせ、特徴を示すレベルを示す値、分類推定における信頼度を示す値について)。 In one or more embodiments, the heuristics-based screening process involves developing one or more classification models/algorithms (or referred to herein as "classifiers"). or applying or both, wherein each of the initial candidates (or in some implementations one or more) identifies one or more defined target features (i.e. features of interest) determined or inferred based on analysis of their respective molecular sequences (eg, protein sequences, gene/nucleic acid sequences, polymer sequences, etc.). One or more defined target features are selected based on each candidate's intended use or purpose, and can vary accordingly. For example, for AI-designed molecules as novel pharmaceuticals, one or more target features can be selected based on the desired biological activity of the molecule. In this regard, in some embodiments, candidates can include AI-designed peptides for use as antimicrobial agents. Along with these embodiments, one or more defined characteristics include (but are not limited to) antimicrobial peptides (AMPs), broad spectrum antimicrobial properties, low or no toxicity, high efficacy and having a defined structure (eg, a helical structure, a pleated sheet structure, a coil structure, etc.). In this regard, one or more classifiers filter a large initial set of candidate AI design molecules based on their respective molecular sequences to have one or more of the defined features. can be identified or estimated. A candidate subset selected based on a heuristics-based screening process is generally referred to herein as a "first subset" and may include one or more candidates. The number of candidates to be included in the first subset can be set appropriately by applying filter criteria (e.g. number of defined features required, combination of features required, level indicating features for the value that indicates the confidence in the classification estimate).

コンピュータ・シミュレーション・スクリーニング・プロセスは、コンピュータ・シミュレーションを使用して第1のサブセットに含まれる候補の分子物理を評価し、第1のサブセットを、ウェット・ラボラトリ試験のために推奨される1つ又はそれ以上のリード候補のいっそう小さなサブセットへとさらにリファインする。候補の、このより小さなサブセットは、一般に本明細書において候補の“第2のサブセット”として参照される。種々の実施形態においては、第2のサブセットに含まれる候補は、さらに合成され、かつウェット・ラボラトリ試験を使用して評価される。 The computer simulation screening process uses computer simulations to evaluate the molecular physics of the candidates in the first subset, and classifies the first subset as one or more recommended for wet laboratory testing. Further refine to a smaller subset of further lead candidates. This smaller subset of candidates is generally referred to herein as a "second subset" of candidates. In various embodiments, candidates in the second subset are further synthesized and evaluated using wet laboratory testing.

1つ又はそれ以上の実施形態においては、コンピュータ・シミュレーション・プロセスは、第1のサブセットに含まれるそれぞれの候補と、1つ又はそれ以上の分子又は生物学的ターゲット(例えば病原体の1つ又はそれ以上の細胞成分)又はそれらの組み合わせとの間の分子相互作用をシミュレートするための、高スループットのコンピュータ・シミュレーションを使用することを含む。シミュレーションされた分子相互作用は、関心のある1つ又はそれ以上の挙動的特性(すなわち、ターゲット特性)を示す1つ又はそれ以上の候補を識別するために使用されることができる。例えば、候補がAMPsの場合のいくつかの実施形態において、高スループットのコンピュータ・シミュレータは、第1のサブセット内に含まれる候補ペプチドを評価して、病原体の1つ又はそれ以上の細胞成分(脂質二重層及び他の細胞成分)との矛盾のない相互作用の傾向を示す、1つ又はそれ以上のこれらの候補を識別すると共に選択することができる。 In one or more embodiments, the computer simulation process compares each candidate included in the first subset with one or more molecular or biological targets (e.g., one or more of pathogens). and using high-throughput computer simulations to simulate molecular interactions between (the above cellular components) or combinations thereof. Simulated molecular interactions can be used to identify one or more candidates exhibiting one or more behavioral properties (ie, target properties) of interest. For example, in some embodiments where the candidates are AMPs, a high-throughput computer simulator evaluates candidate peptides contained within the first subset to evaluate one or more cellular components of the pathogen (lipid One or more of these candidates that show a propensity for consistent interaction with the bilayer and other cellular components) can be identified and selected.

いくつかの実施形態においては、高スループットのコンピュータ・シミュレーションをトレーニングすることは、AI設計分子のターゲット活性(例えば、AI設計分子が医薬品である実装においては、所望する生物学的活性)を達成することについて有効と知られているテスト分子、及び任意的に効果が無いと知られている分子を含むテスト分子について実行されて、ターゲット活性を達成することについての有効性に相関する1つ又はそれ以上の挙動的特性を識別することができる。これらの1つ又はそれ以上の挙動的特性は、1つ又はそれ以上のターゲット特性として使用される。コンピュータ・シミュレーションは、その後、未知シーケンス、すなわち第1のサブセットに含まれる候補分子のシーケンスについて動作されて、これらの候補分子が1つ又はそれ以上のターゲット特性を示すか否か(及びいくつかの実装においてはどの程度か)が判断される。1つ又はそれ以上のターゲット特性の高い傾向を示す1つ又はそれ以上のこれらの候補分子はその後、テストされるか又はウェット・ラボラトリ実験を使用する試験に推奨されるか又はこれらの両方がなされる。 In some embodiments, training a high-throughput computer simulation achieves a target activity of an AI-designed molecule (e.g., a desired biological activity in implementations where the AI-designed molecule is a pharmaceutical). one or more tests performed on test molecules known to be effective for and optionally including molecules known to be ineffective to correlate effectiveness for achieving a target activity. The above behavioral characteristics can be identified. These one or more behavioral characteristics are used as one or more target characteristics. A computer simulation is then run on the unknown sequences, ie sequences of candidate molecules contained in the first subset, to determine whether these candidate molecules exhibit one or more target properties (and some to what extent in implementation) is determined. One or more of these candidate molecules showing a high propensity for one or more of the target properties are then tested and/or recommended for testing using wet laboratory experiments. be.

開示されるスクリーニング技術は、種々の候補についての約100,000のAI設計されたAMPsのスクリーニングに適用された場合について、実験的に確認された。この点において、100,000の候補ペプチドの初期セットは、開示されたヒューリスティックス・ベースのスクリーニング・プロセスを使用して163の候補ペプチドに削減された。この163の候補ペプチドは、その後、コンピュータ・シミュレーションにしたがってシミュレーションされて、細胞膜結合の傾向について試験し、このことがコンピュータ・シミュレーションにおいて高く、かつ矛盾しない細胞膜結合活性を示す20のリード候補ペプチドの識別をもたらした。この20のリード候補ペプチドは、その後、合成され、抗微生物活性及び毒性についてウェット・ラボラトリ実験を使用してテストされた。これらの20のリード・ペプチドのうち、2つの最終的なリードAIペプチド設計されたペプチドが識別された。これらの2つの最終的なリードAI設計ペプチドは、強いブロード・スペクトラムの抗微生物活性及びin-vitro及びin-vivoでの低毒性を有することが実験的に確認された。これらの新規なAMPsの両方は、初期候補ペプチドを設計するために使用された教師ありトレーニング・データ内に存在しなかった。これらの実験は、AI生成されたAMPシーケンスに対する開示された3ステージのスクリーニング・パイプライン(例えば、ヒューリスティックス・スクリーニング、シミュレーション・スクリーニング及びウェット・ラボラトリ・スクリーニング)が、最終ステージで10のうち1の成功率を得ることを示す。 The disclosed screening techniques were experimentally validated when applied to screen approximately 100,000 AI-designed AMPs for a variety of candidates. In this regard, the initial set of 100,000 candidate peptides was reduced to 163 candidate peptides using the disclosed heuristics-based screening process. The 163 candidate peptides were then simulated according to computer simulations and tested for cell membrane binding propensity, which identified 20 lead candidate peptides that showed high and consistent cell membrane binding activity in the computer simulations. brought The 20 lead candidate peptides were then synthesized and tested for antimicrobial activity and toxicity using wet laboratory experiments. Of these 20 lead peptides, two final lead AI peptide designed peptides were identified. These two final lead AI-designed peptides were experimentally confirmed to have strong broad-spectrum antimicrobial activity and low in-vitro and in-vivo toxicity. Both of these novel AMPs were absent in the supervised training data used to design the initial candidate peptides. These experiments demonstrate that the disclosed three-stage screening pipeline (e.g., heuristics screening, simulation screening, and wet laboratory screening) against AI-generated AMP sequences yields 1 out of 10 successes in the final stage. Indicates to get the rate.

本明細書で使用されるように用語“AI設計分子”は、1つ又はそれ以上の機械学習(ML)又は人工知能(AI)又はそれらの両方を使用して設計、生成又はそうでなければ開発された分子を参照する。開示されたAI設計分子は、生物学的分子(例えば、天然及び再結合ペプチド、タンパク、バイオポリマー、核酸、ポリサッカライド、抗体、ホルモンなど)、合成分子、バイオ医薬品(又は“生物調剤”)、及びそれらの組み合わせを含むことができる。開示されたAI設計分子は、有機化合物、無機化合物、組成物、有機金属化合物、又はそれらの組み合わせを含むことができる。 As used herein, the term "AI-designed molecule" refers to one or more of machine learning (ML) or artificial intelligence (AI) or both designed, generated or otherwise Browse developed molecules. The disclosed AI-designed molecules include biological molecules (e.g., natural and recombinant peptides, proteins, biopolymers, nucleic acids, polysaccharides, antibodies, hormones, etc.), synthetic molecules, biopharmaceuticals (or "biopharmaceuticals"), and combinations thereof. The disclosed AI-designed molecules can comprise organic compounds, inorganic compounds, compositions, organometallic compounds, or combinations thereof.

本明細書で使用される用語“ペプチド”は、典型的には2~約50残基の範囲のアミノ酸残基のポリマーを参照する。ある実施形態においては、本明細書で開示されるAI設計ペプチドは、約2~25残基の長さの範囲である。いくつかの実施形態においては、ペプチドを含むアミノ酸残基は、“L-型”アミノ酸残基を含むが、しかしながら、種々の実施形態において、“D”アミノ酸がペプチドに含まれることができることについて認識される。ペプチドはまた、アミノ酸ポリマーを含み、そこにおいて、1つ又はそれ以上のアミノ酸残基は、天然に発生するアミノ酸ポリマーに加えて、対応する天然に発生したアミノ酸に対応する人工的な化学的類似体である。 The term "peptide" as used herein refers to a polymer of amino acid residues typically ranging from 2 to about 50 residues. In certain embodiments, the AI-designed peptides disclosed herein range in length from about 2-25 residues. In some embodiments, amino acid residues comprising peptides include "L-form" amino acid residues, however, it is recognized that in various embodiments, "D" amino acids can be included in peptides. be done. Peptides also include amino acid polymers wherein one or more amino acid residues are naturally occurring amino acid polymers, as well as artificial chemical analogues corresponding to the corresponding naturally occurring amino acids. is.

本明細書で使用されるように、用語“合成”ペプチド又は合成AMPは、ホストが誘導したことと対比的に、化学的に合成されたペプチドを参照するために使用される。
本明細書で使用されるように、用語“残基”は、天然、合成、又は修飾アミノ酸を参照する。種々のアミノ酸類似体は、これらに限定されないが、2-アミノアジピン酸、3-アミノアジピン酸、β-アラニン(β-アミノプロピオン酸)、2-アミノ酪酸、4-アミノ酪酸、ピペリジン酸、6-アミノカプロン酸、2-アミノヘプタン酸、2-アミノイソ酪酸、3-アミノイソ酪酸、2-アミノピメリン酸、2,4ジアミノ酪酸、デスモシン、2,2’-ジアミノピメリン酸、2,3-ジアミノプロピオン酸、n-エチルグリシン、n-エチルアスパラギン、ヒドロキシリジン、アロヒドロキシリジン、3-ヒドロキシプロリン、4 -ヒドロキシプロリン、イソデスモシン、アロイソロイシン、n-メチルグリシン、サルコシン、n-メチルイソロイシン、6-n-メチルリジン、n-メチルバリン、ノルバリン、ノルロイシン、オルニチンなどを含む。これらの修飾アミノ酸は、例示的であり、限定を意図しない。
As used herein, the term “synthetic” peptide or synthetic AMP is used to refer to peptides that are chemically synthesized as opposed to being host-derived.
As used herein, the term "residue" refers to natural, synthetic, or modified amino acids. Various amino acid analogs include, but are not limited to, 2-aminoadipic acid, 3-aminoadipic acid, β-alanine (β-aminopropionic acid), 2-aminobutyric acid, 4-aminobutyric acid, piperidic acid, 6 -aminocaproic acid, 2-aminoheptanoic acid, 2-aminoisobutyric acid, 3-aminoisobutyric acid, 2-aminopimelic acid, 2,4-diaminobutyric acid, desmosine, 2,2'-diaminopimelic acid, 2,3-diaminopropionic acid, n -ethylglycine, n-ethylasparagine, hydroxylysine, allohydroxylysine, 3-hydroxyproline, 4-hydroxyproline, isodesmosine, alloisoleucine, n-methylglycine, sarcosine, n-methylisoleucine, 6-n-methyllysine, n - Including methylvaline, norvaline, norleucine, ornithine, etc. These modified amino acids are exemplary and not intended to be limiting.

本明細書でペプチドについ適用される “従来”の及び“天然の”は、天然に発生するアミノ酸:Ala、Cys、Asp、Glu、Phe、Gly、His、Ile、Lys、Leu、Met、Asn、Pro、Gln、Arg、Ser、Thr、Val、Trp、及び Tyrからのみ構成されるペプチドを参照する。種々の実施形態において、開示されたAI設計ペプチドは、天然アミノ酸残基のみを含む。いくつかの実施形態においては、開示されたAI設計分子は、対応する天然のアミノ酸の合成又は修飾アミノ酸1つ又はそれ以上を置換することができる。本発明の化合物は、もしもそれが天然に発生するペプチドの生物学的活性又は特異性又はそれらの両方に関連する生物学的活性(例えば抗微生物活性)を誘導するのであれば、天然ペプチドに“対応する”。誘導された活性は、天然ペプチドのそれに対して同一、より高く、又はより低くなる可能性がある。一般に、そのようなペプチドは、本質的に対応するモノマー・シーケンスを有するであろうし、ここで、もしもN-置換グリシン誘導体が親水性、親油性、極性などにおいて元のアミノ酸に類似するのであれば、天然アミノ酸は、N-置換グリシン誘導体によって置換される。 "Conventional" and "natural" as applied herein to peptides refer to the naturally occurring amino acids: Ala, Cys, Asp, Glu, Phe, Gly, His, Ile, Lys, Leu, Met, Asn, Reference is made to peptides composed only of Pro, Gln, Arg, Ser, Thr, Val, Trp, and Tyr. In various embodiments, the disclosed AI-designed peptides comprise only natural amino acid residues. In some embodiments, the disclosed AI-designed molecules can substitute one or more synthetic or modified amino acids for the corresponding naturally occurring amino acids. A compound of the present invention is a "natural peptide" if it induces a biological activity (e.g., antimicrobial activity) associated with the biological activity or specificity of the naturally occurring peptide, or both. handle". The induced activity may be the same, higher or lower than that of the native peptide. Generally, such peptides will have essentially corresponding monomer sequences, where if the N-substituted glycine derivative resembles the parent amino acid in hydrophilicity, lipophilicity, polarity, etc. , the natural amino acid is replaced by an N-substituted glycine derivative.

ある実施形態においては、本明細書で説明されるシーケンスのいかなるものと少なくとも80%、少なくとも85%又は90%、及びより好ましくは少なくとも95%又は98%のシーケンス同一性を有するAMPsがまた想定される。用語“同一”又はパーセント“同一性”は、以下のシーケンス比較アルゴリズム又は視覚的検査の1つを使用して測定されるような最大コレンスポンデンスについて比較及びアラインされた場合に、アミノ酸残基が同一であるか、又は同一のアミノ酸残基が特定的のパーセンテイジを有する、2つ又はそれ以上のシーケンスを参照する。本明細書で開示されたペプチドについて、シーケンスの同一性は、ペプチドの全長さにわたって判断される。シーケンス比較について、典型的には1つのシーケンスは、参照シーケンスとして働き、それに対してテスト・シーケンスが比較される。シーケンス比較アルゴリズムを使用する場合、テスト及び参照シーケンスは、コンピュータに入力され、もしも必要であればサブシーケンス・コーディネートが指定され、かつシーケンス・アルゴリズム・プログラムのパラメータが指定される。シーケンス比較アルゴリズムはその後、指定されたプログラム・パラメータに基づいて参照シーケンスに相対してテスト・シーケンス(複数でもよい)についてのパーセント・シーケンス同一性を計算する。比較のためのシーケンスの最適なアライメントは、ベーシック・ローカル・アライメント・サーチ・ツール(basic local alignment search tool:BLAST)などを使用して行われることができる。 Also contemplated in certain embodiments are AMPs that have at least 80%, at least 85% or 90%, and more preferably at least 95% or 98% sequence identity with any of the sequences described herein. be. The terms "identical" or percent "identity" refer to amino acid residues when compared and aligned for maximum correspondence as determined using one of the following sequence comparison algorithms or visual inspection: Reference is made to two or more sequences that are identical or have a specified percentage of identical amino acid residues. For peptides disclosed herein, sequence identity is determined over the entire length of the peptide. For sequence comparison, typically one sequence acts as a reference sequence against which test sequences are compared. When using a sequence comparison algorithm, test and reference sequences are entered into a computer, subsequence coordinates are specified if necessary, and sequence algorithm program parameters are specified. The sequence comparison algorithm then calculates percent sequence identities for the test sequence(s) relative to the reference sequence based on specified program parameters. Optimal alignment of sequences for comparison can be performed using a basic local alignment search tool (BLAST) or the like.

用語“特異性”は、ペプチドの抗微生物活性について使用される場合、ペプチドが他の関連する種に比較して成長、又は分芽増殖又はこれらの両方を好ましく阻害するか、又は特定の微生物種を殺すか、又はこれらの組みあわせをすることを示す。ある実施形態においては、好ましい阻害又は根絶とは、少なくとも10%より大きく(例えばLD50が10%を下回る)、好ましくは、20%、30%、40%、又は50%であるか、よりし好ましくは、ターゲット種について少なくとも2倍、少なくとも5倍、又は少なくとも10倍である。 The term "specificity" when used in reference to the antimicrobial activity of a peptide indicates whether the peptide preferentially inhibits growth or mitotic proliferation or both relative to other related species, or a combination of these. In certain embodiments, preferred inhibition or eradication is at least greater than 10% (e.g., LD50 below 10%), preferably 20%, 30%, 40%, or 50%, or more preferably is at least 2-fold, at least 5-fold, or at least 10-fold for the target species.

本明細書で使用される病気の“処置”又は“治療”は、病気を防止すること、病気の進行のオンセット又は速度を遅延すること、病気の進行のリスクを低下させること、病気に伴う症状の進行を防止するか又は遅延すること、病気に伴う症状を軽減するか又は終わらせること、病気の完全な又は部分的な回復を生じさせること、又はこれらのいくつかの組みあわせを参照する。 As used herein, "treatment" or "treatment" of a disease includes preventing the disease, slowing the onset or rate of progression of the disease, reducing the risk of progression of the disease, Refers to preventing or slowing the progression of symptoms, relieving or ending symptoms associated with the disease, producing complete or partial recovery from the disease, or some combination thereof .

抗微生物的な活性又は有効性又はこれらの両方について使用される用語“高”は、本明細書において、抗微生物薬(例えばAMPなど)の抗微生物活性のレベルが、特定のバクテリア生物についての抗微生物活性又は有効性が定義された最小閾値を超えて大きいことを示すために使用される。種々の実施形態において、最小閾値は、そのMIC、そのLD50濃度/又はHC50濃度に基づくことができ、ここにおいて、濃度を低下することは、抗微生物活性又は有効性又はそれらの両方を高める。例えば、いくつかの実施形態において、抗微生物薬は、もしもそのMICが250マイクログラム・パー・ミリリットル(μg/mL)未満、より好ましくは150μg/mL)未満、より好ましくは100μg未満、より好ましくは、50μg、及びさらに好ましくは30μg/mL未満であれば、高い抗微生物活性又は有効性又はそれらの両方を有すると考えることができる。 The term "high," as used herein with respect to antimicrobial activity or efficacy, or both, means that the level of antimicrobial activity of an antimicrobial agent (e.g., AMP, etc.) is effective against a particular bacterial organism. Used to indicate that microbial activity or efficacy is greater than a defined minimum threshold. In various embodiments, the minimum threshold can be based on its MIC, its LD50 concentration/or HC50 concentration, wherein decreasing concentration increases antimicrobial activity or efficacy or both. For example, in some embodiments, the antimicrobial agent has a MIC of less than 250 micrograms per milliliter (μg/mL), more preferably less than 150 μg/mL), more preferably less than 100 μg, more preferably , 50 μg, and more preferably less than 30 μg/mL can be considered to have high antimicrobial activity or efficacy or both.

用語“低毒性”は、本明細書において、毒性の定義された許容可能な閾値未満である薬物の毒性のいかなるレベルを示す(例えば、1つ又はそれ以上のAMPs又は別の活性薬剤)。種々の実施形態においては、定義された閾値は、そのLD50又はHC50濃度又はそれらの両方に対する薬物のMICに基づくことができる。いくつかの実装において、薬物(例えば、AMP又は1つ又はそれ以上のAMPsを含む組成物)は、もしもそのMICが、そのLD50又はHC50濃度又はそれらの両方よりも低いのであれば低毒性を有するものと考えることができる。他の実装においては、薬物は、もしもそのMICがLD50又はHC50濃度又はそれらの両方の60%以下であるならば、低毒性と考えることができる。他の実装においては、薬物は、もしもそのMICがLD50又はHC50濃度又はそれらの両方の50%以下であるならば、低毒性と考えることができる。他の実装においては、薬物は、もしもそのMICがLD50又はHC50濃度又はそれらの両方の30%以下であるならば、低毒性と考えることができる。他の実装においては、薬物は、もしもそのMICがLD50又はHC50濃度又はそれらの両方の25%以下であるならば、低毒性と考えることができる。 The term "low toxicity" as used herein refers to any level of toxicity of a drug (eg, one or more AMPs or another active agent) that is below a defined acceptable threshold of toxicity. In various embodiments, the defined threshold can be based on the drug's MIC for its LD50 or HC50 concentration or both. In some implementations, a drug (e.g., AMP or a composition comprising one or more AMPs) has low toxicity if its MIC is lower than its LD50 or HC50 concentration or both. can be thought of as In other implementations, a drug can be considered of low toxicity if its MIC is 60% or less of the LD50 or HC50 concentration or both. In other implementations, a drug can be considered of low toxicity if its MIC is 50% or less of the LD50 or HC50 concentration or both. In other implementations, a drug can be considered of low toxicity if its MIC is 30% or less of the LD50 or HC50 concentration or both. In other implementations, a drug can be considered of low toxicity if its MIC is 25% or less of the LD50 or HC50 concentration or both.

開示される主題の種々の実施形態は、新規な医薬品(又はそうであることを意図する)であるAI設計分子、及びより具体的にはAI設計されたAMPsを評価することについて例示される。しかしながら、開示されるAI設計分子のフィルタリング技術は、非医薬的使用のために設計される新規な分子に加え、種々のターゲット・クラス(抗ウィルス薬、抗悪性腫瘍薬、治療薬、抗悪性腫瘍薬など)のための特定の特性を有する種々の医薬品を評価するために使用することができることが認識されるべきである。用語“医薬品”、“医薬”、“薬剤”、“薬品”及び“バイオ活性分子”は、本明細書においてコンテキストがこれらの用語の間に特定の区別を喚起しない限り、診断、治癒、治療、又は疾病予防のために使用される(又は使用されるように設計される)物質を参照するために互換的に使用される。 Various embodiments of the disclosed subject matter are illustrated for evaluating AI-designed molecules, and more specifically AI-designed AMPs, that are (or are intended to be) novel pharmaceutical agents. However, the disclosed filtering technique for AI-designed molecules can be applied to various target classes (antivirals, anti-neoplastics, therapeutics, anti-neoplastics), in addition to novel molecules designed for non-medical use. It should be recognized that it can be used to evaluate a variety of pharmaceutical agents that have specific properties for drugs, etc.). The terms "pharmaceutical", "pharmaceutical", "drug", "medicine" and "bioactive molecule" are used herein to refer to diagnostic, curative, therapeutic, or used interchangeably to refer to a substance that is used (or designed to be used) for disease prevention.

1つ又はそれ以上の実施形態は、ここで図面を参照して説明されるが、ここにおいて、同様の数字は、全体を通して同様の要素を参照するために使用される。後述する説明において、説明の目的のため多くの特定の詳細が1つ又はそれ以上の実施形態のより完全な理解を提供するために言及される。しかしながら、種々の場合において、1つ又はそれ以上の実施形態は、これらの特定的な詳細無くして実施することができることは明らかである。本出願の図面は、例示的な目的のみで提供され、このため、図面はスケール通りに描かれていないことについて留意されたい。 One or more embodiments are now described with reference to the drawings, wherein like numerals are used to refer to like elements throughout. In the following description, for purposes of explanation, numerous specific details are set forth in order to provide a more thorough understanding of one or more embodiments. It is evident, however, that in various instances one or more embodiments may be practiced without these specific details. It should be noted that the drawings of the present application are provided for illustrative purposes only and, as such, the drawings are not drawn to scale.

図1は、1つ又はそれ以上の実施形態によるAI設計分子の候補をフィルタリングするための実施例のパイプライン100のハイレベルのフロー図を示す。パイプライン100は、候補のAI設計分子の初期セット102(また、本明細書では、“候補分子”として、又は単に“候補”として参照する)を、1つ又はそれ以上の利用可能な候補114へとフィルタリングするための3フェーズ・スクリーニング体制を使用する。3フェーズは、ヒューリスティックス・ベースのスクリーニング・フェーズ104、コンピュータ・シミュレーション・スクリーニング・フェーズ108及びウェット・ラボラトリ・スクリーニング・フェーズ112を含む。パイプライン100にしたがって、ヒューリスティックス・ベースのスクリーニング・フェーズ104は、1つ又はそれ以上の分類器を使用して1つ又はそれ以上の事前定義されたターゲット特徴に基づき、初期セット102から候補の第1のサブセット106を選択するために使用される。コンピュータ・シミュレーション・スクリーニング・フェーズ108は、その後、第1のサブセットに含まれるそれぞれの候補の関連する分子動力学を評価するための物理的に駆動されるコンピュータ・シミュレーションを使用して、第1のサブセット106からリード候補のAI設計分子の第2のサブセット110を選択するために使用される。例えば、コンピュータ・シミュレーションは、それぞれの候補(第1のサブセット106内に含まれる)と、AI設計分子の1つ又はそれ以上の分子/生物学的ターゲット(例えば、病原体の1つ又はそれ以上の細胞成分)との間の分子的な相互作用をシミュレートすることができる。第2のサブセット110は、その後、候補がコンピュータ・シミュレーションにおいて1つ又はそれ以上のターゲット挙動特性を示すか否か、又はその程度、又はそれらの両方に基づいて選択される。 FIG. 1 illustrates a high-level flow diagram of an example pipeline 100 for filtering candidate AI design molecules in accordance with one or more embodiments. Pipeline 100 prepares an initial set of candidate AI design molecules 102 (also referred to herein as "candidate molecules" or simply as "candidates") into one or more available candidates 114 Use a three-phase screening regime to filter to The three phases include a heuristics-based screening phase 104 , a computer simulation screening phase 108 and a wet laboratory screening phase 112 . According to the pipeline 100, a heuristics-based screening phase 104 selects the first candidate from the initial set 102 based on one or more predefined target features using one or more classifiers. It is used to select the subset 106 of 1. A computer simulation screening phase 108 then uses physically driven computer simulations to evaluate the relevant molecular dynamics of each candidate in the first subset, It is used to select a second subset 110 of lead candidate AI-designed molecules from the subset 106 . For example, a computer simulation may be performed on each candidate (included within the first subset 106) and one or more molecular/biological targets of the AI-designed molecule (e.g., one or more of pathogens). (cellular components) can be simulated. A second subset 110 is then selected based on whether and/or to what extent the candidates exhibit one or more target behavioral characteristics in the computer simulation.

ウェット・ラボラトリ・スクリーニング・フェーズ112はその後、第2のサブセット110(また、本明細書においてはリード候補として参照される)に含まれるそれぞれの候補を、スクリーニングするために使用されて、いかなる利用可能な候補114を識別する。種々の実施形態においては、ウェット・ラボラトリスクリーニング・フェーズ112は、リード候補を合成すること及び適切なin-vitro又はin-vivo試験又はそれら両方を実行することを含み、リード候補がヒューリスティックス・ベースのスクリーニング・フェーズ104及びコンピュータ・シミュレーション・スクリーニング・フェーズ108に基づいて示されたように、1つ又はそれ以上の病原体又は別の分子ターゲットに対して利用可能か否かを確認する。例えば、AI設計分子が抗微生物薬(例えばAMPs)として使用されるであろうように設計された分子を含む1つ又はそれ以上の実施形態においては、ウェット・ラボラトリ・スクリーニング・フェーズ112は、(これに限定されないが)グラム陽性バクテリア又はグラム陰性バクテリア又はそれらの両方又は別のタイプの病原体の1つ又はそれ以上のタイプに対してのリード候補を試験すること、及びリード候補の毒性をin-vitro又はin-vivoに試験することを含むことができる。AI設計分子のフィルタリング・パイプラインに関する追加的な詳細(例えば、パイプライン100)はさらに図2~11を参照して説明される。 A wet laboratory screening phase 112 is then used to screen each candidate contained in the second subset 110 (also referred to herein as a lead candidate) to remove any available identify possible candidates 114 . In various embodiments, the wet laboratory screening phase 112 includes synthesizing lead candidates and performing appropriate in-vitro or in-vivo testing or both, wherein the lead candidates undergo heuristics-based As indicated based on the screening phase 104 and the computer simulation screening phase 108, the availability against one or more pathogens or other molecular targets is confirmed. For example, in one or more embodiments in which the AI-designed molecules include molecules designed to be used as antimicrobial agents (e.g., AMPs), the wet laboratory screening phase 112 includes ( (including but not limited to) testing the lead candidate against one or more types of Gram-positive bacteria or Gram-negative bacteria or both or another type of pathogen; It can include testing in vitro or in-vivo. Additional details regarding the AI Design Molecule filtering pipeline (eg, pipeline 100) are further described with reference to FIGS.

図2は、1つ又はそれ以上の実施形態による本明細書において説明されるウェット・ラボラトリ試験のためにAI設計分子をフィルタリングする、実施例で非限定的なシステム200のブロック図を示す。本明細書において説明されるシステムの実施形態は、1つ又はそれ以上の機械内に実体化される1つ又はそれ以上の機械実行可能なコンポーネントを含むことができる(例えば、1つ又はそれ以上の機械に関連する、1つ又はそれ以上のコンピュータ可読な記録媒体)。そのようなコンポーネントは、1つ又はそれ以上の機械(例えばプロセッサ、コンピュータ、コンピューティング・デバイス、仮想マシンなど)によって実行される場合に、1つ又はそれ以上の機械に説明される動作を実行させることができる。 FIG. 2 illustrates a block diagram of an example, non-limiting system 200 for filtering AI-designed molecules for wet laboratory testing described herein according to one or more embodiments. Embodiments of the systems described herein may include one or more machine-executable components embodied within one or more machines (e.g., one or more one or more computer-readable media associated with the machine). Such components, when executed by one or more machines (e.g., processors, computers, computing devices, virtual machines, etc.), cause one or more machines to perform the operations described. be able to.

例えば、図示する実施形態においては、システム200は、それぞれが機械であるか又は機械に対応するか、又はコンピュータ実行可能なコンポーネントである、ヒューリスティックス・ベースのスクリーニング・コンポーネント202及びシミュレーション・ベースのスクリーニング・コンポーネント204を含む。システム200は、さらに、少なくとも1つのメモリ210及び少なくとも1つのプロセッサ208を含むか又は動作的に結合されることができる。種々の実施形態においては、少なくとも1つのメモリ210は、少なくとも1つのプロセッサ208によって実行された場合に、実行可能な命令によって規定される動作の実行を容易にする実行可能な命令(例えば、ヒューリスティックス・ベースのスクリーニング・コンポーネント202、シミュレーション・ベースのスクリーニング・コンポーネント204、及び以下に説明される追加のコンポーネント)を格納することができる。システム200は、さらに、システム200の種々のコンポーネントを通信的に結合する、デバイス・バス206を含むことができる。上述のプロセッサ208及びメモリ210の実施例は、他の好適なコンピュータ又はコンピューティング・ベースの要素に加えて、プロセッシング・ユニット1216及びシステムメモリ1214についての図12を参照して見いだすことができ、かつ本明細書で説明される図1又は他の図に関連して示され、かつ説明される1つ又はそれ以上のシステム又はコンポーネントを実装することに関連して使用されることができる。 For example, in the illustrated embodiment, the system 200 includes a heuristics-based screening component 202 and a simulation-based screening component 202, each of which is a machine, or corresponding to a machine, or a computer-executable component. Includes component 204 . System 200 may further include or be operatively coupled with at least one memory 210 and at least one processor 208 . In various embodiments, the at least one memory 210 stores executable instructions (e.g., heuristics) that, when executed by the at least one processor 208, facilitate performing operations defined by the executable instructions. based screening component 202, simulation based screening component 204, and additional components described below). System 200 may further include a device bus 206 that communicatively couples the various components of system 200 . Examples of the processor 208 and memory 210 described above, along with other suitable computer or computing-based elements, can be found with reference to FIG. 12 for the processing unit 1216 and system memory 1214, and It can be used in connection with implementing one or more of the systems or components shown and described in connection with FIG. 1 or other figures described herein.

いくつかの実施形態においては、システム200は、プロセッサを含むか、又は有線又は無線ネットワーク又はこれらの両方が有効であるか又は通信するように動作するか又はこれらの両方が可能な如何なるタイプのコンポーネント、機械、デバイス、機能、装置又は器具又はそれらの組み合わせを使用して配置することができる。すべてのそのような実施形態が想定される。例えば、システム200は、サーバ・デバイス、コンピューティング・デバイス、汎用目的コンピュータ、特定目的コンピュータ、タブレット・コンピューティング・デバイス、ハンドヘルド・デバイス、サーバ・クラス・コンピューティング・マシン、又はデータベース又はこれらの組み合わせ、ラップトップ・コンピュータ、ノートブック・コンピュータ、デスクトップ・コンピュータ、携帯電話、スマートホン、家電製品又は器具又はこれら両方、工業的又は市販デバイス又はこれらの両方、デジタル・アシスタント、マルチメディア・インターネット可能な電話、マルチメディア・プレイヤ、又は別のタイプのデバイス、又はこれらの組み合わせにより、配置され、又は動作され、又は実行され、又はこれらの組みあわせされることができる。 In some embodiments, system 200 includes a processor or any type of component that is enabled or operable to communicate with or capable of wired or wireless networks or both. , machine, device, function, apparatus or instrument, or any combination thereof. All such embodiments are envisioned. For example, system 200 may include a server device, computing device, general purpose computer, special purpose computer, tablet computing device, handheld device, server class computing machine, or database or combination thereof; laptop computers, notebook computers, desktop computers, mobile phones, smart phones, consumer electronics or appliances or both, industrial or commercial devices or both, digital assistants, multimedia internet capable telephones, It may be located or operated or performed by or in combination with a multimedia player or another type of device.

本明細書において開示される種々の図に図示された主題の開示の実施形態は、例示のみのためであり、したがってそのような実施形態のアーキテクチャは、本明細書において図示されたシステム、デバイス、又はコンポーネント又はそれらの組み合わせに限定されないことを理解されたい。いくつかの実施形態においては、システム200の1つ又はそれ以上のコンポーネントは、分散コンピューティング・システムのアーキテクチャによる、異なるコンピューティング・デバイス(例えば、仮想マシン)により別々に又は並列に実行されることができる。システム200は、また動作環境1200及び図12を参照して本明細書において説明される種々の追加的なコンピュータ又はコンピューティング・ベースの要素又はそれらの組み合わせを含むことができる。いくつかの実施形態においては、そのようなコンピュータ又はコンピュータ・ベースの要素は、図1又は本明細書で開示された他の図に関連して示され、かつ説明されるシステム、デバイス、コンポーネント、又はコンピュータ実装動作又はこれらの組み合わせの1つ又はそれ以上を実装することに関連して使用されることができる。 The disclosed embodiments of the subject matter illustrated in the various figures disclosed herein are for purposes of illustration only, and thus the architecture of such embodiments may be applied to the systems, devices, and systems illustrated herein. or components or combinations thereof. In some embodiments, one or more components of system 200 are executed separately or in parallel by different computing devices (e.g., virtual machines) according to a distributed computing system architecture. can be done. System 200 may also include operating environment 1200 and various additional computer or computing-based elements, or combinations thereof, described herein with reference to FIG. In some embodiments, such computers or computer-based elements are the systems, devices, components, components shown and described in connection with FIG. 1 or other figures disclosed herein. or computer-implemented operations, or in connection with implementing one or more of these operations.

いくつかの実施形態においては、システム200は、データ・ケーブル(例えば、ハイデフィニッション・マルチメディア・インタフェース(HDMI(登録商標))、リコメンデッド・スタンダード(RS)232、イーサネット(登録商標)ケーブルなど)を介して、1つ又はそれ以上の外部システム、データソース、又はデバイス又はそれらの組み合わせに結合されることができる(例えば、通信的、電気的、又は光学的に)。
他の実施形態においては、システム200は、ネットワークを介して、1つ又はそれ以上の外部システム、ソース、又はデバイス又はそれらの組み合わせに結合されることができる(例えば、通信的、電気的、又は光学的に)。
In some embodiments, system 200 connects to a data cable (e.g., High Definition Multimedia Interface (HDMI)), Recommended Standard (RS) 232, Ethernet cable, etc. ) to one or more external systems, data sources, or devices or combinations thereof (eg, communicatively, electrically, or optically).
In other embodiments, system 200 can be coupled (e.g., communicatively, electrically, or optically).

多くの実施形態においては、そのようなネットワークは、これらに限定されることはなく、セルラ・ネットワーク、ワイドエリア・ネットワーク(WAN)(例えばインターネット)、又はローカルエリア・ネットワーク(LAN)を含む、有線及び無線ネットワークを含むことができる。例えば、ヒューリスティックス・ベースのスクリーニング・コンポーネント202又はシミュレーション・ベースのスクリーニング・コンポーネント204又はそれらの両方は、ワイヤレス・フィデリティ(Wi-Fi)、グローバル・システム・フォア・モバイルコミュニケーション(GSM)、ユニバーサル・モバイル・テレコミュニケーションズ・システム(UMTS)、ワールド・ワイド・インターオペラビリティ・フォア・マイクロウェーブ・アクセス(WiMAX)、エンハンスド・ジェネラル・パケット・ラジオ・サービス(エンハンスドGPRS)、第3世代パートナーシップ・プロジェクト(3GPP(登録商標))、ロング・ターム・エボリューション(LTE)、第3世代パートナーシップ・エボリューション2(3GPP(登録商標)2)、ウルトラ・モバイル・ブロードバンド(UMB)、ハイスピード・パケット・アクセス(HSPA)、Zigbee(商標)及び他の802.XXワイヤレス技術又はレガシー・テレコミュニケーション技術、BLUETOOTH(登録商標)、セッション・イニシエーション・プロトコル(Session Initiation Protocol:SIP)、ZIGBEE(登録商標)、RF4CEプロトコル、WirelessHARTプロトコル、6LoWPAN(IPv6オーバー・ローパワー・ワイヤレス・エリア・ネットワーク)、Z-Wave、ANT、ウルトラ・ワイドバンド(UWB)スタンダード・プロトコル、又は他の専有的又は非占有的な通信プロトコル又はこれらの組み合わせを含む、所望する如何なる有線又は無線技術を仮想的に使用して1つ又はそれ以上の外部システム、ソース、又はデバイス又はそれらの組み合わせ、例えばコンピューティング・デバイス(この逆も同様)と通信することができる。そのような実施例において、システム200は、かくして、ハードウェア(例えば、中央処理ユニット(CPU)、トランシーバ、デコーダ)、ソフトウェア(例えば、スレッドのセット、プロセスのセット、実行中のソフトウェア)又はシステム200と外部システム、ソース、又はデバイス又はそれらの組み合わせとの間で情報の通信を容易にするハードウェア及びソフトウェアの組み合わせを含むことができる。 In many embodiments, such networks include, but are not limited to, cellular networks, wide area networks (WAN) (eg, the Internet), or local area networks (LAN). and wireless networks. For example, the heuristics-based screening component 202 or the simulation-based screening component 204 or both can be used for wireless fidelity (Wi-Fi), global system for mobile communications (GSM), universal mobile Telecommunications System (UMTS), Worldwide Interoperability for Microwave Access (WiMAX), Enhanced General Packet Radio Service (Enhanced GPRS), 3rd Generation Partnership Project (3GPP) Trademark)), Long Term Evolution (LTE), 3rd Generation Partnership Evolution 2 (3GPP®2), Ultra Mobile Broadband (UMB), High Speed Packet Access (HSPA), Zigbee ( trademark) and other 802. XX wireless technology or legacy telecommunications technology, BLUETOOTH®, Session Initiation Protocol (SIP), ZIGBEE®, RF4CE protocol, WirelessHART protocol, 6LoWPAN (IPv6 over low power wireless - Area Networks), Z-Wave, ANT, Ultra Wideband (UWB) standard protocols, or other proprietary or non-proprietary communication protocols or combinations thereof. Virtually can be used to communicate with one or more external systems, sources, or devices or combinations thereof, such as computing devices and vice versa. In such embodiments, system 200 may thus be hardware (eg, central processing unit (CPU), transceiver, decoder), software (eg, set of threads, set of processes, running software) or system 200 may include a combination of hardware and software that facilitates communication of information between the device and external systems, sources, or devices, or combinations thereof.

システム200は、AI設計分子の膨大なデータ・セットを、よりターゲット化され、かつ有望な候補を著しく小さなデータ・セットへとフィルタリングすることを容易とし(すなわち、AI設計分子の候補の第2のサブセット)、これらは、ウェット・ラボラトリ実験、新規な医薬品の臨床治験などの、より完全な確認実験のためのターゲット活性/機能をおそらく提供する。この結末を容易にするため、システム200は、ヒューリスティックス・ベースのスクリーニング・コンポーネント202及びシミュレーション・ベースのスクリーニング・コンポーネント204を含むことができる。 The system 200 facilitates filtering a large data set of AI-designed molecules into a significantly smaller data set of more targeted and promising candidates (i.e., second-order candidates for AI-designed molecules). subset), these likely provide target activities/functions for more complete confirmatory experiments, such as wet laboratory experiments, clinical trials of new pharmaceuticals, and the like. To facilitate this outcome, system 200 can include heuristics-based screening component 202 and simulation-based screening component 204 .

再度図1を参照して図2を見ると、ヒューリスティックス・ベースのスクリーニング・コンポーネント202は、パイプライン100のヒューリスティックス・ベースのスクリーニング・フェーズ104を実行するように構成されて、候補AI設計分子の第1のサブセット106を生成することを可能とすると共に、シミュレーション・ベースのスクリーニング・コンポーネント204は、パイプライン100のコンピュータ・シミュレーション・スクリーニング・フェーズ108を実行するように構成されて、候補AI設計分子の第2のサブセット110を生成することを可能とする。図1に示されるように、システム200の出力は、候補AI設計分子の第2のサブセット110を含み、これらは、追加的な試験(例えば、ウェット・ラボラトリ試験)のために推奨される利用可能な候補の縮小セットに対応する。 Referring again to FIG. 1 and looking at FIG. 2, heuristics-based screening component 202 is configured to perform heuristics-based screening phase 104 of pipeline 100 to identify the first candidate AI design molecule. 1, the simulation-based screening component 204 is configured to perform a computer simulation screening phase 108 of the pipeline 100 to generate a subset 106 of candidate AI design molecules. Allowing to generate a second subset 110 . As shown in FIG. 1, the output of system 200 includes a second subset 110 of candidate AI design molecules, which are recommended available for further testing (e.g., wet laboratory testing). corresponds to a reduced set of possible candidates.

この点において、システム200は、スクリーニング/フィルタリングのため、候補AI設計分子の初期セット102を受領(又はそうでなければアクセス)することができる。候補AI設計分子の初期セット102は、いかなる数の候補分子を含むことができる(例えば、数百から数千から数十万又はそれ以上を含む)。初期セットに含まれるAI設計分子のタイプ又はそれらのターゲット生物学的又は化学的活性又はそれらの組み合わせは、変化することができる。いくつかの実施形態においては、候補AI設計分子の初期セット102は,診断、治療、治癒、又は特定の疾患又はそれらの組み合わせとの関係における特定の生物学的応答を提供するように設計された医薬品を含む。例えば、候補の初期セット102は、抗微生物活薬、抗ウィルス薬、抗がん剤などとしての機能のために設計されたAI設計分子を含むことができる。別のより特定的な実施形態においては、システム200は、具体的にはブロード・スペクトラムの抗微生物ペプチドとして機能するように設計されたAI設計ペプチドをスクリーニングするように構成することができる。本実施形態によれば、候補AI設計分子の候補の初期セット102は、そのようなペプチドのコレクションを含むことができる。 In this regard, the system 200 can receive (or otherwise access) an initial set of candidate AI design molecules 102 for screening/filtering. The initial set 102 of candidate AI design molecules can include any number of candidate molecules (eg, including hundreds to thousands to hundreds of thousands or more). The types of AI-designed molecules included in the initial set or their target biological or chemical activities or combinations thereof can vary. In some embodiments, the initial set of candidate AI-designed molecules 102 are designed to provide a diagnostic, therapeutic, curative, or specific biological response in relation to a particular disease or combination thereof. Including pharmaceuticals. For example, the initial set of candidates 102 can include AI-designed molecules designed for function as active antimicrobial agents, antiviral agents, anticancer agents, and the like. In another more specific embodiment, the system 200 can be configured to screen AI-designed peptides specifically designed to function as broad spectrum antimicrobial peptides. According to this embodiment, the candidate initial set 102 of candidate AI design molecules can comprise a collection of such peptides.

いくつかの実施形態においては、候補の初期セット102は、それらの分子シーケンスに関して変化することができるか、又は化学的構造が依然として共通の設計ファクタを共有するか又は別の共通の属性を共有することができるか、これらの組みあわせである。例えば、いくつかの実装においては、候補の初期セット102は、同一のML/AI設計モデルの1つ又はそれ以上を使用して生成/設計された分子を含むことができる。別の実施例においては、候補の初期セットは、同一又は類似のターゲットの生物学的/化学的活性又は機能を提供するように設計されるか、又は同一又は類似の生物学的/分子的ターゲットをターゲットとするか又はそれらの組み合わせのために設計された分子を含むことができる。追加的に、又は代替的に、候補の初期セット102は、これらの共通のファクタ、ランダムにサンプルされたAI設計分子などの1つ又はそれ以上に関して変化するAI設計分子のコレクションを含むことができる。 In some embodiments, the initial set of candidates 102 can vary with respect to their molecular sequence, or their chemical structures still share common design factors or share another common attribute. Can be any combination of these. For example, in some implementations, the initial set of candidates 102 can include molecules generated/designed using one or more of the same ML/AI design models. In another embodiment, the initial set of candidates is designed to provide the same or similar target biological/chemical activity or function, or the same or similar biological/molecular target. or combinations thereof. Additionally or alternatively, the initial set of candidates 102 may include a collection of AI-designed molecules that vary with respect to one or more of these common factors, such as randomly sampled AI-designed molecules. .

初期セット102に含まれるAI設計分子の分布に関わらず、ヒューリスティックス・ベースのスクリーニング・コンポーネント202及びシミュレーション・ベースのスクリーニング・コンポーネント204は、ターゲットの生物学的活性/機能又はターゲットの化学的活性/機能に基づく候補をスクリーニングするように構成されることができる。例えば、ターゲットの生物学的活性/機能がブロード・スペクトラムの抗微生物活性(例えば、グラム陽性及びグラム陰性の特徴の両方に対して活性)を提供するという実装においては、ヒューリスティックス・ベースのスクリーニング・コンポーネント202及びシミュレーション・ベースのスクリーニング・コンポーネント204は、候補をスクリーニングするように構成されて、ブロード・スペクトラムの抗微生物活性を提供することが期待される最も利用可能性のある候補の小さなサブセット(例えば、候補AI設計分子の第2のサブセット110)を選択することができる。ヒューリスティックス・ベースのスクリーニング・コンポーネント202の追加的な詳細は、図3A及び3B及び図4を参照して説明される。シミュレーション・ベースのスクリーニング・コンポーネント204の追加的な詳細は、図5A~9を参照して説明される。 Regardless of the distribution of AI-designed molecules included in the initial set 102, the heuristics-based screening component 202 and the simulation-based screening component 204 may perform target biological activity/function or target chemical activity/function. can be configured to screen candidates based on For example, in implementations where the target biological activity/function provides broad-spectrum antimicrobial activity (e.g., activity against both Gram-positive and Gram-negative characteristics), a heuristics-based screening component 202 and simulation-based screening component 204 are configured to screen candidates to a small subset of the most available candidates expected to provide broad-spectrum antimicrobial activity (e.g., A second subset 110) of candidate AI design molecules can be selected. Additional details of heuristics-based screening component 202 are described with reference to FIGS. 3A and 3B and FIG. Additional details of simulation-based screening component 204 are described with reference to FIGS. 5A-9.

図3A及び3Bは、1つ又はそれ以上の実施形態による実施例のヒューリスティックス・ベースのスクリーニング・コンポーネントのブロック図を示す。それぞれの実施形態において利用される同様の要素のそれぞれの説明は、簡潔性の目的のため省略する。 3A and 3B show block diagrams of example heuristics-based screening components in accordance with one or more embodiments. Respective descriptions of similar elements utilized in each embodiment are omitted for the sake of brevity.

図3Aに示される実施形態によれば、ヒューリスティックス・ベースのスクリーニング・コンポーネント202は、分類器適用コンポーネント302、第1のサブセット選択コンポーネント304、及び1つ又はそれ以上の分類器306を含む。種々の実施形態においては、分類器適用コンポーネント302は、候補AI設計分子の初期セット102に対して1つ又はそれ以上の分類器を適用して、それらのそれぞれの分子シーケンス(例えばタンパク・シーケンス、遺伝子/ヌクレオチド・シーケンス、ポリマー・シーケンスなど)又はそれらの化学構造又はそれら両方の分析に基づいて、初期候補分子のそれぞれ(又はいくつかの実装においては、1つ又はそれ以上)が定義されたターゲット特徴(すなわち、興味のある特徴)の1つ又はそれ以上を有するか否かを判断又は推定するように構成されることができる。この点において、ヒューリスティックス・ベースのスクリーニング・フェーズは、シーケンス・レベル又は化学構造レベル又はそれらの両方での候補分子の分析及び分類に基づく。 According to the embodiment shown in FIG. 3A, heuristics-based screening component 202 includes classifier application component 302 , first subset selection component 304 , and one or more classifiers 306 . In various embodiments, the apply classifier component 302 applies one or more classifiers to the initial set of candidate AI design molecules 102 to determine their respective molecular sequences (e.g., protein sequences, Each (or in some implementations, one or more) of the initial candidate molecules are defined targets based on analysis of their gene/nucleotide sequence, polymer sequence, etc.) or their chemical structure or both. It can be configured to determine or infer whether it has one or more of the features (ie features of interest). In this regard, the heuristics-based screening phase is based on the analysis and classification of candidate molecules at the sequence level or chemical structure level or both.

1つ又はそれ以上の定義されたターゲット特徴は、事前選択することができ、かつ開示されたフィルタリング技術が識別するために使用されることになるであろうターゲットAI設計分子についての1つ又はそれ以上の所望する特徴を反映する。1つ又はそれ以上の特徴は、明示的な特徴(例えば、抗微生物活性に関連する2次的ペプチド構造を有すること)に相関することが知られた暗黙的特徴に加え、明示的特徴(例えば、抗微生物活性を示すこと、ブロード・スペクトラムの感受性を示すこと)を含むことができる。1つ又はそれ以上のターゲット特徴は、したがって、パイプライン100又はシステム200又はそれらの両方の特定の用途に基づいて変化することができる。 One or more defined target features can be pre-selected and one or more of the target AI-designed molecules that the disclosed filtering techniques will be used to identify. It reflects the above desired features. The one or more characteristics may include implicit characteristics known to correlate with explicit characteristics (e.g., having a secondary peptide structure associated with antimicrobial activity), as well as explicit characteristics (e.g., , exhibit antimicrobial activity, exhibit broad spectrum susceptibility). One or more of the target characteristics may thus vary based on the particular application of pipeline 100 or system 200 or both.

例えば、いくつかの実施形態においては、パイプライン100又はシステム200又はそれらの両方は、候補AI設計ペプチドをスクリーニングするために使用されて、有効で、ブロード・スペクトラムの抗微生物薬を提供する最もらしい候補AI設計ペプチドの小さなサブセットを識別すると共に選択することを可能とする。これらの実施形態で、1つ又はそれ以上の定義された特徴は、(これらに限定されないが)、抗微生物機能、ブロード・スペクトラムな効能、低又は無毒性、有効性、及び定義された構造の存在(例えば、らせん構造、プリーツ・シート構造、コイル構造などの2次構造)を含むことができる。1つ又はそれ以上の分類器306は、したがって、初期候補ペプチドのそれぞれが抗微生物機能を有すること(又は否か)、ブロード・スペクトラムの効能を有すること(又は否か)、低又は無毒性であること(又は否か)、定義された2次構造を有すること(又は否か)、又は高い有効性を有すること(又は否か)を予測するように構成することができる。 For example, in some embodiments, pipeline 100 or system 200, or both, are used to screen candidate AI-designed peptides, most likely to provide effective, broad-spectrum antimicrobial agents. Allows identification and selection of a small subset of candidate AI design peptides. In these embodiments, one or more of the defined characteristics include (but are not limited to) antimicrobial functionality, broad spectrum efficacy, low or no toxicity, efficacy, and defined structure. The presence (eg, secondary structures such as helical structures, pleated sheet structures, coil structures, etc.) can be included. One or more of the classifiers 306 therefore determine whether each of the initial candidate peptides has antimicrobial function (or not), broad spectrum efficacy (or not), low or no toxicity, It can be configured to predict being (or not), having defined secondary structure (or not), or having high potency (or not).

いくつかの実施形態においては、1つ又はそれ以上の分類器306は、定義されたターゲット特徴と、分子シーケンス(例えばタンパク・シーケンス)又はターゲット特徴を有する既知の分子の化学構造又はそれらの両方において反映されるパターンとの間の学習された相関性に基づいて、1つ又はそれ以上の定義されたターゲット特徴を有するか否かのいずれかとしてそれぞれの候補を分類するように事前トレーニングされた、1つ又はそれ以上のバイナリ分類モデルを含むことができる。他の実装においては、1つ又はそれ以上の分類器306は、候補分子がそれぞれのターゲット特徴(例えば、ターゲット特徴1を有する確率、ターゲット特徴2を有する確率、ターゲット特徴3を有する確率など)を有する確率を予測するように構成されることができる。いくつかの実装においては、1つ又はそれ以上の分類器306のそれぞれの分類器は、単一のターゲット特徴を分類するようにトレーニングすることができる。例えば、上述したAMPの実装について、1又はそれ以上の分類器306は、4つのターゲット特徴(例えば抗微生物機能、ブロード・スペクトラムな効能、低又は無毒性、及び定義された構造の存在)のそれぞれの1つのための4つに至る別々の分類器を含むことができる。 In some embodiments, one or more of the classifiers 306 classify in a defined target feature and/or a molecular sequence (e.g., protein sequence) or chemical structure of a known molecule with the target feature. pre-trained to classify each candidate as either having one or more defined target features or not based on learned correlations between reflected patterns; It can contain one or more binary classification models. In other implementations, one or more of the classifiers 306 determine the probability that the candidate molecule has each target feature (e.g., the probability that it has target feature 1, the probability that it has target feature 2, the probability that it has target feature 3, etc.). can be configured to predict the probability of having In some implementations, each classifier of one or more classifiers 306 can be trained to classify a single target feature. For example, for the AMP implementation described above, one or more of the classifiers 306 may classify each of the four target characteristics (e.g., antimicrobial function, broad spectrum efficacy, low or no toxicity, and presence of defined structures). can include up to four separate classifiers for one of

種々のタイプの分類モデル/アルゴリズムが1つ又はそれ以上の分類器306のために使用されることができる。いくつかの実施形態においては、1つ又はそれ以上の分類器306は、例えば長短期記憶メモリ(LSTM)ニューラル・ネットワーク・ベースの分類器といった、1つ又はそれ以上のディープ・ラーニング・ニューラル・ネットワークを含むことができる。ヒューリスティックス・ベースのスクリーニング・コンポーネント202はまた、自動分類システム又は自動分類プロセス又はそれらの両方を使用して、初期候補分子の1つ又はそれ以上のターゲット特徴の分類を容易にすることができる。例えば、ヒューリスティックス・ベースのスクリーニング・コンポーネントは、確率的又は統計ベース又はそれら両方の分析(例えば、分析ユーティリティ及びコストへとファクタリングする)を使用して、候補AI設計分子の初期セット102について学習し、又は推定を生成し、又はそれらの両方を行うことができる。ヒューリスティックス・ベースのスクリーニング・コンポーネント202は、例えばサポート・ベクトルマシン(SVM)分類器を使用して、候補の初期セット102について学習し、又は推定を生成し、又はこれらの両方を行うことができる。 Various types of classification models/algorithms can be used for one or more classifiers 306 . In some embodiments, the one or more classifiers 306 are one or more deep learning neural networks, such as long short-term memory (LSTM) neural network-based classifiers. can include The heuristics-based screening component 202 can also facilitate classification of one or more target features of the initial candidate molecules using automated classification systems and/or processes. For example, the heuristics-based screening component learns about the initial set of candidate AI design molecules 102 using probabilistic or statistical-based analysis (e.g., factoring into analytical utility and cost) or both; or generate an estimate, or both. The heuristics-based screening component 202 can learn about the initial set of candidates 102 and/or generate estimates using, for example, a support vector machine (SVM) classifier.

追加的に、又は代替的に、1つ又はそれ以上の分類器306は、ベイジアン・ネットワーク、決定木、又は確率的分類モデル又はこれらの組みあわせに関連する分類技術を使用することができる。1つ又はそれ以上の分類器306はまた、暗黙的にトレーニングされた(例えば、付帯的な情報の受領を介した)分類器に加えて、明示的にトレーニングされた(例えば、遺伝的トレーニング・データを介する)分類器を含むことができる。例えば、SVM’sについては、SVM’は、分類器コンストラクタ及び特徴選択モジュール内の学習又はトレーニング・フェーズ介して構成されることができる。いくつかの実装においては、1つ又はそれ以上の分類器306はまた、入力アトリビュート・ベクトルx = (x1,x2,x3,x4,xn)を、入力ベクトルが分類に属する、すなわち、f(x)=信頼性(クラス)である信頼性へとマップする、ノンバイナリな分類器を含むことができる。これらの実装について、分類器適用コンポーネント302は、候補が評価されるターゲット特徴のそれぞれを有するか否かの予測における信頼性の尺度を判断することができる。 Additionally or alternatively, one or more of the classifiers 306 may use classification techniques associated with Bayesian networks, decision trees, or probabilistic classification models or combinations thereof. One or more classifiers 306 may also be explicitly trained (e.g., genetically trained classifiers) in addition to implicitly trained (e.g., via receipt of extrinsic information). data) classifier. For example, for SVM's, the SVM' can be configured via a learning or training phase within the classifier constructor and feature selection module. In some implementations, the one or more classifiers 306 also classify the input attribute vector x = (x1, x2, x3, x4, xn) so that the input vector belongs to the classification, i.e. f(x ) = reliability (class). For these implementations, the apply classifier component 302 can determine a measure of confidence in predicting whether a candidate has each of the target features evaluated.

第1のサブセット選択コンポーネント304は、分類の結果及び定義された選択基準に基づいて、初期セット102から候補AI設計分子の第1のサブセット106を選択するように構成されることができる。選択基準は、システム管理者などによって事前定義され、調整されることができる。例えば、いくつかの実装においては、選択基準は、第1のサブセット選択コンポーネント304が定義されたターゲット特徴の全部を有する(又は有するとして分類された)と判断された、それらの候補のみを選択することを要求することができる。別の実施例においては、選択基準は、第1のサブセット選択コンポーネント304が定義されたターゲット特徴の1つ又はそれ以上を有する(又は有するとして分類された)と判断されたそれらの候補を選択することを要求することができる。別の実施例においては、選択基準は、第1のサブセット選択コンポーネント304が1つ又はそれ以上の定義されたターゲット特徴を有するターゲット特徴の特定の組み合わせを有する(又は有するとして分類された)と判断されたそれらの候補を選択することを要求することができる。別の実施例においては、1つ又はそれ以上の分類器306が、候補分子がそれぞれの確率を有する確率を表す値を判断する実装において、選択基準は、全部の特徴についての確率又は集合的な確率を表すスコア又はそれらの両方についての定義された閾値を含むことができる。 A first subset selection component 304 can be configured to select a first subset 106 of candidate AI design molecules from the initial set 102 based on the classification results and defined selection criteria. Selection criteria can be predefined and adjusted, such as by a system administrator. For example, in some implementations, the selection criteria select only those candidates for which the first subset selection component 304 determines that they have (or are classified as having) all of the defined target characteristics. can be requested. In another embodiment, the selection criteria select those candidates for which the first subset selection component 304 determines that they have (or are classified as having) one or more of the defined target characteristics. can be requested. In another embodiment, the selection criteria determine that the first subset selection component 304 has (or is classified as having) a particular combination of target features with one or more defined target features. can be requested to select those candidates that have been presented. In another embodiment, in implementations in which one or more classifiers 306 determine values representing the probabilities that candidate molecules have respective probabilities, the selection criteria are probabilities over all features or collective It can include defined thresholds for scores representing probabilities or both.

選択基準は、特定の用途のために適切に設定されることができることについて認識されるべきである(例えば、要求される定義された特徴の数、要求される特徴の組み合わせ、特徴を表すレベルを示す値、分類推定における信頼性の程度を示す値など)。 It should be appreciated that the selection criteria can be set appropriately for a particular application (e.g., the number of defined features required, the combination of features required, the level of representation of features, etc.). value, a value that indicates the degree of confidence in the classification estimate, etc.).

図3Bは、ヒューリスティックス・ベースのスクリーニング・コンポーネント202の別の実施形態を提示する。図3Bに示す実施形態において、ヒューリスティックス・ベースのスクリーニング・コンポーネント202はさらに、1つ又はそれ以上の分類器306をトレーニングし、かつ開発することを容易にするための分類器トレーニング・コンポーネント308を含む。これらの実施形態について、分類器トレーニング・コンポーネント308は、1つ又はそれ以上の教師なし、教師あり、又は半教師あり機械学習技術又はそれらの組み合わせを使用して、受領した又はそれでなければ利用可能なトレーニング・データ310に基づいて、1つ又はそれ以上の分類器306をトレーニングすると共に開発することができる。例えば、トレーニング・データ310は、ターゲット特徴の1つ又はそれ以上についてのそれらの分類が知られており、かつポジティブ分類のシーケンス(例えば1つ又はそれ以上の特定のターゲット特徴を有する)及びネガティブ分類(例えば、1つ又はそれ以上の特定のターゲット特徴を有しない)を含む、複数の分子シーケンス(例えばタンパク・シーケンス)を含むことができる。それぞれのターゲット特徴についてのポジティブ及びネガティブ・シーケンスのセットを使用して、分類器トレーニング・コンポーネント308は、それぞれのターゲット特徴のための別々の分類器をトレーニングすることができる。 FIG. 3B presents another embodiment of heuristics-based screening component 202 . In the embodiment shown in FIG. 3B, the heuristics-based screening component 202 further includes a classifier training component 308 to facilitate training and developing one or more classifiers 306. . For these embodiments, the classifier training component 308 is received or otherwise available using one or more unsupervised, supervised, or semi-supervised machine learning techniques or combinations thereof. Based on such training data 310, one or more classifiers 306 can be trained and developed. For example, the training data 310 includes a sequence of positive classifications (e.g., with one or more specific target features) and negative classifications whose classifications for one or more of the target features are known. A plurality of molecular sequences (eg, protein sequences) can be included, including (eg, without one or more specific target features). Using the set of positive and negative sequences for each target feature, classifier training component 308 can train a separate classifier for each target feature.

図4は、1つ又はそれ以上の実施形態による候補抗微生物ペプチドについての実施例のヒューリスティックス分類結果を示す表400を提供する。特に表400は、第1のカラムに示されるそれらのそれぞれのペプチド・シーケンスに基づいて、複数の候補AMPシーケンスに対して異なる5つの分類器の適用に基づいた分類器適用コンポーネント302により生成又は判断又はそれらの両方がなされることができる実施例のヒューリスティックス分類データを提示する。5つの異なる分類器はそれぞれ、記号“clfX_feature”で識別され、ここで“clf”は、接頭語であり、“X”は、分類器をトレーニングするために使用された特定のトレーニング・データセットを示す。 FIG. 4 provides a table 400 showing example heuristic classification results for candidate antimicrobial peptides according to one or more embodiments. In particular, table 400 is generated or determined by classifier application component 302 based on application of five different classifiers to a plurality of candidate AMP sequences based on their respective peptide sequences shown in the first column. Or we present example heuristic classification data that can do both. Each of the five different classifiers is identified by the symbol "clfX_feature", where "clf" is a prefix and "X" is the specific training dataset used to train the classifier. show.

第1の分類器、clfX.amp(ここで、“amp”は、抗微生物ペプチドを表す)は、ペプチド・シーケンス(又はそうでなければAMPs)が抗微生物活性を有する確率(0.0~1.0)を判断した。第2の分類器clfX.tox(ここで、“tox”は、“毒性”を表す)は、ペプチド・シーケンスが毒性である確率(0.0~1.0)を判断した。第3の分類器clfX.有効性は、ペプチド・シーケンスが有効である確率(0.0~1.0)を判断した。第4の分類器clfX.borad(ここで、“broard”は、“ブロード・スペクトラム”を表す)は、ペプチド・シーケンスがブロード・スペクトラムの抗微生物性である確率(0.0~1.0)を判断した。第5の分類器clfX.struct(ここで、“struct”は、“構造”を表す)は、ペプチド・シーケンスが2次構造を有する確率(0.0~1.0)を判断した。 The first classifier, clfX.amp (where "amp" stands for antimicrobial peptide), measures the probability (0.0-1 .0) was determined. A second classifier clfX.tox (where "tox" stands for "toxicity") determined the probability (0.0-1.0) that a peptide sequence was toxic. A third classifier, clfX.Validity, determined the probability (0.0-1.0) that the peptide sequence was valid. A fourth classifier, clfX.borad (where "broad" stands for "broad spectrum"), measures the probability (0.0-1.0) that a peptide sequence is broad-spectrum antimicrobial. judged. A fifth classifier clfX.struct (where "struct" stands for "structure") determined the probability (0.0 to 1.0) that a peptide sequence has secondary structure.

図5A及び5Bは、1つ又はそれ以上の実施形態による実施例のシミュレーション・ベースのスクリーニング・コンポーネントのブロック図を示す。それぞれの実施形態において利用される同様の要素のそれぞれの説明は、簡潔性の目的のため省略する。 5A and 5B show block diagrams of example simulation-based screening components in accordance with one or more embodiments. Respective descriptions of similar elements utilized in each embodiment are omitted for the sake of brevity.

シミュレーション・ベースのスクリーニング・コンポーネント204は、物理ベースの分子コンピュータ・シミュレーションを使用する、高スループットで計算機的に効率的な物理的に示唆されたフィルタリング・プロセスを使用して、AI設計分子の第1のサブセット106を、候補AI設計分子のいっそう小さな第2のサブセット110へとさらにリファインして、ウェット・ラボラトリ試験について推奨するために提供される。これらのコンピュータ・シミュレーションは、第1のサブセット106に含まれるそれぞれの候補と、1つ又はそれ以上の既知又は可能性のある分子的又は生物学的又はそれら両方のターゲット(例えば、病原体の1つ又はそれ以上の細胞成分)との間の分子相互作用をシミュレートして、シミュレートされた候補が1つ又はそれ以上の所望する相互作用特性を示すか又はその程度又それらの両方を判断する。この点において、1つ又はそれ以上の所望される相互作用(又は所望される挙動的特徴)は、ターゲット生物学的/分子的活性、機能又は応答(例えば、抗微生物活性、抗ウィルス活性、特定の治療活性など)を達成することに相関する、1つ又はそれ以上の、事前定義されたか又は学習されたか又はそれら両方の相互作用挙動/特性を含むことができる。例えば、ターゲットの生物学/分子活性/応答が有効な抗微生物薬であろうことを含む実装において、1つ又はそれ以上の所望された相互作用/挙動特性は、バクテリアを根絶するか又はバクテリアの成長を阻害するか又はそれらの両方に相関する1つ又はそれ以上の分子的な相互作用の挙動特性を含むことができる。 The simulation-based screening component 204 uses a high-throughput, computationally efficient, physically-implied filtering process using physics-based molecular computer simulations to identify the first AI-designed molecules. is provided for further refinement into a second, smaller subset 110 of candidate AI design molecules to recommend for wet laboratory testing. These computer simulations compare each candidate in the first subset 106 with one or more known or potential molecular and/or biological targets (e.g., one of a pathogen or more cellular components) to determine whether or not the simulated candidates exhibit one or more desired interaction properties or to what extent or both. . In this regard, one or more desired interactions (or desired behavioral characteristics) are targeted biological/molecular activities, functions or responses (e.g., antimicrobial activity, antiviral activity, specific can include one or more predefined or learned or both interaction behaviors/characteristics that are correlated with achieving the therapeutic activity of the drug. For example, in implementations involving a target biology/molecular activity/response that would be an effective antimicrobial agent, one or more desired interaction/behavioral properties would eradicate bacteria or It can include one or more molecular interaction behavioral characteristics that correlate with growth inhibition or both.

図5Aを参照すると、この結末を容易にするために、シミュレーション・ベースのスクリーニング・コンポーネント204は、シミュレーション実行コンポーネント502、シミュレーション評価コンポーネント504、1つ又はそれ以上のシミュレーション・プログラム506、及び第2のサブセット選択コンポーネント508を含む。 Referring to FIG. 5A, to facilitate this conclusion, the simulation-based screening component 204 includes a simulation execution component 502, a simulation evaluation component 504, one or more simulation programs 506, and a second It includes a subset selection component 508 .

1つ又はそれ以上のシミュレーション・プログラム506は、物理ベースの分子相互作用をシミュレートすることができる、1つ又はそれ以上の高スループットのコンピュータ・シミュレーション・プログラムを含むことができる。特に、1つ又はそれ以上のシミュレーション・プログラム506は、AI設計分子と、1つ又はそれ以上の生物学的/分子的ターゲットとの間の分子相互作用を、それらのモデル化された分子的又は生物学的又はそれら両方の構造に基づいてシミュレーションすることが可能な分子シミュレーション・ツールを提供することができる。例えば、これらのシミュレーション・ツールは、粗視化分子動力学(CGMD)シミュレーション・ツールなどを含むことができる。例えば、いくつかの実装において、1つ又はそれ以上のシミュレーション・プログラム506は、第1のサブセット106に含まれるそれぞれの候補分子について分子モデルを受領するか又は生成するか又はそれらの両方のことを含むことができる。いくつかの実装においては、分子モデルは、全原子モデルを含むことができる。1つ又はそれ以上のシミュレーション・プログラム506は、さらに、生物学的/分子的ターゲット(複数でもよい)(例えば、病原体の1つ又はそれ以上の細胞成分)についての力場としてモデル化された(例えば粗視化力場など)分子モデルを受領するか又は生成するか又はそれらの両方をすることができる。1つ又はそれ以上のシミュレーション・プログラム506はさらに、分子候補と、生物学的/分子的ターゲット(複数でもよい)(例えば病原体の1つ又はそれ以上の細胞成分)との組み合わせについて粗視化システム表現を生成すると共に、この粗視化システム表現を使用して、それぞれの候補と、生物学的/分子的ターゲット(複数でもよい)との間の相互作用の分子ダイナミクスをシミュレーションすることができる。 One or more simulation programs 506 can include one or more high-throughput computer simulation programs capable of simulating physics-based molecular interactions. In particular, the one or more simulation programs 506 simulate the molecular interactions between the AI-designed molecule and one or more biological/molecular targets based on their modeled molecular or Molecular simulation tools can be provided that can simulate based on biological or both structures. For example, these simulation tools can include coarse-grained molecular dynamics (CGMD) simulation tools, and the like. For example, in some implementations, one or more simulation programs 506 receive and/or generate molecular models for each candidate molecule included in the first subset 106. can contain. In some implementations, the molecular model can include an all-atom model. One or more simulation programs 506 are further modeled as force fields for biological/molecular target(s) (e.g., one or more cellular components of a pathogen) ( It can receive or generate a molecular model (eg, a coarse-grained force field, etc.) or both. The one or more simulation programs 506 may further apply a coarse-grained system for combinations of molecular candidates and biological/molecular target(s) (e.g., one or more cellular components of a pathogen). Along with generating a representation, this coarse-grained system representation can be used to simulate the molecular dynamics of the interaction between each candidate and the biological/molecular target(s).

シミュレーション実行コンポーネント502は、第1のサブセット106に含まれるそれぞれの候補について、1つ又はそれ以上のシミュレーションを実行/動作するように構成することができる。この点において、シミュレーション実行コンポーネント502は、それぞれの(又はいくつかの実装においては1つ又はそれ以上)第1のサブセット106に含まれる候補AI設計分子についてCGMDを動作することができ、ここで、それぞれのシミュレーションは、1つ又はそれ以上の力場モデルを使用してモデル化された、それぞれのモデル化された分子構造に基づいて、それぞれの候補分子と、1つ又はそれ以上の定義された生物学的/分子的ターゲットとの間の分子動力学をシミュレーションする。 Simulation execution component 502 can be configured to run/run one or more simulations for each candidate in first subset 106 . In this regard, the simulation execution component 502 can run a CGMD for each (or in some implementations one or more) candidate AI design molecules contained in the first subset 106, where: Each simulation is based on each modeled molecular structure, modeled using one or more force field models, and one or more defined Simulate molecular dynamics between biological/molecular targets.

シミュレーション評価コンポーネント504は、それぞれのシミュレーションを評価して、シミュレーションされたそれぞれの候補AI設計分子(すなわち、第1のサブセット106に含まれるそれぞれの候補分子)が1つ又はそれ以上のターゲット分子相互作用/挙動特性を示すか否か又はその程度又はそれらの両方を判断するように構成されることができる。例えば、いくつかの実装においては、使用される分子シミュレーション・プログラムは、それぞれのシミュレーションの道筋にわたって、1つ又はそれ以上のターゲット分子の相互作用/挙動特性の発生を識別すると共に追跡するように構成されることができる。これらの実施形態について、シミュレーション・プログラムは、それぞれのシミュレーションについて、1つ又はそれ以上のターゲット分子相互作用/挙動特性が発生したか否か、発生の頻度などを示す結果データを生成することができる。
シミュレーション評価コンポーネント504はさらに、それぞれのシミュレーションについて生成された結果データを使用して、シミュレーションされたそれぞれの候補AI設計分子(すなわち第1のサブセット106に含まれるそれぞれの候補分子)が1つ又はそれ以上のターゲット分子相互作用/挙動特性を示すか否か、又はその程度又はそれらの両方を判断することができる。他の実施形態においては、シミュレーションは、手作業で観察され、かつ評価されて、シミュレーションされたそれぞれの候補AI設計分子(が1つ又はそれ以上のターゲット分子相互作用/挙動特性を示すか否か、又はその程度又はそれらの両方を判断することができる。これらの実施形態について、そのような結果データは、ユーザ生成されたフィードバックとして受領されることができる。
A simulation evaluation component 504 evaluates each simulation such that each simulated candidate AI design molecule (i.e., each candidate molecule included in the first subset 106) has one or more target molecular interactions. / behavioral characteristics, and/or to what extent. For example, in some implementations, the molecular simulation program used is configured to identify and track the occurrence of one or more target molecule interaction/behavioral properties over each simulation trajectory. can be For these embodiments, the simulation program can generate result data indicating whether, for each simulation, one or more target molecule interactions/behavioral properties occurred, how often they occurred, etc. .
The simulation evaluation component 504 further uses the result data generated for each simulation to evaluate each simulated candidate AI design molecule (i.e., each candidate molecule included in the first subset 106) in one or more It can be determined whether or not, or to what extent, or both, the above target molecule interaction/behavioral properties are exhibited. In other embodiments, the simulation is manually observed and evaluated to see if each simulated candidate AI design molecule exhibits one or more target molecule interaction/behavioral properties. , or the degree thereof, or both, For these embodiments, such result data may be received as user-generated feedback.

第2のサブセット選択コンポーネント508はさらに、シミュレーションされたそれぞれの候補分子が1つ又はそれ以上のターゲット分子相互作用/挙動特性を示すか否か、又はその程度又はそれらの両方に基づいて、第2のサブセット110に含ませるための1つ又はそれ以上のシミュレーションされた候補分子を選択する。例えば、いくつかの実装において、第2のサブセット選択コンポーネント508は、1つ又はそれ以上のターゲットの分子相互作用/挙動特性を示すことが判断されたシミュレーション候補のいかなるものも選択するように構成されることができる。他の実装においては、第2のサブセット選択コンポーネント508は、矛盾しないか、又は十分な傾向を有するか又はそれら両方の1つ又はそれ以上のターゲット分子相互作用/挙動特性を示すと判断された、1つ又はそれ以上のシミュレーションされた候補を選択するように構成されることができる(例えば、矛盾しないか、又は十分な傾向を測定するための定義された閾値について)。別の実施例の実装においては、第2のサブセット選択コンポーネント508は、定義された評価スキームを使用して測定されるような、1つ又はそれ以上のターゲット分子相互作用/挙動特性を“最良”に示すと判断された1つ又はそれ以上のシミュレーションされた候補を選択するように構成されることができる。この点について、評価スキーム及び選択基準は、評価される分子相互作用/挙動特性のタイプ又はそれらが測定されることができるやり方に基づいて変化する可能性がある。 A second subset selection component 508 further selects a second subset based on whether and/or to what extent each simulated candidate molecule exhibits one or more target molecule interaction/behavior properties. Select one or more simulated candidate molecules for inclusion in the subset 110 of . For example, in some implementations, the second subset selection component 508 is configured to select any simulation candidates determined to exhibit molecular interaction/behavioral properties of one or more targets. can In other implementations, the second subset selection component 508 is determined to exhibit one or more target molecule interaction/behavior characteristics that are consistent, or have sufficient propensity, or both. It can be configured to select one or more simulated candidates (eg, for a defined threshold to measure consistent or sufficient trend). In another example implementation, the second subset selection component 508 selects the "best" one or more target molecule interaction/behavior properties as measured using the defined evaluation scheme. can be configured to select one or more simulated candidates determined to be shown in . In this regard, evaluation schemes and selection criteria can vary based on the type of molecular interaction/behavioral properties evaluated or the manner in which they can be measured.

候補AI設計分子が候補AMPsである1つ又はそれ以上の例示的な実施形態においては、候補ペプチドが有望な抗微生物性であるか否かをスクリーニングするために、シミュレーション実行コンポーネント502は、第1のサブセット106に含まれる候補ペプチドのそれぞれと、病原体のモデル脂質二重層又は別の細胞成分との間の相互作用のコンピュータ・シミュレーション(例えばCGMDシミュレーションなど)を動作することができる。脂質二重層は、脂質の混合物から構成されることができる。例えば、候補ペプチドは、その所与のタンパク・シーケンスのペプチドの好適な全原子表現(例えば、アルファらせん又はランダムコイル)でモデル化されることができる。モデル脂質二重層はさらに、力場モデル(例えば粗視化力場モデルなど)を使用してモデル化することができる。モデル化されたペプチド構造はさらに、粗視化表現へと変換されると共に、細胞膜モデルと組み合わされて、シミュレーションのための粗視化のペプチド-細胞膜システムを生成することができる。 In one or more exemplary embodiments in which the candidate AI design molecules are candidate AMPs, to screen candidate peptides for potential antimicrobial properties, simulation execution component 502 first A computer simulation (eg, a CGMD simulation, etc.) of the interaction between each of the candidate peptides contained in the subset 106 of the pathogen and a model lipid bilayer or another cellular component of the pathogen can be run. A lipid bilayer can be composed of a mixture of lipids. For example, a candidate peptide can be modeled with a suitable all-atom representation (eg, alpha helix or random coil) of the peptide of that given protein sequence. A model lipid bilayer can be further modeled using a force field model, such as a coarse-grained force field model. The modeled peptide structure can be further converted to a coarse-grained representation and combined with the cell membrane model to generate a coarse-grained peptide-cell membrane system for simulation.

例えば図6は、1つ又はそれ以上の実施形態によるAMPの粗視化分子動力学シミュレーションのスナップショットを提供する。このシミュレーションにおいて、モデル化されたペプチドは、モデル化された脂質二重層に結合され、これはこの実施例におけるシミュレーションは、フォスファチジルコリン(POPC)及びパルミトイル-オレオイルPG(POPG)の3:1の混合物である。図6は、モデル化されたペプチド及びモデル化された細胞膜を使用するCGMDシミュレーションを図示する。これらのシミュレーションにしたがって、それぞれの候補ペプチドは、1.0マイクロセコンド(μs)にわたり細胞膜と相互作用される。この相互作用の物理動力学がその後評価されて、相互作用が、ペプチドが抗微生物活性を提供することを示すことを示すか否かを判断する。 For example, FIG. 6 provides a snapshot of a coarse-grained molecular dynamics simulation of AMPs according to one or more embodiments. In this simulation, the modeled peptides were bound to a modeled lipid bilayer, which in this example simulated phosphatidylcholine (POPC) and palmitoyl-oleoyl PG (POPG) 3: 1. FIG. 6 illustrates a CGMD simulation using modeled peptides and modeled cell membranes. According to these simulations, each candidate peptide interacts with the cell membrane for 1.0 microseconds (μs). The physical kinetics of this interaction is then evaluated to determine whether the interaction indicates that the peptide provides antimicrobial activity.

1つ又はそれ以上の実施形態においては、上述のコンピュータ・シミュレーションに基づく抗微生物傾向を評価するために使用されるターゲット相互作用/挙動は、ペプチドと、細胞膜との間の接触/タッチ・ポイントの数、及びそれらの接触の安定性に基づくことができる。この点において、図5Bを参照してより詳細に説明されたように、抗微生物傾向は、接触の数及び接触の安定性に強く相関することが見い出され、ここで、接触の数が多くなり、かつこれらの接触の安定性が大きくなると、抗微生物傾向の可能性がより高くなった。接触は、ペプチドの正の残基と細胞膜との間の接触を含むことができる。1つ又はそれ以上の実装において、正の残基と脂質細胞膜との間の接触の数は、ペプチドの正の残基から7.5Å未満の距離の脂質に含まれる原子の数として定義される。接触の安定性は、接触の数の違いの関数として測定されることができ、ここで、違いが少なくなると、安定性が高くなり、かつしたがって強力な抗微生物活性のより高い指標となる。 In one or more embodiments, the target interaction/behavior used to assess antimicrobial propensity based on the computer simulations described above is the contact/touch point between the peptide and the cell membrane. number, and the stability of their contacts. In this regard, as explained in more detail with reference to FIG. 5B, the antimicrobial propensity was found to be strongly correlated with the number of contacts and the stability of the contacts, where the number of contacts increased. , and the greater the stability of these contacts, the greater the potential for antimicrobial propensity. Contacts can include contacts between the positive residues of the peptide and the cell membrane. In one or more implementations, the number of contacts between the positive residue and the lipid cell membrane is defined as the number of atoms contained in the lipid that are less than 7.5 Å from the positive residue of the peptide. . Contact stability can be measured as a function of the difference in the number of contacts, where less difference is a higher stability and thus a higher indicator of potent antimicrobial activity.

図7は、1つ又はそれ以上の実施形態による候補AMPsについての実施例のシミュレーション結果を提示する表700を提供する。表700は、それぞれ第1のカラム内に識別された複数の実施例の候補ペプチド・シーケンスについてのコンピュータ・シミュレーションの結果を提供する。それぞれのシーケンスについてのペプチド長、それらのそれぞれの2次構造及び正の残基の数が、第2、第3及び第4カラムにそれぞれ含まれている。第5カラムは、接触の数の標準偏差(std)を提供し、これは、接触の数の違いに対応する。第6カラムは、接触の数の平均を提供する。第7カラムは、ナノセコンド(ns)での結合時間を提供する。結合時間は、ペプチドがシミュレーションの開始の後、接触を形成するまでの時間間隔である。図示する実施形態においては、全実施例のペプチドがそれらの接触を500(ns)未満で形成した(これは、好ましく、かつまたフィルタリング基準として使用することができる)。 FIG. 7 provides a table 700 presenting example simulation results for candidate AMPs in accordance with one or more embodiments. Table 700 provides computer simulation results for a plurality of example candidate peptide sequences each identified in the first column. The peptide lengths, their respective secondary structures and the number of positive residues for each sequence are included in the second, third and fourth columns, respectively. The fifth column provides the standard deviation (std) of the number of contacts, which corresponds to the difference in the number of contacts. The sixth column provides the average number of contacts. The seventh column provides the binding time in nanoseconds (ns). Binding time is the time interval for the peptides to form contacts after the start of the simulation. In the illustrated embodiment, all example peptides made their contacts in less than 500 (ns), which is preferred and can also be used as a filtering criterion.

再度図5Aを参照して、図7を見ると、AMP候補スクリーニング実施例の促進において、シミュレーション評価コンポーネント504は、脂質と、それぞれの候補ペプチドの正の残基との間の接触の数及び接触の数の違いを識別するシミュレーション結果(表700で提供されたもの)を判断するか又は受領するか又はこれらの両方が可能である。いくつかの実装において、シミュレーション結果はまた、結合時間を含むことができ、これはさらに、上述したようにフィルタリング基準として使用されることができる。第2のサブセット選択コンポーネント508はさらに、接触の数、違いの値、又は結合時間又はこれらの組みあわせに基づいて判断されるように、矛盾ない細胞膜相互作用の傾向を示す1つ又はそれ以上の候補ペプチドを選択することができる。例えば、1つ又はそれ以上の実施形態においては、第2のサブセット選択コンポーネント508は、定義された違いの許容できる基準を使用することができると共に、それらの違いの値、接触の数、又は結合時間又はこれらの組みあわせが定義された許容性基準を満たす、それらの候補ペプチドのみを選択することができる。いくつかの実装においては、定義された許容性基準は、2.0ビーズ未満の違いの数(すなわち、標準偏差)、5.0以上の接触の数(シミュレーションの期間にわたった平均)、及び1.0μsの長さのシミュレーション時間の間でのそれらの結合時間が500ns未満(例えばこのため接触の違いが全シミュレーション時間の少なくとも半分を超えて計算される)を要求することができる。 Referring again to FIG. 5A and looking at FIG. 7, in facilitating the AMP candidate screening embodiment, the simulation evaluation component 504 calculates the number of contacts between the lipids and the positive residues of each candidate peptide and the contact It is possible to determine and/or receive simulation results (provided in table 700) that identify differences in the number of . In some implementations, the simulation results can also include binding times, which can also be used as filtering criteria as described above. The second subset selection component 508 further includes one or more subgroups exhibiting a propensity for consistent cell membrane interactions as determined based on number of contacts, difference value, or binding time or a combination thereof. Candidate peptides can be selected. For example, in one or more embodiments, the second subset selection component 508 can use the defined difference acceptable criteria and their difference value, number of contacts, or combination Only those candidate peptides meeting defined acceptance criteria for time or a combination thereof can be selected. In some implementations, defined acceptability criteria are the number of differences (i.e., standard deviation) less than 2.0 beads, the number of contacts greater than or equal to 5.0 (average over the period of the simulation), and It may be required that their coupling time during a simulation time of 1.0 μs length be less than 500 ns (eg, so that contact differences are calculated over at least half of the total simulation time).

ここで、図5Bを参照すると,提示されるものは、1つ又はそれ以上の追加的な実施形態によるシミュレーション・ベースのスクリーニング・コンポーネント204の別の実施例である。それぞれの実施形態において利用されるそれぞれの同様な要素又はプロセス又はそれらの組み合わせのそれぞれの説明は、簡略化の目的のため、省略する。 Referring now to FIG. 5B, presented is another example of simulation-based screening component 204 in accordance with one or more additional embodiments. Each description of each similar element or process or combination thereof utilized in each embodiment is omitted for purposes of brevity.

候補AMPsのシミュレーション・ベースのスクリーニングを指向する上述した実施形態においては、我々が評価し、かつ使用して候補AI設計分子の第2のサブセットを選択した実施例及びターゲット分子相互作用特徴/挙動は、ペプチドと、細胞膜との間の接触/タッチ・ポイントの数、及びこれらの接触の安定性(接触の数における違いにおいて測定された)を含む。これらのターゲット特徴は、抗微生物性を有することが既知であり、かつペプチド・シーケンスが抗微生物活性を欠落していることが既知である既知のペプチド・シーケンスに対して適用されると同様の同一の分子モデリング・シミュレーションを使用するテスト・シミュレーションを動作することにより発見されたが、これは分子シミュレーションを使用して抗微生物性の候補をスクリーニングするための標準化されたプロトコルが全く存在しないことによる。 In the above-described embodiment directed to simulation-based screening of candidate AMPs, the examples and target molecule interaction features/behaviors that we evaluated and used to select a second subset of candidate AI design molecules are: , the number of contacts/touch points between the peptide and the cell membrane, and the stability of these contacts (measured in the difference in number of contacts). These target features are identical as applied to known peptide sequences known to have antimicrobial properties and peptide sequences known to lack antimicrobial activity. The discovery was made by running test simulations using molecular modeling simulations of molecular simulations, due to the complete lack of standardized protocols for screening antimicrobial candidates using molecular simulations.

ポジティブ及びネガティブな抗微生物ペプチドの両方についてテストを動作させた結果の分析に基づいて、上述した特定のターゲット特徴が最初に識別された。この点において、テスト・シミュレーション動作は、正の残基と、細胞膜脂質との間の接触の数の違いが抗微生物活性を予測することを示した。 Based on the analysis of the results of running tests on both positive and negative antimicrobial peptides, the specific target features described above were first identified. In this regard, test simulation behavior showed that differences in the number of contacts between positive residues and cell membrane lipids were predictive of antimicrobial activity.

特に図8は、利用可能なAMPシーケンスを検出するための特徴として、ペプチド-細胞膜接触の違いを使用するシミュレーション・ベースの分類器の実施例の混乱行列600を提示する。混乱行列600は、上述したシミュレーション単独から導出された接触の違いの特徴を使用することにより、我々は、88%の精度で抗微生物性を予測できることを示す。特に、接触の違いは、感度88%及び特異度63%で高い有効性と、非抗微生物性シーケンスとの間を区別する。物理的にこの特徴は、シーケンスのモデル細胞膜への堅牢な結合を測定するものとして解釈されることができる。 In particular, FIG. 8 presents a confusion matrix 600 of an example simulation-based classifier that uses peptide-cell membrane contact differences as a feature to detect available AMP sequences. The confusion matrix 600 shows that by using the contact difference features derived from the simulation alone described above, we can predict antimicrobial activity with 88% accuracy. In particular, contact differences discriminate between high efficacy with a sensitivity of 88% and a specificity of 63% and non-antimicrobial sequences. Physically this feature can be interpreted as measuring the robust binding of the sequence to model cell membranes.

種々の実施形態においては、このテスト・シミュレーション・プロセスは、シミュレーション実行コンポーネント502及び特徴選択コンポーネント512を使用するシミュレーション・ベースのスクリーニング・コンポーネント204によって実行されるか、又は容易とされるか、又はそれらの両方がなされる。このテスト・シミュレーション・プロセスはまた、種々の異なるターゲット生物学的活性についての他のタイプのAI設計分子をシミュレーション・スクリーニングするプロセスのためのターゲット特徴を判断するために使用されることができる。 In various embodiments, this test simulation process is performed or facilitated by or facilitated by simulation-based screening component 204 using simulation execution component 502 and feature selection component 512 . both are done. This test simulation process can also be used to determine target characteristics for the process of simulation screening other types of AI-designed molecules for a variety of different target biological activities.

この点において、いくつかの実施形態においては、高スループットのコンピュータ・シミュレーションをトレーニングすることは、AI設計分子(例えば、AI設計分子が医薬品である実装において、所望する生物学的活性)のターゲット活性を達成することに有効であることが既知の及び任意的に有効ではないテスト分子を含むテスト分子について実行されて、ターゲット活性を達成することにおいて有効性に相関する1つ又はそれ以上の挙動的特性を識別することができる。これらの1つ又はそれ以上の挙動的特徴は、コンピュータ・シミュレーションが候補の未知シーケンスについて動作される場合に、候補の第2のサブセット110を評価(例えば、シミュレーション評価コンポーネント504によって)及び選択する(例えば第2のサブセット選択コンポーネント508によって)ために使用される1つ又はそれ以上のターゲット特徴として使用されることができる。 In this regard, in some embodiments, training a high-throughput computer simulation is performed to determine the target activity of an AI-designed molecule (e.g., a desired biological activity in implementations where the AI-designed molecule is a pharmaceutical). One or more behavioral tests that correlate with effectiveness in achieving a target activity are performed on test molecules known to be effective in achieving and optionally including test molecules that are not effective characteristics can be identified. These one or more behavioral features are evaluated (e.g., by the simulation evaluation component 504) and selected (e.g., by the simulation evaluation component 504) and selected ( for example, by the second subset selection component 508).

これらの実施形態と共に、シミュレーション実行コンポーネント502は、AI設計分子の候補の初期セットに対応するか、又はより特定的には、それらの生物学的活性の状態が既知の(例えば、抗微生物活性/不活性状態)候補AI設計分子の第1のサブセットに対応するテスト分子510を受領(そうでなければアクセス)することができる。この点において、テスト分子510は、ターゲットの生物学的活性を提供することが既知の分子、及びターゲットの生物学的活性を提供しないことが既知の両方の分子を含むことができる。シミュレーション実行コンポーネント502はさらに、第1のサブセット106に対して使用されるであろうと同一のコンピュータ・シミュレーション(例えばシミュレーション・プログラム506によって提供される)をテスト分子510に適用するように構成されることができる。テスト分子に対するシミュレーションはさらに評価されて、評価されるべきAI設計分子によって提供されることが期待されるターゲットの生物学的活性(例えば抗微生物活性、抗ウィルス活性など)に相関する1つ又はそれ以上のターゲット特徴/又は特性を識別する。例えば、上述したAMRシミュレーションの実施形態について、選択された特徴は、接触の数の違いを含んでいた。一度識別されると、これらの特徴はその後、ターゲット特徴(例えば、脂質と、ペプチドの正の残基との間の接触の数)に基づいてそれらを分類すると共に、ラボラトリ試験のための候補の第2のサブセット110を選択するために使用されることができる。 With these embodiments, the simulation execution component 502 corresponds to an initial set of candidate AI design molecules, or more specifically, their biological activity status is known (e.g., antimicrobial activity/ Inactive state) Test molecules 510 corresponding to a first subset of candidate AI design molecules can be received (or otherwise accessed). In this regard, test molecules 510 can include both molecules known to provide target biological activity and molecules known not to provide target biological activity. Simulation execution component 502 is further configured to apply the same computer simulation (eg, provided by simulation program 506) to test molecules 510 that would be used for first subset 106; can be done. The simulations for the test molecules are further evaluated to correlate one or more of the target biological activities (e.g., antimicrobial activity, antiviral activity, etc.) expected to be provided by the AI-designed molecule to be evaluated. Identify the above target features/characteristics. For example, for the AMR simulation embodiment described above, the features selected included differences in the number of contacts. Once identified, these features are then used to classify them based on target features (e.g., number of contacts between lipids and positive residues of peptides), as well as candidates for laboratory testing. Can be used to select the second subset 110 .

図5Bの実施形態においては、シミュレーション・ベースのスクリーニング・コンポーネント204はさらに、特徴選択コンポーネント512を含み、ポジティブ及びネガティブなテスト分子についての試験シミュレーションの分析に基づいて、これらのターゲット特徴の識別を容易にすることができる。この点において、特徴選択コンポーネント512は、1つ又はそれ以上の機械学習技術を使用して、試験シミュレーション・データに基づいて、評価されるべきAI設計分子のターゲット生物学的活性(例えば抗微生物活性、抗ウィルス活性など)に相関するターゲット特徴/又は特性を識別することができる。機械学習技術は、教師あり機械学習技術、半教師あり機械学習技術、教師なし機械学習技術又はこれらの組み合わせを含むことができる。例えば、機械学習技術は、エキスパート・システム、ファジー・ロジック、SVMs、隠れマルコフ・モデル(HMMs)、グリーディ検索アルゴリズム、ルール・ベース・システム、ベイジアン・モデル(例えばベイジアン・ネットワーク)、ニューラル・ネットワーク、他の非線形トレーニング技術、データ・フュージョン、ユーティリティ・ベースの分析システム、ベイジアン・モデルを使用するシステムなどに加えて、本明細書で説明した種々の分類技術の使用を含むことができる。 In the embodiment of FIG. 5B, simulation-based screening component 204 further includes feature selection component 512 to facilitate identification of these target features based on analysis of test simulations for positive and negative test molecules. can be In this regard, the feature selection component 512 uses one or more machine learning techniques to determine the target biological activity (e.g., antimicrobial activity) of the AI-designed molecule to be evaluated based on the test simulation data. , antiviral activity, etc.) can be identified. Machine learning techniques may include supervised machine learning techniques, semi-supervised machine learning techniques, unsupervised machine learning techniques, or combinations thereof. For example, machine learning techniques include expert systems, fuzzy logic, SVMs, hidden Markov models (HMMs), greedy search algorithms, rule-based systems, Bayesian models (e.g. Bayesian networks), neural networks, etc. non-linear training techniques, data fusion, utility-based analysis systems, systems using Bayesian models, etc., as well as the use of various classification techniques described herein.

図9は、1つ又はそれ以上の実施形態によるラボラトリ試験のためにAI設計分子をフィルタリングするための実施例の、非限定的なコンピュータ実装方法900のハイレベルのフロー図を示す。それぞれの実施形態において利用されるそれぞれの同様な要素又はプロセス又はそれらの組み合わせのそれぞれの説明は、簡略化の目的のため、省略する。 FIG. 9 depicts a high-level flow diagram of an example, non-limiting, computer-implemented method 900 for filtering AI-designed molecules for laboratory testing in accordance with one or more embodiments. Each description of each similar element or process or combination thereof utilized in each embodiment is omitted for purposes of brevity.

902で、プロセッサに動作的に結合されたシステム(例えばシステム200など)は、プロセッサに動作的に結合されたシステムにより、1つ又はそれ以上の分類器(例えば、ヒューリスティックス・ベースのスクリーニング・コンポーネント202を使用する)を使用して、AI設計分子の分類に基づいて候補医薬としてのAI設計分子のセットから人工知能(AI)設計された分子の第1のサブセットを選択する。904で、システムは、1つ又はそれ以上のコンピュータ・シミュレーション(例えば、シミュレーション・ベースのスクリーニング・コンポーネント204を使用する)を使用して候補医薬と、1つ又はそれ以上の生物学的ターゲット(例えば、病原体の1つ又はそれ以上の細胞成分)との間の分子相互作用に基づいてウェット・ラボラトリ試験のための候補医薬の第2のサブセットを選択する。 At 902, a system (e.g., system 200) operatively coupled to a processor identifies one or more classifiers (e.g., heuristics-based screening component 202) by the system operatively coupled to the processor. ) is used to select a first subset of artificial intelligence (AI)-designed molecules from the set of AI-designed molecules as candidate drugs based on the classification of the AI-designed molecules. At 904, the system uses one or more computer simulations (eg, using simulation-based screening component 204) to identify drug candidates and one or more biological targets (eg, , one or more cellular components of the pathogen) to select a second subset of candidate drugs for wet laboratory testing.

図10は、1つ又はそれ以上の実施形態によるラボラトリ試験のためのAI設計された抗微生物分子の候補をフィルタリングするための実施例の、非限定的なコンピュータ実装方法1200のハイレベルのフロー図を示す。それぞれの実施形態において利用されるそれぞれの同様な要素又はプロセス又はそれらの組み合わせのそれぞれの説明は、簡略化の目的のため、省略する。 FIG. 10 is a high-level flow diagram of an example, non-limiting, computer-implemented method 1200 for filtering candidate AI-designed antimicrobial molecules for laboratory testing in accordance with one or more embodiments. indicate. Each description of each similar element or process or combination thereof utilized in each embodiment is omitted for purposes of brevity.

1002において、プロセッサに動作的に結合されたシステム(例えばシステム200など)は、第1のAI設計分子が:AMP、ブロード・スペクトラムの抗微生物性、無毒性又は構造化されたうちの1つ又はそれ以上のであるとのAI設計分子の判断に基づいて、AI設計分子のセットから第1の人工知能(AI)設計分子の第1のサブセットを選択(例えばヒューリスティックス・ベースのスクリーニング・コンポーネント202を使用して)することができる。例えば、1つ又はそれ以上の実施形態においてはヒューリスティックス・ベースのスクリーニング・コンポーネント202は、1つ又はそれ以上のトレーニングされた分類器を使用して、初期セットに含まれるそれぞれ(またはいくつかの実装においては1つ又はそれ以上)の候補AI設計分子がAMPであるか否か、ブロード・スペクトラムであるか否か、毒性であるか否か、又は構造化されているか否か又はこれらの組み合わせであるか否かを、図3A、図3B、及び図4を参照して説明されたように判断することができる。1004で、システムは、第2のAI設計分子が病原体の細胞成分について相互作用する傾向の定義されたレベルを有することの第2の判断に基づいて、ウェット・ラボラトリ試験のために第1のサブセットから第2のAI設計分の第2のサブセットを選択することができる(例えば、シミュレーション・ベースのスクリーニング・コンポーネント204を使用する)。例えば、1つ又はそれ以上の実施形態においては、図5A~8を参照して上述したように、シミュレーション・ベースのスクリーニング・コンポーネント204は、病原体のモデル化された細胞成分(例えば、脂質二重層又は別の細胞成分)について、第1のサブセット内の候補ペプチドのそれぞれについての分子動力学の1つ又はそれ以上のコンピュータ・シミュレーションを使用して、接触の違いの関数としてそれらの相互作用の傾向を判断することができる。 At 1002, a system (such as system 200) operatively coupled to a processor determines whether the first AI-designed molecule is one of: AMP, broad-spectrum antimicrobial, non-toxic, or structured; Select a first subset of first artificial intelligence (AI)-designed molecules from the set of AI-designed molecules based on the determination of the AI-designed molecules to be greater (e.g., using heuristics-based screening component 202). can be done). For example, in one or more embodiments, heuristics-based screening component 202 uses one or more trained classifiers to classify each (or in some implementations) included in the initial set. whether the candidate AI design molecule is AMP, broad spectrum, toxic, or structured, or combinations thereof. Whether there is can be determined as described with reference to FIGS. 3A, 3B, and 4 . At 1004, the system selects a first subset for wet laboratory testing based on a second determination that the second AI-designed molecule has a defined level of propensity to interact with cellular components of the pathogen. can select a second subset of second AI designs from (eg, using simulation-based screening component 204). For example, in one or more embodiments, as described above with reference to FIGS. or another cellular component), using one or more computer simulations of molecular dynamics for each of the candidate peptides in the first subset, the propensity of their interaction as a function of contact differences. can be judged.

本明細書で説明したスクリーニング技術は、利用可能な候補を識別するための数千のAI設計されたAMPsのスクリーニングに適用された場合に成功することが証明された。特に、開示されたスクリーニング技術は、Conditional Latent (attribute) Space Sampling,又はCLaSSとして参照されるAIベースのペプチド設計方法を使用して生成された、約100,000の候補ペプチドの初期セットに適用された。ClaSS設計方法は、候補AMPsを生成するためのニューラル生成的モデルを使用する、インフォマティブ・ラテント・スペース学習(informative latent space learned)からのアトリビュート条件付け/制御サンプリングを使用する。 The screening techniques described herein have proven successful when applied to screen thousands of AI-designed AMPs to identify available candidates. In particular, the disclosed screening techniques were applied to an initial set of approximately 100,000 candidate peptides generated using an AI-based peptide design method referred to as Conditional Latent (attribute) Space Sampling, or CLaSS. rice field. The ClaSS design method uses attribute conditioning/control sampling from informative latent space learned using neural generative models to generate candidate AMPs.

100,000の候補ペプチドの初期セットが、ヒューリスティックス・ベースのスクリーニング・プロセスを使用して163候補ペプチドに削減された。実験的な確認のために初期の100,000のCLaSSで生成されたAMPシーケンスをスクリーニングするため、上述したヒューリスティックス・ベースのスクリーニング・プロセスにしたがって、4つのバイナリ(yes/no)シーケンス・レベルのニューラル・ネットワーク分類器の独立したセットが使用されて、毒性に加えて抗微生物機能、ブロード・スペクトラム効能(例えばグラム陽性及びグラム陰性の特徴の両方についての活性)、二次構造の存在を予測した。双方向LSTMベースの分類器は、隠れレイヤのサイズが100、及び0.3のドロップアウトで、既知のペプチド・シーケンスについてのラベル付けされたトレーニング・データセットについての4つのアトリビュートのそれぞれについてトレーニングされた。スコアの分布(分類確率/ロジット)に基づいて、閾値がスコアの50thのパーセンタイル(メジアン)を考慮して判断された。スクリーニング基準が初期の100,000の利用可能な候補から候補の第1のサブセットを選択するために使用され、それ故に4つのアトリビュート全部が考慮された。
163候補が、本スクリーニングを通過した。
An initial set of 100,000 candidate peptides was reduced to 163 candidate peptides using a heuristics-based screening process. To screen the initial 100,000 CLaSS-generated AMP sequences for experimental confirmation, four binary (yes/no) sequence-level neural • An independent set of network classifiers was used to predict antimicrobial function, broad spectrum efficacy (e.g., activity for both Gram-positive and Gram-negative features), presence of secondary structure, in addition to toxicity. A bidirectional LSTM-based classifier was trained on each of the four attributes on a labeled training dataset on known peptide sequences with a hidden layer size of 100 and a dropout of 0.3. rice field. Based on the distribution of scores (class probability/logit), thresholds were determined considering the 50th percentile (median) of scores. Screening criteria were used to select a first subset of candidates from the initial 100,000 available candidates, thus all four attributes were considered.
163 candidates passed this screen.

163候補ペプチドは、その後、ペプチド-細胞膜相互作用の粗視化分子動力学(CGMD)シミュレーションが適用されて、上述したシミュレーション・ベースのスクリーニング・プロセスにしたがって細胞膜結合傾向について試験した。シミュレーション・ベースのスクリーニングは、コンピュータ・シミュレーションにおいて高く、かつ矛盾のない細胞膜結合活性を示す20のリード候補ペプチドの識別をもたらした。これらのトップ20のペプチドは、以下のシーケンスを有する(3文字コードで示し、カッコ内に1文字コードで示す):
Tyr Leu Arg Leu Ile Arg Tyr Met Ala Lys Met Ile (YLRLIRYMAKMI) (SEQ ID NO: 1)、
Phe Pro Leu Thr Trp Leu Lys Trp Trp Lys Trp Lys Lys (FPLTWLKWWKWKK) (SEQ ID NO: 2)、
His Ile Leu Arg Met Arg Ile Arg Gln Met Met Thr (HILRMRIRQMMT) (SEQ ID NO: 3)、
Ile Leu Leu His Ala Ile Leu Gly Val Arg Lys Lys Leu (ILLHAILGVRKKL) (SEQ ID NO: 4)、
Tyr Arg Ala Ala Met Leu Arg Arg Gln Tyr Met Met Thr (YRAAMLRRQYMMT) (SEQ ID NO: 5)、
His Ile Arg Leu Met Arg Ile Arg Gln Met Met Thr (HIRLMRIRQMMT) (SEQ ID NO: 6)、
His Ile Arg Ala Met Arg Ile Arg Ala Gln Met Met Thr (HIRAMRIRAQMMT) (SEQ ID NO: 7)、
Lys Thr Leu Ala Gln Leu Ser Ala Gly Val Lys Arg Trp His (KTLAQLSAGVKRWH) (SEQ ID NO: 8)、
His Ile Leu Arg Met Arg Ile Arg Gln Gly Met Met Thr (HILRMRIRQGMMT) (SEQ ID NO: 9)、
His Arg Ala Ile Met Leu Arg Ile Arg Gln Met Met Thr (HRAIMLRIRQMMT) (SEQ ID NO: 10)、
Glu Tyr Leu Ile Glu Val Arg Glu Ser Ala Lys Met Thr Gln (EYLIEVRESAKMTQ) (SEQ ID NO: 11)、
Gly Leu Ile Thr Met Leu Lys Val Gly Leu Ala Lys Val Gln (GLITMLKVGLAKVQ) (SEQ ID NO: 12)、
Tyr Gln Leu Leu Arg Ile Met Arg Ile Asn Ile Ala (YQLLRIMRINIA) (SEQ ID NO: 13)、
Val Arg Trp Ile Glu Tyr Trp Arg Glu Lys Trp Arg Thr (VRWIEYWREKWRT) (SEQ ID NO: 14)、
Leu Ile Gln Val Ala Pro Leu Gly Arg Leu Leu Lys Arg Arg (LIQVAPLGRLLKRR) (SEQ ID NO: 15)、
Tyr Gln Leu Arg Leu Ile Met Lys Tyr Ala Ile (YQLRLIMKYAI) (SEQ ID NO: 16)、
Tyr Gln Leu Arg Leu Ile Met Lys Tyr Ala Ile (HRALMRIRQCMT) (SEQ ID NO: 17)、
Gly Trp Leu Pro Thr Glu Lys Trp Arg Lys Leu Cys (GWLPTEKWRKLC) (SEQ ID NO: 18)、
Tyr Gln Leu Arg Leu Met Arg Ile Met Ser Arg Ile (YQLRLMRIMSRI) (SEQ ID NO: 19)、及びLeu Arg Pro Ala Phe Lys Val Ser Lys (LRPAFKVSK) (SEQ ID NO: 20)、
及びそれらの従来の修飾バリアント。
The 163 candidate peptides were then subjected to coarse-grained molecular dynamics (CGMD) simulations of peptide-cell membrane interactions to test for cell membrane binding propensity according to the simulation-based screening process described above. A simulation-based screen resulted in the identification of 20 lead candidate peptides that exhibited high and consistent cell membrane binding activity in computer simulations. These top 20 peptides have the following sequences (shown in 3-letter code, shown in brackets in 1-letter code):
Tyr Leu Arg Leu Ile Arg Tyr Met Ala Lys Met Ile (YLRLIRYMAKMI) (SEQ ID NO: 1),
Phe Pro Leu Thr Trp Leu Lys Trp Trp Lys Trp Lys Lys (FPLTWLKWWKWKK) (SEQ ID NO: 2),
His Ile Leu Arg Met Arg Ile Arg Gln Met Met Thr (HILRMRIRQMMT) (SEQ ID NO: 3),
Ile Leu Leu His Ala Ile Leu Gly Val Arg Lys Lys Leu (ILLHAILGVRKKL) (SEQ ID NO: 4),
Tyr Arg Ala Ala Met Leu Arg Arg Gln Tyr Met Met Thr (YRAAMLRRQYMMT) (SEQ ID NO: 5),
His Ile Arg Leu Met Arg Ile Arg Gln Met Met Thr (HIRLMRIRQMMT) (SEQ ID NO: 6),
His Ile Arg Ala Met Arg Ile Arg Ala Gln Met Met Thr (HIRAMRIRAQMMT) (SEQ ID NO: 7),
Lys Thr Leu Ala Gln Leu Ser Ala Gly Val Lys Arg Trp His (KTLAQLSAGVKRWH) (SEQ ID NO: 8),
His Ile Leu Arg Met Arg Ile Arg Gln Gly Met Met Thr (HILRMRIRQGMMT) (SEQ ID NO: 9),
His Arg Ala Ile Met Leu Arg Ile Arg Gln Met Met Thr (HRAIMLRIRQMMT) (SEQ ID NO: 10),
Glu Tyr Leu Ile Glu Val Arg Glu Ser Ala Lys Met Thr Gln (EYLIEVRESAKMTQ) (SEQ ID NO: 11),
Gly Leu Ile Thr Met Leu Lys Val Gly Leu Ala Lys Val Gln (GLITMLKVGLAKVQ) (SEQ ID NO: 12),
Tyr Gln Leu Leu Arg Ile Met Arg Ile Asn Ile Ala (YQLLRIMRINIA) (SEQ ID NO: 13),
Val Arg Trp Ile Glu Tyr Trp Arg Glu Lys Trp Arg Thr (VRWIEYWREKWRT) (SEQ ID NO: 14),
Leu Ile Gln Val Ala Pro Leu Gly Arg Leu Leu Lys Arg Arg (LIQVAPLGRLLKRR) (SEQ ID NO: 15),
Tyr Gln Leu Arg Leu Ile Met Lys Tyr Ala Ile (YQLRLIMKYAI) (SEQ ID NO: 16),
Tyr Gln Leu Arg Leu Ile Met Lys Tyr Ala Ile (HRALMRIRQCMT) (SEQ ID NO: 17),
Gly Trp Leu Pro Thr Glu Lys Trp Arg Lys Leu Cys (GWLPTEKWRKLC) (SEQ ID NO: 18),
Tyr Gln Leu Arg Leu Met Arg Ile Met Ser Arg Ile (YQLRLMRIMSRI) (SEQ ID NO: 19) and Leu Arg Pro Ala Phe Lys Val Ser Lys (LRPAFKVSK) (SEQ ID NO: 20),
and conventional modified variants thereof.

図11は、ヒューリスティックス・ベースのスクリーニング・プロセスの後に選択された、163候補ペプチドから選択されたトップ20のCLaSS生成されたAMPsについてのシミュレーション結果を表示する表1100を提供する。表1100は、ペプチドと細胞膜との相互作用のCGMDシミュレーションから抽出されたように、正のアミノ酸と、細胞膜のビーズとの間の接触の数の平均及び違いといった(すなわち、微生物機能に関連することが見いだされた)、シミュレーション・ベースのスクリーニングの物理的に導出された特徴を提示する。163候補をさらにフィルタリングするために使用された基準は、2.0ビーズ未満の違いの値(すなわち、標準偏差)、5.0以上の接触の数(シミュレーションの期間にわたった平均)、及び1.0μs長さのシミュレーション時間の間でのそれらの結合時間が500ns未満を要求した。CLaSS生成方法の組み合わせに基づいて、MLヒューリスティックス・ベースのスクリーニング・プロセス及び分子シミュレーション結果に基づいて、これらのトップ20のペプチドは、強力な抗微生物活性又は挙動を示し、かつかくしてブロード・スペクトラムの抗微生物薬が有望である。これらのトップ20のペプチドは、さらに低毒性を有するものとして特徴付けられる。 FIG. 11 provides a table 1100 displaying simulation results for the top 20 CLaSS-generated AMPs selected from 163 candidate peptides selected after a heuristics-based screening process. Table 1100 shows the averages and differences in the number of contacts between positive amino acids and beads on cell membranes, as extracted from CGMD simulations of peptide-cell membrane interactions (i.e., those relevant to microbial function). was found), presenting physically derived features of simulation-based screening. Criteria used to further filter the 163 candidates were a difference value (i.e., standard deviation) of less than 2.0 beads, a number of contacts greater than or equal to 5.0 (average over the period of the simulation), and a value of 1 Their coupling time was required to be less than 500 ns during a simulation time of .0 μs length. Based on a combination of CLaSS generation methods, ML heuristics-based screening process and molecular simulation results, these top 20 peptides exhibit potent antimicrobial activity or behavior and thus broad-spectrum antimicrobial activity. Antibiotics are promising. These top 20 peptides are further characterized as having low toxicity.

トップ20のリード候補ペプチドは、その後、合成され、抗微生物活性及び毒性についてウェット・ラボラトリ実験を使用して試験された。これらの20のリード・ペプチドのうちの、2つの新規なAMPsが最も高い抗微生物活性を有することが識別された。これらの2つの新規なAMPsは、強力なブロード・スペクトラムの抗微生物活性を有し、かつin-vitro及びin-vivoにおいて低毒性を有することが実験的に確認された。新規のAMPsの両方は、初期の候補CLaSSペプチドを設計するために使用された教師ありトレーニング・データには存在しなかった。これらの実験は、AI生成されたAMPシーケンスに対する開示された3ステージのスクリーニング・パイプライン(例えば、MLヒューリスティックス・スクリーニング、シミュレーション・スクリーニング、及びウェット・ラボラトリ・スクリーニング)が、最終ステージにおいて10のうちの1の成功率を与えることを示す。 Top 20 lead candidate peptides were then synthesized and tested for antimicrobial activity and toxicity using wet laboratory experiments. Of these 20 lead peptides, two novel AMPs were identified with the highest antimicrobial activity. These two novel AMPs were experimentally confirmed to have potent broad-spectrum antimicrobial activity and low toxicity in-vitro and in-vivo. Both of the novel AMPs were absent from the supervised training data used to design the initial candidate CLaSS peptides. These experiments demonstrate that the disclosed three-stage screening pipeline for AI-generated AMP sequences (e.g., ML heuristics screening, simulation screening, and wet laboratory screening) yields indicates that it gives a success rate of 1.

説明の簡略化のため、いくつかの環境において、コンピュータ実装方法論は、動作のシリーズとして図示され、かつ説明されることについて留意されたい。主題のイノベーションは、示された動作により又は動作の順序により、又はこれらの組み合わせによって限定されることはなく、例えば、動作は、種々の順序又は同時的に又はそれらの両方で、かつ本明細書において提示及び説明されていない他の動作と共に発生することができることについて、理解及び認識されるべきである。さらに、示された動作の全部は、開示される主題にしたがってコンピュータ実装方法論を実装するために必要とされることはない。追加的に、当業者は、コンピュータ実装方法論は、状態図又はイベントを介した相互関連状態のシリーズとして代替的に表現されることがあることについて、理解及び認識するであろう。追加的に、さらに、以下に、かつ本明細書を通して開示されたコンピュータ実装方法論は、コンピュータに対してそのようなコンピュータ実装方法論を送付すること及び転送することを容易にする製造品に格納されることができることについて認識されるべきであろう。本明細書に使用される用語、製造品は、如何なるコンピュータ可読なデバイス又は記録媒介からアクセス可能なコンピュータ・プログラムに及ぶことを意図する。 Note that, for simplicity of explanation, in some environments a computer-implemented methodology is illustrated and described as a series of acts. The subject innovation is not limited by the acts shown or by the order of acts, or by any combination thereof; It is to be understood and appreciated that other operations not presented and described in can occur with. Moreover, not all illustrated acts may be required to implement a computer-implemented methodology in accordance with the disclosed subject matter. Additionally, those skilled in the art will understand and appreciate that a computer-implemented methodology may alternatively be represented as a state diagram or a series of interrelated states via events. Additionally, furthermore, the computer-implemented methodologies disclosed below and throughout this specification may be stored in an article of manufacture that facilitates sending and transferring such computer-implemented methodologies to computers. should be aware of what can be done. The term article of manufacture as used herein is intended to cover a computer program accessible from any computer-readable device or storage medium.

図12は、本開示の主題の種々の側面についての非限定的なコンテキストを提供することができ、本開示の主題の種々の側面を実装することが可能な好適な環境の一般的説明を提供することを意図する。図12は、本明細書において説明された1つ又はそれ以上の実施形態を容易とすることができる実施例の非限定的な動作環境のブロック図を示す。それぞれの実施形態において利用されるそれぞれの同様な要素又はプロセス又はそれらの組み合わせのそれぞれの説明は、簡略化の目的のため、省略する。 FIG. 12 can provide non-limiting context for various aspects of the disclosed subject matter and provides a general description of a suitable environment in which various aspects of the disclosed subject matter can be implemented. intended to FIG. 12 illustrates a block diagram of an example non-limiting operating environment that can facilitate one or more embodiments described herein. Each description of each similar element or process or combination thereof utilized in each embodiment is omitted for purposes of brevity.

図12を参照すると、本開示の種々の側面を実装するための好適な動作環境1200はまた、コンピュータ1212を含むことができる。コンピュータ1212はまた、プロセッシング・ユニット1216、システムメモリ1214、及びシステムバス1218を含むことができる。システムバス1218は、これらに限定されないがシステムメモリ1214を含むシステム・コンポーネントをプロセッシング・ユニット1216に結合する。プロセシング・ユニット1216は、種々の利用可能なプロセッサの如何なるものとすることができる。デュアル・マイクロプロセッサ及び他のマルチプロセッサ・アーキテクチャはまた、プロセッシング・ユニット1216として利用することができる。システムバス1218は、メモリバス、又はメモリ・コントローラ、周辺バス又は外部バス、又はこれらに限定されないが、インダストリアル・スタンダード・アーキテクチャ(ISA)、マイクロ・チャネル・アーキテクチャ(MCA)、エクステンデットISA(EISA)、インテリジェント・ドライブ・エレクトロニクス(IDE)、VESAローカル・バス(VLB)、ペリフェラル・コンポーネント・インタコネクト(PCI)、カード・バス、ユニバーサル・シリアル・バス(USB)、アドバンスド・グラフィックス・ポート(AGP)、ファイアワイア(IEEE1394)、及びスモール・コンピュータ・システム・インタフェース(SCSI)を含む種々の如何なる利用可能なバス・アークテクチャを含む、バス構造(複数でもよい)のいくつかのタイプの如何なるものとすることができる。 Referring to FIG. 12, a suitable operating environment 1200 for implementing various aspects of the present disclosure can also include computer 1212 . Computer 1212 may also include processing unit 1216 , system memory 1214 , and system bus 1218 . A system bus 1218 couples system components including, but not limited to, system memory 1214 to processing unit 1216 . Processing unit 1216 can be any of a variety of available processors. Dual microprocessors and other multiprocessor architectures can also be utilized as processing unit 1216 . The system bus 1218 may be a memory bus or memory controller, peripheral or external bus, including but not limited to Industrial Standard Architecture (ISA), Micro Channel Architecture (MCA), Extended ISA (EISA), Intelligent Drive Electronics (IDE), VESA Local Bus (VLB), Peripheral Component Interconnect (PCI), Card Bus, Universal Serial Bus (USB), Advanced Graphics Port (AGP), Any of several types of bus structure(s), including any of the various available bus architectures including Firewire (IEEE 1394) and Small Computer Systems Interface (SCSI). can.

システムメモリ1214はまた、揮発性メモリ1220及び不揮発性メモリ1222を含むことができる。スタートアップなどの間にコンピュータ1212内における要素の間で情報を転送する基本的なルーチンを含むベーシックインプット/アウトプット・システム(BIOS)は、不揮発性メモリ1222内に格納される。コンピュータ1212はまた、取り外し可能/取り外し不可能、揮発性/不揮発性のコンピュータ記録媒体を含むことができる。図12は、例えばディスク・ストレージ1224を示す。ディスク・ストレージ1224はまた、これに限定されないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS-100ドライブ、フラッシュ・メモリ・カード、又はメモリ・スティックを含むことができる。ディスク・ストレージ1224はまた、別の又は他の記録媒体と組み合わせにおける記録媒体を含むことができる。ディスク・ストレージ1224のシステムバス1218への結合を容易にするために、取り外し可能又は取り外し不可能なインタフェース1226といったインタフェースが典型的に使用される。図12はまた、ユーザと、好適な動作環境1200において説明された基本的なコンピュータ・リソースとの間の中継として動作するソフトウェアを図示する。そのようなソフトウェアはまた、例えばオペレーティング・システム1228を含むことができる。オペレーティング・システム1228は、ディスク・ストレージ1224に格納されることができ、コンピュータ1212のリソースを制御すると共に、割り当てるために動作する。 System memory 1214 may also include volatile memory 1220 and nonvolatile memory 1222 . The basic input/output system (BIOS), containing the basic routines to transfer information between elements within computer 1212 , such as during start-up, is stored in nonvolatile memory 1222 . Computer 1212 may also include removable/non-removable, volatile/non-volatile computer storage media. FIG. 12 shows disk storage 1224, for example. Disk storage 1224 may also include, but is not limited to, magnetic disk drives, floppy disk drives, tape drives, Jaz drives, Zip drives, LS-100 drives, flash memory cards, or memory sticks. can contain. Disk storage 1224 may also include storage media in isolation or in combination with other storage media. An interface, such as removable or non-removable interface 1226 is typically used to facilitate coupling disk storage 1224 to system bus 1218 . FIG. 12 also illustrates software that acts as an intermediary between users and the basic computer resources described in preferred operating environment 1200 . Such software may also include an operating system 1228, for example. An operating system 1228 can be stored in disk storage 1224 and operates to control and allocate the resources of computer 1212 .

システム・アプリケーション1230は、例えば、システムメモリ1214又はディスク・ストレージ1224のいずれかに格納されるプログラム・モジュール1232及びプログラム・データ1234を通してオペレーティング・システム1228によるリソースの管理の利益を受ける。本開示は、種々のオペレーティング・システム又はオペレーティング・システムの組み合わせと共に実装することができることについて認識されるべきである。ユーザは、入力デバイス(複数でもよい)1236を通してコンピュータ1212へとコマンド又は情報を入力する。入力デバイス1236は、これらに限定されないが、マウス、トラックボール、スタイラスといったポインティング・デバイス、タッチパッド、キーボード、マイクロホン、ジョイ・スティック、ゲーム・パッド、サテライト・ディッシュ、スキャナ、TVチューナ・カード、ディジタル・カメラ、ディジタル・ビデオ・カメラ、ウェブ・カメラなどを含む。これら及びその他の入力デバイスは、インタフェース・ポート(複数でもよい)1238を介してシステムバス1218を通してプロセッシング・ユニット1216に接続する。インタフェース・ポート(複数でもよい)1238は、例えば、シリアル・ポート、パレレル・ポート、ゲーム・ポート、及びユニバーサル・シリアル・バス(USB)を含む。出力デバイス(複数でもよい)1240は、入力デバイス(複数でもよい)1236のような同一のタイプのポートのいくつかを使用する。したがって、例えば、USBポートは、コンピュータ1212への入力を提供すると共に、コンピュータ1212から出力デバイス1240への出力情報を提供するために使用することができる。出力アダプタ1242は、他の出力デバイス1240のうちの、モニタ、スピーカ、及びプリンタのような、特殊アダプタを必要とするいくつかの出力デバイス1240が存在することを示すために提供される。出力アダプタ1242は、例示の目的により、かつ限定ではなく、出力デバイス1240とシステムバス1218との間の接続の手段を提供するビデオ及びサウンド・カードを含む。他のデバイス又はデバイスのシステム、又はそれらの組み合わせは、リモート・コンピュータ(複数でもよい)1244といった入力及び出力機能の両方を提供することについて指摘されるべきであろう。 System applications 1230 benefit from the management of resources by operating system 1228 , for example, through program modules 1232 and program data 1234 stored in either system memory 1214 or disk storage 1224 . It should be appreciated that the present disclosure can be implemented with different operating systems or combinations of operating systems. A user enters commands or information into computer 1212 through input device(s) 1236 . Input devices 1236 include, but are not limited to, pointing devices such as mice, trackballs, styluses, touchpads, keyboards, microphones, joysticks, game pads, satellite dishes, scanners, TV tuner cards, digital Including cameras, digital video cameras, web cameras, etc. These and other input devices connect to the processing unit 1216 through the system bus 1218 via interface port(s) 1238 . Interface port(s) 1238 include, for example, serial ports, parallel ports, game ports, and universal serial bus (USB). Output device(s) 1240 use some of the same type of port as input device(s) 1236 . Thus, for example, a USB port can be used to provide input to computer 1212 and output information from computer 1212 to output device 1240 . Output adapter 1242 is provided to illustrate that there are some output devices 1240 that require special adapters, such as monitors, speakers, and printers, among other output devices 1240 . Output adapters 1242 include, by way of example and not limitation, video and sound cards that provide a means of connection between output devices 1240 and system bus 1218 . It should be pointed out that other devices or systems of devices, or combinations thereof, provide both input and output functionality, such as remote computer(s) 1244 .

コンピュータ1212は、リモート・コンピュータ(複数でもよい)1244といった1つ又はそれ以上のリモート・コンピュータへの論理接続を使用するネットワーク環境において動作することができる。リモート・コンピュータ(複数でもよい)1244は、コンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサ・ベースの機器、ピア・デバイス又は他の共通ネットワーク・ノードなどとすることができると共に、典型的にはまたコンピュータ1212について説明された要素の多数又はすべてを含むことができる。簡略化の目的のため、リモート・コンピュータ(複数でもよい)1244についてメモリ・ストレージ・デバイス1246のみを示す。リモート・コンピュータ(複数でもよい)1244は、ローカルにコンピュータ1212へとネットワーク・インタフェース1248を介して接続され、その後、通信接続1250を介して物理的に接続される。ネットワーク・インタフェース1248は、ローカルエリア・ネットワーク(LAN)、ワイドエリア・ネットワーク(WAN)、セルラ・ネットワークなどといった有線又はワイヤレス又はこれら両方の通信ネットワークに及ぶ。LAN技術は、ファイバ・ディストリビューテッド・データ・インタフェース(FDDI)、コッパー・ディスリビューテッド・データ・インタフェース(CDDI)、イーサネット(登録商標)、トークン・リングなどを含む。WAN技術は、これらに限定されることなく、ポイント・ツウ・ポイント・リンク、インテグレーテッド・サービス・デジタル・ネットワーク(ISDN)及びそれ上の変種、パケット交換ネットワーク及びデジタル・サブスクライバ・ライン(DSL)を含む。通信接続(複数でもよい)1250は、ネットワーク・インタフェース1248をシステムバス1218に接続するために利用されるハードウェア/ソフトウェアを参照する。通信接続1250は、例示的な明確さのためコンピュータ1212内に示されているが、それはまた、コンピュータ1212の外部とすることができる。ネットワーク・インタフェース1248に接続するためのハードウェア/ソフトウェアはまた、例示的な目的のみとして、普通電話グレードのモデム、ケーブル・モデム、及びDSLモデムを含むモデム類、ISDNアダプタ及びイーサネット(登録商標)カードといった内部及び外部技術を含むことができる。 Computer 1212 can operate in a networked environment using logical connections to one or more remote computers, such as remote computer(s) 1244 . The remote computer(s) 1244 can be computers, servers, routers, network PCs, workstations, microprocessor-based appliances, peer devices or other common network nodes, etc., and are typically can also include many or all of the elements described for computer 1212 . For simplicity purposes, only memory storage device 1246 is shown for remote computer(s) 1244 . Remote computer(s) 1244 are connected locally to computer 1212 via network interface 1248 and then physically via communication connection 1250 . Network interface 1248 spans wired and/or wireless communication networks such as local-area networks (LAN), wide-area networks (WAN), cellular networks, and the like. LAN technologies include Fiber Distributed Data Interface (FDDI), Copper Distributed Data Interface (CDDI), Ethernet, Token Ring, and others. WAN technologies include, but are not limited to, point-to-point links, Integrated Services Digital Networks (ISDN) and variants thereon, packet-switched networks and Digital Subscriber Lines (DSL). include. Communication connection(s) 1250 refers to the hardware/software utilized to connect network interface 1248 to system bus 1218 . Communication connection 1250 is shown within computer 1212 for illustrative clarity, but it can also be external to computer 1212 . Hardware/software for connecting to network interface 1248 also includes, for illustrative purposes only, modems including landline grade modems, cable modems, and DSL modems, ISDN adapters and Ethernet cards. can include internal and external technologies such as

1つ又はそれ以上の実施形態は、いかなる可能な技術的に詳細な一体化レベルであっても、システム、方法、又はコンピュータ・プログラム製品、又はこれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに対して1つ又はそれ以上実施形態の側面を遂行させるためのコンピュータ可読なプログラム命令をそれ上に有する記録媒体(又は複数の媒体)を含むことができる。コンピュータ可読な記録媒体は、命令実行デバイスが使用するための複数の命令を保持し格納することができる有形のデバイスとすることができる。コンピュータ可読な媒体は、例えば、これらに限定されないが、電子的記録デバイス、磁気的記録デバイス、光学的記録デバイス、電子磁気的記録デバイス、半導体記録デバイス又はこれらのいかなる好ましい組み合わせとすることができる。コンピュータ可読な記録媒体の限定的ではない実施例は、次のポータブル・コンピュータ・ディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM又はフラッシュ・メモリ(登録商標))、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・イオンリー・メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリ・スティック、フロッピー・ディスク(登録商標)、パンチ・カード又は命令を記録した溝内に突出する構造を有する機械的にエンコードされたデバイス、及びこれらの好ましい如何なる組合せを含む。本明細書で使用するように、コンピュータ可読な記録媒体は、ラジオ波又は他の自由に伝搬する電磁波、導波路又は他の通信媒体(例えば、光ファイバ・ケーブルを通過する光パルス)といった電磁波、又はワイヤを通して通信される電気信号といったそれ自体が一時的な信号として解釈されることはない。この点において、種々の実施例では、本明細書において使用されるようなコンピュータ可読な記録媒体は、過渡的ではなく、有形のコンピュータ可読な記録媒体を含むことができる。 One or more embodiments can be systems, methods, or computer program products, or combinations thereof, in whatever level of technical detail possible. A computer program product may include a recording medium (or media) having computer-readable program instructions thereon to cause a processor to perform one or more aspects of the embodiments. A computer-readable recording medium may be a tangible device capable of holding and storing instructions for use by an instruction execution device. A computer readable medium can be, for example, but not limited to, an electronic recording device, a magnetic recording device, an optical recording device, an electro-magnetic recording device, a semiconductor recording device, or any suitable combination thereof. Non-limiting examples of computer-readable recording media include the following portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable programmable read-only Memory (EPROM or Flash Memory (registered trademark)), Static Random Access Memory (SRAM), Portable Compact Disc Read Only Memory (CD-ROM), Digital Versatile Disc (DVD), Memory • sticks, floppy disks, punch cards or mechanically encoded devices having structures protruding into grooves on which instructions are recorded, and any preferred combination thereof. As used herein, computer-readable recording medium includes electromagnetic waves such as radio waves or other freely propagating electromagnetic waves, waveguides or other communication media (e.g., light pulses passing through fiber optic cables); or an electrical signal communicated over a wire, per se, is not interpreted as a transitory signal. In this regard, in various embodiments, computer-readable media as used herein can include tangible, non-transitory computer-readable media.

本明細書において説明されるコンピュータ・プログラムは、コンピュータ可読な記録媒体からそれぞれのコンピューティング/プロセッシング・デバイスにダウンロードでき、又は例えばインターネット、ローカルエリア・ネットワーク、ワイドエリア・ネットワーク又はワイヤレス・ネットワーク及びそれからの組み合わせといったネットワークを介して外部コンピュータ又は外部記録デバイスにダウンロードすることができる。ネットワークは、銅通信ケーブル、光通信ファイバ、ワイヤレス通信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ及びエッジ・サーバ又はこれらの組み合わせを含むことができる。それぞれのコンピューティング/プロセッシング・デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インタフェースは、ネットワークからコンピュータ可読なプログラム命令を受領し、このコンピュータ可読なプログラム命令を格納するためにそれぞれのコンピューティング/プロセッシング・デバイス内のコンピュータ可読な記録媒体内に転送する。1つ又はそれ以上の実施形態の操作を遂行するためのコンピュータ可読なプログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械語命令、マシン依存命令、マイクロ・コード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は1つ又はそれ以上の、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、“C”プログラミング言語又は類似のプログラム言語といった手続き型プログラミング言語を含むプログラミング言語のいかなる組合せにおいて記述されたソースコード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読なプログラム命令は、全体がユーザ・コンピュータ上で、部分的にユーザ・コンピュータ上でスタンドアローン・ソフトウェア・パッケージとして、部分的にユーザ・コンピュータ上で、かつ部分的にリモート・コンピュータ上で、又は全体がリモート・コンピュータ又はサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカルエリア・ネットワーク(LAN)、ワイドエリア・ネットワーク(WAN)を含むいかなるタイプのネットワークを通してユーザ・コンピュータに接続することができ、又は接続は、外部コンピュータ(例えばインターネット・サービス・プロバイダを通じて)へと行うことができる。いくつかの実施形態では、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電子回路がコンピュータ可読なプログラム命令を、コンピュータ可読なプログラム命令の状態情報を使用して、本発実施形態の1つ又はそれ以上の側面を実行するために電子回路をパーソナライズして実行することができる。 The computer programs described herein can be downloaded from a computer-readable medium to their respective computing/processing devices, or downloaded to and from, for example, the Internet, local area networks, wide area networks or wireless networks. It can be downloaded to an external computer or external recording device over a network such as a combination. A network may include copper communication cables, optical communication fibers, wireless communications, routers, firewalls, switches, gateway computers and edge servers, or combinations thereof. A network adapter card or network interface in each computing/processing device receives computer readable program instructions from the network and communicates with each computing/processing device to store the computer readable program instructions. into a computer-readable medium within. Computer readable program instructions for performing the operations of one or more embodiments may include assembler instructions, Instruction Set Architecture (ISA) instructions, machine language instructions, machine dependent instructions, micro code, firmware instructions, state Configuration data, configuration data for an integrated circuit, or one or more procedural programming languages, such as Smalltalk®, an object-oriented programming language such as C++, the "C" programming language, or similar programming languages. It can be either source code or object code written in any combination of programming languages. The computer-readable program instructions are distributed entirely on a user computer, partly on a user computer as a stand-alone software package, partly on a user computer, and partly on a remote computer; or run entirely on a remote computer or server. In the latter scenario, the remote computer can be connected to the user computer through any type of network, including a local area network (LAN), wide area network (WAN), or the connection can be an external computer (e.g. through your Internet Service Provider). In some embodiments, an electronic circuit including, for example, a programmable logic circuit, a field programmable gate array (FPGA), or a programmable logic array (PLA) outputs computer readable program instructions and state information of the computer readable program instructions. It can be used to personalize and implement electronic circuitry to carry out one or more aspects of the present embodiments.

本明細書で説明した1つ又はそれ以上の側面を、本発明の実施形態にしたがい、フローチャート命令及び方法のブロック図、又はそれらの両方、装置(システム)、及びコンピュータ可読な記録媒体及びコンピュータ・プログラムを参照して説明した。フローチャートの図示及びブロック図又はそれら両方及びフローチャートの図示におけるブロック及びブロック図、又はそれらの両方のいかなる組合せでもコンピュータ可読なプログラム命令により実装することができることを理解されたい。これらのコンピュータ可読なプログラム命令は、汎用目的のコンピュータ、特定目的のコンピュータ、または他のプロセッサ又は機械を生成するための他のプログラマブル・データ・プロセッシング装置に提供することができ、コンピュータのプロセッサ又は他のプログラマブル・データ・プロセッシング装置による実行がフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装するための手段を生成する。コンピュータ、プログラマブル・データ・プロセッシング装置及び他の装置又はこれらの組み合わせが特定の仕方で機能するように指令するこれらのコンピュータ可読なプログラム命令は、またコンピュータ可読な記録媒体に格納することができ、その内に命令を格納したコンピュータ可読な記録媒体は、フローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作の特徴を実装する命令を含む製造品を構成する。コンピュータ可読なプログラム命令は、またコンピュータ、他のプログラマブル・データ・プロセッシング装置、又は他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で操作ステップのシリーズに対してコンピュータ実装プロセスを生じさせることで、コンピュータ、他のプログラマブル装置又は他のデバイス上でフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装させる。 One or more aspects described herein may be illustrated in flowchart instructions and/or block diagrams of methods, apparatus (systems), and computer readable media and computer programs according to embodiments of the invention. explained with reference to the program. It is to be understood that any combination of the flowchart illustrations and/or block diagrams and/or the block diagrams in the flowchart illustrations and/or the block diagrams can be implemented by computer readable program instructions. These computer readable program instructions may be provided to a general purpose computer, special purpose computer, or other processor or other programmable data processing apparatus to produce a machine, processor or other machine of a computer. Execution by a programmable data processing device of produces the means for implementing the functions/acts identified in the flowchart and block diagram block or blocks or combinations thereof. These computer readable program instructions, which direct computers, programmable data processing devices and other devices, or combinations thereof, to function in a particular manner may also be stored on computer readable media, The computer-readable recording medium having instructions stored therein constitutes an article of manufacture containing instructions that implement the functional/operational features identified in the block or blocks of the flowchart and block diagrams, or combinations thereof. Computer readable program instructions may also be loaded onto a computer, other programmable data processing apparatus, or other device, and computer-implemented to a series of operational steps on the computer, other programmable apparatus, or other device. A process causes a computer, other programmable apparatus, or other device to implement the functions/acts identified in the block or blocks of the flowchart illustrations and block diagrams, or combinations thereof.

図のフローチャート及びブロック図は、本発明の種々の実施形態にしたがったシステム、方法及びコンピュータ・プログラム製品のアーキテクチャ、機能、及び可能な実装操作を示す。この観点において、フローチャート又はブロック図は、モジュール、セグメント又は命令の部分を表すことかでき、これらは、特定の論理的機能(又は複数の機能)を実装するための1つ又はそれ以上の実行可能な命令を含む。いくつかの代替的な実装においては、ブロックにおいて記述された機能は、図示した以外で実行することができる。例えば、連続して示された2つのブロックは、含まれる機能に応じて、実質的に同時的に、又は複数のブロックは、時として逆の順番で実行することができる。またブロック図及びフローチャートの図示、又はこれらの両方及びブロック図中のブロック及びフローチャートの図示又はこれらの組み合わせは、特定の機能又は動作を実行するか又は特定の目的のハードウェア及びコンピュータ命令を遂行する特定目的のハードウェアに基づいたシステムにより実装することができることを指摘する。 The flowcharts and block diagrams in the Figures illustrate the architecture, functionality, and possible implementation operations of systems, methods and computer program products according to various embodiments of the present invention. In this regard, the flowcharts or block diagrams can represent modules, segments, or portions of instructions that represent one or more executables for implementing a particular logical function (or functions). commands. In some alternative implementations, the functions noted in the blocks may be performed other than as shown. For example, two blocks shown in succession can be executed substantially concurrently, or blocks can sometimes be executed in the reverse order, depending on the functionality involved. Also, the block diagrams and flowchart illustrations, or both and the blocks and flowchart illustrations in the block diagrams, or combinations thereof, may perform the specified functions or operations, or implement hardware and computer instructions for particular purposes. We point out that it can be implemented by special-purpose hardware-based systems.

本発明の主題が1つ又はそれ以上のコンピュータ又はこれらの組み合わせ上で動作するコンピュータ・プログラム製品のコンピュータ実行可能な命令の一般的なコンテキストにおいて上記に説明してきたが、当業者は、本開示がまた、他のプログラム・モジュールとの組み合わせにおいて実装することができることについて認識するであろう。一般に、プログラム・モジュールは、特定のタスクを実行するか又は特定の抽象データ・タイプを実装するか、又はそれら両方のプログラム・モジュールは、ルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、当業者は、発明的なコンピュータ実装方法がシングル・プロセッサ又はマルチプロセッサ・コンピュータ・システム、ミニコンピューティング・デバイス、コンピュータに加えてメインフレーム・コンピュータ、ハンドヘルド・コンピューティング・デバイス(例えばPDA、電話)、マイクロプロセッサ・ベース又はプログラマブル・コンシューマ、又は工業的電子機器などを含む他のコンピュータ・システム構成と共に実施することができることを認識するであろう。示された側面は、タスクが通信ネットワークを通してリンクされたリモート・プロセッシング・デバイスにより実行される分散コンピューティング環境において実施されることができる。しかしながら、いくつかは、もしも本開示のすべての側面ではないとしてもスタンドアローンのコンピュータ上で実施することができる。分散コンピューティング環境においては、プログラム・モジュールは、ローカル又はリモートのメモリ・ストレージ・デバイスに配置されることができる。例えば、1つ又はそれ以上の実施形態においては、コンピュータ実行可能なコンポーネントは、1つ又はそれ以上の分散メモリ・ユニットを含むか又は構成するメモリから実行されることができる。本明細書で使用される用語“メモリ”及び“メモリ・ユニット”は、互換的である。さらに、本明細書の1つ又はそれ以上の実施形態は、例えば、組み合わせ又は協働的に1つ又はそれ以上の分散メモリ・ユニットからのコードを実行するマルチプル・プロセッサといった分散様式において、コンピュータ実行可能なコンポーネントのコードを実行することができる。本明細書において使用される用語“メモリ”は、単一のロケーションでの単一メモリ又は1つ又はそれ以上のロケーションでの多数のメモリ又はメモリ・ユニットに及ぶことができる。 Although the subject matter of the present invention has been described above in the general context of computer-executable instructions for a computer program product running on one or more computers, or combinations thereof, those skilled in the art will appreciate that the present disclosure It will also be recognized that it can be implemented in combination with other program modules. Generally, program modules may include routines, programs, components, data structures, etc. that either perform particular tasks or implement particular abstract data types, or both. Furthermore, those skilled in the art will appreciate that the inventive computer-implemented method may be applied to single-processor or multi-processor computer systems, mini-computing devices, mainframe computers in addition to computers, handheld computing devices (e.g., PDAs, telephones, etc.). ), microprocessor-based or programmable consumer, or industrial electronics, and other computer system configurations. The illustrated aspects can also be practiced in distributed computing environments where tasks are performed by remote processing devices that are linked through a communications network. However, some, if not all aspects of this disclosure can be practiced on stand-alone computers. In a distributed computing environment, program modules may be located in local or remote memory storage devices. For example, in one or more embodiments, computer-executable components may execute from a memory that includes or constitutes one or more distributed memory units. The terms "memory" and "memory unit" as used herein are interchangeable. Moreover, one or more embodiments herein can be computer-executed in a distributed fashion, e.g., by multiple processors executing code from one or more distributed memory units in combination or cooperatively. Able to execute code of possible components. The term "memory" as used herein can cover a single memory at a single location or multiple memories or memory units at one or more locations.

本出願において使用されるように、用語“コンポーネント”、“システム”、“プラットホーム”、“インタフェース”などは、コンピュータに関連するエンティティ又は1つ又はそれ以上の特定の機能で動作する機械に関連するエンティティを参照又は包含するか、又はそれらの両方とすることができる。本明細書で開示されるエンティティは、ハードウェア、ハードウェア及びソフトウェアの組み合わせ、ソフトウェア又は実行中のソフトウェアの何れかとすることができる。例えば、コンポーネントは、これらに限定されることは無いが、プロセッサ上で動作するプロセス、プロセッサ、オブジェクト、実行可能物、実行スレッド、プログラム又はコンピュータ、又はそれらの組み合わせとすることができる。例示の目的として、サーバ上で動作するアプリケーション及びサーバの両方は、コンポーネントとすることができる。1つ又はそれ以上のコンポーネントは、プロセス又は実行スレッド又はそれら両方内に滞在することができ、かつコンポーネントは、1つのコンピュータにローカライズされるか又は2つ又はそれ以上のコンピュータの間に分散されるか、又はそれらの両方とすることができる。別の実施形態においては、それぞれのコンポーネントは、それに格納された種々のデータ構造を有する種々のコンピュータ可読な媒体から実行する。コンポーネントは、1つ又はそれ以上のデータ・パケットを有する信号(例えば、ローカル・システム内の1つのコンポーネントと相互作用する別のコンポーネント、分散システム又はインターネットのような信号を介して他のシステムとネットワークを横断するか又はこれらの両方で)ローカル又はリモート・プロセスを介して通信することができる。別の実施例として、コンポーネントは、電気又は電子回路により動作される機械的部分により特定の機能を有する装置とすることができ、これは、プロセッサによって実行されるソフトウェア又はファームウェアにより動作される。そのような場合において、プロセッサは、装置の内部又は外部とすることができると共に、ソフトウェア又はファームウェア・アプリケーションの少なくとも一部を実行することができる。さらに別の実施例として、コンポーネントは、機械部品を有しない特定の電子コンポーネントを提供する装置とすることができ、ここで、電子コンポーネントは、プロセッサ又は電子コンポーネントの機能の少なくとも部分で与えられるソフトウェア又はファームウェアを実行するための他の手段を含むことができる。側面において、コンポーネントは、例えばクラウド・コンピューティング・システム内での仮想マシンを介して電子コンポーネントをエミュレートすることができる。 As used in this application, the terms "component," "system," "platform," "interface," etc. relate to a computer-related entity or machine that performs one or more specific functions. Entities may be referenced or contained, or both. The entities disclosed herein can be either hardware, a combination of hardware and software, software, or software in execution. For example, a component can be, but is not limited to, a process running on a processor, processor, object, executable, thread of execution, program or computer, or any combination thereof. For purposes of illustration, both an application running on a server and the server can be components. One or more components can reside within a process or thread of execution or both, and a component can be localized on one computer or distributed between two or more computers. or both. In alternative embodiments, the respective components execute from various computer readable media having various data structures stored thereon. A component may be a signal carrying one or more data packets (e.g., another component interacting with one component within a local system, a distributed system, or a network with other systems via a signal such as the Internet). , or both) through local or remote processes. As another example, a component may be a device having a specific function by means of a mechanical part operated by electrical or electronic circuitry, which is operated by software or firmware executed by a processor. In such cases, the processor may be internal or external to the device and may execute at least part of a software or firmware application. As yet another example, a component may be a device that provides a particular electronic component without mechanical parts, where the electronic component is a processor or software provided with at least part of the functionality of the electronic component. Other means for executing firmware may be included. In aspects, the components may emulate electronic components via virtual machines within, for example, a cloud computing system.

本明細書において使用される用語“容易にする”とは、システム、デバイス、又はコンポーネントのコンテキストにおいて、複雑なコンピューティング環境の性質に関して1つ又はそれ以上の活動及び動作を“容易にする”ことであり、そこでは多数のコンポーネント又は多数のデバイス又はこれらの組み合わせがいくつかのコンピューティング動作に含まれることができる。多数のコンポーネント又は多数のデバイス又はこれらの組み合わせを含むか又は含まない場合もある活動の非限定的な実施例は、データの送信又は受信、デバイス間の接続確立、結果を得るために向けた中間結果の判断(例えば機械学習及び実行知能を使用して中間結果を判断することを含む)などを含む。この点において、コンピューティング・デバイス又はコンポーネントは、動作を達成することにおいていかなる部分を操作することにより動作を容易にすることができる。本明細書で説明されるコンポーネントの動作の場合に、したがって、これは動作がコンポーネントによって容易にされるというように説明される場合、動作は、限定されることはなく:センサ、アンテナ、オーディオ、又はビジュアル出力デバイス、他のデバイスなどといった1つ又はそれ以上の他のコンピューティング・デバイスと共同して人的に完了されることができることと理解される。 As used herein, the term "facilitate" means to "facilitate" one or more activities and operations with respect to the nature of a complex computing environment in the context of a system, device, or component. , where multiple components or multiple devices or combinations thereof may be involved in some computing operations. Non-limiting examples of activities that may or may not involve multiple components or multiple devices or combinations thereof include sending or receiving data, establishing connections between devices, intermediate including determining outcomes (including, for example, using machine learning and execution intelligence to determine intermediate outcomes); In this regard, a computing device or component may facilitate operations by manipulating any portion in accomplishing the operations. In the case of the operation of the components described herein, and thus this is described as the operation facilitated by the component, the operation is not limited to: sensors, antennas, audio, or can be completed manually in collaboration with one or more other computing devices, such as visual output devices, other devices, and the like.

追加的に、用語“又は”は、排他的“オア”ではなく、包含的“又は”を意味することを意図する。すなわち、他に特定されるか又はコンテキストから明確でない限り、“Xは、A又はBを利用する”ことは、自然な包含的置き換えの如何なるものを意味することを意図する。すなわち、もしもXがAを利用し;XがBを利用し;又はXがA及びBの両方を利用するのであれば、“Xは、A又はBを利用する”ことは前述の例の如何なるものの下で充足される。さらに、主題の明細書及び添付される図面において使用されるところの冠詞“a”及び“an”は、単数形であることが他に特定されるか又はコンテキストから明確でない限り、一般に、“1つ又はそれ以上”を意味すると解釈される。本明細書において使用されるように、用語“実施例”又は“例示的”又はそれらの両方は、実施例、例、又は例示として提供することを意味するために使用される。疑義を排除するために、本明細書で開示される手段は、そのような実施例により限定されない。追加的に、本明細書において“実施例”又は“例示的”又はそれらの両方として説明される如何なる側面又は設計は、他の側面又は設計を超えて好ましいとか、又は利益的であるとして解釈される必要はなく、当業者に知られた等価的な例示的構造及び技術を排除することを意味しない。 Additionally, the term "or" is intended to mean an inclusive "or" rather than an exclusive "or." That is, unless specified otherwise or clear from context, "X utilizes A or B" is intended to mean any of the natural inclusive permutations. That is, if X utilizes A; X utilizes B; or X utilizes both A and B, then "X utilizes A or B" means any Satisfied under things. Furthermore, as used in the subject specification and accompanying drawings, the articles "a" and "an" generally refer to "one" unless otherwise specified or clear from the context to be singular. shall be construed to mean “one or more”. As used herein, the terms "example" or "exemplary" or both are used to mean serving as an example, example, or illustration. For the avoidance of doubt, the instrumentalities disclosed herein are not limited by such examples. Additionally, any aspect or design described herein as "example" or "exemplary" or both is to be construed as preferred or advantageous over other aspects or designs. is not meant to exclude equivalent exemplary structures and techniques known to those skilled in the art.

主題の明細書において使用されるように、用語“プロセッサ”は、これらに限定されることは無く、シングルコア・プロセッサ;ソフトウェアのマルチスレッド実行能力を有するシングル・プロセッサ;ソフトウェアのマルチスレッド実行能力を有するマルチコア・プロセッサ;ハードウェア・マルチスレッド技術を有するマルチコア・プロセッサ;及び分散共有メモリを有する並列プラットホームを含む、実質的に如何なるコンピューティング・プロセッシング・ユニット又はデバイスを参照することができる。追加的にプロセッサは、集積回路、用途特定集積回路(ASIC)、デジタル・シグナル・プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック・コントローラ(PLC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、離散的なゲート又はトランジスタ・ロジック、離散的なハードウェア・コンポーネント又は本明細書において説明した機能を実行するように設計されたそれらの如何なる組み合わせを参照することができる。さらに、プロセッサは、これらに限定されることは無く、空間利用を最適化又はユーザ搭載の性能を向上させるため、分子及び量子ドット・ベースのトランジスタ、スイッチ、及びゲートといったナノ-スケール・アーキテクチャを実施することができる。プロセッサはまた、コンピューティング・プロセッシング・ユニットの組み合わせとして実装することができる。
本開示において、“格納”、“記録”、“データ・ストア”、“データ・ストレージ”、“データベース”及びコンポーネントの動作及び機能に関連する、実質的に如何なる他の情報格納コンポーネントといった用語は、“メモリ・コンポーネント”、“メモリ”内に実体化されたエンティティ又はメモリを含むコンポーネントを参照するために使用される。本明細書において説明されるメモリ又はメモリ・コンポーネント又はそれら両方は、揮発性メモリ又は不揮発性メモリの何れかとすることができ、又は揮発性及び不揮発性メモリの両方を含むことができる。例示の目的で、限定ではなく、不揮発性メモリは、リード・オンリー・メモリ(ROM)、電気的にプログラマブルなROM(PROM)、電気的に消去可能なROM(EEPROM)、フラッシュ・メモリ、又は不揮発性のランダム・アクセス・メモリ(RAM)(例えば、強誘電体RAM(FeRAM))を含むことができる。揮発性メモリは、RAMを含むことができ、これは、例えば外部的なキャッシュ・メモリとして動作することができる。例示の目的で限定ではなく、RAMは、シンクロナスRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブル・データレートSDRAM(DDR SDRAM)、エンハンスドSDRAM(ESDRAM)、シンクリンクDRAM(SLDRAM)、ダイレクト・ランバスRAM(DRRAM)、ダイレクト・ランバスダイナミックRAM(DRDRAM)、及びランバス・ダイナミックRAM(RDRAM)といった多くの形態において利用可能である。追加的に、本明細書におけるシステムの開示されるメモリ・コンポーネント又はコンピュータ実装方法は、これに限定されることなく、これら及び好適な他の如何なるタイプのメモリを含むことを意図する。
As used in the subject specification, the term "processor" includes, but is not limited to, a single-core processor; a single processor with software multi-thread execution capability; multicore processors with hardware multithreading technology; and parallel platforms with distributed shared memory. Additionally, the processor may be an integrated circuit, an application specific integrated circuit (ASIC), a digital signal processor (DSP), a field programmable gate array (FPGA), a programmable logic controller (PLC), a complex programmable Reference may be made to logic devices (CPLDs), discrete gate or transistor logic, discrete hardware components or any combination thereof designed to perform the functions described herein. In addition, the processor implements nano-scale architectures such as, but not limited to, molecular and quantum dot based transistors, switches, and gates to optimize space utilization or improve user-mounted performance. can do. A processor may also be implemented as a combination of computing processing units.
In this disclosure, the terms "storage", "record", "data store", "data storage", "database" and substantially any other information storage component related to the operation and functionality of the component are: A "memory component", used to refer to an entity embodied in "memory" or a component that contains memory. The memory and/or memory components described herein can be either volatile memory or non-volatile memory, or can include both volatile and non-volatile memory. By way of example, and not limitation, non-volatile memory can be read-only memory (ROM), electrically programmable ROM (PROM), electrically erasable ROM (EEPROM), flash memory, or non-volatile memory. Random Access Memory (RAM) (eg, Ferroelectric RAM (FeRAM)). Volatile memory can include RAM, which can act as external cache memory, for example. By way of example and not limitation, RAM may include Synchronous RAM (SRAM), Dynamic RAM (DRAM), Synchronous DRAM (SDRAM), Double Data Rate SDRAM (DDR SDRAM), Enhanced SDRAM (ESDRAM), SyncLink DRAM. (SLDRAM), Direct Rambus RAM (DRRAM), Direct Rambus Dynamic RAM (DRDRAM), and Rambus Dynamic RAM (RDRAM). Additionally, the disclosed memory components of systems or computer-implemented methods herein are intended to include, without being limited to, these and any other suitable types of memory.

上記に説明されたものは、システム及びコンピュータ実装方法の単なる実施例を含む。
当然ながら、本開示を記述する目的のためにすべての想定可能なコンポーネント又はコンピュータ実装方法の組み合わせを説明することは可能ではないが、当業者は、多くのさらなる組み合わせ及び本開示の置換が可能であることを認識可能である。さらに、用語“含む”、“有する”、“所有する”、などは詳細な説明、請求項、添付物及び図面において使用される程度で、そのような用語は、“含んでいる”ことが、請求項における置き換え単語として使用される場合に解釈されるように、用語“含む”に類似する仕方において包含的であることを意図する。
What has been described above includes only examples of systems and computer-implemented methods.
Of course, it is not possible to describe all possible combinations of components or computer-implemented methods for the purposes of describing this disclosure, but many further combinations and permutations of this disclosure are possible to those skilled in the art. It is possible to recognize that there is Further, to the extent the terms "include,""have,""own," etc. are used in the detailed description, claims, appendix and drawings, such term "including" It is intended to be inclusive in a manner analogous to the term "comprise" as it is interpreted when used as a replacement word in the claims.

種々の実施形態の説明は、例示の目的のために提示されてきたが、開示される実施形態に尽きるとか、限定されることを意図しない。多くの修正及び変更は、説明された実施例の範囲から逸脱する事なく、当業者にとってあきらかであろう。明細書で使用する用語は、本実施形態の原理、実用的用途、又は市場において見出される技術を超える技術的改善を最良に説明するため、又は本明細書において開示された実施形態を当業者の他の者が理解できるようにするために選択したものである。
The description of various embodiments has been presented for purposes of illustration, but is not intended to be exhaustive or limited to the disclosed embodiments. Many modifications and variations will be apparent to those skilled in the art without departing from the scope of the described embodiments. The terms used herein are used to best describe the principles, practical applications, or technical improvements of the embodiments over those found on the market, or to allow those skilled in the art to understand the embodiments disclosed herein. It has been chosen so that others can understand it.

Claims (20)

システムであって、
コンピュータ実行可能なコンポーネントを格納するメモリと、
前記メモリに格納された前記コンピュータ実行可能なコンポーネントを実行するプロセッサであって、前記コンピュータ実行可能なコンポーネントが、
1つ又はそれ以上の分類器を使用して人工知能(AI)設計分子のセットを評価して、候補医薬としての前記AI設計分子の第1のサブセットを選択するヒューリスティックス・ベースのスクリーニング・コンポーネント、及び
前記候補医薬と、1つ又はそれ以上の生物学的ターゲットとの間の分子相互作用の1つ又はそれ以上のコンピュータ・シミュレーションを使用して前記候補医薬を評価し、ウェット・ラボラトリ試験のための前記候補医薬の第2のサブセットを選択するシミュレーション・ベースのスクリーニング・コンポーネント
を含む、システム。
a system,
a memory storing computer-executable components;
a processor executing the computer-executable component stored in the memory, the computer-executable component comprising:
a heuristics-based screening component that evaluates a set of artificial intelligence (AI)-designed molecules using one or more classifiers to select a first subset of said AI-designed molecules as candidate drugs; and evaluating said drug candidate using one or more computer simulations of molecular interactions between said drug candidate and one or more biological targets for wet laboratory testing. a simulation-based screening component that selects the second subset of drug candidates of
前記1つ又はそれ以上の分類器は、前記AI設計分子の分子シーケンスに基づいて、前記AI設計分子を1つ又はそれ以上のターゲット医薬の定義された特徴を有するものか又は有しないものかとして分類する、1つ又はそれ以上の機械学習モデルを含む
請求項1に記載のシステム。
The one or more classifiers classify the AI-designed molecule as having or not having one or more defined characteristics of a target drug based on the molecular sequence of the AI-designed molecule. 2. The system of claim 1, comprising one or more machine learning models for classifying.
前記ヒューリスティックス・ベースのスクリーニング・コンポーネントは、前記1つ又はそれ以上の定義された特徴を有する前記第1のサブセットに基づいて、第1のサブセットを選択する
請求項2に記載のシステム。
3. The system of claim 2, wherein the heuristics-based screening component selects a first subset based on the first subset having the one or more defined characteristics.
前記1つ又はそれ以上のコンピュータ・シミュレーションは、前記候補医薬及び前記1つ又はそれ以上の生物学的ターゲットについての1つ又はそれ以上の力場モデルを使用する
請求項1に記載のシステム。
2. The system of claim 1, wherein said one or more computer simulations use one or more force field models for said drug candidate and said one or more biological targets.
前記シミュレーション・ベースのスクリーニング・コンポーネントは、前記1つ又はそれ以上のコンピュータ・シミュレーションにおける1つ又はそれ以上のターゲット分子相互作用を示す第2のサブセットに基づいて、前記第2のサブセットを選択する
請求項1に記載のシステム。
The simulation-based screening component selects the second subset based on a second subset indicative of one or more target molecule interactions in the one or more computer simulations. Item 1. The system according to Item 1.
前記候補医薬は、候補抗微生物薬を含み、前記1つ又はそれ以上の分類器は、前記AI設計分子が、抗微生物ペプチド、ブロード・スペクトラムの抗微生物性、無毒性、又は構造化されていることの少なくとも1つであるか否かを判断する
請求項1に記載のシステム。
The candidate drug comprises a candidate antimicrobial drug, and the one or more classifiers are such that the AI-designed molecule is antimicrobial peptide, broad spectrum antimicrobial, non-toxic, or structured 2. The system of claim 1, wherein determining if at least one of:
前記シミュレーション・ベースのスクリーニング・コンポーネントは、前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補抗微生物薬と、病原体のモデル脂質二重層又は別の細胞成分と、力場との間の相互作用の傾向を評価する
請求項6に記載のシステム。
The simulation-based screening component uses the one or more computer simulations to determine the relationship between the candidate antimicrobial agent, a model lipid bilayer or another cellular component of a pathogen, and a force field. 7. The system of claim 6, assessing the tendency of the interaction of .
前記シミュレーション・ベースのスクリーニング・コンポーネントは、前記相互作用の傾向の定義されたレベルを示す前記第2のサブセットに基づいて、ラボラトリ試験のための前記候補抗微生物薬の第2のサブセットを選択する
請求項7に記載のシステム。
The simulation-based screening component selects a second subset of the candidate antimicrobial agents for laboratory testing based on the second subset exhibiting a defined level of propensity for interaction. Item 8. The system according to item 7.
前記シミュレーション・ベースのスクリーニング・コンポーネントは、初期コンピュータ・シミュレーションを使用して有効及び不活性のシーケンスを有するテスト分子と、病原体のモデル脂質二重層又は別の細胞成分との間の相互作用をシミュレーションし、前記相互作用に基づいて抗微生物活性に相関する1つ又はそれ以上の特徴を選択する
請求項6に記載のシステム。
The simulation-based screening component uses initial computer simulation to simulate interactions between test molecules having active and inactive sequences and model lipid bilayers or other cellular components of pathogens. , selecting one or more features that correlate to antimicrobial activity based on said interaction.
前記シミュレーション・ベースのスクリーニング・コンポーネントは、前記候補抗微生物薬が前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して決定されるような前記1つ又はそれ以上の特徴を示すか否かに基づいて、前記第2のサブセットに含ませる前記候補抗微生物薬を評価する
請求項9に記載のシステム。
The simulation-based screening component is based on whether the candidate antimicrobial exhibits the one or more characteristics as determined using the one or more computer simulations. to evaluate the candidate antimicrobial agents for inclusion in the second subset.
前記ウェット・ラボラトリ試験は、
グラム陽性バクテリア及びグラム陰性バクテリアを含む1つ又はそれ以上の病原体に対して前記第2のサブセットを試験すること、又は
前記第2のサブセットの毒性を試験すること
の少なくとも1つを含む
請求項6に記載のシステム。
The wet laboratory test is
6. Testing said second subset against one or more pathogens including Gram-positive and Gram-negative bacteria; or Testing virulence of said second subset. The system described in .
方法であって、
プロセッサに動作的に結合されたシステムにより、1つ又はそれ以上の分類器を使用するAI設計分子の分類に基づいて、候補医薬としてのAI設計分子のセットから前記人工知能(AI)設計分子の第1のサブセットを選択すること、及び
前記システムにより、1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補医薬と、1つ又はそれ以上の生物学的ターゲットとの間の分子相互作用の評価に基づいて、ウェット・ラボラトリ試験のための前記候補医薬の第2のサブセットを選択すること
を含む方法。
a method,
classifying said artificial intelligence (AI)-designed molecules from a set of AI-designed molecules as candidate drugs based on classification of said AI-designed molecules using one or more classifiers, by a system operatively coupled to a processor; selecting a first subset; and by said system using one or more computer simulations, molecular interactions between said drug candidate and one or more biological targets. selecting a second subset of said drug candidates for wet laboratory testing based on the evaluation of
前記1つ又はそれ以上の分類器は、前記AI設計分子の分子シーケンスに基づいて、前記AI設計分子を1つ又はそれ以上のターゲット医薬の定義された特徴を有するものか又は有しないものかとして分類する、1つ又はそれ以上の機械学習モデルを含む
請求項12に記載の方法。
The one or more classifiers classify the AI-designed molecule as having or not having one or more defined characteristics of a target drug based on the molecular sequence of the AI-designed molecule. 13. The method of claim 12, comprising one or more machine learning models for classifying.
前記第1のサブセットを選択することは、前記1つ又はそれ以上の定義された特徴を有する前記第1のサブセットに基づいて、前記第1のサブセットを選択することを含む
請求項13に記載の方法。
14. The method of claim 13, wherein selecting the first subset comprises selecting the first subset based on the first subset having the one or more defined characteristics. Method.
前記第2のサブセットを選択することは、前記1つ又はそれ以上のコンピュータ・シミュレーションにおける1つ又はそれ以上のターゲット分子相互作用の特徴を示す第2のサブセットに基づいて、前記第2のサブセットを選択すること
を含む、請求項12に記載の方法。
selecting the second subset based on the second subset characterizing one or more target molecule interactions in the one or more computer simulations; 13. The method of claim 12, comprising selecting.
前記候補医薬は、候補抗微生物薬を含み、前記分類することが、前記システムにより前記AI設計分子が抗微生物機能、ブロード・スペクトラムの効能、無毒性、又は定義された2次構造の存在からなる群から選択される少なくとも1つ又はそれ以上の特徴を含むか否かを判断すること
を含む、請求項12に記載の方法。
The candidate drug comprises a candidate antimicrobial agent, and the classification comprises antimicrobial function, broad-spectrum efficacy, non-toxicity, or presence of defined secondary structure by the system. 13. The method of claim 12, comprising determining whether it includes at least one or more features selected from a group.
前記方法はさらに、
前記システムにより、前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補抗微生物薬と、病原体のモデル脂質二重層又は別の細胞成分と、力場との間の相互作用の傾向を評価することを含み、ここで、前記第2のサブセットを選択することは、前記相互作用の傾向の定義されたレベルを示す前記第2のサブセットに基づいて、前記第2のサブセットを選択すること
を含む、請求項16に記載の方法。
The method further comprises:
The system uses the one or more computer simulations to characterize interactions between the candidate antimicrobial agent, a model lipid bilayer or another cellular component of the pathogen, and a force field. evaluating, wherein selecting the second subset is based on the second subset indicating a defined level of propensity for interaction. 17. The method of claim 16, comprising:
さらに、
前記システムにより、初期コンピュータ・シミュレーションを使用して、有効及び不活性のシーケンスを有するテスト分子と、病原体のモデル脂質二重層又は別の細胞成分と、力場との間の相互作用を評価すること、
前記システムにより、抗微生物活性に相関する前記相互作用から導出される1つ又はそれ以上の特徴を選択すること、
前記システムにより、前記候補抗微生物薬が前記1つ又はそれ以上のコンピュータ・シミュレーションを使用して決定されるような前記1つ又はそれ以上の特徴を示すか否かに基づいて、前記第2のサブセットに含ませる前記候補抗微生物薬を評価すること
を含む、請求項16に記載の方法
moreover,
The system uses initial computer simulations to assess the interaction between a test molecule with active and inactive sequences, a model lipid bilayer or another cellular component of a pathogen, and a force field. ,
selecting, by the system, one or more features derived from the interaction that correlate to antimicrobial activity;
The system, based on whether the candidate antimicrobial agent exhibits the one or more characteristics as determined using the one or more computer simulations, 17. The method of claim 16, comprising evaluating the candidate antimicrobial agents for inclusion in the subset.
前記ウェット・ラボラトリ試験は、
グラム陽性バクテリア及びグラム陰性バクテリアを含む1つ又はそれ以上の病原体に対して前記第2のサブセットを試験すること、又は
前記第2のサブセットの毒性を試験することの少なくとも1つを含む
請求項16に記載の方法。
The wet laboratory test is
16. comprising at least one of testing said second subset against one or more pathogens, including Gram-positive and Gram-negative bacteria, or testing virulence of said second subset. The method described in .
人工知能(AI)設計分子をフィルタリングすると共に確認するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、それに実体化されたプログラム命令を有するコンピュータ可読な記録媒体を含み、前記プログラム命令がプロセッシング・コンポーネントによって実行されて、プロセッシング・コンポーネントが、
1つ又はそれ以上の分類器を使用するAI設計分子の分類に基づいて、候補医薬から前記AI設計分子の第1のサブセットを選択すること、及び
1つ又はそれ以上のコンピュータ・シミュレーションを使用して、前記候補医薬と、1つ又はそれ以上の生物学的ターゲットとの間の分子相互作用の評価に基づいて、ウェット・ラボラトリ試験のための前記候補医薬の第2のサブセットを選択すること
を含む方法。
A computer program product for filtering and validating artificial intelligence (AI) design molecules, said computer program product comprising a computer readable storage medium having program instructions embodied therein, said program instructions is executed by the processing component, and the processing component
selecting a first subset of said AI-designed molecules from candidate drugs based on a classification of said AI-designed molecules using one or more classifiers; and using one or more computer simulations. selecting a second subset of said drug candidates for wet laboratory testing based on evaluation of molecular interactions between said drug candidates and one or more biological targets. How to include.
JP2022557669A 2020-05-21 2021-05-14 Filtering Artificial Intelligence-Designed Molecules for Laboratory Testing Pending JP2023525635A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/880,021 US20210366580A1 (en) 2020-05-21 2020-05-21 Filtering artificial intelligence designed molecules for laboratory testing
US16/880,021 2020-05-21
PCT/IB2021/054139 WO2021234522A1 (en) 2020-05-21 2021-05-14 Filtering artificial intelligence designed molecules for laboratory testing

Publications (1)

Publication Number Publication Date
JP2023525635A true JP2023525635A (en) 2023-06-19

Family

ID=78608321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022557669A Pending JP2023525635A (en) 2020-05-21 2021-05-14 Filtering Artificial Intelligence-Designed Molecules for Laboratory Testing

Country Status (5)

Country Link
US (1) US20210366580A1 (en)
JP (1) JP2023525635A (en)
CN (1) CN115552533A (en)
GB (1) GB2610986A (en)
WO (1) WO2021234522A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747391B2 (en) * 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US20150134315A1 (en) * 2013-09-27 2015-05-14 Codexis, Inc. Structure based predictive modeling
US20150142408A1 (en) * 2013-11-15 2015-05-21 Akiko Futamura Computer-assisted modeling for treatment design
US20190010533A1 (en) * 2017-06-05 2019-01-10 The Methodist Hospital System Methods for screening and selecting target agents from molecular databases
CN108694991B (en) * 2018-05-14 2021-01-01 武汉大学中南医院 Relocatable drug discovery method based on integration of multiple transcriptome datasets and drug target information
CN111081316A (en) * 2020-03-25 2020-04-28 元码基因科技(北京)股份有限公司 Method and device for screening new coronary pneumonia candidate drugs

Also Published As

Publication number Publication date
WO2021234522A1 (en) 2021-11-25
GB2610986A (en) 2023-03-22
US20210366580A1 (en) 2021-11-25
CN115552533A (en) 2022-12-30
GB202218628D0 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
Rodriguez-Perez et al. Multitask machine learning for classifying highly and weakly potent kinase inhibitors
Naseer et al. Sequence-based identification of arginine amidation sites in proteins using deep representations of proteins and PseAAC
Jefferys et al. Protein folding requires crowd control in a simulated cell
Zhang et al. Dissecting the kinematics of the kinesin step
Biswas et al. Metadynamics enhanced Markov modeling of protein dynamics
Andreatta et al. NNAlign: a web-based prediction method allowing non-expert end-user discovery of sequence motifs in quantitative peptide data
Zhang et al. Simulating replica exchange: Markov state models, proposal schemes, and the infinite swapping limit
Westerlund et al. InfleCS: clustering free energy landscapes with Gaussian mixtures
Frembgen-Kesner et al. Computer simulations of the bacterial cytoplasm
Copperman et al. Accelerated estimation of long-timescale kinetics from weighted ensemble simulation via non-Markovian “microbin” analysis
Flores et al. Multiscale modeling of macromolecular biosystems
US11174289B1 (en) Artificial intelligence designed antimicrobial peptides
Lalmansingh et al. SOURSOP: A Python package for the analysis of simulations of intrinsically disordered proteins
Maruyama et al. Analysis of protein folding simulation with moving root mean square deviation
Chen et al. MLCV: Bridging machine-learning-based dimensionality reduction and free-energy calculation
Maccari et al. In silico design of antimicrobial peptides
Kraml et al. X-Entropy: A parallelized kernel density estimator with automated bandwidth selection to calculate entropy
Singh et al. Detecting proline and non-proline cis isomers in protein structures from sequences using deep residual ensemble learning
Motta et al. PathDetect-SOM: A neural network approach for the identification of pathways in ligand binding simulations
Zheng et al. An ensemble method for prediction of conformational B-cell epitopes from antigen sequences
Reese et al. How far does a receptor influence vibrational properties of an odorant?
Berg et al. Machine learning driven analysis of large scale simulations reveals conformational characteristics of ubiquitin chains
Hadfield et al. AI in 3D compound design
Kang et al. Analysis of training and seed bias in small molecules generated with a conditional graph-based variational autoencoder─ insights for practical AI-driven molecule generation
Sun et al. From isotropic to anisotropic side chain representations: comparison of three models for residue contact estimation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221125

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220929

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231026