JP2023505859A - 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 - Google Patents

鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 Download PDF

Info

Publication number
JP2023505859A
JP2023505859A JP2022535430A JP2022535430A JP2023505859A JP 2023505859 A JP2023505859 A JP 2023505859A JP 2022535430 A JP2022535430 A JP 2022535430A JP 2022535430 A JP2022535430 A JP 2022535430A JP 2023505859 A JP2023505859 A JP 2023505859A
Authority
JP
Japan
Prior art keywords
amino acid
protein
acid sequence
acid sequences
antibody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022535430A
Other languages
English (en)
Other versions
JP7419534B2 (ja
Inventor
マーティン シェーヴァー,ジェレミー
アミムール,ティレリ
ロバート ケッチェム,ランダル
テイラー,アレックス
Original Assignee
ジャスト-エヴォテック バイオロジクス,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジャスト-エヴォテック バイオロジクス,インコーポレイテッド filed Critical ジャスト-エヴォテック バイオロジクス,インコーポレイテッド
Publication of JP2023505859A publication Critical patent/JP2023505859A/ja
Application granted granted Critical
Publication of JP7419534B2 publication Critical patent/JP7419534B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

機械学習技術を用いて、鋳型タンパク質のアミノ酸配列に基づいて標的タンパク質のアミノ酸配列を生成するシステム及び技術が記載される。標的タンパク質のアミノ酸配列は、当該鋳型タンパク質のアミノ酸配列に対して行われうる修飾を制約するデータに基づいて生成されることができる。例示的な例では、鋳型タンパク質は、抗原に結合する非ヒト哺乳動物によって産生される抗体を含んでよく、標的タンパク質は、鋳型抗体の結合領域と少なくとも閾値量が同一である領域を備えるヒト抗体に対応することができる。生成対抗ネットワークを用いて、標的タンパク質のアミノ酸配列を生成することができる。

Description

[0001]タンパク質は、1つ以上のアミノ酸の鎖で構成される生体分子である。タンパク質には生物体内で様々な機能がありうる。たとえば、あるタンパク質は生体内における反応の惹起に関与する。他の例では、タンパク質は生体内で分子を輸送することができる。さらに他の例では、タンパク質は遺伝子の複製に関与しうる。さらに、あるタンパク質には、治療特徴がある場合があり、様々な生物学的状態を治療するために用いることができる。タンパク質の構造と機能は、タンパク質を構成するアミノ酸の配置に基づく。タンパク質のアミノ酸の配列は、タンパク質の特定の位置にあるアミノ酸に対応する文字の配列で表すことができる。タンパク質のアミノ酸の配置は、タンパク質の特定の位置のアミノ酸を示すだけでなく、αへリックスやβシート等のタンパク質の三次元構造を示す三次元構造によっても表すことができる。
[0002]本開示は、例として、添付の図面の図に限定されるものではなく、類似の参照文献が類似の要素を示すものとして示される。
[0003]ある実施態様による、鋳型タンパク質配列に基づく機械学習技術を用いて標的タンパク質配列を生成するための例示的フレームワークを示す図である。 [0004]ある実施態様による、特定の特徴を備えるタンパク質配列を生成するための転移学習技術を利用するための例示的なフレームワークを示す図である。 [0005]ある実施態様による、鋳型タンパク質配列及び鋳型配列の位置の修飾に関連する制約データに基づく生成対抗ネットワークを用いて、標的タンパク質配列を生成するための例示的フレームワークを示す図である。 [0006]ある実施態様による、第二の異なる生物についての特定の機能を有する、さらなる抗体配列に対応するデータを生成するために、特定の機能を有する第一の生物の抗体配列を示すデータを利用するための例示的フレームワークを示す図である。 [0007]ある実施態様による、タンパク質断片配列を鋳型タンパク質配列と組み合わせることによる機械学習技術を用いて標的タンパク質配列を生成するための例示的フレームワークを示す図である。 [0008]ある実施態様による、鋳型タンパク質配列及び位置修飾データを用いて標的タンパク質配列を作成するための例示的な方法を示すフロー図である。 [0009]ある実施態様による、鋳型タンパク質配列に基づく生成対抗ネットワークを用いて標的タンパク質配列を生成するための例示的な方法を示すフロー図である。 [0010]一連の命令が実行されて、機械に、本明細書で説明した方法のうちのいずれか1つ以上を実行させることができる、コンピュータシステムの形態の機械の概略図である。
[0011]タンパク質には、生物体内では多くの有益な用途がありうる。例えば、タンパク質を用いて、ヒト及び他の哺乳動物の健康に有害な影響を及ぼしうる疾患及び他の生物学的状態を治療することができる。様々なシナリオでは、タンパク質は、個体に有益であり、個体が経験する1つ以上の生物学的条件に対抗しうる反応に関与しうる。ある例では、タンパク質はまた、対象の健康に有害でありうる生物体内の分子に結合しうる。様々な状況では、タンパク質の潜在的に有害な分子への結合は、対象の免疫系を活性化させて、分子の潜在的な効果を中和する。そのため、多くの研究者や研究機関は、治療効果のあるタンパク質を開発しようとしてきた。
[0012]生物学的状態の治療に用いられるタンパク質の開発は、時間がかかり、資源集約的なプロセスでありうる。しばしば、開発用の候補タンパク質は、生物内で所望の生物物理的特徴、三次元(3D)構造、及び/又は挙動があるかを有するものとして同定されうる。候補タンパク質が実際に所望の特徴を有するか否かを決定するために、タンパク質を物理的に合成し、その後、合成されたタンパク質の実際の特徴が所望の特徴に対応するか否かを決定するために試験することができる。タンパク質を合成し、特定の生物物理学的性質、3D構造、及び/又は挙動を調べるために必要な資源の量が多いため、治療目的で合成される候補タンパク質の数は限られている。ある状況では、治療目的で合成されるタンパク質の数は、候補タンパク質が合成されたものの、所望の特徴がない場合に生じる資源の損失によって制限されてしまう。
[0013]特定の特徴を備える候補タンパク質を同定するためのコンピュータに実装された技術を用いることが増えている。しかしながら、当該従来技術は、その範囲及び精度では制限される場合がある。様々な状況では、タンパク質配列を生成するための従来のコンピュータに実装された技術は、利用可能なデータの量及び/又は特定の特徴を備えるタンパク質配列を正確に生成するための従来技術によって必要な利用可能なデータの種類によって制限されることがある。さらに、特定の特徴を備えるタンパク質配列を生成することができるモデルを生成するために利用される技術は、複雑である場合があり、正確で効率的なモデルの生成に必要なノウハウは、複雑であり、実施が困難な場合がありうる。従来モデルで作成されたタンパク質配列の長さが長くなるにつれて従来技術では精度が低下する場合があり、また、比較的多数のアミノ酸(例えば、50~1000)を備える多数のタンパク質配列(例えば、数十万、数千、数百万のタンパク質配列)の作製に用いられる計算資源が、法外になりうるため、制限されうる。従って、従来の計算技術によって生成されるタンパク質の数は制限される。
[0014]さらに、1つの生物体又は生物体の種類によって産生されるタンパク質は、多数の生物体にとって有益でありうる機能性を備える場合があるが、様々なシナリオでは、同じタンパク質は、他の生物体又は生物体の種類の免疫系では拒絶される場合があり、タンパク質の有益な機能性を回避しうる。本明細書中に記載される技術及びシステムは、鋳型分子のアミノ酸配列に基づいて標的分子のアミノ酸配列を生成するために用いられうる。鋳型分子は、鋳型分子を産生した元の宿主以外にも、多くの異なる生物にとって有益な機能を示すことができる。標的分子はまた、元の宿主とは異なる生物による拒絶の可能性を最小限にしながら、鋳型分子の機能性を示すことができる。
[0015]例えば、鋳型タンパク質のアミノ酸配列のうち、宿主生物内の鋳型タンパク質の機能に起因する部分は保存することができ、一方、鋳型タンパク質のアミノ酸配列のさらなる部分は、他の生物による拒絶の可能性を最小限にするように修飾(改変)することができる。例えば、マウスで産生された鋳型抗体は、マウス及びヒトの両方に存在する抗原に効果的に結合することができる。鋳型抗体の抗原への結合は、鋳型抗体の1つ以上の結合領域に起因しうる。本明細書中に記載される技術及びシステムは、鋳型抗体の結合領域を含む標的抗体についての多数のアミノ酸配列に対応するデータを生成することができ、さらに、ヒト抗体に含まれるアミノ酸配列に対応する鋳型抗体から修飾されたさらなる領域を含む。このようにして、本明細書に記載された技術及びシステムは、抗原の結合領域が既知のヒト抗体には存在しない可能性がある、特定の抗原の結合領域と組み合わせてヒト骨格を有する抗体を作製することができる。従って、公知のヒト抗体に応答しなかったかもしれない生物学的状態は、本明細書に記載された技術及びシステムから生成されたアミノ酸配列がある抗体を用いて治療することができる。
[0016]機械学習技術を用いて、鋳型タンパク質アミノ酸配列から標的タンパク質アミノ酸配列を生成することができる。例示的な例では、生成対抗ネットワークを用いて、標的タンパク質アミノ酸配列を生成することができる。生成対抗ネットワークは、鋳型タンパク質アミノ酸配列及び位置修飾データに関して、標的タンパク質アミノ酸配列を用いて訓練することができる。位置修飾データは、鋳型タンパク質アミノ酸配列の個々の位置について、アミノ酸が異なるアミノ酸に修飾されうる可能性を示すことができる。様々な実施態様では、位置修飾データは、個々のアミノ酸の修正に応答して生成対抗ネットワークによって適用されるペナルティに対応することができる。例えば、修飾されることに対して比較的高いペナルティがある鋳型タンパク質アミノ酸配列の位置は、生成対抗ネットワークによって修飾される可能性が低い一方、修飾されることに対してペナルティが比較的低い鋳型タンパク質アミノ酸配列の他の位置は、生成対抗ネットワークによって修飾される可能性がより高い可能性がある。様々な例では、転移学習技術はまた、生物物理的特徴が1つ以上ある標的抗体を産生するために適用されうる。
[0017]位置修飾データは、鋳型タンパク質配列中のアミノ酸の位置に基づくことができる。所望の機能性に関連する鋳型タンパク質の領域に位置するアミノ酸のペナルティは、修飾されることに対して比較的高く、一方、鋳型タンパク質の他の領域に位置するアミノ酸のペナルティは、修飾されることに対して比較的中等度又は比較的低くありうる。標的タンパク質が、鋳型タンパク質を産生する宿主生物とは異なる生物に対応する場合、修飾されることに対するペナルティが比較的低い鋳型タンパク質の位置は、標的タンパク質に関連する生物のフレームワークに対応するように変化する可能性が最も高い。さらに、標的タンパク質が、鋳型タンパク質を産生する宿主の生殖細胞系遺伝子とは異なる生殖細胞系遺伝子に由来するシナリオでは、修飾されることに対する比較的低いペナルティに関連する鋳型タンパク質の位置は、標的タンパク質生殖細胞系遺伝子から産生されるタンパク質に対応するように変化する可能性が最も高い。本明細書中で用いる生殖細胞系は、タンパク質の細胞が複製するときに保存されるタンパク質のアミノ酸配列に対応することができる。子孫細胞のアミノ酸配列が、親細胞中の対応するアミノ酸配列に関して少なくとも閾値量と同一である場合、アミノ酸配列は、親細胞から子孫細胞へ保存されうる。例示的な例では、親細胞から子孫細胞へ保存されているκ軽鎖の部分であるヒト抗体のアミノ酸配列の部分は、抗体の生殖細胞系部分でありうる。
[0018]例示的な例では、マウスで産生された抗体は、マウスとヒトの両方に存在する抗原に結合することができる。抗体の抗原への結合は、抗体の相補性決定領域(CDR)に位置するアミノ酸に基づくことができる。このシナリオでは、位置修飾データは、鋳型マウス抗体のCDR内に位置するアミノ酸を変化させるための比較的高いペナルティを示すことができる。位置修飾データはまた、鋳型マウス抗体の定常ドメイン及び可変ドメインの他の部分に位置するアミノ酸の修飾に対するより低いペナルティを示すことができる。従って、本明細書に記載された発生的な生成対抗ネットワークは、マウス抗体の重鎖及び/又は軽鎖の可変ドメインの定常ドメイン及び/又は他の部分をヒト抗体の重鎖及び軽鎖に対応するように変化させながら、抗原との結合に関与するマウス抗体の残基の大部分又は全てを保存する標的ヒト抗体アミノ酸配列を生成することができる。本明細書に記載される生成対抗ネットワークはまた、ヒト抗体の特徴を決定し、抗原に対するヒト化標的抗体を産生するために作ることができる鋳型マウス抗体に対する変化を同定するために、ヒト抗体を用いて訓練することができる。
[0019]本願明細書に記載される技術及びシステムを実施することにより、標的タンパク質アミノ酸配列は、鋳型タンパク質の少なくとも部分の機能を保存することができる1つ以上の鋳型タンパク質アミノ酸配列に基づいて生成されることができる一方で、本願明細書に記載される計算及び機械学習技術は、標的タンパク質が鋳型タンパク質の機能を喪失する可能性を最小限にしつつ、鋳型タンパク質の機能に起因する部分に対する異なる支持フレームワークを利用することができる。本明細書中に記載された技術及びシステムはまた、鋳型タンパク質を産生した宿主生物とは異なる生物によって標的タンパク質が拒絶される可能性を最小限にすることができる。例えば、位置修飾データを用いると、新しい宿主生物に関連する標的タンパク質の特徴と一致するように制約されていない鋳型配列の部分を柔軟にしつつ、鋳型タンパク質配列に対して計算モデルによってなしうる変化の数を制限することで、標的タンパク質配列を生成する際に利用される計算資源の量を減少させることができる。様々な例では、本明細書に記載される技術及びシステムは、数千から数百万のタンパク質のアミノ酸配列を分析することができ、鋳型タンパク質の機能性を維持する一方で、新しいタンパク質が新しい宿主生物によって拒絶される確率を最小限にする新しいタンパク質のアミノ酸配列を正確に生成する。
[0020]図1は、ある実施態様による、鋳型タンパク質配列に基づく機械学習技術を用いて標的タンパク質配列を生成するためのフレームワーク100の例を示す図である。例えば、機械学習アーキテクチャ102は、鋳型タンパク質104のアミノ酸配列を取得し、標的タンパク質106のアミノ酸配列を生成することができる。鋳型タンパク質104は、機能性がある領域108を含むことができ、機械学習アーキテクチャ102は、標的タンパク質106が領域108も含むように、標的タンパク質106を生成することができる。様々な実施態様では、標的タンパク質は、領域108と少なくとも閾値量が同一(閾値量が同一性を有する)である領域を含む。このようにして、標的タンパク質106は、鋳型タンパク質104の機能を保持することができる。例示すると、機械学習アーキテクチャ102は、標的タンパク質106が領域108の少なくとも閾値量を保存すること、及び/又は領域108の様々な位置でアミノ酸を保存することによって、標的タンパク質106が領域108に起因する機能性を保持する確率を最大化する標的タンパク質106を生成することができる。
[0021]例示的な例では、鋳型タンパク質104の領域108と標的タンパク質106の部分との間の配列同一性の量は、鋳型タンパク質104の領域108の少なくとも部分と標的タンパク質106の部分が多数の位置で同一のヌクレオチドを有することを示すことができる。鋳型タンパク質104の領域108の少なくとも部分と標的タンパク質106の部分との間の同一性の量は、基本局所アライメント検索ツール(BLAST)を用いて決定することができる。
[0022]標的タンパク質106のさらなる部分は、鋳型タンパク質104の部分に関して異なるアミノ酸配列であるうる。鋳型タンパク質104の部分に関してアミノ酸配列が異なる標的タンパク質106の領域の二次構造はまた、鋳型タンパク質104の二次構造に関して1つ以上の異なってよい。鋳型タンパク質104の領域のアミノ酸配列と標的タンパク質106の領域との間の差異により、鋳型タンパク質104及び標的タンパク質106の三次構造が異なってよい。図1の例示的な例では、鋳型タンパク質104は、標的タンパク質106の領域112とはアミノ酸配列が異なる領域110を含むことができる。さらに、鋳型タンパク質104は、標的タンパク質106の領域116とはアミノ酸配列が異な領域114を含むことができる。
[0023]機械学習アーキテクチャ102は、標的タンパク質106のアミノ酸配列の部分が、鋳型タンパク質104を生成した生物とは異なる生物によって生成されたタンパク質に対応するように、鋳型タンパク質104の領域を修飾して、標的タンパク質106のアミノ酸配列を生成することができる。例えば、鋳型タンパク質104がある哺乳動物によって産生される一方で、標的タンパク質106は、異なる哺乳動物によって産生されることができる。例示すると、鋳型タンパク質104がマウスによって産生される一方で、標的タンパク質106は、ヒトによって産生されるタンパク質に対応することができる。さらなる例では、鋳型タンパク質104は、第一の生殖細胞系遺伝子に関連して産生されたタンパク質に対応する一方で、標的タンパク質106は、第二の生殖細胞系遺伝子に関連して産生されたタンパク質に対応することができる。鋳型タンパク質104及び標的タンパク質106が抗体である場合、鋳型タンパク質104のアミノ酸配列は、第一の抗体アイソタイプ(例えば、免疫グロビンE(IgE))に対応することができ、標的タンパク質106のアミノ酸配列は、第二の抗体アイソタイプ(例えば、IgG)に対応することができる。
[0024]機械学習アーキテクチャ102は、生成コンポーネント118及びチャレンジングなコンポーネント120を含むことができる。生成コンポーネント118は、生成コンポーネント118に提供された入力に基づいてアミノ酸配列を生成するための1つ以上のモデルを実装することができる。様々な実施態様では、生成コンポーネント118によって実装される1つ以上のモデルは、1つ以上の機能を含むことができる。チャレンジングなコンポーネント120は、生成コンポーネント118によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。チャレンジングなコンポーネント120によって生成される出力は、生成コンポーネント118に提供されることができ、生成コンポーネント118によって実装される1つ以上のモデルは、チャレンジングなコンポーネント120によって提供されるフィードバックに基づいて修飾されうる。チャレンジングなコンポーネント120は、生成コンポーネント118によって生成されたアミノ酸配列を標的タンパク質のライブラリーのアミノ酸配列と比較することができ、生成コンポーネント118によって生成されたアミノ酸配列とチャレンジングなコンポーネント120に提供された標的タンパク質のアミノ酸配列との間の対応の量を示す出力を生成することができる。
[0025]様々な実施態様では、機械学習アーキテクチャ102は、1つ以上のニューラルネットワーク技術を実装することができる。例えば、機械学習アーキテクチャ102は、1つ以上の反復ニューラルネットワークを実装することができる。さらに、機械学習アーキテクチャ102は、1つ以上の畳み込みニューラルネットワークを実装することができる。特定の実施態様では、機械学習アーキテクチャ102は、反復ニューラルネットワークと畳み込みニューラルネットワークの組み合わせを実装することができる。例では、機械学習アーキテクチャ102は、生成対抗ネットワークを含むことができる。当該状況では、生成コンポーネント118は、生成器を含むことができ、チャレンジングなコンポーネント120は、識別器を含むことができる。さらなる実施態様では、機械学習アーキテクチャ102は、条件付き生成対抗ネットワーク(cGAN)を含むことができる。
[0026]図1の例示的な例では、データを生成コンポーネント118に提供することができ、生成コンポーネント118は、データ及び1つ以上のモデルを利用して生成配列122を生成することができる。生成配列122は、タンパク質の個々の位置に位置するアミノ酸を示す一連の文字によって表されるアミノ酸配列を含むことができる。生成配列122を生成するために生成コンポーネント118に提供されるデータは、入力データ124を含むことができる。入力データ124は、乱数生成器によって生成されるノイズ又は疑似乱数生成器によって生成されるノイズを含むことができる。さらに、生成配列122を生成するために生成コンポーネント118に提供されるデータは、1つ以上の鋳型タンパク質配列126を含むことができる。鋳型タンパク質配列126は、鋳型タンパク質104等の、鋳型タンパク質とは異なるタンパク質中に含めることが望ましい1つ以上の特徴があるタンパク質のアミノ酸配列を含むことができる。例示的な例では、鋳型タンパク質配列126は、特定の抗原に結合する抗体に対応することができる。さらなる例では、鋳型タンパク質配列126は、哺乳動物の体を通して1つ以上の金属を輸送するタンパク質に対応することができる。
[0027]さらに、位置修飾データ128は、生成コンポーネント118によって用いられる生成コンポーネント118に提供されて、生成配列122を生成することができる。位置修飾データ128は、1つ以上の鋳型タンパク質配列126のアミノ酸の修飾に関連する1つ以上の基準を示すことができる。例えば、位置修飾データ128は、1つ以上の鋳型タンパク質配列126の個々のアミノ酸の修飾に対応する1つ以上の基準を示すことができる。例示すると、位置修飾データ128は、鋳型タンパク質配列126の個々の位置のアミノ酸が修飾されうる各確率を示すことができる。さらなる実施では、位置修飾データ128は、鋳型タンパク質配列126の個々の位置におけるアミノ酸の修飾に関連する不利益を示すことができる。位置修飾データ128は、鋳型タンパク質配列126の個々の位置に位置するそれぞれのアミノ酸に対応する値又は機能を含むことができる。
[0028]例示的な例では、位置修飾データ128は、標的タンパク質中に保存されるべき鋳型タンパク質の機能に対応する鋳型タンパク質の位置で修飾されるアミノ酸の確率を減少させる基準を含むことができる。例えば、鋳型タンパク質の機能に起因する領域に位置するアミノ酸の修飾に関連するペナルティは比較的高い。さらに、位置修飾データ128は、それらのアミノ酸の修飾のための確率が増加したか又は中立を示す鋳型タンパク質の機能性に起因する1つ以上の領域の外のアミノ酸に対する基準を含むことができる。例示的な例では、タンパク質の特定の機能に起因する領域の外側の個々の位置に位置するアミノ酸を修飾することに関連する不利益は、比較的低くても中立であってもよい。さらに、位置修飾データ128は、鋳型タンパク質の位置におけるアミノ酸を異なる種類のアミノ酸に変化させる確率を示すことができる。例示的な例では、鋳型タンパク質の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、かつ第二の種類のアミノ酸に変更されるための第二の、異なる、ペナルティがあってよい。すなわち、様々な実施態様では、鋳型タンパク質の疎水性アミノ酸には、他の疎水性アミノ酸に変更されることに対する第一のペナルティがあり、かつ、正に荷電したアミノ酸に変更されることに対する第二の異なるペナルティがあってよい。
[0029]1つ以上の例では、位置修飾データ128は、少なくとも部分的に、計算装置を介して得られた入力に基づいて決定することができる。例えば、位置修飾データ128の少なくとも部分を捕捉するために1つ以上のユーザインタフェース要素を含むユーザインタフェースを生成することができる。さらに、位置修飾データ128の少なくとも部分を含む通信インタフェースを介してデータファイルを取得することができる。さらに、位置修飾データ128は、多数のアミノ酸配列を解析して、タンパク質の1つ以上の位置における異なるアミノ酸の出現数を決定することによって計算することができる。鋳型タンパク質及び標的タンパク質を含むタンパク質のある位置におけるアミノ酸の出現は、位置修飾データ128に示されるアミノ酸の修飾の確率を決定するために用いられうる。様々な例では、タンパク質の生物物理的特徴及び/又は構造的特徴を、鋳型タンパク質及び標的タンパク質の1つ以上の位置におけるアミノ酸の配置と組み合わせて分析して、鋳型タンパク質の1つ以上の位置におけるアミノ酸を修飾して、標的タンパク質を生成するための位置修飾データ128に含まれる確率を決定することができる。
[0030]生成配列122は、標的タンパク質配列データ130に含まれるタンパク質の配列に対してチャレンジングなコンポーネント120によって比較することができる。標的タンパク質配列データ130は、機械学習アーキテクチャ102の訓練データでありうる。標的タンパク質配列データ130は、スキーマに従って符号化することができる。標的タンパク質配列データ130に含まれるアミノ酸配列に適用されるスキーマは、アミノ酸配列の分類に基づくことができる。例えば、抗体は、第一の分類に従って保存することができ、シグナル伝達タンパク質は、第二の分類に従って保存することができ、輸送タンパク質は、第三の分類に従って保存することができる。
[0031]標的タンパク質配列データ130は、タンパク質のアミノ酸配列を格納する1つ以上のデータソースから取得されたタンパク質の配列を含むことができる。1つ以上のデータソースは、検索される1つ以上のウェブサイトを含むことができ、標的タンパク質のアミノ酸配列に対応する情報は、1つ以上のウェブサイトから抽出されることができる。さらに、1つ以上のデータソースは、標的タンパク質のアミノ酸配列が抽出されることができる研究文書の電子版を含むことができる。
[0032]例示的な例では、標的タンパク質配列データ130は、鋳型タンパク質配列126を生成する生物とは異なる生物によって生成されるタンパク質のアミノ酸配列を含むことができる。例えば、標的タンパク質配列データ130は、ヒトタンパク質のアミノ酸配列を含むことができ、1つ以上の鋳型タンパク質配列126は、マウス又はニワトリによって産生される1つ以上のタンパク質に対応することができる。さらなる例では、標的タンパク質配列データ130は、ウマタンパク質のアミノ酸配列を含むことができ、1つ以上の鋳型タンパク質配列126は、ヒトによって産生される1つ以上のタンパク質に対応することができる。様々な例では、標的タンパク質配列データ130に含まれるアミノ酸配列は、1つ以上の特徴及び/又は機能を有することができる。例示すると、標的タンパク質配列データ130に含まれるアミノ酸配列は、ヒトが消費する様々な食品の代謝に用いられるヒト酵素に対応することができる。さらなる例では、標的タンパク質配列データ130に含まれるアミノ酸配列は、ヒト抗体に対応することができる。
[0033]鋳型タンパク質配列126、位置修飾データ128、標的タンパク質配列データ130、又はそれらの組み合わせは、機械学習アーキテクチャ102にアクセス可能な1つ以上のデータストアに格納することができる。1つ以上のデータメモリは、無線ネットワーク、有線ネットワーク、又はそれらの組み合わせを介して機械学習アーキテクチャ102に接続することができる。鋳型タンパク質配列126、位置修飾データ128、標的タンパク質配列データ130、又はそれらの組み合わせは、データメモリに送られた要求に基づいて、機械学習アーキテクチャ102によって取得され、鋳型タンパク質配列126、位置修飾データ128、又は標的タンパク質配列データ130のうちの少なくとも1つの1つ以上の部分を検索する。
[0034]チャレンジングなコンポーネント120は、生成コンポーネント118によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。1つ以上の実施態様では、チャレンジングなコンポーネント120は、識別器でありうる。さらなる状況、例えば機械学習アーキテクチャ102がワッサースタイン(Wasserstein)GANを含む場合、チャレンジングなコンポーネント120は批評家を含むことができる。
[0035]例示的な例では、生成配列122と、標的タンパク質配列データ130に含まれるアミノ酸配列等の、チャレンジングなコンポーネント120に提供されるさらなる配列との間の類似性及び相違に基づいて、チャレンジングなコンポーネント120は、分類出力132を生成して、生成配列122と、標的タンパク質配列データ130に含まれるチャレンジングなコンポーネント120に提供される配列との間の類似性の量又は差の量を示すことができる。さらに、分類出力132は、生成配列122と鋳型タンパク質配列126との間の類似性の量又は差の量を示すことができる。
[0036]1つ以上の例では、チャレンジングなコンポーネント120は、生成配列122をゼロ、標的タンパク質配列データ130から得られた符号化された配列(符号化配列)を1として標識することができる。このような場合、分類出力132は、標的タンパク質配列データ130に含まれる1つ以上のアミノ酸配列に関して0から1までの第一の数字を含むことができる。さらに、チャレンジングなコンポーネント120は、生成配列122をゼロ、鋳型タンパク質配列126を1として標識することができる。従って、チャレンジングなコンポーネント120は、鋳型タンパク質配列126に関して0から1までの他の数字を生成することができる。
[0037]さらなる例では、チャレンジングなコンポーネント120は、生成配列122と標的タンパク質配列データ130に含まれるタンパク質との間の距離の量を示す出力を生成する距離関数を実装することができる。さらに、チャレンジングなコンポーネント120は、生成配列122と鋳型タンパク質配列126との間の距離を示す出力を生成する距離関数を実装することができる。チャレンジングなコンポーネント120が距離関数を実装する実施態様では、分類出力132は、生成配列122と標的タンパク質配列データ130に含まれる1つ以上の配列との間の距離を示す-∞から∞までの数字を含むことができる。チャレンジングなコンポーネント120はまた、距離関数を実装することができ、生成配列122と鋳型タンパク質配列126との間の距離を示す-∞から∞までのさらなる数を含む分類出力132を生成することができる。
[0038]標的タンパク質配列データ130に含まれるアミノ酸配列は、チャレンジングなコンポーネント120に提供される前に、データ前処理134で処理することができる。例えば、標的タンパク質配列データ130は、チャレンジングなコンポーネント120に提供される前に、分類システムに従って配置することができる。データ前処理134は、標的タンパク質配列データ130の標的タンパク質に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表しうる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。例示的な例では、Tは、トレオニン分子が特定のタンパク質ドメイン種類の構造に基づく位置43に位置することを示す番号43と対にされうる。例示的な実施例では、構造に基づく番号付けは、フィブロネクチンIII型(FNIII)タンパク質、アビマー、抗体、VHHドメイン、キナーゼ、ジンクフィンガー、T細胞受容体等の一般的なタンパク質種類に適用することができる。
[0039]様々な実施態様では、データ前処理134によって実装される分類システムは、タンパク質の個々の位置に位置するアミノ酸の構造位置を符号化する番号付けシステムを含むことができる。このようにして、異なる数のアミノ酸を有するタンパク質を、構造的特徴に従って整列させることができる。例えば、分類システムは、特定の機能及び/又は特徴を有するタンパク質の部分が、特定の数の位置であることができることを示すことができる。様々な状況では、タンパク質の特定の領域中のアミノ酸の数がタンパク質間で変化しうるため、分類システムに含まれるすべての位置がアミノ酸に関連しているわけではない。さらに他の例では、タンパク質の構造を分類体系に反映させることができる。例示すると、各アミノ酸に関連しない分類体系の位置は、ターン又はループ等のタンパク質の様々な構造的特徴を示すことができる。例示的な例では、抗体の分類システムは、重鎖領域、軽鎖領域、及びヒンジ領域がそれらに割り当てられた特定の数の位置であり、抗体のアミノ酸が分類システムに従って位置に割り当てられうることを示すことができる。1つ以上の実施では、データ前処理134は、抗体の個々の位置に位置する個々のアミノ酸を分類するために、抗体構造番号付け(ASN)を用いることができる。
[0040]機械学習アーキテクチャ102を訓練するために用いられるデータは、生成コンポーネント118によって生成されるアミノ酸配列に影響を与える場合がある。例えば、ヒト抗体がチャレンジングなコンポーネント120に提供されるタンパク質配列データ130に含まれる状況では、生成コンポーネント118によって生成されるアミノ酸配列はヒト抗体アミノ酸配列に対応することができる。他の例では、チャレンジングなコンポーネント120に提供される標的タンパク質配列データ130に含まれるアミノ酸配列が生殖細胞系遺伝子から産生されるタンパク質に対応するシナリオでは、生成コンポーネント118によって産生されるアミノ酸配列は、生殖細胞系遺伝子から産生されるタンパク質に対応することができる。さらに、チャレンジングなコンポーネント120に提供された標的タンパク質配列データ130に含まれるアミノ酸配列が特定のイソ種類の抗体に対応する場合、生成コンポーネント118によって生成されたアミノ酸配列は特定のイソ種類の抗体に対応することができる。
[0041]データ前処理134によって生成された出力は、符号化配列136を含むことができる。符号化配列136は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。例では、符号化配列136は、タンパク質の構造に基づく位置に対応する異なるアミノ酸及び行に対応するカラムがあるマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために0を用いることができ、対応する位置にアミノ酸が存在することを示すために1を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して1をギャップカラム中に置くことができる。また、生成配列122は、符号化配列136について用いられるのと同一又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、符号化配列136及び生成配列(複数可)122は、ワンホットエンコーディング法という方法を用いて符号化されうる。
[0042]機械学習アーキテクチャ102が訓練プロセスを受けた後、訓練済みモデル138を生成し、タンパク質の配列を生成することができる。訓練済みモデル138は、タンパク質配列データ130を用いて訓練プロセスが実施された後に生成コンポーネント118を含むことができる。例示的な実施例では、訓練済みモデル138は、畳み込みニューラルネットワークの多数の重み及び/又は多数のパラメータを含む。機械学習アーキテクチャ102の学習プロセスは、生成コンポーネント118によって実行される関数と、チャレンジングなコンポーネント120によって実行される関数とが収束した後に完了することができる。関数の収束は、モデルパラメータの値の特定の値への移動に基づき、タンパク質配列が生成コンポーネント118によって生成され、フィードバックがチャレンジングなコンポーネント120から得られることができる。様々な実施態様では、機械学習アーキテクチャ102の訓練は、生成コンポーネント118によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。例えば、生成コンポーネント118によって生成されたアミノ酸配列は、アミノ酸配列の生物物理的特徴、アミノ酸配列の構造的特徴、又は1つ以上のタンパク質生殖細胞系に対応するアミノ酸配列への接着のうちの少なくとも1つを決定するソフトウェアツールによって分析することができる。機械学習アーキテクチャ102は、生成コンポーネント118によって生成されるアミノ酸配列が1つ以上の特定の特徴を備えるようにソフトウェアツールによって決定される状況では、訓練済みモデル138を生成することができる。様々な例では、生成コンポーネント118によって生成されたアミノ酸配列を評価するために用いられるソフトウェアツールにより、訓練済みモデル138が鋳型タンパク質の機能を保存したアミノ酸配列を生成することを決定することができる。
[0043]タンパク質配列入力140を訓練済みモデル138に提供することができ、訓練済みモデル138は生成されたタンパク質配列142を生成することができる。タンパク質配列入力140は、1つ以上の鋳型タンパク質配列、さらなる位置制約データ、及びランダム又は擬似ランダム系列の数字を含むことができる入力ベクターを含むことができる。例示的な実施例では、タンパク質配列入力140は、1つ以上の鋳型タンパク質配列126を含むことができる。訓練済みモデル138によって生成されたタンパク質配列142は、符号化配列136及び/又は生成配列122を表すために用いられるマトリクス構造と同一又は類似のマトリクス構造として表すことができる。様々な実施態様では、生成されたタンパク質配列142を含む訓練済みモデル138によって生成されたマトリクスを解読して、標的タンパク質の配列に対応するアミノ酸のストリングを生成することができる。例示的な例では、タンパク質配列入力140は、鋳型タンパク質104のアミノ酸配列、及び領域108の機能性を保存するために領域108に位置するアミノ酸が保存される比較的高い確率を示す位置修飾データを含むことができる。その後、訓練済みモデル138は、タンパク質配列入力140を用いて、標的タンパク質106のアミノ酸配列等の、標的タンパク質の多数のアミノ酸配列を生成することができる。様々な例では、訓練済みモデル138は、タンパク質配列入力140を用いて、鋳型タンパク質104に対応する標的タンパク質106に類似する数百、数千、最大数百万のタンパク質配列を生成することができる。
[0044]図1の例示的な例には示されていないが、生成されたタンパク質配列142に関してさらなるプロセッシングを行うことができる。例えば、生成されたタンパク質配列142を評価して、生成されたタンパク質配列142が特定の一連の特徴を有するか否かを決定することができる。例示すると、1つ以上のメトリックを、標的タンパク質配列142に関して決定することができる。例えば、生成されたタンパク質配列142に関して決定されうる測定基準は、多数の負に荷電したアミノ酸、多数の正に荷電したアミノ酸、1つ以上の極性領域を形成するように相互作用する多数のアミノ酸、1つ以上の疎水性領域を形成するように相互作用するアミノ酸、それらの1つ以上の組み合わせなどのような生成されたタンパク質配列142の特徴に関連付けることができる。
[0045]訓練済みモデル138によって生成されたタンパク質配列142は、様々な種類のタンパク質に対応することができる。例えば、生成されたタンパク質配列142は、T細胞受容体として機能するタンパク質に対応することができる。さらなる例では、生成されたタンパク質配列142は、生体内で生化学反応を惹起する触媒として機能するタンパク質に対応することができる。生成されたタンパク質配列142はまた、1つ以上の種類の抗体に対応することができる。例示すると、生成されたタンパク質配列142は、免疫グロビンA、免疫グロビンD、免疫グロビンE、免疫グロビンG、又は免疫グロビンM等の1つ以上の抗体の亜種に対応することができる。さらに、生成されたタンパク質配列142は、抗原に結合するさらなるタンパク質に対応することができる。例では、生成されたタンパク質配列142は、アフィボディ、アフィリン、アフィマー、アフィチン、アルファボディ、抗カリン、アビマー、モノボディ、設計されたアンキリン反復タンパク質(DARPins)、ナノCLAMP(クロストリダル抗体模倣タンパク質)、抗体断片、又はそれらの組み合わせに対応することができる。さらに他の例では、生成されたタンパク質配列142は、抗原に結合する領域又は他の分子に結合する領域があるタンパク質等の、タンパク質間相互作用に関与するアミノ酸配列に対応することができる。
[0046]ある実施態様では、生成されたタンパク質配列142は、配列フィルタリングの対象とすることができる。配列フィルタリングでは、生成されたタンパク質配列142を解析して、1つ以上の特徴に対応する生成されたタンパク質配列142の1つ以上を同定することができる。例えば、特定の位置に特定のアミノ酸があるアミノ酸配列を同定するため、生成されたタンパク質配列142を分析することができる。生成されたタンパク質配列142の1つ以上をフィルタリングして、アミノ酸の1つ以上の特定のストリング又は領域があるアミノ酸配列を同定することもできる。様々な実施態様では、生成されたタンパク質配列142は、少なくとも部分的には、生成されたタンパク質配列142のうちの少なくとも1つと、一連の生物物理的特徴を有するさらなるタンパク質のアミノ酸配列との間の類似性に基づいて、一連の生物物理的特徴に関連するアミノ酸配列を同定するためにフィルタリングされうる。
[0047]機械学習アーキテクチャ102は、1つ以上の計算装置144によって実現することができる。1つ以上の計算装置144は、1つ以上のサーバコンピュータ装置、1つ以上のデスクトップコンピュータ装置、1つ以上のラップトップコンピュータ装置、1つ以上のタブレットコンピュータ装置、1つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。特定の実施態様では、1つ以上の計算装置144の少なくとも部分を分散計算環境で実装することができる。例えば、1つ以上の計算装置144の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。加えて、図1の例示的な例は、単一の生成コンポーネント及び単一のチャレンジングなコンポーネントを有する生成対抗ネットワークを含む機械学習アーキテクチャ102の実装を示すが、さらなる実施態様では、機械学習アーキテクチャ102は、複数の生成対抗ネットワークを含むことができる。さらに、機械学習アーキテクチャ102によって実装される各生成対抗ネットワークは、1つ以上の生成コンポーネント及び1つ以上のチャレンジングなコンポーネントを含むことができる。
[0048]図2は、ある実施態様による、特定の特徴を備えるタンパク質配列を生成するために、転移学習技術を利用するための例示的フレームワーク200を示す図である。フレームワーク200は、第一世代の対抗ネットワーク202を含むことができる。第一の生成対抗ネットワーク202は、第一の生成コンポーネント204及び第一のチャレンジングなコンポーネント206を含むことができる。様々な実施態様では、第一の生成コンポーネント204は生成器であってよく、第一のチャレンジングなコンポーネント206は識別器でありうる。第一の生成コンポーネント204は、第一の生成コンポーネント204に提供された入力に基づいてアミノ酸配列を生成するために1つ以上のモデルを実装することができる。第一のチャレンジングなコンポーネント206は、生成コンポーネント204によって生成されたアミノ酸配列が1つ以上の特徴を満たすことを示す出力、又は生成コンポーネント204によって生成されたアミノ酸配列が1つ以上の特徴を満たさないことを示す出力を生成することができる。第一のチャレンジングなコンポーネント206によって生成された出力は、生成コンポーネント204に提供することができ、第一のチャレンジングなコンポーネント206によって提供されたフィードバックに基づいて、第一の生成コンポーネント204によって実装された1つ以上のモデルを修正することができる。様々な実施態様では、第一のチャレンジングなコンポーネント206は、第一の生成コンポーネント204によって生成されたアミノ酸配列を標的タンパク質のアミノ酸配列と比較することができ、第一の生成コンポーネント204によって生成されたアミノ酸配列と、第一のチャレンジングなコンポーネント206に提供された標的タンパク質のアミノ酸配列との間の対応の量を示す出力を生成することができる。
[0049]第一の生成対抗ネットワーク202は、図1の機械学習アーキテクチャ102に関して説明したのと同じ又は同様の方法で訓練することができ、例えば、第一の符号化配列210及び1つ以上の鋳型タンパク質配列212を第一のチャレンジングなコンポーネント206に供給し、第一の生成コンポーネント204によって生成された出力と比較することができる。第一の生成コンポーネント204によって生成される出力は、1つ以上の鋳型タンパク質配列212、位置修飾データ214、及び第一の入力データ216に基づくことができる。1つ以上の鋳型タンパク質配列212は、保存されるべき1つ以上の特徴を含むタンパク質のアミノ酸配列を含むことができる。位置修飾データ214は、1つ以上の鋳型タンパク質配列214の様々な位置におけるアミノ酸の修飾に関連する制約を示すことができる。第一の入力データ216は、乱数生成器又は疑似乱数生成器によって生成されたデータを含むことができる。訓練済みモデル208は、1つ以上の収束基準又は1つ以上の最適化基準等の1つ以上の基準を満たす、第一の生成コンポーネント204又は第一のチャレンジングなコンポーネント206のうちの少なくとも1つによって実施される1つ以上の機能に応答して生成されうる。
[0050]第一の符号化された標的タンパク質配列210は、分類スキームに従って符号化することができる。さらに、最初に符号化された標的タンパク質配列210は、標的タンパク質のアミノ酸配列を含むことができ、標的タンパク質は、1つ以上の機能的領域を支持することができる支持構造又は基礎構造を含む。例えば、最初に符号化された標的タンパク質配列210がヒト抗体である場合、最初に符号化された標的タンパク質配列210には、抗体の特定の種類又はクラスを代表する軽鎖及び/又は重鎖の定常領域があってよい。例示すると、第一の符号化された標的タンパク質配列210は、IgA抗体に対応する重鎖の定常領域を有する抗体を含むことができる。
[0051]訓練済みモデル208は、標的タンパク質の基礎構造又は足場構造に加えて、1つ以上の鋳型タンパク質の機能の少なくとも部分を有するタンパク質のアミノ酸配列を生成することができる。実施態様では、訓練済みモデル208は、マウス抗体では元来見出されるCDRに対応するCDRで抗原に結合するヒト抗体のアミノ酸配列を生成することができる。さらなる例では、訓練済みモデル208は、第二の異なる生殖細胞系遺伝子から生成されたタンパク質の1つ以上のアミノ酸配列の入力に基づいて、第一の生殖細胞系遺伝子から生成されたタンパク質のアミノ酸配列を生成することができる。
[0052]さらなる実施では、訓練済みモデル208は、鋳型タンパク質配列212又は位置修飾データ214のうちの少なくとも1つを用いずに生成することができる。例えば、訓練済みモデル208は、第一の符号化された標的タンパク質配列210及び第一の入力データ216を用いて生成することができる。様々な実施態様では、訓練済みモデル208は、第一の符号化された標的タンパク質配列210が1つ以上の生殖細胞系遺伝子に対応するアミノ酸配列を含むように、第一の生成対抗ネットワーク202のための訓練データを用いて生成されうる。
[0053]様々な例では、訓練済みモデル208によって生成されたアミノ酸配列は、さらに改良されうる。例示すると、訓練済みモデル208は、初期訓練プロセスとは異なる一組の訓練データを用いて他の訓練プロセスで処理されることによって修飾することができる。例えば、訓練済みモデル208のさらなる訓練に用いられるデータは、訓練済みモデル208を最初に生成するために用いられるデータのサブセットを含むことができる。さらなる例では、訓練済みモデル208のさらなる訓練に用いられるデータは、訓練済みモデル208を最初に生成するために用いられるデータとは異なるデータセットを含むことができる。例示的な例では、訓練済みモデル208は、抗原に結合するマウス抗体のCDR領域があるヒト抗体のアミノ酸配列を作製することができ、訓練済みモデル208は、さらに改良されて、特定のpH範囲の環境では少なくとも閾値レベルの発現を有する確率がより高いニワトリ抗体に元来見出されたCDR領域があるヒト抗体のアミノ酸配列を作製することができる。この例を続けると、訓練済みモデル208は、特定のpH範囲で比較的高いレベルで発現するヒト抗体のデータセットを用いたさらなる訓練によって改良することができる。図2の例示的な例では、訓練済みモデル208の改良は、訓練モデル208を第二の生成コンポーネント220として含む第二の生成対抗ネットワーク218を訓練することによって表すことができる。様々な実施態様では、第二の生成コンポーネント220は、訓練モデル208に対して1つ以上の修飾がされた後に、訓練モデル208を含むことができる。例えば、1つ以上の隠れ層の追加や1つ以上のネットワークフィルタへの変更等、訓練モデル208のアーキテクチャに関連して訓練モデル208に修正を加えることができる。第二の生成対抗ネットワーク218はまた、第二のチャレンジングなコンポーネント222を含むことができる。第二のチャレンジングなコンポーネント222は、識別器を含むことができる。
[0054]第二の入力データ228は、第二の生成コンポーネント220に提供することができ、第二の生成コンポーネント220は、1つ以上の生成配列224を生成することができる。第二の入力データ228は、第二の生成コンポーネント220が生成配列224を生成するために用いる、ランダム又は擬似ランダムな配列の数字を含むことができる。第二のチャレンジングなコンポーネント222は、第二の分類出力226を生成することができ、これは、第二の生成コンポーネント220によって生成されたアミノ酸配列が様々な特徴を満たすこと、又は第二の生成コンポーネント220によって生成されたアミノ酸配列が様々な特徴を満たさないことを示す。例示的な実施例では、第二のチャレンジングなコンポーネント222は、1つ以上の生成配列224と第二のチャレンジングなコンポーネント222に提供されるアミノ酸配列との間の類似性及び相違に基づいて分類出力226を生成することができる。分類出力226は、生成配列224と第二のチャレンジングなコンポーネント222に提供された比較配列との間の類似性の量又は差の量を示すことができる。
[0055]第二のチャレンジングなコンポーネント222に提供されるアミノ酸配列は、さらなるタンパク質配列データ230に含めることができる。さらなるタンパク質配列データ230は、1つ以上の特定の特徴を備えるタンパク質のアミノ酸配列を含むことができる。例えば、さらなるタンパク質配列データ230は、ヒトにおける発現の閾値レベルであるタンパク質のアミノ酸配列を含むことができる。さらなる例では、さらなるタンパク質配列データ230は、1つ以上の生物物理的特徴及び/又は1つ以上の構造的特徴があるタンパク質のアミノ酸配列を含むことができる。例示すると、さらなるタンパク質配列データに含まれるタンパク質は、負に荷電した領域、疎水性領域、凝集の確率が比較的低いこと、高分子量が特定の比率であること、融解温度、それらの1つ以上の組み合わせなどを備えることができる。様々な例では、さらなるタンパク質配列データ230は、訓練済みモデル208を生成するために用いられるタンパク質配列データのサブセットを含むことができる。1つ以上の特定の特徴を備える第二のチャレンジングなコンポーネント222にアミノ酸配列を提供することによって、第二の生成コンポーネント220は、少なくとも1つ以上の特定の特徴を備える閾値の確率があるアミノ酸配列を生成するように訓練されうる。
[0056]さらに、特定の特徴を備えるタンパク質のアミノ酸配列を生成することが望ましい多くの場合では、生成対抗ネットワークを訓練するために利用可能な配列の数は制限される。このような場合、特定の特徴を備えるタンパク質のアミノ酸配列を生成するための生成対抗ネットワークの正確性、効率性及び/又は有効性は十分ではないかもしれない。このように、生成対抗ネットワークを訓練するために利用できる十分な数のアミノ酸配列がなければ、生成対抗ネットワークによって生成されたアミノ酸配列には所望の特徴がないかもしれない。図2に関連して記載された技術及びシステムを実装することによって、第一の生成対抗ネットワーク202は、第一のデータセットを用いて、タンパク質に対応する、又はより広いクラスのタンパク質に対応するアミノ酸配列を決定するプロセスの部分を実行することができ、第二の生成対抗ネットワーク218は、第二の異なるデータセットを用いて、より特異的な特徴があるタンパク質のアミノ酸配列を生成するためのさらなる訓練を実行することができる。第二のデータセットは、初期訓練データセットのサブセットを含むことができ、又は所望の特徴を有するタンパク質のアミノ酸配列を含むことができる。
[0057]第二のチャレンジングなコンポーネント222に提供される前に、さらなるタンパク質配列データ230に含まれるアミノ酸配列を、はデータ前処理232で処理することができる。例えば、さらなるタンパク質配列データ230は、第二のチャレンジングなコンポーネント222に提供される前に、分類システムに従って配置することができる。データ前処理232は、さらなるタンパク質配列データ230に含まれるタンパク質のアミノ酸配列に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表すことができる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。第二の符号化配列234は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。様々な例では、第二の符号化配列234は、タンパク質の構造に基づく位置に対応する異なるアミノ酸及び行に対応するカラムを有するマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために0を用いることができ、対応する位置にアミノ酸が存在することを示すために1を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して1をギャップカラム中に置くことができる。生成配列224は、また、第二の符号化配列234について用いられるのと同じ又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、第二の符号化配列234及び第二の生成配列224は、ワンホットエンコーディング法という場合がある方法を用いて符号化されうる。例示的な実施例では、データ前処理232で用いられる分類システムは、図1に関して説明した前処理134で用いられる分類システムと同じか、又は類似することができ、データ前処理232は、第二の符号化配列234を生成し、これは、第二のチャレンジングなコンポーネント222に提供される。
[0058]第二のチャレンジングなコンポーネント222は、第二の生成コンポーネント220によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。様々な実施態様では、第二のチャレンジングなコンポーネント222は、識別器でありうる。さらなる状況、例えば、第二の生成対抗ネットワーク218がワッサースタインGANを含む場合、第二のチャレンジングなコンポーネント222は批判者を含むことができる。
[0059]例示的な例では、生成配列224と、さらなるタンパク質配列データ232に含まれるアミノ酸配列等の第二のチャレンジングなコンポーネント222に提供されるさらなる配列との間の類似性及び相違に基づいて、第二のチャレンジングなコンポーネント222は、分類出力226を生成して、生成配列224と、さらなるタンパク質配列データ232に含まれる第二のチャレンジングなコンポーネント222に提供される配列との間の類似性又は差異の量を示すことができる。さらに、分類出力226は、生成配列224とさらなるタンパク質配列データ232に含まれるアミノ酸配列との間の類似性の量又は差の量を示すことができる。さらなる例では、第二のチャレンジングなコンポーネント222は、生成配列222とさらなるタンパク質配列データ232に含まれるタンパク質との間の距離の量を示す出力を生成する距離関数を実装することができる。第二のチャレンジングなコンポーネント222が距離関数を実施する実施態様では、分類出力226は、生成配列224とさらなるタンパク質配列データ232に含まれる1つ以上のアミノ酸配列との間の距離を示す-∞~∞の数字を含むことができる。
[0060]第二世代の生成対抗ネットワーク218が訓練プロセスを受けた後、改良された訓練済みモデル236を生成して、タンパク質の配列を生成することができる。修正された訓練済みモデル236は、さらなるタンパク質配列データ230を用いて訓練された後に、訓練済みモデル208を表すことができる。例では、第二の生成コンポーネント220及び第二のチャレンジングなコンポーネント222によって実装された関数が収束した後、第二の生成対抗ネットワーク218のための訓練プロセスを完了することができる。関数の収束は、タンパク質配列が第二の生成コンポーネント220によって生成され、第二のチャレンジングなコンポーネント222からフィードバックが得られる場合、特定の値に対するモデルパラメータの値の移動に基づくことができる。第二の生成対抗ネットワーク218の訓練は、第二の生成コンポーネント220によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。
[0061]さらなる配列入力238を修正された訓練済みモデル236に提供することができ、修正された訓練済みモデル236は生成配列240を生成することができる。さらなる配列入力238は、ランダム又は擬似ランダムな数列を含むことができ、生成配列240は、タンパク質の配列でありうるアミノ酸配列を含むことができる。さらなる実施態様では、生成配列240は、生成配列240が特定の一連の特徴を有するか否かを決定するために評価されうる。生成配列240の評価は、タンパク質の生物物理的特徴、タンパク質の領域の生物物理的特徴、及び/又は特定の位置に位置するアミノ酸の存在又は非存在等の、生成配列240の特徴を示すメトリックを生成することができる。さらに、メトリックは、生成配列240の特徴と特定の特徴セットとの間の対応の量を示すことができる。ある例では、メトリックは、タンパク質の生殖細胞系遺伝子によって生成配列とは異なる、生成配列240の多数の位置を示すことができる。さらに、生成配列240の評価は、生成配列240に対応するタンパク質の構造的特徴の有無を決定することができる。
[0062]図2の例示的な例は、2つの生成対抗ネットワークを含むフレームワークにおける複数の訓練セットを用いるモデルの訓練を示す。さらなる実施態様では、複数の訓練データセットを用いるモデルの訓練は、単一の生成対抗ネットワークを用いて表現することもできる。さらに、図2の例示的な例は、2つの訓練用データセットを有する生成対抗ネットワークを用いるモデルの訓練を示すが、様々な実施態様では、2つ以上のデータセットを用いて、本明細書に記載される実施態様に従って1つ以上の生成対抗ネットワークを用いてモデルを訓練することができる。例えば、第一の生成対抗ネットワーク202の第一の生成コンポーネント204は、事前に訓練済み生成対抗ネットワークを用いて生成することができる。例示すると、第一の生成コンポーネント204は、抗体のアミノ酸配列の訓練データセットを用いて製造することができ、訓練済みモデル208は、生殖細胞系遺伝子に対応する位置の1つ以上の群を有する抗体のアミノ酸配列の訓練データセットを用いて転移学習技術を用いて製造することができる。次いで、訓練済みモデル208をさらに訓練して、ヒト抗体のアミノ酸配列を生成することができる改変された訓練済みモデル236を作製することができる。
[0063]図3は、ある実施態様による、鋳型タンパク質配列及び鋳型タンパク質配列の位置の修飾に関連する制約データに基づく生成対抗ネットワークを用いて標的タンパク質配列を生成するためのフレームワーク300の例を示す図である。フレームワーク300は、コンピュータシステム302を含むことができる。コンピュータシステム302は、1つ以上の計算装置によって実現することができる。1つ以上の計算装置は、1つ以上のサーバコンピュータ、1つ以上のデスクトップコンピュータ、1つ以上のラップトップコンピュータ装置、1つ以上のタブレットコンピュータ装置、1つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。様々な実施態様では、1つ以上の計算装置の少なくとも部分は、分散コンピューティング環境で実装することができる。例えば、1つ以上の計算装置の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。
[0064]コンピュータシステム302は、1つ以上の生成対抗ネットワーク304を含むことができる。1つ以上の生成対抗ネットワーク304は、条件付き生成対抗ネットワークを含むことができる。様々な実施態様では、1つ以上の生成対抗ネットワーク304は、生成コンポーネント及びチャレンジングなコンポーネントを含むことができる。生成コンポーネントは、タンパク質のアミノ酸配列を生成することができ、チャレンジングなコンポーネントは、生成コンポーネントによって生成されたアミノ酸配列を、訓練セットに含まれるアミノ酸配列、又は訓練データセットに含まれないアミノ酸配列として分類することができる。訓練データセットは、1つ以上の分析試験及び/又は1つ以上のアッセイに従って合成及び特徴付けされたタンパク質のアミノ酸配列を含むことができる。チャレンジングなコンポーネントの出力は、生成コンポーネントによって生成されたアミノ酸配列と訓練データのセットに含まれるアミノ酸配列との間の比較に基づくことができる。例示的な実施例では、チャレンジングなコンポーネントの出力は、生成コンポーネントによって生成されたアミノ酸配列が訓練データのセットに含まれる確率に対応することができる。生成コンポーネントがアミノ酸配列を生成し、かつ、チャレンジングなコンポーネントが生成コンポーネントによって生成されたアミノ酸配列に関するフィードバックを生成するので、生成コンポーネントに関連する1つ以上のモデル及びチャレンジングなコンポーネントに関連する1つ以上のモデルが訓練され、1つ以上の訓練基準を満たすまで、チャレンジングなコンポーネントによって実施された1つ以上のモデルのパラメータ及び/又は重み付け、及び生成コンポーネントによって実施された1つ以上のモデルのパラメータ及び/又は重み付けを改良することができる。実施態様では、生成コンポーネントは、訓練データのセットに含まれないタンパク質の1つ以上の偽アミノ酸配列を生成し、チャレンジングなコンポーネントを、1つ以上のタンパク質の偽アミノ酸配列を訓練データのセットに含まれるものとして分類するように「トリック」することができる。
[0065]1つ以上の生成対抗ネットワーク302は、鋳型タンパク質306等の1つ以上の鋳型タンパク質のアミノ酸配列を用いて、標的タンパク質308等の標的タンパク質の1つ以上のアミノ酸配列を生成することができる。図3の例示的な例では、鋳型タンパク質304の第一のアミノ酸配列310に対応するデータをコンピュータシステム302に提供することができ、コンピュータシステム302は、標的タンパク質308の第二のアミノ酸配列312を生成することができる。第一のアミノ酸配列310は、鋳型タンパク質306の位置111におけるアミノ酸314(トレオニン)、鋳型タンパク質318の位置112におけるアミノ酸316(ヒスチジン)、鋳型タンパク質306の位置113におけるアミノ酸318(メチオニン)、鋳型タンパク質306の位置274におけるアミノ酸320(アルギニン)、鋳型タンパク質306の位置275におけるアミノ酸322(ヒスチジン)、及び鋳型タンパク質306の位置276におけるアミノ酸324(ヒスチジン)等の、多数のアミノ酸を各位置に含むことができる。1つ以上の生成対抗ネットワーク304は、コンピュータシステム302に提供されるアミノ酸配列の個々の位置に対応する位置修飾データに応じて条件付きとすることができる。例えば、アミノ酸314、316、318、320、322、324は、それぞれの位置修飾データに関連する。例示すると、アミノ酸314は位置修飾データ326に関連付けることができ、アミノ酸316は位置修飾データ328に関連付けることができ、アミノ酸318は位置修飾データ330に関連付けることができ、アミノ酸320は位置修飾データ332に関連付けることができ、アミノ酸322は位置修飾データ334に関連付けることができ、アミノ酸324は位置修飾データ336に関連付けることができる。
[0066]位置修飾データ326、328、330、332、334、336は、鋳型タンパク質306のアミノ酸310の第一の配列に含まれる個々のアミノ酸314、316、318、320、322、324の修飾に関する制約に対応することができる。例示的な実施例では、位置修飾データ326、328、330、332、334、336は、アミノ酸310の第一の配列におけるそれぞれの個々のアミノ酸314、316、318、320、322の改変に応答して、1つ以上の生成コンポーネント及び/又は1つ以上の生成対抗ネットワーク304の1つ以上のチャレンジングなコンポーネントによって適用されるペナルティを示すことができる。例えば、位置修飾データ326、328、330、332、334、336に含まれるペナルティは、1つ以上の生成対抗ネットワーク304の少なくとも1つの損失関数に適用されうる。さらなる例では、位置修飾データ326、328、330、332、334、336は、アミノ酸310の第一の配列中の個々のアミノ酸314、316、318、320、322、324が修飾されうる確率を含むことができる。位置修飾データ326、328、330、332、334、336は、アミノ酸310の第一の配列に含まれる個々のアミノ酸314、316、318、320、322の修飾に対応する確率及び/又はペナルティに関連する数値を含むことができる。例示すると、位置修飾データ326、328、330、332、334、336は、0から1の数値、-1から1の数値、及び/又は0から100の数値を含むことができる。さらなる実施では、位置修飾データ326、328、330、332、334、336は、1つ以上の変数がアミノ酸310の第一の配列に含まれる個々のアミノ酸314、316、318、320、322の修飾に対応する確率及び/又はペナルティに関連する、1つ以上の線形関数又は1つ以上の非線形関数などの1つ以上の関数を含むことができる。さらなる例では、位置修飾データ326、328、330、332、334、336の少なくとも部分は、1つ以上の位置314、316、318、320、322、324に位置するアミノ酸が1つ以上の生成対抗ネットワーク304によって修正されないことを示すことができる。また、図3の例示的な例は、各位置314、316、318、320、322、324が、さらなる実施では、それぞれの位置修飾データ326、328、330、332、334、336に関連することを示すが、位置314、316、318、320、322、324のうちの少なくとも1つは、位置修飾データに関連しないことができる。1つ以上の実施では、位置修飾データは、第一のアミノ酸配列の位置の1つ以上の群に関連付けることができる。
[0067]様々な例では、鋳型タンパク質306のアミノ酸310の第一の配列に対応するデータを、コンピュータシステム302に提供することができる。第一のアミノ酸配列310及び対応する位置修飾データは、1つ以上の生成対抗ネットワーク304によって用いられ、標的タンパク質308に対応する第二のアミノ酸配列312を生成することができる。標的タンパク質308は、鋳型タンパク質306とは異なるが、関連することができる。例えば、1つ以上の生成対抗ネットワーク304は、アミノ酸310の第一の配列の1つ以上の位置のアミノ酸を修飾して、アミノ酸312の第二の配列を生成することができる。例示すると、第二のアミノ酸配列312は、アミノ酸310の第一の配列のアミノ酸314、316に対応するアミノ酸346及び348を含む。すなわち、アミノ酸314及びアミノ酸338は両方ともスレオニンであり、アミノ酸316及びアミノ酸340は両方ともヒスチジンである。図3の例示的な例では、アミノ酸318とアミノ酸342は、アミノ酸318のメチオニンが、1つ以上の生成対抗ネットワーク304によって、アミノ酸342についてロイシンに変化したことを示す。さらに、アミノ酸320はアミノ酸344に対応することができ、両方のアミノ酸320、344はアルギニンであり、一方、鋳型タンパク質306の第一のアミノ酸配列310のアミノ酸322、324は、標的タンパク質308のアミノ酸312の第二の配列のアミノ酸346、348ではヒスチジンからリジンに変化している。鋳型タンパク質306のアミノ酸310の第一の配列の様々な位置におけるアミノ酸を修飾することに加えて、1つ以上の生成対抗ネットワーク304は、アミノ酸310の第一の配列にアミノ酸を付加することによって、標的タンパク質308のアミノ酸312の第二の配列を生成することができる。1つ以上の生成対抗ネットワーク304はまた、鋳型タンパク質306のアミノ酸310の第一の配列からアミノ酸を削除することによって、標的タンパク質308のアミノ酸312の第二の配列を生成することができる。
[0068]標的タンパク質310は、鋳型タンパク質308の1つ以上の特徴を保持することができる。鋳型タンパク質308の1つ以上の特徴は、標的タンパク質308の第二のアミノ酸配列312中の鋳型タンパク質306の第一のアミノ酸配列310の様々な位置に個々のアミノ酸を維持することによって、標的タンパク質310中に維持することができることである。標的タンパク質308にも存在する鋳型タンパク質306の1つ以上の特徴は、1つ以上の特徴に対応するアミノ酸の第一の配列310の1つ以上の位置を決定し、1つ以上の生成対抗ネットワーク304が1つ以上の位置に位置するアミノ酸を変化させる確率を最小化することによって保存することができる。さらに、鋳型タンパク質306中の第一のアミノ酸を置換するために用いられる標的タンパク質308中のアミノ酸の特徴は、制限されうる。例えば、アミノ酸310の第一の配列の位置修飾データは、疎水性アミノ酸が他の疎水性アミノ酸によって置換されるべきであることを示すことができる。このようにして、標的タンパク質308は、類似又は同一の鋳型タンパク質306の1つ以上の特徴を備えることができる。例えば、標的タンパク質308は、鋳型タンパク質306の1つ以上の生物物理的特徴の値の閾値量内にある1つ以上の生物物理的特徴の値があってよい。さらに、標的タンパク質308は、鋳型タンパク質306の機能に類似又は同じ機能を有することができる。例示すると、標的タンパク質308及び鋳型タンパク質306は、特定の分子又は特定の種類の分子の両方に結合することができる。例示的な例では、鋳型タンパク質306は、抗原に結合する抗体を含むことができ、アミノ酸310の第一の配列は、標的タンパク質308が抗原にも結合することができるように、アミノ酸312の第二の配列に修飾することができる。
[0069]様々な例では、位置修飾データは、鋳型タンパク質306の1つの位置におけるアミノ酸を標的タンパク質308中の1つ以上の異なるアミノ酸に変化させることに関連するペナルティ及び/又は確率を示すことができる。例示すると、位置修飾データは、114位のアミノ酸314のトレオニンをセリンに変化させる第一のペナルティ及び/又は第二のペナルティ及び/又は114位のアミノ酸314のトレオニンをシステインに変化させる第二の確率を示すことができる。位置修飾データは、様々な実施では、少なくとも5個の他のアミノ酸、少なくとも10個の他のアミノ酸、少なくとも15個の他のアミノ酸、又は少なくとも20個の他のアミノ酸のそれぞれに関する鋳型タンパク質の位置におけるアミノ酸を修飾するためのそれぞれの確率及び/又はそれぞれのペナルティを示すことができる。
[0070]1つ以上の生成対抗ネットワーク304は、1つの生物によって産生された鋳型タンパク質を修飾して、異なる生物に対応する標的タンパク質を生成することができる。例えば、鋳型タンパク質306はマウスによって産生され得、アミノ酸310の第一の配列は、アミノ酸312の第二の配列がヒトタンパク質に対応するように修飾されうる。さらなる例では、鋳型タンパク質306は、ヒトによって産生され得、アミノ酸310の第一の配列は、アミノ酸312の第二の配列がウマタンパク質に対応するように修飾されうる。さらに、1つ以上の生成対抗ネットワーク304は、生殖細胞系の1つ以上の遺伝子によって産生される鋳型タンパク質を修飾して、異なる生殖細胞系遺伝子に対応するタンパク質を産生することができる。例示的な例では、種内の抗体の生殖細胞系遺伝子の1つ以上のアミノ酸の修飾は、特定の抗原に対する結合能の量を維持しつつ、抗体の1つ以上の特徴(例えば、発現レベル、収量、可変領域安定性)に影響を及ぼしうる。さらに、1つ以上の生成対抗ネットワーク304が抗体のアミノ酸配列を修飾する場合、1つ以上の生成対抗ネットワーク304は、IgEアイソタイプ抗体等の第一の抗体アイソタイプに対応する鋳型タンパク質を修飾して、IgGアイソタイプ抗体等の第二の抗体アイソタイプに対応する標的抗体を生成することができる。
[0071]図4は、ある実施態様による、特定の機能を有する第一の生物体の抗体配列を示すデータを利用して、第二の異なる生物体についての特定の機能を有するさらなる抗体配列に対応するデータを生成するための例示的フレームワーク400を示す図である。フレームワーク400は、第一の哺乳動物08の鋳型抗体406のアミノ酸配列を修飾して第二の哺乳動物412の標的抗体410を生成するために、1つ以上の生成対抗ネットワーク404を実装することができるコンピュータシステム402を含むことができる。図4の例示的な例では、鋳型抗体406は、マウス抗体であることができ、標的抗体410は、ヒト抗体に対応することができる。鋳型抗体406は抗原414に結合することができる。さらに、1つ以上の生成対抗ネットワーク404の閾値の確率は、少なくとも標的抗体410が抗原414にも結合する閾値の確率であるように、標的抗体410を生成することができる。
[0072]鋳型抗体406は、第一の軽鎖416を含むことができる。第一の軽鎖416は、多数のフレームワーク領域及び多数の超可変領域がある可変領域を含むことができる。様々な例では、超可変領域は、本明細書中では、相補性決定領域(CDR)という場合がある。図4の例示的な実施例では、第一の軽鎖416は、第一のフレームワーク領域418、第二のフレームワーク領域420、第三のフレームワーク領域422、及び第四のフレームワーク領域424を含むことができる。さらに、第一の軽鎖416は、第一のCDR 426、第二のCDR 428、及び第三のCDR 430を含むことができる。図4の例示には示されていないが、第一の軽鎖416は、第一の軽鎖416の可変領域に結合され、第一の軽鎖416の可変領域のアミノ酸配列に続く定常領域を含むことができる。第一の軽鎖416の定常領域及び第一の軽鎖416の可変領域は、第一の軽鎖416に対する抗原結合領域を形成することができる。
[0073]鋳型抗体406はまた、第一の重鎖432を含むことができる。第一の重鎖432は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第一の重鎖432は、第一のフレームワーク領域434、第二のフレームワーク領域436、第三のフレームワーク領域438、及び第四のフレームワーク領域440を含むことができる。さらに、第一の重鎖432は、第一のCDR 442、第二のCDR 444、及び第三のCDR 446を含むことができる。図4の例示には示されていないが、第一の重鎖432は、第一の重鎖432の可変領域に結合する多数の定常領域を含むことができる。例示すると、第一の重鎖432の第一の定常領域を可変領域に連結することができ、第一の重鎖432の第一の定常領域と第一の重鎖432の可変領域とがともに、第一の重鎖432の抗原結合領域を形成することができる。また、第一の重鎖432は、2つのさらなる定常領域を含み、ブリッジ領域によって抗原結合領域に結合される結晶化可能領域を含むことができる。
[0074]第一の軽鎖416の抗原結合領域及び第一の重鎖432の抗原結合領域は、抗原414の形状及び化学的プロファイルに対応する形状であってよい。様々な例では、第一の軽鎖416のCDR426、428、430の少なくとも部分、及び第一の重鎖432のCDR442、444、446の少なくとも部分は、抗原414のエピトープ領域のアミノ酸と相互作用するアミノ酸を含むことができる。このようにして、CDR426、428、430、442、444、446の少なくとも部分のアミノ酸は、静電相互作用、水素結合、ファンデルワールス力、又は疎水性相互作用の少なくとも1つを介して抗原414のアミノ酸と相互作用することができる。
[0075]図4の例示には示されていないが、鋳型抗体406は、さらなる重鎖と対合するさらなる軽鎖も含むことができる。さらなる軽鎖は、第一の軽鎖416に対応することができ、さらなる重鎖は、第一の重鎖432に対応することができる。例示的な例では、さらなる軽鎖のアミノ酸配列は、第一の軽鎖414と同じアミノ酸配列であってよく、さらなる重鎖のアミノ酸配列は、第一の重鎖432と同じアミノ酸配列であってよい。鋳型抗体406のさらなる軽鎖及びさらなる重鎖は、抗原414に対応する他の抗原分子に結合することができる。
[0076]1つ以上の生成対抗ネットワーク404は、鋳型抗体406の領域のアミノ酸配列を用いて標的抗体410を生成することができる。標的抗体410は、鋳型抗体406のアミノ酸配列の部分とは異なるアミノ酸配列である1つ以上の部分があってよい。標的抗体410のアミノ酸配列に関連して変化する鋳型抗体406のアミノ酸配列の部分は、標的抗体410が、鋳型抗体406に関連する種によって産生される抗体よりも、異なる種によって産生される抗体に、より密接に対応するように修飾することができる。1つ以上の例では、1つ以上の生成対抗ネットワーク404は、第一の軽鎖416の可変領域に含まれるアミノ酸及び/又は第一の重鎖432の可変領域に含まれるアミノ酸を修飾して、標的抗体410を生成することができる。様々な例示的な実施例では、1つ以上の生成対抗ネットワーク404は、第一の軽鎖416のCDR426、438、430のうちの1つ以上又は第一の重鎖432のうちのCDR442、444、446のうちの1つ以上に含まれるアミノ酸を修飾して、標的抗体410を産生することができる。
[0077]標的抗体410は、第二の軽鎖448を含むことができる。第二の軽鎖448は、第一の軽鎖416に対応することができる。様々な例では、第二の軽鎖448の少なくとも1つのアミノ酸は、第一の軽鎖416の少なくとも1つのアミノ酸と異なってよい。第二の軽鎖448は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第二の軽鎖448は、第一のフレームワーク領域450、第二のフレームワーク領域452、第三のフレームワーク領域454、及び第四のフレームワーク領域456を含むことができる。さらに、第二の軽鎖448は、第一のCDR 458、第二のCDR 460、及び第三のCDR 462を含むことができる。図4の例示には示されていないが、第二の軽鎖448は、第二の軽鎖448の可変領域に結合され、第二の軽鎖448の可変領域のアミノ酸配列に続く定常領域を含むことができる。第二の軽鎖448の定常領域及び第二の軽鎖448の可変領域は、第二の軽鎖448に対する抗原結合領域を形成することができる。
[0078]標的抗体410はまた、第二の重鎖464を含みうる。第二の重鎖464は、第一の重鎖432に対応することができる。1つ以上の実施では、第二の重鎖464の少なくとも1つのアミノ酸は、第一の重鎖432の少なくとも1つのアミノ酸と異なってよい。第二の重鎖464は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第二の重鎖464は、第一のフレームワーク領域466、第二のフレームワーク領域468、第三のフレームワーク領域470、及び第四のフレームワーク領域472を含むことができる。さらに、第二の重鎖464は、第一のCDR 474、第二のCDR 476、及び第三のCDR 478を含むことができる。図4の例示には示されていないが、第二の重鎖464は、第二の重鎖464の可変領域に結合する多数の定常領域を含むことができる。例示すると、第二の重鎖464の第一の定常領域を可変領域に連結することができ、第二の重鎖464の第一の定常領域と第二の重鎖464の可変領域とはともに、第二の重鎖464の抗原結合領域を形成することができる。また、第二の重鎖464は、2つのさらなる定常領域を含み、ブリッジ領域によって抗原結合領域に結合される結晶化可能領域を含むことができる。
[0079]第二の軽鎖448のアミノ酸配列は、第一の軽鎖416及び/又は第二の重鎖464と異なるアミノ酸配列であってよいが、第二の軽鎖448の抗原結合領域及び第二の重鎖464の抗原結合領域は、抗原414の形状及び化学的プロファイルに対応する形状であってよい。様々な例では、第二の軽鎖448のCDR458、460、462の少なくとも部分、及び第二の重鎖464のCDR474、476、478の少なくとも部分は、抗原414のエピトープ領域のアミノ酸と相互作用するアミノ酸を含むことができる。このようにして、CDR458、460、462、474、476、478の少なくとも部分のアミノ酸は、静電相互作用、水素結合、ファンデルワールス力、又は疎水性相互作用のうちの少なくとも1つを介して抗原414のアミノ酸と相互作用することができる。
[0080]図4の例示には示されていないが、標的抗体410は、さらなる重鎖と対合するさらなる軽鎖も含むことができる。さらなる軽鎖は第二の軽鎖448に対応し、さらなる重鎖は第二の重鎖464に対応することができる。例示的な例では、さらなる軽鎖のアミノ酸配列は、第二の軽鎖448と同じアミノ酸配列であってよく、さらなる重鎖のアミノ酸配列は、第二の重鎖464と同じアミノ酸配列であってよい。標的抗体410のさらなる軽鎖及びさらなる重鎖は、抗原414に対応する他の抗原分子に結合することができる。
[0081]図4の例示的な例では、鋳型抗体406は、第二のアミノ酸配列482がある標的抗体410の第二の部分とは異なる第一のアミノ酸配列480がある第一の部分を含むことができる。例えば、鋳型抗体406の第一のアミノ酸配列480に含まれるトレオニン分子は、標的抗体410の対応する部分の第二のアミノ酸配列482中のアスパラギン分子で置換することができる。さらに、鋳型抗体406は、第四のアミノ酸配列482を有する標的抗体410の第四の部分とは異なる第三のアミノ酸配列484を有する第三の部分を含むことができる。例示すると、鋳型抗体406の第三の部分の第三のアミノ酸配列484に含まれるプロリン分子は、標的抗体410の第四の部分に対応する第四のアミノ酸配列486中のセリン分子で置換することができる。
[0082]様々な実施では、IgA、IgD、IgE、IgG、IgM等の各抗体アイソタイプについて、軽鎖定常領域は、同一又は類似のアミノ酸配列から構成され得、それぞれの重鎖定常領域は、同一又は類似のアミノ酸配列で構成することができる。
[0083]図5は、ある実施態様による、タンパク質断片配列を鋳型タンパク質配列と組み合わせた機械学習技術を用いて標的タンパク質配列を生成するためのフレームワーク500の例を示す図である。様々な例では、機械学習アーキテクチャ502は、タンパク質の断片の配列を生成することができる。タンパク質の断片の配列は、タンパク質の鋳型の配列と組み合わせて、標的タンパク質の配列を生成することができる。1つ以上の例では、機械学習アーキテクチャ502は、抗体の断片の配列を生成することができる。当該シナリオでは、抗体断片の配列は、抗体フレームワーク等の鋳型配列と組み合わせて、抗体配列を生成することができる。1つ以上の例では、機械学習アーキテクチャ502は、抗体の可変領域の少なくとも部分の配列を生成することができ、機械学習アーキテクチャ502によって生成された抗体断片配列は、抗体のさらなる部分の配列と組み合わせて、完全な抗体配列を生成することができる。1つ以上の実施態様では、抗体配列は、1つ以上の軽鎖可変領域、1つ以上の軽鎖定常領域、1つ以上の重鎖可変領域、1つ以上の重鎖定常領域、又はそれらの1つ以上の組み合わせを含むことができる。
[0084]機械学習アーキテクチャ502は、生成コンポーネント504及びチャレンジングなコンポーネント506を含むことができる。生成コンポーネント506は、生成コンポーネント506に提供される入力に基づいてアミノ酸配列を生成するための1つ以上のモデルを実装することができる。様々な実施態様では、生成コンポーネント506によって実装される1つ以上のモデルは、1つ以上の関数を含むことができる。チャレンジングなコンポーネント506は、生成コンポーネント504によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。チャレンジングなコンポーネント506によって生成される出力は、生成コンポーネント504に提供され得、生成コンポーネント504によって実装される1つ以上のモデルは、チャレンジングなコンポーネント506によって提供されるフィードバックに基づいて修正されうる。チャレンジングなコンポーネント506は、生成コンポーネント504によって生成されたアミノ酸配列を標的タンパク質のライブラリーのアミノ酸配列と比較し、生成コンポーネント504によって生成されたアミノ酸配列とチャレンジングなコンポーネント506に提供された標的タンパク質のアミノ酸配列との間の対応量を示す出力を生成することができる。
[0085]様々な実施態様では、機械学習アーキテクチャ502は、1つ以上のニューラルネットワーク技術を実装することができる。例えば、機械学習アーキテクチャ502は、1つ以上の反復ニューラルネットワークを実装することができる。さらに、機械学習アーキテクチャ502は、1つ以上の畳み込みニューラルネットワークを実装することができる。特定の実施態様では、機械学習アーキテクチャ502は、反復ニューラルネットワークと畳み込みニューラルネットワークを組み合わせて実装することができる。例えば、機械学習アーキテクチャ502は、生成対抗ネットワーク(GAN)を含むことができる。この場合、生成コンポーネント504は、生成器を含むことができ、チャレンジングなコンポーネント506は、識別器を含むことができる。チャレンジングなコンポーネント506は、生成コンポーネント504によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。様々な実施態様では、チャレンジングなコンポーネント506は、識別器でありうる。さらなる状況、例えば機械学習アーキテクチャ502がワッサースタインGANを含む場合、チャレンジングなコンポーネント506は批評家を含むことができる。さらなる実施態様では、機械学習アーキテクチャ502は、条件付き生成対抗ネットワーク(cGAN)を含むことができる。
[0086]図5の例示的な実施例では、生成コンポーネント504は、入力データ508を取得することができ、生成コンポーネント504は、入力データ508及び1つ以上のモデルを利用して、生成配列510を生成することができる。入力データ508は、乱数生成器によって生成されるノイズ又は疑似乱数生成器によって生成されるノイズを含むことができる。生成配列510は、タンパク質の個々の位置に位置するアミノ酸を示す一連の文字によって表されるアミノ酸配列を含むことができる。様々な例では、生成配列510は、タンパク質の断片を表すことができる。1つ以上の例示的な例では、生成配列510は抗体の断片に対応することができる。
[0087]生成配列(複数可)510は、タンパク質配列データ512に含まれるタンパク質の配列に対してチャレンジングなコンポーネント506によって分析することができる。タンパク質の配列データ512は、機械学習アーキテクチャ502のための訓練データとすることができる。タンパク質配列データ512は、スキーマに従って符号化することができる。タンパク質配列データ512は、タンパク質のアミノ酸配列を保存する1つ以上のデータソースから取得されたタンパク質の配列を含むことができる。1つ以上のデータソースは、検索される1つ以上のウェブサイトを含むことができ、標的タンパク質のアミノ酸配列に対応する情報は、1つ以上のウェブサイトから抽出される。さらに、1つ以上のデータソースは、標的タンパク質のアミノ酸配列を抽出することができる研究文書の電子版を含むことができる。タンパク質配列データ512は、機械学習アーキテクチャ502にアクセス可能な1つ以上のデータストアに格納することができる。1つ以上のデータメモリは、無線ネットワーク、有線ネットワーク、又はそれらの組み合わせを介して機械学習アーキテクチャ502に接続することができる。タンパク質配列データ512は、タンパク質配列データ512の1つ以上の部分を検索するためにデータメモリに伝送された要求に基づいて機械学習アーキテクチャ502によって取得することができる。
[0088]1つ以上の例では、タンパク質配列データ512は、タンパク質の断片のアミノ酸配列を含むことができる。例えば、タンパク質配列データ512は、抗体の軽鎖又は抗体の重鎖の少なくとも1つの配列を含むことができる。さらに、タンパク質配列データ512は、抗体軽鎖の可変領域、抗体重鎖の可変領域、抗体軽鎖の定常領域、抗体重鎖の定常領域、抗体のヒンジ領域、又は抗体の抗原結合部位のうちの少なくとも1つの配列を含むことができる。1つ以上の例では、タンパク質配列データ512は、CDR1、CDR2、又はCDR3の少なくとも1つ等の抗体の相補性決定領域の配列を含むことができる。1つ以上のさらなる例示的な例では、タンパク質配列データ512は、T細胞受容体の断片の配列を含むことができる。例示すると、タンパク質配列データ512は、T細胞受容体の1つ以上のCDR等の、T細胞受容体の抗原結合部位の配列を含むことができる。
[0089]タンパク質配列データ512に含まれるアミノ酸配列は、チャレンジングなコンポーネント506に提供される前に、データ前処理514で処理されてよい。例えば、タンパク質配列データ512は、チャレンジングなコンポーネント506に提供される前に、分類システムに従って配置することができる。データ前処理514は、タンパク質配列データ512の標的タンパク質に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表しうる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。例示的な例では、Tは、トレオニン分子が特定のタンパク質ドメイン種類の構造に基づく位置43に位置することを示す番号43と対することができる。例示的な実施例では、構造に基づく番号付けは、フィブロネクチンIII型(FNIII)タンパク質、アビマー、抗体、VHHドメイン、キナーゼ、ジンクフィンガー、T細胞受容体等の、場合によっては、一般的なタンパク質種類に適用することができる。
[0090]様々な実施態様では、データ前処理516によって実装される分類システムは、タンパク質の個々の位置に位置するアミノ酸の構造位置を符号化する番号付けシステムを含むことができる。このようにして、アミノ酸の数が異なるタンパク質を、構造的特徴に従って整列させることができる。例えば、分類システムは、特定の機能及び/又は特徴があるタンパク質の部分に、指定された数の位置があってよいことを示すことができる。様々な場合、タンパク質の特定の領域におけるアミノ酸の数はタンパク質間で異なる場合があるため、分類システムに含まれる位置の全てがアミノ酸と関連付けられるとは限らない。さらなる例では、タンパク質の構造を分類体系に反映させることができる。例示すると、それぞれのアミノ酸と関連付けられていない分類システムの位置は、ターン又はループ等のタンパク質の様々な構造的特徴を示すことができる。例示的な例では、抗体の分類システムは、重鎖領域、軽鎖領域、及びヒンジ領域には、がそれらに割り当てられた指定された数の位置があり、抗体のアミノ酸が分類システムに従ってその位置に割り当てられることができる。1つ以上の実施態様では、データ前処理514は、抗体の個々の位置に位置する個々のアミノ酸を分類するために、抗体構造番号付け(ASN)を用いることができる。
[0091]データ前処理514によって生成される出力は、符号化配列516を含むことができる。符号化配列516は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。例では、符号化配列516は、タンパク質の構造に基づく位置に対応するアミノ酸及び行が異なる対応するカラムがあるマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために0を用いることができ、対応する位置にアミノ酸が存在することを示すために1を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して1をギャップカラム中に置くことができる。生成配列510はまた、符号化配列516について用いられるのと同一又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、符号化配列516及び生成配列(複数可)510は、ワンホットエンコーディング法という場合がある方法を用いて符号化されうる。
[0092]1つ以上の例では、生成配列510と、タンパク質配列データ512に含まれるアミノ酸配列等の、チャレンジングなコンポーネント506に提供されるさらなる配列との間の類似性及び相違に基づいて、チャレンジングなコンポーネント506は、分類出力518を生成して、生成配列510と、タンパク質配列データ512に含まれるチャレンジングなコンポーネント506に提供される配列との間の類似性の量又は差の量を示すことができる。1つ以上の例では、チャレンジングなコンポーネント506は、生成配列(複数可)510をゼロとして、タンパク質配列データ512から得られた符号化配列を1として標識することができる。この場合、分類出力518は、タンパク質配列データ512に含まれる1つ以上のアミノ酸配列に関して0から1までの第一の数字を含むことができる。
[0093]1つ以上のさらなる例では、チャレンジングなコンポーネント506は、生成配列510とタンパク質配列データ512に含まれるタンパク質配列との間の距離の量を示す出力を生成する距離関数を実装することができる。チャレンジングなコンポーネント506が距離関数を実装する実施態様では、分類出力518は、生成配列510とタンパク質配列データ512に含まれる1つ以上の配列との間の距離を示す-∞から∞までの数字を含むことができる。
[0094]機械学習アーキテクチャ502を訓練するために用いられるデータは、生成コンポーネント504によって生成されるアミノ酸配列に影響を及ぼしうる。例えば、抗体のCDRがチャレンジングなコンポーネント506に提供されるタンパク質配列データ512に含まれる状況では、生成コンポーネント504によって生成されるアミノ酸配列は、抗体CDRのアミノ酸配列に対応することができる。他の例では、チャレンジングなコンポーネント506に提供される標的タンパク質配列データ512に含まれるアミノ酸配列がT細胞受容体のCDRに対応するシナリオでは、生成する構成要素504によって生成されるアミノ酸配列は、T細胞受容体のCDRの配列に対応することができる。
[0095]機械学習アーキテクチャ502が訓練プロセスを受けた後、タンパク質の配列を生成することができる訓練済みモデル518を生成することができる。訓練済みモデル518は、タンパク質配列データ512を用いて訓練プロセスが実施された後、生成コンポーネント504を含むことができる。1つ以上の例示的な実施例では、訓練済みモデル518は、畳み込みニューラルネットワークの多数の重み及び/又は多数のパラメータを含む。機械学習アーキテクチャ502の学習プロセスは、生成コンポーネント504によって実装される関数及びチャレンジングなコンポーネント506によって実装される関数(複数可)が収束した後に完了することができる。関数の収束は、タンパク質配列が生成コンポーネント504によって生成され、チャレンジングなコンポーネント506からフィードバックが得られるにつれて、モデルパラメータの値が特定の値に向かって移動することに基づくことができる。様々な実施態様では、機械学習アーキテクチャ502の訓練は、生成コンポーネント504によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。例えば、生成コンポーネント504によって生成されたアミノ酸配列は、アミノ酸配列の生物物理的特徴、アミノ酸配列の構造的特徴、又は1つ以上のタンパク質生殖細胞系に対応するアミノ酸配列への接着のうちの少なくとも1つを決定するソフトウェアツールによって分析することができる。機械学習アーキテクチャ502は、生成コンポーネント504によって生成されるアミノ酸配列が、1つ以上の特定の特徴を備えるようにソフトウェアツールによって決定される状況では、訓練済みモデル518を生成することができる。1つ以上の実施では、訓練済みモデル518は、標的タンパク質の配列を生成する標的タンパク質系520に含まれうる。
[0096]タンパク質配列入力522は、訓練済みモデル518に提供することができ、訓練済みモデル518は、タンパク質断片配列524を生成しうる。タンパク質配列入力522は、ランダム又は擬似ランダムシリーズの数字を含むことができる入力ベクターを含むことができる。1つ以上の例では、訓練済みモデル518によって生成されたタンパク質断片配列524は、符号化配列516及び/又は生成配列510を表すために用いられるマトリクス構造と同一又は類似のマトリクス構造として表すことができる。様々な実施態様では、タンパク質断片配列524を含む訓練済みモデル518によって作製されたマトリクスを解読して、タンパク質断片の配列に対応するアミノ酸のストリングを作製することができる。タンパク質断片配列524は、フィブロネクチンIII型(FNIII)タンパク質、アビマー、VHHドメイン、抗体、キナーゼ、ジンクフィンガー、T細胞受容体などの少なくとも部分の配列を含むことができる。1つ以上の例示的な例では、タンパク質断片配列524は、抗体の断片の配列を含むことができる。例えば、タンパク質断片配列524は、免疫グロビンA(IgA)、免疫グロビンD(IgD)、免疫グロビンE(IgE)、免疫グロビンG(IgG)、又は免疫グロビンM(IgM)などの1つ以上の抗体サブタイプの部分に対応することができる。1つ以上の例では、タンパク質断片配列524は、1つ以上の抗体軽鎖可変領域、1つ以上の抗体重鎖可変領域、1つ以上の抗体軽鎖定常領域、1つ以上の抗体重鎖定常領域、又は1つ以上の抗体ヒンジ領域のうちの少なくとも1つの配列を含むことができる。さらに、タンパク質断片配列524は、抗原に結合するさらなるタンパク質に対応することができる。さらに他の例では、タンパク質断片配列524は、抗原に結合する領域又は他の分子に結合する領域を有するタンパク質等の、タンパク質間相互作用に関与するアミノ酸配列に対応することができる。
[0097]標的タンパク質システム520は、1つ以上のタンパク質断片配列524を1つ以上の鋳型タンパク質配列526と組み合わせて、1つ以上の標的タンパク質配列528を生成することができる。鋳型タンパク質配列526は、タンパク質断片配列524と組み合わせることができるタンパク質の部分のアミノ酸配列を含むことができる。例えば、タンパク質断片配列524は、抗体軽鎖の可変領域のアミノ酸配列を含むことができ、鋳型タンパク質配列526は、抗体の残りのアミノ酸配列を含むことができる。例示すると、鋳型タンパク質配列526は、抗体軽鎖の定常領域を含むアミノ酸配列を含むことができる。当該シナリオでは、標的タンパク質配列528は、抗体軽鎖のアミノ酸配列を含むことができる。1つ以上のさらなる例では、1つ以上のタンパク質断片配列524は、抗体軽鎖の可変領域のアミノ酸配列、及び抗体重鎖の可変領域のアミノ酸配列を含むことができ、1つ以上の鋳型配列526は、抗体軽鎖の定常領域、抗体重鎖の第一の定常領域、抗体重鎖のヒンジ領域、抗体重鎖の第二の定常領域、及び抗体重鎖の第三の定常領域のアミノ酸配列を含むことができる。当該例では、標的タンパク質配列528は、抗体重鎖と結合した抗体軽鎖のアミノ酸配列を含むことができる。
[0098]標的タンパク質システム520は、鋳型タンパク質配列526内の1つ以上の欠損アミノ酸の1つ以上の位置を決定し、1つ以上の欠損アミノ酸配列を供給するために用いることができる1つ以上のタンパク質断片配列524に含まれる1つ以上のアミノ酸を決定することができる。様々な例では、鋳型タンパク質配列526は、個々の鋳型タンパク質配列526内の欠損アミノ酸の位置を示すことができる。1つ以上の例では、訓練済みモデル518は、1つ以上の抗体の抗原結合領域のアミノ酸配列に対応することができるタンパク質断片配列524を生成しうる。当該シナリオでは、標的タンパク質システム520は、鋳型タンパク質配列526が1つ以上の抗体の抗原結合領域の少なくとも部分を欠失していることを決定することができる。次いで、標的タンパク質システム520は、鋳型タンパク質配列526の抗原結合領域の欠損アミノ酸配列に対応するタンパク質断片配列524に含まれるアミノ酸配列を抽出することができる。標的タンパク質システム520は、タンパク質断片配列524から得られたアミノ酸配列を鋳型タンパク質配列526と組み合わせて、鋳型タンパク質配列526を含む標的タンパク質配列528を、1つ以上のタンパク質断片配列524によって提供される抗原結合領域と共に生成することができる。
[0099]図5の例示的な例には示されていないが、標的タンパク質配列528に関してさらなるプロセッシングを行うことができる。例えば、標的タンパク質配列528を評価して、標的タンパク質配列528が一連の特徴を有するか否かを決定することができる。例示すると、1つ以上の測定基準は、標的タンパク質配列(複数可)528に関して決定することができる。例えば、標的タンパク質配列528(複数可)に関して決定することができる測定基準は、負に帯電したアミノ酸の数、正に帯電したアミノ酸の数、1つ以上の極性領域を形成するように相互作用する多数のアミノ酸、1つ以上の疎水性領域を形成するように相互作用するアミノ酸、それらの1つ以上の組合せ等の標的タンパク質配列528の特徴に関連付けることができる。
[0100]1つ以上の実施態様では、標的タンパク質配列528は、配列フィルタリングに付されうる。配列フィルタリングは、1つ以上の特徴に対応する標的タンパク質配列528の1つ以上を同定するために、標的タンパク質配列528を解析することができる。例えば、標的タンパク質配列528を分析して、特定の位置に特定のアミノ酸を有するアミノ酸配列を同定することができる。標的タンパク質配列528の1つ以上をフィルタリングして、アミノ酸の1つ以上の特定のストリング又は領域を有するアミノ酸配列を同定することもできる。様々な実施では、標的タンパク質配列528は、少なくとも部分的に、標的タンパク質配列528のうちの少なくとも1つと、一連の生物物理的特徴があるさらなるタンパク質のアミノ酸配列との間の類似性に基づいて、一連の生物物理的特徴に関連するアミノ酸配列を同定するためにフィルタリングすることができる。
[0101]機械学習アーキテクチャ502は、1つ以上の計算装置530によって実現することができる。1つ以上の計算装置530は、1つ以上のサーバコンピュータ装置、1つ以上のデスクトップコンピュータ装置、1つ以上のラップトップコンピュータ装置、1つ以上のタブレットコンピュータ装置、1つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。特定の実施態様では、1つ以上の計算装置530の少なくとも部分は、分散コンピューティング環境で実装することができる。例えば、1つ以上の計算装置530の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。加えて、図5の例示的な実施例は、単一の生成コンポーネント及び単一のチャレンジングなコンポーネントがある生成対抗ネットワークを含む機械学習アーキテクチャ530の実施例を示すが、さらなる実施では、機械学習アーキテクチャ502は、複数の生成対抗ネットワークを含んでもよい。さらに、機械学習アーキテクチャ502によって実装される各生成対抗ネットワークは、1つ以上の生成コンポーネント及び1つ以上のチャレンジングなコンポーネントを含むことができる。また、図5の例示的な実施例は、機械学習アーキテクチャ502及び標的タンパク質システム520を別々の実体として示すが、機械学習アーキテクチャ502及び標的タンパク質システム520は、1つ以上のコンピュータ装置530によって単一システムとして実装することができる。
[0102]図6は、ある実施態様による、鋳型タンパク質配列及び位置修飾データを用いて標的タンパク質配列を生成するための例示的方法600を示すフロー図である。方法600は、操作602では、機能的領域がある鋳型タンパク質のアミノ酸配列を示す第一のデータを取得することを含むことができる。鋳型タンパク質の機能的領域は、鋳型タンパク質を他の分子と結合させるアミノ酸を含むことができる。様々な例では、機能的領域は、他の分子の形状及び化学的特徴に対応する形状であってよい。例示的な例では、鋳型タンパク質は抗体を含むことができ、機能的領域は抗原に結合するアミノ酸を含むことができる。
[0103]操作604では、方法600は、1つ以上の特定の特徴を備えるさらなるタンパク質に対応するさらなるアミノ酸配列を示す第二のデータを取得することを含むことができる。1つ以上の特定された特徴は、1つ以上の生物物理的特徴に対応することができる。1つ以上の特定の特徴は、特定の種類のタンパク質に含まれうるアミノ酸配列にも対応することができる。例えば、1つ以上の特定の特徴は、ヒト抗体に含まれるアミノ酸配列に対応することができる。例示すると、1つ以上の特定の特徴は、ヒト抗体の可変領域のフレームワーク領域に含まれるアミノ酸配列に対応することができる。さらに、1つ以上の特定の特徴は、ヒト抗体の1つ以上の生殖細胞系遺伝子によって産生されるアミノ酸配列に対応することができる。さらなるタンパク質は鋳型タンパク質に関して類似する場合があるが、さらなるタンパク質には鋳型タンパク質の機能的領域が存在しないこともある。例えば、さらなるタンパク質は抗体に対応することができるが、抗体は鋳型タンパク質の機能的領域に結合する抗原に結合することができない。例示的な実施では、鋳型タンパク質は、第一の哺乳動物によって産生されることができ、さらなるタンパク質は、ヒト等の第二の哺乳動物によって産生された抗体に対応することができる。当該状況では、第二のデータに含まれるアミノ酸配列は、ヒト抗体のアミノ酸配列を含むことができる。様々な実施態様では、第二のデータは、生成対抗ネットワークのための訓練データとして用いることができる。
[0104]加えて、操作606では、方法600は、鋳型タンパク質の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定することを含むことができる。1つ以上の例では、位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率は約5%以下であり、タンパク質のさらなる非結合領域の1つ以上の部分に位置するアミノ酸を修飾する第二の確率は少なくとも40%であることを示すことができる。位置修飾データはまた、鋳型タンパク質のアミノ酸配列のアミノ酸を変化させるためのペナルティを含みうる。様々な例では、位置修飾データは、鋳型タンパク質のアミノ酸配列の位置におけるアミノ酸の種類に基づくことができる。さらに、位置修飾データは、鋳型タンパク質の個々の位置に位置するアミノ酸を置換するアミノ酸の種類に基づくことができる。例えば、位置修飾データは、疎水性領域が1以上ある鋳型タンパク質のアミノ酸を修飾するための第一のペナルティ、及び正に荷電した鋳型タンパク質のアミノ酸を修飾するための第一のペナルティとは異なる第二のペナルティを示すことができる。さらに、位置修飾データは、疎水性領域が1以上ある鋳型タンパク質のアミノ酸を疎水性領域が1つ以上ある他のアミノ酸に修飾するための第一のペナルティ、及び疎水性領域が1つ以上ある鋳型タンパク質のアミノ酸を正に荷電したアミノ酸に修飾するための第一のペナルティとは異なる第二のペナルティを示すことができる。
[0105]さらに、操作608では、方法600は、鋳型タンパク質のアミノ酸配列の変異体であり、1つ以上の特定の特徴の少なくとも部分を有するアミノ酸配列を生成することを含むことができる。標的タンパク質のアミノ酸配列は、1つ以上の機械学習技術を用いて生成することができる。様々な例では、変異タンパク質のアミノ酸配列は、条件付き生成対抗ネットワークを用いて作製することができる。
[0106]変異タンパク質のアミノ酸配列は、鋳型タンパク質の機能的領域に対応するが、鋳型タンパク質とは異なる1以上のフレームワーク領域等の支持骨格又は下層構造がある。例えば、鋳型タンパク質は、抗原に結合する抗体であることができる一方で、変異タンパク質は、鋳型タンパク質の特徴とは異なる抗原にも結合するが、最初に修飾されなければ抗原に対する結合領域を有さないであろう1つ以上の特徴を有する抗体を含むことができる。例示的な実施例では、鋳型タンパク質は、抗原に結合する結合領域を含むヒト抗体を含んでよく、さらなるアミノ酸配列は、鋳型タンパク質の生物物理的特徴とは異なる1つ以上の生物物理的特徴があるものの、抗原に結合しないヒト抗体を含むことができる。さらなるアミノ酸配列、鋳型タンパク質のアミノ酸配列、及び位置修飾データを用いて訓練された後、生成対抗ネットワークは、鋳型タンパク質の結合領域を含み、さらなるタンパク質の生物物理的特徴の少なくとも部分を含む変異型抗体のアミノ酸配列を生成することができる。
[0107]さらなる例示的な例では、鋳型タンパク質は、抗原に結合する結合領域を含むマウスによって産生される抗体に対応することができる。さらに、さらなるアミノ酸配列は、抗原に結合しないヒト抗体に対応することができる。さらなるアミノ酸配列、鋳型タンパク質のアミノ酸配列、及び位置修飾データを用いて訓練された後、生成対抗ネットワークは、マウス抗体の代わりにヒト抗体に対応し、抗原に結合するための鋳型抗体の結合領域を含む修飾抗体のアミノ酸配列を生成することができる。様々な例では、生成対抗ネットワークは、ヒト抗体のフレームワーク領域に対応するように、鋳型マウス抗体の可変領域のフレームワーク領域を修飾することができる。さらに、生成対抗ネットワークは、マウス抗体の結合領域のアミノ酸配列が変異アミノ酸配列中に存在し、結合領域が安定であり、抗原に結合する形状を形成するように、ヒト抗体の変異アミノ酸配列を生成することができる。
[0108]図7は、ある実施態様による、鋳型タンパク質配列に基づく生成対抗ネットワークを用いて、標的タンパク質配列を生成するための例示的方法700を示すフロー図である。702では、方法700は、非ヒト哺乳動物によって産生された鋳型抗体のアミノ酸配列を示す第一のデータを取得することを含み、ここで、鋳型抗体は抗原と結合する。鋳型抗体は、鋳型抗体を抗原に結合させるCDR等の機能的領域を含むことができる。
[0109]操作704では、方法700は、ヒト抗体に対応する複数のアミノ酸配列を示す第二のデータを取得することを含む。加えて、操作706では、方法700は、鋳型抗体の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定することを含む。位置修飾データは、鋳型抗体のいくつかの位置が、修飾される確率が比較的高く、鋳型抗体の他の位置が、修飾される確率が比較的低くなりうることを示すことができる。相対的に高い確率で修飾される鋳型抗体の位置は、修飾された場合、鋳型抗体の機能的領域に影響を与える可能性が低い位置のアミノ酸を含むことができる。さらに、相対的に低い確率で修飾される鋳型抗体の位置は、修飾される場合には、鋳型抗体の機能的領域に影響を与える可能性がより高い位置のアミノ酸を含むことができる。1つ以上の例では、位置修飾データは、抗原結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であること、及び1つ以上の重鎖フレームワーク領域又は抗体の1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示すことができる。様々な例では、位置修飾データは、生成対抗ネットワークが標的抗体のアミノ酸配列を生成する場合、生成対抗ネットワークによって鋳型タンパク質の位置におけるアミノ酸の修飾に適用されるペナルティを示すことができる。
[0110]708では、方法700は、生成対抗ネットワークを用いて、ヒト抗体に対応し、かつ鋳型抗体の結合領域に関して少なくとも閾値量が同一であるアミノ酸配列を生成するためのモデルを生成することを含む。さらに、710では、方法700は、位置修飾データ及び鋳型抗体アミノ酸配列に基づいて、モデルを用いて標的アミノ酸配列を生成することを含む。例示的な例では、生成対抗ネットワークによって生成されたアミノ酸配列は、鋳型抗体の機能的領域に対応する領域を備える一方で、ヒト抗体の支持構造又は基礎構造があってよい。例えば、アミノ酸配列は、ヒト抗体との少なくとも閾値量が同一である定常領域、及び鋳型抗体の機能的領域との第二の閾値量が同一であるCDR等のさらなる領域があってよい。
[0111]図8は、例示的な実施態様により、マシン800に本明細書で議論される方法論のいずれか1つ以上を実行させるための一連の命令が実行されうるコンピュータシステムの形態におけるコンピュータシステムの形態のマシン800の概略図である。具体的には、図8は、コンピュータシステムの例示的な形態におけるマシン800の概略図を示し、その中で、マシン800に本明細書で議論される方法のいずれか1つ以上を実行させるための命令(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリケーション、又は他の実行可能符号化)を実行することができる。例えば、命令824は、マシン800に、図1、図2、図3、図4、及び図5に関して各々説明したフレームワーク100、200、300、400、及び500を実行させ、図6及び図7に関して各々説明した方法600、700を実行させることができる。さらに、マシン900は、図1の計算装置144及び/又は図5の計算装置530の1つ以上を含むか、又はその部分であってもよい。
[0112]命令824は、一般的な、プログラムされていないマシン800を、説明され図示された関数を説明された方法で実行するようにプログラムされた特定のマシン8f00に変換する。さらなる実施態様では、マシン800は、スタンドアロン装置として動作するか、又は他のマシンに結合(例えば、ネットワーク化)されてもよい。ネットワーク化されたデプロイメントでは、マシン800は、サーバ-クライアントネットワーク環境におけるサーバマシン又はクライアントマシンの容量で、又はピア-ツー-ピア(又は分散)ネットワーク環境におけるピアマシンとして動作することができる。マシン800は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、パーソナルデジタルアシスタント、モバイルコンピュータ、ウェアラブル装置、ウェブアプライアンス、ネットワークルータ、ネットワーク・スイッチ、ネットワークブリッジ、又はマシン800が取るべき行動を指定する命令824を実行することができるいかなるマシンを含むことができるが、これらに限定されない。さらに、単一のマシン800のみが示されているが、用語「マシン」はまた、本明細書で議論される方法のいずれか1つ以上を実行するために命令824を個別に又は共同で実行するマシン800の集合を含むと解釈される。
[0113]計算装置800の例は、論理、1つ以上のコンポーネント、回路(例えば、モジュール)、又はメカニズムを含むことができる。回路は、特定の動作を実行するように構成された有形の実体である。一実施態様では、回路は、特定の方法で(例えば、内部的に、又は他の回路等の外部実体に対して)配置されうる。一実施態様では、1つ以上のコンピュータシステム(例えば、スタンドアロン、クライアント又はサーバ・コンピュータシステム)又は1つ以上のハードウェアプロセッサ(プロセッサ)は、本明細書に記載される動作を実行するために動作する回路として、ソフトウェア(例えば、命令、アプリケーション部分、又はアプリケーション)によって構成することができる。ソフトウェアは、(1)非一時的コンピュータ読取可能格納媒体上に、又は(2)伝送信号中に存在することができる。一例では、ソフトウェアは、回路の基礎となるハードウェアによって実行されると、回路に動作を実行させる。
[0114]回路は、機械的又は電子的に実装することができる。例えば、回路は、特殊用途プロセッサ、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むような、上記の1つ以上の技術を実行するように特別に構成された専用の回路又はロジックを含むことができる。一実施態様では、回路は、特定の動作を実行するために一時的に(例えば、ソフトウェアによって)構成することができるプログラマブル論理(例えば、汎用プロセッサ又は他のプログラマブルプロセッサ内に包含される回路)を含むことができる。回路を機械的に(例えば、専用及び永久的に構成された回路では)、又は一時的に構成された回路では(例えば、ソフトウェアによって構成された)実現する決定は、コスト及び時間の考慮によって駆動されうることが理解されよう。
[0115]つまり、用語「回路」というは、有形の実体を包含するものと理解される。すなわち、特定の方法で動作したり、特定の動作を実行したりするために、物理的に構築され、恒久的に構成され(例えば、ハードワイヤード)、又は一時的に(例えば、トランジトリーに)構成された(例えば、プログラムされた)実体である。一実施態様では、複数の一時的に構成された回路が与えられた場合、各回路は、時間内にいかなる1つのインスタンスにおいて構成又はインスタンス化される必要はない。例えば、回路がソフトウェアを介して構成された汎用プロセッサを含む場合、汎用プロセッサは、異なる時間にそれぞれの異なる回路として構成することができる。従って、ソフトウェアは、プロセッサを、例えば、異なる時間のインスタンスにおいて異なる回路を構成するように構成することができる。
[0116]一実施態様では、回路は、他の回路に情報を提供し、他の回路から情報を受信することができる。この例では、回路は、1つ以上の他の回路に通信的に結合されているとみなすことができる。このような回路の複数が同時に存在する場合、通信は、回路を接続する信号伝送(例えば、適切な回路及びバスを介して)によって達成することができる。複数の回路が異なる時間に構成又はインスタンス化される実施態様では、そのような回路間の通信は、例えば、複数の回路がアクセスするメモリ構造内の情報の格納及び検索によって達成されうる。例えば、1つの回路は、動作を実行し、その動作の出力を、それが通信的に結合されているメモリ装置に格納することができる。次いで、他の回路が、後に、格納された出力を取り出し、処理するために、メモリ装置にアクセスすることができる。様々な例では、回路は、入力装置又は出力装置との通信を開始又は受信するように構成することができ、リソース(例えば、情報の集合)上で動作することができる。
[0117]本明細書に記載される方法例の様々な操作は、少なくとも部分的に、一時的に(例えば、ソフトウェアによって)構成されるか、又は関連する操作を実行するように恒久的に構成される1つ以上のプロセッサによって実行することができる。このようなプロセッサは、一時的に構成されていても恒久的に構成されていても、1つ以上の操作又は関数を実行するように動作するプロセッサ実装回路を構成することができる。一実施態様では、本明細書で言及する回路は、プロセッサ実装回路を含むことができる。
[0118]同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサに実装することができる。例えば、方法の動作の少なくとも部分は、1つ以上のプロセッサ又はプロセッサが実装する回路によって実行することができる。特定の動作のパフォーマンスは、単一のマシン内に存在するだけでなく、多数のマシンにわたって配置される、1つ以上のプロセッサ間で分散することができる。一実施態様では、プロセッサ又はプロセッサは、単一の場所(例えば、家庭環境、オフィス環境、又はサーバファーム)に配置することができ、他の実施態様では、プロセッサは、多数の場所に分散することができる。
[0119]1つ以上のプロセッサは、「クラウドコンピューティング」環境又は「サービスとしてのソフトウェア」としての関連操作のパフォーマンスをサポートするように動作することもできる。例えば、操作の少なくとも部分は(プロセッサを含むマシンの例として)コンピュータの群によって実行することができ、当該操作は、ネットワーク(例えば、インターネット)及び1つ以上の適切なインタフェース(例えば、アプリケーションプログラムインタフェース(API))を介してアクセス可能である。
[0120]例示的な実施態様(例えば、装置、システム、又は方法)は、デジタル電子回路、コンピュータ・ハードウェア、ファームウェア、ソフトウェア、又はそれらのいかなる組み合わせでも実施することができる。例示的な実施態様は、コンピュータプログラム製品(例えば、プログラマブルプロセッサ、コンピュータ、又は複数のコンピュータ等のデータ処理装置による実行のため、又はその動作を制御するために、情報キャリア又は機械読取可能媒体内に実体的に具現化されたコンピュータプログラム)を用いて実施することができる。
[0121]コンピュータプログラムは、コンパイル又は解釈された言語を含む、いかなる形態のプログラミング言語で書くことができ、また、独立型プログラムとして、又は、ソフトウェアモジュール、サブルーチン、又は、コンピュータ環境での使用に適した他のユニットとして、いかなる形態で展開することができる。コンピュータプログラムは、1つのコンピュータ上又は1つのサイトの複数のコンピュータ上で実行されるか、又は複数のサイトに分散され、通信ネットワークによって相互接続されるように配備することができる。
[0122]一実施態様では、演算は、入力データを操作し、出力を生成することによって関数を実行するために、コンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行することができる。また、方法動作の例は、特殊目的論理回路(例えば、フィールドプログラマブルゲートアレイ又は特定用途向け集積回路)によって実行することができ、装置の例は、特殊目的論理回路として実装することができる。
[0123]コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、一般に、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムのおかげで生じる。プログラマブル・コンピュータシステムを配備する実施態様では、ハードウェア及びソフトウェアアーキテクチャをともに考慮する必要があることが理解されるであろう。具体的には、恒久的に構成されたハードウェア(例えば、ASIC)、一時的に構成されたハードウェア(例えば、ソフトウェアとプログラマブルプロセッサの組み合わせ)、又は恒久的及び一時的に構成されたハードウェアの組み合わせでは、特定の機能性を実現するか否かの選択が、設計選択でありうることが理解されよう。以下に、ハードウェア(例えば、計算装置700)及び例示的な実施態様で配備可能なソフトウェアアーキテクチャを示す。
[0124]例示的な計算装置800は、プロセッサ802(例えば、中央処理装置CPU)、グラフィックス処理装置(GPU)又はその両方)、メインメモリ804、及びスタティックメモリ806を含むことができ、当該部分又はすべては、バス808を介して互いに通信することができる。計算装置800は、表示ユニット810、英数字入力装置812(例えば、キーボード)、及びユーザインターフェースナビゲーション装置814(例えば、マウス)をさらに含むことができる。一実施態様では、表示ユニット810、入力装置812、及びUIナビゲーション装置814は、タッチスクリーンディスプレイであってもよい。計算装置800は、さらに、メモリ(例えば、駆動ユニット)816、信号発生装置818(例えば、スピーカ)、ネットワークインターフェース装置820、及び1つ以上のセンサ821(例えば、全地球測位システムセンサ、コンパス、加速度計、又は他のセンサ)を含むことができる。
[0125]メモリ816は、機械読取可能媒体822(本明細書ではコンピュータ読取可能媒体ともいう)を含むことができ、その上には、本明細書に記載される方法又は関数のうちのいかなる1つ以上によって具体化又は利用される、1つ以上のデータ構造又は命令(例えば、ソフトウェア)のセットが格納される。また、命令824は、コンピュータ装置800による実行中に、メインメモリ804内、スタティックメモリ806内、又はプロセッサ802内に、完全に又は少なくとも部分的に存在することができる。一実施態様では、プロセッサ802、メインメモリ804、スタティックメモリ806、又はメモリ816の1つ又はいかなる組み合わせも、機械読取可能媒体を構成することができる。
[0126]機械読取可能媒体822は単一の媒体として示されているが、用語「機械読取可能媒体」は、1つ以上の命令824を格納するように構成された単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むことができる。用語「機械読取可能媒体」はまた、マシンによる実行のための命令を格納し、符号化し、又は伝送することができ、マシンに本開示の方法のうちのいずれか1つ以上を実行させるか、又はそのような命令によって利用され、又は関連するデータ構造を格納し、符号化し、又は伝送することができるいかなる有形媒体を含むと解釈されうる。従って、用語「機械読取可能媒体」は、固体メモリ、光媒体及び磁気媒体を含むが、これらに限定されない。機械読取可能媒体の特定の例は、例えば、半導体メモリ装置(例えば、電気的にプログラマブルな読み出し専用メモリ)を含む不揮発性メモリを含むことができる。
[0127]EPROM、Electrically Eraable Programmable Read-Only Memory (EEPROM)、フラッシュメモリ装置、内蔵ハードディスク、リムーバブルディスクなどの磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROMディスク
[0128]命令824は、さらに、多数の転送プロトコル(例えば、フレームリレー、IP、TCP、UDP、HTTPなど)のいずれか1つを用いて、ネットワークインターフェース装置820を介して伝送媒体を用いて、通信ネットワーク826を介して送信又は受信することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、パケットデータネットワーク(例えばインターネット)、移動電話ネットワーク(例えば、セルラネットワーク)、Plain Old Telephone(POTS)ネットワーク、及び無線データネットワーク(例えば、Wi-Fi(登録商標)として知られるIEEE 802.11標準ファミリ、WiMax(登録商標)として知られるIEEE 802.16標準ファミリ)、ピア・ツー・ピア(P2P)ネットワークが挙げられる。用語「伝送媒体」は、マシンによる実行のための命令を格納し、符号化し、又は伝送することができる無形の媒体を含み、当該ソフトウェアの通信を容易にするためのデジタル又はアナログ通信信号又は他の無形の媒体を含む。
[0129][実施態様例]
実施態様1.1つ以上のプロセッサ及びメモリを有する1つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記鋳型タンパク質は、さらなる分子に結合するか又はさらなる分子に化学的に反応し;1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること;前記コンピュータシステムによって、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;前記コンピュータシステムによって、生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される、ことを含む方法。
[0130]実施態様2.複数の第三のアミノ酸配列の個々の第三のアミノ酸配列が、機能的領域に関して少なくとも閾値量が同一である1つ以上の領域を含む、実施態様1に記載の方法。
[0131]実施態様3.第一のアミノ酸配列が、第一の生殖細胞系遺伝子に関して産生される1つ以上の第一のアミノ酸の群を含み、複数の第三のアミノ酸配列が、第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子に関して産生される1つ以上の第二のアミノ酸の群を含む、実施態様1又は2に記載の方法。
[0132]実施態様4.前記1つ以上の第二のアミノ酸群が、前記第二のアミノ酸配列の少なくとも部分に含まれる、実施態様3に記載の方法。
[0133]実施態様5.前記1つ以上の特定の特徴は、1つ以上の生物物理的特徴の値を含む、実施態様1~4のいずれか1つに記載の方法。
[0134]実施態様6.前記鋳型タンパク質は、第一の抗体であり;前記さらなるタンパク質は、第2の抗体を含み;1つ以上の特定の特徴は、第二のアミノ酸配列の1つ以上のフレームワーク領域に含まれるアミノ酸の1つ以上の配列を含む、実施態様1~5のいずれか1つに記載の方法。
[0135]実施態様7.前記鋳型タンパク質はヒトではない哺乳動物によって産生され、前記さらなるタンパク質はヒトによって産生されるタンパク質に対応する、実施態様1~6のいずれか1つに記載の方法。
[0136]実施態様8.前記コンピュータシステムによって、前記生成対抗ネットワーク用いて、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて、前記生成対抗ネットワークを用いる第一のモデルを訓練すること;前記コンピュータシステムによって、一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す第三のデータを取得すること;前記コンピュータシステムによって、前記第一のモデルを、前記生成対抗ネットワークの生成コンポーネントとして用いること;前記第三のデータに基づいて第二のモデルを訓練すること;前記コンピュータシステムによって、前記第二のモデルを用いて、前記鋳型タンパク質の変異体であり、前記一連の生物物理的特徴のうちの1つ以上の生物物理的特徴を備える少なくとも閾値の確率があるタンパク質に対応する複数の第四のアミノ酸配列を生成すること、を含む、実施態様1~7のいずれか1つに記載の方法。
[0137]実施態様9.1つ以上のプロセッサ及びメモリを有する1つ以上の計算装置を含むコンピュータシステムによって、ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり;前記コンピュータシステムにより、ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の第二のアミノ酸配列を示す第二のデータを取得すること;前記コンピュータシステムにより、第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、複数の第2の結合領域に関する第一の閾値量が同一であり、及び1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、前記コンピュータシステムによって、かつ、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;
を含む、方法
[0138]実施態様10.位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、実施態様9に記載の方法。
[0139]実施態様11.位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、実施態様9又は10に記載の方法。
[0140]実施態様12.位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、実施方法11。
[0141]実施態様13.アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、実施態様12に記載の方法。
[0142]実施態様14.1つ以上のハードウェアプロセッサと、前記1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又はさらなる分子と化学的に反応する機能的領域を含み;1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得し、かつ、第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり;ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される;を含む、動作を実行させる命令を格納する、1つ以上の非一時的コンピュータ読取可能格納媒体、を含む、システム。
[0143]実施態様15.複数の第三のアミノ酸配列の個々の第三のアミノ酸配列が、前記機能的領域に関して少なくとも閾値量が同一である、1つ以上の領域を含む、実施態様14に記載のシステム。
[0144]実施態様16.第一のアミノ酸配列は、第一の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第一の群を含み、複数の第三のアミノ酸配列は、前記第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第二の群を含む、実施態様14又は15に記載のシステム。
[0145]実施態様17.1つ以上の第二のアミノ酸群が、前記第二のアミノ酸配列の少なくとも部分に含まれる、実施態様16に記載のシステム。
[0146]実施態様18.1つ以上の特定の特徴は、1つ以上の生物物理的特徴の値を含む、実施態様14~17のいずれか1つに記載のシステム。
[0147]実施態様19.鋳型タンパク質が第一の抗体であり;
さらなるタンパク質には二次抗体が含まれ;かつ、
1つ以上の特定の特徴は、第二のアミノ酸配列の1つ以上のフレームワーク領域に含まれる1つ以上のアミノ酸配列を含む、実施態様14~18のいずれか1つに記載のシステム。
[0148]実施態様20.鋳型タンパク質は、ヒトではない哺乳動物によって産生され、前記さらなるタンパク質が、ヒトによって産生されるタンパク質に対応する、実施態様14~19のいずれか1つに記載のシステム。
[0149]実施態様21:1つ以上の非一時的コンピュータ読取可能格納媒体が、前記1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること;
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータをコンピュータシステムによって取得すること;
前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること;かつ、
前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の1つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること;
を含む、さらなる動作を実行する、実施態様14~20のいずれか1つに記載のシステム。
[0150]実施態様22.1つ以上のハードウェアプロセッサと、1つ以上の非一時的コンピュータ読取可能格納媒体であって、前記1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり;ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の第二のアミノ酸配列を示す第二のデータを取得すること;第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;生成対抗ネットワークを用いて、複数の第二のアミノ酸配列の結合領域に関する第一の閾値量が同一であり、及び1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;を含む、システム。
[0151]実施態様23.位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、実施態様22に記載のシステム。
[0152]実施態様24.位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、実施態様22又は23に記載のシステム。
[0153]実施態様25.位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、実施態様システム24。
[0154]実施態様26.アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、実施態様25に記載のシステム。

Claims (20)

  1. 以下の:
    1つ以上のハードウェアプロセッサ、かつ
    1つ以上の非一時的コンピュータ読取可能格納媒体であって、前記1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
    ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり、
    ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること;
    前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;
    生成対抗ネットワークを用いて、前記結合領域に関する第一の閾値量が同一であり、及び複数の前記第二のアミノ酸配列の1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、
    前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;
    を含む動作を実行させる命令を格納する、1つ以上の非一時的コンピュータ読取可能格納媒体、
    を含む、システム。
  2. 位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、請求項1に記載のシステム。
  3. 位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項1又は2に記載のシステム。
  4. 位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項3に記載のシステム。
  5. アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項4に記載のシステム。
  6. 1つ以上の非一時的コンピュータ読取可能格納媒体は、1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
    モデルを作成するための訓練プロセスの実行であって、前記モデルは以下の:
    生成対抗ネットワークの生成コンポーネントにより、鋳型タンパク質のアミノ酸配列及び位置修飾データを用いて第一のアミノ酸配列を作成すること;
    生成対抗ネットワークのチャレンジングなコンポーネントにより、標的タンパク質のアミノ酸配列に関する前記第一のアミノ酸配列を分析し、前記生成コンポーネントに提供される分類出力を決定することであって、分類入力は、各前記第一のアミノ酸配列と各第二のアミノ酸配列との間の差の量を示し;かつ、
    各前記第一のアミノ酸配列と各前記第二のアミノ酸配列との間の差が最小となる量に基づいて、前記モデルのパラメータ又は係数の少なくとも1つを決定すること;
    を含むさらなる動作を実行させる、さらなる命令を格納する、請求項1に記載のシステム。
  7. 1つ以上の非一時的コンピュータ読取可能格納媒体は、1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
    一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、さらなるデータを取得すること;かつ、
    生成対抗ネットワークのさらなる生成コンポーネントとしてのモデルを用いる、以下の:
    入力データを用いて、前記さらなる生成コンポーネントにより第三のアミノ酸配列を生成すること;
    生成対抗ネットワークのさらなるチャレンジングなコンポーネントによって、前記さらなる生成コンポーネントに提供されるさらなる分類出力を決定するために、前記さらなるアミノ酸配列に関する前記第三のアミノ酸配列を分析することであって、ここで、さらなる分類入力は、前記第三のアミノ酸配列各々と各前記さらなるアミノ酸配列との間の差の量を示し;
    各前記第三のアミノ酸配列と各前記さらなるアミノ酸配列との間の差が最小となる量に基づいて、さらなるモデルのパラメータ又は係数の少なくとも1つを決定すること;
    を含む、前記さらなるモデルのさらなる訓練プロセスを実行すること:
    を含むさらなる動作を実行させる、さらなる命令を格納する、請求項6に記載のシステム。
  8. 以下の:
    1つ以上のプロセッサ及びメモリを備える1つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又は前記さらなる分子と化学的に反応する機能的領域を含み;
    前記コンピュータシステムにより、1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること;
    前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;並びに、
    前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、ここで、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される;
    を含む、方法。
  9. 複数の第三のアミノ酸配列の個々の前記第三のアミノ酸配列が、機能的領域に関して少なくとも閾値量が同一である、1つ以上の領域を含む、請求項8に記載の方法。
  10. 第一のアミノ酸配列は、第一の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第一の群を含み、複数の第三のアミノ酸配列は、前記第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第二の群を含む、請求項8又は9に記載の方法。
  11. 1つ以上の第二のアミノ酸群が、第二のアミノ酸配列の少なくとも部分に含まれる、請求項10に記載の方法。
  12. 1つ以上の特定の特徴は、1つ以上の生物物理的特徴の値を含む、請求項8に記載の方法。
  13. 鋳型タンパク質が第一の抗体であり;
    さらなるタンパク質には二次抗体が含まれ;かつ、
    1つ以上の特定の特徴は、第二のアミノ酸配列の1つ以上のフレームワーク領域に含まれる1つ以上のアミノ酸配列を含む、
    請求項8に記載の方法。
  14. 鋳型タンパク質は、ヒトではない哺乳動物によって産生され、さらなるタンパク質が、ヒトによって産生されるタンパク質に対応する、請求項8に記載の方法。
  15. 以下の:
    生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること;
    一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータを前記コンピュータシステムによって取得すること;
    前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること;かつ、
    前記コンピュータシステムにより、前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の1つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること;
    を含む、請求項8記載の方法。
  16. 以下の:
    1つ以上のプロセッサ及びメモリを有する1つ以上のコンピュータ装置を含むコンピュータシステムによって、ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり;
    前記コンピュータシステムにより、ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること;
    前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;
    前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、複数の前記第二のアミノ酸配列の前記結合領域に関する第一の閾値量が同一であり、及び1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、
    前記コンピュータシステムによって、かつ、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;
    を含む、方法。
  17. 位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、請求項16に記載の方法。
  18. 位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項16又は17記載の方法。
  19. 位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項18に記載の方法。
  20. アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項19に記載の方法。
JP2022535430A 2019-12-12 2020-12-11 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 Active JP7419534B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962947430P 2019-12-12 2019-12-12
US62/947,430 2019-12-12
PCT/US2020/064579 WO2021119472A1 (en) 2019-12-12 2020-12-11 Generating protein sequences using machine learning techniques based on template protein sequences

Publications (2)

Publication Number Publication Date
JP2023505859A true JP2023505859A (ja) 2023-02-13
JP7419534B2 JP7419534B2 (ja) 2024-01-22

Family

ID=76330599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022535430A Active JP7419534B2 (ja) 2019-12-12 2020-12-11 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成

Country Status (8)

Country Link
US (1) US20230005567A1 (ja)
EP (1) EP4073806A4 (ja)
JP (1) JP7419534B2 (ja)
KR (1) KR20220128353A (ja)
CN (1) CN115280417A (ja)
AU (1) AU2020403134B2 (ja)
CA (1) CA3161035A1 (ja)
WO (1) WO2021119472A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023164297A1 (en) * 2022-02-28 2023-08-31 Genentech, Inc. Protein design with segment preservation
CN115512763B (zh) * 2022-09-06 2023-10-24 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
WO2024076641A1 (en) * 2022-10-06 2024-04-11 Just-Evotec Biologics, Inc. Machine learning architecture to generate protein sequences
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526053A (ja) * 2014-07-07 2017-09-07 イェダ リサーチ アンド ディベロップメント カンパニー リミテッドYeda Research And Development Co.Ltd. コンピュータ計算によるタンパク質設計方法
US20190259474A1 (en) * 2018-02-17 2019-08-22 Regeneron Pharmaceuticals, Inc. Gan-cnn for mhc peptide binding prediction
WO2019165411A1 (en) * 2018-02-26 2019-08-29 Just Biotherapeutics, Inc. Determining impact on properties of proteins based on amino acid sequence modifications

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020236839A2 (en) * 2019-05-19 2020-11-26 Just Biotherapeutics, Inc. Generation of protein sequences using machine learning techniques

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526053A (ja) * 2014-07-07 2017-09-07 イェダ リサーチ アンド ディベロップメント カンパニー リミテッドYeda Research And Development Co.Ltd. コンピュータ計算によるタンパク質設計方法
US20190259474A1 (en) * 2018-02-17 2019-08-22 Regeneron Pharmaceuticals, Inc. Gan-cnn for mhc peptide binding prediction
WO2019165411A1 (en) * 2018-02-26 2019-08-29 Just Biotherapeutics, Inc. Determining impact on properties of proteins based on amino acid sequence modifications

Also Published As

Publication number Publication date
EP4073806A4 (en) 2023-01-18
CA3161035A1 (en) 2021-06-17
EP4073806A1 (en) 2022-10-19
AU2020403134A1 (en) 2022-06-30
WO2021119472A1 (en) 2021-06-17
US20230005567A1 (en) 2023-01-05
AU2020403134B2 (en) 2024-01-04
KR20220128353A (ko) 2022-09-20
CN115280417A (zh) 2022-11-01
JP7419534B2 (ja) 2024-01-22

Similar Documents

Publication Publication Date Title
JP7419534B2 (ja) 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成
Prihoda et al. BioPhi: A platform for antibody design, humanization, and humanness evaluation based on natural antibody repertoires and deep learning
Hiranuma et al. Improved protein structure refinement guided by deep learning based accuracy estimation
Mason et al. Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning
Shen et al. Identification of helix capping and β-turn motifs from NMR chemical shifts
Kim et al. Computational and artificial intelligence-based methods for antibody development
EP3568782A1 (en) Machine learning based antibody design
Jain et al. Prediction of delayed retention of antibodies in hydrophobic interaction chromatography from sequence using machine learning
CA3132189A1 (en) Systems and methods to classify antibodies
EP3982369A1 (en) Information processing system, information processing method, program, and method for producing antigen-binding molecule or protein
KR20230098219A (ko) 생물치료제 개발 방법 및 시스템
US11948664B2 (en) Autoencoder with generative adversarial network to generate protein sequences
Vangone et al. Structural basis for the recognition in an idiotype-anti-idiotype antibody complex related to celiac disease
Kim et al. Leveraging Artificial Intelligence to Expedite Antibody Design and Enhance Antibody–Antigen Interactions
WO2023034865A2 (en) Residual artificial neural network to generate protein sequences
US20230253067A1 (en) Implementing a generative machine learning architecture to produce training data for a classification model
Schneider Deep learning algorithms for predicting association between antibody sequence, structure, and antibody properties
Fu et al. Collective Variable-Based Enhanced Sampling: From Human Learning to Machine Learning
Bashour et al. Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability
Karim et al. Quantitative toxicity prediction via ensembling of heterogeneous predictors
WO2024088381A1 (zh) 人源化抗体序列评估模型的构建方法及其应用
WO2024076641A1 (en) Machine learning architecture to generate protein sequences
Xiang et al. Integrative proteomics reveals exceptional diversity and versatility of mammalian humoral immunity
CA3236868A1 (en) Systems and methods for intelligent construction of antibody libraries
Im Learning the Language of Antibody Hypervariability Through Biological Property Prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240110

R150 Certificate of patent or registration of utility model

Ref document number: 7419534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150