JP2023505859A

JP2023505859A - 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成

Info

Publication number: JP2023505859A
Application number: JP2022535430A
Authority: JP
Inventors: マーティンシェーヴァー，ジェレミー; アミムール，ティレリ; ロバートケッチェム，ランダル; テイラー，アレックス
Original assignee: ジャスト－エヴォテックバイオロジクス，インコーポレイテッド
Priority date: 2019-12-12
Filing date: 2020-12-11
Publication date: 2023-02-13
Anticipated expiration: 2040-12-11
Also published as: EP4073806A4; CA3161035A1; EP4073806A1; AU2020403134A1; WO2021119472A1; US20230005567A1; AU2020403134B2; KR20220128353A; CN115280417A; JP7419534B2

Abstract

機械学習技術を用いて、鋳型タンパク質のアミノ酸配列に基づいて標的タンパク質のアミノ酸配列を生成するシステム及び技術が記載される。標的タンパク質のアミノ酸配列は、当該鋳型タンパク質のアミノ酸配列に対して行われうる修飾を制約するデータに基づいて生成されることができる。例示的な例では、鋳型タンパク質は、抗原に結合する非ヒト哺乳動物によって産生される抗体を含んでよく、標的タンパク質は、鋳型抗体の結合領域と少なくとも閾値量が同一である領域を備えるヒト抗体に対応することができる。生成対抗ネットワークを用いて、標的タンパク質のアミノ酸配列を生成することができる。

Description

［０００１］タンパク質は、１つ以上のアミノ酸の鎖で構成される生体分子である。タンパク質には生物体内で様々な機能がありうる。たとえば、あるタンパク質は生体内における反応の惹起に関与する。他の例では、タンパク質は生体内で分子を輸送することができる。さらに他の例では、タンパク質は遺伝子の複製に関与しうる。さらに、あるタンパク質には、治療特徴がある場合があり、様々な生物学的状態を治療するために用いることができる。タンパク質の構造と機能は、タンパク質を構成するアミノ酸の配置に基づく。タンパク質のアミノ酸の配列は、タンパク質の特定の位置にあるアミノ酸に対応する文字の配列で表すことができる。タンパク質のアミノ酸の配置は、タンパク質の特定の位置のアミノ酸を示すだけでなく、αへリックスやβシート等のタンパク質の三次元構造を示す三次元構造によっても表すことができる。

［０００２］本開示は、例として、添付の図面の図に限定されるものではなく、類似の参照文献が類似の要素を示すものとして示される。

［０００３］ある実施態様による、鋳型タンパク質配列に基づく機械学習技術を用いて標的タンパク質配列を生成するための例示的フレームワークを示す図である。［０００４］ある実施態様による、特定の特徴を備えるタンパク質配列を生成するための転移学習技術を利用するための例示的なフレームワークを示す図である。［０００５］ある実施態様による、鋳型タンパク質配列及び鋳型配列の位置の修飾に関連する制約データに基づく生成対抗ネットワークを用いて、標的タンパク質配列を生成するための例示的フレームワークを示す図である。［０００６］ある実施態様による、第二の異なる生物についての特定の機能を有する、さらなる抗体配列に対応するデータを生成するために、特定の機能を有する第一の生物の抗体配列を示すデータを利用するための例示的フレームワークを示す図である。［０００７］ある実施態様による、タンパク質断片配列を鋳型タンパク質配列と組み合わせることによる機械学習技術を用いて標的タンパク質配列を生成するための例示的フレームワークを示す図である。［０００８］ある実施態様による、鋳型タンパク質配列及び位置修飾データを用いて標的タンパク質配列を作成するための例示的な方法を示すフロー図である。［０００９］ある実施態様による、鋳型タンパク質配列に基づく生成対抗ネットワークを用いて標的タンパク質配列を生成するための例示的な方法を示すフロー図である。［００１０］一連の命令が実行されて、機械に、本明細書で説明した方法のうちのいずれか１つ以上を実行させることができる、コンピュータシステムの形態の機械の概略図である。

［００１１］タンパク質には、生物体内では多くの有益な用途がありうる。例えば、タンパク質を用いて、ヒト及び他の哺乳動物の健康に有害な影響を及ぼしうる疾患及び他の生物学的状態を治療することができる。様々なシナリオでは、タンパク質は、個体に有益であり、個体が経験する１つ以上の生物学的条件に対抗しうる反応に関与しうる。ある例では、タンパク質はまた、対象の健康に有害でありうる生物体内の分子に結合しうる。様々な状況では、タンパク質の潜在的に有害な分子への結合は、対象の免疫系を活性化させて、分子の潜在的な効果を中和する。そのため、多くの研究者や研究機関は、治療効果のあるタンパク質を開発しようとしてきた。

［００１２］生物学的状態の治療に用いられるタンパク質の開発は、時間がかかり、資源集約的なプロセスでありうる。しばしば、開発用の候補タンパク質は、生物内で所望の生物物理的特徴、三次元（３Ｄ）構造、及び／又は挙動があるかを有するものとして同定されうる。候補タンパク質が実際に所望の特徴を有するか否かを決定するために、タンパク質を物理的に合成し、その後、合成されたタンパク質の実際の特徴が所望の特徴に対応するか否かを決定するために試験することができる。タンパク質を合成し、特定の生物物理学的性質、３Ｄ構造、及び／又は挙動を調べるために必要な資源の量が多いため、治療目的で合成される候補タンパク質の数は限られている。ある状況では、治療目的で合成されるタンパク質の数は、候補タンパク質が合成されたものの、所望の特徴がない場合に生じる資源の損失によって制限されてしまう。

［００１３］特定の特徴を備える候補タンパク質を同定するためのコンピュータに実装された技術を用いることが増えている。しかしながら、当該従来技術は、その範囲及び精度では制限される場合がある。様々な状況では、タンパク質配列を生成するための従来のコンピュータに実装された技術は、利用可能なデータの量及び／又は特定の特徴を備えるタンパク質配列を正確に生成するための従来技術によって必要な利用可能なデータの種類によって制限されることがある。さらに、特定の特徴を備えるタンパク質配列を生成することができるモデルを生成するために利用される技術は、複雑である場合があり、正確で効率的なモデルの生成に必要なノウハウは、複雑であり、実施が困難な場合がありうる。従来モデルで作成されたタンパク質配列の長さが長くなるにつれて従来技術では精度が低下する場合があり、また、比較的多数のアミノ酸（例えば、５０～１０００）を備える多数のタンパク質配列（例えば、数十万、数千、数百万のタンパク質配列）の作製に用いられる計算資源が、法外になりうるため、制限されうる。従って、従来の計算技術によって生成されるタンパク質の数は制限される。

［００１４］さらに、１つの生物体又は生物体の種類によって産生されるタンパク質は、多数の生物体にとって有益でありうる機能性を備える場合があるが、様々なシナリオでは、同じタンパク質は、他の生物体又は生物体の種類の免疫系では拒絶される場合があり、タンパク質の有益な機能性を回避しうる。本明細書中に記載される技術及びシステムは、鋳型分子のアミノ酸配列に基づいて標的分子のアミノ酸配列を生成するために用いられうる。鋳型分子は、鋳型分子を産生した元の宿主以外にも、多くの異なる生物にとって有益な機能を示すことができる。標的分子はまた、元の宿主とは異なる生物による拒絶の可能性を最小限にしながら、鋳型分子の機能性を示すことができる。

［００１５］例えば、鋳型タンパク質のアミノ酸配列のうち、宿主生物内の鋳型タンパク質の機能に起因する部分は保存することができ、一方、鋳型タンパク質のアミノ酸配列のさらなる部分は、他の生物による拒絶の可能性を最小限にするように修飾（改変）することができる。例えば、マウスで産生された鋳型抗体は、マウス及びヒトの両方に存在する抗原に効果的に結合することができる。鋳型抗体の抗原への結合は、鋳型抗体の１つ以上の結合領域に起因しうる。本明細書中に記載される技術及びシステムは、鋳型抗体の結合領域を含む標的抗体についての多数のアミノ酸配列に対応するデータを生成することができ、さらに、ヒト抗体に含まれるアミノ酸配列に対応する鋳型抗体から修飾されたさらなる領域を含む。このようにして、本明細書に記載された技術及びシステムは、抗原の結合領域が既知のヒト抗体には存在しない可能性がある、特定の抗原の結合領域と組み合わせてヒト骨格を有する抗体を作製することができる。従って、公知のヒト抗体に応答しなかったかもしれない生物学的状態は、本明細書に記載された技術及びシステムから生成されたアミノ酸配列がある抗体を用いて治療することができる。

［００１６］機械学習技術を用いて、鋳型タンパク質アミノ酸配列から標的タンパク質アミノ酸配列を生成することができる。例示的な例では、生成対抗ネットワークを用いて、標的タンパク質アミノ酸配列を生成することができる。生成対抗ネットワークは、鋳型タンパク質アミノ酸配列及び位置修飾データに関して、標的タンパク質アミノ酸配列を用いて訓練することができる。位置修飾データは、鋳型タンパク質アミノ酸配列の個々の位置について、アミノ酸が異なるアミノ酸に修飾されうる可能性を示すことができる。様々な実施態様では、位置修飾データは、個々のアミノ酸の修正に応答して生成対抗ネットワークによって適用されるペナルティに対応することができる。例えば、修飾されることに対して比較的高いペナルティがある鋳型タンパク質アミノ酸配列の位置は、生成対抗ネットワークによって修飾される可能性が低い一方、修飾されることに対してペナルティが比較的低い鋳型タンパク質アミノ酸配列の他の位置は、生成対抗ネットワークによって修飾される可能性がより高い可能性がある。様々な例では、転移学習技術はまた、生物物理的特徴が１つ以上ある標的抗体を産生するために適用されうる。

［００１７］位置修飾データは、鋳型タンパク質配列中のアミノ酸の位置に基づくことができる。所望の機能性に関連する鋳型タンパク質の領域に位置するアミノ酸のペナルティは、修飾されることに対して比較的高く、一方、鋳型タンパク質の他の領域に位置するアミノ酸のペナルティは、修飾されることに対して比較的中等度又は比較的低くありうる。標的タンパク質が、鋳型タンパク質を産生する宿主生物とは異なる生物に対応する場合、修飾されることに対するペナルティが比較的低い鋳型タンパク質の位置は、標的タンパク質に関連する生物のフレームワークに対応するように変化する可能性が最も高い。さらに、標的タンパク質が、鋳型タンパク質を産生する宿主の生殖細胞系遺伝子とは異なる生殖細胞系遺伝子に由来するシナリオでは、修飾されることに対する比較的低いペナルティに関連する鋳型タンパク質の位置は、標的タンパク質生殖細胞系遺伝子から産生されるタンパク質に対応するように変化する可能性が最も高い。本明細書中で用いる生殖細胞系は、タンパク質の細胞が複製するときに保存されるタンパク質のアミノ酸配列に対応することができる。子孫細胞のアミノ酸配列が、親細胞中の対応するアミノ酸配列に関して少なくとも閾値量と同一である場合、アミノ酸配列は、親細胞から子孫細胞へ保存されうる。例示的な例では、親細胞から子孫細胞へ保存されているκ軽鎖の部分であるヒト抗体のアミノ酸配列の部分は、抗体の生殖細胞系部分でありうる。

［００１８］例示的な例では、マウスで産生された抗体は、マウスとヒトの両方に存在する抗原に結合することができる。抗体の抗原への結合は、抗体の相補性決定領域（ＣＤＲ）に位置するアミノ酸に基づくことができる。このシナリオでは、位置修飾データは、鋳型マウス抗体のＣＤＲ内に位置するアミノ酸を変化させるための比較的高いペナルティを示すことができる。位置修飾データはまた、鋳型マウス抗体の定常ドメイン及び可変ドメインの他の部分に位置するアミノ酸の修飾に対するより低いペナルティを示すことができる。従って、本明細書に記載された発生的な生成対抗ネットワークは、マウス抗体の重鎖及び／又は軽鎖の可変ドメインの定常ドメイン及び／又は他の部分をヒト抗体の重鎖及び軽鎖に対応するように変化させながら、抗原との結合に関与するマウス抗体の残基の大部分又は全てを保存する標的ヒト抗体アミノ酸配列を生成することができる。本明細書に記載される生成対抗ネットワークはまた、ヒト抗体の特徴を決定し、抗原に対するヒト化標的抗体を産生するために作ることができる鋳型マウス抗体に対する変化を同定するために、ヒト抗体を用いて訓練することができる。

［００１９］本願明細書に記載される技術及びシステムを実施することにより、標的タンパク質アミノ酸配列は、鋳型タンパク質の少なくとも部分の機能を保存することができる１つ以上の鋳型タンパク質アミノ酸配列に基づいて生成されることができる一方で、本願明細書に記載される計算及び機械学習技術は、標的タンパク質が鋳型タンパク質の機能を喪失する可能性を最小限にしつつ、鋳型タンパク質の機能に起因する部分に対する異なる支持フレームワークを利用することができる。本明細書中に記載された技術及びシステムはまた、鋳型タンパク質を産生した宿主生物とは異なる生物によって標的タンパク質が拒絶される可能性を最小限にすることができる。例えば、位置修飾データを用いると、新しい宿主生物に関連する標的タンパク質の特徴と一致するように制約されていない鋳型配列の部分を柔軟にしつつ、鋳型タンパク質配列に対して計算モデルによってなしうる変化の数を制限することで、標的タンパク質配列を生成する際に利用される計算資源の量を減少させることができる。様々な例では、本明細書に記載される技術及びシステムは、数千から数百万のタンパク質のアミノ酸配列を分析することができ、鋳型タンパク質の機能性を維持する一方で、新しいタンパク質が新しい宿主生物によって拒絶される確率を最小限にする新しいタンパク質のアミノ酸配列を正確に生成する。

［００２０］図１は、ある実施態様による、鋳型タンパク質配列に基づく機械学習技術を用いて標的タンパク質配列を生成するためのフレームワーク１００の例を示す図である。例えば、機械学習アーキテクチャ１０２は、鋳型タンパク質１０４のアミノ酸配列を取得し、標的タンパク質１０６のアミノ酸配列を生成することができる。鋳型タンパク質１０４は、機能性がある領域１０８を含むことができ、機械学習アーキテクチャ１０２は、標的タンパク質１０６が領域１０８も含むように、標的タンパク質１０６を生成することができる。様々な実施態様では、標的タンパク質は、領域１０８と少なくとも閾値量が同一（閾値量が同一性を有する）である領域を含む。このようにして、標的タンパク質１０６は、鋳型タンパク質１０４の機能を保持することができる。例示すると、機械学習アーキテクチャ１０２は、標的タンパク質１０６が領域１０８の少なくとも閾値量を保存すること、及び／又は領域１０８の様々な位置でアミノ酸を保存することによって、標的タンパク質１０６が領域１０８に起因する機能性を保持する確率を最大化する標的タンパク質１０６を生成することができる。

［００２１］例示的な例では、鋳型タンパク質１０４の領域１０８と標的タンパク質１０６の部分との間の配列同一性の量は、鋳型タンパク質１０４の領域１０８の少なくとも部分と標的タンパク質１０６の部分が多数の位置で同一のヌクレオチドを有することを示すことができる。鋳型タンパク質１０４の領域１０８の少なくとも部分と標的タンパク質１０６の部分との間の同一性の量は、基本局所アライメント検索ツール（ＢＬＡＳＴ）を用いて決定することができる。

［００２２］標的タンパク質１０６のさらなる部分は、鋳型タンパク質１０４の部分に関して異なるアミノ酸配列であるうる。鋳型タンパク質１０４の部分に関してアミノ酸配列が異なる標的タンパク質１０６の領域の二次構造はまた、鋳型タンパク質１０４の二次構造に関して１つ以上の異なってよい。鋳型タンパク質１０４の領域のアミノ酸配列と標的タンパク質１０６の領域との間の差異により、鋳型タンパク質１０４及び標的タンパク質１０６の三次構造が異なってよい。図１の例示的な例では、鋳型タンパク質１０４は、標的タンパク質１０６の領域１１２とはアミノ酸配列が異なる領域１１０を含むことができる。さらに、鋳型タンパク質１０４は、標的タンパク質１０６の領域１１６とはアミノ酸配列が異な領域１１４を含むことができる。

［００２３］機械学習アーキテクチャ１０２は、標的タンパク質１０６のアミノ酸配列の部分が、鋳型タンパク質１０４を生成した生物とは異なる生物によって生成されたタンパク質に対応するように、鋳型タンパク質１０４の領域を修飾して、標的タンパク質１０６のアミノ酸配列を生成することができる。例えば、鋳型タンパク質１０４がある哺乳動物によって産生される一方で、標的タンパク質１０６は、異なる哺乳動物によって産生されることができる。例示すると、鋳型タンパク質１０４がマウスによって産生される一方で、標的タンパク質１０６は、ヒトによって産生されるタンパク質に対応することができる。さらなる例では、鋳型タンパク質１０４は、第一の生殖細胞系遺伝子に関連して産生されたタンパク質に対応する一方で、標的タンパク質１０６は、第二の生殖細胞系遺伝子に関連して産生されたタンパク質に対応することができる。鋳型タンパク質１０４及び標的タンパク質１０６が抗体である場合、鋳型タンパク質１０４のアミノ酸配列は、第一の抗体アイソタイプ（例えば、免疫グロビンＥ（ＩｇＥ））に対応することができ、標的タンパク質１０６のアミノ酸配列は、第二の抗体アイソタイプ（例えば、ＩｇＧ）に対応することができる。

［００２４］機械学習アーキテクチャ１０２は、生成コンポーネント１１８及びチャレンジングなコンポーネント１２０を含むことができる。生成コンポーネント１１８は、生成コンポーネント１１８に提供された入力に基づいてアミノ酸配列を生成するための１つ以上のモデルを実装することができる。様々な実施態様では、生成コンポーネント１１８によって実装される１つ以上のモデルは、１つ以上の機能を含むことができる。チャレンジングなコンポーネント１２０は、生成コンポーネント１１８によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。チャレンジングなコンポーネント１２０によって生成される出力は、生成コンポーネント１１８に提供されることができ、生成コンポーネント１１８によって実装される１つ以上のモデルは、チャレンジングなコンポーネント１２０によって提供されるフィードバックに基づいて修飾されうる。チャレンジングなコンポーネント１２０は、生成コンポーネント１１８によって生成されたアミノ酸配列を標的タンパク質のライブラリーのアミノ酸配列と比較することができ、生成コンポーネント１１８によって生成されたアミノ酸配列とチャレンジングなコンポーネント１２０に提供された標的タンパク質のアミノ酸配列との間の対応の量を示す出力を生成することができる。

［００２５］様々な実施態様では、機械学習アーキテクチャ１０２は、１つ以上のニューラルネットワーク技術を実装することができる。例えば、機械学習アーキテクチャ１０２は、１つ以上の反復ニューラルネットワークを実装することができる。さらに、機械学習アーキテクチャ１０２は、１つ以上の畳み込みニューラルネットワークを実装することができる。特定の実施態様では、機械学習アーキテクチャ１０２は、反復ニューラルネットワークと畳み込みニューラルネットワークの組み合わせを実装することができる。例では、機械学習アーキテクチャ１０２は、生成対抗ネットワークを含むことができる。当該状況では、生成コンポーネント１１８は、生成器を含むことができ、チャレンジングなコンポーネント１２０は、識別器を含むことができる。さらなる実施態様では、機械学習アーキテクチャ１０２は、条件付き生成対抗ネットワーク（ｃＧＡＮ）を含むことができる。

［００２６］図１の例示的な例では、データを生成コンポーネント１１８に提供することができ、生成コンポーネント１１８は、データ及び１つ以上のモデルを利用して生成配列１２２を生成することができる。生成配列１２２は、タンパク質の個々の位置に位置するアミノ酸を示す一連の文字によって表されるアミノ酸配列を含むことができる。生成配列１２２を生成するために生成コンポーネント１１８に提供されるデータは、入力データ１２４を含むことができる。入力データ１２４は、乱数生成器によって生成されるノイズ又は疑似乱数生成器によって生成されるノイズを含むことができる。さらに、生成配列１２２を生成するために生成コンポーネント１１８に提供されるデータは、１つ以上の鋳型タンパク質配列１２６を含むことができる。鋳型タンパク質配列１２６は、鋳型タンパク質１０４等の、鋳型タンパク質とは異なるタンパク質中に含めることが望ましい１つ以上の特徴があるタンパク質のアミノ酸配列を含むことができる。例示的な例では、鋳型タンパク質配列１２６は、特定の抗原に結合する抗体に対応することができる。さらなる例では、鋳型タンパク質配列１２６は、哺乳動物の体を通して１つ以上の金属を輸送するタンパク質に対応することができる。

［００２７］さらに、位置修飾データ１２８は、生成コンポーネント１１８によって用いられる生成コンポーネント１１８に提供されて、生成配列１２２を生成することができる。位置修飾データ１２８は、１つ以上の鋳型タンパク質配列１２６のアミノ酸の修飾に関連する１つ以上の基準を示すことができる。例えば、位置修飾データ１２８は、１つ以上の鋳型タンパク質配列１２６の個々のアミノ酸の修飾に対応する１つ以上の基準を示すことができる。例示すると、位置修飾データ１２８は、鋳型タンパク質配列１２６の個々の位置のアミノ酸が修飾されうる各確率を示すことができる。さらなる実施では、位置修飾データ１２８は、鋳型タンパク質配列１２６の個々の位置におけるアミノ酸の修飾に関連する不利益を示すことができる。位置修飾データ１２８は、鋳型タンパク質配列１２６の個々の位置に位置するそれぞれのアミノ酸に対応する値又は機能を含むことができる。

［００２８］例示的な例では、位置修飾データ１２８は、標的タンパク質中に保存されるべき鋳型タンパク質の機能に対応する鋳型タンパク質の位置で修飾されるアミノ酸の確率を減少させる基準を含むことができる。例えば、鋳型タンパク質の機能に起因する領域に位置するアミノ酸の修飾に関連するペナルティは比較的高い。さらに、位置修飾データ１２８は、それらのアミノ酸の修飾のための確率が増加したか又は中立を示す鋳型タンパク質の機能性に起因する１つ以上の領域の外のアミノ酸に対する基準を含むことができる。例示的な例では、タンパク質の特定の機能に起因する領域の外側の個々の位置に位置するアミノ酸を修飾することに関連する不利益は、比較的低くても中立であってもよい。さらに、位置修飾データ１２８は、鋳型タンパク質の位置におけるアミノ酸を異なる種類のアミノ酸に変化させる確率を示すことができる。例示的な例では、鋳型タンパク質の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、かつ第二の種類のアミノ酸に変更されるための第二の、異なる、ペナルティがあってよい。すなわち、様々な実施態様では、鋳型タンパク質の疎水性アミノ酸には、他の疎水性アミノ酸に変更されることに対する第一のペナルティがあり、かつ、正に荷電したアミノ酸に変更されることに対する第二の異なるペナルティがあってよい。

［００２９］１つ以上の例では、位置修飾データ１２８は、少なくとも部分的に、計算装置を介して得られた入力に基づいて決定することができる。例えば、位置修飾データ１２８の少なくとも部分を捕捉するために１つ以上のユーザインタフェース要素を含むユーザインタフェースを生成することができる。さらに、位置修飾データ１２８の少なくとも部分を含む通信インタフェースを介してデータファイルを取得することができる。さらに、位置修飾データ１２８は、多数のアミノ酸配列を解析して、タンパク質の１つ以上の位置における異なるアミノ酸の出現数を決定することによって計算することができる。鋳型タンパク質及び標的タンパク質を含むタンパク質のある位置におけるアミノ酸の出現は、位置修飾データ１２８に示されるアミノ酸の修飾の確率を決定するために用いられうる。様々な例では、タンパク質の生物物理的特徴及び／又は構造的特徴を、鋳型タンパク質及び標的タンパク質の１つ以上の位置におけるアミノ酸の配置と組み合わせて分析して、鋳型タンパク質の１つ以上の位置におけるアミノ酸を修飾して、標的タンパク質を生成するための位置修飾データ１２８に含まれる確率を決定することができる。

［００３０］生成配列１２２は、標的タンパク質配列データ１３０に含まれるタンパク質の配列に対してチャレンジングなコンポーネント１２０によって比較することができる。標的タンパク質配列データ１３０は、機械学習アーキテクチャ１０２の訓練データでありうる。標的タンパク質配列データ１３０は、スキーマに従って符号化することができる。標的タンパク質配列データ１３０に含まれるアミノ酸配列に適用されるスキーマは、アミノ酸配列の分類に基づくことができる。例えば、抗体は、第一の分類に従って保存することができ、シグナル伝達タンパク質は、第二の分類に従って保存することができ、輸送タンパク質は、第三の分類に従って保存することができる。

［００３１］標的タンパク質配列データ１３０は、タンパク質のアミノ酸配列を格納する１つ以上のデータソースから取得されたタンパク質の配列を含むことができる。１つ以上のデータソースは、検索される１つ以上のウェブサイトを含むことができ、標的タンパク質のアミノ酸配列に対応する情報は、１つ以上のウェブサイトから抽出されることができる。さらに、１つ以上のデータソースは、標的タンパク質のアミノ酸配列が抽出されることができる研究文書の電子版を含むことができる。

［００３２］例示的な例では、標的タンパク質配列データ１３０は、鋳型タンパク質配列１２６を生成する生物とは異なる生物によって生成されるタンパク質のアミノ酸配列を含むことができる。例えば、標的タンパク質配列データ１３０は、ヒトタンパク質のアミノ酸配列を含むことができ、１つ以上の鋳型タンパク質配列１２６は、マウス又はニワトリによって産生される１つ以上のタンパク質に対応することができる。さらなる例では、標的タンパク質配列データ１３０は、ウマタンパク質のアミノ酸配列を含むことができ、１つ以上の鋳型タンパク質配列１２６は、ヒトによって産生される１つ以上のタンパク質に対応することができる。様々な例では、標的タンパク質配列データ１３０に含まれるアミノ酸配列は、１つ以上の特徴及び／又は機能を有することができる。例示すると、標的タンパク質配列データ１３０に含まれるアミノ酸配列は、ヒトが消費する様々な食品の代謝に用いられるヒト酵素に対応することができる。さらなる例では、標的タンパク質配列データ１３０に含まれるアミノ酸配列は、ヒト抗体に対応することができる。

［００３３］鋳型タンパク質配列１２６、位置修飾データ１２８、標的タンパク質配列データ１３０、又はそれらの組み合わせは、機械学習アーキテクチャ１０２にアクセス可能な１つ以上のデータストアに格納することができる。１つ以上のデータメモリは、無線ネットワーク、有線ネットワーク、又はそれらの組み合わせを介して機械学習アーキテクチャ１０２に接続することができる。鋳型タンパク質配列１２６、位置修飾データ１２８、標的タンパク質配列データ１３０、又はそれらの組み合わせは、データメモリに送られた要求に基づいて、機械学習アーキテクチャ１０２によって取得され、鋳型タンパク質配列１２６、位置修飾データ１２８、又は標的タンパク質配列データ１３０のうちの少なくとも１つの１つ以上の部分を検索する。

［００３４］チャレンジングなコンポーネント１２０は、生成コンポーネント１１８によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。１つ以上の実施態様では、チャレンジングなコンポーネント１２０は、識別器でありうる。さらなる状況、例えば機械学習アーキテクチャ１０２がワッサースタイン（Ｗａｓｓｅｒｓｔｅｉｎ）ＧＡＮを含む場合、チャレンジングなコンポーネント１２０は批評家を含むことができる。

［００３５］例示的な例では、生成配列１２２と、標的タンパク質配列データ１３０に含まれるアミノ酸配列等の、チャレンジングなコンポーネント１２０に提供されるさらなる配列との間の類似性及び相違に基づいて、チャレンジングなコンポーネント１２０は、分類出力１３２を生成して、生成配列１２２と、標的タンパク質配列データ１３０に含まれるチャレンジングなコンポーネント１２０に提供される配列との間の類似性の量又は差の量を示すことができる。さらに、分類出力１３２は、生成配列１２２と鋳型タンパク質配列１２６との間の類似性の量又は差の量を示すことができる。

［００３６］１つ以上の例では、チャレンジングなコンポーネント１２０は、生成配列１２２をゼロ、標的タンパク質配列データ１３０から得られた符号化された配列（符号化配列）を１として標識することができる。このような場合、分類出力１３２は、標的タンパク質配列データ１３０に含まれる１つ以上のアミノ酸配列に関して０から１までの第一の数字を含むことができる。さらに、チャレンジングなコンポーネント１２０は、生成配列１２２をゼロ、鋳型タンパク質配列１２６を１として標識することができる。従って、チャレンジングなコンポーネント１２０は、鋳型タンパク質配列１２６に関して０から１までの他の数字を生成することができる。

［００３７］さらなる例では、チャレンジングなコンポーネント１２０は、生成配列１２２と標的タンパク質配列データ１３０に含まれるタンパク質との間の距離の量を示す出力を生成する距離関数を実装することができる。さらに、チャレンジングなコンポーネント１２０は、生成配列１２２と鋳型タンパク質配列１２６との間の距離を示す出力を生成する距離関数を実装することができる。チャレンジングなコンポーネント１２０が距離関数を実装する実施態様では、分類出力１３２は、生成配列１２２と標的タンパク質配列データ１３０に含まれる１つ以上の配列との間の距離を示す－∞から∞までの数字を含むことができる。チャレンジングなコンポーネント１２０はまた、距離関数を実装することができ、生成配列１２２と鋳型タンパク質配列１２６との間の距離を示す－∞から∞までのさらなる数を含む分類出力１３２を生成することができる。

［００３８］標的タンパク質配列データ１３０に含まれるアミノ酸配列は、チャレンジングなコンポーネント１２０に提供される前に、データ前処理１３４で処理することができる。例えば、標的タンパク質配列データ１３０は、チャレンジングなコンポーネント１２０に提供される前に、分類システムに従って配置することができる。データ前処理１３４は、標的タンパク質配列データ１３０の標的タンパク質に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表しうる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。例示的な例では、Ｔは、トレオニン分子が特定のタンパク質ドメイン種類の構造に基づく位置４３に位置することを示す番号４３と対にされうる。例示的な実施例では、構造に基づく番号付けは、フィブロネクチンＩＩＩ型（ＦＮＩＩＩ）タンパク質、アビマー、抗体、ＶＨＨドメイン、キナーゼ、ジンクフィンガー、Ｔ細胞受容体等の一般的なタンパク質種類に適用することができる。

［００３９］様々な実施態様では、データ前処理１３４によって実装される分類システムは、タンパク質の個々の位置に位置するアミノ酸の構造位置を符号化する番号付けシステムを含むことができる。このようにして、異なる数のアミノ酸を有するタンパク質を、構造的特徴に従って整列させることができる。例えば、分類システムは、特定の機能及び／又は特徴を有するタンパク質の部分が、特定の数の位置であることができることを示すことができる。様々な状況では、タンパク質の特定の領域中のアミノ酸の数がタンパク質間で変化しうるため、分類システムに含まれるすべての位置がアミノ酸に関連しているわけではない。さらに他の例では、タンパク質の構造を分類体系に反映させることができる。例示すると、各アミノ酸に関連しない分類体系の位置は、ターン又はループ等のタンパク質の様々な構造的特徴を示すことができる。例示的な例では、抗体の分類システムは、重鎖領域、軽鎖領域、及びヒンジ領域がそれらに割り当てられた特定の数の位置であり、抗体のアミノ酸が分類システムに従って位置に割り当てられうることを示すことができる。１つ以上の実施では、データ前処理１３４は、抗体の個々の位置に位置する個々のアミノ酸を分類するために、抗体構造番号付け（ＡＳＮ）を用いることができる。

［００４０］機械学習アーキテクチャ１０２を訓練するために用いられるデータは、生成コンポーネント１１８によって生成されるアミノ酸配列に影響を与える場合がある。例えば、ヒト抗体がチャレンジングなコンポーネント１２０に提供されるタンパク質配列データ１３０に含まれる状況では、生成コンポーネント１１８によって生成されるアミノ酸配列はヒト抗体アミノ酸配列に対応することができる。他の例では、チャレンジングなコンポーネント１２０に提供される標的タンパク質配列データ１３０に含まれるアミノ酸配列が生殖細胞系遺伝子から産生されるタンパク質に対応するシナリオでは、生成コンポーネント１１８によって産生されるアミノ酸配列は、生殖細胞系遺伝子から産生されるタンパク質に対応することができる。さらに、チャレンジングなコンポーネント１２０に提供された標的タンパク質配列データ１３０に含まれるアミノ酸配列が特定のイソ種類の抗体に対応する場合、生成コンポーネント１１８によって生成されたアミノ酸配列は特定のイソ種類の抗体に対応することができる。

［００４１］データ前処理１３４によって生成された出力は、符号化配列１３６を含むことができる。符号化配列１３６は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。例では、符号化配列１３６は、タンパク質の構造に基づく位置に対応する異なるアミノ酸及び行に対応するカラムがあるマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために０を用いることができ、対応する位置にアミノ酸が存在することを示すために１を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して１をギャップカラム中に置くことができる。また、生成配列１２２は、符号化配列１３６について用いられるのと同一又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、符号化配列１３６及び生成配列（複数可）１２２は、ワンホットエンコーディング法という方法を用いて符号化されうる。

［００４２］機械学習アーキテクチャ１０２が訓練プロセスを受けた後、訓練済みモデル１３８を生成し、タンパク質の配列を生成することができる。訓練済みモデル１３８は、タンパク質配列データ１３０を用いて訓練プロセスが実施された後に生成コンポーネント１１８を含むことができる。例示的な実施例では、訓練済みモデル１３８は、畳み込みニューラルネットワークの多数の重み及び／又は多数のパラメータを含む。機械学習アーキテクチャ１０２の学習プロセスは、生成コンポーネント１１８によって実行される関数と、チャレンジングなコンポーネント１２０によって実行される関数とが収束した後に完了することができる。関数の収束は、モデルパラメータの値の特定の値への移動に基づき、タンパク質配列が生成コンポーネント１１８によって生成され、フィードバックがチャレンジングなコンポーネント１２０から得られることができる。様々な実施態様では、機械学習アーキテクチャ１０２の訓練は、生成コンポーネント１１８によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。例えば、生成コンポーネント１１８によって生成されたアミノ酸配列は、アミノ酸配列の生物物理的特徴、アミノ酸配列の構造的特徴、又は１つ以上のタンパク質生殖細胞系に対応するアミノ酸配列への接着のうちの少なくとも１つを決定するソフトウェアツールによって分析することができる。機械学習アーキテクチャ１０２は、生成コンポーネント１１８によって生成されるアミノ酸配列が１つ以上の特定の特徴を備えるようにソフトウェアツールによって決定される状況では、訓練済みモデル１３８を生成することができる。様々な例では、生成コンポーネント１１８によって生成されたアミノ酸配列を評価するために用いられるソフトウェアツールにより、訓練済みモデル１３８が鋳型タンパク質の機能を保存したアミノ酸配列を生成することを決定することができる。

［００４３］タンパク質配列入力１４０を訓練済みモデル１３８に提供することができ、訓練済みモデル１３８は生成されたタンパク質配列１４２を生成することができる。タンパク質配列入力１４０は、１つ以上の鋳型タンパク質配列、さらなる位置制約データ、及びランダム又は擬似ランダム系列の数字を含むことができる入力ベクターを含むことができる。例示的な実施例では、タンパク質配列入力１４０は、１つ以上の鋳型タンパク質配列１２６を含むことができる。訓練済みモデル１３８によって生成されたタンパク質配列１４２は、符号化配列１３６及び／又は生成配列１２２を表すために用いられるマトリクス構造と同一又は類似のマトリクス構造として表すことができる。様々な実施態様では、生成されたタンパク質配列１４２を含む訓練済みモデル１３８によって生成されたマトリクスを解読して、標的タンパク質の配列に対応するアミノ酸のストリングを生成することができる。例示的な例では、タンパク質配列入力１４０は、鋳型タンパク質１０４のアミノ酸配列、及び領域１０８の機能性を保存するために領域１０８に位置するアミノ酸が保存される比較的高い確率を示す位置修飾データを含むことができる。その後、訓練済みモデル１３８は、タンパク質配列入力１４０を用いて、標的タンパク質１０６のアミノ酸配列等の、標的タンパク質の多数のアミノ酸配列を生成することができる。様々な例では、訓練済みモデル１３８は、タンパク質配列入力１４０を用いて、鋳型タンパク質１０４に対応する標的タンパク質１０６に類似する数百、数千、最大数百万のタンパク質配列を生成することができる。

［００４４］図１の例示的な例には示されていないが、生成されたタンパク質配列１４２に関してさらなるプロセッシングを行うことができる。例えば、生成されたタンパク質配列１４２を評価して、生成されたタンパク質配列１４２が特定の一連の特徴を有するか否かを決定することができる。例示すると、１つ以上のメトリックを、標的タンパク質配列１４２に関して決定することができる。例えば、生成されたタンパク質配列１４２に関して決定されうる測定基準は、多数の負に荷電したアミノ酸、多数の正に荷電したアミノ酸、１つ以上の極性領域を形成するように相互作用する多数のアミノ酸、１つ以上の疎水性領域を形成するように相互作用するアミノ酸、それらの１つ以上の組み合わせなどのような生成されたタンパク質配列１４２の特徴に関連付けることができる。

［００４５］訓練済みモデル１３８によって生成されたタンパク質配列１４２は、様々な種類のタンパク質に対応することができる。例えば、生成されたタンパク質配列１４２は、Ｔ細胞受容体として機能するタンパク質に対応することができる。さらなる例では、生成されたタンパク質配列１４２は、生体内で生化学反応を惹起する触媒として機能するタンパク質に対応することができる。生成されたタンパク質配列１４２はまた、１つ以上の種類の抗体に対応することができる。例示すると、生成されたタンパク質配列１４２は、免疫グロビンＡ、免疫グロビンＤ、免疫グロビンＥ、免疫グロビンＧ、又は免疫グロビンＭ等の１つ以上の抗体の亜種に対応することができる。さらに、生成されたタンパク質配列１４２は、抗原に結合するさらなるタンパク質に対応することができる。例では、生成されたタンパク質配列１４２は、アフィボディ、アフィリン、アフィマー、アフィチン、アルファボディ、抗カリン、アビマー、モノボディ、設計されたアンキリン反復タンパク質（ＤＡＲＰｉｎｓ）、ナノＣＬＡＭＰ（クロストリダル抗体模倣タンパク質）、抗体断片、又はそれらの組み合わせに対応することができる。さらに他の例では、生成されたタンパク質配列１４２は、抗原に結合する領域又は他の分子に結合する領域があるタンパク質等の、タンパク質間相互作用に関与するアミノ酸配列に対応することができる。

［００４６］ある実施態様では、生成されたタンパク質配列１４２は、配列フィルタリングの対象とすることができる。配列フィルタリングでは、生成されたタンパク質配列１４２を解析して、１つ以上の特徴に対応する生成されたタンパク質配列１４２の１つ以上を同定することができる。例えば、特定の位置に特定のアミノ酸があるアミノ酸配列を同定するため、生成されたタンパク質配列１４２を分析することができる。生成されたタンパク質配列１４２の１つ以上をフィルタリングして、アミノ酸の１つ以上の特定のストリング又は領域があるアミノ酸配列を同定することもできる。様々な実施態様では、生成されたタンパク質配列１４２は、少なくとも部分的には、生成されたタンパク質配列１４２のうちの少なくとも１つと、一連の生物物理的特徴を有するさらなるタンパク質のアミノ酸配列との間の類似性に基づいて、一連の生物物理的特徴に関連するアミノ酸配列を同定するためにフィルタリングされうる。

［００４７］機械学習アーキテクチャ１０２は、１つ以上の計算装置１４４によって実現することができる。１つ以上の計算装置１４４は、１つ以上のサーバコンピュータ装置、１つ以上のデスクトップコンピュータ装置、１つ以上のラップトップコンピュータ装置、１つ以上のタブレットコンピュータ装置、１つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。特定の実施態様では、１つ以上の計算装置１４４の少なくとも部分を分散計算環境で実装することができる。例えば、１つ以上の計算装置１４４の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。加えて、図１の例示的な例は、単一の生成コンポーネント及び単一のチャレンジングなコンポーネントを有する生成対抗ネットワークを含む機械学習アーキテクチャ１０２の実装を示すが、さらなる実施態様では、機械学習アーキテクチャ１０２は、複数の生成対抗ネットワークを含むことができる。さらに、機械学習アーキテクチャ１０２によって実装される各生成対抗ネットワークは、１つ以上の生成コンポーネント及び１つ以上のチャレンジングなコンポーネントを含むことができる。

［００４８］図２は、ある実施態様による、特定の特徴を備えるタンパク質配列を生成するために、転移学習技術を利用するための例示的フレームワーク２００を示す図である。フレームワーク２００は、第一世代の対抗ネットワーク２０２を含むことができる。第一の生成対抗ネットワーク２０２は、第一の生成コンポーネント２０４及び第一のチャレンジングなコンポーネント２０６を含むことができる。様々な実施態様では、第一の生成コンポーネント２０４は生成器であってよく、第一のチャレンジングなコンポーネント２０６は識別器でありうる。第一の生成コンポーネント２０４は、第一の生成コンポーネント２０４に提供された入力に基づいてアミノ酸配列を生成するために１つ以上のモデルを実装することができる。第一のチャレンジングなコンポーネント２０６は、生成コンポーネント２０４によって生成されたアミノ酸配列が１つ以上の特徴を満たすことを示す出力、又は生成コンポーネント２０４によって生成されたアミノ酸配列が１つ以上の特徴を満たさないことを示す出力を生成することができる。第一のチャレンジングなコンポーネント２０６によって生成された出力は、生成コンポーネント２０４に提供することができ、第一のチャレンジングなコンポーネント２０６によって提供されたフィードバックに基づいて、第一の生成コンポーネント２０４によって実装された１つ以上のモデルを修正することができる。様々な実施態様では、第一のチャレンジングなコンポーネント２０６は、第一の生成コンポーネント２０４によって生成されたアミノ酸配列を標的タンパク質のアミノ酸配列と比較することができ、第一の生成コンポーネント２０４によって生成されたアミノ酸配列と、第一のチャレンジングなコンポーネント２０６に提供された標的タンパク質のアミノ酸配列との間の対応の量を示す出力を生成することができる。

［００４９］第一の生成対抗ネットワーク２０２は、図１の機械学習アーキテクチャ１０２に関して説明したのと同じ又は同様の方法で訓練することができ、例えば、第一の符号化配列２１０及び１つ以上の鋳型タンパク質配列２１２を第一のチャレンジングなコンポーネント２０６に供給し、第一の生成コンポーネント２０４によって生成された出力と比較することができる。第一の生成コンポーネント２０４によって生成される出力は、１つ以上の鋳型タンパク質配列２１２、位置修飾データ２１４、及び第一の入力データ２１６に基づくことができる。１つ以上の鋳型タンパク質配列２１２は、保存されるべき１つ以上の特徴を含むタンパク質のアミノ酸配列を含むことができる。位置修飾データ２１４は、１つ以上の鋳型タンパク質配列２１４の様々な位置におけるアミノ酸の修飾に関連する制約を示すことができる。第一の入力データ２１６は、乱数生成器又は疑似乱数生成器によって生成されたデータを含むことができる。訓練済みモデル２０８は、１つ以上の収束基準又は１つ以上の最適化基準等の１つ以上の基準を満たす、第一の生成コンポーネント２０４又は第一のチャレンジングなコンポーネント２０６のうちの少なくとも１つによって実施される１つ以上の機能に応答して生成されうる。

［００５０］第一の符号化された標的タンパク質配列２１０は、分類スキームに従って符号化することができる。さらに、最初に符号化された標的タンパク質配列２１０は、標的タンパク質のアミノ酸配列を含むことができ、標的タンパク質は、１つ以上の機能的領域を支持することができる支持構造又は基礎構造を含む。例えば、最初に符号化された標的タンパク質配列２１０がヒト抗体である場合、最初に符号化された標的タンパク質配列２１０には、抗体の特定の種類又はクラスを代表する軽鎖及び／又は重鎖の定常領域があってよい。例示すると、第一の符号化された標的タンパク質配列２１０は、ＩｇＡ抗体に対応する重鎖の定常領域を有する抗体を含むことができる。

［００５１］訓練済みモデル２０８は、標的タンパク質の基礎構造又は足場構造に加えて、１つ以上の鋳型タンパク質の機能の少なくとも部分を有するタンパク質のアミノ酸配列を生成することができる。実施態様では、訓練済みモデル２０８は、マウス抗体では元来見出されるＣＤＲに対応するＣＤＲで抗原に結合するヒト抗体のアミノ酸配列を生成することができる。さらなる例では、訓練済みモデル２０８は、第二の異なる生殖細胞系遺伝子から生成されたタンパク質の１つ以上のアミノ酸配列の入力に基づいて、第一の生殖細胞系遺伝子から生成されたタンパク質のアミノ酸配列を生成することができる。

［００５２］さらなる実施では、訓練済みモデル２０８は、鋳型タンパク質配列２１２又は位置修飾データ２１４のうちの少なくとも１つを用いずに生成することができる。例えば、訓練済みモデル２０８は、第一の符号化された標的タンパク質配列２１０及び第一の入力データ２１６を用いて生成することができる。様々な実施態様では、訓練済みモデル２０８は、第一の符号化された標的タンパク質配列２１０が１つ以上の生殖細胞系遺伝子に対応するアミノ酸配列を含むように、第一の生成対抗ネットワーク２０２のための訓練データを用いて生成されうる。

［００５３］様々な例では、訓練済みモデル２０８によって生成されたアミノ酸配列は、さらに改良されうる。例示すると、訓練済みモデル２０８は、初期訓練プロセスとは異なる一組の訓練データを用いて他の訓練プロセスで処理されることによって修飾することができる。例えば、訓練済みモデル２０８のさらなる訓練に用いられるデータは、訓練済みモデル２０８を最初に生成するために用いられるデータのサブセットを含むことができる。さらなる例では、訓練済みモデル２０８のさらなる訓練に用いられるデータは、訓練済みモデル２０８を最初に生成するために用いられるデータとは異なるデータセットを含むことができる。例示的な例では、訓練済みモデル２０８は、抗原に結合するマウス抗体のＣＤＲ領域があるヒト抗体のアミノ酸配列を作製することができ、訓練済みモデル２０８は、さらに改良されて、特定のｐＨ範囲の環境では少なくとも閾値レベルの発現を有する確率がより高いニワトリ抗体に元来見出されたＣＤＲ領域があるヒト抗体のアミノ酸配列を作製することができる。この例を続けると、訓練済みモデル２０８は、特定のｐＨ範囲で比較的高いレベルで発現するヒト抗体のデータセットを用いたさらなる訓練によって改良することができる。図２の例示的な例では、訓練済みモデル２０８の改良は、訓練モデル２０８を第二の生成コンポーネント２２０として含む第二の生成対抗ネットワーク２１８を訓練することによって表すことができる。様々な実施態様では、第二の生成コンポーネント２２０は、訓練モデル２０８に対して１つ以上の修飾がされた後に、訓練モデル２０８を含むことができる。例えば、１つ以上の隠れ層の追加や１つ以上のネットワークフィルタへの変更等、訓練モデル２０８のアーキテクチャに関連して訓練モデル２０８に修正を加えることができる。第二の生成対抗ネットワーク２１８はまた、第二のチャレンジングなコンポーネント２２２を含むことができる。第二のチャレンジングなコンポーネント２２２は、識別器を含むことができる。

［００５４］第二の入力データ２２８は、第二の生成コンポーネント２２０に提供することができ、第二の生成コンポーネント２２０は、１つ以上の生成配列２２４を生成することができる。第二の入力データ２２８は、第二の生成コンポーネント２２０が生成配列２２４を生成するために用いる、ランダム又は擬似ランダムな配列の数字を含むことができる。第二のチャレンジングなコンポーネント２２２は、第二の分類出力２２６を生成することができ、これは、第二の生成コンポーネント２２０によって生成されたアミノ酸配列が様々な特徴を満たすこと、又は第二の生成コンポーネント２２０によって生成されたアミノ酸配列が様々な特徴を満たさないことを示す。例示的な実施例では、第二のチャレンジングなコンポーネント２２２は、１つ以上の生成配列２２４と第二のチャレンジングなコンポーネント２２２に提供されるアミノ酸配列との間の類似性及び相違に基づいて分類出力２２６を生成することができる。分類出力２２６は、生成配列２２４と第二のチャレンジングなコンポーネント２２２に提供された比較配列との間の類似性の量又は差の量を示すことができる。

［００５５］第二のチャレンジングなコンポーネント２２２に提供されるアミノ酸配列は、さらなるタンパク質配列データ２３０に含めることができる。さらなるタンパク質配列データ２３０は、１つ以上の特定の特徴を備えるタンパク質のアミノ酸配列を含むことができる。例えば、さらなるタンパク質配列データ２３０は、ヒトにおける発現の閾値レベルであるタンパク質のアミノ酸配列を含むことができる。さらなる例では、さらなるタンパク質配列データ２３０は、１つ以上の生物物理的特徴及び／又は１つ以上の構造的特徴があるタンパク質のアミノ酸配列を含むことができる。例示すると、さらなるタンパク質配列データに含まれるタンパク質は、負に荷電した領域、疎水性領域、凝集の確率が比較的低いこと、高分子量が特定の比率であること、融解温度、それらの１つ以上の組み合わせなどを備えることができる。様々な例では、さらなるタンパク質配列データ２３０は、訓練済みモデル２０８を生成するために用いられるタンパク質配列データのサブセットを含むことができる。１つ以上の特定の特徴を備える第二のチャレンジングなコンポーネント２２２にアミノ酸配列を提供することによって、第二の生成コンポーネント２２０は、少なくとも１つ以上の特定の特徴を備える閾値の確率があるアミノ酸配列を生成するように訓練されうる。

［００５６］さらに、特定の特徴を備えるタンパク質のアミノ酸配列を生成することが望ましい多くの場合では、生成対抗ネットワークを訓練するために利用可能な配列の数は制限される。このような場合、特定の特徴を備えるタンパク質のアミノ酸配列を生成するための生成対抗ネットワークの正確性、効率性及び／又は有効性は十分ではないかもしれない。このように、生成対抗ネットワークを訓練するために利用できる十分な数のアミノ酸配列がなければ、生成対抗ネットワークによって生成されたアミノ酸配列には所望の特徴がないかもしれない。図２に関連して記載された技術及びシステムを実装することによって、第一の生成対抗ネットワーク２０２は、第一のデータセットを用いて、タンパク質に対応する、又はより広いクラスのタンパク質に対応するアミノ酸配列を決定するプロセスの部分を実行することができ、第二の生成対抗ネットワーク２１８は、第二の異なるデータセットを用いて、より特異的な特徴があるタンパク質のアミノ酸配列を生成するためのさらなる訓練を実行することができる。第二のデータセットは、初期訓練データセットのサブセットを含むことができ、又は所望の特徴を有するタンパク質のアミノ酸配列を含むことができる。

［００５７］第二のチャレンジングなコンポーネント２２２に提供される前に、さらなるタンパク質配列データ２３０に含まれるアミノ酸配列を、はデータ前処理２３２で処理することができる。例えば、さらなるタンパク質配列データ２３０は、第二のチャレンジングなコンポーネント２２２に提供される前に、分類システムに従って配置することができる。データ前処理２３２は、さらなるタンパク質配列データ２３０に含まれるタンパク質のアミノ酸配列に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表すことができる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。第二の符号化配列２３４は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。様々な例では、第二の符号化配列２３４は、タンパク質の構造に基づく位置に対応する異なるアミノ酸及び行に対応するカラムを有するマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために０を用いることができ、対応する位置にアミノ酸が存在することを示すために１を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して１をギャップカラム中に置くことができる。生成配列２２４は、また、第二の符号化配列２３４について用いられるのと同じ又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、第二の符号化配列２３４及び第二の生成配列２２４は、ワンホットエンコーディング法という場合がある方法を用いて符号化されうる。例示的な実施例では、データ前処理２３２で用いられる分類システムは、図１に関して説明した前処理１３４で用いられる分類システムと同じか、又は類似することができ、データ前処理２３２は、第二の符号化配列２３４を生成し、これは、第二のチャレンジングなコンポーネント２２２に提供される。

［００５８］第二のチャレンジングなコンポーネント２２２は、第二の生成コンポーネント２２０によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。様々な実施態様では、第二のチャレンジングなコンポーネント２２２は、識別器でありうる。さらなる状況、例えば、第二の生成対抗ネットワーク２１８がワッサースタインＧＡＮを含む場合、第二のチャレンジングなコンポーネント２２２は批判者を含むことができる。

［００５９］例示的な例では、生成配列２２４と、さらなるタンパク質配列データ２３２に含まれるアミノ酸配列等の第二のチャレンジングなコンポーネント２２２に提供されるさらなる配列との間の類似性及び相違に基づいて、第二のチャレンジングなコンポーネント２２２は、分類出力２２６を生成して、生成配列２２４と、さらなるタンパク質配列データ２３２に含まれる第二のチャレンジングなコンポーネント２２２に提供される配列との間の類似性又は差異の量を示すことができる。さらに、分類出力２２６は、生成配列２２４とさらなるタンパク質配列データ２３２に含まれるアミノ酸配列との間の類似性の量又は差の量を示すことができる。さらなる例では、第二のチャレンジングなコンポーネント２２２は、生成配列２２２とさらなるタンパク質配列データ２３２に含まれるタンパク質との間の距離の量を示す出力を生成する距離関数を実装することができる。第二のチャレンジングなコンポーネント２２２が距離関数を実施する実施態様では、分類出力２２６は、生成配列２２４とさらなるタンパク質配列データ２３２に含まれる１つ以上のアミノ酸配列との間の距離を示す－∞～∞の数字を含むことができる。

［００６０］第二世代の生成対抗ネットワーク２１８が訓練プロセスを受けた後、改良された訓練済みモデル２３６を生成して、タンパク質の配列を生成することができる。修正された訓練済みモデル２３６は、さらなるタンパク質配列データ２３０を用いて訓練された後に、訓練済みモデル２０８を表すことができる。例では、第二の生成コンポーネント２２０及び第二のチャレンジングなコンポーネント２２２によって実装された関数が収束した後、第二の生成対抗ネットワーク２１８のための訓練プロセスを完了することができる。関数の収束は、タンパク質配列が第二の生成コンポーネント２２０によって生成され、第二のチャレンジングなコンポーネント２２２からフィードバックが得られる場合、特定の値に対するモデルパラメータの値の移動に基づくことができる。第二の生成対抗ネットワーク２１８の訓練は、第二の生成コンポーネント２２０によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。

［００６１］さらなる配列入力２３８を修正された訓練済みモデル２３６に提供することができ、修正された訓練済みモデル２３６は生成配列２４０を生成することができる。さらなる配列入力２３８は、ランダム又は擬似ランダムな数列を含むことができ、生成配列２４０は、タンパク質の配列でありうるアミノ酸配列を含むことができる。さらなる実施態様では、生成配列２４０は、生成配列２４０が特定の一連の特徴を有するか否かを決定するために評価されうる。生成配列２４０の評価は、タンパク質の生物物理的特徴、タンパク質の領域の生物物理的特徴、及び／又は特定の位置に位置するアミノ酸の存在又は非存在等の、生成配列２４０の特徴を示すメトリックを生成することができる。さらに、メトリックは、生成配列２４０の特徴と特定の特徴セットとの間の対応の量を示すことができる。ある例では、メトリックは、タンパク質の生殖細胞系遺伝子によって生成配列とは異なる、生成配列２４０の多数の位置を示すことができる。さらに、生成配列２４０の評価は、生成配列２４０に対応するタンパク質の構造的特徴の有無を決定することができる。

［００６２］図２の例示的な例は、２つの生成対抗ネットワークを含むフレームワークにおける複数の訓練セットを用いるモデルの訓練を示す。さらなる実施態様では、複数の訓練データセットを用いるモデルの訓練は、単一の生成対抗ネットワークを用いて表現することもできる。さらに、図２の例示的な例は、２つの訓練用データセットを有する生成対抗ネットワークを用いるモデルの訓練を示すが、様々な実施態様では、２つ以上のデータセットを用いて、本明細書に記載される実施態様に従って１つ以上の生成対抗ネットワークを用いてモデルを訓練することができる。例えば、第一の生成対抗ネットワーク２０２の第一の生成コンポーネント２０４は、事前に訓練済み生成対抗ネットワークを用いて生成することができる。例示すると、第一の生成コンポーネント２０４は、抗体のアミノ酸配列の訓練データセットを用いて製造することができ、訓練済みモデル２０８は、生殖細胞系遺伝子に対応する位置の１つ以上の群を有する抗体のアミノ酸配列の訓練データセットを用いて転移学習技術を用いて製造することができる。次いで、訓練済みモデル２０８をさらに訓練して、ヒト抗体のアミノ酸配列を生成することができる改変された訓練済みモデル２３６を作製することができる。

［００６３］図３は、ある実施態様による、鋳型タンパク質配列及び鋳型タンパク質配列の位置の修飾に関連する制約データに基づく生成対抗ネットワークを用いて標的タンパク質配列を生成するためのフレームワーク３００の例を示す図である。フレームワーク３００は、コンピュータシステム３０２を含むことができる。コンピュータシステム３０２は、１つ以上の計算装置によって実現することができる。１つ以上の計算装置は、１つ以上のサーバコンピュータ、１つ以上のデスクトップコンピュータ、１つ以上のラップトップコンピュータ装置、１つ以上のタブレットコンピュータ装置、１つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。様々な実施態様では、１つ以上の計算装置の少なくとも部分は、分散コンピューティング環境で実装することができる。例えば、１つ以上の計算装置の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。

［００６４］コンピュータシステム３０２は、１つ以上の生成対抗ネットワーク３０４を含むことができる。１つ以上の生成対抗ネットワーク３０４は、条件付き生成対抗ネットワークを含むことができる。様々な実施態様では、１つ以上の生成対抗ネットワーク３０４は、生成コンポーネント及びチャレンジングなコンポーネントを含むことができる。生成コンポーネントは、タンパク質のアミノ酸配列を生成することができ、チャレンジングなコンポーネントは、生成コンポーネントによって生成されたアミノ酸配列を、訓練セットに含まれるアミノ酸配列、又は訓練データセットに含まれないアミノ酸配列として分類することができる。訓練データセットは、１つ以上の分析試験及び／又は１つ以上のアッセイに従って合成及び特徴付けされたタンパク質のアミノ酸配列を含むことができる。チャレンジングなコンポーネントの出力は、生成コンポーネントによって生成されたアミノ酸配列と訓練データのセットに含まれるアミノ酸配列との間の比較に基づくことができる。例示的な実施例では、チャレンジングなコンポーネントの出力は、生成コンポーネントによって生成されたアミノ酸配列が訓練データのセットに含まれる確率に対応することができる。生成コンポーネントがアミノ酸配列を生成し、かつ、チャレンジングなコンポーネントが生成コンポーネントによって生成されたアミノ酸配列に関するフィードバックを生成するので、生成コンポーネントに関連する１つ以上のモデル及びチャレンジングなコンポーネントに関連する１つ以上のモデルが訓練され、１つ以上の訓練基準を満たすまで、チャレンジングなコンポーネントによって実施された１つ以上のモデルのパラメータ及び／又は重み付け、及び生成コンポーネントによって実施された１つ以上のモデルのパラメータ及び／又は重み付けを改良することができる。実施態様では、生成コンポーネントは、訓練データのセットに含まれないタンパク質の１つ以上の偽アミノ酸配列を生成し、チャレンジングなコンポーネントを、１つ以上のタンパク質の偽アミノ酸配列を訓練データのセットに含まれるものとして分類するように「トリック」することができる。

［００６５］１つ以上の生成対抗ネットワーク３０２は、鋳型タンパク質３０６等の１つ以上の鋳型タンパク質のアミノ酸配列を用いて、標的タンパク質３０８等の標的タンパク質の１つ以上のアミノ酸配列を生成することができる。図３の例示的な例では、鋳型タンパク質３０４の第一のアミノ酸配列３１０に対応するデータをコンピュータシステム３０２に提供することができ、コンピュータシステム３０２は、標的タンパク質３０８の第二のアミノ酸配列３１２を生成することができる。第一のアミノ酸配列３１０は、鋳型タンパク質３０６の位置１１１におけるアミノ酸３１４（トレオニン）、鋳型タンパク質３１８の位置１１２におけるアミノ酸３１６（ヒスチジン）、鋳型タンパク質３０６の位置１１３におけるアミノ酸３１８（メチオニン）、鋳型タンパク質３０６の位置２７４におけるアミノ酸３２０（アルギニン）、鋳型タンパク質３０６の位置２７５におけるアミノ酸３２２（ヒスチジン）、及び鋳型タンパク質３０６の位置２７６におけるアミノ酸３２４（ヒスチジン）等の、多数のアミノ酸を各位置に含むことができる。１つ以上の生成対抗ネットワーク３０４は、コンピュータシステム３０２に提供されるアミノ酸配列の個々の位置に対応する位置修飾データに応じて条件付きとすることができる。例えば、アミノ酸３１４、３１６、３１８、３２０、３２２、３２４は、それぞれの位置修飾データに関連する。例示すると、アミノ酸３１４は位置修飾データ３２６に関連付けることができ、アミノ酸３１６は位置修飾データ３２８に関連付けることができ、アミノ酸３１８は位置修飾データ３３０に関連付けることができ、アミノ酸３２０は位置修飾データ３３２に関連付けることができ、アミノ酸３２２は位置修飾データ３３４に関連付けることができ、アミノ酸３２４は位置修飾データ３３６に関連付けることができる。

［００６６］位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、鋳型タンパク質３０６のアミノ酸３１０の第一の配列に含まれる個々のアミノ酸３１４、３１６、３１８、３２０、３２２、３２４の修飾に関する制約に対応することができる。例示的な実施例では、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、アミノ酸３１０の第一の配列におけるそれぞれの個々のアミノ酸３１４、３１６、３１８、３２０、３２２の改変に応答して、１つ以上の生成コンポーネント及び／又は１つ以上の生成対抗ネットワーク３０４の１つ以上のチャレンジングなコンポーネントによって適用されるペナルティを示すことができる。例えば、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６に含まれるペナルティは、１つ以上の生成対抗ネットワーク３０４の少なくとも１つの損失関数に適用されうる。さらなる例では、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、アミノ酸３１０の第一の配列中の個々のアミノ酸３１４、３１６、３１８、３２０、３２２、３２４が修飾されうる確率を含むことができる。位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、アミノ酸３１０の第一の配列に含まれる個々のアミノ酸３１４、３１６、３１８、３２０、３２２の修飾に対応する確率及び／又はペナルティに関連する数値を含むことができる。例示すると、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、０から１の数値、－１から１の数値、及び／又は０から１００の数値を含むことができる。さらなる実施では、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６は、１つ以上の変数がアミノ酸３１０の第一の配列に含まれる個々のアミノ酸３１４、３１６、３１８、３２０、３２２の修飾に対応する確率及び／又はペナルティに関連する、１つ以上の線形関数又は１つ以上の非線形関数などの１つ以上の関数を含むことができる。さらなる例では、位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６の少なくとも部分は、１つ以上の位置３１４、３１６、３１８、３２０、３２２、３２４に位置するアミノ酸が１つ以上の生成対抗ネットワーク３０４によって修正されないことを示すことができる。また、図３の例示的な例は、各位置３１４、３１６、３１８、３２０、３２２、３２４が、さらなる実施では、それぞれの位置修飾データ３２６、３２８、３３０、３３２、３３４、３３６に関連することを示すが、位置３１４、３１６、３１８、３２０、３２２、３２４のうちの少なくとも１つは、位置修飾データに関連しないことができる。１つ以上の実施では、位置修飾データは、第一のアミノ酸配列の位置の１つ以上の群に関連付けることができる。

［００６７］様々な例では、鋳型タンパク質３０６のアミノ酸３１０の第一の配列に対応するデータを、コンピュータシステム３０２に提供することができる。第一のアミノ酸配列３１０及び対応する位置修飾データは、１つ以上の生成対抗ネットワーク３０４によって用いられ、標的タンパク質３０８に対応する第二のアミノ酸配列３１２を生成することができる。標的タンパク質３０８は、鋳型タンパク質３０６とは異なるが、関連することができる。例えば、１つ以上の生成対抗ネットワーク３０４は、アミノ酸３１０の第一の配列の１つ以上の位置のアミノ酸を修飾して、アミノ酸３１２の第二の配列を生成することができる。例示すると、第二のアミノ酸配列３１２は、アミノ酸３１０の第一の配列のアミノ酸３１４、３１６に対応するアミノ酸３４６及び３４８を含む。すなわち、アミノ酸３１４及びアミノ酸３３８は両方ともスレオニンであり、アミノ酸３１６及びアミノ酸３４０は両方ともヒスチジンである。図３の例示的な例では、アミノ酸３１８とアミノ酸３４２は、アミノ酸３１８のメチオニンが、１つ以上の生成対抗ネットワーク３０４によって、アミノ酸３４２についてロイシンに変化したことを示す。さらに、アミノ酸３２０はアミノ酸３４４に対応することができ、両方のアミノ酸３２０、３４４はアルギニンであり、一方、鋳型タンパク質３０６の第一のアミノ酸配列３１０のアミノ酸３２２、３２４は、標的タンパク質３０８のアミノ酸３１２の第二の配列のアミノ酸３４６、３４８ではヒスチジンからリジンに変化している。鋳型タンパク質３０６のアミノ酸３１０の第一の配列の様々な位置におけるアミノ酸を修飾することに加えて、１つ以上の生成対抗ネットワーク３０４は、アミノ酸３１０の第一の配列にアミノ酸を付加することによって、標的タンパク質３０８のアミノ酸３１２の第二の配列を生成することができる。１つ以上の生成対抗ネットワーク３０４はまた、鋳型タンパク質３０６のアミノ酸３１０の第一の配列からアミノ酸を削除することによって、標的タンパク質３０８のアミノ酸３１２の第二の配列を生成することができる。

［００６８］標的タンパク質３１０は、鋳型タンパク質３０８の１つ以上の特徴を保持することができる。鋳型タンパク質３０８の１つ以上の特徴は、標的タンパク質３０８の第二のアミノ酸配列３１２中の鋳型タンパク質３０６の第一のアミノ酸配列３１０の様々な位置に個々のアミノ酸を維持することによって、標的タンパク質３１０中に維持することができることである。標的タンパク質３０８にも存在する鋳型タンパク質３０６の１つ以上の特徴は、１つ以上の特徴に対応するアミノ酸の第一の配列３１０の１つ以上の位置を決定し、１つ以上の生成対抗ネットワーク３０４が１つ以上の位置に位置するアミノ酸を変化させる確率を最小化することによって保存することができる。さらに、鋳型タンパク質３０６中の第一のアミノ酸を置換するために用いられる標的タンパク質３０８中のアミノ酸の特徴は、制限されうる。例えば、アミノ酸３１０の第一の配列の位置修飾データは、疎水性アミノ酸が他の疎水性アミノ酸によって置換されるべきであることを示すことができる。このようにして、標的タンパク質３０８は、類似又は同一の鋳型タンパク質３０６の１つ以上の特徴を備えることができる。例えば、標的タンパク質３０８は、鋳型タンパク質３０６の１つ以上の生物物理的特徴の値の閾値量内にある１つ以上の生物物理的特徴の値があってよい。さらに、標的タンパク質３０８は、鋳型タンパク質３０６の機能に類似又は同じ機能を有することができる。例示すると、標的タンパク質３０８及び鋳型タンパク質３０６は、特定の分子又は特定の種類の分子の両方に結合することができる。例示的な例では、鋳型タンパク質３０６は、抗原に結合する抗体を含むことができ、アミノ酸３１０の第一の配列は、標的タンパク質３０８が抗原にも結合することができるように、アミノ酸３１２の第二の配列に修飾することができる。

［００６９］様々な例では、位置修飾データは、鋳型タンパク質３０６の１つの位置におけるアミノ酸を標的タンパク質３０８中の１つ以上の異なるアミノ酸に変化させることに関連するペナルティ及び／又は確率を示すことができる。例示すると、位置修飾データは、１１４位のアミノ酸３１４のトレオニンをセリンに変化させる第一のペナルティ及び／又は第二のペナルティ及び／又は１１４位のアミノ酸３１４のトレオニンをシステインに変化させる第二の確率を示すことができる。位置修飾データは、様々な実施では、少なくとも５個の他のアミノ酸、少なくとも１０個の他のアミノ酸、少なくとも１５個の他のアミノ酸、又は少なくとも２０個の他のアミノ酸のそれぞれに関する鋳型タンパク質の位置におけるアミノ酸を修飾するためのそれぞれの確率及び／又はそれぞれのペナルティを示すことができる。

［００７０］１つ以上の生成対抗ネットワーク３０４は、１つの生物によって産生された鋳型タンパク質を修飾して、異なる生物に対応する標的タンパク質を生成することができる。例えば、鋳型タンパク質３０６はマウスによって産生され得、アミノ酸３１０の第一の配列は、アミノ酸３１２の第二の配列がヒトタンパク質に対応するように修飾されうる。さらなる例では、鋳型タンパク質３０６は、ヒトによって産生され得、アミノ酸３１０の第一の配列は、アミノ酸３１２の第二の配列がウマタンパク質に対応するように修飾されうる。さらに、１つ以上の生成対抗ネットワーク３０４は、生殖細胞系の１つ以上の遺伝子によって産生される鋳型タンパク質を修飾して、異なる生殖細胞系遺伝子に対応するタンパク質を産生することができる。例示的な例では、種内の抗体の生殖細胞系遺伝子の１つ以上のアミノ酸の修飾は、特定の抗原に対する結合能の量を維持しつつ、抗体の１つ以上の特徴（例えば、発現レベル、収量、可変領域安定性）に影響を及ぼしうる。さらに、１つ以上の生成対抗ネットワーク３０４が抗体のアミノ酸配列を修飾する場合、１つ以上の生成対抗ネットワーク３０４は、ＩｇＥアイソタイプ抗体等の第一の抗体アイソタイプに対応する鋳型タンパク質を修飾して、ＩｇＧアイソタイプ抗体等の第二の抗体アイソタイプに対応する標的抗体を生成することができる。

［００７１］図４は、ある実施態様による、特定の機能を有する第一の生物体の抗体配列を示すデータを利用して、第二の異なる生物体についての特定の機能を有するさらなる抗体配列に対応するデータを生成するための例示的フレームワーク４００を示す図である。フレームワーク４００は、第一の哺乳動物０８の鋳型抗体４０６のアミノ酸配列を修飾して第二の哺乳動物４１２の標的抗体４１０を生成するために、１つ以上の生成対抗ネットワーク４０４を実装することができるコンピュータシステム４０２を含むことができる。図４の例示的な例では、鋳型抗体４０６は、マウス抗体であることができ、標的抗体４１０は、ヒト抗体に対応することができる。鋳型抗体４０６は抗原４１４に結合することができる。さらに、１つ以上の生成対抗ネットワーク４０４の閾値の確率は、少なくとも標的抗体４１０が抗原４１４にも結合する閾値の確率であるように、標的抗体４１０を生成することができる。

［００７２］鋳型抗体４０６は、第一の軽鎖４１６を含むことができる。第一の軽鎖４１６は、多数のフレームワーク領域及び多数の超可変領域がある可変領域を含むことができる。様々な例では、超可変領域は、本明細書中では、相補性決定領域（ＣＤＲ）という場合がある。図４の例示的な実施例では、第一の軽鎖４１６は、第一のフレームワーク領域４１８、第二のフレームワーク領域４２０、第三のフレームワーク領域４２２、及び第四のフレームワーク領域４２４を含むことができる。さらに、第一の軽鎖４１６は、第一のＣＤＲ４２６、第二のＣＤＲ４２８、及び第三のＣＤＲ４３０を含むことができる。図４の例示には示されていないが、第一の軽鎖４１６は、第一の軽鎖４１６の可変領域に結合され、第一の軽鎖４１６の可変領域のアミノ酸配列に続く定常領域を含むことができる。第一の軽鎖４１６の定常領域及び第一の軽鎖４１６の可変領域は、第一の軽鎖４１６に対する抗原結合領域を形成することができる。

［００７３］鋳型抗体４０６はまた、第一の重鎖４３２を含むことができる。第一の重鎖４３２は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第一の重鎖４３２は、第一のフレームワーク領域４３４、第二のフレームワーク領域４３６、第三のフレームワーク領域４３８、及び第四のフレームワーク領域４４０を含むことができる。さらに、第一の重鎖４３２は、第一のＣＤＲ４４２、第二のＣＤＲ４４４、及び第三のＣＤＲ４４６を含むことができる。図４の例示には示されていないが、第一の重鎖４３２は、第一の重鎖４３２の可変領域に結合する多数の定常領域を含むことができる。例示すると、第一の重鎖４３２の第一の定常領域を可変領域に連結することができ、第一の重鎖４３２の第一の定常領域と第一の重鎖４３２の可変領域とがともに、第一の重鎖４３２の抗原結合領域を形成することができる。また、第一の重鎖４３２は、２つのさらなる定常領域を含み、ブリッジ領域によって抗原結合領域に結合される結晶化可能領域を含むことができる。

［００７４］第一の軽鎖４１６の抗原結合領域及び第一の重鎖４３２の抗原結合領域は、抗原４１４の形状及び化学的プロファイルに対応する形状であってよい。様々な例では、第一の軽鎖４１６のＣＤＲ４２６、４２８、４３０の少なくとも部分、及び第一の重鎖４３２のＣＤＲ４４２、４４４、４４６の少なくとも部分は、抗原４１４のエピトープ領域のアミノ酸と相互作用するアミノ酸を含むことができる。このようにして、ＣＤＲ４２６、４２８、４３０、４４２、４４４、４４６の少なくとも部分のアミノ酸は、静電相互作用、水素結合、ファンデルワールス力、又は疎水性相互作用の少なくとも１つを介して抗原４１４のアミノ酸と相互作用することができる。

［００７５］図４の例示には示されていないが、鋳型抗体４０６は、さらなる重鎖と対合するさらなる軽鎖も含むことができる。さらなる軽鎖は、第一の軽鎖４１６に対応することができ、さらなる重鎖は、第一の重鎖４３２に対応することができる。例示的な例では、さらなる軽鎖のアミノ酸配列は、第一の軽鎖４１４と同じアミノ酸配列であってよく、さらなる重鎖のアミノ酸配列は、第一の重鎖４３２と同じアミノ酸配列であってよい。鋳型抗体４０６のさらなる軽鎖及びさらなる重鎖は、抗原４１４に対応する他の抗原分子に結合することができる。

［００７６］１つ以上の生成対抗ネットワーク４０４は、鋳型抗体４０６の領域のアミノ酸配列を用いて標的抗体４１０を生成することができる。標的抗体４１０は、鋳型抗体４０６のアミノ酸配列の部分とは異なるアミノ酸配列である１つ以上の部分があってよい。標的抗体４１０のアミノ酸配列に関連して変化する鋳型抗体４０６のアミノ酸配列の部分は、標的抗体４１０が、鋳型抗体４０６に関連する種によって産生される抗体よりも、異なる種によって産生される抗体に、より密接に対応するように修飾することができる。１つ以上の例では、１つ以上の生成対抗ネットワーク４０４は、第一の軽鎖４１６の可変領域に含まれるアミノ酸及び／又は第一の重鎖４３２の可変領域に含まれるアミノ酸を修飾して、標的抗体４１０を生成することができる。様々な例示的な実施例では、１つ以上の生成対抗ネットワーク４０４は、第一の軽鎖４１６のＣＤＲ４２６、４３８、４３０のうちの１つ以上又は第一の重鎖４３２のうちのＣＤＲ４４２、４４４、４４６のうちの１つ以上に含まれるアミノ酸を修飾して、標的抗体４１０を産生することができる。

［００７７］標的抗体４１０は、第二の軽鎖４４８を含むことができる。第二の軽鎖４４８は、第一の軽鎖４１６に対応することができる。様々な例では、第二の軽鎖４４８の少なくとも１つのアミノ酸は、第一の軽鎖４１６の少なくとも１つのアミノ酸と異なってよい。第二の軽鎖４４８は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第二の軽鎖４４８は、第一のフレームワーク領域４５０、第二のフレームワーク領域４５２、第三のフレームワーク領域４５４、及び第四のフレームワーク領域４５６を含むことができる。さらに、第二の軽鎖４４８は、第一のＣＤＲ４５８、第二のＣＤＲ４６０、及び第三のＣＤＲ４６２を含むことができる。図４の例示には示されていないが、第二の軽鎖４４８は、第二の軽鎖４４８の可変領域に結合され、第二の軽鎖４４８の可変領域のアミノ酸配列に続く定常領域を含むことができる。第二の軽鎖４４８の定常領域及び第二の軽鎖４４８の可変領域は、第二の軽鎖４４８に対する抗原結合領域を形成することができる。

［００７８］標的抗体４１０はまた、第二の重鎖４６４を含みうる。第二の重鎖４６４は、第一の重鎖４３２に対応することができる。１つ以上の実施では、第二の重鎖４６４の少なくとも１つのアミノ酸は、第一の重鎖４３２の少なくとも１つのアミノ酸と異なってよい。第二の重鎖４６４は、多数のフレームワーク領域及び多数の超可変領域を備える可変領域を含むことができる。第二の重鎖４６４は、第一のフレームワーク領域４６６、第二のフレームワーク領域４６８、第三のフレームワーク領域４７０、及び第四のフレームワーク領域４７２を含むことができる。さらに、第二の重鎖４６４は、第一のＣＤＲ４７４、第二のＣＤＲ４７６、及び第三のＣＤＲ４７８を含むことができる。図４の例示には示されていないが、第二の重鎖４６４は、第二の重鎖４６４の可変領域に結合する多数の定常領域を含むことができる。例示すると、第二の重鎖４６４の第一の定常領域を可変領域に連結することができ、第二の重鎖４６４の第一の定常領域と第二の重鎖４６４の可変領域とはともに、第二の重鎖４６４の抗原結合領域を形成することができる。また、第二の重鎖４６４は、２つのさらなる定常領域を含み、ブリッジ領域によって抗原結合領域に結合される結晶化可能領域を含むことができる。

［００７９］第二の軽鎖４４８のアミノ酸配列は、第一の軽鎖４１６及び／又は第二の重鎖４６４と異なるアミノ酸配列であってよいが、第二の軽鎖４４８の抗原結合領域及び第二の重鎖４６４の抗原結合領域は、抗原４１４の形状及び化学的プロファイルに対応する形状であってよい。様々な例では、第二の軽鎖４４８のＣＤＲ４５８、４６０、４６２の少なくとも部分、及び第二の重鎖４６４のＣＤＲ４７４、４７６、４７８の少なくとも部分は、抗原４１４のエピトープ領域のアミノ酸と相互作用するアミノ酸を含むことができる。このようにして、ＣＤＲ４５８、４６０、４６２、４７４、４７６、４７８の少なくとも部分のアミノ酸は、静電相互作用、水素結合、ファンデルワールス力、又は疎水性相互作用のうちの少なくとも１つを介して抗原４１４のアミノ酸と相互作用することができる。

［００８０］図４の例示には示されていないが、標的抗体４１０は、さらなる重鎖と対合するさらなる軽鎖も含むことができる。さらなる軽鎖は第二の軽鎖４４８に対応し、さらなる重鎖は第二の重鎖４６４に対応することができる。例示的な例では、さらなる軽鎖のアミノ酸配列は、第二の軽鎖４４８と同じアミノ酸配列であってよく、さらなる重鎖のアミノ酸配列は、第二の重鎖４６４と同じアミノ酸配列であってよい。標的抗体４１０のさらなる軽鎖及びさらなる重鎖は、抗原４１４に対応する他の抗原分子に結合することができる。

［００８１］図４の例示的な例では、鋳型抗体４０６は、第二のアミノ酸配列４８２がある標的抗体４１０の第二の部分とは異なる第一のアミノ酸配列４８０がある第一の部分を含むことができる。例えば、鋳型抗体４０６の第一のアミノ酸配列４８０に含まれるトレオニン分子は、標的抗体４１０の対応する部分の第二のアミノ酸配列４８２中のアスパラギン分子で置換することができる。さらに、鋳型抗体４０６は、第四のアミノ酸配列４８２を有する標的抗体４１０の第四の部分とは異なる第三のアミノ酸配列４８４を有する第三の部分を含むことができる。例示すると、鋳型抗体４０６の第三の部分の第三のアミノ酸配列４８４に含まれるプロリン分子は、標的抗体４１０の第四の部分に対応する第四のアミノ酸配列４８６中のセリン分子で置換することができる。

［００８２］様々な実施では、ＩｇＡ、ＩｇＤ、ＩｇＥ、ＩｇＧ、ＩｇＭ等の各抗体アイソタイプについて、軽鎖定常領域は、同一又は類似のアミノ酸配列から構成され得、それぞれの重鎖定常領域は、同一又は類似のアミノ酸配列で構成することができる。

［００８３］図５は、ある実施態様による、タンパク質断片配列を鋳型タンパク質配列と組み合わせた機械学習技術を用いて標的タンパク質配列を生成するためのフレームワーク５００の例を示す図である。様々な例では、機械学習アーキテクチャ５０２は、タンパク質の断片の配列を生成することができる。タンパク質の断片の配列は、タンパク質の鋳型の配列と組み合わせて、標的タンパク質の配列を生成することができる。１つ以上の例では、機械学習アーキテクチャ５０２は、抗体の断片の配列を生成することができる。当該シナリオでは、抗体断片の配列は、抗体フレームワーク等の鋳型配列と組み合わせて、抗体配列を生成することができる。１つ以上の例では、機械学習アーキテクチャ５０２は、抗体の可変領域の少なくとも部分の配列を生成することができ、機械学習アーキテクチャ５０２によって生成された抗体断片配列は、抗体のさらなる部分の配列と組み合わせて、完全な抗体配列を生成することができる。１つ以上の実施態様では、抗体配列は、１つ以上の軽鎖可変領域、１つ以上の軽鎖定常領域、１つ以上の重鎖可変領域、１つ以上の重鎖定常領域、又はそれらの１つ以上の組み合わせを含むことができる。

［００８４］機械学習アーキテクチャ５０２は、生成コンポーネント５０４及びチャレンジングなコンポーネント５０６を含むことができる。生成コンポーネント５０６は、生成コンポーネント５０６に提供される入力に基づいてアミノ酸配列を生成するための１つ以上のモデルを実装することができる。様々な実施態様では、生成コンポーネント５０６によって実装される１つ以上のモデルは、１つ以上の関数を含むことができる。チャレンジングなコンポーネント５０６は、生成コンポーネント５０４によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。チャレンジングなコンポーネント５０６によって生成される出力は、生成コンポーネント５０４に提供され得、生成コンポーネント５０４によって実装される１つ以上のモデルは、チャレンジングなコンポーネント５０６によって提供されるフィードバックに基づいて修正されうる。チャレンジングなコンポーネント５０６は、生成コンポーネント５０４によって生成されたアミノ酸配列を標的タンパク質のライブラリーのアミノ酸配列と比較し、生成コンポーネント５０４によって生成されたアミノ酸配列とチャレンジングなコンポーネント５０６に提供された標的タンパク質のアミノ酸配列との間の対応量を示す出力を生成することができる。

［００８５］様々な実施態様では、機械学習アーキテクチャ５０２は、１つ以上のニューラルネットワーク技術を実装することができる。例えば、機械学習アーキテクチャ５０２は、１つ以上の反復ニューラルネットワークを実装することができる。さらに、機械学習アーキテクチャ５０２は、１つ以上の畳み込みニューラルネットワークを実装することができる。特定の実施態様では、機械学習アーキテクチャ５０２は、反復ニューラルネットワークと畳み込みニューラルネットワークを組み合わせて実装することができる。例えば、機械学習アーキテクチャ５０２は、生成対抗ネットワーク（ＧＡＮ）を含むことができる。この場合、生成コンポーネント５０４は、生成器を含むことができ、チャレンジングなコンポーネント５０６は、識別器を含むことができる。チャレンジングなコンポーネント５０６は、生成コンポーネント５０４によって生成されたアミノ酸配列が様々な特徴を満たすか否かを示す出力を生成することができる。様々な実施態様では、チャレンジングなコンポーネント５０６は、識別器でありうる。さらなる状況、例えば機械学習アーキテクチャ５０２がワッサースタインＧＡＮを含む場合、チャレンジングなコンポーネント５０６は批評家を含むことができる。さらなる実施態様では、機械学習アーキテクチャ５０２は、条件付き生成対抗ネットワーク（ｃＧＡＮ）を含むことができる。

［００８６］図５の例示的な実施例では、生成コンポーネント５０４は、入力データ５０８を取得することができ、生成コンポーネント５０４は、入力データ５０８及び１つ以上のモデルを利用して、生成配列５１０を生成することができる。入力データ５０８は、乱数生成器によって生成されるノイズ又は疑似乱数生成器によって生成されるノイズを含むことができる。生成配列５１０は、タンパク質の個々の位置に位置するアミノ酸を示す一連の文字によって表されるアミノ酸配列を含むことができる。様々な例では、生成配列５１０は、タンパク質の断片を表すことができる。１つ以上の例示的な例では、生成配列５１０は抗体の断片に対応することができる。

［００８７］生成配列（複数可）５１０は、タンパク質配列データ５１２に含まれるタンパク質の配列に対してチャレンジングなコンポーネント５０６によって分析することができる。タンパク質の配列データ５１２は、機械学習アーキテクチャ５０２のための訓練データとすることができる。タンパク質配列データ５１２は、スキーマに従って符号化することができる。タンパク質配列データ５１２は、タンパク質のアミノ酸配列を保存する１つ以上のデータソースから取得されたタンパク質の配列を含むことができる。１つ以上のデータソースは、検索される１つ以上のウェブサイトを含むことができ、標的タンパク質のアミノ酸配列に対応する情報は、１つ以上のウェブサイトから抽出される。さらに、１つ以上のデータソースは、標的タンパク質のアミノ酸配列を抽出することができる研究文書の電子版を含むことができる。タンパク質配列データ５１２は、機械学習アーキテクチャ５０２にアクセス可能な１つ以上のデータストアに格納することができる。１つ以上のデータメモリは、無線ネットワーク、有線ネットワーク、又はそれらの組み合わせを介して機械学習アーキテクチャ５０２に接続することができる。タンパク質配列データ５１２は、タンパク質配列データ５１２の１つ以上の部分を検索するためにデータメモリに伝送された要求に基づいて機械学習アーキテクチャ５０２によって取得することができる。

［００８８］１つ以上の例では、タンパク質配列データ５１２は、タンパク質の断片のアミノ酸配列を含むことができる。例えば、タンパク質配列データ５１２は、抗体の軽鎖又は抗体の重鎖の少なくとも１つの配列を含むことができる。さらに、タンパク質配列データ５１２は、抗体軽鎖の可変領域、抗体重鎖の可変領域、抗体軽鎖の定常領域、抗体重鎖の定常領域、抗体のヒンジ領域、又は抗体の抗原結合部位のうちの少なくとも１つの配列を含むことができる。１つ以上の例では、タンパク質配列データ５１２は、ＣＤＲ１、ＣＤＲ２、又はＣＤＲ３の少なくとも１つ等の抗体の相補性決定領域の配列を含むことができる。１つ以上のさらなる例示的な例では、タンパク質配列データ５１２は、Ｔ細胞受容体の断片の配列を含むことができる。例示すると、タンパク質配列データ５１２は、Ｔ細胞受容体の１つ以上のＣＤＲ等の、Ｔ細胞受容体の抗原結合部位の配列を含むことができる。

［００８９］タンパク質配列データ５１２に含まれるアミノ酸配列は、チャレンジングなコンポーネント５０６に提供される前に、データ前処理５１４で処理されてよい。例えば、タンパク質配列データ５１２は、チャレンジングなコンポーネント５０６に提供される前に、分類システムに従って配置することができる。データ前処理５１４は、タンパク質配列データ５１２の標的タンパク質に含まれるアミノ酸を、タンパク質内の構造に基づく位置を表しうる数値と対合させることを含むことができる。数値は、開始点と終了点がある一連の数字を含むことができる。例示的な例では、Ｔは、トレオニン分子が特定のタンパク質ドメイン種類の構造に基づく位置４３に位置することを示す番号４３と対することができる。例示的な実施例では、構造に基づく番号付けは、フィブロネクチンＩＩＩ型（ＦＮＩＩＩ）タンパク質、アビマー、抗体、ＶＨＨドメイン、キナーゼ、ジンクフィンガー、Ｔ細胞受容体等の、場合によっては、一般的なタンパク質種類に適用することができる。

［００９０］様々な実施態様では、データ前処理５１６によって実装される分類システムは、タンパク質の個々の位置に位置するアミノ酸の構造位置を符号化する番号付けシステムを含むことができる。このようにして、アミノ酸の数が異なるタンパク質を、構造的特徴に従って整列させることができる。例えば、分類システムは、特定の機能及び／又は特徴があるタンパク質の部分に、指定された数の位置があってよいことを示すことができる。様々な場合、タンパク質の特定の領域におけるアミノ酸の数はタンパク質間で異なる場合があるため、分類システムに含まれる位置の全てがアミノ酸と関連付けられるとは限らない。さらなる例では、タンパク質の構造を分類体系に反映させることができる。例示すると、それぞれのアミノ酸と関連付けられていない分類システムの位置は、ターン又はループ等のタンパク質の様々な構造的特徴を示すことができる。例示的な例では、抗体の分類システムは、重鎖領域、軽鎖領域、及びヒンジ領域には、がそれらに割り当てられた指定された数の位置があり、抗体のアミノ酸が分類システムに従ってその位置に割り当てられることができる。１つ以上の実施態様では、データ前処理５１４は、抗体の個々の位置に位置する個々のアミノ酸を分類するために、抗体構造番号付け（ＡＳＮ）を用いることができる。

［００９１］データ前処理５１４によって生成される出力は、符号化配列５１６を含むことができる。符号化配列５１６は、タンパク質の様々な位置に関連するアミノ酸を示すマトリクスを含むことができる。例では、符号化配列５１６は、タンパク質の構造に基づく位置に対応するアミノ酸及び行が異なる対応するカラムがあるマトリクスを含むことができる。行列中の各要素について、対応する位置にアミノ酸が存在しないことを示すために０を用いることができ、対応する位置にアミノ酸が存在することを示すために１を用いることができる。マトリクスはまた、アミノ酸配列の特定の位置にアミノ酸が存在しないアミノ酸配列中のギャップを表すさらなるカラムを含むことができる。したがって、ある位置がアミノ酸配列中のギャップを表す場合には、アミノ酸が存在しない位置に関連する行に対して１をギャップカラム中に置くことができる。生成配列５１０はまた、符号化配列５１６について用いられるのと同一又は類似の数字スキームに従ってベクトルを用いて表すことができる。ある例示的な例では、符号化配列５１６及び生成配列（複数可）５１０は、ワンホットエンコーディング法という場合がある方法を用いて符号化されうる。

［００９２］１つ以上の例では、生成配列５１０と、タンパク質配列データ５１２に含まれるアミノ酸配列等の、チャレンジングなコンポーネント５０６に提供されるさらなる配列との間の類似性及び相違に基づいて、チャレンジングなコンポーネント５０６は、分類出力５１８を生成して、生成配列５１０と、タンパク質配列データ５１２に含まれるチャレンジングなコンポーネント５０６に提供される配列との間の類似性の量又は差の量を示すことができる。１つ以上の例では、チャレンジングなコンポーネント５０６は、生成配列（複数可）５１０をゼロとして、タンパク質配列データ５１２から得られた符号化配列を１として標識することができる。この場合、分類出力５１８は、タンパク質配列データ５１２に含まれる１つ以上のアミノ酸配列に関して０から１までの第一の数字を含むことができる。

［００９３］１つ以上のさらなる例では、チャレンジングなコンポーネント５０６は、生成配列５１０とタンパク質配列データ５１２に含まれるタンパク質配列との間の距離の量を示す出力を生成する距離関数を実装することができる。チャレンジングなコンポーネント５０６が距離関数を実装する実施態様では、分類出力５１８は、生成配列５１０とタンパク質配列データ５１２に含まれる１つ以上の配列との間の距離を示す－∞から∞までの数字を含むことができる。

［００９４］機械学習アーキテクチャ５０２を訓練するために用いられるデータは、生成コンポーネント５０４によって生成されるアミノ酸配列に影響を及ぼしうる。例えば、抗体のＣＤＲがチャレンジングなコンポーネント５０６に提供されるタンパク質配列データ５１２に含まれる状況では、生成コンポーネント５０４によって生成されるアミノ酸配列は、抗体ＣＤＲのアミノ酸配列に対応することができる。他の例では、チャレンジングなコンポーネント５０６に提供される標的タンパク質配列データ５１２に含まれるアミノ酸配列がＴ細胞受容体のＣＤＲに対応するシナリオでは、生成する構成要素５０４によって生成されるアミノ酸配列は、Ｔ細胞受容体のＣＤＲの配列に対応することができる。

［００９５］機械学習アーキテクチャ５０２が訓練プロセスを受けた後、タンパク質の配列を生成することができる訓練済みモデル５１８を生成することができる。訓練済みモデル５１８は、タンパク質配列データ５１２を用いて訓練プロセスが実施された後、生成コンポーネント５０４を含むことができる。１つ以上の例示的な実施例では、訓練済みモデル５１８は、畳み込みニューラルネットワークの多数の重み及び／又は多数のパラメータを含む。機械学習アーキテクチャ５０２の学習プロセスは、生成コンポーネント５０４によって実装される関数及びチャレンジングなコンポーネント５０６によって実装される関数（複数可）が収束した後に完了することができる。関数の収束は、タンパク質配列が生成コンポーネント５０４によって生成され、チャレンジングなコンポーネント５０６からフィードバックが得られるにつれて、モデルパラメータの値が特定の値に向かって移動することに基づくことができる。様々な実施態様では、機械学習アーキテクチャ５０２の訓練は、生成コンポーネント５０４によって生成されたタンパク質配列が特定の特徴を備える場合に完了することができる。例えば、生成コンポーネント５０４によって生成されたアミノ酸配列は、アミノ酸配列の生物物理的特徴、アミノ酸配列の構造的特徴、又は１つ以上のタンパク質生殖細胞系に対応するアミノ酸配列への接着のうちの少なくとも１つを決定するソフトウェアツールによって分析することができる。機械学習アーキテクチャ５０２は、生成コンポーネント５０４によって生成されるアミノ酸配列が、１つ以上の特定の特徴を備えるようにソフトウェアツールによって決定される状況では、訓練済みモデル５１８を生成することができる。１つ以上の実施では、訓練済みモデル５１８は、標的タンパク質の配列を生成する標的タンパク質系５２０に含まれうる。

［００９６］タンパク質配列入力５２２は、訓練済みモデル５１８に提供することができ、訓練済みモデル５１８は、タンパク質断片配列５２４を生成しうる。タンパク質配列入力５２２は、ランダム又は擬似ランダムシリーズの数字を含むことができる入力ベクターを含むことができる。１つ以上の例では、訓練済みモデル５１８によって生成されたタンパク質断片配列５２４は、符号化配列５１６及び／又は生成配列５１０を表すために用いられるマトリクス構造と同一又は類似のマトリクス構造として表すことができる。様々な実施態様では、タンパク質断片配列５２４を含む訓練済みモデル５１８によって作製されたマトリクスを解読して、タンパク質断片の配列に対応するアミノ酸のストリングを作製することができる。タンパク質断片配列５２４は、フィブロネクチンＩＩＩ型（ＦＮＩＩＩ）タンパク質、アビマー、ＶＨＨドメイン、抗体、キナーゼ、ジンクフィンガー、Ｔ細胞受容体などの少なくとも部分の配列を含むことができる。１つ以上の例示的な例では、タンパク質断片配列５２４は、抗体の断片の配列を含むことができる。例えば、タンパク質断片配列５２４は、免疫グロビンＡ（ＩｇＡ）、免疫グロビンＤ（ＩｇＤ）、免疫グロビンＥ（ＩｇＥ）、免疫グロビンＧ（ＩｇＧ）、又は免疫グロビンＭ（ＩｇＭ）などの１つ以上の抗体サブタイプの部分に対応することができる。１つ以上の例では、タンパク質断片配列５２４は、１つ以上の抗体軽鎖可変領域、１つ以上の抗体重鎖可変領域、１つ以上の抗体軽鎖定常領域、１つ以上の抗体重鎖定常領域、又は１つ以上の抗体ヒンジ領域のうちの少なくとも１つの配列を含むことができる。さらに、タンパク質断片配列５２４は、抗原に結合するさらなるタンパク質に対応することができる。さらに他の例では、タンパク質断片配列５２４は、抗原に結合する領域又は他の分子に結合する領域を有するタンパク質等の、タンパク質間相互作用に関与するアミノ酸配列に対応することができる。

［００９７］標的タンパク質システム５２０は、１つ以上のタンパク質断片配列５２４を１つ以上の鋳型タンパク質配列５２６と組み合わせて、１つ以上の標的タンパク質配列５２８を生成することができる。鋳型タンパク質配列５２６は、タンパク質断片配列５２４と組み合わせることができるタンパク質の部分のアミノ酸配列を含むことができる。例えば、タンパク質断片配列５２４は、抗体軽鎖の可変領域のアミノ酸配列を含むことができ、鋳型タンパク質配列５２６は、抗体の残りのアミノ酸配列を含むことができる。例示すると、鋳型タンパク質配列５２６は、抗体軽鎖の定常領域を含むアミノ酸配列を含むことができる。当該シナリオでは、標的タンパク質配列５２８は、抗体軽鎖のアミノ酸配列を含むことができる。１つ以上のさらなる例では、１つ以上のタンパク質断片配列５２４は、抗体軽鎖の可変領域のアミノ酸配列、及び抗体重鎖の可変領域のアミノ酸配列を含むことができ、１つ以上の鋳型配列５２６は、抗体軽鎖の定常領域、抗体重鎖の第一の定常領域、抗体重鎖のヒンジ領域、抗体重鎖の第二の定常領域、及び抗体重鎖の第三の定常領域のアミノ酸配列を含むことができる。当該例では、標的タンパク質配列５２８は、抗体重鎖と結合した抗体軽鎖のアミノ酸配列を含むことができる。

［００９８］標的タンパク質システム５２０は、鋳型タンパク質配列５２６内の１つ以上の欠損アミノ酸の１つ以上の位置を決定し、１つ以上の欠損アミノ酸配列を供給するために用いることができる１つ以上のタンパク質断片配列５２４に含まれる１つ以上のアミノ酸を決定することができる。様々な例では、鋳型タンパク質配列５２６は、個々の鋳型タンパク質配列５２６内の欠損アミノ酸の位置を示すことができる。１つ以上の例では、訓練済みモデル５１８は、１つ以上の抗体の抗原結合領域のアミノ酸配列に対応することができるタンパク質断片配列５２４を生成しうる。当該シナリオでは、標的タンパク質システム５２０は、鋳型タンパク質配列５２６が１つ以上の抗体の抗原結合領域の少なくとも部分を欠失していることを決定することができる。次いで、標的タンパク質システム５２０は、鋳型タンパク質配列５２６の抗原結合領域の欠損アミノ酸配列に対応するタンパク質断片配列５２４に含まれるアミノ酸配列を抽出することができる。標的タンパク質システム５２０は、タンパク質断片配列５２４から得られたアミノ酸配列を鋳型タンパク質配列５２６と組み合わせて、鋳型タンパク質配列５２６を含む標的タンパク質配列５２８を、１つ以上のタンパク質断片配列５２４によって提供される抗原結合領域と共に生成することができる。

［００９９］図５の例示的な例には示されていないが、標的タンパク質配列５２８に関してさらなるプロセッシングを行うことができる。例えば、標的タンパク質配列５２８を評価して、標的タンパク質配列５２８が一連の特徴を有するか否かを決定することができる。例示すると、１つ以上の測定基準は、標的タンパク質配列（複数可）５２８に関して決定することができる。例えば、標的タンパク質配列５２８（複数可）に関して決定することができる測定基準は、負に帯電したアミノ酸の数、正に帯電したアミノ酸の数、１つ以上の極性領域を形成するように相互作用する多数のアミノ酸、１つ以上の疎水性領域を形成するように相互作用するアミノ酸、それらの１つ以上の組合せ等の標的タンパク質配列５２８の特徴に関連付けることができる。

［０１００］１つ以上の実施態様では、標的タンパク質配列５２８は、配列フィルタリングに付されうる。配列フィルタリングは、１つ以上の特徴に対応する標的タンパク質配列５２８の１つ以上を同定するために、標的タンパク質配列５２８を解析することができる。例えば、標的タンパク質配列５２８を分析して、特定の位置に特定のアミノ酸を有するアミノ酸配列を同定することができる。標的タンパク質配列５２８の１つ以上をフィルタリングして、アミノ酸の１つ以上の特定のストリング又は領域を有するアミノ酸配列を同定することもできる。様々な実施では、標的タンパク質配列５２８は、少なくとも部分的に、標的タンパク質配列５２８のうちの少なくとも１つと、一連の生物物理的特徴があるさらなるタンパク質のアミノ酸配列との間の類似性に基づいて、一連の生物物理的特徴に関連するアミノ酸配列を同定するためにフィルタリングすることができる。

［０１０１］機械学習アーキテクチャ５０２は、１つ以上の計算装置５３０によって実現することができる。１つ以上の計算装置５３０は、１つ以上のサーバコンピュータ装置、１つ以上のデスクトップコンピュータ装置、１つ以上のラップトップコンピュータ装置、１つ以上のタブレットコンピュータ装置、１つ以上のモバイルコンピュータ装置、又はそれらの組み合わせを含むことができる。特定の実施態様では、１つ以上の計算装置５３０の少なくとも部分は、分散コンピューティング環境で実装することができる。例えば、１つ以上の計算装置５３０の少なくとも部分は、クラウドコンピューティングアーキテクチャで実装することができる。加えて、図５の例示的な実施例は、単一の生成コンポーネント及び単一のチャレンジングなコンポーネントがある生成対抗ネットワークを含む機械学習アーキテクチャ５３０の実施例を示すが、さらなる実施では、機械学習アーキテクチャ５０２は、複数の生成対抗ネットワークを含んでもよい。さらに、機械学習アーキテクチャ５０２によって実装される各生成対抗ネットワークは、１つ以上の生成コンポーネント及び１つ以上のチャレンジングなコンポーネントを含むことができる。また、図５の例示的な実施例は、機械学習アーキテクチャ５０２及び標的タンパク質システム５２０を別々の実体として示すが、機械学習アーキテクチャ５０２及び標的タンパク質システム５２０は、１つ以上のコンピュータ装置５３０によって単一システムとして実装することができる。

［０１０２］図６は、ある実施態様による、鋳型タンパク質配列及び位置修飾データを用いて標的タンパク質配列を生成するための例示的方法６００を示すフロー図である。方法６００は、操作６０２では、機能的領域がある鋳型タンパク質のアミノ酸配列を示す第一のデータを取得することを含むことができる。鋳型タンパク質の機能的領域は、鋳型タンパク質を他の分子と結合させるアミノ酸を含むことができる。様々な例では、機能的領域は、他の分子の形状及び化学的特徴に対応する形状であってよい。例示的な例では、鋳型タンパク質は抗体を含むことができ、機能的領域は抗原に結合するアミノ酸を含むことができる。

［０１０３］操作６０４では、方法６００は、１つ以上の特定の特徴を備えるさらなるタンパク質に対応するさらなるアミノ酸配列を示す第二のデータを取得することを含むことができる。１つ以上の特定された特徴は、１つ以上の生物物理的特徴に対応することができる。１つ以上の特定の特徴は、特定の種類のタンパク質に含まれうるアミノ酸配列にも対応することができる。例えば、１つ以上の特定の特徴は、ヒト抗体に含まれるアミノ酸配列に対応することができる。例示すると、１つ以上の特定の特徴は、ヒト抗体の可変領域のフレームワーク領域に含まれるアミノ酸配列に対応することができる。さらに、１つ以上の特定の特徴は、ヒト抗体の１つ以上の生殖細胞系遺伝子によって産生されるアミノ酸配列に対応することができる。さらなるタンパク質は鋳型タンパク質に関して類似する場合があるが、さらなるタンパク質には鋳型タンパク質の機能的領域が存在しないこともある。例えば、さらなるタンパク質は抗体に対応することができるが、抗体は鋳型タンパク質の機能的領域に結合する抗原に結合することができない。例示的な実施では、鋳型タンパク質は、第一の哺乳動物によって産生されることができ、さらなるタンパク質は、ヒト等の第二の哺乳動物によって産生された抗体に対応することができる。当該状況では、第二のデータに含まれるアミノ酸配列は、ヒト抗体のアミノ酸配列を含むことができる。様々な実施態様では、第二のデータは、生成対抗ネットワークのための訓練データとして用いることができる。

［０１０４］加えて、操作６０６では、方法６００は、鋳型タンパク質の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定することを含むことができる。１つ以上の例では、位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率は約５％以下であり、タンパク質のさらなる非結合領域の１つ以上の部分に位置するアミノ酸を修飾する第二の確率は少なくとも４０％であることを示すことができる。位置修飾データはまた、鋳型タンパク質のアミノ酸配列のアミノ酸を変化させるためのペナルティを含みうる。様々な例では、位置修飾データは、鋳型タンパク質のアミノ酸配列の位置におけるアミノ酸の種類に基づくことができる。さらに、位置修飾データは、鋳型タンパク質の個々の位置に位置するアミノ酸を置換するアミノ酸の種類に基づくことができる。例えば、位置修飾データは、疎水性領域が１以上ある鋳型タンパク質のアミノ酸を修飾するための第一のペナルティ、及び正に荷電した鋳型タンパク質のアミノ酸を修飾するための第一のペナルティとは異なる第二のペナルティを示すことができる。さらに、位置修飾データは、疎水性領域が１以上ある鋳型タンパク質のアミノ酸を疎水性領域が１つ以上ある他のアミノ酸に修飾するための第一のペナルティ、及び疎水性領域が１つ以上ある鋳型タンパク質のアミノ酸を正に荷電したアミノ酸に修飾するための第一のペナルティとは異なる第二のペナルティを示すことができる。

［０１０５］さらに、操作６０８では、方法６００は、鋳型タンパク質のアミノ酸配列の変異体であり、１つ以上の特定の特徴の少なくとも部分を有するアミノ酸配列を生成することを含むことができる。標的タンパク質のアミノ酸配列は、１つ以上の機械学習技術を用いて生成することができる。様々な例では、変異タンパク質のアミノ酸配列は、条件付き生成対抗ネットワークを用いて作製することができる。

［０１０６］変異タンパク質のアミノ酸配列は、鋳型タンパク質の機能的領域に対応するが、鋳型タンパク質とは異なる１以上のフレームワーク領域等の支持骨格又は下層構造がある。例えば、鋳型タンパク質は、抗原に結合する抗体であることができる一方で、変異タンパク質は、鋳型タンパク質の特徴とは異なる抗原にも結合するが、最初に修飾されなければ抗原に対する結合領域を有さないであろう１つ以上の特徴を有する抗体を含むことができる。例示的な実施例では、鋳型タンパク質は、抗原に結合する結合領域を含むヒト抗体を含んでよく、さらなるアミノ酸配列は、鋳型タンパク質の生物物理的特徴とは異なる１つ以上の生物物理的特徴があるものの、抗原に結合しないヒト抗体を含むことができる。さらなるアミノ酸配列、鋳型タンパク質のアミノ酸配列、及び位置修飾データを用いて訓練された後、生成対抗ネットワークは、鋳型タンパク質の結合領域を含み、さらなるタンパク質の生物物理的特徴の少なくとも部分を含む変異型抗体のアミノ酸配列を生成することができる。

［０１０７］さらなる例示的な例では、鋳型タンパク質は、抗原に結合する結合領域を含むマウスによって産生される抗体に対応することができる。さらに、さらなるアミノ酸配列は、抗原に結合しないヒト抗体に対応することができる。さらなるアミノ酸配列、鋳型タンパク質のアミノ酸配列、及び位置修飾データを用いて訓練された後、生成対抗ネットワークは、マウス抗体の代わりにヒト抗体に対応し、抗原に結合するための鋳型抗体の結合領域を含む修飾抗体のアミノ酸配列を生成することができる。様々な例では、生成対抗ネットワークは、ヒト抗体のフレームワーク領域に対応するように、鋳型マウス抗体の可変領域のフレームワーク領域を修飾することができる。さらに、生成対抗ネットワークは、マウス抗体の結合領域のアミノ酸配列が変異アミノ酸配列中に存在し、結合領域が安定であり、抗原に結合する形状を形成するように、ヒト抗体の変異アミノ酸配列を生成することができる。

［０１０８］図７は、ある実施態様による、鋳型タンパク質配列に基づく生成対抗ネットワークを用いて、標的タンパク質配列を生成するための例示的方法７００を示すフロー図である。７０２では、方法７００は、非ヒト哺乳動物によって産生された鋳型抗体のアミノ酸配列を示す第一のデータを取得することを含み、ここで、鋳型抗体は抗原と結合する。鋳型抗体は、鋳型抗体を抗原に結合させるＣＤＲ等の機能的領域を含むことができる。

［０１０９］操作７０４では、方法７００は、ヒト抗体に対応する複数のアミノ酸配列を示す第二のデータを取得することを含む。加えて、操作７０６では、方法７００は、鋳型抗体の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定することを含む。位置修飾データは、鋳型抗体のいくつかの位置が、修飾される確率が比較的高く、鋳型抗体の他の位置が、修飾される確率が比較的低くなりうることを示すことができる。相対的に高い確率で修飾される鋳型抗体の位置は、修飾された場合、鋳型抗体の機能的領域に影響を与える可能性が低い位置のアミノ酸を含むことができる。さらに、相対的に低い確率で修飾される鋳型抗体の位置は、修飾される場合には、鋳型抗体の機能的領域に影響を与える可能性がより高い位置のアミノ酸を含むことができる。１つ以上の例では、位置修飾データは、抗原結合領域に位置するアミノ酸を修飾する第一の確率が約５％以下であること、及び１つ以上の重鎖フレームワーク領域又は抗体の１つ以上の軽鎖フレームワーク領域の少なくとも１つの部分の１つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも４０％であることを示すことができる。様々な例では、位置修飾データは、生成対抗ネットワークが標的抗体のアミノ酸配列を生成する場合、生成対抗ネットワークによって鋳型タンパク質の位置におけるアミノ酸の修飾に適用されるペナルティを示すことができる。

［０１１０］７０８では、方法７００は、生成対抗ネットワークを用いて、ヒト抗体に対応し、かつ鋳型抗体の結合領域に関して少なくとも閾値量が同一であるアミノ酸配列を生成するためのモデルを生成することを含む。さらに、７１０では、方法７００は、位置修飾データ及び鋳型抗体アミノ酸配列に基づいて、モデルを用いて標的アミノ酸配列を生成することを含む。例示的な例では、生成対抗ネットワークによって生成されたアミノ酸配列は、鋳型抗体の機能的領域に対応する領域を備える一方で、ヒト抗体の支持構造又は基礎構造があってよい。例えば、アミノ酸配列は、ヒト抗体との少なくとも閾値量が同一である定常領域、及び鋳型抗体の機能的領域との第二の閾値量が同一であるＣＤＲ等のさらなる領域があってよい。

［０１１１］図８は、例示的な実施態様により、マシン８００に本明細書で議論される方法論のいずれか１つ以上を実行させるための一連の命令が実行されうるコンピュータシステムの形態におけるコンピュータシステムの形態のマシン８００の概略図である。具体的には、図８は、コンピュータシステムの例示的な形態におけるマシン８００の概略図を示し、その中で、マシン８００に本明細書で議論される方法のいずれか１つ以上を実行させるための命令（例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリケーション、又は他の実行可能符号化）を実行することができる。例えば、命令８２４は、マシン８００に、図１、図２、図３、図４、及び図５に関して各々説明したフレームワーク１００、２００、３００、４００、及び５００を実行させ、図６及び図７に関して各々説明した方法６００、７００を実行させることができる。さらに、マシン９００は、図１の計算装置１４４及び／又は図５の計算装置５３０の１つ以上を含むか、又はその部分であってもよい。

［０１１２］命令８２４は、一般的な、プログラムされていないマシン８００を、説明され図示された関数を説明された方法で実行するようにプログラムされた特定のマシン８ｆ００に変換する。さらなる実施態様では、マシン８００は、スタンドアロン装置として動作するか、又は他のマシンに結合（例えば、ネットワーク化）されてもよい。ネットワーク化されたデプロイメントでは、マシン８００は、サーバ－クライアントネットワーク環境におけるサーバマシン又はクライアントマシンの容量で、又はピア－ツー－ピア（又は分散）ネットワーク環境におけるピアマシンとして動作することができる。マシン８００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、パーソナルデジタルアシスタント、モバイルコンピュータ、ウェアラブル装置、ウェブアプライアンス、ネットワークルータ、ネットワーク・スイッチ、ネットワークブリッジ、又はマシン８００が取るべき行動を指定する命令８２４を実行することができるいかなるマシンを含むことができるが、これらに限定されない。さらに、単一のマシン８００のみが示されているが、用語「マシン」はまた、本明細書で議論される方法のいずれか１つ以上を実行するために命令８２４を個別に又は共同で実行するマシン８００の集合を含むと解釈される。

［０１１３］計算装置８００の例は、論理、１つ以上のコンポーネント、回路（例えば、モジュール）、又はメカニズムを含むことができる。回路は、特定の動作を実行するように構成された有形の実体である。一実施態様では、回路は、特定の方法で（例えば、内部的に、又は他の回路等の外部実体に対して）配置されうる。一実施態様では、１つ以上のコンピュータシステム（例えば、スタンドアロン、クライアント又はサーバ・コンピュータシステム）又は１つ以上のハードウェアプロセッサ（プロセッサ）は、本明細書に記載される動作を実行するために動作する回路として、ソフトウェア（例えば、命令、アプリケーション部分、又はアプリケーション）によって構成することができる。ソフトウェアは、（１）非一時的コンピュータ読取可能格納媒体上に、又は（２）伝送信号中に存在することができる。一例では、ソフトウェアは、回路の基礎となるハードウェアによって実行されると、回路に動作を実行させる。

［０１１４］回路は、機械的又は電子的に実装することができる。例えば、回路は、特殊用途プロセッサ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むような、上記の１つ以上の技術を実行するように特別に構成された専用の回路又はロジックを含むことができる。一実施態様では、回路は、特定の動作を実行するために一時的に（例えば、ソフトウェアによって）構成することができるプログラマブル論理（例えば、汎用プロセッサ又は他のプログラマブルプロセッサ内に包含される回路）を含むことができる。回路を機械的に（例えば、専用及び永久的に構成された回路では）、又は一時的に構成された回路では（例えば、ソフトウェアによって構成された）実現する決定は、コスト及び時間の考慮によって駆動されうることが理解されよう。

［０１１５］つまり、用語「回路」というは、有形の実体を包含するものと理解される。すなわち、特定の方法で動作したり、特定の動作を実行したりするために、物理的に構築され、恒久的に構成され（例えば、ハードワイヤード）、又は一時的に（例えば、トランジトリーに）構成された（例えば、プログラムされた）実体である。一実施態様では、複数の一時的に構成された回路が与えられた場合、各回路は、時間内にいかなる１つのインスタンスにおいて構成又はインスタンス化される必要はない。例えば、回路がソフトウェアを介して構成された汎用プロセッサを含む場合、汎用プロセッサは、異なる時間にそれぞれの異なる回路として構成することができる。従って、ソフトウェアは、プロセッサを、例えば、異なる時間のインスタンスにおいて異なる回路を構成するように構成することができる。

［０１１６］一実施態様では、回路は、他の回路に情報を提供し、他の回路から情報を受信することができる。この例では、回路は、１つ以上の他の回路に通信的に結合されているとみなすことができる。このような回路の複数が同時に存在する場合、通信は、回路を接続する信号伝送（例えば、適切な回路及びバスを介して）によって達成することができる。複数の回路が異なる時間に構成又はインスタンス化される実施態様では、そのような回路間の通信は、例えば、複数の回路がアクセスするメモリ構造内の情報の格納及び検索によって達成されうる。例えば、１つの回路は、動作を実行し、その動作の出力を、それが通信的に結合されているメモリ装置に格納することができる。次いで、他の回路が、後に、格納された出力を取り出し、処理するために、メモリ装置にアクセスすることができる。様々な例では、回路は、入力装置又は出力装置との通信を開始又は受信するように構成することができ、リソース（例えば、情報の集合）上で動作することができる。

［０１１７］本明細書に記載される方法例の様々な操作は、少なくとも部分的に、一時的に（例えば、ソフトウェアによって）構成されるか、又は関連する操作を実行するように恒久的に構成される１つ以上のプロセッサによって実行することができる。このようなプロセッサは、一時的に構成されていても恒久的に構成されていても、１つ以上の操作又は関数を実行するように動作するプロセッサ実装回路を構成することができる。一実施態様では、本明細書で言及する回路は、プロセッサ実装回路を含むことができる。

［０１１８］同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサに実装することができる。例えば、方法の動作の少なくとも部分は、１つ以上のプロセッサ又はプロセッサが実装する回路によって実行することができる。特定の動作のパフォーマンスは、単一のマシン内に存在するだけでなく、多数のマシンにわたって配置される、１つ以上のプロセッサ間で分散することができる。一実施態様では、プロセッサ又はプロセッサは、単一の場所（例えば、家庭環境、オフィス環境、又はサーバファーム）に配置することができ、他の実施態様では、プロセッサは、多数の場所に分散することができる。

［０１１９］１つ以上のプロセッサは、「クラウドコンピューティング」環境又は「サービスとしてのソフトウェア」としての関連操作のパフォーマンスをサポートするように動作することもできる。例えば、操作の少なくとも部分は（プロセッサを含むマシンの例として）コンピュータの群によって実行することができ、当該操作は、ネットワーク（例えば、インターネット）及び１つ以上の適切なインタフェース（例えば、アプリケーションプログラムインタフェース（ＡＰＩ））を介してアクセス可能である。

［０１２０］例示的な実施態様（例えば、装置、システム、又は方法）は、デジタル電子回路、コンピュータ・ハードウェア、ファームウェア、ソフトウェア、又はそれらのいかなる組み合わせでも実施することができる。例示的な実施態様は、コンピュータプログラム製品（例えば、プログラマブルプロセッサ、コンピュータ、又は複数のコンピュータ等のデータ処理装置による実行のため、又はその動作を制御するために、情報キャリア又は機械読取可能媒体内に実体的に具現化されたコンピュータプログラム）を用いて実施することができる。

［０１２１］コンピュータプログラムは、コンパイル又は解釈された言語を含む、いかなる形態のプログラミング言語で書くことができ、また、独立型プログラムとして、又は、ソフトウェアモジュール、サブルーチン、又は、コンピュータ環境での使用に適した他のユニットとして、いかなる形態で展開することができる。コンピュータプログラムは、１つのコンピュータ上又は１つのサイトの複数のコンピュータ上で実行されるか、又は複数のサイトに分散され、通信ネットワークによって相互接続されるように配備することができる。

［０１２２］一実施態様では、演算は、入力データを操作し、出力を生成することによって関数を実行するために、コンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって実行することができる。また、方法動作の例は、特殊目的論理回路（例えば、フィールドプログラマブルゲートアレイ又は特定用途向け集積回路）によって実行することができ、装置の例は、特殊目的論理回路として実装することができる。

［０１２３］コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、一般に、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムのおかげで生じる。プログラマブル・コンピュータシステムを配備する実施態様では、ハードウェア及びソフトウェアアーキテクチャをともに考慮する必要があることが理解されるであろう。具体的には、恒久的に構成されたハードウェア（例えば、ＡＳＩＣ）、一時的に構成されたハードウェア（例えば、ソフトウェアとプログラマブルプロセッサの組み合わせ）、又は恒久的及び一時的に構成されたハードウェアの組み合わせでは、特定の機能性を実現するか否かの選択が、設計選択でありうることが理解されよう。以下に、ハードウェア（例えば、計算装置７００）及び例示的な実施態様で配備可能なソフトウェアアーキテクチャを示す。

［０１２４］例示的な計算装置８００は、プロセッサ８０２（例えば、中央処理装置ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）又はその両方）、メインメモリ８０４、及びスタティックメモリ８０６を含むことができ、当該部分又はすべては、バス８０８を介して互いに通信することができる。計算装置８００は、表示ユニット８１０、英数字入力装置８１２（例えば、キーボード）、及びユーザインターフェースナビゲーション装置８１４（例えば、マウス）をさらに含むことができる。一実施態様では、表示ユニット８１０、入力装置８１２、及びＵＩナビゲーション装置８１４は、タッチスクリーンディスプレイであってもよい。計算装置８００は、さらに、メモリ（例えば、駆動ユニット）８１６、信号発生装置８１８（例えば、スピーカ）、ネットワークインターフェース装置８２０、及び１つ以上のセンサ８２１（例えば、全地球測位システムセンサ、コンパス、加速度計、又は他のセンサ）を含むことができる。

［０１２５］メモリ８１６は、機械読取可能媒体８２２（本明細書ではコンピュータ読取可能媒体ともいう）を含むことができ、その上には、本明細書に記載される方法又は関数のうちのいかなる１つ以上によって具体化又は利用される、１つ以上のデータ構造又は命令（例えば、ソフトウェア）のセットが格納される。また、命令８２４は、コンピュータ装置８００による実行中に、メインメモリ８０４内、スタティックメモリ８０６内、又はプロセッサ８０２内に、完全に又は少なくとも部分的に存在することができる。一実施態様では、プロセッサ８０２、メインメモリ８０４、スタティックメモリ８０６、又はメモリ８１６の１つ又はいかなる組み合わせも、機械読取可能媒体を構成することができる。

［０１２６］機械読取可能媒体８２２は単一の媒体として示されているが、用語「機械読取可能媒体」は、１つ以上の命令８２４を格納するように構成された単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース、及び／又は関連するキャッシュ及びサーバ）を含むことができる。用語「機械読取可能媒体」はまた、マシンによる実行のための命令を格納し、符号化し、又は伝送することができ、マシンに本開示の方法のうちのいずれか１つ以上を実行させるか、又はそのような命令によって利用され、又は関連するデータ構造を格納し、符号化し、又は伝送することができるいかなる有形媒体を含むと解釈されうる。従って、用語「機械読取可能媒体」は、固体メモリ、光媒体及び磁気媒体を含むが、これらに限定されない。機械読取可能媒体の特定の例は、例えば、半導体メモリ装置（例えば、電気的にプログラマブルな読み出し専用メモリ）を含む不揮発性メモリを含むことができる。

［０１２７］ＥＰＲＯＭ、ＥｌｅｃｔｒｉｃａｌｌｙＥｒａａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ（ＥＥＰＲＯＭ）、フラッシュメモリ装置、内蔵ハードディスク、リムーバブルディスクなどの磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭディスク
［０１２８］命令８２４は、さらに、多数の転送プロトコル（例えば、フレームリレー、ＩＰ、ＴＣＰ、ＵＤＰ、ＨＴＴＰなど）のいずれか１つを用いて、ネットワークインターフェース装置８２０を介して伝送媒体を用いて、通信ネットワーク８２６を介して送信又は受信することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、パケットデータネットワーク（例えばインターネット）、移動電話ネットワーク（例えば、セルラネットワーク）、ＰｌａｉｎＯｌｄＴｅｌｅｐｈｏｎｅ（ＰＯＴＳ）ネットワーク、及び無線データネットワーク（例えば、Ｗｉ－Ｆｉ（登録商標）として知られるＩＥＥＥ８０２．１１標準ファミリ、ＷｉＭａｘ（登録商標）として知られるＩＥＥＥ８０２．１６標準ファミリ）、ピア・ツー・ピア（Ｐ２Ｐ）ネットワークが挙げられる。用語「伝送媒体」は、マシンによる実行のための命令を格納し、符号化し、又は伝送することができる無形の媒体を含み、当該ソフトウェアの通信を容易にするためのデジタル又はアナログ通信信号又は他の無形の媒体を含む。

［０１２９］［実施態様例］
実施態様１．１つ以上のプロセッサ及びメモリを有する１つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記鋳型タンパク質は、さらなる分子に結合するか又はさらなる分子に化学的に反応し；１つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること；前記コンピュータシステムによって、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること；前記コンピュータシステムによって、生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される、ことを含む方法。

［０１３０］実施態様２．複数の第三のアミノ酸配列の個々の第三のアミノ酸配列が、機能的領域に関して少なくとも閾値量が同一である１つ以上の領域を含む、実施態様１に記載の方法。

［０１３１］実施態様３．第一のアミノ酸配列が、第一の生殖細胞系遺伝子に関して産生される１つ以上の第一のアミノ酸の群を含み、複数の第三のアミノ酸配列が、第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子に関して産生される１つ以上の第二のアミノ酸の群を含む、実施態様１又は２に記載の方法。

［０１３２］実施態様４．前記１つ以上の第二のアミノ酸群が、前記第二のアミノ酸配列の少なくとも部分に含まれる、実施態様３に記載の方法。

［０１３３］実施態様５．前記１つ以上の特定の特徴は、１つ以上の生物物理的特徴の値を含む、実施態様１～４のいずれか１つに記載の方法。

［０１３４］実施態様６．前記鋳型タンパク質は、第一の抗体であり；前記さらなるタンパク質は、第２の抗体を含み；１つ以上の特定の特徴は、第二のアミノ酸配列の１つ以上のフレームワーク領域に含まれるアミノ酸の１つ以上の配列を含む、実施態様１～５のいずれか１つに記載の方法。

［０１３５］実施態様７．前記鋳型タンパク質はヒトではない哺乳動物によって産生され、前記さらなるタンパク質はヒトによって産生されるタンパク質に対応する、実施態様１～６のいずれか１つに記載の方法。

［０１３６］実施態様８．前記コンピュータシステムによって、前記生成対抗ネットワーク用いて、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて、前記生成対抗ネットワークを用いる第一のモデルを訓練すること；前記コンピュータシステムによって、一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す第三のデータを取得すること；前記コンピュータシステムによって、前記第一のモデルを、前記生成対抗ネットワークの生成コンポーネントとして用いること；前記第三のデータに基づいて第二のモデルを訓練すること；前記コンピュータシステムによって、前記第二のモデルを用いて、前記鋳型タンパク質の変異体であり、前記一連の生物物理的特徴のうちの１つ以上の生物物理的特徴を備える少なくとも閾値の確率があるタンパク質に対応する複数の第四のアミノ酸配列を生成すること、を含む、実施態様１～７のいずれか１つに記載の方法。

［０１３７］実施態様９．１つ以上のプロセッサ及びメモリを有する１つ以上の計算装置を含むコンピュータシステムによって、ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり；前記コンピュータシステムにより、ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の第二のアミノ酸配列を示す第二のデータを取得すること；前記コンピュータシステムにより、第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること；前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、複数の第２の結合領域に関する第一の閾値量が同一であり、及び１つ以上の重鎖フレームワーク領域及び１つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること；並びに、前記コンピュータシステムによって、かつ、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること；
を含む、方法
［０１３８］実施態様１０．位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約５％以下であり、抗体の１つ以上の重鎖フレームワーク領域又は１つ以上の軽鎖フレームワーク領域の少なくとも１つの部分の１つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも４０％であることを示す、実施態様９に記載の方法。

［０１３９］実施態様１１．位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、実施態様９又は１０に記載の方法。

［０１４０］実施態様１２．位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、実施方法１１。

［０１４１］実施態様１３．アミノ酸には１つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、実施態様１２に記載の方法。

［０１４２］実施態様１４．１つ以上のハードウェアプロセッサと、前記１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：
鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又はさらなる分子と化学的に反応する機能的領域を含み；１つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得し、かつ、第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること；生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり；ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される；を含む、動作を実行させる命令を格納する、１つ以上の非一時的コンピュータ読取可能格納媒体、を含む、システム。

［０１４３］実施態様１５．複数の第三のアミノ酸配列の個々の第三のアミノ酸配列が、前記機能的領域に関して少なくとも閾値量が同一である、１つ以上の領域を含む、実施態様１４に記載のシステム。

［０１４４］実施態様１６．第一のアミノ酸配列は、第一の生殖細胞系遺伝子から産生されるアミノ酸の１つ以上の第一の群を含み、複数の第三のアミノ酸配列は、前記第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子から産生されるアミノ酸の１つ以上の第二の群を含む、実施態様１４又は１５に記載のシステム。

［０１４５］実施態様１７．１つ以上の第二のアミノ酸群が、前記第二のアミノ酸配列の少なくとも部分に含まれる、実施態様１６に記載のシステム。

［０１４６］実施態様１８．１つ以上の特定の特徴は、１つ以上の生物物理的特徴の値を含む、実施態様１４～１７のいずれか１つに記載のシステム。

［０１４７］実施態様１９．鋳型タンパク質が第一の抗体であり；
さらなるタンパク質には二次抗体が含まれ；かつ、
１つ以上の特定の特徴は、第二のアミノ酸配列の１つ以上のフレームワーク領域に含まれる１つ以上のアミノ酸配列を含む、実施態様１４～１８のいずれか１つに記載のシステム。

［０１４８］実施態様２０．鋳型タンパク質は、ヒトではない哺乳動物によって産生され、前記さらなるタンパク質が、ヒトによって産生されるタンパク質に対応する、実施態様１４～１９のいずれか１つに記載のシステム。

［０１４９］実施態様２１：１つ以上の非一時的コンピュータ読取可能格納媒体が、前記１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：
生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること；
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータをコンピュータシステムによって取得すること；
前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること；かつ、
前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の１つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること；
を含む、さらなる動作を実行する、実施態様１４～２０のいずれか１つに記載のシステム。

［０１５０］実施態様２２．１つ以上のハードウェアプロセッサと、１つ以上の非一時的コンピュータ読取可能格納媒体であって、前記１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり；ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の第二のアミノ酸配列を示す第二のデータを取得すること；第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること；生成対抗ネットワークを用いて、複数の第二のアミノ酸配列の結合領域に関する第一の閾値量が同一であり、及び１つ以上の重鎖フレームワーク領域及び１つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること；並びに、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること；を含む、システム。

［０１５１］実施態様２３．位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約５％以下であり、抗体の１つ以上の重鎖フレームワーク領域又は１つ以上の軽鎖フレームワーク領域の少なくとも１つの部分の１つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも４０％であることを示す、実施態様２２に記載のシステム。

［０１５２］実施態様２４．位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、実施態様２２又は２３に記載のシステム。

［０１５３］実施態様２５．位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、実施態様システム２４。

［０１５４］実施態様２６．アミノ酸には１つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、実施態様２５に記載のシステム。

Claims

以下の：
１つ以上のハードウェアプロセッサ、かつ
１つ以上の非一時的コンピュータ読取可能格納媒体であって、前記１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：
ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり、
ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること；
前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること；
生成対抗ネットワークを用いて、前記結合領域に関する第一の閾値量が同一であり、及び複数の前記第二のアミノ酸配列の１つ以上の重鎖フレームワーク領域及び１つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること；並びに、
前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること；
を含む動作を実行させる命令を格納する、１つ以上の非一時的コンピュータ読取可能格納媒体、
を含む、システム。
位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約５％以下であり、抗体の１つ以上の重鎖フレームワーク領域又は１つ以上の軽鎖フレームワーク領域の少なくとも１つの部分の１つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも４０％であることを示す、請求項１に記載のシステム。
位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項１又は２に記載のシステム。
位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項３に記載のシステム。
アミノ酸には１つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項４に記載のシステム。
１つ以上の非一時的コンピュータ読取可能格納媒体は、１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：
モデルを作成するための訓練プロセスの実行であって、前記モデルは以下の：
生成対抗ネットワークの生成コンポーネントにより、鋳型タンパク質のアミノ酸配列及び位置修飾データを用いて第一のアミノ酸配列を作成すること；
生成対抗ネットワークのチャレンジングなコンポーネントにより、標的タンパク質のアミノ酸配列に関する前記第一のアミノ酸配列を分析し、前記生成コンポーネントに提供される分類出力を決定することであって、分類入力は、各前記第一のアミノ酸配列と各第二のアミノ酸配列との間の差の量を示し；かつ、
各前記第一のアミノ酸配列と各前記第二のアミノ酸配列との間の差が最小となる量に基づいて、前記モデルのパラメータ又は係数の少なくとも１つを決定すること；
を含むさらなる動作を実行させる、さらなる命令を格納する、請求項１に記載のシステム。
１つ以上の非一時的コンピュータ読取可能格納媒体は、１つ以上のハードウェアプロセッサによって実行されると、前記１つ以上のハードウェアプロセッサに以下の：
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、さらなるデータを取得すること；かつ、
生成対抗ネットワークのさらなる生成コンポーネントとしてのモデルを用いる、以下の：
入力データを用いて、前記さらなる生成コンポーネントにより第三のアミノ酸配列を生成すること；
生成対抗ネットワークのさらなるチャレンジングなコンポーネントによって、前記さらなる生成コンポーネントに提供されるさらなる分類出力を決定するために、前記さらなるアミノ酸配列に関する前記第三のアミノ酸配列を分析することであって、ここで、さらなる分類入力は、前記第三のアミノ酸配列各々と各前記さらなるアミノ酸配列との間の差の量を示し；
各前記第三のアミノ酸配列と各前記さらなるアミノ酸配列との間の差が最小となる量に基づいて、さらなるモデルのパラメータ又は係数の少なくとも１つを決定すること；
を含む、前記さらなるモデルのさらなる訓練プロセスを実行すること：
を含むさらなる動作を実行させる、さらなる命令を格納する、請求項６に記載のシステム。
以下の：
１つ以上のプロセッサ及びメモリを備える１つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又は前記さらなる分子と化学的に反応する機能的領域を含み；
前記コンピュータシステムにより、１つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること；
前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること；並びに、
前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、ここで、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される；
を含む、方法。
複数の第三のアミノ酸配列の個々の前記第三のアミノ酸配列が、機能的領域に関して少なくとも閾値量が同一である、１つ以上の領域を含む、請求項８に記載の方法。
第一のアミノ酸配列は、第一の生殖細胞系遺伝子から産生されるアミノ酸の１つ以上の第一の群を含み、複数の第三のアミノ酸配列は、前記第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子から産生されるアミノ酸の１つ以上の第二の群を含む、請求項８又は９に記載の方法。
１つ以上の第二のアミノ酸群が、第二のアミノ酸配列の少なくとも部分に含まれる、請求項１０に記載の方法。
１つ以上の特定の特徴は、１つ以上の生物物理的特徴の値を含む、請求項８に記載の方法。
鋳型タンパク質が第一の抗体であり；
さらなるタンパク質には二次抗体が含まれ；かつ、
１つ以上の特定の特徴は、第二のアミノ酸配列の１つ以上のフレームワーク領域に含まれる１つ以上のアミノ酸配列を含む、
請求項８に記載の方法。
鋳型タンパク質は、ヒトではない哺乳動物によって産生され、さらなるタンパク質が、ヒトによって産生されるタンパク質に対応する、請求項８に記載の方法。
以下の：
生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること；
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータを前記コンピュータシステムによって取得すること；
前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること；かつ、
前記コンピュータシステムにより、前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の１つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること；
を含む、請求項８記載の方法。
以下の：
１つ以上のプロセッサ及びメモリを有する１つ以上のコンピュータ装置を含むコンピュータシステムによって、ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり；
前記コンピュータシステムにより、ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること；
前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること；
前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、複数の前記第二のアミノ酸配列の前記結合領域に関する第一の閾値量が同一であり、及び１つ以上の重鎖フレームワーク領域及び１つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること；並びに、
前記コンピュータシステムによって、かつ、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること；
を含む、方法。
位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約５％以下であり、抗体の１つ以上の重鎖フレームワーク領域又は１つ以上の軽鎖フレームワーク領域の少なくとも１つの部分の１つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも４０％であることを示す、請求項１６に記載の方法。
位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項１６又は１７記載の方法。
位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項１８に記載の方法。
アミノ酸には１つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項１９に記載の方法。