JP2023505859A - 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 - Google Patents
鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 Download PDFInfo
- Publication number
- JP2023505859A JP2023505859A JP2022535430A JP2022535430A JP2023505859A JP 2023505859 A JP2023505859 A JP 2023505859A JP 2022535430 A JP2022535430 A JP 2022535430A JP 2022535430 A JP2022535430 A JP 2022535430A JP 2023505859 A JP2023505859 A JP 2023505859A
- Authority
- JP
- Japan
- Prior art keywords
- amino acid
- protein
- acid sequence
- acid sequences
- antibody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 647
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 622
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000010801 machine learning Methods 0.000 title abstract description 62
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 380
- 230000004048 modification Effects 0.000 claims abstract description 122
- 238000012986 modification Methods 0.000 claims abstract description 122
- 239000000427 antigen Substances 0.000 claims abstract description 66
- 108091007433 antigens Proteins 0.000 claims abstract description 66
- 102000036639 antigens Human genes 0.000 claims abstract description 66
- 150000001413 amino acids Chemical class 0.000 claims description 262
- 238000012549 training Methods 0.000 claims description 46
- 210000004602 germ cell Anatomy 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 22
- 230000002209 hydrophobic effect Effects 0.000 claims description 21
- 238000004519 manufacturing process Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 241000282412 Homo Species 0.000 claims description 10
- 241000124008 Mammalia Species 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 4
- 125000000539 amino acid group Chemical group 0.000 claims description 3
- 235000018102 proteins Nutrition 0.000 description 448
- 235000001014 amino acid Nutrition 0.000 description 236
- 229940024606 amino acid Drugs 0.000 description 236
- 230000006870 function Effects 0.000 description 49
- 239000012634 fragment Substances 0.000 description 27
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 18
- 238000007781 pre-processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 241001529936 Murinae Species 0.000 description 9
- 108091008874 T cell receptors Proteins 0.000 description 9
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 9
- 241000699666 Mus <mouse, genus> Species 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 235000008521 threonine Nutrition 0.000 description 7
- 108091026890 Coding region Proteins 0.000 description 6
- 102000002090 Fibronectin type III Human genes 0.000 description 6
- 108050009401 Fibronectin type III Proteins 0.000 description 6
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 6
- 239000004473 Threonine Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 5
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 5
- 238000003491 array Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 235000014304 histidine Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 241000699670 Mus sp. Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 4
- 125000000487 histidyl group Chemical group [H]N([H])C(C(=O)O*)C([H])([H])C1=C([H])N([H])C([H])=N1 0.000 description 4
- 230000008685 targeting Effects 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 102000001253 Protein Kinase Human genes 0.000 description 3
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 108060006633 protein kinase Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000032258 transport Effects 0.000 description 3
- 229910052725 zinc Inorganic materials 0.000 description 3
- 239000011701 zinc Substances 0.000 description 3
- 241000283073 Equus caballus Species 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 2
- 108090000144 Human Proteins Proteins 0.000 description 2
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 2
- 238000005411 Van der Waals force Methods 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009881 electrostatic interaction Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 229930182817 methionine Natural products 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- 230000004850 protein–protein interaction Effects 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 102000014914 Carrier Proteins Human genes 0.000 description 1
- 108700022150 Designed Ankyrin Repeat Proteins Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 101000677856 Stenotrophomonas maltophilia (strain K279a) Actin-binding protein Smlt3054 Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 125000000613 asparagine group Chemical group N[C@@H](CC(N)=O)C(=O)* 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 125000001360 methionine group Chemical group N[C@@H](CCSC)C(=O)* 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 125000003607 serino group Chemical group [H]N([H])[C@]([H])(C(=O)[*])C(O[H])([H])[H] 0.000 description 1
- 108091006024 signal transducing proteins Proteins 0.000 description 1
- 102000034285 signal transducing proteins Human genes 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 150000003588 threonines Chemical class 0.000 description 1
- 125000000341 threoninyl group Chemical group [H]OC([H])(C([H])([H])[H])C([H])(N([H])[H])C(*)=O 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
[0128]命令824は、さらに、多数の転送プロトコル(例えば、フレームリレー、IP、TCP、UDP、HTTPなど)のいずれか1つを用いて、ネットワークインターフェース装置820を介して伝送媒体を用いて、通信ネットワーク826を介して送信又は受信することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、パケットデータネットワーク(例えばインターネット)、移動電話ネットワーク(例えば、セルラネットワーク)、Plain Old Telephone(POTS)ネットワーク、及び無線データネットワーク(例えば、Wi-Fi(登録商標)として知られるIEEE 802.11標準ファミリ、WiMax(登録商標)として知られるIEEE 802.16標準ファミリ)、ピア・ツー・ピア(P2P)ネットワークが挙げられる。用語「伝送媒体」は、マシンによる実行のための命令を格納し、符号化し、又は伝送することができる無形の媒体を含み、当該ソフトウェアの通信を容易にするためのデジタル又はアナログ通信信号又は他の無形の媒体を含む。
実施態様1.1つ以上のプロセッサ及びメモリを有する1つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記鋳型タンパク質は、さらなる分子に結合するか又はさらなる分子に化学的に反応し;1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること;前記コンピュータシステムによって、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;前記コンピュータシステムによって、生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される、ことを含む方法。
を含む、方法
[0138]実施態様10.位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、実施態様9に記載の方法。
鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又はさらなる分子と化学的に反応する機能的領域を含み;1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得し、かつ、第一のアミノ酸配列の個々の位置について、第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを取得すること;生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり;ここで、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される;を含む、動作を実行させる命令を格納する、1つ以上の非一時的コンピュータ読取可能格納媒体、を含む、システム。
さらなるタンパク質には二次抗体が含まれ;かつ、
1つ以上の特定の特徴は、第二のアミノ酸配列の1つ以上のフレームワーク領域に含まれる1つ以上のアミノ酸配列を含む、実施態様14~18のいずれか1つに記載のシステム。
生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること;
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータをコンピュータシステムによって取得すること;
前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること;かつ、
前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の1つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること;
を含む、さらなる動作を実行する、実施態様14~20のいずれか1つに記載のシステム。
Claims (20)
- 以下の:
1つ以上のハードウェアプロセッサ、かつ
1つ以上の非一時的コンピュータ読取可能格納媒体であって、前記1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり、
ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること;
前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;
生成対抗ネットワークを用いて、前記結合領域に関する第一の閾値量が同一であり、及び複数の前記第二のアミノ酸配列の1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、
前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;
を含む動作を実行させる命令を格納する、1つ以上の非一時的コンピュータ読取可能格納媒体、
を含む、システム。 - 位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、請求項1に記載のシステム。
- 位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項1又は2に記載のシステム。
- 位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項3に記載のシステム。
- アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項4に記載のシステム。
- 1つ以上の非一時的コンピュータ読取可能格納媒体は、1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
モデルを作成するための訓練プロセスの実行であって、前記モデルは以下の:
生成対抗ネットワークの生成コンポーネントにより、鋳型タンパク質のアミノ酸配列及び位置修飾データを用いて第一のアミノ酸配列を作成すること;
生成対抗ネットワークのチャレンジングなコンポーネントにより、標的タンパク質のアミノ酸配列に関する前記第一のアミノ酸配列を分析し、前記生成コンポーネントに提供される分類出力を決定することであって、分類入力は、各前記第一のアミノ酸配列と各第二のアミノ酸配列との間の差の量を示し;かつ、
各前記第一のアミノ酸配列と各前記第二のアミノ酸配列との間の差が最小となる量に基づいて、前記モデルのパラメータ又は係数の少なくとも1つを決定すること;
を含むさらなる動作を実行させる、さらなる命令を格納する、請求項1に記載のシステム。 - 1つ以上の非一時的コンピュータ読取可能格納媒体は、1つ以上のハードウェアプロセッサによって実行されると、前記1つ以上のハードウェアプロセッサに以下の:
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、さらなるデータを取得すること;かつ、
生成対抗ネットワークのさらなる生成コンポーネントとしてのモデルを用いる、以下の:
入力データを用いて、前記さらなる生成コンポーネントにより第三のアミノ酸配列を生成すること;
生成対抗ネットワークのさらなるチャレンジングなコンポーネントによって、前記さらなる生成コンポーネントに提供されるさらなる分類出力を決定するために、前記さらなるアミノ酸配列に関する前記第三のアミノ酸配列を分析することであって、ここで、さらなる分類入力は、前記第三のアミノ酸配列各々と各前記さらなるアミノ酸配列との間の差の量を示し;
各前記第三のアミノ酸配列と各前記さらなるアミノ酸配列との間の差が最小となる量に基づいて、さらなるモデルのパラメータ又は係数の少なくとも1つを決定すること;
を含む、前記さらなるモデルのさらなる訓練プロセスを実行すること:
を含むさらなる動作を実行させる、さらなる命令を格納する、請求項6に記載のシステム。 - 以下の:
1つ以上のプロセッサ及びメモリを備える1つ以上の計算装置を含むコンピュータシステムによって、鋳型タンパク質の第一のアミノ酸配列を示す第一のデータを取得することであって、前記鋳型タンパク質は、さらなる分子に結合するか、又は前記さらなる分子と化学的に反応する機能的領域を含み;
前記コンピュータシステムにより、1つ以上の特定の特徴を備えるさらなるタンパク質に対応する第二のアミノ酸配列を示す第二のデータを取得すること;
前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;並びに、
前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、前記さらなるタンパク質に対応する複数の第三のアミノ酸配列を生成することであって、ここで、前記複数の第三のアミノ酸配列は、前記鋳型タンパク質の前記第一のアミノ酸配列の変異体であり、前記複数の第三のアミノ酸配列は、前記第一のデータ、前記第二のデータ、及び前記位置修飾データに基づいて生成される;
を含む、方法。 - 複数の第三のアミノ酸配列の個々の前記第三のアミノ酸配列が、機能的領域に関して少なくとも閾値量が同一である、1つ以上の領域を含む、請求項8に記載の方法。
- 第一のアミノ酸配列は、第一の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第一の群を含み、複数の第三のアミノ酸配列は、前記第一の生殖細胞系遺伝子とは異なる第二の生殖細胞系遺伝子から産生されるアミノ酸の1つ以上の第二の群を含む、請求項8又は9に記載の方法。
- 1つ以上の第二のアミノ酸群が、第二のアミノ酸配列の少なくとも部分に含まれる、請求項10に記載の方法。
- 1つ以上の特定の特徴は、1つ以上の生物物理的特徴の値を含む、請求項8に記載の方法。
- 鋳型タンパク質が第一の抗体であり;
さらなるタンパク質には二次抗体が含まれ;かつ、
1つ以上の特定の特徴は、第二のアミノ酸配列の1つ以上のフレームワーク領域に含まれる1つ以上のアミノ酸配列を含む、
請求項8に記載の方法。 - 鋳型タンパク質は、ヒトではない哺乳動物によって産生され、さらなるタンパク質が、ヒトによって産生されるタンパク質に対応する、請求項8に記載の方法。
- 以下の:
生成対抗ネットワークを用いる第一のモデルのコンピュータシステムにより、第一のデータ、第二のデータ、及び位置修飾データに基づいて、訓練をすること;
一連の生物物理的特徴を備えるタンパク質のさらなるアミノ酸配列を示す、第三のデータを前記コンピュータシステムによって取得すること;
前記コンピュータシステムにより、前記第一のモデルを前記生成対抗ネットワークの生成コンポーネントとして用いて、前記第三のデータに基づく第二のモデルを訓練すること;かつ、
前記コンピュータシステムにより、前記第二のモデルを用いて、鋳型タンパク質の変異体であり、前記一連の生物物理的特徴の1つ以上の生物物理的特徴を備える閾値の確率を少なくとも備えるタンパク質に対応する複数の第四のアミノ酸配列を生成すること;
を含む、請求項8記載の方法。 - 以下の:
1つ以上のプロセッサ及びメモリを有する1つ以上のコンピュータ装置を含むコンピュータシステムによって、ヒトとは異なる哺乳動物によって産生された抗体の第一のアミノ酸配列を示す第一のデータを取得することであって、ここで、前記抗体には抗原に結合する結合領域があり;
前記コンピュータシステムにより、ヒト抗体に対応する複数のアミノ酸配列の個々の第二のアミノ酸配列を有する複数の前記第二のアミノ酸配列を示す第二のデータを取得すること;
前記コンピュータシステムにより、前記第一のアミノ酸配列の個々の位置について、前記第一のアミノ酸配列の個々の位置に位置するアミノ酸が修飾されうる確率を示す位置修飾データを決定すること;
前記コンピュータシステムにより、かつ生成対抗ネットワークを用いて、複数の前記第二のアミノ酸配列の前記結合領域に関する第一の閾値量が同一であり、及び1つ以上の重鎖フレームワーク領域及び1つ以上の軽鎖フレームワーク領域に関する少なくとも第二の閾値量が同一である、アミノ酸配列を生成するモデルを生成すること;並びに、
前記コンピュータシステムによって、かつ、前記モデルを用いて、前記位置修飾データ及び前記第一のアミノ酸配列に基づく複数の第三のアミノ酸配列を生成すること;
を含む、方法。 - 位置修飾データは、結合領域に位置するアミノ酸を修飾する第一の確率が約5%以下であり、抗体の1つ以上の重鎖フレームワーク領域又は1つ以上の軽鎖フレームワーク領域の少なくとも1つの部分の1つ以上の部分に位置するアミノ酸を修飾する第二の確率が少なくとも40%であることを示す、請求項16に記載の方法。
- 位置修飾データは、複数の第三のアミノ酸配列を生成することに関して、抗体のアミノ酸の修飾に適用するペナルティを示す、請求項16又は17記載の方法。
- 位置修飾データは、抗体の第一のアミノ酸配列の第一の位置に位置するアミノ酸には、第一の種類のアミノ酸に変更されるための第一のペナルティがあり、第二の種類のアミノ酸に変更されるための第二のペナルティがあることを示す、請求項18に記載の方法。
- アミノ酸には1つ以上の疎水性領域があり、第一の種類のアミノ酸が疎水性アミノ酸に対応し、第二の種類のアミノ酸が正に荷電したアミノ酸に対応する、請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962947430P | 2019-12-12 | 2019-12-12 | |
US62/947,430 | 2019-12-12 | ||
PCT/US2020/064579 WO2021119472A1 (en) | 2019-12-12 | 2020-12-11 | Generating protein sequences using machine learning techniques based on template protein sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023505859A true JP2023505859A (ja) | 2023-02-13 |
JP7419534B2 JP7419534B2 (ja) | 2024-01-22 |
Family
ID=76330599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022535430A Active JP7419534B2 (ja) | 2019-12-12 | 2020-12-11 | 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230005567A1 (ja) |
EP (1) | EP4073806A4 (ja) |
JP (1) | JP7419534B2 (ja) |
KR (1) | KR20220128353A (ja) |
CN (1) | CN115280417A (ja) |
AU (1) | AU2020403134B2 (ja) |
CA (1) | CA3161035A1 (ja) |
WO (1) | WO2021119472A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023164297A1 (en) * | 2022-02-28 | 2023-08-31 | Genentech, Inc. | Protein design with segment preservation |
CN115512763B (zh) * | 2022-09-06 | 2023-10-24 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
WO2024076641A1 (en) * | 2022-10-06 | 2024-04-11 | Just-Evotec Biologics, Inc. | Machine learning architecture to generate protein sequences |
CN117174177A (zh) * | 2023-06-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 蛋白质序列生成模型的训练方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526053A (ja) * | 2014-07-07 | 2017-09-07 | イェダ リサーチ アンド ディベロップメント カンパニー リミテッドYeda Research And Development Co.Ltd. | コンピュータ計算によるタンパク質設計方法 |
US20190259474A1 (en) * | 2018-02-17 | 2019-08-22 | Regeneron Pharmaceuticals, Inc. | Gan-cnn for mhc peptide binding prediction |
WO2019165411A1 (en) * | 2018-02-26 | 2019-08-29 | Just Biotherapeutics, Inc. | Determining impact on properties of proteins based on amino acid sequence modifications |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020236839A2 (en) * | 2019-05-19 | 2020-11-26 | Just Biotherapeutics, Inc. | Generation of protein sequences using machine learning techniques |
-
2020
- 2020-12-11 KR KR1020227023879A patent/KR20220128353A/ko unknown
- 2020-12-11 AU AU2020403134A patent/AU2020403134B2/en active Active
- 2020-12-11 CA CA3161035A patent/CA3161035A1/en active Pending
- 2020-12-11 WO PCT/US2020/064579 patent/WO2021119472A1/en unknown
- 2020-12-11 EP EP20899889.8A patent/EP4073806A4/en active Pending
- 2020-12-11 JP JP2022535430A patent/JP7419534B2/ja active Active
- 2020-12-11 CN CN202080085809.2A patent/CN115280417A/zh active Pending
- 2020-12-11 US US17/784,576 patent/US20230005567A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526053A (ja) * | 2014-07-07 | 2017-09-07 | イェダ リサーチ アンド ディベロップメント カンパニー リミテッドYeda Research And Development Co.Ltd. | コンピュータ計算によるタンパク質設計方法 |
US20190259474A1 (en) * | 2018-02-17 | 2019-08-22 | Regeneron Pharmaceuticals, Inc. | Gan-cnn for mhc peptide binding prediction |
WO2019165411A1 (en) * | 2018-02-26 | 2019-08-29 | Just Biotherapeutics, Inc. | Determining impact on properties of proteins based on amino acid sequence modifications |
Also Published As
Publication number | Publication date |
---|---|
EP4073806A4 (en) | 2023-01-18 |
CA3161035A1 (en) | 2021-06-17 |
EP4073806A1 (en) | 2022-10-19 |
AU2020403134A1 (en) | 2022-06-30 |
WO2021119472A1 (en) | 2021-06-17 |
US20230005567A1 (en) | 2023-01-05 |
AU2020403134B2 (en) | 2024-01-04 |
KR20220128353A (ko) | 2022-09-20 |
CN115280417A (zh) | 2022-11-01 |
JP7419534B2 (ja) | 2024-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7419534B2 (ja) | 鋳型タンパク質配列に基づく機械学習技術を用いたタンパク質配列の生成 | |
Prihoda et al. | BioPhi: A platform for antibody design, humanization, and humanness evaluation based on natural antibody repertoires and deep learning | |
Hiranuma et al. | Improved protein structure refinement guided by deep learning based accuracy estimation | |
Mason et al. | Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning | |
Shen et al. | Identification of helix capping and β-turn motifs from NMR chemical shifts | |
Kim et al. | Computational and artificial intelligence-based methods for antibody development | |
EP3568782A1 (en) | Machine learning based antibody design | |
Jain et al. | Prediction of delayed retention of antibodies in hydrophobic interaction chromatography from sequence using machine learning | |
CA3132189A1 (en) | Systems and methods to classify antibodies | |
EP3982369A1 (en) | Information processing system, information processing method, program, and method for producing antigen-binding molecule or protein | |
KR20230098219A (ko) | 생물치료제 개발 방법 및 시스템 | |
US11948664B2 (en) | Autoencoder with generative adversarial network to generate protein sequences | |
Vangone et al. | Structural basis for the recognition in an idiotype-anti-idiotype antibody complex related to celiac disease | |
Kim et al. | Leveraging Artificial Intelligence to Expedite Antibody Design and Enhance Antibody–Antigen Interactions | |
WO2023034865A2 (en) | Residual artificial neural network to generate protein sequences | |
US20230253067A1 (en) | Implementing a generative machine learning architecture to produce training data for a classification model | |
Schneider | Deep learning algorithms for predicting association between antibody sequence, structure, and antibody properties | |
Fu et al. | Collective Variable-Based Enhanced Sampling: From Human Learning to Machine Learning | |
Bashour et al. | Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability | |
Karim et al. | Quantitative toxicity prediction via ensembling of heterogeneous predictors | |
WO2024088381A1 (zh) | 人源化抗体序列评估模型的构建方法及其应用 | |
WO2024076641A1 (en) | Machine learning architecture to generate protein sequences | |
Xiang et al. | Integrative proteomics reveals exceptional diversity and versatility of mammalian humoral immunity | |
CA3236868A1 (en) | Systems and methods for intelligent construction of antibody libraries | |
Im | Learning the Language of Antibody Hypervariability Through Biological Property Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7419534 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |