JP7482782B2 - 配列に基づくタンパク質の構造と特性の決定 - Google Patents
配列に基づくタンパク質の構造と特性の決定 Download PDFInfo
- Publication number
- JP7482782B2 JP7482782B2 JP2020544750A JP2020544750A JP7482782B2 JP 7482782 B2 JP7482782 B2 JP 7482782B2 JP 2020544750 A JP2020544750 A JP 2020544750A JP 2020544750 A JP2020544750 A JP 2020544750A JP 7482782 B2 JP7482782 B2 JP 7482782B2
- Authority
- JP
- Japan
- Prior art keywords
- protein
- proteins
- structural features
- model
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims description 812
- 108090000623 proteins and genes Proteins 0.000 title claims description 812
- 238000012549 training Methods 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 76
- 238000012360 testing method Methods 0.000 claims description 51
- 230000002209 hydrophobic effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000005094 computer simulation Methods 0.000 claims 44
- 125000003275 alpha amino acid group Chemical group 0.000 claims 16
- 235000018102 proteins Nutrition 0.000 description 736
- 150000001413 amino acids Chemical class 0.000 description 188
- 235000001014 amino acid Nutrition 0.000 description 92
- 229940024606 amino acid Drugs 0.000 description 89
- 238000004458 analytical method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 230000035772 mutation Effects 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 5
- 238000003556 assay Methods 0.000 description 4
- 238000000734 protein sequencing Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Chemical group OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 2
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical group OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical group CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Chemical group CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 230000002378 acidificating effect Effects 0.000 description 2
- 238000012801 analytical assay Methods 0.000 description 2
- -1 aromatic amino acid Chemical class 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 235000009582 asparagine Nutrition 0.000 description 2
- 229960001230 asparagine Drugs 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000003398 denaturant Substances 0.000 description 2
- 238000002022 differential scanning fluorescence spectroscopy Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 238000001542 size-exclusion chromatography Methods 0.000 description 2
- 239000004474 valine Chemical group 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical group OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- FDKWRPBBCBCIGA-REOHCLBHSA-N (2r)-2-azaniumyl-3-$l^{1}-selanylpropanoate Chemical group [Se]C[C@H](N)C(O)=O FDKWRPBBCBCIGA-REOHCLBHSA-N 0.000 description 1
- 239000004475 Arginine Chemical group 0.000 description 1
- FDKWRPBBCBCIGA-UWTATZPHSA-N D-Selenocysteine Chemical group [Se]C[C@@H](N)C(O)=O FDKWRPBBCBCIGA-UWTATZPHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Chemical group OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Natural products NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical group SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical group OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical group C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical group NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical group OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical group OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical group OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical group OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical group CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical group NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical group CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical group OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical group C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical group C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical group OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Chemical group NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Chemical group 0.000 description 1
- 102000008300 Mutant Proteins Human genes 0.000 description 1
- 108010021466 Mutant Proteins Proteins 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Chemical group OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 238000001069 Raman spectroscopy Methods 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Chemical group OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Chemical group CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Chemical group 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Chemical group C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 238000012863 analytical testing Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Chemical group OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Chemical group OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000005754 cellular signaling Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Chemical group SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Chemical group 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Chemical group OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 235000004554 glutamine Nutrition 0.000 description 1
- 125000003630 glycyl group Chemical group [H]N([H])C([H])([H])C(*)=O 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Chemical group OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 125000001165 hydrophobic group Chemical group 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Chemical group CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 125000001909 leucine group Chemical group [H]N(*)C(C(*)=O)C([H])([H])C(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229930182817 methionine Chemical group 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Chemical group OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 235000013930 proline Nutrition 0.000 description 1
- 238000012514 protein characterization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- ZKZBPNGNEQAJSX-UHFFFAOYSA-N selenocysteine Chemical group [SeH]CC(N)C(O)=O ZKZBPNGNEQAJSX-UHFFFAOYSA-N 0.000 description 1
- 235000016491 selenocysteine Nutrition 0.000 description 1
- 229940055619 selenocysteine Drugs 0.000 description 1
- 235000004400 serine Nutrition 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Chemical group OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 235000002374 tyrosine Nutrition 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
(1)以下の:タンパク質のアミノ酸配列に少なくとも部分的に基づく、前記タンパク質の少なくとも1つの構造的特徴を決定する第1モデルを作成する工程;前記タンパク質の少なくとも1つの構造的特徴に少なくとも部分的に基づく、前記タンパク質の少なくとも1つの生物物理的特性を決定する第2モデルを生成する工程;タンパク質のアミノ酸配列を取得する工程;前記タンパク質のアミノ酸配列に少なくとも部分的に基づき、かつ前記第1モデルを利用して、前記タンパク質の1の構造的特徴を決定する工程;前記タンパク質の少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第2モデルを利用して、前記タンパク質の生物物理的特性の値を決定する工程;
を含む方法。
Claims (14)
- 以下の:
1つ以上の計算装置により、多数のタンパク質の複数の生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の複数の構造的特徴を示す第2データを取得する工程;
前記1つ以上の計算装置により、前記第1データを解析して、複数の生物物理的特性のうちの第1の生物物理的特性に影響を及ぼす1以上の第1の構造的特徴及び前記複数の生物物理的特性のうちの第2の生物物理的特性に影響を及ぼす1以上の第2の構造的特徴を決定する工程であって、前記1以上の第2の構造的特徴のうち、少なくとも1つの第2の構造的特徴は、前記1以上の第1の構造的特徴のうち、少なくとも1つの第1の構造的特徴とは異なり、
前記1つ以上の計算装置により、前記複数の構造的特徴の個々の構造的特徴に対応する複数の構造的特徴計算モデルを生成する工程であって、かつ、前記複数の構造的特徴の個々の計算モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する;
前記1つ以上の計算装置により、前記第1の生物物理的特性に対応する第1の生物物理的特性計算モデルを作成する工程であって、前記第1の生物物理的特性計算モデルは、前記1以上の第1の構造的特徴に基づいて、タンパク質に関する前記第1の生物物理的特性の値を予測する;
前記1つ以上の計算装置により、前記第2の生物物理的特性に対応する第2の生物物理的特性計算モデルを作成する工程であって、前記第2の生物物理的特性計算モデルは、前記1以上の第2の構造的特徴に基づいて、タンパク質に関する前記第2の生物物理的特性の値を予測する;
前記1つ以上の計算装置により、タンパク質のアミノ酸配列を取得する工程;
前記1つ以上の計算装置により、前記アミノ酸配列に少なくとも部分的に基づき、かつ前記構造的特徴計算モデルを部分的に利用して、前記タンパク質の1又はそれ以上の第1の構造的特徴を決定する工程;
前記1つ以上の計算装置により、前記1又はそれ以上の第1の構造的特徴を前記第1の生物物理的特性計算モデルへの入力として提供する工程;かつ、
前記1つ以上の計算装置により、少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第1の生物物理的特性計算モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定する工程;
を含む、方法。 - さらに、以下の:
さらなる複数の構造的特徴が、前記生物物理的特性のさらなる生物物理的特性に対応することを決定する工程を含む、請求項1に記載の方法であって、前記さらなる複数の構造的特徴は、前記複数の構造的特徴とは異なる、少なくとも1つの構造的特徴を含み、前記さらなる生物物理的特性は、前記第1の生物物理的特性とは異なる、方法。。 - 前記第1の生物物理的特性は、前記タンパク質が展開する(unfold)温度であり、前記少なくとも1つの第1の構造的特徴は、前記タンパク質の多数の極性領域及び前記タンパク質の多数の疎水性領域を含む、請求項2に記載の方法。
- さらに以下の:
タンパク質群から、第1のタンパク質セットを決定して、タンパク質のさらなる生物物理的特性を予測するための第1のさらなる計算モデルを訓練し、かつ、タンパク質のさらなる構造的特徴を予測するための第2のさらなる計算モデルを訓練する、工程;
前記第1のタンパク質セットの第1アミノ酸配列及び生物物理的特性に少なくとも部分的に基づき、第1の複数の変数及び第1の複数の重みを含む1以上の第1の方程式を決定することにより、前記第1のさらなる計算モデルを訓練する工程;
前記第1のタンパク質セットの第1アミノ酸配列及び構造的特徴に少なくとも部分的に基づき、第2の複数の変数及び第2の複数の重みを含む1以上の第2の方程式を決定することにより、前記第2のさらなる計算モデルを訓練する工程;及び、
前記タンパク質群から、第2のタンパク質セットを決定して、前記第1のさらなる計算モデルを試験し、かつ、前記第2のさらなる計算モデルを試験する工程、を含む、請求項1に記載の方法であって、ここで、前記第2のタンパク質セットは第2アミノ酸配列を備える、方法。 - さらに以下の:
前記第1のさらなる計算モデルを試験する工程であって、以下の:
第2アミノ酸配列に基づき、かつ前記第1のさらなる計算モデルを用いて、前記第2のタンパク質セットの生物物理的特性の第1の値を決定する工程;及び、
前記生物物理的特性の第1の値と、前記第2のタンパク質セットに対応するデータに含まれる生物物理的特性の第2の値の間の第1の差異を決定する工程;並びに、
前記第2のさらなる計算モデルを試験する工程であって、以下の:
前記第2アミノ酸配列に基づき、かつ前記第2のさらなる計算モデルを用いて、前記第2のタンパク質セットの第1の構造的特徴を決定する工程;及び、
前記第1の構造的特徴と、前記第2のタンパク質セットに対応するデータに含まれる第2の構造的特徴の間の第2の差異を決定する工程;
を含む、請求項4に記載の方法。 - さらに以下の:
前記第1の差異に基づき、前記第1のさらなる計算モデルに関する第1の誤差量を決定する工程;及び、
前記第2の差異に基づき、前記第2のさらなる計算モデルに関する第2の誤差量を決定する工程;
を含む、請求項5に記載の方法。 - さらに以下の:
前記タンパク質群から、第3のタンパク質セットを決定して、前記第1のさらなる計算モデルを訓練して前記タンパク質のさらなる生物物理的特性を予測し、かつ、前記第2のさらなる計算モデルを訓練して前記タンパク質の構造的特徴を予測する、工程であって、ここで、前記第3のタンパク質セットは、前記第1のタンパク質セット及び前記第2のタンパク質セットとは異なる;
前記第3のタンパク質セットの第3アミノ酸配列及びさらなる生物物理的特性に少なくとも部分的に基づき、前記第1の複数の変数又は前記第1の複数の重みのうちの少なくとも1つを改変して、前記第1のさらなる計算モデルを改変し、改変された前記第1のさらなる計算モデルを生成する、工程;及び、
前記第3のタンパク質セットの前記第3アミノ酸配列及びさらなる構造的特徴に少なくとも部分的に基づき、前記第2の複数の変数又は前記第2の複数の重みのうちの少なくとも1つを改変して、前記第2のさらなる計算モデルを改変し、改変された前記第2のさらなる計算モデルを生成する工程;
を含む、請求項6に記載の方法。 - さらに、以下の:
前記タンパク質群から、第4のタンパク質セットを決定して、前記改変された第1のさらなる計算モデルを訓練し、かつ、前記改変された第2のさらなる計算モデルを訓練する工程であって、前記第4のタンパク質セットは、第4アミノ酸配列を備え、かつ、前記第1のタンパク質セット、前記第2のタンパク質セット及び前記第3のタンパク質セットとは異なる;
前記改変された第1のさらなる計算モデルを試験する工程であって、以下の:
前記第4アミノ酸配列に基づき、かつ前記改変された第1のさらなる計算モデルを用いて、前記第4のタンパク質セットの生物物理的特性の第3の値を決定する工程;及び、
前記生物物理的特性の第3の値と、前記第4のタンパク質セットに対応するデータに含まれる生物物理的特性の第4の値の第3の差異を決定する工程;並びに、
前記改変された第2のさらなるモデルを試験する工程であって、以下の:
前記第4アミノ酸配列に基づき、かつ前記改変された第2のさらなるモデルを用いて、前記第4のタンパク質セットの第3の構造的特徴を決定する工程;及び、
前記第3の構造的特徴と、前記第4のタンパク質セットに対応するデータに含まれる第4の構造的特徴の第4の差異を決定する工程;
を含む、請求項7に記載の方法。 - さらに、以下の:
前記第1の差異よりも小さい前記第3の差異に少なくとも部分的に基づいて、第3の誤差量は、前記第1の誤差量よりも小さいと決定する工程;及び、
前記第2の差異よりも小さい第4の差異に少なくとも部分的に基づいて、第4の誤差量は、前記第2の誤差量よりも小さいと決定する工程;
を含む、請求項8に記載の方法。 - 前記第1のタンパク質セットは、少なくとも第1のタンパク質及び前記第1のタンパク質の1以上の変異体を含み、かつ、前記第2のタンパク質セットは、少なくとも第2のタンパク質及び1以上の前記第2のタンパク質の変異体を含む、請求項4に記載の方法。
- 1つ以上のプロセッサ;並びに
前記1つ以上のプロセッサによって実行されると、以下の:
多数のタンパク質の複数の生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の複数の構造的特徴を示す第2データを取得すること;
1つ以上の計算装置により、前記第1データを解析して、複数の生物物理的特性のうちの第1の生物物理的特性に影響を及ぼす1以上の第1の構造的特徴及び前記複数の生物物理的特性のうちの第2の生物物理的特性に影響を及ぼす1以上の第2の構造的特徴を決定することであって、前記1以上の第2の構造的特徴のうち、少なくとも1つの第2の構造的特徴は、前記1以上の第1の構造的特徴のうち、少なくとも1つの第1の構造的特徴とは異なり、
前記複数の構造的特徴の個々の構造的特徴に対応する複数の構造的特徴計算モデルを生成することであって、かつ、前記複数の構造的特徴の個々の計算モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する、
前記第1の生物物理的特性に対応する第1の生物物理的特性計算モデルを作成することであって、前記第1の生物物理的特性計算モデルは、前記1以上の第1の構造的特徴に基づいて、タンパク質に関する前記第1の生物物理的特性の値を予測する、
前記第2の生物物理的特性に対応する第2の生物物理的特性計算モデルを作成することであって、前記第2の生物物理的特性計算モデルは、前記1以上の第2の構造的特徴に基づいて、タンパク質に関する前記第2の生物物理的特性の値を予測する、
タンパク質のアミノ酸配列を取得すること;
前記アミノ酸配列の少なくとも部分的に基づき、かつ前記構造的特徴計算モデルを部分的に利用して、前記タンパク質の1又はそれ以上の第1の構造的特徴を決定すること、
前記1又はそれ以上の第1の構造的特徴を前記第1の生物物理的特性計算モデルへの入力として提供すること、かつ、
少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第1の生物物理的特性計算モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定すること、
を含む動作を実行するコンピュータ可読命令を格納した1つ以上の非一時的なコンピュータ可読媒体、
を含む、システム。 - 1つ以上のプロセッサによって実行されると、以下の:
前記タンパク質のアミノ酸配列と、前記タンパク質の変異体のさらなるアミノ酸配列との間の差異を決定すること;及び
前記差異を前記構造的特徴計算モデルに提供し、前記タンパク質と前記タンパク質の変異体に関する1つ以上の第1の構造的特徴の間のさらなる差異を決定すること;
を含むさらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。 - 1つ以上のプロセッサによって実行されると、以下の:
前記構造的特徴計算モデル、前記第1の生物物理的特性計算モデル及び前記第2の生物物理的特性計算モデルは、少なくとも部分的に訓練データに基づいて生成され、ここで、前記訓練データは、複数のタンパク質の構造的特徴、前記複数のタンパク質の個々のタンパク質の変異体の構造的特徴、前記複数のタンパク質の生物物理的特性、及び前記複数のタンパク質の個々のタンパク質の変異体の生物物理的特性を含み;かつ、
前記1つ以上のプロセッサによって実行されると、前記訓練データを分析して、前記複数の構造的特徴、前記第1の生物物理的特性及び前記第2の生物物理的特性との間の関係を決定すること;
を含む、さらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。 - 1つ以上のプロセッサによって実行されると、以下の:
ニューラルネットワークと結合されたk-近傍モデルの組み合わせを用いて、前記多数のタンパク質の構造的特徴を決定すること;及び
1つ以上の因子系モデルを用いて、前記タンパク質の前記第1の生物物理的特性又は前記第2の生物物理的特性の少なくともどちらか一方の値を決定すること;
を含むさらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862635529P | 2018-02-26 | 2018-02-26 | |
US62/635,529 | 2018-02-26 | ||
PCT/US2019/019688 WO2019165476A1 (en) | 2018-02-26 | 2019-02-26 | Determining protein structure and properties based on sequence |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021521503A JP2021521503A (ja) | 2021-08-26 |
JPWO2019165476A5 JPWO2019165476A5 (ja) | 2022-03-07 |
JP7482782B2 true JP7482782B2 (ja) | 2024-05-14 |
Family
ID=65995830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020544750A Active JP7482782B2 (ja) | 2018-02-26 | 2019-02-26 | 配列に基づくタンパク質の構造と特性の決定 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210043272A1 (ja) |
EP (1) | EP3759714A1 (ja) |
JP (1) | JP7482782B2 (ja) |
CA (1) | CA3092098C (ja) |
WO (1) | WO2019165476A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023034865A2 (en) * | 2021-08-31 | 2023-03-09 | Just-Evotec Biologics, Inc. | Residual artificial neural network to generate protein sequences |
US11837327B2 (en) | 2022-01-10 | 2023-12-05 | Climax Foods Inc. | System and method for protein selection |
WO2023139933A1 (ja) * | 2022-01-21 | 2023-07-27 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002523057A (ja) | 1998-08-25 | 2002-07-30 | ザ スクリップス リサーチ インスティテュート | タンパク質の機能を予測するための方法およびシステム |
WO2002034876A3 (en) | 2000-09-27 | 2003-11-06 | Affinium Pharm Inc | Protein data analysis |
JP2011133962A (ja) | 2009-12-22 | 2011-07-07 | National Institute Of Advanced Industrial Science & Technology | 可溶性予測装置および可溶性予測方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101681426B1 (ko) * | 2015-05-08 | 2016-12-12 | 숙명여자대학교산학협력단 | 위치 지향성 단백질 소수성 분석방법 |
-
2019
- 2019-02-26 WO PCT/US2019/019688 patent/WO2019165476A1/en unknown
- 2019-02-26 EP EP19714891.9A patent/EP3759714A1/en active Pending
- 2019-02-26 JP JP2020544750A patent/JP7482782B2/ja active Active
- 2019-02-26 CA CA3092098A patent/CA3092098C/en active Active
- 2019-02-26 US US16/975,989 patent/US20210043272A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002523057A (ja) | 1998-08-25 | 2002-07-30 | ザ スクリップス リサーチ インスティテュート | タンパク質の機能を予測するための方法およびシステム |
WO2002034876A3 (en) | 2000-09-27 | 2003-11-06 | Affinium Pharm Inc | Protein data analysis |
JP2011133962A (ja) | 2009-12-22 | 2011-07-07 | National Institute Of Advanced Industrial Science & Technology | 可溶性予測装置および可溶性予測方法 |
Also Published As
Publication number | Publication date |
---|---|
CA3092098C (en) | 2023-07-11 |
EP3759714A1 (en) | 2021-01-06 |
CA3092098A1 (en) | 2019-08-29 |
US20210043272A1 (en) | 2021-02-11 |
JP2021521503A (ja) | 2021-08-26 |
WO2019165476A1 (en) | 2019-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7482782B2 (ja) | 配列に基づくタンパク質の構造と特性の決定 | |
US11587644B2 (en) | Methods of profiling mass spectral data using neural networks | |
Stacey et al. | A rapid and accurate approach for prediction of interactomes from co-elution data (PrInCE) | |
Thapa et al. | DeepSuccinylSite: a deep learning based approach for protein succinylation site prediction | |
Chetnik et al. | MetaClean: a machine learning-based classifier for reduced false positive peak detection in untargeted LC–MS metabolomics data | |
Watt et al. | Uncertainty quantification in ToxCast high throughput screening | |
Barla et al. | Machine learning methods for predictive proteomics | |
CN111879710A (zh) | 钢结构涂层防腐性能评定方法、系统、服务器和存储介质 | |
Qeli et al. | Improved prediction of peptide detectability for targeted proteomics using a rank-based algorithm and organism-specific data | |
Walsh et al. | RUBI: rapid proteomic-scale prediction of lysine ubiquitination and factors influencing predictor performance | |
Kohler et al. | MSstats Version 4.0: statistical analyses of quantitative mass spectrometry-based proteomic experiments with chromatography-based quantification at scale | |
Vaquero-Garcia et al. | RNA splicing analysis using heterogeneous and large RNA-seq datasets | |
Altenburg et al. | Ad hoc learning of peptide fragmentation from mass spectra enables an interpretable detection of phosphorylated and cross-linked peptides | |
US8831316B2 (en) | Point source detection | |
Ammar et al. | Accurate label-free quantification by directLFQ to compare unlimited numbers of proteomes | |
Yang et al. | The Quartet Data Portal: integration of community-wide resources for multiomics quality control | |
Hou et al. | Topological links in predicted protein complex structures reveal limitations of AlphaFold | |
Koo et al. | Interpreting deep neural networks beyond attribution methods: quantifying global importance of genomic features | |
Bob et al. | Locality-sensitive hashing enables efficient and scalable signal classification in high-throughput mass spectrometry raw data | |
Jacob et al. | PEPA test: fast and powerful differential analysis from relative quantitative proteomics data using shared peptides | |
Has et al. | PGMiner: Complete proteogenomics workflow; from data acquisition to result visualization | |
Chong et al. | SeqControl: process control for DNA sequencing | |
Senel et al. | Optocoder: computational decoding of spatially indexed bead arrays | |
Altenburg et al. | AHLF: ad hoc learning of peptide fragmentation from mass spectra enables an interpretable detection of phosphorylated and cross-linked peptides | |
Li et al. | Parameter estimation of LAMOST Medium-resolution stellar spectra |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240430 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7482782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |