JP2024059673A - タンパク質同定のための方法およびシステム - Google Patents

タンパク質同定のための方法およびシステム Download PDF

Info

Publication number
JP2024059673A
JP2024059673A JP2024017027A JP2024017027A JP2024059673A JP 2024059673 A JP2024059673 A JP 2024059673A JP 2024017027 A JP2024017027 A JP 2024017027A JP 2024017027 A JP2024017027 A JP 2024017027A JP 2024059673 A JP2024059673 A JP 2024059673A
Authority
JP
Japan
Prior art keywords
protein
affinity reagent
binding
candidate
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024017027A
Other languages
English (en)
Inventor
スジャル エム. パテル
パラグ マリック
ジャレット ディー. エガーストン
Original Assignee
ノーティラス・サブシディアリー・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノーティラス・サブシディアリー・インコーポレイテッド filed Critical ノーティラス・サブシディアリー・インコーポレイテッド
Publication of JP2024059673A publication Critical patent/JP2024059673A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/543Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals
    • G01N33/54353Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals with ligand attached to the carrier via a chemical coupling agent
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Biotechnology (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Food Science & Technology (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Cell Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Figure 2024059673000001
【課題】正確、かつ、効率の良いタンパク質同定のための方法およびシステムを提供する。
【解決手段】方法は、未知のタンパク質に対する複数の親和性試薬プローブのそれぞれについての結合測定の情報を、受信する工程であって、親和性試薬プローブそれぞれが、1つまたは複数の候補タンパク質に選択的に結合するように設定されている工程、結合測定の情報の少なくとも一部分を、複数のタンパク質配列を含むデータベースに対して比較する工程であって、各タンパク質配列が、1つの候補タンパク質に対応する工程及び1つまたは複数の候補タンパク質のそれぞれが試料中に存在する確率を、候補タンパク質の結合測定の情報の、複数のタンパク質配列を含むデータベースに対する比較に基づいて、反復して生成する工程を含む。
【選択図】図1

Description

相互参照
本出願は2017年10月23日出願の米国特許仮出願62/575,976号の優先権を主張するもので
あり、該仮出願は、その全体が参照により本明細書に組み入れられる。
背景
タンパク質同定のための現行の技術は、典型的には、高度に特異的でかつ感度の高い親
和性試薬(抗体など)の結合およびそれに続く情報の読み出し、または質量分析計からの
ペプチド読み取りデータ(典型的には12~30アミノ酸長ほど)のいずれかに依存する。そ
のような技術は、高度に特異的でかつ感度の高い親和性試薬の、関心対象のタンパク質に
対する結合測定の分析に基づいて、候補タンパク質の存在、非存在、または量を決定する
ために、試料中の未知のタンパク質に適用され得る。
概要
本明細書において、未知のタンパク質の試料中のタンパク質の、改善された同定および
定量の必要性が認識される。本明細書において提供される方法およびシステムは、試料中
のタンパク質を同定する際の誤りを有意に減少または排除することができ、そしてそれに
より、前記タンパク質の定量を改善する。そのような方法およびシステムは、未知のタン
パク質の試料中の候補タンパク質の、正確でかつ効率の良い同定を達成し得る。そのよう
な同定は、1つまたは複数の候補タンパク質に選択的に結合するように設定されている親
和性試薬プローブの結合測定の情報を用いる反復した算定に、基づき得る。いくつかの態
様において、未知のタンパク質の試料は、個々の親和性試薬プローブに、プールされた親
和性試薬プローブに、または個々の親和性試薬プローブとプールされた親和性試薬プロー
ブとの組み合わせに、反復して曝露されてよい。同定は、1つまたは複数の候補タンパク
質のそれぞれが試料中に存在する信頼水準の推測を含み得る。
1つの局面において、本明細書において、未知のタンパク質の試料中の各候補タンパク
質を反復して同定するための、コンピューターによって遂行される方法が開示され、該方
法は以下の工程を含む:(a) 前記試料中の前記未知のタンパク質に対する複数の親和性
試薬プローブのそれぞれについての結合測定の情報を、前記コンピューターによって受信
する工程であって、親和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つま
たは複数の候補タンパク質に選択的に結合するように設定されている、工程;(b) 前記
結合測定の情報の少なくとも一部分を、複数のタンパク質配列を含むデータベースに対し
て、前記コンピューターによって比較する工程であって、各タンパク質配列が、前記複数
の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および(c) 前記複数の
候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれに関して、前記1つまたは
複数の候補タンパク質のそれぞれが前記試料中に存在する確率を、前記1つまたは複数の
候補タンパク質のそれぞれの前記結合測定の情報の前記少なくとも一部分の、前記複数の
タンパク質配列を含む前記データベースに対する前記比較に基づいて、前記コンピュータ
ーによって反復して生成する工程。
いくつかの態様において、前記複数の確率を生成する工程は、複数の追加の親和性試薬
プローブのそれぞれについての結合測定の追加の情報を、反復して受信することをさらに
含み、追加の親和性試薬プローブそれぞれは、前記複数の候補タンパク質の中の1つまた
は複数の候補タンパク質に選択的に結合するように設定されている。いくつかの態様にお
いて、方法は、前記1つまたは複数の候補タンパク質のそれぞれに関して、前記候補タン
パク質が前記試料中の前記未知のタンパク質の1つに整合する信頼水準を生成する工程を
さらに含む。
いくつかの態様において、前記確率を生成する工程は、前記結合測定の情報に関連する
、検出器の誤り率を考慮に入れることを含む。いくつかの態様において、前記検出器の誤
り率は、前記結合測定の情報を入手するために使用される1つまたは複数の検出器の仕様
書から得られる。いくつかの態様において、前記検出器の誤り率は、検出器の推測誤り率
にセットされる。いくつかの態様において、前記検出器の推測誤り率は、前記コンピュー
ターのユーザーによってセットされる。いくつかの態様において、前記検出器の推測誤り
率は、約0.001である。そのような誤り率は、本明細書の他の箇所において記載される、
検出器の物理的な誤りを、包含し得る。あるいは、そのような誤り率は、プローブのタン
パク質への「着地」の失敗に起因し得、これはたとえば、プローブがシステムにおいてス
タックし、そして適切に洗い流されない場合、またはプローブが、プローブの以前の定性
および試験に基づいて予想されることのなかったタンパク質に結合する場合である。した
がって、検出器の誤り率は、以下のうちの1つまたは複数を含み得る:検出器の物理的な
誤り率、オフターゲット結合率、またはスタックしたプローブによる誤り率。
いくつかの態様において、前記複数の確率を反復して生成する工程は、続く反復から、
前記複数の候補タンパク質からの1つまたは複数の候補タンパク質を除去することをさら
に含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつかの反
復を減少させる。いくつかの態様において、前記1つまたは複数の候補タンパク質を除去
することは、前記候補タンパク質に関連する前記結合測定の所定の基準に少なくとも基づ
いている。いくつかの態様において、前記所定の基準は、前記複数の親和性試薬プローブ
の中の第一の複数に対する所定の閾値を下回る結合測定を有する前記1つまたは複数の候
補タンパク質を含む。
いくつかの態様において、前記確率のそれぞれは、前記候補タンパク質の長さに対して
正規化される。いくつかの態様において、前記確率のそれぞれは、前記複数の候補タンパ
ク質の確率の総和に対して正規化される。いくつかの態様において、前記複数の親和性試
薬プローブは、50個以下の親和性試薬プローブを含む。いくつかの態様において、前記複
数の親和性試薬プローブは、100個以下の親和性試薬プローブを含む。いくつかの態様に
おいて、前記複数の親和性試薬プローブは、500個以下の親和性試薬プローブを含む。
前記候補タンパク質の長さは、特定の親和性試薬との結合に関して、候補タンパク質に
おける利用可能なエピトープ(「結合部位」)の数に近似する代替値であることを認識し
た上で、いくつかの態様において、前記確率のそれぞれは、前記候補タンパク質のそれぞ
れにおいて利用可能な結合部位の総数に対して正規化される。いくつかの態様において、
前記候補タンパク質のそれぞれで利用可能な結合部位の数は、定性プロセスを用いて、実
験によって決定される。いくつかの態様において、前記定性プロセスは、特定のタンパク
質への親和性試薬の結合を、繰り返して測定する。いくつかの態様において、前記定性プ
ロセスは、本明細書において記載されるタンパク質同定の前記方法およびシステムの最中
に示される条件と類似のまたは同一の条件下で、実施される。
いくつかの態様において、前記確率は、所定の条件が満たされるまで反復して生成され
る。いくつかの態様において、前記所定の条件は、少なくとも90%の信頼度で複数の確率
のそれぞれを生成することを含む。いくつかの態様において、前記所定の条件は、少なく
とも95%の信頼度で前記複数の確率のそれぞれを生成することを含む。いくつかの態様に
おいて、前記所定の条件は、少なくとも99%の信頼度で前記複数の確率のそれぞれを生成
することを含む。
いくつかの態様において、方法は、前記試料中の1つまたは複数の未知のタンパク質を
同定する紙のまたは電子的なレポートを生成する工程をさらに含む。いくつかの態様にお
いて、前記試料は、生物学的試料を含む。いくつかの態様において、前記生物学的試料は
、対象から得られる。いくつかの態様において、方法は、前記複数の確率に少なくとも基
づいて、前記対象における疾患の状態を同定する工程をさらに含む。
いくつかの態様において、方法は、各タンパク質候補についてなされた同定の数を数え
ることによって、前記生物学的試料中のタンパク質を定量する工程をさらに含む。いくつ
かの態様において、タンパク質の生の数は、限定するものではないが、検出器の誤り、フ
ルオロフォアの強度、親和性試薬によるオフターゲット結合、およびタンパク質の可検出
性を含む、誤りならびに偏りの原因を補正するために、正規化される。
別の局面において、本明細書において、未知のタンパク質の試料中の候補タンパク質を
同定するための、コンピューターによって遂行される方法が開示され、該方法は以下の工
程を含む:(a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブ
のそれぞれについての結合測定の情報を、前記コンピューターによって受信する工程であ
って、親和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候
補タンパク質に選択的に結合するように設定されている、工程;(b) 前記結合測定の情
報の少なくとも一部分を、複数のタンパク質配列を含むデータベースに対して、前記コン
ピューターによって比較する工程であって、各タンパク質配列が、前記複数の候補タンパ
ク質の中の1つの候補タンパク質に対応する、工程;および(c) 前記結合測定の情報の前
記少なくとも一部分の、前記複数のタンパク質配列を含む前記データベースに対する前記
比較に少なくとも基づいて、前記複数の候補タンパク質から1つまたは複数の候補タンパ
ク質を除去する工程。
いくつかの態様において、前記1つまたは複数の候補タンパク質を除去する工程は、前
記候補タンパク質に関連する前記結合測定の所定の基準に少なくとも基づいている。いく
つかの態様において、前記所定の基準は、前記複数の親和性試薬プローブの中の第一の複
数に対する所定の閾値を下回る結合測定を有する前記1つまたは複数の候補タンパク質を
含む。いくつかの態様において、前記複数の親和性試薬プローブは、50個以下の親和性試
薬プローブを含む。いくつかの態様において、前記複数の親和性試薬プローブは、100個
以下の親和性試薬プローブを含む。いくつかの態様において、前記複数の親和性試薬プロ
ーブは、500個以下の親和性試薬プローブを含む。
いくつかの態様において、方法は、前記試料中の1つまたは複数の未知のタンパク質を
同定する紙のまたは電子的なレポートを生成する工程をさらに含む。いくつかの態様にお
いて、前記試料は、生物学的試料を含む。いくつかの態様において、前記生物学的試料は
、対象から得られる。いくつかの態様において、方法は、前記同定される候補タンパク質
に少なくとも基づいて、前記対象における疾患の状態を同定する工程をさらに含む。
本開示の追加の局面および利点は、本開示の例証の態様のみが示されそして記載される
以下の詳細な説明から、当業者には容易に明らかになるであろう。理解されるように、本
開示は、他のおよび異なる態様が可能であり、かつ、そのいくつかの詳細は、さまざまな
明らかな点において、本開示から一切逸脱することなく改変することができる。したがっ
て、図面および説明は、本質的に、例証としてみなされるべきものであり、かつ制限する
ものとしてみなされるべきではない。
参照による組み入れ
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物
、特許、または特許出願がそれぞれ、参照により組み入れられるように具体的にかつ個々
に示された場合と同程度に、参照により本明細書に組み入れられる。本明細書において含
まれる本開示と相反する、参照により組み入れられる刊行物および特許または特許出願の
範囲については、本明細書が、そのような相反する事柄のどれよりも優先され、および/
または上位に立つことが、意図される。
本発明の新規な特徴は、特に添付の特許請求の範囲において記載される。本発明の特徴
および利点のより良い理解は、本発明の原理が利用される例証の態様が記載される以下の
詳細な説明、ならびに添付される以下の図面(本明細書においてはまた、「図(Figure)
」および「図(FIG.)」とも言う)の参照により、得られるであろう。
いくつかの態様にしたがった、生物学的試料における未知のタンパク質のタンパク質同定の、例示的フローチャートを示す。 本明細書において提供される方法を遂行するようにプログラムされた、または別の状況では、そうするように設定された、コンピューター制御システムを示す。 いくつかの態様にしたがった、打ち切りのタンパク質同定アプローチ 対 非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、無作為な「偽陰性」結合アウトカムへの、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの許容性を示す。 いくつかの態様にしたがった、無作為な「偽陽性」結合アウトカムへの、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの許容性を示す。 いくつかの態様にしたがった、過大に推測されたまたは過小に推測された親和性試薬の結合確率を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、未知の結合エピトープを有する親和性試薬を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、結合エピトープを欠く親和性試薬を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、プロテオーム中で最上位の最も豊富な三量体300個、プロテオーム中で無作為に選択された三量体300個、またはプロテオーム中で最も乏しい三量体300個を標的とする親和性試薬を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、無作為なオフターゲット部位またはバイオシミラーオフターゲット部位を有する親和性試薬を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、最適な親和性試薬(プローブ)のセットを用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、非混合の候補親和性試薬、および候補親和性試薬の混合物を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定アプローチの性能を示す。 いくつかの態様にしたがった、親和性試薬とタンパク質との間の結合を増強する際の、2つのハイブリダイゼーション工程を示す。
詳細な説明
本発明のさまざまな態様が本明細書において示されかつ記載されているが、そのような
態様が単なる例として提供されていることは、当業者には明らかである。無数の変更、改
変、および置き換えが、本発明から逸脱することなく、当業者に想起され得る。本明細書
において記載される本発明の態様のさまざまな代替物が採用され得ることが、理解される
べきである。
「試料」との語は、本明細書において使用されるように、概して、生物学的試料(たと
えばタンパク質を含む試料)を指す。試料は、組織もしくは細胞から、または組織もしく
は細胞の環境から、採取されてよい。いくつかの例において、試料は、組織生検、血液、
血漿、細胞外液、乾燥血液スポット、培養細胞、培養培地、破棄された組織、植物性物質
、合成タンパク質、細菌のおよび/もしくはウイルスの試料、菌類の組織、古細菌、もし
くは原生動物を含んでよく、またはそれらに由来してよい。試料は、収集の前に、供給源
から単離されていてよい。試料は、法医学的な証拠を含んでよい。非限定的な例は、収集
の前に一次供給源から単離された、指紋、唾液、尿、血液、大便、精液、または他の体液
を含む。いくつかの例において、タンパク質は、試料調製の間に、その一次供給源(細胞
、組織、血液などの体液、環境の試料等)から単離される。試料は絶滅種に由来してよく
、限定するものではないが、化石に由来する試料を含む。タンパク質は、その一次供給源
から精製されてもよく、もしくは精製されなくてもよい、またはそうでなければ、その一
次供給源から濃縮されてもよく、もしくは濃縮されなくてもよい。いくつかの場合におい
て、一次供給源は、さらなる処理の前にホモジナイズされる。いくつかの場合において、
細胞は、RIPAバッファーなどの緩衝液を用いて溶解される。変性緩衝液もまた、この段階
で使用されてよい。試料は、脂質および粒子状物質を除去するために、ろ過または遠心分
離されてよい。試料はまた、核酸を除去するために精製されてよく、またはRNアーゼおよ
びDNアーゼで処理されてもよい。試料は、未処理のタンパク質、変性したタンパク質、タ
ンパク質断片、または部分的に分解したタンパク質を含んでよい。
試料は、疾患または障害を有する対象から採取されてよい。疾患または障害は、感染性
疾患、免疫障害もしくは免疫疾患、がん、遺伝性疾患、変性疾患、生活習慣病、創傷、希
少疾患、または加齢に関する疾患であり得る。感染性疾患は、細菌、ウイルス、菌類、お
よび/または寄生生物によって引き起こされ得る。がんの非限定的な例は、膀胱がん、肺
がん、脳のがん、黒色腫、乳がん、非ホジキンリンパ腫、子宮頸がん、卵巣がん、結腸、
直腸のがん、膵臓がん、食道がん、前立腺がん、腎臓がん、皮膚がん、白血病、甲状腺が
ん、肝臓がん、および子宮がんを含む。遺伝性疾患または遺伝性障害のいくつかの例は、
限定されるものではないが、嚢胞性線維症、シャルコー・マリー・トゥース病、ハンチン
トン病、ポイツ・ジェガース症候群、ダウン症候群、関節リウマチ、およびテイ・サック
ス病を含む。生活習慣病の非限定的な例は、肥満、糖尿病、動脈硬化症、心臓病、脳卒中
、高血圧、肝硬変、腎炎、がん、慢性閉塞性肺疾患(copd)、聴覚の問題、および慢性背
痛を含む。創傷のいくつかの例は、限定されるものではないが、擦過傷、脳損傷、挫傷、
火傷、震とう症、うっ血性心不全、建築現場での傷害、脱臼、動揺胸、骨折、血胸、椎間
板ヘルニア、ヒップポインター、低体温症、裂傷、神経が圧迫された状態(pinched nerv
e)、気胸、肋骨骨折、坐骨神経痛、脊髄損傷、腱、靭帯、筋膜の損傷、外傷性脳損傷、
およびむち打ち症を含む。試料は、疾患もしくは障害を有する対象の処置の前および/ま
たは後に採取されてよい。試料は、処置の前および/または後に採取されてよい。試料は
、処置のまたは処置計画の間に採取されてよい。複数の試料が、処置の効果を経時的にモ
ニターするために、対象から採取されてよい。試料は、診断用抗体が利用可能ではない感
染性疾患を有することが分かっている、またはそれが疑われる対象から、採取されてよい
試料は、疾患または障害を有することが疑われる対象から採取されてよい。試料は、疲
労、悪心、体重減少、痛み(ache)および痛み(pain)、衰弱、または健忘などの、説明
のつかない症状(unexplained symptom)を経験中である対象から、採取されてよい。試
料は、説明のつく症状(explained symptom)を有する対象から採取されてよい。試料は
、家族の病歴、年齢、環境曝露、生活習慣上のリスク因子、もしくは他の公知のリスク因
子の存在などの因子に起因する疾患または障害を発症するリスクのある対象から、採取さ
れてよい。
試料は、胚、胎児、または妊婦から採取されてよい。いくつかの例において、試料は、
母親の血漿から単離されたタンパク質を含んでよい。いくつかの例においては、母親の血
液中の、循環する胎児細胞から単離されたタンパク質。
試料は、健康な個体から採取されてよい。いくつかの場合において、試料は、同じ個体
から長期的に採取されてよい。いくつかの場合において、長期的に入手される試料は、個
体の健康のモニタリング、および健康問題の早期の検出というゴールをともなって、分析
されてよい。いくつかの態様において、試料は、家庭でまたは臨床現場で収集されてよく
、そして続いて、分析の前に、郵送、宅配、または他の輸送方法によって輸送されてよい
。たとえば、家庭でのユーザーは、フィンガープリックにより血液スポット試料を収集し
てよく、該血液スポット試料は、乾燥されてよく、そして続いて、分析の前に、郵送によ
って輸送されてよい。いくつかの場合において、長期的に入手される試料は、健全な運動
能力、または認知能力に影響を与えると予想される刺激への応答をモニターするために、
使用されてよい。非限定的な例は、医薬への、食事療法への、または運動療法への応答を
含む。
試料のタンパク質は、エピトープ結合を妨害し得る修飾を除去するために処理されてよ
い。たとえばタンパク質は、翻訳後グリコシル化を除去するためにグリコシダーゼ処理さ
れてよい。タンパク質は、タンパク質中のジスルフィド結合を還元するために還元剤で処
理されてよい。タンパク質は、リン酸基を除去するためにホスファターゼで処理されてよ
い。除去され得る翻訳後修飾の、他の非限定的な例は、アセテート、アミド基、メチル基
、脂質、ユビキチン、ミリストイル化、パルミトイル化、イソプレニル化またはプレニル
化(たとえばファルネソールおよびゲラニルゲラニオール)、ファルネシル化、ゲラニル
ゲラニル化、グリピエーション(glypiation)、リポイル化、フラビンモエティ付着、ホ
スホパンテテイニル化、ならびにレチニリデンシッフ塩基形成を含む。試料はまた、翻訳
後タンパク質修飾を保つために処理されてよい。いくつかの例において、ホスファターゼ
阻害剤が試料に加えられてよい。いくつかの例において、ジスルフィド結合を保護するた
めに酸化剤が加えられてよい。
試料のタンパク質は完全にまたは部分的に変性されてよい。いくつかの態様において、
タンパク質は完全に変性され得る。タンパク質は、界面活性剤、強酸もしくは強塩基、濃
縮された無機塩、有機溶媒(たとえばアルコールもしくはクロロホルム)、放射線照射、
または熱などの外部ストレスの適用によって変性されてよい。タンパク質は、変性緩衝液
の添加により変性されてよい。タンパク質はまた、変性緩衝液中で、沈殿、凍結乾燥、お
よび懸濁されてよい。タンパク質は、加熱により変性されてよい。タンパク質に化学的修
飾を生じさせる可能性の低い変性方法が、選ばれ得る。
試料のタンパク質は、より短いポリペプチドを産生するために、コンジュゲーションの
前または後のいずれかで処理されてよい。残りのタンパク質は、断片を生成するためにプ
ロテイナーゼKなどの酵素で部分的に消化してよく、または無傷のままにしておいてもよ
い。さらなる例において、タンパク質は、トリプシンなどのプロテアーゼに曝露されてよ
い。プロテアーゼの追加の例は、セリンプロテアーゼ、システインプロテアーゼ、スレオ
ニンプロテアーゼ、アスパラギン酸プロテアーゼ、グルタミン酸プロテアーゼ、メタロプ
ロテアーゼ、およびアスパラギンペプチドリアーゼを含んでよい。
いくつかの場合において、極度に大きいおよび小さいタンパク質(たとえばタイチン)
を除去することは有用となり得、そのようなタンパク質はろ過または他の適切な方法によ
って除去され得る。いくつかの例において、極度に大きいタンパク質は、400キロダルト
ン(kD)、450 kD、500 kD、600 kD、650 kD、700 kD、750 kD、800 kD、または850 kDを
超えるタンパク質を含んでよい。いくつかの例において、極度に大きいタンパク質は、約
8,000アミノ酸、約8,500アミノ酸、約9,000アミノ酸、約9,500アミノ酸、約10,000アミノ
酸、約10,500アミノ酸、約11,000アミノ酸、または約15,000アミノ酸を超えるタンパク質
を含んでよい。いくつかの例において、小さいタンパク質は、約10 kD未満、9 kD未満、8
kD未満、7 kD未満、6 kD未満、5 kD未満、4 kD未満、3 kD未満、2 kD未満、または1 kD
未満のタンパク質を含んでよい。いくつかの例において、小さいタンパク質は、約50アミ
ノ酸未満、45アミノ酸未満、40アミノ酸未満、35アミノ酸未満、または約30アミノ酸未満
のタンパク質を含んでよい。極度に大きいまたは小さいタンパク質は、サイズ排除クロマ
トグラフィーにより除去され得る。極度に大きいタンパク質は、サイズ排除クロマトグラ
フィーによって単離され、中間サイズのポリペプチドを産生するためにプロテアーゼで処
理され、試料の中間サイズのタンパク質と再度組み合わされてよい。
試料のタンパク質は、試料を多重化することを可能にするために、たとえば同定可能な
タグで、タグ付けされてよい。同定可能なタグのいくつかの非限定的な例は、以下を含む
:フルオロフォア、磁気粒子、またはDNAバーコード化された塩基リンカー。使用される
フルオロフォアは、GFP、YFP、RFP、eGFP、mCherry、tdtomato、FITC、Alexa Fluor 350
、Alexa Fluor 405、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluo
r 555、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 647、Alexa Fluor 680、Alexa
Fluor 750、Pacific Blue、クマリン、BODIPY FL、Pacific Green、Oregon Green、Cy3
、Cy5、Pacific Orange、TRITC、Texas Red、フィコエリスリン、アロフィコシアニン(A
llophcocyanin)などの蛍光タンパク質、または当技術分野において公知の他のフルオロ
フォアを含んでよい。
任意の数のタンパク質試料が多重化され得る。たとえば多重化された反応は、2、3、4
、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、約20、約25、約30、約35
、約40、約45、約50、約55、約60、約65、約70、約75、約80、約85、約90、約95、約100
、または100超の初期試料からのタンパク質を含んでよい。同定可能なタグは、各タンパ
ク質を、その由来の試料に関して調べる手段を提供してよく、または異なる試料からのタ
ンパク質を、異なる区域または固体支持体に隔離するように誘導してもよい。いくつかの
態様において、タンパク質はその後、タンパク質を基材に化学的に結合させるために、機
能化された基材に適用される。
任意の数のタンパク質試料が、タグ付けされること無しにまたは多重化されること無し
に、分析の前に混合されてよい。たとえば、多重化された反応は、2個、3個、4個、5個、
6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、
約20個、約25個、約30個、約35個、約40個、約45個、約50個、約55個、約60個、約65個、
約70個、約75個、約80個、約85個、約90個、約95個、約100個、または100個超の初期試料
からの、タンパク質を含んでよい。たとえば、希少な条件に関する診断は、プールされた
試料において実施されてよい。個々の試料の分析は、その後、試験された、診断が陽性で
あったプール中の試料からのみ、実施されてよい。試料は、コンビナトリアルプーリング
設計を用いて、タグ付けされること無しに多重化されてよく、該設計においては、個々の
試料からのシグナルが、分析されるプールから、コンピューターによる多重分離を用いて
区別されることを可能にする様式で、試料がプールへと混合される。
「基材」との語は、本明細書において使用されるように、概して、固体の支持体を形成
することができる基材を指す。基材、または固体の基材とは、タンパク質が共有結合もし
くは非共有結合できる、任意の固体の表面を指し得る。固体の基材の非限定的な例は、粒
子、ビーズ、スライド、装置の構成要素の表面、膜、フローセル、ウェル、チャンバー、
マクロ流体チャンバー、ミクロ流体チャンバー、チャンネル、ミクロ流体チャンネル、ま
たは任意の他の表面を含む。基材の表面は、平面であり得るかもしくは湾曲され得、また
は他の形状を有し得、かつ平滑であり得るかもしくは凹凸を有し得る。基材の表面は、マ
イクロウェルを含んでよい。いくつかの態様において、基材は、ガラス、デキストランな
どの炭水化物、ポリスチレンもしくはポリプロピレンなどのプラスチック、ポリアクリル
アミド、ラテックス、シリコン、金などの金属、またはセルロースから構成され得、かつ
タンパク質の共有結合もしくは非共有結合を可能にするまたは強化するために、さらに修
飾されてよい。たとえば、基材の表面は、マレイン酸モエティもしくはコハク酸モエティ
などの特定の官能基での修飾によって機能化されてよく、またはアミノ基、チオール基、
もしくはアクリレート基などの化学的な反応基での修飾によって、シラン化などによって
、誘導体化されてもよい。適切なシラン試薬は、アミノプロピルトリメトキシシラン、ア
ミノプロピルトリエトキシシラン、および4-アミノブチルトリエトキシシランを含む。基
材は、N-ヒドロキシスクシンイミド(NHS)官能基で機能化されてよい。ガラス表面はま
た、たとえばエポキシシラン、アクリレートシラン、またはアクリルアミドシランを用い
て、アクリレートまたはエポキシなどの他の反応基で誘導体化され得る。タンパク質結合
のための、基材および処理は、好ましくは、繰り返される結合、洗浄、画像化、および溶
出の工程に対して安定である。いくつかの例において、基材は、スライド、フローセル、
またはマイクロスケールのもしくはナノスケールの構造(たとえばマイクロウェル、マイ
クロピラー、単一分子アレイ、ナノボール、ナノピラー、もしくはナノワイヤなどの規則
正しい構造)であってよい。
基材上の官能基の間隔は、規則正しくてよく、または無作為であってもよい。官能基の
規則正しいアレイは、たとえばフォトリソグラフィ、ディップペンナノリソグラフィー、
ナノインプリントリソグラフィ、ナノスフェアリソグラフィ、ナノボールリソグラフィ、
ナノピラーアレイ、ナノワイヤリソグラフィ、走査型プローブリソグラフィ、熱化学リソ
グラフィ、熱走査型プローブリソグラフィ、局所酸化ナノリソグラフィ、分子自己集合、
ステンシルリソグラフィ、または電子線リソグラフィによって作製されてよい。規則正し
いアレイ中の官能基は、官能基がそれぞれ、任意の他の官能基から200ナノメートル(nm
)未満であるように、または約200 nm、約225 nm、約250 nm、約275 nm、約300 nm、約32
5 nm、約350 nm、約375 nm、約400 nm、約425 nm、約450 nm、約475 nm、約500 nm、約52
5 nm、約550 nm、約575 nm、約600 nm、約625 nm、約650 nm、約675 nm、約700 nm、約72
5 nm、約750 nm、約775 nm、約800 nm、約825 nm、約850 nm、約875 nm、約900 nm、約92
5 nm、約950 nm、約975 nm、約1000 nm、約1025 nm、約1050 nm、約1075 nm、約1100 nm
、約1125 nm、約1150 nm、約1175 nm、約1200 nm、約1225 nm、約1250 nm、約1275 nm、
約1300 nm、約1325 nm、約1350 nm、約1375 nm、約1400 nm、約1425 nm、約1450 nm、約1
475 nm、約1500 nm、約1525 nm、約1550 nm、約1575 nm、約1600 nm、約1625 nm、約1650
nm、約1675 nm、約1700 nm、約1725 nm、約1750 nm、約1775 nm、約1800 nm、約1825 nm
、約1850 nm、約1875 nm、約1900 nm、約1925 nm、約1950 nm、約1975 nm、約2000 nm、
もしくは2000 nm超であるように、配置されてよい。無作為な間隔の官能基は、官能基が
、任意の他の官能基から平均して少なくとも約50 nm、約100 nm、約150 nm、約200 nm、
約250 nm、約300 nm、約350 nm、約400 nm、約450 nm、約500 nm、約550 nm、約600 nm、
約650 nm、約700 nm、約750 nm、約800 nm、約850 nm、約900 nm、約950 nm、約1000 nm
、または100 nm超であるような密集状態で、提供されてよい。
基材は、間接的に機能化されてよい。たとえば、基材はPEG化されてよく、かつ官能基
がPEG分子のすべて、またはPEG分子のサブセットに適用されてよい。基材は、マイクロス
ケールのまたはナノスケールの構造(たとえばマイクロウェル、マイクロピラー、単一分
子アレイ、ナノボール、ナノピラー、もしくはナノワイヤなどの規則正しい構造)のため
に適した技術を用いて、機能化されてよい。
基材は、金属、ガラス、プラスチック、セラミック、またはそれらの組み合わせを含む
、任意の素材を含んでよい。いくつかの好ましい態様において、固体基材はフローセルで
あり得る。フローセルは、単一の層、または複数の層から構成され得る。たとえばフロー
セルは、基部層(たとえばホウケイ酸ガラス製のもの)、基部層を覆うチャンネル層(た
とえばエッチングされたシリコン製のもの)、およびカバー層または最上部層を含み得る
。それらの層が共に組み立てられると、囲われたチャンネルが形成され得、該チャネルは
、カバーを通って両端に入口/出口を有する。それぞれの層の厚さは可変であるが、好ま
しくは約1700 μm未満である。層は、限定するものではないが、感光性ガラス、ホウケイ
酸ガラス、溶融シリケート(fused silicate)、PDMSまたはシリコンを含む、当技術分野
において公知の任意の適した素材から構成され得る。異なる層は、同じ素材から、または
異なる素材から、構成され得る。
いくつかの態様において、フローセルは、フローセルの底部にチャンネルのための開口
部を含み得る。フローセルは、別々に視覚化され得る位置において、何百万もの付着され
た標的コンジュゲーション部位を含み得る。いくつかの態様において、本発明の態様で使
用されるさまざまなフローセルは、異なる数のチャンネル(たとえば1チャンネル、2以上
のチャンネル、3以上のチャンネル、4以上のチャンネル、6以上のチャンネル、8以上のチ
ャンネル、10以上のチャンネル、12以上のチャンネル、16以上のチャンネル、または16超
のチャンネル)を含み得る。さまざまなフローセルは、異なる深さまたは幅のチャンネル
を含み得、これらは1つのフローセル中のチャンネルの間で異なっていてよく、または異
なるフローセルのチャンネルの間で異なっていてもよい。1つのチャンネルはまた、深さ
および/または幅が変化し得る。たとえば1つのチャンネルは、チャンネル中の1つまたは
複数の場所で、約50 μm未満の深さ、約50 μmの深さ、約100 μm未満の深さ、約100 μm
の深さ、約100 μmから約 500 μmの深さ、約500 μmの深さ、または約500 μm超の深さ
であり得る。チャンネルは、限定するものではないが、円形の、半円形の、長方形の、台
形の、三角形の、または卵形の断面を含む、任意の断面形状を有し得る。
タンパク質は、基材に、スポットされてよく、滴下されてよく、ピペットされてよく、
注がれてよく、洗浄されてよく、または他の方法で適用されてよい。NHSエステルなどの
モエティで機能化された基材の場合には、タンパク質の修飾は必要とされない。代わりの
モエティ(たとえばスルフヒドリル、アミン、またはリンカーDNA)で機能化された基材
の場合には、架橋試薬(たとえばスベリン酸ジスクシンイミジル、NHS、スルホンアミド
)が使用されてよい。リンカーDNAで機能化された基材の場合には、試料のタンパク質は
、相補的なDNAタグで修飾されてよい。いくつかの場合において、タンパク質は、静電相
互作用によって基材に結合できるように機能化されてよい。
光活性化架橋剤は、試料の架橋を基材上の特定の区域に指向させるために使用されてよ
い。光活性化架橋剤は、各試料を基材の既知の領域に付着させることによってタンパク質
試料の多重化を可能にするために、使用されてよい。光活性化架橋剤は、たとえばタンパ
ク質を架橋する前に蛍光タグを検出することによって、成功裏にタグ付けされたタンパク
質の特異的な付着を可能にし得る。光活性化架橋剤の例は、限定するものではないが、N-
5-アジド-2-ニトロベンゾイルオキシスクシンイミド、スルホスクシンイミジル6-(4'-ア
ジド-2'-ニトロフェニルアミノ)ヘキサノアート、スクシンイミジル4,4'-アジペンタノア
ート、スルホスクシンイミジル4,4'-アジペンタノアート、スクシンイミジル6-(4,4'-ア
ジペンタンアミド)ヘキサノアート、スルホスクシンイミジル6-(4,4'-アジペンタンアミ
ド)ヘキサノアート、スクシンイミジル2-((4,4'-アジペンタンアミド)エチル)-1,3'-ジチ
オプロピオナート、およびスルホスクシンイミジル2-((4,4'-アジペンタンアミド)エチル
)-1,3'-ジチオプロピオナートを含む。
ポリペプチドは、1つまたは複数の残基によって基材に付着されてよい。いくつかの例
において、ポリペプチドは、N末端、C末端、両方の末端を介して、または内部の残基を介
して、付着されてよい。
永続的な架橋剤に加えて、いくつかの適用に関して光切断性リンカーを使用すること、
およびそうすることによって分析後に基材からタンパク質を選択的に抽出することを可能
にすることは、適切であり得る。いくつかの場合において、光切断性架橋剤は、いくつか
の異なる多重化試料に使用されてよい。いくつかの場合において、光切断性架橋剤は、多
重化された反応中の1つまたは複数の試料から使用されてよい。いくつかの場合において
、多重化された反応は、永続的な架橋剤を介して基材に架橋された対照試料、および光切
断性架橋剤を介して基材に架橋された実験試料を含んでよい。
コンジュゲートされた各タンパク質は、コンジュゲートされた各タンパク質が光学的に
解像可能であるように、コンジュゲートされた他のタンパク質それぞれから空間的に分離
されてよい。タンパク質はしたがって、固有の空間的アドレスを用いて、個々にラベルさ
れてよい。いくつかの態様において、これは、各タンパク質分子が他のタンパク質分子そ
れぞれから空間的に分離されるように低い濃度のタンパク質および基材上の低い密度の付
着部位を用いるコンジュゲーションによって、達成され得る。例として、光活性化架橋剤
が使用される場合、タンパク質があらかじめ決定されている位置に付加されるように、光
パターンが使用されてよい。
いくつかの態様において、各タンパク質は、固有の空間的アドレスに関連付けられてよ
い。たとえば、タンパク質が空間的に分離される位置において基材に付着すると、各タン
パク質には、座標などによる、インデックス付きアドレスが割り当てられ得る。いくつか
の例において、あらかじめ割り当てられる固有の空間的アドレスの格子が、あらかじめ決
定されていてよい。いくつかの態様において、各タンパク質の配置が基材上の固定マーク
に対して決定され得るように、基材は、容易に同定可能な固定マークを含んでよい。いく
つかの例において、基材は、表面上に永続的に記された、格子線および/もしくはおよび
「起点」または他の基準を有してよい。いくつかの例において、基材の表面は、架橋され
たタンパク質の位置を特定するための基準を提供するために、永続的にまたは半永続的に
マークが付けられていてよい。コンジュゲートされたポリペプチドの外縁などのパターン
それ自体の形状もまた、各スポットの固有の位置を決定するための基準として使用されて
よい。
基材はまた、コンジュゲートされたタンパク質標準物および対照を含んでよい。コンジ
ュゲートされたタンパク質標準物および対照は、既知の位置にコンジュゲートされた、既
知の配列のペプチドまたはタンパク質であってよい。いくつかの例において、コンジュゲ
ートされたタンパク質標準物および対照は、アッセイにおける内部対照として役立ち得る
。該タンパク質は、精製されたタンパク質ストックから基材へと適用されてよく、または
核酸プログラマブルタンパク質アレイ(Nucleic Acid-Programmable Protein Array)(N
APPA)などの処理によって基材上で合成されてよい。
いくつかの例において、基材は蛍光標準物を含んでよい。これらの蛍光標準物は、アッ
セイ間の蛍光シグナルの強度を較正するために使用されてよい。これらの蛍光標準物はま
た、蛍光シグナルの強度を、ある区域に存在するフルオロフォアの数と相関させるために
、使用されてもよい。蛍光標準物は、アッセイにおいて使用される異なる種類のフルオロ
フォアのいくつかまたはすべてを含んでよい。
基材が、試料からのタンパク質とコンジュゲートされたら、複数の親和性試薬測定を実
施することができる。本明細書において記載される測定プロセスは、さまざまな親和性試
薬を利用してよい。いくつかの態様において、複数の親和性試薬は、ともに混合されてよ
く、かつ測定は、タンパク質-基材コンジュゲートへの、親和性試薬混合物の結合におい
て、実施されてよい。
「親和性試薬」との語は、本明細書において使用されるように、概して、タンパク質ま
たはペプチドに、再現性のある特異性を有して結合する、試薬を指す。たとえば親和性試
薬は、抗体、抗体断片、アプタマー、ミニタンパク質バインダー、またはペプチドであっ
てよい。いくつかの態様において、ミニタンパク質バインダーは、長さが30~210アミノ
酸の間であり得るタンパク質バインダーを含んでよい。いくつかの態様において、ミニタ
ンパク質バインダーが設計されてよい。いくつかの態様において、モノクローナル抗体が
選ばれ得る。いくつかの例において、Fab断片などの抗体断片が選ばれ得る。いくつかの
場合において、親和性試薬は、市販の抗体などの市販の親和性試薬であってよい。いくつ
かの場合において、望ましい親和性試薬は、有用な特徴を有するものを同定するために市
販の親和性試薬をスクリーニングすることによって、選択されてよい。
親和性試薬は、高い、中間の、または低い特異性を有してよい。いくつかの例において
、親和性試薬は、いくつかの異なるエピトープを認識してよい。いくつかの例において、
親和性試薬は、2以上の異なるタンパク質に存在するエピトープを認識してよい。いくつ
かの例において、親和性試薬は、多くの異なるタンパク質に存在するエピトープを認識し
てよい。いくつかの場合において、本開示の方法において使用される親和性試薬は、エピ
トープ1つだけに対して、高度に特異的であってよい。いくつかの場合において、本開示
の方法において使用される親和性試薬は、翻訳後修飾を含むエピトープ1つだけに対して
、高度に特異的であってよい。いくつかの場合において、親和性試薬は、高度に類似した
エピトープへの特異性を有し得る。いくつかの場合において、高度に類似したエピトープ
への特異性を有する親和性試薬は、高度に類似するタンパク質候補配列(たとえば、1ア
ミノ酸変異を有する候補、またはアイソフォーム)を区別するために、特異的に設計され
得る。いくつかの場合において、親和性試薬は、タンパク質配列のカバレッジを最大にす
るために、高度に多様性のあるエピトープへの特異性を有してよい。いくつかの態様にお
いて、タンパク質-基材へのプローブ結合の確率論的な性質のために、結果は異なる可能
性があり、かつしたがって、タンパク質同定に関して追加の情報を提供し得る、と予想し
て、実験が、同じ親和性プローブを用いて繰り返して実施されてよい。
いくつかの場合において、親和性試薬によって認識される、特異的な単数のエピトープ
または複数のエピトープは、完全には既知でなくてよい。たとえば、親和性試薬は、1つ
または複数の、全長タンパク質、タンパク質複合体、もしくはタンパク質断片への特異的
な結合に関して、特異的な結合エピトープの知見無しに、設計または選択され得る。定性
プロセスによって、この試薬の結合プロファイルは精巧なものになっている可能性がある
。特異的な結合エピトープが未知であるとしても、前記親和性試薬を用いる結合測定は、
タンパク質のアイデンティティを決定するために使用され得る。たとえば、タンパク質標
的に結合するように設計された市販の抗体またはアプタマーが、親和性試薬として使用さ
れ得る。アッセイ条件(たとえば完全に折りたたまれている、部分的に変性している、ま
たは完全に変性している)のもとでの定性の後で、未知のタンパク質へのこの親和性試薬
の結合は、未知のタンパク質のアイデンティティについての情報を提供し得る。いくつか
の場合において、タンパク質特異的親和性試薬の集団(たとえば市販の抗体またはアプタ
マー)が、それらが標的とする特異的なエピトープについての知見とともに、または該知
見無しのいずれかで、タンパク質同定を生成するために、使用され得る。いくつかの場合
において、タンパク質特異的親和性試薬の集団は、50個、100個、200個、300個、400個、
500個、600個、700個、800個、900個、1000個、2000個、3000個、4000個、5000個、10000
個、20000個、または20000個超の、親和性試薬を含んでよい。いくつかの場合において、
親和性試薬の集団は、特定の生物において標的への反応性が証明されている、すべての市
販の親和性試薬を含んでよい。たとえば、タンパク質特異的親和性試薬の集団は、各親和
性試薬に関して個々になされる結合測定を用いて、連続してアッセイされてよい。いくつ
かの場合において、タンパク質特異的親和性試薬のサブセットは、結合測定の前に混合さ
れてよい。たとえば、結合測定パスそれぞれに関して、親和性試薬の新規な混合物は、完
全なセットから無作為に選択された親和性試薬のサブセットを含むように、選択されてよ
い。たとえば、続く混合物それぞれは、親和性試薬の多くが複数の混合物の中に存在する
であろうと予想して、同じ無作為な様式で生成されてよい。いくつかの場合において、タ
ンパク質同定は、タンパク質特異的親和性試薬の混合物を用いて、より速やかに生成され
得る。いくつかの場合において、タンパク質特異的親和性試薬のそのような混合物は、任
意の個々のパスにおいて親和性試薬が結合する、未知のタンパク質のパーセンテージを、
増加させ得る。親和性試薬の混合物は、すべての利用可能な親和性試薬の、1%、5%、10%
、20%、30%、40%、50%、60%、70%、80%、90%、または90%超を含んでよい。1回の実験にお
いて評価される親和性試薬の混合物は、個々の親和性試薬が共通であってもよく、または
共通でなくてもよい。いくつかの場合において、同じタンパク質に結合する集団中に、複
数の異なる親和性試薬が存在してよい。いくつかの場合において、集団中の各親和性試薬
は、異なるタンパク質に結合してよい。同じタンパク質への親和性を有する複数の親和性
試薬が、単一の未知のタンパク質に結合する場合、前記親和性試薬の共通の標的である未
知のタンパク質のアイデンティティにおける信頼度は、増加し得る。いくつかの場合にお
いて、同じタンパク質を標的とする複数のタンパク質親和性試薬の使用は、複数の親和性
試薬が同じタンパク質上の異なるエピトープに結合し、かつ、該タンパク質を標的とする
親和性試薬のあるサブセットの結合のみが、結合エピトープの翻訳後修飾または他の立体
障害(steric hinderance)によって妨害され得る場合に、冗長性を提供し得る。いくつ
かの場合において、その結合エピトープが未知である親和性試薬の結合は、その結合エピ
トープが既知である親和性試薬の結合測定と組み合わせて、タンパク質同定を生成するた
めに使用され得る。
いくつかの例において、1つまたは複数の親和性試薬は、2個、3個、4個、5個、6個、7
個、8個、9個、10個、または10個超のアミノ酸などの所定の長さのアミノ酸モチーフに結
合するように、選ばれてよい。いくつかの例において、1つまたは複数の親和性試薬は、2
アミノ酸から40アミノ酸までの異なる長さのある範囲のアミノ酸モチーフに結合するよう
に、選ばれてよい。
いくつかの場合において、親和性試薬は、DNAバーコードで標識されてよい。いくつか
の例において、DNAバーコードは、使用後に親和性試薬を精製するために使用されてよい
。いくつかの例において、DNAバーコードは、繰り返しの使用のため親和性試薬を仕分け
するために、使用されてよい。いくつかの場合において、親和性試薬は、使用後に親和性
試薬を仕分けするために使用され得るフルオロフォアで、標識されてよい。
親和性試薬のファミリーは、親和性試薬の1つまたは複数の種類を含んでよい。たとえ
ば、本開示の方法は、抗体、抗体断片、Fab断片、アプタマー、ペプチド、およびタンパ
ク質の1つまたは複数を含む親和性試薬のファミリーを使用してよい。
親和性試薬は修飾されてよい。修飾は、限定されるものではないが、検出モエティの結
合を含む。検出モエティは、直接的にまたは間接的に結合されてよい。たとえば検出モエ
ティは、親和性試薬に直接的に共有結合されてよく、またはリンカーを介して結合されて
よく、または相補的なDNAタグもしくはビオチン・ストレプトアビジンの対などの親和性
反応を介して結合されてよい。軽い洗浄および親和性試薬の溶出に耐えることのできる結
合方法が、選ばれ得る。
親和性試薬は、たとえば、結合イベントの同定または定量(たとえば結合イベントの蛍
光検出で)を可能にする、同定可能なタグで、タグ付けされてよい。同定可能なタグの、
いくつかの非限定的な例は、以下を含む:フルオロフォア、蛍光ナノ粒子、量子ドット、
磁気ナノ粒子、またはDNAバーコードに基づくリンカー。使用されるフルオロフォアは、G
FP、YFP、RFP、eGFP、mCherry、tdtomato、FITC、Alexa Fluor 350、Alexa Fluor 405、A
lexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluor 555、Alexa Fluor 5
68、Alexa Fluor 594、Alexa Fluor 647、Alexa Fluor 680、Alexa Fluor 750、Pacific
Blue、クマリン、BODIPY FL、Pacific Green、Oregon Green、Cy3、Cy5、Pacific Orange
、TRITC、Texas Red、フィコエリスリン、アロフィコシアニン、または当技術分野におい
て公知の他のフルオロフォアなどの、蛍光タンパク質を含んでよい。あるいは、親和性試
薬は、結合イベントが、たとえば結合イベントのSPR検出で、直接的に検出される際など
に、タグが除去されてよい。
検出モエティは、限定するものではないが、フルオロフォア、生物発光タンパク質、不
変の領域およびバーコード領域を含むDNAセグメント、または磁気粒子などのナノ粒子を
連結するための化学的テザーを含んでよい。検出モエティは、励起または発光の異なるパ
ターンを有する、いくつかの異なるフルオロフォアを含んでよい。
検出モエティは、親和性試薬から切断可能であってよい。これは、もはや関心対象では
ない親和性試薬から検出モエティが除去される工程によってシグナル混入を減少させるこ
とを可能にし得る。
いくつかの場合において、親和性試薬は未修飾である。たとえば、もし親和性試薬が抗
体であるならば、抗体の存在は原子間力顕微鏡によって検出されてよい。親和性試薬は未
修飾であってよく、かつ、たとえば親和性試薬の1種または複数種に対して特異的な抗体
を手に入れることによって、検出されてよい。たとえば、もし親和性試薬がマウス抗体で
あるならば、マウス抗体は、抗マウス二次抗体を用いて検出されてよい。交代で、親和性
試薬は、アプタマーに特異的な抗体によって検出されるアプタマーであってよい。二次抗
体は、上述のように検出モエティで修飾されてよい。いくつかの場合において、二次抗体
の存在は、原子間力顕微鏡によって検出されてよい。
いくつかの例において、親和性試薬は、同じ修飾、たとえばコンジュゲートされた緑色
蛍光タンパク質を含んでよく、または異なる2種類以上の修飾を含んでよい。たとえば、
各親和性試薬は、異なる励起波長または発光波長をそれぞれ有する、いくつかの異なる蛍
光モエティの1つにコンジュゲートされてよい。いくつかの異なる親和性試薬は組み合わ
され得、かつ/または識別され得るので、これは、親和性試薬の多重化を可能にし得る。
1つの例において、第1の親和性試薬は緑色蛍光タンパク質にコンジュゲートされてよく、
第2の親和性試薬は黄色蛍光タンパク質にコンジュゲートされてよく、かつ第3の親和性試
薬は赤色蛍光タンパク質にコンジュゲートされてよく、したがってこれら3つの親和性試
薬は多重化され得、かつそれらの蛍光によって同定され得る。さらなる例において、第1
、第4、および第7の親和性試薬は緑色蛍光タンパク質にコンジュゲートされてよく、第2
、第5、および第8の親和性試薬は黄色蛍光タンパク質にコンジュゲートされてよく、かつ
第3、第6、および第9の親和性試薬は赤色蛍光タンパク質にコンジュゲートされてよい;
この場合、第1、第2、および第3の親和性試薬はともに多重化され得、一方で第2、第4、
および第7の、ならびに第3、第6、および第9の親和性試薬は、2つのさらなる多重化反応
を形成する。ともに多重化され得る親和性試薬の数は、それらを区別するために使用され
る検出モエティ次第で変わり得る。たとえば、フルオロフォアで標識された親和性試薬の
多重化は、利用可能な独特のフルオロフォアの数によって制限され得る。さらなる例とし
ては、DNAタグで標識された親和性試薬の多重化は、DNAバーコードの長さによって決定さ
れてよい。
各親和性試薬の特異性は、アッセイにおける使用の前に決定され得る。親和性試薬の結
合特異性は、既知のタンパク質を用いる対照実験において決定され得る。任意の適切な実
験方法が、親和性試薬の特異性を決定するために使用されてよい。一例では、基材に、既
知のタンパク質標準物を既知の位置に載せて、複数の親和性試薬の特異性を評価するため
に使用してよい。別の例においては、各親和性試薬の特異性が対照および標準物への結合
から算出され得、その後実験試料を同定するために使用され得るように、基材は、実験試
料ならびに対照および標準物のパネルの両方を含んでよい。いくつかの場合において、未
知の特異性を有する親和性試薬が、既知の特異性の親和性試薬とともに含まれてよく、既
知の特異性の親和性試薬からのデータが、タンパク質を同定するために使用されてよく、
かつ未知の特異性の親和性試薬の、同定されるタンパク質への結合のパターンが、それら
の結合特異性を決定するために使用されてよい。どのタンパク質が個々の親和性試薬と結
合したのかを評価するために、他の親和性試薬の既知の結合データを用いて、任意の個々
の親和性試薬の特異性を再確認することもまた、可能である。いくつかの場合において、
基材にコンジュゲートされた既知の各タンパク質への、親和性試薬の結合の頻度は、基材
上のタンパク質のいずれかに結合する確率を導き出すために、使用され得る。いくつかの
場合において、エピトープ(たとえばアミノ酸配列または翻訳後修飾)を含む既知のタン
パク質への結合の頻度は、特定のエピトープへの親和性試薬の結合の確率を決定するため
に、使用され得る。したがって、親和性試薬パネルの複数の使用により、親和性試薬の特
異性は各反復のたびにますます洗練され得る。特定のタンパク質に対して一意的に特異的
な親和性試薬が使用され得るが、本明細書において記載される方法は、それらを必要とし
なくてもよい。加えて方法は、ある範囲の特異性において効果的であり得る。いくつかの
例において、本明細書において記載される方法は、親和性試薬が、いかなる特定のタンパ
ク質に対しても特異的ではないが、代わりに、アミノ酸モチーフ(たとえばトリペプチド
AAA)に対して特異的である場合に、特に有効であり得る。
いくつかの例において、親和性試薬は、高い、中間の、または低い結合親和性を有する
ように選ばれてよい。いくつかの場合において、低いまたは中間の結合親和性を有する親
和性試薬が選ばれ得る。いくつかの場合において、親和性試薬は、約10-3 M、10-4 M、10
-5 M、10-6 M、10-7 M、10-8 M、10-9 M、10-10 Mの、または10-10 Mより小さい解離定数
を有してよい。いくつかの場合において、親和性試薬は、約10-10 M、10-9 M、10-8 M、1
0-7 M、10-6 M、10-5 M、10-4 M、10-3 M、10-2 Mを超える、または10-2 Mより大きい解
離定数を有してよい。いくつかの場合において、低いもしくは中間のkoff速度または中間
のもしくは高いkon速度の親和性試薬が好ましいことがある。
親和性試薬のいくつかは、リン酸化されたまたはユビキチン化されたアミノ酸配列など
の修飾されたアミノ酸配列に結合するために、選ばれてよい。いくつかの例において、1
種または複数種の親和性試薬は、1種または複数種のタンパク質によって含まれ得るエピ
トープのファミリーに対し広く特異的であるように、選ばれてよい。いくつかの例におい
て、1種または複数種の親和性試薬は、2つ以上の異なるタンパク質に結合してよい。いく
つかの例において、1種または複数種の親和性試薬は、それらの1つまたは複数の標的に弱
く結合してよい。たとえば親和性試薬は、10%未満、10%未満、15%未満、20%未満、25%未
満、30%未満、または35%未満が、それらの1つまたは複数の標的に結合し得る。いくつか
の例において、1種または複数種の親和性試薬は、それらの1つまたは複数の標的に中程度
にまたは強固に結合してよい。たとえば親和性試薬は、35%超、40%超、45%超、60%超、65
%超、70%超、75%超、80%超、85%超、90%超、91%超、92%超、93%超、94%超、95%超、96%超
、97%超、98%超、または99%超が、それらの1つまたは複数の標的に結合し得る。
弱い結合を補うために、過剰な親和性試薬が、基材に適用されてよい。親和性試薬は、
約1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1または10:1で、試料タンパク質に対し
て過剰に適用されてよい。親和性試薬は、約1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、
9:1、または10:1で、試料タンパク質におけるエピトープの予想される出現率に対して過
剰に適用されてよい。
親和性試薬の速い解離速度を補うために、リンカーモエティが、各親和性試薬に結合さ
れてよく、そしてリンカーモエティは、結合された親和性試薬を、それが結合する基材ま
たは未知のタンパク質に可逆的に連結するために、使用されてよい。たとえば、DNAタグ
が、各親和性試薬の末端に結合され得、そして異なるDNAタグが、基材または各未知のタ
ンパク質に結合され得る。親和性試薬が未知のタンパク質にハイブリダイズした後で、リ
ンカーDNA、これは親和性試薬と結合しているDNAタグに対して一方の末端において相補的
であり、かつ基材と結合しているタグに対して他方の末端において相補的であるが、これ
は、基材に親和性試薬を結合させるために、チップに添加され得、そしてこれは、親和性
試薬が測定の前に解離することを防ぐ。結合後、連結された親和性試薬は、DNAリンカー
の結合を分断するために熱または高塩濃度の存在下で洗浄することにより、離れ得る。
図13は、いくつかの態様にしたがった、親和性試薬とタンパク質との間の結合を増強す
る際の、2つのハイブリダイゼーション工程を示す。特に、図13の工程1は、親和性試薬の
ハイブリダイゼーションを示す。工程1に示されるように、親和性試薬1310は、タンパク
質1330にハイブリダイズする。タンパク質1330は、スライド1305に結合されている。工程
1に示されるように、親和性試薬1310は、結合されているDNAタグ1320を有する。いくつか
の態様において、親和性試薬は、複数の、結合されているDNAタグを有してよい。いくつ
かの態様において、親和性試薬は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10
個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、または20個超の、
結合されているDNAタグを有してよい。DNAタグ1320は、認識配列1325を有するssDNAタグ
を含む。加えて、タンパク質1330は、2つのDNAタグ1340を有する。いくつかの態様におい
て、DNAタグは、タンパク質中のシステインと反応する化学反応を用いて付加されてよい
。いくつかの態様において、タンパク質は、複数の、結合されているDNAタグを有してよ
い。いくつかの態様において、タンパク質は、1個、2個、3個、4個、5個、6個、7個、8個
、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、25個、3
0個、35個、40個、45個、50個、55個、60個、65個、70個、75個、80個、85個、90個、95
個、100個、または100個超の、結合されているDNAタグを有してよい。各DNAタグ1340は、
認識配列1345を有するssDNAタグを含む。
工程2に示されるように、DNAリンカー1350は、親和性試薬1310およびタンパク質1330に
それぞれ結合されているDNAタグ1320および1340に、ハイブリダイズする。DNAリンカー13
50は、それぞれ認識配列1325および1345に相補的な配列を有する、ssDNAを含む。さらに
、工程2に示されるように、認識配列1325および1345は、DNAリンカー1350がDNAタグ1320
および1340の両方と同時に結合することを可能にするように、DNAリンカー1350に対して
位置する。特に、DNAリンカー1350の第一の領域1352は、認識配列1325と選択的にハイブ
リダイズし、かつDNAリンカー1350の第二の領域1354は、認識配列1345と選択的にハイブ
リダイズする。いくつかの態様において、第一の領域1352、および第二の領域1354は、DN
Aリンカー上で、互いに離れて配置されてよい。特に、いくつかの態様において、DNAリン
カーの第一の領域、およびDNAリンカーの第二の領域は、第一の領域と第二の領域との間
のハイブリダイズしないスペーサー配列によって、離れて配置されてよい。さらに、いく
つかの態様において、認識配列の配列は、DNAリンカーに対して完全には相補的ではない
場合があり得るが、しかし依然として、DNAリンカー配列に結合し得る。いくつかの態様
において、認識配列の長さは、5ヌクレオチド未満、5ヌクレオチド、6ヌクレオチド、7ヌ
クレオチド、8ヌクレオチド、9ヌクレオチド、10ヌクレオチド、11ヌクレオチド、12ヌク
レオチド、13ヌクレオチド、14ヌクレオチド、15ヌクレオチド、16ヌクレオチド、17ヌク
レオチド、18ヌクレオチド、19ヌクレオチド、20ヌクレオチド、21ヌクレオチド、22ヌク
レオチド、23ヌクレオチド、24ヌクレオチド、25ヌクレオチド、26ヌクレオチド、27ヌク
レオチド、28ヌクレオチド、29ヌクレオチド、30ヌクレオチド、または30ヌクレオチド超
であってよい。いくつかの態様において、認識配列は、相補的なDNAタグ配列に対して、1
つまたは複数の不整合を有してよい。いくつかの態様において、認識配列は、10ヌクレオ
チドのうちおよそ1個が、相補的DNAタグ配列に対して不整合であり得るが、しかし依然と
して、相補的DNAタグ配列にハイブリダイズし得る。いくつかの態様において、認識配列
は、10ヌクレオチドのうち1個未満が、相補的DNAタグ配列に対して不整合であり得るが、
しかし依然として、相補的DNAタグ配列にハイブリダイズし得る。いくつかの態様におい
て、認識配列は、10ヌクレオチドのうちおよそ2個が、相補的DNAタグ配列に対して不整合
であり得るが、しかし依然として、相補的DNAタグ配列にハイブリダイズし得る。いくつ
かの態様において、認識配列は、10ヌクレオチドのうち2個超が、相補的DNAタグ配列に対
して不整合であり得るが、しかし依然として、相補的DNAタグ配列にハイブリダイズし得
る。
親和性試薬はまた、磁気を帯びた構成要素を含んでよい。磁気を帯びた構成要素は、い
くつかのもしくはすべての結合した親和性試薬を同じ画像面またはzスタックで操作する
ために、有用であり得る。いくつかのまたはすべての親和性試薬を同じ画像面で操作する
ことは、画像化データの質を改善し得、かつシステム中のノイズを減少させ得る。
「検出器」との語は、本明細書において使用されるように、概して、シグナルを検出す
ることができる装置を指し、該シグナルは、タンパク質への親和性試薬の結合イベントの
存在または非存在を示すシグナルを含む。シグナルは、表面プラズモン共鳴(SPR)シグ
ナルなどの、結合イベントの存在または非存在を示す直接的なシグナルであってよい。シ
グナルは、蛍光シグナルなどの、結合イベントの存在または非存在を示す間接的なシグナ
ルであってよい。いくつかの場合において、検出器は、シグナルを検出することができる
、光学的なおよび/または電子的な構成要素を含んでよい。「検出器」との語は、検出方
法において使用され得る。検出方法の非限定的な例は、光学的検出、分光学的検出、静電
気学的検出、電気化学的検出、磁気的検出、蛍光検出、表面プラズモン共鳴(SPR)等を
含む。光学的検出方法は、限定されるものではないが、蛍光測定および紫外可視光吸光度
を含む。分光学的検出方法は、限定されるものではないが、質量分析、核磁気共鳴(NMR
)分光法、および赤外分光法を含む。静電気学的検出方法は、限定されるものではないが
、たとえばゲル電気泳動などの、ゲルに基づく技術を含む。電気化学的検出方法は、限定
されるものではないが、増幅産物の高速液体クロマトグラフィー分離後の、増幅産物の電
気化学的検出を含む。
試料におけるタンパク質同定
タンパク質は、生きている生物の細胞および組織の、重要な構成要素である。一定の生
物は、典型的にはプロテオームと称される、種々のタンパク質の大きなセットを産生する
。プロテオームは、時間とともに変化し得、かつ細胞または生物が経験するさまざまなス
テージ(たとえば細胞サイクルのステージもしくは疾患の状態)の機能としても変化し得
る。プロテオームの大規模研究(たとえば実験による分析)は、プロテオミクスと称され
得る。プロテオミクスにおいては、タンパク質を同定するための複数の方法が存在してお
り、該方法はイムノアッセイ(たとえば酵素結合免疫吸着アッセイ(ELISA)およびウェ
スタンブロット)、質量分光に基づく方法(たとえばマトリックス支援レーザー脱離イオ
ン化法(MALDI)およびエレクトロスプレーイオン化法(ESI))、混成の方法(たとえば
質量分析イムノアッセイ(MSIA))、ならびにタンパク質マイクロアレイを含む。たとえ
ば、単一分子プロテオミクスの手法が、アミノ酸の直接的な機能化から親和性試薬の使用
までにわたる多様なアプローチによって、試料中のタンパク質分子のアイデンティティを
推定するために、試みられてよい。そのようなアプローチから集められた情報または測定
は、典型的には、試料中に存在するタンパク質を同定するために、適したアルゴリズムに
よって分析される。
タンパク質の正確な定量はまた、感度の欠如、特異性の欠如、および検出器ノイズのた
めに、難題に直面し得る。特に、試料中のタンパク質の正確な定量は、タンパク質を同定
および定量する際に誤りを引き起こし得る、検出器のシグナルレベルにおける無作為かつ
予測不可能なシステム上の変動のために、難題に直面し得る。いくつかの場合において、
機器および検出体系は、機器の診断を、およびコモンモードでの挙動をモニターすること
によって、較正され得、かつ除去され得る。しかしながら、タンパク質の結合(たとえば
親和性試薬プローブによる)は、本質的には、理想的ではない感度および結合の特異性を
有する、確率論的なプロセスである。
本開示は、タンパク質の正確でかつ効率の良い同定のための方法およびシステムを提供
する。本明細書において提供される方法およびシステムは、試料中のタンパク質を同定す
る際の誤りを有意に減少または排除することができる。そのような方法およびシステムは
、未知のタンパク質の試料中の候補タンパク質の、正確でかつ効率の良い同定を達成し得
る。タンパク質同定は、1つまたは複数の候補タンパク質に選択的に結合するように設定
されている親和性試薬プローブの結合測定の情報を用いる、反復した算定に基づき得る。
タンパク質同定は、最小限のメモリフットプリントで計算できるように、最適化され得る
。タンパク質同定は、1つまたは複数の候補タンパク質のそれぞれが試料中に存在する信
頼水準を生成する工程を含み得る。
1つの局面において、本明細書において、未知のタンパク質の試料中の候補タンパク質
を反復して同定するための、コンピューターによって遂行される方法100が開示される(
たとえば図1に示されるように)。方法は、試料中の未知のタンパク質に対する複数の親
和性試薬プローブのそれぞれについての結合測定の情報を、コンピューターによって受信
する工程(たとえば工程105)を含み得る。いくつかの態様において、複数の親和性試薬
プローブは、複数の個々の親和性試薬プローブの、プールを含んでよい。たとえば、親和
性試薬プローブのプールは、2種類の、3種類の、4種類の、5種類の、6種類の、7種類の、
8種類の、9種類の、10種類の、または10種類超の親和性試薬プローブを含んでよい。いく
つかの態様において、親和性試薬プローブのプールは、2種類の親和性試薬プローブを含
んでよく、該組み合わせは、親和性試薬プローブのプール中の親和性試薬プローブの組成
の大半を占める。いくつかの態様において、親和性試薬プローブのプールは、3種類の親
和性試薬プローブを含んでよく、該組み合わせは、親和性試薬プローブのプール中の親和
性試薬プローブの組成の大半を占める。いくつかの態様において、親和性試薬プローブの
プールは、4種類の親和性試薬プローブを含んでよく、該組み合わせは、親和性試薬プロ
ーブのプール中の親和性試薬プローブの組成の大半を占める。いくつかの態様において、
親和性試薬プローブのプールは、5種類の親和性試薬プローブを含んでよく、該組み合わ
せは、親和性試薬プローブのプール中の親和性試薬プローブの組成の大半を占める。いく
つかの態様において、親和性試薬プローブのプールは、5種類超の親和性試薬プローブを
含んでよく、該組み合わせは、親和性試薬プローブのプール中の親和性試薬プローブの組
成の大半を占める。親和性試薬プローブのそれぞれは、複数の候補タンパク質の中の1つ
または複数の候補タンパク質に選択的に結合するように設定され得る。親和性試薬プロー
ブは、kマーの親和性試薬プローブであり得る。いくつかの態様において、kマーの親和性
試薬プローブそれぞれは、複数の候補タンパク質の中の1つまたは複数の候補タンパク質
に選択的に結合するように設定される。結合測定の情報は、未知のタンパク質に結合した
と考えられるプローブのセットを含み得る。
次に、結合測定の情報の少なくとも一部分が、複数のタンパク質配列を含むデータベー
スに対して、コンピューターによって比較され得る(たとえば工程110)。タンパク質配
列のそれぞれは、複数の候補タンパク質の中の1つの候補タンパク質に対応し得る。複数
の候補タンパク質は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40
個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90
個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくと
も300個、少なくとも350個、少なくとも400個、少なくとも450個、少なくとも500個、少
なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000
個、または1000個超の、異なる候補タンパク質を含んでよい。
次に、複数の候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれについて
、候補タンパク質が試料中に存在する確率が、コンピューターによって算定または生成さ
れ得る(たとえば工程115)。算定または生成は、反復して実施され得る。あるいは、算
定または生成は、反復せずに実施され得る。確率は、候補タンパク質の結合測定の情報の
、複数のタンパク質配列を含むデータベースに対する比較に基づいて、反復して生成され
得る。したがって、アルゴリズムへの入力は、タンパク質配列のデータベース、および未
知のタンパク質に結合したと考えられるプローブのセットを、含み得る。アルゴリズムの
出力は、データベース中の各タンパク質が試料中に存在し得る確率を、含み得る。
いくつかの態様において、工程115において算定される、出力される確率は、以下のよ
うに表現され得る:P(タンパク質_i | プローブ[1, 2, …, n], 長さ(タンパク質_i))。
この値は、タンパク質_iに結合するプローブのセット[1, 2, …, n]、およびタンパク質_
iの長さ(たとえばペプチドの数)が与えられるとき、所与のタンパク質(タンパク質_i
)が試料中に存在する確率を、示す。
いくつかの態様において、出力される確率を算定する工程は、1つまたは複数の親和性
試薬(プローブ)がタンパク質に着地する確率の積を求めることを含み得る。たとえば、
n個のプローブがタンパク質に結合することが検出されているならば、異なるプローブそ
れぞれがタンパク質に着地する確率は、P_着地_プローブ_1, P_着地_プローブ_2, …, P_
着地_プローブ_nのように表現され得る。したがって、1つまたは複数の親和性試薬(プロ
ーブ)がタンパク質に着地する確率の積は、Product(P_着地_プローブ_1, P_着地_プロー
ブ_2, …, P_着地_プローブ_n)のように表現され得る。
いくつかの態様において、出力される確率を算定する工程は、1つまたは複数の親和性
試薬(プローブ)がタンパク質に着地した確率の積を、長さ係数によって正規化すること
を含み得る。長さ係数は、長大な(たとえばより長い)タンパク質は、長大でない(たと
えばより短い)タンパク質と比較して、それに結合する(たとえば着地する)より多数の
親和性試薬を無作為に有する可能性がより高いという前提を、考慮に入れてよい。長さ係
数は、基数Len_i(タンパク質_iの長さを表す)のセットのうちのn個の組み合わせ、つま
り二項係数「Len_i choose n」として表現され得、これはChoose(Len_i, n)としても表さ
れ得る。長さ係数は、サイズnの要素のサブセット(たとえばタンパク質に着地するいく
つかのプローブ)を、それらの順番は考慮せずに、要素Len_iのセット(たとえば長さiの
タンパク質)から選択するための、異なる様式の数を表す。したがって、長さ係数で正規
化されたまたはそれで割った、1つまたは複数の親和性試薬(プローブ)がタンパク質に
着地した確率の積は、以下のように表現され得る:
[Product(P_着地_プローブ_1, P_着地_プローブ_2, …, P_着地_プローブ_n) / Choose(L
en_i, n)]。この値はまた、正規化されていない、タンパク質_iが試料中に存在する確率
とも、称され得る。
前記候補タンパク質の長さは、特定の親和性試薬との結合に関して、候補タンパク質に
おける利用可能なエピトープ(「結合部位」)の数に近似する代替値であることを認識し
た上で、いくつかの態様において、出力される確率を算定する工程は、前記確率それぞれ
を、前記候補タンパク質のそれぞれにおいて利用可能な結合部位の総数に対して正規化す
ることを含み得る。いくつかの態様において、前記候補タンパク質のそれぞれについて利
用可能な結合部位の数は、定性プロセスを用いて、実験によって決定される。いくつかの
態様において、前記定性プロセスは、特定のタンパク質への親和性試薬の結合を、繰り返
して測定する。いくつかの態様において、前記定性プロセスは、本明細書において記載さ
れるタンパク質同定の前記方法およびシステムの最中に示される条件と類似のまたは同一
の条件下で、実施される。
いくつかの態様において、出力される確率を算定する工程は、正規化されていない、タ
ンパク質_iが試料中に存在する確率を、正規化することを含み得る。正規化は、データベ
ース中のすべてのタンパク質(たとえば複数の候補タンパク質)にわたる、すべての正規
化されていない確率の合計で割ることを、含み得る。たとえば、データベース中のすべて
のタンパク質j(たとえば複数の候補タンパク質)にわたる、すべての正規化されていな
い確率の合計は、SUM(P(タンパク質_j | プローブ[1, …, n], 長さ(タンパク質_j))のよ
うに表現され得る。したがって、正規化された、タンパク質_iが試料中に存在する確率は
、以下のように表現され得る:
P(タンパク質_i | プローブ[1, 2, …, n], 長さ(タンパク質_i)) = [Product(P_着地_プ
ローブ_1, P_着地_プローブ_2, …, P_着地_プローブ_n) / Choose(Len_i, n)] / SUM(P(
タンパク質_j | プローブ[1, …, n], 長さ(タンパク質_j)))
いくつかの態様において、複数の確率を生成する工程は、複数の追加の親和性試薬プロ
ーブのそれぞれについての結合測定の追加の情報を、反復して受信することをさらに含む
。追加の親和性試薬プローブのそれぞれは、複数の候補タンパク質の中の1つまたは複数
の候補タンパク質に選択的に結合するように設定され得る。たとえば、出力される確率の
第一の値は、以下に表されるように、2つの着地するプローブに基づいて、各候補タンパ
ク質について生成され得る:
P(タンパク質_i | プローブ[1, 2], 長さ(タンパク質_i)) = [Product(P_着地_プローブ_
1, P_着地_プローブ_2 / Choose(Len_i, 2)] / SUM(P(タンパク質_j | プローブ[1, 2],
長さ(タンパク質_j)))
次に、複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報が
、反復して受信され得、そして出力される確率の、次の反復された値として、反復して算
定され得、それにより、出力される確率の第二の値を生成する。たとえば、出力される確
率の第二の値は、以下に表されるように、第一の2つの着地プローブ(プローブ1および2
)、ならびに第二の2つの着地プローブ(プローブ3および4)に基づいて、各候補タンパ
ク質について生成され得る:
P(タンパク質_i | プローブ[1, 2, 3, 4], 長さ(タンパク質_i)) = [Product(P_着地_プ
ローブ_1, P_着地_プローブ_2, P_着地_プローブ_3, P_着地_プローブ_4) / Choose(Len_
i, 4)] / SUM(P(タンパク質_j | プローブ[1, 2, 3, 4], 長さ(タンパク質_j)))
いくつかの態様において、工程115において算定または生成される、出力される確率は
、候補タンパク質における結合測定が、観測される測定アウトカムを生成する、確率であ
る。「結合測定アウトカム」との語は、本明細書において使用されるように、結合測定を
実施する際に観測される情報を指す。たとえば、親和性試薬結合実験の結合測定アウトカ
ムは、試薬の結合または非結合のいずれかであり得る。加えて、またはあるいは、複数の
候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれに関して、候補タンパク
質における結合測定が、観測される測定アウトカムを生成しない確率が、コンピューター
によって算定または生成され得る。加えて、またはあるいは、候補タンパク質における結
合測定が、観測されない測定アウトカムを生成する確率が、コンピューターによって算定
または生成され得る。加えて、またはあるいは、候補タンパク質における一連の結合測定
が、アウトカムセットを生成する確率が、コンピューターによって算定または生成され得
る。
「結合アウトカムセット」とは、本明細書において使用されるように、あるタンパク質
に関する、複数の独立した結合測定アウトカムを指す。たとえば、実験による、一連の親
和性試薬結合測定が、未知のタンパク質において実施され得る。個々の親和性試薬それぞ
れの結合測定は、結合測定アウトカムを含み、そしてすべての結合測定アウトカムのセッ
トが、結合アウトカムセットである。いくつかの場合において、結合アウトカムセットは
、観測されたすべての結合アウトカムのサブセットであってよい。いくつかの場合におい
て、結合アウトカムセットは、実験によって観測されなかった結合測定アウトカムを、含
んでよい。
加えて、またはあるいは、複数の候補タンパク質中の1つまたは複数の候補タンパク質
のそれぞれに関して、未知のタンパク質が候補タンパク質である確率が、コンピューター
によって算定または生成され得る。
工程115における確率は、未知のタンパク質の結合測定アウトカムの、すべての候補タ
ンパク質に関する複数のタンパク質配列を含むデータベースに対する比較に基づいて、生
成され得る。したがって、アルゴリズムへの入力は、候補タンパク質配列のデータベース
、および結合測定(たとえば、未知のタンパク質に結合したと考えられるプローブ)のセ
ットを含み得る。いくつかの場合において、アルゴリズムへの入力は、親和性試薬の任意
のものが候補タンパク質の任意のものに関して任意の結合測定を生成する確率(たとえば
、各親和性試薬に関する、三量体レベルの結合確率)を推測することに関するパラメータ
ーを、含み得る。アルゴリズムの出力は、仮定された候補タンパク質のアイデンティティ
が与えられるとき、結合測定アウトカムがまたは結合アウトカムセットが観測される確率
を、含み得る。加えて、またはあるいは、アルゴリズムの出力は、結合測定アウトカムが
または結合アウトカムセットが与えられるとき、未知のタンパク質に関して、候補タンパ
ク質のセットから選択される最も可能性の高いアイデンティティ、および該同定が正確で
ある確率を、含み得る。加えて、またはあるいは、アルゴリズムの出力は、高確率の候補
タンパク質のアイデンティティのグループ、および未知のタンパク質がグループ中のタン
パク質の1つであるという、関連する確率を、含み得る。候補タンパク質が、測定された
タンパク質であるとすると、結合測定アウトカムが観測される確率は、以下のように表現
され得る:
P(結合測定アウトカム | タンパク質)
いくつかの態様において、P(結合測定アウトカム | タンパク質)は、完全にインシリコ
で算定される。いくつかの態様において、P(結合測定アウトカム | タンパク質)は、タン
パク質のアミノ酸配列の特徴に基づいて算定される、または該特徴に由来する。いくつか
の態様において、P(結合測定アウトカム | タンパク質)は、タンパク質のアミノ酸配列の
知見からは独立して算定される。たとえば、P(結合測定アウトカム | タンパク質)は、タ
ンパク質候補の単離物における繰り返しの実験において結合測定を入手し、そしてP(結合
測定アウトカム | タンパク質)を頻度:(結合測定の総数で割った、アウトカムを有する
結合測定の数)から算定することによって、実験により決定され得る。いくつかの態様に
おいて、P(結合測定アウトカム | タンパク質)は、タンパク質についての過去の結合測定
のデータベースに基づいて算定される、またはそれに由来する。いくつかの態様において
、P(結合測定アウトカム | タンパク質)は、打ち切りの結合測定の結果を有する未知のタ
ンパク質の集団から、信頼性を有するタンパク質同定のセットを生成し、そしてその後、
候補タンパク質として信頼性を有して同定された、未知のタンパク質のセットの中の、結
合測定アウトカムの頻度を算定することに基づいて算定される、またはそれに由来する。
いくつかの態様において、未知のタンパク質の集団が、P(結合測定アウトカム | タン
パク質)のシード値を用いて同定され得、かつシード値は、候補タンパク質に信頼性を有
して整合した未知のタンパク質の中の、結合測定アウトカムの頻度に基づいて、改良され
得る。いくつかの態様において、このプロセスは、アップデートされた結合測定アウトカ
ムの確率に基づいて生成された、新規の同定を用いて繰り返され、そしてその後、新規の
結合測定アウトカムの確率が、信頼性を有する同定のアップデートされたセットから、生
成され得る。いくつかの態様において、1つまたは複数のタンパク質について結合測定ア
ウトカムの確率を予測するためのインシリコモデルのパラメーターは、信頼性を有して同
定される未知のタンパク質の中の、観測された結合測定アウトカムに基づいて、学習また
はアップデートされる。いくつかの態様において、このプロセスは、アップデートされた
インシリコモデルに基づいて生成された新規の同定を用いて繰り返され、そしてその後、
新規の測定アウトカムの確率が、アップデートされたインシリコモデルから、生成され得
る。
候補タンパク質が、測定されているタンパク質であるとすると、結合測定アウトカムが
観測されない確率は、以下のように表現され得る:
P(非結合測定アウトカム | タンパク質) = 1 - P(結合測定アウトカム | タンパク質)
候補タンパク質が、測定されているタンパク質であるとすると、N個の個々の結合測定
アウトカムからなる結合測定アウトカムセットが観測される確率は、個々の結合測定アウ
トカムそれぞれについての確率の積として、表現され得る:
P(結合アウトカムセット | タンパク質) = P(結合測定アウトカム1 | タンパク質) * P(
結合測定アウトカム2 | タンパク質) * … * P(結合測定アウトカムN | タンパク質)
未知のタンパク質が候補タンパク質(タンパク質i)である確率は、可能性のある候補
タンパク質それぞれについての結合アウトカムセットの確率に基づいて、算定され得る。
いくつかの態様において、未知のタンパク質が候補タンパク質(タンパク質i)である
確率は、N個の候補タンパク質の完全なセットの各候補タンパク質jについて結合アウトカ
ムセットが観測される合計の確率の分数として、算定される:
Figure 2024059673000002
いくつかの態様において、結合測定アウトカムセットは、親和性試薬プローブの結合を
含む。いくつかの態様において、結合測定アウトカムセットは、親和性試薬プローブの非
特異的結合を含む。
いくつかの態様において、方法は、試料において測定されたすべての未知のタンパク質
に方法を適用する工程をさらに含む。いくつかの態様において、方法は、1つまたは複数
の候補タンパク質のそれぞれに関して、候補タンパク質が試料中の未知のタンパク質の1
つに整合する信頼水準を生成する工程をさらに含む。信頼水準は、確率値(probability
value)を含み得る。あるいは、信頼水準は、誤りを有する確率値を、含み得る。あるい
は、信頼水準は、ある信頼度(約90%の、約95%の、約96%の、約97%の、約98%の、約99%の
、約99.9%の、約99.99%の、約99.999%の、約99.9999%の、約99.99999%の、約99.999999%
、約99.9999999%の、約99.99999999%の、約99.999999999%の、約99.9999999999%の、約99
.99999999999%の、約99.999999999999%の、約99.9999999999999%の信頼度、または99.999
9999999999%超の信頼度)を任意で有する、ある範囲の確率値を、含み得る。
いくつかの態様において、方法は、タンパク質同定、および関連する確率を、試料中の
未知のタンパク質それぞれについて、独立して生成する工程、ならびに試料中の、同定さ
れた独特なタンパク質すべてのリストを生成する工程を、さらに含む。いくつかの態様に
おいて、方法は、試料中の候補タンパク質それぞれの量を決定するために、独特な候補タ
ンパク質それぞれについて生成された同定の数を数える工程をさらに含む。いくつかの態
様において、タンパク質同定および関連する確率の集合物は、高いスコア、高い信頼度、
および/または低い偽発見率の同定のみが含まれるように、フィルタリングされ得る。
いくつかの態様において、結合確率は、全長の候補タンパク質に対する親和性試薬に関
して生成され得る。いくつかの態様において、結合確率は、タンパク質断片(たとえば完
全なタンパク質配列の部分配列)に対する親和性試薬に関して生成され得る。たとえば、
未知のタンパク質それぞれの最初の100アミノ酸のみがコンジュゲートされているような
様式で、未知のタンパク質が処理されそして基材にコンジュゲートされた場合、最初の10
0アミノ酸以外のエピトープ結合についてのすべての結合確率がゼロに、またはあるいは
誤り率を表す非常に低い確率にセットされるようにして、結合確率はタンパク質候補それ
ぞれについて生成され得る。類似のアプローチが、各タンパク質の最初の10アミノ酸、20
アミノ酸、50アミノ酸、100アミノ酸、150アミノ酸、200アミノ酸、300アミノ酸、400ア
ミノ酸、または400超のアミノ酸が基材にコンジュゲートされる場合に、使用され得る。
類似のアプローチが、最後の10アミノ酸、20アミノ酸、50アミノ酸、100アミノ酸、150ア
ミノ酸、200アミノ酸、300アミノ酸、400アミノ酸、または400超のアミノ酸が基材にコン
ジュゲートされる場合に、使用され得る。
いくつかの態様において、タンパク質が、コンジュゲーションの前または後に、断片を
生成するために処理されている可能性がある場合、各タンパク質の断片化は、確定的でな
くてよい。たとえば、タンパク質は、基材へのコンジュゲーションの前に、物理的に剪断
され得る。そのような場合においては、親和性試薬の結合確率は、タンパク質断片のアイ
デンティティ(たとえば該断片を含む完全なタンパク質候補の部分配列の開始点および停
止点)を用いてジョイントモデル化され得る。たとえば、期待値最大化アプローチが、各
タンパク質候補について結合確率を生成する際に使用され得、該アプローチは、観測され
た結合測定に基づいて、タンパク質候補によって生成された、もっとも可能性の高い断片
の推測を、反復して改良し、そして次に、モデル化されたタンパク質断片への各親和性試
薬の結合の確率をアップデートする。
いくつかの場合において、タンパク質断片のモデリングは、タンパク質候補から特定の
断片を生成する尤度についての事前知識を組み込んでよい。たとえば、タンパク質断片の
、予想される長さ分布についての事前知識が、与えられ得る。別の例として、リジンまた
はアルギニンによって挟まれたタンパク質断片に好都合な事前知識が、未処理のタンパク
質が、コンジュゲーションの前にトリプシン酵素を用いて処理される場合に、与えられ得
る。いくつかの態様において、結合測定がそれに対して比較される、候補タンパク質配列
のデータベースは、タンパク質断片を含んでよい。たとえば、供給源試料のトリプシン消
化物に由来するペプチド混合物が基材にコンジュゲートされた場合、タンパク質候補リス
トは、未処理のタンパク質配列のデータベースのインシリコでの消化から生成された、完
全にトリプシン消化されたあらゆるペプチドを、含み得る。そのような場合においては、
親和性試薬の結合測定からの結果は、試料中の未知のタンパク質の断片それぞれについて
、最も可能性の高いトリプシン消化されたペプチドを同定するために、使用され得る。そ
のような場合においては、結果としてもたらされるペプチドのアイデンティティおよび/
または量は、タンパク質推定アプローチを用いる、タンパク質レベルの測定へと、変換さ
れ得、該アプローチの多数の例は、たとえば質量分析の分野において、存在する。
いくつかの態様において、整合対の片方として1つのタンパク質候補が、未知のタンパ
ク質へと割り当てられることができない場合、整合対の片方として潜在的なタンパク質候
補のグループが、未知の候補に割り当てられ得る。信頼水準は、グループ中のタンパク質
候補のいずれかのうち1つである未知のタンパク質に、割り当てられ得る。信頼水準は、
確率値を含み得る。あるいは、信頼水準は、誤りを有する確率値を、含み得る。あるいは
、信頼水準は、ある信頼度(たとえば、約90%の、約95%の、約96%の、約97%の、約98%の
、または約99%の信頼度)を任意で有する、ある範囲の確率値を、含み得る。たとえば、
未知のタンパク質は、2つのタンパク質候補に、強固に整合し得る。2つのタンパク質候補
は、高い配列類似性を有し得る(たとえば、タンパク質アイソフォーム、カノニカル配列
と比較して1アミノ酸変異を有するタンパク質)。これらの場合においては、個々のタン
パク質候補が高い信頼度で割り当てられることはない可能性があるが、しかしながら高い
信頼度は、強固に整合する2つのタンパク質候補を含む「タンパク質グループ」のうちの
、単一のしかし未知のメンバーに整合する、未知のタンパク質に、起因し得る。
いくつかの態様において、未知のタンパク質が光学的に区別されない状態を検出するた
めの労力が費やされ得る。たとえば、まれな出来事として、2つ以上のタンパク質が基材
の同じ「ウェル」または位置に結合する可能性が、これが生じるのを防ぐための労力にも
かかわらず、ある。いくつかの場合において、コンジュゲートされたタンパク質は、非特
異的な色素によって処理されてよく、そして色素からのシグナルが測定されてよい。2つ
以上のタンパク質が光学的に区別されないという状況においては、色素から生じるシグナ
ルは、タンパク質1つを含む位置よりも強いものであり得、かつ複数のタンパク質が結合
している位置を知らせるために使用され得る。
いくつかの態様において、複数の候補タンパク質は、未知のタンパク質の試料がそれか
ら得られるもしくはそれに由来する、ヒトもしくは生物のDNAもしくはRNAを、配列決定も
しくは分析することによって、生成される、または修飾される。
いくつかの態様において、方法は、未知のタンパク質の翻訳後修飾についての情報を導
き出す工程をさらに含む。翻訳後修飾についての情報は、特定の修飾の性質についての知
見無しの、翻訳後修飾の存在を含み得る。データベースは、PTMの指数積とみなされ得る
。たとえば、タンパク質候補配列が未知のタンパク質に割り当てられたら、アッセイされ
たタンパク質についての親和性試薬結合のパターンが、以前の実験からの、同じ候補への
親和性試薬の結合測定を含むデータベースと、比較され得る。たとえば、結合測定のデー
タベースは、既知の位置において既知の配列の未改変のタンパク質を含む核酸プログラマ
ブルタンパク質アレイ(Nucleic Acid Programmable Protein Array)(NAPPA)への結合
に、由来してよい。
あるいは、結合測定のデータベースは、タンパク質候補配列が未知のタンパク質に、信
頼性を有して割り当てられた以前の実験に、由来してよい。アッセイされたタンパク質と
既存の測定のデータベースとの間の、結合測定における不一致は、翻訳後修飾の尤度につ
いての情報を提供し得る。たとえば、親和性作用物質が、データベースにおいて、候補タ
ンパク質への高頻度の結合を有するが、アッセイされたタンパク質には結合しない場合、
翻訳後修飾がタンパク質上のどこかに存在する、より高い尤度が存在する。それについて
結合の不一致がある親和性試薬に関して、結合エピトープが既知である場合、翻訳後修飾
の位置は、親和性試薬の結合エピトープの場所に、またはその近くに、位置する可能性が
ある。いくつかの態様において、特定の翻訳後修飾についての情報は、特定の翻訳後修飾
を特異的に除去する酵素でタンパク質-基材コンジュゲートを処理する前および後に、繰
り返される親和性試薬測定を実施することによって、導き出され得る。たとえば、結合測
定は、一連の親和性試薬に関して、ホスファターゼでの基材の処理の前に入手されてよく
、そしてその後、ホスファターゼでの処理の後に繰り返されてよい。ホスファターゼ処理
の前には未知のタンパク質に結合するが、ホスファターゼ処理後には結合しない(差異の
ある結合の)親和性試薬は、リン酸化の証拠を提供する。差異のある結合の親和性試薬に
よって認識されるエピトープが既知である場合、リン酸化は、親和性試薬に対する結合エ
ピトープの場所に、またはその近くに、位置する可能性がある。
いくつかの場合において、特定の翻訳後修飾の数は、特定の翻訳後修飾に対する親和性
試薬を用いた結合測定を用いて、決定され得る。たとえば、リン酸化イベントを認識する
抗体が、親和性試薬として使用されてよい。この試薬の結合は、未知のタンパク質におけ
る少なくとも1つのリン酸化の存在を示し得る。いくつかの場合において、未知のタンパ
ク質における、特定のタイプの別個の翻訳後修飾の数が、特定の翻訳後修飾に対して特異
的な親和性試薬について測定された結合イベントの数を数えることによって、決定され得
る。たとえば、リン酸化特異的抗体が、蛍光レポーターにコンジュゲートされてよい。こ
の場合、蛍光シグナルの強度が、未知のタンパク質に結合したリン酸化特異的親和性試薬
の数を決定するために、使用され得る。未知のタンパク質に結合したリン酸化特異的親和
性試薬の数は、次に、未知のタンパク質におけるリン酸化部位の数を決定するために、使
用され得る。いくつかの態様において、より正確な、翻訳後修飾の数、同定、または配置
を導き出すために、親和性試薬の結合実験からの証拠は、翻訳後に修飾されている可能性
のあるアミノ酸配列モチーフまたは特異的なタンパク質の位置についての既存の知見(た
とえばdbPTM、PhosphoSitePlus、もしくはUniProtから)と、組み合わせられ得る。たと
えば、翻訳後修飾の位置が、親和性測定のみからは、正確には決定されない場合、関心対
象の翻訳後修飾にしばしば関連するアミノ酸配列モチーフを含む位置が、好都合であり得
る。
いくつかの態様において、確率を生成する工程は、結合測定の情報に関連する、検出器
の誤り率を考慮に入れることを含む。検出器の誤り率は、真の着地率を含み得る。たとえ
ば、検出器の誤り率は、プローブのタンパク質への「着地」の失敗に起因し得、これはた
とえば、プローブがシステムにおいてスタックし、そして適切に洗い流されない場合、ま
たはプローブが、プローブの以前の定性および試験に基づいて予想されることのなかった
タンパク質に結合する場合である。あるいは、検出器の誤り率は、検出器の物理的な誤り
に起因し得、かつ結合測定の情報を入手するために使用される1つまたは複数の検出器の
仕様書から、得られ得る。検出器の誤り率は、以下のうちの1つまたは複数を含み得る:
検出器の物理的な誤り率、オフターゲット結合率、またはスタックしたプローブによる誤
り率。いくつかの態様において、検出器の誤り率は、検出器の推測誤り率にセットされる
。あるいは、検出器の推測誤り率は、コンピューターのユーザーによってセットされてよ
い。いくつかの態様において、検出器の推測誤り率は、約0.0001、約0.0002、約0.0003、
約0.0004、約0.0005、約0.0006、約0.0007、約0.0008、約0.0009、約0.001、約0.002、約
0.003、約0.004、約0.005、約0.006、約0.007、約0.008、約0.009、約0.01、約0.02、約0
.03、約0.04、約0.05、約0.06、約0.07、約0.08、約0.09、約0.1、または約0.1超である
ヒットテーブルは、ヒットテーブルの列のそれぞれが異なるタンパク質(たとえば、異
なる長さを有する)を表すように、および/またはヒットテーブルの行のそれぞれが異な
るプローブを表すように、生成され得る。ヒットテーブルの所与の要素(たとえば行jお
よび列iにおいて)の各値は、試料に曝露された、所与のプローブjが、所与のタンパク質
iに結合できるか否かを示す値を、含み得る。たとえば、プローブjがタンパク質iに結合
できる場合、ヒットテーブルの要素は1にセットされることができ(たとえば行jおよび列
iにおいて)、かつ、そうでない場合は0にセットされることができる。この情報は徐々に
到着し得るので、したがってヒットテーブルは、反復して計算されてよい。
ヒットテーブルから、確率マトリックスが算定または生成され得る。プローブjが試料
中のタンパク質iに曝露されるとすると、確率マトリックスの所与の要素の各値は、結合
測定が観測される確率を示す値を含み得る。この確率は、P(タンパク質_i | プローブ_j)
のように表現されることができる。対応するヒットテーブルエントリーが、1より大きい
かまたは1と等しい場合、確率マトリックスエントリーは、真の着地率(たとえばP_着地_
プローブ_j))にセットされることができる。対応するヒットテーブルエントリーが0で
ある場合、確率マトリックスエントリーは、検出器の誤り率(たとえば0.0001)にセット
されることができる。検出器の誤り率は、以下のうちの1つまたは複数を含み得る:検出
器の物理的な誤り率、オフターゲット結合率、またはスタックしたプローブによる誤り率
いくつかの態様において、複数の確率を反復して生成する工程は、続く反復から、複数
の候補タンパク質からの1つまたは複数の候補タンパク質を除去することをさらに含み、
それにより、確率の反復した生成を実施するために必要ないくつかの反復を減少させる。
いくつかの態様において、1つまたは複数の候補タンパク質を除去することは、候補タン
パク質に関連する結合測定の所定の基準に少なくとも基づいている。いくつかの態様にお
いて、所定の基準は、複数の親和性試薬プローブの中の第一の複数への、所定の閾値を下
回る結合測定を有する、1つまたは複数の候補タンパク質を、含む。タンパク質は、たと
えば、k個のプローブの結合が測定された後で、そのP(タンパク質 i | プローブ [1..k])
が0.01未満、0.001未満、0.0001未満、0.00001未満、0.000001未満、または0.0000001未
満である場合に、検討から除外され得る。タンパク質はまた、それが試料から、実験上除
去された場合にも、検討から除外され得る。
いくつかの態様において、本明細書の他の箇所において記載されるように、確率のそれ
ぞれは、候補タンパク質の長さに対して正規化される。いくつかの態様において、本明細
書の他の箇所において記載されるように、確率のそれぞれは、複数候補タンパク質の確率
の総和に対して正規化される。いくつかの態様において、複数の親和性試薬プローブは、
10個以下、20個以下、30個以下、40個以下、50個以下、60個以下、70個以下、80個以下、
90個以下、100個以下、150個以下、200個以下、250個以下、300個以下、350個以下、400
個以下、450個以下、500個以下、または500個超の親和性試薬プローブを含む。
いくつかの態様において、確率は、所定の条件が満たされるまで、反復して生成される
。いくつかの態様において、所定の条件は、少なくとも50%、少なくとも55%、少なくとも
60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、
少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少な
くとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少
なくとも99.9%の信頼度で複数の確率のそれぞれを生成することを、含む。
いくつかの態様において、方法は、試料中の1つまたは複数の未知のタンパク質を同定
する紙のまたは電子的なレポートを生成する工程をさらに含む。紙のまたは電子的なレポ
ートは、候補タンパク質のそれぞれに関して、候補タンパク質が試料中に存在することの
信頼水準を、さらに示し得る。信頼水準は、確率値を含み得る。あるいは、信頼水準は、
誤りを有する確率値を、含み得る。あるいは、信頼水準は、ある信頼度(たとえば90%の
、95%の、96%の、97%の、98%の、または99%の信頼度)を任意で有する、ある範囲の確率
値を、含み得る。紙のまたは電子的なレポートは、予想される偽発見率の閾値(たとえば
、10%未満、5%未満、4%未満、3%未満、2%未満、1%未満、0.5%未満、0.4%未満、0.3%未満
、0.2%未満、または0.1%未満の偽発見率)を下回って同定されるタンパク質候補のリスト
を、さらに示し得る。偽発見率は、信頼度の降順で、タンパク質同定を最初に並べ替える
ことによって、推測され得る。並べ替えられたリストにおける、任意の点での推測された
偽発見率は、その後、1 - avg_c_probとして算定され得、ここでavg_c_probは、リストに
おける現在の点またはそれより前の(より高い信頼度)、すべてのタンパク質についての
平均の候補の確率である。望ましい偽発見率の閾値を下回るタンパク質同定のリストは、
その後、並べ替えられたリストにおける、偽発見率が閾値よりも高い、最も初期の点より
前の、すべてのタンパク質同定を戻すことによって、生成され得る。あるいは、望ましい
偽発見率の閾値を下回るタンパク質同定のリストは、並べ替えられたリストにおける、偽
発見率が望ましい閾値を下回るかまたはそれと等しい、最も後期の点を含めた、それより
前のすべてのタンパク質を戻すことによって、生成され得る。
いくつかの態様において、試料は、生物学的試料を含む。生物学的試料は、対象から得
られてよい。いくつかの態様において、方法は、複数の確率に少なくとも基づいて、対象
における疾患の状態または障害を同定する工程をさらに含む。いくつかの態様において、
方法は、各タンパク質候補について生成された同定の数を数えることによって、タンパク
質を定量する工程をさらに含む。たとえば、試料中に存在するタンパク質の絶対量(タン
パク質分子の数)は、タンパク質候補から生成された、信頼性を有する同定の数を数える
ことによって算定されることができる。いくつかの態様において、量は、アッセイされた
未知のタンパク質の総数のパーセンテージとして、算定され得る。いくつかの態様におい
て、生の同定数は、機器および検出システムからのシステム上の誤りを除去するために、
較正され得る。いくつかの態様において、量は、タンパク質候補の可検出性の変動によっ
て引き起こされる量の偏りを除去するために、較正され得る。タンパク質の可検出性は、
実験による測定、またはコンピューターシミュレーションから評価され得る。
疾患または障害は、感染性疾患、免疫障害もしくは免疫疾患、がん、遺伝性疾患、変性
疾患、生活習慣病、創傷、希少疾患、または加齢に関する疾患であり得る。感染性疾患は
、細菌、ウイルス、菌類、および/または寄生生物によって引き起こされ得る。がんの非
限定的な例は、膀胱がん、肺がん、脳のがん、黒色腫、乳がん、非ホジキンリンパ腫、子
宮頸がん、卵巣がん、結腸、直腸のがん、膵臓がん、食道がん、前立腺がん、腎臓がん、
皮膚がん、白血病、甲状腺がん、肝臓がん、および子宮がんを含む。遺伝性疾患または遺
伝性障害のいくつかの例は、限定されるものではないが、嚢胞性線維症、シャルコー・マ
リー・トゥース病、ハンチントン病、ポイツ・ジェガース症候群、ダウン症候群、関節リ
ウマチ、およびテイ・サックス病を含む。生活習慣病の非限定的な例は、肥満、糖尿病、
動脈硬化症、心臓病、脳卒中、高血圧、肝硬変、腎炎、がん、慢性閉塞性肺疾患(copd)
、聴覚の問題、および慢性背痛を含む。創傷のいくつかの例は、限定されるものではない
が、擦過傷、脳損傷、挫傷、火傷、震とう症、うっ血性心不全、建築現場での傷害、脱臼
、動揺胸、骨折、血胸、椎間板ヘルニア、ヒップポインター、低体温症、裂傷、神経が圧
迫された状態、気胸、肋骨骨折、坐骨神経痛、脊髄損傷、腱、靭帯、筋膜の創傷、外傷性
脳損傷、およびむち打ち症を含む。
別の局面において、本明細書において、未知のタンパク質の試料中の候補タンパク質を
同定するための、コンピューターによって遂行される方法が開示される。方法は、試料中
の未知のタンパク質に対する複数の親和性試薬プローブのそれぞれについての結合測定の
情報を、コンピューターによって受信する工程を含み得る。親和性試薬プローブは、kマ
ーの親和性試薬プローブであり得る。いくつかの態様において、kマーの親和性試薬プロ
ーブそれぞれは、複数の候補タンパク質の中の1つまたは複数の候補タンパク質に選択的
に結合するように設定される。結合測定の情報は、未知のタンパク質に結合したと考えら
れるプローブのセットを含み得る。
次に、結合測定の情報の少なくとも一部分が、複数のタンパク質配列を含むデータベー
スに対して、コンピューターによって比較され得る。タンパク質配列のそれぞれは、複数
の候補タンパク質の中の1つの候補タンパク質に対応し得る。複数の候補タンパク質は、
少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、
少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個
、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも
350個、少なくとも400個、少なくとも450個、少なくとも500個、少なくとも600個、少な
くとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、または1000個超
の、異なる候補タンパク質を含んでよい。
次に、複数の候補タンパク質からの1つまたは複数の候補タンパク質が、さらなる検討
(たとえば、その後に続く計算、反復、算定、または確率の生成)から、除去され得る。
複数の候補タンパク質からの、1つまたは複数の候補タンパク質の除去は、結合測定の情
報の、複数のタンパク質配列を含むデータベースに対する比較に、少なくとも基づき得る
いくつかの態様において、1つまたは複数の候補タンパク質の除去は、候補タンパク質
に関連する結合測定の所定の基準に少なくとも基づいている。いくつかの態様において、
所定の基準は、複数の親和性試薬プローブの中の第一の複数への、所定の閾値を下回る結
合測定を有する、1つまたは複数の候補タンパク質を、含む。いくつかの態様において、
候補タンパク質は、たとえば、k個のプローブの結合が測定された後で、そのP(タンパク
質 i | プローブ [1..k])が0.01未満、0.001未満、0.0001未満、0.00001未満、0.000001
未満、または0.0000001未満である場合に、検討から除外され得る。タンパク質はまた、
それが試料から、実験上除去された場合にも、検討から除外され得る。
いくつかの態様において、複数の親和性試薬プローブは、10個以下、20個以下、30個以
下、40個以下、50個以下、60個以下、70個以下、80個以下、90個以下、100個以下、150個
以下、200個以下、250個以下、300個以下、350個以下、400個以下、450個以下、500個以
下、または500個超の、親和性試薬プローブを含む。
いくつかの態様において、それに関する結合測定が実施される親和性試薬プローブは、
測定を実施する前に、完全に決定される。いくつかの態様において、それに関する結合測
定が実施されるべき親和性試薬プローブのセットまたは順は、その時までに入手された結
合測定の、反復されるコンピューターによる分析に基づいて、実験中に改変されるかまた
は導き出される。たとえば、親和性プローブの順番付けは、未同定の未知のタンパク質に
ついて明確な同定を生成する可能性がより高いプローブを用いる結合実験を優先させるよ
うに、反復して最適化され得る。そのような最適化は、その時まで未同定の未知のタンパ
ク質に関して最上位の2つの、最上位の3つの、最上位の4つの、最上位の5つの、または最
上位の5つ超の候補タンパク質配列を、区別するプローブを選択することに、基づき得る
いくつかの態様において、方法は、試料中の1つまたは複数の未知のタンパク質を同定
する紙のまたは電子的なレポートを生成する工程をさらに含む。紙のまたは電子的なレポ
ートは、候補タンパク質のそれぞれに関して、候補タンパク質が試料中に存在することの
信頼水準を、さらに示し得る。信頼水準は、確率値を含み得る。あるいは、信頼水準は、
誤りを有する確率値を、含み得る。あるいは、信頼水準は、ある信頼度(たとえば、90%
の、95%の、96%の、97%の、98%の、99%の信頼度)を任意で有する、ある範囲の確率値を
、含み得る。いくつかの態様において、試料は、生物学的試料を含む。生物学的試料は、
対象から得られてよい。いくつかの態様において、方法は、複数の確率に少なくとも基づ
いて、対象における疾患の状態または障害を同定する工程をさらに含む。
疾患または障害は、感染性疾患、免疫障害もしくは免疫疾患、がん、遺伝性疾患、変性
疾患、生活習慣病、創傷、希少疾患、または加齢に関する疾患であり得る。感染性疾患は
、細菌、ウイルス、菌類、および/または寄生生物によって引き起こされ得る。がんの非
限定的な例は、膀胱がん、肺がん、脳のがん、黒色腫、乳がん、非ホジキンリンパ腫、子
宮頸がん、卵巣がん、結腸、直腸のがん、膵臓がん、食道がん、前立腺がん、腎臓がん、
皮膚がん、白血病、甲状腺がん、肝臓がん、および子宮がんを含む。遺伝性疾患または遺
伝性障害のいくつかの例は、限定されるものではないが、嚢胞性線維症、シャルコー・マ
リー・トゥース病、ハンチントン病、ポイツ・ジェガース症候群、ダウン症候群、関節リ
ウマチ、およびテイ・サックス病を含む。生活習慣病の非限定的な例は、肥満、糖尿病、
動脈硬化症、心臓病、脳卒中、高血圧、肝硬変、腎炎、がん、慢性閉塞性肺疾患(copd)
、聴覚の問題、および慢性背痛を含む。創傷のいくつかの例は、限定されるものではない
が、擦過傷、脳損傷、挫傷、火傷、震とう症、うっ血性心不全、建築現場での傷害、脱臼
、動揺胸、骨折、血胸、椎間板ヘルニア、ヒップポインター、低体温症、裂傷、神経が圧
迫された状態、気胸、肋骨骨折、坐骨神経痛、脊髄損傷、腱、靭帯、筋膜の損傷、外傷性
脳損傷、およびむち打ち症を含む。
いくつかの態様において、方法は、タンパク質ではなく小分子(たとえば代謝物)また
はグリカンを、同定する、および定量する工程を含む。たとえば、多様な性質を有して糖
もしくは糖の組み合わせに結合する、レクチンまたは抗体などの親和性試薬が、グリカン
を同定するために使用されてよい。さまざまな糖または糖の組み合わせに結合する親和性
試薬の性質は、市販のグリカンアレイへの結合を分析することによって、特徴付けされ得
る。未知のグリカンは、ヒドロキシル基反応性の化学反応を用いて、機能化された基材に
コンジュゲートされ得、そして結合測定は、グリカンに結合する親和性試薬を用いて入手
され得る。基材上の未知のグリカンへの、親和性試薬の結合測定は、特定の糖を有する、
または糖の特定の組み合わせを有するグリカンの数を直接的に定量するために、使用され
得る。あるいは、未知のグリカンそれぞれの構造を同定するために、1つまたは複数の結
合測定は、本明細書において記載される推定アルゴリズムを用いて、候補グリカン構造の
データベースから予測された結合測定と、比較され得る。いくつかの態様において、タン
パク質が基材に結合され、そして、グリカン親和性試薬を用いる結合測定が、タンパク質
に結合したグリカンを同定するために生成される。さらに、結合測定は、タンパク質バッ
クボーン配列およびコンジュゲートされたグリカンの同定を単一の実験で生成するために
、グリカン親和性試薬およびタンパク質親和性試薬の両方を用いてなされ得る。別の例と
して、スルフヒドリル、カルボニル、アミン、または活性水素などの、代謝物中に一般的
に見出されるカップリング基を標的とする化学反応を用いて機能化された基材に、代謝物
がコンジュゲートされ得る。結合測定は、特定の官能基、構造モチーフ、または代謝物に
対し、異なる性質を有する親和性試薬を用いてなされてよい。結果としてもたらされる結
合測定は、候補小分子のデータベースについて予測された結合測定と、比較され得、そし
て本明細書において記載される推定アプローチが、基材上の各位置における代謝物を同定
するために、使用され得る。
コンピューター制御システム
本開示は、本開示の方法を遂行するためにプログラムされたコンピューターシステムを
提供する。図2は、コンピューターシステム201を示し、これは:試料中の未知のタンパク
質への、親和性試薬プローブの結合測定の情報を受信するように、結合測定の情報を、候
補タンパク質に対応する複数のタンパク質配列を含むデータベースに対して比較するよう
に、および/もしくは候補タンパク質が試料中に存在する確率を反復して生成するように
、プログラムされているか、または別の状況では、そうするように設定されている。
コンピューターシステム201は、たとえば、試料中の未知のタンパク質への、親和性試
薬プローブの結合測定の情報を受信する工程、結合測定の情報を、候補タンパク質に対応
する複数のタンパク質配列を含むデータベースに対して比較する工程、および/または候
補タンパク質が試料中に存在する確率を反復して生成する工程などの、本開示の方法なら
びにシステムのさまざまな局面を制御することができる。
コンピューターシステム201は、ユーザーの電子装置、または電子装置に対して遠隔に
位置するコンピューターシステムであり得る。電子装置は携帯型電子装置であり得る。コ
ンピューターシステム201は中央処理装置(CPU、同じく本明細書における「プロセッサ」
および「コンピュータープロセッサ」)205を含み、これはシングルコアもしくはマルチ
コアプロセッサ、または並列処理のための複数のプロセッサであり得る。コンピューター
システム201はまた、メモリーまたはメモリーロケーション210(たとえばランダムアクセ
スメモリー、読み出し専用メモリー、フラッシュメモリー)、電子ストレージユニット21
5(たとえばハードディスク)、1つまたは複数の他のシステムとの通信のための通信イン
ターフェース220(たとえばネットワークアダプター)、ならびにキャッシュ、他のメモ
リー、データストレージおよび/もしくは電子ディスプレイアダプターなどの周辺装置22
5を含む。メモリー210、ストレージユニット215、インターフェース220、および周辺装置
225は、マザーボードなどの通信バス(実線)を経由して、CPU 205と通信する。ストレー
ジユニット215は、データを記憶するためのデータストレージユニット(またはデータレ
ポジトリ)であり得る。コンピューターシステム201は、通信インターフェース220の補助
を受けて、コンピューターネットワーク(「ネットワーク」)230に機能的に連結され得
る。ネットワーク230は、インターネット(the Internet)、インターネット(an intern
et)および/もしくはエクストラネット、またはインターネット(the Internet)と通信
するイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク230は
、いくつかの場合において、電気通信および/またはデータネットワークである。ネット
ワーク230は、クラウドコンピューティングなどの分散コンピューティングを可能にし得
る1つまたは複数のコンピューターサーバーを含み得る。ネットワーク230は、いくつかの
場合において、コンピューターシステム201の補助を受けて、コンピューターシステム201
に連結される装置がクライアントまたはサーバーとして機能することを可能にし得るピア
トゥピアネットワークを実装し得る。
CPU 205は、プログラムまたはソフトウェアの形で具現化され得る、機械で読み取り可
能な指示のシーケンスを実行することができる。指示は、メモリー210などのメモリーロ
ケーションにおいて記憶されてよい。指示はCPU 205に向けられ得、これは次いで、本開
示の方法を遂行するために、CPU 205をプログラムし得るまたは他の方法で設定し得る。C
PU 205により実施される作業の例は、フェッチ、デコード、実行、およびライトバックを
含み得る。
CPU 205は、集積回路などの回路の一部であり得る。システム201の1つまたは複数の他
の構成要素は、該回路に含まれ得る。いくつかの場合において、該回路は特定用途向け集
積回路(ASIC)である。
ストレージユニット215は、ドライバー、ライブラリー、および保存されたプログラム
などのファイルを記憶可能である。ストレージユニット215は、たとえば、ユーザープリ
ファレンスおよびユーザープログラムといったユーザーデータを記憶可能である。コンピ
ューターシステム201は、いくつかの場合において、イントラネットまたはインターネッ
ト(the Internet)を経由してコンピューターシステム201と通信する遠隔のサーバーに
位置するものなどの、コンピューターシステム201の外部の、1つまたは複数の追加のデー
タストレージユニットを含み得る。
コンピューターシステム201は、ネットワーク230を経由して、1つまたは複数の遠隔の
コンピューターシステムと通信可能である。たとえば、コンピューターシステム201は、
ユーザーの遠隔のコンピューターシステムと通信可能である。遠隔のコンピューターシス
テムの例は、パーソナルコンピューター(たとえば携帯型PC)、スレート型もしくはタブ
レット型PC(たとえばApple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話
機、スマートフォン(たとえばApple(登録商標)iPhone、Androidが作動可能な装置、Bl
ackberry(登録商標))、またはパーソナルデジタルアシスタントを含む。ユーザーは、
ネットワーク230を介してコンピューターシステム201にアクセス可能である。
本明細書において記載されるような方法は、たとえばメモリー210上または電子ストレ
ージユニット215上などのコンピューターシステム201の電子ストレージロケーション上に
記憶された、機械(たとえばコンピュータープロセッサ)で実行可能なコードによって、
遂行され得る。機械で実行可能なまたは機械で読み取り可能なコードは、ソフトウェアの
形で提供され得る。使用の間に、コードはプロセッサ205によって実行され得る。いくつ
かの場合において、コードはストレージユニット215から引き出され得、そしてプロセッ
サ205の速やかなアクセスのためにメモリー210に記憶され得る。いくつかの状況において
は、電子ストレージユニット215は除外され得、かつ機械で実行可能な指示はメモリー210
に記憶される。
コードはプリコンパイルされ得、かつコードを実行するために適合されたプロセッサを
有する機械での使用のために設定され得るか、または実行時の最中にコンパイルされ得る
。コードは、プリコンパイルされる様式または実行時にコンパイルされる(as-compiled
)様式でコードを実行することを可能にするように選択され得るプログラミング言語で供
給され得る。
コンピューターシステム201などの、本明細書において提供されるシステムおよび方法
の局面は、プログラミングの形で具現化され得る。技術のさまざまな局面が、機械で読み
取り可能な媒体の一種類で運ばれるもしくは具現化される、典型的には機械(もしくはプ
ロセッサ)で実行可能なコードおよび/もしくは関連付けられるデータの形である「物品
」または「製品」として、みなされてよい。機械で実行可能なコードは、メモリー(たと
えば読み出し専用メモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハ
ードディスクのような、電子ストレージユニット上に記憶され得る。「ストレージ」タイ
プの媒体は、コンピューター、プロセッサ、もしくは同様のものの有形メモリー、もしく
はさまざまな半導体メモリー、テープドライブ、ディスクドライブおよび同様のものなど
の関連するそのモジュールの、任意のものまたはすべてを含み得、これらはソフトウェア
プログラミングの際にいつでも非一過性ストレージを提供し得る。ソフトウェアのすべて
または一部分は、インターネット(the Internet)またはさまざまな他の電気通信ネット
ワークを経由して、時々通信してよい。そのような通信は、たとえば、1つのコンピュー
ターまたはプロセッサから別のものへ、たとえば、マネージメントサーバーまたはホスト
コンピューターからアプリケーションサーバーのコンピュータープラットフォームへ、ソ
フトウェアを読み込ませることを可能にし得る。したがって、ソフトウェア要素を運び得
る別の種類の媒体は、ローカル装置間の物理的なインターフェースを通過して使用される
もの、有線のおよび光学の固定電話ネットワークを経由して使用されるもの、ならびにさ
まざまなエアリンクを通じて使用されるものなどの、光波、電波、ならびに電磁波を含む
。有線もしくは無線リンク、光学リンク、または同様のものなどの、そのような波を運ぶ
物理的な要素もまた、ソフトウェアを運ぶ媒体としてみなされてよい。本明細書において
使用されるように、非一過性で有形の「ストレージ」媒体に限定されない限り、コンピュ
ーターでまたは機械で「読み取り可能な媒体」などの語は、実行のためのプロセッサへの
指示の提供に関与する、任意の媒体を指す。
したがって、コンピューターで実行可能なコードなどの機械で読み取り可能な媒体は、
限定するものではないが、有形のストレージ媒体、搬送波媒体、または物理的な伝達媒体
を含む、多くの形をとり得る。不揮発性のストレージ媒体は、たとえば、任意のコンピュ
ーターまたは同様のものにおける任意のストレージ装置などや、図面において示されるデ
ータベース等を実装するために使用され得るものなどの、光学もしくは磁気ディスクを含
む。揮発性ストレージ媒体は、コンピュータープラットフォーム等のメインメモリーなど
の、ダイナミックメモリーを含む。有形の伝達媒体は、コンピューターシステム中のバス
を含む配線を含む、同軸ケーブル;銅線、および光ファイバーを含む。搬送波伝達媒体は
、電気信号もしくは電磁信号の形、または無線周波(RF)での、および赤外線での(IR)
データ通信の間に生成されるものなどの、音波もしくは光波の形をとってよい。コンピュ
ーターで読み取り可能な媒体の一般的な形態は、したがって、たとえば以下を含む:フロ
ッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気
媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穿孔
のパターンを有する任意の他の物理的なストレージ媒体、RAM、ROM、PROMおよびEPROM、F
LASH-EPROM、任意の他のメモリーチップもしくはカートリッジ、データもしくは指示を運
ぶ搬送波、そのような搬送波を運ぶケーブルもしくはリンク、またはコンピューターが読
み込み得るプログラミングコードおよび/もしくはデータからの、任意の他の媒体。コン
ピューターで読み取り可能な媒体のこれらの形態の多くが、実行のためにプロセッサへ1
つまたは複数の指示の1つまたは複数のシーケンスを運ぶことに関与し得る。
コンピューターシステム201は、たとえば、アルゴリズム、結合測定データ、候補タン
パク質、およびデータベースのユーザー選択を提供するためのユーザーインターフェース
(UI)240を含む電子ディスプレイ235を、含むことができる、またはこれと通信すること
ができる。UIの例は、限定するものではないが、グラフィカルユーザーインターフェース
(GUI)およびウェブベースのユーザーインターフェースを含む。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって遂行され得る
。アルゴリズムは、中央処理装置205による実行に際し、ソフトウェアによって遂行され
得る。アルゴリズムは、たとえば、試料中の未知のタンパク質への、親和性試薬プローブ
の結合測定の情報を受信することができ、結合測定の情報を、候補タンパク質に対応する
複数のタンパク質配列を含むデータベースに対して比較することができ、および/または
候補タンパク質が試料中に存在する確率を反復して生成することができる。
実施例1-候補タンパク質6個のデータベースを用いるタンパク質同定
データベースが長さ:{276, 275, 151, 437, 244, 644}の候補タンパク質6個を含む状
況を、検討する。加えて実験は、所与の三量体への結合の25%の尤度をそのそれぞれが有
する、5個のプローブを用いて実施する。これらの試薬が結合する他の三量体は、データ
ベース中のいかなるタンパク質にも見出されない。
ヒットテーブルが、データベース中の各配列に対するプローブに関して構築される。
(行 = プローブ#1~#5、列 = SEQ ID 1~6)
Figure 2024059673000003
とりわけ、この情報は徐々に到着するので、したがって反復して計算されてよい。以下
に示されるように、ヒットテーブルから、P(タンパク質_i | プローブ_j)が、確率マトリ
ックスを生成するために評価される。所与のエントリーに関して、ヒットテーブル >= 1
であるならば、P_着地_プローブ_n = 真の着地率 = 0.25が使用され;そうではなくヒッ
トテーブル = 0であれば、P(検出器の誤り) = 0.0001が使用されることに、注意されたい

Figure 2024059673000004
多くのセルが0.0001の確率を含むことに注意されたい。この小さい確率は、検出器の誤
りが原因である可能性がある。
最初に、正規化されていない、タンパク質の確率が、各候補タンパク質について、確率
の積として算定される:
Figure 2024059673000005
次に、長さの正規化が計算され、これは、いくつかの数のプローブが、所与のタンパク
質に着地する様式の数を、タンパク質の長さの関数として表す。長さの正規化は、Choose
(Len_i, n)との語として表される。たとえば、第一のタンパク質は、[276 choose 5]の長
さの正規化を有し、かつ第二のタンパク質は、[275 choose 5]の長さの正規化を有する。
いくつかの態様において、長さの正規化は、Len_i! / (len_i! - n!)として算定される順
列の数として算定され得、ここで演算!は階乗を示す。
Figure 2024059673000006
次に、上記からの積(ProductP)は、この長さ補正を考慮に入れるために、長さの正規
化で割ることによって正規化され、これを以下に示す:
Figure 2024059673000007
次に、データベース全体にわたる確率のセット全体が合計されて1になるように、確率
が正規化される。これは、LenNormP値が1.53E-13になるよう合計し、そしてその後、最終
的な釣り合った確率を達成するために、この正規化によってLenNormPのそれぞれを割るこ
とによって、達成される:
Figure 2024059673000008
タンパク質のうち4つは極度に可能性が低い一方で、タンパク質1および2の区別を明確
にすることは多少難しいことに、注目されたい。データベースから見て、これは、タンパ
ク質1と2との間に、点欠失1つの差異だけがあるためと予想される。また、タンパク質1お
よび2はそれぞれ50%の確率を分け合い、一方でタンパク質3~6は本質的にゼロの確率を有
することにも、注目されたい。
実験上の技術において、プローブは連続して検出される;したがって、この関数を反復
して計算することが望ましい。これを達成するための、複数の異なる手法が存在しており
、その一例が以下に示される。
実施例2-抗体の混合物を用いる、タンパク質同定
開示される態様と一致して、1,000個の未知のヒトタンパク質の同定を、Santa Cruz Bi
otechnology社のカタログからの市販の抗体のプールを用いる結合測定を入手することに
よって、ベンチマークテストとして実施した。1,000個の未知のタンパク質が、約21,005
個のタンパク質を含むUniprotタンパク質データベースから、無作為に選択された。ヒト
タンパク質に対して反応性を有する、Santa Cruz Biotechnology社のカタログから利用可
能なモノクローナル抗体のリストが、オンライン抗体レジストリからダウンロードされた
。このリストは22,301個の抗体を含んでいた、そして、Uniprotヒトタンパク質データベ
ース中のタンパク質に整合した14,566個の抗体のリストへと、フィルタリングされた。本
実験においてモデル化された抗体の完全な集団は、これらの14,566個の抗体を含んでいた
。1,000個の未知のタンパク質候補への抗体混合物の結合の、実験による評価は、以下の
ように実施された。
最初に、抗体の混合物50個が、モデル化された。いずれの混合物1つを作製するのにも
、抗体の総集団からの5,000個の抗体が、無作為に選択された。
次に各混合物に関して、結合確率が、未知のタンパク質のいずれかに対する混合物につ
いて決定された。タンパク質は、ゴールがそれらのアイデンティティを推定することであ
るという意味で「未知」であるが、アルゴリズムは「未知のタンパク質」それぞれの真の
アイデンティティを承知している点に、注意されたい。混合物が、未知のタンパク質に対
する抗体を含む場合、0.99の結合確率が割り当てられた。混合物が、未知のタンパク質に
対する抗体を含まない場合、0.0488の結合確率が割り当てられた。
混合物についての非特異的結合の確率は、任意の個々の抗体が、その標的以外のタンパ
ク質に結合する、予想される確率、および混合物中のタンパク質の数に基づいて、モデル
化された。この実験による評価に関して、個々の抗体がその標的タンパク質以外の何かに
結合するという非特異的結合イベントに、0.00001(1E-5)の確率があるとみなされた。
抗体の混合物についての非特異的結合イベントの確率は、混合物中の任意の1つの抗体が
非特異的に結合する確率である。この確率は、1から、混合物中の5000個すべての抗体が
非特異的に結合しない確率を差し引いたもの、つまり 1 - (1 - 1e-5)^1000 = 0.0488 と
して、算定された。
各未知のタンパク質に関して、結合が、未知のタンパク質への抗体混合物の結合確率に
基づいて、測定された抗体混合物それぞれについて評価された。0の最小値および1の最大
値を有する一様分布が無作為にサンプリングされ、そして、結果としてもたらされる数が
、未知のタンパク質への抗体混合物の結合確率未満であれば、実験は該混合物について、
結合イベントをもたらした。そうでなければ、実験は該混合物について、非結合イベント
をもたらした。評価されるすべての結合イベントを用いて、タンパク質推定は以下のよう
に実施される。
各未知のタンパク質に関して、一連の評価された結合イベント(全50個、混合物1個に
つき1個)は、Uniprotデータベース中の、21,005個のタンパク質候補のそれぞれに対して
評価された。より具体的には、一連の結合イベントを観測する確率が、各候補に関して算
定された。確率は、測定されたすべての50個の混合物にわたる、個々の混合物それぞれの
結合イベント/非結合イベントの確率を掛けることによって、算定された。結合確率は、
上述したのと同じ様式で算定され、かつ非結合の確率は、1から結合確率を差し引いたも
のである。最大の結合確率を有するタンパク質クエリー候補が、未知のタンパク質につい
て推定されるアイデンティティである。該個々のタンパク質に関して同定が正確である確
率は、すべての候補の合計された確率で割った、最上位の個々の候補の確率として、算定
された。
1,000個の未知のタンパク質のそれぞれについて推定されるアイデンティティを用いて
、未知のタンパク質は、それらの同定の確率の降順で並べ替えられた。同定の確率のカッ
トオフは、リスト中で先行するすべての同定の中の不正確な同定のパーセンテージが1%で
あるように、選択された。全体として、1,000個の未知のタンパク質のうち551個が、1%の
不正確な同定率で同定された。
実施例3:結合測定アウトカムを用いるタンパク質同定
本明細書において記載される方法は、未同定のタンパク質への親和性試薬の結合および
/または非結合に関連するデータの、異なるサブセットに適用され得る。いくつかの態様
において、本明細書において記載される方法は、測定された結合アウトカムのうちの特定
のサブセットが検討されない(たとえば非結合測定アウトカム)実験に適用され得る。測
定された結合アウトカムのうちのあるサブセットが検討されないこれらの方法は、本明細
書において、「打ち切り」の推定アプローチ(たとえば実施例1に記載されるようなアプ
ローチ)と称され得る。図3に記載される結果において、打ち切りの推定アプローチの結
果として得られるタンパク質同定は、特定の未同定のタンパク質に関連する結合イベント
の発生を評価することに基づいている。したがって、打ち切りの推定アプローチは、未知
のタンパク質のアイデンティティを決定する際に、非結合アウトカムを検討しない。
このタイプの打ち切りの推定アプローチは、得られるすべての結合アウトカムが検討さ
れる(たとえば、特定の未同定のタンパク質に関連する、結合測定アウトカムおよび非結
合測定アウトカムの両方)、「非打ち切り」のアプローチとは、対照をなす。いくつかの
態様において、特定の結合測定もしくは結合測定アウトカムが、より誤りを生じやすいも
のであると予想される、またはタンパク質について予想される結合測定アウトカム(たと
えば、タンパク質によって該結合測定アウトカムが生成される確率)から逸脱する可能性
があると予想される場合に、打ち切りのアプローチは、適用可能であり得る。たとえば、
親和性試薬の結合実験において、結合測定アウトカムの、および非結合測定アウトカムの
確率が、大部分が直線構造を有する変性したタンパク質への結合に基づいて、算定され得
る。これらの条件において、エピトープは、親和性試薬に容易に接近可能であり得る。し
かしながら、いくつかの態様において、アッセイされたタンパク質試料における結合測定
は、非変性条件下または部分的な変性条件下で収集され得、該条件下ではタンパク質は、
著しい3次元構造を有する「折りたたまれた」状態で存在し、これは多くの場合において
、親和性試薬が結合する、直線型では接近可能であるタンパク質上のエピトープを、折り
たたまれた状態においては立体障害(steric hinderance)のために接近不可能にさせ得
る。たとえば、あるタンパク質に関して、親和性試薬が認識するエピトープが、折りたた
まれたタンパク質の、構造的に接近可能な領域にある場合、未知の試料において入手され
る、実験による結合測定は、直線化されたタンパク質に由来する結合の算定された確率と
、一致することが予想され得る。しかしながら、たとえば、親和性試薬によって認識され
るエピトープが、構造上接近不可能である場合、直線化されたタンパク質に由来する結合
の算定された確率から予想されるよりも多い、非結合アウトカムが存在することが予想さ
れ得る。さらに、タンパク質の周囲の特定の条件に基づいて、3次元構造が、いくつかの
可能性のある異なる立体配置で形成され得、かつ、可能性のある異なる立体配置のそれぞ
れは、所望の親和性試薬の接近可能性の程度に基づいて、特定の親和性試薬への結合に関
して独特な予想を有し得る。
したがって、非結合アウトカムは、各タンパク質に関して算定された結合確率から逸脱
することが予想され得、かつ、結合アウトカムを検討するのみである、打ち切りの推定ア
プローチが、適切であり得る。図3に提供されるような「打ち切り」の推定アプローチに
おいては、測定された結合アウトカムのみが検討され(言い換えると、非結合アウトカム
が測定されないか、または測定された非結合アウトカムが検討されないのいずれか)、し
たがって、結合測定をもたらした、M個の測定された結合アウトカム、これは、結合測定
アウトカムおよび非結合測定アウトカムの両方を含む、N個の全部の測定された結合アウ
トカムのうちのサブセットであるが、これのみを、結合アウトカムセットの確率は考慮す
る。これは、以下の表現によって記述され得る:
P(アウトカムセット | タンパク質) = P(結合イベント1 | タンパク質) * P(結合イベン
ト2 | タンパク質) * … * P(結合イベントM | タンパク質)
打ち切りのアプローチを適用する場合、偏りを補正するために、スケール因子をP(結合
アウトカムセット | タンパク質)に適用することが適切であり得る。たとえば、より長い
タンパク質は、概して、潜在的な結合アウトカムを生成する、より高い確率を有する(た
とえばそれらは、潜在的な結合部位をより多くを含むため)。この偏りを補正するために
、スケール変換された尤度SLが、P(結合アウトカムセット | タンパク質)を、M箇所の結
合部位の独特な組み合わせの数、これはタンパク質上の潜在的な結合部位の数に基づいて
、タンパク質から生成されることができるものであるが、これで割ることによって、各候
補タンパク質について算定され得る。三量体認識部位を有する、長さLであるタンパク質
に関して、L-2個の潜在的な結合部位が存在し得(たとえば、完全なタンパク質配列の、
可能性のある長さLの部分配列ごとに)、したがって以下のとおりとなる:
Figure 2024059673000009
可能性のある候補タンパク質Q個の集団から選択される任意の候補タンパク質の確率は
、アウトカムセットが与えられるとき、以下のように表され得る:
Figure 2024059673000010
打ち切りのタンパク質推定アプローチ 対 非打ち切りのタンパク質推定アプローチの
態様の性能は、図3にプロットされる。図3にプロットされるデータは、表1に提供される
(表1)
Figure 2024059673000011
図3に示される比較において、タンパク質同定の感度(たとえば、同定される独特なタ
ンパク質のパーセント)が、直線状のタンパク質基材において使用された打ち切りの推定
および非打ち切りの推定の両方について、測定された親和性試薬群の数に対してプロット
される。使用される親和性試薬は、プロテオーム中で最上位の最も豊富な三量体を標的と
しており、かつ各親和性試薬は、追加の無作為な三量体4つに対してオフターゲット親和
性を有する。100個の親和性試薬群が使用される場合に、非打ち切りのアプローチは、10
倍超の差で、打ち切りのアプローチよりも性能が優れている。非打ち切りの推定が打ち切
りの推定よりも性能が優れている度合いは、より多い群が使用される場合に、減少する。
実施例4:無作為な偽陰性のおよび偽陽性の親和性試薬の結合に対する、タンパク質同定
の許容性
いくつかの場合において、親和性試薬結合に関して、偽陰性の結合測定アウトカムが多
発することが起こり得る。「偽陰性」の結合アウトカムは、予想されるよりも少ない頻度
で生じる親和性試薬結合測定として現れる。そのような「偽陰性」のアウトカムは、たと
えば、結合検出方法、結合条件(たとえば、温度、緩衝液組成物等)、タンパク質試料の
劣化、または親和性試薬ストックの劣化の問題のために生じ得る。打ち切りのタンパク質
同定アプローチおよび非打ち切りのタンパク質同定アプローチにおける、偽陰性測定の影
響を決定するため、親和性試薬測定群のサブセットは、10個のうち1個、100個のうち1個
、1,000個のうち1個、10,000個のうち1個、または100,000個のうち1個のいずれかの、無
作為な、観測された結合イベントを、非結合イベントへとインシリコで交換することによ
って、意図的に劣化させた。全300個の親和性試薬群のうち、0個、1個、50個、100個、20
0個、または300個のいずれかを、この様式で劣化させた。図4にプロットされる結果によ
って示されるように、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク
質同定アプローチの両方とも、このタイプの無作為な偽陰性の結合を許容する。図4にプ
ロットされるデータは、表2に提供される。
(表2)
Figure 2024059673000012
Figure 2024059673000013
同様に、「偽陽性」の結合アウトカムへの許容性が、結合アウトカムのサブセットを、
非結合アウトカムから結合アウトカムへと交換することによって、評価された。この評価
の結果は、表3に提供される。
(表3)
Figure 2024059673000014
Figure 2024059673000015
Figure 2024059673000016
図5にプロットされるこれらの結果は、無作為な偽陽性測定の発生が増加すると、打ち
切りのタンパク質同定アプローチの性能は、非打ち切りのタンパク質同定アプローチより
も急速に悪化することを示す。しかしながら、両方のアプローチは、親和性試薬群ごとに
1000個のうち1個の偽陽性率、または親和性試薬群のサブセットにおいて100個のうち1個
の割合を、許容する。
実施例5:過大に推測されたまたは過小に推測された親和性試薬結合確率を用いるタンパ
ク質推定の性能
タンパク質同定の感度は、三量体への親和性試薬の、正確に推測された結合確率、およ
び過大に推測されたまたは過小に推測された結合確率を用いるタンパク質同定を用いて、
評価された。真の結合確率は、0.25であった。過小に推測された結合確率は:0.05、0.1
、および0.2であった。過大に推測された結合確率は、0.30、0.50、0.75、および0.90で
あった。全部で300個の親和性試薬測定の群が入手された。親和性試薬のうち、無し(0個
)、300個すべて、またはサブセット(1個、50個、100個、200個)は、過大に推測された
、または過小に推測された結合確率を適用された。他のすべては、タンパク質同定におい
て、正確な結合確率(0.25)が使用された。分析の結果は、表4に提供される。
(表4)
Figure 2024059673000017
Figure 2024059673000018
Figure 2024059673000019
図6にプロットされるこれらの結果は、結合確率が正確に推測されない可能性があるい
くつかの場合において、打ち切りのタンパク質同定が好ましいアプローチであり得ること
を示す。
実施例6:未知の結合エピトープを有する親和性試薬を用いるタンパク質推定アプローチ
の性能
いくつかの場合において、親和性試薬は、いくつかの未知の結合部位を有し得る。親和
性試薬結合測定を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタン
パク質同定アプローチの感度は、5つの三量体部位(たとえば、1つの標的三量体、および
4つの無作為なオフターゲット部位)に、タンパク質同定アルゴリズムに入力される0.25
の確率でそれぞれ結合する親和性試薬を用いて、比較された。親和性試薬のサブセット(
300個のうち0個、300個のうち1個、300個のうち50個、300個のうち100個、300個のうち20
0個、もしくは300個のうち300個)は、1個、4個、または40個のいずれかの、追加の余分
な結合部位を有しており、該部位はそれぞれ、無作為な三量体に対して0.05、0.1、また
は0.25の結合確率を有していた。分析の結果は、表5に示される。
(表5)
Figure 2024059673000020
Figure 2024059673000021
Figure 2024059673000022
図7にプロットされるこれらの結果は、非打ち切りの推定は、追加の隠された結合部位
を包含させることへの許容性がより高いこと、および両方の推定アプローチの性能は、30
0個の親和性試薬のうち50個が、40個の追加の結合部位を含む場合に、有意に損なわれる
ことを示す。
実施例7:結合エピトープを欠く親和性試薬を用いるタンパク質推定アプローチの性能
いくつかの場合において、存在していない、アノテーションされたいくつかの結合エピ
トープ(たとえば、余分な予想される結合部位)を用いて、不適切に特徴付けされている
親和性試薬が、存在し得る。つまり、親和性試薬に関して予想される結合確率を生成する
ために使用されるモデルは、存在しない、余分な予想される部位を含む。親和性試薬結合
測定を用いる、打ち切りのタンパク質同定アプローチおよび非打ち切りのタンパク質同定
アプローチの感度は、無作為な三量体部位(たとえば、1つの標的三量体、および4つの無
作為なオフターゲット部位)に、タンパク質同定アルゴリズムに入力される0.25の確率で
それぞれ結合する親和性試薬を用いて、比較された。親和性試薬のサブセット(300個の
うち0個、300個のうち1個、300個のうち50個、300個のうち100個、300個のうち200個、も
しくは300個のうち300個)は、1個、4個、または40個のいずれかの、余分な予想される結
合部位を有しており、該部位はそれぞれ、無作為な三量体に対して結合確率0.05、0.1、
または0.25を有し、タンパク質推定アルゴリズムによって使用される親和性試薬について
のモデルに追加された。分析の結果は、表6に示される。
(表6)
Figure 2024059673000023
Figure 2024059673000024
Figure 2024059673000025
Figure 2024059673000026
図8にプロットされるこれらの結果は、非打ち切りの推定は、親和性試薬結合のモデル
に含まれる余分な予想される結合部位を包含させることへの許容性がより高いこと、およ
び両方のタンパク質同定アプローチの性能は、親和性試薬の大部分が、40個の余分な予想
される結合部位を含む場合に、ある程度損なわれることを示す。
実施例8:別のスケール変換戦略を用いる、親和性試薬結合分析のための打ち切りの推定
本明細書において記載される方法は、確率のさまざまなスケール変換戦略との組み合わ
せで親和性試薬結合測定を用いる、タンパク質のアイデンティティの推定(たとえば未知
のタンパク質の同定)に、適用され得る。実施例3に記載される打ち切りの推定アプロー
チは、タンパク質における潜在的な結合部位の数(タンパク質の長さ - 2)、および観測
された結合アウトカムの数(M)に基づき、タンパク質に関する観測されたアウトカムの
確率をスケール変換する:
Figure 2024059673000027
本明細書において記載される方法は、スケール変換された尤度を計算するための別のア
プローチに、適用され得る。この例は、タンパク質を測定するために使用される親和性試
薬のセットから、長さkのタンパク質に関してN個の結合イベントを生成する確率をモデル
化し、そしてこの確率に基づいてスケール変換する、正規化のための別のアプローチを、
適用する。最初に、各プローブに関して、プローブが、試料中の未知のアイデンティティ
の三量体に結合する確率が、算定される:
Figure 2024059673000028
ここで、P(三量体j)は、プロテオーム中のすべての8,000個の三量体の合計数と比較し
た、三量体が存在する頻度である。長さkの任意のタンパク質に関して、プローブiがタン
パク質に結合する確率は、以下のように表され得る:
P(タンパク質の結合 | プローブi, k) = 1 - (1 - P(三量体の結合 | プローブi))k-2
長さkのタンパク質に関して観測された、成功した結合イベントの数は、n回の試行をと
もなうポアソン二項分布に従い得、ここでnは、タンパク質に関してなされたプローブの
結合測定の数であり、かつ分布のパラメーターpプローブ, kは、各試行について成功の確
率を示す:
pプローブ, k = [P(結合 | プローブ1, k), P(結合 | プローブ2, k), P(結合 | プロー
3, k) … P(結合 | プローブn, k)]
プローブの特定のセットを用いて、長さkのタンパク質からN個の結合イベントを生成す
る確率は、pによってパラメーター化され、Nにおいて評価される、ポアソン二項分布の確
率質量関数(PMFPoiBin)として表され得る:
P(N個の結合イベント | プローブ, k) = PMFPoiBin (N, pプローブ, k)
特定のアウトカムセットのスケール変換された尤度が、この確率に基づいて計算される

Figure 2024059673000029
実施例9:無作為に選択される親和性試薬の使用
本明細書において記載される方法は、親和性試薬の任意のセットに適用され得る。たと
えば、タンパク質同定アプローチは、プロテオーム中で最も豊富な三量体を標的とする親
和性試薬に、または無作為な三量体を標的とする親和性試薬に、適用され得る。プロテオ
ーム中で最上位の最も豊富な三量体300個を標的とする親和性試薬、プロテオーム中で無
作為に選択された三量体300個を標的とする親和性試薬、またはプロテオーム中で最も乏
しい三量体300個を標的とする親和性試薬を用いるヒトタンパク質推定分析からの結果は
、表7a~表7cに示される。
表7a~表7c
(表7a)プロテオーム中の最も少ない三量体を標的とする、300個の親和性試薬
Figure 2024059673000030
(表7b)プロテオーム中の無作為な三量体を標的とする、300個の親和性試薬
Figure 2024059673000031
Figure 2024059673000032
Figure 2024059673000033
Figure 2024059673000034
Figure 2024059673000035
Figure 2024059673000036
Figure 2024059673000037
Figure 2024059673000038
Figure 2024059673000039
Figure 2024059673000040
Figure 2024059673000041
Figure 2024059673000042
Figure 2024059673000043
Figure 2024059673000044
Figure 2024059673000045
Figure 2024059673000046
(表7c)プロテオーム中の最も多い三量体を標的とする、300個の親和性試薬
Figure 2024059673000047
これらの結果は、図9にプロットされる。すべての場合において、各親和性試薬は、標
的三量体に対して0.25の結合確率を有しており、かつ、無作為に選択された追加の三量体
に対して0.25~4の結合確率を有していた。各親和性試薬セットの性能は、感度(たとえ
ば同定されるタンパク質のパーセンテージ)に基づいて測定される。各親和性試薬セット
は、5回繰り返して評価され、ここで各繰り返しの性能は点としてプロットされ、そして
垂直の線が、親和性試薬の同じセットからの繰り返しの測定をつないでいる。最上位の最
も豊富な300個の親和性試薬からなる、親和性試薬のセットからの結果は、青色であり、
最下位の300個では緑色である。無作為な三量体を標的とする親和性試薬300個の、全部で
100個の異なるセットが生成され、そして評価された。それらセットのそれぞれは、灰色
の垂直の線でつながれた、5つの灰色の点(1つが各繰り返しを表す)のセットによって表
される。この分析において使用された非打ち切りの推定から見て、より豊富な三量体を標
的とすることは、無作為な三量体を標的とすることと比べて、同定の性能を改善する。
実施例10:バイオシミラーオフターゲット部位を有する親和性試薬
本明細書において記載される方法は、異なるタイプのオフターゲット結合部位(エピト
ープ)を有する親和性試薬を用いる親和性試薬結合実験に、適用され得る。この実施例に
おいては、親和性試薬の2つのクラスの性能が比較される:無作為な親和性試薬、および
「バイオシミラー」親和性試薬。これらの評価からの結果は、表8a~表8dに示される。
表8a~表8d
(表8a)バイオシミラーオフターゲット部位を有しており、かつプロテオーム中で最
も豊富な三量体300個を標的とする親和性試薬を用いる、打ち切りの推定の性能
Figure 2024059673000048
(表8b)バイオシミラーオフターゲット部位を有しており、かつプロテオーム中で最
も豊富な三量体300個を標的とする親和性試薬を用いる、非打ち切りの推定の性能
Figure 2024059673000049
(表8c)無作為なオフターゲット部位を有しており、かつプロテオーム中で最も豊富
な三量体300個を標的とする親和性試薬を用いる、打ち切りの推定の性能
Figure 2024059673000050
(表8d)無作為なオフターゲット部位を有しており、かつプロテオーム中で最も豊富
な三量体300個を標的とする親和性試薬を用いる、非打ち切りの推定の性能
Figure 2024059673000051
無作為な親和性試薬とは異なり、バイオシミラー親和性試薬は、標的エピトープと生化
学的に類似する、オフターゲット結合部位を有する。無作為な親和性試薬およびバイオシ
ミラー親和性試薬の両方とも、それらの標的エピトープ(たとえば三量体)を、結合確率
0.25で認識する。無作為なクラスの親和性試薬のそれぞれは、結合確率0.25の、無作為に
選択されたオフターゲット三量体結合部位4つを有する。対照的に、「バイオシミラー」
親和性試薬の、4つのオフターゲット結合部位は、親和性試薬の標的三量体に最も類似す
る4つの三量体であり、これらは確率0.25で結合される。これらのバイオシミラー親和性
試薬に関して、三量体配列の間の類似性が、配列位置それぞれでのアミノ酸対についてBL
OSUM62係数を合計することによって、計算される。無作為な親和性試薬のセットおよびバ
イオシミラー親和性試薬のセットの両方は、ヒトプロテオーム中で最上位の最も豊富な三
量体300個を標的とし、ここで豊富さの度合いは、三量体の1つまたは複数の例を含んでい
る、独特なタンパク質の数として、測定される。図10は、無作為なオフターゲット部位を
有する親和性試薬(青色)またはバイオシミラーオフターゲット部位を有する親和性試薬
(オレンジ色)が使用される場合にヒト試料において同定されるタンパク質のパーセント
に関して、打ち切りのタンパク質推定アプローチ(破線)および非打ち切りのタンパク質
推定アプローチ(実線)の性能を示す。
この比較において、非打ち切りの推定は、打ち切りの推定よりも性能が優れており、非
打ち切りの推定は、バイオシミラー親和性試薬のときのほうがより優れて実施され、かつ
打ち切りの推定は、無作為な親和性試薬のときのほうがより優れて実施される。
あるいは、プロテオーム中で最も豊富な三量体を標的とする親和性試薬を用いるのでは
なく、三量体標的の最適なセットが、測定され得る候補タンパク質(たとえばヒトプロテ
オーム)、実施されるタンパク質推定のタイプ(打ち切りまたは非打ち切り)、および使
用される親和性試薬のタイプ(無作為なまたはバイオシミラー)に基づいて、特定のアプ
ローチに関して選択され得る。「貪欲法」アルゴリズムが、後述のように、最適な親和性
試薬のセットを選択するために、使用され得る:
1) 選択される親和性試薬(AR)の空のリストを、初期化する。
2) 候補ARのセット(たとえば、そのそれぞれが、無作為なオフターゲット部位を有し
つつ独特な三量体を標的とする、8,000個のARの集団)を、初期化する。
3) (たとえばUniprotリファレンスプロテオーム中のすべてのヒトタンパク質)に対
して最適化するために、タンパク質配列のセットを選択する。
4) 所望の数のARが選択されるまで、以下を繰り返す:
a. 各候補ARに関して:
i. タンパク質セットに対する候補ARの結合をシミュレートする。
ii. 候補ARからシミュレートされた結合測定、および以前に選択されたすべてのA
Rからシミュレートされた結合測定を用いて、各タンパク質についてタンパク質推定を実
施する。
iii. タンパク質推定によって決定される、各タンパク質についての正確なタンパ
ク質同定の確率を合計することによって、候補ARについてスコアを算定する。
b. 最高のスコアを有するARを選択されるARのセットへ追加し、そしてそれを候補AR
リストから除去する。
貪欲法アプローチは、ヒトプロテオーム中で最上位の最も豊富な三量体4,000個を標的
とする、無作為な親和性試薬の集団またはバイオシミラー親和性試薬の集団のいずれかか
ら、最適な親和性試薬300個を選択するために、使用された。最適化が、打ち切りのタン
パク質推定および非打ち切りのタンパク質推定の両方に対して実施された。これらの最適
化からの結果は、表9a~表9dに提供される。
表9a~表9d
(表9a)バイオシミラーオフターゲット部位を有しており、かつプロテオーム中の最
適な三量体300個を標的とする親和性試薬を用いる、打ち切りの推定の性能
Figure 2024059673000052
(表9b)バイオシミラーオフターゲット部位を有しており、かつプロテオーム中の最
適な三量体300個を標的とする親和性試薬を用いる、非打ち切りの推定の性能
Figure 2024059673000053
(表9c)無作為なオフターゲット部位を有しており、かつプロテオーム中の最適な三
量体300個を標的とする親和性試薬を用いる、打ち切りの推定の性能
Figure 2024059673000054
(表9d)無作為なオフターゲット部位を有しており、かつプロテオーム中の最適な三
量体300個を標的とする親和性試薬を用いる、非打ち切りの推定の性能
Figure 2024059673000055
打ち切りのタンパク質推定および非打ち切りのタンパク質推定の両方についての、最適
化されたプローブセットの性能は、図11にプロットされる。
貪欲法の最適化アルゴリズムによって選択された親和性試薬のセットの使用は、打ち切
りのタンパク質推定アプローチおよび非打ち切りのタンパク質推定アプローチの両方を用
いる、無作為な親和性試薬セットならびにバイオシミラー親和性試薬セット両方の性能を
、改善する。加えて、無作為な親和性試薬のセットは、貪欲法アプローチが親和性試薬を
選択するために使用される場合に、バイオシミラー親和性試薬のセットとほぼ同様に作用
する。
実施例11:親和性試薬の混合物の結合を用いるタンパク質推定
本明細書において記載される方法は、親和性試薬の混合物を用いて測定されたタンパク
質を、分析および/または同定するために、適用され得る。親和性試薬の混合物によって
アッセイされた場合に、ある特定のタンパク質が結合アウトカムを生成する確率は、以下
のように計算され得る:
1) 混合物中の各親和性試薬の、非特異的エピトープ結合の平均の確率
Figure 2024059673000056
を、算定する。
2) タンパク質における結合部位の数を、タンパク質の長さ(L)および親和性試薬の
エピトープの長さ(K)に基づいて算定する:結合部位の数 = L - K + 1。非特異的結合
イベントが生じない確率は、
Figure 2024059673000057
である。
3) 混合物中の各親和性試薬に関して、エピトープ特異的結合イベントが生じない確率
を、以下のように算定する:
Figure 2024059673000058
4) タンパク質に関して、混合物が非結合アウトカムを生成する確率は、以下である:
Figure 2024059673000059
5) 混合物が結合アウトカムを生成する確率は、以下である:
P(結合 | タンパク質) = 1 - P(非結合 | タンパク質)
タンパク質混合物からの、結合アウトカムまたは非結合アウトカムの確率を算定するた
めのこのアプローチは、タンパク質同定のための親和性試薬の混合物の性能を分析するた
めに、本明細書において記載される方法と組み合わせて使用された。分析において個々の
親和性試薬それぞれは、その標的三量体エピトープに、0.25の確率で結合し、かつ該エピ
トープ標的に最も類似する三量体4つに、0.25の確率で結合する。これらの親和性試薬に
関して、三量体の類似性が、比較される三量体中の各配列位置におけるアミノ酸について
BLOSUM62置換マトリックスからの係数を合計することによって、算定される。加えて、各
親和性試薬は、BLOSUM62置換マトリックスを用いて算定された、オフターゲット部位と標
的三量体との間の配列類似性にしたがい、スケール変換された結合確率で、20個の追加の
オフターゲット部位に結合する。これらの追加のオフターゲット部位についての確率は、
以下のとおりである:
Figure 2024059673000060
ここでSOTは、オフターゲット部位と標的部位との間のBLOSUM62類似性であり、かつSself
は、標的配列とそれ自身との間のBLOSUM62類似性である。2.45 x 108を下回る結合確率を
有するオフターゲット部位はいずれも、結合確率2.45 x 108を有するように調整される。
非特異的エピトープ結合確率は、この例においては2.45 x 108である。
300個の親和性試薬の混合物の最適なセットは、打ち切りのおよび非打ち切りの両方の
タンパク質推定のために、貪欲法アプローチを用いて生成された:
1) 選択される親和性試薬(AR)混合物の空のリストを、初期化する。
2) 候補親和性試薬(この例においては、実施例10に詳細が記載される貪欲法アプロー
チを用いて計算された、300個のもっとも最適なものからなる)のリストを、初期化する

3) (たとえばUniprotリファレンスプロテオーム中のすべてのヒトタンパク質)に対
して最適化するために、タンパク質配列のセットを選択する。
4) 所望の数のAR混合物が生成されるまで、以下を繰り返す:
a. 空の混合物を初期化する。
b. 各候補ARに関して:
i. それに追加された候補ARを有する現在の混合物を用いて、結合アウトカムをシ
ミュレートする。
ii. i.からシミュレートされた結合測定、および以前に生成された混合物からシ
ミュレートされた結合測定を用いて、各タンパク質についてタンパク質推定を実施する。
iii. タンパク質推定によって決定される、各タンパク質についての正確なタンパ
ク質同定の確率を合計することによって、この候補ARを有する混合物についてスコアを算
定する。
c. 最高のスコアが付けられた候補ARを、混合物へ追加する。
d. それまでに混合物になかった各候補ARに関して、該ARが追加された混合物に、i
~iiiにおけるようにスコアを付け、そして、最高のスコアが付けられた候補が、混合物
に追加された以前の候補よりも高いスコアを有する場合、それを混合物に追加し、そして
、この工程を繰り返す。混合物は、最高のスコアが付けられた候補ARが、以前に追加され
た候補と比べて、混合物のスコアを減少させる場合に、またはすべての候補ARが混合物に
追加された場合に、完成する。
図12は、非混合の候補親和性試薬が、および混合物が、打ち切りのタンパク質推定およ
び非打ち切りのタンパク質推定とともに使用される場合の、タンパク質同定の感度を示す
。図12にプロットされるデータは、表10a~表10bに示される。
表10a~表10b
(表10a)個々のプローブ(非混合)の、またはプローブの混合物(混合)の結合に
おいてなされた測定を用いる、打ち切りの推定の性能
Figure 2024059673000061
(表10b)個々のプローブ(非混合)の、またはプローブの混合物(混合)の結合に
おいてなされた測定を用いる、非打ち切りの推定の性能
Figure 2024059673000062
混合物の使用は、非打ち切りの推定が使用される場合に性能を改善するが、打ち切りの
推定が使用される場合には、性能に不利な影響を与え得る。
実施例12-候補グリカン7個のデータベースを用いるグリカン同定
データベースが候補グリカン7個を含む状況を、検討する:
Figure 2024059673000063
加えて実験は、所与の二糖への結合の25%の尤度をそのそれぞれが有する、4個の親和性
試薬(AR)を用いて実施する。これらの試薬が結合する他の二糖は、データベース中のい
かなるグリカンにも見出されない。
ヒットテーブルが、データベース中の各配列に対する親和性試薬に関して構築される。
(行 = 親和性試薬#1~#4、列 = SEQ ID)
Figure 2024059673000064
とりわけ、この情報は徐々に到着するので、したがって反復して計算されてよい。以下
に示されるように、ヒットテーブルから、P(グリカン_i | AR_j)が、確率マトリックスを
生成するために評価される。所与のエントリーに関して、ヒットテーブル >= 1であるな
らば、P_着地_AR_n = 真の着地率 = 0.25が使用され;そうではなくヒットテーブル = 0
であれば、P(検出器の誤り) = 0.00001が使用されることに、注意されたい。
Figure 2024059673000065
多くのセルが0.00001の確率を含むことに注意されたい。この小さい確率は、検出器の
誤りが原因である可能性がある。最初に、正規化されていない、グリカンの確率が、各候
補グリカンについて、確率の積として算定される:
Figure 2024059673000066
次に、サイズの正規化が計算され、これは、いくつかの数の親和性試薬が、所与のグリ
カンに着地し得る様式の数を、グリカンの潜在的な結合部位の数の関数として表す。サイ
ズの正規化は、Choose(部位_i, n)との語として表される。たとえば、候補ID 52は、6個
の二糖部位、および15である[6 choose 4]というサイズの正規化を、有する。利用可能な
二糖部位の数よりも多い結合イベントがある場合、サイズの正規化係数は1にセットされ
る。正規化されていない、各グリカンの確率は、このサイズ補正を考慮に入れるために、
サイズの正規化で割ることによって正規化され、これを以下に示す:
Figure 2024059673000067
次に、データベース全体にわたる確率のセット全体が合計されて1になるように、確率
が正規化される。これは、サイズが正規化された確率が0.00390641になるよう合計し、そ
して最終的な釣り合った確率を達成するために、この正規化によって、サイズが正規化さ
れた確率のそれぞれを割ることによって、達成される:
Figure 2024059673000068
項目
1. 未知のタンパク質の試料中の候補タンパク質を反復して同定するための、コンピュー
ターによって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞ
れについての結合測定の情報を、前記コンピューターによって受信する工程であって、親
和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパ
ク質に選択的に結合するように設定されている、工程;
(b) 前記結合測定の情報の少なくとも一部分を、複数のタンパク質配列を含むデータ
ベースに対して、前記コンピューターによって比較する工程であって、各タンパク質配列
が、前記複数の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および
(c) 前記複数の候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれに関し
て、前記1つまたは複数の候補タンパク質のそれぞれが前記試料中に存在する確率を、前
記1つまたは複数の候補タンパク質のそれぞれの前記結合測定の情報の前記少なくとも一
部分の、前記複数のタンパク質配列を含む前記データベースに対する前記比較に基づいて
、前記コンピューターによって反復して生成する工程。
2. 前記複数の確率を生成する工程が、
複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復
して受信すること
をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補タンパク質の中の
1つまたは複数の候補タンパク質に選択的に結合するように設定されている、項目1記載の
方法。
3. 前記1つまたは複数の候補タンパク質のそれぞれについて、前記候補タンパク質が前
記試料中の前記未知のタンパク質の1つに整合する信頼水準を生成する工程
をさらに含む、項目1記載の方法。
4. 前記確率を生成する工程が、
前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
を含む、項目1記載の方法。
5. 前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまたは
複数の検出器の仕様書から得られる、項目4記載の方法。
6. 前記検出器の誤り率が、検出器の推測誤り率にセットされる、項目4記載の方法。
7. 前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる、
項目6記載の方法。
8. 前記検出器の推測誤り率が、約0.001である、項目6記載の方法。
9. 前記複数の確率を反復して生成する工程が、
続く反復から、前記複数の候補タンパク質からの1つまたは複数の候補タンパク質を除
去すること
をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつ
かの反復を減少させる、項目1記載の方法。
10. 前記1つまたは複数の候補タンパク質を除去することが、前記候補タンパク質に関連
する前記結合測定の所定の基準に少なくとも基づいている、項目9記載の方法。
11. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補タンパク質
を含む、項目10記載の方法。
12. 前記確率のそれぞれが、前記候補タンパク質の長さに対して正規化される、項目1記
載の方法。
13. 前記確率のそれぞれが、前記複数の候補タンパク質の確率の総和に対して正規化さ
れる、項目1記載の方法。
14. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目1記
載の方法。
15. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目1
記載の方法。
16. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目1
記載の方法。
17. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目1記
載の方法。
18. 前記確率が、所定の条件が満たされるまで反復して生成される、項目1記載の方法。
19. 前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成すること
を含む、項目18記載の方法。
20. 前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成する
ことを含む、項目19記載の方法。
21. 前記所定の条件が、少なくとも99%の信頼度で前記複数の確率のそれぞれを生成する
ことを含む、項目20記載の方法。
22. 前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポ
ートを生成する工程
をさらに含む、項目1記載の方法。
23. 前記試料が生物学的試料を含む、項目1記載の方法。
24. 前記生物学的試料が、対象から得られる、項目23記載の方法。
25. 前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工

をさらに含む、項目24記載の方法。
26. 未知のタンパク質の試料中の候補タンパク質を同定するための、コンピューターに
よって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞ
れについての結合測定の情報を、前記コンピューターによって受信する工程であって、親
和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパ
ク質に選択的に結合するように設定されている、工程;
(b) 前記結合測定の情報の少なくとも一部分を、複数のタンパク質配列を含むデータ
ベースに対して、前記コンピューターによって比較する工程であって、各タンパク質配列
が、前記複数の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および
(c) 前記結合測定の情報の前記少なくとも一部分の、前記複数のタンパク質配列を含
む前記データベースに対する前記比較に少なくとも基づいて、前記複数の候補タンパク質
から1つまたは複数の候補タンパク質を除去する工程。
27. 前記1つまたは複数の候補タンパク質を除去する工程が、前記候補タンパク質に関連
する前記結合測定の所定の基準に少なくとも基づいている、項目26記載の方法。
28. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補タンパク質
を含む、項目27記載の方法。
29. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目26
記載の方法。
30. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目26
記載の方法。
31. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目26
記載の方法。
32. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目26記
載の方法。
33. 前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポ
ートを生成する工程
をさらに含む、項目26記載の方法。
34. 前記試料が生物学的試料を含む、項目26記載の方法。
35. 前記生物学的試料が対象から得られる、項目34記載の方法。
36. 前記同定される候補タンパク質に少なくとも基づいて、前記対象における疾患の状
態を同定する工程
をさらに含む、項目35記載の方法。
37. 未知のグリカンの試料中の候補グリカンを反復して同定するための、コンピュータ
ーによって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のグリカンに対する複数の親和性試薬プローブのそれぞれ
についての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬
プローブそれぞれが、複数の候補グリカンの中の1つまたは複数の候補グリカンに選択的
に結合するように設定されている、工程;
(b) 結合測定を、複数のグリカン配列を含むデータベースに対して、前記コンピュー
ターによって比較する工程であって、各グリカン配列が、前記複数の候補グリカンの中の
1つの候補グリカンに対応する、工程;および
(c) 前記複数の候補グリカン中の1つまたは複数の候補グリカンのそれぞれに関して、
前記1つまたは複数の候補グリカンのそれぞれが前記試料中に存在する確率を、前記結合
測定の、前記複数の候補グリカンの中の1つの候補グリカンにそれぞれ対応する複数のグ
リカン配列を含む前記データベースに対する前記比較に基づいて、前記コンピューターに
よって反復して生成する工程。
38. 前記複数の確率を生成する工程が、
複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復
して受信すること
をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補グリカンの中の1
つまたは複数の候補グリカンに選択的に結合するように設定されている、項目37記載の方
法。
39. 前記1つまたは複数の候補グリカンのそれぞれについて、前記候補グリカンが前記試
料中の前記未知のグリカンの1つに整合する信頼水準を生成する工程
をさらに含む、項目37記載の方法。
40. 前記確率を生成する工程が、
前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
を含む、項目37記載の方法。
41. 前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまたは
複数の検出器の仕様書から得られる、項目40記載の方法。
42. 前記検出器の誤り率が、検出器の推測誤り率にセットされる、項目40記載の方法。
43. 前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる
、項目42記載の方法。
44. 前記検出器の推測誤り率が、約0.001である、項目42記載の方法。
45. 前記複数の確率を反復して生成する工程が、
続く反復から、前記複数の候補グリカンからの1つまたは複数の候補グリカンを除去す
ること
をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつ
かの反復を減少させる、項目37記載の方法。
46. 前記1つまたは複数の候補グリカンを除去する工程が、前記候補グリカンに関連する
前記結合測定の所定の基準に少なくとも基づいている、項目45記載の方法。
47. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補グリカン
を含む、項目46記載の方法。
48. 前記確率のそれぞれが、前記候補グリカンのいくつかの潜在的な結合部位に対して
正規化される、項目37記載の方法。
49. 前記確率のそれぞれが、前記複数の候補グリカンの確率の総和に対して正規化され
る、項目37記載の方法。
50. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目37
記載の方法。
51. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目37
記載の方法。
52. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目37
記載の方法。
53. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目37記
載の方法。
54. 前記確率が、所定の条件が満たされるまで反復して生成される、項目37記載の方法

55. 前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成すること
を含む、項目54記載の方法。
56. 前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成する
ことを含む、項目55記載の方法。
57. 前記所定の条件が、少なくとも99.999%の信頼度で前記複数の確率のそれぞれを生成
することを含む、項目56記載の方法。
58. 前記試料中の1つまたは複数の未知のグリカンを同定する紙のまたは電子的なレポー
トを生成する工程
をさらに含む、項目37記載の方法。
59. 前記試料が生物学的試料を含む、項目37記載の方法。
60. 前記生物学的試料が対象から得られる、項目59記載の方法。
61. 前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工

をさらに含む、項目60記載の方法。
62. 未知のグリカンの試料中の候補グリカンを同定するための、コンピューターによっ
て遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のグリカンに対する複数の親和性試薬プローブのそれぞれ
についての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬
プローブそれぞれが、複数の候補グリカンの中の1つまたは複数の候補グリカンに選択的
に結合するように設定されている、工程;
(b) 前記結合測定の少なくとも一部分を、複数のグリカン配列を含むデータベースに
対して、前記コンピューターによって比較する工程であって、各グリカン配列が、前記複
数の候補グリカンの中の1つの候補グリカンに対応する、工程;および
(c) 前記結合測定の情報の前記少なくとも一部分の、前記複数のグリカン配列を含む
前記データベースに対する前記比較に少なくとも基づいて、前記複数の候補グリカンから
1つまたは複数の候補グリカンを除去する工程。
63. 前記1つまたは複数の候補グリカンを除去する工程が、前記候補グリカンに関連する
前記結合測定の所定の基準に少なくとも基づいている、項目62記載の方法。
64. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補グリカン
を含む、項目63記載の方法。
65. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目62
記載の方法。
66. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目62
記載の方法。
67. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目62
記載の方法。
68. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目62記
載の方法。
69. 前記試料中の1つまたは複数の未知のグリカンを同定する紙のまたは電子的なレポー
トを生成する工程
をさらに含む、項目62記載の方法。
70. 前記試料が生物学的試料を含む、項目62記載の方法。
71. 前記生物学的試料が対象から得られる、項目70記載の方法。
72. 前記同定される候補グリカンに少なくとも基づいて、前記対象における疾患の状態
を同定する工程
をさらに含む、項目71記載の方法。
73. 結合測定が、グリカンへの親和性試薬の結合の測定を含む、前記請求項のいずれか
一項に記載の方法。
74. 結合測定が、グリカンへの親和性試薬の非結合の測定を含む、前記請求項のいずれ
か一項に記載の方法。
75. 前記所定の条件が、少なくとも99.999999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目57記載の方法。
76. 前記所定の条件が、少なくとも99.9999999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目57記載の方法。
77. 前記所定の条件が、少なくとも99.99999999999999%の信頼度で前記複数の確率のそ
れぞれを生成することを含む、項目57記載の方法。
78. 未知の代謝物の試料中の候補代謝物を反復して同定するための、コンピューターに
よって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知の代謝物に対する複数の親和性試薬プローブのそれぞれに
ついての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬プ
ローブそれぞれが、複数の候補代謝物の中の1つまたは複数の候補代謝物に選択的に結合
するように設定されている、工程;
(b) 結合測定を、複数の代謝物構造を含むデータベースに対して、前記コンピュータ
ーによって比較する工程であって、各代謝物構造が、前記複数の候補代謝物の中の1つの
候補代謝物に対応する、工程;および
(c) 前記複数の候補代謝物中の1つまたは複数の候補代謝物のそれぞれに関して、前記
1つまたは複数の候補代謝物のそれぞれが前記試料中に存在する確率を、前記結合測定の
、前記複数の候補代謝物の中の1つの候補代謝物にそれぞれ対応する複数の代謝物構造を
含む前記データベースに対する前記比較に基づいて、前記コンピューターによって反復し
て生成する工程。
79. 前記複数の確率を生成する工程が、
複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復
して受信すること
をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補代謝物の中の1つ
または複数の候補代謝物に選択的に結合するように設定されている、項目78記載の方法。
80. 1つまたは複数の候補代謝物のそれぞれに関して、前記候補代謝物が前記試料中の前
記未知の代謝物の1つに整合する信頼水準を生成する工程
をさらに含む、項目78記載の方法。
81. 前記確率を生成する工程が、
前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
を含む、項目78記載の方法。
82. 前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまたは
複数の検出器の仕様書から得られる、項目81記載の方法。
83. 前記検出器の誤り率が、検出器の推測誤り率にセットされる、項目81記載の方法。
84. 前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる
、項目83記載の方法。
85. 前記検出器の推測誤り率が、約0.001である、項目83記載の方法。
86. 前記複数の確率を反復して生成する工程が、
続く反復から、前記複数の候補代謝物からの1つまたは複数の候補代謝物を除去するこ

をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつ
かの反復を減少させる、項目78記載の方法。
87. 前記1つまたは複数の候補代謝物を除去することが、前記候補代謝物に関連する前記
結合測定の所定の基準に少なくとも基づいている、項目86記載の方法。
88. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補代謝物
を含む、項目87記載の方法。
89. 前記確率のそれぞれが、前記候補代謝物のいくつかの潜在的な結合部位に対して正
規化される、項目78記載の方法。
90. 前記確率のそれぞれが、前記複数の候補代謝物の確率の総和に対して正規化される
、項目78記載の方法。
91. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目78
記載の方法。
92. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目78
記載の方法。
93. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目78
記載の方法。
94. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目78記
載の方法。
95. 前記確率が、所定の条件が満たされるまで反復して生成される、項目78記載の方法

96. 前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成すること
を含む、項目95記載の方法。
97. 前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成する
ことを含む、項目96記載の方法。
98. 前記所定の条件が、少なくとも99.999%の信頼度で前記複数の確率のそれぞれを生成
することを含む、項目97記載の方法。
99. 前記試料中の1つまたは複数の未知の代謝物を同定する紙のまたは電子的なレポート
を生成する工程
をさらに含む、項目78記載の方法。
100. 前記試料が生物学的試料を含む、項目78記載の方法。
101. 前記生物学的試料が対象から得られる、項目100記載の方法。
102. 前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工

をさらに含む、項目101記載の方法。
103. 未知の代謝物の試料中の候補代謝物を同定するための、コンピューターによって遂
行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知の代謝物に対する複数の親和性試薬プローブのそれぞれに
ついての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬プ
ローブそれぞれが、複数の候補代謝物の中の1つまたは複数の候補代謝物に選択的に結合
するように設定されている、工程;
(b) 前記結合測定の少なくとも一部分を、複数の代謝物構造を含むデータベースに対
して、前記コンピューターによって比較する工程であって、各代謝物構造が、前記複数の
候補代謝物の中の1つの候補代謝物に対応する、工程;および
(c) 前記結合測定の情報の前記少なくとも一部分の、前記複数の代謝物構造を含む前
記データベースに対する前記比較に少なくとも基づいて、前記複数の候補代謝物から1つ
または複数の候補代謝物を除去する工程。
104. 前記1つまたは複数の候補代謝物を除去する工程が、前記候補代謝物に関連する前
記結合測定の所定の基準に少なくとも基づいている、項目103記載の方法。
105. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補代謝物
を含む、項目104記載の方法。
106. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目10
3記載の方法。
107. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目1
03記載の方法。
108. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目1
03記載の方法。
109. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目103
記載の方法。
110. 前記試料中の1つまたは複数の未知の代謝物を同定する紙のまたは電子的なレポー
トを生成する工程
をさらに含む、項目103記載の方法。
111. 前記試料が生物学的試料を含む、項目103記載の方法。
112. 前記生物学的試料が対象から得られる、項目111記載の方法。
113. 前記同定される候補代謝物に少なくとも基づいて、前記対象における疾患の状態を
同定する工程
をさらに含む、項目112記載の方法。
114. 結合測定が、代謝物への親和性試薬の結合の測定を含む、前記項目のいずれかに記
載の方法。
115. 結合測定が、代謝物への親和性試薬の非結合の測定を含む、前記項目のいずれかに
記載の方法。
116. 前記所定の条件が、少なくとも99.99999%の信頼度で前記複数の確率のそれぞれを
生成することを含む、項目98記載の方法。
117. 前記所定の条件が、少なくとも99.999999%の信頼度で前記複数の確率のそれぞれを
生成することを含む、項目98記載の方法。
118. 前記所定の条件が、少なくとも99.9999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目98記載の方法。
119. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目98記載の方法。
120. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目98記載の方法。
121. 前記所定の条件が、少なくとも99.999999999%の信頼度で前記複数の確率のそれぞ
れを生成することを含む、項目98記載の方法。
122. 前記所定の条件が、少なくとも99.9999999999%の信頼度で前記複数の確率のそれぞ
れを生成することを含む、項目98記載の方法。
123. 前記所定の条件が、少なくとも99.99999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目98記載の方法。
124. 前記所定の条件が、少なくとも99.999999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目98記載の方法。
125. 前記所定の条件が、少なくとも99.9999999999999%の信頼度で前記複数の確率のそ
れぞれを生成することを含む、項目98記載の方法。
126. 前記所定の条件が、少なくとも99.99999999999999%の信頼度で前記複数の確率のそ
れぞれを生成することを含む、項目98記載の方法。
127. 未知のグリカンの試料中の候補グリカンを反復して同定するための、コンピュータ
ーによって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のグリカンに対する複数の親和性試薬プローブのそれぞれ
についての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬
プローブそれぞれが、複数の候補グリカンの中の1つまたは複数の候補グリカンに選択的
に結合するように設定されている、工程;
(b) 結合測定を、複数のグリカン構造を含むデータベースに対して、前記コンピュー
ターによって比較する工程であって、各グリカン構造が、前記複数の候補グリカンの中の
1つの候補グリカンに対応する、工程;および
(c) 前記複数の候補グリカン中の1つまたは複数の候補グリカンのそれぞれに関して、
前記1つまたは複数の候補グリカンのそれぞれが前記試料中に存在する確率を、前記結合
測定の、前記複数の候補グリカンの中の1つの候補グリカンにそれぞれ対応する複数のグ
リカン構造を含む前記データベースに対する前記比較に基づいて、前記コンピューターに
よって反復して生成する工程。
128. 前記複数の確率を生成する工程が、
複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復
して受信すること
をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補グリカンの中の1
つまたは複数の候補グリカンに選択的に結合するように設定されている、項目127記載の
方法。
129. 前記1つまたは複数の候補グリカンのそれぞれに関して、前記候補グリカンが前記
試料中の前記未知のグリカンの1つに整合する信頼水準を生成する工程
をさらに含む、項目127記載の方法。
130. 前記確率を生成する工程が、
前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
を含む、項目127記載の方法。
131. 前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまた
は複数の検出器の仕様書から得られる、項目130記載の方法。
132. 前記検出器の誤り率が、検出器の推測誤り率にセットされる、項目130記載の方法

133. 前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる
、項目132記載の方法。
134. 前記検出器の推測誤り率が、約0.001である、項目132記載の方法。
135. 前記複数の確率を反復して生成する工程が、
続く反復から、前記複数の候補グリカンからの1つまたは複数の候補グリカンを除去す
ること
をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつ
かの反復を減少させる、項目127記載の方法。
136. 前記1つまたは複数の候補グリカンを除去することが、前記候補グリカンに関連す
る前記結合測定の所定の基準に少なくとも基づいている、項目135記載の方法。
137. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補グリカン
を含む、項目136記載の方法。
138. 前記確率のそれぞれが、前記候補グリカンのいくつかの潜在的な結合部位に対して
正規化される、項目127記載の方法。
139. 前記確率のそれぞれが、前記複数の候補グリカンの確率の総和に対して正規化され
る、項目127記載の方法。
140. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目12
7記載の方法。
141. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目1
27記載の方法。
142. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目1
27記載の方法。
143. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目127
記載の方法。
144. 前記確率が、所定の条件が満たされるまで反復して生成される、項目127記載の方
法。
145. 前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成するこ
とを含む、項目144記載の方法。
146. 前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成す
ることを含む、項目145記載の方法。
147. 前記所定の条件が、少なくとも99.999%の信頼度で前記複数の確率のそれぞれを生
成することを含む、項目146記載の方法。
148. 前記試料中の1つまたは複数の未知のグリカンを同定する紙のまたは電子的なレポ
ートを生成する工程
をさらに含む、項目127記載の方法。
149. 前記試料が生物学的試料を含む、項目127記載の方法。
150. 前記生物学的試料が対象から得られる、項目149記載の方法。
151. 前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工

をさらに含む、項目150記載の方法。
152. 未知のグリカンの試料中の候補グリカンを同定するための、コンピューターによっ
て遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のグリカンに対する複数の親和性試薬プローブのそれぞれ
についての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬
プローブそれぞれが、複数の候補グリカンの中の1つまたは複数の候補グリカンに選択的
に結合するように設定されている、工程;
(b) 前記結合測定の少なくとも一部分を、複数のグリカン構造を含むデータベースに
対して、前記コンピューターによって比較する工程であって、各グリカン構造が、前記複
数の候補グリカンの中の1つの候補グリカンに対応する、工程;および
(c) 前記結合測定の情報の前記少なくとも一部分の、前記複数のグリカン構造を含む
前記データベースに対する前記比較に少なくとも基づいて、前記複数の候補グリカンから
1つまたは複数の候補グリカンを除去する工程。
153. 前記1つまたは複数の候補グリカンを除去する工程が、前記候補グリカンに関連す
る前記結合測定の所定の基準に少なくとも基づいている、項目152記載の方法。
154. 前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
を有する、前記1つまたは複数の候補グリカン
を含む、項目153記載の方法。
155. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目15
2記載の方法。
156. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目1
52記載の方法。
157. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目1
52記載の方法。
158. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目152
記載の方法。
159. 前記試料中の1つまたは複数の未知のグリカンを同定する紙のまたは電子的なレポ
ートを生成する工程
をさらに含む、項目152記載の方法。
160. 前記試料が生物学的試料を含む、項目152記載の方法。
161. 前記生物学的試料が対象から得られる、項目160記載の方法。
162. 前記同定される候補グリカンに少なくとも基づいて、前記対象における疾患の状態
を同定する工程
をさらに含む、項目161記載の方法。
163. 結合測定が、グリカンへの親和性試薬の結合の測定を含む、前記項目のいずれかに
記載の方法。
164. 結合測定が、グリカンへの親和性試薬の非結合の測定を含む、前記項目のいずれか
に記載の方法。
165. 前記所定の条件が、少なくとも99.99999%の信頼度で前記複数の確率のそれぞれを
生成することを含む、項目147記載の方法。
166. 前記所定の条件が、少なくとも99.999999%の信頼度で前記複数の確率のそれぞれを
生成することを含む、項目147記載の方法。
167. 前記所定の条件が、少なくとも99.9999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目147記載の方法。
168. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目147記載の方法。
169. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれ
を生成することを含む、項目147記載の方法。
170. 前記所定の条件が、少なくとも99.999999999%の信頼度で前記複数の確率のそれぞ
れを生成することを含む、項目147記載の方法。
171. 前記所定の条件が、少なくとも99.9999999999%の信頼度で前記複数の確率のそれぞ
れを生成することを含む、項目147記載の方法。
172. 前記所定の条件が、少なくとも99.99999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目147記載の方法。
173. 前記所定の条件が、少なくとも99.999999999999%の信頼度で前記複数の確率のそれ
ぞれを生成することを含む、項目147記載の方法。
174. 前記所定の条件が、少なくとも99.9999999999999%の信頼度で前記複数の確率のそ
れぞれを生成することを含む、項目147記載の方法。
175. 前記所定の条件が、少なくとも99.99999999999999%の信頼度で前記複数の確率のそ
れぞれを生成することを含む、項目147記載の方法。
本発明の好ましい態様は本明細書において示されかつ記載されているが、そのような態
様が、単なる例として提供されていることは、当業者には明らかである。本発明が、本明
細書中に提供される特定の例によって限定されることを目的としているわけではない。本
発明は前述の明細書を参照して記載されているが、本明細書における態様の説明および図
面は、制限的な意味に解釈されるべきではない。無数の変更、改変、および置き換えが、
本発明から逸脱することなく、今や当業者に想起されるであろう。さらに、本発明のすべ
ての局面は、多様な条件および可変のものに左右される、本明細書において記載される特
定の描写にも構成にも相対的な比率にも限定されないことが、理解されるべきである。本
明細書において記載される本発明の態様のさまざまな代替物が、本発明を実践する際に採
用され得ることが、理解されるべきである。したがって、本発明はまた、任意のそのよう
な代替のもの、修飾したもの、変更したもの、または同等のものを包含することが、企図
される。添付の特許請求の範囲は、本発明の範囲を定義し、かつこの特許請求の範囲内の
方法および構成、ならびにそれらの等価物がそれにより包含されることを定義することを
、意図する。
本発明の好ましい態様は本明細書において示されかつ記載されているが、そのような態様が、単なる例として提供されていることは、当業者には明らかである。本発明が、本明細書中に提供される特定の例によって限定されることを目的としているわけではない。本発明は前述の明細書を参照して記載されているが、本明細書における態様の説明および図面は、制限的な意味に解釈されるべきではない。無数の変更、改変、および置き換えが、本発明から逸脱することなく、今や当業者に想起されるであろう。さらに、本発明のすべての局面は、多様な条件および可変のものに左右される、本明細書において記載される特定の描写にも構成にも相対的な比率にも限定されないことが、理解されるべきである。本明細書において記載される本発明の態様のさまざまな代替物が、本発明を実践する際に採用され得ることが、理解されるべきである。したがって、本発明はまた、任意のそのような代替のもの、修飾したもの、変更したもの、または同等のものを包含することが、企図される。添付の特許請求の範囲は、本発明の範囲を定義し、かつこの特許請求の範囲内の方法および構成、ならびにそれらの等価物がそれにより包含されることを定義することを、意図する。
一態様において、本発明は以下を提供する。
[項目1]
未知のタンパク質の試料中の候補タンパク質を反復して同定するための、コンピューターによって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞれについての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパク質に選択的に結合するように設定されている、工程;
(b) 結合測定を、複数のタンパク質配列を含むデータベースに対して、前記コンピューターによって比較する工程であって、各タンパク質配列が、前記複数の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および
(c) 前記複数の候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれに関して、前記1つまたは複数の候補タンパク質のそれぞれが前記試料中に存在する確率を、前記結合測定の、前記複数の候補タンパク質の中の1つの候補タンパク質にそれぞれ対応する複数のタンパク質配列を含む前記データベースに対する前記比較に基づいて、前記コンピューターによって反復して生成する工程。
[項目2]
前記複数の確率を生成する工程が、
複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復して受信すること
をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補タンパク質の中の1つまたは複数の候補タンパク質に選択的に結合するように設定されている、項目1に記載の方法。
[項目3]
前記1つまたは複数の候補タンパク質のそれぞれに関して、前記候補タンパク質が前記試料中の前記未知のタンパク質の1つに整合する信頼水準を生成する工程
をさらに含む、項目1に記載の方法。
[項目4]
前記確率を生成する工程が、
前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
を含む、項目1に記載の方法。
[項目5]
前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまたは複数の検出器の仕様書から得られる、項目4に記載の方法。
[項目6]
前記検出器の誤り率が、検出器の推測誤り率にセットされる、項目4に記載の方法。
[項目7]
前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる、項目6に記載の方法。
[項目8]
前記検出器の推測誤り率が、約0.001である、項目6に記載の方法。
[項目9]
前記複数の確率を反復して生成する工程が、
続く反復から、前記複数の候補タンパク質からの1つまたは複数の候補タンパク質を除去すること
をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつかの反復を減少させる、項目1に記載の方法。
[項目10]
前記1つまたは複数の候補タンパク質を除去することが、前記候補タンパク質に関連する前記結合測定の所定の基準に少なくとも基づいている、項目9に記載の方法。
[項目11]
前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定を有する、前記1つまたは複数の候補タンパク質
を含む、項目10に記載の方法。
[項目12]
前記確率のそれぞれが、前記候補タンパク質の長さに対して正規化される、項目1に記載の方法。
[項目13]
前記確率のそれぞれが、前記複数の候補タンパク質の確率の総和に対して正規化される、項目1に記載の方法。
[項目14]
前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目1に記載の方法。
[項目15]
前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目1に記載の方法。
[項目16]
前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目1に記載の方法。
[項目17]
前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目1に記載の方法。
[項目18]
前記確率が、所定の条件が満たされるまで反復して生成される、項目1に記載の方法。
[項目19]
前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成することを含む、項目18に記載の方法。
[項目20]
前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目19に記載の方法。
[項目21]
前記所定の条件が、少なくとも99.999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目20に記載の方法。
[項目22]
前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポートを生成する工程
をさらに含む、項目1に記載の方法。
[項目23]
前記試料が生物学的試料を含む、項目1に記載の方法。
[項目24]
前記生物学的試料が対象から得られる、項目23に記載の方法。
[項目25]
前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工程をさらに含む、項目24に記載の方法。
[項目26]
未知のタンパク質の試料中の候補タンパク質を同定するための、コンピューターによって遂行される方法であって、以下の工程を含む、方法:
(a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞれについての結合測定を、前記コンピューターによって受信する工程であって、親和性試薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパク質に選択的に結合するように設定されている、工程;
(b) 前記結合測定の少なくとも一部分を、複数のタンパク質配列を含むデータベースに対して前記コンピューターによって比較する工程であって、各タンパク質配列が、前記複数の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および
(c) 前記結合測定の情報の前記少なくとも一部分の、前記複数のタンパク質配列を含む前記データベースに対する前記比較に少なくとも基づいて、前記複数の候補タンパク質から1つまたは複数の候補タンパク質を除去する工程。
[項目27]
前記1つまたは複数の候補タンパク質を除去する工程が、前記候補タンパク質に関連する前記結合測定の所定の基準に少なくとも基づいている、項目26に記載の方法。
[項目28]
前記所定の基準が、
前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定を有する、前記1つまたは複数の候補タンパク質
を含む、項目27に記載の方法。
[項目29]
前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、項目26に記載の方法。
[項目30]
前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、項目26に記載の方法。
[項目31]
前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、項目26に記載の方法。
[項目32]
前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、項目26に記載の方法。
[項目33]
前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポートを生成する工程
をさらに含む、項目26に記載の方法。
[項目34]
前記試料が生物学的試料を含む、項目26に記載の方法。
[項目35]
前記生物学的試料が対象から得られる、項目34に記載の方法。
[項目36]
前記同定される候補タンパク質に少なくとも基づいて、前記対象における疾患の状態を同定する工程
をさらに含む、項目35に記載の方法。
[項目37]
結合測定が、タンパク質への親和性試薬の結合の測定を含む、前記項目のいずれか一項に記載の方法。
[項目38]
結合測定が、タンパク質への親和性試薬の非結合の測定を含む、前記項目のいずれか一項に記載の方法。
[項目39]
前記所定の条件が、少なくとも99.99999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目40]
前記所定の条件が、少なくとも99.999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目41]
前記所定の条件が、少なくとも99.9999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目42]
前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目43]
前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目44]
前記所定の条件が、少なくとも99.999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目45]
前記所定の条件が、少なくとも99.9999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目46]
前記所定の条件が、少なくとも99.99999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目47]
前記所定の条件が、少なくとも99.999999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目48]
前記所定の条件が、少なくとも99.9999999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目49]
前記所定の条件が、少なくとも99.99999999999999%の信頼度で前記複数の確率のそれぞれを生成することを含む、項目21に記載の方法。
[項目50]
親和性試薬とタンパク質との間の結合を増強する方法であって、以下の工程を含む、方法:
第一の配列を有する1つまたは複数のDNAタグを、親和性試薬に結合させる工程;
第二の配列を有する1つまたは複数のDNAタグを、タンパク質に結合させる工程;
親和性試薬をタンパク質にハイブリダイズさせる工程;
少なくとも1つのDNAリンカーを、親和性試薬とタンパク質とにハイブリダイズさせる工程であって、DNAリンカーが、第一の配列にハイブリダイズする第一の領域を有し、かつ第二の配列にハイブリダイズする第二の領域を有する、工程。
[項目51]
親和性試薬が1個のDNAタグを有する、項目50に記載の方法。
[項目52]
親和性試薬が2個のDNAタグを有する、項目50に記載の方法。
[項目53]
親和性試薬が2個超のDNAタグを有する、項目50に記載の方法。
[項目54]
タンパク質が1個のDNAタグを有する、項目50に記載の方法。
[項目55]
タンパク質が2個のDNAタグを有する、項目50に記載の方法。
[項目56]
タンパク質が2個超のDNAタグを有する、項目50に記載の方法。
[項目57]
タンパク質が10個超のDNAタグを有する、項目50に記載の方法。
[項目58]
親和性試薬およびタンパク質モエティが、5ピコモル濃度~500ナノモル濃度の濃度のDNAリンカーに曝露される、項目50に記載の方法。

Claims (58)

  1. 未知のタンパク質の試料中の候補タンパク質を反復して同定するための、コンピュータ
    ーによって遂行される方法であって、以下の工程を含む、方法:
    (a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞ
    れについての結合測定を、前記コンピューターによって受信する工程であって、親和性試
    薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパク質に
    選択的に結合するように設定されている、工程;
    (b) 結合測定を、複数のタンパク質配列を含むデータベースに対して、前記コンピュ
    ーターによって比較する工程であって、各タンパク質配列が、前記複数の候補タンパク質
    の中の1つの候補タンパク質に対応する、工程;および
    (c) 前記複数の候補タンパク質中の1つまたは複数の候補タンパク質のそれぞれに関し
    て、前記1つまたは複数の候補タンパク質のそれぞれが前記試料中に存在する確率を、前
    記結合測定の、前記複数の候補タンパク質の中の1つの候補タンパク質にそれぞれ対応す
    る複数のタンパク質配列を含む前記データベースに対する前記比較に基づいて、前記コン
    ピューターによって反復して生成する工程。
  2. 前記複数の確率を生成する工程が、
    複数の追加の親和性試薬プローブのそれぞれについての結合測定の追加の情報を、反復
    して受信すること
    をさらに含み、追加の親和性試薬プローブそれぞれが、前記複数の候補タンパク質の中の
    1つまたは複数の候補タンパク質に選択的に結合するように設定されている、請求項1に記
    載の方法。
  3. 前記1つまたは複数の候補タンパク質のそれぞれに関して、前記候補タンパク質が前記
    試料中の前記未知のタンパク質の1つに整合する信頼水準を生成する工程
    をさらに含む、請求項1に記載の方法。
  4. 前記確率を生成する工程が、
    前記結合測定の情報に関連する、検出器の誤り率を考慮に入れること
    を含む、請求項1に記載の方法。
  5. 前記検出器の誤り率が、前記結合測定の情報を入手するために使用される1つまたは複
    数の検出器の仕様書から得られる、請求項4に記載の方法。
  6. 前記検出器の誤り率が、検出器の推測誤り率にセットされる、請求項4に記載の方法。
  7. 前記検出器の推測誤り率が、前記コンピューターのユーザーによってセットされる、請
    求項6に記載の方法。
  8. 前記検出器の推測誤り率が、約0.001である、請求項6に記載の方法。
  9. 前記複数の確率を反復して生成する工程が、
    続く反復から、前記複数の候補タンパク質からの1つまたは複数の候補タンパク質を除
    去すること
    をさらに含み、それにより、前記確率の前記反復した生成を実施するために必要ないくつ
    かの反復を減少させる、請求項1に記載の方法。
  10. 前記1つまたは複数の候補タンパク質を除去することが、前記候補タンパク質に関連す
    る前記結合測定の所定の基準に少なくとも基づいている、請求項9に記載の方法。
  11. 前記所定の基準が、
    前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
    を有する、前記1つまたは複数の候補タンパク質
    を含む、請求項10に記載の方法。
  12. 前記確率のそれぞれが、前記候補タンパク質の長さに対して正規化される、請求項1に
    記載の方法。
  13. 前記確率のそれぞれが、前記複数の候補タンパク質の確率の総和に対して正規化される
    、請求項1に記載の方法。
  14. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、請求項1に
    記載の方法。
  15. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、請求項1に
    記載の方法。
  16. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、請求項1に
    記載の方法。
  17. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、請求項1に記
    載の方法。
  18. 前記確率が、所定の条件が満たされるまで反復して生成される、請求項1に記載の方法
  19. 前記所定の条件が、少なくとも90%の信頼度で複数の確率のそれぞれを生成することを
    含む、請求項18に記載の方法。
  20. 前記所定の条件が、少なくとも95%の信頼度で前記複数の確率のそれぞれを生成するこ
    とを含む、請求項19に記載の方法。
  21. 前記所定の条件が、少なくとも99.999%の信頼度で前記複数の確率のそれぞれを生成す
    ることを含む、請求項20に記載の方法。
  22. 前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポー
    トを生成する工程
    をさらに含む、請求項1に記載の方法。
  23. 前記試料が生物学的試料を含む、請求項1に記載の方法。
  24. 前記生物学的試料が対象から得られる、請求項23に記載の方法。
  25. 前記複数の確率に少なくとも基づいて、前記対象における疾患の状態を同定する工程
    をさらに含む、請求項24に記載の方法。
  26. 未知のタンパク質の試料中の候補タンパク質を同定するための、コンピューターによっ
    て遂行される方法であって、以下の工程を含む、方法:
    (a) 前記試料中の前記未知のタンパク質に対する複数の親和性試薬プローブのそれぞ
    れについての結合測定を、前記コンピューターによって受信する工程であって、親和性試
    薬プローブそれぞれが、複数の候補タンパク質の中の1つまたは複数の候補タンパク質に
    選択的に結合するように設定されている、工程;
    (b) 前記結合測定の少なくとも一部分を、複数のタンパク質配列を含むデータベース
    に対して前記コンピューターによって比較する工程であって、各タンパク質配列が、前記
    複数の候補タンパク質の中の1つの候補タンパク質に対応する、工程;および
    (c) 前記結合測定の情報の前記少なくとも一部分の、前記複数のタンパク質配列を含
    む前記データベースに対する前記比較に少なくとも基づいて、前記複数の候補タンパク質
    から1つまたは複数の候補タンパク質を除去する工程。
  27. 前記1つまたは複数の候補タンパク質を除去する工程が、前記候補タンパク質に関連す
    る前記結合測定の所定の基準に少なくとも基づいている、請求項26に記載の方法。
  28. 前記所定の基準が、
    前記複数の親和性試薬プローブの中の第一の複数に対する所定の閾値を下回る結合測定
    を有する、前記1つまたは複数の候補タンパク質
    を含む、請求項27に記載の方法。
  29. 前記複数の親和性試薬プローブが、50個以下の親和性試薬プローブを含む、請求項26に
    記載の方法。
  30. 前記複数の親和性試薬プローブが、100個以下の親和性試薬プローブを含む、請求項26
    に記載の方法。
  31. 前記複数の親和性試薬プローブが、500個以下の親和性試薬プローブを含む、請求項26
    に記載の方法。
  32. 前記複数の親和性試薬プローブが、500個超の親和性試薬プローブを含む、請求項26に
    記載の方法。
  33. 前記試料中の1つまたは複数の未知のタンパク質を同定する紙のまたは電子的なレポー
    トを生成する工程
    をさらに含む、請求項26に記載の方法。
  34. 前記試料が生物学的試料を含む、請求項26に記載の方法。
  35. 前記生物学的試料が対象から得られる、請求項34に記載の方法。
  36. 前記同定される候補タンパク質に少なくとも基づいて、前記対象における疾患の状態を
    同定する工程
    をさらに含む、請求項35に記載の方法。
  37. 結合測定が、タンパク質への親和性試薬の結合の測定を含む、前記請求項のいずれか一
    項に記載の方法。
  38. 結合測定が、タンパク質への親和性試薬の非結合の測定を含む、前記請求項のいずれか
    一項に記載の方法。
  39. 前記所定の条件が、少なくとも99.99999%の信頼度で前記複数の確率のそれぞれを生成
    することを含む、請求項21に記載の方法。
  40. 前記所定の条件が、少なくとも99.999999%の信頼度で前記複数の確率のそれぞれを生成
    することを含む、請求項21に記載の方法。
  41. 前記所定の条件が、少なくとも99.9999999%の信頼度で前記複数の確率のそれぞれを生
    成することを含む、請求項21に記載の方法。
  42. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれを生
    成することを含む、請求項21に記載の方法。
  43. 前記所定の条件が、少なくとも99.99999999%の信頼度で前記複数の確率のそれぞれを生
    成することを含む、請求項21に記載の方法。
  44. 前記所定の条件が、少なくとも99.999999999%の信頼度で前記複数の確率のそれぞれを
    生成することを含む、請求項21に記載の方法。
  45. 前記所定の条件が、少なくとも99.9999999999%の信頼度で前記複数の確率のそれぞれを
    生成することを含む、請求項21に記載の方法。
  46. 前記所定の条件が、少なくとも99.99999999999%の信頼度で前記複数の確率のそれぞれ
    を生成することを含む、請求項21に記載の方法。
  47. 前記所定の条件が、少なくとも99.999999999999%の信頼度で前記複数の確率のそれぞれ
    を生成することを含む、請求項21に記載の方法。
  48. 前記所定の条件が、少なくとも99.9999999999999%の信頼度で前記複数の確率のそれぞ
    れを生成することを含む、請求項21に記載の方法。
  49. 前記所定の条件が、少なくとも99.99999999999999%の信頼度で前記複数の確率のそれぞ
    れを生成することを含む、請求項21に記載の方法。
  50. 親和性試薬とタンパク質との間の結合を増強する方法であって、以下の工程を含む、方
    法:
    第一の配列を有する1つまたは複数のDNAタグを、親和性試薬に結合させる工程;
    第二の配列を有する1つまたは複数のDNAタグを、タンパク質に結合させる工程;
    親和性試薬をタンパク質にハイブリダイズさせる工程;
    少なくとも1つのDNAリンカーを、親和性試薬とタンパク質とにハイブリダイズさせる工
    程であって、DNAリンカーが、第一の配列にハイブリダイズする第一の領域を有し、かつ
    第二の配列にハイブリダイズする第二の領域を有する、工程。
  51. 親和性試薬が1個のDNAタグを有する、請求項50に記載の方法。
  52. 親和性試薬が2個のDNAタグを有する、請求項50に記載の方法。
  53. 親和性試薬が2個超のDNAタグを有する、請求項50に記載の方法。
  54. タンパク質が1個のDNAタグを有する、請求項50に記載の方法。
  55. タンパク質が2個のDNAタグを有する、請求項50に記載の方法。
  56. タンパク質が2個超のDNAタグを有する、請求項50に記載の方法。
  57. タンパク質が10個超のDNAタグを有する、請求項50に記載の方法。
  58. 親和性試薬およびタンパク質モエティが、5ピコモル濃度~500ナノモル濃度の濃度のDN
    Aリンカーに曝露される、請求項50に記載の方法。
JP2024017027A 2017-10-23 2024-02-07 タンパク質同定のための方法およびシステム Pending JP2024059673A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762575976P 2017-10-23 2017-10-23
US62/575,976 2017-10-23
PCT/US2018/056807 WO2019083856A1 (en) 2017-10-23 2018-10-20 METHODS AND SYSTEMS FOR PROTEIN IDENTIFICATION
JP2020542714A JP7434161B2 (ja) 2017-10-23 2018-10-20 タンパク質同定のための方法およびシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020542714A Division JP7434161B2 (ja) 2017-10-23 2018-10-20 タンパク質同定のための方法およびシステム

Publications (1)

Publication Number Publication Date
JP2024059673A true JP2024059673A (ja) 2024-05-01

Family

ID=66247977

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020542714A Active JP7434161B2 (ja) 2017-10-23 2018-10-20 タンパク質同定のための方法およびシステム
JP2024017027A Pending JP2024059673A (ja) 2017-10-23 2024-02-07 タンパク質同定のための方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020542714A Active JP7434161B2 (ja) 2017-10-23 2018-10-20 タンパク質同定のための方法およびシステム

Country Status (7)

Country Link
US (1) US20200082914A1 (ja)
EP (1) EP3701066A4 (ja)
JP (2) JP7434161B2 (ja)
CN (1) CN112154230A (ja)
AU (1) AU2018353967B2 (ja)
CA (1) CA3079832A1 (ja)
WO (1) WO2019083856A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4365597A2 (en) 2016-12-01 2024-05-08 Nautilus Subsidiary, Inc. Methods of assaying proteins
US11721412B2 (en) 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
AU2018395430A1 (en) 2017-12-29 2020-07-23 Nautilus Subsidiary, Inc. Decoding approaches for protein identification
WO2019195633A1 (en) 2018-04-04 2019-10-10 Ignite Biosciences, Inc. Methods of generating nanoarrays and microarrays
KR102594366B1 (ko) 2018-11-07 2023-10-27 시어 인코퍼레이티드 단백질 코로나 분석을 위한 조성물, 방법 및 시스템 및 그것들의 용도
CN114206214A (zh) 2019-03-26 2022-03-18 禧尔公司 用于生物流体的蛋白质冕分析的组合物、方法和系统及其用途
WO2021003470A1 (en) * 2019-07-03 2021-01-07 Nautilus Biotechnology, Inc. Decoding approaches for protein and peptide identification
FI20196004A1 (en) * 2019-11-22 2021-05-23 Medicortex Finland Oy Apparatus and method for detecting brain injury in a subject
AU2021288692A1 (en) 2020-06-11 2023-02-02 Nautilus Subsidiary, Inc. Methods and systems for computational decoding of biological, chemical, and physical entities
AU2021333661A1 (en) 2020-08-25 2023-03-23 Seer, Inc. Compositions and methods for assaying proteins and nucleic acids
CA3196729A1 (en) 2020-11-11 2022-05-19 Tural AKSEL Affinity reagents having enhanced binding and detection characteristics
EP4281774A2 (en) 2021-01-20 2023-11-29 Nautilus Subsidiary, Inc. Methods for biomolecule quantitation
US11505796B2 (en) 2021-03-11 2022-11-22 Nautilus Biotechnology, Inc. Systems and methods for biomolecule retention
WO2023212490A1 (en) * 2022-04-25 2023-11-02 Nautilus Subsidiary, Inc. Systems and methods for assessing and improving the quality of multiplex molecular assays
WO2024059655A1 (en) * 2022-09-15 2024-03-21 Nautilus Subsidiary, Inc. Characterizing accessibility of macromolecule structures

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19802576B4 (de) * 1998-01-23 2004-10-28 Xerion Pharmaceuticals Ag Verfahren zur gleichzeitigen Identifizierung von Proteinen und ihren Bindungspartnern
US6128608A (en) * 1998-05-01 2000-10-03 Barnhill Technologies, Llc Enhancing knowledge discovery using multiple support vector machines
EP1688987A1 (en) * 1999-04-06 2006-08-09 Micromass UK Limited Improved methods of identifying peptides and proteins by mass spectrometry
WO2000073787A1 (en) * 1999-05-27 2000-12-07 Rockefeller University An expert system for protein identification using mass spectrometric information combined with database searching
WO2002072613A1 (en) * 2001-03-10 2002-09-19 Kent Ridge Digital Labs System and method for systematic prediction of ligand/receptor activity
WO2002086081A2 (en) * 2001-04-20 2002-10-31 Carnegie Mellon University Methods and systems for identifying proteins
US20040067599A1 (en) * 2001-12-14 2004-04-08 Katz Joseph L. Separation identification and quantitation of protein mixtures
US20040002818A1 (en) * 2001-12-21 2004-01-01 Affymetrix, Inc. Method, system and computer software for providing microarray probe data
US20040126840A1 (en) * 2002-12-23 2004-07-01 Affymetrix, Inc. Method, system and computer software for providing genomic ontological data
JP4286075B2 (ja) * 2003-06-25 2009-06-24 株式会社日立製作所 タンパク質同定処理方法
US7593817B2 (en) * 2003-12-16 2009-09-22 Thermo Finnigan Llc Calculating confidence levels for peptide and protein identification
US9223929B2 (en) * 2005-03-14 2015-12-29 The California Institute Of Technology Method and apparatus for detection, identification and quantification of single-and multi-analytes in affinity-based sensor arrays
US20070218503A1 (en) * 2006-02-13 2007-09-20 Mitra Robi D Methods of polypeptide identification, and compositions therefor
US7764361B2 (en) * 2006-07-27 2010-07-27 Northwestern University Systems and methods to analyze multiplexed bead-based assays using backscattered light
WO2010085548A2 (en) * 2009-01-22 2010-07-29 Li-Cor, Inc. Single molecule proteomics with dynamic probes
US10787701B2 (en) * 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
EP4012716A1 (en) * 2012-11-19 2022-06-15 Apton Biosystems, Inc. Digital analysis of molecular analytes using single molecule detection
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
EP4365597A2 (en) * 2016-12-01 2024-05-08 Nautilus Subsidiary, Inc. Methods of assaying proteins
US11721412B2 (en) * 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
AU2018395430A1 (en) * 2017-12-29 2020-07-23 Nautilus Subsidiary, Inc. Decoding approaches for protein identification
WO2019195633A1 (en) * 2018-04-04 2019-10-10 Ignite Biosciences, Inc. Methods of generating nanoarrays and microarrays
WO2020106889A1 (en) * 2018-11-20 2020-05-28 Nautilus Biotechnology, Inc. Design and selection of affinity reagents
AU2020266136A1 (en) * 2019-04-29 2021-11-25 Nautilus Subsidiary, Inc. Methods and systems for integrated on-chip single-molecule detection
CA3196729A1 (en) * 2020-11-11 2022-05-19 Tural AKSEL Affinity reagents having enhanced binding and detection characteristics
US20220227890A1 (en) * 2021-01-21 2022-07-21 Nautilus Biotechnology, Inc. Systems and methods for biomolecule preparation
US11505796B2 (en) * 2021-03-11 2022-11-22 Nautilus Biotechnology, Inc. Systems and methods for biomolecule retention
CA3232183A1 (en) * 2021-10-11 2023-04-20 Nautilus Subsidiary, Inc. Highly multiplexable analysis of proteins and proteomes

Also Published As

Publication number Publication date
WO2019083856A1 (en) 2019-05-02
US20200082914A1 (en) 2020-03-12
EP3701066A4 (en) 2021-08-11
AU2018353967A1 (en) 2020-06-04
EP3701066A1 (en) 2020-09-02
AU2018353967B2 (en) 2024-02-29
CA3079832A1 (en) 2019-05-02
CN112154230A (zh) 2020-12-29
JP7434161B2 (ja) 2024-02-20
JP2021501332A (ja) 2021-01-14

Similar Documents

Publication Publication Date Title
JP7434161B2 (ja) タンパク質同定のための方法およびシステム
JP7458678B2 (ja) タンパク質同定のためのデコーディングアプローチ方法
US11721412B2 (en) Methods for identifying a protein in a sample of unknown proteins
US11579144B2 (en) Methods of assaying proteins
JP7295092B2 (ja) 結合試薬を選択する方法
WO2021003470A1 (en) Decoding approaches for protein and peptide identification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240207