JP2022537448A

JP2022537448A - 病態特異的抗原を同定するためのイムノームワイド関連研究

Info

Publication number: JP2022537448A
Application number: JP2021576239A
Authority: JP
Inventors: ジョンション; ウィンストンエイ．ハイネス; パトリックショーンドーアティー
Original assignee: セリミューンインコーポレイテッド
Priority date: 2019-06-21
Filing date: 2020-06-20
Publication date: 2022-08-25
Also published as: WO2020257740A3; EP3987053A2; WO2020257740A2; US20230024898A1; EP3987053A4

Abstract

本発明は、疾患または他の病態に特異的な抗原または抗原のエピトープ領域を同定するために使用され得る組成物及び方法を提供する。そのような方法は、抗原マーカーとして疾患または病態に関連して同定された抗原配列の好適性を予測するために病態コホート及び対照コホートのサンプルからの血清抗体に対するｋ－ｍｅｒ結合統計を組み込む。本明細書には、それを実施するためのシステムも開示される。【選択図】図４

Description

関連出願の相互参照
本出願は、２０１９年６月２１日に出願された米国仮出願第６２／８６４，９０９号の利益を主張するものであり、その内容はそれらの全体が参照によりそれぞれ組み込まれる。

配列表
本出願は、ＡＳＣＩＩフォーマットで電子的に提出され、参照によりその全体が本明細書に組み込まれる配列表を含む。２０ＸＸ年、ＸＸ月に作成された前記ＡＳＣＩＩコピーは、ＸＸＸＸＸ＿ＣＲＦ＿ｓｅｑｕｅｎｃｅｌｉｓｔｉｎｇ．ｔｘｔと称され、サイズがＸＸ，ＸＸＸバイトである。

背景
ヒト試料に存在する抗体は、感染性疾患、細菌性疾患、ウイルス性疾患、アレルギー性疾患、寄生虫疾患、及び自己免疫疾患の大規模で広範な群のための主要な分析物及び疾患バイオマーカーとして機能する。そのため、全血、血清、血漿、唾液、尿、及び組織吸引物を含むがこれらに限定されない組織サンプルを使用してヒト疾患を診断するために何百もの異なる抗体検出試験（集合的に「イムノアッセイ」と称される）が開発されてきた。イムノアッセイは、グレーブス病、シェーグレン症候群、セリアック病、クローン病、関節リウマチを含むがこれらに限定されない自己免疫疾患の診断にとって依然として不可欠である。イムノアッセイはまた、ウイルス感染症（例えば、ＨＩＶ、Ｃ型肝炎、ＨＳＶ－１、ジカウイルス、エプスタインバーウイルスなど）、細菌感染症（例えば、ストレプトコッカスの種（Ｓｔｒｅｐｔｏｃｏｃｃｕｓｓｐ．）、ヘリコバクター・ピロリ（Ｈｅｌｉｃｏｂａｃｔｅｒｐｙｌｏｒｉ）、ボレリア・ブルグドルフェリ（Ｂｏｒｒｅｌｌｉａｂｕｒｄｏｒｆｅｒｉ）（ライム病）など）、真菌感染症（例えば、渓谷熱）、及び寄生虫感染症（例えば、クルーズトリパノソーマ（Ｔｒｙｐａｎｏｓｏｍａｃｒｕｚｉ）、トキソプラズマ・ゴンディ（Ｔｏｘｏｐｌａｓｍａｇｏｎｄｉｉ）、有鉤条虫（Ｔａｅｎｉａｓｏｌｉｕｍ）、犬回虫（Ｔｏｘｏｃａｒａｃａｎｉｓ）など）を含む感染性疾患を診断するために広く使用されている。さらに、イムノアッセイはしばしば、アレルギー（例えば、ピーナッツアレルギー、母乳、花粉など）を同定し、モニターするために使用される。これらの分野を超えて、イムノアッセイは、神経変性疾患、心臓血管疾患、及びがんの診断にとっての有用性を実証してきた。

診断イムノアッセイを開発するために使用されている現在の方法は、アッセイから得られ得る全体的感度及び特異性を制限し、よって、実用性も制限するが、その理由は、それらは、未関連抗体からの交差反応結合をもたらし得る外来抗原物質（すなわち、大型タンパク質、ペプチド、脂質、全細胞溶解物）を含むからである。よって、所与の表現型を有する個体における免疫反応によって最も特異的に認識されるそれらの抗原成分または成分のセットのみを同定及び提示し得る診断技術に対する満たされていないニーズが存在する。

より最近では、所与の病態について対象となる抗原及びエピトープを単離することを試みるタンパク質及びペプチドアレイなどの技術も開発されている。これらのアプローチは、１）抗原が、アレイ上に配置するために事前に知られている必要があり、２）ペプチドが長いほど、非特異的非標的抗体の結合に利用可能な表面が多くなるのでタンパク質またはペプチドは非特異的であり得るため、成功が限られている。このアッセイは、時間がかかり、扱いにくく、ハイスループット分析に適しておらず、ウェットラボアッセイから得られるデータはしばしば、対象となる特定の疾患または病態に制限される。

さらに、自己免疫及びがんの文脈では、シグナルが単一の共有抗原の複数のペプチドにわたって不均一に分散している場合、そのときは抗原にわたる「シグナル」は、所与のエピトープが対象のコホートにわたって共有されていない場合はノイズよりも有意に上昇しない。よって、疾患サンプルのセット対対照サンプルのセットにわたる「シグナル」に注目することを試みる方法は、特定のエピトープが共有されていない場合は、それを同定することができず、抗原もまた、所与のアレイについての抗原に存在するエピトープの不均一性により、共有抗原として潜在的に認識されない。

そのため、例えば、診断、処置療法の予測、または治療剤の同定のために使用され得る、個体の状態を決定するために任意の疾患または病態に対応する抗原配列の可能性のある全ての組み合わせの分析のために使用され得る血清サンプルに対する単一アッセイを実施するための方法が必要とされている。さらに、これらの方法は、抗原の同定において特定のエピトープの同定に制限されるべきではない。

概要
本明細書では、いくつかの実施形態によれば、病態のための抗原マーカーを同定する方法であって、方法は、病態コホート及び比較のための対照コホートを同定すること；前記病態に対応する抗原のセットを提供することであって、各抗原の配列は、部分配列にタイリングされている、提供すること；前記病態コホート及び前記対照コホートの両方についての前記部分配列の各々についての濃縮スコアスコアを提供すること；前記抗原のセットにおける各抗原について、前記抗原内の部分配列についての前記濃縮スコアから前記病態コホート及び前記対照コホートについての前記抗原の抗原スコアを決定すること、及び前記病態コホート及び前記対照コホートについての前記抗原スコアを比較して抗原外れ値スコアを決定すること；ならびに前記抗原外れ値スコアが閾値を超える場合、前記抗原を前記病態のための抗原マーカーとして同定することを含む、方法が提供される。

いくつかの実施形態では、濃縮スコアは、前記部分配列を含むモチーフについて決定されたモチーフ濃縮スコアから決定される。いくつかの実施形態では、濃縮スコアは、前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合の同定から決定される。いくつかの実施形態では、方法は、前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合を同定することによって前記濃縮スコアを決定することをさらに含む。

いくつかの実施形態では、抗原スコアは、前記コホートにおける前記抗原配列についての最高部分配列濃縮スコアから決定される。いくつかの実施形態では、抗原スコアは、前記コホートにおける前記抗原配列についての全ての部分配列濃縮スコアの合計から決定される。いくつかの実施形態では、抗原スコアは、前記コホートにおける前記抗原配列についてのｎ個の部分配列のウィンドウ内の部分配列濃縮スコアの最高平均値から決定される。いくつかの実施形態では、抗原スコアは、抗原配列にわたるｎ個の最大部分配列濃縮スコアの合計から決定される。

いくつかの実施形態では、前記病態コホート及び前記対照コホートについての前記抗原スコアを比較することは、前記抗原についての前記サンプルコホート及び前記対照コホートからの抗原スコア間の統計的差異を算出することを含む。いくつかの実施形態では、閾値は、前記抗原を抗原マーカーとして同定するのに十分な統計的差異を表す。いくつかの実施形態では、統計的差異は、Ｃｏｈｅｎのｄ効果量、マン・ホイットニーのＵのｐ値、コルモゴロフ・スミルノフのｐ値、及び外れ値合計からなる群から選択される統計分析から決定される。いくつかの実施形態では、統計的差異は、多重仮説検定のための補正を含む。いくつかの実施形態では、補正は、ボンフェローニ補正または偽発見率である。いくつかの実施形態では、閾値は、前記抗原のセットから決定された抗原外れ値スコアのランキングから決定される。

いくつかの実施形態では、部分配列は、ｋ－ｍｅｒである。いくつかの実施形態では、ｋ－ｍｅｒは、５－ｍｅｒ、６－ｍｅｒ、７－ｍｅｒ、８－ｍｅｒ、９－ｍｅｒ、または１０－ｍｅｒを含む。いくつかの実施形態では、部分配列は、少なくともｋ－ｎの規定のアミノ酸位置を有するｋ－ｍｅｒ配列を含み、ｋは、８、９または１０であり、ｎは、２、３、４、５、または６である。

いくつかの実施形態では、抗原配列は、アミノ酸配列である。いくつかの実施形態では、抗原マーカーは、タンパク質、ＲＮＡ、またはアプタマーを含む。

いくつかの実施形態では、病態コホートは、１人以上の患者からの１つ以上のサンプルを含み、前記患者は、感染症、自己免疫性障害、がん、神経障害、または慢性疾患と診断されており、または前記患者は、治療剤またはワクチンが投与されている。

いくつかの実施形態では、前記濃縮スコアを提供することは、複数の異なるペプチドを含むディスプレイシステムを複数の抗体を含む生物学的サンプルと接触させることであって、複数の抗体は、前記病態についての抗体を含むことが知られているか、または疑われており、接触させることは、試料抗体が前記複数の異なるペプチド上の同種エピトープに特異的に結合するのに十分な条件下で実施される、接触させること；複数の異なるペプチドと試料抗体との間の結合を測定すること；及び前記部分配列について測定された結合の量から前記配列についての濃縮スコアを同定することを含む。

いくつかの実施形態では、ペプチドは、ランダムに生成されている。いくつかの実施形態では、ペプチドは、８－ｍｅｒ～１５－ｍｅｒペプチドである。いくつかの実施形態では、ペプチドは、１２－ｍｅｒペプチドである。いくつかの実施形態では、ディスプレイシステムは、少なくとも１０、少なくとも１００、少なくとも１０００、少なくとも１０^４、少なくとも１０^５、少なくとも１０^６、少なくとも１０^７、または少なくとも１０^８種の異なるペプチドを含む。いくつかの実施形態では、前記ペプチドは、１２－ｍｅｒペプチドであり、ランダムに生成されている。

いくつかの実施形態では、前記抗原スコア及び前記抗原外れ値スコアの決定は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される。いくつかの実施形態では、前記抗原外れ値スコアが閾値を超える場合、前記抗原を前記病態のための抗原マーカーとして同定することは、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される。

また、本明細書では、いくつかの実施形態によれば、対照コホートと比較して病態コホートに特異的な抗原マーカー上の１つ以上の抗原エピトープを同定する方法であって、方法は、病態コホート及び比較のための対照コホートを同定すること；前記病態に対応する抗原を提供することであって、前記抗原の配列は、部分配列にタイリングされている、提供すること；前記病態コホート及び前記対照コホートの両方からのサンプルについての前記部分配列の各々についての濃縮スコアを提供すること；前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定すること；及び前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定することを含む、方法が提供される。

いくつかの実施形態では、前記病態コホート及び前記対照コホートについての前記濃縮スコアを比較することは、前記抗原についての前記サンプルコホート及び前記対照コホートからの濃縮スコア間の統計的差異を算出することを含む。いくつかの実施形態では、閾値は、前記１つ以上の領域を抗原エピトープとして同定するのに十分な統計的差異を表す。いくつかの実施形態では、統計的差異は、Ｃｏｈｅｎのｄ効果量、マン・ホイットニーのＵのｐ値、コルモゴロフ・スミルノフのｐ値、及び外れ値合計からなる群から選択される統計分析から決定される。いくつかの実施形態では、統計的差異は、多重仮説検定のための補正を含む。いくつかの実施形態では、補正は、ボンフェローニ補正または偽発見率である。

いくつかの実施形態では、ペプチドは、ランダムに生成されている。いくつかの実施形態では、ペプチドは、８－ｍｅｒ～１５－ｍｅｒペプチドである。いくつかの実施形態では、ペプチドは、１２－ｍｅｒペプチドである。いくつかの実施形態では、ディスプレイシステムは、少なくとも１０、少なくとも１００、少なくとも１０００、少なくとも１０^４、少なくとも１０^５、少なくとも１０^６、少なくとも１０^７、または少なくとも１０^８種の異なるペプチドを含む。いくつかの実施形態では、ペプチドは、１２－ｍｅｒペプチドであり、ランダムに生成されている。

いくつかの実施形態では、前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定することは、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される。いくつかの実施形態では、前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定することは、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される。

また、本明細書では、いくつかの実施形態によれば、病態のためのタンパク質マーカーを同定する方法であって、方法は、病態コホート及び比較のための対照コホートを同定すること；前記病態に対応するプロテオームからのタンパク質のセットを提供することであって、前記タンパク質は、ｋ－ｍｅｒ配列にタイリングされている、提供すること；前記病態表現型を有する対象及び前記対照表現型を有する対象からの血清サンプルからの前記複数のｋ－ｍｅｒ配列についての濃縮スコアを提供することであって、前記濃縮スコアは、各血清サンプルにおける抗体に対する前記ｋ－ｍｅｒ配列の結合のレベルを測定することから決定される、提供すること；前記タンパク質のセットにおける各タンパク質について、前記タンパク質内のｋ－ｍｅｒ配列についての前記濃縮スコアから前記病態コホート及び前記対照コホートについての前記タンパク質の抗原スコアを決定すること、及び前記病態コホート及び前記対照コホートについての前記抗原スコアを比較してタンパク質外れ値スコアを決定すること；ならびに前記タンパク質外れ値スコアが閾値を超える場合、前記タンパク質を前記病態のためのタンパク質マーカーとして同定することを含む、方法が提供される。

また、本明細書では、いくつかの実施形態によれば、非一時的コンピュータ可読記憶媒体及びプロセッサを含む、病態のための抗原マーカーを同定するためのシステムであって、前記記憶媒体は、前記病態に対応する抗原の部分配列についての濃縮スコアであって、前記濃縮スコアは、病態コホート及び対照コホートに特異的である、濃縮スコア；前記抗原の部分配列の前記濃縮スコアから前記病態コホート及び前記対照コホートに特異的な各抗原の抗原スコアを生成するための命令；ならびに前記病態コホート及び前記対照コホートに特異的な前記抗原についての前記抗原スコア間の統計的差異を比較することによって抗原外れ値スコアを生成するための命令を含む、システムが提供される。

いくつかの実施形態では、システムは、前記抗原外れ値スコアに基づいて前記病態のための抗原マーカーとして好適な抗原を同定するアウトプットを生成するための命令をさらに含む。いくつかの実施形態では、システムは、前記病態に対応する前記抗原の配列を受信するための命令をさらに含む。いくつかの実施形態では、システムは、前記病態に対応する前記抗原の配列を部分配列にタイリングするための命令をさらに含む。いくつかの実施形態では、システムは、前記部分配列についての濃縮スコアを受信するための命令をさらに含む。

また、本明細書では、いくつかの実施形態によれば、非一時的コンピュータ可読記憶媒体及びプロセッサを含む、病態コホートに特異的な抗原マーカー上の１つ以上の抗原エピトープを同定するためのシステムであって、前記記憶媒体は、前記抗原マーカーの部分配列についての濃縮スコアであって、前記濃縮スコアは、病態コホート及び対照コホートに特異的である、濃縮スコア；ならびに前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定するための命令を含む、システムが提供される。

いくつかの実施形態では、システムは、前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定するアウトプットを生成するための命令をさらに含む。いくつかの実施形態では、システムは、前記病態に対応する前記抗原の配列を受信するための命令をさらに含む。いくつかの実施形態では、システムは、前記病態に対応する前記抗原の配列を部分配列にタイリングするための命令をさらに含む。いくつかの実施形態では、システムは、前記部分配列についての濃縮スコアを受信するための命令をさらに含む。

前述及び他の目的、特徴、ならびに利点は、添付の図面に示されているとおり、本発明の特定の実施形態の以下の記載から明らかであり、同様の参照文字は、異なる図面全体で同じ部分を指す。図面は、必ずしも縮尺通りでなく、代わりに、本発明の種々の実施形態の原理を説明することに重点を置く。

タンパク質の各タイリングされたｋ－ｍｅｒ部分配列（そのそれぞれのアミノ酸位置におけるもの）についての濃縮スコアの値を示している。図１に提供されるタンパク質についてのタイリングスコアからのｋ－ｍｅｒについての位置及び最大濃縮スコア（ｄｏｔ）を示している。図１に提供されるタンパク質についてのタイリングスコアからのｋ－ｍｅｒについての位置及び最大濃縮スコア（ｄｏｔ）を示している。各コホートからの複数のサンプルから得られた多数のタンパク質にわたる個々のタンパク質についての図１～３に示されるように決定された最大スコア（濃縮スコアとして使用される）を示している。病態コホートと対照コホートとの間の抗原スコアの統計的差異を比較する本明細書に記載の方法を使用して同定された抗原のサンプルランキングを示している。伝統的な酵素結合免疫吸着アッセイ（ＥＬＩＳＡ）によって決定される場合対本明細書に開示されるｋ－ｍｅｒ部分配列分析を介して抗原スコアの生成によって決定される場合の黒色腫患者からのサンプル血清における検証された抗原ＮＹ－ＥＳＯ－１についての抗原スコアの比較を示している。がん及び非がんコホートからの複数のサンプルの各々からのＮＹ＿ＥＳＯ－１についてのｋ－ｍｅｒ部分配列最大スコアのプロットを示している。治療前（「ベースライン」）及び治療後（「治療中」、処置からおよそ３ヶ月後）の両方で、ｉ）治療に対して反応性である患者及びｉｉ）治療に対して反応性ではない患者の血清からのタイリングされたｋ－ｍｅｒ配列及びｋ－ｍｅｒ濃縮値を使用したＮＹ－ＥＳＯ－１についての抗原性のエピトープレベルの分解能を示している。病態コホートと対照コホートとの間の抗原スコアの統計的差異を比較する本明細書に記載の方法を使用して同定されるシェーグレン患者のためのバイオマーカーとしての抗原のランキングを示している。対照、シェーグレンＳＳＢ－、及びシェーグレンＳＳＢ＋コホートからの複数のサンプルの各々からのＳＳＢ抗原についてのｋ－ｍｅｒ部分配列最大スコアのプロットを示している。伝統的な酵素結合免疫吸着アッセイ（ＥＬＩＳＡ）によって決定される場合対本明細書に開示されるｋ－ｍｅｒ部分配列分析を介して抗原スコアの生成によって決定される場合のシェーグレン患者からのサンプル血清における検証された抗原ＣＥＮＰＡについての抗原スコアの比較を示している。病態コホートと対照コホートとの間の抗原スコアの統計的差異を比較する本明細書に記載の方法を使用してＨＳＶ２ワクチン接種と比較した自然ＨＳＶ２感染症のためのバイオマーカーとしての抗原のランキングを示している。ＨＳＶ２感染患者（「症例」）（すなわち、病態）及びＨＳＶ２ワクチン接種患者（「対照」）からの血清サンプルについてのエンベロープ糖タンパク質Ｅについて同定された最大ｋ－ｍｅｒ濃縮値を示すチャートを提供する。ＨＳＶ２感染患者（「症例」）（すなわち、病態）及びＨＳＶ２ワクチン接種患者（「対照」）からの血清からの複数のサンプルの各々からのエンベロープ糖タンパク質Ｅについてのｋ－ｍｅｒ部分配列最大スコアのプロットを示している。ＨＳＶ２感染患者（「症例」）（すなわち、病態）及びＨＳＶ２ワクチン接種患者（「対照」）からの血清からの複数のサンプルの各々からのエンベロープ糖タンパク質Ｄについてのｋ－ｍｅｒ部分配列最大スコアのプロットを示している。

詳細な説明
本発明の様々な実施形態の詳細が以下の説明に記載される。本発明の他の特徴、目的、及び利点は、説明及び図面から、ならびに特許請求の範囲から明らかになるであろう。

序論
所与の疾患状態では、免疫系は、異物または「非自己」と思われる抗原に対する抗体をする。感染症の場合、これらの抗原、及びこれらの抗原におけるエピトープは、集団を通して保存される傾向がある。方法は、感染性疾患の文脈で共有エピトープ／モチーフを以前から成功裏に同定しているが、がん及び自己免疫の両方におけるシグナルは、観察されたエピトープにおける不均一性に起因して検出するのが困難であり続けている。しかしながら、本明細書に記載されているように、疾患状態に対応する保存された抗原は、所与の抗原上の保存されたエピトープを必要としない。

我々は、ＮＧＳ及び計算方法を使用して血清中のエピトープ情報を捕捉及び解読するために非常に大規模な（１０^１０）ランダム細菌ディスプレイライブラリを使用するＳＥＲＡアッセイを開発した。

本明細書では、ＳＥＲＡアッセイから得られたものに対応する情報及びＳＥＲＡから発展したペプチドについての抗原性情報のデータベースをプロテオーム情報と組み合わせて使用して共有抗原を同定する方法及び組成物が提供される。この方法は、共有エピトープを提示しないシグナルを有するものを含む、最も有意な共有抗原を同定するために使用される。よって、本明細書では、いくつかの実施形態によれば、そのような共有抗原を同定し、さらに、共有抗原に対する反応性に対してエピトープレベルの分解能を提供する方法が提供される。

共有抗原シグナルを同定するために、全てのタンパク質を構成要素部分配列に分割し、部分配列のセットにわたって各サンプルについての抗原シグナルを算出する。次いで、疾患コホートと対照コホートとの間の各タンパク質についてのサンプルシグナルを比較し、コホート間で相違する抗原性を有するタンパク質を同定する。

サンプルが特定のエピトープ配列を共有しなければならないという制約を排除することによって、既存の計算的解決策によって検出されなかった抗原を同定する。これは、エピトープが個体固有であり得るが抗原は共有されるがん及び自己免疫の研究への適用において実質的利益を示した。単一のアドレスで疾患対対照における共有シグナルに注目するペプチドアレイは、それらのアドレスの共有が不十分である場合、ノイズよりも上昇しない希釈されたシグナルを有する。

方法は、非常にハイスループットで抗原及びエピトープレベルの分解能を同時に提供し、これは他のウェットラボ技術を使用して実現することはできない。

ＳＥＲＡを使用して各サンプルについてランダムライブラリからの抗原性シグナルを提供する場合、方法は、分析前にアッセイにおいて抗原または抗原のセットを含めることに依存しない。方法は、１つの抗原から多重プロテオームスケール（＞２０，０００種のタンパク質）まで計算効率で処理することができる。このスケーラビリティにより、大規模コホートにおけるデータ及び統計的誘導発見が可能となる。大規模対照コホートからのデータは、調査結果の特異性を改善する。

一例として、前立腺癌及び黒色腫の組み合わされた分析において、対照と比較して最も相違する抗原性のタンパク質としてＮＹ－ＥＳＯ－１を同定し、各サンプルに寄与するエピトープが、タンパク質配列の近くであるが非同一の領域に存在することを発見した。次いで、抗原性があるものとして同定した領域が、合成ペプチドを使用してＮＹ－ＥＳＯ－１の抗原エピトープを同定した先行文献と一致することを確認した。

定義
請求項及び明細書で使用される用語は、特に明記しない限り、以下に記載するように定義する。

具体的に述べられるか、別段文脈から明らかでない限り、本明細書で使用される場合、「約」という用語は、当該技術分野における通常の許容範囲内、例えば、平均の２標準偏差内にあるものと理解される。約は、述べられる値の１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、０．１％、０．０５％、または０．０１％以内にあるものと理解され得る。本明細書で提供される数値は、時に、約という用語によって修飾されているとみなされる場合があり、それは、修飾によって包含される範囲が本発明の機能性及び特許請求の範囲の確定性に一致することが文脈により明らかにされる場合である。

用語「濃縮」は、本明細書で使用される場合、同等のサイズのランダムデータセット内で予測される数と比較した、エピトープレパートリー内のペプチド（タンパク質または抗原部分配列を含む）、パターン、またはモチーフの観察の数に相当する。この情報は、コホートからのサンプル血清におけるペプチド、パターン、またはモチーフの予測される相対抗原性の指標である、ペプチド、パターン、またはモチーフについての「濃縮スコア」を生成するために使用され得る。例えば、Ｘが任意のアミノ酸である仮想９－ｍｅｒペプチドライブラリにおいて、パターンＱＰＸＸＰＦＸ［ＥＤ］（配列番号３）は、８００，０００（（ｌａａ／２０ａａ）４ｘ（２ａａ／２０ａａ）ｘ２）のランダム配列（ａａ＝アミノ酸）ごとに１回生じることが予測される。仮に４百万の配列が決定されたとしたら、そのときは五（５）回の事象（すなわち、８００，０００配列ごとに１回）を観察することが予測されるであろう。例として、パターンがエピトープレパートリーにおいて５０の独自ペプチド配列（すなわち、５０回の観察）で観察された場合、そのときはそのパターンは、ランダムに対して１０倍「濃縮される」であろう。ペプチドディスプレイライブラリを使用した患者サンプルに特異的な濃縮スコアのそのような決定は、２０１６年１１月１４日に出願されたＰＣＴ公開番号ＷＯ／２０１７／０８３８７４「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＡｓｓｅｓｓｉｎｇＡｎｔｉｂｏｄｙＳｐｅｃｉｆｉｃｉｔｉｅｓ」、（すなわち、「ＳＥＲＡ技術」）（その全体が参照により本明細書に組み込まれる）に記載されている。

用語「抗原スコア」は、本明細書で使用される場合、１つ以上の病態コホート及び／または対照コホートなどのサンプルコホートにおけるタンパク質または抗原マーカーの予測される抗原性の指標を指す。本明細書に記載されるように、抗原スコアは、サンプルからの病態関連プロテオームのタンパク質におけるｋ－ｍｅｒ部分配列またはモチーフからの濃縮スコアを使用して決定される。

本明細書で使用される用語「抗原外れ値スコア」は、抗原が抗原マーカーとして有用であるかどうかを同定するためにサンプル及び／またはコホートの間の抗原またはタンパク質の抗原スコアの比較によって生成されるスコアを指す。そのようなコホートは、疾患のバイオマーカーまたは処置反応のバイオマーカー、例えば、処置の前もしくは後に、または処置の前または／後の疾患の所定の規定の段階で病態を有するかまたは有しないものに関連し得る。いくつかの実施形態では、抗原またはタンパク質がコホートの少なくとも１つについての抗原マーカーとして有用であるかどうかの同定は、抗原またはタンパク質についての抗原外れ値スコアが既定の閾値を超えるかどうかを同定することを含む。そのような閾値は、病態のための統計的に有意な抗原マーカーを同定するために設定され得、すなわち、病態コホート及び対照（すなわち、参照）コホートからのサンプル間で区別するために使用され得る。

用語「閾値」は、本明細書で使用される場合、生じるまたは関連すると考えられる所定の反応、現象、結果、または状態について超えなければならない大きさまたは強度を指す。例えば、閾値は、それを超える場合に抗原スコアが関連すると考えられる数値であり得る。関連性は状況に応じて異なる場合があり、例えば、良好な関連性、反応性の関連性、または統計的に有意な関連性を指し得る。

本明細書で使用される場合、用語「次世代シーケンシング」（ＮＧＳ）などは、ハイスループット核酸シーケンシング（ＨＴＳ）アプローチを指すために使用される。異なるシーケンシング技術に依存するＮＧＳのためのプラットフォームは、多数のベンダー、例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＴｈｅｒｍｏＦｉｓｈｅｒのＩｏｎＴｏｒｒｅｎ、４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．（例えば、ＭｉＳｅｑ、ＮｅｘｔＳｅｑ、ＨｉＳｅｑ）及びＯｘｆｏｒｄＮａｎｏｐｏｒｅから市販されている。ＮＧＳ技術のレビューについては、例えば、ｖａｎＤｉｊｋＥＬｅｔａｌ．Ｔｅｎｙｅａｒｓｏｆｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｙ．ＴｒｅｎｄｓＧｅｎｅｔ．２０１４Ｓｅｐ；３０（９）：４１８－２６（全ての目的のためにその全体が参照により本明細書に組み込まれる）参照。

用語「表面ディスプレイ」は、本明細書で使用される場合、生細胞、ウイルス、またはバクテリオファージなどの生物学的粒子の外表面などのアレイ表面上での異種ペプチド及びタンパク質の提示を指す。

本明細書で使用される場合、「ペプチドのライブラリ」または「ペプチドライブラリ」は、スクリーニング目的のために典型的に使用されるペプチド断片の集合を指す。用語「ペプチド」、「ポリペプチド」、「アミノ酸配列」、「ペプチド配列」、及び「タンパク質」は、互いに連結された２つ以上のアミノ酸を指すために互換的に使用され、特定の長さを意味しない。アミノ酸及びペプチドは、天然に存在するか、または合成（例えば、非天然アミノ酸またはアミノ酸アナログ）であり得る。アミノ酸及びペプチドはまた、反応性基、例えば、アミノ酸もしくはペプチドを固体基材に結合させるための反応性基、アミノ酸もしくはペプチドを標識するための反応性基、または対象となる他の部位をアミノ酸もしくはペプチドに結合させるための反応性基を含むか、または含むようにさらに改変され得る。反応性基には、化学的反応性基、例えば、反応性チオール（例えば、マレイミド系反応性基）、反応性アミン（例えば、Ｎ－ヒドロキシスクシンイミド系反応性基）、「クリックケミストリー」基（例えば、反応性アルキン基）、及びホルミルグリシン（ＦＧｌｙ）を保有するアルデヒドが含まれるがこれらに限定されない。

用語「疾患」は、生物の体に影響を及ぼす異常な状態を指す。用語「障害」は、機能的異常または傷害を指す。疾患または障害という用語は、別段記述されない限りまたは用語が使用される文脈を考慮して明らかでない限り、本明細書で互換的に使用される。疾患及び障害という用語はまた、集合的に「病態」と称され得る。

用語「表現型」は、本明細書で使用される場合、生物の観察可能な特徴または形質の複合体、例えば、その形態、発生、生化学的または生理的特性、フェノロジー、挙動、及び挙動の産物を含む。

２つ以上の核酸またはポリペプチド配列の文脈における「同一性」率という用語は、以下に記載の配列比較アルゴリズム（例えば、ＢＬＡＳＴＰ及びＢＬＡＳＴＮまたは当業者に利用可能な他のアルゴリズム）のうちの１つ以上を使用してまたは視覚検査によって測定した場合、最大一致について比較及びアライメントされた場合に、ヌクレオチドまたはアミノ酸残基の特定のパーセンテージが同じである２つ以上の配列または部分配列を指す。用途に応じて、「同一性」率は、比較されている配列の領域にわたって、例えば、機能性ドメインにわたって存在し得、または、代替的に、比較される２つの配列の全長にわたって存在し得る。

配列比較のため、典型的には、１つの配列が参照配列として機能し、これと試験配列を比較する。配列比較アルゴリズムを使用する場合、試験配列及び参照配列をコンピュータに入力し、必要に応じて部分配列座標を指定し、配列アルゴリズムプログラムパラメータを指定する。その後、配列比較アルゴリズムは、指定されたプログラムパラメータに基づいて、参照配列に対する試験配列（複数可）についての配列同一性率を算出する。

比較のための配列の最適なアライメントは、例えば、Ｓｍｉｔｈ＆Ｗａｔｅｒｍａｎ，Ａｄｖ．Ａｐｐｌ．Ｍａｔｈ．２：４８２（１９８１）の局所的同一性アルゴリズムによって、Ｎｅｅｄｌｅｍａｎ＆Ｗｕｎｓｃｈ，Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３（１９７０）の同一性アライメントアルゴリズムによって、Ｐｅａｒｓｏｎ＆Ｌｉｐｍａｎ，Ｐｒｏｃ．Ｎａｔ’ｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８５：２４４４（１９８８）の類似性方法の検索によって、これらのアルゴリズムのコンピュータ化実装によって（ＷｉｓｃｏｎｓｉｎＧｅｎｅｔｉｃｓＳｏｆｔｗａｒｅＰａｃｋａｇｅ内のＧＡＰ、ＢＥＳＴＦＩＴ、ＦＡＳＴＡ、及びＴＦＡＳＴＡ、ＧｅｎｅｔｉｃｓＣｏｍｐｕｔｅｒＧｒｏｕｐ，５７５ＳｃｉｅｎｃｅＤｒ．，Ｍａｄｉｓｏｎ，Ｗｉｓ．）、または視覚的検査によって（一般に下記Ａｕｓｕｂｅｌｅｔａｌ．参照）行われ得る。

配列同一性及び配列類似性率を決定するのに好適なアルゴリズムの一例は、Ａｌｔｓｃｈｕｌｅｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３－４１０（１９９０）に記載されているＢＬＡＳＴアルゴリズムである。ＢＬＡＳＴ分析を実施するためのソフトウェアは、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／）を通して公共に利用可能である。

用語「十分な量」は、所望の効果をもたらすのに十分な量を意味する。

用語「治療的有効量」は、疾患の症状を改善するのに有効な量である。いくつかの文脈では、治療的有効量は、予防が治療と考えられ得る場合は「予防的有効量」であり得、但し、そのような解釈は、いかなる理由でも請求項の有効性の決定に不利な影響を及ぼさない。

抗原発見
本発明は、疾患特異的なプロテオームベースの抗原性シグナルを同定するための方法及び組成物を提供する。同定された抗原は、疾患の潜在的マーカーまたは治療反応のマーカーとして使用され得る。同定された抗原はまた、潜在的な治療標的として使用され得る。

簡潔には、本明細書に記載されるように、疾患特異的抗原を同定する方法は、例えば、ｉ）規定のｋ－ｍｅｒペプチドのセットに対する疾患状態及び比較対照状態からの血清の抗原反応を同定または決定すること、ｉｉ）この反応を、疾患血清及び対照血清に対する１つ以上のｋ－ｍｅｒを含む抗原の抗原性反応を予測するために使用すること、及びｉｉｉ）疾患血清に対する抗原性反応対対照血清に対する抗原性反応との間の差異が閾値を超えるかどうかを決定して、抗原を、疾患特異的なプロテオームベースの抗原性シグナルを提供するのに有用なものとして同定することを含む。いくつかの実施形態では、疾患状態に対応するプロテオームが同定され、このプロテオームからのタンパク質配列は、疾患血清及び対照血清による各タンパク質に対する抗原性反応の同定のために構成要素ｋ－ｍｅｒ配列に分割される。

いくつかの実施形態では、各タンパク質及びサンプル（例えば、疾患血清及び対照血清）について、最も強力な線状抗原（ｋ－ｍｅｒ）が同定される。いくつかの実施形態では、全てのタンパク質について、疾患集団と対照集団（すなわち、疾患血清と対照血清）との間の抗原性シグナルが比較される。いくつかの実施形態では、最も強い抗原性シグナルを有するタンパク質が疾患コホートについて同定される。

本発明のいくつかの実施形態に従って、疾患状態対対照または非疾患状態からの血清を区別するために使用され得る抗原性抗原の発見及び同定を記載する工程が以下に提供される。

ｋ－ｍｅｒ部分配列についての濃縮スコア
最初に、病態コホート及び対照コホートとして利用されるサンプルを同定する。各サンプルについて、タンパク質データベースにおける全てのｋ－ｍｅｒについてのｋ－ｍｅｒレベル統計値を同定または決定する。

いくつかの実施形態では、本明細書に記載されるように、このデータは、２０１６年１１月１４日に出願されたＰＣＴ公開番号ＷＯ／２０１７／０８３８７４「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＡｓｓｅｓｓｉｎｇＡｎｔｉｂｏｄｙＳｐｅｃｉｆｉｃｉｔｉｅｓ」、（すなわち、「ＳＥＲＡ技術」）（その全体が参照により本明細書に組み込まれる）に記載されているように、ペプチドディスプレイライブラリを使用して患者サンプルから誘導される。いくつかの実施形態では、ＳＥＲＡは、細菌ディスプレイ技術を使用して、１２ｍｅｒペプチドの多様なセットを血清抗体に提示する。血清抗体に結合するペプチドは、磁性ビーズを使用して分離され、次世代シーケンシングを使用してシーケンシングされる。各１２ｍｅｒはｋｍｅｒ成分に分割され、これらのｋｍｅｒの対数濃縮が算出され、濃縮は、ランダム１２ｍｅｒペプチドにおけるｋｍｅｒ集団統計値に基づいて予測された頻度に基づく予測と比較した観察の数を示す。これは、サンプル特異的及びコホート特異的ｋ－ｍｅｒ濃縮スコアを同定するために各コホートからの各サンプルについて実施される。

本明細書に記載の本方法論は、ＳＥＲＡ技術を使用して誘導されたが、エピトープレベルデータを生成する任意の技術（例えば、ペプチドアレイ及び他のシーケンシングベースのアプローチ）に適用可能であろう。よって、抗原性ペプチド配列の決定は、上記の方法に限定されず、任意の他のペプチド駆動技術を使用して決定され得る。

病態に関連するｋ－ｍｅｒ配列の同定
対象となる疾患状態について、病態コホートに関連するプロテオームが得られる。そのようなプロテオーム（例えば、ヒトプロテオームまたは感染性因子プロテオーム）は、公共に利用可能な配列データベース（例えば、Ｕｎｉｐｒｏｔ）から得られ得る。簡潔性のため、これらのアミノ酸配列を「タンパク質」と称するが、このアプローチは、非タンパク質抗原性配列に適用される可能性がある。

各タンパク質は、ｋ個のアミノ酸の連続配列をそれぞれ表す構成的ｋ－ｍｅｒにタイリングされる。好ましい実施形態では、ｋは、５、６、または７のうちの１つまたは組み合わせである。例えば、タンパク質配列ＡＢＣＤＥＦＧは、タイリングされた５ｍｅｒのＡＢＣＤＥ、ＢＣＤＥＦ、ＣＤＥＦＧに分割されるであろう。

サンプル及び／またはコホートに特異的なタンパク質の各ｋ－ｍｅｒ配列についての濃縮スコアは、サンプル及び／またはコホートにおけるタンパク質についての抗原スコアを同定するために使用される。まず、ｋ－ｍｅｒレベル濃縮スコアが決定または同定される。この値は、特定のｋ－ｍｅｒについての観察の数についての予測と比較した、ｋ－ｍｅｒに対するサンプルからの血清の結合に相当する。いくつかの実施形態では、ｋ－ｍｅｒレベル濃縮値は、標準偏差の数の「比較」に基づいており、特定の濃縮値は、対照コホートの濃縮からのものであり、これらの対照は、比較コホートまたは第３のコホートのいずれかであり得る。本明細書に記載のｋ－ｍｅｒ濃縮スコアは、相対濃縮または標準偏差の数に基づいて決定されるが、生カウントまたは代替的正規化アプローチを含む各ｋ－ｍｅｒ濃縮スコアについての異なる値も使用され得る。

いくつかの実施形態では、ｋ－ｍｅｒ濃縮スコアは、特定の配列の代わりに、ｋ－ｍｅｒモチーフについて決定される。抗原に存在するｋ－ｍｅｒに関連するｋ－ｍｅｒ配列のセットは、「モチーフ」を構成し得、そのモチーフにおいて、配列におけるいくつかの位置は、その位置において可能な複数のアミノ酸を有し得る。モチーフスコアは、構成要素ｋ－ｍｅｒ濃縮スコアを統合し、ｋ－ｍｅｒ濃縮スコアのために使用することもできる。

タンパク質についての抗原スコア
対象となる病態に関連するプロテオームにおけるタンパク質について抗原スコアが同定される。このスコアは、対象となる病態に関する（すなわち、コホート対照と比較した場合のサンプルコホートにおける）各タンパク質の抗原性の特異性に相当する。各タンパク質内の各ｋ－ｍｅｒ部分配列についての各サンプル及び／またはコホートに特異的な濃縮スコアは、各サンプル及び／またはコホート（例えば、疾患及び対照）に特異的な各タンパク質についての抗原スコアを決定するために使用される。ｋ－ｍｅｒ濃縮スコアから抗原スコアを決定するためのいくつかの方法が本明細書に開示される。

いくつかの実施形態では、ｋ－ｍｅｒ濃縮スコアから抗原スコアを決定することは、図１に示されているようにサンプルの関連プロテオームにおけるタンパク質におけるｋ－ｍｅｒ配列（または他の非タンパク質抗原配列）をタイリングすることを含む。いくつかの実施形態では、このｋ－ｍｅｒレベル統計値は、数ｋ－ｍｅｒのウィンドウ（例えば、５つのｋ－ｍｅｒのウィンドウ）にわたって平滑化（平均化）される。いくつかの実施形態では、複数のｋ－ｍｅｒ濃縮スコアが使用され（例えば、５ｍｅｒ及び６ｍｅｒを同時に使用する）、そのスコアは、ｋ－ｍｅｒ濃縮スコアにわたる合計から決定される。

いくつかの実施形態では、タンパク質についての最大ｋ－ｍｅｒ濃縮スコアは、そのタンパク質についての抗原スコアを決定するために使用される。図２及び３に示されているものは、図１に提供されるタンパク質についてのタイリングスコアからのｋ－ｍｅｒ抗原性シグナルについての位置及び最大スコアである。別の実施形態では、タンパク質にわたるｎ個の最大ｋ－ｍｅｒ濃縮スコアの合計（ｎは、タイリングされたタンパク質配列に沿った１つ以上のｋ－ｍｅｒ濃縮スコアピークを含み得る）が使用される。別の実施形態では、タンパク質における全てのｋ－ｍｅｒ濃縮スコアの合計スコアが使用される。

病態特異的抗原を同定するための抗原外れ値スコア
上記で決定される各タンパク質についての抗原スコアは、コホート間で比較される。コホート間の各タンパク質についての抗原スコアの差異の統計的有意性が算出される。コホートの抗原スコア間の統計的差異は、コホートにおけるタンパク質の予測される抗原特異性の指標である抗原外れ値スコアを決定するために使用される。いくつかの実施形態では、病態コホート及び対照コホートの比較は、以下の統計的方法のうちの１つを用いて行われる：１．効果量（Ｃｏｈｅｎのｄ効果量として定義される）、２．マン・ホイットニーのＵのｐ値、３．コルモゴロフ・スミルノフのｐ値、及び４．外れ値合計（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｕｂｍｅｄ／１６７０２２２９に記載されている）。マン・ホイットニーのＵ統計の場合、シグナルは、集団にわたるシフトに基づいて同定される（ノンパラメトリック、順位）。Ｐ値は、確立された分布に基づく。外れ値合計の場合、シグナルは、集団の意味のあるサブセットにおける「外れ値」として同定される。Ｐ値は、順列及び中心極限定理に基づく。当業者に知られている他の好適な統計的方法が使用され得る。いくつかの実施形態では、これらの統計的分析は、ボンフェローニ補正または偽発見率のようなアプローチを使用して多重仮説検定のために補正され得る。

抗原についての抗原外れ値スコアを決定するために抗原スコアを統計的に比較するために使用される本方法は上記で詳述されているが、病態コホート及び対照コホートを比較するために適用される可能性がある潜在的に無数に多くの代替的な統計的検定（すなわち、Ｔ検定、ＣＯＰＡ外れ値、カイ二乗検定）が存在する。特に、所与のサンプルについて複数の場所で所与の抗原において有意なシグナルが現れる場合があり、総抗原性シグナルを改善するための方法が採用され得る。

各タンパク質または抗原は、コホート間の差異が閾値を超える場合、関連抗原として分類される。いくつかの実施形態では、病態コホート及び対照コホートを比較するために使用される統計に基づいてタンパク質のランキングを生成する。我々の方法によって生成されたサンプルランキングが図５に提供されている。

いくつかの実施形態では、病態に関連して同定されたタンパク質は、ｉ）診断、例えば、ＥＬＩＳＡまたはＳＥＲＡパネルを開発するため、ｉｉ）モノクローナル抗体のための治療剤を同定するため、及びｉｉｉ）ワクチン標的を同定するために使用される可能性がある。

エピトープ同定
各サンプルについて、タンパク質の配列に沿ってｋ－ｍｅｒ濃縮スコアについての最大値の高さ及び位置を標識する。よって、各タンパク質について、我々の方法は、抗原性領域についてエピトープ分解能を提供する。

例として、各サンプル及び各コホートについての図１～３からのタンパク質についての最大ｋ－ｍｅｒ濃縮スコアは、図４に示されているように決定され、重畳される。疾患サンプルからの血清からの最大ｋ－ｍｅｒスコアは赤色で示されている。対照サンプルについての血清からの最大ｋ－ｍｅｒ濃縮スコアは、緑色で示されている。高いｋ－ｍｅｒ濃縮スコアのクラスターは、疾患血清のみのサンプルからおよそ２０～２５の位置を示した。そのため、この方法は、疾患特異的抗原の同定、及び同定された抗原上の疾患特異的エピトープの位置の同定の両方を提供する。

スコア決定の例
いくつかの実施形態では、本明細書に記載される病態に特異的な抗原の同定は、以下に記載されるように具体的に同定され得る。

サンプルの病態（Ｔ）、対照（Ｕ）、及び（任意に）第３の対照（Ｖ）コホートを定義する。ＳｅｒｉｍｍｕｎｅＥｐｉｔｏｐｅＲｅｐｅｒｔｏｉｒｅＡｎａｌｙｓｉｓパイプラインによって生成された各サンプルについての１２ｍｅｒアミノ酸配列から開始する。

濃縮スコア算出
各１２ｍｅｒについて、それを構成要素ｋ－ｍｅｒ（但し、ｋ＝５及びｋ＝６）に分割する。各サンプル（Ｓ）における全てのｋ－ｍｅｒについて、濃縮を以下のように算出する：

式中、ｎ（ｋ－ｍｅｒ）は、特定のｋ－ｍｅｒを含有する独自の１２ｍｅｒの数であり、ｅ_Ｓ（ｋｍｅｒ）は、サンプルについてのｋ－ｍｅｒリードの予測数であり、以下のように定義される：

式中、Ｎ_Ｓは、Ｓについて生成された１２ｍｅｒリードの数であり、Ｌ_ｓｅｑは、アミノ酸リードの長さ（１２）であり、ｋは、ｋ－ｍｅｒ長さであり、ｐ_ｉは、Ｓからの全ての１２ｍｅｒにおけるｋ－ｍｅｒにおけるｉ番目のアミノ酸についてのアミノ酸割合である。

全てのｋ－ｍｅｒについて、濃縮値を対照集団に対して正規化する。対照濃縮値を以下のように定義する：

式中、Ｗは、第３の対照コホート（Ｖ、定義される場合）であり、そうでなければ対照コホート（Ｕ）が使用される。

正規化された濃縮は、以下のように算出される：

式中、μ（Ｃ）は、Ｃの平均であり、σ（Ｃ）は、Ｃの標準偏差である。

抗原スコア算出。
各タンパク質ｐ及びサンプルｓについて、以下のように定義される抗原スコアＰ（ｓ，ｐ）を算出する：

式中、ｗは、平滑化ウィンドウの幅であり、ｌｅｎ（ｐ）は、タンパク質ｐの長さであり、ｋ－ｍｅｒ（ｊ，ｋ，ｐ）は、タンパク質ｐにおける位置Ｊでの長さｋのｋ－ｍｅｒであり、Ｇ_Ｓは、Ｅ_ＳまたはＦ_Ｓのいずれかである。

同様に、この最大統計値の位置Ｐ_ｌｏｃ（ｓ，ｐ）を以下のように記録する：

コホート比較統計及び抗原外れ値スコア
各タンパク質ｐについて、我々の病態濃縮を以下のように定義する：

同様に、対照濃縮を以下のように定義する：

マン・ホイットニーＵ及びコルモゴロフ・スミルノフのような伝統的な検定を含む、多様な統計的検定を使用してＡ（ｐ）及びＢ（ｐ）を比較する。効果量をヘッジのｇ統計値として算出する。

ＴｉｂｓｈｉｒａｎｉａｎｄＨａｓｔｉｅ，‘Ｏｕｔｌｉｅｒｓｕｍｓｆｏｒｄｉｆｆｅｒｅｎｔｉａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓ．’Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２００７で定義される統計値である、Ｏ（ｐ）として定義する外れ値合計を算出する。Ａ（ｐ）及びＢ（ｐ）におけるサンプルの１０００回のランダム再配列を実施し、外れ値合計を算出して、タンパク質ｐについての外れ値合計の帰無分布であるＯ^０（ｐ）を算出する。

ｚ－スコアを以下のように算出する：

外れ値合計は、ｉ．ｉ．ｄ．変数の合計であるため、中心極限定理を適用し、正規分布を使用してz_(O（p）)についてのｐ値を算出することができる。

病態及び対照の位置のセットを以下のように定義する：

Ａ_ｌｏｃ（ｐ）及びＢ_ｌｏｃ（ｐ）を比較するコルモゴロフ・スミルノフ検定を実施して、エピトープの位置的保存を有するタンパク質を同定する。

サンプル
本明細書で使用される場合、「サンプル」は、試料結合分子（例えば、抗体）を含有することが知られているまたは含有することが疑われる任意の物質を指す。通常、サンプルは、液体である。サンプルは、液体として発生した物質であり得、または液体形態に処理される物質であり得る。サンプルは、供給源から直接的に単離された物質（すなわち、未処置）であり得、または方法において使用するためにさらに処理され（例えば、希釈され、濾過され、細胞枯渇され、粒子枯渇され、アッセイされ、保存され、または他の方法で事前処理され）得る。

サンプルには、動物源に由来する血清、血液、唾液、尿、組織、組織ホモジネート、糞便、髄液、及びライセートが含まれるがこれらに限定されない。サンプルには、異なる源の物質の混合物が含まれ得る。サンプルは、対象となる結合分子を生成する、または生成することが疑われる任意の動物から単離された体液であり得る。動物は、疾患を有することが知られているまたは疑われる場合がある。動物はまた、疾患に関連する抗原またはエピトープと結合する結合分子を有することが知られているまたは疑われる場合がある。例示的な非限定的な例では、サンプルは、特定の疾患を有することが疑われ、その疾患と相関するエピトープに結合する抗体を生成することが疑われるヒトからの処理された血清であり得る。疾患には、細菌感染症、ウイルス感染症、寄生虫感染症、自己免疫性障害、がん、及びアレルギーが含まれるがこれらに限定されない。疾患はまた、疾患の特定の状態もしくは進行、または予測される処置有効性に対応する疾患の状態を指し得る。よって、疾患または病態を有するものとして同定された対象からのサンプルは、感染症、自己免疫性障害、がん、神経障害、または慢性疾患を有すると診断された患者からのサンプルを含み得る。いくつかの実施形態では、慢性疾患は、慢性疲労症候群である。サンプルはまた、治療剤またはワクチンが投与された患者に由来し得る。

同定された同じ疾患または表現型からのサンプルは、サンプルコホートにグループ化され得る。疾患または表現型について陰性であるサンプルは、対照コホートにグループ化され得る。密接に関連するコホート、例えば、ワクチン接種患者対感染患者もまた、本明細書に記載の方法を使用して比較され得る。

本明細書に記載されるように、本発明の組成物及び方法は、対象となるサンプルにおける表現型を特性化するために使用され得る。表現型は、主題の組成物及び方法を使用して特性化され得る対象となる任意の表現型であり得る。表現型が疾患または障害を含む非限定的な例を考慮されたい。そのような場合では、特性化は、疾患または障害についての診断、予後またはセラノーシス（ｔｈｅｒａｎｏｓｉｓ）を提供することであり得る。例示的な実施形態では、対象からのサンプルは、本発明の組成物及び方法を使用して分析される。次いで、対象における疾患または障害の存在、段階、グレード、アウトカム、または起こり得る治療反応を予測または決定するために分析が使用され得る。分析はまた、そのような予測または決定をする際に補助するために使用され得る。

生物に存在する抗体のレパートリーは、その生物が遭遇した様々な抗原を示し得る。そのような抗原は、外部からの刺激、例えば、ウイルス粒子または微生物、例えば、細菌細胞または真菌に由来し得る。外部からの刺激はまた、花粉もしくはグルテンなどのアレルゲン、または毒素などの環境要因であり得る。生物はまた、内部抗原に特異的な抗体を生成し得る。例えば、自己免疫性障害は、宿主生物の抗原を認識する抗体の形成によって引き起こされる。様々ながん抗原に対する自己抗体が観察されている。要約すると、宿主生物は、多数の疾患、障害及び他の環境要因を示す多数の外部及び内部抗原に対する抗体を含み得る。よって、本発明の組成物及び方法は、限定されないが、環境曝露を決定すること及び／または様々な医学的病態についての診断、予後またはセラノーシスを提供することを含む、生物におけるあらゆる表現型を特性化するために使用され得る。これらの病態には、限定されないが、感染性、自己免疫性、寄生虫性、アレルギー性、新生物性、遺伝性、腫瘍性、神経性、心臓血管性、及び内分泌性疾患及び障害が含まれる。

Ｋ－ｍｅｒ濃縮スコアを決定するためのデジタル血清学
本明細書に記載されるように、対象となる各タンパク質からのｋ－ｍｅｒスコアは、各サンプル及び各コホートからの疾患または病態に対応するプロテオームからのタンパク質における各ｋ－ｍｅｒについての濃縮スコアを同定することによって決定される。いくつかの実施形態では、デジタル血清学は、各サンプルの血清からｋ－ｍｅｒスコアを決定するために使用される。デジタル血清学は、ペプチドライブラリがヒト血清でスクリーニングされてヒト抗体レパートリーがマッピングされる他のバイオパニングアッセイと類似する次世代シーケンシング（ＮＧＳ）ベースのアッセイである。そのアッセイは、４つの主要工程：１）血清をペプチドライブラリと共にインキュベーションすること及び各血清サンプルについての抗体レパートリーに特異的なペプチドを発現するライブラリメンバーの親和性選択；２）これらのペプチドをコードするプラスミドの精製；３）ペプチドをコードするプラスミドの領域のＰＣＲ増幅（アンプリコン）及びサンプル特異的プライマーでの各サンプルのバーコード化（サンプルをプールし、１回のＮＧＳ実行で一緒にシーケンシングすることが可能となる）；及び４）ＮＧＳによるアンプリコンシーケンシング。アンプリコンがシーケンシングされると、データは、各サンプルからの血清中の抗体が結合するペプチドに基づいて同定されたｋ－ｍｅｒ配列の絶対数を同定及び決定するために使用され得る。次いでこれらの絶対数は、各ｋ－ｍｅｒについてのスコア、例えば、濃縮スコアまたは比較スコアを決定するために使用され得る。

ペプチドライブラリ／ディスプレイライブラリ
本明細書で使用される場合、「ペプチドのライブラリ」または「ペプチドライブラリ」は、スクリーニング目的のために典型的に使用されるペプチド断片の集合を指す。用語「ペプチド」、「ポリペプチド」、「アミノ酸配列」、「ペプチド配列」、及び「タンパク質」は、互いに連結された２つ以上のアミノ酸を指すために互換的に使用され、特定の長さを意味しない。アミノ酸及びペプチドは、天然に存在するか、または合成（例えば、非天然アミノ酸またはアミノ酸アナログ）であり得る。アミノ酸及びペプチドはまた、反応性基、例えば、アミノ酸もしくはペプチドを固体基材に結合させるための反応性基、アミノ酸もしくはペプチドを標識するための反応性基、または対象となる他の部位をアミノ酸もしくはペプチドに結合させるための反応性基を含むか、または含むようにさらに改変され得る。反応性基には、化学的反応性基、例えば、反応性チオール（例えば、マレイミド系反応性基）、反応性アミン（例えば、Ｎ－ヒドロキシスクシンイミド系反応性基）、「クリックケミストリー」基（例えば、反応性アルキン基）、及びホルミルグリシン（ＦＧｌｙ）を保有するアルデヒドが含まれるがこれらに限定されない。

通常、ペプチドライブラリは、多様な独自のペプチドを含有する。例えば、ライブラリの多様性（時にライブラリの「複雑性」と称される）は、１０^４超、１０^５超、１０^６超、１０^７超、１０^８超、１０^９超、１０^１０超、または１０^１１超の独自ペプチドであり得る。ライブラリは、アミノ酸配列に偏りのないランダムペプチドライブラリであり得る。ランダムな／偏りのないライブラリの特定の実施形態は、指定された長さ（複数可）の可能性のある全てのアミノ酸配列を表すために構築されたものである。

ペプチドライブラリはまた、アミノ酸配列がそれらの提示において偏りのある非ランダムライブラリであり得る。例えば、ライブラリは、特定の疾患（例えば、細菌感染症、ウイルス感染症、寄生虫感染症、自己免疫性障害、がん、アレルギーなど）に関連するエピトープまたは抗原、病態、種（例えば、哺乳動物、ヒト、細菌、ウイルスなど）、タンパク質、タンパク質の分類、タンパク質モチーフ（例えば、リン酸化モチーフ、結合モチーフ、タンパク質ドメインなど）、アミノ酸特性（例えば、疎水性、親水性、酸性、塩基性、または立体アミノ酸特性）、または合理的に設計されたアミノ酸配列の任意の他のサブセットなどの特定の特徴に特有のアミノ酸を表す、過剰に表す、主に表す、またはそれのみを表すように偏らせられ得る。ライブラリは、所定のアミノ酸配列またはモチーフを避けるように偏らせられ得る。

ペプチドライブラリはまた、非ランダム及びランダムペプチドライブラリの特徴を組み合わせ得る。例えば、アミノ酸配列内の１つ以上の選抜位置は、一定のアミノ酸であり得、配列内の他の位置は、完全ランダムでもよく、他の特性に基づいて偏っていてもよい。他の例では、アミノ酸配列内の１つ以上の選抜位置は、規定のアミノ酸のサブセットから選択され得る。当業者は、記載される様々な偏りが、標的スクリーンなどのペプチドライブラリの所望の目的を達成するために組み合わされ得ることを理解する。

典型的には、ライブラリにおけるペプチドはまた、全てが様々な長さの範囲に入り得る。例えば、ライブラリにおけるペプチドは、異なる長さであり得るが、全てが規定の長さの範囲内に入り得る。選択された範囲は、本発明に有用な任意の長さ、例えば、結合分子による認識が可能なエピトープ配列を提示するのに好適な任意の長さであり得る。ライブラリにおけるペプチドは、長さが少なくとも５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０アミノ酸であり得る。ライブラリにおけるペプチドはまた、長さが５～３０、５～２５、５～２０、５～１５、５～１０、１０～３０、１０～２５、１０～２０、または１０～１５アミノ酸であり得る。ライブラリにおけるペプチドはまた、長さが７～１４、８～１４、９～１４、１０～１４、１１～１４、１２～１４、７～１３、８～１３、９～１３、１０～１３、１１～１３、１２～１３、７～１２、８～１２、９～１２、１０～１２、１１～１２、７～１１、８～１１、９～１１、またはアミノ酸であり得る。所望の場合、ライブラリにおけるペプチドはまた、長さが３０超、４０超、５０超、７５超、１００超、２００、または３００超のアミノ酸であり得る。

ライブラリにおけるペプチドはまた、規定の長さであり得、すなわち、ライブラリにおけるペプチドの全てが同じ数のアミノ酸を有する。規定の範囲は、本発明に有用な任意の長さ、例えば、結合分子による認識が可能なエピトープ配列を提示するのに好適な任意の長さであり得る。規定の長さは、長さが５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０アミノ酸であり得る。

ペプチド発現ライブラリは、ペプチドライブラリを発現することが可能な核酸配列の集合を指す。核酸配列は、ペプチド多様性、ペプチドランダム化または偏り、及び／またはペプチド長さなどの上述したものを含む所望のライブラリ特性を達成するために構築され得る。対象となるペプチドの発現を可能にする任意の好適な核酸が使用され得る。通常、核酸は、ベクターである。本明細書で使用される場合、「ベクター」は、典型的には宿主生物、例えば、細菌細胞、哺乳動物細胞、またはバクテリオファージにおいて対象となる遺伝子の発現を誘導することが可能な核酸コンストラクトを指す。ベクターは典型的には、ペプチド発現のための所望の宿主によって認識される適切な転写及び翻訳制御ヌクレオチド配列、例えば、プロモーター配列を含有する。プロモーター配列は、構成的プロモーターであり得る。プロモーター配列は、コードされる配列の転写が分析物、化学物質、または他の分子の添加によって誘導される誘導性プロモーター、例えば、Ｔｅｔ－ｏｎシステムであり得る。誘導性プロモーターシステムの類型は、転写が積極的に抑制されており、かつ分析物、化学物質、または他の分子の添加、例えば、アラビノースオペロンプロモーター用のアラビノースの添加により抑制が解除されるシステムまたはＴｅｔ－ｏｆｆシステムである。ベクターはまた、ベクター構築及び生成を容易化する要素、例えば、制限部位、ベクター複製を誘導する配列、薬物選択遺伝子または他の選択可能マーカー、ならびにクローニング及びライブラリ生成に有用な任意の他の要素を含み得る。典型的なベクターは、二本鎖ＤＮＡプラスミドであって、所望のペプチドをコードする核酸配列が、ペプチド発現を誘導することが可能な位置及び配向で標準的なクローニング技術を使用して挿入されているものであり得る。他のベクターには、ｉｎｖｉｔｒｏ転写及び翻訳に有用な核酸コンストラクト、線状核酸コンストラクト、及び一本鎖ＤＮＡまたはＲＮＡ核酸コンストラクトが含まれるがこれらに限定されない。

通常、候補ペプチドの各々についての特定の核酸配列のコピー数は、数のいくらかの変動が確率的に生じ得るが、おおよそ等しい数で存在する。典型的なペプチド発現ライブラリは、特定の核酸配列の複数のコピー（例えば、同じベクターの複数のコピー）を含有し得る。しかしながら、複数のサンプルがそれぞれペプチド発現ライブラリのメンバーを含有する例では、候補ペプチドの各々の絶対数は、サンプル間で等しくない場合がある。例えば、特定の核酸配列の０または１つのコピーが所与のサンプルに存在し得るが、１つ以上のコピーが別の所与のサンプルに存在し得る。特定の核酸配列のコピー数が、他の特定の核酸配列のコピー数と同一である必要はないが、おおよそ同じ数の配列が候補ペプチドの各々について存在することが通常は想定される。

ペプチド発現ライブラリには、細菌発現ライブラリ、酵母発現ライブラリ、バクテリオファージ発現ライブラリ、及び哺乳動物発現ライブラリが含まれるがこれらに限定されない。本発明に有用な特定のペプチドライブラリ及びペプチド発現ライブラリは、発行済み米国特許番号７，２５６，０３８、発行済み米国特許番号８，２９３，６８５、発行済み米国特許番号７，６１２，０１９、発行済み米国特許番号８，３６１，９３３、発行済み米国特許番号９，１３４，３０９、発行済み米国特許番号９，０６２，１０７、発行済み米国特許番号９，６９５，４１５、及び米国特許出願公開ＵＳ２０１６／００３２２７９（その全体が参照により本明細書にそれぞれ組み込まれる）においてより詳細に記載されている。

独自核酸配列
本明細書で使用される場合、「独自核酸配列」は、対照結合標的を発現する所与の対照ベクターに特異的な規定の独自核酸配列を指す。通常、ペプチド発現ライブラリ内の複数の対照ベクターは、同じ対照結合標的を発現し得るが、規定の対照ベクター（その複数のコピーを含む）は、同一の独自核酸配列を含有する。ペプチド発現ライブラリは、１つ、２つ、３つまたはそれ以上の特定の対照ベクター（例えば、各サブセットが同一の独自核酸配列を含有する１つ、２つ、３つまたはそれ以上の規定のサブセット）を含有し得る。

独自核酸配列は、長さが少なくとも４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０ヌクレオチドであり得る。ペプチド発現ライブラリが２つ以上の対照ベクターを含有する例では、各独自核酸配列は、同一の規定の長さ、例えば、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０ヌクレオチドの長さであり得る。ペプチド発現ライブラリが２つ以上の対照ベクターを含有する例では、独自核酸配列の各々は、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０～１５、少なくとも１５～２０、または少なくとも２０～３０ヌクレオチド異なり得る。

独自核酸配列は、転写されないがＮＧＳなどの下流プロセスのための増幅が可能となるように構築された領域に存在するように、対照ベクターの一部に存在し得る。独自核酸配列は、規定のペプチド配列の一部として発現する独自ペプチド配列をコードし得る。

独自ペプチド配列
独自核酸配列は、規定のペプチド配列の一部として発現する独自ペプチド配列をコードし得る。独自ペプチド配列は、長さが少なくとも５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０アミノ酸であり得る。ペプチド発現ライブラリが２つ以上の対照ベクターを含有する例では、各独自ペプチド配列は、同一の規定の長さ、例えば、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０アミノ酸の長さであり得る。規定のペプチド配列及び独自ペプチド配列は、互いに直接隣接していてもよく、または追加のペプチド配列によって隔てられていてもよく、独自ペプチド配列のＮ末端またはＣ末端であり得る。

規定のペプチド配列の組成は、発現する場合、制御することが重要であり得る。例えば、ペプチド発現ライブラリが２つ以上の対照ベクターを含有する例では、様々な規定のペプチド配列は、アーティファクトにつながり得る発現全体に対するアミノ酸組成の潜在的影響を制限するように構築され得る。非限定的な例示的な例では、規定のペプチドの各々はそれぞれ、全体として同じアミノ酸から構成されるが、アミノ酸の順序は、各々の規定のペプチドについて独自である。よって、特定のアミノ酸の存在に起因する任意の潜在的な発現の偏りが最小化される。他の例では、全体の組成における少なくとも１つのアミノ酸は異なるが、同じ分類のアミノ酸、例えば、疎水性、親水性などのアミノ酸と置換されている。

ライブラリアレイ
一連の実施形態では、組成物は、上述したペプチド発現ライブラリ組成物のうちの２つ以上から構成され得る。２つ以上のペプチド発現ライブラリ組成物はそれぞれ、別々の容器、例えば、マルチウェルプレートにおけるウェル、微小遠心チューブ、試験管、チューブ、及びＰＣＲチューブに含有され得る。別々の容器の各々は、ペプチドのライブラリをコードする核酸配列の同じライブラリを含み得るが、各容器は、異なる対照ベクター（すなわち、独自核酸配列を有する対照ベクター）を含有する。別の例では、別々の容器の各々は、ペプチドのライブラリをコードする核酸配列の同じライブラリを含み得るが、各容器は、対照ベクターの異なる組み合わせを含有し、例えば、所与の容器は、別の容器と共通する対照ベクターのうちの１つ以上を共有し得るが、対照ベクターの正確な組み合わせは、その所与の容器に特有である。対照ベクターの組み合わせはまた、所与の容器が対照ベクターのいずれかを別の容器と共有しないようなものであり得る。

特定の実施形態では、容器は、マルチウェルプレート、例えば、９６ウェルプレート内のウェルであり得、組成物は、ペプチド発現ライブラリ組成物の各々が、隣接ウェルにおけるものとは異なる少なくとも１つの対照ベクターを含有するように配置される。別の特定の実施形態では、容器は、マルチウェルプレート内のウェルであり得、ペプチド発現ライブラリ組成物の各々は、少なくとも２つのベクター対照を含有し、組成物は、各隣接ウェルが共通の対照ベクターを共有しないように配置される。

ペプチド発現ライブラリ組成物の集合は、２、３、４、５、６、７、８、９、１０～１５、１６～２４、２４～４８、４８～９６、または９６～３８４種のペプチド発現ライブラリ組成物であり得る。ペプチド発現ライブラリ組成物の集合は、少なくとも１０、少なくとも２０、少なくとも５０、少なくとも１００、少なくとも２００、少なくとも３００、少なくとも５００、少なくとも１０００、または少なくとも２０００種の発現ライブラリ組成物であり得る。

アレイ表面
本明細書で使用される場合、「アレイ表面」は、それらのそれぞれの結合分子による認識に好適な様式で結合標的を提示する（すなわち、示す）ように構成され得る任意の表面を指す。

アレイ表面は、生物学的表面（例えば、細胞の外側膜表面）であり得る。使用され得る生物学的実体には、哺乳動物細胞、酵母、細菌、ウイルス、及びバクテリオファージが含まれるがこれらに限定されない。ペプチドのライブラリ（例えば、候補ペプチド）のメンバー及び／または対照結合標的は、ペプチドのライブラリをコードする核酸配列のライブラリまたは対照結合標的をコードする核酸配列を、ペプチドの一部として発現し、かつ生物学的実体表面上での提示のためにペプチドを誘導することが可能となるように構成される細胞表面ディスプレイペプチドもコードするように構築するなどして、細胞の表面上に発現されるように修飾され得る。大腸菌（Ｅ．ｃｏｌｉ）細胞表面提示ライブラリの例示的な非限定的な例は、発行済み米国特許番号７，２５６，０３８、発行済み米国特許番号８，２９３，６８５、発行済み米国特許番号７，６１２，０１９、発行済み米国特許番号８，３６１，９３３、発行済み米国特許番号９，１３４，３０９、発行済み米国特許番号９，０６２，１０７、発行済み米国特許番号９，６９５，４１５、及び米国公開された出願ＵＳ２０１６００３２２７９（それが教示する全てについて参照により本明細書にそれぞれ組み込まれる）においてより詳細に記載されている。

アレイ表面は、固体支持体を含み得る。固体支持体は、それらの表面に結合したタンパク質、核酸、またはその両方を有し得、本発明において使用するために適応され得る。タンパク質及び核酸を結合させる方法は、当業者に知られており、化学的反応性基、例えば、反応性チオール（例えば、マレイミド系反応性基）、反応性アミン（例えば、Ｎ－ヒドロキシスクシンイミド系反応性基）、「クリックケミストリー」基（例えば、反応性アルキン基）、ホルミルグリシン（ＦＧｌｙ）を保有するアルデヒド及び他の類似改変（例えば、ビオチン－ストレプトアビジン対、ジスルフィド連結、ポリヒスチジン－ニッケル）の使用が含まれるがこれらに限定されない。

通常、使用されるアレイ表面は、ペプチドのライブラリ及び対照結合標的の両方について同じである。ペプチドのライブラリに使用されるアレイ表面は、所望の場合、対照結合標的とは異なり得る。

アッセイ方法
本明細書で使用される場合、「接触させること」は、試料結合分子及び対照結合分子をそれらのそれぞれの結合標的に近接させ、それに結合するのに十分な条件下に置く任意の方法を指す。異なる成分の接触は、任意の好適な順序で実施され得る。例えば、ペプチド発現ライブラリ組成物及び対照結合分子は、そのいずれかをサンプルと接触させる前に接触させられ得る。別の例では、サンプル及び対照結合分子は、そのいずれかをペプチド発現ライブラリ組成物と接触させる前に接触させられ得る。

接触させることは、組成物の全てを一緒に混合することを含み得る。混合することは、容器、例えば、マルチウェルプレートにおけるウェル、微小遠心チューブ、試験管、チューブ、及びＰＣＲチューブにおいて実施され得る。混合には、回転、インキュベーション、ピペッティング、反転、ボルテックス、振盪、または他の機械的撹拌要素が含まれ得る。

本明細書で使用される単離工程は、試料及び対照結合分子を回収するのに有用な任意の方法であり得る。単離は、捕捉体の使用を含み得る。単離方法には、磁気単離、ビーズ遠心分離、樹脂遠心分離、及びＦＡＣＳが含まれるがこれらに限定されない。使用される場合、捕捉体の特性に基づいて特定の単離方法、例えば、磁性ビーズの磁気単離または蛍光ビーズのＦＡＣＳ単離が選択され得る。

本明細書で使用される決定工程は、通常、核酸をシーケンシング及び／または定量するための任意の方法、例えば、次世代シーケンシング（ＮＧＳ）または定量的ポリメラーゼ連鎖反応（ｑＰＣＲ）を使用し得る。ＮＧＳ技術の例には、超並列シーケンシング技術及びプラットフォーム、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑまたはＭｉＳｅｑ、ＴｈｅｒｍｏＰＧＭまたはプロトン、ＰａｃＢｉｏＲＳＩＩまたはＳｅｑｕｅｌ、Ｑｉａｇｅｎ’ｓＧｅｎｅＲｅａｄｅｒ、及びＯｘｆｏｒｄＮａｎｏｐｏｒｅＭｉｎＩＯＮが含まれる。さらなる類似の現行の超並列シーケンシング技術もこれらの技術の将来の世代に加えて使用され得る。いくつかの実施形態では、決定工程は、１）生物学的実体からヌクレオチドを精製する工程；２）独自核酸配列及び任意に、単離された試料結合分子によって結合したペプチドをコードする核酸配列を増幅する工程；及び２）増幅したヌクレオチドをシーケンシングする工程を含む。シーケンシングされる核酸はまた、シーケンシングを容易化するためにさらに改変または処理され得る。例えば、核酸は、増幅工程中に増幅されるヌクレオチドの末端にサンプルに独自のサンプル同定核酸配列を加えるなどして、複数のサンプルを同時にマルチプレックスハイスループットシーケンシングするために改変され得る。

様々な核酸配列（例えば、ペプチドのライブラリをコードする配列、対照結合標的をコードする配列、独自核酸配列）は、決定工程（複数可）中に互いに区別され得る。様々な核酸配列を区別することは、核酸配列の部分を区別すること、例えば、ベクターにおける異なる配列を区別すること（例えば、結合標的をコードする核酸配列を独自核酸配列から区別すること）を含む。配列は、配列内の位置、隣接配列の同一性、配列の既知の同一性、またはそれらの組み合わせなどの特定の特徴に基づいて区別され得る。当該技術分野で知られているものなどの配列アライメントアルゴリズムは、異なる配列を同定、定量、及び区別するために使用され得る。

濃縮評価
ペプチド発現ライブラリにおける候補ペプチドをコードする単離された独自核酸配列の同一性及び量は、サンプルにおけるペプチド配列の濃縮を評価するために使用され得る。

評価は、コンピュータの使用を含み得る。通常、コンピュータは、結果、例えば、シーケンシング工程中に生成された配列などの核酸配列を決定する結果またはサンプルからの濃縮結果を提供する評価工程の結果を提供するためのコンピュータプログラムを実行するために適応される。通常、核酸配列を決定する工程及び濃縮を決定する工程は、そのような多数の計算を含み、特に通常検討される配列の数を考慮すると、それらは、合理的な時間量で完了させるためにコンピュータシステムによって行われる。それらは、実際上、ヒトの頭脳によってもペン及び紙単独でも行うことはできない。

コンピュータは、チップセットに接続された少なくとも１つのプロセッサを含み得る。また、チップセットには、メモリデバイス、メモリコントローラハブ、インプット／アウトプット（Ｉ／Ｏ）コントローラハブ、及び／またはグラフィックスアダプタが接続され得る。本発明の様々な実施形態は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令として実施され得る。命令は、実施形態（本明細書に記載の方法を含む）の機能を定義する。例示的なコンピュータ可読記憶媒体には、（ｉ）情報が永続的に記憶される書き換え不可能な記憶媒体（例えば、ＣＤ－ＲＯＭドライブによって読み取り可能なＣＤ－ＲＯＭディスク、フラッシュメモリ、ＲＯＭチップまたは任意のタイプのソリッドステート不揮発性半導体メモリなどのコンピュータ内の読み取り専用メモリデバイス）、及び（ｉｉ）変更可能な情報が記憶される書き換え可能な記憶媒体（例えば、ディスケットドライブもしくはハードディスクドライブ内のフロッピーディスクまたは任意のタイプのソリッドステートランダムアクセス半導体メモリなど）が含まれるがこれらに限定されない。

コンピュータは、コンピュータをプログラミングする（すなわち、コンピュータプログラム命令を提供する）ための、例えば、配列アライメントソフトウェアまたは品質管理評価ソフトウェアを提供するための手段を含み得る。コンピュータは、キーボード、マウス、タッチスクリーンインターフェースまたはそれらの組み合わせを含むがこれらに限定されない、配列などの情報を入力するための手段を含み得る。コンピュータは、情報及び画像を表示するための手段、例えば、グラフィックアダプタまたはディスプレイを含み得る。コンピュータは、他のコンピュータ（例えば、コンピュータネットワーク）に接続するための手段、例えば、ネットワークアダプタを含み得る。

本明細書における説明の一部は、情報に対するオペレーションのアルゴリズム及び記号的表現の観点から実施形態を記載している。これらのアルゴリズム的記載及び表現は、データ処理の分野の当業者によって一般的に使用されて、彼らの業績の実体が他の当業者へ効率的に伝達される。これらのオペレーションは、機能的、計算的、または論理的に説明されているが、コンピュータプログラム、等価電気回路などによって実施されることが理解される。記載されるオペレーション及びそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせで具現化され得る。

濃縮は、サンプルに存在する特異的な独自ペプチド配列の比またはパーセンテージであり得る。

一例では、決定工程、例えば、全ての独自核酸配列を同定及び定量するためのＮＧＳは、独自核酸配列の総数に対して存在するサンプルに特異的な独自核酸配列（すなわち、所与のサンプルに割り当てられた配列（複数可））のパーセンテージを算出するために使用され得、その総数は、サンプルに特異的な独自核酸配列の数及びサンプルに特異的ではない独自核酸配列の数を含む（すなわち、サンプル割り当てにかかわらず全ての独自核酸配列の量）。確立された品質管理基準を下回るパーセンテージは、サンプル間のコンタミネーションなどの方法におけるエラーを示し、サンプルを無効化し得る。品質管理基準は、９０～１００％の間、９２～１００％の間、９５～１００％の間、９６～１００％、または９８～１００％の間であり得る。品質管理基準は、約９０％、約９２％、約９５％、約９６％、約９７％、約９８％、または約９９％であり得る。品質管理基準は、少なくとも９８％であり得る。

別の例では、決定工程、例えば、全ての独自核酸配列を同定及び定量するためのＮＧＳは、核酸配列の総数に対するサンプルに特異的な独自核酸配列のパーセンテージを算出するために使用され得、その総数は、サンプルに特異的な独自核酸配列及び非特異的な独自核酸配列の数ならびにペプチドのライブラリにおけるペプチドをコードする核酸配列の数を含む。確立された品質管理基準を上回るまたは下回るパーセンテージは、方法におけるエラーを示し、サンプルを無効化し得る。品質管理基準は、０．０１％～２．０％の間、０．０５％～２．０％の間、または０．０１％～１．０％の間であり得る。品質管理基準は、０．０５％～１．０％であり得る。本明細書に記載されるコンピュータは、本明細書に記載の決定（例えば、シーケンシング）及び評価工程を実施するために使用され得る。

コンピュータ
本明細書に記載のアッセイ（例えば、ｋ－ｍｅｒ濃縮スコア決定、プロテオームのタンパク質におけるｋ－ｍｅｒ同定、ｋ－ｍｅｒ濃縮値を使用する各コホートからの各サンプルについての病態関連プロテオームにおける各タンパク質についての抗原スコアの決定、各タンパク質についての外れ値抗原スコアの決定、対象となる病態についての関連抗原の同定、抗原上の抗原性モチーフの同定、配列アライメント／クラスタリング、ＮＧＳ適用など）の多くは典型的には、実際上、ヒトの頭脳によってもペン及び紙単独でも行うことはできないので、コンピュータの使用を必要とする。通常、コンピュータは、結果、例えば、シーケンシング工程中に生成された配列などの核酸配列を決定する結果またはアッセイが品質管理基準を満たすかどうかを提供する評価工程の結果を提供するためのコンピュータプログラムを実行するために適応される。通常、核酸配列を決定する工程及び評価工程の結果を決定する工程は、そのような多数の計算を含み、特に通常検討される配列の数を考慮すると、それらは、合理的な時間量で完了させるためにコンピュータシステムによって行われる。それらは、実際上、ヒトの頭脳によってもペン及び紙単独でも行うことはできない。コンピュータは、チップセットに接続された少なくとも１つのプロセッサを含み得る。また、チップセットには、メモリデバイス、メモリコントローラハブ、インプット／アウトプット（Ｉ／Ｏ）コントローラハブ、及び／またはグラフィックスアダプタが接続され得る。本発明の様々な実施形態は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令として実施され得る。命令は、実施形態（本明細書に記載の方法を含む）の機能を定義する。例示的なコンピュータ可読記憶媒体には、（ｉ）情報が永続的に記憶される書き換え不可能な記憶媒体（例えば、ＣＤ－ＲＯＭドライブによって読み取り可能なＣＤ－ＲＯＭディスク、フラッシュメモリ、ＲＯＭチップまたは任意のタイプのソリッドステート不揮発性半導体メモリなどのコンピュータ内の読み取り専用メモリデバイス）、及び（ｉｉ）変更可能な情報が記憶される書き換え可能な記憶媒体（例えば、ディスケットドライブもしくはハードディスクドライブ内のフロッピーディスクまたは任意のタイプのソリッドステートランダムアクセス半導体メモリなど）が含まれるがこれらに限定されない。

コンピュータは、コンピュータをプログラミングする（すなわち、コンピュータプログラム命令を提供する）ための、例えば、配列アライメントソフトウェアまたは品質管理評価ソフトウェアを提供するための手段を含み得る。コンピュータは、キーボード、マウス、タッチスクリーンインターフェースまたはそれらの組み合わせを含むがこれらに限定されない、配列などの情報を入力するための手段を含み得る。コンピュータは、情報及び画像を表示するための手段、例えば、グラフィックアダプタまたはディスプレイを含み得る。コンピュータは、他のコンピュータ（例えば、コンピュータネットワーク）に接続するための手段、例えば、ネットワークアダプタを含み得る。本明細書における説明の一部は、情報に対するオペレーションのアルゴリズム及び記号的表現の観点から実施形態を記載している。これらのアルゴリズム的記載及び表現は、データ処理の分野の当業者によって一般的に使用されて、彼らの業績の実体が他の当業者へ効率的に伝達される。これらのオペレーションは、機能的、計算的、または論理的に説明されているが、コンピュータプログラム、等価電気回路などによって実施されることが理解される。記載されるオペレーション及びそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせで具現化され得る。

コンピュータは、本明細書に記載されるように、サンプル及び／またはコホート特異的抗原配列を同定する方法ならびにｋ－ｍｅｒ濃縮スコアを使用するエピトープ同定方法を実施するために使用され得る。いくつかの実施形態では、各血清サンプルからのｋ－ｍｅｒレベル統計値または抗原性ペプチド情報は、効率的なデータベース（すなわち、ＢｉｇＴａｂｌｅ）に記憶される。

本明細書に記載の異なる方法は、相互に排他的ではない。

均等物及び範囲
当業者は、本明細書に記載の本発明による特定の実施形態と同等の多くのものを認識する、または、通常の実験のみを使用して、それらを確認することができるであろう。本発明の範囲は、上記説明に限定されることを意図するものではなく、添付の特許請求の範囲に記載される通りである。

特許請求の範囲では、「ａ」、「ａｎ」、及び「ｔｈｅ」などの冠詞は、反対の指示がない限り、または別途文脈から明らかでない限り、１つまたは複数を意味し得る。群の１つ以上の要素の間に「または」を含む請求項または記載は、その反対が示されるか、または別途文脈から明白でない限り、１つ、２つ以上、または全ての群要素が、所与の製品または過程において存在するか、用いられるか、またはそうでなければ関連する場合に、満たされると考えられる。本発明は、群の正確な１つの要素が、所与の生成物またはプロセスにおいて存在するか、用いられるか、またはそうでなければ関連する実施形態を含む。本発明は、群のメンバーのうちの複数または全てが、所与の生成物またはプロセスに存在する、用いられるか、またはそうでなければ関連する実施形態を含む。

「含むこと（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、オープンであることが意図され、追加の要素またはステップを含むことを許容するが、必要とはしないことにも留意される。「含むこと（ｃｏｍｐｒｉｓｉｎｇ）」という用語が本明細書で使用される場合、「からなること（ｃｏｎｓｉｓｔｉｎｇｏｆ）」という用語も包含及び開示される。

範囲が与えられる場合、端点が含まれる。さらに、別途指示のない限り、または別途文脈及び当業者の理解から明らかでない限り、範囲として表現される値は、文脈に別途明示のない限り、範囲の下限の単位の１０分の１まで、本発明の異なる実施形態の記載範囲の任意の具体的な値または部分範囲を想定し得ると理解すべきである。

引用される全ての出典、例えば、本明細書で引用される参考文献、出版物、データベース、データベースエントリー、及び技術は、引用で明示的に記載されていない場合でも、参照により本出願に組み込まれる。引用された出典及び本出願の記述が矛盾する場合、本出願の記述が優先されるものとする。

セクション及び表の見出しは、限定することが意図されない。

以下は、本発明を実施するための特定の実施形態の例である。これらの実施例は、例証目的で提示されているにすぎず、決して本発明の範囲を限定することを意図するものではない。使用される数（例えば、量、温度など）に対する正確性を確保する努力がなされているが、いくつかの実験誤差及び偏差が当然ながら許容されるべきである。

本発明の実施は、別途指示のない限り、当業者の範囲内で、タンパク質化学、生化学、組み換えＤＮＡ手法、及び薬理学の従来の方法を用いるであろう。そのような手法は、文献で完全に説明される。例えば、Ｔ．Ｅ．Ｃｒｅｉｇｈｔｏｎ，Ｐｒｏｔｅｉｎｓ：ＳｔｒｕｃｔｕｒｅｓａｎｄＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓ（Ｗ．Ｈ．ＦｒｅｅｍａｎａｎｄＣｏｍｐａｎｙ，１９９３）；Ａ．Ｌ．Ｌｅｈｎｉｎｇｅｒ，Ｂｉｏｃｈｅｍｉｓｔｒｙ（ＷｏｒｔｈＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．，ｃｕｒｒｅｎｔａｄｄｉｔｉｏｎ）；Ｓａｍｂｒｏｏｋ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（２ｎｄＥｄｉｔｉｏｎ，１９８９）；ＭｅｔｈｏｄｓＩｎＥｎｚｙｍｏｌｏｇｙ（Ｓ．ＣｏｌｏｗｉｃｋａｎｄＮ．Ｋａｐｌａｎｅｄｓ．，ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．）；Ｒｅｍｉｎｇｔｏｎ’ｓＰｈａｒｍａｃｅｕｔｉｃａｌＳｃｉｅｎｃｅｓ，１８ｔｈＥｄｉｔｉｏｎ（Ｅａｓｔｏｎ，Ｐｅｎｎｓｙｌｖａｎｉａ：ＭａｃｋＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ，１９９０）；ＣａｒｅｙａｎｄＳｕｎｄｂｅｒｇＡｄｖａｎｃｅｄＯｒｇａｎｉｃＣｈｅｍｉｓｔｒｙ３^ｒｄＥｄ．（ＰｌｅｎｕｍＰｒｅｓｓ）ＶｏｌｓＡａｎｄＢ（１９９２）参照。

本発明に有用な方法、例えば、モチーフ決定及びモチーフ分析を含むデジタル血清学はまた、Ｐａｎｔａｚｅｓ，ｅｔａｌ．及び国際ＰＣＴ特許出願公開ＷＯ２０１７／０８３８７４Ａ１（それらが教示する全てについて参照によりそれぞれが本明細書に組み込まれる）においてより詳細に記載されている。

実施例１：デジタル血清学アッセイ
細菌表面ディスプレイ抗体スクリーン
８×１０^９の独立した形質変換体から構成される大規模高品質細菌ディスプレイランダム１２－ｍｅｒペプチドライブラリを、終止コドンを排除し、アミノ酸使用頻度を正規化するためにトリヌクレオチドオリゴを使用して構築した。Ｒｉｃｅ，ｅｔａｌ．（それが教示する全てについて参照により本明細書に組み込まれる）により詳細に記載されているように、１２－ｍｅｒペプチドライブラリを、先行して報告された修飾タンパク質骨格（ｅＣＰＸ）のＮ末端を介してＥ．ｃｏｌｉ上に提示した。Ｅ．ｃｏｌｉ表面提示ペプチドライブラリにおいて有用なベクター、方法、及び他のツールは、発行済み米国特許番号７，２５６，０３８、発行済み米国特許番号８，２９３，６８５、発行済み米国特許番号７，６１２，０１９、発行済み米国特許番号８，３６１，９３３、発行済み米国特許番号９，１３４，３０９、発行済み米国特許番号９，０６２，１０７、発行済み米国特許番号９，６９５，４１５、及び米国公開された出願ＵＳ２０１６００３２２７９（それらが教示する全てについて参照により本明細書にそれぞれ組み込まれる）においてより詳細に記載されている。

ライブラリスクリーニングの前に血清サンプルからＥ．ｃｏｌｉ結合抗体を取り除くために、ライブラリ骨格を単独で発現する細胞の誘導培養物を希釈された血清と共にインキュベーションした（Ｅ．ｃｏｌｉ株ＭＣ１０６１［ＦａｒａΔ１３９Ｄ（ａｒａ－ｌｅｕ）７６９６ＧａｌＥ１５ＧａｌＫ１６Δ（ｌａｃ）Ｘ７４ｒｐｓＬ（ＳｔｒＲ）ｈｓｄＲ２（ｒＫ－ｍＫ＋）ｍｃｒＡｍｃｒＢ１］を表面ディスプレイベクターｐＢ３３ｅＣＰＸと共に使用した）。３４μｇ／ｍＬのクロラムフェニコール（ＣＭ）及び０．２％グルコースが補充されたＬＢ（１０ｇのトリプトン、５ｇの酵母抽出物、１０ｇ／ＬのＮａＣｌ）中で激しく撹拌しながら（２５０ｒｐｍ）３７℃で一晩増殖させたｅＣＰＸ培養物を遠心分離によって収集し、フレッシュなＬＢ＋ＣＭ中に播種し、ＯＤ_６００＝０．６まで増殖させ、０．０２％ｗｔ／ｖｏｌのＬ（＋）－アラビノースで３７℃で１時間誘導した。誘導後、細胞を３，０００相対遠心力（ｒｃｆ）で５分間遠心分離し、冷ＰＢＳＴ（ＰＢＳ＋０．１％Ｔｗｅｅｎ２０）で１回洗浄し、１：２５で希釈した血清を含有する７５０μＬのＰＢＳＴに再懸濁した（枯渇サンプル当たり１×１０^１０細胞）。サンプルをオービタルシェーカーで（２０ｒｐｍ）穏やかに混合しながら４℃で一晩インキュベーションした。インキュベーションした培養物を５，０００ｒｃｆで５分間２回遠心分離することによってＥ．ｃｏｌｉまたはｅＣＰＸ骨格に結合した抗体を取り除き、各遠心分離後に血清上清を回収した。枯渇血清を、使用の間、最大で２週間４℃で保存した。

細菌ディスプレイペプチドライブラリを使用して、磁気活性化セルソーティング（ＭＡＣＳ）により、個々の血清サンプル中の抗体に対するペプチド結合体をスクリーニングし、単離した。ＭＡＣＳスクリーンは磁気選択を用いて、抗体結合ペプチドについてライブラリを濃縮し、また、後のスクリーニング工程に好適なライブラリサイズを減少させた。１０^１１細胞を含有するライブラリ（＞１０ｘの予測多様性）の凍結アリコートを解凍し、５００ｍｌＬＢ＋ＣＭに播種した。２５０ｒｐｍで振盪しながら３７℃でＯＤ_６００＝０．６まで増殖させた後、同じ増殖条件を使用して細胞を０．０２％ｗｔ／ｖｏｌのＬ（＋）－アラビノースで１時間誘導した。細胞（サンプル当たり５×１０^１０）を遠心分離（１０分間３，０００ｒｃｆ）によって収集し、７５０μＬの冷ＰＢＳＴに再懸濁した。血清とのインキュベーションの前に、細胞を洗浄したプロテインＡ／Ｇ磁性ビーズ（Ｐｉｅｒｃｅ）と５０細胞当たり１ビーズの比で４５分間４℃で穏やかに混合しながらインキュベーションすることによってプロテインＡ／Ｇに結合するペプチドを取り除いた。５分間（２回）の磁気分離を用いて、結合していない細胞を回収した。上清から回収した細胞を遠心分離し、希釈した血清に再懸濁し（１：２５）、穏やかに混合しながら４℃で４５分間インキュベーションする。血清インキュベーション後、細胞を遠心分離によって洗浄し、７５０μＬの冷ＰＢＳＴ（ｘ３）に再懸濁した。最後の再懸濁の後、洗浄したプロテインＡ／Ｇ磁性ビーズを５０細胞当たり１ビーズの比で加えた。プロテインＡ／Ｇビーズと共に４℃で穏やかに撹拌しながら４５分インキュベーションした後、２回目の磁気分離により、血清抗体に結合するペプチドを発現する細胞を単離した。上清（未結合細胞）を廃棄し、分離した細胞／ビーズを７５０μＬ冷ＰＢＳＴで洗浄した。チューブが磁化されている間、５回の繰り返し洗浄を実施した。最後の洗浄後、ビーズを１ｍＬのＬＢに再懸濁し、２５ｍＬのＬＢ＋ＣＭ＋グルコースに播種して発現を抑制した。フラスコを２５０ｒｐｍで振盪しながら３７℃で一晩培養した。

次世代シーケンシング
ＭＡＣＳ濃縮後に一晩成長させた細胞を収集し、プラスミドｍｉｎｉｐｒｅｐキット（Ｑｉａｇｅｎ）を使用してプラスミドを抽出した。ランダムペプチド領域を２工程のＰＣＲを使用して増幅させた。最初のＰＣＲ工程のため、プライマーには、ｅＣＰＸ骨格のランダム領域（ペプチドライブラリ）に隣接するアニーリング領域を有するＩｌｌｕｍｉｎａシーケンシングプラットフォームに特異的なアダプタが含まれる。太字領域はｅＣＰＸ骨格にアニーリングし、ｎｎｎｎｎは、ＮＧＳプロトコルがシーケンシングチップ上のシーケンシングリード、特にペプチドをコードするヌクレオチドの前の不変ベクター配列を有する配列を区別することを補助する５つのランダム縮重塩基である。
フォワードプライマー（配列番号１）：

リバースプライマー（配列番号２）：

最初のＰＣＲからの産物を、ＡｇｅｎｃｏｕｒｔＡｍｐｕｒｅＸＰ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）クリーンアップビーズを使用して２５ラウンドのＰＣＲ増幅（タッチダウンＰＣＲ）の後に精製した。得られた産物を、ＩｌｌｕｍｉｎａＮｅｘｔｅｒａＸＴインデックス化プライマー（Ｉｌｌｕｍｉｎａ）を使用して第２ラウンドのＰＣＲに供した。これらのプライマーは、スクリーニング及びアンプリコン調製のために使用されるサンプルまで配列を遡るためにアンプリコンの３’末端及び５’末端に独自の８塩基対のインデックスを提供する。アンプリコンをクリーンアップしてから８ラウンドのＰＣＲ増幅（７０℃のアニーリング温度）を行った。最後のＰＣＲ産物（アンプリコン）のＤＮＡ濃度を、Ｑｂｉｔ装置（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＤＮＡ高感度試薬を使用して測定した。全てのサンプルを４ｎＭに正規化し、シーケンシングライブラリに一緒にプールした。

プールされたサンプルを希釈し、ＮｅｘｔＳｅｑ装置にロードした。７５サイクル高出力フローセルをシングルリード（一方向）及び二重インデックス化（５’及び３’インデックスがシーケンシングされる）と共に使用した。シーケンシングが完了した後、サンプルをＩｌｌｕｍｉｎａＮｅｘｔｅｒａＸＴインデックスを用いて帰属サンプル同一性を使用して自動的に脱マルチプレックス化した。

ＮＧＳ分析の後、サンプルを各１２－ｍｅｒペプチド内の各ｋ－ｍｅｒの濃縮について分析した。各１２－ｍｅｒペプチドを、５アミノ酸（すなわち、５－ｍｅｒペプチド配列）及び６アミノ酸（すなわち、６－ｍｅｒペプチド配列）の構成的ｋ－ｍｅｒ配列に分割した。例えば、１２－ｍｅｒタンパク質配列ＡＢＣＤＥＦＧＨＩＪＫＬは、以下の５ａａのｋ－ｍｅｒ配列（すなわち、５－ｍｅｒ）：ＡＢＣＤＥ、ＢＣＤＥＦ、ＣＤＥＦＧ、ＤＥＦＧＨ、ＥＦＧＨＩ、ＦＧＨＩＪ、ＧＨＩＪＫ、及びＨＩＪＫＬに分割されるであろう。各ｋ－ｍｅｒについての（全ての１２－ｍｅｒにわたって）観察された例の数を予測された例の数で除算することによって濃縮スコアを算出した。具体的には、各ｋ－ｍｅｒについてのＺ－スコアを算出した（各Ｚ－スコアは、濃縮値から全てのサンプルについての平均濃縮を減算したものを全てのサンプルの標準偏差で除算したものを示す）。これは、上記のセクション「濃縮スコア算出」に記載されているように実施した。

各サンプルにおける各タンパク質について、タンパク質における各ｋ－ｍｅｒについてのｋ－ｍｅｒ濃縮スコアを使用して抗原スコアを算出した。以下に提供される例の場合、別段記述されない限り、各タンパク質についての最大ｋ－ｍｅｒ濃縮スコアを使用して抗原スコアを決定した。これは、上記のセクション「抗原スコア算出」で記載されているように実施した。

サンプルコホート及び対照コホートからの各タンパク質についての抗原スコアを比較して、対象となる疾患または病態に特異的な高い抗原性を有する可能性が非常に高いタンパク質を同定した。これは、上記のセクション「コホート比較統計及び抗原外れ値スコア」で記載されているように実施した。

実施例２：タンパク質レベルＩＷＡＳを使用するがん患者における疾患バイオマーカーの発見。
ここで、本明細書に記載の免疫ワイド関連方法を使用して疾患特異的なプロテオームベースの抗原性シグナルを同定する具体例を提供する。この例では、黒色腫を有する患者または黒色腫を有さない患者からの血清を入手し、実施例１に記載の方法を使用して比較して黒色腫に対応する抗原を同定した。

具体的には、黒色腫を有すると診断された患者からの２０４種の血清サンプルを疾患コホートのために提供した。がんを有することが知られていない患者からの６，３８２種の血清サンプルを対照コホートのために提供した。これらのサンプルを、１２－ｍｅｒペプチドライブラリ細菌表面ディスプレイ抗体スクリーンを使用してアッセイし、濃縮された細胞を次世代シーケンシングを使用してシーケンシングした。５－ｍｅｒ及び６－ｍｅｒのｋ－ｍｅｒについての濃縮を各サンプルについて決定し、黒色腫患者に対応するプロテオームからのタンパク質配列と比較して抗原スコアを同定した。次いで各コホートについての抗原スコアを比較して、タンパク質が黒色腫に特異的な高い抗原性を有することを示すために閾値を超えた外れ値タンパク質を同定した。

この方法を使用して、十分に確立されたＮＹ－ＥＳＯ－１（がん／精巣）抗原を含む、黒色腫患者に特異的ないくつかの共有抗原を検出した。

前立腺癌についてこの方法を繰り返した。具体的には、１４８種の血清サンプルを疾患の異なる段階で７０名の患者から採取した。６，４３９種の活性ＩｇＧサンプルを含む非がん対照コホートを比較のために使用して実施例１に記載されるように前立腺癌特異的抗原を同定した。我々の方法は、先行して検証された抗原ＮＹ－ＥＳＯ－１を含む、いくつかの新たな候補抗原を同定した。

ＥＬＩＳＡ検証
本明細書で提供される方法と伝統的な酵素結合免疫吸着アッセイ（ＥＬＩＳＡ）との間の全体的一致を確認するために、ＥＬＩＳＡ及び我々の方法の両方を使用して、個々の黒色腫患者からの血清に対するＮＹ－ＥＳＯ－１タンパク質の抗原性を測定した。図６に示されているように、有意な数の黒色腫サンプルが、我々のアッセイによって及びＥＬＩＳＡによって決定した場合、ＮＹ－ＥＳＯ－１タンパク質に対する特異的な抗原性反応を示した。

実施例３：黒色腫患者からの血清におけるＮＹ－ＥＳＯ－１抗原の抗原性のエピトープレベルの分解能
疾患または病態に対応する抗原性タンパク質を同定することに加えて、エピトープレベルでの分解能を提供するための本明細書に記載の方法を使用し、がん特異的な抗原ＮＹ－ＥＳＯ－１における確立された抗原エピトープを同定することもできる。

具体的には、各コホートからの各サンプルからの最高濃縮スコアを有するＮＹ－ＥＳＯ－１内のｋ－ｍｅｒペプチドを本明細書に記載されているように同定した。これらのｋ－ｍｅｒペプチドについて平均からのＳＤ及びＮＹ－ＥＳＯ－１内の位置を決定し（１サンプル当たり１つ）、図７にプロットした。図７に示されているように、がん患者は、ＮＹ－ＥＳＯ－１における有意かつ特異的な抗原エピトープを示す。

このエピトープは、黒色腫及び前立腺癌を含む複数のがんにおける先行して同定されたＢ細胞エピトープに対応する（例えば、Ｚｅｎｇｅｔａｌ．，“ＤｏｍｉｎａｎｔＢｃｅｌｌｅｐｉｔｏｐｅｆｒｏｍＮＹ－ＥＳＯ－１ｒｅｃｏｇｎｉｚｅｄｂｙｓｅｒａｆｒｏｍａｗｉｄｅｓｐｅｃｔｒｕｍｏｆｃａｎｃｅｒｐａｔｉｅｎｔｓ：ｉｍｐｌｉｃａｔｉｏｎｓａｓａｐｏｔｅｎｔｉａｌｂｉｏｍａｒｋｅｒ，” ＩｎｔＪＣａｎｃｅｒ．２００５；１１４：２６８－２７３参照）。そのため、我々の方法は、対象となるコホートについての対象となる１つ以上の抗原性領域の高分解能マップを提供することによってｉ）対象となる病態に対応する新規抗原、及びｉｉ）対象となる１つ以上のエピトープの両方を同定することが可能となる。

実施例４：処置の過程にわたる疾患特異的抗原についてのエピトープ抗原性のモニタリング。
患者病態の同定は、疾患または障害の診断を超えて多くの病態及び表現型に拡張適用され得る。例えば、本明細書で提供される方法は、さらに患者をサブタイプ化するために使用され得る。

この例に示されているように、任意の所与のタンパク質について、抗原エピトープは、療法に対する反応を予測またはモニタリングするために免疫療法の前及び／または後に同定され得る。

図８に示されているように、ＮＹ－ＥＳＯ－１についての抗原性のエピトープレベルの分解能を、治療前（「ベースライン」）及び治療後（「治療中」、処置からおよそ３ヶ月後）の両方で、ｉ）治療に対して反応性である患者及びｉｉ）治療に対して反応性ではない患者の血清から決定した。処置前及び処置中の各コホートからのＮＹ－ＥＳＯ－１の高分解能エピトープマッピングにおける相違は、この方法が、治療に対して反応性である患者の予測及びモニタリングの両方を行うために使用され得ることを示している。

実施例５：タンパク質レベルＩＷＡＳを使用するシェーグレン患者における自己免疫バイオマーカーの発見。
以下の例で記載され、示されているように、我々の方法は、自己免疫性病態／疾患に特異的な抗原を同定するために使用され得る。具体的には、シェーグレン症候群に特異的な抗原を同定した。

シェーグレン症候群と診断された患者からの１４６種のサンプルの疾患コホート、及び既知の自己免疫疾患を有さない患者からの７，１５０種のサンプルの対照コホートについて、実施例１に記載されているようにｋ－ｍｅｒ濃縮分析を実施した。

ヒトプロテオーム内のｋ－ｍｅｒ配列についての濃縮スコアを比較してヒトプロテオームにおけるタンパク質についての抗原スコアを決定してシェーグレン症候群に特異的な自己抗原を同定した（本明細書及び実施例１に記載されているように）。シェーグレン症候群に対応するものとして確立された自己抗原ＣＥＮＰＡ及びＬａ／ＳＳＢが同定され、これにより自己抗原の発見のための我々の方法をさらに検証した。結果が図９に示されている。

実施例６：シェーグレン患者におけるＳＳＢ抗原の抗原性のエピトープレベルの分解能。
実施例３に記載されているように、各コホートからの各サンプルについてのＳＳＢについての最も濃縮されたｋ－ｍｅｒについての位置及びスコアを同定することによってＳＳＢ抗原の抗原性のエピトープレベルの分解能を決定した。図１０に示されているように、ｋ－ｍｅｒピーク（強いＳＳＢ反応）を有する個体は大抵、ＳＳＢ＋患者を含意する。これらの同じ腫瘍エピトープは、独立した研究において同定されている（例えば、Ｔｚｉｏｕｆａｓｅｔａｌ．，“ＦｉｎｅｓｐｅｃｉｆｉｃｉｔｙｏｆａｕｔｏａｎｔｉｂｏｄｉｅｓｔｏＬａ／ＳＳＢ：ｅｐｉｔｏｐｅｍａｐｐｉｎｇａｎｄｃｈａｒａｃｔｅｒｉｚａｔｉｏｎ．” ＣｌｉｎＥｘｐＩｍｍｕｎｏｌ．１９９７Ｍａｙ；１０８（２）：１９１－１９８参照）。

そのため、シェーグレン自己抗原Ｌａ／ＳＳＢにおける確立された抗原エピトープを同定することによって、障害特異的抗原の高分解能マッピングを含む我々の方法をさらに検証した。

ＥＬＩＳＡ検証
本明細書で提供される方法と伝統的な酵素結合免疫吸着アッセイ（ＥＬＩＳＡ）との間の全体的一致を確認するために、ＥＬＩＳＡ及び我々の方法の両方を使用して、シェーグレン患者からの血清に対するＣＥＮＰＡタンパク質の抗原性を測定した。図１１に示されているように、シェーグレン患者からのかなりの数のサンプルが、我々のアッセイ及びＥＬＩＳＡの両方によって決定した場合、ＣＥＮＰＡに対する特異的抗原反応を示した。そのため、結果は、我々の方法とＥＬＩＳＡとの間のＣＥＮＰＡサンプル特異的抗原性の全体的一致を示している。

実施例７：タンパク質レベルＩＷＡＳを使用するＨＳＶ２感染症のための疾患バイオマーカーの発見。
以下の例に示されているように、我々はまた、我々の方法を使用してワクチン接種と比較してＨＳＶ２感染症に特異的な疾患バイオマーカーを成功裏に同定した。

この例では、ＨＳＶ２感染症に陽性の患者（ＨＳＶ２＋／ＨＳＶ１－）からの１０２種の血清サンプルを、ＨＳＶ２ワクチン接種から２１０日後の患者からの１４種の血清サンプルと比較した。

図１２は、ＨＳＶ２ワクチン接種と比較して自然ＨＳＶ２感染症に特異的な抗原のランキングを示している。自然感染症と比較した、ワクチンにおけるエンベロープ糖タンパク質Ｄ及びＥに対する免疫反応の低下を我々の方法を使用して同定した。

エンベロープ糖タンパク質Ｅ
図１３に示されているように、ＨＳＶ２感染患者（「症例」）（すなわち、病態）及びＨＳＶ２ワクチン接種患者（「対照」）の血清からのエンベロープ糖タンパク質Ｅのｋ－ｍｅｒについての最大濃縮スコアを、実施例１に記載されている方法を使用して決定した。これらの最大濃縮スコアは、糖タンパク質についての抗原スコアを提供するために本明細書で使用される。

各サンプルからのエンベロープ糖タンパク質Ｅについての最も濃縮されたｋ－ｍｅｒは、各サンプルについてその位置及びの濃縮スコアによって図１４で示されている。保存されたエピトープは同定されていない。よって、我々の方法は、同じコホートからのサンプルからのタンパク質上の同定されたエピトープ標的の広い多様性にもかかわらず、病態に特異的な抗原性タンパク質を同定することが可能である。

エンベロープ糖タンパク質Ｄ
エンベロープ糖タンパク質Ｅとは対照的に、我々の方法を使用したエンベロープ糖タンパク質Ｄ上の抗原エピトープの高分解能マッピングは、明確な保存エピトープ領域を示している（図１５）。しかしながら、複数のエピトープが存在するので、本明細書で提供される我々のＩＷＡＳ法はまた、好ましくは、そのような抗原の同定及び特性化に適している。

上で示されたように、ＨＳＶ２感染サンプルとワクチン接種サンプルとを成功裏に識別することができる。自然ＨＳＶ２感染症対ＨＳＶ２ワクチン接種に曝露された血清に特異的な抗原を高分解能で同定し、特性化することもできる。

これらの例は、多様な病態、疾患、及び表現型についてのコホート特異的なプロテオームベースの抗原性シグナルの成功裏の同定を示している。この同定は、コホートについて抗原当たり複数の抗原エピトープが存在する場合であっても、または抗原エピトープがコホートにわたって保存されていない場合であっても可能であり、自然感染対象対ワクチン接種対象を識別するのに十分な感度がある。

他の実施形態
使用されている単語は、限定するものではなく、むしろ説明のための単語であり、変更は、本発明のより広い態様における真の範囲及び趣旨から逸脱することなく、添付の特許請求の範囲内で行うことができることが理解される。

本発明は、いくつかの記載された実施形態に関して、ある程度の長さ及びある程度の詳細をもって記載したが、これらは、かかる任意の詳細または実施形態または任意の特定の実施形態に限定すべきであることを意図するものではなく、先行技術を考慮してそのような特許請求の範囲の可能な限り広い解釈を提供し、したがって、本発明の意図された範囲を効果的に包含するように、添付の特許請求の範囲を参照して解釈されるべきである。

本明細書で言及される全ての刊行物、特許出願、特許、及び他の参考文献は、参照によってその全体が組み込まれる。矛盾する場合、定義を含み本明細書が優先される。加えて、セクションの見出し、材料、方法、及び実施例は例示にすぎず、限定することを意図するものではない。

Claims

病態のための抗原マーカーを同定する方法であって、
病態コホート及び比較のための対照コホートを同定する工程、
前記病態に対応する抗原のセットを提供する工程であって、各抗原の配列は、部分配列にタイリングされている、前記提供する工程、
前記病態コホート及び前記対照コホートの両方についての前記部分配列の各々についての濃縮スコアを提供する工程、
前記抗原のセットにおける各抗原について、
前記抗原内の部分配列についての前記濃縮スコアから前記病態コホート及び前記対照コホートについての前記抗原の抗原スコアを決定する工程、及び
抗原外れ値スコアを決定するために、前記病態コホート及び前記対照コホートについての前記抗原スコアを比較する工程、ならびに
前記抗原外れ値スコアが閾値を超える場合、前記抗原を前記病態のための抗原マーカーとして同定する工程
を含む、前記方法。
前記濃縮スコアは、前記部分配列を含むモチーフについて決定されたモチーフ濃縮スコアから決定される、請求項１に記載の方法。
前記濃縮スコアは、前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合の同定から決定される、請求項１に記載の方法。
前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合を同定することによって前記濃縮スコアを決定する工程をさらに含む、請求項１に記載の方法。
前記抗原スコアは、前記コホートにおける前記抗原配列についての最高部分配列濃縮スコアから決定される、請求項１に記載の方法。
前記抗原スコアは、前記コホートにおける前記抗原配列についての全ての部分配列濃縮スコアの合計から決定される、請求項１に記載の方法。
前記抗原スコアは、前記コホートにおける前記抗原配列についてのｎ個の部分配列のウィンドウ内の部分配列濃縮スコアの最高平均値から決定される、請求項１に記載の方法。
前記抗原スコアは、前記抗原配列にわたるｎ個の最大部分配列濃縮スコアの合計から決定される、請求項１に記載の方法。
前記病態コホート及び前記対照コホートについての前記抗原スコアを比較する工程は、前記抗原についての前記サンプルコホート及び前記対照コホートからの抗原スコア間の統計的差異を算出することを含む、請求項１に記載の方法。
前記閾値は、前記抗原を抗原マーカーとして同定するのに十分な統計的差異を表す、請求項９に記載の方法。
前記統計的差異は、Ｃｏｈｅｎのｄ効果量、マン・ホイットニーのＵのｐ値、コルモゴロフ・スミルノフのｐ値、及び外れ値合計からなる群から選択される統計分析から決定される、請求項９に記載の方法。
前記統計的差異は、多重仮説検定のための補正を含む、請求項９に記載の方法。
前記補正は、ボンフェローニ補正または偽発見率である、請求項１２に記載の方法。
前記閾値は、前記抗原のセットから決定された抗原外れ値スコアのランキングから決定される、請求項１に記載の方法。
前記部分配列は、ｋ－ｍｅｒである、請求項１に記載の方法。
前記ｋ－ｍｅｒは、５－ｍｅｒ、６－ｍｅｒ、７－ｍｅｒ、８－ｍｅｒ、９－ｍｅｒ、または１０－ｍｅｒを含む、請求項１５に記載の方法。
前記部分配列は、少なくともｋ－ｎの規定のアミノ酸位置を有するｋ－ｍｅｒ配列を含み、ｋは、８、９または１０であり、ｎは、２、３、４、５、または６である、請求項１に記載の方法。
前記抗原配列は、アミノ酸配列である、請求項１に記載の方法。
前記抗原マーカーは、タンパク質、ＲＮＡ、またはアプタマーを含む、請求項１に記載の方法。
前記病態コホートは、１人以上の患者からの１つ以上のサンプルを含み、前記患者は、感染症、自己免疫性障害、がん、神経障害、または慢性疾患と診断されており、または前記患者は、治療剤またはワクチンが投与されている、請求項１に記載の方法。
前記濃縮スコアを提供する工程は、
複数の異なるペプチドを含むディスプレイシステムを、複数の抗体を含む生物学的サンプルと接触させることであって、前記複数の抗体は、前記病態についての抗体を含むことが知られているかまたは疑われており、前記接触させることは、試料抗体が前記複数の異なるペプチド上の同種エピトープに特異的に結合するのに十分な条件下で実施される、前記接触させること、
前記複数の異なるペプチドと前記試料抗体との間の結合を測定すること、及び
前記部分配列について測定された結合の量から前記部分配列についての濃縮スコアを同定すること
を含む、請求項１～２０のいずれか１項に記載の方法。
前記ペプチドは、ランダムに生成されている、請求項２１に記載の方法。
前記ペプチドは、８－ｍｅｒ～１５－ｍｅｒペプチドである、請求項２１に記載の方法。
前記ペプチドは、１２－ｍｅｒペプチドである、請求項２１に記載の方法。
前記ディスプレイシステムは、少なくとも１０、少なくとも１００、少なくとも１０００、少なくとも１０^４、少なくとも１０^５、少なくとも１０^６、少なくとも１０^７、または少なくとも１０^８種の異なるペプチドを含む、請求項２１に記載の方法。
前記ペプチドは、１２－ｍｅｒペプチドであり、ランダムに生成されている、請求項２５に記載の方法。
前記抗原スコア及び前記抗原外れ値スコアの前記決定は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される、請求項１～２６のいずれか１項に記載の方法。
前記抗原外れ値スコアが閾値を超える場合、前記抗原を前記病態のための抗原マーカーとして同定する工程は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される、請求項１～２６のいずれか１項に記載の方法。
対照コホートと比較して病態コホートに特異的な抗原マーカー上の１つ以上の抗原エピトープを同定する方法であって、
病態コホート及び比較のための対照コホートを同定する工程、
前記病態に対応する抗原を提供する工程であって、前記抗原の配列は、部分配列にタイリングされている、前記提供する工程、
前記病態コホート及び前記対照コホートの両方からのサンプルについての前記部分配列の各々についての濃縮スコアを提供する工程、
前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定する工程、及び
前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定する工程
を含む、前記方法。
前記濃縮スコアは、前記部分配列を含むモチーフについて決定されたモチーフ濃縮スコアから決定される、請求項２９に記載の方法。
前記濃縮スコアは、前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合の同定から決定される、請求項２９に記載の方法。
前記病態コホートと前記対照コホートとの間の血清サンプルからの抗体に対する部分配列の相対結合を同定することによって前記濃縮スコアを決定する工程をさらに含む、請求項２９に記載の方法。
前記病態コホート及び前記対照コホートについての前記濃縮スコアを比較することは、前記抗原についての前記サンプルコホート及び前記対照コホートからの濃縮スコア間の統計的差異を算出することを含む、請求項２９に記載の方法。
前記閾値は、前記１つ以上の領域を抗原エピトープとして同定するのに十分な統計的差異を表す、請求項３３に記載の方法。
前記統計的差異は、Ｃｏｈｅｎのｄ効果量、マン・ホイットニーのＵのｐ値、コルモゴロフ・スミルノフのｐ値、及び外れ値合計からなる群から選択される統計分析から決定される、請求項３３に記載の方法。
前記統計的差異は、多重仮説検定のための補正を含む、請求項３３に記載の方法。
前記補正は、ボンフェローニ補正または偽発見率である、請求項３６に記載の方法。
前記部分配列は、ｋ－ｍｅｒである、請求項２９に記載の方法。
前記ｋ－ｍｅｒは、５－ｍｅｒ、６－ｍｅｒ、７－ｍｅｒ、８－ｍｅｒ、９－ｍｅｒ、または１０－ｍｅｒを含む、請求項３８に記載の方法。
前記部分配列は、少なくともｋ－ｎの規定のアミノ酸位置を有するｋ－ｍｅｒ配列を含み、ｋは、８、９または１０であり、ｎは、２、３、４、５、または６である、請求項２９に記載の方法。
前記抗原配列は、アミノ酸配列である、請求項２９に記載の方法。
前記抗原マーカーは、タンパク質、ＲＮＡ、またはアプタマーを含む、請求項２９に記載の方法。
前記病態コホートは、１人以上の患者からの１つ以上のサンプルを含み、前記患者は、感染症、自己免疫性障害、がん、神経障害、または慢性疾患と診断されており、または前記患者は、治療剤またはワクチンが投与されている、請求項２９に記載の方法。
前記濃縮スコアを提供する工程は、
複数の異なるペプチドを含むディスプレイシステムを、複数の抗体を含む生物学的サンプルと接触させることであって、前記複数の抗体は、前記病態についての抗体を含むことが知られているかまたは疑われており、前記接触させることは、試料抗体が前記複数の異なるペプチド上の同種エピトープに特異的に結合するのに十分な条件下で実施される、前記接触させること、
前記複数の異なるペプチドと前記試料抗体との間の結合を測定すること、及び
前記部分配列について測定された結合の量から前記部分配列についての濃縮スコアを同定すること
を含む、請求項２９～４３のいずれか１項に記載の方法。
前記ペプチドは、ランダムに生成されている、請求項４４に記載の方法。
前記ペプチドは、８－ｍｅｒ～１５－ｍｅｒペプチドである、請求項４４に記載の方法。
前記ペプチドは、１２－ｍｅｒペプチドである、請求項４４に記載の方法。
前記ディスプレイシステムは、少なくとも１０、少なくとも１００、少なくとも１０００、少なくとも１０^４、少なくとも１０^５、少なくとも１０^６、少なくとも１０^７、または少なくとも１０^８種の異なるペプチドを含む、請求項４４に記載の方法。
前記ペプチドは、１２－ｍｅｒペプチドであり、ランダムに生成されている、請求項４９に記載の方法。
前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定する工程は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される、請求項２９～４３のいずれか１項に記載の方法。
前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定する工程は、コンピュータシステムのプロセッサによる実行のための非一時的コンピュータ可読記憶媒体に記憶されたコンピュータプログラム命令のセットとして実施される、請求項２９～４３のいずれか１項に記載の方法。
病態のためのタンパク質マーカーを同定する方法であって、
病態コホート及び比較のための対照コホートを同定する工程、
前記病態に対応するプロテオームからのタンパク質のセットを提供する工程であって、前記タンパク質は、ｋ－ｍｅｒ配列にタイリングされている、前記提供する工程、
前記病態表現型を有する対象及び前記対照表現型を有する対象からの血清サンプルからの前記複数のｋ－ｍｅｒ配列についての濃縮スコアを提供する工程であって、前記濃縮スコアは、各血清サンプルにおける抗体に対する前記ｋ－ｍｅｒ配列の結合のレベルを測定することから決定される、前記提供する工程、
前記タンパク質のセットにおける各タンパク質について、
前記タンパク質内のｋ－ｍｅｒ配列についての前記濃縮スコアから前記病態コホート及び前記対照コホートについての前記タンパク質の抗原スコアを決定する工程、及び
前記病態コホート及び前記対照コホートについての前記抗原スコアを比較してタンパク質外れ値スコアを決定する工程、ならびに
前記タンパク質外れ値スコアが閾値を超える場合、前記タンパク質を前記病態のためのタンパク質マーカーとして同定する工程
を含む、前記方法。
非一時的コンピュータ可読記憶媒体及びプロセッサを含む、病態のための抗原マーカーを同定するためのシステムであって、前記記憶媒体は、
前記病態に対応する抗原の部分配列についての濃縮スコアであって、病態コホート及び対照コホートに特異的である、前記濃縮スコア、
前記抗原の部分配列の前記濃縮スコアから前記病態コホート及び前記対照コホートに特異的な各抗原の抗原スコアを生成するための命令、ならびに
前記病態コホート及び前記対照コホートに特異的な前記抗原についての前記抗原スコア間の統計的差異を比較することによって抗原外れ値スコアを生成するための命令
を含む、前記システム。
前記抗原外れ値スコアに基づいて前記病態のための抗原マーカーとして好適な抗原を同定するアウトプットを生成するための命令をさらに含む、請求項５３に記載のシステム。
前記病態に対応する前記抗原の配列を受信するための命令をさらに含む、請求項５３に記載のシステム。
前記病態に対応する前記抗原の配列を部分配列にタイリングするための命令をさらに含む、請求項５３に記載のシステム。
前記部分配列についての濃縮スコアを受信するための命令をさらに含む、請求項５６に記載のシステム。
非一時的コンピュータ可読記憶媒体及びプロセッサを含む、病態コホートに特異的な抗原マーカー上の１つ以上の抗原エピトープを同定するためのシステムであって、
前記記憶媒体は、
前記抗原マーカーの部分配列についての濃縮スコアであって、病態コホート及び対照コホートに特異的である、前記濃縮スコア、及び
前記対照コホートからの前記サンプルと比較して前記病態コホートからの前記サンプルについての前記抗原の１つ以上の領域における濃縮スコア間の統計的差異を決定するための命令
を含む、前記システム。
前記統計的差異が閾値を超える場合、前記対照コホートと比較して前記病態コホートに特異的な抗原エピトープとして前記１つ以上の領域を同定するアウトプットを生成するための命令をさらに含む、請求項５８に記載のシステム。
前記病態に対応する前記抗原の配列を受信するための命令をさらに含む、請求項５８に記載のシステム。
前記病態に対応する前記抗原の配列を部分配列にタイリングするための命令をさらに含む、請求項５８に記載のシステム。
前記部分配列についての濃縮スコアを受信するための命令をさらに含む、請求項５８に記載のシステム。