JP7428825B2

JP7428825B2 - 受容体相互作用の分析のための方法およびシステム

Info

Publication number: JP7428825B2
Application number: JP2022564343A
Authority: JP
Inventors: チャン、ウェン; ホー、ジン; グプタ、ナミタ; エス．アトワル、グリンダ; ホーキンズ、ピーター
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2020-04-21
Filing date: 2021-04-21
Publication date: 2024-02-06
Anticipated expiration: 2041-04-21
Also published as: US20210335447A1; KR20230004698A; EP4139922A1; CN115917654A; CA3176401A1; WO2021216787A1; JP2024050692A; IL297508A; WO2021216787A9; MX2022013328A; JP2023524654A; AU2021259460A1

Description

関連出願の相互参照
本出願は、２０２０年４月２１日に出願された米国仮特許出願第６３／０１３，４８０号、２０２０年１０月１２日に出願された米国仮特許出願第６３／０９０，４９８号、および２０２０年１１月９日に出願された米国仮特許出願第６３／１１１，３９５号の優先権を主張するものである。これらの以前の出願の内容は、参照によりその全体が本明細書に組み込まれる。

Ｔ細胞受容体（ＴＣＲ）を介して仲介されるＴ細胞抗原特異性は、細胞免疫の顕著な特徴である。ＴＣＲは、Ｔ細胞表面上に存在するヘテロ二量体タンパク質であり、一般に、α鎖およびβ鎖からなる。ＴＣＲαおよびβ鎖遺伝子は、Ｔ細胞発生中に体細胞組み換えにより結合される、別々のＶ、Ｄ（β鎖のみ）およびＪセグメントから構成される。この遺伝子再構成は、ウイルス感染および他の病原体誘導性疾患の効率的な制御を確実にするために、高度に多様なＴＣＲレパートリー（ヒトにおいて１０１５～１０６１の可能性と推定される）を生じる。ＴＣＲ多様性は、相補性決定領域（ＣＤＲ）ループ（ＣＤＲ１、ＣＤＲ２、およびＣＤＲ３）に主に示され、これらは、主要組織適合複合体（ＭＨＣ）タンパク質によって提示されるペプチドと結合し、それゆえ、Ｔ細胞ｐＭＨＣ結合の特異性を直接決定する。

ＴＣＲ－ｐＭＨＣ認識の根底にある因子は、十分には理解されていないが、最近の研究は、特定のｐＭＨＣに結合するＴ細胞が、共通のＴＣＲ配列特性を共有することを示しており、選択された場合には、学習したＴＣＲ配列特性に基づいて、見えないＴＣＲ配列の特異的結合確率を予測することが可能である。しかしながら、これらの研究は、従来の単一多量体ソーティングアッセイまたは抗原再曝露アッセイによって生成される訓練データの量および多様性によって制限された。ＴＣＲ－ｐＭＨＣ特異的結合のさらなる理解には、計算方法と実験方法の両方における革新が必要である。１０ｘＧｅｎｏｍｉｃｓは、最近、特徴がバーコード化されたデキストラマーと単一細胞ＴＣＲ配列決定を結びつける、高度に多重化されたプールされたデキストラマー結合免疫プロファイリングプラットフォームから得たデータセットを公開した。このアプローチは、対のＴ細胞αおよびβ鎖配列を用いて単一細胞レベルで高次元ｐＭＨＣ特異的結合データを生成することを可能にする一方で、他の大規模なプールした多量体アプローチは、ｐＭＨＣ特異的結合Ｔ細胞の組成物を推定するのみである。

他のハイスループット技術と同様に、高度に多重化されたデキスター結合データは、しばしば低いシグナル対ノイズ比と関連付けられる。これにより、そのような大規模な結合データセットを使用してＴＣＲ－ｐＭＨＣ結合現象を確実に識別することがバイオインフォマティクス的に困難である。１０×Ｇｅｎｏｍｉｃｓが提供した結合現象から、予想外に高いＨＬＡ間およびｐＭＨＣ間の関連が観察された（図１１Ａ）。この低いシグナル対ノイズデータセットは、真のＴＣＲ－ｐＭＨＣ結合現象を非特異的バックグラウンドから区別するためのより高度な計算正規化方法を必要とする。

次世代スクリーニング技術により、利用可能なＴＣＲ－ｐＭＨＣ結合データの量が増大してきたため、ＴＣＲ－ｐＭＨＣ特異的認識を計算的に検証し、続いて予測するための最先端の機能的分類指標がより実行可能となった。初期のＴＣＲ－ｐＭＨＣ結合分類指標の結果は奨励されているが、それらは、ＣＤＲループ配列を使用してのみ照準化されたため、全長ＴＣＲ配列から全体的な複雑な配列パターンを学習することができず、高度に多様なｐＭＨＣ結合ＴＣＲについての最適ではない予測精度をもたらした。複雑なパターンを学習するディープラーニングアルゴリズムの能力を利用して、大規模で高度に複雑なＴＣＲ配列データセットの結合パターンを明らかにするためのいくつかのディープラーニングフレームワークが最近提案されている。

本研究では、高度に多重化されたデキストラマー結合データを使用して、ＴＣＲ－ｐＭＨＣ特異的認識をマッピングし、計算で検証し、予測するための計算フレームワークが記載される。

単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを含む単一の細胞配列決定データを受信すること；デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリングすること；バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること；デキストラマー配列データから、単一の細胞のＴＣＲデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすること；ならびに信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。

単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを受信すること；デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、遺伝子の数を決定すること；デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること；デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること；デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去すること；デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定すること、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データおよび選別されていないデキストラマー配列データを含み、選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含む；デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること；デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること；デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルを決定すること；最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること；最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定すること；デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズの測定値を決定すること；デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じること；デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うこと；デキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うこと；デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること；正規化されたデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去すること；並びに正規化されたデキストラマー配列データに残っているデータを信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連すると識別することを含む方法が、開示される。

デキストラマー配列データにおいてＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行い、複数のＴＣＲ－ｐＭＨＣ結合現象を識別すること；正規化されたデキストラマー配列データに基づき、複数のＴＣＲ配列を含むトレーニングデータセットを決定すること、それぞれのＴＣＲ配列は、結合親和性と関連する；複数のＴＣＲ配列に基づき、予測モデルについての複数の特性を決定すること；トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすること；トレーニングデータセットの第二の部分に基づき、予測モデルを試験すること；および試験に基づき、予測モデルを出力することを含む方法が、開示される。

トレーニングされた予測モデルに、未知のＴＣＲ配列を提示すること、トレーニングされた予測モデルは、開示される方法によりもたらされたトレーニングデータセットに基づき、トレーニングされる；およびトレーニングされた予測モデルにより、結合親和性を予測することを含む方法が、開示される。

単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを受信すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去すること、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定すること、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること、最大の陰性対照デキストラマーシグナルおよび最大の選別されたデキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、デキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去すること、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞への全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比（細胞へのデキストラマー結合特異性の測定値）を決定すること、デキストラマー配列データに表されるそれぞれの細胞の所定のＴＣＲクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のＴ細胞のフラクション（細胞が属するクローンタイプに対するデキストラマー結合特異性の測定値）を決定すること、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うこと、デキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うこと、ならびに閾値に基づき、正規化されたデキストラマー配列データに残っているデータを、信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連すると識別することを含む方法が、開示される。

開示される方法のいずれかを行うよう形成された装置が開示される。

装置が開示される方法のいずれかを行うよう形成された、プロセッサが実行可能な指示実施形態を有する、コンピュータ可読媒体が開示される。

開示される方法および組成物のさらなる利点は、一部が、以下の記載において記載されるか、一部が、記載から理解されるか、または開示される方法および組成物の実施によって学んでもよい。開示される方法および組成物の利点は、添付の特許請求の範囲において特に指摘されている要素および組み合わせによって実現され、達成されるであろう。前述の一般的な説明および以下の詳細な説明は両方とも、請求される本発明の、あくまで例示的かつ説明的なものであって、限定的なものではないことを理解されたい。

本明細書において援用され、かつ本明細書の一部を成す添付の図面は、開示される方法および組成物のいくつかの実施形態を例証し、説明と共に、開示される方法および組成物の原理を説明する役割を果たすものである。

図１は、例示的な操作環境を示す。

図２は、マルチオミクスハイスループットＴＣＲ－ｐＭＨＣ結合データを生成するための実験アプローチを示し、健康なヒトドナー由来のＰＢＭＣＴ細胞を、ＣＤ８＋細胞上でソーティングするために標識した。選別したＣＤ８＋Ｔ細胞を、５０個のｄＣＯＤＥデキスター抗体のプールで染色した。デキストラマー陽性ＣＤ８＋Ｔ細胞をフローサイトメトリーにより選別し、１０×Ｇｅｎｏｍｉｃｓ単一細胞配列決定ライブラリー調製のための入力として個別に捕捉した。遺伝子発現、細胞表面タンパク質／ｄＣＯＤＥ発現、それぞれのＣＤ８＋Ｔ細胞についての対のＴＣＲ配列について三つのライブラリーを生成した。

図３は例示的な方法を示す。

図４は例示的な方法を示す。

図５は例示的な方法を示す。

図６ＡおよびＢは、ＩＣＯＮ（ＩｎｔｅｇｒａｔｉｖｅＣＯｎｔｅｘｔ－ｓｐｅｃｉｆｉｃＮｏｒｍａｌｉｚａｔｉｏｎ）ワークフロースキームの例を示す。ａ．左上から左下に：Ｉ．ＵＭＩ（固有分子識別子）におけるｄＣＯＤＥデキストラマー未加工の発現の分布。Ｄｅｘ＿選別した（デキストラマー選別したＣＤ８＋Ｔ細胞由来のデキストラマーの検査である最大のＵＭＩ）、ＮＣ＿ｄｅｘ（デキストラマー選別したＣＤ８＋Ｔ細胞由来の陰性対照デキストラマーの最大のＵＭＩ）およびＤｅｘ＿選別していない（選別した対照ＣＤ８＋細胞ではなく、染色したデキストラマーの検査である最大のＵＭＩ）由来のそれぞれのＣＤ８＋細胞における、ＵＭＩにおける最大のｄＣＯＤＥデキストラマー発現。ＩＩ．単一細胞ＲＮＡ－ｓｅｑに基づく低品質の細胞の濾過。それぞれの点は、Ｔ細胞である。赤色の点は、健康でない細胞である。ＩＩＩ．ｄＣＯＤＥデキストラマー発現データに基く、デキストラマー結合バックグラウンドノイズ（Ｐ_９９．９）およびデキストラマー選別ゲート効率（ａｒｇｍａｘＤ_ｓ，ｕ）の推定。ＩＩＩＩ．Ｍａｘ（Ｐ_９９．９，ａｒｇｍａｘＤ_ｓ，ｕ）を減ずることによる、バックグラウンドノイズの調節。Ｖ．バックグラウンド減算したデキストラマー発現の細胞およびｐＭＨＣワイズ正規化。ＶＩ．単一の対ＴＣＲ αβ鎖を有する細胞の選択。ＶＩＩ．正規化したデキストラマー発現の分布。ＵＭＩ^＊：正規化したＵＭＩ。詳細については、方法を参照されたい。ｂ．拡大したＴＣＲクローンタイプのＴＣＲ－ｐＭＨＣ結合特異性。ドナー１由来の最大５０個のＴＣＲクローンを、それらの結合特異性および一致と共にプロットする。円は、クローンタイプの少なくとも一つのメンバーを、特定のｐＭＨＣに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す（「結合一致」）。左のパネル：１０×Ｇｅｎｏｍｉｃｓが、網羅的カットオフを使用して識別した最大５０個のクローンタイプ。右のパネル：ドナー１の１０×Ｇｅｎｏｍｉｃｓ最大５０個のクローンタイプを含有するｐＭＨＣレパートリー由来の最大５０個のクローンタイプ。同上。

図７Ａ～７Ｅは、１０×Ｇｅｎｏｍｉｃｓデキストラマー結合データのｐＭＨＣ結合ランドスケープを示す。ａ．識別したｐＭＨＣ特異的結合Ｔ細胞レパートリーのネットワーク。それぞれのノードは、ｐＭＨＣレパートリーおよびそのｐＭＨＣに結合するそれぞれのドナー由来の固有の対ＴＣＲの数の円チャートを表す。ドナー１は灰色であり、ドナー２は赤色であり、ドナー４は黄色である。ノードサイズは、そのｐＭＨＣに結合するＴ細胞の総数を示す。それぞれのエッジは、二つのｐＭＨＣが共有する固有のＴＣＲを表す。エッジの厚さは、共有した固有のＴＣＲの数を表す。ｂ．識別したバインダーの大部分は、七つのｐＭＨＣと相互作用する。ｃ．ドナー１、ドナー２およびドナー３から識別した固有の対の結合ＴＣＲのベン図。ｄ．固有の対ＴＣＲαβ鎖の組成。ＴＣＲＢにより、１対１は、１つの固有のＴＣＲα鎖と対形成した１つの固有のＴＣＲβ鎖を意味し；１対＞＝２および同一のｐＭＨＣへの結合は、共有したβ鎖と固有の対のＴＣＲを意味するが、異なるα鎖は、同じｐＭＨＣを認識し；１対＞＝２および＞＝２のｐＭＨＣへの結合は、共有したβ鎖と固有の対のＴＣＲを意味するが、異なるα鎖は、異なるｐＭＨＣを認識する。ＴＣＲＡにより、１対１は、１つの固有のＴＣＲβ鎖と対形成した１つの固有のＴＣＲα鎖を意味し；１対＞＝２および同一のｐＭＨＣへの結合は、共有したα鎖と固有の対のＴＣＲを意味するが、異なるβ鎖は、同じｐＭＨＣを認識し；１対＞＝２および＞＝２のｐＭＨＣへの結合は、共有したα鎖と固有の対のＴＣＲを意味するが、異なるβ鎖は、異なるｐＭＨＣを認識する。ｅ．ＴＣＲ－ｐＭＨＣ結合特異性およびＴＣＲ交差ＨＬＡ認識。左、一つのｐＭＨＣまたは少なくとも２つのｐＭＨＣへのＴ細胞結合の円チャート。右、Ｔ細胞の円チャート：ＨＬＡタイプ一致結合、スーパータイプ一致結合または交差タイプ結合。同上。同上。同上。同上。

図８Ａ～８Ｄは、ＴＣＲ－ｐＭＨＣ結合ＴＣＲの分類に基づく畳み込みニューラルネットワーク（ＣＮＮ）を示す。ａ．ＣＮＮベースのＴＣＲ配列分類フレームワーク。左パネル、ＶおよびＪセグメント（アルファおよびベータ由来）を、埋め込みベクターに形質転換した。ＣＤＲ３アルファ配列またはベータ配列を構成するアミノ酸のため、トレーニング可能な埋め込みを使用し、１次元ＣＮＮを埋め込みに適用した。次いで、全ての埋め込みを一緒に連結し、連結した層を通して供給した。次いで、ＳｏｆｔＭａｘ層を使用して、配列クラスの確率を出力した。右のパネルは、トイの例が、ディープラーニング配列分類指標の入力および出力を説明する。詳細については、方法のセッションを参照されたい。ｂ．１１の精選した対のＴＣＲｐＭＨＣ結合レパートリーを使用した、二項モードを有するＣＮＮベースの分類指標のＲＯＣ曲線。バインダーは、特定のｐＭＨＣに結合した固有のＴＣＲであり、非バインダーは、他の１０個のｐＭＨＣに結合した固有のＴＣＲである。対のαおよびβＴＣＲ配列を入力データとして使用した。ｃ．ｂにおいて記述したように、バインダーおよび非バインダーについて同じ定義を有するＣＮＮベースと距離ベースの二進法分類指標の間の分類力の比較。対のαおよびβ ＴＣＲ配列を、入力データ（方法）として使用した。ｄ．シャノンエントロピーによって測定したｐＭＨＣレパートリー多様性と、ＣＮＮベースと距離ベースの分類指標の間の予測性能の相関。ΔＡＵＣ＝ＣＮＮベースのＡＵＣ－距離ベースのＡＵＣ。同上。同上。同上。

図９Ａ～４Ｅは、１０×Ｇｅｎｏｍｉｃｓデータセットから識別した上位７つのｐＭＨＣ結合レパートリーのＣＮＮベースの分類を示す。ａ．１０×Ｇｅｎｏｍｉｃｓハイスループットデータセットから識別した７個のｐＭＨＣ結合レパートリーを使用した、二項モードでのＣＮＮベースの分類指標のＲＯＣ曲線。バインダーは、特定のｐＭＨＣに結合した固有のＴＣＲであり、非バインダーは、他の６個のｐＭＨＣに結合した固有のＴＣＲである。対のαおよびβ ＴＣＲ配列を、入力データとして使用した。ｂ．ＶＤＪｄｂ由来の独立した試験データセット：Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザ、Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌、Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶおよびＡ^＊１１：０１＿ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶに結合するＴ細胞ならびに院内の独立した実験（方法）のＭＡＲＴ－１（ＲＥＧＮ＿Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌）バインダーの別のセットを使用したＣＮＮベースの分類指標の予測結果のＲＯＣ曲線。モジュールを、予測のため１０×Ｇｅｎｏｍｉｃｓデータから識別したｐＭＨＣレパートリーによってトレーニングした。ｃ．ＴＣＲαのみ、ＴＣＲβのみまたは対のＴＣＲαおよびβ鎖を配列入力として使用した分類性能比較。ｄ．これら七つのｐＭＨＣに結合するＴ細胞についてのＴ細胞ＶおよびＪ遺伝子セグメントの使用。５％未満の遺伝子セグメントを組み合わせて、灰色で示した。ｅ．７つのｐＭＨＣレパートリーからの１０個の最も予測可能な対のＴＣＲのＣＤＲ３モチーフ。同上。同上。同上。同上。

図１０Ａ～１０Ｅは、ｐＭＨＣ結合ＣＤ８＋Ｔ細胞の免疫表現型を示す。ａ．ｐＭＨＣ結合細胞の分類。クラスターを、ＵＭＡＰによって可視化し、細胞タイプを、異なる色によって表した。ｂ．ＣＤ８＋Ｔ細胞部分集団を注釈付けするための細胞タイプマーカー遺伝子の遺伝子またはタンパク質発現のヒートマップ。Ｃ．Ｔ細胞免疫サブタイプによるｐＭＨＣ結合ランドスケープ。バーは、ｌｏｇ２スケールのｐＭＨＣ結合Ｔ細胞の数を示す。ｄ．拡大したクローンタイプを、クロノタイプは、未感作でない区画で濃縮する。それぞれの点は、固有のＴＣＲクローンを表す。ｅ．ナイーブおよび非ナイーブ結合Ｔ細胞におけるＨＬＡ一致およびミスマッチ結合の割合。Ｔｐｍ：末梢メモリー細胞；Ｔｃｍ：中心メモリー細胞；Ｔｅｍ：エフェクターメモリー細胞；Ｔｅｍｒａ：高分化したエフェクターメモリー細胞；その他：マーカー発現ＣＤ４３^ｌｏＫＬＲＧ１^ｈｉＣＤ１２７を有する他のメモリー細胞。同上。同上。同上。同上。

図１１Ａ～１１Ｂは、１０×Ｇｅｎｏｍｉｃｓがそれぞれのドナーから識別した結合現象から拡大したクローンタイプのＴＣＲ－ｐＭＨＣ結合特異性を示す。最大５０個のクローンタイプを、それらの結合特異性および一致と共にプロットする。ａ．円は、クローンタイプの少なくとも一つのメンバーを、特定のｐＭＨＣに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す（「結合一致」）。ｂ．１０×Ｇｅｎｏｍｉｃｓドナー３および４（方法）ＣＤ８＋Ｔ細胞デキストラマー結合の再評価の細胞選別結果の散布図。同上。同上。同上。同上。

図１２Ａ～１２Ｆは、１０×Ｇｅｎｏｍｉｃｓハイスループットデータのバックグラウンドの推定およびデキストラマー結合シグナルの調節の例である。Ｄｅｘ＿選別した（デキストラマー選別したＣＤ８＋Ｔ細胞由来のデキストラマーの検査である最大のＵＭＩ）、ＮＣ＿ｄｅｘ（デキストラマー選別したＣＤ８＋Ｔ細胞由来の陰性対照デキストラマーの最大のＵＭＩ）およびＤｅｘ＿選別していない（選別した対照ＣＤ８＋細胞ではなく、染色したデキストラマーの検査である最大のＵＭＩ）。ａ．単一の細胞のＲＮＡデータを使用した、検出した遺伝子の数対ミトコンドリア遺伝子発現のパーセンテージの散布図。それぞれの点は、細胞を表す。赤色の点は、死細胞または二重項である。ｂ．ＩＣＯＮプロセス前後のデキストラマー発現データの分布。Ｃおよびｄ．デキストラマー選別効率の推定。ｃ．デキストラマーＵＭＩの蓄積した分布。それぞれのドットは、固有のデキストラマーＵＭＩのデータ点である。ｄ．一つのデキストラマーＵＭＩデータ点をスライディングウィンドウとして使用したＫＳ試験（Ｄｅｘ＿選別した対Ｄｅｘ＿選別していない）のｐ値分布。灰色の破線は、デキストラマー選別効率の閾値である。ｅ．それぞれのドナーについてのバックグラウンド減算の前（ｘ軸）および後（ｙ軸）のＤｅｘ＿選別したの散布図。ｆ．Ｅ’ｅ密度分布。Ｅ’ｅ：細胞（方法）内のそれぞれのデキストラマーシグナルの対数ランク。青色の破線は、ｐＭＨＣ特異的結合の閾値についてである。同上。同上。同上。同上。同上。

図１３Ａ～１３Ｃは、３人のドナーのこの研究によって識別した拡大したクローンタイプの結合特異性を示す。最大５０個のＴ細胞クローンを、それらの結合特異性および一致と共にプロットする。円のサイズは、Ｔ細胞クローンサイズを示す。円の色は、結合一致である、デキストラマーに結合するクローン内の細胞の割合を示す。同上。同上。

図１４Ａおよび１４Ｂは、精選したｐＭＨＣ結合レパートリーを使用した距離ベースの分類指標のＲＯＣ曲線を示す。ｂ．精選したｐＭＨＣ結合レパートリーについてのシャノンエントロピースコア。同上。

図１５Ａ～１５Ｃは、上位７つのｐＭＨＣ結合Ｔ細胞レパートリーの特徴を示す。ａ．Ｔ細胞結合一致、一致スーパータイプおよび不一致のＨＬＡタイプの割合の円チャート。ｂ．上位７つのｐＭＨＣ結合レパートリーの固有のＴ細胞クローンサイズのべき法則。回帰スムージングを、フィッティングのため使用した。ｃ．ＴＣＲ－ｐＭＨＣレパートリーのシンプソンズ多様性指標およびＴＣＲＢ生成確率。Ｒパッケージビーガンを、シンプソンズ多様性指標を計算するため使用した。それぞれのｐＭＨＣに特異的なバインダーのＴＣＲＢＣＤＲ３アミノ酸配列生成確率を、ＯＬＧＡを使用して計算した。次いで、それぞれのｐＭＨＣに特異的なレパートリー（赤色の三角形によって表す）のフラクションを、Ｓｅｔｈｎａらが記載したように、対応するＣＤＲ３配列のそれぞれについての生成確率の和として得る。結果は、これらのｐＭＨＣに特異的なＴＣＲの正味フラクションが、独立したＴＣＲ組み換え現象の数（１０^８）の逆数によって定義される意味において大きい（１０^７～１０^４の範囲）ことを示し、これは、任意の個体が、それらのＴレパートリーにこれらの結合Ｔ細胞を有する可能性が高いことを意味する。ＴＣＲＢ生成確率図におけるそれぞれの点は、固有のＴ細胞クローンを表し、色のついたバーは、Ｔ細胞クローンサイズを示す。同上。同上。

図１６Ａ～１６Ｃは、ＴＣＲ－ｐＭＨＣ結合ＴＣＲの分類を示す。ａ．α鎖のみ、β鎖のみおよび対のαβ鎖を使用した、ｐＭＨＣバインダーおよび非バインダーの距離と距離の分布。ｂ．１０×Ｇｅｎｏｍｉｃｓハイスループットデータセットから識別した上位７つのｐＭＨＣ結合レパートリーを使用した距離ベースの分類指標についてのＲＯＣ曲線。対のαおよびβＴＣＲ配列を入力データとして使用した。ｃ．ＣＮＮベースおよび距離ベースの分類指標の分類力の比較。同上。同上。

図１７Ａおよび１７Ｂは、ＶＤＪｄｂの重複由来の四つのｐＭＨＣ結合レパートリーおよび１０×Ｇｅｎｏｍｉｃｓハイスループットデータから識別した上位７つのｐＭＨＣレパートリーのＣＤＲ３モチーフを示す。ｂ．１０×Ｇｅｎｏｍｉｃｓハイスループットデータセットから識別した７つのｐＭＨＣ結合レパートリーを使用した、多項様式のＣＮＮベースの分類指標についてのＲＯＣ曲線。対のαおよびβＴＣＲ配列を入力データとして使用した。同上。

図１８Ａおよび１８Ｂは、単一の細胞のＲＮＡ－ｓｅｑデータを使用したｐＭＨＣ結合ＣＤ８＋細胞のクラスターの例を示す。ａ．クラスター数による。ｂ．ドナー情報を用いてオーバーレイ。同上。

図１９は、開示した研究において使用したＴ細胞ドナーについての情報を含む表である。

図２０は、開示された研究において使用されたｄＣＯＤＥデキストラマー試薬およびＮｅｔＭＨＣペプチドＨＬＡ対立遺伝子結合予測のリストである。

図２１は、ｐＭＨＣ－ＴＣＲ結合現象の概要を示す表である。

図２２は、ＴＣＲ－ｐＭＨＣレパートリー多様性およびペプチド特性を示す。

図２３は、ＶＤＪｄｂおよびＭｃＰＡＳから照合した１１個のｐＭＨＣレパートリーの概要を示す。

図２４は、１０×Ｇｅｎｏｍｉｃｓによって識別したバインダーにおいて拡大したＴＣＲクローンタイプｐＭＨＣの特異性を示す。ドナー１～４由来の最大５０個のＴＣＲ細胞クローンを、それらの結合特異性および一致と共にプロットする。円は、クローンタイプの少なくとも一つのメンバーを、特定のｐＭＨＣに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す（「結合一致」）。同上。同上。同上。

図２５Ａ～Ｇは、ハイスループットｐＭＨＣ結合データからのｐＭＨＣ結合Ｔ細胞の識別および特徴を示す。（Ａ）ＩＣＯＮ（統合ＣＯｎｔｅｘｔ特異的正規化）ワークフロースキーム。ＲＴ：特定のデキストラマーに結合するクローン内のＴ細胞のフラクション；ＲＣ：細胞に結合する全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比。（Ｂ）ＩＣＯＮにより識別したデキストラマーバインダーのｐＭＨＣ結合ランドスケープネットワーク。それぞれのノードは、ｐＭＨＣレパートリーを表し、ｐＭＨＣに結合するそれぞれのドナー由来の固有の対ＴＣＲの数の円チャートとして提示する。ノードサイズは、所定のｐＭＨＣに結合する固有のＴＣＲの総数を示す。それぞれのエッジは、二つのｐＭＨＣが共有する固有のＴＣＲを表す。エッジの厚さは、共有した固有のＴＣＲの数を表す。エッジの厚さは、共有した固有のＴＣＲの数を表す。（Ｃ）ｐＭＨＣ結合Ｔ細胞の存在量と比較して推定した単一のデキストラマー結合とＩＣＯＮにおけるフローソーティングの結果の相関。検証のためのデキストラマーの数は、２１である。（Ｄ）ドナー１、２、３、４およびＶの間で識別したｐＭＨＣ結合ＴＣＲの固有さおよび重複。（Ｅ）識別したバインダーの大部分は、九つのｐＭＨＣと相互作用する。（Ｆ）これらの九つのｐＭＨＣへのＴ細胞結合のためのＶおよびＪ遺伝子セグメント利用。５％未満の遺伝子セグメントを合わせて、灰色で示した。（Ｇ）ＨＬＡ型拘束性および非拘束性結合。同上。同上。同上。同上。同上。同上。

図２６Ａ～Ｄは、ＩＣＯＮを使用してハイスループットデータの処理を示す。（Ａ）単一の細胞のＲＮＡデータを使用した検出した遺伝子の数対ミトコンドリア遺伝子発現のパーセンテージの散布図。それぞれの点は、細胞を表す。赤色の点は、死細胞または二重項である。（Ｂ）陰性対照および試験デキストラマー由来のＵＭＩにおけるデキストラマーシグナルの分布。Ｓｏｒｔｅｄ＿ｎｃ：陰性対照デキストラマー；選別した＿ｄｅｘ：試験デキストラマー。（Ｃ）ＲＴ対ＲＣの散布図。ＲＣは、Ｔ細胞に結合する全てのデキストラマーの総和に対する細胞内のデキストラマーシグナルの比である。ＲＴは、特定のデキストラマーに結合するクローン内のＴ細胞のフラクションである。（Ｄ）ＩＣＯＮが識別したｐＭＨＣ結合Ｔ細胞の階層クラスター。それぞれの列は、デキストラマーであり、カラムは、Ｔ細胞である。同上。同上。同上。

図２７は、ドナーＶ由来のデキストラマー^＋Ｔ細胞の蛍光活性化ソーティング（ＦＡＣＳ）のためのプールしたデキストラマーＦＡＣＳゲーティングを示す。

図２８Ａ～Ｂは、単一のオリゴ－デキストラマーソーティングを示す。（Ａ）デキストラマー陽性Ｔ細胞の蛍光活性化ソーティング（ＦＡＣＳ）のための代表的なゲーティング。Ｔ細胞を、以前にドナーＶ末梢血単核細胞（ＰＢＭＣ）から濃縮し、次いで、単一のオリゴ－デキストラマーを用いて染色した。以下の連続ゲーティングストラテジーを利用して、ソーティングのため所望のデキストラマー＋集団を単離した。（Ｂ）それぞれの２１の試験デキストラマーおよび二つの陰性対照デキストラマーについての単一のオリゴ－デキストラマー細胞ソーティング結果の散布図。同上。

図２９は、ハイスループットｐＭＨＣ結合データから識別したｐＭＨＣ－ＴＣＲ結合現象ＩＣＯＮの概要を示している表である。

図３０Ａ～Ｂは、ハイスループットデータセット由来のＩＣＯＮにより識別したｐＭＨＣ結合Ｔ細胞の特徴を示す。（Ａ）上位九つの最も大量のｐＭＨＣ結合Ｔ細胞レパートリーの固有のＴ細胞クローンサイズのべき法則。（Ｂ）上位九つのｐＭＨＣレパートリーのシャノン多様性スコア。同上。

図３１Ａ～Ｃは、ＴＣＲＡＩモデルおよびゴールドスタンダードデータセットの性能を示す。（Ａ）ＣＤＲ３、およびＶ、αとβ鎖の両方のＪ遺伝子の入力を受信するモデルのＴＣＲＡＩフレームワークの概略図。トレーニングしたＴＣＲＡＩモデルは、所定のＴＣＲについての数値フィンガープリントおよび予測を生じる。（Ｂ）８つの精選した公開ＴＣＲ－ｐＭＨＣ結合レパートリーを使用したＴＣＲＡＩ分類性能についてのＲＯＣ曲線。バインダーは、特定のｐＭＨＣに結合する固有のＴＣＲであり、非バインダーは、他のｐＭＨＣに結合する固有のＴＣＲである。対のαおよびβＴＣＲ配列を入力データとして使用した。ＦＰＲ：偽陽性率；ＴＰＲ：真陽性率。（Ｃ）分類性能比較。ＴＣＲＡＩを、予測分類指標ＮｅｔＴＣＲ、ＴＣＲｄｉｓｔおよびＤｅｅｐＴＣＲと比較した。ＮｅｔＴＣＲおよびＴＣＲｄｉｓｔのＲＯＣ曲線下面積（ＡＵＣ）スコアを、デフォルトパラメータを有するオリジナルの分類指標を使用して生成した。ＤｅｅｐＴＣＲ（多項分類指標）のＡＵＣスコアを、これらの二項分類指標ＮｅｔＴＣＲおよびＴＣＲｄｉｓｔと比較するために、わずかに改変したバージョンおよびハイパーパラメータ最適化バージョンのＤｅｅｐＴＣＲ（方法）から導出した。比較のため、ＴＣＲＡＩの二項モードを使用した。同上。同上。

図３２Ａ～Ｃは、ＴＣＲ抗原特異性分類指標（ａおよびｂ）のＲＯＣ性能を示す。（ｃ）は、ハイスループットデータセットから識別した九つのｐＭＨＣ結合レパートリーを使用した多項様式のＴＣＲＡＩのＲＯＣ曲線を示す。対のαおよびβＴＣＲ配列を入力データとして使用した。ＦＰＲ：偽陽性率；ＴＰＲ：真陽性率。同上。同上。同上。

図３３は、ＴＣＲ抗原特異性分類指標の比較を示す表である。

図３４Ａ～Ｄは、ハイスループットデータセットにおけるＴＣＲＡＩ性能を示す。（Ａ）上位九つの最も大量のｐＭＨＣ結合レパートリーにおけるＴＣＲＡＩのＲＯＣ曲線。バインダーは、特定のｐＭＨＣに結合する固有のＴＣＲであり、非バインダーは、他のｐＭＨＣに結合する固有のＴＣＲである。対αおよびβＴＣＲ配列を、入力データとして使用した。ＦＰＲ：偽陽性率；ＴＰＲ：真陽性率。（Ｂ）ＴＣＲαのみ、ＴＣＲβのみまたは対ＴＣＲαおよびβ鎖を配列入力として使用した分類性能比較。（Ｃ）精選した公開データセットとハイスループットデータセットの間の四つの重複ｐＭＨＣレパートリーの独立した試験由来のＲＯＣ曲線。ＴＣＲＡＩを、ハイスループットデータセットから識別し、精選した公開データセットにおいて試験したｐＭＨＣレパートリーによってトレーニングした。（Ｄ）トレーニング（ハイスループットデータ）とハイスループットトレーニングしたモデルから抽出した試験（「ゴールドスタンダード」データ）ＴＣＲＡＩフィンガープリントの両方のＵＭＡＰ。Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌トレーニングと試験セットの間の強力な重複を示し、一方、Ａ^＊０２：０１＿ＮＬＶＰＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶトレーニングと試験データセットの間の乏しい重複を、右のパネルに示す。黒色の円は、結合ＴＣＲの重複フィンガープリントがほとんどない領域を強調する。同上。同上。同上。

図３５は、ハイスループットデータセットから識別した九つのｐＭＨＣ結合レパートリーを使用した、多項様式のＴＣＲＡＩについてのＲＯＣ曲線。対のαおよびβＴＣＲ配列を入力データとして使用した。ＦＰＲ：偽陽性率；ＴＰＲ：真陽性率。

図３６Ａ～Ｂは、異なるデータセットにおいてトレーニングしたモデル間のＴＣＲＡＩフィンガープリント比較を示す。（Ａ）ハイスループットと、図３ｄに示していない二つの事例についてハイスループットデータトレーニングしたモデルによって生成した「ゴールドスタンダード」ＴＣＲフィンガープリントの比較は、両方の事例において良好な重複バインダーを示す。（Ｂ）推論問題を逆に行った：「ゴールドスタンダード」データを用いてモデルをトレーニングすること、ならびに「ゴールドスタンダード」およびハイスループットＴＣＲのフィンガープリントを計算すること。Ａ^＊０２：０１＿ＮＬＶＰＭＶＡＴＶ＿ｐｐ６５／ＣＭＶの事例について、交差データセット性能が低い場合、多くのドナー由来のＴＣＲを含有する「ゴールドスタンダード」データにおいてトレーニングしたモデルは、結合ＴＣＲの大きな群を分ける。しかしながら、ハイスループット結合ＴＣＲは、主に単一のドナーから来ており、このドナーは、より広範な集団において生じる結合ＴＣＲの範囲を十分に表していないＴＣＲ空間の小さなクラスター由来の結合ＴＣＲのみを有する。黒色の円は、ハイスループットデータに固有のＴＣＲを強調する。同上。

図３７Ａ～Ｇは、ＴＣＲ群の特徴を示す。（Ａ）Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザバインダーを予測するためのトレーニングしたモデルによるハイスループットデータセットから識別した高信頼性ＴＣＲのＴＣＲＡＩフィンガープリントのクラスター形成により、二つのＴＣＲクラスター：クラスター０（橙色）およびクラスター１（緑色）が明らかになる。（Ｂ）クラスター０および１のデキストラマーシグナル（ＵＭＩ）分布。（Ｃ）Ｆｌｕペプチド結合ＴＣＲのこれら二つのクラスターにおける保存ＣＤＲ３モチーフおよび遺伝子使用。クラスター０について、重要な変動が、一つのプロットにおいて見ることができるように、遺伝子使用を、３０の最も一般的な固有の四重項について示す。（Ｄ）クラスター０のＴＣＲ（ＰＤＢ２ＶＬＪ）およびクラスター１のＴＣＲ（ＰＤＢ５ＪＨＤ）についてのＦｌｕペプチド結合ＴＣＲ－ｐＭＨＣ結合複合体の３Ｄ構造。上のパネルにおいて、Ｐｈｅ－５環の０．４ｎｍ（４Å）以内の非ペプチド残基（ピンク色の－鎖、青色の－鎖は、緑色のＭＨＣ）のみを示す。下側のパネルにおいて、クラスター０とクラスター１のＴＣＲ－ｐＭＨＣ結合複合体のペプチド構造の比較。（Ｅ）ハイスループットデータセット由来のＡ＊０２－０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶへの結合が高信頼性であるＴＣＲのＴＣＲＡＩフィンガープリントのクラスター形成。（Ｆ）ＥＢＶペプチド結合クラスター０～２のデキストラマーシグナル（ＵＭＩ）分布。（Ｇ）ＥＢＶペプチド結合ＴＣＲのこれら三つのクラスターにおける保存ＣＤＲ３モチーフおよび遺伝子使用。同上。同上。同上。同上。同上。同上。

図３８Ａ～Ｆは、ｐＭＨＣ結合ＣＤ８＋Ｔ細胞の免疫表現型を示す。（Ａ）ｐＭＨＣ結合細胞の分類。クラスターをＵＭＡＰによって可視化し、細胞タイプを異なる色で表した。（Ｂ）ＣＤ８＋Ｔ細胞タイプマーカー遺伝子およびタンパク質の発現のヒートマップ。^＊：ＣＩＴＥ－ｓｅｑにより測定したタンパク質発現。（Ｃ）Ｔ細胞免疫サブタイプによるｐＭＨＣ結合ランドスケープ。バーは、ｌｏｇ２スケールのｐＭＨＣ結合Ｔ細胞の数を示す。（Ｄ）拡大したクローンタイプを、非ナイーブ区画において濃縮する。それぞれの点は、固有のＴＣＲクローンを表す。（Ｅ）円チャートは、ｐＭＨＣ結合ＣＤ８＋Ｔ細胞の亜集団を記載する。（Ｆ）ナイーブおよび非ナイーブ結合Ｔ細胞におけるＨＬＡ一致およびミスマッチ結合の割合。Ｔｐｍ：末梢メモリー細胞；Ｔｃｍ：中心メモリー細胞；Ｔｅｍ：エフェクターメモリー細胞；Ｔｅｍｒａ：高分化したエフェクターメモリー細胞；その他：マーカー発現ＣＤ４３^ｌｏＫＬＲＧ１^ｈｉＣＤ１２７を有する他のメモリー細胞。同上。同上。同上。同上。同上。

図３９は、ＶＪ遺伝子情報の重要性を示す。全入力または遺伝子入力のみを使用してトレーニングしたモデルを比較するときのＡＵＣの誤差を、結果間の共分散の仮定なしで、それぞれのモデル（全または遺伝子）のＡＵＣの誤差を伝播することによって計算する。それぞれのモデルについてのＡＵＣの誤差は、ＭＣＣＶ中の最善のハイパーパラメータについての平均ＡＵＣとそれらのハイパーパラメータを用いてトレーニングした最終モデルの間の相違、またはＭＣＣＶ中のＡＵＣの標準偏差のいずれかであり、いずれか、大きい方であった。 △ＡＵＣ＝ＡＵＣ_ｆｕｌｌ－ＡＵＣ_ｇｅｎｅ。

図４０Ａ～Ｂは、ＴＣＲ群の特徴を示す。（Ａ）図４ｅのフィンガープリント空間に示されるように、Ａ^＊０２－０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶについて識別した５つのＴＣＲクラスター全てのデキストラマーシグナル分布。（Ｂ）ＥＢＶペプチド結合ＴＣＲクラスター３および４のモチーフおよび遺伝子使用。同上。

図４１は、例示的な操作環境を示す。

図４２は、例示的な方法を示す。同上。同上。

図４３は、例示的な方法を示す。

図４４は、例示的な方法を示す。

図４５は、例示的な方法を示す。

図４６は、例示的な方法を示す。同上。同上。

下記の特定の実施形態およびそれに含まれる実施例についての発明を実施するための形態、ならびに図面およびその前後の説明を参照することによって、開示される方法および組成物についての理解を容易にすることができる。

Ａ．用語の定義
当然のことながら、本開示の方法および組成物は、記載されている特定の方法論、プロトコルおよび試薬に限定されるものではない。理由はこれらが、変更される可能性があるからである。本明細書中に使用されている用語は、あくまで特定の実施形態を説明することを目的としたものであって、もっぱら添付の特許請求の範囲により限定される本発明の範囲を限定するものではないことも、理解すべきである。

本明細書および添付の特許請求の範囲において使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明確に別段示さない限り、複数への言及を含むことは、注意されなければならない。したがって、例えば、「ＴＣＲ」への言及は、複数のかかるＴＣＲを含み、「デキストラマー」への言及は、一つまたは複数のデキストラマーおよび当業者に高知のその均等物などへの言及である。

用語「対象」または「ドナー」は、哺乳類種（好ましくは、ヒト）または鳥類（例えば、トリ）種などの動物を指し得る。より具体的には、対象またはドナーは、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳類であってもよい。動物は、家畜、スポーツ動物、およびペットを含む。対象またはドナーは、健康な個体、症状もしくは徴候を有する個体または疾患もしくは疾患に対する素因を有する疑いのある個体、あるいは治療を必要とするかもしくは治療を必要とする疑いのある個体であり得る。一部の実施形態では、対象ドナーは、癌を有するか、または癌を有すると疑われるヒトなどのヒトである。

本明細書で使用される場合、用語「バーコード」は、概して、分子（例えば、デキストラマー、細胞）に付着して、分子についての情報を伝達することができる標識を指す。例えば、ＤＮＡバーコードは、それぞれのデキストラマーに結合したポリヌクレオチド配列であってもよく、共通配列決定バーコードは、配列決定中に結合したポリヌクレオチド配列であってもよい。次いで、このバーコードを、配列決定することができる。複数の配列上の同じバーコードの存在は、配列の起源についての情報を提供し得る。例えば、バーコードは、配列が特定のデキストラマーから来たことを示してもよい。バーコードはまた、配列が、特定の細胞／デキストラマーの組み合わせから来たことを示すこともできる。

本明細書で使用される場合、用語「配列決定」または「シーケンサー」は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸の配列を決定するために使用される多数の技術のいずれかを指す。例示的な配列決定方法としては、標的配列決定、単一分子のリアルタイム配列決定、エクソン配列決定、電子顕微鏡ベースの配列決定、パネル配列決定、トランジスタ介在性配列決定、直接配列決定、ランダムショットガン配列決定、サンガージデオキシ末端配列決定、全ゲノム配列決定、ハイブリダイゼーションによる配列決定、パイロシークエンシング、二本鎖配列決定、サイクルシーケンシング、単一塩基伸長配列決定、固相配列決定、ハイスループット配列決定、超平行シグネチャシーケンシング、エマルションＰＣＲ、より低い変性温度ＰＣＲ（ＣＯＬＤ－ＰＣＲ）での共増幅、マルチプレックスＰＣＲ、可逆的染料ターミネーターによる配列決定、対末端配列決定、短期配列決定、エキソヌクレアーゼ配列決定、ライゲーションによる配列決定、ショートリードシーケンシング、一分子配列決定、合成による配列決定、リアルタイムシーケンシング、逆ターミネーター配列決定、ナノポア配列決定、４５４配列決定、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒ配列決定、ＳＯＬｉＤ（商標）配列決定、ＭＳ－ＰＥＴ配列決定、およびその組み合わせが挙げられるが、これらに限定されない。一部の実施形態では、配列決定は、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子アナライザーなどの遺伝子アナライザーによって行うことができる。

「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間結合によって結合されたヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、もしくはそのアナログを含む）の直鎖ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも三つのヌクレオシドを含む。オリゴヌクレオチドは、通常、数個の単量体単位、例えば、３～４個から数百個の単量体単位までのサイズ範囲に及ぶ。ポリヌクレオチドが、「ＡＴＧＣＣＴＧ」などの文字の配列で表される場合、ヌクレオチドは、左から右に５’→３’の順であり、別段示されない限り、「Ａ」は、アデノシンを示し、「Ｃ」は、シトシンを示し、「Ｇ」は、グアノシンを示し、「Ｔ」は、チミジンを示すことは、理解されるだろう。文字Ａ、Ｃ、Ｇ、およびＴは、当該技術分野で標準的なように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すように使用されうる。

用語「ＤＮＡ（デオキシリボ核酸）」は、それぞれが、四つの核酸塩基、すなわち、アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）のうちの一つを含む、デオキシリボヌクレオシドを含むヌクレオチドの鎖を指す。用語「ＲＮＡ（リボ核酸）」は、それぞれが、四つの核酸塩基、すなわち、Ａ、ウラシル（Ｕ）、Ｇ、およびＣのうちの一つを含む、四つのタイプのリボヌクレオシドを含むヌクレオチドの鎖を指す。ヌクレオチドの特定の対は、相補的な様式で互いに特異的に結合する（相補的塩基対と呼ばれる）。ＤＮＡでは、アデニン（Ａ）は、チミン（Ｔ）と対形成し、シトシン（Ｃ）は、グアニン（Ｇ）と対形成する。ＲＮＡでは、アデニン（Ａ）は、ウラシル（Ｕ）と対形成し、シトシン（Ｃ）は、グアニン（Ｇ）と対形成する。第一の核酸鎖が、第一の鎖のヌクレオチドに相補的であるヌクレオチドからなる第二の核酸鎖に結合するとき、この二つの鎖は、結合して、二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「フラグメント配列」もしくは「核酸配列決定読み取り」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、またはフラグメント）におけるヌクレオチド塩基の順序（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）示す任意の情報またはデータを示す。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的または間接的ヌクレオチド識別システム、パイロシーケンシング、イオンベースもしくはｐＨベースの検出システム、および電子署名ベースのシステムを含むが、これらに限定されない、すべての利用可能な様々な技術、プラットフォームまたは技術を使用して得られる配列情報を企図するｋとは、理解されるべきである。

「任意選択的な」または「任意選択的に」は、後述されている事象、状況または材料が起こる場合もあれば起こらない場合もあるか、存在する場合もあれば存在しない場合もあることを意味すると共に、この記載には、前述の事象、状況または材料が起こる場合の例および起こらない場合の例、または存在する場合の例および存在しない場合が包含されることを意味する。

この明細書の記載および特許請求の範囲を通じて、語「含む（ｃｏｍｐｒｉｓｅ）」およびこの語の変形、例えば「含む（ｃｏｍｐｒｉｓｉｎｇ）」および「含む（ｃｏｍｐｒｉｓｅｓ）」などは、「～を含むがこれに限定されない」を意味し、例えば、他の追加のもの、コンポーネント、整数、または工程を除外することを意図するものではない。特に、一つまたは複数のステップまたは動作を含むものとして記載される方法では、それぞれのステップが、列挙されているものを含むこと（そのステップが、「からなる」などの限定する用語を含まない限り）が具体的に企図されており、それは、それぞれのステップが、例えば、ステップに挙げられていない他の追加のもの、コンポーネントまたはステップを排除することが意図されていないことを意味している。

「例示的な」は、「の一例」を意味し、好ましい構成または理想的な構成の表示を伝達することを意図するものではない。「など」は、限定的な意味で使用されるものではなく、説明を目的に使用される。

本明細書では、範囲は、「約」一つの特定の値から、かつ／または「約」別の特定の値までとして表現される場合がある。こうした範囲が表されるとき、具体的に企図され、開示されることが考慮される範囲は、文脈が別途具体的に示さない限り、一つの特定の値からおよび／または他の特定の値の範囲である。同様に、値が近似値として表現されている場合には、先行する「約」を使用することにより、特定の値が別の実施形態を形成することが理解されるであろうし、具体的には、文脈が別途具体的に示さない限り、開示されることが考慮されるべき実施形態が企図される。これらの範囲の各々の終点は、文脈が別途具体的に示さない限り、他の終点と関連して、かつ他の終点とは独立して有意であることがさらに理解されるであろう。最後に、明示的に開示された範囲内に含まれる個々の値および値のサブレンジの全ても、具体的に企図されており、文脈が別段示さない限り、開示されているとみなされるべきであることが理解されるべきである。前述は、特定の事例において、これらの実施形態の一部またはすべてが明示的に開示されているか否かにかかわらず、適用される。

Ｂ．信頼できる受容体－ｐＭＨＣ結合を識別する方法およびその使用方法
一部の態様では、記載される方法およびシステムは、マルチオミクスハイスループット結合データを分析することによって、信頼できるＴＣＲ－ｐＭＨＣ結合を識別することができる。方法およびシステムは、本明細書では、ＩＣＯＮ（統合ＣＯｎｔｅｘｔ特異的正規化）と呼ばれてもよい。

単一の細胞配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データを受信すること；デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリングすること；バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること；デキストラマー配列データから、単一の細胞の受容体データに基づき、特定の受容体配列の存在または非存在によるデータをフィルタリングすること；ならびに信頼できる受容体－ｐＭＨＣ結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。

単一の細胞配列データおよび対応する受容体配列データは、Ｔ細胞（αβまたはγδ）およびＢ細胞を含む、いくつかの細胞タイプ由来であり得る。したがって、一例として、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴＣＲ配列データを受信すること；デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリング；バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること；デキストラマー配列データから、単一の細胞のＴＣＲデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすること；ならびに信頼できるＴＣＲ－ｐＭＨＣ結合と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。

１．データ取得
マルチオミクスハイスループット結合データを取得する、受信する、および／または決定する方法が開示される。図１に示すように、システム１００は、単一細胞免疫プロファイリングプラットフォーム１０２を含むことができる。単一細胞免疫プロファイリングプラットフォーム１０２を形成して、マルチオミクスハイスループット結合データ（例えば、配列データ１０４）を生成してもよい。一態様では、マルチオミクスハイスループット結合データは、単一の細胞配列データ、デキストラマー配列データ、および／または単一の細胞の受容体配列データのうちの一つまたは複数を含むことができる。単一の細胞の配列データは、例えば、ＲＮＡ－ｓｅｑデータを含むことができる。デキストラマー配列データは、例えば、ＣＩＴＥ－ｓｅｑ（配列決定によるトランスクリプトームおよびエピトープの細胞指数）としても言及される、ｄＣＯＤＥ－デキストラマー－ｓｅｑおよび／または細胞表面タンパク質発現配列決定を含むことができる。単一の細胞の受容体配列データは、例えば、対αβ鎖（またはγδ鎖）単一細胞のＴＣＲ－ｓｅｑデータなどの、ＴＣＲ－ｓｅｑデータを含むことができる。

一部の態様では、マルチオミクスハイスループット結合データは、以前に生成され、開示される方法に組み込まれることができる。一部の態様では、マルチオミクスハイスループット結合データは、開示される方法の一部として生成することができる。

一部の態様では、図２に示すように、単一細胞免疫プロファイリングプラットフォーム１０２を形成して、Ｔ細胞またはＢ細胞などの、細胞におけるソーティングのため、健康なヒトドナー由来の末梢血単核細胞（ＰＢＭＣ）が標識されてもよい。一部の態様では、細胞は、Ｔ細胞（例えば、ＣＤ４＋またはＣＤ８＋細胞）であってもよい。一部の態様では、Ｔ細胞は、αβＴ細胞またはγδＴ細胞であってもよい。一部の態様では、細胞は、Ｂ細胞であってもよい。したがって、ソーティングのため標識するとき、標識は、ＣＤ４、ＣＤ８、またはＢ細胞特異的標識であってもよい。

一部の態様では、対象の細胞タイプが、選別されると、次いで、選別された細胞は、特定のペプチド－主要組織適合複合体（ＭＨＣ）（ｐＭＨＣ）に結合する細胞について選別することができる。一部の態様では、細胞は、例えば、ｄＣＯＤＥ（商標）デキストラマーなどのデキストラマーのセットと組み合わせることができる。一部の態様では、ｄＣＯＤＥ（商標）Ｄｅｘｔｒａｍｅｒ（登録商標）技術を、使用することができる。デキストラマーは、二つ以上のＭＨＣ、それぞれのＭＨＣにより提示されるペプチド、およびＤＮＡバーコードを含むことができる。一部の態様では、デキストラマーのプールが、使用される。一部の態様では、デキストラマーのプールは、それぞれが異なるｐＭＨＣを含む、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０，７５、８０、８５、９０、９５、または１００の単一のデキストラマーを含むことができるが、これらに限定されない。一部の態様では、デキストラマーのプールは、異なるｐＭＨＣを含む単一のデキストラマーのそれぞれのうちの二つ以上を含む。一部の態様では、単一のデキストラマー上の二つ以上のＭＨＣは、同一であり、したがって、同じペプチドを提示する。一部の態様では、ＭＨＣは、ＭＨＣクラスＩ（ＭＨＣＩ）またはＭＨＣクラスＩＩ（ＭＨＣＩＩ）であることができる。一部の態様では、ＤＮＡバーコードは、一つまたは複数のプライマー配列、ペプチド－ＭＨＣ（ｐＭＨＣ）特異的バーコード、および固有の分子識別子を含む。一部の態様では、デキストラマーは、標識をさらに含むことができる。例えば、標識は、蛍光標識であってもよい。一部の態様では、特定のｐＭＨＣに結合する細胞は、デキストラマー上の標識に基づき、選別される。一部の態様では、特定のｐＭＨＣに結合する細胞は、デキストラマーに特異的な標識された抗体に基づき、選別される。

一部の態様では、特定の細胞タイプについての細胞ソーティングおよびデキストラマーを認識する細胞についての細胞ソーティングは、同時または連続的に行うことができる。

一部の態様では、ｐＭＨＣを含むデキストラマーに結合した細胞のソーティング後、それぞれの細胞および対応するデキストラマーを配列決定することができる。一部の態様では、細胞配列およびデキストラマー配列（例えば、デキストラマー由来のＤＮＡバーコード配列）はすべて、共通シーケンシングバーコードを有し、これにより、どの細胞配列がどのデキストラマー配列と関連付けられていたかを決定することができる。一部の態様では、ＮｅｘｔＧＥＭ技術は、シーケンシングのため使用することができる。一般的なシーケンシングバーコードは、デキストラマーにあるＤＮＡバーコードとは異なる。

一部の態様では、ｐＭＨＣを含むデキストラマーに結合した細胞の配列決定は、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データを含み得る配列データ１０４を提供する。一部の態様では、単一の細胞の配列データは、細胞ゲノム全体またはトランスクリプトーム由来の配列を含む。したがって、一部の態様では、単一の細胞の配列データは、遺伝子発現データを含む。一部の態様では、デキストラマー配列データは、ＤＮＡバーコード配列を含む。一部の態様では、単一の細胞の受容体配列データは、特定の受容体の配列を含む。例えば、単一の細胞の受容体配列データは、単一の細胞ＴＣＲまたはＢ細胞受容体（ＢＣＲ）配列データを含む。一部の態様では、単一の細胞のＴＣＲ配列データは、対のＴＣＲ配列データを含む。一部の態様では、対のＴＣＲ配列データは、それぞれの細胞について、存在する場合、α鎖およびβ鎖についての配列データを含む。一部の態様では、対のＴＣＲ配列データは、それぞれの細胞について、存在する場合、γ鎖およびδ鎖についての配列データを含む。したがって、本明細書に記載されるそれぞれの方法および実施例について、アルファ鎖およびベータ鎖の配列決定は、ガンマ鎖およびデルタ鎖の配列決定と交換することができる。

図１に示すシステム１００に戻ると、一態様では、配列データ１０４は、計算装置１０６に提供されてもよい。計算装置１０６は、例えば、スマートフォン、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、サーバコンピュータなどであってもよい。計算装置１０６は、一つまたは複数のサーバ群を含んでもよい。計算装置１０６は、配列データ１０２のうちの一つまたは複数の保存のためのデータベースを含む、様々なデータ構造を生成し、記憶し、維持し、および／または更新するよう構成されてもよい。計算装置１０６は、統合ＣＯｎｔｅｘｔ特異的正規化（ＩＣＯＮ）モジュール１０８および／または予測モジュール１１０などの、一つまたは複数のアプリケーションプログラムを操作するように構成されてもよい。ＩＣＯＮモジュール１０８および予測モジュール１１０は、同じ計算装置上または別個の計算装置上で別々に操作するように保存されるか、および／または構成されてもよい。

一部の態様では、ＩＣＯＮモジュール１０８は、受信された配列データ１０４（例えば、マルチオミクスハイスループット結合データ、単一の細胞の配列データ、デキストラマー配列データ、単一の細胞の受容体配列データなど）を分析するように構成することができる。配列データ１０４は、配列情報ならびにメタ情報を含んでもよい。配列データ１０４は、当業者に公知のように、例えば、ＶＣＦファイル、ＦＡＳＴＡファイルまたはＦＡＳＴＱファイルを含む、任意の適当なファイル形式で保存することができる。ＦＡＳＴＡおよびＦＡＳＴＱは、ハイスループット配列決定からの未処理の配列読み取り値を保存するために使用される一般的なファイル形式である。ＦＡＳＴＱファイルは、それぞれの配列読み取り値、配列、およびそれぞれの読み取り値の品質スコア文字列についての識別子を保存する。ＦＡＳＴＡファイルは、識別子および配列のみを保存する。他のファイル形式も企図される。

一部の態様では、図３に示すように、ＩＣＯＮモジュール１０８は、ステップ３１０において配列データ１０４（例えば、デキストラマー配列データ）から低品質の細胞をフィルタリングすること、ステップ３２０においてバックグラウンドノイズについての配列データ１０４を調節すること、ステップ３３０において配列データ１０４における対のαβ鎖を有するＴ細胞を選択すること、ステップ３４０において配列データ１０４にデキストラマーシグナル補正を適用すること、ステップ３５０において細胞および／またはｐＭＨＣ－ワイズデキストラマーシグナル正規化ならびにバインダー識別を配列データ１０４に行うこと、ならびにステップ３６０において正規化されたデキストラマー配列データに残っているデータを信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連すると識別することを含む、方法３００を行うよう構成することができる。一実施形態では、ＩＣＯＮデータプロセスは、ドナー、細胞、および／またはデキストラマーに特異的な状況で行われてもよい。

ステップ３１０における配列データ１０４から低品質の細胞をフィルタリングすることは、低品質の細胞の単一細胞ＲＮＡ－ｓｅｑベースのフィルタリングを含んでもよい。ＩＣＯＮモジュール１０８は、二重項および死細胞などの低品質の細胞をフィルタリングするように構成することができる。検出されるＴ細胞について予想外に多い数の遺伝子を有する細胞（例えば、細胞当たり＞２５００個の遺伝子）は、二重項として分類されてもよく、ミトコンドリア遺伝子発現の高いフラクション（例えば、総遺伝子発現ＵＭＩに対するミトコンドリア遺伝子発現ＵＭＩの比＞０．４）または検出された遺伝子の数があまりに少ない（細胞当たり＜２００個の遺伝子）細胞は、死細胞と分類されてもよい。低品質の細胞と関連するデータは、配列データ１０４（例えば、デキストラマー配列データ）から除去されてもよい。

一実施形態では、ステップ３１０における配列データ１０４からの低品質の細胞のフィルタリングは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること（遺伝子閾値範囲は、例えば、約２００～約２，５００遺伝子であってもよい）、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、およびデキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含んでもよい。遺伝子発現閾値は、総合固有分子識別子カウントの約４０パーセントであることができる。

ステップ３２０におけるバックグラウンドノイズについての配列データ１０４を調節することは、単一の細胞のｄＣＯＤＥ－デキストラマー配列ベースのバックグラウンド調節を含んでもよい。一態様では、デキストラマー結合アッセイのため設計された二つのタイプのバックグラウンドノイズ対照は、デキストラマー染色および選別されたＣＤ８＋Ｔ細胞（ｎｃと示される、ＮＣ＿ｄｅｘ）由来の陰性対照デキストラマー、ならびにデキストラマーにおけるソーティングなしで、デキストラマー染色されたＣＤ８＋Ｔ細胞（Ｄｅｘ＿選別されていない、ｄｕと示される）由来の陰性対照デキストラマーを含む。シグナルおよびノイズ分布を検査するために、それぞれの細胞の最善の結合を表す、それぞれの細胞のＵＭＩ（固有分子識別子）における最大のデキストラマーシグナルを選択してもよい。具体的には、細胞の非特異的デキストラマー結合シグナルは、Ｍａｘ（ｎｃ_１、…、ｎｃ_ｎ）として表されてもよく、ｎ個の陰性対照デキストラマーの最大のデキストラマーシグナルは、デキストラマープールを含んでいた。デキストラマー染色され、選別された試料（ｄｓとして示される、Ｄｅｘ＿選別された）からの細胞のデキストラマー結合シグナルは、ｍ試験デキストラマーのＵＭＩにおける最大のデキストラマーシグナルである、Ｍａｘ（ｄｓ_１、…、ｄｓ_ｍ）として表されてもよい。同様に、Ｄｅｘ＿選別されていない試料由来の細胞のデキストラマー結合シグナルは、Ｍａｘ（ｄｕ_１、…、ｄｕ_ｍ）として表されてもよい。、Ｍａｘ（ｄｕ、…、ｄｕ_４４）ＵＭ中の非特異的デキストラマー結合シグナルのＰ_９９．９は、非特異的デキストラマー結合カットオフとして選択されてもよい（陰性デキストラマー対照の絶対外れ値は、排除されてもよい）。

細胞ソーティングプロセスによって導入される可能性のあるノイズを推定するために、Ｄｅｘ＿選別された試料とＤｅｘ＿選別されていない試料の間のデキストラマー結合シグナルの累積分析を比較して、デキストラマーソーティング効率のためのカットオフを決定してもよい。コルモゴロフ－スミルノフ検定（ＫＳ検定）ｐ値は、それぞれのデータ点（デキストラマーＵＭＩ）をスライディングウィンドウとして使用した、デキストラマー選別された試料およびデキストラマー選別されていない試料の累積曲線を比較することによって計算されてもよい。Ｄｅｘ＿選別されたとＤｅｘ＿選別されていない（ａｒｇｍａｘＤ_ｓ，ｕ）の間のデキストラマー結合シグナルの最大の相違を定義するデキストラマーＵＭＩは、デキストラマーソーティング効率を推定するための閾値として使用されてもよい。デキストラマー選別された試料の推定されたバックグラウンドノイズ（ｄ）の測定値は、以下のように定義されてもよい。
ｄ＝最大（Ｐ_９９．９、ａｒｇｍａｘＤ_ｓ，ｕ）
選別された細胞のそれぞれの試験デキストラマーについてのデキストラマーシグナル（ＵＭＩ）は、推定されたバックグラウンドノイズ（ｄ）の測定値を減じることによって補正されてもよい。
Ｅ_ｃ＝Ｅ_ｓ－ｄ

一実施形態では、ステップ３２０におけるバックグラウンドノイズについてのデータを調節することは、デキストラマー配列データに基づき、選別されたデキストラマー配列データおよび選別されていないデキストラマー配列データを決定することを含んでもよい。選別されたデキストラマー配列データは、選別された試験デキストラマー配列データ（ｄｅｘ＿選別された）および陰性対照デキストラマー配列データ（ｎｃ＿ｄｅｘ）を含むことができる。選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データ（ｄｅｘ＿選別されていない）を含むことができる。方法３００は、ステップ３２０において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データ（ｎｃ＿ｄｅｘ）に基づき、最大の陰性対照デキストラマーシグナル（Ｍａｘ（ｎｃ_１，．．．，ｎｃ_ｎ））を決定してもよい。方法３００は、ステップ３２０において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データ（ｄｅｘ＿選別された）に基づき、最大の選別されたデキストラマーシグナル（Ｍａｘ（ｄｓ_１，．．．，ｄｓ_ｍ））を決定してもよい。方法３００は、ステップ３２０において、デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データ（ｄｅｘ＿選別されていない）に基づき、最大の選別されていないデキストラマーシグナルＭａｘ（ｄｕ，．．．，ｄｕ_ｍ）を決定してもよい。

方法３００は、ステップ３２０において、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズ（Ｐ_９９．９）を推定し、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率（ａｒｇｍａｘＤ_ｓ，ｕ）を推定してもよい。デキストラマー選別ゲート効率は、例えば、選別された試験デキストラマー配列データのＭａｘ（ｄｓ_１，．．．，ｄｓ_ｍ）と選別されていないデキストラマー配列データのＭａｘ（ｄｕ，．．．，ｄｕ_ｍ）の間の最大の相違によって決定されてもよい。

方法３００は、ステップ３２０において、デキストラマー結合バックグラウンドノイズ（Ｐ_９９．９）およびデキストラマー選別ゲート効率（ａｒｇｍａｘＤ_ｓ，ｕ）に基づき、バックグラウンドノイズ（ｄ）の測定値を決定し、デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズ（ｄ）の測定値をそれぞれの細胞と関連するデキストラマーシグナル（Ｅ_ｃ＝Ｅ_ｓ－ｄ）から減じてもよい。

一実施形態では、ステップ３３０において配列データ１０４における対のαβ鎖を有するＴ細胞を選択することは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、ならびにデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。ステップ３３０は、単一の対のγδ鎖を有する細胞と関連しないデキストラマー配列データから任意のデータを除去することを含んでもよい。したがって、ステップ３２０におけるバックグラウンドノイズの調節のための同じステップは、γ鎖および／またはδ鎖の存在または非存在に関して行うことができる。

ステップ３３０において配列データ１０４における対のαβ鎖を有するＴ細胞を選択することは、単一の対のαβ鎖を有する細胞と関連しないデキストラマー配列データから任意のデータを除去することを含んでもよい。単一の細胞の受容体配列データ（例えば、単一の細胞のＴＣＲ－ｓｅｑデータ）を使用して、α鎖のみ、β鎖のみ、および複数のαまたはβ鎖を有するＴ細胞と関連するデータを決定してもよく、このようなデータは、配列データ１０４（例えば、デキストラマー配列データ）から除去されてもよい。検出された複数のαまたはβ鎖を有するＴ細胞について、最大のＵＭＩカウントを有するαまたはβ鎖を、それぞれのＴ細胞に割り当ててもよい。例えば、一つのＴ細胞が、検出された４つのα鎖および４つのβ鎖を有する場合、全てのβ鎖のリストから、最大のＵＭＩを有するβ鎖が選択されてもよい。α鎖についても同様である。本プロセスから選択されたαまたはβ鎖が、細胞に割り当てられてもよい。

方法３００は、ステップ３４０において、デキストラマーシグナル補正を配列データ１０４に適用することを含んでもよい。ステップ３４０において、配列データ１０４におけるデキストラマーシグナルが補正されて、補正されたデキストラマー配列データを得てもよい。それぞれのデキストラマーは、最適な結合条件を有するが、多重化デキストラマー結合アッセイが、デキストラマー毎に最適であるように、実験条件を配置することは不可能である。これにより、同じＴ細胞／クローンに結合する複数のデキストラマーを得る。この効果を補正するために、以下の技術を使用して、同じＴ細胞／クローンに同時に結合する場合、デキストラマーシグナルが罰とされてもよい。

ｊ^ｔｈデキストラマーに結合するｉ^ｔｈＴ細胞についてのバックグラウンドノイズを減じたデキストラマーシグナルをＥ_ｉｊと定義することは、ｉ^ｔｈＴ細胞についてのｊ^ｔｈデキストラマーの結合に起因したデキストラマーシグナルのフラクションを以下のようにさらに示す。

ｉ^ｔｈＴ細胞のＴＣＲクローンタイプをｋ_ｉとして示すこと、およびＴ_ｋｉｊとしてデキストラマーｊに結合するクローンタイプｋ_ｉに属するＴ細胞の数は、ｊ^ｔｈデキストラマーに結合するクローンタイプｋ_ｉに属するＴ細胞のフラクションを以下の通り示す。

これらの量を使用して、ｊ^ｔｈデキストラマーに結合するｉ^ｔｈＴ細胞についての補正されたデキストラマーシグナルを以下の通り計算する。

Ｓ_ｉｊ＝Ｅ_ｉｊ（ＲＣ_ｉｊ）^２ＲＴ_ｋｊ

方法３００は、ステップ３５０において、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことおよび／またはデキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うことによって、補正されたデキストラマー配列データを正規化してもよい。このような正規化は、正規化されたデキストラマー配列データをもたらすことができる。ステップ３５０は、バインダー識別をさらに含んでもよい。全てのデキストラマー結合シグナルを同等にするために、補正されたデキストラマー結合シグナルは、細胞内の４４個の試験デキストラマーにわたり正規化された対数比であってもよい。続いて、ｐＭＨＣワイズ正規化を、対数ランク分布に基づき行ってもよい。正規化されたデキストラマーＵＭＩ＞０は、ｐＭＨＣ特異的バインダーについてのカットオフとして経験的に選択された。

一実施形態では、補正されたデキストラマー配列データは、ステップ３５０において正規化されてもよい。例えば、セルワイズ正規化は、それぞれの細胞についてのログランク分布に基づき行われてもよく、および／またはｐＭＨＣワイズ正規化を行い、デキストラマー結合シグナルを互いに同等にしてもよい。選別された細胞Ｅ_ｃの調節されたデキストラマー結合シグナルは、試験デキストラマーにわたり正規化されてもよく、次いで、以下の方程式の通り、全ての細胞にわたり正規化されてもよい。

は、ｐＭＨＣ特異的バインダーについてのカットオフとして経験的に決定されてもよい。

方法３００は、ステップ３６０において、信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連する正規化されたデキストラマー配列データに残っているデータをさらに識別してもよい。このようなデータは、機械学習プロセスにおいて使用するためのトレーニングデータセットの一部とみなされてもよい。得られた処理された配列データ１０４（例えば、トレーニングデータセット）は、予測モジュール１１０に提供されてもよい。

Ｃ．機械学習のための信頼性の高い受容体－ｐＭＨＣ結合の使用方法
ここで図４を参照すると、予測モジュール１１０が記載される。予測モジュール１１０は、所定の受容体配列に対する結合親和性を予測するよう構成されている少なくとも一つのＭＬモジュール４３０である、トレーニングモジュール４２０による、一つまたは複数のトレーニングデータセット４１０の分析に基づき、トレーニングするための機械学習（「ＭＬ」）技術を使用するよう構成されてもよい。

トレーニングデータセット４１０は、一つまたは複数の受容体配列、一つまたは複数の遺伝子識別子、結合状態、および受容体配列が結合した（存在する場合）ペプチドの識別子を含んでもよい。結合状態は、ペプチドに結合した受容体配列について「はい」またはペプチドに結合していなかった受容体配列に対して「いいえ」を示し得る。ペプチドに結合した受容体配列について、ペプチドの識別子を使用して、ペプチドと関連する抗原を識別することができる。このようなデータは、全体的または部分的に、ＩＣＯＮモジュール１０８によって処理された配列データ１０４から導出されてもよい。一実施形態では、ＴＣＲ－ＣＤＲ３アミノ酸配列は、関連するＶ、Ｄ、およびＪ遺伝子識別子、結合状態（はい、いいえ）を示す標識、ならびにＴＣＲ－ＣＤＲ３アミノ酸配列が結合したペプチドの識別子を含む、配列データ１０４から決定されてもよい。ＴＣＲ－ＣＤＲ３アミノ酸配列は、２０個の可能性のあるアミノ酸を表す数字でコードされてもよい。パディングが、必要に応じて配列に適用されてもよい。ＶおよびＪ遺伝子識別子は、計算空間における遺伝子識別子の分類上および別々の表示を提供するよう、ワンホットコードされてもよい。コードされるＴＣＲ－ＣＤＲ３アミノ酸ならびにＶおよびＪ遺伝子識別子を互いに連結して、記録され、結合状態（はい、いいえ）を示す標識と関連する一つのＴＣＲを表してもよい。標識は、ＴＣＲが結合した特定のペプチドをさらに示してもよい。一つまたは複数のＴＣＲ記録を合わせて、トレーニングデータセット４１０を得てもよい。

ＴＣＲ記録のサブセットは、トレーニングデータセット４１０または試験データセットに無作為に割り当てられてもよい。一部の実施では、トレーニングデータセットまたは試験データセットへのデータの割り当ては完全に無作為ではない場合がある。この場合、一つ以上の基準が、割り当て中に使用されうる。一般に、任意の好適な方法を使用して、データを訓練データセットまたは試験データセットに割り当ててもよい一方で、はいおよびいいえの標識分布が、訓練データセットおよび試験データセットにおいていくらか類似していることを保証し得る。

トレーニングモジュール４２０は、一つまたは複数の特性選択技術により、トレーニングデータセット４１０における複数のＴＣＲ記録（例えば、はいとして標識された）から特性セットを抽出することによって、ＭＬモジュール４３０をトレーニングしてもよい。トレーニングモジュール４２０は、正の例（例えば、はいであると標識された）の統計上有意な特性および負の例（例えば、いいえであると標識された）の統計上有意な特性を含むトレーニングデータセット４１０から、特性セットを抽出することによって、ＭＬモジュール４３０をトレーニングしてもよい。

トレーニングモジュール４２０は、様々な方法で、トレーニングデータセット４１０から特性セットを抽出してもよい。トレーニングモジュール４２０は、異なる特徴抽出技術を使用して、各回に特徴抽出を複数回実施し得る。一例では、異なる技術を使用して生成される特徴セットは各々が、異なる機械学習ベースの分類モデル４４０を生成するために使用され得る。例えば、最も高い品質の測定基準を伴う特徴セットが、訓練における使用のために選択され得る。トレーニングモジュール４２０は、新規の受容体配列（例えば、未知の結合状態を有する）が、ペプチドまたはｐＭＨＣにおそらく結合するか、またはおそらく結合しないかどうかを示すよう構成されている、一つまたは複数の機械学習ベースの分類モデル４４０Ａ～４４０Ｎを構築するための特性セットを使用してもよい。

トレーニングデータセット４１０を分析して、トレーニングデータセット４１０における特性とはい／いいえの標識の間の任意の依存性、関連性、および／または相関を決定してもよい。識別された相関は、異なるはい／いいえの標識と関連する特性のリストの形態を有してもよい。本明細書で使用される場合、用語「特徴」は、データのある項目が、一つ以上の特定のカテゴリ内にあるか否かを決定するために使用され得るデータの項目の任意の特徴を指し得る。例示の目的で、本明細書に記載される特性は、一つまたは複数の配列パターン、一方または両方のアルファおよびベータ鎖のアミノ酸配列、一方または両方のアルファおよびベータ鎖のｖおよびｊ遺伝子セグメントの名称を含んでもよい。

特性選択技術は、一つ以上の特徴選択ルールを含み得る。一つ以上の特性選択ルールは、特性発生ルールを含み得る。特性発生ルールは、トレーニングデータセット４１０においていずれの特性が閾値の回数にわたって生じるかを決定すること、および閾値を満たすそれらの特性を候補特徴として特定することを含み得る。

単一の特性選択ルールを、特性を選択するために適用してもよく、または複数の特性選択ルールを、特性を選択するために適用してもよい。特性選択ルールは、カスケード方式で適用されてもよく、特性選択ルールは、特定の順序で適用され、以前のルールの結果に適用される。例えば、特性発生ルールは、訓練データセット４１０に適用されて、特性の第一のリストを生成し得る。候補特性の最終リストは、一つまたは複数の候補特性群（例えば、結合を予測するために使用され得る特性の群）を決定するためのさらなる特性選択技術により分析されてもよい。任意の好適な計算技術を使用して、フィルター方法、ラッパー方法、および／または埋め込み方法などの任意の特性選択技術を使用して、候補特性群を特定し得る。一つまたは複数の候補特性群は、フィルター方法に従い選択されてもよい。フィルター方法には、例えば、ピアソンの相関、線形判別分析、分散分析（ＡＮＯＶＡ）、カイ二乗、それらの組み合わせなどが含まれる。フィルター方法に従った特徴の選択は、任意の機械学習アルゴリズムから独立している。代わりに、特徴は、転帰変数（例えば、はい／いいえ）との相関について、様々な統計検定におけるスコアに基づいて選択され得る。

別の例として、一つまたは複数の候補特性群は、ラッパー方法により選択されてもよい。ラッパー方法は、特性のサブセットを使用し、特性のサブセットを使用して機械学習モデルをトレーニングするように構成され得る。以前のモデルから引き出された推論に基づいて、特性は、サブセットから追加および／または削除され得る。Ｗｒａｐｐｅｒ方法は、例えば、前方特徴量選択、後方特徴量削減、再帰的特徴量削減、それらの組み合わせなどを含む。一例として、前方特性選択を使用して、一つまたは複数の候補特性群を識別してもよい。前方特徴量選択は、機械学習モデルにおける特徴なしに始まる反復方法である。各反復において、モデルを最良に改善する特徴が、新たな変数の追加によって機械学習モデルの性能が改善されなくなるまで加えられる。一例として、後方排除を使用して、一つまたは複数の候補特性群を識別してもよい。後方削減は、機械学習モデルにおける全ての特徴で始まる反復方法である。各反復では、最下位の特徴が、特徴の除去時に改善が観察されなくなるまで除去される。再帰的特性除去を使用して、一つまたは複数の候補特性群を識別してもよい。再帰的特徴量削減は、性能が最良である特徴サブセットを見出すことを目指す貪欲最適化アルゴリズムである。再帰的特徴量削減によって、モデルが反復的に作成され、各反復で最良または最悪の性能の特徴を別にしておく。再帰的特徴量削減によって、全ての特徴が消耗するまで、特徴が残っている次のモデルが構築される。再帰的特徴量削減によって、次に、それらの削減の順序に基づいて特徴がランク付けされる。

さらなる例として、一つまたは複数の候補特性群は、埋め込み方法により選択されてもよい。埋め込み方法によって、フィルター方法とラッパー方法の質が組み合わされる。埋め込み方法には、例えば、過学習を低下させるためのペナルティ機能を実施する、最小絶対収縮および選択演算子（ＬＡＳＳＯ）およびリッジ回帰が含まれる。例えば、ＬＡＳＳＯ回帰によって、係数の大きさの絶対値に相当するペナルティを加えるＬ１正則化が実施され、リッジ回帰によって、係数の大きさの二乗に相当するペナルティを加えるＬ２正則化が実施される。

トレーニングモジュール４２０によって特性セットが生成された後、トレーニングモジュール４２０によって、特性セットに基づいて、機械学習ベースの分類モデル４４０が生成され得る。機械学習ベースの分類モデルは、機械学習技術を使用して生成される、データ分類のための複雑な数学的モデルを指し得る。一例では、機械学習ベースの分類モデル４４０は、境界特性を表すサポートベクトルのマップを含み得る。この例では、境界特徴は、ある特徴セット内の最高ランクの特徴から選択されても、かつ／またはそれらを表してもよい。

トレーニングモジュール４２０は、それぞれの分類カテゴリー（例えば、はい、いいえ）についての機械学習ベースの分類モデル４４０Ａ～４４０Ｎを構築するためのトレーニングデータセット４１０から抽出された特性セットを使用してもよい。いくつかの例では、機械学習ベースの分類モデル４４０Ａ～４４０Ｎを、単一の機械学習ベースの分類モデル４４０に組み合わせてもよい。同様に、ＭＬモジュール４３０は、単一もしくは複数の機械学習ベースの分類モデル４４０を含有する単一の分類指標、および／または単一もしくは複数の機械学習ベースの分類モデル４４０を含有する複数の分類指標を表し得る。

抽出された特性（例えば、一つまたは複数の候補特性）を、機械学習アプローチ、例えば判別分析；決定木；最近傍（ＮＮ）アルゴリズム（例えば、ｋ－ＮＮモデル、レプリケーターＮＮモデルなど）；統計アルゴリズム（例えば、ベイジアンネットワークなど）；クラスタリングアルゴリズム（例えば、ｋ平均値、平均値シフトなど）；ニューラルネットワーク（例えば、リザーバネットワーク、人工ニューラルネットワークなど）；サポートベクター機械（ＳＶＭ）；ロジスティック回帰アルゴリズム；線形回帰アルゴリズム；マルコフモデルまたはチェーン；主成分分析（ＰＣＡ）（例えば、線形モデルについて）；多層パーセプトロン（ＭＬＰ）ＡＮＮ（例えば、非線形モデルについて）；リザーバネットワークの複製（例えば、非線形モデルについて、通常は時系列について）；ランダムフォレスト分類；それらの組み合わせおよび／または同様のものを使用して訓練された分類モデルにおいて組み合わせてもよい。得られたＭＬモジュール４３０は、結合状態を新規の受容体配列に割り当てるための、それぞれの候補特性についての決定ルールまたはマッピングを含んでもよい。

一実施形態では、トレーニングモジュール４２０は、畳み込みニューラルネットワーク（ＣＮＮ）として機械学習ベースの分類モデル４４０をトレーニングしてもよい。ＣＮＮは、少なくとも一つの畳み込み特性層および最終の分類層（ｓｏｆｔｍａｘ）につながる三つの完全に連結した層を含んでもよい。最終の分類層を最終的に適用して、当該技術分野で公知のｓｏｆｔｍａｘ関数を使用して、完全に結び付けられた層の出力を組み合わせてもよい。

候補特性およびＭＬモジュール４３０を使用して、試験データセットにおける複数のＴＣＲ記録の結合状態（および関連するペプチド）を予測してもよい。一例では、それぞれのＴＣＲ記録の結果は、受容体配列がペプチドに結合する可能性または確率に対応する信頼レベルを含む。信頼レベルは、ゼロから一の間の値であってもよく、それは、受容体配列が、一つまたは複数のペプチドに関して、はい／いいえの結合状態に属する可能性を表してもよい。一例では、二つの状態（例えば、はいおよびいいえ）があるとき、信頼レベルは、値ｐに対応してもよく、それは、特定の受容体配列が、第一の状態（例えば、はい）に属する可能性を指す。この場合では、値１－ｐは、特定の受容体配列が、第二の状態（例えば、いいえ）に属する可能性を指し得る。一般に、２を上回る状態がある場合、それぞれの試験受容体配列について、およびそれぞれの候補特性について複数の信頼レベルが提供され得る。最も高性能の候補特性は、それぞれの試験受容体配列について得られた結果を、それぞれの試験受容体配列についての公知のはい／いいえ結合状態と比較することによって決定されてもよい。一般に、最も高性能の候補特性は、既知のはい／いいえ結合状態と密接に一致する結果を有するであろう。

最も高性能の候補特性を使用して、一つまたは複数のペプチドに関して、受容体配列のはい／いいえ結合状態を予測してもよい。例えば、新規のＴＣＲ配列が、決定／受信されてもよい。新規のＴＣＲ配列は、最も高性能の候補特性に基づき、新規のＴＣＲ配列を、結合する（はい）または結合しない（いいえ）のいずれかおよび結合ペプチドの指標として分類し得るＭＬモジュール４３０に適用されてもよい。

図５は、トレーニングモジュール４２０を使用して、ＭＬモジュール５３０を生成するための例となるトレーニング方法５００を説明するフローチャートである。トレーニングモジュール４２０によって、教師あり、教師なし、および／または半教師あり（例えば、補強ベース）の機械学習ベースの分類モデル４４０を実施することができる。図５に例証する方法５００は、教師あり学習方法の例であり；訓練方法のこの例の変形を以下で考察するが、しかし、他の訓練方法は、教師なしおよび／または半教師ありの機械学習モデルを訓練するために類似的に実施することができる。

トレーニング方法５００は、ステップ５１０においてＩＣＯＮモジュール１０８によって処理された第一の配列データを決定（例えば、アクセス、受信、検索など）してもよい。配列データは、受容体配列の標識されたセットを含んでもよい。標識は、結合状態（例えば、はいまたはいいえ）および受容体配列が結合したペプチドの識別に対応してもよい。

トレーニング方法５００は、ステップ５２０において、トレーニングデータセットおよび試験データセットを生成してもよい。トレーニングデータセットおよび試験データセットは、標識された受容体配列をトレーニングデータセットまたは試験データセットのいずれかに無作為に割り当てることによって、生成されてもよい。一部の実施では、トレーニングまたは試験試料としての標識された受容体配列の割り当ては、完全に無作為でなくてもよい。一例として、標識された受容体配列の大部分を使用して、トレーニングデータセットを生成してもよい。例えば、標識された受容体配列の７５％を使用して、トレーニングデータセットを生成してもよく、２５％を使用して、試験データセットを生成してもよい。

トレーニング方法５００は、ステップ５３０において、例えば、一つまたは複数のペプチドに関して、結合状態（例えば、はい対いいえ）の異なる分類の中で区別するための分類指標によって使用することができる一つまたは複数の特性を決定（例えば、抽出、選択など）してもよい。一例として、トレーニング方法５００は、標識された受容体配列からセットの特性を決定してもよい。さらなる例では、特性のセットは、トレーニングデータセットまたは試験データセットのいずれかにおいて標識された受容体配列以外の標識された受容体配列から決定されてもよい。言い換えると、標識された受容体配列は、機械学習モデルのトレーニングのためよりむしろ、特性の決定のため使用され得る。このような標識された受容体配列を使用して、特性の初期のセットを決定してもよく、それは、トレーニングデータセットを使用してさらに低減されてもよい。

トレーニング方法５００よって、５４０で、一つまたは複数の特性を使用して、一つ以上の機械学習モデルがトレーニングされ得る。一例では、機械学習モデルは、教師あり学習を使用してトレーニングされ得る。別の例では、教師なし学習および半教師ありを含む、他の機械学習技術が用いられてもよい。５４０でトレーニングされた機械学習モデルは、解決される問題および／またはトレーニングデータセットで利用可能なデータに応じて、異なる基準に基づいて選択され得る。例えば、機械学習分類器は、異なる程度のバイアスを受け得る。したがって、１を上回る機械学習モデルを、５４０でトレーニングし、５５０で最適化し、改善し、相互検証することができる。

トレーニング方法５００は、５６０で予測モデルを構築するために、一つまたは複数の機械学習モデルを選択し得る。予測モデルは、試験データセットを使用して評価してもよい。予測モデルは、試験データセットを分析し、ステップ５７０において予測される結合状態を生成してもよい。予測される結合状態を、ステップ５８０において評価して、こうした値が、所望の精度レベルを達成したかどうかを決定することができる。予測モデルの性能は、予測モデルによって示される複数のデータ点の多数の真の陽性、偽陽性、真の陰性、および／または偽陰性の分類に基づいて、多数の方法で評価され得る。

例えば、予測モデルの偽陽性は、予測モデルによって受容体配列が、実際には結合しない結合として誤って分類された回数を指し得る。逆に、予測モデルの偽陰性は、実際には、受容体配列が結合しているときに、機械学習モデルが、結合していないと受容体配列を分類した回数を指しうる。真陰性および真陽性は、予測モデルによって一つまたは複数の受容体配列が、結合しているか、または結合していないとして正しく分類された回数を指し得る。これらの測定に関連するのは、想起および精度の概念である。一般に、想起とは、真陽性および偽陰性の合計に対する真陽性の比率を指し、それによって予測モデルの感度が定量化される。同様に、精度は、真の陽性と偽陽性との合計の正陽性の比を指す。このような所望の精度レベルに達すると、トレーニング期が終了し、予測モデル（例えば、ＭＬモジュール４３０）が、ステップ５９０において出力されてもよく、しかしながら、所望の精度レベルに達していないとき、トレーニング方法５００のその後の反復は、例えば、配列データのより大きな収集を考慮するなどの変動を伴って、ステップ５１０において開始して行われてもよい。

一実施形態では、本明細書においてＴＣＲＡＩと称される、ＴＣＲ－ｐＭＨＣ特異性の研究のための可撓性のフレームワークが提供される。一実施形態では、ＴＣＲＡＩは、Ｔｅｎｓｏｒｆｌｏｗ２を利用してもよい。ＴＣＲＡＩは、高度にモジュール化されており、モデル構築への調整を可能にする。ＴＣＲの任意の数のＶ（Ｄ）Ｊ遺伝子およびＣＤＲ領域は、テキスト形式でモデルへの入力として定義されてもよい。これらの入力を学習不可能な方法で数値形式に処理する方法に関して、テキストを数字表示に変換する「プロセッサ」オブジェクトを介して選択することができる。次いで、これらの数字入力は、本明細書においてＴＣＲＡＩフィンガープリントと称される、ニューラルネットワークのブロックを形成し、入力データのそれらの出力ベクトル表示として与える「抽出器」オブジェクトを介して、学習可能な方法でさらに処理することができる。ＴＣＲＡＩフィンガープリントは、単一の数字ベクトルを介して、入力ＴＣＲを記述する単一のＴＣＲＡＩフィンガープリントに連結されてもよい。次いで、ＴＣＲＡＩフィンガープリントは、ニューラルネットワーク構築の最終ブロックを形成する「クローサー」オブジェクトを通過し、入力ＴＣＲ上に予測を生じてもよい。ＴＣＲＡＩは、いくつかのこのような予め構築されたプロセッサ、抽出器、およびクローサーを提供する。ＴＣＲＡＩは、異なるクローサーオブジェクトを構築することを選択することによって、二項、多項式、回帰、および／または他のタスクを実行するように構成されうる。一実施形態では、ＴＣＲＡＩは、所与のＴＣＲが、特定のｐＭＨＣ複合体に結合することができるかどうかの予測を行うためのモデルを構築するために使用されてもよい。

一実施形態では、ＴＣＲＡＩは、ＣＤＲ３配列に対する１Ｄ畳み込みおよびバッチ正規化、ならびに遺伝子に対する低次元表示を利用し得、これにより、モデル正規化をもたらし、モデルに、より強力な遺伝子関連を学ばせることを強制する。

一実施形態では、ＴＣＲの入力情報は、数字形式で処理されてもよい。それぞれのＣＤＲ３配列について、アミノ酸は、整数に変換されてもよく、整数ベクトルは、ワンホット表示にコードされてもよい。ＶおよびＪ遺伝子について、遺伝子タイプの整数へのディクショナリは、それぞれのＶおよびＪ遺伝子について構築され、それぞれの遺伝子を整数に変換するために使用されてもよい。

処理された入力情報に適用されるニューラルネットワーク構築は、埋め込み層および畳み込みネットワークを含んでもよい。具体的には、処理されたＣＤＲ３残基は、学習された埋め込みを介して１６次元空間内に埋め込まれてもよく、得られた数値ＣＤＲ３は、一つまたは複数（例えば、３）の１Ｄ畳み込み層を通して供給されてもよい。一実施形態では、寸法［６４，１２８，２５６］、核心幅［５，４，４］、およびストライド［１，３，３］のフィルターが使用されてもよい。それぞれの畳み込みは、指数線形ユニット活性化によって活性化され、その後ドロップアウトおよびバッチ正規化によって活性化され得る。これら三つの畳み込みブロックの後、グローバル最大プーリングは、最終特性に適用してもよく、このプロセスは、それぞれのＣＤＲ３を長さ２５６のベクトル、「ＣＤＲ３フィンガープリント」によってコードする。それぞれの遺伝子についての処理された遺伝子入力は、学習された埋め込みを介して、ワンホットコードされ、低減された次元の空間（例えば、Ｖ遺伝子については１６、Ｊ遺伝子については８）に埋め込まれてもよく、これにより、ベクターとしてそれぞれの遺伝子の「遺伝子フィンガープリント」を与える。次いで、全ての選択されたＣＤＲ３および遺伝子のフィンガープリントは、単一のベクターである「ＴＣＲＡＩフィンガープリント」に連結されてもよい。ＴＣＲＡＩフィンガープリントは、一つの最終完全接続層を通過して、二項予測（単一出力値、シグモイド活性化）、回帰予測（単一出力、活性化なし）、または多項予測（複数出力値、ソフトマックス活性化）を与えてもよい。

一実施形態では、ＴＣＲ配列決定ファイルは、未加工のｃｓｖフォーマットのマルチオミクスハイスループット結合データとして収集されてもよい。配列決定ファイルは、非生産性配列を除去した後にＣＤＲ３のアミノ酸配列を取るように解析されてもよい。異なるヌクレオチド配列を有するが、ＣＤＲ３由来の同じ一致したアミノ酸配列、およびＶ、Ｄ、Ｊ遺伝子を有するクローンは、一つのＴＣＲ下で一緒に凝集されてもよい。したがって、それぞれのＴＣＲ記録は、それぞれの鎖についてのＣＤＲ３アミノ酸配列およびＶ、Ｊ遺伝子を有する単一の対のαおよびβＴＣＲ鎖を含んでもよい。

データは、それぞれのモデルについてのトレーニングセット（例えば、７６．５％）、検証セット（例えば、１３．５％）、および左を取り除いた試験セット（例えば、１０％）に分けられてもよく、続いて、５倍のＭｏｎｔｅ－Ｃａｒｌｏ交差検証（ＭＣＣＶ）が、トレーニングセットにおいて行われてもよい。モデルは、Ａｄａｍオプティマイザを介して交差エントロピー損失を最小化することによってトレーニングされてもよく、交差エントロピー損失は、それぞれのクラスについて重み１／（クラスの数＊そのクラス内の試料のフラクション）によって重み付けされてもよい。過剰適合を防ぐために、左を取り除いた検証データセットを介して早期停止が結びつけられてもよく、この場合において、検証損失が、５回超にわたって増大し、最小の検証損失を伴うモデルの重みが回復した場合に、モデルは、トレーニングを停止する。多数のモデルをトレーニングする場合、交差検証中に学習速度およびバッチサイズのみを調整する必要がある。交差検証の後、ハイパーパラメータの最適な実施が、選択されてもよく、モデルは、早期停止を制御するための検証セットを使用して、完全なトレーニングセットにおいて再トレーニングされてもよい。次いで、再トレーニングされたモデルは、左を取り除いたテストセットで評価されてもよい。

ＴＣＲＡＩモデルは、特定のｐＭＨＣ（多項の場合、多くのｐＭＨＣのうちの一つ）に結合するＴＣＲについての予測と、それがそのｐＭＨＣに結合するかどうかの疑問の文脈内でそのＴＣＲを記載する数字ベクター（ＴＣＲＡＩフィンガープリント）（例えば、それぞれのＴＣＲの対のαβ鎖ＣＤＲ３アミノ酸配列ならびにＶおよびＪ遺伝子を一次元入力ベクターにコードすることにより）の両方を生成し得る。

一実施形態では、フィンガープリントの分布を分析して、異なる結合様式を有するＴＣＲの群を識別してもよい。フィンガープリントは、例えば、ＵＭＡＰ：次元低減のための均一なマニホールド近似および投影を使用して、二次元の空間に低減することができる。一方のデータセットでトレーニングされたモデルを使用し、別の目に見えないデータセットでフィンガープリントを推定するとき、ＵＭＡＰプロジェクタは、トレーニングデータセット由来のＴＣＲを用いて適合し、そのプロジェクタを使用して目に見えないセット由来のＴＣＲを変換することができる。

ＴＣＲフィンガープリントをクラスター形成するとき、データセットのすべてのＴＣＲのフィンガープリントを、上述のように二次元空間に投影することができ、次いで、強い真陽性であるそれらのＴＣＲ（ＳＴＰ、二項予測＞０．９５）を選択することができる。次いで、これらのＳＴＰは、例えば、ｋ平均分類指標を使用して、二次元空間内にクラスター形成することができる。他のクラスター形成するアルゴリズムが、使用されてもよい。次いで、それぞれのクラスター内からのＴＣＲを収集して、それを使用して、クラスター内の固有のＴＣＲクローンタイプをハイスループットデータ中のすべての繰り返されるクローンタイプと対形成させることによって、ＣＤＲ３モチーフロゴ（ｗｅｂｌｏｇｏを使用して）、遺伝子使用、および／またはＵＭＩ分布を構築することができる。

Ｄ．使用方法
一態様では、トレーニングされた予測モデル（例えば、機械学習分類指標）を使用して、一つまたは複数のペプチドに関して、ＴＣＲ配列の結合状態を予測してもよい。ＴＣＲ配列は、機械学習分類指標に提示されてもよい。機械学習分類指標は、ＴＣＲ配列が、一つまたは複数の特定のペプチドに結合する可能性を予測してもよい。同様に、複数のＴＣＲ配列が、機械学習分類指標に提示されてもよい。機械学習分類指標は、複数のＴＣＲ配列におけるそれぞれのＴＣＲ配列について、それぞれのＴＣＲ配列が、一つまたは複数の特定のペプチドに結合する可能性を予測してもよい。一態様では、機械学習分類指標は、以下の例となる出力に示されるＴＣＲ－ペプチドマップを生成することができる。

したがって、生成されたＴＣＲ－ペプチドマップを使用して、対象のＴＣＲ配列が、おそらく結合するペプチドを迅速に識別してもよい。生物学的試料（例えば、血液）は、対象、単離され、配列決定された細胞から得られてもよい。対象のＴＣＲ配列を同定し、ＴＣＲ－ペプチドマップと比較して、対象のＴＣＲ配列に結合する可能性が最も高いペプチドを同定してもよい。

一部の態様では、抗原特異的Ｔ細胞を同定し、評価することを使用して、モノ療法および併用療法設定における薬物の活性をより良く理解し、強力な抗腫瘍Ｔ細胞の特徴を識別し、ハプロタイプ関連様式で免疫原性エピトープをスクリーニングし、新規のワクチンおよびＴＣＲ療法を開発し、ＴＣＲ配列特性に基づきペプチド結合アルゴリズムを開発することができる。

一部の態様では、対象のＴＣＲの結合パターンを使用して、対象を識別する方法が開示される。例えば、血液が、採取されてもよく（第一の採血）、血液由来の細胞が、単一の細胞ベースの免疫プロファイリングプラットフォームを介して処理されてもよく、得られたデータが、本明細書に記載されるＩＣＯＮの方法に従って処理されてもよい。一部の態様では、細胞は、広範な免疫原由来のｐＭＨＣを含む様々なデキストラマーに曝露される。本明細書に記載されるようにＩＣＯＮ方法を行った後、信頼できるＴＣＲ結合パターンを決定することができる。一部の態様では、ＴＣＲ結合パターンは、デキストラマー上の免疫原に対するＴＣＲの特異性を表す。次いで、最初の採血（２回目の採血）とは異なる時点（数日、数週、数ヶ月、数年後）で採血することができる。一部の態様では、第二の採血は、約１０^１５個の可能性のあるＴＣＲ配列が存在するが、ＴＣＲ結合パターンが変化する可能性は低いので、第一の採血に存在したものとは異なる配列を有するＴＣＲを有するＴ細胞を含む可能性が高いことが予想される。第二の採血由来の細胞は、第一の採血に使用されるのと同じデキストラマーに曝露されてもよく、得られたデータは、ＩＣＯＮ方法に従って分析される。異なるＴＣＲ配列に関わらず、第一の採血および第二の採血の結合データを比較し、それらが両方とも同じ対象からのものであるかどうかを決定することができる。

一部の態様では、対象のＴＣＲの結合パターンを予測するための機械学習を使用して、対象を識別する方法が開示される。信頼できるＴＣＲ結合データは、本明細書に記載されるＩＣＯＮ方法に従って識別することができる。一部の態様では、信頼できるＴＣＲ結合データを使用して、本明細書に記載される機械学習分類指標をトレーニングすることができる。トレーニングされた機械学習分類指標を使用して、対象の特異性ＴＣＲ結合パターンを予測することができる。一部の態様では、血液は採取されてもよく（第一の採血）、ＴＣＲ結合パターンは、トレーニングされた機械学習分類指標を使用して予測されてもよい。次いで、最初の採血（２回目の採血）とは異なる時点（数日、数週、数ヶ月、数年後）で採血することができる。一部の態様では、第二の採血は、約１０^１５個の可能性のあるＴＣＲ配列が存在するが、ＴＣＲ結合パターンが変化する可能性は低いので、第一の採血に存在したものとは異なる配列を有するＴＣＲを有するＴ細胞を含む可能性が高いことが予想される。異なるＴＣＲ配列に関わらず、トレーニングされた機械学習分類指標を使用して、第二の採血から導出されたデータを使用して、第二のＴＣＲ結合パターンを予測してもよい。第二の採血は、ＴＣＲシグネチャに基づいて、第一の採血と同じ対象からのものであると予測することができる。

一部の態様では、ＴＣＲまたはＢＣＲ結合パターンは、記載される方法を使用して確立することができる。一部の態様では、本明細書に記載される方法を使用して識別された信頼できるＴＣＲデータを有することは、医療従事者などの誰かが、対象の抗原性歴またはワクチン歴を推定することを可能にする。一部の態様では、本明細書に記載されるＩＣＯＮ方法を使用して識別された信頼できるＴＣＲデータは、医療従事者などの誰かが、対象がどの病原体に曝露されたか、または対象がどの国を訪問したかを推測することを可能にする。例えば、アフリカにのみ存在する病原体に対するＴＣＲ結合データの存在は、対象がアフリカにいたことがあり、それらの病原体に曝露されたことを示し得る。

一部の態様では、本明細書に記載されるＩＣＯＮ方法を使用して識別された信頼できるＴＣＲデータは、対象の現在の免疫状態を評価することができる。例えば、血液が、採取されてもよく（第一の採血）、血液由来の細胞が、単一の細胞ベースの免疫プロファイリングプラットフォームを介して処理されてもよく、得られたデータが、本明細書に記載されるＩＣＯＮの方法に従って処理され、ＴＣＲ結合データを得てもよい。一部の態様では、ＴＣＲ結合データの確立に使用されるデキストラマーは、腫瘍特異的ｐＭＨＣを含む。したがって、ＴＣＲ結合データが、ＩＣＯＮ方法を使用して正規化され、信頼できるＴＣＲ結合データが確立されると、予測される腫瘍特異的ＴＣＲの存在を決定することができる。例えば、信頼できるＴＣＲデータは、開示される機械学習（ＣＮＮ）方法において使用することができ、したがって、対象由来の血液は、予測される腫瘍特異的ＴＣＲの存在について分析することができる。したがって、腫瘍特異的ＴＣＲの存在は、任意の腫瘍または癌症状が検出される前に、癌の早期検出をもたらすことができる。

一部の態様では、Ｔ細胞ベースの療法のためのＴ細胞を選択する方法が開示される。一部の態様では、トレーニングデータは、機械学習分類の開示された方法を使用して蓄積することができる。一部の態様では、分類子は、ｐＭＨＣ結合の確率を、試験されたそれぞれのＴＣＲ配列に割り当てることができる。一部の態様では、試験されたＴＣＲ配列は、Ｔ細胞と関連付けられ、Ｔ細胞は、一次または二次細胞培養物由来であってもよい。これにより、それぞれのＴ細胞が、異なるｐＭＨＣに特異的なＴＣＲを有するかどうかを決定するために、試験される全てのＴ細胞において結合アッセイを行う必要性を回避する。代わりに、分類指標は、ＴＣＲ－ｐＭＨＣ結合の確率の決定について信頼される。したがって、特定のｐＭＨＣに対して高度に選択性があると分類されたそれらのＴＣＲ、およびそれを含むＴ細胞が、Ｔ細胞療法に使用することができる。一部の態様では、最も信頼できる結合データのみを使用して、選択されたＴ細胞と関連するＴＣＲを分類するために使用されるトレーニングデータを生成したので、機械学習分類指標を介して識別されたＴ細胞は、結合アッセイを介して識別されたそれらのＴ細胞より安全な細胞療法を提供することができる。

一部の態様では、免疫モニタリング方法が開示される。一部の態様では、血液は、免疫療法（例えば、ワクチン処置、免疫チェックポイント処置）を受けている対象から採取することができ、細胞、特に、Ｔ細胞は、開示される機械学習アプローチで確立されるトレーニングデータに基づき、対象のエピトープに対する特異性を有するか否かに分類することができる。一部の態様では、Ｔ細胞が、対象のエピトープに対する特異性を有すると決定される場合、次いで、対象が、免疫療法に応答するであろうか、または免疫療法に応答するかを推測することができる。例えば、免疫療法が、癌特異的抗原に対する免疫応答を誘発するワクチンである場合、対象から得られたＴ細胞は、癌特異的抗原への結合のその確率に基づいて分類される。単一の細胞免疫プロファイリング技術およびＩＣＯＮを使用して得られたトレーニングデータに基づき、癌特異的抗原への結合の高い確率を有する、Ｔ細胞が選択される場合、次いで、対象は、免疫療法（例えば、ワクチン）に対するレスポンダーであるとみなされるであろう。

一部の態様では、開示される方法を使用したＴＣＲエピトープマッピングの方法が開示される。一部の態様では、ＴＣＲエピトープマッピングは、Ｔ細胞（ＣＤ４＋および／またはＣＤ８＋）受容体によって認識される特定の抗原のエピトープの特異的（場合によっては最も短い）アミノ酸配列を識別するプロセスを指す用語であり、同時に、長期的かつ細胞傷害性免疫応答を刺激する可能性を有する。開示される単一の細胞免疫プロファイリングプラットフォーム技術を行う間、デキストラマーを使用することができ、対象の一つまたは複数の抗原由来の全ての異なるエピトープを、デキストラマー上に提示することができる。言い換えると、単一のデキストラマーは、ｐＭＨＣを含むことができ、ｐＭＨＣのペプチドは、対象の一つまたは複数の抗原由来の単一のエピトープであり、一つまたは複数の抗原のすべてのエピトープが、デキストラマー上のｐＭＨＣに存在するように、十分なデキストラマーが使用される。Ｔ細胞は、対象の一つまたは複数の抗原由来の単一のエピトープを含むデキストラマーを有する開示された単一の細胞免疫プロファイリングプラットフォームにおいてデキストラマーに曝露することができ、対象の一つまたは複数の抗原の全てのエピトープが、デキストラマー上のｐＭＨＣに存在するように、十分なデキストラマーが使用される。単一細胞免疫プロファイリングから得られた、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞のＴＣＲ配列データは、異なるデキストラマー（例えば、エピトープ）に結合したＴ細胞についてのデータを提供することができる。次いで、単一細胞免疫プロファイリングデータは、本明細書に記載されるように、ＩＣＯＮを使用して処理され、ゆえに、対象の一つまたは複数の抗原の一つまたは複数のエピトープに最も信頼できる結合を有するそれらの細胞についての結合データをもたらす。一部の態様では、対象の一つまたは複数の抗原の一つまたは複数のエピトープに結合するＴＣＲの機械学習分類を使用して、対象由来のどのＴ細胞が、特定の抗原（例えば、腫瘍抗原）に対して反応性であるかを予測することができる。
Ｅ．キット

上記の材料ならびに他の材料は、開示される方法を実施する、または実施を助けるのに有用なキットとして、任意の適当な組み合わせで一緒にパッケージすることができる。所与のキットにおけるキット構成要素が、開示される方法において一緒に使用するために設計され、適合される場合、それは、有用である。例えば、単一の細胞配列決定データを生成するためのキットが開示され、キットは、単一の細胞免疫プロファイリングのための試薬を含む。一部の態様では、キットは、ｐＭＨＣを含む開示されたデキストラマーのうちの一つまたは複数を含むことができる。一部の態様では、キットは、ＮｅｘｔＧＥＭ配列決定材料を含むことができる。一部の態様では、キットは、単一の細胞の配列データ、デキストラマー配列データ、および／または単一の細胞の受容体配列データのうちの一つまたは複数を含むマルチオミクスハイスループット結合データを含むことができる。

実施例
以下の実施例は、本方法およびシステムが、結腸直腸癌の検出に関連する本方法およびシステムを例証する。以下の実施例は、その限定を意図するものではない。

Ａ．実施例１
１．結果
ｉ．マルチオミクスハイスループットＴＣＲ－ｐＭＨＣ結合データ。
１０×Ｇｅｎｏｍｉｃｓは、最近、拡張性の公開の利用可能なＴＣＲ－ｐＭＨＣ結合データセットを生成した。それらの初期の報告では、４人のＨＬＡハプロタイプ健康ドナー（図１９）由来の１５０，０００個を超えるＣＤ８＋Ｔ細胞の結合特性を、Ｔ細胞αβ鎖対およびトランスクリプトームを同時に配列決定しながら（図２）、Ｔ細胞への抗原結合を直接検出するための単一細胞ベースの免疫プロファイリングプラットフォームを使用した４４のｐＭＨＣデキストラマーにわたり評価した。デキストラマープールは、八つのＨＬＡ対立遺伝子にわたり、公知の共通のウイルスおよび癌反応生を有するエピトープからなる（図２０）。

単一の細胞レベルで生成した高度に多重化したデキストラマー結合データセットを本明細書において記載する。１０×Ｇｅｎｏｍｉｃｓは、バックグラウンドノイズおよび全てのドナーに対する非特異的デキストラマー結合についての網羅的カットオフを適用することによって、ｐＭＨＣ結合ＴＣＲを決定する単純なアプローチを使用した。しかしながら、予想外に多数の無差別な交差ＨＬＡおよび交差ペプチドの関連を、特に、ドナー３および４において、このアプローチによって識別されたＴＣＲ－ｐＭＨＣ結合現象から見出した（図１１Ａ）。さらなる検討の際、データ品質の問題のため、ドナー３由来のデータを本研究から除外した（図１１Ｂ）。

このようなハイスループットＴＣＲ－ｐＭＨＣ結合データから信頼できる結合現象を健全に識別するために、ＩＣＯＮ、統合ＣＯｎｔｅｘｔ特異的正規化方法を開発した（図６Ａ、図１２および方法）。それぞれのドナー由来のマルチオミクスハイスループット結合データを入力データとして別々に取得することによって、ドナー特異的な状況下で、ＩＣＯＮデータ正規化プロセスを行った。簡単に言うと、単一の細胞のトランスクリプトームデータを使用して、良好な品質の細胞（生およびシングルトン）を選択した。次いで、陰性対照デキストラマー（ｎ＝６）とデキストラマー－選別されていない資料の両方を、バックグラウンド対照としてそれぞれのドナーのため使用して、それぞれのドナーについてのバックグラウンド結合ノイズを経験的に推定した。続いて、未加工のデキストラマー結合シグナルを、それぞれのドナーについての推定されたバックグラウンドノイズを別々に減じることによって補正した。次に、補正したデキストラマーシグナルを、細胞およびｐＭＨＣにわたり正規化し、同等のデキストラマー結合シグナルを直接生成した。拡大したＴ細胞クローンのＩＣＯＮ－正規化したデキストラマー結合シグナルおよび結合特異性の分布は、ＩＣＯＮが、ハイスループットＴＣＲ－ｐＭＨＣ結合データの信号対雑音比を有意に増加させたことを示している（図６Ａおよび６Ｂならびに図１２Ｂならびに図１３）。

ｉｉ．１０×Ｇｅｎｏｍｉｃｓハイスループットデータから識別したＴＣＲ－ｐＭＨＣ結合現象。
ＩＣＯＮを適用して、合計２０，８４３個のＣＤ８＋Ｔ細胞を、３人のドナー由来の２９個のｐＭＨＣに結合する１，５１４個の固有のＴ細胞クローンから識別した（図７Ａ、図２１および方法）。このハイスループットデータセットから識別した固有のＴＣＲ－ｐＭＨＣ相互作用の数は、ＶＤＪｄｂにおける対のαβＴＣＲの全体と同等のサイズである。ｐＭＨＣ結合ＴＣＲのうち、総ＴＣＲの９８．９％（固有のＴＣＲの９４．７％）は、七つのｐＭＨＣ：Ｂ^＊０８：０１＿ＲＡＫＦＫＱＬＬ＿ＢＺＬＦ１＿ＥＢＶ、Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザ、Ａ^＊１１：０１＿ＩＶＴＤＦＳＶＩＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶ、Ａ^＊０３：０１＿ＫＬＧＧＡＬＱＡＫ＿ＩＥ－１＿ＣＭＶ、Ａ^＊１１：０１＿ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶ、Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶおよびＡ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌に結合する（図７Ｂおよび図１６および図１７）。

デキストラマープールにおける最も一般的なＨＬＡハプロタイプ（Ａ^＊０２：０１）を有する（図１４および図１５）、ドナー１および２は、固有のＴＣＲ－ｐＭＨＣ反応生の有意なフラクションを共有する（ｎ＝３８）（図７Ｃ）。ドナー４は、Ａ^＊０２：０１陰性であり、ドナー１および２とは異なるＨＬＡハプロタイプを有する（図１９）。ドナー４とドナー１およびドナー２の結合との間で観察した、共有されたｐＭＨＣ結合ＴＣＲ配列はなく（図７Ｃ）、これは、ＴＣＲ－ｐＭＨＣ結合パターンが、ＨＬＡ拘束性である可能性が最も高いことを示す。

興味深いことに、共有されたβ鎖を有するＴＣＲの３７％は、異なるα鎖と対形成する。この割合は、共有されたＴＣＲα鎖についてわずかに低い（３０．９％）。共有されたαまたはβ鎖を有するＴＣＲの大部分（約９２％）は、試料ｐＭＨＣに結合するが、それらの約８％は、異なるｐＭＨＣを認識し（図７Ｄ）、これは、αβ対形成情報が、ＴＣＲ機能性の正確な推定に必須であることを示している。

ＴＣＲの二重特異性（特異性対変性）を、広範囲の抗原適用範囲を維持しながら、自己免疫反応生を回避するために、外来ペプチドから自己を有意に区別する免疫応答機序の重要な特性と示唆している。実際、非常に特異的ではあるが無差別のＴＣＲ－ｐＭＨＣ相互作用を観察した。固有のＴＣＲの９８．７％が、一つの特定のｐＭＨＣに結合し、残りのＴＣＲは、２つまたは３つのｐＭＨＣと相互作用する（図７ＥおよびＡ）。複数のエピトープと相互作用することができるＴＣＲを観察したが、これらのＴＣＲ－ｐＭＨＣ相互作用は、概してＨＬＡ型特異的パターンに従う。結合現象の９９．３％超が、ＨＬＡ一致であり、その内１１．６％が、提示されたペプチドの類似の主要アンカー位置を共有するＨＬＡＡ^＊０３－スーパータイプファミリーメンバーＨＬＡＡ^＊０３：０１とＡ^＊１１：０１の間の交差認識を伴う。しかしながら、０．７％の結合現象は、交差ＨＬＡタイプ相互作用である。

ｉｉｉ．Ｔ細胞抗原特異性の畳み込みニューラルネットワーク（ＣＮＮ）ベースの分類。
この大きく多様なＴＣＲ－ｐＭＨＣ結合データセットでは、これらの結合現象を計算で検証または優先順位付けするためのより堅牢な機能的分類指標が望ましい。最近の研究により、畳み込みニューラルネットワーク（ＣＮＮ）は、ＴＣＲ配列から高次元の情報を学習することができ、したがって、ＴＣＲ－ｐＭＨＣ結合を健全に予測し得ることが示された。ＣＮＮベースのフレームワークを、ＴＣＲ－ｐＭＨＣ結合の検証および／または予測のため適合させた。簡単に言うと、対のαβ鎖ＣＤＲ３アミノ酸配列ならびにそれぞれのＴＣＲのＶおよびＪ遺伝子を一次元入力ベクターにコードした。具体的には、トレーニング可能な埋め込みを使用して、ＣＤＲ３アミノ酸配列をコードし、ＶおよびＪ遺伝子セグメントをベクターに形質転換した。ＣＮＮ構造は、一つの畳み込み特性層および最終の分類層につながる三つの完全に連結した層を含んでもよい（図８Ａおよび方法）。所与のｐＭＨＣについての結合および非結合ＴＣＲの不平衡な数を有することによって導入され得る潜在的なバイアスに対処するために、クラス加重費用関数をトレーニング（方法）に使用した。

このＣＮＮベースのモデルの性能を評価するために、１１のｐＭＨＣ特異的結合Ｔ細胞レパートリーを、従来の単一の多量体結合アッセイおよびゴールドスタンダードデータセットとして抗原再曝露アッセイによって生成した（図２３）。それぞれの精選したｐＭＨＣ結合レパートリーを、トレーニング、検証および試験セットに分けた。ＣＮＮベースのモデルは、平均曲線下面積（ＡＵＣ）０．９０（（ＡＵＣ）＝０．９０）を用いて精選したＴＣＲの抗原結合特異性を分類することができた（図８Ｂ）。ＣＮＮベースの分類指標を、距離ベースの分類指標であるＴＣＲ配列類似性と比較した。ＣＮＮベースの分類指標は、特に、高度に多様なｐＭＨＣレパートリー（図１４）についての距離ベースの予測モデルより優れている（図８Ｃ）。ＣＮＮベースと距離ベースの分類指標の間の分類性能相違（ΔＡＵＣ）は、シャノンエントロピーによって測定したｐＭＨＣ結合Ｔ細胞レパートリーの多様性と正に相関する（図８Ｄ）。

ｉｖ．１０×Ｇｅｎｏｍｉｃｓハイスループットデータから識別したｐＭＨＣ結合レパートリーの分類。
次に、ＣＮＮベースの分類指標を、１０×Ｇｅｎｏｍｉｃｓ結合データから識別した上位七つのｐＭＨＣ結合レパートリーに適用した（図７Ｂおよび図１５）。七つのｐＭＨＣレパートリーを、平均（ＡＵＣ）＝０．８９を用いて分類した（図９Ａ）。これらのデータにおいて、精選したデータセットと同様に、ＣＮＮベースの分類指標は、距離ベースのモデルよりも優れている（図１６）。これらの結合ＴＣＲをさらに計算で検証するために、精選したデータセットにおける結合ＴＣＲも有する、四つのｐＭＨＣレパートリー（Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１、Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ、Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶ、およびＡ^＊１１：０１＿ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶ）を使用した。ＣＮＮベースの分類指標を、四つの精選したレパートリーならびに院内の独立した抗原再曝露実験（方法）からさらなるＡ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１結合レパートリーを予測するための１０×Ｇｅｎｏｍｉｃｓデータセットから識別した四つのレパートリーを使用してトレーニングした。図９Ｂは、トレーニングセットにおける高性能と同等の予測結果を示す。

歴史的に、ＴＣＲβ鎖配列決定をしばしば使用して、α鎖と比較してより高い複合能に起因して、Ｔ細胞抗原結合特異性を推測する。ＴＣＲ－ｐＭＨＣ相互作用の予測におけるＴＣＲαおよびβ鎖の寄与を定量的に評価するために、α鎖またはβ鎖のいずれかを、対のαβ鎖の代わりに、ＣＮＮベースの分類指標への入力として使用した。対のαβ鎖を用いた性能は、αまたはβ鎖のみより良好であり、ＡＵＣの平均増加１６％を伴った（図９Ｃ）。ＴＣＲ－ｐＭＨＣ特異的認識の予測への不均衡なαおよびβ鎖の寄与を観察した。例えば、β鎖の寄与は、Ａ＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザレパートリーにおいて優生であり、一方、α鎖は、Ａ^＊１１：０１＿ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶおよびＡ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌特異的バインダーの予測により重要であった（図９Ｃ）。同様に、ＴＣＲＶＪ遺伝子使用の異なるレベルの保存を、これらの七つのｐＭＨＣレパートリーのαとβ鎖の間で観察した（図９Ｄ）。さらに、Ｖ遺伝子使用は、Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザレパートリーにおける優性ＴＲＢＶ１９使用を除き、β鎖においてよりα鎖において概してより保存され、これは、αとβ鎖の間の不均衡な分類性能を部分的に説明し得る。再度、これらの結果は、ＴＣＲ－ｐＭＨＣ相互作用の正確な推論のためのαβ対形成の重要性をまとめて示す。

分類の根底にある保存されたＴＣＲ配列特性をさらに理解するために、ＣＤＲ３アミノ酸配列のモチーフ保存を、これら七つのｐＭＨＣレパートリーのそれぞれについて、１０個の最も予測可能なＴＣＲ配列から探索した（図９Ｅ）。ＶＪ遺伝子使用と整合して、モチーフの保存は、β鎖ＣＤＲ３においてよりα鎖ＣＤＲ３において概してより明らかである（図９Ｅおよび９Ｄ）。ＶＤＪｄｂがＣＤＲ３アミノ酸モチーフも有する四つのｐＭＨＣレパートリーについて、１０×Ｇｅｎｏｍｉｃｓデータから識別したモチーフは、ＶＤＪｄｂ由来のものと類似する（図９Ｅおよび図１７Ａ）。まとめると、結果は、ハイスループットデータセットから識別したｐＭＨＣ特異的ＴＣＲが、信頼性のある結合パートナーであり、ＣＮＮベースのモデルが、重要な保存されたＴＣＲ配列の特性を捕捉することができることを示す。

ｖ．ｐＭＨＣ結合ＣＤ８＋Ｔ細胞の免疫表現型。
抗原特異性とＴ細胞表現型の合わせた情報は、ワクチン接種などの免疫療法の臨床的成功に重要であると報告されている。１０×Ｇｅｎｏｍｉｃｓ免疫プロファイリングプラットフォームによって生成したマルチオミクスデータは、Ｔ細胞抗原特異性を様々なＴ細胞表現型と結び付けることを可能にする。このマルチオミクスデータセットからの遺伝子（単一の細胞ＲＮＡ－ｓｅｑ）および表面タンパク質（ＣＩＴＥ－ｓｅｑ）発現レベルを使用して、ｐＭＨＣ結合ＣＤ８＋Ｔ細胞を亜集団に分けた（方法および図１８）。次いで、識別した亜集団を、既に記載された３２、ＣＤ８＋Ｔ細胞サブタイプマーカー遺伝子：ナイーブ細胞（ＣＤ４５ＲＡ＋ＣＤ４５ＲＯ－ＣＤ６２ＬｈｉＣＤ１２７ｈｉ）、中心メモリー細胞（Ｔｃｍ、ＣＤ４５ＲＡ－ＣＤ４５ＲＯ＋ＣＤ６２Ｌ＋）、Ｔエフェクターメモリー細胞（Ｔｅｍ、ＣＤ４５ＲＡ－ＣＤ４５ＲＯ＋ＣＤ６２Ｌ－）、末梢メモリー細胞（Ｔｐｍ、ＣＤ６２Ｌ＋ＣＤ１２７ｈｉ）、高分化したエフェクター細胞（Ｔｅｍｒａ、ＣＤ４５ＲＡ＋ＣＤ４５ＲＯ－ＣＤ１２７ｌｏＧＺＭＢｈｉ）および他のメモリー細胞（ＣＤ４３ｌｏＫＬＲＧ１ｈｉＣＤ１２７－）に従い注釈を付けた（図１０Ａおよび１０Ｂ）。

ｐＭＨＣ結合Ｔ細胞の９８．６％は、拡大したＴ細胞クローンに富化されたメモリー細胞であり（図１０Ｄ）、これは、これらのＴ細胞が、特定の免疫応答によって選択され、したがって、応答性および信頼性のあるバインダーである可能性が高いことを示している。これらのメモリーＴ細胞の大部分は、共通のウイルスエピトープ（例えば、インフルエンザ、ＥＢＶ、ＣＭＶ）に結合し、それぞれのドナー由来のＣＤ８＋ｐＭＨＣ結合Ｔ細胞は、メモリー細胞サブセットの異なる分布を示した。例えば、ドナー１は、主にＴｐｍ細胞およびＴｃｍ細胞を有し、一方、ドナー２は、Ｔｅｍ細胞およびＴｐｍ細胞を有し、ドナー４は、主にＴｅｍｒａ細胞を有していた（図１０Ｃおよび１０Ｄ）。

ｐＭＨＣ結合Ｔ細胞の大部分は、メモリー表現型を発現したが、それらの１．３％、ナイーブ細胞であった。これらのナイーブ細胞は、非ナイーブ細胞よりも多様なｐＭＨＣ相互作用を有し、内因性抗原、腫瘍関連抗原（例えば、ＭＡＲＴ－１）、またはドナーが血清陰性出会ったウイルス（例えば、ＨＩＶ）に由来する抗原にしばしば結合した（図１０Ｃおよび図２０）。興味深いことに、交差ＨＬＡ型結合を有するナイーブＴ細胞の割合は、非ナイーブ細胞の割合よりも有意に高かった（図１０Ｅ）。これらの結果は、健康なドナーＴ細胞レパートリー、特に、ナイーブ細胞が、まだ遭遇していない抗原または希少な抗原に応答し、交差反応を保持する可能性を示している。これらの細胞が、機能的Ｔ細胞応答を担持することができるかどうかを評価するために、さらなるアッセイが必要である。

２．論考
信頼できるＴＣＲ－ｐＭＨＣ相互作用を識別できる方法（Ｉｃｏｎ）を、高度に多重化した１０×ＧｅｎｏｍｉｃｓＴＣＲ－ｐＭＨＣ結合データにおいてシグナル対バックグラウンド比を著しく増加させることによって開発した。適切な対照（陰性対照デキストラマーおよびデキストラマー選別していないＴ細胞試料）を有することは、ＴＣＲ－ｐＭＨＣ結合現象を確実に識別するために不可欠であることが判明した要因であるバックグラウンドノイズを正確に推定するのに不可欠である。ＩＣＯＮを、多重化デキストラマーの単一プールからなる一つのデータセット上で開発したが、この方法を、より多くの多重化データセットが生成されるにつれて、より広範なｐＭＨＣデキストラマープールからｐＭＨＣ－ＴＣＲ結合データをクエリーするように一般化することができる。

この研究では、ＴＣＲ－ｐＭＨＣ特異的結合の予測におけるこのＣＮＮベースの分類指標の頑健性を示し、この計算予測を、Ｔ細胞抗原特異的認識を実質的に（実験的に対して）研究するために使用することができる可能性があることを示している。Ｔ細胞抗原特異的認識の免疫モニタリングを、特定の抗原（例えば、腫瘍特異的抗原およびペプチドワクチン）に対する免疫応答、ならびに免疫療法を受けている患者における臨床結果とのそれらの可能性のある相関を決定するために適用した。しかしながら、ＴＣＲ配列を抗原特異性に実験でマッピングすることは、費用が高く、かつ労働集約的である。特定のｐＭＨＣについての適切なトレーニングデータを用いて、本明細書に提示した分類指標は、結合アッセイを行うことなく、対象のそれぞれのＴＣＲ配列にｐＭＨＣ結合の確率を割り当てることができる。この研究では、この分類指標の多項予測モード（図１７Ｂ）を検証し、これにより、安全なＴ細胞関連療法のため高度に特異的なＴＣＲを選択するために使用する可能性がある。

結果は、特定のｐＭＨＣに結合するＴＣＲの大部分（＞３０％）が、一本鎖を共有し、第二の鎖で異なることを示し、Ｔ細胞クローン性は、対のαβ鎖を用いたデータによって決定されなければならないことを示す。さらに、単一鎖を共有するこれらのＴＣＲの８％は、異なるｐＭＨＣに結合することができる。これは、対のＴＣＲ鎖を使用したＴＣＲ抗原特異性の予測能力と一致しており、いずれかの鎖のみを使用した場合よりも１６％高い。したがって、単一の細胞の対のαβ鎖配列決定は、Ｔ細胞レパートリークローン性およびＴＣＲ－ｐＭＨＣ結合特異性を正確に調べるために、より強力である可能性が高い。

生物学的に関連するＴ細胞反応性を評価する能力は、病原体に対する免疫応答およびその他の疾患状態を調査およびモニターするのに重要である。回復されたＴ細胞反応性の大部分（９８．６％）が、適切なＨＬＡ型／スーパータイプと一致していること、さらに、多量体陽性細胞の表現型が、メモリーＴ細胞区画に大部分が限定されていることを観察し、これは、以前の機能的Ｔ細胞応答からの関連するメモリー反応性が、この技術で解決可能であることを示している。対のαβＴＣＲ配列決定により、個々の多量体に特異的である複数のＴＣＲ配列が明らかになり、これは、一般的なウイルス負荷に対する広範な抗原免疫応答を強化している。

低い程度のＨＬＡミスマッチ反応性を回復したが、これらは、メモリーサブセットと比較して拡大していないナイーブＴ細胞において著しく濃縮され、これは、以前に曝露していない標的または機能的Ｔ細胞応答で頂点に達しなかったものに対する抗原特異的相互作用を明らかにする可能性がある。さらに、ＴＣＲ結合活性の範囲をこれらの実験において回復し、これは、予想外の結合パターンの検出に寄与し得ることを予測する。デキストラマーは、高度に多量体化し、従来の四量体試薬よりも広範なＴＣＲ結合の結合活性を検出する可能性が高い。さらに、広範な蛍光デキストラマー強度を、多量体陽性のゲーティングにおいて選別し、低い頻度、より低い結合活性のＴＣＲ相互作用でさえ、この高感度の単一細胞アッセイにおいて捕捉した。

３．方法
ｉ．１０×Ｇｅｎｏｍｉｃｓ単一の細胞免疫プロファイリングデータセット
本研究のため使用した１０×Ｇｅｎｏｍｉｃｓデータを、ｓｕｐｐｏｒｔ．１０ｘｇｅｎｏｍｉｃｓ．ｃｏｍ／ｓｉｎｇｌｅ－ｃｅｌｌ－ｖｄｊ／ｄａｔａｓｅｔｓからダウンロードした。

ｉｉ．単一の細胞のＲＮＡ－ｓｅｑデータＱＣ
それぞれのドナー由来のＣＤ８＋細胞を、以下の基準：細胞当たり検出したＲＮＡ特性数＜＝２５００および＞２００遺伝子、ならびに総ＵＭＩ（固有の分子識別子）カウントの４０パーセント未満であるミトコンドリアパーセンテージにより下流分析のために選択した。

ｉｉｉ．ｐＭＨＣ結合Ｔ細胞の分類
ＳｅｕａｒｔＶ３単一の細胞配列決定分析Ｒパッケージ３３、３４を、単一の細胞ＲのＮＡ－ｓｅｑデータに基づく分類分析のため使用した。ＴＣＲＶＪ遺伝子使用の有意な濃縮を、識別したｐＭＨＣ結合Ｔ細胞において観察したため、ＴＣＲ遺伝子を分類から取り除いた。そのため、細胞クラスターは、それらの共有したＶＪ遺伝子の使用によって支配されない。次いで、識別した結合Ｔ細胞のその他すべての遺伝子発現を、ＳｅｕｒａｔＶ３デフォルトパラメータを使用して正規化し、計量した。ＰＣＡを正規化し、形質転換しＵＭＩカウントを、可変的に発現した遺伝子上で行った。上位１０のＰＣを、細胞分類に使用した。分類可視化のため、ＵＭＡＰを使用した（図１７）。

ｉｖ．最も予測可能なｐＭＨＣ結合ＴＣＲ対からのＣＤＲ３モチーフの生成
１０個の最も予測可能なＴＣＲ由来のαおよびβ鎖のＣＤＲ３アミノ酸配列を、ＣＯＢＡＬＴ（ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｔｏｏｌｓ／ｃｏｂａｌｔ／ｃｏｂａｌｔ．ｃｇｉ）を使用して整列させた。整列させたＣＤＲ３アミノ酸配列を、デフォルトのパラメータを用いてＷｅｂＬｏｇｏ３５に入力し、モチーフを生成した。

ｖ．報告したｐＭＨＣ特異的結合対ＴＣＲの精選
未加工ファイルを、ＶＤＪｄｂ２８（ｖｄｊｄｂ．ｃｄｒ３．ｎｅｔ／）およびＴｈｅＰａｔｈｏｌｏｇｙ－ａｓｓｏｃｉａｔｅｄＴＣＲｄａｔａｂａｓｅ３６（ｆｒｉｅｄｍａｎｌａｂ．ｗｅｉｚｍａｎｎ．ａｃ．ｉｌ／ＭｃＰＡＳ－ＴＣＲ／）からダウンロードした。データは、以下の基準：ＶＤＪｄｂについて、対のαまたはβ鎖ＣＤＲ３アミノ酸配列を、それぞれの「ｃｏｍｐｌｅｘ．ｉｄ」について必要であり、「供給源」と注釈を付けたＴＣＲを、１０ｘｇｅｎｏｍｉｃｓから除去し、データを「種」＝「ヒト」についてフィルタリングした、に従って処理して、ｐＭＨＣＴＣＲ結合を得た。ＭｃＰＡＳ－ＴＣＲについて、既知の「エピトープ．ＩＤ」を、完全なデータにおいて必要とし、「ＣＤＲ３．アルファ．ａａ」および「ＣＤＲ３．ベータ．ａａ」を有し、同様に、ＶＤＪｄｂについて、ヒトＴＣＲをフィルタリングした。

ｖｉ．ＴＣＲ－ｐＭＨＣ結合データの正規化
統合ＣＯｎｔｅｘｔ特異的正規化（ＩＣＯＮ）方法を開発した。それは、１０×Ｇｅｎｏｍｉｃｓ免疫マッププラットフォームから生成したマルチオミクス単一の細胞の配列決定データを入力データとして取得し、信頼できる結合現象を識別するためにＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行う。マルチオミクスデータセットは、単一の細胞のＲＮＡ－ｓｅｑ、対のαβ鎖単一の細胞ＴＣＲ－ｓｅｑ、ｄＣＯＤＥ－デキストラマー－ｓｅｑならびにＣＩＴＥ－ｓｅｑ（配列決定によるトランスクリプトームおよびエピトープの細胞指数）とも称される、細胞表面タンパク質発現配列決定を含む。ＩＣＯＮは、以下の主要なステップを含む（図６Ａおよび図１２）。

低品質の細胞の単一の細胞のＲＮＡ－ｓｅｑベースのフィルタリング。それは、二重項および死細胞などの低品質の細胞をフィルタリングする。検出したＴ細胞について予想外に多い数の遺伝子を有する細胞（例えば、細胞当たり＞２５００個の遺伝子）を、二重項として分類し、ミトコンドリア遺伝子発現の高いフラクション（例えば、総遺伝子発現ＵＭＩに対するミトコンドリア遺伝子発現ＵＭＩの比＞０．４）または検出した遺伝子の数があまりに少ない（細胞当たり＜２００個の遺伝子）は、死細胞と分類した。（図１２Ａ）。

単一の細胞のｄＣＯＤＥ－デキストラマー－ｓｅｑベースのバックグラウンド調節。デキストラマー結合アッセイのため設計した二つのタイプのバックグラウンドノイズ対照が存在し、分析において使用し、一方は、デキストラマー染色および選別したＣＤ８＋Ｔ細胞（ｎｃと示す、ＮＣ＿ｄｅｘ）由来の陰性対照デキストラマー（ｎ＝６）であり、ならびに他のものは、デキストラマーにおけるソーティングなしで、デキストラマー染色したＣＤ８＋Ｔ細胞である。シグナルおよびノイズ分布を検査するために、それぞれの細胞の最善の結合を表す、それぞれの細胞のＵＭＩ（固有分子識別子）における最大のデキストラマーシグナルを選択した。具体的には、細胞の非特異的デキストラマー結合シグナルを、Ｍａｘ（ｎｃ_１，…，ｎｃ_６）として表し、６個の陰性対照デキストラマーの最大のデキストラマーシグナルは、デキストラマープールを含んでいた。デキストラマー染色し、選別した試料（ｄｓとして示す、Ｄｅｘ＿選別した）からの細胞のデキストラマー結合シグナルを、４４の試験デキストラマーのＵＭＩにおける最大のデキストラマーシグナルである、Ｍａｘ（ｄｓ_１，…，ｄｓ_４４）として表す。同様に、Ｄｅｘ＿選別していない試料由来の細胞のデキストラマー結合シグナルを、Ｍａｘ（ｄｕ，…，ｄｕ_４４）として表す。ＩＣＯＮプロセス前のこれら三種類のデキストラマーシグナルの分布を、図１２Ｂ上部パネルに示す。ＵＭＩにおける非特異的デキストラマー結合シグナルのＰ_９９．９（陰性デキストラマー対照の絶対外れ値を除外した）を、それぞれのドナーについて、非特異的デキストラマー結合カットオフとして選択した。

細胞ソーティングプロセスによって導入される可能性のあるノイズを推定するために、Ｄｅｘ＿選別した試料とＤｅｘ＿選別していない試料の間のデキストラマー結合シグナルの累積分析を比較して、デキストラマーソーティング効率のためのカットオフを決定した（図１２Ｃ）。それぞれのドナーについて、コルモゴロフ－スミルノフ検定（ＫＳ検定）ｐ値は、それぞれのデータ点（デキストラマーＵＭＩ）をスライディングウィンドウとして使用した、デキストラマー選別した試料およびデキストラマー選別していない試料の累積曲線を比較することによって計算した。Ｓ字型減少ｐ値曲線は、デキストラマー選別した試料におけるデキストラマー結合シグナルの濃縮をデキストラマー選別していない試料と比較して示し、一方、Ｖ字型曲線は、緩い細胞ソートゲートを示唆する（図１２Ｄ）。Ｄｅｘ＿選別したとＤｅｘ＿選別していない（ａｒｇｍａｘＤ＿（ｓ，ｕ））の間のデキストラマー結合シグナルの最大の相違を定義するデキストラマーＵＭＩは、Ｖ字型試料についてのデキストラマーソーティング効率を推定するための閾値として使用した。最後に、デキストラマー選別した試料のバックグラウンドノイズを以下のように定義した：
ｄ＝最大（Ｐ_９９．９、ａｒｇｍａｘＤｓ，ｕ）

選別した細胞のそれぞれの４４の試験デキストラマーについてのデキストラマーシグナル（ＵＭＩ）を、推定したバックグラウンドを減じることによって補正した（図１２Ｅ）：
Ｅ_ｃ＝Ｅ_ｓ－ｄ

次いで、それぞれの細胞についてのログランク分布に基づき、セルワイズ正規化を行った。ｐＭＨＣワイズ正規化を行い、デキストラマー結合シグナルを互いに同等にした。選別した細胞Ｅｃの調節したデキストラマー結合シグナルを、４４の試験デキストラマーにわたり正規化し、次いで、以下の方程式の通り、全ての細胞にわたり正規化した。Ｅ＿ｃ＾’＞＝０．９を、ｐＭＨＣ特異的バインダーについてのカットオフとして経験的に選択した（図１２Ｆ）。

単一の細胞のＴＣＲ－ｓｅｑに基づく単一の対のαβ鎖を有するＴ細胞の選択。α鎖のみ、β鎖のみ、および複数のαまたはβ鎖を有するＴ細胞を除去した。単一の対のαβ鎖を有するＴ細胞のみを、この研究において使用した。

ＩＣＯＮ正規化プロセスを、それぞれのドナーについて別々に行った。

ｖｉｉ．ＭＡＲＴ－１結合Ｔ細胞を識別するための抗原特異的Ｔ細胞拡大および抗原再曝露
ＨＬＡＡ^＊０２：０１個体由来の末梢血単核細胞（ＰＢＭＣ）を、Ｆｉｃｏｌｌ－ＰａｑｕｅＰｌｕｓ勾配単離により単離した。ＰＢＭＣを、Ｔ細胞培地（ＣｅｌｌＧｅｎｉｘ樹状細胞培地、カタログ番号２０８０１－０５００＋５％ヒト血清ＡＢ（Ｓｉｇｍａ、カタログ番号Ｈ３６６７））＋１％ペニシリン／ストレプトマイシン／Ｌ－グルタミン（ＴｈｅｒｍｏＦｉｓｈｅｒ、カタログ番号１０３７８－０１６）、５ｎｇ／ｍｌのＴ細胞補助サイトカインＩＬ－７およびＩＬ－１５（ＣｅｌｌＧｅｎｉｘ、それぞれ、カタログ番号１４１０－０５０および１４１３－０５０）、ならびに１０Ｕ／ｍｌのＩＬ－２（Ｐｅｐｒｏｔｅｃｈ、カタログ番号２００－０）、ならびに１０ｕｇ／ｍｌのＡ＊０２：０１拘束性ＭＡＲＴ－１エピトープＥＬＡＧＩＧＩＬＴＶ（Ｇｅｎｓｃｒｉｐｔ）中、培養プレートに播種した。培養物に、１週間、２日毎に新鮮な培地およびサイトカインを与えた。培養の７日目に、細胞を蛍光標識したデキストラマーＨＬＡ－Ａ^＊０２：０１ＭＡＲＴ－１ＥＬＡＧＩＧＩＬＴ（Ｉｍｍｕｄｅｘ、カタログ番号ＷＢ２１６２－ＰＥ）で染色して、フローサイトメトリーにより抗原特異的ＣＤ８＋Ｔ細胞拡大を評価した。抗原再曝露アッセイについては、７日間の拡大後、ペプチドをＴ細胞拡大培養物に加えた。再刺激の２４時間後、細胞を集め、ＣＤ３（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２７５０）、ＣＤ８（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２８８９）、ＣＤ６９（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号５６４３６４）、ＣＣＲ７（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３５３２１８）、ＣＤ４５ＲＯ（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３０４２３８）、ＣＤ１３７（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３０９８２８）、およびＣＤ２５（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３５６１０４）についての蛍光標識抗体を用いて染色した。Ａｓｔｒｉｏｓ細胞ソーター（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）を利用して、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでゲーティングする蛍光活性化細胞ソーティング（ＦＡＣＳ）を設定し、破片および二重項を排除しながら、生細胞を選択した。さらに処理のため、１００μｍのノズルを使用して、単一のＣＤ３＋ＣＤ８＋ＣＤ４５ＲＯ＋ＣＤ１３７＋細胞を選別した。

次いで、選別した細胞を、ＣｈｒｏｍｉｕｍＳｉｎｇｌｅＣｅｌｌ５’ チップ（１０×Ｇｅｎｏｍｉｃｓ、カタログ番号）に充填し、それらをＣｈｒｏｍｉｕｍＣｏｎｔｒｏｌｌｅｒを通して処理して、ＧＥＭ（エマルション中のＧｅｌビーズ）を生成した。ＲＮＡ－Ｓｅｑライブラリーを、製造元のプロトコルに従って、ＣｈｒｏｍｉｕｍＳｉｎｇｌｅＣｅｌｌ５’Ｌｉｂｒａｒｙ＆ＧｅｌＢｅａｄＫｉｔ（１０×Ｇｅｎｏｍｉｃｓ、カタログ番号）を用いて調製した。

ｖｉｉｉ．１０×Ｇｅｎｏｍｉｃｓドナー３およびドナー４についてのＲｅｇｅｎｅｒｏｎオリゴタグ付けデキストラマー染色およびソーティング
１０×Ｇｅｎｏｍｉｃｓが、ＣＤ８＋Ｔ細胞デキストラマー結合能の再評価に使用するため、凍結保存したドナー３およびドナー４のＰＢＭＣを親切に提供した。ＣＤ８＋Ｔ細胞を、ＭｉｌｔｅｎｙｉＣＤ８＋Ｔ細胞陰性濃縮（Ｍｉｔｅｎｙｉ）を使用して濃縮した。次いで、細胞を、ベンゾナーゼ（Ｍｉｌｌｉｐｏｒｅ）およびダサチニブ（Ａｘｏｎ）と４５分間インキュベートし、その後、オリゴタグ付きデキストラマープール（Ｉｍｍｕｄｅｘ、図２１）を用いて室温で３０分間染色した。次いで、細胞を、ＣＤ３（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２７５０）、ＣＤ４（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号５６３９１９、ＣＤ８（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２８８９）、ＣＣＲ７（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３５３２１８）、およびＣＤ４５ＲＯ（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３０４２３８）についての蛍光標識ならびにＣＩＴＥ－ｓｅｑ抗体を用いて、３０分間、氷上で染色した。Ａｓｔｒｉｏｓセルソーター（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）を利用し、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでの蛍光活性化細胞ソーティング（ＦＡＣＳ）ゲーティングを設定し、破片および二重項を除外しながら、生細胞を選択した。１００μｍのノズルを使用して、さらなる処理のため、単一のＣＤ３＋ＣＤ８＋デキストラマー＋細胞を選別した（図１１）。

ＴＣＲ配列の類似性の距離ベースの分類は、最近、ｐＭＨＣ結合についての構造情報によって誘導したＴＣＲＣＤＲ領域の配列空間に基づき、ＴＣＲ－ｐＭＨＣ結合特異性を予測するための、過重の害となる距離ベースの方法であるＴＣＲｄｉｓｔを報告した。最も近い隣人（ＮＮ）距離（レパートリー内の受容体とその最も近い隣人の間の平均ＴＣＲｄｉｓｔ）をさらに計算して、レパートリー内の受容体密度を測定した。それぞれのｐＭＨＣレパートリーについて、バインダーを、所与のｐＭＨＣに結合するＴＣＲであると定義した。それぞれの結合ＴＣＲと、所与のＴＣＲを除去したｐＭＨＣバインダーのそれぞれのセットとの間のＮＮ距離を計算した。ＮＮ距離を、それぞれのＴＣＲの既知の特異性に基づき分離した。それぞれのｐＭＨＣの二進法分類指標について、受信者動作特性（ＲＯＣ）曲線およびＲＯＣ曲線下面積（ＡＵＣ）を、ｐｌｏｔＲＯＣＲパッケージを使用して計算した３８。簡単に言うと、それらのＮＮ距離が、所与の閾値以下になる場合、所与のｐＭＨＣに結合するとＴＣＲを分類する、それぞれの分類指標についてのいくつかのＮＮ距離閾値において感度および特異性を計算することによって、ＲＯＣ曲線を生成した。

ｉｘ．ＣＮＮベースの分類
重み付け二値分類指標を、ディープラーニングフレームワークに基づき適合し、それは、特定のニーズを満たすための調節を伴い、三つの主要なステップを含む。

ｘ．入力データフォーマット化
ＴＣＲ配列決定ファイルを、１０×Ｇｅｎｏｍｉｃｓの未加工のフォーマット化したファイルとして収集した。配列決定ファイルを、非生産性配列を除去した後にＣＤＲ３のアミノ酸配列を取るように解析した。異なるヌクレオチド配列を有するが、ＣＤＲ３由来の同じ一致したアミノ酸配列、およびＶ、Ｄ、Ｊ遺伝子を有するクローンは、一つのＴＣＲ下で一緒に凝集させた。したがって、ここで使用したそれぞれのＴＣＲ記録は、ＣＤＲ３、Ｖ、およびＪ遺伝子の単一の対のαおよびβＴＣＲアミノ酸配列を含む。α鎖のみのＴＣＲＢ－ＣＤＲ３アミノ酸配列を用いたモデル実行のため、β鎖遺伝子を入力から除去した。同様の除去を、β鎖のみのモデルについて行った。

ｘｉ．データ変換
それぞれのＴＣＲ－ＣＤＲ３アミノ酸配列を、２０個の可能性のあるアミノ酸を表す数字でコードした。ＩＵＰＡＣ（国際純正および応用化学連合）アミノ酸に適合する配列のみを保持した。異なる長さのＴＣＲについて、最大長４０に０パディングを適用した。トレーニング可能な埋め込み層を使用して、アミノ酸配列から特性をさらに抽出した。ＶおよびＪ遺伝子を、計算空間における遺伝子名の分類上および別々の表示を提供するよう、ワンホットコードした。コードされた配列および遺伝子名を、一つのＴＣＲ記録を表すよう一緒に結び付けた。このデータ変換プロセスを、すべてのネットワークのトレーニング前に適用した。

ｘｉｉ．単一のＴＣＲ配列分類指標
この方法を適合し、ＴＣＲをトレーニングするための一般的な従来のニューラルネットワーク構築を提供し、試料またはレパートリーレベルの予測に焦点を当てた。単一のＴＣＲ配列予測の最適化に焦点を当てた。これを達成するために、Ｔ細胞クローンサイズを入力データから除去した。さらに、単一の翻訳インバリアント層を配列に適用し、続いて、三つの完全に結び付けた畳み込み層を最終出力層に適用した。ネットワークを、ＡｄａｍＯｐｔｉｍｉｚｅｒ（学習速度＝０．００１）を使用してトレーニングし、ソフト最大値対数と、ネットワークの別々の分類上の出力のワンホットコード化表示の間の交差エントロピー損失を最小にした。このアプローチを、生物学的に意義のある核心サイズ４３９を使用して、可能性のあるモチーフを捕捉することによって改変した。トレーニングデータにおける不均衡なクラス表現を考慮するために、以下の式を使用して、加重交差エントロピー損失関数を適用した。

ｗ_ｃは、それぞれのクラスについてのＴＣＲ配列の反転頻度を使用して計算した重みである。Ｃは、一つのクラスを表し、ｎ_ｃは、一つのクラスにおける総ＴＣＲであり、ｎは、ＴＣＲの総数であり、

は、それぞれのＴＣＲ配列についての予測クラスおよび実際のクラスを表す。

それぞれ、検証および試験のため一定数のＴＣＲを保持することによって、モンテカルロ交差検証（ＭＣＣＶ）トレーニングを行った。配列の検証群を使用して、早期停止アルゴリズムを実装した。ここで、２０回の反復でモンテカルロ試料採取した。配列分類指標についての受信者動作特徴（ＲＯＣ）曲線を、すべてのＭＣＣＶ予測の平均化後、試験セットに基づき計算した。

Ｂ．実施例２
１．結果
ｉ．ハイスループット結合データ由来のｐＭＨＣ特異的結合ＴＣＲの識別
１０×Ｇｅｎｏｍｉｃｓは、最近、拡張性の公開の利用可能なＴＣＲ－ｐＭＨＣ結合データセットを生成した。それらの初期の報告では、４人のＨＬＡハプロタイプ健康ドナー（表１、ドナー１～４）由来の１５０，０００個を超えるＣＤ８＋Ｔ細胞の結合特性を、Ｔ細胞αβ鎖対およびトランスクリプトームを同時に配列決定しながら（図２）、Ｔ細胞への抗原結合を直接検出するための単一細胞ベースの免疫プロファイリングプラットフォーム免疫マップを使用した４４のｐＭＨＣデキストラマーにわたり評価した。デキストラマープールは、八つのＨＬＡ対立遺伝子にわたり、公知の共通のウイルスおよび癌反応生を有するエピトープからなる（表２）。

対のＴ細胞αおよびβ鎖配列を用いて単一の細胞レベルで生成した高度に多重化したデキストラマー結合データセットを本明細書において記載する。１０×Ｇｅｎｏｍｉｃｓは、バックグラウンドノイズおよび全てのドナーおよびデキストラマーへの非特異的デキストラマー結合についての網羅的カットオフを適用し、ｐＭＨＣ結合ＴＣＲ（１８）を識別した。当然のことながら、１０×Ｇｅｎｏｍｉｃｓが提供した、予想外に多数の無差別ＴＣＲ－ｐＭＨＣ結合現象を見出した（図２４）。このようなハイスループットＴＣＲ－ｐＭＨＣ結合データから信頼できる結合現象を健全に識別するために、ＩＣＯＮを開発した（図２５Ａ、図２６Ａ～Ｄならびに材料および方法）。ＩＣＯＮデータプロセスを、ドナー、細胞、およびデキストラマーに特異的な状況で行う。簡単に言うと、単一の細胞のトランスクリプトームデータを使用して、良好な品質の細胞（生およびシングルトン）を選択した。次いで、陰性対照デキストラマー（ｎ＝６）を使用して、それぞれのドナーについてのバックグラウンド結合ノイズを経験的に推定した。続いて、未加工のデキストラマー結合シグナルを、それぞれのドナーについての推定されたバックグラウンドノイズを別々に減じることによって補正した。従前の研究が、対形成しているαβが、ＴＣＲ－ｐＭＨＣ認識を相乗的にもたらすことを示したように、対のαβ鎖を有するＴ細胞を、ｐＭＨＣ結合Ｔ細胞の候補として選択した。Ｔ細胞デキストラマー結合シグナルを、同じＴ細胞／クローンに同時に結合するデキストラマーをペナルティ化することによってさらに補正した。最後に、デキストラマー結合シグナルを、細胞およびＭＨＣにわたり正規化し、それらを直接同等にした（図２５Ａ、図２６Ａ～Ｄおよび方法）。ＩＣＯＮの性能を評価するために、ＣＤ８＋Ｔ細胞のｐＭＨＣ結合特異性を、同じデキストラマーパネルを使用して別の健康なドナー（ドナーＶ）から評価した（図２７ならびに材料および方法）。ＩＣＯＮは、対のｂ αβ鎖を有する配列決定したＴ細胞の９１％を、それらの抗原標的と連結することができた。ＩＣＯＮの特異性を推定するために、同じドナーであるドナーＶ（ｅｅならびに材料および方法）由来のＴ細胞を使用して、２１個の個々のデキストラマー結合エッセイを行った。フローサイトメトリーの結果は、ＩＣＯＮから識別したこれら２１個のデキストラマーに結合するＴ細胞の相対的存在量を示す（図２５Ｃ）。

ＩＣＯＮを適用して、５人のドナー由来の３７個のｐＭＨＣに結合する５，７２１個の固有のＴ細胞クローンに属する合計５３，０６２個のＣＤ８＋Ｔ細胞を識別した（図２５Ｂ、図２９）。ＴＣＲの二重特異性（特異性対変性）を、広範囲の抗原適用範囲を維持しながら、自己免疫反応生を回避するために、外来ペプチドから自己を有意に区別する免疫応答機序の重要な特性と示唆している。実際、固有のＴＣＲの９９．６％が、一つの特定のｐＭＨＣに結合し、残りのＴＣＲは、２つのｐＭＨＣと相互作用する（図２５Ｂ）。さらに、これらのＴＣＲ－ｐＭＨＣ相互作用は、概して、ＨＬＡ型特異的パターンに従う。結合現象の９４％が、ＨＬＡ一致であり、その内６％が、提示されたペプチドの類似の主要アンカー位置を共有するＨＬＡＡ^＊０３－スーパータイプファミリーメンバーＨＬＡＡ^＊０３：０１とＡ^＊１１：０１の間の交差認識を伴う。デキストラマープール（表１および２）における最も一般的なＨＬＡハプロタイプ（Ａ^＊０２：０１）を有する、ドナー１および２は、固有のＴＣＲ－ｐＭＨＣ相互作用の有意なフラクション（ｎ＝４４）を共有し（図２５Ｄ、図２５Ｇ）、これは、ＴＣＲ－ｐＭＨＣ結合パターンが、ＨＬＡ拘束性が最も高いという定説を支持している。しかしながら、６％の結合現象は、交差ＨＬＡタイプ相互作用である。ＨＬＡ型ミスマッチ結合Ｔ細胞は、より小さなクローンを有するか、またはシングルトンである傾向がある（抗原未感作）。

全てのｐＭＨＣ結合ＴＣＲのうち、総ＴＣＲの９９％（固有のＴＣＲの９６％）は、九つのｐＭＨＣ：Ｂ^＊０８：０１＿ＲＡＫＦＫＱＬＬ＿ＢＺＬＦ１＿ＥＢＶ（Ｔ細胞数：１８，４６８／固有のＴＣＲ数：４７９）、Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザ（Ｔ細胞数：８，３６５／固有のＴＣＲ数：１，０９５）、Ａ^＊１１：０１＿ＩＶＴＤＦＳＶＩＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶ（Ｔ細胞数：５，４３８／固有のＴＣＲ数：１４９）、Ａ^＊０３：０１＿ＫＬＧＧＡＬＱＡＫ＿ＩＥ－１＿ＣＭＶ（Ｔ細胞数：３，８９９／固有のＴＣＲ数：２，８６５）、Ａ^＊１１：０１＿ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶ（Ｔ細胞数：１，５７９／固有のＴＣＲ数：９５）、Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶ（Ｔ細胞数：１，８８６／固有のＴＣＲ数：１１７）、Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌（Ｔ細胞数：２９７／固有のＴＣＲ数：２９３）、Ｂ^＊３５：０１＿ＩＰＳＩＮＶＨＨＹ＿ｐｐ６５＿ＣＭＶ（Ｔ細胞数：６，９８６／固有のＴＣＲ数：２８０）およびＡ^＊０２：０１＿ＮＬＶＰＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶ（Ｔ細胞数：５，６１２／固有のＴＣＲ数：１６４）に結合する（図２５Ｅ）。分類の根底にある保存されたＴＣＲ配列の特性をさらに理解するために、これらの九つのｐＭＨＣレパートリーについて、ＴＣＲＶＪ遺伝子使用を調べた。インフルエンザレパートリーにおけるＴＲＢＶ１９およびＴＲＡＶ２７、ＢＭＬＦ１＿ＥＢＶレパートリーにおけるＴＲＡＶ５およびＴＲＢＶ２０－１、ならびにＮＬＶＰＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶにおけるＴＲＢＶ６－５などの、従前の研究が報告した濃縮に加えて、ＭＡＲＴ－１＿癌レパートリーにおけるＴＲＡＶ１２－２、ＩＶＴＤＦＳＶＩＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶレパートリーにおけるＴＲＡＶ２１、ＴＲＡＶ３５、ＴＲＢＶ１１－２およびＴＲＢＶ６－６、ＡＶＦＤＲＫＳＤＡＫ＿ＥＢＮＡ－３Ｂ＿ＥＢＶにおけるＴＲＡＶ８－３、ＴＲＡＶ１３－１およびＴＲＢＶ２８、ＢＺＬＦ１＿ＥＢＶレパートリーにおけるＴＲＡＶ１３－１、ＴＲＡＶ１３－２およびＴＲＢＶ１２－３、ＩＰＳＩＮＶＨＨＹ＿ｐｐ６５＿ＣＭＶにおけるＴＲＡＶ１２－１、ＴＲＡＶ４１、ＴＲＢＶ２およびＴＲＢＶ２０－１、ならびにＮＬＶＰＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶにおけるＴＲＡＶ２３／Ｄ６およびＴＲＢＶ１２－４の大量の使用を見出した（図２５Ｆ）。保存されたＶＪ遺伝子の使用と一致して、シャノン多様性指標およびＴＣＲクローンサイズ分布は、それぞれのｐＭＨＣ結合Ｔ細胞レパートリーが、それらの標的ペプチドに応答して異なる程度の拡大を経験したことを示唆した（図３０ＡおよびＢ）。

ｉｉ．ＴＣＲＡＩ：Ｔ細胞抗原特異性のニューラルネットワーク分類指標
識別した大規模で多様なＴＣＲ－ｐＭＨＣ結合現象と共に、これらの結合現象を迅速に検証するための堅牢な機能的分類指標が望まれる。最近の研究により、ニューラルネットワーク（ＣＮＮ）は、ＴＣＲ配列から高次元の情報を学習することができ、したがって、ＴＣＲ－ｐＭＨＣ結合を健全に予測し得ることが示された。

Ｐｙｔｈｏｎパッケージ、ＴＣＲＡＩは、ＴｅｎｓｏｒＦｌｏｗ２を利用して開発されており、ＴＣＲ－ｐＭＨＣ特異性の研究のための可撓性のフレームワークを提供している（図３１Ａ）。高度なモジュール化されたＴＣＲＡＩパッケージにより、モデルの構築を簡単に調節することが可能になる。簡単に言うと、ＴＣＲＡＩフレームワークは、以下のように機能する。任意の数のＶ（Ｄ）Ｊ遺伝子、およびＴＣＲのＣＤＲ領域を、テキスト形式でのモデルへの入力として定義することができる。これらの入力を学習不可能な方法で数値形式に処理する方法に関して、テキストを数字表示に変換する「プロセッサ」オブジェクトを介して選択することができる。次いで、これらの数字入力は、フィンガープリントと称される、ニューラルネットワークのブロックを形成し、入力データのそれらの出力ベクトル表示として与える「抽出器」オブジェクトを介して、学習可能な方法でさらに処理することができる。これらのフィンガープリントは、単一の数字ベクトルを介して、この入力ＴＣＲを記述する単一のＴＣＲＡＩフィンガープリントに連結させる。次いで、このＴＣＲＡＩフィンガープリントは、ニューラルネットワーク構築の最終ブロックを形成する「クローサー」オブジェクトを通過し、入力ＴＣＲ上に予測を生じる。ＴＣＲＡＩパッケージは、いくつかのこのような事前に構築したプロセッサ、エクストラクター、およびクローサーを提供し、新しいバリアントに容易に拡張可能である。それは、異なるクローサーオブジェクトを構築することを単に選択することによって、二項、多項式、回帰または他のタスクを実行することを可能にする。

ＴＣＲＡＩの性能を評価するために、現在利用可能な方法の文献検索を行い（表３）、分類指標をこの分野の四つの主要な方法：ＧＬＩＰＨ２、ＤｅｅｐＴＣＲ、ＮｅｔＴＣＲおよびＴＣＲｄｉｓｔと比較した。比較のために、八つのｐＭＨＣ特異的結合Ｔ細胞レパートリーを、ゴールドスタンダードデータセットとして、従来の単一の多量体結合アッセイまたは抗原再曝露アッセイによって生成した少なくとも５０個の固有の対のαβ鎖ＴＣＲと照合した（表４ならびに材料および方法）。ＤｅｅｐＴＣＲ、ＮｅｔＴＣＲ、ＴＣＲｄｉｓｔの三つの方法は、ＴＣＲＡＩのような予測モデルである。これらの予測モデルの分類成功の標準的な尺度であるＲＯＣ（受信者オペレーター特徴）曲線下面積（ＡＵＲＯＣ／ＡＵＣ）は、類似のニューラルネットワークフレームワークを有するＴＣＲＡＩおよびＤｅｅｐＴＣＲが、ＴＣＲｄｉｓｔおよびＮｅｔＴＣＲよりも良好に機能することを示す。全体的に、ＴＣＲＡＩは、ＤｅｅｐＴＣＲよりも一貫し、良好な性能を有する（図３１ｅおよび図３２Ｂ）。ＧＬＩＰＨ２は、ＴＣＲ配列を共有した特異性の別個の群にクラスター形成するように設計したため、これら四つの予測モデルの感度および特異性（二つの幾何学的平均を最大にしたモデル閾値で計算）を、ＧＬＩＰＨ２と比較するために測定した。比較結果は、ＴＣＲＡＩが、最善の平衡化した感度および特異性を有することを示した（図３３）。ＴＣＲＡＩのものとは異なる目的を有するいくつかの方法を、比較に含めなかった。例えば、ＡＬＩＣＥは、相同／拡大したＴＣＲの群を検出するためのものである。ＴｃｅｌｌＭａｔｃｈは、入力としてＴＣＲ配列のみではなく細胞特異的共変量（例えば、遺伝子発現）を使用し、その性能を、さらなる精製なしに、高ノイズ対シグナル比において１０×Ｇｅｎｏｍｉｃｓ免疫マップデータを試験した。

ｉｉｉ．ハイスループットデータから識別したｐＭＨＣ結合ＴＣＲの分類
次に、ＴＣＲＡＩを、ハイスループットデータから識別した九つの最も大量のｐＭＨＣ結合レパートリーＩＣＯＮに適用した（図２５Ｅ）。これら九つのｐＭＨＣレパートリーのＴＣＲを、二項モードでＴＣＲＡＩを有する平均ＡＵＣ０．８８で分類した。同様の予測性能も、ＴＣＲＡＩ多項様式を使用して観察した（図３４Ａおよび図３５、以下、ＴＣＲＡＩ結果は、指定しない限り、予測性能由来のものである）。歴史的に、ＴＣＲβ鎖配列決定をしばしば使用して、α鎖と比較してより高い複合能に起因して、Ｔ細胞抗原結合特異性を推測する。ＴＣＲ－ｐＭＨＣ相互作用の予測におけるＴＣＲαおよびβ鎖の寄与を定量的に評価するために、α鎖またはβ鎖のいずれかを、対のαβ鎖の代わりに、ＴＣＲＡＩへの入力として使用した。対のαβ鎖を用いた性能は、αまたはβ鎖のみより良好であり、ＡＵＣの平均増加０．２を伴った（図３４Ｂ）。従前の研究と一致し、これらの結果は、ＴＣＲ－ｐＭＨＣ相互作用の正確な推論のためのαβ対形成の重要性をまとめて示す。β鎖の予測性能は、必ずしもα鎖より良好ではなく、これは、ＴＣＲ－ｐＭＨＣ特異的認識におけるα鎖の重要性を示しており、以前はしばしば見過ごされていた。

ＴＣＲＡＩの性能をさらに検証するために、精選した公開データセットにおいて結合ＴＣＲも有する、四つのｐＭＨＣレパートリー（Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１、Ａ^＊０２：０１＿ＧＩＬＧＦＶＦＴＬ＿Ｆｌｕ－ＭＰ、Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶおよびＡ^＊０２：０１＿ＮＬＶＰＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶ）を使用した。ＴＣＲＡＩを、ハイスループットデータセットから識別した四つのレパートリーを使用してトレーニングし、四つの精選したレパートリーを予測した。図３４Ｃは、概して、トレーニングセットにおける性能と同等の予測結果を示す。しかしながら、Ａ^＊０２：０１＿ＮＬＶＭＶＡＴＶ＿ｐｐ６５＿ＣＭＶにおいて推論したときのＴＣＲＡＩの性能は、他の三つのｐＭＨＣよりも有意に悪かった。性能の相違を理解するために、モデルのＴＣＲＡＩフィンガープリント空間を調べた（材料および方法）。Ａ^＊０２：０１＿ＥＬＡＧＩＧＩＬＴＶ＿ＭＡＲＴ－１＿癌、および他の二つのｐＭＨＣの場合（図３６Ａ）、ハイスループットデータセットおよび精選したデータセット由来の結合ＴＣＲは、フィンガープリント空間において空間的に重複し、一方、重複は、ｐｐ６５＿ＣＭＶの場合について有意に悪い（図３４Ｄおよび図３６Ｂ）。この乏しい重複は、単一のドナーから来るハイスループットデータセットにおけるｐｐ６５＿ＣＭＶ結合ＴＣＲの９８．２％に起因し（図２９）、それによって、結合可能なＴＣＲの小さなサブ空間を表す一方、公開データは、ＴＣＲ空間のより大きな範囲を表すドナーの範囲由来のＴＣＲを含有する。この結果はまた、頑健なＴＣＲ抗原予測モデルをトレーニングするための、多種多様なデータセットの重要性を強調する。

ｉｖ．ｐＭＨＣ特異的ＴＣＲの特徴決定
所与のｐＭＨＣに結合するＴＣＲの特性を調べるために、ＴＣＲＡＩ分類指標モデルが、どのようにそのフィンガープリント空間内にＴＣＲを配置するかを分析した（材料および方法）。分類指標モデル由来のＴＣＲフィンガープリントにより、保存された遺伝子使用およびＣＤＲ３モチーフを有するＴＣＲの特定の群を発見することが可能になる。これらの群は、異なる結合能力および異なる構造結合様式を示すことが多い。

ＴＣＲをＡ^＊０２：０１＿ＧＩＬＧＦＶＴＬ＿Ｆｌｕ－ＭＰ＿インフルエンザにクラスター形成させることは、ＴＣＲＡＩフィンガープリント空間における二つのよく分離したクラスターに至る（図３７Ａ）。構築したαおよびβ－ＣＤＲ３モチーフならびに遺伝子使用は、クラスター０が、β鎖における強く保存されたｘＲＳｘモチーフならびにＴＲＢ１９およびＴＲＡＪ４２遺伝子使用を有し、より小さい群のクラスター１が、非常に高度に保存された遺伝子使用ＴＲＢＶ１９／ＴＲＢＪ１－２／ＴＲＡＶ３８－１／ＴＲＡＪ５２を有することを示す（図３７Ｃ）。デキストラマーシグナル（ＵＭＩ中、固有分子識別子）分布は、クラスター０のＴＣＲが、クラスター１におけるものよりＦｌｕデキストラマーへの強い結合を有することを示した（図３７Ｂ）。結果は、その「特性のない」ｐＭＨＣ複合体に連結すると考えられるＡ^＊０２：０１＿ＧＩＬＧＦＶＬＴＬ＿Ｆｌｕ応答性Ｔ細胞におけるＣＤＲ３モチーフおよびＴＣＲＢＶ１９遺伝子使用の周知の強力な保存と一致する。最近識別したＡ＊０２：０１＿ＧＩＬＧＦＶＬ＿Ｆｌｕ結合ＴＣＲのクラスとさらに比較すると、クラスター０および１を、それぞれ、その群Ｉ（正準）およびＩＩ（新規）に連結させた。また、当該技術分野では、群ＩのＴＣＲが、群ＩＩのＴＣＲよりも強い結合を有することを見出した。当技術分野で提案されているＴＣＲ－ｐＭＨＣ結合複合体の３Ｄ構造は、高度に保存されたモチーフ／残基により、これら二つのＴＣＲ群は、異なる結合様式を有し、それにより、これら二つの複合体におけるＦｌｕペプチドの異なるＰｈｅ－５環回転を引き起こすことを示唆している（図３７Ｄ）。

他の八つのｐＭＨＣに結合するＴＣＲも特徴決定した。Ａ^＊０２：０１＿ＧＬＣＴＬＶＡＭＬ＿ＢＭＬＦ１＿ＥＢＶ結合ＴＣＲの結果は、特に興味深い。これまでの研究では、ＴＲＢＶ２０－１／ＴＲＢＪ１－２／ＴＲＡＶ５／ＴＲＡＪ３１から構築された優性公開ＴＣＲが観察されている。しかしながら、このｐＭＨＣに結合するＴＣＲ集団の以前の分析は、集団に偏りが強いＴＲＡＶ５ＴＣＲに焦点を当てていた。現在の実験は、ＴＣＲＡＩフィンガープリント空間内のＴＣＲの５つのクラスターを公平に特定した（図３７Ｅ）。クラスター１および２は、古典的なＨＬＡ＊０２：０１＿ＧＬＣＴＬＶＡＭＬ公開ＴＣＲを表すが、その二つのクラスターは、それらのβ鎖遺伝子使用に基づき分割する（図３７Ｇ）。クラスター０は、遺伝子使用（ＴＲＢＶ２／ＴＲＢＪ２－２）後のＴＣＲ、および他では提示していないβ鎖ＣＤＲ３モチーフを含有する。この新規群に属するＴＣＲは、減少したデキストラマーＵＭＩ数から分かるように、標準ＴＣＲクラスター（クラスター１および２）に対して異なる結合能力を示し（図３７Ｆ）、それは、親和性が低いことを示し、このＴＣＲ群がまだ認識されていない理由を部分的に説明するものである。

ｖ．ｐＭＨＣ結合ＣＤ８＋Ｔ細胞の免疫表現型。
抗原特異性とＴ細胞表現型の合わせた情報は、ワクチン接種などの免疫療法の臨床的成功に重要であると報告されている。免疫マッププラットフォームによって生成したマルチオミクスデータは、Ｔ細胞抗原特異性をＴ細胞表現型と結び付けることを可能にする。このマルチオミクスデータセットからの遺伝子（単一の細胞のＲＮＡ－ｓｅｑ）および表面タンパク質（ＣＩＴＥ－ｓｅｑ、配列決定によるトランスクリプトームおよびエピトープの細胞指数）発現を使用して、ｐＭＨＣ結合ＣＤ８＋Ｔ細胞を亜集団にグループ化した（図３８Ａならびに材料および方法）。次いで、識別した亜集団を、既に記載されたＣＤ８＋Ｔ細胞サブタイプマーカー遺伝子：ナイーブ細胞（ＣＤ４５ＲＡ＋ＣＤ６２ＬｈｉＣＤ１２７ｈｉ）、中心メモリー細胞（Ｔｃｍ、ＣＤ４５ＲＡ－ＣＤ６２Ｌ＋ＣＤ１２７＋ＥＯＭＥＳｈｉｇｈＴＢＥＴｌｏｗ）、Ｔエフェクターメモリー細胞（Ｔｅｍ、ＣＤ４５ＲＡ－ＣＤ６２ＬｌｏｗＣＤ１２７＋ＧＺＭＢ＋）、末梢メモリー細胞（Ｔｐｍ、ＣＤ６２Ｌ＋ＣＤ１２７ｈｉＧＺＭＢ＋）、高分化したエフェクター細胞（Ｔｅｍｒａ、ＣＤ４５ＲＡ＋ＣＤ１２７ｌｏＧＺＭＢｈｉ）および他のメモリー細胞（ＣＤ４３ｌｏＫＬＲＧ１ｈｉＣＤ１２７－）に従い注釈を付けた（図３８ＡおよびＢ）。

ｐＭＨＣ結合Ｔ細胞の９６％は、拡大したＴ細胞クローンに富化されたメモリー細胞であり（図３８ＥおよびＤ）、これは、これらのＴ細胞が、特定の免疫応答によって選択され、したがって、応答性および信頼性のあるバインダーである可能性が高いことを示している。これらのメモリーＴ細胞の大部分は、共通のウイルスエピトープ（例えば、インフルエンザ、ＥＢＶ、ＣＭＶ）に結合し、それぞれのドナー由来のｐＭＨＣ結合Ｔ細胞は、メモリー細胞サブセットの異なる分布を示した。例えば、ドナー１および２は、主にＴｐｍを有し、一方、ドナーＶは、Ｔｅｍを有し、ドナー３および４は、主にＴｅｍｒａ細胞を有していた（図３８ＣおよびＤ）。

ｐＭＨＣ結合Ｔ細胞の大部分は、メモリー表現型を発現したが、それらの４％、ナイーブ細胞であった。これらのナイーブ細胞は、非ナイーブ細胞よりも多様なｐＭＨＣ相互作用を有し、腫瘍関連抗原（例えば、ＭＡＲＴ－１）、内因性抗原、またはドナーが血清陰性出会ったウイルス（例えば、ＨＩＶ）に由来する抗原にしばしば結合した（図３８Ｃ）。興味深いことに、交差ＨＬＡ型結合を有するナイーブＴ細胞の割合は、非ナイーブ細胞の割合よりも有意に高かった（図３８Ｆ）。これらの結果は、健康なドナーＴ細胞レパートリー、特に、ナイーブ細胞が、まだ遭遇していない抗原または希少な抗原に応答し、交差反応を保持する可能性を示している。これらの細胞が、機能的Ｔ細胞応答を担持することができるかどうかを評価するために、さらなるアッセイが必要である。

２．論考
ハイスループットＴＣＲ－ｐＭＨＣ結合データは、ＴＣＲ抗原認識の理解を促進するための魅力的な経路を提示する。しかしながら、このタイプのデータは、多くの場合、シグナル対高ノイズ比と関連付けられる。本明細書では、優れた感度および特異性を有する高度に多重化したＴＣＲ－ｐＭＨＣ結合データにおいて、シグナル対ノイズ比を有意に増加させることによって信頼できるＴＣＲ－ｐＭＨＣ相互作用を識別することができる、新規の方法ＩＣＯＮを含む起算ツールのフレームワークをここで提示する。ＩＣＯＮは、ノイズ補正したデキストラマーシグナルをパラメータフリーの様式で計算し、これにより、より広範なｐＭＨＣデキストラマープールからのｐＭＨＣ－ＴＣＲ結合データに容易に一般化できるようにし、ＣＩＴＥ－ｓｅｑなどの単一の細胞空間におけるタンパク質結合シグナルの正規化に潜在的に拡張可能である。

本研究では、ＴＣＲ－ｐＭＨＣ特異的結合の予測における深層学習分類指標の頑健性を示す、ＰｙｔｈｏｎパッケージＴＣＲＡＩを開発した。所与の抗原に対するＴＣＲの特異性の決定におけるＣＤＲ３領域の重要性に起因して、他が有するように、この情報のみを利用した予測モデルを構築することが魅力である。しかしながら、多くのｐＭＨＣについて高度に保存された遺伝子使用に起因して、ＶＪ遺伝子使用が、特に、データセットにおける少数の固有のｐＭＨＣ結合ＴＣＲの場合、ＴＣＲＡＩの重要な予測要素であることを見出す。ＣＤＲ３情報を受け取るモデルの予測性能は、観察した、少なくとも１００のｐＭＨＣ結合ＴＣＲのオーダーより大きい場合、遺伝子レベルのみのモデルよりも優れ（図３９）、これは、ＣＤＲ３から有用な配列モチーフを抽出するために、これらのモデルについてこのボリュームのデータが必要であることを示す。

ＴＣＲＡＩは、ＴＣＲ－ｐＭＨＣ特異的結合の最先端分類を行うことができるだけでなく、異なる結合特性を有するＴＣＲの群を識別することもできることを示した。デキストラマーＵＭＩをＴＣＲ配列情報と組み合わせることで、これらの群間の異なる結合能力の調査が可能となった。この知見は、ハイスループットＴＣＲｐＭＨＣ結合データの量が、増大するにつれて、新しいＴＣＲモチーフを発見し、これらをＵＭＩだけでなく、より広範なマルチオミクスデータと組み合わせる能力も増大することを示す。例えば、異なる結合機序を有するＴＣＲの群間のＴ細胞受容体シグナル伝達の異なる転写調節を調べる能力は、広範な科学的疑問のためだけでなく、Ｔ細胞治療薬の開発のため非常に刺激的である。

Ｔ細胞抗原特異的認識は、ＴＣＲＡＩを使用して（実験的にではなく）実質的に研究できる可能性がある。Ｔ細胞抗原特異的認識の免疫モニタリングを、特定の抗原（例えば、ＳＡＲＳ－ＣＯＶ２、腫瘍特異的抗原およびペプチドワクチン）に対する免疫応答、ならびに免疫療法を受けている患者における臨床結果である疾患重症度とのそれらの可能性のある相関を決定するために適用した。しかしながら、ＴＣＲ配列を抗原特異性に実験でマッピングすることは、費用が高く、かつ労働集約的である。特定のｐＭＨＣについての適切なトレーニングデータを用いて、本明細書に提示したＴＣＲＡＩ分類指標は、結合アッセイを行うことなく、対象のそれぞれのＴＣＲ配列にｐＭＨＣ結合の確率を割り当てることができる。この研究では、この分類指標の多項予測モード（図３５）を検証し、これにより、安全なＴ細胞関連療法のため高度に特異的なＴＣＲを選択するために使用することができることを意味している。

生物学的に関連するＴ細胞反応性を評価する能力は、病原体に対する免疫応答およびその他の疾患状態を調査およびモニターするのに重要である。回復されたＴ細胞反応性の大部分（９４％）が、適切なＨＬＡ型／スーパータイプと一致し、さらに、多量体陽性細胞の表現型が、メモリーＴ細胞区画に大部分が限定され、これは、以前の機能的Ｔ細胞応答からの関連するメモリー反応性が、この技術で解決可能であることを示している。対のαβＴＣＲ配列決定により、個々の多量体に特異的である複数のＴＣＲ配列が明らかになり、これは、一般的なウイルス負荷に対する広範な抗原免疫応答を強化している。

低い程度のＨＬＡミスマッチ反応性を回復したが、これらは、メモリーサブセットと比較して拡大していないナイーブＴ細胞において著しく濃縮され、これは、以前に曝露していない標的または機能的Ｔ細胞応答で頂点に達しなかったものに対する抗原特異的相互作用を明らかにする可能性がある。さらに、ＴＣＲ結合活性の範囲をこれらの実験において回復させることができ、これは、予想外の結合パターンの検出に寄与し得る。デキストラマーは、高度に多量体化し、従来の四量体試薬よりも広範なＴＣＲ結合の結合活性を検出する可能性が高い。さらに、広範囲の蛍光デキストラマー強度を多量体陽性ゲーティングでソーティングしたので、低頻度、低活性のＴＣＲ相互作用もこの高感度単一細胞アッセイで捕捉した。

３．材料および方法
ｉ．１０×Ｇｅｎｏｍｉｃｓ単一の細胞免疫プロファイリングデータセット
本研究のため使用した１０×Ｇｅｎｏｍｉｃｓデータを、ｓｕｐｐｏｒｔ．１０ｘｇｅｎｏｍｉｃｓ．ｃｏｍ／ｓｉｎｇｌｅ－ｃｅｌｌ－ｖｄｊ／ｄａｔａｓｅｔｓからダウンロードした。

ｉｉ．ｐＭＨＣ結合Ｔ細胞表現型の識別
ＳｅｕａｒｔＶ３単一の細胞配列決定分析Ｒパッケージを、単一の細胞ＲのＮＡ－ｓｅｑデータに基づく分類分析のため使用した。ＴＣＲＶＪ遺伝子使用の有意な濃縮を、識別したｐＭＨＣ結合Ｔ細胞において観察したため、ＴＣＲ遺伝子を分類から取り除いた。そのため、細胞クラスターは、それらの共有したＶＪ遺伝子の使用によって支配されない。次いで、識別した結合Ｔ細胞のその他すべての遺伝子発現を、ＳｅｕｒａｔＶ３デフォルトパラメータを使用して正規化し、計量した。ＰＣＡを正規化し、形質転換しＵＭＩカウントを、可変的に発現した遺伝子上で行った。上位１０のＰＣを、細胞分類に使用した。分類可視化のため、ＵＭＡＰを使用した。

ｉｉｉ．報告したｐＭＨＣ特異的結合対ＴＣＲの精選
未加工ファイルを、ＶＤＪｄｂ（４２）（ｖｄｊｄｂ．ｃｄｒ３．ｎｅｔ／）およびＴｈｅＰａｔｈｏｌｏｇｙ－ａｓｓｏｃｉａｔｅｄＴＣＲｄａｔａｂａｓｅ（ｆｒｉｅｄｍａｎｌａｂ．ｗｅｉｚｍａｎｎ．ａｃ．ｉｌ／ＭｃＰＡＳ－ＴＣＲ／）からダウンロードした。データを、以下の基準：ＶＤＪｄｂについて、対のαまたはβ鎖ＣＤＲ３アミノ酸配列を、それぞれの「ｃｏｍｐｌｅｘ．ｉｄ」について必要であり、「供給源」と注釈を付けたＴＣＲを、１０×Ｇｅｎｏｍｉｃｓから除去し、「種」＝「ヒト」についてフィルタリングした、に従って処理して、ｐＭＨＣＴＣＲ結合を得た。ＭｃＰＡＳ－ＴＣＲについて、既知の「エピトープ．ＩＤ」を、完全なデータにおいて必要とし、「ＣＤＲ３．アルファ．ａａ」および「ＣＤＲ３．ベータ．ａａ」を有し、同様に、ＶＤＪｄｂについて、ヒトＴＣＲをフィルタリングした。

ｉｖ．ハイスループットＴＣＲ－ｐＭＨＣ結合データの正規化
信頼できるＴＣＲ－ｐＭＨＣ相互作用を識別するために、統合的ＣＯｎｔｅｘｔ特異的正規化法であるＩＣＯＮを開発した。それは、単一の細胞のＲＮＡ－ｓｅｑ、対のαβ鎖の単一の細胞のＴＣＲ－ｓｅｑ、ｄＣＯＤＥ－デキストラマー－ｓｅｑおよびＣＩＴＥ－ｓｅｑとも称される、細胞表面タンパク質発現配列決定を含む、入力データとしての、１０×Ｇｅｎｏｍｉｃｓ免疫マップなどの、多重化多量体結合プラットフォームから生成したマルチオミクス単一の細胞配列決定データを取得する。ＩＣＯＮは、以下の主要なステップを含む（図２５Ａおよび図２６）。

ステップ１：低品質の細胞の単一の細胞のＲＮＡ－ｓｅｑベースのフィルタリング。

それは、二重項および死細胞などの低品質の細胞をフィルタリングする。予想外に多数の遺伝子（例えば、細胞当たり＞２５００個の遺伝子）を有するＴ細胞を、ダブレットとして分類され、ミトコンドリア遺伝子発現のフラクションが高い細胞（例えば、ミトコンドリア遺伝子発現の総遺伝子発現に対する比率＞０．２）または検出した遺伝子（細胞当たり＜２００個の遺伝子）を少なすぎる細胞として分類した（図２６Ａ）。

ステップ２：単一の細胞のｄＣＯＤＥ－デキストラマー－ｓｅｑベースのバックグラウンド推定

六つの陰性対照デキストラマーを、多重化デキストラマー結合アッセイからのバックグラウンドノイズを推定するように設計した。シグナルおよびノイズ分布を検査するために、それぞれの細胞についての陰性対照デキストラマーおよび試験デキストラマーのＵＭＩ（固有分子識別子）における最大のデキストラマーシグナルを使用して、それぞれのＴ細胞の最悪のノイズおよび最良のデキストラマーを表した。これら二つのタイプのデキストラマーシグナルの密度分布を、図２６Ｂに示す。バックグラウンドカットオフ（図２６Ｂにおける灰色の破線）を、それぞれのドナーについて経験的に選択した。

ステップ３：単一の細胞のＴＣＲ－ｓｅｑに基づく対のαβ鎖を有するＴ細胞の選択。

単一鎖のみを有するＴ細胞を除去した。検出した複数のαまたはβ鎖を有するＴ細胞について、最大のＵＭＩカウントを有するものを、それぞれのＴ細胞に割り当てた。

ステップ４：デキストラマーシグナル補正

それぞれのデキストラマーは、それ自体最適な結合条件を有するが、多重化デキストラマー結合アッセイが、デキストラマー毎に最適であるように、実験条件を配置することは不可能である。これにより、このハイスループットデータセットにおいて観察した通り、同じＴ細胞／クローンに結合する複数のデキストラマーをもたらす（図２６Ｃ）。この効果を補正するために、以下の技術を使用して、同じＴ細胞／クローンに同時に結合する場合、デキストラマーシグナルを罰とした。

ｉ^ｔｈＴ細胞のＴＣＲクローンタイプをｋ_ｉとして示すこと、およびＴ＿（ｋ_ｉｊ）としてデキストラマーｊに結合するクローンタイプｋ_ｉに属するＴ細胞の数は、ｊ^ｔｈデキストラマーに結合するクローンタイプｋ_ｉに属するＴ細胞のフラクションを以下の通り示す。

これらの量を使用して、補正したデキストラマーシグナルを、ｊ^ｔｈデキストラマーに結合するｉ^ｔｈＴ細胞について以下の通り計算する。
Ｓ_ｉｊ＝Ｅ_ｉｊ（ＲＣ_ｉｊ）^２ＲＴ_ｋｊ

ステップ５：細胞およびｐＭＨＣ－ワイズデキストラマーシグナル正規化およびバインダー識別

全てのデキストラマー結合シグナルを同等にするために、補正したデキストラマー結合シグナルは、細胞内の４４個の試験デキストラマーにわたり正規化した対数比であった。続いて、ｐＭＨＣワイズ正規化を、対数ランク分布に基づき行った。正規化されたデキストラマーＵＭＩ＞０は、ｐＭＨＣ特異的バインダーについてのカットオフとして経験的に選択された。

ｖ．リジェネロンオリゴタグ付きデキストラマー染色およびソーティング
ＣＤ８＋Ｔ細胞を、ＭｉｌｔｅｎｙｉＣＤ８＋Ｔ細胞陰性濃縮（Ｍｉｔｅｎｙｉ）を使用して、健康なドナーＰＢＭＣから濃縮した。次いで、細胞を、ベンゾナーゼ（Ｍｉｌｌｉｐｏｒｅ）およびダサチニブ（Ａｘｏｎ）と４５分間インキュベートし、その後、オリゴタグ付きデキストラマープール（Ｉｍｍｕｄｅｘ、表２を参照）を用いて室温で３０分間染色した。次いで、細胞を、ＣＤ３（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２７５０）、ＣＤ４（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号５６３９１９、ＣＤ８（ＢＤＢｉｏｓｃｉｅｎｃｅｓ、カタログ番号６１２８８９）、ＣＣＲ７（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３５３２１８）、およびＣＤ４５ＲＡ（Ｂｉｏｌｅｇｅｎｄ、カタログ番号３０４２３８）についての蛍光標識ならびにＣＩＴＥ－ｓｅｑ抗体を用いて、３０分間、氷上で染色した。Ａｓｔｒｉｏｓセルソーター（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）を利用し、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでの蛍光活性化細胞ソーティング（ＦＡＣＳ）ゲーティングを設定し、破片および二重項を除外しながら、生細胞を選択した。１００μｍのノズルを使用して、さらなる処理のため、単一のＣＤ３＋ＣＤ８＋デキストラマー＋細胞を選別した。

ｖｉ．ニューラルネットワークベースの分類指標ＴＣＲＡＩの構築
ＴＣＲＡＩは、ＴＣＲ分類指標の設計のための可撓性のフレームワークを提供するが、このワーク全体を通して具体的かつ一貫した構築を使用し、それを以下で詳細に記載する。その可撓性の構築とは別に、ＤｅｅｐＴＣＲ構築とのいくつかの重要な相違は、ＣＤＲ３配列についての１Ｄ畳み込みおよびバッチ正規化の使用、ならびに遺伝子についての低次元の表示である。これらの変化は、モデル正規化の改善をもたらし、モデルに、より強い遺伝子関連を学習させる。

ＴＣＲの入力情報を数字形式で処理するために、以下の方法を適用した。それぞれのＣＤＲ３配列について、アミノ酸をまず整数に変換し、続いて、これらの整数ベクトルを、ワンホット表示にコードする。ＶおよびＪ遺伝子について、遺伝子タイプの整数へのディクショナリを、それぞれのＶおよびＪ遺伝子について別々に構築し、それぞれの遺伝子を整数に変換するためにこれらを使用する。

処理した入力情報に適用するニューラルネットワーク構築は、埋め込み層、および畳み込みネットワークを含む。具体的には、処理したＣＤＲ３残基を、学習した埋め込みを介して１６次元の空間内に埋め込み、得られた数値ＣＤＲ３を、次元、核心幅および歩幅のフィルターを用いて、３つの１Ｄ畳み込み層を通して供給する。それぞれの畳み込みを、指数線形ユニット活性化によって活性化し、その後ドロップアウトおよびバッチ正規化によって活性化する。これら三つの畳み込みブロックの後、グローバル最大プーリングを、最終特性にを適用し、このプロセスを、それぞれのＣＤＲ３を長さ２５６のベクトル、「ＣＤＲ３フィンガープリント」によってコードする。それぞれの遺伝子についての処理した遺伝子入力は、学習した埋め込みを介して、ワンホットコードし、低減した次元の空間（Ｖ遺伝子については１６、Ｊ遺伝子については８）に埋め込み、これにより、ベクターとしてそれぞれの遺伝子の「遺伝子フィンガープリント」を与える。次いで、全ての選択したＣＤＲ３および遺伝子のフィンガープリントを、単一のベクターである「ＴＣＲＡＩフィンガープリント」に連結する。ＴＣＲＡＩフィンガープリントを、一つの最終完全接続層を通過して、二項予測（単一出力値、シグモイド活性化）、回帰予測（単一出力、活性化なし）、または多項予測（複数出力値、ソフトマックス活性化）を与える。この研究では、二項および多項予測に焦点をあてる。

ＴＣＲ配列決定ファイルを、１０×Ｇｅｎｏｍｉｃｓの未加工のフォーマット化したファイルとして収集した。配列決定ファイルを、非生産性配列を除去した後にＣＤＲ３のアミノ酸配列を取るように解析した。異なるヌクレオチド配列を有するが、ＣＤＲ３由来の同じ一致したアミノ酸配列、およびＶ、Ｄ、Ｊ遺伝子を有するクローンは、一つのＴＣＲ下で一緒に凝集させた。したがって、ここで使用したそれぞれのＴＣＲ記録は、それぞれの鎖についてのＣＤＲ３アミノ酸配列およびＶ、Ｊ遺伝子を有する単一の対のαおよびβＴＣＲ鎖を含む。

データを、それぞれのモデルについてのトレーニング（７６．５％）、検証（１３．５％）、および左を取り除いた試験セット（１０％）に分け、続いて、５倍のＭｏｎｔｅ－Ｃａｒｌｏ交差検証（ＭＣＣＶ）を、トレーニングセットにおいて行う。モデルを、Ａｄａｍオプティマイザを介して交差エントロピー損失を最小化することによってトレーニングし、交差エントロピー損失を、それぞれのクラスについて重み１／（クラスの数^＊そのクラス内の試料のフラクション）によって重み付けする。過剰適合を防ぐために、左を取り除いた検証データセットを介して早期停止を結びつけ、この場合において、検証損失を、５回超にわたって増大し、最小の検証損失を伴うモデルの重みが回復した場合に、モデルは、トレーニングを停止する。ここでトレーニングしている多数のモデルに起因して、交差検証中に学習速度およびバッチサイズのみを調整する。交差検証の後、ハイパーパラメータの最適な実施を、選択し、モデルを、早期停止を制御するための検証セットを使用して、完全なトレーニングセットにおいて再トレーニングする。次いで、再トレーニングしたモデルを、左を取り除いたテストセットで評価する。

ｖｉｉ．ＴＣＲＡＩフィンガープリント分析
ＴＣＲＡＩモデルは、特定のｐＭＨＣ（または多項の場合、多くのｐＭＨＣのうちの一つ）に結合するＴＣＲについての予測と、そのｐＭＨＣに結合することができるかどうかという疑問の文脈内でＴＣＲを記載する数字ベクトルの「フィンガープリント」の両方を生成する。モデルがどのように機能するかを理解し、異なる結合様式を有するＴＣＲの群を識別するために、これらのフィンガープリントの分布を分析する。ＵＭＡＰを使用して、フィンガープリントを二次元空間に縮小する。一方のデータセットでトレーニングしたモデルを使用し、別の目に見えないデータセットでフィンガープリントを推定するとき、ＵＭＡＰプロジェクタは、トレーニングデータセット由来のＴＣＲを用いて適合し、そのプロジェクタを使用して目に見えないセット由来のＴＣＲを変換する。

ＴＣＲフィンガープリントをクラスター形成するとき、データセットのすべてのＴＣＲのフィンガープリントを、上述のように二次元空間に投影し、次いで、強い真陽性であるそれらのＴＣＲ（ＳＴＰ、二項予測＞０．９５）を選択する。次いで、これらのＳＴＰを、ｋ平均分類指標を使用して、二次元空間内にクラスター形成させる。次いで、それぞれのクラスター内からのＴＣＲを収集して、それを使用して、クラスター内の固有のＴＣＲクローンタイプをハイスループットデータ中のすべての繰り返されるクローンタイプと対形成させることによって、ＣＤＲ３モチーフロゴ（ｗｅｂｌｏｇｏを使用して）、遺伝子使用、およびＵＭＩ分布を構築する。

ｖｉｉｉ．ＤｅｅｐＴＣＲ修飾
ＤｅｅｐＴＣＲ法を、以下に記載する調節を用いて二進法分類指標を構築するよう適合した。

それぞれのＴＣＲ記録について、単一の対のαおよびβＴＣＲ鎖を、ＴＣＲＡＩパッケージに提供した入力に沿って、それぞれの鎖のみについてＣＤＲ３アミノ酸配列およびＶ、Ｊ遺伝子とともに使用した。すなわち、クローン性、ＭＨＣ、またはＤ遺伝子の使用を、ＤｅｅｐＴＣＲモデルに含めなかった。最終出力層を、単一の二項出力を与えるように調節し、モデルのハイパーパラメータを、ＤｅｅｐＴＣＲフレームワークの文脈において、手元の問題について最適化した。

図４１は、ネットワーク４１０４を通じて接続された計算デバイス４１０１（例えば、計算装置１０６）およびサーバ４１０２の非限定的な例を含む環境４１００を描写するブロック図である。一態様では、いずれの記載の方法のいくつかまたは全ての工程も、本明細書に記載の計算デバイスで実行することができる。計算装置４１０１は、配列データ１０４（例えば、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データ）、トレーニングデータ４１０（例えば、標識した受容体配列データ）、ＩＣＯＮモジュール１０８、予測モジュール１１０などのうちの一つまたは複数を保存するよう形成した一つまたは複数のコンピュータを含むことができる。サーバ１４０２は、配列データ１０４を保存するように構成した一つまたは複数のコンピュータを含むことができる。複数のサーバ４１０２は、ネットワーク４１０４を通じて計算デバイス４１０１と通信することができる。一実施形態では、サーバ１４０２は、単一の細胞の免疫プロファイリングプラットフォーム１０２によって生成したデータのためのリポジトリを備えてもよい。

計算デバイス４１０１およびサーバ４１０２は、ハードウェアアーキテクチャに関して、一般にプロセッサ４１０８、メモリシステム４１１０、入力／出力（Ｉ／Ｏ）インターフェース４１１２、およびネットワークインターフェース４１１４を含む、デジタルコンピュータであってもよい。これらの構成要素（４１０８、４１１０、４１１２、および４１１４）は、ローカルインターフェース４１１６を介して通信的に連結される。ローカルインターフェース４１１６は、例えば、当該技術分野で既知の一つ以上のバスまたは他の有線もしくは無線接続であってもよいが、これに限定されない。ローカルインターフェース４１１６は、コントローラ、バッファ（キャッシュ）、ドライバ、リピータ、およびレシーバなどの、通信を可能にするための追加の要素（簡略化のために省略される）を有してもよい。さらに、ローカルインターフェースは、前述の構成要素間の適切な通信を可能にするためのアドレス、制御、および／またはデータ接続を含んでもよい。

プロセッサ４１０８は、特にメモリシステム４１１０に記憶される、ソフトウェアを実行するためのハードウェアデバイスであってもよい。プロセッサ４１０８は、任意のカスタム作製または市販のプロセッサ、中央処理ユニット（ＣＰＵ）、計算デバイス４１０１およびサーバ４１０２に関連付けられたいくつかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ（マイクロチップもしくはチップセットの形態）、またはソフトウェア命令を実行するための一般に任意のデバイスとすることができる。計算デバイス４１０１および／またはサーバ４１０２が動作中である時、プロセッサ４１０８は、メモリシステム４１１０内に記憶されているソフトウェアを実行して、メモリシステム４１１０へのおよびそこからのデータを通信し、ソフトウェアに従って、計算デバイス４１０１およびサーバ４１０２の動作を一般に制御するように構成されてもよい。

Ｉ／Ｏインターフェース４１１２を使用して、一つ以上のデバイスまたは構成要素からユーザ入力を受信する、かつ／またはそれらへとシステム出力を提供することができる。ユーザ入力は、例えば、キーボードおよび／またはマウスを介して提供されてもよい。システム出力は、表示デバイスおよびプリンタ（図示せず）を介して提供されてもよい。Ｉ／Ｏインターフェース４１４１２は、例えば、シリアルポート、パラレルポート、小型コンピュータシステムインターフェース（ＳＣＳＩ）、赤外（ＩＲ）インターフェース、無線周波数（ＲＦ）インターフェース、および／またはユニバーサルシリアルバス（ＵＳＢ）インターフェースを含んでもよい。

ネットワークインターフェース４１１４は、計算デバイス４１０１および／またはネットワーク４１０４上のサーバ４１０２から送信および受信するために使用することができる。ネットワークインターフェース４１１４は、例えば、１０ＢａｓｅＴＥｔｈｅｒｎｅｔアダプタ、１００ＢａｓｅＴＥｔｈｅｒｎｅｔアダプタ、ＬＡＮＰＨＹＥｔｈｅｒｎｅｔアダプタ、ＴｏｋｅｎＲｉｎｇアダプタ、ワイヤレスネットワークアダプタ（例えば、ＷｉＦｉ、セルラー、サテライト）、または任意の他の好適なネットワークインターフェースデバイスを含んでもよい。ネットワークインターフェース４１１４は、ネットワーク４１０４上での適切な通信を可能にするためのアドレス、制御、および／またはデータ接続を含んでもよい。

メモリシステム４１１０は、揮発性メモリ素子（例えば、ランダムアクセスメモリ（ＤＲＡＭ、ＳＲＡＭ、ＳＤＲＡＭなどのＲＡＭ））および不揮発性メモリ素子（例えば、ＲＯＭ、ハードドライブ、テープ、ＣＤＲＯＭ、ＤＶＤＲＯＭなど）のいずれか一つまたはその組み合わせを含んでもよい。さらに、メモリシステム４１１０は、電子、磁気、光学、および／または他の型の記憶媒体を組み込んでもよい。メモリシステム４１１０は、様々な構成要素が互いに離れて位置するが、プロセッサ４１０８によってアクセスすることができる、分散型アーキテクチャを有し得ることに留意されたい。

メモリシステム４１１０内のソフトウェアは、一つ以上のソフトウェアプログラムを含んでもよく、これらの各々は、論理機能を実施するための実行可能な命令の順序付けされたリストを含む。図４１の例では、計算装置４１０１のメモリシステム４１１０におけるソフトウェアは、配列データ１０４、トレーニングデータ４１０、ＩＣＯＮモジュール１０８、予測モジュール１１０、および適当な操作システム（Ｏ／Ｓ）４１１８を含むことができる。図４１の例では、サーバ４１０２のメモリシステム４１１０内のソフトウェアは、配列データ１０４、および好適なオペレーティングシステム（Ｏ／Ｓ）４１１８を含むことができる。オペレーティングシステム４１１８は、他のコンピュータプログラムの実行を本質的に制御し、スケジューリング、入力－出力制御、ファイルおよびデータ管理、メモリー管理、および通信制御、ならびに関連するサービスを提供する。

例証の目的で、アプリケーションプログラムおよびオペレーティングシステム４１１８などの他の実行可能なプログラム構成要素は、本明細書では別々のブロックとして例証されているが、そのようなプログラムおよび構成要素は、計算デバイス４１０１および／またはサーバ４１０２の異なる記憶構成要素内で、様々な時間に存在し得ることが認識される。訓練モジュール２２０の実装形態は、何らかの形態のコンピュータ可読媒体上に保存される場合もあれば、または伝送される場合もある。本開示の方法のいずれも、コンピュータ可読媒体上に具現化されたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能媒体とすることができる。例として、かつ限定を意図するものではないが、コンピュータ可読媒体は、「コンピュータストレージ媒体」および「通信媒体」を含み得る。「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの、情報を記憶するための任意の方法または技術で実施される、揮発性および不揮発性の取り外し可能な媒体および取り外し不能な媒体を含み得る。例示的なコンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他の記憶技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶デバイスもしくは他の磁気記憶デバイス、または所望の情報の記憶に使用することができ、かつコンピュータによってアクセスすることができる任意の他の媒体を含み得る。

一実施形態では、ＩＣＯＮモジュール１０８および／または予測モジュール１１０を、図４２に示す、方法４２００を行うよう構成してもよい。方法４２００は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法４２００は、ステップ４２０１において、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを受信することを含み得る。単一の細胞の配列データは、ＲＮＡ－ｓｅｑデータを含んでもよく、デキストラマー配列データは、ｄＣＯＤＥ－デキストラマー－ｓｅｑデータを含んでもよく、単一の細胞のＴ細胞受容体（ＴＣＲ）配列データは、ＴＣＲ－ｓｅｑデータを含んでもよい。

方法４２００は、ステップ４２０２において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定することを含み得る。

方法４２００は、ステップ４２０３において、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去することを含み得る。例示の目的で、遺伝子閾値範囲は、約２００個の遺伝子～約２，５００個の遺伝子であってもよい。

方法４２００は、ステップ４２０４において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定することを含み得る。

方法４２００は、ステップ４２０５において、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含み得る。遺伝子発現閾値は、総合固有分子識別子カウントの約４０パーセントであることができる。

方法４２００は、ステップ４２０６において、デキストラマー配列データおよび選別されていないデキストラマー配列データに基づき、決定することを含んでもよい。選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含むことができる。選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含むことができる。

方法４２００は、ステップ４２０７において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定することを含んでもよい。最大の陰性対照デキストラマーシグナルを、（Ｍａｘ（ｎｃ_１，．．．，ｎｃ_ｎ））として表してもよく、式中、ｎは、陰性対照デキストラマーの数である。

方法４２００は、ステップ４２０８において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。最大の選別されたデキストラマーシグナルを、（Ｍａｘ（ｄｓ_１，．．．，ｄｓ_ｍ））として表してもよく、式中、ｍは、試験デキストラマーの数である。

方法４２００は、ステップ４２０９において、デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。最大の選別されていないデキストラマーシグナルを、（Ｍａｘ（ｄｕ，．．．，ｄｕ_ｍ））として表してもよく、式中、ｍは、試験デキストラマーの数である。

方法４２００は、ステップ４２１０において、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定することを含んでもよい。デキストラマー結合バックグラウンドノイズは、（Ｐ_９９．９）を決定することを含んでもよい。

方法４２００は、ステップ４２１１において、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定することを含んでもよい。デキストラマー選別ゲート効率を、（ａｒｇｍａｘＤ_ｓ，ｕ）と表してもよい。デキストラマー選別ゲート効率を、（Ｍａｘ（ｄｓ_１，．．．，ｄｓ_ｍ））と（Ｍａｘ（ｄｕ，．．．，ｄｕ_ｍ））の間の最大の相違として決定してもよい。

方法４２００は、ステップ４２１２において、デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズの測定値を決定することを含んでもよい。バックグラウンドノイズの測定値を、（ｄ）として表されてもよい。

方法４２００は、ステップ４２１３において、デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じることを含んでもよい。それぞれの細胞と関連するデキストラマーシグナルからバックグラウンドノイズの測定値を減じることは、（Ｅ_ｃ＝Ｅ_ｓ－ｄ）を評価することを含んでもよい。

方法４２００は、ステップ４２１４において、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことを含んでもよい。セルワイズ正規化を行うことは、

を評価することを含んでもよい。

方法４２００は、ステップ４２１５において、デキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うことを含んでもよい。ｐＭＨＣワイズ正規化を行うことは、

を評価することを含んでもよい。

方法４２００は、ステップ４２１６において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定することを含んでもよい。

方法４２００は、ステップ４２１７において、正規化したデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。

方法４２００は、ステップ４２１８において信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連付けられる正規化されたデキストラマー配列データに残っているデータを識別することを含みうる。

方法４２００は、信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連するデータに基づき、予測モデルをトレーニングすることをさらに含んでもよい。方法４２００は、トレーニングした予測モデルにより新たに提示した受容体配列の結合状態を予測することをさらに含んでもよい。

一実施形態では、ＩＣＯＮモジュール１０８および／または予測モジュール１１０を、図４３に示す、方法４３００を行うよう構成してもよい。方法４３００は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法４３００は、ステップ４３１０において、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞Ｔ細胞受容体（ＴＣＲ）配列データを含む単一の細胞配列決定データを受信することを含んでもよい。単一の細胞の配列データは、ＲＮＡ－ｓｅｑデータを含んでもよく、デキストラマー配列データは、ｄＣＯＤＥ－デキストラマー－ｓｅｑデータを含んでもよく、単一の細胞のＴ細胞受容体（ＴＣＲ）配列データは、ＴＣＲ－ｓｅｑデータを含んでもよい。

方法４３００は、ステップ４３２０において、デキストラマー配列データから、単一の細胞の配列データに基づき、低品質の細胞と関連するデータをフィルタリングすることを含んでもよい。デキストラマー配列データから、単一の細胞の配列データに基づき、低品質の細胞と関連するデータをフィルタリングすることは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、およびデキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含むことができる。遺伝子閾値範囲は、約２００個の遺伝子～約２，５００個の遺伝子であってもよい。遺伝子発現閾値は、総合固有分子識別子カウントの約４０パーセントであることができる。

方法４３００は、ステップ４３３０において、バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節することを含んでもよい。方法４３００は、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定することをさらに含んでもよく、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データおよび選別されていないデキストラマー配列データを含み、選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含む。方法４３００は、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること、およびデキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルを決定することをさらに含んでもよい。最大の陰性対照デキストラマーシグナルを、（Ｍａｘ（ｎｃ_１，．．．，ｎｃ_ｎ））として表してもよく、式中、ｎは、陰性対照デキストラマーの数である。最大の選別されたデキストラマーシグナルを、（Ｍａｘ（ｄｓ_１，．．．，ｄｓ_ｍ））として表してもよく、式中、ｍは、試験デキストラマーの数である。最大の選別されていないデキストラマーシグナルを、（Ｍａｘ（ｄｕ，．．．，ｄｕ_ｍ））として表してもよく、式中、ｍは、試験デキストラマーの数である。

バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節することは、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定すること、デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズ（ｄ）の測定値を決定すること、およびデキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じることを含むことができる。バックグラウンドノイズの測定値を、（ｄ）として表されてもよい。それぞれの細胞と関連するデキストラマーシグナルからバックグラウンドノイズの測定値を減じることは、（Ｅ_ｃ＝Ｅ_ｓ－ｄ）を評価することを含んでもよい。方法４３００は、デキストラマー配列データを正規化することをさらに含んでもよい。デキストラマー配列データの正規化は、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズおよび正規化を行うこと、および／またはデキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うことを含むことができる。セルワイズ正規化を行うことは、

を評価することを含んでもよい。
ｐＭＨＣワイズ正規化を行うことは、

を評価することを含んでもよい。

方法４３００は、ステップ４３４０において、デキストラマー配列データから、単一の細胞のＴＣＲデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすることを含んでもよい。デキストラマー配列データから、単一の細胞のＴＣＲデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすることは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、および正規化したデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含むことができる。

方法４３００は、ステップ４３５０において、信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含んでもよい。

方法４３００は、正規化されたフィルタリングされたデキストラマー配列データに残っているデータに基づき、予測モデルをトレーニングすることをさらに含んでもよい。方法４３００は、トレーニングした予測モデルにより新たに提示した受容体配列の結合状態を予測することをさらに含んでもよい。

一実施形態では、ＩＣＯＮモジュール１０８および／または予測モジュール１１０を、図４４に示す、方法４４００を行うよう構成してもよい。方法４４００は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法４４００は、ステップ４４１０において、デキストラマー配列データにおいてＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行い、複数のＴＣＲ－ｐＭＨＣ結合現象を識別することを含んでもよい。複数のＴＣＲ－ｐＭＨＣ結合現象を識別するためのデキストラマー配列データにおけるＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行うことは、方法４２００および／または方法４３００のうちの一部または全てを含んでもよい。

方法４４００は、ステップ４４２０において、正規化されたデキストラマー配列データに基づき、複数のＴＣＲ配列を含むトレーニングデータセットを決定することを含んでもよく、それぞれのＴＣＲ配列は、結合親和性と関連する。正規化されたデキストラマー配列データに基づき、複数のＴＣＲ配列を含むトレーニングデータセットを決定すること、それぞれのＴＣＲ配列は、結合親和性と関連する、は、複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、対のαβ鎖ＣＤＲ３アミノ酸配列、Ｖ遺伝子識別子、およびＪ遺伝子識別子を決定すること、ならびに複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、対のαβ鎖ＣＤＲ３アミノ酸配列、Ｖ遺伝子セグメント配列、およびＪ遺伝子セグメント配列を一次元入力ベクターにコードすることを含むことができる。複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、対のαβ鎖ＣＤＲ３アミノ酸配列をコードすることは、アミノ酸のそれぞれのアルファベット表示をアミノ酸の数字表示に変換することを含む。複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、Ｖ遺伝子識別子およびＪ遺伝子識別子をコードすることは、計算空間において遺伝子名の分類上かつ別々の表示を生成するための一つのホットエンコーディングを含む。

方法４４００は、一次元入力ベクターを一つまたは複数のクラスターにクラスター形成することをさらに含んでもよい。一次元入力ベクターを一つまたは複数のクラスターにクラスター形成することは、ＫＮＮクラスター形成するアルゴリズムを一次元入力ベクターに適用することを含む。一つまたは複数のクラスターは、結合強度の指標である。

方法４４００は、ステップ４４３０において、複数のＴＣＲ配列に基づき、予測モデルについての複数の特性を決定することを含んでもよい。予測モデルは、重み付け二値分類指標または畳み込みニューラルネットワーク（ＣＮＮ）を含むことができる。

方法４４００は、ステップ４４４０において、トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることを含んでもよい。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、畳み込みニューラルネットワーク（ＣＮＮ）をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、クラス加重費用関数を適用することを含む。

方法４４００は、ステップ４４５０において、トレーニングデータセットの第二の部分に基づき、予測モデルを試験することを含んでもよい。

方法４４００は、ステップ４４６０において、試験に基づき、予測モデルを出力することを含んでもよい。

方法４４００は、トレーニングした予測モデルに、未知のＴＣＲ配列を提示すること、およびトレーニングした予測モデルにより、結合親和性を予測することをさらに含んでもよい。

一実施形態では、ＩＣＯＮモジュール１０８および／または予測モジュール１１０を、図４５に示す、方法４５００を行うよう構成してもよい。方法４５００は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法４５００は、ステップ４５１０において、トレーニングした予測モデルに、未知のＴＣＲ配列を提示することを含んでもよく、トレーニングした予測モデルを、ＴＣＲ－ｐＭＨＣ結合特異性データ正規化によりもたらしたトレーニングデータセットに基づき、トレーニングする。方法４５００は、ステップ４５１０において、デキストラマー配列データにおいてＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行い、複数のＴＣＲ－ｐＭＨＣ結合現象を識別することを含んでもよい。複数のＴＣＲ－ｐＭＨＣ結合現象を識別するためのデキストラマー配列データにおけるＴＣＲ－ｐＭＨＣ結合特異性データ正規化を行うことは、方法４２００および／または方法４３００のうちの一部または全てを含んでもよい。

方法４５００は、ステップ４５２０において、トレーニングされた予測モデルにより、結合親和性を予測することを含んでもよい。予測モデルは、重み付け二値分類指標または畳み込みニューラルネットワーク（ＣＮＮ）を含むことができる。

方法４５００は、正規化されたデキストラマー配列データに基づき、複数のＴＣＲ配列を含むトレーニングデータセットを決定することを含んでもよく、それぞれのＴＣＲ配列は、結合親和性と関連する。トレーニングデータセットは、複数のＴＣＲ配列を含むことができ、それぞれのＴＣＲ配列は、結合親和性と関連する。トレーニングデータセットは、対のαβ鎖ＣＤＲ３アミノ酸配列、Ｖ遺伝子識別子、Ｊ遺伝子識別子、および結合親和性（例えば、はい／いいえ）を含むことができる。

方法４５００は、トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることを含んでもよい。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、畳み込みニューラルネットワーク（ＣＮＮ）をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、それぞれのＴＣＲ配列に適用した単一の翻訳インバリアント層、続いて、最終の出力層に三つの完全に結び付けた畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、クラス加重費用関数を適用することを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、学習した埋め込みを介して、ＴＣＲ配列のそれぞれの鎖のワンホットコード化されたＶおよびＪ遺伝子を埋め込むことによって、ニューラルネットワークをトレーニングすること、およびこれらの埋め込みを、それぞれのＣＤＲ３についての畳み込みニューラルネットワークの出力と一緒に連結し、埋め込みＣＤＲ３を供給し、ＴＣＲを表す１Ｄ数字ベクトルを形成すること、続いて、最終の完全に結び付けた層を介してそれぞれの数字ＴＣＲ配列を通過させることを含む。

一実施形態では、ＩＣＯＮモジュール１０８および／または予測モジュール１１０を、図４４に示す、方法４４００を行うよう構成してもよい。方法４４００は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法４４００は、４６０１において、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを受信することを含み得る。

方法４４００は、ステップ４６０２において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞の配列データに基づき、遺伝子の数を決定することを含み得る。

方法４４００は、ステップ４６０３において、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去することを含み得る。

方法４４００は、ステップ４６０４において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定することを含み得る。

方法４４００は、４６０５において、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含み得る。

方法４４００は、４６０６において、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定することを含んでもよく、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む。

方法４４００は、４６０７において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定することを含んでもよい。

方法４４００は、４６０８において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。

方法４４００は、４６０９において、最大の陰性対照デキストラマーシグナルおよび最大の選別されたデキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定することを含んでもよい。

方法４４００は、４６１０において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定することを含んでもよい。

方法４４００は、４６１１において、デキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。

方法４４００は、４６１２において、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞に結合する全てのデキストラマーの合計（細胞に対するデキストラマー結合特異性の測定値）に対する細胞内のデキストラマーシグナルの比を決定することを含んでもよい。デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞に結合する全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比を決定することは、ｉ^ｔｈＴ細胞結合ｊ^ｔｈデキストラマーについて、バックグラウンドノイズを減じたデキストラマーシグナルＥ_ｉｊを決定すること、および

を評価することによる、ｉ^ｔｈＴ細胞についてのｊ^ｔｈデキストラマーの結合に起因した、デキストラマーシグナルのフラクションを決定することを含んでもよい。

方法４４００は、４６１３において、デキストラマー配列データに表されるそれぞれの細胞の所定のＴＣＲクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のＴ細胞のフラクション（細胞が属するクローンタイプに対するデキストラマー結合特異性の測定値）を決定することを含んでもよい。デキストラマー配列データに表されるそれぞれの細胞の所定のＴＣＲクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のＴ細胞のフラクションを決定することは、ｉ^ｔｈＴ細胞のＴＣＲクローンタイプｋ_ｉを決定すること、デキストラマーに結合するクローンタイプｋ_ｉに属するＴ細胞数Ｔ_ｋｉｊを決定すること、および

を評価することによって、ｊ^ｔｈデキストラマーに結合するクローンタイプｋ_ｉに属するＴ細胞のフラクションを決定することを含んでもよい。

方法４４００は、４６４１において、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定することを含んでもよい。デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定することは、Ｓ_ｉｊ＝Ｅ_ｉｊ（ＲＣ_ｉｊ）^２ＲＴ_ｋｊを評価することによって、ｉ^ｔｈＴ細胞結合ｊ^ｔｈデキストラマーについての補正したデキストラマーシグナルを決定することを含んでもよい。

方法４４００は、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことを含んでもよい。

方法４４００は、４６１５において、デキストラマー配列データに表されるそれぞれの細胞について、ｐＭＨＣワイズ正規化を行うことを含んでもよい。

方法４４００は、４６１６において、閾値に基づき、正規化したデキストラマー配列データに残っているデータを、信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連すると識別することを含んでもよい。

当業者は、通常の実験だけを用いることで、本明細書に記載の方法および組成物の特定の実施形態の多数の同等物を認識し、または確認できる。かかる同等物は、以下の特許請求の範囲に包含されることが意図される。

Claims

単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のＴ細胞受容体（ＴＣＲ）配列データを含む単一の細胞配列決定データをコンピュータにより受信することと、
前記デキストラマー配列データから、前記単一の細胞配列データに基づき、遺伝子の数が遺伝子閾値範囲外の細胞又はミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することによって、低品質の細胞と関連するデータをコンピュータによりフィルタリングすることと、
前記デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞に関連するデキストラマーシグナルから、バックグラウンドノイズの測定値をコンピュータにより減算することと、
α鎖のみ、β鎖のみ、又は複数のα鎖又はβ鎖を有する細胞に関連するデータを除去することによって、前記デキストラマー配列データから、前記単一の細胞のＴＣＲデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをコンピュータによりフィルタリングすることと、
フィルタリングされたデキストラマー配列データに残っているデータを信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連するとコンピュータにより識別することと、を含むコンピュータにより実行される方法。
前記デキストラマー配列データから、前記単一の細胞配列データに基づき、低品質の細胞と関連するデータをコンピュータによりフィルタリングすることが、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、遺伝子の数をコンピュータにより決定することと、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションをコンピュータにより決定することと
を含む請求項１に記載の方法。
前記デキストラマー配列データに基づき、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む選別されたデキストラマー配列データ、および選別されていない試験デキストラマー配列データを含む、選別されていないデキストラマー配列データをコンピュータにより決定することと、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルをコンピュータにより決定することと、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルをコンピュータにより決定することと、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルをコンピュータにより決定することと、をさらに含む請求項１又は請求項２に記載の方法。
前記デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞に関連するデキストラマーシグナルから、バックグラウンドノイズの前記測定値を、コンピュータにより減算することが、
前記最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズをコンピュータにより推定することと、
前記最大の選別されたデキストラマーシグナルおよび前記最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率をコンピュータにより推定することと、
前記デキストラマー結合バックグラウンドノイズおよび前記デキストラマー選別ゲート効率に基づき、バックグラウンドノイズの前記測定値をコンピュータにより決定することと
を含む請求項３に記載の方法。
前記デキストラマー配列データから、前記単一の細胞のＴＣＲデータに基づき、前記α鎖または前記β鎖の前記存在または前記非存在によるデータをコンピュータによりフィルタリングすることが、
前記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞のＴＣＲ配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在をコンピュータにより決定すること
を含む請求項１から請求項４のいずれか一項に記載の方法。
前記デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、前記細胞に結合する全てのデキストラマーの合計に対する前記細胞内のデキストラマーシグナルの比を、コンピュータにより前記細胞に対する前記デキストラマーの結合特異性の測定値として決定することと、
前記デキストラマー配列データに表されるそれぞれの細胞の所定のＴＣＲクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のＴ細胞のフラクションを、コンピュータにより前記細胞が属する前記クローンタイプに対する前記デキストラマー結合特異性の測定値として決定することと、
前記デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、前記細胞への前記デキストラマー結合特異性の前記測定値および前記細胞が属する前記クローンタイプへの前記デキストラマー結合特異性の前記測定値に基づき、前記細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルをコンピュータにより決定することと、をさらに含む請求項５に記載の方法。
予測モデルを、前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、コンピュータによりトレーニングすることをさらに含む方法であって、前記予測モデルを、前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、コンピュータによりトレーニングすることが、
前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、それぞれのＴＣＲ配列が結合親和性と関連する複数のＴＣＲ配列を含むトレーニングデータセットをコンピュータにより決定することと、
前記複数のＴＣＲ配列に基づき、前記予測モデルについての複数の特性をコンピュータにより決定することと、
前記トレーニングデータセットの第一の部分に基づき、前記複数の特性による前記予測モデルをコンピュータによりトレーニングすることと、
前記トレーニングデータセットの第二の部分に基づき、前記予測モデルをコンピュータにより試験することと、
前記試験に基づいて、前記予測モデルをコンピュータにより出力することと、を含む請求項１から請求項６のいずれか一項に記載の方法。
前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、それぞれのＴＣＲ配列が結合親和性と関連する複数のＴＣＲ配列を含む前記トレーニングデータセットをコンピュータにより決定することが、
前記複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、対のαβ鎖ＣＤＲ３アミノ酸配列、Ｖ遺伝子セグメント配列、およびＪ遺伝子セグメント配列をコンピュータにより決定することと、
前記複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、前記対のαβ鎖ＣＤＲ３アミノ酸配列、前記Ｖ遺伝子セグメント配列、および前記Ｊ遺伝子セグメント配列をコンピュータにより１次元の入力ベクターにコードすることと、を含む請求項７に記載の方法。
前記複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、前記対のαβ鎖ＣＤＲ３アミノ酸配列をコードすることが、アミノ酸のそれぞれのアルファベット表示をコンピュータにより前記アミノ酸の数字表示に変換することを含む、請求項８に記載の方法。
前記複数のＴＣＲ配列のそれぞれのＴＣＲ配列について、前記Ｖ遺伝子セグメント配列および前記Ｊ遺伝子セグメント配列をコンピュータによりコードすることが、計算空間における遺伝子名の分類上かつ別々の表示を得るための一つのホットエンコーディングを含む、請求項８に記載の方法。
前記トレーニングデータセットの前記第一の部分に基づき、前記複数の特性による前記予測モデルをコンピュータによりトレーニングすることは、学習した埋め込みを介して、前記ＴＣＲ配列のそれぞれの鎖のワンホットコード化されたＶおよびＪ遺伝子を埋め込むことによって、ニューラルネットワークをコンピュータによりトレーニングすること、およびこれらの埋め込みを、それぞれのＣＤＲ３についての畳み込みニューラルネットワークの出力と一緒に連結し、前記埋め込みＣＤＲ３を供給し、前記ＴＣＲを表す１Ｄ数字ベクトルを形成すること、続いて、最終の完全に結び付けた層を介してそれぞれの数字ＴＣＲ配列を通過させることを含む、請求項１０に記載の方法。
一次元入力ベクターをコンピュータにより一つ以上のクラスターにクラスター形成することが、ＫＮＮクラスター形成するアルゴリズムを前記一次元入力ベクターに適用することをさらに含み、前記一つ以上のクラスターが、結合強度を示す、請求項８から請求項１１のいずれか一項に記載の方法。
トレーニングされた予測モデルに、未知のＴＣＲ配列をコンピュータにより提示することと、
前記トレーニングされた予測モデルにより、結合親和性を予測することと、をさらに含む請求項７から請求項１２のいずれか一項に記載の方法。
前記予測モデルに、対象ＴＣＲ配列データをコンピュータにより提示することと、
前記予測モデルにより、前記対象ＴＣＲ配列データに基づき、対象ＴＣＲ結合パターンをコンピュータによって決定することと、
抗原位置および前記対象ＴＣＲ結合パターンのリポジトリに基づき、ＴＣＲ配列データと関連する対象が、一つ以上の位置に移動した可能性をコンピュータにより決定することと、をさらに含む請求項７から請求項１２のいずれか一項に記載の方法。
信頼できるＴＣＲ－ｐＭＨＣ結合現象と関連する前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、対象についてのＴＣＲ結合パターンをコンピュータにより生成することと、
後続する時点において、前記対象について、第二の単一の細胞配列データ、第二のデキストラマー配列データ、および第二の単一の細胞のＴ細胞受容体（ＴＣＲ）配列データをコンピュータにより受信することと、
前記対象についての前記第二の単一の細胞配列データ、第二のデキストラマー配列データ、および第二の単一の細胞のＴ細胞受容体（ＴＣＲ）配列データに基づき、第二のＴＣＲ結合パターンをコンピュータにより決定することと、
前記対象についての前記ＴＣＲ結合パターンと前記第二のＴＣＲ結合パターンの比較に基づき、前記対象をコンピュータにより識別することと、をさらに含む請求項１から請求項１４のいずれか一項に記載の方法。