JP7428825B2 - 受容体相互作用の分析のための方法およびシステム - Google Patents

受容体相互作用の分析のための方法およびシステム Download PDF

Info

Publication number
JP7428825B2
JP7428825B2 JP2022564343A JP2022564343A JP7428825B2 JP 7428825 B2 JP7428825 B2 JP 7428825B2 JP 2022564343 A JP2022564343 A JP 2022564343A JP 2022564343 A JP2022564343 A JP 2022564343A JP 7428825 B2 JP7428825 B2 JP 7428825B2
Authority
JP
Japan
Prior art keywords
dextramer
tcr
data
sequence data
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022564343A
Other languages
English (en)
Other versions
JP2023524654A (ja
Inventor
チャン、ウェン
ホー、ジン
グプタ、ナミタ
エス. アトワル、グリンダ
ホーキンズ、ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2023524654A publication Critical patent/JP2023524654A/ja
Priority to JP2024009636A priority Critical patent/JP2024050692A/ja
Application granted granted Critical
Publication of JP7428825B2 publication Critical patent/JP7428825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)

Description

関連出願の相互参照
本出願は、2020年4月21日に出願された米国仮特許出願第63/013,480号、2020年10月12日に出願された米国仮特許出願第63/090,498号、および2020年11月9日に出願された米国仮特許出願第63/111,395号の優先権を主張するものである。これらの以前の出願の内容は、参照によりその全体が本明細書に組み込まれる。
T細胞受容体(TCR)を介して仲介されるT細胞抗原特異性は、細胞免疫の顕著な特徴である。TCRは、T細胞表面上に存在するヘテロ二量体タンパク質であり、一般に、α鎖およびβ鎖からなる。TCRαおよびβ鎖遺伝子は、T細胞発生中に体細胞組み換えにより結合される、別々のV、D(β鎖のみ)およびJセグメントから構成される。この遺伝子再構成は、ウイルス感染および他の病原体誘導性疾患の効率的な制御を確実にするために、高度に多様なTCRレパートリー(ヒトにおいて1015~1061の可能性と推定される)を生じる。TCR多様性は、相補性決定領域(CDR)ループ(CDR1、CDR2、およびCDR3)に主に示され、これらは、主要組織適合複合体(MHC)タンパク質によって提示されるペプチドと結合し、それゆえ、T細胞pMHC結合の特異性を直接決定する。
TCR-pMHC認識の根底にある因子は、十分には理解されていないが、最近の研究は、特定のpMHCに結合するT細胞が、共通のTCR配列特性を共有することを示しており、選択された場合には、学習したTCR配列特性に基づいて、見えないTCR配列の特異的結合確率を予測することが可能である。しかしながら、これらの研究は、従来の単一多量体ソーティングアッセイまたは抗原再曝露アッセイによって生成される訓練データの量および多様性によって制限された。TCR-pMHC特異的結合のさらなる理解には、計算方法と実験方法の両方における革新が必要である。10xGenomicsは、最近、特徴がバーコード化されたデキストラマーと単一細胞TCR配列決定を結びつける、高度に多重化されたプールされたデキストラマー結合免疫プロファイリングプラットフォームから得たデータセットを公開した。このアプローチは、対のT細胞αおよびβ鎖配列を用いて単一細胞レベルで高次元pMHC特異的結合データを生成することを可能にする一方で、他の大規模なプールした多量体アプローチは、pMHC特異的結合T細胞の組成物を推定するのみである。
他のハイスループット技術と同様に、高度に多重化されたデキスター結合データは、しばしば低いシグナル対ノイズ比と関連付けられる。これにより、そのような大規模な結合データセットを使用してTCR-pMHC結合現象を確実に識別することがバイオインフォマティクス的に困難である。10×Genomicsが提供した結合現象から、予想外に高いHLA間およびpMHC間の関連が観察された(図11A)。この低いシグナル対ノイズデータセットは、真のTCR-pMHC結合現象を非特異的バックグラウンドから区別するためのより高度な計算正規化方法を必要とする。
次世代スクリーニング技術により、利用可能なTCR-pMHC結合データの量が増大してきたため、TCR-pMHC特異的認識を計算的に検証し、続いて予測するための最先端の機能的分類指標がより実行可能となった。初期のTCR-pMHC結合分類指標の結果は奨励されているが、それらは、CDRループ配列を使用してのみ照準化されたため、全長TCR配列から全体的な複雑な配列パターンを学習することができず、高度に多様なpMHC結合TCRについての最適ではない予測精度をもたらした。複雑なパターンを学習するディープラーニングアルゴリズムの能力を利用して、大規模で高度に複雑なTCR配列データセットの結合パターンを明らかにするためのいくつかのディープラーニングフレームワークが最近提案されている。
本研究では、高度に多重化されたデキストラマー結合データを使用して、TCR-pMHC特異的認識をマッピングし、計算で検証し、予測するための計算フレームワークが記載される。
単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを含む単一の細胞配列決定データを受信すること;デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリングすること;バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること;デキストラマー配列データから、単一の細胞のTCRデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすること;ならびに信頼できるTCR-pMHC結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。
単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを受信すること;デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、遺伝子の数を決定すること;デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること;デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること;デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去すること;デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定すること、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データおよび選別されていないデキストラマー配列データを含み、選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含む;デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること;デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること;デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルを決定すること;最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること;最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定すること;デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズの測定値を決定すること;デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じること;デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うこと;デキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うこと;デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること;正規化されたデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去すること;並びに正規化されたデキストラマー配列データに残っているデータを信頼できるTCR-pMHC結合現象と関連すると識別することを含む方法が、開示される。
デキストラマー配列データにおいてTCR-pMHC結合特異性データ正規化を行い、複数のTCR-pMHC結合現象を識別すること;正規化されたデキストラマー配列データに基づき、複数のTCR配列を含むトレーニングデータセットを決定すること、それぞれのTCR配列は、結合親和性と関連する;複数のTCR配列に基づき、予測モデルについての複数の特性を決定すること;トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすること;トレーニングデータセットの第二の部分に基づき、予測モデルを試験すること;および試験に基づき、予測モデルを出力することを含む方法が、開示される。
トレーニングされた予測モデルに、未知のTCR配列を提示すること、トレーニングされた予測モデルは、開示される方法によりもたらされたトレーニングデータセットに基づき、トレーニングされる;およびトレーニングされた予測モデルにより、結合親和性を予測することを含む方法が、開示される。
単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを受信すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去すること、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定すること、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること、最大の陰性対照デキストラマーシグナルおよび最大の選別されたデキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、デキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去すること、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞への全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比(細胞へのデキストラマー結合特異性の測定値)を決定すること、デキストラマー配列データに表されるそれぞれの細胞の所定のTCRクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のT細胞のフラクション(細胞が属するクローンタイプに対するデキストラマー結合特異性の測定値)を決定すること、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うこと、デキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うこと、ならびに閾値に基づき、正規化されたデキストラマー配列データに残っているデータを、信頼できるTCR-pMHC結合現象と関連すると識別することを含む方法が、開示される。
開示される方法のいずれかを行うよう形成された装置が開示される。
装置が開示される方法のいずれかを行うよう形成された、プロセッサが実行可能な指示実施形態を有する、コンピュータ可読媒体が開示される。
開示される方法および組成物のさらなる利点は、一部が、以下の記載において記載されるか、一部が、記載から理解されるか、または開示される方法および組成物の実施によって学んでもよい。開示される方法および組成物の利点は、添付の特許請求の範囲において特に指摘されている要素および組み合わせによって実現され、達成されるであろう。前述の一般的な説明および以下の詳細な説明は両方とも、請求される本発明の、あくまで例示的かつ説明的なものであって、限定的なものではないことを理解されたい。
本明細書において援用され、かつ本明細書の一部を成す添付の図面は、開示される方法および組成物のいくつかの実施形態を例証し、説明と共に、開示される方法および組成物の原理を説明する役割を果たすものである。
図1は、例示的な操作環境を示す。
図2は、マルチオミクスハイスループットTCR-pMHC結合データを生成するための実験アプローチを示し、健康なヒトドナー由来のPBMC T細胞を、CD8+細胞上でソーティングするために標識した。選別したCD8+ T細胞を、50個のdCODEデキスター抗体のプールで染色した。デキストラマー陽性CD8+T細胞をフローサイトメトリーにより選別し、10×Genomics単一細胞配列決定ライブラリー調製のための入力として個別に捕捉した。遺伝子発現、細胞表面タンパク質/dCODE発現、それぞれのCD8+T細胞についての対のTCR配列について三つのライブラリーを生成した。
図3は例示的な方法を示す。
図4は例示的な方法を示す。
図5は例示的な方法を示す。
図6AおよびBは、ICON(Integrative COntext-specific Normalization)ワークフロースキームの例を示す。a.左上から左下に:I.UMI(固有分子識別子)におけるdCODEデキストラマー未加工の発現の分布。Dex_選別した(デキストラマー選別したCD8+T細胞由来のデキストラマーの検査である最大のUMI)、NC_dex(デキストラマー選別したCD8+T細胞由来の陰性対照デキストラマーの最大のUMI)およびDex_選別していない(選別した対照CD8+細胞ではなく、染色したデキストラマーの検査である最大のUMI)由来のそれぞれのCD8+細胞における、UMIにおける最大のdCODEデキストラマー発現。II.単一細胞RNA-seqに基づく低品質の細胞の濾過。それぞれの点は、T細胞である。赤色の点は、健康でない細胞である。III.dCODEデキストラマー発現データに基く、デキストラマー結合バックグラウンドノイズ(P99.9)およびデキストラマー選別ゲート効率(argmaxDs,u)の推定。IIII.Max(P99.9,argmaxDs,u)を減ずることによる、バックグラウンドノイズの調節。V.バックグラウンド減算したデキストラマー発現の細胞およびpMHCワイズ正規化。VI.単一の対TCR αβ鎖を有する細胞の選択。VII.正規化したデキストラマー発現の分布。UMI:正規化したUMI。詳細については、方法を参照されたい。b.拡大したTCRクローンタイプのTCR-pMHC結合特異性。ドナー1由来の最大50個のTCRクローンを、それらの結合特異性および一致と共にプロットする。円は、クローンタイプの少なくとも一つのメンバーを、特定のpMHCに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す(「結合一致」)。左のパネル:10×Genomicsが、網羅的カットオフを使用して識別した最大50個のクローンタイプ。右のパネル:ドナー1の10×Genomics最大50個のクローンタイプを含有するpMHCレパートリー由来の最大50個のクローンタイプ。 同上。
図7A~7Eは、10×Genomicsデキストラマー結合データのpMHC結合ランドスケープを示す。a.識別したpMHC特異的結合T細胞レパートリーのネットワーク。それぞれのノードは、pMHCレパートリーおよびそのpMHCに結合するそれぞれのドナー由来の固有の対TCRの数の円チャートを表す。ドナー1は灰色であり、ドナー2は赤色であり、ドナー4は黄色である。ノードサイズは、そのpMHCに結合するT細胞の総数を示す。それぞれのエッジは、二つのpMHCが共有する固有のTCRを表す。エッジの厚さは、共有した固有のTCRの数を表す。b.識別したバインダーの大部分は、七つのpMHCと相互作用する。c.ドナー1、ドナー2およびドナー3から識別した固有の対の結合TCRのベン図。d.固有の対TCRαβ鎖の組成。TCRBにより、1対1は、1つの固有のTCRα鎖と対形成した1つの固有のTCRβ鎖を意味し;1対>=2および同一のpMHCへの結合は、共有したβ鎖と固有の対のTCRを意味するが、異なるα鎖は、同じpMHCを認識し;1対>=2および>=2のpMHCへの結合は、共有したβ鎖と固有の対のTCRを意味するが、異なるα鎖は、異なるpMHCを認識する。TCRAにより、1対1は、1つの固有のTCRβ鎖と対形成した1つの固有のTCRα鎖を意味し;1対>=2および同一のpMHCへの結合は、共有したα鎖と固有の対のTCRを意味するが、異なるβ鎖は、同じpMHCを認識し;1対>=2および>=2のpMHCへの結合は、共有したα鎖と固有の対のTCRを意味するが、異なるβ鎖は、異なるpMHCを認識する。e.TCR-pMHC結合特異性およびTCR交差HLA認識。左、一つのpMHCまたは少なくとも2つのpMHCへのT細胞結合の円チャート。右、T細胞の円チャート:HLAタイプ一致結合、スーパータイプ一致結合または交差タイプ結合。 同上。 同上。 同上。 同上。
図8A~8Dは、TCR-pMHC結合TCRの分類に基づく畳み込みニューラルネットワーク(CNN)を示す。a.CNNベースのTCR配列分類フレームワーク。左パネル、VおよびJセグメント(アルファおよびベータ由来)を、埋め込みベクターに形質転換した。CDR3アルファ配列またはベータ配列を構成するアミノ酸のため、トレーニング可能な埋め込みを使用し、1次元CNNを埋め込みに適用した。次いで、全ての埋め込みを一緒に連結し、連結した層を通して供給した。次いで、SoftMax層を使用して、配列クラスの確率を出力した。右のパネルは、トイの例が、ディープラーニング配列分類指標の入力および出力を説明する。詳細については、方法のセッションを参照されたい。b.11の精選した対のTCR pMHC結合レパートリーを使用した、二項モードを有するCNNベースの分類指標のROC曲線。バインダーは、特定のpMHCに結合した固有のTCRであり、非バインダーは、他の10個のpMHCに結合した固有のTCRである。対のαおよびβTCR配列を入力データとして使用した。c.bにおいて記述したように、バインダーおよび非バインダーについて同じ定義を有するCNNベースと距離ベースの二進法分類指標の間の分類力の比較。対のαおよびβ TCR配列を、入力データ(方法)として使用した。d.シャノンエントロピーによって測定したpMHCレパートリー多様性と、CNNベースと距離ベースの分類指標の間の予測性能の相関。ΔAUC=CNNベースのAUC-距離ベースのAUC。 同上。 同上。 同上。
図9A~4Eは、10×Genomicsデータセットから識別した上位7つのpMHC結合レパートリーのCNNベースの分類を示す。a.10×Genomicsハイスループットデータセットから識別した7個のpMHC結合レパートリーを使用した、二項モードでのCNNベースの分類指標のROC曲線。バインダーは、特定のpMHCに結合した固有のTCRであり、非バインダーは、他の6個のpMHCに結合した固有のTCRである。対のαおよびβ TCR配列を、入力データとして使用した。b.VDJdb由来の独立した試験データセット:A02:01_GILGFVFTL_Flu-MP_インフルエンザ、A02:01_ELAGIGILTV_MART-1_癌、A02:01_GLCTLVAML_BMLF1_EBVおよびA11:01_AVFDRKSDAK_EBNA-3B_EBVに結合するT細胞ならびに院内の独立した実験(方法)のMART-1(REGN_A02:01_ELAGIGILTV_MART-1_癌)バインダーの別のセットを使用したCNNベースの分類指標の予測結果のROC曲線。モジュールを、予測のため10×Genomicsデータから識別したpMHCレパートリーによってトレーニングした。c.TCRαのみ、TCRβのみまたは対のTCRαおよびβ鎖を配列入力として使用した分類性能比較。d.これら七つのpMHCに結合するT細胞についてのT細胞VおよびJ遺伝子セグメントの使用。5%未満の遺伝子セグメントを組み合わせて、灰色で示した。e.7つのpMHCレパートリーからの10個の最も予測可能な対のTCRのCDR3モチーフ。 同上。 同上。 同上。 同上。
図10A~10Eは、pMHC結合CD8+T細胞の免疫表現型を示す。a.pMHC結合細胞の分類。クラスターを、UMAPによって可視化し、細胞タイプを、異なる色によって表した。b.CD8+T細胞部分集団を注釈付けするための細胞タイプマーカー遺伝子の遺伝子またはタンパク質発現のヒートマップ。C.T細胞免疫サブタイプによるpMHC結合ランドスケープ。バーは、log2スケールのpMHC結合T細胞の数を示す。d.拡大したクローンタイプを、クロノタイプは、未感作でない区画で濃縮する。それぞれの点は、固有のTCRクローンを表す。e.ナイーブおよび非ナイーブ結合T細胞におけるHLA一致およびミスマッチ結合の割合。Tpm:末梢メモリー細胞;Tcm:中心メモリー細胞;Tem:エフェクターメモリー細胞;Temra:高分化したエフェクターメモリー細胞;その他:マーカー発現CD43loKLRG1hiCD127を有する他のメモリー細胞。 同上。 同上。 同上。 同上。
図11A~11Bは、10×Genomicsがそれぞれのドナーから識別した結合現象から拡大したクローンタイプのTCR-pMHC結合特異性を示す。最大50個のクローンタイプを、それらの結合特異性および一致と共にプロットする。a.円は、クローンタイプの少なくとも一つのメンバーを、特定のpMHCに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す(「結合一致」)。b.10×Genomicsドナー3および4(方法)CD8+T細胞 デキストラマー結合の再評価の細胞選別結果の散布図。 同上。 同上。 同上。 同上。
図12A~12Fは、10×Genomicsハイスループットデータのバックグラウンドの推定およびデキストラマー結合シグナルの調節の例である。Dex_選別した(デキストラマー選別したCD8+T細胞由来のデキストラマーの検査である最大のUMI)、NC_dex(デキストラマー選別したCD8+T細胞由来の陰性対照デキストラマーの最大のUMI)およびDex_選別していない(選別した対照CD8+細胞ではなく、染色したデキストラマーの検査である最大のUMI)。a.単一の細胞のRNAデータを使用した、検出した遺伝子の数対ミトコンドリア遺伝子発現のパーセンテージの散布図。それぞれの点は、細胞を表す。赤色の点は、死細胞または二重項である。b.ICONプロセス前後のデキストラマー発現データの分布。Cおよびd.デキストラマー選別効率の推定。c.デキストラマーUMIの蓄積した分布。それぞれのドットは、固有のデキストラマーUMIのデータ点である。d.一つのデキストラマーUMIデータ点をスライディングウィンドウとして使用したKS試験(Dex_選別した対Dex_選別していない)のp値分布。灰色の破線は、デキストラマー選別効率の閾値である。e.それぞれのドナーについてのバックグラウンド減算の前(x軸)および後(y軸)のDex_選別したの散布図。f.E’e密度分布。E’e:細胞(方法)内のそれぞれのデキストラマーシグナルの対数ランク。青色の破線は、pMHC特異的結合の閾値についてである。 同上。 同上。 同上。 同上。 同上。
図13A~13Cは、3人のドナーのこの研究によって識別した拡大したクローンタイプの結合特異性を示す。最大50個のT細胞クローンを、それらの結合特異性および一致と共にプロットする。円のサイズは、T細胞クローンサイズを示す。円の色は、結合一致である、デキストラマーに結合するクローン内の細胞の割合を示す。 同上。 同上。
図14Aおよび14Bは、精選したpMHC結合レパートリーを使用した距離ベースの分類指標のROC曲線を示す。b.精選したpMHC結合レパートリーについてのシャノンエントロピースコア。 同上。
図15A~15Cは、上位7つのpMHC結合T細胞レパートリーの特徴を示す。a.T細胞結合一致、一致スーパータイプおよび不一致のHLAタイプの割合の円チャート。b.上位7つのpMHC結合レパートリーの固有のT細胞クローンサイズのべき法則。回帰スムージングを、フィッティングのため使用した。c.TCR-pMHCレパートリーのシンプソンズ多様性指標およびTCRB生成確率。Rパッケージビーガンを、シンプソンズ多様性指標を計算するため使用した。それぞれのpMHCに特異的なバインダーのTCRB CDR3アミノ酸配列生成確率を、OLGAを使用して計算した。次いで、それぞれのpMHCに特異的なレパートリー(赤色の三角形によって表す)のフラクションを、Sethnaらが記載したように、対応するCDR3配列のそれぞれについての生成確率の和として得る。結果は、これらのpMHCに特異的なTCRの正味フラクションが、独立したTCR組み換え現象の数(10)の逆数によって定義される意味において大きい(10~10の範囲)ことを示し、これは、任意の個体が、それらのTレパートリーにこれらの結合T細胞を有する可能性が高いことを意味する。TCRB生成確率図におけるそれぞれの点は、固有のT細胞クローンを表し、色のついたバーは、T細胞クローンサイズを示す。 同上。 同上。
図16A~16Cは、TCR-pMHC結合TCRの分類を示す。a.α鎖のみ、β鎖のみおよび対のαβ鎖を使用した、pMHCバインダーおよび非バインダーの距離と距離の分布。b.10×Genomicsハイスループットデータセットから識別した上位7つのpMHC結合レパートリーを使用した距離ベースの分類指標についてのROC曲線。対のαおよびβTCR配列を入力データとして使用した。c.CNNベースおよび距離ベースの分類指標の分類力の比較。 同上。 同上。
図17Aおよび17Bは、VDJdbの重複由来の四つのpMHC結合レパートリーおよび10×Genomicsハイスループットデータから識別した上位7つのpMHCレパートリーのCDR3モチーフを示す。b.10×Genomicsハイスループットデータセットから識別した7つのpMHC結合レパートリーを使用した、多項様式のCNNベースの分類指標についてのROC曲線。対のαおよびβTCR配列を入力データとして使用した。 同上。
図18Aおよび18Bは、単一の細胞のRNA-seqデータを使用したpMHC結合CD8+細胞のクラスターの例を示す。a.クラスター数による。b.ドナー情報を用いてオーバーレイ。 同上。
図19は、開示した研究において使用したT細胞ドナーについての情報を含む表である。
図20は、開示された研究において使用されたdCODEデキストラマー試薬およびNetMHCペプチドHLA対立遺伝子結合予測のリストである。
図21は、pMHC-TCR結合現象の概要を示す表である。
図22は、TCR-pMHCレパートリー多様性およびペプチド特性を示す。
図23は、VDJdbおよびMcPASから照合した11個のpMHCレパートリーの概要を示す。
図24は、10×Genomicsによって識別したバインダーにおいて拡大したTCRクローンタイプpMHCの特異性を示す。ドナー1~4由来の最大50個のTCR細胞クローンを、それらの結合特異性および一致と共にプロットする。円は、クローンタイプの少なくとも一つのメンバーを、特定のpMHCに特異的であると分類したことを示す。円のサイズは、ドナー内クローンタイプサイズの合計を示す。円の色は、デキストラマーに結合するクローンタイプ内の細胞の割合を示す(「結合一致」)。 同上。 同上。 同上。
図25A~Gは、ハイスループットpMHC結合データからのpMHC結合T細胞の識別および特徴を示す。(A)ICON(統合COntext特異的正規化)ワークフロースキーム。RT:特定のデキストラマーに結合するクローン内のT細胞のフラクション;RC:細胞に結合する全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比。(B)ICONにより識別したデキストラマーバインダーのpMHC結合ランドスケープネットワーク。それぞれのノードは、pMHCレパートリーを表し、pMHCに結合するそれぞれのドナー由来の固有の対TCRの数の円チャートとして提示する。ノードサイズは、所定のpMHCに結合する固有のTCRの総数を示す。それぞれのエッジは、二つのpMHCが共有する固有のTCRを表す。エッジの厚さは、共有した固有のTCRの数を表す。エッジの厚さは、共有した固有のTCRの数を表す。(C)pMHC結合T細胞の存在量と比較して推定した単一のデキストラマー結合とICONにおけるフローソーティングの結果の相関。検証のためのデキストラマーの数は、21である。(D)ドナー1、2、3、4およびVの間で識別したpMHC結合TCRの固有さおよび重複。(E)識別したバインダーの大部分は、九つのpMHCと相互作用する。(F)これらの九つのpMHCへのT細胞結合のためのVおよびJ遺伝子セグメント利用。5%未満の遺伝子セグメントを合わせて、灰色で示した。(G)HLA型拘束性および非拘束性結合。 同上。 同上。 同上。 同上。 同上。 同上。
図26A~Dは、ICONを使用してハイスループットデータの処理を示す。(A)単一の細胞のRNAデータを使用した検出した遺伝子の数対ミトコンドリア遺伝子発現のパーセンテージの散布図。それぞれの点は、細胞を表す。赤色の点は、死細胞または二重項である。(B)陰性対照および試験デキストラマー由来のUMIにおけるデキストラマーシグナルの分布。Sorted_nc:陰性対照デキストラマー;選別した_dex:試験デキストラマー。(C)RT対RCの散布図。RCは、T細胞に結合する全てのデキストラマーの総和に対する細胞内のデキストラマーシグナルの比である。RTは、特定のデキストラマーに結合するクローン内のT細胞のフラクションである。(D)ICONが識別したpMHC結合T細胞の階層クラスター。それぞれの列は、デキストラマーであり、カラムは、T細胞である。 同上。 同上。 同上。
図27は、ドナーV由来のデキストラマーT細胞の蛍光活性化ソーティング(FACS)のためのプールしたデキストラマーFACSゲーティングを示す。
図28A~Bは、単一のオリゴ-デキストラマーソーティングを示す。(A)デキストラマー陽性T細胞の蛍光活性化ソーティング(FACS)のための代表的なゲーティング。T細胞を、以前にドナーV末梢血単核細胞(PBMC)から濃縮し、次いで、単一のオリゴ-デキストラマーを用いて染色した。以下の連続ゲーティングストラテジーを利用して、ソーティングのため所望のデキストラマー+集団を単離した。(B)それぞれの21の試験デキストラマーおよび二つの陰性対照デキストラマーについての単一のオリゴ-デキストラマー細胞ソーティング結果の散布図。 同上。
図29は、ハイスループットpMHC結合データから識別したpMHC-TCR 結合現象ICONの概要を示している表である。
図30A~Bは、ハイスループットデータセット由来のICONにより識別したpMHC結合T細胞の特徴を示す。(A)上位九つの最も大量のpMHC結合T細胞レパートリーの固有のT細胞クローンサイズのべき法則。(B)上位九つのpMHCレパートリーのシャノン多様性スコア。 同上。
図31A~Cは、TCRAIモデルおよびゴールドスタンダードデータセットの性能を示す。(A)CDR3、およびV、αとβ鎖の両方のJ遺伝子の入力を受信するモデルのTCRAIフレームワークの概略図。トレーニングしたTCRAIモデルは、所定のTCRについての数値フィンガープリントおよび予測を生じる。(B)8つの精選した公開TCR-pMHC結合レパートリーを使用したTCRAI分類性能についてのROC曲線。バインダーは、特定のpMHCに結合する固有のTCRであり、非バインダーは、他のpMHCに結合する固有のTCRである。対のαおよびβTCR配列を入力データとして使用した。FPR:偽陽性率;TPR:真陽性率。(C)分類性能比較。TCRAIを、予測分類指標NetTCR、TCRdistおよびDeepTCRと比較した。NetTCRおよびTCRdistのROC曲線下面積(AUC)スコアを、デフォルトパラメータを有するオリジナルの分類指標を使用して生成した。DeepTCR(多項分類指標)のAUCスコアを、これらの二項分類指標NetTCRおよびTCRdistと比較するために、わずかに改変したバージョンおよびハイパーパラメータ最適化バージョンのDeepTCR(方法)から導出した。比較のため、TCRAIの二項モードを使用した。 同上。 同上。
図32A~Cは、TCR抗原特異性分類指標(aおよびb)のROC性能を示す。(c)は、ハイスループットデータセットから識別した九つのpMHC結合レパートリーを使用した多項様式のTCRAIのROC曲線を示す。対のαおよびβTCR配列を入力データとして使用した。FPR:偽陽性率;TPR:真陽性率。 同上。 同上。 同上。
図33は、TCR抗原特異性分類指標の比較を示す表である。
図34A~Dは、ハイスループットデータセットにおけるTCRAI性能を示す。(A)上位九つの最も大量のpMHC結合レパートリーにおけるTCRAIのROC曲線。バインダーは、特定のpMHCに結合する固有のTCRであり、非バインダーは、他のpMHCに結合する固有のTCRである。対αおよびβTCR配列を、入力データとして使用した。FPR:偽陽性率;TPR:真陽性率。(B)TCRαのみ、TCRβのみまたは対TCRαおよびβ鎖を配列入力として使用した分類性能比較。(C)精選した公開データセットとハイスループットデータセットの間の四つの重複pMHCレパートリーの独立した試験由来のROC曲線。TCRAIを、ハイスループットデータセットから識別し、精選した公開データセットにおいて試験したpMHCレパートリーによってトレーニングした。(D)トレーニング(ハイスループットデータ)とハイスループットトレーニングしたモデルから抽出した試験(「ゴールドスタンダード」データ)TCRAIフィンガープリントの両方のUMAP。A02:01_ELAGIGILTV_MART-1_癌トレーニングと試験セットの間の強力な重複を示し、一方、A02:01_NLVPMVATV_pp65_CMVトレーニングと試験データセットの間の乏しい重複を、右のパネルに示す。黒色の円は、結合TCRの重複フィンガープリントがほとんどない領域を強調する。 同上。 同上。 同上。
図35は、ハイスループットデータセットから識別した九つのpMHC結合レパートリーを使用した、多項様式のTCRAIについてのROC曲線。対のαおよびβTCR配列を入力データとして使用した。FPR:偽陽性率;TPR:真陽性率。
図36A~Bは、異なるデータセットにおいてトレーニングしたモデル間のTCRAIフィンガープリント比較を示す。(A)ハイスループットと、図3dに示していない二つの事例についてハイスループットデータトレーニングしたモデルによって生成した「ゴールドスタンダード」TCRフィンガープリントの比較は、両方の事例において良好な重複バインダーを示す。(B)推論問題を逆に行った:「ゴールドスタンダード」データを用いてモデルをトレーニングすること、ならびに「ゴールドスタンダード」およびハイスループットTCRのフィンガープリントを計算すること。A02:01_NLVPMVATV_pp65/CMVの事例について、交差データセット性能が低い場合、多くのドナー由来のTCRを含有する「ゴールドスタンダード」データにおいてトレーニングしたモデルは、結合TCRの大きな群を分ける。しかしながら、ハイスループット結合TCRは、主に単一のドナーから来ており、このドナーは、より広範な集団において生じる結合TCRの範囲を十分に表していないTCR空間の小さなクラスター由来の結合TCRのみを有する。黒色の円は、ハイスループットデータに固有のTCRを強調する。 同上。
図37A~Gは、TCR群の特徴を示す。(A)A02:01_GILGFVFTL_Flu-MP_インフルエンザバインダーを予測するためのトレーニングしたモデルによるハイスループットデータセットから識別した高信頼性TCRのTCRAIフィンガープリントのクラスター形成により、二つのTCRクラスター:クラスター0(橙色)およびクラスター1(緑色)が明らかになる。(B)クラスター0および1のデキストラマーシグナル(UMI)分布。(C)Fluペプチド結合TCRのこれら二つのクラスターにおける保存CDR3モチーフおよび遺伝子使用。クラスター0について、重要な変動が、一つのプロットにおいて見ることができるように、遺伝子使用を、30の最も一般的な固有の四重項について示す。(D)クラスター0のTCR(PDB 2VLJ)およびクラスター1のTCR(PDB 5JHD)についてのFluペプチド結合TCR-pMHC結合複合体の3D構造。上のパネルにおいて、Phe-5環の0.4nm(4Å)以内の非ペプチド残基(ピンク色の-鎖、青色の-鎖は、緑色のMHC)のみを示す。下側のパネルにおいて、クラスター0とクラスター1のTCR-pMHC結合複合体のペプチド構造の比較。(E)ハイスループットデータセット由来のA*02-01_GLCTLVAML_BMLF1_EBVへの結合が高信頼性であるTCRのTCRAIフィンガープリントのクラスター形成。(F)EBVペプチド結合クラスター0~2のデキストラマーシグナル(UMI)分布。(G)EBVペプチド結合TCRのこれら三つのクラスターにおける保存CDR3モチーフおよび遺伝子使用。 同上。 同上。 同上。 同上。 同上。 同上。
図38A~Fは、pMHC結合CD8+T細胞の免疫表現型を示す。(A)pMHC結合細胞の分類。クラスターをUMAPによって可視化し、細胞タイプを異なる色で表した。(B)CD8+T細胞タイプマーカー遺伝子およびタンパク質の発現のヒートマップ。:CITE-seqにより測定したタンパク質発現。(C)T細胞免疫サブタイプによるpMHC結合ランドスケープ。バーは、log2スケールのpMHC結合T細胞の数を示す。(D)拡大したクローンタイプを、非ナイーブ区画において濃縮する。それぞれの点は、固有のTCRクローンを表す。(E)円チャートは、pMHC結合CD8+T細胞の亜集団を記載する。(F)ナイーブおよび非ナイーブ結合T細胞におけるHLA一致およびミスマッチ結合の割合。Tpm:末梢メモリー細胞;Tcm:中心メモリー細胞;Tem:エフェクターメモリー細胞;Temra:高分化したエフェクターメモリー細胞;その他:マーカー発現CD43loKLRG1hiCD127を有する他のメモリー細胞。 同上。 同上。 同上。 同上。 同上。
図39は、VJ遺伝子情報の重要性を示す。全入力または遺伝子入力のみを使用してトレーニングしたモデルを比較するときのAUCの誤差を、結果間の共分散の仮定なしで、それぞれのモデル(全または遺伝子)のAUCの誤差を伝播することによって計算する。それぞれのモデルについてのAUCの誤差は、MCCV中の最善のハイパーパラメータについての平均AUCとそれらのハイパーパラメータを用いてトレーニングした最終モデルの間の相違、またはMCCV中のAUCの標準偏差のいずれかであり、いずれか、大きい方であった。 △AUC=AUCfull-AUCgene
図40A~Bは、TCR群の特徴を示す。(A)図4eのフィンガープリント空間に示されるように、A02-01_GLCTLVAML_BMLF1_EBVについて識別した5つのTCRクラスター全てのデキストラマーシグナル分布。(B)EBVペプチド結合TCRクラスター3および4のモチーフおよび遺伝子使用。 同上。
図41は、例示的な操作環境を示す。
図42は、例示的な方法を示す。 同上。 同上。
図43は、例示的な方法を示す。
図44は、例示的な方法を示す。
図45は、例示的な方法を示す。
図46は、例示的な方法を示す。 同上。 同上。
下記の特定の実施形態およびそれに含まれる実施例についての発明を実施するための形態、ならびに図面およびその前後の説明を参照することによって、開示される方法および組成物についての理解を容易にすることができる。
A.用語の定義
当然のことながら、本開示の方法および組成物は、記載されている特定の方法論、プロトコルおよび試薬に限定されるものではない。理由はこれらが、変更される可能性があるからである。本明細書中に使用されている用語は、あくまで特定の実施形態を説明することを目的としたものであって、もっぱら添付の特許請求の範囲により限定される本発明の範囲を限定するものではないことも、理解すべきである。
本明細書および添付の特許請求の範囲において使用される場合、単数形「a」、「an」および「the」は、文脈が明確に別段示さない限り、複数への言及を含むことは、注意されなければならない。したがって、例えば、「TCR」への言及は、複数のかかるTCRを含み、「デキストラマー」への言及は、一つまたは複数のデキストラマーおよび当業者に高知のその均等物などへの言及である。
用語「対象」または「ドナー」は、哺乳類種(好ましくは、ヒト)または鳥類(例えば、トリ)種などの動物を指し得る。より具体的には、対象またはドナーは、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳類であってもよい。動物は、家畜、スポーツ動物、およびペットを含む。対象またはドナーは、健康な個体、症状もしくは徴候を有する個体または疾患もしくは疾患に対する素因を有する疑いのある個体、あるいは治療を必要とするかもしくは治療を必要とする疑いのある個体であり得る。一部の実施形態では、対象ドナーは、癌を有するか、または癌を有すると疑われるヒトなどのヒトである。
本明細書で使用される場合、用語「バーコード」は、概して、分子(例えば、デキストラマー、細胞)に付着して、分子についての情報を伝達することができる標識を指す。例えば、DNAバーコードは、それぞれのデキストラマーに結合したポリヌクレオチド配列であってもよく、共通配列決定バーコードは、配列決定中に結合したポリヌクレオチド配列であってもよい。次いで、このバーコードを、配列決定することができる。複数の配列上の同じバーコードの存在は、配列の起源についての情報を提供し得る。例えば、バーコードは、配列が特定のデキストラマーから来たことを示してもよい。バーコードはまた、配列が、特定の細胞/デキストラマーの組み合わせから来たことを示すこともできる。
本明細書で使用される場合、用語「配列決定」または「シーケンサー」は、生体分子、例えば、DNAまたはRNAなどの核酸の配列を決定するために使用される多数の技術のいずれかを指す。例示的な配列決定方法としては、標的配列決定、単一分子のリアルタイム配列決定、エクソン配列決定、電子顕微鏡ベースの配列決定、パネル配列決定、トランジスタ介在性配列決定、直接配列決定、ランダムショットガン配列決定、サンガージデオキシ末端配列決定、全ゲノム配列決定、ハイブリダイゼーションによる配列決定、パイロシークエンシング、二本鎖配列決定、サイクルシーケンシング、単一塩基伸長配列決定、固相配列決定、ハイスループット配列決定、超平行シグネチャシーケンシング、エマルションPCR、より低い変性温度PCR(COLD-PCR)での共増幅、マルチプレックスPCR、可逆的染料ターミネーターによる配列決定、対末端配列決定、短期配列決定、エキソヌクレアーゼ配列決定、ライゲーションによる配列決定、ショートリードシーケンシング、一分子配列決定、合成による配列決定、リアルタイムシーケンシング、逆ターミネーター配列決定、ナノポア配列決定、454配列決定、Solexa Genome Analyzer配列決定、SOLiD(商標)配列決定、MS-PET配列決定、およびその組み合わせが挙げられるが、これらに限定されない。一部の実施形態では、配列決定は、例えば、IlluminaまたはApplied Biosystemsから市販されている遺伝子アナライザーなどの遺伝子アナライザーによって行うことができる。
「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間結合によって結合されたヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、もしくはそのアナログを含む)の直鎖ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも三つのヌクレオシドを含む。オリゴヌクレオチドは、通常、数個の単量体単位、例えば、3~4個から数百個の単量体単位までのサイズ範囲に及ぶ。ポリヌクレオチドが、「ATGCCTG」などの文字の配列で表される場合、ヌクレオチドは、左から右に5’→3’の順であり、別段示されない限り、「A」は、アデノシンを示し、「C」は、シトシンを示し、「G」は、グアノシンを示し、「T」は、チミジンを示すことは、理解されるだろう。文字A、C、G、およびTは、当該技術分野で標準的なように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すように使用されうる。
用語「DNA(デオキシリボ核酸)」は、それぞれが、四つの核酸塩基、すなわち、アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)のうちの一つを含む、デオキシリボヌクレオシドを含むヌクレオチドの鎖を指す。用語「RNA(リボ核酸)」は、それぞれが、四つの核酸塩基、すなわち、A、ウラシル(U)、G、およびCのうちの一つを含む、四つのタイプのリボヌクレオシドを含むヌクレオチドの鎖を指す。ヌクレオチドの特定の対は、相補的な様式で互いに特異的に結合する(相補的塩基対と呼ばれる)。DNAでは、アデニン(A)は、チミン(T)と対形成し、シトシン(C)は、グアニン(G)と対形成する。RNAでは、アデニン(A)は、ウラシル(U)と対形成し、シトシン(C)は、グアニン(G)と対形成する。第一の核酸鎖が、第一の鎖のヌクレオチドに相補的であるヌクレオチドからなる第二の核酸鎖に結合するとき、この二つの鎖は、結合して、二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「フラグメント配列」もしくは「核酸配列決定読み取り」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、またはフラグメント)におけるヌクレオチド塩基の順序(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)示す任意の情報またはデータを示す。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的または間接的ヌクレオチド識別システム、パイロシーケンシング、イオンベースもしくはpHベースの検出システム、および電子署名ベースのシステムを含むが、これらに限定されない、すべての利用可能な様々な技術、プラットフォームまたは技術を使用して得られる配列情報を企図するkとは、理解されるべきである。
「任意選択的な」または「任意選択的に」は、後述されている事象、状況または材料が起こる場合もあれば起こらない場合もあるか、存在する場合もあれば存在しない場合もあることを意味すると共に、この記載には、前述の事象、状況または材料が起こる場合の例および起こらない場合の例、または存在する場合の例および存在しない場合が包含されることを意味する。
この明細書の記載および特許請求の範囲を通じて、語「含む(comprise)」およびこの語の変形、例えば「含む(comprising)」および「含む(comprises)」などは、「~を含むがこれに限定されない」を意味し、例えば、他の追加のもの、コンポーネント、整数、または工程を除外することを意図するものではない。特に、一つまたは複数のステップまたは動作を含むものとして記載される方法では、それぞれのステップが、列挙されているものを含むこと(そのステップが、「からなる」などの限定する用語を含まない限り)が具体的に企図されており、それは、それぞれのステップが、例えば、ステップに挙げられていない他の追加のもの、コンポーネントまたはステップを排除することが意図されていないことを意味している。
「例示的な」は、「の一例」を意味し、好ましい構成または理想的な構成の表示を伝達することを意図するものではない。「など」は、限定的な意味で使用されるものではなく、説明を目的に使用される。
本明細書では、範囲は、「約」一つの特定の値から、かつ/または「約」別の特定の値までとして表現される場合がある。こうした範囲が表されるとき、具体的に企図され、開示されることが考慮される範囲は、文脈が別途具体的に示さない限り、一つの特定の値からおよび/または他の特定の値の範囲である。同様に、値が近似値として表現されている場合には、先行する「約」を使用することにより、特定の値が別の実施形態を形成することが理解されるであろうし、具体的には、文脈が別途具体的に示さない限り、開示されることが考慮されるべき実施形態が企図される。これらの範囲の各々の終点は、文脈が別途具体的に示さない限り、他の終点と関連して、かつ他の終点とは独立して有意であることがさらに理解されるであろう。最後に、明示的に開示された範囲内に含まれる個々の値および値のサブレンジの全ても、具体的に企図されており、文脈が別段示さない限り、開示されているとみなされるべきであることが理解されるべきである。前述は、特定の事例において、これらの実施形態の一部またはすべてが明示的に開示されているか否かにかかわらず、適用される。
B.信頼できる受容体-pMHC結合を識別する方法およびその使用方法
一部の態様では、記載される方法およびシステムは、マルチオミクスハイスループット結合データを分析することによって、信頼できるTCR-pMHC結合を識別することができる。方法およびシステムは、本明細書では、ICON(統合COntext特異的正規化)と呼ばれてもよい。
単一の細胞配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データを受信すること;デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリングすること;バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること;デキストラマー配列データから、単一の細胞の受容体データに基づき、特定の受容体配列の存在または非存在によるデータをフィルタリングすること;ならびに信頼できる受容体-pMHC結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。
単一の細胞配列データおよび対応する受容体配列データは、T細胞(αβまたはγδ)およびB細胞を含む、いくつかの細胞タイプ由来であり得る。したがって、一例として、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のTCR配列データを受信すること;デキストラマー配列データから、単一の細胞配列データに基づき、低品質の細胞と関連するデータをフィルタリング;バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節すること;デキストラマー配列データから、単一の細胞のTCRデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすること;ならびに信頼できるTCR-pMHC結合と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含む方法が、開示される。
1.データ取得
マルチオミクスハイスループット結合データを取得する、受信する、および/または決定する方法が開示される。図1に示すように、システム100は、単一細胞免疫プロファイリングプラットフォーム102を含むことができる。単一細胞免疫プロファイリングプラットフォーム102を形成して、マルチオミクスハイスループット結合データ(例えば、配列データ104)を生成してもよい。一態様では、マルチオミクスハイスループット結合データは、単一の細胞配列データ、デキストラマー配列データ、および/または単一の細胞の受容体配列データのうちの一つまたは複数を含むことができる。単一の細胞の配列データは、例えば、RNA-seqデータを含むことができる。デキストラマー配列データは、例えば、CITE-seq(配列決定によるトランスクリプトームおよびエピトープの細胞指数)としても言及される、dCODE-デキストラマー-seqおよび/または細胞表面タンパク質発現配列決定を含むことができる。単一の細胞の受容体配列データは、例えば、対αβ鎖(またはγδ鎖)単一細胞のTCR-seqデータなどの、TCR-seqデータを含むことができる。
一部の態様では、マルチオミクスハイスループット結合データは、以前に生成され、開示される方法に組み込まれることができる。一部の態様では、マルチオミクスハイスループット結合データは、開示される方法の一部として生成することができる。
一部の態様では、図2に示すように、単一細胞免疫プロファイリングプラットフォーム102を形成して、T細胞またはB細胞などの、細胞におけるソーティングのため、健康なヒトドナー由来の末梢血単核細胞(PBMC)が標識されてもよい。一部の態様では、細胞は、T細胞(例えば、CD4+またはCD8+細胞)であってもよい。一部の態様では、T細胞は、αβT細胞またはγδT細胞であってもよい。一部の態様では、細胞は、B細胞であってもよい。したがって、ソーティングのため標識するとき、標識は、CD4、CD8、またはB細胞特異的標識であってもよい。
一部の態様では、対象の細胞タイプが、選別されると、次いで、選別された細胞は、特定のペプチド-主要組織適合複合体(MHC)(pMHC)に結合する細胞について選別することができる。一部の態様では、細胞は、例えば、dCODE(商標)デキストラマーなどのデキストラマーのセットと組み合わせることができる。一部の態様では、dCODE(商標)Dextramer(登録商標)技術を、使用することができる。デキストラマーは、二つ以上のMHC、それぞれのMHCにより提示されるペプチド、およびDNAバーコードを含むことができる。一部の態様では、デキストラマーのプールが、使用される。一部の態様では、デキストラマーのプールは、それぞれが異なるpMHCを含む、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70,75、80、85、90、95、または100の単一のデキストラマーを含むことができるが、これらに限定されない。一部の態様では、デキストラマーのプールは、異なるpMHCを含む単一のデキストラマーのそれぞれのうちの二つ以上を含む。一部の態様では、単一のデキストラマー上の二つ以上のMHCは、同一であり、したがって、同じペプチドを提示する。一部の態様では、MHCは、MHCクラスI(MHC I)またはMHCクラスII(MHC II)であることができる。一部の態様では、DNAバーコードは、一つまたは複数のプライマー配列、ペプチド-MHC(pMHC)特異的バーコード、および固有の分子識別子を含む。一部の態様では、デキストラマーは、標識をさらに含むことができる。例えば、標識は、蛍光標識であってもよい。一部の態様では、特定のpMHCに結合する細胞は、デキストラマー上の標識に基づき、選別される。一部の態様では、特定のpMHCに結合する細胞は、デキストラマーに特異的な標識された抗体に基づき、選別される。
一部の態様では、特定の細胞タイプについての細胞ソーティングおよびデキストラマーを認識する細胞についての細胞ソーティングは、同時または連続的に行うことができる。
一部の態様では、pMHCを含むデキストラマーに結合した細胞のソーティング後、それぞれの細胞および対応するデキストラマーを配列決定することができる。一部の態様では、細胞配列およびデキストラマー配列(例えば、デキストラマー由来のDNAバーコード配列)はすべて、共通シーケンシングバーコードを有し、これにより、どの細胞配列がどのデキストラマー配列と関連付けられていたかを決定することができる。一部の態様では、Next GEM技術は、シーケンシングのため使用することができる。一般的なシーケンシングバーコードは、デキストラマーにあるDNAバーコードとは異なる。
一部の態様では、pMHCを含むデキストラマーに結合した細胞の配列決定は、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データを含み得る配列データ104を提供する。一部の態様では、単一の細胞の配列データは、細胞ゲノム全体またはトランスクリプトーム由来の配列を含む。したがって、一部の態様では、単一の細胞の配列データは、遺伝子発現データを含む。一部の態様では、デキストラマー配列データは、DNAバーコード配列を含む。一部の態様では、単一の細胞の受容体配列データは、特定の受容体の配列を含む。例えば、単一の細胞の受容体配列データは、単一の細胞TCRまたはB細胞受容体(BCR)配列データを含む。一部の態様では、単一の細胞のTCR配列データは、対のTCR配列データを含む。一部の態様では、対のTCR配列データは、それぞれの細胞について、存在する場合、α鎖およびβ鎖についての配列データを含む。一部の態様では、対のTCR配列データは、それぞれの細胞について、存在する場合、γ鎖およびδ鎖についての配列データを含む。したがって、本明細書に記載されるそれぞれの方法および実施例について、アルファ鎖およびベータ鎖の配列決定は、ガンマ鎖およびデルタ鎖の配列決定と交換することができる。
図1に示すシステム100に戻ると、一態様では、配列データ104は、計算装置106に提供されてもよい。計算装置106は、例えば、スマートフォン、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、サーバコンピュータなどであってもよい。計算装置106は、一つまたは複数のサーバ群を含んでもよい。計算装置106は、配列データ102のうちの一つまたは複数の保存のためのデータベースを含む、様々なデータ構造を生成し、記憶し、維持し、および/または更新するよう構成されてもよい。計算装置106は、統合COntext特異的正規化(ICON)モジュール108および/または予測モジュール110などの、一つまたは複数のアプリケーションプログラムを操作するように構成されてもよい。ICONモジュール108および予測モジュール110は、同じ計算装置上または別個の計算装置上で別々に操作するように保存されるか、および/または構成されてもよい。
一部の態様では、ICONモジュール108は、受信された配列データ104(例えば、マルチオミクスハイスループット結合データ、単一の細胞の配列データ、デキストラマー配列データ、単一の細胞の受容体配列データなど)を分析するように構成することができる。配列データ104は、配列情報ならびにメタ情報を含んでもよい。配列データ104は、当業者に公知のように、例えば、VCFファイル、FASTAファイルまたはFASTQファイルを含む、任意の適当なファイル形式で保存することができる。FASTAおよびFASTQは、ハイスループット配列決定からの未処理の配列読み取り値を保存するために使用される一般的なファイル形式である。FASTQファイルは、それぞれの配列読み取り値、配列、およびそれぞれの読み取り値の品質スコア文字列についての識別子を保存する。FASTAファイルは、識別子および配列のみを保存する。他のファイル形式も企図される。
一部の態様では、図3に示すように、ICONモジュール108は、ステップ310において配列データ104(例えば、デキストラマー配列データ)から低品質の細胞をフィルタリングすること、ステップ320においてバックグラウンドノイズについての配列データ104を調節すること、ステップ330において配列データ104における対のαβ鎖を有するT細胞を選択すること、ステップ340において配列データ104にデキストラマーシグナル補正を適用すること、ステップ350において細胞および/またはpMHC-ワイズデキストラマーシグナル正規化ならびにバインダー識別を配列データ104に行うこと、ならびにステップ360において正規化されたデキストラマー配列データに残っているデータを信頼できるTCR-pMHC結合現象と関連すると識別することを含む、方法300を行うよう構成することができる。一実施形態では、ICONデータプロセスは、ドナー、細胞、および/またはデキストラマーに特異的な状況で行われてもよい。
ステップ310における配列データ104から低品質の細胞をフィルタリングすることは、低品質の細胞の単一細胞RNA-seqベースのフィルタリングを含んでもよい。ICONモジュール108は、二重項および死細胞などの低品質の細胞をフィルタリングするように構成することができる。検出されるT細胞について予想外に多い数の遺伝子を有する細胞(例えば、細胞当たり>2500個の遺伝子)は、二重項として分類されてもよく、ミトコンドリア遺伝子発現の高いフラクション(例えば、総遺伝子発現UMIに対するミトコンドリア遺伝子発現UMIの比>0.4)または検出された遺伝子の数があまりに少ない(細胞当たり<200個の遺伝子)細胞は、死細胞と分類されてもよい。低品質の細胞と関連するデータは、配列データ104(例えば、デキストラマー配列データ)から除去されてもよい。
一実施形態では、ステップ310における配列データ104からの低品質の細胞のフィルタリングは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること(遺伝子閾値範囲は、例えば、約200~約2,500遺伝子であってもよい)、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、およびデキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含んでもよい。遺伝子発現閾値は、総合固有分子識別子カウントの約40パーセントであることができる。
ステップ320におけるバックグラウンドノイズについての配列データ104を調節することは、単一の細胞のdCODE-デキストラマー配列ベースのバックグラウンド調節を含んでもよい。一態様では、デキストラマー結合アッセイのため設計された二つのタイプのバックグラウンドノイズ対照は、デキストラマー染色および選別されたCD8+T細胞(ncと示される、NC_dex)由来の陰性対照デキストラマー、ならびにデキストラマーにおけるソーティングなしで、デキストラマー染色されたCD8+T細胞(Dex_選別されていない、duと示される)由来の陰性対照デキストラマーを含む。シグナルおよびノイズ分布を検査するために、それぞれの細胞の最善の結合を表す、それぞれの細胞のUMI(固有分子識別子)における最大のデキストラマーシグナルを選択してもよい。具体的には、細胞の非特異的デキストラマー結合シグナルは、Max(nc、…、nc)として表されてもよく、n個の陰性対照デキストラマーの最大のデキストラマーシグナルは、デキストラマープールを含んでいた。デキストラマー染色され、選別された試料(dsとして示される、Dex_選別された)からの細胞のデキストラマー結合シグナルは、m試験デキストラマーのUMIにおける最大のデキストラマーシグナルである、Max(ds、…、ds)として表されてもよい。同様に、Dex_選別されていない試料由来の細胞のデキストラマー結合シグナルは、Max(du、…、du)として表されてもよい。、Max(du、…、du44)UM中の非特異的デキストラマー結合シグナルのP99.9は、非特異的デキストラマー結合カットオフとして選択されてもよい(陰性デキストラマー対照の絶対外れ値は、排除されてもよい)。
細胞ソーティングプロセスによって導入される可能性のあるノイズを推定するために、Dex_選別された試料とDex_選別されていない試料の間のデキストラマー結合シグナルの累積分析を比較して、デキストラマーソーティング効率のためのカットオフを決定してもよい。コルモゴロフ-スミルノフ検定(KS検定)p値は、それぞれのデータ点(デキストラマーUMI)をスライディングウィンドウとして使用した、デキストラマー選別された試料およびデキストラマー選別されていない試料の累積曲線を比較することによって計算されてもよい。Dex_選別されたとDex_選別されていない(argmaxDs,u)の間のデキストラマー結合シグナルの最大の相違を定義するデキストラマーUMIは、デキストラマーソーティング効率を推定するための閾値として使用されてもよい。デキストラマー選別された試料の推定されたバックグラウンドノイズ(d)の測定値は、以下のように定義されてもよい。
d=最大(P99.9、argmaxDs,u
選別された細胞のそれぞれの試験デキストラマーについてのデキストラマーシグナル(UMI)は、推定されたバックグラウンドノイズ(d)の測定値を減じることによって補正されてもよい。
=E-d
一実施形態では、ステップ320におけるバックグラウンドノイズについてのデータを調節することは、デキストラマー配列データに基づき、選別されたデキストラマー配列データおよび選別されていないデキストラマー配列データを決定することを含んでもよい。選別されたデキストラマー配列データは、選別された試験デキストラマー配列データ(dex_選別された)および陰性対照デキストラマー配列データ(nc_dex)を含むことができる。選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データ(dex_選別されていない)を含むことができる。方法300は、ステップ320において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データ(nc_dex)に基づき、最大の陰性対照デキストラマーシグナル(Max(nc,...,nc))を決定してもよい。方法300は、ステップ320において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データ(dex_選別された)に基づき、最大の選別されたデキストラマーシグナル(Max(ds,...,ds))を決定してもよい。方法300は、ステップ320において、デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データ(dex_選別されていない)に基づき、最大の選別されていないデキストラマーシグナルMax(du,...,du)を決定してもよい。
方法300は、ステップ320において、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズ(P99.9)を推定し、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率(argmaxDs,u)を推定してもよい。デキストラマー選別ゲート効率は、例えば、選別された試験デキストラマー配列データのMax(ds,...,ds)と選別されていないデキストラマー配列データのMax(du,...,du)の間の最大の相違によって決定されてもよい。
方法300は、ステップ320において、デキストラマー結合バックグラウンドノイズ(P99.9)およびデキストラマー選別ゲート効率(argmaxDs,u)に基づき、バックグラウンドノイズ(d)の測定値を決定し、デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズ(d)の測定値をそれぞれの細胞と関連するデキストラマーシグナル(E=E-d)から減じてもよい。
一実施形態では、ステップ330において配列データ104における対のαβ鎖を有するT細胞を選択することは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、ならびにデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。ステップ330は、単一の対のγδ鎖を有する細胞と関連しないデキストラマー配列データから任意のデータを除去することを含んでもよい。したがって、ステップ320におけるバックグラウンドノイズの調節のための同じステップは、γ鎖および/またはδ鎖の存在または非存在に関して行うことができる。
ステップ330において配列データ104における対のαβ鎖を有するT細胞を選択することは、単一の対のαβ鎖を有する細胞と関連しないデキストラマー配列データから任意のデータを除去することを含んでもよい。単一の細胞の受容体配列データ(例えば、単一の細胞のTCR-seqデータ)を使用して、α鎖のみ、β鎖のみ、および複数のαまたはβ鎖を有するT細胞と関連するデータを決定してもよく、このようなデータは、配列データ104(例えば、デキストラマー配列データ)から除去されてもよい。検出された複数のαまたはβ鎖を有するT細胞について、最大のUMIカウントを有するαまたはβ鎖を、それぞれのT細胞に割り当ててもよい。例えば、一つのT細胞が、検出された4つのα鎖および4つのβ鎖を有する場合、全てのβ鎖のリストから、最大のUMIを有するβ鎖が選択されてもよい。α鎖についても同様である。本プロセスから選択されたαまたはβ鎖が、細胞に割り当てられてもよい。
方法300は、ステップ340において、デキストラマーシグナル補正を配列データ104に適用することを含んでもよい。ステップ340において、配列データ104におけるデキストラマーシグナルが補正されて、補正されたデキストラマー配列データを得てもよい。それぞれのデキストラマーは、最適な結合条件を有するが、多重化デキストラマー結合アッセイが、デキストラマー毎に最適であるように、実験条件を配置することは不可能である。これにより、同じT細胞/クローンに結合する複数のデキストラマーを得る。この効果を補正するために、以下の技術を使用して、同じT細胞/クローンに同時に結合する場合、デキストラマーシグナルが罰とされてもよい。
thデキストラマーに結合するithT細胞についてのバックグラウンドノイズを減じたデキストラマーシグナルをEijと定義することは、ithT細胞についてのjthデキストラマーの結合に起因したデキストラマーシグナルのフラクションを以下のようにさらに示す。
thT細胞のTCRクローンタイプをkとして示すこと、およびTkijとしてデキストラマーjに結合するクローンタイプkに属するT細胞の数は、jthデキストラマーに結合するクローンタイプkに属するT細胞のフラクションを以下の通り示す。
これらの量を使用して、jthデキストラマーに結合するithT細胞についての補正されたデキストラマーシグナルを以下の通り計算する。
ij=Eij(RCijRTkj
方法300は、ステップ350において、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことおよび/またはデキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うことによって、補正されたデキストラマー配列データを正規化してもよい。このような正規化は、正規化されたデキストラマー配列データをもたらすことができる。ステップ350は、バインダー識別をさらに含んでもよい。全てのデキストラマー結合シグナルを同等にするために、補正されたデキストラマー結合シグナルは、細胞内の44個の試験デキストラマーにわたり正規化された対数比であってもよい。続いて、pMHCワイズ正規化を、対数ランク分布に基づき行ってもよい。正規化されたデキストラマーUMI>0は、pMHC特異的バインダーについてのカットオフとして経験的に選択された。
一実施形態では、補正されたデキストラマー配列データは、ステップ350において正規化されてもよい。例えば、セルワイズ正規化は、それぞれの細胞についてのログランク分布に基づき行われてもよく、および/またはpMHCワイズ正規化を行い、デキストラマー結合シグナルを互いに同等にしてもよい。選別された細胞Eの調節されたデキストラマー結合シグナルは、試験デキストラマーにわたり正規化されてもよく、次いで、以下の方程式の通り、全ての細胞にわたり正規化されてもよい。


は、pMHC特異的バインダーについてのカットオフとして経験的に決定されてもよい。
方法300は、ステップ360において、信頼できるTCR-pMHC結合現象と関連する正規化されたデキストラマー配列データに残っているデータをさらに識別してもよい。このようなデータは、機械学習プロセスにおいて使用するためのトレーニングデータセットの一部とみなされてもよい。得られた処理された配列データ104(例えば、トレーニングデータセット)は、予測モジュール110に提供されてもよい。
C.機械学習のための信頼性の高い受容体-pMHC結合の使用方法
ここで図4を参照すると、予測モジュール110が記載される。予測モジュール110は、所定の受容体配列に対する結合親和性を予測するよう構成されている少なくとも一つのMLモジュール430である、トレーニングモジュール420による、一つまたは複数のトレーニングデータセット410の分析に基づき、トレーニングするための機械学習(「ML」)技術を使用するよう構成されてもよい。
トレーニングデータセット410は、一つまたは複数の受容体配列、一つまたは複数の遺伝子識別子、結合状態、および受容体配列が結合した(存在する場合)ペプチドの識別子を含んでもよい。結合状態は、ペプチドに結合した受容体配列について「はい」またはペプチドに結合していなかった受容体配列に対して「いいえ」を示し得る。ペプチドに結合した受容体配列について、ペプチドの識別子を使用して、ペプチドと関連する抗原を識別することができる。このようなデータは、全体的または部分的に、ICONモジュール108によって処理された配列データ104から導出されてもよい。一実施形態では、TCR-CDR3アミノ酸配列は、関連するV、D、およびJ遺伝子識別子、結合状態(はい、いいえ)を示す標識、ならびにTCR-CDR3アミノ酸配列が結合したペプチドの識別子を含む、配列データ104から決定されてもよい。TCR-CDR3アミノ酸配列は、20個の可能性のあるアミノ酸を表す数字でコードされてもよい。パディングが、必要に応じて配列に適用されてもよい。VおよびJ遺伝子識別子は、計算空間における遺伝子識別子の分類上および別々の表示を提供するよう、ワンホットコードされてもよい。コードされるTCR-CDR3アミノ酸ならびにVおよびJ遺伝子識別子を互いに連結して、記録され、結合状態(はい、いいえ)を示す標識と関連する一つのTCRを表してもよい。標識は、TCRが結合した特定のペプチドをさらに示してもよい。一つまたは複数のTCR記録を合わせて、トレーニングデータセット410を得てもよい。
TCR記録のサブセットは、トレーニングデータセット410または試験データセットに無作為に割り当てられてもよい。一部の実施では、トレーニングデータセットまたは試験データセットへのデータの割り当ては完全に無作為ではない場合がある。この場合、一つ以上の基準が、割り当て中に使用されうる。一般に、任意の好適な方法を使用して、データを訓練データセットまたは試験データセットに割り当ててもよい一方で、はいおよびいいえの標識分布が、訓練データセットおよび試験データセットにおいていくらか類似していることを保証し得る。
トレーニングモジュール420は、一つまたは複数の特性選択技術により、トレーニングデータセット410における複数のTCR記録(例えば、はいとして標識された)から特性セットを抽出することによって、MLモジュール430をトレーニングしてもよい。トレーニングモジュール420は、正の例(例えば、はいであると標識された)の統計上有意な特性および負の例(例えば、いいえであると標識された)の統計上有意な特性を含むトレーニングデータセット410から、特性セットを抽出することによって、MLモジュール430をトレーニングしてもよい。
トレーニングモジュール420は、様々な方法で、トレーニングデータセット410から特性セットを抽出してもよい。トレーニングモジュール420は、異なる特徴抽出技術を使用して、各回に特徴抽出を複数回実施し得る。一例では、異なる技術を使用して生成される特徴セットは各々が、異なる機械学習ベースの分類モデル440を生成するために使用され得る。例えば、最も高い品質の測定基準を伴う特徴セットが、訓練における使用のために選択され得る。トレーニングモジュール420は、新規の受容体配列(例えば、未知の結合状態を有する)が、ペプチドまたはpMHCにおそらく結合するか、またはおそらく結合しないかどうかを示すよう構成されている、一つまたは複数の機械学習ベースの分類モデル440A~440Nを構築するための特性セットを使用してもよい。
トレーニングデータセット410を分析して、トレーニングデータセット410における特性とはい/いいえの標識の間の任意の依存性、関連性、および/または相関を決定してもよい。識別された相関は、異なるはい/いいえの標識と関連する特性のリストの形態を有してもよい。本明細書で使用される場合、用語「特徴」は、データのある項目が、一つ以上の特定のカテゴリ内にあるか否かを決定するために使用され得るデータの項目の任意の特徴を指し得る。例示の目的で、本明細書に記載される特性は、一つまたは複数の配列パターン、一方または両方のアルファおよびベータ鎖のアミノ酸配列、一方または両方のアルファおよびベータ鎖のvおよびj遺伝子セグメントの名称を含んでもよい。
特性選択技術は、一つ以上の特徴選択ルールを含み得る。一つ以上の特性選択ルールは、特性発生ルールを含み得る。特性発生ルールは、トレーニングデータセット410においていずれの特性が閾値の回数にわたって生じるかを決定すること、および閾値を満たすそれらの特性を候補特徴として特定することを含み得る。
単一の特性選択ルールを、特性を選択するために適用してもよく、または複数の特性選択ルールを、特性を選択するために適用してもよい。特性選択ルールは、カスケード方式で適用されてもよく、特性選択ルールは、特定の順序で適用され、以前のルールの結果に適用される。例えば、特性発生ルールは、訓練データセット410に適用されて、特性の第一のリストを生成し得る。候補特性の最終リストは、一つまたは複数の候補特性群(例えば、結合を予測するために使用され得る特性の群)を決定するためのさらなる特性選択技術により分析されてもよい。任意の好適な計算技術を使用して、フィルター方法、ラッパー方法、および/または埋め込み方法などの任意の特性選択技術を使用して、候補特性群を特定し得る。一つまたは複数の候補特性群は、フィルター方法に従い選択されてもよい。フィルター方法には、例えば、ピアソンの相関、線形判別分析、分散分析(ANOVA)、カイ二乗、それらの組み合わせなどが含まれる。フィルター方法に従った特徴の選択は、任意の機械学習アルゴリズムから独立している。代わりに、特徴は、転帰変数(例えば、はい/いいえ)との相関について、様々な統計検定におけるスコアに基づいて選択され得る。
別の例として、一つまたは複数の候補特性群は、ラッパー方法により選択されてもよい。ラッパー方法は、特性のサブセットを使用し、特性のサブセットを使用して機械学習モデルをトレーニングするように構成され得る。以前のモデルから引き出された推論に基づいて、特性は、サブセットから追加および/または削除され得る。Wrapper方法は、例えば、前方特徴量選択、後方特徴量削減、再帰的特徴量削減、それらの組み合わせなどを含む。一例として、前方特性選択を使用して、一つまたは複数の候補特性群を識別してもよい。前方特徴量選択は、機械学習モデルにおける特徴なしに始まる反復方法である。各反復において、モデルを最良に改善する特徴が、新たな変数の追加によって機械学習モデルの性能が改善されなくなるまで加えられる。一例として、後方排除を使用して、一つまたは複数の候補特性群を識別してもよい。後方削減は、機械学習モデルにおける全ての特徴で始まる反復方法である。各反復では、最下位の特徴が、特徴の除去時に改善が観察されなくなるまで除去される。再帰的特性除去を使用して、一つまたは複数の候補特性群を識別してもよい。再帰的特徴量削減は、性能が最良である特徴サブセットを見出すことを目指す貪欲最適化アルゴリズムである。再帰的特徴量削減によって、モデルが反復的に作成され、各反復で最良または最悪の性能の特徴を別にしておく。再帰的特徴量削減によって、全ての特徴が消耗するまで、特徴が残っている次のモデルが構築される。再帰的特徴量削減によって、次に、それらの削減の順序に基づいて特徴がランク付けされる。
さらなる例として、一つまたは複数の候補特性群は、埋め込み方法により選択されてもよい。埋め込み方法によって、フィルター方法とラッパー方法の質が組み合わされる。埋め込み方法には、例えば、過学習を低下させるためのペナルティ機能を実施する、最小絶対収縮および選択演算子(LASSO)およびリッジ回帰が含まれる。例えば、LASSO回帰によって、係数の大きさの絶対値に相当するペナルティを加えるL1正則化が実施され、リッジ回帰によって、係数の大きさの二乗に相当するペナルティを加えるL2正則化が実施される。
トレーニングモジュール420によって特性セットが生成された後、トレーニングモジュール420によって、特性セットに基づいて、機械学習ベースの分類モデル440が生成され得る。機械学習ベースの分類モデルは、機械学習技術を使用して生成される、データ分類のための複雑な数学的モデルを指し得る。一例では、機械学習ベースの分類モデル440は、境界特性を表すサポートベクトルのマップを含み得る。この例では、境界特徴は、ある特徴セット内の最高ランクの特徴から選択されても、かつ/またはそれらを表してもよい。
トレーニングモジュール420は、それぞれの分類カテゴリー(例えば、はい、いいえ)についての機械学習ベースの分類モデル440A~440Nを構築するためのトレーニングデータセット410から抽出された特性セットを使用してもよい。いくつかの例では、機械学習ベースの分類モデル440A~440Nを、単一の機械学習ベースの分類モデル440に組み合わせてもよい。同様に、MLモジュール430は、単一もしくは複数の機械学習ベースの分類モデル440を含有する単一の分類指標、および/または単一もしくは複数の機械学習ベースの分類モデル440を含有する複数の分類指標を表し得る。
抽出された特性(例えば、一つまたは複数の候補特性)を、機械学習アプローチ、例えば判別分析;決定木;最近傍(NN)アルゴリズム(例えば、k-NNモデル、レプリケーターNNモデルなど);統計アルゴリズム(例えば、ベイジアンネットワークなど);クラスタリングアルゴリズム(例えば、k平均値、平均値シフトなど);ニューラルネットワーク(例えば、リザーバネットワーク、人工ニューラルネットワークなど);サポートベクター機械(SVM);ロジスティック回帰アルゴリズム;線形回帰アルゴリズム;マルコフモデルまたはチェーン;主成分分析(PCA)(例えば、線形モデルについて);多層パーセプトロン(MLP)ANN(例えば、非線形モデルについて);リザーバネットワークの複製(例えば、非線形モデルについて、通常は時系列について);ランダムフォレスト分類;それらの組み合わせおよび/または同様のものを使用して訓練された分類モデルにおいて組み合わせてもよい。得られたMLモジュール430は、結合状態を新規の受容体配列に割り当てるための、それぞれの候補特性についての決定ルールまたはマッピングを含んでもよい。
一実施形態では、トレーニングモジュール420は、畳み込みニューラルネットワーク(CNN)として機械学習ベースの分類モデル440をトレーニングしてもよい。CNNは、少なくとも一つの畳み込み特性層および最終の分類層(softmax)につながる三つの完全に連結した層を含んでもよい。最終の分類層を最終的に適用して、当該技術分野で公知のsoftmax関数を使用して、完全に結び付けられた層の出力を組み合わせてもよい。
候補特性およびMLモジュール430を使用して、試験データセットにおける複数のTCR記録の結合状態(および関連するペプチド)を予測してもよい。一例では、それぞれのTCR記録の結果は、受容体配列がペプチドに結合する可能性または確率に対応する信頼レベルを含む。信頼レベルは、ゼロから一の間の値であってもよく、それは、受容体配列が、一つまたは複数のペプチドに関して、はい/いいえの結合状態に属する可能性を表してもよい。一例では、二つの状態(例えば、はいおよびいいえ)があるとき、信頼レベルは、値pに対応してもよく、それは、特定の受容体配列が、第一の状態(例えば、はい)に属する可能性を指す。この場合では、値1-pは、特定の受容体配列が、第二の状態(例えば、いいえ)に属する可能性を指し得る。一般に、2を上回る状態がある場合、それぞれの試験受容体配列について、およびそれぞれの候補特性について複数の信頼レベルが提供され得る。最も高性能の候補特性は、それぞれの試験受容体配列について得られた結果を、それぞれの試験受容体配列についての公知のはい/いいえ結合状態と比較することによって決定されてもよい。一般に、最も高性能の候補特性は、既知のはい/いいえ結合状態と密接に一致する結果を有するであろう。
最も高性能の候補特性を使用して、一つまたは複数のペプチドに関して、受容体配列のはい/いいえ結合状態を予測してもよい。例えば、新規のTCR配列が、決定/受信されてもよい。新規のTCR配列は、最も高性能の候補特性に基づき、新規のTCR配列を、結合する(はい)または結合しない(いいえ)のいずれかおよび結合ペプチドの指標として分類し得るMLモジュール430に適用されてもよい。
図5は、トレーニングモジュール420を使用して、MLモジュール530を生成するための例となるトレーニング方法500を説明するフローチャートである。トレーニングモジュール420によって、教師あり、教師なし、および/または半教師あり(例えば、補強ベース)の機械学習ベースの分類モデル440を実施することができる。図5に例証する方法500は、教師あり学習方法の例であり;訓練方法のこの例の変形を以下で考察するが、しかし、他の訓練方法は、教師なしおよび/または半教師ありの機械学習モデルを訓練するために類似的に実施することができる。
トレーニング方法500は、ステップ510においてICONモジュール108によって処理された第一の配列データを決定(例えば、アクセス、受信、検索など)してもよい。配列データは、受容体配列の標識されたセットを含んでもよい。標識は、結合状態(例えば、はいまたはいいえ)および受容体配列が結合したペプチドの識別に対応してもよい。
トレーニング方法500は、ステップ520において、トレーニングデータセットおよび試験データセットを生成してもよい。トレーニングデータセットおよび試験データセットは、標識された受容体配列をトレーニングデータセットまたは試験データセットのいずれかに無作為に割り当てることによって、生成されてもよい。一部の実施では、トレーニングまたは試験試料としての標識された受容体配列の割り当ては、完全に無作為でなくてもよい。一例として、標識された受容体配列の大部分を使用して、トレーニングデータセットを生成してもよい。例えば、標識された受容体配列の75%を使用して、トレーニングデータセットを生成してもよく、25%を使用して、試験データセットを生成してもよい。
トレーニング方法500は、ステップ530において、例えば、一つまたは複数のペプチドに関して、結合状態(例えば、はい対いいえ)の異なる分類の中で区別するための分類指標によって使用することができる一つまたは複数の特性を決定(例えば、抽出、選択など)してもよい。一例として、トレーニング方法500は、標識された受容体配列からセットの特性を決定してもよい。さらなる例では、特性のセットは、トレーニングデータセットまたは試験データセットのいずれかにおいて標識された受容体配列以外の標識された受容体配列から決定されてもよい。言い換えると、標識された受容体配列は、機械学習モデルのトレーニングのためよりむしろ、特性の決定のため使用され得る。このような標識された受容体配列を使用して、特性の初期のセットを決定してもよく、それは、トレーニングデータセットを使用してさらに低減されてもよい。
トレーニング方法500よって、540で、一つまたは複数の特性を使用して、一つ以上の機械学習モデルがトレーニングされ得る。一例では、機械学習モデルは、教師あり学習を使用してトレーニングされ得る。別の例では、教師なし学習および半教師ありを含む、他の機械学習技術が用いられてもよい。540でトレーニングされた機械学習モデルは、解決される問題および/またはトレーニングデータセットで利用可能なデータに応じて、異なる基準に基づいて選択され得る。例えば、機械学習分類器は、異なる程度のバイアスを受け得る。したがって、1を上回る機械学習モデルを、540でトレーニングし、550で最適化し、改善し、相互検証することができる。
トレーニング方法500は、560で予測モデルを構築するために、一つまたは複数の機械学習モデルを選択し得る。予測モデルは、試験データセットを使用して評価してもよい。予測モデルは、試験データセットを分析し、ステップ570において予測される結合状態を生成してもよい。予測される結合状態を、ステップ580において評価して、こうした値が、所望の精度レベルを達成したかどうかを決定することができる。予測モデルの性能は、予測モデルによって示される複数のデータ点の多数の真の陽性、偽陽性、真の陰性、および/または偽陰性の分類に基づいて、多数の方法で評価され得る。
例えば、予測モデルの偽陽性は、予測モデルによって受容体配列が、実際には結合しない結合として誤って分類された回数を指し得る。逆に、予測モデルの偽陰性は、実際には、受容体配列が結合しているときに、機械学習モデルが、結合していないと受容体配列を分類した回数を指しうる。真陰性および真陽性は、予測モデルによって一つまたは複数の受容体配列が、結合しているか、または結合していないとして正しく分類された回数を指し得る。これらの測定に関連するのは、想起および精度の概念である。一般に、想起とは、真陽性および偽陰性の合計に対する真陽性の比率を指し、それによって予測モデルの感度が定量化される。同様に、精度は、真の陽性と偽陽性との合計の正陽性の比を指す。このような所望の精度レベルに達すると、トレーニング期が終了し、予測モデル(例えば、MLモジュール430)が、ステップ590において出力されてもよく、しかしながら、所望の精度レベルに達していないとき、トレーニング方法500のその後の反復は、例えば、配列データのより大きな収集を考慮するなどの変動を伴って、ステップ510において開始して行われてもよい。
一実施形態では、本明細書においてTCRAIと称される、TCR-pMHC特異性の研究のための可撓性のフレームワークが提供される。一実施形態では、TCRAIは、Tensorflow 2を利用してもよい。TCRAIは、高度にモジュール化されており、モデル構築への調整を可能にする。TCRの任意の数のV(D)J遺伝子およびCDR領域は、テキスト形式でモデルへの入力として定義されてもよい。これらの入力を学習不可能な方法で数値形式に処理する方法に関して、テキストを数字表示に変換する「プロセッサ」オブジェクトを介して選択することができる。次いで、これらの数字入力は、本明細書においてTCRAIフィンガープリントと称される、ニューラルネットワークのブロックを形成し、入力データのそれらの出力ベクトル表示として与える「抽出器」オブジェクトを介して、学習可能な方法でさらに処理することができる。TCRAIフィンガープリントは、単一の数字ベクトルを介して、入力TCRを記述する単一のTCRAIフィンガープリントに連結されてもよい。次いで、TCRAIフィンガープリントは、ニューラルネットワーク構築の最終ブロックを形成する「クローサー」オブジェクトを通過し、入力TCR上に予測を生じてもよい。TCRAIは、いくつかのこのような予め構築されたプロセッサ、抽出器、およびクローサーを提供する。TCRAIは、異なるクローサーオブジェクトを構築することを選択することによって、二項、多項式、回帰、および/または他のタスクを実行するように構成されうる。一実施形態では、TCRAIは、所与のTCRが、特定のpMHC複合体に結合することができるかどうかの予測を行うためのモデルを構築するために使用されてもよい。
一実施形態では、TCRAIは、CDR3配列に対する1D畳み込みおよびバッチ正規化、ならびに遺伝子に対する低次元表示を利用し得、これにより、モデル正規化をもたらし、モデルに、より強力な遺伝子関連を学ばせることを強制する。
一実施形態では、TCRの入力情報は、数字形式で処理されてもよい。それぞれのCDR3配列について、アミノ酸は、整数に変換されてもよく、整数ベクトルは、ワンホット表示にコードされてもよい。VおよびJ遺伝子について、遺伝子タイプの整数へのディクショナリは、それぞれのVおよびJ遺伝子について構築され、それぞれの遺伝子を整数に変換するために使用されてもよい。
処理された入力情報に適用されるニューラルネットワーク構築は、埋め込み層および畳み込みネットワークを含んでもよい。具体的には、処理されたCDR3残基は、学習された埋め込みを介して16次元空間内に埋め込まれてもよく、得られた数値CDR3は、一つまたは複数(例えば、3)の1D畳み込み層を通して供給されてもよい。一実施形態では、寸法[64,128,256]、核心幅[5,4,4]、およびストライド[1,3,3]のフィルターが使用されてもよい。それぞれの畳み込みは、指数線形ユニット活性化によって活性化され、その後ドロップアウトおよびバッチ正規化によって活性化され得る。これら三つの畳み込みブロックの後、グローバル最大プーリングは、最終特性に適用してもよく、このプロセスは、それぞれのCDR3を長さ256のベクトル、「CDR3フィンガープリント」によってコードする。それぞれの遺伝子についての処理された遺伝子入力は、学習された埋め込みを介して、ワンホットコードされ、低減された次元の空間(例えば、V遺伝子については16、J遺伝子については8)に埋め込まれてもよく、これにより、ベクターとしてそれぞれの遺伝子の「遺伝子フィンガープリント」を与える。次いで、全ての選択されたCDR3および遺伝子のフィンガープリントは、単一のベクターである「TCRAIフィンガープリント」に連結されてもよい。TCRAIフィンガープリントは、一つの最終完全接続層を通過して、二項予測(単一出力値、シグモイド活性化)、回帰予測(単一出力、活性化なし)、または多項予測(複数出力値、ソフトマックス活性化)を与えてもよい。
一実施形態では、TCR配列決定ファイルは、未加工のcsvフォーマットのマルチオミクスハイスループット結合データとして収集されてもよい。配列決定ファイルは、非生産性配列を除去した後にCDR3のアミノ酸配列を取るように解析されてもよい。異なるヌクレオチド配列を有するが、CDR3由来の同じ一致したアミノ酸配列、およびV、D、J遺伝子を有するクローンは、一つのTCR下で一緒に凝集されてもよい。したがって、それぞれのTCR記録は、それぞれの鎖についてのCDR3アミノ酸配列およびV、J遺伝子を有する単一の対のαおよびβTCR鎖を含んでもよい。
データは、それぞれのモデルについてのトレーニングセット(例えば、76.5%)、検証セット(例えば、13.5%)、および左を取り除いた試験セット(例えば、10%)に分けられてもよく、続いて、5倍のMonte-Carlo交差検証(MCCV)が、トレーニングセットにおいて行われてもよい。モデルは、Adamオプティマイザを介して交差エントロピー損失を最小化することによってトレーニングされてもよく、交差エントロピー損失は、それぞれのクラスについて重み1/(クラスの数*そのクラス内の試料のフラクション)によって重み付けされてもよい。過剰適合を防ぐために、左を取り除いた検証データセットを介して早期停止が結びつけられてもよく、この場合において、検証損失が、5回超にわたって増大し、最小の検証損失を伴うモデルの重みが回復した場合に、モデルは、トレーニングを停止する。多数のモデルをトレーニングする場合、交差検証中に学習速度およびバッチサイズのみを調整する必要がある。交差検証の後、ハイパーパラメータの最適な実施が、選択されてもよく、モデルは、早期停止を制御するための検証セットを使用して、完全なトレーニングセットにおいて再トレーニングされてもよい。次いで、再トレーニングされたモデルは、左を取り除いたテストセットで評価されてもよい。
TCRAIモデルは、特定のpMHC(多項の場合、多くのpMHCのうちの一つ)に結合するTCRについての予測と、それがそのpMHCに結合するかどうかの疑問の文脈内でそのTCRを記載する数字ベクター(TCRAIフィンガープリント)(例えば、それぞれのTCRの対のαβ鎖CDR3アミノ酸配列ならびにVおよびJ遺伝子を一次元入力ベクターにコードすることにより)の両方を生成し得る。
一実施形態では、フィンガープリントの分布を分析して、異なる結合様式を有するTCRの群を識別してもよい。フィンガープリントは、例えば、UMAP:次元低減のための均一なマニホールド近似および投影を使用して、二次元の空間に低減することができる。一方のデータセットでトレーニングされたモデルを使用し、別の目に見えないデータセットでフィンガープリントを推定するとき、UMAPプロジェクタは、トレーニングデータセット由来のTCRを用いて適合し、そのプロジェクタを使用して目に見えないセット由来のTCRを変換することができる。
TCRフィンガープリントをクラスター形成するとき、データセットのすべてのTCRのフィンガープリントを、上述のように二次元空間に投影することができ、次いで、強い真陽性であるそれらのTCR(STP、二項予測>0.95)を選択することができる。次いで、これらのSTPは、例えば、k平均分類指標を使用して、二次元空間内にクラスター形成することができる。他のクラスター形成するアルゴリズムが、使用されてもよい。次いで、それぞれのクラスター内からのTCRを収集して、それを使用して、クラスター内の固有のTCRクローンタイプをハイスループットデータ中のすべての繰り返されるクローンタイプと対形成させることによって、CDR3モチーフロゴ(weblogoを使用して)、遺伝子使用、および/またはUMI分布を構築することができる。
D.使用方法
一態様では、トレーニングされた予測モデル(例えば、機械学習分類指標)を使用して、一つまたは複数のペプチドに関して、TCR配列の結合状態を予測してもよい。TCR配列は、機械学習分類指標に提示されてもよい。機械学習分類指標は、TCR配列が、一つまたは複数の特定のペプチドに結合する可能性を予測してもよい。同様に、複数のTCR配列が、機械学習分類指標に提示されてもよい。機械学習分類指標は、複数のTCR配列におけるそれぞれのTCR配列について、それぞれのTCR配列が、一つまたは複数の特定のペプチドに結合する可能性を予測してもよい。一態様では、機械学習分類指標は、以下の例となる出力に示されるTCR-ペプチドマップを生成することができる。
したがって、生成されたTCR-ペプチドマップを使用して、対象のTCR配列が、おそらく結合するペプチドを迅速に識別してもよい。生物学的試料(例えば、血液)は、対象、単離され、配列決定された細胞から得られてもよい。対象のTCR配列を同定し、TCR-ペプチドマップと比較して、対象のTCR配列に結合する可能性が最も高いペプチドを同定してもよい。
一部の態様では、抗原特異的T細胞を同定し、評価することを使用して、モノ療法および併用療法設定における薬物の活性をより良く理解し、強力な抗腫瘍T細胞の特徴を識別し、ハプロタイプ関連様式で免疫原性エピトープをスクリーニングし、新規のワクチンおよびTCR療法を開発し、TCR配列特性に基づきペプチド結合アルゴリズムを開発することができる。
一部の態様では、対象のTCRの結合パターンを使用して、対象を識別する方法が開示される。例えば、血液が、採取されてもよく(第一の採血)、血液由来の細胞が、単一の細胞ベースの免疫プロファイリングプラットフォームを介して処理されてもよく、得られたデータが、本明細書に記載されるICONの方法に従って処理されてもよい。一部の態様では、細胞は、広範な免疫原由来のpMHCを含む様々なデキストラマーに曝露される。本明細書に記載されるようにICON方法を行った後、信頼できるTCR結合パターンを決定することができる。一部の態様では、TCR結合パターンは、デキストラマー上の免疫原に対するTCRの特異性を表す。次いで、最初の採血(2回目の採血)とは異なる時点(数日、数週、数ヶ月、数年後)で採血することができる。一部の態様では、第二の採血は、約1015個の可能性のあるTCR配列が存在するが、TCR結合パターンが変化する可能性は低いので、第一の採血に存在したものとは異なる配列を有するTCRを有するT細胞を含む可能性が高いことが予想される。第二の採血由来の細胞は、第一の採血に使用されるのと同じデキストラマーに曝露されてもよく、得られたデータは、ICON方法に従って分析される。異なるTCR配列に関わらず、第一の採血および第二の採血の結合データを比較し、それらが両方とも同じ対象からのものであるかどうかを決定することができる。
一部の態様では、対象のTCRの結合パターンを予測するための機械学習を使用して、対象を識別する方法が開示される。信頼できるTCR結合データは、本明細書に記載されるICON方法に従って識別することができる。一部の態様では、信頼できるTCR結合データを使用して、本明細書に記載される機械学習分類指標をトレーニングすることができる。トレーニングされた機械学習分類指標を使用して、対象の特異性TCR結合パターンを予測することができる。一部の態様では、血液は採取されてもよく(第一の採血)、TCR結合パターンは、トレーニングされた機械学習分類指標を使用して予測されてもよい。次いで、最初の採血(2回目の採血)とは異なる時点(数日、数週、数ヶ月、数年後)で採血することができる。一部の態様では、第二の採血は、約1015個の可能性のあるTCR配列が存在するが、TCR結合パターンが変化する可能性は低いので、第一の採血に存在したものとは異なる配列を有するTCRを有するT細胞を含む可能性が高いことが予想される。異なるTCR配列に関わらず、トレーニングされた機械学習分類指標を使用して、第二の採血から導出されたデータを使用して、第二のTCR結合パターンを予測してもよい。第二の採血は、TCRシグネチャに基づいて、第一の採血と同じ対象からのものであると予測することができる。
一部の態様では、TCRまたはBCR結合パターンは、記載される方法を使用して確立することができる。一部の態様では、本明細書に記載される方法を使用して識別された信頼できるTCRデータを有することは、医療従事者などの誰かが、対象の抗原性歴またはワクチン歴を推定することを可能にする。一部の態様では、本明細書に記載されるICON方法を使用して識別された信頼できるTCRデータは、医療従事者などの誰かが、対象がどの病原体に曝露されたか、または対象がどの国を訪問したかを推測することを可能にする。例えば、アフリカにのみ存在する病原体に対するTCR結合データの存在は、対象がアフリカにいたことがあり、それらの病原体に曝露されたことを示し得る。
一部の態様では、本明細書に記載されるICON方法を使用して識別された信頼できるTCRデータは、対象の現在の免疫状態を評価することができる。例えば、血液が、採取されてもよく(第一の採血)、血液由来の細胞が、単一の細胞ベースの免疫プロファイリングプラットフォームを介して処理されてもよく、得られたデータが、本明細書に記載されるICONの方法に従って処理され、TCR結合データを得てもよい。一部の態様では、TCR結合データの確立に使用されるデキストラマーは、腫瘍特異的pMHCを含む。したがって、TCR結合データが、ICON方法を使用して正規化され、信頼できるTCR結合データが確立されると、予測される腫瘍特異的TCRの存在を決定することができる。例えば、信頼できるTCRデータは、開示される機械学習(CNN)方法において使用することができ、したがって、対象由来の血液は、予測される腫瘍特異的TCRの存在について分析することができる。したがって、腫瘍特異的TCRの存在は、任意の腫瘍または癌症状が検出される前に、癌の早期検出をもたらすことができる。
一部の態様では、T細胞ベースの療法のためのT細胞を選択する方法が開示される。一部の態様では、トレーニングデータは、機械学習分類の開示された方法を使用して蓄積することができる。一部の態様では、分類子は、pMHC結合の確率を、試験されたそれぞれのTCR配列に割り当てることができる。一部の態様では、試験されたTCR配列は、T細胞と関連付けられ、T細胞は、一次または二次細胞培養物由来であってもよい。これにより、それぞれのT細胞が、異なるpMHCに特異的なTCRを有するかどうかを決定するために、試験される全てのT細胞において結合アッセイを行う必要性を回避する。代わりに、分類指標は、TCR-pMHC結合の確率の決定について信頼される。したがって、特定のpMHCに対して高度に選択性があると分類されたそれらのTCR、およびそれを含むT細胞が、T細胞療法に使用することができる。一部の態様では、最も信頼できる結合データのみを使用して、選択されたT細胞と関連するTCRを分類するために使用されるトレーニングデータを生成したので、機械学習分類指標を介して識別されたT細胞は、結合アッセイを介して識別されたそれらのT細胞より安全な細胞療法を提供することができる。
一部の態様では、免疫モニタリング方法が開示される。一部の態様では、血液は、免疫療法(例えば、ワクチン処置、免疫チェックポイント処置)を受けている対象から採取することができ、細胞、特に、T細胞は、開示される機械学習アプローチで確立されるトレーニングデータに基づき、対象のエピトープに対する特異性を有するか否かに分類することができる。一部の態様では、T細胞が、対象のエピトープに対する特異性を有すると決定される場合、次いで、対象が、免疫療法に応答するであろうか、または免疫療法に応答するかを推測することができる。例えば、免疫療法が、癌特異的抗原に対する免疫応答を誘発するワクチンである場合、対象から得られたT細胞は、癌特異的抗原への結合のその確率に基づいて分類される。単一の細胞免疫プロファイリング技術およびICONを使用して得られたトレーニングデータに基づき、癌特異的抗原への結合の高い確率を有する、T細胞が選択される場合、次いで、対象は、免疫療法(例えば、ワクチン)に対するレスポンダーであるとみなされるであろう。
一部の態様では、開示される方法を使用したTCRエピトープマッピングの方法が開示される。一部の態様では、TCRエピトープマッピングは、T細胞(CD4+および/またはCD8+)受容体によって認識される特定の抗原のエピトープの特異的(場合によっては最も短い)アミノ酸配列を識別するプロセスを指す用語であり、同時に、長期的かつ細胞傷害性免疫応答を刺激する可能性を有する。開示される単一の細胞免疫プロファイリングプラットフォーム技術を行う間、デキストラマーを使用することができ、対象の一つまたは複数の抗原由来の全ての異なるエピトープを、デキストラマー上に提示することができる。言い換えると、単一のデキストラマーは、pMHCを含むことができ、pMHCのペプチドは、対象の一つまたは複数の抗原由来の単一のエピトープであり、一つまたは複数の抗原のすべてのエピトープが、デキストラマー上のpMHCに存在するように、十分なデキストラマーが使用される。T細胞は、対象の一つまたは複数の抗原由来の単一のエピトープを含むデキストラマーを有する開示された単一の細胞免疫プロファイリングプラットフォームにおいてデキストラマーに曝露することができ、対象の一つまたは複数の抗原の全てのエピトープが、デキストラマー上のpMHCに存在するように、十分なデキストラマーが使用される。単一細胞免疫プロファイリングから得られた、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞のTCR配列データは、異なるデキストラマー(例えば、エピトープ)に結合したT細胞についてのデータを提供することができる。次いで、単一細胞免疫プロファイリングデータは、本明細書に記載されるように、ICONを使用して処理され、ゆえに、対象の一つまたは複数の抗原の一つまたは複数のエピトープに最も信頼できる結合を有するそれらの細胞についての結合データをもたらす。一部の態様では、対象の一つまたは複数の抗原の一つまたは複数のエピトープに結合するTCRの機械学習分類を使用して、対象由来のどのT細胞が、特定の抗原(例えば、腫瘍抗原)に対して反応性であるかを予測することができる。
E.キット
上記の材料ならびに他の材料は、開示される方法を実施する、または実施を助けるのに有用なキットとして、任意の適当な組み合わせで一緒にパッケージすることができる。所与のキットにおけるキット構成要素が、開示される方法において一緒に使用するために設計され、適合される場合、それは、有用である。例えば、単一の細胞配列決定データを生成するためのキットが開示され、キットは、単一の細胞免疫プロファイリングのための試薬を含む。一部の態様では、キットは、pMHCを含む開示されたデキストラマーのうちの一つまたは複数を含むことができる。一部の態様では、キットは、Next GEM配列決定材料を含むことができる。一部の態様では、キットは、単一の細胞の配列データ、デキストラマー配列データ、および/または単一の細胞の受容体配列データのうちの一つまたは複数を含むマルチオミクスハイスループット結合データを含むことができる。
実施例
以下の実施例は、本方法およびシステムが、結腸直腸癌の検出に関連する本方法およびシステムを例証する。以下の実施例は、その限定を意図するものではない。
A.実施例1
1.結果
i.マルチオミクスハイスループットTCR-pMHC結合データ。
10×Genomicsは、最近、拡張性の公開の利用可能なTCR-pMHC結合データセットを生成した。それらの初期の報告では、4人のHLAハプロタイプ健康ドナー(図19)由来の150,000個を超えるCD8+T細胞の結合特性を、T細胞αβ鎖対およびトランスクリプトームを同時に配列決定しながら(図2)、T細胞への抗原結合を直接検出するための単一細胞ベースの免疫プロファイリングプラットフォームを使用した44のpMHCデキストラマーにわたり評価した。デキストラマープールは、八つのHLA対立遺伝子にわたり、公知の共通のウイルスおよび癌反応生を有するエピトープからなる(図20)。
単一の細胞レベルで生成した高度に多重化したデキストラマー結合データセットを本明細書において記載する。10×Genomicsは、バックグラウンドノイズおよび全てのドナーに対する非特異的デキストラマー結合についての網羅的カットオフを適用することによって、pMHC結合TCRを決定する単純なアプローチを使用した。しかしながら、予想外に多数の無差別な交差HLAおよび交差ペプチドの関連を、特に、ドナー3および4において、このアプローチによって識別されたTCR-pMHC結合現象から見出した(図11A)。さらなる検討の際、データ品質の問題のため、ドナー3由来のデータを本研究から除外した(図11B)。
このようなハイスループット TCR-pMHC結合データから信頼できる結合現象を健全に識別するために、ICON、統合COntext特異的正規化方法を開発した(図6A、図12および方法)。それぞれのドナー由来のマルチオミクスハイスループット結合データを入力データとして別々に取得することによって、ドナー特異的な状況下で、ICONデータ正規化プロセスを行った。簡単に言うと、単一の細胞のトランスクリプトームデータを使用して、良好な品質の細胞(生およびシングルトン)を選択した。次いで、陰性対照 デキストラマー(n=6)とデキストラマー-選別されていない資料の両方を、バックグラウンド対照としてそれぞれのドナーのため使用して、それぞれのドナーについてのバックグラウンド結合ノイズを経験的に推定した。続いて、未加工のデキストラマー結合シグナルを、それぞれのドナーについての推定されたバックグラウンドノイズを別々に減じることによって補正した。次に、補正したデキストラマーシグナルを、細胞およびpMHCにわたり正規化し、同等のデキストラマー結合シグナルを直接生成した。拡大したT細胞クローンのICON-正規化したデキストラマー結合シグナルおよび結合特異性の分布は、ICONが、ハイスループットTCR-pMHC結合データの信号対雑音比を有意に増加させたことを示している(図6Aおよび6Bならびに図12Bならびに図13)。
ii.10×Genomicsハイスループットデータから識別したTCR-pMHC結合現象。
ICONを適用して、合計20,843個のCD8+T細胞を、3人のドナー由来の29個のpMHCに結合する1,514個の固有のT細胞クローンから識別した(図7A、図21および方法)。このハイスループットデータセットから識別した固有のTCR-pMHC相互作用の数は、VDJdbにおける対のαβTCRの全体と同等のサイズである。pMHC結合TCRのうち、総TCRの98.9%(固有のTCRの94.7%)は、七つのpMHC:B08:01_RAKFKQLL_BZLF1_EBV、A02:01_GILGFVFTL_Flu-MP_インフルエンザ、A11:01_IVTDFSVIK_EBNA-3B_EBV、A03:01_KLGGALQAK_IE-1_CMV、A11:01_AVFDRKSDAK_EBNA-3B_EBV、A02:01_GLCTLVAML_BMLF1_EBVおよびA02:01_ELAGIGILTV_MART-1_癌に結合する(図7Bおよび図16および図17)。
デキストラマープールにおける最も一般的なHLAハプロタイプ(A02:01)を有する(図14および図15)、ドナー1および2は、固有のTCR-pMHC反応生の有意なフラクションを共有する(n=38)(図7C)。ドナー4は、A02:01陰性であり、ドナー1および2とは異なるHLAハプロタイプを有する(図19)。ドナー4とドナー1およびドナー2の結合との間で観察した、共有されたpMHC結合TCR配列はなく(図7C)、これは、TCR-pMHC結合パターンが、HLA拘束性である可能性が最も高いことを示す。
興味深いことに、共有されたβ鎖を有するTCRの37%は、異なるα鎖と対形成する。この割合は、共有されたTCRα鎖についてわずかに低い(30.9%)。共有されたαまたはβ鎖を有するTCRの大部分(約92%)は、試料pMHCに結合するが、それらの約8%は、異なるpMHCを認識し(図7D)、これは、αβ対形成情報が、TCR機能性の正確な推定に必須であることを示している。
TCRの二重特異性(特異性対変性)を、広範囲の抗原適用範囲を維持しながら、自己免疫反応生を回避するために、外来ペプチドから自己を有意に区別する免疫応答機序の重要な特性と示唆している。実際、非常に特異的ではあるが無差別のTCR-pMHC相互作用を観察した。固有のTCRの98.7%が、一つの特定のpMHCに結合し、残りのTCRは、2つまたは3つのpMHCと相互作用する(図7EおよびA)。複数のエピトープと相互作用することができるTCRを観察したが、これらのTCR-pMHC相互作用は、概してHLA型特異的パターンに従う。結合現象の99.3%超が、HLA一致であり、その内11.6%が、提示されたペプチドの類似の主要アンカー位置を共有するHLA A03-スーパータイプファミリーメンバーHLA A03:01とA11:01の間の交差認識を伴う。しかしながら、0.7%の結合現象は、交差HLAタイプ相互作用である。
iii.T細胞抗原特異性の畳み込みニューラルネットワーク(CNN)ベースの分類。
この大きく多様なTCR-pMHC結合データセットでは、これらの結合現象を計算で検証または優先順位付けするためのより堅牢な機能的分類指標が望ましい。最近の研究により、畳み込みニューラルネットワーク(CNN)は、TCR配列から高次元の情報を学習することができ、したがって、TCR-pMHC結合を健全に予測し得ることが示された。CNNベースのフレームワークを、TCR-pMHC結合の検証および/または予測のため適合させた。簡単に言うと、対のαβ鎖CDR3アミノ酸配列ならびにそれぞれのTCRのVおよびJ遺伝子を一次元入力ベクターにコードした。具体的には、トレーニング可能な埋め込みを使用して、CDR3アミノ酸配列をコードし、VおよびJ遺伝子セグメントをベクターに形質転換した。CNN構造は、一つの畳み込み特性層および最終の分類層につながる三つの完全に連結した層を含んでもよい(図8Aおよび方法)。所与のpMHCについての結合および非結合TCRの不平衡な数を有することによって導入され得る潜在的なバイアスに対処するために、クラス加重費用関数をトレーニング(方法)に使用した。
このCNNベースのモデルの性能を評価するために、11のpMHC特異的結合T細胞レパートリーを、従来の単一の多量体結合アッセイおよびゴールドスタンダードデータセットとして抗原再曝露アッセイによって生成した(図23)。それぞれの精選したpMHC結合レパートリーを、トレーニング、検証および試験セットに分けた。CNNベースのモデルは、平均曲線下面積(AUC)0.90((AUC)=0.90)を用いて精選したTCRの抗原結合特異性を分類することができた(図8B)。CNNベースの分類指標を、距離ベースの分類指標であるTCR配列類似性と比較した。CNNベースの分類指標は、特に、高度に多様なpMHCレパートリー(図14)についての距離ベースの予測モデルより優れている(図8C)。CNNベースと距離ベースの分類指標の間の分類性能相違(ΔAUC)は、シャノンエントロピーによって測定したpMHC結合T細胞レパートリーの多様性と正に相関する(図8D)。
iv.10×Genomicsハイスループットデータから識別したpMHC結合レパートリーの分類。
次に、CNNベースの分類指標を、10×Genomics結合データから識別した上位七つのpMHC結合レパートリーに適用した(図7Bおよび図15)。七つのpMHCレパートリーを、平均(AUC)=0.89を用いて分類した(図9A)。これらのデータにおいて、精選したデータセットと同様に、CNNベースの分類指標は、距離ベースのモデルよりも優れている(図16)。これらの結合TCRをさらに計算で検証するために、精選したデータセットにおける結合TCRも有する、四つのpMHCレパートリー(A02:01_ELAGIGILTV_MART-1、A02:01_GILGFVFTL_Flu-MP、A02:01_GLCTLVAML_BMLF1_EBV、およびA11:01_AVFDRKSDAK_EBNA-3B_EBV)を使用した。CNNベースの分類指標を、四つの精選したレパートリーならびに院内の独立した抗原再曝露実験(方法)からさらなるA02:01_ELAGIGILTV_MART-1結合レパートリーを予測するための10×Genomicsデータセットから識別した四つのレパートリーを使用してトレーニングした。図9Bは、トレーニングセットにおける高性能と同等の予測結果を示す。
歴史的に、TCRβ鎖配列決定をしばしば使用して、α鎖と比較してより高い複合能に起因して、T細胞抗原結合特異性を推測する。TCR-pMHC相互作用の予測におけるTCRαおよびβ鎖の寄与を定量的に評価するために、α鎖またはβ鎖のいずれかを、対のαβ鎖の代わりに、CNNベースの分類指標への入力として使用した。対のαβ鎖を用いた性能は、αまたはβ鎖のみより良好であり、AUCの平均増加16%を伴った(図9C)。TCR-pMHC特異的認識の予測への不均衡なαおよびβ鎖の寄与を観察した。例えば、β鎖の寄与は、A*02:01_GILGFVFTL_Flu-MP_インフルエンザレパートリーにおいて優生であり、一方、α鎖は、A11:01_AVFDRKSDAK_EBNA-3B_EBVおよびA02:01_ELAGIGILTV_MART-1_癌特異的バインダーの予測により重要であった(図9C)。同様に、TCR VJ遺伝子使用の異なるレベルの保存を、これらの七つのpMHCレパートリーのαとβ鎖の間で観察した(図9D)。さらに、V遺伝子使用は、A02:01_GILGFVFTL_Flu-MP_インフルエンザレパートリーにおける優性TRBV19使用を除き、β鎖においてよりα鎖において概してより保存され、これは、αとβ鎖の間の不均衡な分類性能を部分的に説明し得る。再度、これらの結果は、TCR-pMHC相互作用の正確な推論のためのαβ対形成の重要性をまとめて示す。
分類の根底にある保存されたTCR配列特性をさらに理解するために、CDR3アミノ酸配列のモチーフ保存を、これら七つのpMHCレパートリーのそれぞれについて、10個の最も予測可能なTCR配列から探索した(図9E)。VJ遺伝子使用と整合して、モチーフの保存は、β鎖CDR3においてよりα鎖CDR3において概してより明らかである(図9Eおよび9D)。VDJdbがCDR3アミノ酸モチーフも有する四つのpMHCレパートリーについて、10×Genomicsデータから識別したモチーフは、VDJdb由来のものと類似する(図9Eおよび図17A)。まとめると、結果は、ハイスループットデータセットから識別したpMHC特異的TCRが、信頼性のある結合パートナーであり、CNNベースのモデルが、重要な保存されたTCR配列の特性を捕捉することができることを示す。
v.pMHC結合CD8+T細胞の免疫表現型。
抗原特異性とT細胞表現型の合わせた情報は、ワクチン接種などの免疫療法の臨床的成功に重要であると報告されている。10×Genomics免疫プロファイリングプラットフォームによって生成したマルチオミクスデータは、T細胞抗原特異性を様々なT細胞表現型と結び付けることを可能にする。このマルチオミクスデータセットからの遺伝子(単一の細胞RNA-seq)および表面タンパク質(CITE-seq)発現レベルを使用して、pMHC結合CD8+T細胞を亜集団に分けた(方法および図18)。次いで、識別した亜集団を、既に記載された32、CD8+T細胞サブタイプマーカー遺伝子:ナイーブ細胞(CD45RA+CD45RO-CD62LhiCD127hi)、中心メモリー細胞(Tcm、CD45RA-CD45RO+CD62L+)、Tエフェクターメモリー細胞(Tem、CD45RA-CD45RO+CD62L-)、末梢メモリー細胞(Tpm、CD62L+CD127hi)、高分化したエフェクター細胞(Temra、CD45RA+CD45RO-CD127loGZMBhi)および他のメモリー細胞(CD43loKLRG1hiCD127-)に従い注釈を付けた(図10Aおよび10B)。
pMHC結合T細胞の98.6%は、拡大したT細胞クローンに富化されたメモリー細胞であり(図10D)、これは、これらのT細胞が、特定の免疫応答によって選択され、したがって、応答性および信頼性のあるバインダーである可能性が高いことを示している。これらのメモリーT細胞の大部分は、共通のウイルスエピトープ(例えば、インフルエンザ、EBV、CMV)に結合し、それぞれのドナー由来のCD8+pMHC結合T細胞は、メモリー細胞サブセットの異なる分布を示した。例えば、ドナー1は、主にTpm細胞およびTcm細胞を有し、一方、ドナー2は、Tem細胞およびTpm細胞を有し、ドナー4は、主にTemra細胞を有していた(図10Cおよび10D)。
pMHC結合T細胞の大部分は、メモリー表現型を発現したが、それらの1.3%、ナイーブ細胞であった。これらのナイーブ細胞は、非ナイーブ細胞よりも多様なpMHC相互作用を有し、内因性抗原、腫瘍関連抗原(例えば、MART-1)、またはドナーが血清陰性出会ったウイルス(例えば、HIV)に由来する抗原にしばしば結合した(図10Cおよび図20)。興味深いことに、交差HLA型結合を有するナイーブT細胞の割合は、非ナイーブ細胞の割合よりも有意に高かった(図10E)。これらの結果は、健康なドナーT細胞レパートリー、特に、ナイーブ細胞が、まだ遭遇していない抗原または希少な抗原に応答し、交差反応を保持する可能性を示している。これらの細胞が、機能的T細胞応答を担持することができるかどうかを評価するために、さらなるアッセイが必要である。
2.論考
信頼できるTCR-pMHC相互作用を識別できる方法(Icon)を、高度に多重化した10×Genomics TCR-pMHC結合データにおいてシグナル対バックグラウンド比を著しく増加させることによって開発した。適切な対照(陰性対照デキストラマーおよびデキストラマー選別していないT細胞試料)を有することは、TCR-pMHC結合現象を確実に識別するために不可欠であることが判明した要因であるバックグラウンドノイズを正確に推定するのに不可欠である。ICONを、多重化デキストラマーの単一プールからなる一つのデータセット上で開発したが、この方法を、より多くの多重化データセットが生成されるにつれて、より広範なpMHCデキストラマープールからpMHC-TCR結合データをクエリーするように一般化することができる。
この研究では、TCR-pMHC特異的結合の予測におけるこのCNNベースの分類指標の頑健性を示し、この計算予測を、T細胞抗原特異的認識を実質的に(実験的に対して)研究するために使用することができる可能性があることを示している。T細胞抗原特異的認識の免疫モニタリングを、特定の抗原(例えば、腫瘍特異的抗原およびペプチドワクチン)に対する免疫応答、ならびに免疫療法を受けている患者における臨床結果とのそれらの可能性のある相関を決定するために適用した。しかしながら、TCR配列を抗原特異性に実験でマッピングすることは、費用が高く、かつ労働集約的である。特定のpMHCについての適切なトレーニングデータを用いて、本明細書に提示した分類指標は、結合アッセイを行うことなく、対象のそれぞれのTCR配列にpMHC結合の確率を割り当てることができる。この研究では、この分類指標の多項予測モード(図17B)を検証し、これにより、安全なT細胞関連療法のため高度に特異的なTCRを選択するために使用する可能性がある。
結果は、特定のpMHCに結合するTCRの大部分(>30%)が、一本鎖を共有し、第二の鎖で異なることを示し、T細胞クローン性は、対のαβ鎖を用いたデータによって決定されなければならないことを示す。さらに、単一鎖を共有するこれらのTCRの8%は、異なるpMHCに結合することができる。これは、対のTCR鎖を使用したTCR抗原特異性の予測能力と一致しており、いずれかの鎖のみを使用した場合よりも16%高い。したがって、単一の細胞の対のαβ鎖配列決定は、T細胞レパートリークローン性およびTCR-pMHC結合特異性を正確に調べるために、より強力である可能性が高い。
生物学的に関連するT細胞反応性を評価する能力は、病原体に対する免疫応答およびその他の疾患状態を調査およびモニターするのに重要である。回復されたT細胞反応性の大部分(98.6%)が、適切なHLA型/スーパータイプと一致していること、さらに、多量体陽性細胞の表現型が、メモリーT細胞区画に大部分が限定されていることを観察し、これは、以前の機能的T細胞応答からの関連するメモリー反応性が、この技術で解決可能であることを示している。対のαβTCR配列決定により、個々の多量体に特異的である複数のTCR配列が明らかになり、これは、一般的なウイルス負荷に対する広範な抗原免疫応答を強化している。
低い程度のHLAミスマッチ反応性を回復したが、これらは、メモリーサブセットと比較して拡大していないナイーブT細胞において著しく濃縮され、これは、以前に曝露していない標的または機能的T細胞応答で頂点に達しなかったものに対する抗原特異的相互作用を明らかにする可能性がある。さらに、TCR結合活性の範囲をこれらの実験において回復し、これは、予想外の結合パターンの検出に寄与し得ることを予測する。デキストラマーは、高度に多量体化し、従来の四量体試薬よりも広範なTCR結合の結合活性を検出する可能性が高い。さらに、広範な蛍光デキストラマー強度を、多量体陽性のゲーティングにおいて選別し、低い頻度、より低い結合活性のTCR相互作用でさえ、この高感度の単一細胞アッセイにおいて捕捉した。
3.方法
i.10×Genomics単一の細胞免疫プロファイリングデータセット
本研究のため使用した10×Genomicsデータを、support.10xgenomics.com/single-cell-vdj/datasetsからダウンロードした。
ii.単一の細胞のRNA-seqデータQC
それぞれのドナー由来のCD8+細胞を、以下の基準:細胞当たり検出したRNA特性数<=2500および>200遺伝子、ならびに総UMI(固有の分子識別子)カウントの40パーセント未満であるミトコンドリアパーセンテージにより下流分析のために選択した。
iii.pMHC結合T細胞の分類
Seuart V3単一の細胞配列決定分析Rパッケージ33、34を、単一の細胞RのNA-seqデータに基づく分類分析のため使用した。TCR VJ遺伝子使用の有意な濃縮を、識別したpMHC結合T細胞において観察したため、TCR遺伝子を分類から取り除いた。そのため、細胞クラスターは、それらの共有したVJ遺伝子の使用によって支配されない。次いで、識別した結合T細胞のその他すべての遺伝子発現を、Seurat V3デフォルトパラメータを使用して正規化し、計量した。PCAを正規化し、形質転換しUMIカウントを、可変的に発現した遺伝子上で行った。上位10のPCを、細胞分類に使用した。分類可視化のため、UMAPを使用した(図17)。
iv.最も予測可能なpMHC結合TCR対からのCDR3モチーフの生成
10個の最も予測可能なTCR由来のαおよびβ鎖のCDR3アミノ酸配列を、COBALT(www.ncbi.nlm.nih.gov/tools/cobalt/cobalt.cgi)を使用して整列させた。整列させたCDR3アミノ酸配列を、デフォルトのパラメータを用いてWebLogo35に入力し、モチーフを生成した。
v.報告したpMHC特異的結合対TCRの精選
未加工ファイルを、VDJdb28(vdjdb.cdr3.net/)およびThe Pathology-associated TCR database36 (friedmanlab.weizmann.ac.il/McPAS-TCR/)からダウンロードした。データは、以下の基準:VDJdbについて、対のαまたはβ鎖CDR3アミノ酸配列を、それぞれの「complex.id」について必要であり、「供給源」と注釈を付けたTCRを、10x genomicsから除去し、データを「種」=「ヒト」についてフィルタリングした、に従って処理して、pMHC TCR結合を得た。McPAS-TCRについて、既知の「エピトープ.ID」を、完全なデータにおいて必要とし、「CDR3.アルファ.aa」および「CDR3.ベータ.aa」を有し、同様に、VDJdbについて、ヒトTCRをフィルタリングした。
vi.TCR-pMHC結合データの正規化
統合COntext特異的正規化(ICON)方法を開発した。それは、10×Genomics免疫マッププラットフォームから生成したマルチオミクス単一の細胞の配列決定データを入力データとして取得し、信頼できる結合現象を識別するためにTCR-pMHC結合特異性データ正規化を行う。マルチオミクスデータセットは、単一の細胞のRNA-seq、対のαβ鎖単一の細胞TCR-seq、dCODE-デキストラマー-seqならびにCITE-seq(配列決定によるトランスクリプトームおよびエピトープの細胞指数)とも称される、細胞表面タンパク質発現配列決定を含む。ICONは、以下の主要なステップを含む(図6Aおよび図12)。
低品質の細胞の単一の細胞のRNA-seqベースのフィルタリング。それは、二重項および死細胞などの低品質の細胞をフィルタリングする。検出したT細胞について予想外に多い数の遺伝子を有する細胞(例えば、細胞当たり>2500個の遺伝子)を、二重項として分類し、ミトコンドリア遺伝子発現の高いフラクション(例えば、総遺伝子発現UMIに対するミトコンドリア遺伝子発現UMIの比>0.4)または検出した遺伝子の数があまりに少ない(細胞当たり<200個の遺伝子)は、死細胞と分類した。(図12A)。
単一の細胞のdCODE-デキストラマー-seqベースのバックグラウンド調節。デキストラマー結合アッセイのため設計した二つのタイプのバックグラウンドノイズ対照が存在し、分析において使用し、一方は、デキストラマー染色および選別したCD8+T細胞(ncと示す、NC_dex)由来の陰性対照デキストラマー(n=6)であり、ならびに他のものは、デキストラマーにおけるソーティングなしで、デキストラマー染色したCD8+T細胞である。シグナルおよびノイズ分布を検査するために、それぞれの細胞の最善の結合を表す、それぞれの細胞のUMI(固有分子識別子)における最大のデキストラマーシグナルを選択した。具体的には、細胞の非特異的デキストラマー結合シグナルを、Max(nc,…,nc)として表し、6個の陰性対照デキストラマーの最大のデキストラマーシグナルは、デキストラマープールを含んでいた。デキストラマー染色し、選別した試料(dsとして示す、Dex_選別した)からの細胞のデキストラマー結合シグナルを、44の試験デキストラマーのUMIにおける最大のデキストラマーシグナルである、Max(ds,…,ds44)として表す。同様に、Dex_選別していない試料由来の細胞のデキストラマー結合シグナルを、Max(du,…,du44)として表す。ICONプロセス前のこれら三種類のデキストラマーシグナルの分布を、図12B上部パネルに示す。UMIにおける非特異的デキストラマー結合シグナルのP99.9(陰性デキストラマー対照の絶対外れ値を除外した)を、それぞれのドナーについて、非特異的デキストラマー結合カットオフとして選択した。
細胞ソーティングプロセスによって導入される可能性のあるノイズを推定するために、Dex_選別した試料とDex_選別していない試料の間のデキストラマー結合シグナルの累積分析を比較して、デキストラマーソーティング効率のためのカットオフを決定した(図12C)。それぞれのドナーについて、コルモゴロフ-スミルノフ検定(KS検定)p値は、それぞれのデータ点(デキストラマーUMI)をスライディングウィンドウとして使用した、デキストラマー選別した試料およびデキストラマー選別していない試料の累積曲線を比較することによって計算した。S字型減少p値曲線は、デキストラマー選別した試料におけるデキストラマー結合シグナルの濃縮をデキストラマー選別していない試料と比較して示し、一方、V字型曲線は、緩い細胞ソートゲートを示唆する(図12D)。Dex_選別したとDex_選別していない(argmax D_(s,u))の間のデキストラマー結合シグナルの最大の相違を定義するデキストラマーUMIは、V字型試料についてのデキストラマーソーティング効率を推定するための閾値として使用した。最後に、デキストラマー選別した試料のバックグラウンドノイズを以下のように定義した:
d=最大(P99.9、argmaxDs,u)
選別した細胞のそれぞれの44の試験デキストラマーについてのデキストラマーシグナル(UMI)を、推定したバックグラウンドを減じることによって補正した(図12E):
=E-d
次いで、それぞれの細胞についてのログランク分布に基づき、セルワイズ正規化を行った。pMHCワイズ正規化を行い、デキストラマー結合シグナルを互いに同等にした。選別した細胞Ecの調節したデキストラマー結合シグナルを、44の試験デキストラマーにわたり正規化し、次いで、以下の方程式の通り、全ての細胞にわたり正規化した。E_c^’>=0.9を、pMHC特異的バインダーについてのカットオフとして経験的に選択した(図12F)。
単一の細胞のTCR-seqに基づく単一の対のαβ鎖を有するT細胞の選択。α鎖のみ、β鎖のみ、および複数のαまたはβ鎖を有するT細胞を除去した。単一の対のαβ鎖を有するT細胞のみを、この研究において使用した。
ICON正規化プロセスを、それぞれのドナーについて別々に行った。
vii.MART-1結合T細胞を識別するための抗原特異的T細胞拡大および抗原再曝露
HLA A02:01個体由来の末梢血単核細胞(PBMC)を、Ficoll-Paque Plus勾配単離により単離した。PBMCを、T細胞培地(CellGenix樹状細胞培地、カタログ番号20801-0500+5%ヒト血清AB(Sigma、カタログ番号H3667))+1%ペニシリン/ストレプトマイシン/L-グルタミン(ThermoFisher、カタログ番号10378-016)、5ng/mlのT細胞補助サイトカインIL-7およびIL-15(CellGenix、それぞれ、カタログ番号1410-050および1413-050)、ならびに10U/mlのIL-2(Peprotech、カタログ番号200-0)、ならびに10ug/mlのA*02:01拘束性MART-1エピトープELAGIGILTV(Genscript)中、培養プレートに播種した。培養物に、1週間、2日毎に新鮮な培地およびサイトカインを与えた。培養の7日目に、細胞を蛍光標識したデキストラマーHLA-A02:01 MART-1 ELAGIGILT(Immudex、カタログ番号WB2162-PE)で染色して、フローサイトメトリーにより抗原特異的CD8+T細胞拡大を評価した。抗原再曝露アッセイについては、7日間の拡大後、ペプチドをT細胞拡大培養物に加えた。再刺激の24時間後、細胞を集め、CD3(BD Biosciences、カタログ番号612750)、CD8(BD Biosciences、カタログ番号612889)、CD69(BD Biosciences、カタログ番号564364)、CCR7(Biolegend、カタログ番号353218)、CD45RO(Biolegend、カタログ番号304238)、CD137(Biolegend、カタログ番号309828)、およびCD25(Biolegend、カタログ番号356104)についての蛍光標識抗体を用いて染色した。Astrios細胞ソーター(Beckman Coulter)を利用して、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでゲーティングする蛍光活性化細胞ソーティング(FACS)を設定し、破片および二重項を排除しながら、生細胞を選択した。さらに処理のため、100μmのノズルを使用して、単一のCD3+CD8+CD45RO+CD137+細胞を選別した。
次いで、選別した細胞を、Chromium Single Cell 5’ チップ(10×Genomics、カタログ番号)に充填し、それらをChromium Controllerを通して処理して、GEM(エマルション中のGelビーズ)を生成した。RNA-Seqライブラリーを、製造元のプロトコルに従って、Chromium Single Cell 5’Library & Gel Bead Kit(10×Genomics、カタログ番号)を用いて調製した。
viii.10×Genomicsドナー3およびドナー4についてのRegeneronオリゴタグ付けデキストラマー染色およびソーティング
10×Genomicsが、CD8+T細胞デキストラマー結合能の再評価に使用するため、凍結保存したドナー3およびドナー4のPBMCを親切に提供した。CD8+T細胞を、Miltenyi CD8+ T細胞陰性濃縮(Mitenyi)を使用して濃縮した。次いで、細胞を、ベンゾナーゼ(Millipore)およびダサチニブ(Axon)と45分間インキュベートし、その後、オリゴタグ付きデキストラマープール(Immudex、図21)を用いて室温で30分間染色した。次いで、細胞を、CD3(BD Biosciences、カタログ番号612750)、CD4(BD Biosciences、カタログ番号563919、CD8(BD Biosciences、カタログ番号612889)、CCR7(Biolegend、カタログ番号353218)、およびCD45RO(Biolegend、カタログ番号304238)についての蛍光標識ならびにCITE-seq 抗体を用いて、30分間、氷上で染色した。Astriosセルソーター(Beckman Coulter)を利用し、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでの蛍光活性化細胞ソーティング(FACS)ゲーティングを設定し、破片および二重項を除外しながら、生細胞を選択した。100μmのノズルを使用して、さらなる処理のため、単一のCD3+CD8+デキストラマー+細胞を選別した(図11)。
TCR配列の類似性の距離ベースの分類は、最近、pMHC結合についての構造情報によって誘導したTCR CDR領域の配列空間に基づき、TCR-pMHC結合特異性を予測するための、過重の害となる距離ベースの方法であるTCRdistを報告した。最も近い隣人(NN)距離(レパートリー内の受容体とその最も近い隣人の間の平均TCRdist)をさらに計算して、レパートリー内の受容体密度を測定した。それぞれのpMHCレパートリーについて、バインダーを、所与のpMHCに結合するTCRであると定義した。それぞれの結合TCRと、所与のTCRを除去したpMHCバインダーのそれぞれのセットとの間のNN距離を計算した。NN距離を、それぞれのTCRの既知の特異性に基づき分離した。それぞれのpMHCの二進法分類指標について、受信者動作特性(ROC)曲線およびROC曲線下面積(AUC)を、plotROC Rパッケージを使用して計算した38。簡単に言うと、それらのNN距離が、所与の閾値以下になる場合、所与のpMHCに結合するとTCRを分類する、それぞれの分類指標についてのいくつかのNN距離閾値において感度および特異性を計算することによって、ROC曲線を生成した。
ix.CNNベースの分類
重み付け二値分類指標を、ディープラーニングフレームワークに基づき適合し、それは、特定のニーズを満たすための調節を伴い、三つの主要なステップを含む。
x.入力データフォーマット化
TCR配列決定ファイルを、10×Genomicsの未加工のフォーマット化したファイルとして収集した。配列決定ファイルを、非生産性配列を除去した後にCDR3のアミノ酸配列を取るように解析した。異なるヌクレオチド配列を有するが、CDR3由来の同じ一致したアミノ酸配列、およびV、D、J遺伝子を有するクローンは、一つのTCR下で一緒に凝集させた。したがって、ここで使用したそれぞれのTCR記録は、CDR3、V、およびJ遺伝子の単一の対のαおよびβTCRアミノ酸配列を含む。α鎖のみのTCRB-CDR3アミノ酸配列を用いたモデル実行のため、β鎖遺伝子を入力から除去した。同様の除去を、β鎖のみのモデルについて行った。
xi.データ変換
それぞれのTCR-CDR3アミノ酸配列を、20個の可能性のあるアミノ酸を表す数字でコードした。IUPAC(国際純正および応用化学連合)アミノ酸に適合する配列のみを保持した。異なる長さのTCRについて、最大長40に0パディングを適用した。トレーニング可能な埋め込み層を使用して、アミノ酸配列から特性をさらに抽出した。VおよびJ遺伝子を、計算空間における遺伝子名の分類上および別々の表示を提供するよう、ワンホットコードした。コードされた配列および遺伝子名を、一つのTCR記録を表すよう一緒に結び付けた。このデータ変換プロセスを、すべてのネットワークのトレーニング前に適用した。
xii.単一のTCR配列分類指標
この方法を適合し、TCRをトレーニングするための一般的な従来のニューラルネットワーク構築を提供し、試料またはレパートリーレベルの予測に焦点を当てた。単一のTCR配列予測の最適化に焦点を当てた。これを達成するために、T細胞クローンサイズを入力データから除去した。さらに、単一の翻訳インバリアント層を配列に適用し、続いて、三つの完全に結び付けた畳み込み層を最終出力層に適用した。ネットワークを、Adam Optimizer(学習速度=0.001)を使用してトレーニングし、ソフト最大値対数と、ネットワークの別々の分類上の出力のワンホットコード化表示の間の交差エントロピー損失を最小にした。このアプローチを、生物学的に意義のある核心サイズ439を使用して、可能性のあるモチーフを捕捉することによって改変した。トレーニングデータにおける不均衡なクラス表現を考慮するために、以下の式を使用して、加重交差エントロピー損失関数を適用した。

は、それぞれのクラスについてのTCR配列の反転頻度を使用して計算した重みである。Cは、一つのクラスを表し、nは、一つのクラスにおける総TCRであり、nは、TCRの総数であり、

は、それぞれのTCR配列についての予測クラスおよび実際のクラスを表す。
それぞれ、検証および試験のため一定数のTCRを保持することによって、モンテカルロ交差検証(MCCV)トレーニングを行った。配列の検証群を使用して、早期停止アルゴリズムを実装した。ここで、20回の反復でモンテカルロ試料採取した。配列分類指標についての受信者動作特徴(ROC)曲線を、すべてのMCCV予測の平均化後、試験セットに基づき計算した。
B.実施例2
1.結果
i.ハイスループット結合データ由来のpMHC特異的結合TCRの識別
10×Genomicsは、最近、拡張性の公開の利用可能なTCR-pMHC結合データセットを生成した。それらの初期の報告では、4人のHLAハプロタイプ健康ドナー(表1、ドナー1~4)由来の150,000個を超えるCD8+T細胞の結合特性を、T細胞αβ鎖対およびトランスクリプトームを同時に配列決定しながら(図2)、T細胞への抗原結合を直接検出するための単一細胞ベースの免疫プロファイリングプラットフォーム免疫マップを使用した44のpMHCデキストラマーにわたり評価した。デキストラマープールは、八つのHLA対立遺伝子にわたり、公知の共通のウイルスおよび癌反応生を有するエピトープからなる(表2)。



対のT細胞αおよびβ鎖配列を用いて単一の細胞レベルで生成した高度に多重化したデキストラマー結合データセットを本明細書において記載する。10×Genomicsは、バックグラウンドノイズおよび全てのドナーおよびデキストラマーへの非特異的デキストラマー結合についての網羅的カットオフを適用し、pMHC結合TCR(18)を識別した。当然のことながら、10×Genomicsが提供した、予想外に多数の無差別TCR-pMHC結合現象を見出した(図24)。このようなハイスループットTCR-pMHC結合データから信頼できる結合現象を健全に識別するために、ICONを開発した(図25A、図26A~Dならびに材料および方法)。ICONデータプロセスを、ドナー、細胞、およびデキストラマーに特異的な状況で行う。簡単に言うと、単一の細胞のトランスクリプトームデータを使用して、良好な品質の細胞(生およびシングルトン)を選択した。次いで、陰性対照デキストラマー(n=6)を使用して、それぞれのドナーについてのバックグラウンド結合ノイズを経験的に推定した。続いて、未加工のデキストラマー結合シグナルを、それぞれのドナーについての推定されたバックグラウンドノイズを別々に減じることによって補正した。従前の研究が、対形成しているαβが、TCR-pMHC認識を相乗的にもたらすことを示したように、対のαβ鎖を有するT細胞を、pMHC結合T細胞の候補として選択した。T細胞デキストラマー結合シグナルを、同じT細胞/クローンに同時に結合するデキストラマーをペナルティ化することによってさらに補正した。最後に、デキストラマー結合シグナルを、細胞およびMHCにわたり正規化し、それらを直接同等にした(図25A、図26A~Dおよび方法)。ICONの性能を評価するために、CD8+T細胞のpMHC結合特異性を、同じデキストラマーパネルを使用して別の健康なドナー(ドナーV)から評価した(図27ならびに材料および方法)。ICONは、対のb αβ鎖を有する配列決定したT細胞の91%を、それらの抗原標的と連結することができた。ICONの特異性を推定するために、同じドナーであるドナーV(eeならびに材料および方法)由来のT細胞を使用して、21個の個々のデキストラマー結合エッセイを行った。フローサイトメトリーの結果は、ICONから識別したこれら21個のデキストラマーに結合するT細胞の相対的存在量を示す(図25C)。
ICONを適用して、5人のドナー由来の37個のpMHCに結合する5,721個の固有のT細胞クローンに属する合計53,062個のCD8+T細胞を識別した(図25B、図29)。TCRの二重特異性(特異性対変性)を、広範囲の抗原適用範囲を維持しながら、自己免疫反応生を回避するために、外来ペプチドから自己を有意に区別する免疫応答機序の重要な特性と示唆している。実際、固有のTCRの99.6%が、一つの特定のpMHCに結合し、残りのTCRは、2つのpMHCと相互作用する(図25B)。さらに、これらのTCR-pMHC相互作用は、概して、HLA型特異的パターンに従う。結合現象の94%が、HLA一致であり、その内6%が、提示されたペプチドの類似の主要アンカー位置を共有するHLA A03-スーパータイプファミリーメンバーHLA A03:01とA11:01の間の交差認識を伴う。デキストラマープール(表1および2)における最も一般的なHLAハプロタイプ(A02:01)を有する、ドナー1および2は、固有のTCR-pMHC相互作用の有意なフラクション(n=44)を共有し(図25D、図25G)、これは、TCR-pMHC結合パターンが、HLA拘束性が最も高いという定説を支持している。しかしながら、6%の結合現象は、交差HLAタイプ相互作用である。HLA型ミスマッチ結合T細胞は、より小さなクローンを有するか、またはシングルトンである傾向がある(抗原未感作)。
全てのpMHC結合TCRのうち、総TCRの99%(固有のTCRの96%)は、九つのpMHC:B08:01_RAKFKQLL_BZLF1_EBV(T細胞数:18,468/固有のTCR数:479)、A02:01_GILGFVFTL_Flu-MP_インフルエンザ(T細胞数:8,365/固有のTCR数:1,095)、A11:01_IVTDFSVIK_EBNA-3B_EBV(T細胞数:5,438/固有のTCR数:149)、A03:01_KLGGALQAK_IE-1_CMV(T細胞数:3,899/固有のTCR数:2,865)、A11:01_AVFDRKSDAK_EBNA-3B_EBV(T細胞数:1,579/固有のTCR数:95)、A02:01_GLCTLVAML_BMLF1_EBV(T細胞数:1,886/固有のTCR数:117)、A02:01_ELAGIGILTV_MART-1_癌(T細胞数:297/固有のTCR数:293)、B35:01_IPSINVHHY_pp65_CMV(T細胞数:6,986/固有のTCR数:280)およびA02:01_NLVPMVATV_pp65_CMV(T細胞数:5,612/固有のTCR数:164)に結合する(図25E)。分類の根底にある保存されたTCR配列の特性をさらに理解するために、これらの九つのpMHCレパートリーについて、TCR VJ遺伝子使用を調べた。インフルエンザレパートリーにおけるTRBV19およびTRAV27、BMLF1_EBVレパートリーにおけるTRAV5およびTRBV20-1、ならびにNLVPMVATV_pp65_CMVにおけるTRBV6-5などの、従前の研究が報告した濃縮に加えて、MART-1_癌レパートリーにおけるTRAV12-2、IVTDFSVIK_EBNA-3B_EBVレパートリーにおけるTRAV21、TRAV35、TRBV11-2およびTRBV6-6、AVFDRKSDAK_EBNA-3B_EBVにおけるTRAV8-3、TRAV13-1およびTRBV28、BZLF1_EBVレパートリーにおけるTRAV13-1、TRAV13-2およびTRBV12-3、IPSINVHHY_pp65_CMVにおけるTRAV12-1、TRAV41、TRBV2およびTRBV20-1、ならびにNLVPMVATV_pp65_CMVにおけるTRAV23/D6およびTRBV12-4の大量の使用を見出した(図25F)。保存されたVJ遺伝子の使用と一致して、シャノン多様性指標およびTCRクローンサイズ分布は、それぞれのpMHC結合T細胞レパートリーが、それらの標的ペプチドに応答して異なる程度の拡大を経験したことを示唆した(図30AおよびB)。
ii.TCRAI:T細胞抗原特異性のニューラルネットワーク分類指標
識別した大規模で多様なTCR-pMHC結合現象と共に、これらの結合現象を迅速に検証するための堅牢な機能的分類指標が望まれる。最近の研究により、ニューラルネットワーク(CNN)は、TCR配列から高次元の情報を学習することができ、したがって、TCR-pMHC結合を健全に予測し得ることが示された。
Pythonパッケージ、TCRAIは、TensorFlow 2を利用して開発されており、TCR-pMHC特異性の研究のための可撓性のフレームワークを提供している(図31A)。高度なモジュール化されたTCRAIパッケージにより、モデルの構築を簡単に調節することが可能になる。簡単に言うと、TCRAIフレームワークは、以下のように機能する。任意の数のV(D)J遺伝子、およびTCRのCDR領域を、テキスト形式でのモデルへの入力として定義することができる。これらの入力を学習不可能な方法で数値形式に処理する方法に関して、テキストを数字表示に変換する「プロセッサ」オブジェクトを介して選択することができる。次いで、これらの数字入力は、フィンガープリントと称される、ニューラルネットワークのブロックを形成し、入力データのそれらの出力ベクトル表示として与える「抽出器」オブジェクトを介して、学習可能な方法でさらに処理することができる。これらのフィンガープリントは、単一の数字ベクトルを介して、この入力TCRを記述する単一のTCRAIフィンガープリントに連結させる。次いで、このTCRAIフィンガープリントは、ニューラルネットワーク構築の最終ブロックを形成する「クローサー」オブジェクトを通過し、入力TCR上に予測を生じる。TCRAIパッケージは、いくつかのこのような事前に構築したプロセッサ、エクストラクター、およびクローサーを提供し、新しいバリアントに容易に拡張可能である。それは、異なるクローサーオブジェクトを構築することを単に選択することによって、二項、多項式、回帰または他のタスクを実行することを可能にする。
TCRAIの性能を評価するために、現在利用可能な方法の文献検索を行い(表3)、分類指標をこの分野の四つの主要な方法:GLIPH2、DeepTCR、NetTCRおよびTCRdistと比較した。比較のために、八つのpMHC特異的結合T細胞レパートリーを、ゴールドスタンダードデータセットとして、従来の単一の多量体結合アッセイまたは抗原再曝露アッセイによって生成した少なくとも50個の固有の対のαβ鎖TCRと照合した(表4ならびに材料および方法)。DeepTCR、NetTCR、TCRdistの三つの方法は、TCRAIのような予測モデルである。これらの予測モデルの分類成功の標準的な尺度であるROC(受信者オペレーター特徴)曲線下面積(AUROC/AUC)は、類似のニューラルネットワークフレームワークを有するTCRAIおよびDeepTCRが、TCRdistおよびNetTCRよりも良好に機能することを示す。全体的に、TCRAIは、DeepTCRよりも一貫し、良好な性能を有する(図31eおよび図32B)。GLIPH2は、TCR配列を共有した特異性の別個の群にクラスター形成するように設計したため、これら四つの予測モデルの感度および特異性(二つの幾何学的平均を最大にしたモデル閾値で計算)を、GLIPH2と比較するために測定した。比較結果は、TCRAIが、最善の平衡化した感度および特異性を有することを示した(図33)。TCRAIのものとは異なる目的を有するいくつかの方法を、比較に含めなかった。例えば、ALICEは、相同/拡大したTCRの群を検出するためのものである。TcellMatchは、入力としてTCR配列のみではなく細胞特異的共変量(例えば、遺伝子発現)を使用し、その性能を、さらなる精製なしに、高ノイズ対シグナル比において10×Genomics免疫マップデータを試験した。

iii.ハイスループットデータから識別したpMHC結合TCRの分類
次に、TCRAIを、ハイスループットデータから識別した九つの最も大量のpMHC結合レパートリーICONに適用した(図25E)。これら九つのpMHCレパートリーのTCRを、二項モードでTCRAIを有する平均AUC0.88で分類した。同様の予測性能も、TCRAI多項様式を使用して観察した(図34Aおよび図35、以下、TCRAI結果は、指定しない限り、予測性能由来のものである)。歴史的に、TCRβ鎖配列決定をしばしば使用して、α鎖と比較してより高い複合能に起因して、T細胞抗原結合特異性を推測する。TCR-pMHC相互作用の予測におけるTCRαおよびβ鎖の寄与を定量的に評価するために、α鎖またはβ鎖のいずれかを、対のαβ鎖の代わりに、TCRAIへの入力として使用した。対のαβ鎖を用いた性能は、αまたはβ鎖のみより良好であり、AUCの平均増加0.2を伴った(図34B)。従前の研究と一致し、これらの結果は、TCR-pMHC相互作用の正確な推論のためのαβ対形成の重要性をまとめて示す。β鎖の予測性能は、必ずしもα鎖より良好ではなく、これは、TCR-pMHC特異的認識におけるα鎖の重要性を示しており、以前はしばしば見過ごされていた。
TCRAIの性能をさらに検証するために、精選した公開データセットにおいて結合TCRも有する、四つのpMHCレパートリー(A02:01_ELAGIGILTV_MART-1、A02:01_GILGFVFTL_Flu-MP、A02:01_GLCTLVAML_BMLF1_EBVおよびA02:01_NLVPMVATV_pp65_CMV)を使用した。TCRAIを、ハイスループットデータセットから識別した四つのレパートリーを使用してトレーニングし、四つの精選したレパートリーを予測した。図34Cは、概して、トレーニングセットにおける性能と同等の予測結果を示す。しかしながら、A02:01_NLVMVATV_pp65_CMVにおいて推論したときのTCRAIの性能は、他の三つのpMHCよりも有意に悪かった。性能の相違を理解するために、モデルのTCRAIフィンガープリント空間を調べた(材料および方法)。A02:01_ELAGIGILTV_MART-1_癌、および他の二つのpMHCの場合(図36A)、ハイスループットデータセットおよび精選したデータセット由来の結合TCRは、フィンガープリント空間において空間的に重複し、一方、重複は、pp65_CMVの場合について有意に悪い(図34Dおよび図36B)。この乏しい重複は、単一のドナーから来るハイスループットデータセットにおけるpp65_CMV結合TCRの98.2%に起因し(図29)、それによって、結合可能なTCRの小さなサブ空間を表す一方、公開データは、TCR空間のより大きな範囲を表すドナーの範囲由来のTCRを含有する。この結果はまた、頑健なTCR抗原予測モデルをトレーニングするための、多種多様なデータセットの重要性を強調する。
iv.pMHC特異的TCRの特徴決定
所与のpMHCに結合するTCRの特性を調べるために、TCRAI分類指標モデルが、どのようにそのフィンガープリント空間内にTCRを配置するかを分析した(材料および方法)。分類指標モデル由来のTCRフィンガープリントにより、保存された遺伝子使用およびCDR3モチーフを有するTCRの特定の群を発見することが可能になる。これらの群は、異なる結合能力および異なる構造結合様式を示すことが多い。
TCRをA02:01_GILGFVTL_Flu-MP_インフルエンザにクラスター形成させることは、TCRAIフィンガープリント空間における二つのよく分離したクラスターに至る(図37A)。構築したαおよびβ-CDR3モチーフならびに遺伝子使用は、クラスター0が、β鎖における強く保存されたxRSxモチーフならびにTRB19およびTRAJ42遺伝子使用を有し、より小さい群のクラスター1が、非常に高度に保存された遺伝子使用TRBV19/TRBJ1-2/TRAV38-1/TRAJ52を有することを示す(図37C)。デキストラマーシグナル(UMI中、固有分子識別子)分布は、クラスター0のTCRが、クラスター1におけるものよりFluデキストラマーへの強い結合を有することを示した(図37B)。結果は、その「特性のない」pMHC複合体に連結すると考えられるA02:01_GILGFVLTL_Flu応答性T細胞におけるCDR3モチーフおよびTCRBV19遺伝子使用の周知の強力な保存と一致する。最近識別したA*02:01_GILGFVL_Flu結合TCRのクラスとさらに比較すると、クラスター0および1を、それぞれ、その群I(正準)およびII(新規)に連結させた。また、当該技術分野では、群IのTCRが、群IIのTCRよりも強い結合を有することを見出した。当技術分野で提案されているTCR-pMHC結合複合体の3D構造は、高度に保存されたモチーフ/残基により、これら二つのTCR群は、異なる結合様式を有し、それにより、これら二つの複合体におけるFluペプチドの異なるPhe-5環回転を引き起こすことを示唆している(図37D)。
他の八つのpMHCに結合するTCRも特徴決定した。A02:01_GLCTLVAML_BMLF1_EBV結合TCRの結果は、特に興味深い。これまでの研究では、TRBV20-1/TRBJ1-2/TRAV5/TRAJ31から構築された優性公開TCRが観察されている。しかしながら、このpMHCに結合するTCR集団の以前の分析は、集団に偏りが強いTRAV5 TCRに焦点を当てていた。現在の実験は、TCRAIフィンガープリント空間内のTCRの5つのクラスターを公平に特定した(図37E)。クラスター1および2は、古典的なHLA*02:01_GLCTLVAML公開TCRを表すが、その二つのクラスターは、それらのβ鎖遺伝子使用に基づき分割する(図37G)。クラスター0は、遺伝子使用(TRBV2/TRBJ2-2)後のTCR、および他では提示していないβ鎖CDR3モチーフを含有する。この新規群に属するTCRは、減少したデキストラマーUMI数から分かるように、標準TCRクラスター(クラスター1および2)に対して異なる結合能力を示し(図37F)、それは、親和性が低いことを示し、このTCR群がまだ認識されていない理由を部分的に説明するものである。
v.pMHC結合CD8+T細胞の免疫表現型。
抗原特異性とT細胞表現型の合わせた情報は、ワクチン接種などの免疫療法の臨床的成功に重要であると報告されている。免疫マッププラットフォームによって生成したマルチオミクスデータは、T細胞抗原特異性をT細胞表現型と結び付けることを可能にする。このマルチオミクスデータセットからの遺伝子(単一の細胞のRNA-seq)および表面タンパク質(CITE-seq、配列決定によるトランスクリプトームおよびエピトープの細胞指数)発現を使用して、pMHC結合CD8+T細胞を亜集団にグループ化した(図38Aならびに材料および方法)。次いで、識別した亜集団を、既に記載されたCD8+T細胞サブタイプマーカー遺伝子:ナイーブ細胞(CD45RA+CD62LhiCD127hi)、中心メモリー細胞(Tcm、CD45RA-CD62L+CD127+EOMEShighTBETlow)、Tエフェクターメモリー細胞(Tem、CD45RA-CD62LlowCD127+GZMB+)、末梢メモリー細胞(Tpm、CD62L+CD127hiGZMB+)、高分化したエフェクター細胞(Temra、CD45RA+CD127loGZMBhi)および他のメモリー細胞(CD43loKLRG1hiCD127-)に従い注釈を付けた(図38AおよびB)。
pMHC結合T細胞の96%は、拡大したT細胞クローンに富化されたメモリー細胞であり(図38EおよびD)、これは、これらのT細胞が、特定の免疫応答によって選択され、したがって、応答性および信頼性のあるバインダーである可能性が高いことを示している。これらのメモリーT細胞の大部分は、共通のウイルスエピトープ(例えば、インフルエンザ、EBV、CMV)に結合し、それぞれのドナー由来のpMHC結合T細胞は、メモリー細胞サブセットの異なる分布を示した。例えば、ドナー1および2は、主にTpmを有し、一方、ドナーVは、Temを有し、ドナー3および4は、主にTemra細胞を有していた(図38CおよびD)。
pMHC結合T細胞の大部分は、メモリー表現型を発現したが、それらの4%、ナイーブ細胞であった。これらのナイーブ細胞は、非ナイーブ細胞よりも多様なpMHC相互作用を有し、腫瘍関連抗原(例えば、MART-1)、内因性抗原、またはドナーが血清陰性出会ったウイルス(例えば、HIV)に由来する抗原にしばしば結合した(図38C)。興味深いことに、交差HLA型結合を有するナイーブT細胞の割合は、非ナイーブ細胞の割合よりも有意に高かった(図38F)。これらの結果は、健康なドナーT細胞レパートリー、特に、ナイーブ細胞が、まだ遭遇していない抗原または希少な抗原に応答し、交差反応を保持する可能性を示している。これらの細胞が、機能的T細胞応答を担持することができるかどうかを評価するために、さらなるアッセイが必要である。
2.論考
ハイスループットTCR-pMHC結合データは、TCR抗原認識の理解を促進するための魅力的な経路を提示する。しかしながら、このタイプのデータは、多くの場合、シグナル対高ノイズ比と関連付けられる。本明細書では、優れた感度および特異性を有する高度に多重化したTCR-pMHC結合データにおいて、シグナル対ノイズ比を有意に増加させることによって信頼できるTCR-pMHC相互作用を識別することができる、新規の方法ICONを含む起算ツールのフレームワークをここで提示する。ICONは、ノイズ補正したデキストラマーシグナルをパラメータフリーの様式で計算し、これにより、より広範なpMHCデキストラマープールからのpMHC-TCR結合データに容易に一般化できるようにし、CITE-seqなどの単一の細胞空間におけるタンパク質結合シグナルの正規化に潜在的に拡張可能である。
本研究では、TCR-pMHC特異的結合の予測における深層学習分類指標の頑健性を示す、PythonパッケージTCRAIを開発した。所与の抗原に対するTCRの特異性の決定におけるCDR3領域の重要性に起因して、他が有するように、この情報のみを利用した予測モデルを構築することが魅力である。しかしながら、多くのpMHCについて高度に保存された遺伝子使用に起因して、VJ遺伝子使用が、特に、データセットにおける少数の固有のpMHC結合TCRの場合、TCRAIの重要な予測要素であることを見出す。CDR3情報を受け取るモデルの予測性能は、観察した、少なくとも100のpMHC結合TCRのオーダーより大きい場合、遺伝子レベルのみのモデルよりも優れ(図39)、これは、CDR3から有用な配列モチーフを抽出するために、これらのモデルについてこのボリュームのデータが必要であることを示す。
TCRAIは、TCR-pMHC特異的結合の最先端分類を行うことができるだけでなく、異なる結合特性を有するTCRの群を識別することもできることを示した。デキストラマーUMIをTCR配列情報と組み合わせることで、これらの群間の異なる結合能力の調査が可能となった。この知見は、ハイスループットTCR pMHC結合データの量が、増大するにつれて、新しいTCRモチーフを発見し、これらをUMIだけでなく、より広範なマルチオミクスデータと組み合わせる能力も増大することを示す。例えば、異なる結合機序を有するTCRの群間のT細胞受容体シグナル伝達の異なる転写調節を調べる能力は、広範な科学的疑問のためだけでなく、T細胞治療薬の開発のため非常に刺激的である。
T細胞抗原特異的認識は、TCRAIを使用して(実験的にではなく)実質的に研究できる可能性がある。T細胞抗原特異的認識の免疫モニタリングを、特定の抗原(例えば、SARS-COV2、腫瘍特異的抗原およびペプチドワクチン)に対する免疫応答、ならびに免疫療法を受けている患者における臨床結果である疾患重症度とのそれらの可能性のある相関を決定するために適用した。しかしながら、TCR配列を抗原特異性に実験でマッピングすることは、費用が高く、かつ労働集約的である。特定のpMHCについての適切なトレーニングデータを用いて、本明細書に提示したTCRAI分類指標は、結合アッセイを行うことなく、対象のそれぞれのTCR配列にpMHC結合の確率を割り当てることができる。この研究では、この分類指標の多項予測モード(図35)を検証し、これにより、安全なT細胞関連療法のため高度に特異的なTCRを選択するために使用することができることを意味している。
生物学的に関連するT細胞反応性を評価する能力は、病原体に対する免疫応答およびその他の疾患状態を調査およびモニターするのに重要である。回復されたT細胞反応性の大部分(94%)が、適切なHLA型/スーパータイプと一致し、さらに、多量体陽性細胞の表現型が、メモリーT細胞区画に大部分が限定され、これは、以前の機能的T細胞応答からの関連するメモリー反応性が、この技術で解決可能であることを示している。対のαβTCR配列決定により、個々の多量体に特異的である複数のTCR配列が明らかになり、これは、一般的なウイルス負荷に対する広範な抗原免疫応答を強化している。
低い程度のHLAミスマッチ反応性を回復したが、これらは、メモリーサブセットと比較して拡大していないナイーブT細胞において著しく濃縮され、これは、以前に曝露していない標的または機能的T細胞応答で頂点に達しなかったものに対する抗原特異的相互作用を明らかにする可能性がある。さらに、TCR結合活性の範囲をこれらの実験において回復させることができ、これは、予想外の結合パターンの検出に寄与し得る。デキストラマーは、高度に多量体化し、従来の四量体試薬よりも広範なTCR結合の結合活性を検出する可能性が高い。さらに、広範囲の蛍光デキストラマー強度を多量体陽性ゲーティングでソーティングしたので、低頻度、低活性のTCR相互作用もこの高感度単一細胞アッセイで捕捉した。
3.材料および方法
i.10×Genomics単一の細胞免疫プロファイリングデータセット
本研究のため使用した10×Genomicsデータを、support.10xgenomics.com/single-cell-vdj/datasetsからダウンロードした。
ii.pMHC結合T細胞表現型の識別
Seuart V3単一の細胞配列決定分析Rパッケージを、単一の細胞RのNA-seqデータに基づく分類分析のため使用した。TCR VJ遺伝子使用の有意な濃縮を、識別したpMHC結合T細胞において観察したため、TCR遺伝子を分類から取り除いた。そのため、細胞クラスターは、それらの共有したVJ遺伝子の使用によって支配されない。次いで、識別した結合T細胞のその他すべての遺伝子発現を、Seurat V3デフォルトパラメータを使用して正規化し、計量した。PCAを正規化し、形質転換しUMIカウントを、可変的に発現した遺伝子上で行った。上位10のPCを、細胞分類に使用した。分類可視化のため、UMAPを使用した。
iii.報告したpMHC特異的結合対TCRの精選
未加工ファイルを、VDJdb(42)(vdjdb.cdr3.net/)およびThe Pathology-associated TCR database (friedmanlab.weizmann.ac.il/McPAS-TCR/)からダウンロードした。データを、以下の基準:VDJdbについて、対のαまたはβ鎖CDR3アミノ酸配列を、それぞれの「complex.id」について必要であり、「供給源」と注釈を付けたTCRを、10×Genomicsから除去し、「種」=「ヒト」についてフィルタリングした、に従って処理して、pMHC TCR結合を得た。McPAS-TCRについて、既知の「エピトープ.ID」を、完全なデータにおいて必要とし、「CDR3.アルファ.aa」および「CDR3.ベータ.aa」を有し、同様に、VDJdbについて、ヒトTCRをフィルタリングした。
iv.ハイスループットTCR-pMHC結合データの正規化
信頼できるTCR-pMHC相互作用を識別するために、統合的COntext特異的正規化法であるICONを開発した。それは、単一の細胞のRNA-seq、対のαβ鎖の単一の細胞のTCR-seq、dCODE-デキストラマー-seqおよびCITE-seqとも称される、細胞表面タンパク質発現配列決定を含む、入力データとしての、10×Genomics免疫マップなどの、多重化多量体結合プラットフォームから生成したマルチオミクス単一の細胞配列決定データを取得する。ICONは、以下の主要なステップを含む(図25Aおよび図26)。
ステップ1:低品質の細胞の単一の細胞のRNA-seqベースのフィルタリング。
それは、二重項および死細胞などの低品質の細胞をフィルタリングする。予想外に多数の遺伝子(例えば、細胞当たり>2500個の遺伝子)を有するT細胞を、ダブレットとして分類され、ミトコンドリア遺伝子発現のフラクションが高い細胞(例えば、ミトコンドリア遺伝子発現の総遺伝子発現に対する比率>0.2)または検出した遺伝子(細胞当たり<200個の遺伝子)を少なすぎる細胞として分類した(図26A)。
ステップ2:単一の細胞のdCODE-デキストラマー-seqベースのバックグラウンド推定
六つの陰性対照デキストラマーを、多重化デキストラマー結合アッセイからのバックグラウンドノイズを推定するように設計した。シグナルおよびノイズ分布を検査するために、それぞれの細胞についての陰性対照デキストラマーおよび試験デキストラマーのUMI(固有分子識別子)における最大のデキストラマーシグナルを使用して、それぞれのT細胞の最悪のノイズおよび最良のデキストラマーを表した。これら二つのタイプのデキストラマーシグナルの密度分布を、図26Bに示す。バックグラウンドカットオフ(図26Bにおける灰色の破線)を、それぞれのドナーについて経験的に選択した。
ステップ3:単一の細胞のTCR-seqに基づく対のαβ鎖を有するT細胞の選択。
単一鎖のみを有するT細胞を除去した。検出した複数のαまたはβ鎖を有するT細胞について、最大のUMIカウントを有するものを、それぞれのT細胞に割り当てた。
ステップ4:デキストラマーシグナル補正
それぞれのデキストラマーは、それ自体最適な結合条件を有するが、多重化デキストラマー結合アッセイが、デキストラマー毎に最適であるように、実験条件を配置することは不可能である。これにより、このハイスループットデータセットにおいて観察した通り、同じT細胞/クローンに結合する複数のデキストラマーをもたらす(図26C)。この効果を補正するために、以下の技術を使用して、同じT細胞/クローンに同時に結合する場合、デキストラマーシグナルを罰とした。
thデキストラマーに結合するithT細胞についてのバックグラウンドノイズを減じたデキストラマーシグナルをEijと定義することは、ithT細胞についてのjthデキストラマーの結合に起因したデキストラマーシグナルのフラクションを以下のようにさらに示す。
thT細胞のTCRクローンタイプをkとして示すこと、およびT_(kij)としてデキストラマーjに結合するクローンタイプkに属するT細胞の数は、jthデキストラマーに結合するクローンタイプkに属するT細胞のフラクションを以下の通り示す。
これらの量を使用して、補正したデキストラマーシグナルを、jthデキストラマーに結合するithT細胞について以下の通り計算する。
ij=Eij(RCijRTkj
ステップ5:細胞およびpMHC-ワイズデキストラマーシグナル正規化およびバインダー識別
全てのデキストラマー結合シグナルを同等にするために、補正したデキストラマー結合シグナルは、細胞内の44個の試験デキストラマーにわたり正規化した対数比であった。続いて、pMHCワイズ正規化を、対数ランク分布に基づき行った。正規化されたデキストラマーUMI>0は、pMHC特異的バインダーについてのカットオフとして経験的に選択された。
v.リジェネロンオリゴタグ付きデキストラマー染色およびソーティング
CD8+T細胞を、Miltenyi CD8+T細胞陰性濃縮(Mitenyi)を使用して、健康なドナーPBMCから濃縮した。次いで、細胞を、ベンゾナーゼ(Millipore)およびダサチニブ(Axon)と45分間インキュベートし、その後、オリゴタグ付きデキストラマープール(Immudex、表2を参照)を用いて室温で30分間染色した。次いで、細胞を、CD3(BD Biosciences、カタログ番号612750)、CD4(BD Biosciences、カタログ番号563919、CD8(BD Biosciences、カタログ番号612889)、CCR7(Biolegend、カタログ番号353218)、およびCD45RA(Biolegend、カタログ番号304238)についての蛍光標識ならびにCITE-seq 抗体を用いて、30分間、氷上で染色した。Astriosセルソーター(Beckman Coulter)を利用し、フォワード散乱プロット、サイド散乱プロット、および蛍光チャネルでの蛍光活性化細胞ソーティング(FACS)ゲーティングを設定し、破片および二重項を除外しながら、生細胞を選択した。100μmのノズルを使用して、さらなる処理のため、単一のCD3+CD8+デキストラマー+細胞を選別した。
vi.ニューラルネットワークベースの分類指標TCRAIの構築
TCRAIは、TCR分類指標の設計のための可撓性のフレームワークを提供するが、このワーク全体を通して具体的かつ一貫した構築を使用し、それを以下で詳細に記載する。その可撓性の構築とは別に、DeepTCR構築とのいくつかの重要な相違は、CDR3配列についての1D畳み込みおよびバッチ正規化の使用、ならびに遺伝子についての低次元の表示である。これらの変化は、モデル正規化の改善をもたらし、モデルに、より強い遺伝子関連を学習させる。
TCRの入力情報を数字形式で処理するために、以下の方法を適用した。それぞれのCDR3配列について、アミノ酸をまず整数に変換し、続いて、これらの整数ベクトルを、ワンホット表示にコードする。VおよびJ遺伝子について、遺伝子タイプの整数へのディクショナリを、それぞれのVおよびJ遺伝子について別々に構築し、それぞれの遺伝子を整数に変換するためにこれらを使用する。
処理した入力情報に適用するニューラルネットワーク構築は、埋め込み層、および畳み込みネットワークを含む。具体的には、処理したCDR3残基を、学習した埋め込みを介して16次元の空間内に埋め込み、得られた数値CDR3を、次元、核心幅および歩幅のフィルターを用いて、3つの1D畳み込み層を通して供給する。それぞれの畳み込みを、指数線形ユニット活性化によって活性化し、その後ドロップアウトおよびバッチ正規化によって活性化する。これら三つの畳み込みブロックの後、グローバル最大プーリングを、最終特性にを適用し、このプロセスを、それぞれのCDR3を長さ256のベクトル、「CDR3フィンガープリント」によってコードする。それぞれの遺伝子についての処理した遺伝子入力は、学習した埋め込みを介して、ワンホットコードし、低減した次元の空間(V遺伝子については16、J遺伝子については8)に埋め込み、これにより、ベクターとしてそれぞれの遺伝子の「遺伝子フィンガープリント」を与える。次いで、全ての選択したCDR3および遺伝子のフィンガープリントを、単一のベクターである「TCRAIフィンガープリント」に連結する。TCRAIフィンガープリントを、一つの最終完全接続層を通過して、二項予測(単一出力値、シグモイド活性化)、回帰予測(単一出力、活性化なし)、または多項予測(複数出力値、ソフトマックス活性化)を与える。この研究では、二項および多項予測に焦点をあてる。
TCR配列決定ファイルを、10×Genomicsの未加工のフォーマット化したファイルとして収集した。配列決定ファイルを、非生産性配列を除去した後にCDR3のアミノ酸配列を取るように解析した。異なるヌクレオチド配列を有するが、CDR3由来の同じ一致したアミノ酸配列、およびV、D、J遺伝子を有するクローンは、一つのTCR下で一緒に凝集させた。したがって、ここで使用したそれぞれのTCR記録は、それぞれの鎖についてのCDR3アミノ酸配列およびV、J遺伝子を有する単一の対のαおよびβTCR鎖を含む。
データを、それぞれのモデルについてのトレーニング(76.5%)、検証(13.5%)、および左を取り除いた試験セット(10%)に分け、続いて、5倍のMonte-Carlo交差検証(MCCV)を、トレーニングセットにおいて行う。モデルを、Adamオプティマイザを介して交差エントロピー損失を最小化することによってトレーニングし、交差エントロピー損失を、それぞれのクラスについて重み1/(クラスの数そのクラス内の試料のフラクション)によって重み付けする。過剰適合を防ぐために、左を取り除いた検証データセットを介して早期停止を結びつけ、この場合において、検証損失を、5回超にわたって増大し、最小の検証損失を伴うモデルの重みが回復した場合に、モデルは、トレーニングを停止する。ここでトレーニングしている多数のモデルに起因して、交差検証中に学習速度およびバッチサイズのみを調整する。交差検証の後、ハイパーパラメータの最適な実施を、選択し、モデルを、早期停止を制御するための検証セットを使用して、完全なトレーニングセットにおいて再トレーニングする。次いで、再トレーニングしたモデルを、左を取り除いたテストセットで評価する。
vii.TCRAIフィンガープリント分析
TCRAIモデルは、特定のpMHC(または多項の場合、多くのpMHCのうちの一つ)に結合するTCRについての予測と、そのpMHCに結合することができるかどうかという疑問の文脈内でTCRを記載する数字ベクトルの「フィンガープリント」の両方を生成する。モデルがどのように機能するかを理解し、異なる結合様式を有するTCRの群を識別するために、これらのフィンガープリントの分布を分析する。UMAPを使用して、フィンガープリントを二次元空間に縮小する。一方のデータセットでトレーニングしたモデルを使用し、別の目に見えないデータセットでフィンガープリントを推定するとき、UMAPプロジェクタは、トレーニングデータセット由来のTCRを用いて適合し、そのプロジェクタを使用して目に見えないセット由来のTCRを変換する。
TCRフィンガープリントをクラスター形成するとき、データセットのすべてのTCRのフィンガープリントを、上述のように二次元空間に投影し、次いで、強い真陽性であるそれらのTCR(STP、二項予測>0.95)を選択する。次いで、これらのSTPを、k平均分類指標を使用して、二次元空間内にクラスター形成させる。次いで、それぞれのクラスター内からのTCRを収集して、それを使用して、クラスター内の固有のTCRクローンタイプをハイスループットデータ中のすべての繰り返されるクローンタイプと対形成させることによって、CDR3モチーフロゴ(weblogoを使用して)、遺伝子使用、およびUMI分布を構築する。
viii.DeepTCR修飾
DeepTCR法を、以下に記載する調節を用いて二進法分類指標を構築するよう適合した。
それぞれのTCR記録について、単一の対のαおよびβTCR鎖を、TCRAIパッケージに提供した入力に沿って、それぞれの鎖のみについてCDR3アミノ酸配列およびV、J遺伝子とともに使用した。すなわち、クローン性、MHC、またはD遺伝子の使用を、DeepTCRモデルに含めなかった。最終出力層を、単一の二項出力を与えるように調節し、モデルのハイパーパラメータを、DeepTCRフレームワークの文脈において、手元の問題について最適化した。
図41は、ネットワーク4104を通じて接続された計算デバイス4101(例えば、計算装置106)およびサーバ4102の非限定的な例を含む環境4100を描写するブロック図である。一態様では、いずれの記載の方法のいくつかまたは全ての工程も、本明細書に記載の計算デバイスで実行することができる。計算装置4101は、配列データ104(例えば、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞の受容体配列データ)、トレーニングデータ410(例えば、標識した受容体配列データ)、ICONモジュール108、予測モジュール110などのうちの一つまたは複数を保存するよう形成した一つまたは複数のコンピュータを含むことができる。サーバ1402は、配列データ104を保存するように構成した一つまたは複数のコンピュータを含むことができる。複数のサーバ4102は、ネットワーク4104を通じて計算デバイス4101と通信することができる。一実施形態では、サーバ1402は、単一の細胞の免疫プロファイリングプラットフォーム102によって生成したデータのためのリポジトリを備えてもよい。
計算デバイス4101およびサーバ4102は、ハードウェアアーキテクチャに関して、一般にプロセッサ4108、メモリシステム4110、入力/出力(I/O)インターフェース4112、およびネットワークインターフェース4114を含む、デジタルコンピュータであってもよい。これらの構成要素(4108、4110、4112、および4114)は、ローカルインターフェース4116を介して通信的に連結される。ローカルインターフェース4116は、例えば、当該技術分野で既知の一つ以上のバスまたは他の有線もしくは無線接続であってもよいが、これに限定されない。ローカルインターフェース4116は、コントローラ、バッファ(キャッシュ)、ドライバ、リピータ、およびレシーバなどの、通信を可能にするための追加の要素(簡略化のために省略される)を有してもよい。さらに、ローカルインターフェースは、前述の構成要素間の適切な通信を可能にするためのアドレス、制御、および/またはデータ接続を含んでもよい。
プロセッサ4108は、特にメモリシステム4110に記憶される、ソフトウェアを実行するためのハードウェアデバイスであってもよい。プロセッサ4108は、任意のカスタム作製または市販のプロセッサ、中央処理ユニット(CPU)、計算デバイス4101およびサーバ4102に関連付けられたいくつかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ(マイクロチップもしくはチップセットの形態)、またはソフトウェア命令を実行するための一般に任意のデバイスとすることができる。計算デバイス4101および/またはサーバ4102が動作中である時、プロセッサ4108は、メモリシステム4110内に記憶されているソフトウェアを実行して、メモリシステム4110へのおよびそこからのデータを通信し、ソフトウェアに従って、計算デバイス4101およびサーバ4102の動作を一般に制御するように構成されてもよい。
I/Oインターフェース4112を使用して、一つ以上のデバイスまたは構成要素からユーザ入力を受信する、かつ/またはそれらへとシステム出力を提供することができる。ユーザ入力は、例えば、キーボードおよび/またはマウスを介して提供されてもよい。システム出力は、表示デバイスおよびプリンタ(図示せず)を介して提供されてもよい。I/Oインターフェース41412は、例えば、シリアルポート、パラレルポート、小型コンピュータシステムインターフェース(SCSI)、赤外(IR)インターフェース、無線周波数(RF)インターフェース、および/またはユニバーサルシリアルバス(USB)インターフェースを含んでもよい。
ネットワークインターフェース4114は、計算デバイス4101および/またはネットワーク4104上のサーバ4102から送信および受信するために使用することができる。ネットワークインターフェース4114は、例えば、10BaseT Ethernetアダプタ、100BaseT Ethernetアダプタ、LAN PHY Ethernetアダプタ、Token Ringアダプタ、ワイヤレスネットワークアダプタ(例えば、WiFi、セルラー、サテライト)、または任意の他の好適なネットワークインターフェースデバイスを含んでもよい。ネットワークインターフェース4114は、ネットワーク4104上での適切な通信を可能にするためのアドレス、制御、および/またはデータ接続を含んでもよい。
メモリシステム4110は、揮発性メモリ素子(例えば、ランダムアクセスメモリ(DRAM、SRAM、SDRAMなどのRAM))および不揮発性メモリ素子(例えば、ROM、ハードドライブ、テープ、CDROM、DVDROMなど)のいずれか一つまたはその組み合わせを含んでもよい。さらに、メモリシステム4110は、電子、磁気、光学、および/または他の型の記憶媒体を組み込んでもよい。メモリシステム4110は、様々な構成要素が互いに離れて位置するが、プロセッサ4108によってアクセスすることができる、分散型アーキテクチャを有し得ることに留意されたい。
メモリシステム4110内のソフトウェアは、一つ以上のソフトウェアプログラムを含んでもよく、これらの各々は、論理機能を実施するための実行可能な命令の順序付けされたリストを含む。図41の例では、計算装置4101のメモリシステム4110におけるソフトウェアは、配列データ104、トレーニングデータ410、ICONモジュール108、予測モジュール110、および適当な操作システム(O/S)4118を含むことができる。図41の例では、サーバ4102のメモリシステム4110内のソフトウェアは、配列データ104、および好適なオペレーティングシステム(O/S)4118を含むことができる。オペレーティングシステム4118は、他のコンピュータプログラムの実行を本質的に制御し、スケジューリング、入力-出力制御、ファイルおよびデータ管理、メモリー管理、および通信制御、ならびに関連するサービスを提供する。
例証の目的で、アプリケーションプログラムおよびオペレーティングシステム4118などの他の実行可能なプログラム構成要素は、本明細書では別々のブロックとして例証されているが、そのようなプログラムおよび構成要素は、計算デバイス4101および/またはサーバ4102の異なる記憶構成要素内で、様々な時間に存在し得ることが認識される。訓練モジュール220の実装形態は、何らかの形態のコンピュータ可読媒体上に保存される場合もあれば、または伝送される場合もある。本開示の方法のいずれも、コンピュータ可読媒体上に具現化されたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能媒体とすることができる。例として、かつ限定を意図するものではないが、コンピュータ可読媒体は、「コンピュータストレージ媒体」および「通信媒体」を含み得る。「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの、情報を記憶するための任意の方法または技術で実施される、揮発性および不揮発性の取り外し可能な媒体および取り外し不能な媒体を含み得る。例示的なコンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他の記憶技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶デバイスもしくは他の磁気記憶デバイス、または所望の情報の記憶に使用することができ、かつコンピュータによってアクセスすることができる任意の他の媒体を含み得る。
一実施形態では、ICONモジュール108および/または予測モジュール110を、図42に示す、方法4200を行うよう構成してもよい。方法4200は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法4200は、ステップ4201において、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを受信することを含み得る。単一の細胞の配列データは、RNA-seqデータを含んでもよく、デキストラマー配列データは、dCODE-デキストラマー-seqデータを含んでもよく、単一の細胞のT細胞受容体(TCR)配列データは、TCR-seqデータを含んでもよい。
方法4200は、ステップ4202において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定することを含み得る。
方法4200は、ステップ4203において、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去することを含み得る。例示の目的で、遺伝子閾値範囲は、約200個の遺伝子~約2,500個の遺伝子であってもよい。
方法4200は、ステップ4204において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定することを含み得る。
方法4200は、ステップ4205において、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含み得る。遺伝子発現閾値は、総合固有分子識別子カウントの約40パーセントであることができる。
方法4200は、ステップ4206において、デキストラマー配列データおよび選別されていないデキストラマー配列データに基づき、決定することを含んでもよい。選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含むことができる。選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含むことができる。
方法4200は、ステップ4207において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定することを含んでもよい。最大の陰性対照デキストラマーシグナルを、(Max(nc,...,nc))として表してもよく、式中、nは、陰性対照デキストラマーの数である。
方法4200は、ステップ4208において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。最大の選別されたデキストラマーシグナルを、(Max(ds,...,ds))として表してもよく、式中、mは、試験デキストラマーの数である。
方法4200は、ステップ4209において、デキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。最大の選別されていないデキストラマーシグナルを、(Max(du,...,du))として表してもよく、式中、mは、試験デキストラマーの数である。
方法4200は、ステップ4210において、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定することを含んでもよい。デキストラマー結合バックグラウンドノイズは、(P99.9)を決定することを含んでもよい。
方法4200は、ステップ4211において、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定することを含んでもよい。デキストラマー選別ゲート効率を、(argmaxDs,u)と表してもよい。デキストラマー選別ゲート効率を、(Max(ds,...,ds))と(Max(du,...,du))の間の最大の相違として決定してもよい。
方法4200は、ステップ4212において、デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズの測定値を決定することを含んでもよい。バックグラウンドノイズの測定値を、(d)として表されてもよい。
方法4200は、ステップ4213において、デキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じることを含んでもよい。それぞれの細胞と関連するデキストラマーシグナルからバックグラウンドノイズの測定値を減じることは、(E=E-d)を評価することを含んでもよい。
方法4200は、ステップ4214において、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことを含んでもよい。セルワイズ正規化を行うことは、

を評価することを含んでもよい。
方法4200は、ステップ4215において、デキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うことを含んでもよい。pMHCワイズ正規化を行うことは、

を評価することを含んでもよい。
方法4200は、ステップ4216において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定することを含んでもよい。
方法4200は、ステップ4217において、正規化したデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。
方法4200は、ステップ4218において信頼できるTCR-pMHC結合現象と関連付けられる正規化されたデキストラマー配列データに残っているデータを識別することを含みうる。
方法4200は、信頼できるTCR-pMHC結合現象と関連するデータに基づき、予測モデルをトレーニングすることをさらに含んでもよい。方法4200は、トレーニングした予測モデルにより新たに提示した受容体配列の結合状態を予測することをさらに含んでもよい。
一実施形態では、ICONモジュール108および/または予測モジュール110を、図43に示す、方法4300を行うよう構成してもよい。方法4300は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法4300は、ステップ4310において、単一の細胞の配列データ、デキストラマー配列データ、および単一の細胞T細胞受容体(TCR)配列データを含む単一の細胞配列決定データを受信することを含んでもよい。単一の細胞の配列データは、RNA-seqデータを含んでもよく、デキストラマー配列データは、dCODE-デキストラマー-seqデータを含んでもよく、単一の細胞のT細胞受容体(TCR)配列データは、TCR-seqデータを含んでもよい。
方法4300は、ステップ4320において、デキストラマー配列データから、単一の細胞の配列データに基づき、低品質の細胞と関連するデータをフィルタリングすることを含んでもよい。デキストラマー配列データから、単一の細胞の配列データに基づき、低品質の細胞と関連するデータをフィルタリングすることは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、遺伝子の数を決定すること、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去すること、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞の配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定すること、およびデキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含むことができる。遺伝子閾値範囲は、約200個の遺伝子~約2,500個の遺伝子であってもよい。遺伝子発現閾値は、総合固有分子識別子カウントの約40パーセントであることができる。
方法4300は、ステップ4330において、バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節することを含んでもよい。方法4300は、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定することをさらに含んでもよく、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データおよび選別されていないデキストラマー配列データを含み、選別されていないデキストラマー配列データは、選別されていない試験デキストラマー配列データを含む。方法4300は、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定すること、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定すること、およびデキストラマー配列データに表されるそれぞれの細胞について、選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルを決定することをさらに含んでもよい。最大の陰性対照デキストラマーシグナルを、(Max(nc,...,nc))として表してもよく、式中、nは、陰性対照デキストラマーの数である。最大の選別されたデキストラマーシグナルを、(Max(ds,...,ds))として表してもよく、式中、mは、試験デキストラマーの数である。最大の選別されていないデキストラマーシグナルを、(Max(du,...,du))として表してもよく、式中、mは、試験デキストラマーの数である。
バックグラウンドノイズの測定値に基づき、デキストラマー配列データを調節することは、最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定すること、最大の選別されたデキストラマーシグナルおよび最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率を推定すること、デキストラマー結合バックグラウンドノイズおよびデキストラマー選別ゲート効率に基づき、バックグラウンドノイズ(d)の測定値を決定すること、およびデキストラマー配列データに表されるそれぞれの細胞について、バックグラウンドノイズの測定値を、それぞれの細胞と関連するデキストラマーシグナルから減じることを含むことができる。バックグラウンドノイズの測定値を、(d)として表されてもよい。それぞれの細胞と関連するデキストラマーシグナルからバックグラウンドノイズの測定値を減じることは、(E=E-d)を評価することを含んでもよい。方法4300は、デキストラマー配列データを正規化することをさらに含んでもよい。デキストラマー配列データの正規化は、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズおよび正規化を行うこと、および/またはデキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うことを含むことができる。セルワイズ正規化を行うことは、

を評価することを含んでもよい。
pMHCワイズ正規化を行うことは、

を評価することを含んでもよい。
方法4300は、ステップ4340において、デキストラマー配列データから、単一の細胞のTCRデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすることを含んでもよい。デキストラマー配列データから、単一の細胞のTCRデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをフィルタリングすることは、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定すること、および正規化したデキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含むことができる。
方法4300は、ステップ4350において、信頼できるTCR-pMHC結合現象と関連する正規化されたフィルタリングされたデキストラマー配列データに残っているデータを識別することを含んでもよい。
方法4300は、正規化されたフィルタリングされたデキストラマー配列データに残っているデータに基づき、予測モデルをトレーニングすることをさらに含んでもよい。方法4300は、トレーニングした予測モデルにより新たに提示した受容体配列の結合状態を予測することをさらに含んでもよい。
一実施形態では、ICONモジュール108および/または予測モジュール110を、図44に示す、方法4400を行うよう構成してもよい。方法4400は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法4400は、ステップ4410において、デキストラマー配列データにおいてTCR-pMHC結合特異性データ正規化を行い、複数のTCR-pMHC結合現象を識別することを含んでもよい。複数のTCR-pMHC結合現象を識別するためのデキストラマー配列データにおけるTCR-pMHC結合特異性データ正規化を行うことは、方法4200および/または方法4300のうちの一部または全てを含んでもよい。
方法4400は、ステップ4420において、正規化されたデキストラマー配列データに基づき、複数のTCR配列を含むトレーニングデータセットを決定することを含んでもよく、それぞれのTCR配列は、結合親和性と関連する。正規化されたデキストラマー配列データに基づき、複数のTCR配列を含むトレーニングデータセットを決定すること、それぞれのTCR配列は、結合親和性と関連する、は、複数のTCR配列のそれぞれのTCR配列について、対のαβ鎖CDR3アミノ酸配列、V遺伝子識別子、およびJ遺伝子識別子を決定すること、ならびに複数のTCR配列のそれぞれのTCR配列について、対のαβ鎖CDR3アミノ酸配列、V遺伝子セグメント配列、およびJ遺伝子セグメント配列を一次元入力ベクターにコードすることを含むことができる。複数のTCR配列のそれぞれのTCR配列について、対のαβ鎖CDR3アミノ酸配列をコードすることは、アミノ酸のそれぞれのアルファベット表示をアミノ酸の数字表示に変換することを含む。複数のTCR配列のそれぞれのTCR配列について、V遺伝子識別子およびJ遺伝子識別子をコードすることは、計算空間において遺伝子名の分類上かつ別々の表示を生成するための一つのホットエンコーディングを含む。
方法4400は、一次元入力ベクターを一つまたは複数のクラスターにクラスター形成することをさらに含んでもよい。一次元入力ベクターを一つまたは複数のクラスターにクラスター形成することは、KNNクラスター形成するアルゴリズムを一次元入力ベクターに適用することを含む。一つまたは複数のクラスターは、結合強度の指標である。
方法4400は、ステップ4430において、複数のTCR配列に基づき、予測モデルについての複数の特性を決定することを含んでもよい。予測モデルは、重み付け二値分類指標または畳み込みニューラルネットワーク(CNN)を含むことができる。
方法4400は、ステップ4440において、トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることを含んでもよい。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、畳み込みニューラルネットワーク(CNN)をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、クラス加重費用関数を適用することを含む。
方法4400は、ステップ4450において、トレーニングデータセットの第二の部分に基づき、予測モデルを試験することを含んでもよい。
方法4400は、ステップ4460において、試験に基づき、予測モデルを出力することを含んでもよい。
方法4400は、トレーニングした予測モデルに、未知のTCR配列を提示すること、およびトレーニングした予測モデルにより、結合親和性を予測することをさらに含んでもよい。
一実施形態では、ICONモジュール108および/または予測モジュール110を、図45に示す、方法4500を行うよう構成してもよい。方法4500は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法4500は、ステップ4510において、トレーニングした予測モデルに、未知のTCR配列を提示することを含んでもよく、トレーニングした予測モデルを、TCR-pMHC結合特異性データ正規化によりもたらしたトレーニングデータセットに基づき、トレーニングする。方法4500は、ステップ4510において、デキストラマー配列データにおいてTCR-pMHC結合特異性データ正規化を行い、複数のTCR-pMHC結合現象を識別することを含んでもよい。複数のTCR-pMHC結合現象を識別するためのデキストラマー配列データにおけるTCR-pMHC結合特異性データ正規化を行うことは、方法4200および/または方法4300のうちの一部または全てを含んでもよい。
方法4500は、ステップ4520において、トレーニングされた予測モデルにより、結合親和性を予測することを含んでもよい。予測モデルは、重み付け二値分類指標または畳み込みニューラルネットワーク(CNN)を含むことができる。
方法4500は、正規化されたデキストラマー配列データに基づき、複数のTCR配列を含むトレーニングデータセットを決定することを含んでもよく、それぞれのTCR配列は、結合親和性と関連する。トレーニングデータセットは、複数のTCR配列を含むことができ、それぞれのTCR配列は、結合親和性と関連する。トレーニングデータセットは、対のαβ鎖CDR3アミノ酸配列、V遺伝子識別子、J遺伝子識別子、および結合親和性(例えば、はい/いいえ)を含むことができる。
方法4500は、トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることを含んでもよい。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、畳み込みニューラルネットワーク(CNN)をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、それぞれのTCR配列に適用した単一の翻訳インバリアント層、続いて、最終の出力層に三つの完全に結び付けた畳み込み層を有する畳み込みニューラルネットワーク(CNN)をトレーニングすることを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、クラス加重費用関数を適用することを含む。トレーニングデータセットの第一の部分に基づき、複数の特性による予測モデルをトレーニングすることは、学習した埋め込みを介して、TCR配列のそれぞれの鎖のワンホットコード化されたVおよびJ遺伝子を埋め込むことによって、ニューラルネットワークをトレーニングすること、およびこれらの埋め込みを、それぞれのCDR3についての畳み込みニューラルネットワークの出力と一緒に連結し、埋め込みCDR3を供給し、TCRを表す1D数字ベクトルを形成すること、続いて、最終の完全に結び付けた層を介してそれぞれの数字TCR配列を通過させることを含む。
一実施形態では、ICONモジュール108および/または予測モジュール110を、図44に示す、方法4400を行うよう構成してもよい。方法4400は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法4400は、4601において、単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを受信することを含み得る。
方法4400は、ステップ4602において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞の配列データに基づき、遺伝子の数を決定することを含み得る。
方法4400は、ステップ4603において、デキストラマー配列データから、遺伝子の数が遺伝子閾値範囲外の細胞と関連するデータを除去することを含み得る。
方法4400は、ステップ4604において、デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションを決定することを含み得る。
方法4400は、4605において、デキストラマー配列データから、ミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することを含み得る。
方法4400は、4606において、デキストラマー配列データに基づき、選別されたデキストラマー配列データを決定することを含んでもよく、選別されたデキストラマー配列データは、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む。
方法4400は、4607において、デキストラマー配列データに表されるそれぞれの細胞について、陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルを決定することを含んでもよい。
方法4400は、4608において、デキストラマー配列データに表されるそれぞれの細胞について、選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルを決定することを含んでもよい。
方法4400は、4609において、最大の陰性対照デキストラマーシグナルおよび最大の選別されたデキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズを推定することを含んでもよい。
方法4400は、4610において、デキストラマー配列データに表されるそれぞれの細胞について、単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在を決定することを含んでもよい。
方法4400は、4611において、デキストラマー配列データから、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在に基づき、α鎖のみ、β鎖のみ、または複数のαもしくはβ鎖を有する細胞と関連するデータを除去することを含んでもよい。
方法4400は、4612において、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞に結合する全てのデキストラマーの合計(細胞に対するデキストラマー結合特異性の測定値)に対する細胞内のデキストラマーシグナルの比を決定することを含んでもよい。デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞に結合する全てのデキストラマーの合計に対する細胞内のデキストラマーシグナルの比を決定することは、ithT細胞結合jthデキストラマーについて、バックグラウンドノイズを減じたデキストラマーシグナルEijを決定すること、および

を評価することによる、ithT細胞についてのjthデキストラマーの結合に起因した、デキストラマーシグナルのフラクションを決定することを含んでもよい。
方法4400は、4613において、デキストラマー配列データに表されるそれぞれの細胞の所定のTCRクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のT細胞のフラクション(細胞が属するクローンタイプに対するデキストラマー結合特異性の測定値)を決定することを含んでもよい。デキストラマー配列データに表されるそれぞれの細胞の所定のTCRクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のT細胞のフラクションを決定することは、ithT細胞のTCRクローンタイプkを決定すること、デキストラマーに結合するクローンタイプkに属するT細胞数Tkijを決定すること、および

を評価することによって、jthデキストラマーに結合するクローンタイプkに属するT細胞のフラクションを決定することを含んでもよい。
方法4400は、4641において、デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定することを含んでもよい。デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、細胞へのデキストラマー結合特異性の測定値および細胞が属するクローンタイプへのデキストラマー結合特異性の測定値に基づき、細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルを決定することは、Sij=Eij(RCijRTkjを評価することによって、ithT細胞結合jthデキストラマーについての補正したデキストラマーシグナルを決定することを含んでもよい。
方法4400は、デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞と関連するデキストラマーシグナルにおいてセルワイズ正規化を行うことを含んでもよい。
方法4400は、4615において、デキストラマー配列データに表されるそれぞれの細胞について、pMHCワイズ正規化を行うことを含んでもよい。
方法4400は、4616において、閾値に基づき、正規化したデキストラマー配列データに残っているデータを、信頼できるTCR-pMHC結合現象と関連すると識別することを含んでもよい。
当業者は、通常の実験だけを用いることで、本明細書に記載の方法および組成物の特定の実施形態の多数の同等物を認識し、または確認できる。かかる同等物は、以下の特許請求の範囲に包含されることが意図される。

Claims (15)

  1. 単一の細胞配列データ、デキストラマー配列データ、および単一の細胞のT細胞受容体(TCR)配列データを含む単一の細胞配列決定データをコンピュータにより受信することと、
    前記デキストラマー配列データから、前記単一の細胞配列データに基づき、遺伝子の数が遺伝子閾値範囲外の細胞又はミトコンドリア遺伝子発現のフラクションが遺伝子発現閾値を超える細胞と関連するデータを除去することによって、低品質の細胞と関連するデータをコンピュータによりフィルタリングすることと、
    前記デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞に関連するデキストラマーシグナルから、バックグラウンドノイズの測定値コンピュータにより減算することと、
    α鎖のみ、β鎖のみ、又は複数のα鎖又はβ鎖を有する細胞に関連するデータを除去することによって、前記デキストラマー配列データから、前記単一の細胞のTCRデータに基づき、α鎖またはβ鎖の存在または非存在によるデータをコンピュータによりフィルタリングすることと、
    ィルタリングされたデキストラマー配列データに残っているデータを信頼できるTCR-pMHC結合現象と関連するとコンピュータにより識別することと、を含むコンピュータにより実行される方法。
  2. 前記デキストラマー配列データから、前記単一の細胞配列データに基づき、低品質の細胞と関連するデータをコンピュータによりフィルタリングすることが、
    前記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、遺伝子の数をコンピュータにより決定することと
    記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞配列データに基づき、ミトコンドリア遺伝子発現のフラクションをコンピュータにより決定すること
    含む請求項1に記載の方法。
  3. 前記デキストラマー配列データに基づき、選別された試験デキストラマー配列データおよび陰性対照デキストラマー配列データを含む選別されたデキストラマー配列データ、および選別されていない試験デキストラマー配列データを含む、選別されていないデキストラマー配列データをコンピュータにより決定することと、
    前記デキストラマー配列データに表されるそれぞれの細胞について、前記陰性対照デキストラマー配列データに基づき、最大の陰性対照デキストラマーシグナルをコンピュータにより決定することと、
    前記デキストラマー配列データに表されるそれぞれの細胞について、前記選別された試験デキストラマー配列データに基づき、最大の選別されたデキストラマーシグナルをコンピュータにより決定することと、
    前記デキストラマー配列データに表されるそれぞれの細胞について、前記選別されていない試験デキストラマー配列データに基づき、最大の選別されていないデキストラマーシグナルをコンピュータにより決定することと、をさらに含む請求項1又は請求項2に記載の方法。
  4. 前記デキストラマー配列データに表されるそれぞれの細胞について、それぞれの細胞に関連するデキストラマーシグナルから、バックグラウンドノイズの前記測定値を、コンピュータにより減算することが、
    前記最大の陰性対照デキストラマーシグナルに基づき、デキストラマー結合バックグラウンドノイズをコンピュータにより推定することと、
    前記最大の選別されたデキストラマーシグナルおよび前記最大の選別されていないデキストラマーシグナルに基づき、デキストラマー選別ゲート効率をコンピュータにより推定することと、
    前記デキストラマー結合バックグラウンドノイズおよび前記デキストラマー選別ゲート効率に基づき、バックグラウンドノイズの前記測定値をコンピュータにより決定すること
    を含む請求項3に記載の方法。
  5. 前記デキストラマー配列データから、前記単一の細胞のTCRデータに基づき、前記α鎖または前記β鎖の前記存在または前記非存在によるデータをコンピュータによりフィルタリングすることが、
    前記デキストラマー配列データに表されるそれぞれの細胞について、前記単一の細胞のTCR配列データに基づき、少なくとも一つのα鎖および少なくとも一つのβ鎖の存在または非存在をコンピュータにより決定するこ
    を含む請求項1から請求項4のいずれか一項に記載の方法。
  6. 前記デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、前記細胞に結合する全てのデキストラマーの合計に対する前記細胞内のデキストラマーシグナルの比を、コンピュータにより前記細胞に対する前記デキストラマーの結合特異性の測定値として決定することと、
    前記デキストラマー配列データに表されるそれぞれの細胞の所定のTCRクローンタイプに結合するそれぞれのデキストラマーについて、特定のデキストラマーに結合するクローン内のT細胞のフラクションを、コンピュータにより前記細胞が属する前記クローンタイプに対する前記デキストラマー結合特異性の測定値として決定することと、
    前記デキストラマー配列データにおいて表される所定の細胞に結合するそれぞれのデキストラマーについて、前記細胞への前記デキストラマー結合特異性の前記測定値および前記細胞が属する前記クローンタイプへの前記デキストラマー結合特異性の前記測定値に基づき、前記細胞に結合するそれぞれのデキストラマーと関連する補正されたデキストラマーシグナルをコンピュータにより決定することと、をさらに含む請求項5に記載の方法。
  7. 予測モデルを、前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、コンピュータによりトレーニングすることをさらに含む方法であって、前記予測モデルを、前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、コンピュータによりトレーニングすることが、
    前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、それぞれのTCR配列が結合親和性と関連する複数のTCR配列を含むトレーニングデータセットをコンピュータにより決定することと、
    前記複数のTCR配列に基づき、前記予測モデルについての複数の特性をコンピュータにより決定することと、
    前記トレーニングデータセットの第一の部分に基づき、前記複数の特性による前記予測モデルをコンピュータによりトレーニングすることと、
    前記トレーニングデータセットの第二の部分に基づき、前記予測モデルをコンピュータにより試験することと、
    前記試験に基づいて、前記予測モデルをコンピュータにより出力することと、を含む請求項1から請求項6のいずれか一項に記載の方法
  8. 前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、それぞれのTCR配列が結合親和性と関連する複数のTCR配列を含む前記トレーニングデータセットをコンピュータにより決定することが、
    前記複数のTCR配列のそれぞれのTCR配列について、対のαβ鎖CDR3アミノ酸配列、V遺伝子セグメント配列、およびJ遺伝子セグメント配列をコンピュータにより決定することと、
    前記複数のTCR配列のそれぞれのTCR配列について、前記対のαβ鎖CDR3アミノ酸配列、前記V遺伝子セグメント配列、および前記J遺伝子セグメント配列をコンピュータにより1次元の入力ベクターにコードすることと、を含む請求項7に記載の方法。
  9. 前記複数のTCR配列のそれぞれのTCR配列について、前記対のαβ鎖CDR3アミノ酸配列をコードすることが、アミノ酸のそれぞれのアルファベット表示をコンピュータにより前記アミノ酸の数字表示に変換することを含む、請求項8に記載の方法。
  10. 前記複数のTCR配列のそれぞれのTCR配列について、前記V遺伝子セグメント配列および前記J遺伝子セグメント配列をコンピュータによりコードすることが、計算空間における遺伝子名の分類上かつ別々の表示を得るための一つのホットエンコーディングを含む、請求項8に記載の方法。
  11. 前記トレーニングデータセットの前記第一の部分に基づき、前記複数の特性による前記予測モデルをコンピュータによりトレーニングすることは、学習した埋め込みを介して、前記TCR配列のそれぞれの鎖のワンホットコード化されたVおよびJ遺伝子を埋め込むことによって、ニューラルネットワークをコンピュータによりトレーニングすること、およびこれらの埋め込みを、それぞれのCDR3についての畳み込みニューラルネットワークの出力と一緒に連結し、前記埋め込みCDR3を供給し、前記TCRを表す1D数字ベクトルを形成すること、続いて、最終の完全に結び付けた層を介してそれぞれの数字TCR配列を通過させることを含む、請求項10に記載の方法。
  12. 次元入力ベクターをコンピュータにより一つ以上のクラスターにクラスター形成することが、KNNクラスター形成するアルゴリズムを前記一次元入力ベクターに適用することをさらに含み、前記一つ以上のクラスターが、結合強度を示す、請求項8から請求項11のいずれか一項に記載の方法。
  13. レーニングされた予測モデルに、未知のTCR配列をコンピュータにより提示することと、
    前記トレーニングされた予測モデルにより、結合親和性を予測することと、をさらに含む請求項7から請求項12のいずれか一項に記載の方法。
  14. 前記予測モデルに、対象TCR配列データをコンピュータにより提示することと、
    前記予測モデルにより、前記対象TCR配列データに基づき、対象TCR結合パターンをコンピュータによって決定することと、
    抗原位置および前記対象TCR結合パターンのリポジトリに基づき、TCR配列データと関連する対象が、一つ以上の位置に移動した可能性をコンピュータにより決定することと、をさらに含む請求項7から請求項12のいずれか一項に記載の方法
  15. 信頼できるTCR-pMHC結合現象と関連する前記フィルタリングされたデキストラマー配列データに残っている前記データに基づき、対象についてのTCR結合パターンをコンピュータにより生成することと、
    後続する時点において、前記対象について、第二の単一の細胞配列データ、第二のデキストラマー配列データ、および第二の単一の細胞のT細胞受容体(TCR)配列データをコンピュータにより受信することと、
    前記対象についての前記第二の単一の細胞配列データ、第二のデキストラマー配列データ、および第二の単一の細胞のT細胞受容体(TCR)配列データに基づき、第二のTCR結合パターンをコンピュータにより決定することと、
    前記対象についての前記TCR結合パターンと前記第二のTCR結合パターンの比較に基づき、前記対象をコンピュータにより識別することと、をさらに含む請求項1から請求項14のいずれか一項に記載の方法。
JP2022564343A 2020-04-21 2021-04-21 受容体相互作用の分析のための方法およびシステム Active JP7428825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024009636A JP2024050692A (ja) 2020-04-21 2024-01-25 受容体相互作用の分析のための方法およびシステム

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063013480P 2020-04-21 2020-04-21
US63/013,480 2020-04-21
US202063090498P 2020-10-12 2020-10-12
US63/090,498 2020-10-12
US202063111395P 2020-11-09 2020-11-09
US63/111,395 2020-11-09
PCT/US2021/028500 WO2021216787A1 (en) 2020-04-21 2021-04-21 Methods and systems for analysis of receptor interaction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024009636A Division JP2024050692A (ja) 2020-04-21 2024-01-25 受容体相互作用の分析のための方法およびシステム

Publications (2)

Publication Number Publication Date
JP2023524654A JP2023524654A (ja) 2023-06-13
JP7428825B2 true JP7428825B2 (ja) 2024-02-06

Family

ID=75870801

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022564343A Active JP7428825B2 (ja) 2020-04-21 2021-04-21 受容体相互作用の分析のための方法およびシステム
JP2024009636A Pending JP2024050692A (ja) 2020-04-21 2024-01-25 受容体相互作用の分析のための方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024009636A Pending JP2024050692A (ja) 2020-04-21 2024-01-25 受容体相互作用の分析のための方法およびシステム

Country Status (10)

Country Link
US (1) US20210335447A1 (ja)
EP (1) EP4139922A1 (ja)
JP (2) JP7428825B2 (ja)
KR (1) KR20230004698A (ja)
CN (1) CN115917654A (ja)
AU (1) AU2021259460A1 (ja)
CA (1) CA3176401A1 (ja)
IL (1) IL297508A (ja)
MX (1) MX2022013328A (ja)
WO (1) WO2021216787A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023028595A1 (en) * 2021-08-27 2023-03-02 The Regents Of The University Of California Prediction of t cell response to antigens
WO2023114509A1 (en) * 2021-12-16 2023-06-22 10X Genomics, Inc. Systems and methods for improving immune receptor discovery
AU2022421695A1 (en) * 2021-12-21 2024-05-30 Amgen Inc. Dcaf4l2-specific t-cell receptors
WO2023147474A1 (en) * 2022-01-28 2023-08-03 The Scripps Research Institute Systems and methods for genetic imputation, feature extraction, and dimensionality reduction in genomic sequences
WO2023183468A2 (en) * 2022-03-25 2023-09-28 Freenome Holdings, Inc. Tcr/bcr profiling for cell-free nucleic acid detection of cancer
KR102547966B1 (ko) * 2022-07-28 2023-06-26 주식회사 네오젠티씨 인공지능 기술을 이용하여 pMHC와 TCR 간의 관계를 분석하기 위한 방법 및 장치
WO2024081740A1 (en) * 2022-10-13 2024-04-18 Somalogic Operating Co., Inc. Systems and methods for validation of proteomic models
KR102547977B1 (ko) * 2022-10-14 2023-06-26 주식회사 네오젠티씨 인공지능 기술을 이용하여 pMHC에 대응되는 TCR 정보를 생성하기 위한 방법 및 장치
US20240185949A1 (en) * 2022-12-06 2024-06-06 10X Genomics, Inc. Systems and methods for v(d)j cell calling based on the presence of gene expression data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160261A (ja) 2018-03-28 2019-09-19 Kotaiバイオテクノロジーズ株式会社 免疫実体の効率的クラスタリング

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160261A (ja) 2018-03-28 2019-09-19 Kotaiバイオテクノロジーズ株式会社 免疫実体の効率的クラスタリング

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
John-William Sidhom, et al.,DeepTCR: a deep learning framework for understanding T-cell receptor sequence signatures within complex T-cell repertoires,[online],2019年12月23日,Pages 1-33,[検索日:2023年9月6日], <URL:https://doi.org/10.1101/464107>
Venessa Isabell Jurtz, et al.,NetTCR: sequence-based prediction of TCR binding to peptide-MHC complexes using convolutional neural networks,[online],2018年10月03日,Pages 1-22,[検索日:2023年9月6日], <URL:https://doi.org/10.1101/433706>

Also Published As

Publication number Publication date
US20210335447A1 (en) 2021-10-28
KR20230004698A (ko) 2023-01-06
EP4139922A1 (en) 2023-03-01
CN115917654A (zh) 2023-04-04
CA3176401A1 (en) 2021-10-28
WO2021216787A1 (en) 2021-10-28
JP2024050692A (ja) 2024-04-10
IL297508A (en) 2022-12-01
WO2021216787A9 (en) 2022-10-20
MX2022013328A (es) 2023-05-03
JP2023524654A (ja) 2023-06-13
AU2021259460A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
JP7428825B2 (ja) 受容体相互作用の分析のための方法およびシステム
Pai et al. High-throughput and single-cell T cell receptor sequencing technologies
Emerson et al. Immunosequencing identifies signatures of cytomegalovirus exposure history and HLA-mediated effects on the T cell repertoire
Bradley et al. Using T cell receptor repertoires to understand the principles of adaptive immune recognition
JP7047115B2 (ja) Mhcペプチド結合予測のためのgan-cnn
Fischer et al. Predicting antigen specificity of single T cells based on TCR CDR 3 regions
Greiff et al. Mining adaptive immune receptor repertoires for biological and clinical information using machine learning
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
Meysman et al. On the viability of unsupervised T-cell receptor sequence clustering for epitope preference
BR112019027179A2 (pt) interpretação de variantes genéticas e genômicas por meio de uma estrutura de aprendizagem profunda de mutação computacional e experimental integrada
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
AU2019403273A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
EP4399710A2 (en) Systems and methods for the identification of target-specific t cells and their receptor sequences using machine learning
Camaglia et al. Quantifying changes in the T cell receptor repertoire during thymic development
Sidhom et al. DeepTCR: a deep learning framework for revealing structural concepts within TCR Repertoire
Dorigatti et al. Predicting t cell receptor functionality against mutant epitopes
Camaglia et al. Population based selection shapes the T cell receptor repertoire during thymic development
Afik et al. Targeted reconstruction of T cell receptor sequence from single cell RNA-sequencing links CDR3 length to T cell differentiation state
Sevy ErrorX: automated error correction for immune repertoire sequencing datasets
Meysman et al. The workings and failings of clustering T-cell receptor beta-chain sequences without a known epitope preference
Warnat-Herresthal et al. Artificial intelligence in blood transcriptomics
KR102547350B1 (ko) 인간 백혈구 항원의 타입을 결정하기 위한 방법 및 장치
KR102557986B1 (ko) 인공지능 기술을 사용하여 염기 서열의 변이를 검출하기 위한 방법 및 장치
Xue et al. Disease associated human TCR characterization by deep-learning framework TCR-DeepInsight
Abondio et al. Single Cell Multiomic Approaches to Disentangle T Cell Heterogeneity

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240125

R150 Certificate of patent or registration of utility model

Ref document number: 7428825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150