JP2023538820A - 複合糖質を測定する方法 - Google Patents

複合糖質を測定する方法 Download PDF

Info

Publication number
JP2023538820A
JP2023538820A JP2023506216A JP2023506216A JP2023538820A JP 2023538820 A JP2023538820 A JP 2023538820A JP 2023506216 A JP2023506216 A JP 2023506216A JP 2023506216 A JP2023506216 A JP 2023506216A JP 2023538820 A JP2023538820 A JP 2023538820A
Authority
JP
Japan
Prior art keywords
glycan
profile
lectin
profiles
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023506216A
Other languages
English (en)
Inventor
ルイス,ネイサン
チャン,ワン-ティエン
リャン,チェングアン
ティー. ソレンティーノ,ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of JP2023538820A publication Critical patent/JP2023538820A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/5308Immunoassay; Biospecific binding assay; Materials therefor for analytes not provided for elsewhere, e.g. nucleic acids, uric acid, worms, mites
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/543Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals
    • G01N33/54313Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals the carrier being characterised by its particulate form
    • G01N33/54326Magnetic particles
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/415Assays involving biological materials from specific organisms or of a specific nature from plants
    • G01N2333/42Lectins, e.g. concanavalin, phytohaemagglutinin
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • G01N2333/4701Details
    • G01N2333/4724Lectins
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2400/00Assays, e.g. immunoassays or enzyme assays, involving carbohydrates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2440/00Post-translational modifications [PTMs] in chemical analysis of biological material
    • G01N2440/38Post-translational modifications [PTMs] in chemical analysis of biological material addition of carbohydrates, e.g. glycosylation, glycation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2570/00Omics, e.g. proteomics, glycomics or lipidomics; Methods of analysis focusing on the entire complement of classes of biological molecules or subsets thereof, i.e. focusing on proteomes, glycomes or lipidomes

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Cell Biology (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Food Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

計算生物学ツールをレクチンまたは類似のプロファイリング技術とともに活用し、個々の細胞におけるグライコームをプロファイリングする画期的な方法。単一細胞レベルを含め、生物学的試料について、高分解能の糖鎖構造情報を用いた頑健で正確な再構成グライコーム。シングル・クローン分析やジョイント・クローン分析などのツールは、単一細胞糖鎖プロファイリングされた試料の分析を支援する場合のあるものであり、細胞間の糖鎖形成の変動が細胞の表現型にどのように影響するかを特定するために使用することができる。レクチンを使用する単一細胞糖鎖プロファイリングを実用的に実施して、高分解能の糖鎖構造情報が提供される。糖鎖プロファイリング技術は、高スループット、低コスト、頑健な信頼性により、胚発生から癌や感染症まで広範囲の生物学的応用が期待される。【選択図】図7

Description

関連出願への相互参照
本出願は、2020年7月31日に出願された米国仮出願第63/059,406号の優先権の利益を主張し、その出願は、参照により本明細書に組み込まれる。
政府支援
本発明は、国立衛生研究所から授与された助成第GM119850号の下、政府の支援を受けてなされたものである。政府は、本発明に対して一定の権利を有する。
本発明は、単一細胞糖鎖プロファイリング(scGLY-pro)方法に関する。
過去数十年の生物系の研究における進展により、単一細胞技術を用いた細胞不均質性の性質を調べることが可能になった(非特許文献1~5)。異なる細胞集団に細胞間の差が存在することは知られており(非特許文献6~9)、バルク集団の挙動が、個々の細胞ごとの明確な挙動を表していない場合がある(非特許文献10~14)。単一細胞調査研究の分野は、微生物学、神経生物学、発生学、および免疫学を含め、多くの多様な生物学的研究を発展させ影響を与えてきた(非特許文献15)。単一細胞技術の目に見える進展は、癌(非特許文献2、3、16)およびリウマチ性疾患(非特許文献17)などの多様なヒト疾患の診断、予後、および治療法の橋渡し的な実施に大いに期待される。ゲノム(非特許文献18、19)、トランスクリプトーム(非特許文献20~22)、プロテオーム(非特許文献23)に関する多くの単一細胞研究が行われ、個々の細胞間に不均質な表現型が示されている一方で、単一細胞グライコーム調査研究の進展は、他の単一細胞オミークス研究に比べて大きく遅れている。このギャップは大きく、これは、糖鎖形成が存在しないことが、複雑な生物系の本質的な謎を解き明かすことのできるパズルのピースが欠落しているのと同等であるからであり(非特許文献24、25)、これは、糖鎖が大部分の細胞の外面を覆っていて、それぞれの真核細胞中の何千もの遺伝子産物に付着していることが見出されているからである。このように、大部分の細胞がそれらの環境と通信および相互作用するには、糖鎖が関与している。
糖鎖形成は、様々な生物学的機能(非特許文献26~28)および機能不全(非特許文献29~31)における役割を果たしている。表面の糖鎖形成プロファイルについての多くの最近の研究では、いくつかの疾患状態にとって優れたバイオマーカーであることが報告されている(非特許文献32)。また、食品医薬品局(Food and Drug Administration(FDA))および欧州医薬品庁(European Medicines Agency(EMA))は、革新的医薬品とバイオ後続品との間の適合性試験のために、バイオ医薬品の糖鎖プロファイルの詳細な特性評価を求めていることに留意することも、大いに重要である(非特許文献33)。したがって、糖鎖分析技術(別名、糖鎖プロファイリング技術)は近年、大きな重要性を増している(非特許文献34、35)。過去数十年間、複数の糖鎖分析技術、例えば細胞を用いる手法(例えば、蛍光活性化セルソーティング(FACS)(非特許文献36))、および細胞溶解液を用いる手法(例えば、質量分析(MS)(非特許文献37、38)、および/または高速液体クロマトグラフィー(HPLC)(非特許文献39))が、バルク細胞集団の糖鎖プロファイリングにおいて成功裏に実行されている。これらの技術は、グライコームの組成を特定する上で強力ではあるものの、コストが高く、面倒で時間がかかるという欠点があり、これらは、アッセイを低スループットのものに制限する大きなボトルネックである(非特許文献40、41)。最近、液体クロマトグラフィーを糖鎖抽出用の糖タンパク質固定化法(GIG)と組み合わせてマイクロ流体プラットフォーム(chipLC)に一体化した、新しい高スループット糖鎖分析法が開発されている(非特許文献42)。それらのGIG-chipLCは、複雑な生体試料や臨床試料の糖鎖分析にとって単純で頑健なプラットフォームを提供する。残念なことに、これらの技術は、単一細胞表面グライコームのプロファイリングには適していない。具体的には、それらは、大きな細胞集団の分析に限定されているか、または細胞が破壊されていて複数回の、および/または順次のプロービングには対応できない(非特許文献43)。また、この手法では、糖鎖の分岐や立体化学を明確には決定できないだけでなく、いくつかの重要な糖鎖修飾も明確には決定できない。こんにちまで、個々の生きた細胞について生物学的または臨床的試料から糖鎖を包括的に分析することは、対処できていない技術的課題である(非特許文献44、45)。単一細胞グライコーム分析に携わりこれを促進するには、新しい単一細胞グライコーム法を開発することが不可欠である。
現在、単一細胞レベルでのグライコームにおける糖鎖の構造を特定する頑健で信頼性の高い分析ツールは存在せず、この主題に関する文献が少数であることは言うまでもない。本明細書に記載される少なくとも一実施形態は、単一細胞糖鎖プロファイリングツール、それらの使用方法、および単一細胞糖鎖プロファイリングツールの作製工程を対象としている。それらはまた、マイクロ流体装置において実施される場合に、単一細胞の分泌産物の糖鎖プロファイリングの検出にも当てはまる。しかし、この技術は、バルク試料上の糖鎖形成の研究にも適用され得る(図1A)。先行技術は、実施面からは、本開示に記載される様々な手法から遠ざかる教示をなしているものの、レクチンおよび抗体によって結合される多くのエピトープが糖鎖上の複数の場所に見出され得ることを前提として、本明細書では、関連する糖鎖プロファイリング方法を検討し、全ての先行技術がなしえなかった様々な実施形態の実施を可能にすることを、様々な手法の新規態様によって本明細書に記載した。
本明細書に記載される少なくとも一実施形態は、レクチン、レクテンズ(Lectenz)、抗体、ナノボディ、アプタマーなどを含むがこれらに限定されない、特定の糖鎖エピトープに結合する分子を使用する(非特許文献46)(図1B)。抗体はオリゴ糖部分を特異的に結合させることができるが、レクチンは、抗体よりも安価で特性が良く安定であるので、より頻繁に使用されている(非特許文献46、47)。したがって、レクチンは、多様な糖鎖構造を識別する高い特異性と、糖鎖やその糖鎖を含有する細胞表面に結合する高い親和性に起因して、糖タンパク質、糖脂質、および細胞の上の糖鎖構造を探索するために最も頻繁に使用されている(非特許文献46,48,49)。最近、ウッズら(Woods et al.)(特許文献1~3)は、糖鎖プロファイルを特性評価する発明を提示している。具体的には、彼らは、糖質処理酵素を改変して、異なるN型またはO型糖鎖モチーフを高い特異性で検出できる新規試薬、レクテンズを形成している(特許文献1、2)。この方法は、フローサイトメトリーを用いて、糖鎖とマルチプレックス・マイクロスフェア(multiplex microsphere)に結合したレクテンズとの間の結合強度を測定することにより(特許文献3)、試料中の少数の糖質エピトープの糖鎖プロファイルを得る、頑健で独自の、そしてコスト効率の高い解決策を提供している。しかし、これらの方法は、タンパク質結合のプロファイルを表すだけであり、試料中の高分解能の糖鎖構造を表すものではない。2014年に、オコンネルら(O’Connell et al.)(非特許文献50)は、マイクロ流体「Lab-in-a-Trench」(LiaT)プラットフォームを用いて単一細胞糖鎖プロファイリングを可能にする新規手法を開発した。これは、複数のレクチンを順次結合させ溶出させることにより、個々の生細胞の細胞表面糖鎖の情報を得ることを可能にする最初の分析手法である。また、別の研究で著者たちは、DNAバーコード付きレクチンのパネルを開発し、それらの結合を単一細胞レベルで定量化できることを示した(非特許文献51,52)。しかし、これらの先行例は、少数のレクチンの結合パターンを測定できることを示す一方で、試料の糖鎖構造の程度を再構成できる可能性を示してはいない。実際、レクチン結合パターンを解釈する当業者であれば、レクチン結合パターンのもたらす結果が、糖鎖上でエピトープが組織化される多くのされ方と生物学的試料中の糖鎖の多様性とに起因して、多くのまたは無限に異なる糖鎖プロファイルとなり得ることがわかるであろう。2016年、Shangら(Shang et al.)(非特許文献53)は、グライコームプロファイリング用にレクチンアレイの性能を大幅に向上させることによって、マイクロ流体レクチンバーコードプラットフォームを最適化した。著者らは、卵巣がん細胞株と、卵巣がん患者の異なる組織とから精製したバイオマーカー、CA125タンパク質の、組織特異的な糖鎖形成変化の集中的な差次的プロファイリングを、高速に再現性よく、高スループットで実行できることを実証している。これらの研究はすべて、マイクロ流体プラットフォームとレクチンを一体化することで、可能な糖鎖エピトープに関する情報を単一細胞レベルで得ることができることを示している。しかし、レクチン技術では、MSやHPLCなどの方法とは異なり、個々の糖鎖構造に関するまぎれのない構造情報はうまく得られないことに留意されたい。よって、それらの方法では、構造エピトープの特定のみが可能であり、一意的な分子構造の特定はできない。しかしMSは、今度は糖鎖質量しか特定できず、断片化パターンやHPLCの標準物質から構造を予測しなければならず、分岐構造、立体化学、糖組成に関するまぎれのないデータを得ることが困難になっている。しかし、糖質結合分子からは、そのようなデータを得ることができる。
適切な訓練用データとアルゴリズムとを備えたマイクロ流体プラットフォームは、レクチンと一体化させて細胞表面糖鎖を単一細胞レベルで調べることができる可能性を有している。したがって、レクチンと一体化されたマイクロ流体プラットフォームを支えつつ、さらにグライコームにおける糖鎖構造を単一細胞レベルの分析的糖鎖プロファイルで特定できる、頑健で手頃な、そして信頼性の高い方法を開発することの必要性が存在する。
以下の参考文献は、参照により本明細書に組み込まれる。
米国特許第9,926,612号明細書 国際公開第2015/161201号 米国特許出願公開2014/0005069号明細書
Altschuler, S. J. & Wu, L. F. Cellular heterogeneity: do differences make a difference? Cell 141, 559-563 (2010). Kanter, I. & Kalisky, T. Single cell transcriptomics: methods and applications. Front. Oncol. 5, 53 (2015). Gawad, C., Koh, W. & Quake, S. R. Single-cell genome sequencing: current state of the science. Nat. Rev. Genet. 17, 175-188 (2016). Eberwine, J., Sul, J.-Y., Bartfai, T. & Kim, J. The promise of single-cell sequencing. Nat. Methods 11, 25-27 (2014). Stuart, T. & Satija, R. Integrative single-cell analysis. Nat. Rev. Genet. 20, 257-272 (2019). Tasic, B. et al. Adult mouse cortical cell taxonomy revealed by single cell transcriptomics. Nat. Neurosci. 19, 335-346 (2016). Grun, D. et al. Single-cell messenger RNA sequencing reveals rare intestinal cell types. Nature 525, 251-255 (2015). Trapnell, C. Defining cell types and states with single-cell genomics. Genome Res. 25, 1491-1498 (2015). Zeisel, A. et al. Brain structure. Cell types in the mouse cortex and hippocampus revealed by single-cell RNA-seq. Science 347, 1138-1142 (2015). Hu, G. et al. Single-cell RNA-seq reveals distinct injury responses in different types of DRG sensory neurons. Sci. Rep. 6, 31851 (2016). Kim, K.-T. et al. Single-cell mRNA sequencing identifies subclonal heterogeneity in anti-cancer drug responses of lung adenocarcinoma cells. Genome Biol. 16, 127 (2015). Cao, J. et al. Comprehensive single cell transcriptional profiling of a multicellular organism by combinatorial indexing. doi:10.1101/104844. Jaitin, D. A. et al. Dissecting Immune Circuits by Linking CRISPR-Pooled Screens with Single-Cell RNA-Seq. Cell 167, 1883-1896.e15 (2016). Wilson, N. K. et al. Combined Single-Cell Functional and Gene Expression Analysis Resolves Heterogeneity within Stem Cell Populations. Cell Stem Cell 16, 712-724 (2015). Wang, Y. & Navin, N. E. Advances and applications of single-cell sequencing technologies. Mol. Cell 58, 598-609 (2015). B Bendall, S. C. & Nolan, G. P. From single cells to deep phenotypes in cancer. Nat. Biotechnol. 30, 639-647 (2012). Cheung, P., Khatri, P., Utz, P. J. & Kuo, A. J. Single-cell technologies - studying rheumatic diseases one cell at a time. Nat. Rev. Rheumatol. 15, 340-354 (2019). Zong, C., Lu, S., Chapman, A. R. & Xie, X. S. Genome-wide detection of single-nucleotide and copy-number variations of a single human cell. Science 338, 1622-1626 (2012). Wang, Y. et al. Clonal evolution in breast cancer revealed by single nucleus genome sequencing. Nature 512, 155-160 (2014). Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. Commun. 8, 14049 (2017). Macosko, E. Z. et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell 161, 1202-1214 (2015). Klein, A. M. et al. Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell 161, 1187-1201 (2015). Levy, E. & Slavov, N. Single cell protein analysis for systems biology. Essays Biochem. 62, 595-605 (2018). Marino, K., Bones, J., Kattla, J. J. & Rudd, P. M. A systematic approach to protein glycosylation analysis: a path through the maze. Nat. Chem. Biol. 6, 713-723 (2010). National Research Council, Division on Earth and Life Studies, Board on Life Sciences, Board on Chemical Sciences and Technology & Committee on Assessing the Importance and Impact of Glycomics and Glycosciences. Transforming Glycoscience: A Roadmap for the Future. (National Academies Press, 2012). Glycoscience: Biology and Medicine. (Springer, Tokyo, 2015). Baum, L. G. & Cobb, B. A. The direct and indirect effects of glycans on immune function. Glycobiology 27, 619-624 (2017). Varki, A. Biological roles of glycans. Glycobiology 27, 3-49 (2017). Lau, K. S. & Dennis, J. W. N-Glycans in cancer progression. Glycobiology 18, 750-760 (2008). Bull, C., Stoel, M. A., den Brok, M. H. & Adema, G. J. Sialic acids sweeten a tumor’s life. Cancer Res. 74, 3199-3204 (2014). Adamczyk, B., Tharmalingam, T. & Rudd, P. M. Glycans as cancer biomarkers. Biochim. Biophys. Acta 1820, 1347-1353 (2012). Dube, D. H. & Bertozzi, C. R. Glycans in cancer and inflammation - potential for therapeutics and diagnostics. Nature Reviews Drug Discovery vol. 4 477-488 (2005). Beck, A., Wagner-Rousset, E., Ayoub, D., Van Dorsselaer, A. & Sanglier-Cianferani, S. Characterization of therapeutic antibodies and related products. Anal. Chem. 85, 715-736 (2013). Cummings, R. D. & Pierce, J. M. The challenge and promise of glycomics. Chem. Biol. 21, 1-15 (2014). Hart, G. W. & Copeland, R. J. Glycomics hits the big time. Cell 143, 672-676 (2010). Jayakumar, D., Marathe, D. D. & Neelamegham, S. Detection of site-specific glycosylation in proteins using flow cytometry. Cytometry Part A: The Journal of the International Society for Advancement of Cytometry 75, 866-873 (2009). Zhang, T. et al. Development of a 96-well plate sample preparation method for integrated N- and O-glycomics using porous graphitized carbon liquid chromatography-mass spectrometry. Molecular Omics (2020) doi:10.1039/c9mo00180h. Zhu, Z. & Desaire, H. Carbohydrates on Proteins: Site-Specific Glycosylation Analysis by Mass Spectrometry. Annu. Rev. Anal. Chem. 8, 463-483 (2015). Ruhaak, L. R., Deelder, A. M. & Wuhrer, M. Oligosaccharide analysis by graphitized carbon liquid chromatography-mass spectrometry. Anal. Bioanal. Chem. 394, 163-174 (2009). Zaia, J. Mass spectrometry and the emerging field of glycomics. Chem. Biol. 15, 881-892 (2008). Cummings, R. D. & Michael Pierce, J. Handbook of Glycomics. (Academic Press, 2009). Yang, S., Toghi Eshghi, S., Chiu, H., DeVoe, D. L. & Zhang, H. Glycomic analysis by glycoprotein immobilization for glycan extraction and liquid chromatography on microfluidic chip. Anal. Chem. 85, 10117-10125 (2013). King, D. et al. Single cell level sequential glycan profiling on a microfluidic lab-in-a-trench platform. (2014). Nishimura, S.-I. Toward automated glycan analysis. Adv. Carbohydr. Chem. Biochem. 65, 219-271 (2011). Simone, G. Can Microfluidics boost the Map of Glycome Code? J. Glycomics Lipidomics 4, 1 (2014). Cummings, R. D. & Etzler, M. E. Antibodies and Lectins in Glycan Analysis. in Essentials of Glycobiology (eds. Varki, A. et al.) (Cold Spring Harbor Laboratory Press, 2010). Gupta, G., Surolia, A. & Sampathkumar, S.-G. Lectin microarrays for glycomic analysis. OMICS 14, 419-436 (2010). Hsu, K.-L., Pilobello, K. T. & Mahal, L. K. Analyzing the dynamic bacterial glycome with a lectin microarray approach. Nat. Chem. Biol. 2, 153-157 (2006). Zielinska, D. F., Gnad, F., Wisniewski, J. R. & Mann, M. Precision mapping of an in vivo N-glycoproteome reveals rigid topological and sequence constraints. Cell 141, 897-907 (2010). O’Connell, T. M. et al. Sequential glycan profiling at single cell level with the microfluidic lab-in-a-trench platform: a new era in experimental cell biology. Lab Chip 14, 3629-3639 (2014). Oinam, L., Minoshima, F. & Tateno, H. Glycomic profiling of the gut microbiota by Glycan-seq. bioRxiv 2021.06.30.450488 (2021) doi:10.1101/2021.06.30.450488. Minoshima, F., Ozaki, H., Odaka, H. & Tateno, H. Integrated analysis of glycan and RNA in single cells. bioRxiv 2020.06.15.153536 (2021) doi:10.1101/2020.06.15.153536. Shang, Y., Zeng, Y. & Zeng, Y. Integrated Microfluidic Lectin Barcode Platform for High-Performance Focused Glycomic Profiling. Sci. Rep. 6, 20297 (2016). Jorgolli, M. et al. Nanoscale integration of single cell biologics discovery processes using optofluidic manipulation and monitoring. Biotechnol. Bioeng. 116, 2393-2411 (2019). Abali, F. et al. A microwell array platform to print and measure biomolecules produced by single cells. Lab Chip 19, 1850-1859 (2019). Kearney, C. J. et al. SUGAR-seq enables simultaneous detection of glycans, epitopes, and the transcriptome in single cells. Sci Adv 7, (2021). Yang, Z. et al. Engineered CHO cells for production of diverse, homogeneous glycoproteins. Nat. Biotechnol. 33, 842-844 (2015). Maarleveld, T. R., Wortel, M. T., Olivier, B. G., Teusink, B. & Bruggeman, F. J. Interplay between constraints, objectives, and optimality for genome-scale stoichiometric models. PLoS Comput. Biol. 11, e1004166 (2015). Price, N. D., Reed, J. L. & Palsson, B. O. Genome-scale models of microbial cells: evaluating the consequences of constraints. Nat. Rev. Microbiol. 2, 886-897 (2004). Elowitz, M. B., Levine, A. J., Siggia, E. D. & Swain, P. S. Stochastic gene expression in a single cell. Science 297, 1183-1186 (2002). Swain, P. S., Elowitz, M. B. & Siggia, E. D. Intrinsic and extrinsic contributions to stochasticity in gene expression. Proc. Natl. Acad. Sci. U. S. A. 99, 12795-12800 (2002). Pilbrough, W., Munro, T. P. & Gray, P. Intraclonal protein expression heterogeneity in recombinant CHO cells. PLoS One 4, e8432 (2009). Lewis, N. E. et al. Genomic landscapes of Chinese hamster ovary cell lines as revealed by the Cricetulus griseus draft genome. Nat. Biotechnol. 31, 759-765 (2013). Liang, C. et al. A Markov model of glycosylation elucidates isozyme specificity and glycosyltransferase interactions for glycoengineering. Curr Res Biotechnol 2, 22-36 (2020). Theodoridis, S. Neural Networks and Deep Learning. Machine Learning 875-936 (2015) doi:10.1016/b978-0-12-801522-3.00018-5. Olden, J. An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modelling (2004) doi:10.1016/s0304-3800(04)00156-5. Olden, J. D. & Jackson, D. A. Illuminating the ‘black box’: a randomization approach for understanding variable contributions in artificial neural networks. Ecological Modelling vol. 154 135-150 (2002). Varki, A. et al. Essentials of Glycobiology, Third Edition. (2017). Lin, Y.-H., Franc, V. & Heck, A. J. R. Similar Albeit Not the Same: In-Depth Analysis of Proteoforms of Human Serum, Bovine Serum, and Recombinant Human Fetuin. J. Proteome Res. 17, 2861 (2018). Watanabe, Y., Allen, J. D., Wrapp, D., McLellan, J. S. & Crispin, M. Site-specific glycan analysis of the SARS-CoV-2 spike. Science 369, 330-333 (2020). Lee, K. H. et al. Analytical similarity assessment of rituximab biosimilar CT-P10 to reference medicinal product. MAbs 10, 380-396 (2018). Guttman, M. & Lee, K. K. Site-Specific Mapping of Sialic Acid Linkage Isomers by Ion Mobility Spectrometry. Anal. Chem. 88, 5212-5217 (2016). Ghosh, S. S., Kao, P. M., McCue, A. W. & Chappelle, H. L. Use of maleimide-thiol coupling chemistry for efficient syntheses of oligonucleotide-enzyme conjugate hybridization probes. Bioconjug. Chem. 1, 71-76 (1990). Konopka, T. umap: Uniform manifold approximation and projection. R package version 0. 2 3, (2019). Abdi, H. & Williams, L. J. Principal component analysis. WIREs Comp Stat 2, 433-459 (2010). Maaten, L. van der & Hinton, G. Visualizing Data using t-SNE. J. Mach. Learn. Res. 9, 2579-2605 (2008). Wattenberg, M., Viegas, F. & Johnson, I. How to use t-sne effectively. Distill, 2016. (2016). Tateno, H. et al. A novel strategy for mammalian cell surface glycome profiling using lectin microarray. Glycobiology 17, 1138-1146 (2007). Malik, A., Lee, J. & Lee, J. Community-based network study of protein-carbohydrate interactions in plant lectins using glycan array data. PLoS One 9, e95480 (2014). Michiels, K., Van Damme, E. J. M. & Smagghe, G. Plant-insect interactions: what can we learn from plant lectins? Archives of Insect Biochemistry and Physiology vol. 73 193-212 (2010). Bertsekas, D. P., Nedic, A. & Ozdaglar, A. Convex analysis and optimization, ser. Athena Scientific optimization and computation series. Athena Scientific (2003). Fu, A., Narasimhan, B. & Boyd, S. CVXR: An R Package for Disciplined Convex Optimization. (Department of Statistics, Stanford University, 2017). Wolsey, L. A. & Nemhauser, G. L. Integer and Combinatorial Optimization. (John Wiley & Sons, 2014). Bordel, S., Agren, R. & Nielsen, J. Sampling the Solution Space in Genome-Scale Metabolic Networks Reveals Transcriptional Regulation in Key Enzymes. PLoS Computational Biology vol. 6 e1000859 (2010).
本明細書に記載される少なくとも一実施形態は、組織、細胞、生体分子、またはオリゴ糖の上の糖鎖形成を測定することに関する(図1A)。これは、試料を一つまたは複数の糖質結合分子(例えば、レクチン、レクテンズ、抗体、ナノボディ、アプタマーなど)とともに並行してまたは順次にインキュベートすることによって、測定される(図1B)。結合は、顕微鏡法、分光法、化学的手段、ヌクレオチドシーケンシング、または当業者に公知の他のいずれかの手段、例えば、蛍光顕微鏡法、FACS、免疫組織化学、ビオチン-ストレプトアビジン、ヌクレオチドシーケンシング、ペプチドシーケンシングなどによって検出でき、顕微鏡法、フローサイトメトリーまたは質量サイトメトリーによる分析を使用することによって検出できる(図1C)。要するに、少なくとも一実施形態は、集団レベルの糖鎖プロファイリングだけでなく、単一細胞レベルの糖鎖プロファイリングにも適用することができる(非特許文献52)。例えば、単一細胞レベルの糖鎖プロファイリングは、(1)マイクロ流体ナノペンス(nanopens)(非特許文献54)(蛍光、または産物の結合したビーズの引き抜きおよびそれらのビーズ上のアプタマーのシーケンシング)、(2)マイクロウェル培養からの細胞およびその産物のブロッティング(非特許文献55)、および(3)単一細胞レベルでの結合を定量化する(シーケンシング可能なヌクレオチドタグのついたアプタマーまたはタンパク質を用いた)液滴設定(非特許文献51、52,56)、を使用することによって行うことができる。次いで、結合の大きさは、糖質結合分子によって認識されるあらゆる可能な糖鎖モチーフのプロファイルに変換される(図1D、図24)。このプロファイルは、糖質結合分子のプロファイルを結果として与えるあらゆる可能な糖鎖プロファイルにマッピングされる。次いで、分析方法によって、あらゆる可能な糖鎖プロファイルを検索して、先の訓練用データおよび/または他の関連試料間の類似性に基づいて最も可能性の高いプロファイルを特定する(図1E)。この検索は、既知の糖鎖プロファイルから訓練された、凸最適化、機械学習、および/または人工知能をもとにした手法を使用して実行することができる。したがって、本発明は、対応する治療を必要とする対象のその治療を目的とした分析的調査研究ツールおよび診断として使用される方法およびシステムを提供する。
図1A~1E。バルク試料、単一細胞、または固定化分子の糖質結合分子プロファイルの生成。(図1A)細胞、組織、タンパク質、脂質、または糖鎖の概略図であり、すべて糖鎖を表している。測定されることなる糖鎖は、組織、単一細胞、タンパク質試料(ビーズまたは表面上に捕捉されたタンパク質など)、脂質ミセル、固定化タンパク質、糖鎖、またはその他の分子の上に存在し得る。(図1B)糖鎖モチーフは、糖質結合分子、例えばレクチン、レクテンズ、抗体、ナノボディ、アプタマー、低分子化合物を結合させることによって特定することができる。(図1C)糖質結合分子は、糖鎖を検出するために並行してまたは順次に試料に適用することができ、この場合、分子は標的の糖鎖エピトープと結合することになる。分子は、顕微鏡法またはFACSを使用するフルオロフォア検出、糖質結合分子に付着した化学部分(例えば、ストレプトアビジンを使用して検出されるビオチン(非特許文献59))、シーケンシング、qPCR、ヌクレオチドプローブなどを使用して検出し定量化できる糖質結合分子に付着したヌクレオチドバーコード(非特許文献55)などの方法を使用して検出できる属性を有することになる(図1D)。糖質結合分子は、バルクのままブロット上やマイクロウェル内で(非特許文献55)、液滴で(非特許文献52,56)、試料に直接適用したり、または試料がマイクロ流体装置に格納されている場合には試料上に流したり(非特許文献54)することができ、これは本明細書に示されるとおりである。結合させた時点で、結合の強さを検出することができ、次いで、結合分子を、マンノース、遊離オリゴ糖、または他の分子など、糖質結合分子を除去することになる遊離模倣分子を用いて糖鎖から溶出させる。結合と溶出は、結合強度の所望のプロファイルが得られるまで反復される(棒グラフの各バーは、各糖質結合分子の結合強度を表す)か、またはシグナルを(例えば、次世代シーケンシングを用いて)デコンボリュートできる場合には、すべてのプローブを同時に加えてアッセイを行うことができる。(図1E)結合プロファイルは、次いで、訓練用データセットを用いる本明細書に記載の方法を使用して分析されて、試料中の個々の糖鎖構造を定量化する糖鎖プロファイルが得られる。 図2。エリスロポエチン(または指定された場合はIgG)を発現するCHO細胞のバルクN-グライコミクス。CHO細胞(野生型またはN型糖鎖形成に関与する遺伝子のノックアウト)に発現したEPO(またはIgG)の糖鎖プロファイリング(非特許文献60)。各プロットは、変異CHO細胞株から得られたデータを表し、CHO細胞株からノックアウトされた遺伝子は、プロットの標題のところに指定されている。ピークは、ペプチド-N-グリコシダーゼ-Fで遊離されたペルメチル化N型糖鎖のMALDI-TOFスペクトルを表す。y軸は、示されたN型糖鎖のm/zの相対存在量を表す。 図3。EPOまたはIgGを発現するCHO細胞のシミュレートされたバルクのレクチンプロファイル。レクチンプロファイルは、図2からのデータについて各パネルの標題のところに指定された遺伝子改変を伴う、CHO細胞のバルクN-グライコミクスから得られた13とおりのレクチン(表1)を用いて、シミュレートされている。y軸は、示されたレクチンの強度を表す。 図4A~4E。 レクチンプロファイルから再構成されたバルク糖鎖プロファイルの性能。(図4A)対応するレクチンプロファイル(図3)から再構成されたバルク糖鎖プロファイルの性能(R)。(図4B~E)二つの選択された良好な性能の糖鎖プロファイルである、Mgat2、St3gal4/6多重KO(図4B)、およびSt3gal4シングルKO(図4C)と、二つの選択された悪い性能の糖鎖プロファイルである、B4galt1シングルKO(図4D)、およびSt3gal6シングルKO(図4E)についての、糖鎖の予測対実験のプロット。再構成性能を「良い」または「悪い」とする場合の基準は、R=0.75である(グレースケールの赤色の破線で示される)。 図5A~5B。単一細胞レクチンプロファイルから再構成された単一細胞糖鎖プロファイルの性能。(図5A)事前知識に基づいて単一細胞糖鎖プロファイルを再構成する最適化法の解空間の概略図:集団糖鎖プロファイル「a」、調べられた単一細胞糖鎖プロファイル「b」、および予測された単一細胞糖鎖プロファイル「c」。(図5B)対応するレクチンプロファイルから再構成された単一細胞糖鎖プロファイルの平均性能(R)。エラーバーは、100個の単一細胞の再構成性能の標準偏差を表す。 図6A~6C。解空間の特性評価。(図6A)解空間の概略図および解空間を特性評価するための密度プロット。「dbc」(グレースケールの赤色の破線)は、実際の単一細胞糖鎖プロファイル「b」と、予測された単一細胞糖鎖プロファイル「c」との間の距離(自乗誤差)を示す。「dac」(グレースケールの青色の破線)は、平均的な集団糖鎖プロファイル「a」と、予測される単一細胞糖鎖プロファイル「c」との間の距離(自乗誤差)を示す。「ag」は、調べられた単一細胞糖鎖プロファイル「b」とレクチンプロファイルを共有する代替の単一細胞糖鎖プロファイルを示す。(図6B~6C)B4galt1(図6B)およびSt3gal6(図6C)のシングルKOの二つの単一細胞糖鎖プロファイルの例。 図7。摂動を伴う単一細胞糖鎖プロファイル再構成の平均性能。各ドットは、レクチンプロファイルにノイズを加え(すなわち、各レクチンについてシグナルの0%~50%の変動を加え)、単一細胞糖鎖プロファイルの多様性を高めた(25%~800%の変動)後での、全36とおりの異なるKO CHOクローンについての単一細胞からの糖鎖プロファイルの平均再構成性能(R)を表す。エラーバーは再構成性能の標準偏差を表す。 図8。単一細胞糖鎖組成に摂動を加え、レクチン結合プロファイルにノイズを加えた後でのB4galt1 KOの解空間の特性評価。(上パネル)ここでの例は、25%の糖鎖プロファイル摂動と0%のレクチン結合ノイズとを伴うB4galt1 KOからのクローンについて、予測された単一細胞糖鎖プロファイルが実際の単一細胞糖鎖プロファイルにどれだけ近いかを示す。グレースケールの赤色の破線は、調べられた単一細胞糖鎖プロファイル「b」と予測された単一細胞糖鎖プロファイル「c」との間の「dbc」距離を示す。グレースケールの青色の破線は、集団糖鎖プロファイル「a」と、予測される単一細胞糖鎖プロファイル「c」との間の「dac」距離を示す。密度分布は、調べられた単一細胞糖鎖プロファイル「b」とレクチンプロファイルを共有する単一細胞糖鎖プロファイルのあらゆる代替解を表す。(下パネル)糖鎖プロファイルの摂動(25%から800%)とレクチン結合の摂動(0%から50%)のもとでのB4galt1 KOの特性評価された解空間。阻害シグナルは、表示された糖鎖プロファイルとレクチン結合の摂動(例えば、800%の糖鎖プロファイル摂動と0%のレクチン結合摂動)のもとで、単一細胞糖鎖プロファイルの再構成が良好でない(予測された糖鎖プロファイルと実験により測定された糖鎖プロファイルとの間の自乗誤差が大きい)ことを意味する。本明細書で使用されるすべての表記は、図6A~6Cで定義されたものと同じであることに留意されたい。 図9A~9C。野生型CHO細胞についての単一細胞分析結果。(図9A)野生型クローンについて推定された100とおりの異なる単一細胞糖鎖型の三次元表現である。各ドットは、UMAPを使用してそれらの糖鎖型を次元削減した単一細胞糖鎖プロファイルを示す。三つの次元は三つのUMAP成分を表す。グレースケールの赤色の円で囲まれたドットはすべて、Dim1のスコアが低く、グレースケールの青色の円で囲まれたドットはすべて、Dim2のスコアが高い。グレースケールの赤色/青色の矢印は、Dim3の最高値からDim3の最低値に向かって引かれている。グレースケールの色はDim3の値を表す。(図9B)野生型クローンの対象の単一細胞糖鎖プロファイル(パネルAの赤色の矢印で示されたドットのもの)の特徴的な解空間を示す例であり、レクチンプロファイルに合う可能性のあるほとんどのプロファイルよりも、予測された糖鎖プロファイルが実際の糖鎖プロファイルに実質的に近いことを示している。(図9C)(図9B)の単一細胞糖鎖プロファイルのレクチンプロファイルに合う可能性のある糖鎖プロファイル:真の糖鎖プロファイル、予測された糖鎖プロファイル、および解空間における五つの極めて異なる糖鎖プロファイル(コーナー#1~#5)。 図10A~10B。Mgatファミリー糖転移酵素ノックアウトCHO細胞についてのジョイント・クローン分析(Joint-clone analysis)結果。(図10A)Mgatファミリー糖転移酵素ノックアウトCHO細胞についてジョイント・クローン分析結果であり、異なる次元削減方法:(a)t-SNE、(b)PCA、および(c)UMAPを使用して処理されたもの。各ドットは、表示された次元削減方法によって変換された単一細胞糖鎖プロファイルを表し、グレースケールの色はクローンの遺伝子型を示す(それぞれ特定の(単一または複数の)糖転移酵素のノックアウトを有する)。(図10B)対象の単一細胞糖鎖プロファイルの六つの例であり、それらの真の糖鎖プロファイルおよび予測された糖鎖プロファイルとともに示されている。これらの例は、Mgatファミリー糖転移酵素ノックアウトCHO細胞の表示されたクローン:(a)WT、(b)Mgat4A、(c)Mgat4B、(d)Mgat4A/4B、(e)Mgat5、および(f)Mgat4A/4B/5から無作為に選択される。 図11。所望の糖鎖形成を有するプロモーターについてのスクリーニング。プラットフォームは、所望の糖鎖形成を提供する遺伝子要素についてのスクリーニングに使用することができる。発現を調節する異なる遺伝子要素および/または一つもしくは複数の遺伝子の異なる遺伝子アイソフォームを有するコンストラクトを、対象の細胞に(一時的に、または本明細書で示されるとおり安定な一体化を使用して)トランスフェクトすることができる。次いで、単一細胞の糖鎖形成をプロファイリングして、所望の糖鎖形成を有するクローンを特定することができる。 図12。TP摂動を伴う糖鎖プロファイル再構成の性能。対応するレクチンプロファイルから再構成された単一細胞糖鎖プロファイルの平均性能(R)であり、TPに10%の変動を導入することにより単一細胞糖鎖プロファイルを生成させたものである(「方法」を見られたい)。エラーバーは、100個の単一細胞の再構成性能の標準偏差を表す。 図13a~13c。事前データを使用した正しい糖鎖プロファイルの特定。各レクチン結合パターンは、非常に広範囲の糖鎖プロファイルを表し得る。事前データはいくつかの形式をとり得る。(図13a)本明細書に記載される技術を使用して糖鎖プロファイルのランを実行する前に、質量分析法および/またはHPLCを使用してバルク試料の糖鎖プロファイリングを行って特定の糖鎖構造を定量化することができる。これらのデータは、個々の細胞について最も可能性の高いプロファイルを見つけるための事前データとして使用される。(図13b)あらゆる単一細胞レクチンプロファイルを取得し、あらゆる細胞間で互いに最も類似している糖鎖プロファイルを特定することによって、この事前データは回避することができる。具体的には、各単一細胞レクチンプロファイルについて、各レクチンプロファイルについてのあらゆる糖鎖プロファイルの空間を同時に分析して、セントロイド点(すべての糖鎖空間の間の黒点)に最も類似する糖鎖プロファイルを特定することができる。(図13c)事前データは、訓練用データから得ることができる。糖鎖形成への、および/または個々のそして組み合わせの遺伝子摂動から生じるプロファイルを表すそれらの細胞から分泌されるタンパク質への多様な摂動を伴う細胞のライブラリーを使用することができる。これらは、糖質結合分子、ならびに質量分析法および/またはHPLCを用いてプロファイリングされる。これらのデータは、次いで、所与のレクチンプロファイルについて最も可能性の高い糖鎖プロファイルを見つけるのに使用される。具体的には、ニューラルネットワークなどの機械学習アルゴリズムを使用して、所与の種についていずれかの所与のレクチンプロファイルから糖鎖プロファイルを予測することができる。 図14。事前のバルク糖鎖プロファイルを用いない糖鎖プロファイル再構成の性能。(上)セントロイド糖鎖プロファイルに基づいて単一細胞糖鎖プロファイルを再構成する最適化法の解空間の概略図:セントロイド糖鎖プロファイル(グレースケールの黒色)、調べられた単一細胞糖鎖プロファイル(グレースケールの赤色)、および予測された単一細胞糖鎖プロファイル(グレースケールの紫色)。(下)レクチンプロファイルから再構成された単一細胞糖鎖プロファイルの平均性能(R)。エラーバーは、100個の単一細胞の再構成性能の標準偏差を表す。 図15A~15D。ニューラルネットワークを使用した糖鎖プロファイル再構成の性能。(図15A)ニューラルネットワークに基づいて単一細胞糖鎖プロファイルを予測する方法のフレームワークの概略図:レクチンプロファイル(入力;グレースケールの緑色)、予測された単一細胞糖鎖プロファイル(出力;グレースケールの橙色)、および二層の隠れ層(グレースケールのグレースケールの影付き)とニューロン(グレースケールの黄色のノード)とを有するニューラルネットワーク。(図15B)異なるニューラルネットワーク構造(層数とニューロン)を使用した、対応するレクチンプロファイルからの単一細胞糖鎖プロファイル予測の性能(R)の箱ひげ図。各箱は、表示されたトポロジーを有する100とおりの無作為のニューラルネットワークの10-fold交差検証の性能を表す。(図15C)最良性能のニューラルネットワーク(三層の隠れ層と各層に20個のニューロン)について、予測された糖鎖存在量に対する実験による糖鎖存在量の散布図。(図15D)ここで使用された入力データについて最良性能のニューラルネットワークの相対的なレクチン重要度である。 図16。レクチンノイズ下でのモデル頑健性。レクチン結合プロファイルにノイズを加えることによりモデルの頑健性を評価して、レクチン測定において20%のノイズありで高い正確度の糖鎖プロファイルを予測し続けることが分かった。 図17。EPOで学習させたANNは、高い正確度でIgG糖鎖プロファイルを予測し、実際のMALDI測定を再現した。 図18A~18B。FACSを使用したレクチンプロファイリング。(図18A)FACS用実験設定は、磁気ビーズ上に固定化された様々なモデル糖タンパク質上にフルオレッセイン標識レクチンを適用することからなり、(図18B)フルオレッセイン-SNAを用いた予備結果は、フェツインB(Fetuin B)、SARS CoV-2スパイクタンパク質、および空のビーズの間で差次的なシアル酸シグナルを識別している。 図19a~19b。バーコード設計およびレクチンへの結合。(図19a)糖鎖シーケンシングを実施する一つの手法は、DNAバーコード付きレクチンのパネルを使用することである。DNAは、各レクチンに固有の無作為の配列、アンプリコンプライマー部位、ポリa鎖領域、NGSライブラリーアダプター配列を含んでいる。(図19b)DNAバーコードは、NHS化学によってレクチンをマレイミド基で官能化させることによって、レクチンに付加させることができる。マレイミド基とNHS基の間にPEG分子をスペーサーとして配置して、立体的な効果を低減させることができる。得られたマレイミドレクチンは、次いでチオール-マレイミドのクリックケミストリーによって、チオール基含有オリゴマーと結合される。 図20。本技術の実施と妥当性検証のためのパイプライン。いずれかの所与の試料について、レクチン結合パターンに基づいて糖鎖プロファイルを再構成するために、レクチン結合プロファイルが測定され、糖鎖シーケンシングモデルに投入されて、事前データを使用して訓練されることになる。これを、妥当性検証のため、質量分析法で測定された糖鎖プロファイルと比較することができる。この手法を用いて、リツキシマブ(Rituximab)とフェツインBでの本技術の妥当性検証を行った。 図21。訓練用データセット試料のサブセットは、リツキシマブとフェツインBについて公開されたプロファイルと類似の糖鎖プロファイルを示した。あらゆる訓練用試料を、リツキシマブおよびフェツインBの公開された糖鎖プロファイルと比較した。0.6より大きいピアソンの相関を示したのは、わずか数例のみであった。 図22。測定されたレクチン結合プロファイルは、シミュレートされたレクチン結合プロファイルに類似していた。リツキシマブとフェツインBのレクチン結合プロファイルを、質量分析法による糖鎖プロファイルに基づいて、予想されたレクチン特異性を使用してシミュレーションした(左)。同時に、リツキシマブとフェツインBにフルオレッセイン標識レクチンを使用してELISAを行った。実測の、そしてシミュレートされたレクチン結合プロファイルは非常に類似していることが見出された(右)。 図23。実験により測定されたレクチン結合プロファイルを、学習させたANNを用いて解釈し、実際の糖鎖プロファイルを予測することができる。レクチンプロファイルをANNに投入し、(A)リツキシマブと(C)フェツインBの糖鎖プロファイルを再構成した。最も情報量の多い訓練用試料をANNの訓練から外すと、予測性が弱くなった(B、D)。*ポリシアル酸は訓練用データに含まれていないので、ここで採用されたモデルではこれらの糖鎖を予測することができなかった。さらなる訓練用データにより、それらの予測が可能になるであろう。 図24。この技術は、標準的な次世代シーケンシングプラットフォームを使用して、バルクおよび単一細胞レベルでのグライコームの「シーケンシング」に使用することができる。オリゴヌクレオチドまたは他のヌクレオチドを使用するプローブと結合した糖質結合タンパク質を、細胞、または糖タンパク質、または他の糖質試料に結合させることができる。これらの試料は、単一細胞をソートしたものか、またはバルク試料中で扱われたものかのいずれかとすることができる。試料は、プローブおよび試料中の他のヌクレオチド(例えば、DNA、RNA)のシーケンシング用に調製することができる。プローブは、シーケンシングリードの存在量によって定量化することができ、そして本明細書に記載されたモデルに投入されて、対象の試料の糖鎖プロファイルを再構成することができる。
本明細書で言及されるすべての公開文献、特許、および特許出願は、あたかも個別の公開文献、特許、または特許出願が具体的かつ個別に参照により組み込まれたものとして示されているかの如く、同程度にまで参照により本明細書に組み込まれる。
他に定義されていない限り、本明細書で使用されるあらゆる技術的および科学的用語、ならびにいずれの略語も、本発明の分野における当業者によって一般的に理解されているものと同じ意味を有する。本明細書に記載されるものと類似または均等ないずれの方法および材料をも、本発明の実施に使用することができるが、本明細書には、例示的な方法、装置、および材料を記載する。
本明細書に記載される少なくとも一実施形態の実施は、特に指示のない限り、当技術分野の範囲内にある分子生物学(組換え技術を含む)、微生物学、細胞生物学、生化学、および免疫学の従来技術を採用することになる。このような技術は、文献、例えばMolecular Cloning: A Laboratory Manual, 2nd ed. (Sambrook et al., 1989);Oligonucleotide Synthesis (M. J. Gait, ed., 1984);Animal Cell Culture (R. I. Freshney, ed., 1987);Methods in Enzymology (Academic Press, Inc.);Current Protocols in Molecular Biology (F. M. Ausubel et al. eds, 1987、および定期更新);PCR: The Polymerase Chain Reaction (Mullis et al., eds., 1994);Remington, The Science and Practice of Pharmacy, 20th ed., (Lippincott, Williams & Wilkins 2003)、およびRemington, The Science and Practice of Pharmacy, 22th ed., (Pharmaceutical Press and Philadelphia College of Pharmacy at University of the Sciences 2012)に完全に記載されている。
本明細書で使用されるとおり、用語「を含んでなる」、「を含んでなっている」、「を含む」、「を含んでいる」、「を有する」、「有している」、「を含有する」、「を含有している」、「を特徴とする」、またはそれらの他の変形例は、他に明示的に示される限定を条件として、言及された構成成分を非排他的に含むことを包含していることが意図される。例えば、構成要素(例えば、構成成分、特徴、またはステップ)の列挙を「含んでなる」融合タンパク質、医薬組成物、および/または方法は、必ずしもそれらの構成要素(または構成成分またはステップ)のみに限定されず、むしろ、明示的に列挙されていないまたはその融合タンパク質、医薬組成物、および/または方法に固有の、他の構成要素(または構成成分またはステップ)を含んでいてもよい。
本明細書で使用されるとおり、移行句「からなる」および「からなっている」は、指定されていないいずれの構成要素、ステップ、または構成成分をも除外する。例えば、請求項において使用される「からなる」または「からなっている」は、請求項を、その請求項に具体的に記載された構成成分、材料、またはステップに、それらに通常付随する不純物(すなわち、所与の構成成分内の不純物)を除いて限定することになり得る。句「からなる」または「からなっている」が、前文の直後ではなく、請求項の要部の項に現れる場合には、句「からなる」または「からなっている」は、その項に規定された構成要素(または構成成分またはステップ)のみを限定し、他の構成要素(または構成成分)は、その請求項全体からは除外されない。
本明細書で使用されるとおり、移行句「から本質的になる」および「から本質的になっている」は、材料、ステップ、特徴、構成成分、または構成要素を含む融合タンパク質、医薬組成物、および/または方法を、文字通り開示されているものに加えて画定するために使用されるが、ただし、これらの追加の材料、ステップ、特徴、構成要素、または要素が、特許請求される発明の基本的なそして新規の特徴に実質的に影響しないことが条件である。用語「から本質的になる」は、「を含んでなる」と「からなる」の中間的な位置を占める。
本発明またはその好ましい実施形態の構成要素を紹介する場合には、冠詞「a」、「an」、「the」、および「前記」は、その構成要素が一つまたは複数存在することを意味することが意図される。用語「を含んでなる」、「を含む」、および「を有する」は、包括的であることが意図されており、列挙された構成要素以外の追加の構成要素が存在してもよいことを意味する。
二つ以上の項目の列挙において使用される場合の用語「および/または」は、列挙された項目のうちのいずれか一つが、それ自体で、または列挙された項目のうちのいずれか一つまたは複数と組み合わせて採用され得ることを意味する。例えば、表現「Aおよび/またはB」は、AおよびBのいずれかまたは両方、すなわちA単独、B単独、またはAおよびBの組み合わせを意味することが意図される。表現「A、B、および/またはC」は、A単独、B単独、C単独、AおよびBの組み合わせ、AおよびCの組み合わせ、BおよびCの組み合わせ、またはA、B、およびCの組み合わせを意味することが意図される。
本明細書に記載される本発明の態様および実施形態は、態様および実施形態「からなる」および/または「から本質的になる」ことを含むと理解される。
範囲の形式での記載は、単に便宜上および簡潔さのためのものであると理解されるのが望ましく、本発明の範囲に課される杓子定規の限定として解釈されないのが望ましい。したがって、範囲の記載は、その範囲内の個々の数値のみならず、あらゆる可能な部分範囲を具体的に開示したものと見なされるのが望ましい。例えば、1から6という範囲の記載は、1から3、1から4、1から5、2から4、2から6、3から6などの部分範囲のみならず、その範囲内の個々の数値、例えば1、2、3、4、5、および6を具体的に開示したものと解釈されるのが望ましい。これは、範囲の広さに関係なく当てはまる。値または範囲はまた、本明細書では、「約」一つの特定の値からの、および/または「約」別の特定の値までの「約」として表現される場合がある。そのような値または範囲が表現されている場合には、開示された他の実施形態は、一つの特定の値からの、および/または他の特定の値までの、言及された特定の値を含む。同様に、値が近似値として表現される場合、先行詞「約」を使用することにより、その特定の値が別の実施形態を形成することは理解されよう。さらに、そこに開示された複数の値があること、および各値が、その値自体に加えて、「約」その特定の値としても本明細書に開示されることは理解されよう。実施形態では、「約」は、例えば、言及された値の10%以内、言及された値の5%以内、または言及された値の2%以内を意味するのに使用することができる。
本明細書で使用される用語「抗体」は、標的抗原部位およびその対象のアイソフォームに結合するという所望の生理活性を、モノクローナル抗体(完全長モノクローナル抗体を含む)、ポリクローナル抗体、多重特異性抗体(例えば、二特異性抗体)および抗体断片が示す限り、これらを包含する。用語「抗体断片」は、全長の抗体の一部、概してその抗原結合領域またはその可変領域を含んでなる。本明細書で使用される用語「抗体」は、ヒト抗体、ラット抗体、マウス抗体、ウサギ抗体などを含むがこれらに限定されない、いずれかの種および資源に由来するいずれかの抗体を包含し、合成により作られたもの、または天然に存在するものとすることができる。
本明細書で使用される用語「モノクローナル抗体」は、実質的に均質な抗体の集団から得られた抗体を指し、これはすなわち、集団を含んでなる個々の抗体が、少量で存在してもよい自然発生の可能な変異を除いて同一であるということである。モノクローナル抗体は高度に特異的であり、単一抗原部位に対するものである。さらに、異なる決定基(エピトープ)に対するものである異なる抗体を典型的には含む従来の(ポリクローナル)抗体製剤とは対照的に、各モノクローナル抗体は、抗原上の単一決定基に対するものである。「モノクローナル抗体」はまた、当技術分野で公知の技術を使用してファージ抗体ライブラリーから単離してもよい。
本明細書におけるモノクローナル抗体には、キメラ」抗体(免疫グロブリン)が含まれ、これらの抗体では、重鎖および/または軽鎖の一部が、特定の種に由来する、または特定の抗体クラスもしくはサブクラスに属する抗体における、対応する配列と同一または相同である一方で、そうした鎖の残りが、別の種に由来する、または別の抗体クラスもしくはサブクラスに属する抗体のみならずそうした抗体の断片における、対応する配列と、これらが所望の生理活性を示す限り同一または相同である。本明細書で使用されるとおり、「キメラタンパク質」または「融合タンパク質」は、第1のポリペプチドが第2のポリペプチドに作動可能に連結されたものを含んでなる。キメラタンパク質は随意に、第1または第2のポリペプチドに作動可能に連結された第3、第4、もしくは第5の、または他のポリペプチドを含んでなっていてもよい。キメラタンパク質は、二つ以上の異なるポリペプチドを含んでなっていてもよい。キメラタンパク質は、同じポリペプチドの複数のコピーを含んでなっていてもよい。また、キメラタンパク質は、一つまたは複数のポリペプチドに一つまたは複数の変異を含んでなっていてもよい。キメラタンパク質の製造方法は、当技術分野で公知である。
「単離された」抗体は、その自然環境の構成成分から、特定、分離、および/または回収されたものである。その自然環境の混入構成成分は、抗体についての診断用途と干渉する可能性のある材料であり、酵素、ホルモン、および他のタンパク質性または非タンパク質性溶質を含む場合がある。好ましい実施形態では、抗体は、(1)ローリー(Lowry)法によって決定される95重量%より、そして最も好ましくは99重量%より高い量にまで、(2)スピニングカップシーケネーター(spinning cup sequenator)の使用によってN末端または内部アミノ酸配列の少なくとも15残基を得るのに充分な程度にまで、または(3)クーマシーブルー(Coomassie blue)または好ましくは銀染色を用いた、還元または非還元条件下でのSDS-ポリアクリルアミドゲル電気泳動による均質性にまで、精製されることになる。単離された抗体は、抗体の自然環境の少なくとも一つの構成成分が存在しないことになるので、組換え細胞内のインサイチュでの抗体を含む。しかし通常、単離された抗体は、少なくとも一つの精製ステップによって調製されることになる。
本開示の一つまたは複数の実施形態は、以下によるシステムおよび方法を記載する場合がある:
項1. 試料中の糖鎖形成を測定する方法であって:
a. 二つ以上の糖質結合分子と試料を、並行してまたは順次にインキュベートすることと;
b. 二つ以上の糖質結合分子の結合強度を定量化することと;
c. 結合強度を、二つ以上の糖質結合分子によって認識される可能な糖鎖モチーフの糖質結合分子プロファイルに変換することと;
d. 可能な糖鎖モチーフの糖質結合分子プロファイルを、糖質結合分子プロファイルから生じ得る複数の可能な糖鎖プロファイルにマッピングすることと;
e. 複数の可能な糖鎖プロファイルを検索して、先の訓練用データ、および/または他の関連試料間の類似性に基づいて糖鎖プロファイルを特定することと;
f. 特定された糖鎖プロファイルを分析することと、
を含んでなる方法。
項2. 複数の可能な糖鎖プロファイルを検索することが、複数の可能な糖鎖プロファイルから最も可能性の高い糖鎖プロファイルを予測するように訓練されたニューラルネットワークを使用することを含んでなる、項1に記載の方法であって、ニューラルネットワークが、少なくとも:
i. 糖タンパク質に基づいてレクチンプロファイルを決定することと;
ii. 複数の可能な糖鎖プロファイルに基づいて、近似されたレクチンプロファイルをシミュレートすることと;
iii. 近似されたレクチンプロファイルに基づいて、予測される糖鎖プロファイルを決定することと;
iv. 糖タンパク質に基づいて、実際の糖鎖プロファイルを決定することと;
v. 予測された糖鎖プロファイルと、実際の糖鎖プロファイルとの比較に基づいて、ニューラルネットワークの一つまたは複数の重みを更新することと、
によって決定される一つまたは複数の重みを含んでなる方法。
項3. ニューラルネットワークが、糖鎖プロファイルへのレクチンプロファイルのマッピングを含んでなる訓練用データセットを用いて訓練され、訓練用データセットのレクチンプロファイルが:ソラヌム・ツベロスム・レクチン(Solanum Tuberosum Lectin)(STL)、ガレクチン-7、トリチクム・ウンルガリ(Triticum unlgari)(WGA)、アスペルギルス・オリザエ(Aspergillus oryzae)(AOL)、リキヌス・コムニスI(Ricinus communis I)(RCA120)、およびファセオルス・ブルガリス・エリスロアグルチニン(Phaseolus vulgaris Erythroagglutinin)(PHA-E)を含んでなる、項2に記載の方法。
項4. ニューラルネットワークが三層の隠れ層からなる、項2~3のいずれか一項に記載の方法。
項5. 試料が、組織、細胞、生体分子、オリゴ糖、または多糖を含んでなる、項1~4のいずれか一項に記載の方法。
項6. 糖質結合分子が、糖質または糖質含有化合物を検出できる天然分子または合成分子を含んでなる、項1~5のいずれか一項に記載の方法。
項7. 糖質結合分子が、レクチン、レクテンズ、抗体、ナノボディ、アプタマー、または酵素を含んでなる、項1~6のいずれか一項に記載の方法。
項8. 結合強度が、蛍光顕微鏡法、免疫組織化学、FACS、ビオチン-ストレプトアビジン、ヌクレオチドシーケンシング、またはオリゴヌクレオチドアニーリングを使用して検出される、項1~7のいずれか一項に記載の方法。
項9. 一つまたは複数の糖鎖プロファイルを検索して糖鎖プロファイルを特定することが、既知のまたは予測された糖鎖プロファイルから訓練された、凸最適化、機械学習、および/または人工知能を実行することを含んでなる、項1~8のいずれか一項に記載の方法。
項10. 凸最適化を実行することが:

の最小化を、

の条件のもとで行うことに基づく凸最適化問題であって、
a. ここで:
i. n:単一細胞糖鎖プロファイルの数;
ii. G:未知の糖鎖プロファイルの第1の行列;
iii. GPbulk:集団糖鎖プロファイルを有するベクトル;
iv. LGmap:レクチンと糖鎖の間の結合特異性を表す第2の行列;
v. LP:出発時の単一細胞レクチンプロファイルを表す第3の行列;および
vi. GPgk,i:糖鎖プロファイルkにおける糖鎖iのシグナル強度、
である凸最適化問題を最小化することを含んでなる、項1~9のいずれか一項に記載の方法。
11項. 凸最適化を実行することが:

の最適化を、

の条件のもとで行うことに基づく凸最適化問題であって、
a. ここで:
i. n:単一細胞糖鎖プロファイルの数;
ii. GP:未知の糖鎖プロファイルの第3の行列;
iii. LGmap:レクチンと糖鎖の間の結合特異性を表す第2の行列;
iv. LP:出発時の単一細胞レクチンプロファイルを表す第3の行列;および
v. GPgk,i:糖鎖プロファイルkにおける糖鎖iについてのシグナル強度、
である凸最適化問題を最小化することを含んでなる、項1~9のいずれか一項に記載の方法。
項12. 既知の糖鎖プロファイルから訓練された機械学習をもとにした手法を使用する再構成法が、レクチンノイズのもとで頑健であり、異なるモデルタンパク質、細胞、または他の生物学的試料に一般化できる、項1~11のいずれか一項に記載の方法。
項13. 測定が、表面に結合した多くの糖鎖もしくは糖鎖複合体、または細胞上の糖鎖、または生物学的組織もしくは試料の上の糖鎖からなる試料上で行われる、項1~12のいずれか一項に記載の方法。
項14. 測定が、単一細胞レベルまたは単一細胞からの産物で行われ、細胞のアッセイが、マイクロ流体チップ、または液滴、または単一細胞分子分析用の他のアッセイ上でなされる、項1~13のいずれか一項に記載の方法。
項15. 最も可能性の高い糖鎖プロファイルを分析することが、主成分分析(PCA)、一様多様体近似および射影(UMAP)、またはt分布型確率的近傍埋め込み法(t-SNE)を実行することを含んでなる、項1~14のいずれか一項に記載の方法。
項16. 複数の可能な糖鎖プロファイルを検索して糖鎖プロファイルを特定することが:

の最大化を、

の条件のもとで行うことに基づく目的関数であって、
ここで:
GPgk,p:糖鎖プロファイルkにおけるグリカンpのシグナル強度;
:0から1の間で無作為に生成された値;
LPk,j:糖鎖kとレクチンjについてのレクチン結合プロファイル;
LPgi,j:糖鎖iとレクチンjについてのレクチン結合プロファイル;p, q:無作為に選択された指標、
である目的関数を計算することを含んでなる、項1~15のいずれか一項に記載の方法。
項17. プロセッサと、コンピュータ実行可能な命令を記憶するメモリとを含んでなるシステムであって、計算機実行可能命令が、プロセッサによる実行の結果として、システムに:
a. 二つ以上の糖質結合分子とともに並行してまたは順次にインキュベートされた試料の結合強度を定量化することと;
b. 結合強度を、二つ以上の糖質結合分子によって認識される可能な糖鎖モチーフの糖質結合分子プロファイルに変換することと;
c. 可能な糖鎖モチーフの糖質結合分子プロファイルを、糖質結合分子プロファイルから生じ得る複数の可能な糖鎖プロファイルにマッピングすることと;
d. 複数の可能な糖鎖プロファイルを検索して、先の訓練用データおよび/または他の関連試料間の類似性に基づいて糖鎖プロファイルを特定することと;
e. 特定された糖鎖プロファイルを分析することと、
を実行させるシステム。
項18. 複数の可能な糖鎖プロファイルを検索する命令が、複数の可能な糖鎖プロファイルから最も可能性の高い糖鎖プロファイルを予測するように訓練されたニューラルネットワークを使用する命令を含んでなり、ニューラルネットワークが:
i. 糖タンパク質に基づいて、レクチンプロファイルを決定するステップと;
ii. 複数の可能な糖鎖プロファイルに基づいて、近似されたレクチンプロファイルをシミュレートするステップと;
iii. 近似されたレクチンプロファイルに基づいて、予測される糖鎖プロファイルを決定するステップと;
iv. 糖タンパク質に基づいて、実際の糖鎖プロファイルを決定するステップと;
v. 予測された糖鎖プロファイルと実際の糖鎖プロファイルとの比較に基づいて、ニューラルネットワークの一つまたは複数の重みを更新するステップと、
を含む訓練過程によって決定される一つまたは複数の重みを含んでなる、項17に記載のシステム。
項19. ニューラルネットワークが、糖鎖プロファイルへのレクチンプロファイルのマッピングを含んでなる訓練用データセットを使用して訓練され、訓練用データセットのレクチンプロファイルが:ソラヌム・ツベロスム・レクチン(Solanum Tuberosum Lectin)(STL)、ガレクチン-7、トリチクム・ウンルガリ(Triticum unlgari)(WGA)、アスペルギルス・オリザエ(Aspergillus oryzae)(AOL)、リキヌス・コムニスI(Ricinus communis I)(RCA120)、およびファセオルス・ブルガリス・エリスロアグルチニン(Phaseolus vulgaris Erythroagglutinin)(PHA-E)を含んでなる、項18に記載のシステム。
項20. ニューラルネットワークが三層の隠れ層からなる、項18に記載のシステム。
高分解能の糖鎖構造については、レクチンプロファイルから直接情報を得ることができない
MSを用いた現状の糖鎖プロファイリング法(非特許文献38,39)は、糖鎖の明確な原子レベルの構造を提供できるが、依然として非常に高価で時間がかかり、高スループットの単一細胞アッセイに使用することはできない。対照的に、レクチン結合を用いる方法(非特許文献50、53)(または他の糖質結合分子の使用)は、高スループットのアッセイにさらに適しているが、タンパク質結合のプロファイルを表すだけであり、試料中の糖鎖構造を高分解能で測定することはできない。これらの二つの対照的な方法を組み合わせて、それらの利点、つまり手頃な価格で信頼性が高く、高スループットで、糖鎖の原子レベルの構造が明確な糖鎖プロファイリングによって互いの欠点を補う新規の糖鎖プロファイリング法を開発できるかどうかは明らかでない。
本明細書に記載される少なくとも一実施形態は、実験により測定されたレクチンプロファイルからMSと同様な糖鎖プロファイルを再構成することを可能にする方法を提示する。理論的には、この問題は、行列演算問題(LGmap * GP = LP;詳細は「方法」を見られたい)として定式化できる。レクチンの適切なセット(LGmap)が選択されれば、糖鎖プロファイル(GP)は、実験によるレクチンプロファイル(LP)から式:

を解くことによって再構成される可能性がある。このことは、一般に入手できる36とおりの糖鎖改変チャイニーズハムスター卵巣(Chinese Hamster Ovary)(CHO)細胞(非特許文献57)の糖鎖プロファイル(図2)を調べることにより、そしてこれらの糖鎖プロファイルについてレクチンプロファイル(図3)をシミュレートすることにより、検証してもよい(詳細は「方法」を見られたい)。この分析では、13とおりのN型糖鎖の構造的特徴が選択された(表1)が、その中には36とおりの差次的に糖鎖改変されたCHO細胞株の集団糖鎖プロファイル中に存在するN結合型糖鎖へのレクチンのマッピングが含まれる。図4Aは、上に提案された方法を使用して糖鎖プロファイルを再構築した結果を示している。一般的にいえば、実験により測定されたシグナルと比較された予測された質量分析シグナルについては、全体の三分の一を超える(13/36)の糖鎖プロファイルがうまく再構成でき(R>0.75)、例えばMgat2、St3gal4、およびSt3gal6のノックアウト糖鎖プロファイル(R>0.99、図4B)、およびSt3gal4(R>0.94、図4C)である。しかし、さらに複雑な糖鎖プロファイルでは、シングルノックアウト糖鎖プロファイルであるB4galt1(R>0.53、図4D)およびSt3gal6(R>0.23、図4E)など、その予測は悪化している(R<0.75)。この失敗は、レクチンの性質、つまり糖鎖の数(85)がレクチンの数(13)よりも大幅に多いことに起因する可能性が高い。具体的には、レクチンと糖鎖に固有の不確かさがある結果、レクチン結合プロファイル

によって定義され課される拘束条件すべてを満たす多くの実現可能な解({GP})を含む「解空間」において、可能な糖鎖プロファイルが無限に存在する。したがってこれらの結果は、高分解能の糖鎖構造を得るには、レクチン結合プロファイルではほとんど常に不充分であるのが普通であることを実証している。バルク糖鎖プロファイルの事前知識は、レクチンプロファイルから単一細胞糖鎖プロファイルを再構築する際に役立つ。
解空間を訓練して拘束条件を課し、観測されたレクチンプロファイルから「真の糖鎖プロファイル(GP)」を特定する情報を使用できるかもしれないとする、そしてこれによって単一細胞糖鎖プロファイルをうまく再構成できるとする仮説が成り立つ可能性がある。ここでのアイデアは、MS-糖鎖プロファイリングを、単一細胞プラットフォーム上でのランの実行前に集団細胞上で実行し、次いでその集団に基づくプロファイルを用いて、単一細胞についての測定されたレクチンプロファイルに合うであろう最も近い糖鎖プロファイルを特定することである。
提示された概念を検証し実証するために、糖鎖改変CHO細胞(非特許文献57)の集団糖鎖プロファイルから「単一細胞」糖鎖プロファイルを、この集団糖鎖プロファイルの実験的に測定された糖鎖強度に無作為に多様性を導入することによって生成してもよい(「方法」を見られたい)。具体的には、各単一細胞糖鎖プロファイルは、集団糖鎖プロファイルと同じ糖鎖を有する可能性があるが、その存在量は各糖鎖について最高25%変動する。次いで、各単一細胞について単一細胞レクチン結合プロファイルを生成した。これらの単一細胞プロファイルのそれぞれについて各単一細胞レクチンプロファイルから最も可能性の高い糖鎖プロファイルを特定するために、最適化フレームワークを開発してもよい(「方法」を見られたい)。このフレームワークは、レクチンプロファイルと一致する、そして集団糖鎖プロファイルからの差が最小となる糖鎖プロファイルを特定する(図5A)。先に構成されたレクチンプロファイルからの単一細胞糖鎖プロファイルの予測は、無作為の初期化を伴う目的関数の最小化により行った(詳細は「方法」を見られたい)。図5Bは、バルク糖鎖プロファイルについて事前知識を用いた最適化法を使用して糖鎖プロファイルを再構築した結果であり、この場合、実験による糖鎖プロファイルのシグナルと比較して、単一細胞糖鎖プロファイルの予測された質量分析シグナルは、驚くほど一致した(平均でR=0.99)。これらの結果は、集団糖鎖プロファイルとともに「レクチンマップ(LGmap)」が、レクチンプロファイルに対応する単一細胞糖鎖プロファイルの組み合わせを予測するには充分であることを示唆している(図5B)。さらに、標準偏差が小さい(グレースケールの赤色のエラーバー、図5B)ことは、集団糖鎖プロファイルを訓練に用いることで、予測誤差が大幅に減少するように見えることを示している。糖鎖プロファイルを決定するこの手法の頑健性をさらに検証するために、測定値におけるノイズの原因(例えば、細胞間の変動の大きさ、および/またはレクチン結合特異性)を定量化する必要がある。加えて、レクチンプロファイルが、多くの糖鎖混合物(すなわち、代替糖鎖プロファイルの解空間)を表している可能性がある。よって、事前知識(バルク糖鎖プロファイル)拘束条件の更なる訓練、目的関数、および単一細胞糖鎖プロファイルの最適解の間の相互作用について、さらに完全な理解が必要である。
あらゆる実現可能な解の特性評価と事前知識(バルク糖鎖プロファイル)拘束条件の結果の評価
所与のレクチンプロファイルから誤った糖鎖プロファイルを排除する効果を評価するために、凸分析を用いて解空間を評価してもよい(非特許文献58,59)。この分析は、事前知識(バルク糖鎖プロファイル)拘束条件が、どのように糖鎖プロファイル予測を向上させるかをより良く理解するのに役立つ(例えば、単一細胞の場合)。特定の単一細胞レクチンプロファイルを与えられた単一細胞糖鎖プロファイルの実現可能な解を特性評価してもよい。具体的には、実際の糖鎖プロファイルと、最適な予測および生の単一細胞レクチンプロファイルからの可能なすべての予測の両方についてレクチンプロファイルから決定されたものとの間の距離を調べてもよい(「材料および方法」)。可能な糖鎖プロファイルの空間を完全に探索するために、LP解空間(s={GP})の全てのコーナー(極値)を、デュアルシンプレックス法を用いた混合整数線形計画法により特定してもよい(「材料および方法」)。次いで、それぞれから、集団糖鎖プロファイルa、または真の単一細胞糖鎖プロファイルbに最も近い、最終的に特定された糖鎖プロファイル(単一細胞糖鎖プロファイルc)までの距離を定量化してもよい。
図6Aは、全ての実現可能な解の空間sが、密度プロットにおける距離(各代替解と真の単一細胞糖鎖プロファイルbとの間の自乗誤差)の観点から、どのようにコンパクトに記述できるかを示す図である。シングル糖転移酵素ノックアウトB4galt1(図6B)とSt3gal6(図6C)の二つの単一細胞糖鎖プロファイリングの例を用いた知見を例示してもよい。これらの二つの結果から、複数の興味深い知見が明らかになっており、これらには例えば、訓練用データ(バルク糖鎖プロファイル)拘束条件、特定された単一細胞糖鎖プロファイル、および代替単一細胞糖鎖プロファイルの解空間に関する三つの主題:(a)バルク糖鎖プロファイルの事前知識が与えられると、本明細書に記載される方法は、真の単一細胞糖鎖プロファイルに近い単一細胞糖鎖プロファイルの最適解を特定できる(自乗誤差(dbc)を有する左端のグレースケールの赤色の破線は、9.92e-05(B4galt1)、そして8.15e-04(St3gal6)である);(b)単細胞糖鎖プロファイルの特定された最適解もまた、バルク糖鎖プロファイルに近い(自乗誤差(dac)を有する左端から二番目のグレースケールの青色の破線は、3.39e-03(B4galt1)、そして1.51e-03(St3gal6)である);(c)他のあらゆる単一細胞糖鎖プロファイルの代替解の分布は、真の単一細胞糖鎖プロファイルから遠くかけ離れている、などが挙げられるがこれらには限定されない。B4galt1糖鎖プロファイルの代替解の多峰性分布が観測される場合があり、これは、同じレクチンプロファイルを実現し得る糖鎖型の大きな異なるグループがいくつか存在する可能性があることを示唆している。糖鎖型の異なるグループ間に観測される差は、異なる糖鎖型に影響される特定の表現型の効果や、これらの糖鎖型を生成する根底の生合成経路が何なのかといった、興味深い問題についてのさらなる調査研究につながる可能性がある。
個々の細胞における糖鎖形成の変動、および/または複製物間のレクチン結合特異性が、単一細胞糖鎖プロファイル予測に与える効果
細胞による変動には、大きく二つのクラスが存在し、内在的な確率性と外来的な確率性である(非特許文献60,61)。内在的変動の原因はよく理解されていないが、変動のいくつかの可能な原因は、ゲノムの差、エピゲノムの差、および所与のいずれの細胞の糖鎖存在量にも影響を与え得る糖鎖形成酵素の発現の差から生じる可能性がある(非特許文献62、63)。糖鎖プロファイリングの外来的変動の原因は、糖鎖へのレクチンの結合や試料調製における技術的変動から現れる(よって、技術的複製物の変動につながる)。提案された方法の頑健性を評価するために、これら二つの不確かな要因、つまり単一細胞内の糖鎖存在量およびレクチン結合測定値、の異なる変動レベルの効果を包括的に定量化してもよい。具体的には、各糖鎖の存在量の変動(25%、50%、200%、400%、800%の変動)と、レクチン結合特異性の変動(0%、10%、20%、30%、40%、50%の測定された結合強度の変動)を調べてもよい。
図7の結果は、平均予測性能(R)が、糖鎖存在量とレクチン結合測定値の変動に伴ってどのように変化するかを示している。この分析から三つの興味深い観測結果が導き出された。第一に、レクチン結合測定値のノイズが30%以下(グレースケールの濃/淡赤色とグレースケールの緑色の線)の場合には、糖鎖存在量の細胞間変動が25%から400%に変動しても、予測性能は徐々に低下するだけであり、それらの平均予測性能は依然として良好である(R≧0.75)ことが分かる。第二に、レクチン結合摂動が30%より大きい(グレースケールの濃/淡青色の線)場合には、糖鎖存在量の摂動について予測性能がさらに急速に低下することが分かる。糖鎖存在量の摂動が200%以降では、予測性能は著しく低下する(R<0.75)。第三に、いずれのレクチン結合摂動においても、糖鎖存在量の摂動が800%以上になると、予測性能は良好でない(R<0.75)。これは意外ではなく、なぜなら、800%レベルの糖鎖存在量の変動は、重度の摂動を受けているとみなされ、糖鎖型が、集団糖鎖プロファイルからかけ離れすぎてしまっていて、正確に予測することができないからである。
加えて、摂動が、本明細書に記載される方法にどのように影響を与えるかについて包括的な知見を得るために、異なる糖鎖存在量およびレクチン結合特異性の摂動下で、解空間を特性評価する、そして事前知識(バルク糖鎖プロファイル)拘束条件の結果を評価する、先に記載された分析を実行してもよい。シングル糖転移酵素ノックアウト-B4galt1を例にとると、結果(図8)は、本明細書に示される方法が、糖鎖存在量(最高400%)またはレクチン結合特異性(最高30%)のノイズ摂動のもとでさえ、最も可能性の高い単一細胞糖鎖プロファイル(グレースケールの赤色の破線)を頑健に特定できることを示しており、その最小自乗誤差(dbc<0.1)である。
これらの結果は、レクチンプロファイルと、バルク糖鎖プロファイルの事前知識によって強化された最適化フレームワークとに基づく頑健な予測性能が、糖鎖存在量または技術的変動の内在性および外在性のノイズがあってさえ、実現しうることを示している。したがって、これらの分析の知見や示唆は、現実的な単一細胞糖鎖プロファイルの今後の予測性能が、ここで示されたものに類似するあるはずであるとする程度にまで、一般化されるはずである。この研究群は、本明細書に記載される方法の頑健性について貴重な知見を与えてくれるという否定できない利点があるものの、単一細胞糖鎖存在量の典型的な実験的変動とレクチン結合摂動を測定する必要がある。したがって、単一細胞糖鎖プロファイルの予測に影響を及ぼす可能性のある他の原因が存在するかどうかを確実に判断するためには、今後の調査研究が必要である。
個々の細胞における遷移確率(TP)の変動が単一細胞糖鎖プロファイル予測に及ぼす効果
内在的変動の原因はよく分かっていないので、所与のあらゆる細胞について最終的な糖鎖存在量に影響を与える糖鎖形成モデル(非特許文献64)における糖鎖合成遷移確率(TP)に加わる摂動をシミュレートしてもよい(非特許文献62、63)。これを実現するために、本開示に記載される計算パイプラインを採用して、N型糖鎖形成マルコフモデルを各集団糖鎖プロファイルに合わせ込んでもよく、その結果、TPのセットが得られる。次いで、導出されたTPに10%の変動を無作為に導入することによって、単一細胞糖鎖プロファイルを生成してもよい。図12は、平均予測性能(R)が、TPの変動とともにどのように変化するかを示している。多くのKOプロファイルで予測性能が低下した一方で、本明細書に記載される方法は、少なくともR>0.3を維持している。TPの10%変動が、多くのプロファイル予測に大きな影響を及ぼしたように見える。また、いくつかの糖鎖改変プロファイルが、b4galt1/2およびb4galt1/3のダブルノックアウトなどのTPの摂動に対して頑健であるように見えることが見出されている可能性がある。これらの知見はすべて、内在的変動が下流の糖鎖存在量の変化をどのように誘起し得るかを調べる、詳細には、本明細書に記載される単一細胞糖鎖プロファイル予測方法による内在的変動の許容度を包括的に定量化する調査研究の必要性を強調するものである。
最適化用の事前データの定義
所与のいずれのレクチン結合パターンに対しても存在し得る非常に広範囲の糖鎖プロファイルを考えると、いずれの所与の試料のランを実行するにも、事前の包括的なデータを有していることが有用である。事前データにはいくつかの形式がある。これらは以下のようなものであるあり得る:
1. 入力試料から得られる事前データ(図13a)。具体的には、本明細書に記載される技術を使用して糖鎖プロファイリングのランを実行する前に、質量分析法および/またはHPLCを使用してバルク試料のランを実行して特定の糖鎖構造を定量化することになる可能性がある。これらのデータは、個々の細胞それぞれについて最も可能性の高いプロファイルを見つけるための最適化に使用されることになる。
2. すべての単一細胞レクチンプロファイルを取得し、あらゆる細胞間で互いに最も類似している糖鎖プロファイルを特定することによって、事前データを回避することができる(図13b)。具体的には、各単一細胞レクチンプロファイルについて、あらゆる糖鎖プロファイルの空間を同時に分析して、セントロイド点に最も類似するそれらの糖鎖プロファイルを特定することができる。
3. この事前データは、対象の生物から得られる訓練用データからの学習で得ることができる(図13c)。具体的には、糖鎖形成を極限まで改変させた(例えば、個々の遺伝子やその組み合わせをノックアウトさせた)細胞のライブラリー、または広範囲の糖鎖構造を幅広く保有するタンパク質を使用できる可能性がある。次いでこれらは、糖質結合分子と、質量分析法および/またはHPLCとを用いてプロファイリングされる。次いで、これらのデータを用いて、所与のレクチンプロファイルについて最も可能性の高い糖鎖プロファイルを見つけることができる。具体的には、ニューラルネットワークなどのアルゴリズムを使用して、所与の種の所与のいずれかのレクチンプロファイルから糖鎖プロファイルを予測することができる。
各レクチンプロファイルについての全糖鎖プロファイルのセントロイド糖鎖プロファイルを使用することによる、レクチンプロファイルからの単一細胞糖鎖プロファイルの再構成
バルク糖鎖プロファイルの情報が、各レクチンプロファイルについてあらゆる糖鎖プロファイルのセントロイド糖鎖プロファイルを近似していると仮定してもよい。もしこれが当てはまるならば、いかなるバルク糖鎖プロファイルの事前知識もなしに、すべてのレクチンプロファイルを同時に分析して、それらのセントロイド点に最も近い糖鎖プロファイルが特定される可能性がある。
これらの単一細胞レクチンプロファイルのそれぞれについて、各レクチンプロファイルから最も可能性の高い糖鎖プロファイルを特定するために、バルク糖鎖プロファイルの事前知識に類似する最適化フレームワークを使用してもよい。このフレームワークは、単一細胞糖鎖プロファイルと、関連する集団糖鎖プロファイルとの間の差を最小化するものではなく、レクチンプロファイルと一致する、そして他のレクチンプロファイルから得られるあらゆる糖鎖プロファイルのセントロイド糖鎖プロファイルからの差が最小である糖プロファイルを特定するものである(図14A)。先に構成されたレクチンプロファイルから得られる単一細胞糖鎖プロファイルの予測を、無作為の初期化を伴う目的関数の最小化によって行った(詳細は「方法」を見られたい)。図14Bは、全てのレクチンプロファイルを同時に分析して導出されたセントロイド糖鎖プロファイルの情報のみを用いた最適化法を使用することによって糖鎖プロファイルを再構成した結果を示している。その結果、実験による糖鎖プロファイルのシグナルと比較された単一細胞糖鎖プロファイルの予測された質量分析シグナルは、20とおりの糖鎖改変された糖鎖プロファイルでは概ね一致し(R>0.50)、他の16とおりのプロファイルでは、一致度が弱い(R>0.25)ことが示されている。予測された16とおりのプロファイルの弱い一致度を向上させるには、追加の情報が依然として必要であるように見える。考えられる解決策の一つは、より識別力の高いレクチンのセットを増やして、解空間の曖昧さを低減させることである可能性がある。しかし、セントロイド糖鎖プロファイル法は、いかなる事前知識も用いない行列演算法を使用することによる予測(図4A)と比較して、レクチンプロファイルから単一細胞糖鎖プロファイルを再構成する性能を向上させた。これらの結果は、セントロイド糖鎖プロファイルだけでなく、「レクチンマップ(LGmap)」が単一細胞糖鎖プロファイルの予測において有益であることを示唆していた。
ニューラルネットワークモデルを使用することによる、レクチンプロファイルからの単一細胞糖鎖プロファイルの予測
バルク糖鎖プロファイルの事前知識なしに、レクチンプロファイルから単一細胞糖鎖プロファイルを効果的に予測するもう一つの強力な方法は、対象の生物から計算モデルを学習することである。ニューラルネットワークは強力な機械学習ツールであり、対象のデータセットにおける複雑な関係の学習において広く用いられている(非特許文献65)。ここでの我々の目的は、いかなるレクチンプロファイルをも取り込んでその対応する糖鎖プロファイルを予測できるニューラルネットワークモデルを訓練することである。この考えは、一般に利用できる糖鎖プロファイル(非特許文献57)上でニューラルネットワークモデルを訓練することによって検証できる(詳細は「方法」を見られたい)。典型的なニューラルネットワークは、一層または複数層の隠れ層からなり、予測性能は、ニューラルネットワークのトポロジーと関連している。したがって、第一のステップは、最適なニューラルネットワークのトポロジーを決定することである。ニューラルネットワークは、隠れ層のサイズと各層のニューロンサイズの異なる組み合わせで構成されてもよい。10-fold交差検証に基づき、我々の結果は、三層の隠れ層を有する、そして各層が20個のニューロンを有するニューラルネットワークが、最良の平均予測能力を有し、その中で最高のモデルが、優れた性能(R=0.93、p<2.2e-16)を有することを示している(図15B~15C)。ニューラルネットワークにおける入力レクチンの重要度をさらに理解するために、各レクチンの相対的重要度を、各入力および出力ニューロンの間の、生の入力-隠れ層接続重みと隠れ層-出力接続重みとの積の総和として定量化し、すべての隠れニューロンにわたりその積を総和する(非特許文献66、67)。我々の結果は、我々の訓練用データにおける糖鎖プロファイルについて、三つのレクチン(MAH、PHA_L、ニクタバ(Nictaba))が他の六つのレクチンに比べて重要度が低い(絶対重要度スコア<=10000)ように見えることを示唆している(図15D)。このことから、ここでプロファイリングされた糖鎖について、単一細胞検出装置(マイクロ流体プラットフォーム、シーケンサーなど)において糖鎖を検出するのに使用されるプローブとして含まれるものとして、レクチンは優先される。しかし、いずれの適用であっても、すべてのレクチン上でのランを試みることで、試料および/または対象の生物における糖鎖パターンをプロファイリングするのに最も重要なレクチンを特定することができる。
ニューラルネットワーク(ANN)モデルは、レクチンノイズのもとで頑健であり、異なるモデルタンパク質に一般化される
訓練されたモデルは、レクチンプロファイルに無作為のノイズをインシリコで加えた場合に、優れた予測性能を維持していた(図16)。重要なことに、EPOで訓練されたANNは、レクチンプロファイルに基づいて、他の組み換えタンパク質から糖鎖プロファイルをうまく計算し(例えば、IgG:R=0.90、p=2×10-16)(図17)、これは、ANNモデルがレクチンプロファイルから糖鎖構造を特定するのに一般化可能であることを示唆するものである。
レクチンは、モデルタンパク質上の糖鎖エピトープを再現性よく定量化することができる。
レクチンは、生体試料上の糖質を定量化するのに日常的に使用されている(非特許文献46、47、68)。糖鎖シーケンシング用にプロトコルを最適化するために、よく制御されたシステムを構成してもよく、ここでモデルタンパク質(フェツインB(非特許文献69)およびSARS-CoV-2スパイクタンパク質(非特許文献70))を磁気ビーズに結合させてもよい。多様なフルオレッセイン標識レクチンを選択し、糖タンパク質ビーズとともにインキュベートした後、FACSソートしてレクチン結合を定量化した。このシステムは、まずレクチンをスクリーニングして、レクチンの特異性を確認、定量化し、理想的なレクチン濃度を推定するのに役立つ。これにより、糖鎖シーケンシングに使用するためのレクチンを検証することができる。例えば、レクチンSNAを用いてこれを検証したところ、ウシのフェツインBおよびSARS CoV-2スパイクタンパク質(非特許文献69,70)上のα(2,6)結合末端シアル酸残基へのその親和性が定量化された(例えば、図18B)。
リツキシマブおよびフェツインBでの糖鎖シーケンシングの妥当性検証
レクチンプロファイルを糖鎖プロファイルにマッピングする先の分析は、既知のレクチン結合特異性に基づいて、シミュレートされたレクチンプロファイルを使用して実行された。様々な実施形態では、我々のニューラルネットワークを使用して分析するならば、異なるタンパク質の実際の糖鎖プロファイルを、実験により測定されたレクチン結合プロファイルが正確に再構成できるかどうか、判断できるように検証が設計されている。このために、図20に詳述されるワークフローを展開した。具体的には、リツキシマブとフェツインBのレクチンプロファイルを定量化した。その後、訓練されたモデルを使用して、レクチン結合プロファイルを使用して、糖鎖プロファイルを再構築し、次いでこれを、測定された質量分析糖鎖プロファイルと比較する。
まず、リツキシマブ(非特許文献71)およびフェツインB(非特許文献69、72)の糖鎖プロファイルを比較したが、これは、標準的な方法(例えば質量分析法)で測定され先に報告されているとおりである。三つの訓練用試料の糖鎖プロファイルは、リツキシマブとフェツインBに相関があり、ピアソンR>0.6であることが見いだされ、これは図21に示されるとおりである。これは、組み換えの公開されている糖鎖プロファイルに、我々の訓練用データにおけるプロファイルとのいくつかの類似性があることを実証しており、我々の方法の正確度へのこれらの試料の重要度を検証することを可能にするものであった。
モデルタンパク質のレクチン結合プロファイルを測定するために、フルオレセイン標識レクチンを入手し、ELISA用に使用して、リツキシマブとフェツインBへのレクチン結合を測定した。具体的には、アブカム社(Abcam)のLightning Link Alexa Fluor 647 Conjugation Kit(ab269823、ケンブリッジ、英国)を用いて結合させた後、PBS中、.01μg/μlに希釈したタンパク質100μlを4℃で一晩、続いて37℃で2時間インキュベートすることにより、モデル糖タンパク質を黒色の96ウェルのMaxiSorpプレート(サーモフィッシャー社(ThermoFisher)、437111、ウォルサム(Waltham)、マサチューセッツ州)に固定化した。PBS+0.05%のTween-20で3回洗浄した後、200μlのPBS+0.1%のポリビニルピロリドンを各ウェルに入れ、37℃で1時間インキュベートすることによって、プレートをブロッキングした。インキュベートした後、プレートを200μlの適切な結合バッファー+.05%のTween-20で3回洗浄した(各レクチンに対して特異的なバッファーについては、製造元の指示書を見られたい)。対象の11種類の蛍光標識レクチン(ベクター・ラブ社(Vector Labs)、サンフランシスコ、カリフォルニア州)のパネルを20ng/μlに希釈し、100μlを3回に分けて適切なウェルに加えた。室温で1時間インキュベートした後、プレートを3回洗浄し、100μlの適切な結合バッファーをそれぞれのウェルに入れた。次いで、ビオテック社(Biotek)のBiotek synergyMXプレートリーダー(ウィヌースキ(Winooski)、バーモント州)を用いて、モデルタンパク質吸着効率を、633nmでの励起、680nmでの発光を伴う蛍光により測定し、レクチン結合を、488nmでの励起、531nmでの発光を伴う蛍光を測定することによって評価した。
図22におけるレクチンを使用して、既知の質量分析糖鎖プロファイルに基づくレクチン結合プロファイルを同時にシミュレートした。シミュレートされたレクチン結合プロファイルは、実験により測定された糖鎖プロファイルと非常に類似していた(図22、右)。次いで、訓練済みニューラルネットワークを使用して、レクチン結合プロファイルに基づいて糖鎖プロファイルを予測した(図23A、23C)ところ、質量分析法で測定された実際の糖鎖プロファイルと、レクチン結合からANNで再構成されたプロファイルとの間に高い整合性を示した。実際、この整合性は、予測され得る糖鎖の数が多く、予測され得る組み合わせが無限に近いことを考えると、印象的である。さらに、最も類似した三つの学習用試料(図21)が、レクチン結合パターンから糖鎖プロファイルの正確な再構成を得るのにどれほど重要であるかを検証した。このようにして、訓練用データからこれら三つの試料を取り除いた後、再構成された糖鎖プロファイルの正確度が低下することが見出され(図23B、23D)、よって、訓練用データには広範な多様性が必要であることが実証された。
レクチンは、シーケンシングによる定量化用にオリゴヌクレオチドのバーコードを付けることができる。
糖鎖シーケンシングは、多くのやり方で展開することができる。その一つでは、RNAまたはDNAバーコード付きレクチンを使用することができる。我々の訓練用データセットにおいてN型糖鎖構造を解読するための最も多くの情報をもたらすレクチンが得られた(図15D)。次いで、レクチンにDNAを付加するようプロトコルを最適化した(図19A~19B)。N-ヒドロキシスクシンイミジル(NHS)基を有するレクチン上のアミンを標的にし、レクチン表面にマレイミド基を配置させる(非特許文献73)が、ただし、糖鎖シーケンシングのためにオリゴヌクレオチドを糖質結合タンパク質に結合させるには多くの方法を使用することができる。
糖鎖は、標準的な次世代シーケンシングプラットフォームを使用して、バルクレベルおよび単一細胞レベルで「シーケンシング」することができる。
オリゴヌクレオチドまたは他のヌクレオチドを使用するプローブと結合した糖質結合タンパク質は、細胞、または糖タンパク質、または他の糖質試料に結合させることができる。これらの試料は、単一細胞シーケンシング用にソートされた単一細胞とするか、バルク試料シーケンシング用に処理することができる(図24)。試料は、プローブ単独での、または試料中の他のヌクレオチド(例えば、DNA、RNA)とのシーケンシング用に調製することができる。プローブは、シーケンシングリードの存在量によって定量化し、本明細書に記載されるモデルに投入されて、対象の試料の糖鎖プロファイルを再構成することができる。
単一細胞糖鎖プロファイリングされた試料を分析するツール
単一細胞糖鎖プロファイリング(scGLY-pro)により、所与の部分集団内の細胞糖鎖形成と表現型の不均質性を解明することができて、多種多様な応用が大いに期待される(非特許文献2、3、15~17)。しかし、この新しい種類の糖鎖プロファイリングデータを分析する有用な分析ツールは依然不足している。ここでの目標は、単一細胞試料の保存パターンまたは発散パターンを特定し、細胞糖鎖形成の部分集団に関するさらなる調査研究のための仮説を立てることである。scGLY-proによって作成された高次元データには、データの構造とパターンを直感的な形で明らかにする可視化ツールが必要である。二つの異なるクラスのscGLY-pro可視化方法:すなわちシングル・クローナル分析(single-clonal analysis)およびジョイント・クローナル分析(joint-clonal analysis)を開発し、本明細書に開示する。
少なくとも一実施形態によれば、シングル・クローン分析法は、根底にある同じ糖鎖を用いた同じ実験条件(例えば、GTノックアウト)により生成されたscGLY-proデータの一体化およびプーリングを可能にする。このシナリオは、実際にはかなり一般的である。CHOデータセットの野生型試料(図9A-C)は、知識ギャップについての知見を明らかにするために、可視化ツールを、単一細胞糖鎖プロファイリングされた試料のマイニングと分析にいかに役立てられるかについて、実証となる可能性がある(「方法」を見られたい)。図9Aは、全100とおりの単一細胞糖鎖型の三次元(三つのUMAP77成分)表現を示している。糖鎖プロファイリングされた単一細胞の二つの主要なクラスターが存在すると認めることができそうであり、一方のクラスター(グレースケールの赤色の円で囲われたもの)は、第1のUMAP成分(Dim1)上のスコアが低く、もう一方のクラスター(グレースケールの青色の円で囲われたもの)は、第2のUMAP成分(Dim2)上のスコアが高い。この二つのクラスターをさらに分析すると、三つのUMAP成分の間に興味深い一般的な傾向があることが示される。具体的には、グレースケールの赤円で囲われたクラスターについては、Dim1のスコアを低く維持するために、Dim2のスコアはDim3のスコアと正の相関があるように見える。また、グレースケールの青円で囲われたクラスターについては、Dim2スコアを高く維持するために、Dim1スコアはDim3スコアと負の相関があるように見える。これら三つのUMAP成分の特性を評価するには、さらなる研究が役立つ可能性があるが、本明細書に記載される方法を用いれば、シングル・クローナル・データについて異なる糖鎖型をさらにきめ細かく分析できる可能性がある。さらに、本明細書に記載される方法はまた、同じ実験条件における異なる糖鎖型の表現型特異的パターンの特定を可能にするよう容易に拡張される可能性がある。先の分析方法と組み合わせて、特定された単一細胞糖鎖プロファイルと、糖鎖プロファイルの他の全ての実現可能な解の特性とがいかによく理解されるか、対象の単一細胞をさらに研究してもよい。例えば、無作為に選択された単一細胞を図9Aのグレースケールの赤色の矢印で示すが、結果は、この細胞について特定された単一細胞糖鎖プロファイルが非常に正確であることを実証した(dbc=3.10e-04;図9B)。他の全ての代替糖鎖プロファイルは、さらに大きな自乗誤差(自乗誤差>0.2)、例えば真の糖鎖プロファイルとは非常に異なる糖鎖型を有する極端な五つのコーナーを有する(図9C)。これらの結果は、本明細書に記載される方法から、各単一細胞についての高分解能の糖鎖型だけでなく、シングル・クローナル・データセットについての細胞糖鎖形成の不均質性の包括的理解が得られることを実証している。
本明細書に記載される少なくとも一実施形態によるジョイント・クローン分析方法は、単一細胞レベルで複数クローン間の関係を研究するのに使用してもよい。よって、細胞機能の根底にある基礎が明らかにされて、クローンどうしの間の因果関係が推論される可能性がある。これを実現するために、高次元データ可視化のための次元削減方法を探究してもよい。少なくとも一実施形態にしたがって、図10Aは、CHOデータセットのMgatファミリー糖転移酵素ノックアウトを可視化する3つの次元削減方法:(a)主成分分析(PCA)(非特許文献75)、(b)一様多様体近似および射影(UMAP)(非特許文献74)、および(c)t分布型確率的近傍埋め込み法(t-SNE)(非特許文献76)の結果を示す。一つまたは複数の以下の観察がなされている:すなわち(a)t-SNEの結果は、異なるクローンどうしの間の糖鎖プロファイルの局所構造を捉えるのに優れていることを明確に示している;(b)一方、PCAの結果は、いくつかのクローン(例えば、Mgat4AとWT)が糖鎖型の共通の特徴を共有している可能性を示唆している;そして(c)UMAPは、局所構造を捉えるのに強力であると同時に、異なるクローンの大域構造を保存している。よって、UMAPが最も有力な候補であるとしてもよい。実際、t-SNEは、大域構造を捉えるのに限界があること、そしてPCAは、データ中のきめ細かい局所構造(特に非線形データ構造)をしばしば表現できないことが知られている(非特許文献77)。最後に、シングル・クローン分析と同様に、対象の個々の単一細胞試料をいずれもさらに調べて、それらの詳細な糖鎖型を理解することができる。少なくとも実施形態にしたがって、図10Bは、野生型(a)とノックアウト糖鎖プロファイル、Mgat4A(b)、Mgat4B(c)、Mgat4A/4B(d)、Mgat5(e)、およびMgat4A/4B/5(f)とを含む、異なるクローンから無作為に選択された細胞の真のおよび予測された糖鎖プロファイルを示している。複数のクローンの一体化を通じて得られたこれらの分析結果にからは、CHO糖鎖改変データセットについて、ただ一つのクローンから可能なものより微妙な解釈が可能となっており、これには例えば、異常な細胞表現型に根差す可能性のある調節異常のある細胞糖鎖型の特定などがある。類似の糖転移酵素ノックアウト集団からの細胞を調べることによって、異なるクローン間の対応の特定を支援できる共通の細胞表現型を、クローン間で特定することができる。
留意すべきは、これら全ての結果から、糖転移酵素アイソフォームに関する重要な情報がジョイント・クローン分析から得られること、そしてシングル・クローン分析が糖鎖型/糖鎖存在量の測定法を補完する驚くべき量の情報を提供できることが実証されたことである。これらの分析方法は、単一細胞生物学の分野を一変させる可能性を有している。
結論
単一細胞技術における最近の進展は、糖鎖形成の自然な変動が、細胞状態などの表現型の変動にどのように影響するかを理解する新規の機会を提供する。レクチンプロファイリング技術とともに計算生物学的ツールを活用し、少なくとも一実施形態にしたがって、個々の細胞におけるグライコームをプロファイリングする画期的な方法(scGLY-pro)が開発され、これにより、糖鎖構造の明確で原子レベルの構造を有する手頃で信頼性の高い、高スループットの糖鎖プロファイリングが可能になる。その結果、本明細書に記載される方法が、糖鎖プロファイルおよびレクチン結合の摂動からのノイズを頑健に許容する、単一細胞レベルで高分解能グライコームを正確に再構成できることが実証されている。さらに、少なくとも一実施形態にしたがって開発された強力な調査研究ツールおよび診断(シングル・クローン分析およびジョイント・クローン分析)を、単一細胞糖鎖プロファイリングされた試料の分析に使用してもよい。scGLY-proの作製の成功は、単一細胞糖鎖プロファイリングの課題に対する独自の解決策を提示するだけでなく、単一細胞における糖鎖形成と表現型の細胞不均質性を調べる新規の戦略を実証している。この新規の単一細胞グライコームプロファイリングの手法は今や、単一細胞のグライコームデータを得るための新規の能力と、手の付けられていない膨大な生物学的資源を提供する。この可能性を考えると、本明細書に記載される分析方法は、不均質な細胞表現型集団に及ぼす不均質な糖鎖型の効果や機構に関する新規の知見の発見を加速させるものでもある。糖鎖形成が細胞表現型にいかに根差しているかに光を当てることは、疾患における糖鎖形成の現状の理解を向上させ、多種多様な応用が大いに期待されることになる。したがって、本明細書に記載される技術は、バルク試料における糖鎖形成プロファイルに使用してもよいだけでなく、細胞糖鎖形成と生理を結びつける多くの新しい問題を個々の細胞のレベルで取り扱うことができる可能性がある。したがって、開発された方法は、単一細胞のグライコミクスデータを調べる能力を大幅に向上させ、単一細胞グライコバイオロジーの分野を一変させ得るものである。
材料および方法
シミュレートされたレクチンプロファイル
レクチンは、糖タンパク質や細胞の上の糖鎖構造を探索するのにさいして広く使われている(非特許文献46、48、49)。単一細胞またはバルク細胞の糖鎖プロファイル内の不均質性を識別するために、実証用CHOデータセットにおけるN結合型タンパク質糖鎖形成の広いスペクトル上で全グライコームを捉えることができるレクチンのセットを選択することができる(非特許文献57)。表1に示されるとおり、N結合型糖鎖の13とおりの特異的な糖鎖の構造的特徴を識別する13とおりのレクチンが選択された(非特許文献78~80)。具体的には、最多四つの分岐を有するN結合型糖鎖の分岐(GlcNAc-β1,2/4/6)、LacNAcの伸長生成物(GlcNAc-β1,3)、エピトープ単糖類(例えば、フコース)、および高マンノース構造などの糖鎖構造が識別された。その結果として、13とおりのレクチンが、二つの点:すなわち1)選択されたレクチンのセットが、CHOデータセット内に提示されるN結合型糖鎖全体を対象範囲にできること、2)選択されたレクチンが、期待される糖鎖エピトープに対して高い親和性と高い特異性を有するのが望ましいこと、を考慮して選択された。
糖鎖プロファイルが与えられると、レクチン結合プロファイル(LP)を、式1および式2を使用して生成することができる。
(式1)
ここで、LPgi,jは、所与の糖鎖についてのレクチン結合プロファイルであり、各行は、糖鎖を、各列はレクチンを表し;Glycanは、既知の構造の糖鎖iを意味し;Wi,jは、糖鎖i上の糖鎖モチーフがレクチンjによって認識される頻度であり;もし糖鎖iをレクチンjが認識できなければその値は0である。ただし、現実的なWi,jは調整が必要であり、予想されるエピトープに対する選択された糖鎖の実際の結合親和性に依存する可能性があることに留意するのが望ましい。本研究では、レクチン結合の動態を無視することによって、レクチンプロファイルの計算が(なされる結合がしばしば定常状態レベルにいたることを考えると)簡略化される場合があり、特定のレクチンの結合特異性については、実験によるさらなる妥当性検証が必要になる。
(式2)
ここで、LPk,jは、所与の糖鎖プロファイルについてのレクチン結合プロファイルであり、各行は、特定の糖鎖プロファイルを表し、各列は、レクチンを表し;そして、GPgk,iは、所与の糖鎖プロファイルkにおける糖鎖iのシグナル強度(相対MS/HPLC強度)である。
ここでは、この方法を適用して、全36とおりの差次的に糖鎖改変されたCHO細胞株(非特許文献57)のバルク糖鎖プロファイル(図2)から36とおりの集団レクチンプロファイル(図3)を生成した。次いで、この方法を、シミュレートされた各単一細胞糖鎖プロファイルについて単一細胞レクチンプロファイルを生成するのにも適用した(「シミュレートされた単一細胞糖鎖プロファイル」の詳細な記載については以下を見られたい)。これらのシミュレートされたレクチンプロファイルを、本研究でのさらなる分析に使用した。
表1:N型糖鎖レクチンプロファイリング用に選択されたレクチン
Figure 2023538820000012
Figure 2023538820000013
*a ‘Fuc’、‘Gal’、‘GalNAc’、‘Glc’、‘GlcNAc’、‘Man’、‘Sia’という糖の略称はそれぞれ、L-フコース、D-ガラクトース、N-アセチルガラクトサミン、D-グルコース、N-Aアセチルグルコサミン、マンノース、シアル酸である。
*b 認識ロジックは、MS糖鎖プロファイル中の所与の糖鎖が、表示されたレクチンによって結合され得る特定の糖鎖構造を含有しているかどうかを検出するのに使用される規則を指す場合がある。
‘A’、‘F’、‘GN’、‘M’、‘NN’という略号はそれぞれ、ガラクトース、フコース、GlcNAc、マンノース、NAcNAcを表し、‘aX’、‘bX’(ここでXは数である)は、隣接する二つの糖をつなぐアルファまたはベータグリコシド結合(例えば、a3はアルファ1,3グリコシド結合)を表す。*c 最大強度は、四つの分岐を有する1単位の全N型糖鎖から得ることのできるレクチン強度の最大単位を表す。この値は、MS糖鎖プロファイルにおける糖鎖強度を与えられたレクチンプロファイルの強度を計算する際の重みとして使用される。
シミュレートされた単一細胞糖鎖プロファイル
単一細胞が共通の遺伝的背景を持つことを考慮すると、同一クローン内の変動は、異なるクローンにまたがる変動よりも小さいと予想される。本研究では、バルク糖鎖プロファイルは、あらゆる単一細胞糖鎖プロファイルの平均であると仮定している。したがって、単一細胞糖鎖プロファイルは、集団糖鎖プロファイルに変動を導入することによって生成される場合がある。様々な実施形態にしたがって、これを実現するための二つの異なる方法を以下に説明する。
1. 糖鎖の摂動。 変動を導入する第1の方法は、集団糖鎖プロファイルから糖鎖存在量を単に摂動させることである。具体的には、シミュレートされた単一細胞糖鎖プロファイルそれぞれは、バルク糖鎖プロファイルで提示されたものと同じ糖鎖を有することになる可能性があるが、糖鎖存在量は、各糖鎖について指定された百分率(例えば、最高25%)だけ変動させる。
2. 遷移確率(TP)摂動。 別の方法では、TPを変動させて新しい単一細胞糖鎖プロファイルを生成することも可能であり、これはおそらく、我々が生物学的に観測する変動をより良好に捉えることになる可能性がある。実際、酵素活性(糖転移酵素またはグリコシダーゼ)の細胞による変動は、糖鎖存在量の変動を生じる可能性がある。このために、計算パイプライン(非特許文献64)を採用して、N型糖鎖形成マルコフモデルを各集団糖鎖プロファイルに合わせ込み、その結果として、遷移確率(TP)のセットが得られる可能性がある。次いで、導出されたTPに無作為に摂動(例えば、最大25%)を導入することによって、単一細胞糖鎖プロファイルを生成することになる可能性がある。
第1の方法を適用することによって、実証用CHOデータセットの各集団糖鎖プロファイルについて、100とおりの単一細胞糖鎖プロファイルを生成した。これらのシミュレートされた単一細胞糖鎖プロファイルを、本研究におけるさらなる分析に使用した。第2の方法も、糖鎖存在量の変動のさらに正確な尺度を得るのに使用できる可能性がある。
糖タンパク質でコーティングされたビーズへのレクチン結合を定量化し、プールされたプロファイリングのために濃度を最適化する。
レクチンは、その結合特性、例えば、特異性、感度、理想的な濃度、および他のレクチンとの適合性を評価するために、分析に基づいて選択してモデル糖タンパク質上で検証してもよい。この情報は、糖鎖シーケンシングのための最終薬剤についてレクチン濃度を最適化するのに使用してもよい。
少なくとも一実施形態にしたがって、二段階で最適化を実行するパイプラインを開発してもよい。第一に、モデル糖タンパク質で磁気ビーズをコーティングする。第二に、フルオレッセイン標識レクチンを使用して、FACSにより濃度を最適化する。
糖タンパク質ビーズ:定量的分析用の標準物質として、糖タンパク質で磁気ビーズをコーティングするプロトコルを展開してもよい。これを用いて、フェツインBおよびSARS-CoV-2スパイクタンパク質へのレクチンの結合を定量化してもよい(図18)。これらのタンパク質は、アミンカルボキシル化学を使用して、カルボキシル化磁気ビーズに結合させてもよく、それらのレクチン、例えばSNAが示される(図18)。
レクチンプロファイルからの単一細胞糖鎖プロファイルの再構成
本研究の目的は、実験により測定されたレクチンプロファイルからMSに似た糖鎖プロファイルを再構成することを可能にする方法を調べることであった。この課題に対処するために、二つの異なる方法を開発した。
1. 行列演算。 理論的には、この問題は:LGmap*GP=LPとして定式化できる。既知の化学量論的行列、LGmapは、レクチンと糖鎖の間の結合特異性を表現する「l×g」行列であって、lはレクチン数、gは糖鎖数であり;未知の糖鎖プロファイル、GPは「g×s」行列であって、gは糖鎖の数、sは試料の数であり;測定されたレクチンプロファイルは「l×s」行列である。レクチンの適切なセット(LGmap)が選択されるならば、糖鎖プロファイル(GP)は、実験によるレクチンプロファイルから、以下の式:

を解くことによって再構成される場合がある。
2. バルク糖鎖プロファイルの先験的知識を用いる凸最適化。 第2の方法は、集団糖鎖プロファイルからの差が最小限である単一細胞レクチンプロファイルのセットから導出される単一細胞糖鎖プロファイルのセットを見つけることを目的としている。糖鎖プロファイルにおける可能な数千の糖鎖の量を予測するために大幅に少ないレクチン読み出しのセットをマッピングすることは、集団糖鎖プロファイル、またはある種の訓練用データなしでは正確な性能を阻害する。単一細胞糖鎖プロファイルは複数の軌跡を描くため、直接マッピングの解空間は非常に大きくなる。集団糖鎖プロファイルからの差が最小限になるように拘束条件を課された糖鎖プロファイルへの単一細胞レクチンプロファイルのマッピングの解空間を調べたところ、解空間の大きさが大幅に削減されることが観測された。この問題は凸最適化問題として定式化することができ(非特許文献81)、これは、凸セットにわたって凸関数を最小にする問題を研究する数学的最適化の部分分野である。具体的には、この問題は、以下の式(式3):

の最小化を、

の条件のもとで行う (式3)
ことに基づく凸最適化問題に整理することができ、ここでnとおりの単一細胞糖鎖プロファイルの行列(GP)は、最適化(GP)によって決定された単一細胞を基準にした糖鎖値を収めている。出発時の単一細胞レクチンプロファイル(LP)は、単一細胞を基準にしたレクチン行列に収められ、この関数の目標または目的として定義される。レクチンから糖鎖へのマップ(LGmap;表1)は、予測された単一細胞糖鎖プロファイルを、予測された単一細胞レクチンプロファイルに変換するのに使用される糖鎖を基準にしたレクチン行列におけるマッピング変換値を収めている。最後に、集団糖鎖プロファイルを有するベクトル(GPbulk)が、最適化関数の別の目標として使用される。凸問題を解くためには、様々なアルゴリズムが存在し、例えばCVXベースのモデリングシステムがあり、これは、本研究の凸最適化問題の定式化に用いることができて、結果は、「CVXR」(R言語パッケージ)がサポートするデフォルトのソルバー(「ECOS」)を用いて解かれた(非特許文献82)
3. セントロイド糖鎖プロファイルを用いた凸最適化。 第3の方法は、各レクチンプロファイルに対してあらゆる糖鎖プロファイルからの差が最小である単一細胞レクチンプロファイルのセットから導出される単一細胞糖鎖プロファイルのセットを見つけることを目的としている。本方法のフレームワークは、第2の方法と同様であるが、バルク糖鎖プロファイルの事前知識を使用する代わりに、凸最適化における各レクチンプロファイルについての全糖鎖プロファイルのセントロイド糖鎖プロファイルを使用する。具体的には、この問題は、以下の式(式4):

の最小化を、

の条件のもとで行う (式4)
ことに基づく凸最適化問題に整理することができ、ここで、n個の単一細胞糖鎖プロファイルの行列(GP)は、最適化(GP)によって決められた単一細胞を基準にした糖鎖値を収めている。
4. 訓練用データとしてノックアウトライブラリを用いるニューラルネットワークモデル。 ニューラルネットワークは、複雑なデータセットをモデル化し、学習されたモデルに基づいて優れた予測を行うことができる強力な方法となってきた。本研究では、訓練用データから、レクチンプロファイル(LP)と特定の糖鎖構造との関係を学習するために、ニューラルネットワークを適用した。具体的には、公開されている糖鎖プロファイル(非特許文献57)を使用して、各糖鎖プロファイルについてレクチンプロファイルをシミュレートした(詳細は前章の「シミュレートされたレクチンプロファイル」を見られたい)。次いで、ニューラルネットワークモデルを構築したが、次いでこのモデルがLPから糖鎖プロファイルを予測することになる。ニューラルネットワークモデルの学習には、R言語のneuralnetパッケージを使用した。ニューラルネットワークは、一層または複数層の隠れ層からなり、各層は複数のニューロンを含む。ニューラルネットワークの出力は、糖鎖プロファイルにおける糖鎖分布である。
所与の単一細胞レクチンプロファイルの解空間の特性評価
集団糖鎖プロファイルが単一細胞糖鎖プロファイル予測をどの程度向上させるかを評価するために、所与のレクチンプロファイルを満たす解空間を特性評価する技術を調べてもよい(図6A)。具体的には、真の単一細胞糖鎖プロファイル「b」と予測された糖鎖プロファイル「c」との間の距離(dbc)を調べ、これを、生の単一細胞レクチンプロファイルから得られたあらゆる可能な解と比較した。可能な糖鎖プロファイルの空間を探索するために、まず解空間のコーナーを探索してもよい。混合整数線形計画法(MILP)の場合のシンプレックス法は、拘束条件を課された解空間のコーナーポイントを効率的にサンプリングすることを可能にする(非特許文献83)。この場合には、集団糖鎖プロファイルを与えられた糖鎖解空間のコーナーポイントをサンプリングするよう試みた。5000とおりの目的関数(非特許文献84)を無作為に生成し最適化したが、それぞれの目的関数は、シミュレートされた集団糖鎖プロファイルのレクチンシグナル強度によって課せられた二つの境界条件の交わりを表している。問題設定は、所与の糖鎖プロファイルkについて以下のとおり:
拘束条件:

目的:

の最大化
(式5)
として示され、ここで、確定した指標p、qを、1から指標iの最大値までの間で無作為に生成した。Wを、0から1の間で無作為に生成した。解空間を特性評価するために、導出されたコーナーを使用して、単一細胞糖鎖プロファイル解のすべてをさらにサンプリングし、そのサンプリングされた結果を使用して密度分布を生成した。密度分布は、バルク糖鎖プロファイル情報なしに得られた解を表す。したがって、真の糖鎖プロファイルと予測された糖鎖プロファイルとの間の距離(dbc)と、予測された糖鎖プロファイルとバルク糖鎖プロファイルとの間の距離(dac)と、密度分布との相対関係から、集団糖鎖プロファイルが単一細胞糖鎖プロファイル予測をどのように向上させるかについての大局的な視点が得られる。具体的には、dbcが密度分布から遠いほど、バルク糖鎖プロファイルが単一細胞糖鎖プロファイルの予測に役立つことを表す。
単一細胞糖鎖プロファイリングされた試料を分析するための次元削減方法
高次元のscGLY-proデータを分析するために、3とおりの次元削減方法を考慮した:すなわち(a)主成分分析(PCA)(非特許文献75)、(b)一様多様体近似および射影(UMAP)(非特許文献74)、および(c)t分布型確率的近傍埋め込み法(t-SNE)(非特許文献76)である。
1. t-SNE法。 「Rtsne」パッケージ(非特許文献71)をデフォルトのパラメータとともに使用し、糖鎖プロファイルデータを三次元に削減する。しかし、シミュレートされた単一細胞の数が少ない(合計6とおりの異なるMgat-ファミリークローンを用いて各クローンについて100とおり)ので、このサイズではデフォルトのパープレキシティである30は大きすぎる。t-SNEは、5から5018の範囲のパープレキシティ値にわたりかなり頑健であるため(非特許文献71)、入力データが200個未満の単一細胞を含む場合にはパープレキシティを10に設定した。
2. PCA法。 Rの「stats」パッケージの組み込み「princomp()」関数を、デフォルトのパラメータとともに使用して、三つの次元として第1の三つの主成分を求めた。
3. UMAP法。 Rの「Seurat」パッケージの「RunUMAP()」関数を、デフォルトのパラメータ(n.components=3,min.dist=0.3,spread=1,n.neighbors=30)とともに使用して、糖鎖プロファイルデータを三次元に削減した。
これらの三つの方法、または他の適切な次元削減方法を適用することによって、多次元(例えば、三次元)データのセットが、各単一細胞糖鎖プロファイルについて得られる場合がある。次いで、loess()関数(Rの「stats」パッケージから)を使用して、平滑面(例えば、三次元データの場合:Dim3~Dim1+Dim2)を三次元データセットに合わせ込んでもよい。最後に、あらゆる単一細胞データを表面上に投影し、パラメータ(theta=30,phi=30,expand=0.5,shade=0.2)を用いて「persp3D()」関数(Rの「plot3D」パッケージから)により視覚化し、結果である三次元プロットを得る。
機械学習モデルを用いた訓練と推論
少なくとも一実施形態にしたがって機械学習モデル、例えばニューラルネットワークを使用する訓練および推論(例えば予測)に、様々な技術を使用してもよい。少なくとも一実施形態では、未訓練ニューラルネットワークが、訓練用データセットを使用して訓練される。未訓練ニューラルネットワークの初期重みパラメータを、初期の所定値、乱数などに設定してもよい。少なくとも一実施形態では、訓練用フレームワークを使用して、訓練用データセットを使用するニューラルネットワークを訓練し、ニューラルネットワークの一つまたは複数の重みを更新してもよい。訓練用フレームワークは、いかなる好適な訓練用フレームワークであっても、例えばPyTorchフレームワーク、TensorFlow、Boost、Caffe、Microsoft Cognitive Toolkit/CNTK、MXNet、Chainer、Keras、Deeplearning4j、または他の訓練用フレームワークであってもよい。少なくとも一実施形態では、訓練用フレームワークは、未訓練ニューラルネットワークを訓練し、これを、本明細書に記載の処理リソースを使用して訓練することを可能にして、訓練済みニューラルネットワークを生成する。少なくとも一実施形態では、重みは、無作為に選択してもよいし、またはディープ・ビリーフ・ネットワーク(deep belief network)を用いた事前訓練によって選択してもよい。少なくとも一実施形態では、訓練は、教師あり、部分的に教師あり、または教師なしのいずれかのやり方で実行してもよい。
少なくとも一実施形態では、未訓練ニューラルネットワークは、教師あり学習を使用して訓練され、この場合には、訓練用データセットが、入力(例えば、単一細胞糖鎖プロファイル)に対する所望の出力と対にされた入力(例えば、レクチンプロファイル)を含むか、または訓練用データセットが、既知の出力を有する入力を含み、ニューラルネットワークの出力が手作業で等級判定されるか、のいずれかである。少なくとも一実施形態では、未訓練ニューラルネットワークは、教師あり方式で訓練され、訓練用データセットからの入力を処理し、得られた出力を、予想されるまたは所望の出力のセットと比較する。少なくとも一実施形態では、次いで誤差が、未訓練ニューラルネットワークを通じて逆伝搬される。少なくとも一実施形態では、訓練用フレームワークは、訓練過程中に未訓練ニューラルネットワークを制御する重みを調整する。少なくとも一実施形態では、訓練用フレームワークは、新たなデータセットなどの入力データに基づいて、正しい答えを例えば結果において生成するのに好適なモデル、例えば訓練済みニューラルネットワークに向かって未訓練ニューラルネットワークがいかに良好に収束しつつあるかを監視するツールを含む。少なくとも一実施形態では、訓練用フレームワークは、未訓練ニューラルネットワークを繰り返し訓練しつつ、重みを調整して、損失関数、および調整アルゴリズム、例えば確率的最急降下法を使用して、未訓練ニューラルネットワークの出力を修正する。少なくとも一実施形態では、訓練用フレームワークは、未訓練ニューラルネットワークが所望の正確度を実現するまで、未訓練ニューラルネットワークを訓練する。少なくとも一実施形態では、訓練済みニューラルネットワークは次いで、いずれの数の機械学習演算を実施するようにも展開することができる。
少なくとも一実施形態では、未訓練ニューラルネットワークは、教師なし学習を使用して訓練され、未訓練ニューラルネットワークは、ラベル付けされていないデータを使用してそれ自体を訓練しようと試みる。少なくとも一実施形態では、教師なし学習訓練用データセットは、いかなる関連出力データまたは「グラウンド・トゥルース(ground truth)」データも伴わない入力データを含むことになる。少なくとも一実施形態では、未訓練ニューラルネットワークは、訓練用データセット内のグループ化を学習し、未訓練データセットに個々の入力がどのように関連しているかを決定することができる。少なくとも一実施形態では、教師なし訓練を使用して、新たなデータセットの次元を削減するのに有用な演算を実行できる訓練済みニューラルネットワークにおいて自己組織化マップを生成することができる。少なくとも一実施形態では、教師なし訓練を使用して異常検出を実行することもでき、これにより、新たなデータセットの正常なパターンから逸脱する新たなデータセット内のデータポイントを特定することが可能になる。
少なくとも一実施形態では、半教師付き学習を使用してもよく、これは、訓練用データセットが、ラベル付きおよびデータとラベルなしデータの混合を含む技術である。少なくとも一実施形態では、訓練用フレームワークを使用して、インクリメンタル学習を、例えば転移学習の技術を通じて実行してもよい。少なくとも一実施形態では、インクリメンタル学習は、最初の訓練中に訓練されたニューラルネットワークに教え込まれた知識を忘れることなく、新たなデータセットに訓練済みニューラルネットワークを適合させることを可能にする。

Claims (20)

  1. a. 二つ以上の糖質結合分子と試料を、並行してまたは順次にインキュベートすること;
    b. 前記二つ以上の糖質結合分子の結合強度を定量化すること;
    c. 前記結合強度を、前記二つ以上の糖質結合分子によって認識される可能な糖鎖モチーフの糖質結合分子プロファイルに変換すること;
    d. 前記可能な糖鎖モチーフの糖質結合分子プロファイルを、前記糖質結合分子プロファイルから生じ得る複数の可能な糖鎖プロファイルにマッピングすること;
    e. 前記複数の可能な糖鎖プロファイルを検索して、先の訓練用データおよび/または他の関連試料間の類似性に基づいて糖鎖プロファイルを特定すること;および
    f. 前記特定された糖鎖プロファイルを分析すること、
    を含んでなる、試料中の糖鎖形成を測定する方法。
  2. 前記複数の可能な糖鎖プロファイルを検索することが、前記複数の可能な糖鎖プロファイルから最も可能性の高い糖鎖プロファイルを予測するように訓練されたニューラルネットワークを使用することを含んでなる、請求項1に記載の方法であって、前記ニューラルネットワークが、少なくとも:
    糖タンパク質に基づいてレクチンプロファイルを決定すること;
    複数の可能な糖鎖プロファイルに基づいて、近似されたレクチンプロファイルをシミュレートすること;
    前記近似されたレクチンプロファイルに基づいて、予測される糖鎖プロファイルを決定すること;
    前記糖タンパク質に基づいて、実際の糖鎖プロファイルを決定すること;および
    前記予測された糖鎖プロファイルと、実際の糖鎖プロファイルとの比較に基づいて、前記ニューラルネットワークの一つまたは複数の重みを更新すること、
    によって決定される一つまたは複数の重みを含んでなる方法。
  3. 前記ニューラルネットワークが、糖鎖プロファイルへのレクチンプロファイルのマッピングを含んでなる訓練用データセットを使用して訓練され、前記訓練用データセットのレクチンプロファイルが:ソラヌム・ツベロスム・レクチン(Solanum Tuberosum Lectin(STL))、ガレクチン7、トリチクム・ウンルガリ(Triticum unlgari(WGA))、アスペルギルス・オリザエ(Aspergillus oryzae(AOL))、リキヌス・コムニスI(Ricinus communis I(RCA120))、およびファセオルス・ブルガリス・エリスロアグルチニン(Phaseolus vulgaris Erythroagglutinin(PHA-E))を含んでなる、請求項2に記載の方法。
  4. 前記ニューラルネットワークが三層の隠れ層からなる、請求項2に記載の方法。
  5. 前記試料が、組織、細胞、生体分子、オリゴ糖、または多糖を含んでなる、請求項1に記載の方法。
  6. 前記糖質結合分子が、糖質または糖質含有化合物を検出できる天然分子または合成分子を含んでなる、請求項1に記載の方法。
  7. 前記糖質結合分子が、レクチン、レクテンズ(Lectenz)、抗体、ナノボディ、アプタマー、または酵素を含んでなる、請求項6に記載の方法。
  8. 前記結合強度が、蛍光顕微鏡法、免疫組織化学、FACS、ビオチン-ストレプトアビジン、ヌクレオチドシーケンシング、またはオリゴヌクレオチドアニーリングを使用して検出される、請求項1に記載の方法。
  9. 前記一つまたは複数の糖鎖プロファイルを検索して前記糖鎖プロファイルを特定することが、既知のまたは予測された糖鎖プロファイルから訓練された、凸最適化、機械学習、および/または人工知能を実行することを含んでなる、請求項1に記載の方法。
  10. 前記凸最適化を実行することが:

    の最小化を、

    の条件のもとで行うことに基づく凸最適化問題であって、
    ここで:n:単一細胞糖鎖プロファイルの数;
    GP:未知の糖鎖プロファイルの第1の行列;
    GPbulk:集団糖鎖プロファイルを有するベクトル;
    LGmap:レクチンと糖鎖の間の結合特異性を表す第2の行列;
    LP:出発時の単一細胞レクチンプロファイルを表す第3の行列;および
    GPgk,i:糖鎖プロファイルkにおける糖鎖iのシグナル強度、
    である凸最適化問題を最小化することを含んでなる、請求項9に記載の方法。
  11. 前記凸最適化を実行することが:

    の最小化を、

    の条件のもとで行うことに基づく凸最適化問題であって、
    ここで:n:単一細胞糖鎖プロファイルの数;
    GP:未知の糖鎖プロファイルの第3の行列;
    LGmap:レクチンと糖鎖の間の結合特異性を表す第2の行列;
    LP:出発時の単一細胞レクチンプロファイルを表す第3の行列;および
    GPgk,i:糖鎖プロファイルkにおける糖鎖iのシグナル強度、
    である凸最適化問題を最小化することを含んでなる、請求項9に記載の方法。
  12. 既知の糖鎖プロファイルから訓練された機械学習の手法を使用する前記再構成法が、レクチンノイズのもとで頑健であり、異なるモデルタンパク質、細胞、または他の生物学的試料に一般化することができる、請求項1に記載の方法。
  13. 前記測定が、表面に結合した多くの糖鎖もしくは糖鎖複合体、または細胞上の糖鎖、または生物学的組織もしくは試料上の糖鎖からなる試料上で行われる、請求項1に記載の方法。
  14. 前記測定が、単一細胞レベルまたは単一細胞からの産物で行われ、前記細胞のアッセイが、マイクロ流体チップ、または液滴、または単一細胞分子分析用の他のアッセイ上でなされる、請求項1に記載の方法。
  15. 最も可能性の高い糖鎖プロファイルを分析することが、主成分分析(PCA)、一様多様体近似および射影(UMAP)、またはt分布型確率的近傍埋め込み法(t-SNE)を実行することを含んでなる、請求項1に記載の方法。
  16. 前記複数の可能な糖鎖プロファイルを検索して前記糖鎖プロファイルを特定することが:

    の最大化を、

    の条件のもとで行うことに基づく目的関数であって、
    ここで:GPgk,p:糖鎖プロファイルkにおける糖鎖pのシグナル強度;
    :0から1の間で無作為に生成された値;
    LPk,j:糖鎖kとレクチンjについてのレクチン結合プロファイル;
    LPgi,j:糖鎖iとレクチンjについてのレクチン結合プロファイル;および
    p, q:無作為に選択された指標、
    である目的関数を計算することを含んでなる、請求項1に記載の方法。
  17. プロセッサと、計算機実行可能命令を記憶するメモリとを含んでなるシステムであって、計算機実行可能命令が、前記プロセッサによる実行の結果として、前記システムに:
    a. 二つ以上の糖質結合分子とともに並行してまたは順次にインキュベートされた試料の結合強度を定量化すること;
    b. 前記結合強度を、前記二つ以上の糖質結合分子によって認識される可能な糖鎖モチーフの糖質結合分子プロファイルに変換すること;
    c. 前記可能な糖鎖モチーフの糖質結合分子プロファイルを、前記糖質結合分子プロファイルから生じ得る複数の可能な糖鎖プロファイルにマッピングすること;
    d. 前記複数の可能な糖鎖プロファイルを検索して、先の訓練用データおよび/または他の関連試料間の類似性に基づいて糖鎖プロファイルを特定すること;および
    e. 前記特定された糖鎖プロファイルを分析すること、
    を実行させるシステム。
  18. 複数の可能な糖鎖プロファイルを検索する前記命令が、前記複数の可能な糖鎖プロファイルから最も可能性の高い糖鎖プロファイルを予測するように訓練されたニューラルネットワークを使用する命令を含んでなり、前記ニューラルネットワークが:
    糖タンパク質に基づいて、レクチンプロファイルを決定するステップ;
    前記複数の可能な糖鎖プロファイルに基づいて、近似されたレクチンプロファイルをシミュレートするステップ;
    前記近似されたレクチンプロファイルに基づいて、予測される糖鎖プロファイルを決定するステップ;
    前記糖タンパク質に基づいて、実際の糖鎖プロファイルを決定するステップ;および
    前記予測された糖鎖プロファイルと前記実際の糖鎖プロファイルとの比較に基づいて、前記ニューラルネットワークの一つまたは複数の重みを更新するステップ、
    を含む訓練過程によって決定される一つまたは複数の重みを含んでなる、請求項17に記載のシステム。
  19. 前記ニューラルネットワークが、糖鎖プロファイルへのレクチンプロファイルのマッピングを含んでなる訓練用データセットを使用して訓練され、前記訓練用データセットのレクチンプロファイルが:ソラヌム・ツベロスム・レクチン(STL)、ガレクチン7、トリチクム・ウンルガリ(WGA)、アスペルギルス・オリザエ(AOL)、リキヌス・コムニスI(RCA120)、およびファセオルス・ブルガリス・エリスロアグルチニン(PHA-E)を含んでなる、請求項18に記載のシステム。
  20. 前記ニューラルネットワークが三層の隠れ層からなる、請求項18に記載のシステム。
JP2023506216A 2020-07-31 2021-08-02 複合糖質を測定する方法 Pending JP2023538820A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063059406P 2020-07-31 2020-07-31
US63/059,406 2020-07-31
PCT/US2021/044139 WO2022026944A1 (en) 2020-07-31 2021-08-02 Method of measuring complex carbohydrates

Publications (1)

Publication Number Publication Date
JP2023538820A true JP2023538820A (ja) 2023-09-12

Family

ID=80036723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023506216A Pending JP2023538820A (ja) 2020-07-31 2021-08-02 複合糖質を測定する方法

Country Status (6)

Country Link
US (1) US20230288406A1 (ja)
EP (1) EP4189382A1 (ja)
JP (1) JP2023538820A (ja)
KR (1) KR20230042295A (ja)
CA (1) CA3185765A1 (ja)
WO (1) WO2022026944A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1587408A4 (en) * 2002-12-20 2007-09-05 Momenta Pharmaceuticals Inc GLYCAN MARKER FOR DIAGNOSIS AND MONITORING OF DISEASES
EP1725673A1 (en) * 2004-02-13 2006-11-29 Glycotope Gmbh Sialytated glycoproteins-process conditions and an efficient method for their production
US20060127950A1 (en) * 2004-04-15 2006-06-15 Massachusetts Institute Of Technology Methods and products related to the improved analysis of carbohydrates
WO2011027351A2 (en) * 2009-09-07 2011-03-10 Procognia (Israel) Ltd Diagnosis of cancers through glycome analysis
EP3802624A4 (en) * 2018-06-01 2022-03-23 Musc Foundation for Research Development GLYCAN ANALYSIS OF PROTEINS AND CELLS

Also Published As

Publication number Publication date
KR20230042295A (ko) 2023-03-28
CA3185765A1 (en) 2022-02-03
US20230288406A1 (en) 2023-09-14
WO2022026944A1 (en) 2022-02-03
EP4189382A1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
Chandrasekaran et al. Image-based profiling for drug discovery: due for a machine-learning upgrade?
Suhre et al. Genetics meets proteomics: perspectives for large population-based studies
Hwang et al. Single-cell RNA sequencing technologies and bioinformatics pipelines
Sen et al. Deep learning meets metabolomics: A methodological perspective
JP2021003121A (ja) 照合による細胞に基づくアッセイ及びその使用
Caccia et al. Bioinformatics tools for secretome analysis
Germain et al. Systems biology in immunology: a computational modeling perspective
Rocke et al. A model for measurement error for gene expression arrays
CA2828972C (en) Interrogatory cell-based assays and uses thereof
Povey et al. Rapid high-throughput characterisation, classification and selection of recombinant mammalian cell line phenotypes using intact cell MALDI-ToF mass spectrometry fingerprinting and PLS-DA modelling
JP5822309B2 (ja) 統合プロテオーム解析用データ群の生成方法ならびに同生成方法にて生成した統合プロテオーム解析用データ群を用いる統合プロテオーム解析方法、およびそれを用いた原因物質同定方法
Yadav et al. Overview and principles of bioengineering: the drivers of omics technologies
Havugimana et al. Protein complexes, big data, machine learning and integrative proteomics: lessons learned over a decade of systematic analysis of protein interaction networks
Deng et al. Massive single-cell RNA-seq analysis and imputation via deep learning
Rajasundaram et al. Understanding the relationship between cotton fiber properties and non-cellulosic cell wall polysaccharides
Benegas et al. Robust and annotation-free analysis of alternative splicing across diverse cell types in mice
Song et al. Proteogenomics-based functional genome research: approaches, applications, and perspectives in plants
Vincent et al. Mining the wheat grain proteome
Bertozzi et al. Glycomics
Hart et al. Future directions in glycosciences
Ponomarenko et al. Workability of mRNA Sequencing for Predicting Protein Abundance
Shao et al. CRIT: Identifying RNA-binding protein regulator in circRNA life cycle via non-negative matrix factorization
Shibata et al. High-precision multiclass cell classification by supervised machine learning on lectin microarray data
Sindelar Genomics, other “OMIC” technologies, precision medicine, and additional biotechnology-related techniques
JP2023538820A (ja) 複合糖質を測定する方法