JP2022548960A - 単一細胞rna-seqデータ処理 - Google Patents

単一細胞rna-seqデータ処理 Download PDF

Info

Publication number
JP2022548960A
JP2022548960A JP2022517965A JP2022517965A JP2022548960A JP 2022548960 A JP2022548960 A JP 2022548960A JP 2022517965 A JP2022517965 A JP 2022517965A JP 2022517965 A JP2022517965 A JP 2022517965A JP 2022548960 A JP2022548960 A JP 2022548960A
Authority
JP
Japan
Prior art keywords
gene
expression
noise
data
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022517965A
Other languages
English (en)
Inventor
シン アトワル、グリンダ
キアット リム、ウェイ
チャン、ルオユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2022548960A publication Critical patent/JP2022548960A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Primary Health Care (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

遺伝子-遺伝子相関アーチファクトを減少させるために、ノイズ正則化プロセスを適用することにより、単一細胞遺伝子発現データを処理して遺伝子-遺伝子相関を明らかにする方法。本出願のコンピュータ実装方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。発現マトリックス中の細胞内の遺伝子の発現値に基づくランダムノイズを付加して、ノイズ正則化発現マトリックスが取得される。【選択図】図1

Description

本発明は、概して、ノイズ正則化プロセスを適用することによって、遺伝子-遺伝子相関のための遺伝子発現データを処理するための方法およびシステムに関する。
バルク細胞のマイクロアレイおよびRNAシーケンシングから取得された遺伝子発現データを使用して、遺伝子ネットワークを構築するための遺伝子-遺伝子相関を推論することが実現されている(Ballouz et al.,Guidance for RNA-seq co-expression network construction and analysis:safety in numbers.Bioinformatics,2015.31(13):p.2123-2130)。しかしながら、この発現データの分析結果は、細胞プール全体の平均遺伝子発現を測定することに限定されている。単一細胞RNAシーケンシング(scRNA-seq)技術の可用性により、単一細胞分解能レベルで遺伝子発現をプロファイリングすることが可能になり、これにより、表面的に均質な細胞集団内の不均質性を解剖して、バルク発現プロファイルでマスクされた隠れた遺伝子-遺伝子相関を明らかにすることが可能となっている(Kolodziejczyk et al.,The Technology and Biology of Single-Cell RNA Sequencing.Molecular Cell,2015.58(4):p.610-620;Papalexi et al.,Single-cell RNA sequencing to explore immune cell heterogeneity.Nature Reviews Immunology,2018.18(1):p.35)。
しかしながら、ドロップアウトイベントおよび高レベルのノイズなどの技術的な制限により、scRNA-seqデータの処理には課題がある。低効率によって引き起こされるノイズを軽減し、scRNA-seqデータの処理における真の発現レベルを推定するために、種々のアプローチが採用されている。scRNA-seqデータ分析の第1のステップとして、多数のデータ前処理方法が提案されている。これらのデータ前処理方法は、偽陽性の遺伝子-遺伝子相関の導入など、遺伝子-遺伝子相関の推論およびその後の遺伝子共発現ネットワーク構築に影響を及ぼす可能性がある。
遺伝子-遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子-遺伝子相関アーチファクトを効率的に減少させることができる、scRNA-seqデータを処理するための方法およびシステムが必要であることが理解されよう。
scRNA-seqデータの可用性は、均質な細胞集団内の不均一性を解剖し、単一細胞分解能レベルでの遺伝子発現をプロファイリングすることによって、隠れた遺伝子-遺伝子相互作用を明らかにすることを可能にする。scRNA-seqデータの処理における課題は、ドロップアウト(検出されない遺伝子発現)および高ノイズ(変動)などの技術的制限に起因し得る。scRNA-seqデータの処理における真の発現レベルの推定のために、ノイズの緩和のためのデータの前処理方法が採用されている。しかしながら、これらのデータ前処理方法は、偽陽性の遺伝子-遺伝子相関が導入されることによって遺伝子-遺伝子相関推論に影響を及ぼす可能性がある。
本出願は、遺伝子発現データを処理して、ノイズ正則化プロセスを適用して遺伝子-遺伝子相関アーチファクトを低減することによって、遺伝子-遺伝子相関を明らかにするための方法およびシステムを提供する。本開示はまた、遺伝子-遺伝子相関のためのデータ処理を改善するための方法を提供し、方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、遺伝子-遺伝子相関計算プロセスは、細胞クラスタを用いて行われる。いくつかの例示的な実施形態では、全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)を、正規化または補完のために遺伝子発現データを処理するために使用する。いくつかの例示的な実施形態では、本出願の遺伝子-遺伝子相関のためのデータ処理を改善する方法は、相関遺伝子対に関連付けられた遺伝子発現データにエンリッチメントを行うこと、および/または相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することをさらに含み、遺伝子-遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、本出願の方法は、分子相互作用をマッピングするために遺伝子-遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む。
本開示は、少なくとも部分的に、遺伝子-遺伝子相関ネットワークを提供し、ネットワークは、本出願の遺伝子-遺伝子相関のためのデータ処理を改善するための方法を使用して取得される相関遺伝子対に基づいて構築され、本方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。
本開示は、少なくとも部分的に、遺伝子-遺伝子相関のためのデータ処理のためのコンピュータ実装方法を提供し、方法は、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することと、を含み、遺伝子-遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、遺伝子-遺伝子相関計算プロセスは、細胞クラスタを用いて行われる。いくつかの例示的な実施形態では、全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)を、正規化または補完のために遺伝子発現データを処理するために使用する。
いくつかの例示的な実施形態では、本出願の遺伝子-遺伝子相関のためのデータ処理のためのコンピュータ実装方法は、相関遺伝子対に関連付けられた遺伝子発現データにエンリッチメントを行うことをさらに含む。いくつかの例示的な実施形態では、本出願のコンピュータ実装方法は、分子相互作用をマッピングするために遺伝子-遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む。
本開示は、少なくとも部分的に、遺伝子-遺伝子相関のためのデータ処理のためのコンピュータベースのシステムを提供し、システムは、遺伝子発現データを記憶するように構成されたデータベースと、命令を記憶するように構成されたメモリと、メモリに結合された少なくとも1つのプロセッサであって、少なくとも1つのプロセッサが、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することと、を行うように構成されている、少なくとも1つのプロセッサと、遺伝子-遺伝子相関のデータ処理に関するクエリを受信し、相関遺伝子対および構築された遺伝子-遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データであり、遺伝子-遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、遺伝子-遺伝子相関計算プロセスは、細胞クラスタを用いて行われる。いくつかの例示的な実施形態では、全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)を、正規化または補完のために遺伝子発現データを処理するために使用する。いくつかの例示的な実施形態では、少なくとも1つのプロセッサは、相関遺伝子対に関連付けられた遺伝子発現データにエンリッチメントを行うようにさらに構成される。
いくつかの例示的な実施形態では、少なくとも1つのプロセッサは、分子相互作用をマッピングするために遺伝子-遺伝子相関ネットワークに遺伝子-遺伝子相関ネットワークを利用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することを行うようにさらに構成される。
本発明のこれらおよび他の態様は、以下の説明および添付の図面と併せて検討することで、よりよく理解され、理解されるであろう。以下の説明は、その種々の実施形態および多数の具体的な詳細を示すが、例証としてであって、限定としてではない。多くの置換、修正、追加、または再配置は、本発明の範囲内で行われ得る。
例示的な実施形態による、改良された遺伝子-遺伝子相関のためのデータ処理のためのコンピュータベースのシステムの図を示しており、データベース、メモリ、少なくとも1つのプロセッサ、およびユーザインターフェースを含む。 例示的な実施形態による、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用するためのフローチャートを示す。 例示的な実施形態による、種々のデータ前処理方法のためのベンチマークデータセットとして使用された、ヒト細胞アトラスプレビューデータセット(Human Cell Atlas Preview Dataset)からの骨髄scRNA-seqデータを示す。完全なデータセットには、21個の細胞クラスタにグループ化され得る378,000個の骨髄細胞が含まれており、すべての主要な免疫細胞型をカバーしている。 例示的な実施形態によるベンチマークフレームワークの概要を示す。例示的な実施形態では、5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを、単一細胞発現データマトリックス、例えば、骨髄単一細胞発現データに適用した。経路1は、得られたマトリックスから直接計算された遺伝子-遺伝子相関を示す。経路2は、ノイズ正則化ステップが付加されることを示しており、遺伝子発現レベル(赤色領域)によって決定されたランダムノイズが、遺伝子-遺伝子相関計算に進む前に発現マトリックスに適用される。タンパク質-タンパク質相互作用(PPI)における導出された遺伝子-遺伝子相関のエンリッチメントおよび方法間の一貫性を評価した。 例示的な実施形態による、5つのデータ前処理方法を使用してscRNA-seqデータを処理する場合のアーチファクトの観測を示す。図5Aは、例示的な実施形態によるこれらの方法間で、相関の分布が異なることを示す。ラインは中央値を示す。 例示的な実施形態による、5つのデータ前処理方法を使用してscRNA-seqデータを処理する場合のアーチファクトの観測を示す。図5Bは、例示的な実施形態による各方法についてのタンパク質-タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。X軸は、上位n個の遺伝子対を示す。Y軸は、STRINGタンパク質-タンパク質相互作用(PPI)データベースに現れるn個の遺伝子対の画分を示す。 例示的な実施形態による、5つのデータ前処理方法を使用してscRNA-seqデータを処理する場合のアーチファクトの観測を示す。図5Cは、例示的な実施形態による、相関性の高い遺伝子対を推論する方法の間で一貫性が低かったことを示す。 例示的な実施形態による、5つのデータ前処理方法を使用してscRNA-seqデータを処理する場合のアーチファクトの観測を示す。図5Dは、例示的な実施形態による、無作為にサンプリングされた遺伝子対のエンリッチメントを示す。 例示的な実施形態による、異なるデータ前処理方法を適用した後の、MB21D1およびOGTの遺伝子対、例えば、陰性遺伝子対照対の発現値の散布図を示す。5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを分析に適用した。 例示的な実施形態による、5つの代表的な前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、またはSAVERについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図7Aは、例示的な実施形態による各方法にノイズ正則化を適用した後の相関分布の結果を示す。異なる色は、異なる方法を示す。 例示的な実施形態による、5つの代表的な前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、またはSAVERについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図7Bは、例示的な実施形態による、ノイズ正則化を適用した後のタンパク質-タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。X軸は、上位n個の遺伝子対を示す。Y軸は、STRINGタンパク質-タンパク質相互作用(PPI)データベースに現れるn個の遺伝子対の画分を示す。異なる色は、異なる方法を示す。実線の誤差バーは、10回の反復に基づく99%信頼区間を示す。 例示的な実施形態による、5つの代表的な前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、またはSAVERについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図7Cは、例示的な実施形態による、相関性の高い遺伝子対を推論する際にノイズ正則化を適用した後の方法間の一貫性を示す。 例示的な実施形態による、scRNA-seqデータから推論される遺伝子-遺伝子相関ネットワークを示す。図8Aは、例示的な実施形態による、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数(Degree)およびページランク(Pagerank)の比較を示す。 例示的な実施形態による、scRNA-seqデータから推論される遺伝子-遺伝子相関ネットワークを示す。図8Bは、例示的な実施形態による、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数(Degree)およびページランク(Pagerank)の比較を示す。 例示的な実施形態による、scRNA-seqデータから推論される遺伝子-遺伝子相関ネットワークを示す。図8Cは、例示的な実施形態による改善された遺伝子-遺伝子相関を有するネットワーク構築を示す。scRNA-seqデータは、NBRおよびノイズ正則化を適用することによって処理した。タンパク質-タンパク質相互作用には存在しなかったリンクは除去された。 例示的な実施形態による、ノイズ正則化を適用する前後のリアクトーム経路における上位相関遺伝子対のエンリッチメントを示す。X軸は、上位n個の遺伝子対を示す。Y軸は、リアクトームデータベースの同じ経路に現れるn個の遺伝子対の画分を示す。破線および実線はそれぞれノイズ正則化の前後を表している。 例示的な実施形態による、異なるパーセンタイルでの最大ノイズを試験することによって最適なノイズレベルを決定した結果を示す。 例示的な実施形態による、遺伝子発現レベルの約0~1パーセンタイルの範囲のランダムノイズの生成、および発現マトリックスへのランダムノイズの付加を示す。
高スループット遺伝子発現データの可用性により、遺伝子発現データからの統計的推論を通じて、例えば、データを中心とした統計的視点に立ち、大規模に遺伝子調節ネットワークを構築することが可能である。種々の統計的ネットワーク推論方法、例えば、推論アルゴリズムが、相互作用を推定するために使用されている。推論される遺伝子調節ネットワークは、調節因子とその潜在的な標的との間の調節相互作用、例えば、遺伝子-遺伝子相互作用、または複合体中の潜在的なタンパク質-タンパク質相互作用に関する情報を提供する。これらの推論されるネットワークは、大規模な遺伝子発現データから得られた分子相互作用の統計的に有意な予測を表す(Emmert-Streib et al.,Gene regulatory networks and their applications:understanding biological and medical problems in terms of networks.Frontiers in Cell and Developmental Biology,2014.2(38))。
推論される遺伝子調節ネットワークは、分子相互作用の因果マップとしての役割、実験設計の指針、バイオマーカーの発見、比較ネットワーク分析の指針、または薬物設計の指針としての役割など、生物学的および生物医学的問題を解決するのに役立つように使用され得る(Emmert-Streib et al.)。さらに、構築されたネットワークを使用して、下流の相互作用を識別し、薬物開発のための時間を潜在的に節約し得る細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別するなど、さらなる下流分析を行うための指針を提供することができる。
推論される遺伝子調節ネットワークは、分子相互作用に関する新規の生物学的仮説を導出するため、または遺伝子の転写調節を予測するためなど、分子相互作用の因果マップとして機能することによって、生物学的および生物医学的問題を解決するのに役立つように使用され得る。予測されたリンクは、分子間の実際の物理的結合事象に対応すると想定されているため、この情報を使用して、生物学的事象を調査するための実験室的な実験を導くことができる。加えて、これらの推論されたネットワークを使用して、診断、予測、または予後目的のためにバイオマーカーを発見または研究することができる。例えば、がんは、個々の遺伝子ではなく、種々の経路に関連する複雑な障害であるため、ネットワークベースのバイオマーカーを、がんの診断目的のための統計的尺度として使用することができる。さらに、より推論される遺伝子調節ネットワークが利用可能になると、異なる生理学的条件または疾患条態にわたる遺伝子-遺伝子相互作用の変化を理解するための比較ネットワーク分析を導くことが可能になる(Emmert-Streib et al.)。したがって、これらの推論されたネットワークは、薬物効率の改善または薬物耐性因子の識別などの合理的な薬物のより効率的な設計を導くことができる。
遺伝子-遺伝子共発現ネットワークは、遺伝子発現データから推論された、例えば単一細胞RNAシーケンシング(scRNA-seq)データから推論された遺伝子-遺伝子相関から構築される遺伝子調節ネットワークと見なすことができる。遺伝子-遺伝子共発現ネットワークは、異なる生理学的、疾患または治療条件から構築することができる。異なる条件下で構築された遺伝子-遺伝子共発現ネットワークを比較することにより、異なる生理学的条件または疾患条態にわたる遺伝子相互作用の変化を理解し、異なる条件下でかかる表現型を分析することができる。例えば、2つの遺伝子の発現は、1つの細胞型において高度に相関し得るが、他の細胞型においては無関係である。scRNA-seqデータは、異種細胞集団中の異なる細胞型の全トランスクリプトームを偏りなく捕捉することができる。これにより、特定の細胞型に特異的な遺伝子-遺伝子相関を明らかにすることができる。
遺伝子発現は、転写因子およびシグナル伝達分子のネットワークによって調節される。scRNA-seqデータは、各細胞が生物学的事象の異なるタイプまたは段階を表す独立したアイデンティティであるため、分化の動態を明らかにし、遺伝子転写を定量化することによって、細胞および組織の不均一性を理解するための重要な情報を提供することができる。相関発現、特に遺伝子間の共発現は、可視化および解釈のためのネットワークを構築するために有益であり得る(Stuart et al.,A Gene-Coexpression Network for Global Discovery of Conserved Genetic Modules.Science,2003.302(5643):p.249-255)。scRNA-seqデータの分析は、異なる文脈下での生物学的プロセスの理解を向上させるために、各細胞を異なる細胞型または系統に分類することができるため、生物学的発見を促進することができる。したがって、単一細胞発現データから明らかになる遺伝子-遺伝子相関は、細胞型特異的モジュールを発見し、より包括的なネットワークを構築する可能性を有する。
scRNA-seqデータを分析して、異なる臓器および疾患条態下で大規模な調節ネットワークを推論するために、単一細胞データに特異的に適合させた相関メトリックを開発した。遺伝子の生物学的関連性の偏りのない定量化をグラフ理論ツールを使用して計算して、臓器機能の主要なプレーヤーおよび疾患の要因を特定した(Iacono et al.,Single-cell transcriptomics unveils gene regulatory network plasticity.Genome Biology,2019.20(1):p.110)。合成遺伝子相互作用のための遺伝子-遺伝子対を調べることによって、ゲノムスケール遺伝子相互作用マップを構築した。遺伝子相互作用プロファイルに基づくネットワークにより、コヒーレントサブセットにおける類似の生物学的プロセスをクラスタリングすることで機能的マップを明らかにした(Costanzo,M.,et al.,The Genetic Landscape of a Cell.Science,2010.327(5964):p.425-431)。ここで、相関性の高いプロファイルは、遺伝子機能を定義する特定の経路を示している。
しかしながら、ドロップアウトイベント(例えば、scRNA-seqによって検出されない遺伝子発現)、高レベルのノイズ(変動)、および非常に大きなデータ量などの技術的制限に起因するscRNA-seqデータの利用には、課題が存在している。加えて、各細胞内に存在する転写物のごく一部のみが、scRNA-seqでシーケンシングされており、これは、低発現遺伝子および中発現遺伝子の信頼性の低い定量化につながる。多くの割合の遺伝子、例えば遺伝子集団の90%を超える遺伝子は、低い捕捉およびシーケンシング効率に起因して、ゼロまたは低いリードカウントを有する。観測されたゼロカウントの多くは真のゼロ発現を反映しているが、このカウントの大部分は技術的な制限によるものである可能性がある(Huang et al.,SAVER:gene expression recovery for single-cell RNA sequencing.Nature Methods,2018.15(7):p.539-542)。さらに、観測されたシーケンシング深度は、細胞間で劇的に変化し得る。シーケンシング中の細胞溶解、逆転写効率、および分子サンプリングの変動もまた、変動に寄与し得る(Hicks et al.,Missing data and technical variability in single-cell RNA-sequencing experiments.Biostatistics,2017.19(4):p.562-578)。
低効率によって引き起こされるノイズを軽減し、発現正規化およびドロップアウト補完を含む、scRNA-seqデータの処理における真の発現レベルを推定するために、種々のデータ前処理方法が採用されている。真の生物学的シグナルを保持しながら技術ノイズを除去するために、データの正規化がしばしば必要とされている。scRNA-seqの高いドロップアウト率とは、転写産物の検出に技術的な制限があるために、カウントがゼロである遺伝子の割合が大きいことを指す(Svensson et al.,Power analysis of single-cell RNA-sequencing experiments.Nature Methods,2017.14:p.381;Ziegenhain et al.,Comparative Analysis of Single-Cell RNA Sequencing Methods.Molecular Cell,2017.65(4):p.631-643.e4)。ドロップアウトを処理して真の遺伝子発現を回復するために、種々のデータ補完法を使用して、細胞クラスタリング、差異的に発現された遺伝子の検出、および軌道分析などのscRNA-seqデータを前処理することができる(Tian et al.,Benchmarking single cell RNA-sequencing analysis pipelines using mixture control experiments.Nature Methods,2019.16(6):p.479-487)。
偽の遺伝子-遺伝子相関に関する補完法の適用には課題がある。これらの方法は、遺伝子ネットワークをリバースエンジニアリングして遺伝子-遺伝子相関を測定するために設計されているためである。Andrewsらは、小さなシミュレーションデータセット上で複数の補完法を試験し、ドロップアウト補完が偽陽性の遺伝子-遺伝子相関を生成することを発見した(Andrews,T.and M.Hemberg,False signals induced by single-cell imputation [version 1;peer review:4 approved with reservations].F1000Research,2018,7(1740))。データの前処理のための代表的なscRNA-seq正規化/補完法の一部は、データの過剰な平滑化または過剰な適合に起因して疑似相関または膨張した相関が導入されることで、遺伝子-遺伝子相関の推論に影響を与える。これらの方法では、共発現が予想されない遺伝子対について相関アーチファクトが導入される可能性がある。偽のシグナルおよび相関アーチファクトがデータ処理に導入され得るので、これらの方法から最も高い相関を有する取得された遺伝子対は、タンパク質-タンパク質相互作用における弱いエンリッチメントを有し得る。
機械学習では、特定の条件下でノイズをデータに付加することで、過剰な適合を減らし、結果の堅牢性を高めることができる(Bishop,Training with noise is equivalent to Tikhonov regularization.Neural computation,1995.7(1):p.108-116;Neelakantan et al.,Adding gradient noise improves learning for very deep networks.arXiv preprint arXiv:1511.06807,2015;Smilkov et al.,Smoothgrad:removing noise by adding noise.arXiv preprint arXiv:1706.03825,2017)。
本開示は、遺伝子-遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子-遺伝子相関アーチファクトを効率的に低減し得る新規のノイズ正則化方法を利用したscRNA-seqデータを処理するための方法およびシステムを提供することによって、前述の要求を満たすための方法およびシステムを提供する。本出願のノイズ正則化方法を適用した後に導出された遺伝子-遺伝子相関を使用して、遺伝子共発現ネットワークを構築することができる。結果として得られたネットワークは、ネットワークの構築の信頼性を確認するために、複数のレベルで検証された。タンパク質-タンパク質相互作用データベースにおける既知の相互作用を使用して、推論される生物学的ネットワークの質を評価した。
いくつかの例示的な実施形態では、本出願のノイズ正則化方法は、各遺伝子の発現レベルに対して均一に分布したノイズを付加することによって、前処理されたscRNA-seqデータを処理するために実施される。本出願のノイズ正則化方法を付加することにより得られた遺伝子-遺伝子相関を使用して、遺伝子-遺伝子相関におけるアーチファクトを低減することにより、遺伝子共発現ネットワークを再構築することができる。いくつかの例示的な実施形態では、免疫細胞モジュールなどの複数の既知の細胞モジュールが正常に明らかにされた。これは、本出願のノイズ正則化方法の不在下では見えなかったものである。いくつかの例示的な実施形態では、本出願のノイズ正則化方法が付加された場合、細胞型マーカー遺伝子は、ネットワークトポロジー特性においてより高く評価され、例えば、次数およびページランクのより高い値で評価され、それぞれの細胞クラスタにおけるそれらの重要な役割が特定された。本出願のノイズ正則化方法は、発現データの過剰な平滑化または過剰な適合を低減することによって、データ処理の堅牢性を増加させる利点を提供する。
いくつかの例示的な実施形態では、本出願は、遺伝子-遺伝子相関のためのデータ処理を改善するためのコンピュータ実装方法を提供し、本方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、本出願は、遺伝子-遺伝子相関のためのデータ処理のためのコンピュータベースのシステムを提供し、システムは、遺伝子発現データを記憶するように構成されたデータベースと、命令を記憶するように構成されたメモリと、メモリに結合された少なくとも1つのプロセッサであって、少なくとも1つのプロセッサが、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することと、を行うように構成されている、少なくとも1つのプロセッサと、遺伝子-遺伝子相関のデータ処理に関するクエリを受信し、相関遺伝子対および構築された遺伝子-遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む。
図1に示すように、遺伝子-遺伝子相関のためのデータ処理のための本出願の例示的なコンピュータベースのシステムは、1つ以上のデータベース、1つ以上のプロセッサを含む中央処理装置(CPU)、命令を記憶するためのCPUに結合されたメモリ、およびユーザインターフェースを含む。いくつかの例示的な実施形態では、本出願のコンピュータベースのシステムは、データ正規化または補完のためのアルゴリズムおよび種々のレポートをさらに含む。いくつかの例示的な実施形態では、データベースは、遺伝子発現データ、ゲノムデータ、またはタンパク質-タンパク質相互作用データを含む。いくつかの例示的な実施形態では、ユーザインターフェースは、データ処理のためのクエリを受信し、相関遺伝子対を表示し、または遺伝子-遺伝子相関ネットワークを表示し得る。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、細胞jにおける遺伝子iの発現値は、Vとして表され、ランダムノイズは、(i)種々のデータ前処理方法を適用した後の遺伝子iの発現分布を計算することと、(ii)Mとして表される遺伝子iの発現値の1パーセンタイルを決定することであって、Mがノイズレベルの最大値として使用される、決定することと、(iii)0~Mの範囲の一様分布乱数を生成し、この乱数をVに付加することと、によって決定され得る。
いくつかの例示的な実施形態では、ランダムノイズが生成され、V、例えば、特定の方法によって処理される発現マトリックス中の細胞jにおける遺伝子iの発現値に付加され、ランダムノイズは、(1)すべての細胞にわたる遺伝子iの発現分布を決定することと、(2)Mとして表される遺伝子i発現の1パーセンタイルを最大ノイズレベルと見なすことと、(3)Mがゼロに等しい場合、0.1を最大ノイズレベルとして使用することと、(4)均一分布下で0~Mの範囲の乱数を生成することと、(5)Vに乱数を付加してノイズ正則化発現マトリックスを取得することと、によって決定される。
いくつかの例示的な実施形態では、ノイズ正則化プロセスは、特定のscRNA-seq前処理方法によって処理される発現マトリックスを取得することを含み、この発現マトリックスは、m個の細胞におけるn個の遺伝子の発現を含有していた。Vが細胞jにおける遺伝子iの発現値であると仮定すると、ランダムノイズが生成され、Vに付加され、ランダムノイズは、図2の例示的なフローチャートに示すように、以下の手順、すなわち、(1)すべての細胞にわたる遺伝子iの発現分布を決定することと、(2)遺伝子iの発現分布からの第1のパーセンタイルを、Mとして表される遺伝子iの最大ノイズレベルと見なし、Mが最小値mより小さい場合、mを最大ノイズレベルとして使用することと、(3)均一分布下で0~Mの範囲の乱数を生成することと、(4)この乱数をVに付加してノイズ正則化発現値を取得することと、(5)発現マトリックス中のすべての項目について、この手順を繰り返すことと、によって決定される。
本明細書に開示される例示的な実施形態は、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子-遺伝子相関のための遺伝子発現データの処理を改善するためのコンピュータ実装方法を提供することで、前述の要求を満たす。
いくつかの例示的な実施形態では、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子-遺伝子相関のための遺伝子発現データのデータ処理を改善するためのコンピュータ実装方法が提供される。これらは、遺伝子-遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子-遺伝子相関アーチファクトを効率的に低減するという長年のニーズを満たすものである。
「a」という用語は、「少なくとも1つ」を意味すると理解されるべきであり、「約」および「およそ」という用語は、当業者によって理解されるように、標準的な変動を可能にすると理解されるべきであり、範囲が提供される場合、エンドポイントが含まれる。
本明細書で使用される場合、「含む(include)」、「含む(includes)」、および「含む(including)」という用語は、非限定的であることを意味し、それぞれ、「含む(comprise)」、「含む(comprises)」、および「含む(comprising)」を意味すると理解される。
いくつかの例示的な実施形態では、本開示は、遺伝子-遺伝子相関のためのデータ処理を改善するためのコンピュータ実装方法を提供し、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、遺伝子-遺伝子相関計算プロセスを適用する前に適用される。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。
本明細書で使用される場合、「遺伝子-遺伝子相関」という用語は、試料全体にわたって同様の発現パターンを示す対の遺伝子を意味する。2つの遺伝子が共発現すると、これらの2つの遺伝子の発現レベルはともに上昇し、下降する。共発現遺伝子は、多くの場合、同じ生物学的経路に関与し、同じ転写因子によって概して調節され、または別様で機能的に関連している。
本明細書で使用される場合、「正規化」という用語は、データセットを編成して冗長性を低減し、データの整合性を向上させるプロセスを指し、調整値を整合させるか、または特定の分布に適合させるための調整を付加することを含む。正規化プロセスは、体系的な変動(例えば、実験条件の変動性、機械パラメータ)を除去し、サンプル間の偏りのない比較を可能にし得る。
本明細書で使用される場合、「補完」という用語は、欠落データを置換された値で置き換えるプロセスを意味する。欠落データは、例えば、結果の代表性に影響を与える可能性のある効率の低下を生じさせることによって、相当量のバイアスが導入されるという問題を引き起こす可能性がある。補完には、欠落データを他の利用可能な情報に基づいて推定値で置き換えるプロセスが含まれ、これにより、標準的な技術を使用してデータセットの分析を可能にすることができる。
例示的な実施形態
本明細書に開示される実施形態は、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子-遺伝子相関のための遺伝子発現データの処理を改善する方法を提供する。
いくつかの例示的な実施形態では、本開示は、遺伝子-遺伝子相関アーチファクトを低減するためのデータ処理を改善するための方法を提供し、これには、正規化または補完のためにscRNA-seqデータを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することとが含まれ、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む。
いくつかの例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、(3)均一分布下で0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。
一部の特定の例示的な実施形態では、ランダムノイズは、(1)発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、(2)約0.1~約20パーセンタイル、約0.1パーセンタイル、約0.5パーセンタイル、約1パーセンタイル、約1.5パーセンタイル、約2パーセンタイル、約3パーセンタイル、約4パーセンタイル、約5パーセンタイル、約7パーセンタイル、約10パーセンタイル、約15パーセンタイル、約20パーセンタイル、または約25パーセンタイルの遺伝子の発現レベルを最大ノイズレベルと見なすことと、(3)均一分布下で、0から最大ノイズレベルまでの範囲の乱数を生成することと、(4)発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定され、本出願のコンピュータ実装方法は、相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することをさらに含む。
いくつかの例示的な実施形態では、本出願のコンピュータ実装方法は、分子相互作用をマッピングするために遺伝子-遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、薬物耐性因子を識別すること、さらなる下流分析を行うための指針を提供すること、分子相互作用に関する新規の生物学的仮説を導出すること、がんの診断目的のための統計的尺度を提供すること、異なる生理学的または疾患状態にわたる遺伝子-遺伝子相互作用の変化を理解するための比較ネットワーク分析を導くこと、異なる条件下で特定の表現型を分析するための遺伝子-遺伝子相互作用の変化を理解すること、遺伝子転写を定量するための分化の動態を明らかにすること、または診断、予測、もしくは予測目的のためのバイオマーカーを発見することをさらに含む。
本方法またはシステムは、遺伝子-遺伝子相関のための遺伝子発現データの処理を改善するための上記の方法またはシステムのいずれかに限定されないことが理解される。本明細書で提供される方法ステップの数字および/または文字による連続した標識は、方法またはその任意の実施形態を特定の指示された順序に限定することを意味しない。特許、特許出願、公開特許出願、アクセッション番号、技術論文、および学術論文を含む種々の公表文献が、本明細書に引用される。これらの引用文献の各々は、参照により、その全体およびすべての目的のために、本明細書に組み込まれる。別段記載されない限り、本明細書で使用される技術および科学用語はすべて、本発明が属する技術分野の当業者によって概して理解される意味と同じ意味を有する。
本開示は、本開示をより詳細に説明するために提供される以下の実施例を参照することにより、より完全に理解されるであろう。これらは、本開示の範囲を限定するものとして解釈されるべきではない。
データベースおよび方法
scRNA-seqデータセットの取得
骨髄scRNA-seqデータをヒト細胞アトラスデータポータル(Human Cell Atlas Data Portal)(https://preview.data.humancellatlas.org/)から取り出した。取り出されたデータセットは、10×プラットフォームによる378,000個の免疫細胞のプロファイリングデータを含む。計算負荷を低減するために、元のデータセットから50,000個の細胞を無作為にサンプリングした。続いて、100個未満の細胞(0.2%)で発現された遺伝子をさらにフィルタリングした。出力では、12,600個の遺伝子が最終的なベンチマークデータセットに残った。クラスタリングまたは次元削減などの単一細胞分析を、Seurat RパッケージVersion3.0を使用して行った。
データの正規化または補完
データの正規化または補完のために、データの前処理ステップで複数の方法が適用され、これには、全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR;Hafemeister et al.,Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression.bioRxiv,2019:p.576827)、ディープカウントオートエンコーダ(DCA)ネットワーク(Eraslan et al.,Single-cell RNA-seq denoising using a deep count autoencoder.Nature Communications,2019.10(1):p.390)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC;van Dijk,et al.,Recovering Gene Interactions from Single-Cell Data Using Data Diffusion.Cell,2018.174(3):p.716-729.e27)、または発現回復を介した単一細胞分析(SAVER;Huang et al.)が含まれる。NBR、SAVER、およびDCAは、ツールの指示に従ってデフォルトパラメータで実行された。MAGICは、主成分の数npca=30、マルコフ親和性行列の累乗t=6、最近傍の数k=30のパラメータを使用して実行された。NormUMIおよびNBRは、正規化法である。DCA、MAGIC、SAVERの方法は補完法である。
遺伝子-遺伝子相関計算
各遺伝子対のスピアマン相関を、それぞれ、クラスタ0からクラスタ9までなどの各クラスタ内の細胞内で計算した。遺伝子が1%を超える細胞またはそのクラスタ内の50個の細胞のいずれか大きい方で発現している場合、その遺伝子は1つのクラスタで発現しているとみなされる。一方のクラスタ内の遺伝子対の相関は、両方の遺伝子がクラスタ内で発現されたときに、有効な相関としてみなされた。10個のクラスタ(クラスタ0~9)で最も効果的な相関が、特定の遺伝子対の最終的な相関として記録された。
タンパク質-タンパク質相互作用によるデータエンリッチメント
ヒトタンパク質-タンパク質相互作用(PPI)データを、STRINGデータベースから取り出した(Szklarczyk,et al.,STRING v10:protein-protein interaction networks,integrated over the tree of life.Nucleic Acids Research,2014.43(D1):p.D447-D452)。各方法のスピアマン相関係数によって遺伝子対をランク付けした。次いで、高いランクを有する遺伝子対(上位n個の遺伝子対)を取得し、タンパク質-タンパク質相互作用データベースに現れる対の画分をカウントした。
ノイズ正則化
ノイズ正則化をデータ処理に適用した。遺伝子発現レベルによって決定されるランダムノイズを発現マトリックスに付加してから相関計算に進む。ランダムノイズが生成され、V、例えば、特定の方法によって処理される発現マトリックス中の細胞jにおける遺伝子iの発現値に付加される。ランダムノイズは、(1)すべての細胞にわたる遺伝子iの発現分布を決定することと、(2)Mとして表される遺伝子i発現の1パーセンタイルを最大ノイズレベルと見なすことと、(3)Mがゼロに等しい場合、0.1を最大ノイズレベルとして使用することと、(4)均一分布下で0~Mの範囲の乱数を生成することと、(5)Vに乱数を付加してノイズ正則化発現マトリックスを取得することと、によって生成される。
ネットワーク構築
各遺伝子対のスピアマン相関を、各クラスタ内の細胞内で計算した。各クラスタ内で、遺伝子対は、それらのスピアマン相関によってランク付けされた。基本的な細胞機能にはハウスキーピング遺伝子が必要であるため、組織型または細胞型に関係なくすべての細胞で発現することが期待される。細胞型特異的相互作用モジュールを構築するために、ハウスキーピング遺伝子をネットワーク構築物から除去した。除去されたハウスキーピング遺伝子のリストには、Eisenbergらから入手したハウスキーピング遺伝子リストが含まれていた(Eisenberg et al.,Human housekeeping genes,revisited.Trends in Genetics,2013.29(10):p.569-574)。さらに、典型的なハウスキーピング遺伝子、例えば、ACTB、B2M、およびリボソーム、TCA、リアクトーム由来の細胞骨格遺伝子、ならびにmtDNAをコードする遺伝子を、除去されたハウスキーピング遺伝子のリストに付加した。ハウスキーピング遺伝子を除去した後、各クラスタから上位1,000にランク付けされた遺伝子対を取得し、まとめてドラフトネットワークを構築した。ネットワーク内の各ノードの重要度は、Csardiらによるigraph Rパッケージを使用した次数およびページランクの値によって測定された(Csardi et al.,The igraph software package for complex network research.InterJournal,Complex Systems,2006.1695(5):p.1-9)。続いて、STRINGデータベースのタンパク質-タンパク質相互作用を参照していないリンクを削除することにより、ネットワークをクリーンアップした。最終的なネットワークは、ShannonらによるCytoscape(Shannon et al.,Cytoscape:A Software Environment for Integrated Models of Biomolecular Interaction Networks.Genome Research,2003.13(11):p.2498-2504)と、OnoらによるR package RCy3(Ono et al.,CyREST:Turbocharging Cytoscape Access for External Tools via a RESTful API.F1000Research,2015.4:p.478-478)を使用して可視化された。ネットワークレイアウトは、AggらによるEntOptLayout Cytoscapeプラグインを使用して生成された(Agg et al.,The EntOptLayout Cytoscape plug-in for the efficient visualization of major protein complexes in protein-protein interaction and signaling networks.Bioinformatics,2019)。
実施例1.代表的な正規化/補完法を使用したデータの前処理
複数の代表的な正規化/補完法を、遺伝子-遺伝子相関推論に対するそれらの影響に焦点を当ててベンチマークした。グローバルスケーリング正規化方法は、全発現によって各細胞の遺伝子発現を正規化することにより、データ操作が最も少ないものであった。通常、この方法の後には対数変換とzスコアスケーリングが続く。対数変換およびzスコアスケーリングはランクベースの相関を変更しないため、合計UMI正規化のみを比較対象に含めた(NormUMIと称される)。「正則化された負の二項回帰」(NBRと称される)を利用して、scRNA-seqデータの分散を正規化し、安定化させるフレームワークを含めた。これは、生物学的不均一性を維持しながら、技術的ノイズの影響を除去することができる。異なる補完方法論的カテゴリを表す3つの追加の方法も含まれており、例えば、(i)MAGICは、類似の細胞にわたる共有情報を利用してノイズを除去し、ドロップアウト値を記入するデータ平滑化アプローチであり、(ii)SAVERは、負の二項分布仮定の下で各遺伝子の発現をモデル化し、真の発現の後方分布を出力するモデルベースのアプローチであり、(iii)DCAは、scRNA-seqデータの複雑性および非線形性を捕捉し、遺伝子発現を再構築するための深層学習ベースのオートエンコーダである。
これらの5つの例示的な正規化/補完法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERは、前処理法から導出される遺伝子-遺伝子相関を比較することにより、ヒト細胞アトラスプロジェクト(Human Cell Atlas Project)(Regev et al.,The Human Cell Atlas.eLife,2017.6:p.e27041)の骨髄scRNA-seqデータに適用された。NormUMIを除く他の4つの方法では、共発現が予想されない遺伝子対について相関アーチファクトが導入されることによって、遺伝子-遺伝子相関を著しく増大させることが示された。これらの方法で相関が最も高い遺伝子対は、タンパク質-タンパク質相互作用における弱いエンリッチメントを有した。これは、データの前処理に導入された偽のシグナルおよび相関アーチファクトが存在する可能性があることを示唆している。過剰な平滑化または過剰な適合により、偽のシグナルがデータの前処理によって導入される可能性がある。
実施例2.単一細胞内の遺伝子-遺伝子相関の計算
ヒト細胞アトラスプレビューデータセットからの実際の骨髄scRNA-seqデータを、種々のデータ前処理方法のためのベンチマークデータセット(Regev et al.)として使用した。完全なデータセットは、図3および表1に示すように、21個の細胞クラスタにグループ化され得る378,000個の骨髄細胞を含有し、すべての主要な免疫細胞型をカバーした。元のデータセットから50,000個の細胞を無作為にサンプリングした。0.2%未満(100個の細胞)で発現する遺伝子は、このサブセットから除外された。最終的なデータセットには12,600個の遺伝子が含まれており、7900万を超える可能性のある遺伝子対が得られた。
Figure 2022548960000002
ベンチマークフレームワークの概要を図4に示す。図4に示すように、5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを、単一細胞発現データマトリックス、例えば、骨髄単一細胞発現データに適用した。得られたマトリックス(経路1として示される)から直接、遺伝子-遺伝子相関を計算した。タンパク質-タンパク質相互作用における導出された遺伝子-遺伝子相関のエンリッチメントおよび方法間の一貫性を評価した。データ前処理手順により人工的な相関関係を導入できることが発見された。(経路2として示される)ノイズ正則化ステップを導入し、遺伝子発現レベル(赤色領域)によって決定されるランダムノイズを発現マトリックスに適用した後、相関計算に移行した。このノイズ正則化ステップは、疑似相関を効果的に低減するものであり、改善された遺伝子-遺伝子相関メトリックを使用して遺伝子共発現ネットワークを構築することができる。
2つの遺伝子の発現は、1つの細胞型では高度に相関し得るが、他の細胞型では無関係である。異なる細胞型にわたる遺伝子-遺伝子相関を捕捉するために、CD4T細胞、CD8T細胞、ナチュラルキラー細胞、B細胞、前B細胞、CD14+単球、FCGR3A+単球、赤血球、顆粒球-マクロファージ前駆体、および造血幹細胞を含むベンチマークデータセットにおいて、10個の最大クラスタ内、例えば、クラスタ当たり500個を超える細胞内で遺伝子-遺伝子スピアマン相関を計算した(図3および図4)。遺伝子の各対について、10個のクラスタの中で最も高い相関を最終相関として記録した。
実施例3.データの前処理方法を用いたアーチファクトの観測
5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを、ヒト細胞アトラスプロジェクトからの骨髄scRNA-seqデータに適用した。異なる方法によって処理された5つの異なるデータマトリックスにおける全体的な遺伝子-遺伝子相関の分布を比較した。遺伝子対の大部分は何の関連も有していないと予想されたため、相関分布は0でピークに達すると予想された。図5Aに示すように、NormUMIでは、0でピークに達する相関分布が生成された。しかしながら、他の4つの方法では、図5Aに示すように、スピアマン相関係数に関してはるかに高い中央値相関が生じた(NormUMI ρ=0.023、NBR ρ=0.839、MAGIC ρ=0.789、DCA ρ=0.770、SAVER ρ=0.166)。
2つの遺伝子間の相互作用にアクセスして、特定のデータ前処理方法を適用した後、より高い相関が、2つの遺伝子間の機能的または物理的相互作用のいずれかのより高い確率を反映するかどうかを明らかにした。共発現遺伝子によってコードされるタンパク質は、ランダムなタンパク質対よりも互いに相互作用する頻度が高い。結果として生じるより高い相関が真である場合、共発現遺伝子は、タンパク質-タンパク質相互作用データベースにおいて相対的により高いエンリッチメントを有するはずであり、一方、疑似相関は、エンリッチメントを弱めるはずである。5,772,157個の相互作用遺伝子対を含有するSTRINGデータベース(Szklarczyk et al.)を使用して、上位ランクの共発現遺伝子対におけるタンパク質-タンパク質相互作用エンリッチメントを評価した。各方法からの上位遺伝子対(相関順位による)を選択した。これらの対のうち、STRINGデータベースと重複する部分を、図5Bに示すように計算した。結果として、NormUMIが、上位100個および10,000個の遺伝子対のSTRINGとそれぞれ80%および47%の重複を示し、最も高いタンパク質-タンパク質相互作用エンリッチメントを有したことが示された。対照的に、NBR由来の上位遺伝子対は、予想されるSTRINGとの重複よりも低かった(2%未満)が、MAGICおよびDCAは、11%~22%の範囲の類似したタンパク質-タンパク質相互作用エンリッチメントを有していた。SAVERは相対的に優れた結果を示したが、エンリッチメントはNormUMIの半分に過ぎなかった。
遺伝子対を無作為にサンプリングし、ランダム対をPPIと重ね合わせて、バックグラウンドエンリッチメントレベルを推定した(図5D)。推定バックグラウンドエンリッチメントレベルは約3.6%であり、NBRのPPIエンリッチメントがバックグラウンドよりもさらに低かったことを示している。この簡便な方法は、物理的相互作用と遺伝子共発現とを直接関連付けるが、方法のすべてで同じ仮定が行われている場合、結果はデータ前処理方法間の有用な比較も提供する。
図5A~5Cは、データ前処理方法を使用して遺伝子発現データを処理した場合の、疑似遺伝子-遺伝子相関などのアーチファクトを観測した結果を示す。相関の分布は、図5Aに示すように、これらの方法間で異なっていた。NormUMIは0に近い中心分布を有し、NBR、DCA、MAGICは明確な膨張相関分布を有していた。ラインは中央値を示す。図5Bは、各方法のタンパク質-タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。X軸は、上位n個の遺伝子対を示す。Y軸は、STRINGタンパク質-タンパク質相互作用データベースに現れるn個の遺伝子対の画分を示す。NormUMIのエンリッチメント度は最も高く、次いで、SAVER、MAGIC、DCA、NBRが高い。図5Cは、相関性の高い遺伝子対を推論する方法の間で一貫性が低かったことを示している。下側の三角形は、方法間の上位5000個の遺伝子対の重複を示している。これは、NormUMIとDCAとの間で最も重複度が高かった。両方の方法で上位5,000位にランクインしたのは、わずか30個の遺伝子対であった。上側の三角形では、方法間の共有対の正確なランクを比較し、低い一致度が示された。
5つのデータ前処理手順から導出された相関性の高い遺伝子対の一貫性を比較した。各方法からの上位5,000個の遺伝子対について、一対一の比較を実施した。結果として、方法間の遺伝子対の重複が最小限であることが示された。例えば、上位5,000個の対のうち、1つの遺伝子対のみが、NormUMIおよびNBRによって共有された。最も重複したのは、NormUMIとDCAとの間であり、2つの方法によって共有される遺伝子対は30個のみであった(図5Cの下側の三角形)。各方法における重複対のランクをさらに比較した。結果として、これらの方法による明確に定義されたか、または明確な関係が存在しなかったことが示された(図5Cの上側の三角形)。このアプローチは、完全な定量的結果をもたらさなかったにもかかわらず、これらのデータ前処理方法から導出される高い相関はアーチファクトである可能性が高いことが示された。
実施例4.陰性対照遺伝子対としての無関係な遺伝子
陰性対照遺伝子対を使用して、疑似相関の潜在的な原因を調査した。陰性対照遺伝子対は、以下の基準、すなわち、(i)2つの遺伝子は、STRINGデータベース内で相互作用する対として現れてはならず、(ii)2つの遺伝子は、いかなる遺伝子オントロジー(GO)タームも共有してはならず(Ashburner et al.,Gene ontology:tool for the unification of biology.The Gene Ontology Consortium.Nature genetics,2000.25(1):p.25-29;The Gene Ontology Consortium,The Gene Ontology Resource:20 years and still going strong.Nucleic Acids Research,2018.47(D1):p.D330-D338)、(iii)2つの遺伝子は、同じ染色体上にあってはならないという基準により定義した。
異なるデータ前処理方法を適用した後の、MB21D1およびOGTの遺伝子対、例えば、陰性遺伝子対照対の発現値の散布図を図6に示している。これら2つの遺伝子の相関を示す既存の証拠は存在しなかった。クラスタ2中の6534個の細胞のうちの3個のみが、元の発現マトリックスにおいて両方の遺伝子において非ゼロ発現値を有していた。5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを分析に適用した。陰性対照遺伝子対の1つであるMB21D1およびOGTは、細胞クラスタ#2においてNBR(ρ=0.843)、DCA(ρ=0.828)、またはMAGIC(ρ=0.739)処理方法を適用した後に高い相関を有していた。可視化により、これらの相関アーチファクトがデータの過剰な平滑化によって引き起こされ得ることが示唆された。
5つの方法のうち、NormUMIは、生データからゼロカウントを維持する唯一の方法であった。NormUMIを用いた解析では、6,534個の細胞のうち6,110個の細胞(93.5%)が両方の遺伝子においてゼロ値を有し、3個の細胞(0.04%)が両方の遺伝子において非ゼロ値を有し、1.3%および5.2%の細胞がそれぞれMB21D1およびOGTについて非ゼロ値を有していた。他の4つの方法では、元の発現マトリックスからゼロが大きく変化した。これらの手順を適用した後、処理されたデータのすべては、特に元のデータ内の「二重ゼロ領域」において、ある程度の過剰な平滑化が生じ、図6に示すような相関アーチファクトが作成された。NBRは補完法ではなく、ゼロ値を最小限にシフトしただけであるが、調整された1細胞当たりの大きさが異なるため、人工的なランク相関が導入された。
実施例5.ノイズ正則化方法を適用した疑似相関の低減
擬似相関を低減するためにノイズ正則化方法を適用した。前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERによって処理された発現マトリックスの各項目にランダムノイズを付加した。一例として、細胞jにおける遺伝子iの発現値は、Vとして示される。ノイズは、以下のステップ、すなわち、(i)種々のデータ前処理方法を適用した後の遺伝子iの発現分布を計算することと、(ii)Mとして表される遺伝子iの発現値の1パーセンタイルを決定することであって、Mがノイズレベルの最大値として使用される、決定することと、(iii)0~Mの範囲の一様分布乱数を生成し、この乱数をVに付加することと、によって生成された。
このノイズ正則化方法を各前処理方法に適用した後、遺伝子-遺伝子相関を再計算した。図7Aは、例示的な実施形態による、各方法にノイズ正則化を適用した後の、スピアマン相関分析、例えば、相関分布の結果を示している。異なる色は、異なる方法を示している。結果は、相関の分布に関して図7Aに示すように、5つの方法すべてにおける相関中央値が0にシフトすることを示しており、これは、ノイズ正則化の適用により相関の膨張が低減されていることを示している。
図7Bは、例示的な実施形態による、ノイズ正則化を適用した後のタンパク質-タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示している。X軸は、上位n個の遺伝子対を示している。Y軸は、STRINGタンパク質-タンパク質相互作用データベースに現れるn個の遺伝子対の画分を示している。異なる色は、異なる方法を示している。実線の誤差バーは、10回の反復に基づく99%信頼区間を示す。すべての方法において、上位相関遺伝子におけるタンパク質-タンパク質相互作用エンリッチメントの実質的な改善が見られた。NBRは、以前には、タンパク質-タンパク質相互作用において最も低いエンリッチメント度を有していた。しかしながら、ノイズ正則化法を適用した後、NBRはタンパク質-タンパク質相互作用において最も高いエンリッチメント度を示している。NBRにおける上位100個、1,000個および10,000個の相関遺伝子対において、遺伝子対の99.0%、96.8%および67.7%をタンパク質-タンパク質相互作用データベースにおいて見い出すことができ、それぞれ99.0倍、50.9倍および31.6倍の改善に対応する。DCAは、以前の結果において、平均して約12%のタンパク質-タンパク質相互作用エンリッチメントを有していた。ノイズ正則化後、DCAは、上位100個の対で約97.6%、上位10,000個の対で約55.8%のエンリッチメントを有し、これは約5倍の改善に対応する。以前に最高のエンリッチメント度を示したNormUMIはまた、約1.1~1.3倍の改善を示した。ノイズ正則化のこれらの結果が堅牢かつ再現性があるかどうかを試験するために、手順を異なるランダムシードで10回繰り返して、ランダムノイズを生成した。タンパク質-タンパク質相互作用のエンリッチメント性能は、各反復の間で安定していた。多くの点におけるNBRの標準偏差は0.1%未満であった(誤差バーは、図7Bにおける99%信頼区間を表す)。
図7Cは、相関性の高い遺伝子対を推論する際にノイズ正則化を適用した後の方法間の一貫性を示している。異なる方法間には、より多くの重複遺伝子対が存在した。上位5,000個の遺伝子対のうち、NormUMIとNBRとの間には2,851個(57%)の重複した対が存在し(図7Cの下側の三角形)、重複した遺伝子対との間に有意な相関が存在した(スピアマン相関=0.50、P値=1.77e-181、図7Cの上側の三角形)。他の方法の中でも、特に高度にランク付けされた遺伝子間においても、ある程度の一致度が示された。図5Cに示すようなノイズ正則化を適用せずに生成した結果と比較して、図7Cに示すように、異なる方法間での一致度が高かった。例えば、50%超の遺伝子対が、ノイズ正則化を適用した後、NormUMIとNBRとの間で共有された。
実施例6.scRNA-seqデータから推論される遺伝子-遺伝子相関ネットワーク
scRNA-seqから明らかになった遺伝子-遺伝子相関を使用して、細胞型特異的モジュールを明らかにする、より包括的なネットワークを再構築することができる。先の実施例に記載されている本出願のNBRおよびノイズ正則化の組み合わせにより、すべての方法の中で最も高いタンパク質-タンパク質相互作用エンリッチメントが生成された。したがって、先の実施例で説明したように、本出願のNBRおよびノイズ正則化をscRNA-seqデータに適用することによって導出された遺伝子-遺伝子相関を使用して、遺伝子-遺伝子相関ネットワークを再構築した。
ハウスキーピング遺伝子は、典型的には、基本的かつ一般的な細胞機能を反映するので、細胞型特異的相互作用により焦点を当てるために、リンクを伴うハウスキーピング遺伝子をネットワーク構築物から除去した。最も高い相関を有する上位1,000個の遺伝子対を各クラスタ(クラスタ#0~クラスタ#9)から取得し、ネットワークを再構築した。次数、ページランク、グラフ理論からの2つのアルゴリズムを使用して、ネットワーク内の各遺伝子の重要度を測定した。ネットワーク内の遺伝子の次数の値は、遺伝子が有するリンク(相互作用)の数に等しい(Bondy et al.,Graph Theory.2008:Springer Publishing Company,Incorporated.654)。重要な遺伝子は、より多くの遺伝子とつながる傾向があるため、重要な遺伝子は、相対的に高い次数の値を有するはずである。リンクの量に加えて、ページランクは、遺伝子に対する全体的な人気度を測定することによって、遺伝子へのリンクの質を評価するものと考えられている(Page et al:Bringing order to the web.1999,Stanford InfoLab)。
ノイズ正則化なしに構築されたネットワークと比較して、ノイズ正則化を付加して構築されたネットワークは、トポロジー構造において生物学的機能をより良く示すことができる。さらに、次数またはページランクの値が高い遺伝子も免疫系において重要な機能を有する傾向がある。例えば、LYZ、CD79B、およびNKG7は、それぞれ、単球、B細胞、およびナチュラルキラー細胞のための重要なマーカー遺伝子である。これらの3つの遺伝子は、ノイズ正則化されたネットワーク内のページランクおよび次数の高い値を有していた。対照的に、図8Aおよび図8Bに示すように、ノイズ正則化が適用されない場合、CD79BおよびNKG7は、ネットワーク内に全く存在しなかった。さらに、既知のタンパク質-タンパク質相互作用情報を使用して、ネットワークをさらに改善した(Cheng et al.,Inferring Transcriptional Interactions by the Optimal Integration of ChIP-chip and Knock-out Data.Bioinformatics and biology insights,2009.3:p.129-140;Sayyed-Ahmad et al.,Transcriptional regulatory network refinement and quantification through kinetic modeling,gene expression microarray data and information theory.BMC Bioinformatics,2007.8(1):p.20)。STRINGタンパク質-タンパク質相互作用データベースに見い出され得る遺伝子-遺伝子相関のみを保持した。続いて、EntOptLayout(Agg et al.)を適用した。EntOptLayoutは、ネットワーク内の種々のモジュールを効率的に可視化するネットワークアルゴリズムである。
最終的なネットワークにより、図8Cに示すように、ベンチマークデータセット内の細胞型と一致する複数の細胞型関連モジュールが明らかになった。このネットワークにより、明確な免疫細胞型関連モジュールが形成された。例えば、右上隅部は、B細胞および前B細胞モジュールを表しており、CD78AおよびCD79Bは、よりページランクが高い(図8Cのノードサイズ)と評価された。同様に、右下隅部はナチュラルキラー細胞モジュールを表しており、中間右側領域はT細胞、ならびに細胞傷害性CD8T細胞からナチュラルキラー細胞への移行を表した。結果として、ノイズ正則化を実施した後、scRNA-seqデータを使用して、生物学において存在するネットワークをよりよく反映する遺伝子-遺伝子共発現ネットワークを再構築し得ることが示された。
図8A~8Cは、scRNA-seqデータから推論される遺伝子-遺伝子相関ネットワークを示している。図8Aおよび図8Bは、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数およびページランクの比較を示している。一方のネットワークで提示され、他方のネットワークでは存在しない遺伝子は、非提示のネットワークでゼロ値が割り当てられた。NKG7、CD79B、またはHBBなどの細胞型マーカー遺伝子は、ノイズ正則化後に相対的に高い次数およびページランクを有していた。図8Cは、改善された遺伝子-遺伝子相関を有するネットワーク構築を示している。scRNA-seqデータは、NBRおよびノイズ正則化を適用することによって処理した。さらに、タンパク質-タンパク質相互作用には存在しなかったリンクは除去された。図8Cに示すように、ノードサイズは、遺伝子のページランクに比例する。CD79A、CD79B、NKG7、GNLY、LYZ、またはSTMN1などの細胞型マーカー遺伝子は、高いページランクを有し、異なる細胞型におけるそれらの重要度を示している。細胞型関連遺伝子はまた、細胞型特異的モジュールを形成した。図9は、ノイズ正則化を適用する前後のリアクトーム経路における上位相関遺伝子対のエンリッチメントを示している。X軸は、上位n個の遺伝子対を示している。Y軸は、リアクトームデータベースの同じ経路に現れるn個の遺伝子対の画分を示している。破線および実線はそれぞれノイズ正則化の前後を表している。
実施例7.最適なノイズレベルの決定
ノイズ正則化の間に付加される最適なノイズレベルを、各遺伝子の発現レベルと比較して決定した。各遺伝子の発現レベルの0.1、1、2、5、10、または20パーセンタイルなどの異なるノイズレベルを、5つの代表的なデータ前処理方法、例えば、NormUMI、NBR、DCA、MAGIC、およびSAVERを適用することによって試験した。結果は、図10に示すように、1パーセンタイルが5つの方法すべてで最高のタンパク質-タンパク質相互作用エンリッチメントを最適に生成したことを示している。続いて、図11に示すように、遺伝子発現レベルの約0~1パーセンタイルの範囲のランダムノイズを生成し、発現マトリックスに付加した。このノイズ正則化プロセスは、より信頼性の高い遺伝子-遺伝子関係を生成することによって、上位遺伝子対間の偽の相関を有意に低減した。
図11に示すように、ノイズ正則化プロセスは、特定のscRNA-seq前処理方法によって処理される発現マトリックスを取得することを含み、この発現マトリックスは、m個の細胞におけるn個の遺伝子の発現を含有していた。Vが細胞jにおける遺伝子iの発現値であると仮定すると、以下の手順、すなわち、(1)すべての細胞にわたる遺伝子iの発現分布を決定することと、(2)遺伝子iの発現分布からの第1のパーセンタイルを、Mとして表される遺伝子iの最大ノイズレベルと見なすことと(Mが最小値mより小さい場合、mが最大ノイズレベルとして使用される)、(3)均一分布下で0~Mの範囲の乱数を生成することと、(4)この乱数をVに付加して、ノイズ正則化発現値を取得することと、(5)発現マトリックスのすべての項目についてこの手順を繰り返すことと、により、ランダムノイズが生成され、Vに付加される。

Claims (35)

  1. 遺伝子-遺伝子相関のためのデータ処理を改善するための方法であって、
    正規化または補完のために遺伝子発現データを処理することと、
    ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することと、
    遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む、方法。
  2. 前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項1に記載の方法。
  3. 前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、請求項1に記載の方法。
  4. 前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、請求項3に記載の方法。
  5. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項3に記載の方法。
  6. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項3に記載の方法。
  7. 前記遺伝子-遺伝子相関計算プロセスが、細胞クラスタ内で行われる、請求項1に記載の方法。
  8. 前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、請求項1に記載の方法。
  9. 全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)が、正規化または補完のために遺伝子発現データを処理するために使用される、請求項1または3または4または5または6に記載の方法。
  10. 前記相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することをさらに含む、請求項1または3または4または5または6に記載の方法。
  11. 前記遺伝子-遺伝子相関ネットワークが、細胞型特異的である、請求項10に記載の方法。
  12. 分子相互作用をマッピングするために前記遺伝子-遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む、請求項10に記載の方法。
  13. 前記ネットワークが、相関遺伝子対に基づいて構築され、前記相関遺伝子対が、請求項1に記載の方法を使用して取得される、遺伝子-遺伝子相関ネットワーク。
  14. 遺伝子-遺伝子相関のためのデータ処理のためのコンピュータ実装方法であって、
    遺伝子発現データを取り出すこと、
    正規化または補完のために前記遺伝子発現データを処理すること、
    ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用すること、
    遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得し、前記相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築すること、を含む、方法。
  15. 前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項14に記載の方法。
  16. 前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、請求項14に記載の方法。
  17. 前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、請求項16に記載の方法。
  18. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項16に記載の方法。
  19. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項16に記載の方法。
  20. 前記遺伝子-遺伝子相関計算プロセスが、細胞クラスタ内で行われる、請求項14に記載の方法。
  21. 前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、請求項14に記載の方法。
  22. 全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)が、正規化または補完のために遺伝子発現データを処理するために使用される、請求項14または16または17または18または19に記載の方法。
  23. 前記遺伝子-遺伝子相関ネットワークが、細胞型特異的である、請求項14に記載の方法。
  24. 分子相互作用をマッピングするために前記遺伝子-遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む、請求項14または16または17または18または19に記載の方法。
  25. 遺伝子-遺伝子ネットワークを生成するためのシステムであって、
    遺伝子発現データを記憶するように構成されたデータベースと、
    命令を記憶するように構成されたメモリと、
    前記メモリに結合された少なくとも1つのプロセッサであって、前記少なくとも1つのプロセッサが、
    前記遺伝子発現データを取り出すことと、
    正規化または補完のために前記遺伝子発現データを処理することと、
    ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することと、
    遺伝子-遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、
    前記相関遺伝子対に基づいて遺伝子-遺伝子相関ネットワークを構築することと、を行うための命令を実行するように構成されている、少なくとも1つのプロセッサと、
    前記プロセッサに結合され、遺伝子-遺伝子相関のためのクエリを受信し、前記相関遺伝子対および前記構築された遺伝子-遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む、システム。
  26. 前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項25に記載のシステム。
  27. 前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、請求項25に記載のシステム。
  28. 前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、請求項27に記載のシステム。
  29. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの約0.1~約20パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項27に記載のシステム。
  30. 前記ランダムノイズが、
    前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
    前記遺伝子の発現レベルの1パーセンタイルを最大ノイズレベルと見なすことと、
    均一分布下で0から前記最大ノイズレベルまでの範囲の乱数を生成することと、
    前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項27に記載のシステム。
  31. 前記遺伝子-遺伝子相関計算プロセスが、細胞クラスタを用いて行われる、請求項25に記載のシステム。
  32. 前記少なくとも1つのプロセッサが、前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うようにさらに構成されている、請求項25に記載のシステム。
  33. 全一意分子識別子正規化(NormUMI)、正則化された負の二項回帰(NBR)、ディープカウントオートエンコーダネットワーク(DCA)、細胞のマルコフ親和性ベースのグラフ補完(MAGIC)、または発現回復を介した単一細胞分析(SAVER)が、正規化または補完のために遺伝子発現データを処理するために使用される、請求項25または27または28または29または30に記載のシステム。
  34. 前記遺伝子-遺伝子相関ネットワークが、細胞型特異的である、請求項25に記載のシステム。
  35. 前記少なくとも1つのプロセッサが、分子相互作用をマッピングするために前記遺伝子-遺伝子相関ネットワークを利用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子-遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することを行うようにさらに構成されている、請求項25または27または28または29または30に記載のシステム。
JP2022517965A 2019-09-25 2020-09-25 単一細胞rna-seqデータ処理 Pending JP2022548960A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962905519P 2019-09-25 2019-09-25
US62/905,519 2019-09-25
PCT/US2020/052787 WO2021062198A1 (en) 2019-09-25 2020-09-25 Single cell rna-seq data processing

Publications (1)

Publication Number Publication Date
JP2022548960A true JP2022548960A (ja) 2022-11-22

Family

ID=72840639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517965A Pending JP2022548960A (ja) 2019-09-25 2020-09-25 単一細胞rna-seqデータ処理

Country Status (8)

Country Link
US (1) US20210090686A1 (ja)
EP (1) EP4035163A1 (ja)
JP (1) JP2022548960A (ja)
KR (1) KR20220069943A (ja)
CN (1) CN114424287A (ja)
AU (1) AU2020356582A1 (ja)
CA (1) CA3154621A1 (ja)
WO (1) WO2021062198A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394358B (zh) * 2022-08-31 2023-05-12 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和系统
US20240145035A1 (en) * 2022-11-01 2024-05-02 BioLegend, Inc. Analyzing per-cell co-expression of cellular constituents
CN117995282A (zh) * 2023-06-19 2024-05-07 杭州联川基因诊断技术有限公司 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180251849A1 (en) * 2017-03-03 2018-09-06 General Electric Company Method for identifying expression distinguishers in biological samples
EP3655955A4 (en) * 2017-07-21 2021-04-21 The Board of Trustees of the Leland Stanford Junior University SYSTEMS AND METHODS FOR ANALYSIS OF MIXED CELL POPULATIONS

Also Published As

Publication number Publication date
CA3154621A1 (en) 2021-04-01
US20210090686A1 (en) 2021-03-25
EP4035163A1 (en) 2022-08-03
CN114424287A (zh) 2022-04-29
WO2021062198A1 (en) 2021-04-01
AU2020356582A1 (en) 2022-04-07
KR20220069943A (ko) 2022-05-27

Similar Documents

Publication Publication Date Title
Gu et al. simplifyEnrichment: a Bioconductor package for clustering and visualizing functional enrichment results
Liesecke et al. Ranking genome-wide correlation measurements improves microarray and RNA-seq based global and targeted co-expression networks
Li et al. Modeling and analysis of RNA‐seq data: a review from a statistical perspective
Archer et al. Empirical characterization of random forest variable importance measures
Li et al. Gene networks in plant biology: approaches in reconstruction and analysis
JP2022548960A (ja) 単一細胞rna-seqデータ処理
WO2003100557A2 (en) Computer systems and methods for subdividing a complex disease into component diseases
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
WO2004013727A2 (en) Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
Pham et al. Analysis of microarray gene expression data
Yoosefzadeh-Najafabadi et al. Genome-wide association study statistical models: A review
Tian et al. Model-based autoencoders for imputing discrete single-cell RNA-seq data
Oates et al. Joint estimation of multiple related biological networks
Pavel et al. Network analysis of microarray data
Vignes et al. Gene clustering via integrated Markov models combining individual and pairwise features
Song et al. An autoencoder-based deep learning method for genotype imputation
Shervais et al. Reconstructability analysis as a tool for identifying gene-gene interactions in studies of human diseases
Huang et al. Pathway and network analysis of differentially expressed genes in transcriptomes
Hu Modeling the gene regulatory dynamics in neural differentiation with single cell data using a machine learning approach
Madrigal et al. A unified model for interpretable latent embedding of multi-sample, multi-condition single-cell data
Ahmed et al. Predicting Alzheimer's Disease Using Filter Feature Selection Method
Daub et al. Employing conservation of co-expression to improve functional inference
Kamgnia Wonkap Gene Regulatory Network Inference Using Machine Learning Techniques
Lakkis Scalable Machine Learning Methods for the Analysis of Single-Cell Transcriptomics and Multiomics Data
Alavi et al. scQuery: a web server for comparative analysis of single-cell RNA-seq data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230920