JP7423101B2 - 細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法 - Google Patents

細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法 Download PDF

Info

Publication number
JP7423101B2
JP7423101B2 JP2022526658A JP2022526658A JP7423101B2 JP 7423101 B2 JP7423101 B2 JP 7423101B2 JP 2022526658 A JP2022526658 A JP 2022526658A JP 2022526658 A JP2022526658 A JP 2022526658A JP 7423101 B2 JP7423101 B2 JP 7423101B2
Authority
JP
Japan
Prior art keywords
cell
cells
cell population
sequence
cotus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022526658A
Other languages
English (en)
Other versions
JPWO2021241721A1 (ja
Inventor
克之 城口
ジャンシ ジン
れいこ 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Publication of JPWO2021241721A1 publication Critical patent/JPWO2021241721A1/ja
Application granted granted Critical
Publication of JP7423101B2 publication Critical patent/JP7423101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Description

本発明は、細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法に関する。
共生微生物叢の構成がどのように宿主の健康1,2に寄与するかを本質的に理解するために、細胞が微生物叢3-5の基本的で物理的な単位であるから、単純に微生物叢を細胞レベルで定義すべきである。しかし、現在の最新の技術では困難である6-8
微生物相と宿主の相互作用は宿主のホメオスタシスおよび多くの疾患13-16と関連している。微生物相と宿主の相互作用のメカニズムをさらにかつ統合的に理解するために、微生物相を研究するだけでなく、微生物相と宿主の両方についてメタボロミクスおよび/またはトランスクリプトミクスのような他の分析と微生物相の組成分析を結びつけることが重要である。この目的のためには、一般に使用可能な単位、例えば、重量あたりの細胞数および/または体積あたりの分子数に基づく濃度測定が必要である。この点に関して、細胞内に存在する核酸の分子数をカウントする技術が開発されている(特許文献1~3)。このカウント技術では、分子一つ一つに固有の核酸配列(バーコード)を付与して、バーコードの種類数をカウントすることによって分子数を推定する。また、特許文献1~3において核酸の増幅中のエラーやシークエンス時の読み取りエラーにより、分子のカウント数に誤差が生じ得る。この誤差を低減する技術も開発されている(特許文献4)。特許文献4では、核酸の増幅中のエラーやシークエンス時の読み取りエラーの性質を考慮した、エラー除去とカウント数の是正に関する方法が提案されている。しかし、現行の技術6-8では、細胞レベルでの微生物相組成の測定は困難であった。さらに、微生物叢は多数の細菌種による膨大な数の細菌からなる17。しかしながら、高い分類学的分解能を有するハイスループットの細胞定量法はこれまでに開発されていない。
次世代シークエンシング技術を用いた16S rRNA遺伝子アンプリコンシークエンシングに基づいたハイスループット法が、細菌の多様性の研究に貢献した22,23。しかし、従来の方法は、精製バルク細菌ゲノムから16S rRNA遺伝子を増幅し、増幅した分子の数を測定するので、基本的には以下の限界がある。1)異なる種はゲノム上に16S rRNA遺伝子の異なるコピー数を有し、大部分の種のコピー数は不明であるため、細胞数を測定し、異なる種の細胞数を比較するのは困難である。2)16S rRNA配列の同定は、配列決定および増幅エラーのために正確ではなく、低分類学的分解能をもたらす。実際、配列決定エラーは、分子バーコード24-26を用いて修正されたが、主にキメラ生成に由来する増幅エラーを十分に除去できない27
US9260753B US10287630B US10584382B WO2018/235938
本発明は、細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法を提供する。
本発明者らは、細菌微生物叢の細胞型と各細胞型に対する細胞濃度をハイスループット法で定量する新しい方法を開発した。本発明者らはまた、1つの細胞に解析対象の遺伝子が重複して存在することに対応した、細胞ベースの操作上分類単位(cOTU)に基づいて、解析対象の遺伝子群を分類することによって、遺伝子重複を有する未知の細胞(例えば、微生物)の細分類を可能とし、その数を推定する方法を見出した。
本発明によれば以下の発明が提供される。
[1]細胞集団の処理方法であって、
(A)単離された細胞集団を含む細胞の分散液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードとを含む液滴集団を得ること
を含む、方法。
[2]細胞集団に含まれる遺伝子の塩基配列を分析する方法であって、
(A)単離された細胞集団を含む細胞の分散液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードとを含む液滴集団を得ることと、
(B)得られたそれぞれの液滴中で、細胞バーコードの増幅産物と所定の遺伝子の増幅産物を得て、さらに、細胞バーコードと所定の遺伝子の全部または一部の塩基配列を含む連結物を得ることと、得られた連結物を液滴から水溶液中に回収して、得られた連結物をシークエンスして所定の遺伝子の塩基配列と細胞バーコードの塩基配列を決定することとを含む、方法。
[3]前記(B)において、細胞バーコードの増幅産物は、第一のプライマーに由来する第一の領域を有し、所定の遺伝子の増幅産物は、第二プライマーに由来する第二の領域を有し、第一の領域と第二の領域は、互いにハイブリダイズ可能な相補的な配列部分を有し、前記第一のプライマーおよび第二のプライマーはそれぞれ、1以上のタグ分子を連結しており、当該タグ分子は、前記連結物には含まれず、かつ、
前記(B)において、水溶液中に回収された連結物から、タグ分子を有する増幅産物を当該タグ分子に親和性を有する分子を担持したカラムまたはビーズを用いて除去することをさらに含む、上記[2]に記載の方法。
[4](C-1)決定された細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得ること
をさらに含む、上記[2]または[3]に記載の方法。
[5](D-1)得られた第一のクラスターの数から細胞集団に含まれる細胞の数または特定の所定の遺伝子を有する細胞の数を推定すること
をさらに含む、上記[4]に記載の方法。
[6](C-2)決定された所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ること
をさらに含む、上記[2]または[3]に記載の方法。
[7](D-2)得られた第二のクラスターの数から細胞集団に含まれる細胞の種類の数を推定することをさらに含む、上記[6]に記載の方法。
[8](C-3)決定された細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得ることと、決定された所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ること
をさらに含む、上記[2]または[3]に記載の方法。
[9](D-3)得られた細胞バーコードの塩基配列と所定の遺伝子の塩基配列の組合せの情報に基づいて、少なくとも1つのある第二のクラスターに分類された所定の遺伝子の塩基配列と連結している細胞バーコードの塩基配列から当該所定の遺伝子の塩基配列が分類された第一のクラスターを決定し、当該細胞バーコードが分類された第一のクラスターの数から、当該第二のクラスターに分類された細胞の数を推定すること
をさらに含む、上記[8]に記載の方法。
[10](C-4)同一の第一のクラスターに分類された配列が異なる第二のクラスターに分類される場合、当該第二のクラスターを同一の細胞ベースの操作上分類単位(cOTU)に分類することをさらに含む、上記[8]に記載の方法。
[11](E)第一の細胞集団と、第一の細胞集団とは異なる第二の細胞集団のそれぞれに関して、細胞集団に含まれる(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を推定し、第一の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を、第二の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数とそれぞれ比較することをさらに含む、上記[10]に記載の方法。
[12](F)第一の細胞集団に関して推定された(i)cOTUの数および(ii’)特定のcOTUに含まれる細胞の数と、第二の細胞集団に関して推定された(i)cOTUの数および(ii’)特定のcOTUに含まれる細胞の数を比較することを含む、上記[11]に記載の方法。
[13]細胞集団が、微生物叢である、上記[1]~[12]のいずれかに記載の方法。[14]微生物叢が、体内または体表の微生物叢である、上記[13]に記載の方法。
[15]微生物叢が、消化管内の微生物叢である、上記[13]に記載の方法。
[16]第一の細胞集団と第二の細胞集団が、同一対象の異なる部位から取得された微生物叢である、上記[11]または[12]に記載の方法。
[17]第一の細胞集団と第二の細胞集団が、異なる対象の同一の部位から取得された微生物叢である、上記[11]または[12]に記載の方法。
[18]第一の細胞集団と第二の細胞集団が、同一対象の同一の部位から異なる時間に取得された微生物叢である、上記[11]または[12]に記載の方法。
[19]細胞集団が、未知の細胞を含む、上記[1]~[18]のいずれかに記載の方法。
BarBIQとその有効性。a、BarBIQの概略図。試料を溶液に懸濁させた後、細菌の塊を破壊するためにボルテックス処理を行った。細胞バーコード、細胞に固有の塩基(1分子毎に異なる塩基配列)を含み、増幅のためのプライム部位を含むDNA分子;プライマー、16S rRNA遺伝子および細胞バーコードのそれぞれの増幅のための、両方の増幅産物を連結するための、およびシークエンスアダプターの付着のためのDNAプライマー;試薬、DNA増幅のための試薬。ライブラリーの生成、精製、およびシークエンスの概略図の詳細は、図5、データ処理の詳細は、図6参照のこと。b、模擬細胞集団によるBarBIQの有効性。編集距離、置換、挿入および欠失の最小数として定義されるレーベンシュタイン距離29;San配列、サンガーシークエンスにより同定された16S rRNA配列;ATCC/JCM/DSM-<数>、株ID;A、B、またはC、各株に対するSan配列;Bar配列-MK-XX(01-16)、BarBIQで同定された配列(Bar配列);COTU-MK-XX(01-10)、細胞ベースの操作上分類単位(cOTU);赤いアスタリスク記号、1塩基相違を有するBar配列;OTU-RepSeq-MK-XX(01-12)、OTUを表す配列;c、BarBIQ[C]BarBIQおよび顕微鏡画像[C]顕微鏡(表1および2のデータ)により測定した模擬細胞集団における10株の細胞濃度の比較。青線:対数目盛りで傾き1が固定されたフィッティングライン;r、Pearson係数、R2:決定係数。エラーバー、標準偏差([C]BarBIQについてはn=3、[C]顕微鏡についてはn=5)。 マウス盲腸微生物叢の包括的分析。a、マウス盲腸における遠位(dist)および近位(prox)のサンプリング位置。b、Bar配列の配列同一性プロフィール;同一性、各Bar配列と、3つの一般的な公共データベースGreenGene(GG)、リボソームデータベースプロジェクト(RDP)、およびSilvaにおけるその最も近い16S rRNA配列間との同一性。Three、3つすべてのデータベースの組み合わせ。c、技術的反復間のcOTUの細胞濃度の比較(他の反復は、図16)。マゼンタ線、ポアソン分布および総濃度による正規化に基づくサンプリングノイズの理論的信頼区間(99.9%);水色線、2倍の変化;青い点、異なる濃度を示すcOTU;挿入された数字、青色および灰色のドットの数;Ma、Mb、Mc、マウス;distおよびprox、位置;1、2、および3、技術的反復。dとe、cと同じであるが、異なる試料間の比較;異なるcOTU(青い点)の最小(d)と最大(e)の数の例。他のサンプルの比較については、図16。f、各サンプル間の微生物のBray-Curtisの非類似性。ラベルはc~eと同じである。 マウス間における個々のcOTUの細胞濃度の変動。a、マウス3匹(Ma、MbおよびMc)における遠位(赤色実線)および近位(水色破線)のcOTU細胞濃度の例。CV、変動係数。b、Clostridium XIVa属のcOTUのCV(検出されたすべての属を図9aおよび9bに示す)。COTU-CM-<数>、cOTUのID;遠位および近位、位置;エラーバー、サンプリングノイズおよび総濃度測定の技術的誤差を想定したシミュレーションによって得られた各cOTUに対するCVの95%信頼区間。 相関細菌ネットワーク。a、cOTUペアの豊富度に基づく相関の例。ドット、6サンプル(Madist1、Maprox1、Mbdist、Mbprox、Mcdist、Mcprox)の細胞濃度(細胞/mg);r、Pearson係数。b、強く相関する細菌群(SCBG)の定義。樹状図、定義された距離、1-最小(│r’│)[r’∈(r-OCI,r+OCI)]に基づき6つのサンプル全てで一般的に検出される296cOTUの階層的クラスタリング;赤色の破線、閾値0.6;ヒートマップ、すべてのcOTUのr;ヒートマップの白いギャップ、垂直および水平の両方で閾値0.6より低い枝の分離を示す間隔;下の数字、SCBGのID。全SCBGのcOTU名とIDを有する樹状図を図17に示す。c、それぞれForce-directed layout39で可視化したSCBG7とSCBG26のcOTUネットワーク。ノード、cOTU;ノードサイズ、aのように6つのサンプル中のcOTUの平均細胞濃度;エッジ色、端で連結されたcOTU間のr。全SCBGの可視化ネットワークを図12a~fに示す。d、Force-directed layoutによって可視化されたSCBGのネットワーク。エッジ色、2つのSCBG間のSCBG間相互関係Rinter BarBIQにおけるライブラリー生成の配列情報、精製およびシークエンシングを含む概略図。I、II、III、IVはP5-index-R1P-barcode-R、Biotin-Link-barcode-F、Biotin-link-805R、P7-R2P-341Fと命名され、設計されたプライマー;Index(XXXXXXXX)は設計された8塩基;Barcode、ランダムおよび固定塩基(他の3種類のバーコードは表3にある);配列中のN、A、C、G、またはT;I2、R1およびR2、MiSeqのためのイルミナシークエンシングプライマー;I1、カスタマイズされたシークエンシングプライマー。 BarBIQデータ処理の概略図。黒矢印、処理段階;赤矢印、次の段階のオペランドの記述;バーコード、細胞バーコード;R1、R1のリード;I1、およびR2、低品質の末端とプライマー部分がトリミングされたI1、およびR2のリード;BCluster、バーコードによってクラスタリングされたクラスター;SCluster、各BClusterにおける16S rRNAの配列によってクラスタリングされたサブクラスター;シフトしたRepSeq、リードのプライマー部分における挿入または欠失のために生じたRepSeq;1つの挿入または欠失のRepSeq、トリミング後にリードの残りの部分における1塩基の挿入または欠失のエラーにより生じたRepSeq;キメラRepSeq、PCRキメラによって得られ得るRepSeq;稀なエラーRepSeq、トリミング後にリードの残りの部分における1つのインデル(挿入または欠失)および1つの置換、1つのインデルおよび2つの置換、または2つのインデルのエラーによって生じるRepSeq;RepSeq型、RepSeqの配列型;低カウントRepSeq、少ない数のBClusterにおいて検出されるRepSeqの型;1塩基エラーRepSeq、他のRepSeqと1塩基の相違を有するRepSeqの型、前者および後者のRepSeqの型の間で検出されたRepSeqの数が閾値よりも小さい;Bar配列、BarBIQで同定された配列;cOTU、細胞ベースの操作上分類単位。 BarBIQ測定において、各cOTUの絶対細胞濃度および各cOTUのサンプリングノイズを計算するために使用される総濃度。a、液滴デジタルPCR(実施例のBarBIQ法の項目を参照)で測定した各試料の総細菌濃度。Ma、Mb、Mc、Md(Mdはシークエンスされていない)、マウス;distとprox、位置(図2a参照);1、2、および3、技術的反復。エラーバー、標準偏差(n=5)。b、カウントの平均の関数として、各cOTUに対するMadistの技術的反復3回におけるカウントのCV(CV、変動係数);シミュレーション1および2、ならびに理論値をポアソン分布に基づいて得た。c、log10(CV)-log10(CVPoisson )の分布;CV各、cOTUのCV;CVPoisson、Poisson分布に基づく理論的CV。d、Madistの測定とシミュレーション1の間、およびシミュレーション1とシミュレーション2の間のlog10(CV)-log10(CVPoisson )の分布のQ-Qプロット45。log10(CV)-log10(CVPoisson2)の分布は測定とシミュレーションの間で同等であり、検出された各cOTUについてのノイズは主にサンプリングによることを示唆した。 マウスMaにおける各cOTUの位置依存性細胞濃度比較。a、マウスMaにおける遠位位置(Madist)と近位位置(Maprox)間の3回の技術的反復に対する各cOTUの平均細胞濃度比較;エラーバー、標準偏差(n=3);赤い点、FDR<0.05および平均>2の倍率変化を示す(b参照);破線、倍率変化=2。b、Volcano plotは、Maにおける遠位および近位位置の間のcOTUの細胞濃度の相違を示す。FDR(偽発見率)は、関数t.test(Rパッケージstat)による両側2群t検定(n=3)を用いて計算された全240のcOTUのp値に基づいてBH法を用いる関数p.adjust(Rパッケージstat)により決定された46;Madist/Maprox、Maproxにおける平均細胞濃度に対するMadistの平均細胞濃度の比;破線、MadistとMaproxの総濃度の比。 すべてのcOTUの分類学に対するCV(変動係数)。左、門から属への分類。右、遠位および近位位置における各cOTUのCV。COTU-CM-<数>、cOTUID;誤差バー、総濃度測定のサンプリングノイズと技術的誤差を想定したシミュレーションで得られた95%信頼区間。 同上。 ネットワーク全体における各cOTUの他のcOTUとの相関特性。上段、与えられたcOTUとそれ以外のすべてのcOTUの間の│r│の分布を示し、│r│は絶対ピアソン相関係数である;cOTUは、横軸に沿った各cOTUの│r│の平均(シアンの線)によって並べられた。下段、相対周波数によって示された各cOTUに対する│r│の分布;上図の各行について、数値は、それらの最小値(0として)および最大値(1として)によって正規化された(すなわち、水平軸に沿った正規化)。この分析は、細菌相関ネットワークにおいて他の大部分と高度に相関している細菌(すなわち、cOTU)である「マスター細菌」を見出すことを可能にする。 強く相関する細菌群(SCBG)の分析。a、樹状図の高さの閾値の関数としてのSCBGの数(図4b)。赤い点線、閾値0.6。b、閾値の関数として最も多くのcOTUを含むSCBG中のcOTUの数。c、閾値が0.6のとき、SCBGにおけるcOTU数の分布。d、各SCBGにおける試料のMadist1、Maprox1、Mbdist、Mbprox、Mcdist、およびMcproxについてのcOTUの平均細胞濃度;黒点、SCBG内のすべてのcOTUは正の相関を示し;紫色および水色の点、全て正の相関を示すcOTUを示し、異なるサブグループのcOTUは負の相関を示した。 各SCBG内の各cOTUと他の間の相対的な相関強度を示すネットワークおよびr分布。左、Force-directed layout39により可視化されたSCBGのネットワーク。ノード、cOTU;ノード番号、cOTUID;エッジ色、リンクされたcOTUの間のr;ID色、図11dにおけるドット色と同じ意味。右、SCBGにおいて、与えられたcOTUと他のすべてのcOTUの間のrの分布。cOTUをまずサブグループ(ID色)で分け、次いで各サブグループ内の各cOTUについて全ての正のrの平均(青線)で並べられた。 同上。 同上。 同上。 同上。 同上。 SCBGにおけるcOTUの門から属への分類。点の色、図11dにおける点色と同じ意味。すべてのSCBGは複数の属を含み、>60%のSCBG(19/31)は複数の門さえ含んでおり、SCBGは分類学とあまり相関していないことを示唆している。一方、≧2cOTUを含む検出されたすべての属において、発明者らは複数のSCBGからcOTUを見出し、微生物相の細菌ネットワークを理解するためには、属レベルより低い解析、実際にcOTUレベルが重要であることを示唆した。 SCBG間の相関。a、RinnerとRinterの分布。b、列、与えられたSCBGと他のすべてのSCBGの間のRinterの分布;SCBGは、水平軸に沿った分布の平均(青線)によって並べられた。 シークエンスによって得られた各cOTUのカウントに基づく、それぞれMadistおよびMaprox2サンプルの技術的反復間の比較。Ma、マウス、;dist、prox、位置;1、2、3、技術的反復、r:Pearson係数。 各cOTUの細胞濃度の技術的反復間および試料間の比較。Madist1-Madist3、Madist3-Maprox2、Mbdist-Mcprox(赤いアスタリスク記号)の3つの例を図16cに示す。Ma、MbおよびMc、マウス;distおよびprox、位置;1、2、および3、技術的反復。ドット、cOTU;マゼンタ線、ポアソン分布に基づく正規化されたサンプリングノイズの理論的信頼間隔(99.9%);水色線、2倍変化;青色ドット、異なる濃度を示すcOTU、それぞれ挿入番号、青色および灰色のドットの数。 同上。 同上。 SCBGのID。上、図4dと同じ樹状図樹であるが、cOTU IDがある。下:赤い正方形の位置、図4dに示すヒートマップにおけるSCBGの位置;青い番号、各SCBGに対するID。 同じ試料について、プライマーセットF1-Fw/F1-Rvと341F/805Rを用いたddPCR測定の比較。a、プライマーF1-Fw/F1-Rvを用いた盲腸細胞試料のddPCRにより測定した液滴の蛍光強度の分布。b、aと同じ測定であるが、異なるプライマー341F/805Rを使用する。c、それぞれbの蛍光強度分布に当てはめた4種類のガウス分布および4つのガウス分布の混合合計。d、フィッティングしたガウス分布の数の関数としてのフィッティングに基づき計算された陽性の液滴の割合。水色、プライマーF1-Fw/F1-Rvによって増幅された細胞試料;青、プライマー341F/805Rによるが、水色と同じ細胞試料;赤、プライマーF1-Fw/F1-Rvによって増幅された細胞外試料;黒、赤と同じ細胞外試料であるが、プライマー341F/805Rによって増幅された細胞外試料;エラーバーは、3つの独立したフィッティングの標準偏差(異なるランダムな初期値を有する)。e、同一試料についてプライマーF1-Fw/F1-Rvを使用する場合とプライマー341F/805Rを使用する場合のddPCR測定の比較;4つのガウス分布を用いる適合に基づいて計算された陽性液滴の割合;細胞、細胞試料;ecDNA、細胞外DNA試料;エラーバー、標準偏差、n=4。 スパイクインコントロール調製の配列情報を含む概略図。StdTarget1、StdTarget2、RandomBar_std1、Std_R2、P2_qPCR_Rv、およびP1_qPCR_Fw、合成DNAオリゴヌクレオチド;StdTarget2中の「5Phos」、オリゴヌクレオチドの5’末端のリン酸化; Indexは8塩基; 配列中のN、A,C,G,またはT。 ステップ3.2の論理図。 ステップ5の論理図。 Silvaデータベースに登録されたV3-V4領域における16S rRNA遺伝子の長さの分布。プライマー341Fおよび805Rにマッチした16S rRNA遺伝子のみを用いた(全体の86.4%)。長さ、341Rと一致した最初の塩基から805Rと一致した最後の塩基までの塩基の数。対応する16S rRNA遺伝子の全長の総計99.94%は、400~500の範囲にある。 ステップ7の論理図。 ステップ8の論理図。 ステップ9の論理図。 San配列による1塩基の異なるRepSeqタイプの特性評価。a、San配列に基づくグループ化RepSeqタイプの平均カウント(Mock-a、Mock-b、Mock-cデータに基づく)。塩基の相違、RepSeqタイプと各グループで最も近いSan配列(San配列をID群とした)との間の塩基の相違の数。b、各グループで一致したRepSeqタイプの平均カウントに対するその平均カウントの比に対する1塩基の異なるRepSeqタイプの最高平均カウント。スカイブルーラベル、グループID。 Bar配列のcOTUへのクラスター化。a、Mock-bのデータに基づいたlog10(A×B)に対するlog10(Overlap)。ドット、Bar配列の可能なすべてのペア;Overlap、AおよびBは、それぞれBar配列、BS_Aのみ、およびBS_Bのみを含むBClusterの数である(BS_AおよびBS_Bはペア内の2つのBar配列である)。青色の破線、フィッティングの95%信頼区間。b、Mock-a、Mock-b、Mock-cのデータに基づいたlog10(A×B)+ODに対するlog10(Overlap)。ドット、3回のサンプリングで可能なすべてのBar配列のペア(同一のBar配列ペアには3つのドットがある);異なる株、異なる株から同定されたSan配列と一致したペアのBar配列;JCM/ATCC番号、所定の株から同定されたSan配列と一致したペアのBar配列;緑色の線、シミュレーションにより得られたlog10(Overlap)の分布の99.9%の片側信頼区間;黄色の線、x=y;OD、aにおけるフィッティングにより推定されたlog10(Droplets/μ)。このプロットのために異物混入したBar配列を除いたことに留意されたい(ステップ14参照)。c、(b)と同様、データはM0-a、M0-b、およびM0-cのデータに基づいていた。各Bar配列の名前はSilvaデータベースに基づく。異なる名前、1対のBar配列のマップされた名前が違う;同一名(科)、1対のBar配列のマップされた名前は同じで、科の名前またはそれより高次の分類の名前しか決められていない;同一名(属)、1対のBar配列のマップされた名前は同じで、属の名前またはそれより高次の分類名前しか決められていない;不明、1対のBar配列のうちの片方または両方がデータベースに登録されていない。d、Ratio_Positiveの分布(ステップ12参照)。検体のMadist1-3、Maprox1-3、Mbdist、Mbprox、Mcdist、Mcproxの結果。 模擬細胞集団とM0の間における検出されたcOTUの平均カウント(3反復からの)の比較。M0で検出されなかったcOTUは示されていない。JCM/ATCC、所定の株と一致するcOTU。COTU<数>、いずれの設計株とも一致しなかったcOTU;I、II、III、3つのカテゴリー(ステップ14参照)。 細菌凝集塊の破壊。aボルテックス前のJCM10188の細菌の塊。b、ボルテックス後に1つのドットまたは複数のドットを含むスポットの例。c、ボルテックス後の各菌株及び盲腸試料のスポット当たりの点の数の分布。d、ボルテックス後の各菌株および盲腸試料のスポット当たりの点の数の平均。f、盲腸試料の計208個の確認されたスポットのうち複数の点を含むすべてのスポット。黄色の矢印、この一例のみ同一のスポット内に2つの異なる形の点があるように見える。 顕微鏡画像による細菌数の測定。a、同視野の大腸菌(DH5α)の位相差照明と蛍光照明(PI)の比較。b、顕微鏡画像による細菌数の概略。c、蛍光照射および位相差で照射し、PIで染色したATCC700926株。バックグラウンド除去の閾値をeに示した。赤色矢印、位相差照射によっても観察される微小球。d、cにおける拡大画像(A-E)。カラーライン、ImageJによる輝度測定に使用された線プロファイル;数、(e)で示される明るいスポット(すなわち、細菌)の番号。e、(d)の線プロファイルに沿って測定された輝度(グレーの値)。破線、背景除去の閾値(c参照)。 ecDNAと細胞の分離の制御。a、孔径0.1μm、0.22μm、0.45μmのUltrafree(商標)-MC遠心フィルターを用いた異なる濾液の比較。フィルター上の残渣、フィルターメンブレンの上に残った試料;フィルター通過液、フィルターメンブレンを通過した液体;存在量、ddPCRで測定した総コピー数。b、ddPCRと顕微鏡画像で測定した、濾過後の細胞とecDNAの存在量を比較したもの。存在量、ddPCRで測定したコピーの総数、または蛍光イメージングで測定した明るいスポットの総数。c、濾過および遠心分離を用いたecDNAと細胞の分離の比較。存在量、aと同じ。 盲腸試料の細胞および細胞外DNA。a、総濃度で正常化した細胞およびecDNAの濃度比率。合計(100%)は、細胞およびecDNAの濃度の合計として定義した。エラーバー、計算に基づく細胞とecDNAの濃度の標準偏差(n=5)から計算された伝搬誤差。b、分離した細胞とecDNAの合計濃度の、濾過していない試料の総濃度に対する比。エラーバー、伝搬標準偏差(n=5)。cおよびd、各cOTU濃度の細胞およびecDNAの合計濃度と、試料MadistおよびMaproxの非濾過試料濃度との比較。赤い点はecDNAが検出されたcOTU、黒い点はecDNAが検出されなかったcOTU。濾過の繰返し3回はそれぞれ比較した。 クラスター数(固有のバーコード)のバーコードに設計されたランダムな塩基数への依存性。シークエンスラン1の結果を示す。 ユニークなバーコードあたりのリード数の平均値について、10系統のSan配列とマッチさせたcOTUの数の依存性。Mock-bのデータを示した。 cOTUの豊富さ。a、各試料について6,075細胞をサブサンプリングした。b、3,000細胞をサブサンプリングした。Ma、MbおよびMc、マウス;distおよびprox、位置;1a、2および3、技術的反復;エラーバー、標準誤差。 cOTUの比例的存在量を用いて測定した試料間の微生物相のBray-Curtis非類似度。Ma、MbおよびMc、マウス;distおよびprox、位置;1、2、および3、技術的反復。 同じ分類群からのcOTUペア(点)のrの分布(バイオリンプロット)。門から科レベルまでの名前を囲むカラーボックスは、そのオーナーシップを表す。 rに対するcOTU間の平均濃度の比の依存性。点、cOTUのペア;比、ペアにおいて高い方の濃度を低い方の濃度で割った値;黄色の線、定量的な等高線(10%間隔)。 ブレインスライサを用いたマウス大腸試料の細分化のようすを示す。パネルa~fには、マウス大腸試料をブレインスライサ上に載置し(パネルa)、包埋し(パネルb)、凍結させ(パネルc)、切断し(パネルdおよびe)、切断(細分化)されたサンプルを得た(パネルf)ようすが示されている。パネルgには、盲腸(Cecal側)から肛門(Anal側)に向けての領域分けが図示されている。Cエリアに関しては、さらに中心部と周辺部とで細分化された(パネルg)。 各サンプルのバーコード配列の濃度を示す。“-Cell”は、細胞非存在下での結果を示し、“+Cell”は、細胞存在下での結果を示す。エラーバーは、標準偏差を示す(n=4)。 ddPCRの第三ステージのサイクル数と、液滴の蛍光強度との関係(パネルa)および全液滴に占める陽性液滴の割合の関係(パネルb)を示す。エラーバーは、標準偏差を示す(n=4)。 ddPCRの第三ステージの反応時間と、全液滴に占める陽性液滴の割合の関係を示す。エラーバーは、標準偏差を示す(n=4)。
本明細書では、「対象」とは、生物であり、動物および植物である。対象は、例えば、例えば、脊椎動物であり、例えば、哺乳動物、魚類、鳥類、両生類、は虫類、例えば、ヒト、チンパンジー、ゴリラ、オランウータン、サル、マーモセットおよびボノボなどの霊長類、ブタ、ラット、マウス、ウシ、ヒツジ、ヤギ、ウマ、ネコおよびイヌなどの四足動物(例えば、食肉類、偶蹄類、奇蹄類およびげっ歯類)であり得る。
本明細書では、「細胞」は、生物の細胞であり、細菌、原生動物、クロミスタ、動物、植物、および菌の細胞であり得る。本明細書では、「単一化された細胞」とは、1つ1つ分離した存在形態を有する細胞を意味する。すなわち、単一化された細胞を含む溶液とは、1以上の細胞を含む溶液であり、それぞれの細胞が1つ1つ分離した存在形態を有する溶液である。単一化された細胞を含む溶液は、好ましくは、含まれる全細胞またはほとんどの細胞が1つ1つ分離された存在形態を示す溶液であるが、単一化された細胞を含む限り、溶液が2つ以上の細胞が接着してなる細胞塊を含んでいてもよい。
本明細書では、「細胞集団」は、複数の細胞を含む組成物である。細胞集団は、一般には、複数種類の細胞を含み、各種類は、複数の細胞をそれぞれ含み得る。組成物の形態は、液体または固体であり得る。
本明細書では、「微生物叢」とは、微生物の集団である。天然には、様々な微生物叢が存在する。例えば、土、水(海、川、沼、池)、空気、動物の表皮、体毛、口腔、鼻腔、消化管(食道、胃、小腸、大腸、盲腸等)、および生殖器;ならびに、植物の外皮、および根などに微生物叢が存在する。動物における微生物叢は、当該動物の健康状態を反映し、または健康状態に影響し得る。微生物叢は、10種類以上、20種類以上、30種類以上、40種類以上、50種類以上、60種類以上、70種類以上、80種類以上、90種類以上、または100種類以上の微生物を含み得る。微生物叢は、未知の微生物を含み得る。微生物叢における未知の微生物は、含まれる微生物の種類の10%以上、20%以上、30%以上、または40%以上であり得る。
本明細書では、「細胞バーコード」とは、1つ1つの細胞に対して割り当てられる固有の塩基配列を有する核酸である。1つ1つの細胞が異なる塩基配列(すなわち、細胞に固有の塩基配列)を有する細胞バーコードと紐付けられ得る。従って、細胞バーコードの数は、細胞の数を示し得る。このようにすることで、従来は定量的に測定されてきた細胞数を、定性的に評価可能な塩基配列数に変換して測定することができる。細胞バーコードは、存在する総細胞数に対して十分な種類を用意することができる。
本明細書では、「単離」とは、目的物を他から分離することを意味する。単離は、分離した後に、目的物を濃縮または精製することを含み得る。
本明細書では、「増幅産物」とは、遺伝子増幅(例えば、ポリメラーゼ連鎖反応(PCR))により増幅して得られた核酸をいう。PCRでは、DNAの増幅させる部位を挟むように2つのプライマーを設計し、所定の条件下でDNAポリメラーゼと反応させることによって、2つのプライマーで挟まれた部分が増幅される。プライマーは、DNAの増幅させる部位とハイブリダイズする配列を有する単鎖形態の核酸であり得るが、当該核酸の5’末端には、付加的な塩基配列(例えば、アダプター、サンプルに固有のインデックス配列や制限酵素認識部位等)を連結してもよい。
本明細書では、「パラログ」とは、ゲノム上で、遺伝子重複によって生じた2つの遺伝子をいう。本明細書では、「オーソログ」とは、異なる生物に存在する相同な機能を有する遺伝子をいう。
本発明によれば、細胞集団の処理方法であって、
(A)単離された細胞集団を含む細胞の分散液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードと
を含む液滴集団を得ること
を含む方法が提供される。
本発明によればまた、
液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードとを含む液滴集団が提供される。この態様において、細胞は、単離された細胞集団(例えば、微生物叢)を構成していた細胞であり得る。
上記(A)の細胞の分散液は、単離された細胞集団中に含まれる細胞を水溶液中で分散させることによって得られ得る。細胞は、水流、例えば、振とう、ピペッティング等による水によるシアストレスなどによって溶液中に分散させることができる。「分散させる」とは、水溶液中で、複数の細胞を含む細胞塊を乖離させて複数の単一細胞にすること、および、好ましくは単一細胞を水溶液中に浮遊させることを意味する。本発明の方法は、単離された細胞集団中に含まれる細胞を水溶液中で分散させることを含み得る。
ある態様では、細胞集団は、微生物叢であり得る。この態様において、微生物叢としては、天然の微生物叢が好ましく用いられ得る。微生物叢としては、例えば、土、水(海、川、沼、池)、空気、動物の表皮、体毛、口腔、鼻腔、消化管(食道、胃、小腸、大腸、盲腸等)、および生殖器;ならびに、植物の外皮、および根に存在する微生物叢を用いることができ、例えば、消化管の微生物叢を用いることができる。微生物叢としては、例えば、口腔内の微生物叢、食道内の微生物叢、胃内の微生物叢、十二指腸内の微生物叢、小腸内(例えば、空腸内または回腸内)の微生物叢、盲腸の微生物叢、大腸内(例えば、上行結腸、横行結腸、下行結腸、S状結腸、または直腸内)の微生物叢であり得る。天然の微生物叢は、培養せずに分析することが好ましいが、培養に付してから分析することは許容され得る。ある好ましい態様では、微生物叢は、未知の微生物を含む。ある好ましい対象では、未知の微生物の種類は、微生物叢に含まれる微生物の種類の10%以上、20%以上、30%以上、または40%以上であり得る。ある態様では、細胞集団は、細胞外DNAを含み得る。細胞外DNAは、所定の遺伝子を含み得る。細胞外DNAは、細胞集団を処理する前に、除去してもよい。細胞外DNAの除去は、後述するようにフィルターろ過または遠心分離により行うことができる。細胞外DNAは、処理される細胞集団中に含まれていてもよい。
細胞集団の単離は、細胞集団を取得することにより行われる。細胞集団の単離は、取得された細胞集団を、細胞以外の1以上の構成要素から分離することをさらに含んでいてもよい。細胞集団を細胞以外の1以上の構成要素から分離することは、フィルターろ過、または遠心分離により行うことができる。フィルターろ過は、例えば、サブμmの孔径(例えば、0.22μm)を有するフィルターを用いて行うことができ、細胞集団はフィルター上の残渣から回収され得る。
本発明では、液滴を作成する前に、単離された細胞集団に含まれる細胞を水溶液中で分散させることができる。ここで、分散させるとは、細胞1つ1つが分離して存在する状態にすることを意味する。分散は、ピペッティングで細胞塊を細胞を破壊しないように崩すことによって達成し得る。水溶液としては、細胞を破壊しない限り特に限定されないが、水、および生理食塩水等を用いることができる。単離された細胞集団は、純水、生理食塩水、および遺伝子増幅用反応溶液等に分散させることができる。
ある態様では、液滴は、オイル中で作成することができる。従って、この態様では、(A)で得られる液滴集団は、オイル中に水性の液滴(水滴)を含む。すなわち、(A)で得られる液滴集団は、油中水滴型粒子(油中に分散された水性の液滴集団)であり得る。
上記水滴の粒径は、例えば、下限値が10μm~100μmの範囲の数値であり得、上限値が50μ~1000μmの数値であり得る。水滴の粒径は、例えば、10μm~1000μm、例えば、20μm~900μm、30μm~800μm、40μm~700μm、50μm~600μm、50μm~500μm、50μm~400μm、50μm~300μm、50μm~200μm、50μm~150μm、または例えば、約100μmであり得る。このような液滴集団は、例えば、マイクロ流体デバイスを用いて当業者であれば適宜作製することができる。このような液滴集団はまた、市販の液滴製造機を用いて作製することができる。市販の液滴製造機としては、例えば、BIO-RAD社のQX200 Droplet Generatorを用いることができる。
本発明の細胞集団の処理方法によれば、液滴集団であって、水性の液滴を含み、前記液滴は、1つの細胞と、その細胞に対して固有の1種類の塩基配列を有する細胞バーコード(例えば、DNAである)の1分子を含む、水性の液滴を含む液滴集団を得ることができる。より具体的には、本発明の細胞集団の処理方法では、例えば、分散された複数の細胞を含む水溶液と、1分子毎に異なる塩基配列を有する細胞バーコードを含む水溶液とを油中で混合することによって1つの細胞、および細胞毎に固有の単一種類の細胞バーコード含む水性の液滴を含む液滴集団が得られる。
本発明の細胞集団の処理方法によれば、他の細胞は、その細胞に対して固有の別の1種類の塩基配列を有する細胞バーコードを含む水性の液滴中に含まれる。細胞は、全液滴の50%以下、40%以下、35%以下、30%以下、25%以下、または20%以下(例えば、20%)に含まれ得る。このようにすることによって、1つの液滴に対して複数の細胞が含まれる確率を低下させることができ、20%の液滴に細胞が含まれていると仮定したときには、理論上は、細胞を含む液滴の、例えば、90%以上の液滴が含む細胞の数が1となる。また、細胞バーコードも、全液滴の50%以下、40%以下、35%以下、30%以下、25%以下、または20%以下(例えば、20%)に含まれ得るようにすることができる。これにより細胞バーコードを含む液滴の、例えば、90%以上の液滴が含む細胞バーコードの数を1とすることができる。このようにすると、細胞1つと細胞バーコード1分子とを含む液滴が得られ、前記液滴は、全液滴中の1~10%、2~6%、3~5%、または例えば4%程度となり得る。ある態様では、全液滴に対する細胞を含む液滴の割合を30%以下(好ましくは約20%)とし、かつ、全液滴に対する細胞バーコードを含む液滴の割合を30%以下(好ましくは約20%)とすることができる。このように、全液滴に対する細胞および細胞バーコードを含む液滴の割合を低下させることで、2つ以上の細胞が1つの液滴に混入する可能性、および2分子以上の細胞バーコードが1つの液滴に混入する可能性を低減するまたは無くすことができる。なお、細胞および細胞バーコードのいずれか一方ならびに両方を含まない液滴の存在は、細胞中の所定の遺伝子と細胞バーコードの連結物を対象としてシークエンスする後の工程には影響しない。
得られる液滴集団において、2つ以上の細胞と1つの細胞バーコードを含む液滴の割合は、例えば、0.5%以下、0.4%以下、または0.3%以下であり得、例えば、0.3%~0.5%であり得る。得られる液滴集団において、1つの細胞と2つ以上の細胞バーコードを含む液滴の割合は、例えば、0.5%以下、0.4%以下、または0.3%以下であり得、例えば、0.3%~0.5%であり得る。得られる液滴集団において、2つ以上の細胞と2つ以上の細胞バーコードを含む液滴の割合は、例えば、0.05%以下、0.04%以下、または0.03%以下であり得、例えば、0.03%~0.05%であり得る。ここで、2つ以上の細胞または細胞バーコードが含まれる液滴は、少ないほど好ましいが、しかし、そのような液滴が生じることは許容される。
水性の液滴は、1つの細胞および1分子の細胞バーコードに加えて、プライマー、および遺伝子増幅用試薬をさらに含んでいてもよい。細胞は、遺伝子増幅反応中に破壊されるので、試薬は、界面活性剤を含んでいる必要はない。また、水性の液滴は、遺伝子増幅反応に適した水溶液(例えば、遺伝子増幅反応溶液)であり得る。
オイルは、遺伝子増幅反応(60℃~100℃)の環境下で、安定かつ不活性であるオイルであればいずれのオイルでも用いることができる。そのようなオイルとしては、例えば、鉱油(例えば、軽油)、シリコーン油、フッ化油若しくは、他の市販のオイル、またはこれらの組み合わせを挙げることができるが、これらに限定されない。
このような条件下で、細胞、細胞バーコード、プライマー、および遺伝子増幅用試薬を含む水溶液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、得られた細胞の1つと1分子の細胞バーコードとを含む液滴集団を得ることができる。より具体的には、細胞、細胞バーコード、プライマー、および遺伝子増幅用試薬を含む遺伝子増幅反応液を作製し、当該溶液から上記の通り液滴集団を得ることができる。
本発明によればまた、
細胞集団に含まれる遺伝子配列を決定(または分析)する方法であって、
(A)単離された細胞集団を含む細胞の分散液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードと
を含む液滴集団を得ることと、
(B)得られたそれぞれの液滴中で、細胞バーコードの増幅産物と所定の遺伝子の増幅産物を得て、さらに、細胞バーコードと所定の遺伝子の全部または一部の塩基配列を含む連結物を得ることと、得られた連結物をシークエンスして所定の遺伝子の塩基配列と細胞バーコードの塩基配列を決定することと
を含む、方法(以下、本発明の配列決定方法という)が提供される。
液滴を形成させる際には、細胞バーコードの増幅と細胞内の所定の遺伝子の増幅のためのプライマーセット、dNTP、および耐熱性DNAポリメラーゼ等のPCRにおいて必要な鋳型以外の構成要素を溶液中(例えば、細胞バーコード溶液中)に混合しておくことで、各液滴にこれらの遺伝子増幅に必要な要素を導入しておくことができる。その後、液滴集団を含む液体をPCR用のチューブに移し、PCRによって各液滴内でDNAの増幅反応を誘導することができる。各液滴中での遺伝子増幅により、それぞれの液滴中で、細胞内の所定の遺伝子の増幅産物と、細胞バーコードの増幅産物とを得ることができる。増幅は、例えば、25サイクル、好ましくは30サイクル以上の増幅サイクルを含み得る。次いで、それぞれの液滴中で、細胞内の所定の遺伝子の増幅産物と、細胞バーコードの増幅産物とを連結させることができる(例えば、図5参照)。連結は、例えば、細胞バーコードのプライマーの1つとと所定の遺伝子のプライマーの1つを、互いにハイブリダイズ可能な相補的な配列部分を有するように設計することにより、増幅反応(例えば、PCR反応)の過程において行うことができる(例えば、図5の配列番号4および5参照)。このようにすることで、1つの細胞に由来する所定の遺伝子の増幅産物の分子それぞれに対して、1種類の細胞バーコードを付与することができる。
細胞バーコード(Barcode)は、中央に細胞に固有の塩基配列を有し{但し、特定番号の塩基配列を配列間で同じ配列としてもよい}、両端に増幅プライマーがハイブリダイズするための塩基配列を有していることができる。ある態様では、増幅プライマーがハイブリダイズするための塩基配列は、細胞バーコード間での共通配列であり得る。細胞バーコードを増幅するプライマーは、シークエンス用のアダプター配列と上記細胞バーコードの片末端と遺伝子増幅環境下でハイブリダイズすることができる塩基配列を有していることができる。当該細胞バーコードを増幅するプライマーは、サンプルの種別を識別するためのインデックス配列をさらに有していてもよい。細胞バーコードを増幅する別のプライマーは、所定の遺伝子と連結するためのリンカー配列と、上記細胞バーコードの別の片末端と遺伝子増幅環境下でハイブリダイズすることができる塩基配列を有していることができる。
所定の遺伝子を増幅するプライマーは、細胞バーコードを増幅するプライマーに含まれるリンカー配列とハイブリダイズするための塩基配列と、所定の遺伝子の増幅する箇所に遺伝子増幅環境下でハイブリダイズするための塩基配列とを有し得る。所定の遺伝子を増幅する別のプライマーは、所定の遺伝子の増幅する箇所に遺伝子増幅環境下でハイブリダイズするための塩基配列とシークエンス用のアダプター配列とを含み得る。当該所定の遺伝子を増幅する別のプライマーは、サンプルの種別を識別するためのサンプルに固有のインデックス配列をさらに有していてもよい。
細胞バーコードの増幅産物と所定の遺伝子の増幅産物は、同じリンカー配列を有し、したがって、遺伝子増幅中に、細胞バーコードの増幅産物と所定の遺伝子の増幅産物とを連結したものの増幅産物が得られ得る。
シークエンス用のアダプター配列は、シークエンス前のブリッジPCRのための配列を両端に含み得る。シークエンス用のアダプター配列は、シークエンス用プライマーの結合部位を含み得る。シークエンス用のアダプター配列は、サンプルの種別を識別するためのサンプルに固有のインデックス配列を含み得る。ブリッジPCRでは、固相化した2種類のオリゴDNAに対して、シークエンスに供されるDNAであって、両端に上記2種類のオリゴDNAそれぞれにハイブリダイズ可能な配列を有するDNAをハイブリダイズし、その状態で、PCRによって固相表面上でDNAを増幅させる技術である。
したがって、本発明では、水性の液滴を含み、当該液滴は、1つの細胞に由来する所定の遺伝子の増幅産物を含み、前記所定の遺伝子の1分子毎に、当該細胞に固有の1種類の細胞バーコードが連結している、液滴集団もまた、提供される。この液滴集団では、液滴はそれぞれ、異なる1つの細胞に由来する所定の遺伝子と、当該細胞に固有の1種類の細胞バーコード{すなわち、液滴毎に異なる細胞バーコードが含まれる}を含む。
1つの細胞に由来する所定の遺伝子の1分子毎に、当該細胞に固有の1種類の細胞バーコードが連結した連結物は、上記のように、シークエンス用のアダプター配列、細胞バーコード配列、リンカー配列、所定の遺伝子の全部または一部の塩基配列、およびシークエンス用のアダプター配列を、この順番で含み得る。この連結物は、サンプルに固有の塩基配列を有するインデックス配列をさらに含んでいてもよい。インデックス配列は、シークエンス用のアダプター配列、細胞バーコード配列、リンカー配列、所定の遺伝子の全部または一部の塩基配列、およびシークエンス用のアダプター配列のいずれか2つの間に含まれ得る。インデックス配列は、代わりに、または追加で、シークエンス用のアダプター配列中に含まれていてもよい。
本発明では、1つの細胞に由来する所定の遺伝子の増幅産物の分子それぞれと細胞毎に固有の1種類の細胞バーコードの増幅産物との連結物を作製することができる。ここで、所定の遺伝子は、1種類であることが好ましいが、1種類とは限らず、複数種類である場合もあり得る。細胞バーコードは細胞毎に1種類であることが好ましい。
本発明では、ある連結物に関して、決定された所定の遺伝子の塩基配列と細胞バーコードの塩基配列は、紐付けて管理されている。この紐付けに基づいて、同一の細胞バーコードが連結された所定の遺伝子は、同一細胞に由来するものと推定され得る。したがって、本発明の配列決定方法は、それぞれの連結物に関して、決定された所定の遺伝子の塩基配列と細胞バーコードの塩基配列を含む塩基配列の組合せを得ることをさらに含み得る。
また、本発明の配列決定方法は、同一の細胞バーコードが連結された所定の遺伝子が同一の細胞に由来すると推定することをさらに含み得る。
本発明のある態様では、所定の遺伝子は、微生物の内在性遺伝子であり、好ましくは、進化上、広く様々な種が共有する遺伝子、例えば、ハウスキーピング遺伝子であり得る。ハウスキーピング遺伝子は、エネルギー代謝や細胞機能に必須な遺伝子であり、あらゆる細胞で発現するまたは発現するであろう遺伝子である。ハウスキーピング遺伝子としては、特に限定されないが、例えば、リボソーマルRNA(rRNA、例えば、16S rRNA、および23S rRNA)、16S rRNAと23S rRNAとの間に存在するribosomal intergenic transcribed spacers(ITS)、推定ABCトランスポート(abcZ)、アデニレートキナーゼ(adk)、シキメートデヒドロゲナーゼ(aroE)、グルコース-6-ホスフェートデヒドロゲナーゼ(gdh)、単一機能ペプチドグリカントランスグリコシラーゼ(mtg)、推定デヒドロゲナーゼサブユニット(pdhC)、ホスホグルコムターゼ(pgm)、regulator of pilin synthesis(pilA)、プロリンイミノペプチダーゼ(pip)、ポリホスフェートキナーゼ(ppk)、および3-ホスホセリンアミノトランスフェラーゼ(serC)が挙げられる(Maiden et al., PNAS, Vol.95, 3140-3145, 1998参照)。これらの遺伝子の配列は、微生物叢の解析において用いられ得る。また、真菌の解析においては、18S rRNAも用いられ得る。所定の遺伝子が、2種類以上の遺伝子である場合、それぞれの遺伝子が細胞バーコードと連結されるように適切なプライマーおよび反応条件下で増幅反応が行われる。本発明の方法では、所定の遺伝子の塩基配列に基づいて細胞集団を分析するため、できるだけ多くの細胞が有する遺伝子を所定の遺伝子として用いることが有利である。本発明のある態様では、所定の遺伝子は、16S rRNAをコードする遺伝子であり得る。所定の遺伝子の塩基配列は、当該遺伝子の全長、またはその部分配列であり得る。例えば、16S rRNAの場合には、シークエンスするのは、全長でなくてもよく、その一部としてもよい。16S rRNAの一部は、V3領域およびV4領域とすることができる。
本発明において、所定の遺伝子は1種類の遺伝子(または相同な遺伝子群)のみを用いれば足り、2種類以上の異なる遺伝子(または互いに非相同な2つ以上の遺伝子群)を用いる必要は無い。但し、所定の遺伝子は2種類以上の異なる遺伝子(または互いに非相同な2つ以上の遺伝子群)であってもよい。
本発明の配列決定方法では、シークエンスは、液滴を破壊し、すべての液滴に含まれる溶液を混合して行うことができる。本発明の配列決定方法では、シークエンスは、当業者に周知の方法を用いて実施できる。例えば、シークエンスは、次世代シークエンサー(例えば、イルミナ社のMiSeqやHiSeq)を用いて並列的に行うことができる。このように並列に解読するシークエンサーを用いることで、数万~数億の遺伝子断片を迅速に分析することができる。この場合には、当業者は、シークエンスに必要であれば、シークエンス用のアダプターを連結物に付加することができ、この工程は当業者に周知である。
本発明の配列決定方法は、シークエンス前に、溶液のDNAを回収することをさらに含んでいてもよい。DNAの回収は、液滴それぞれに分離して含まれる水相を回収することにより行われ得る。例えば、DNAの回収は、得られた液滴集団を有機溶媒(例えば、クロロホルムなど)、および、好ましくはさらに水溶液(例えば、緩衝液、例えば、二価金属イオンキレーター(例えば、Ca2+のキレーターおよびMg2+のキレーター、例えば、エチレンジアミン四酢酸(EDTA))を含むTris緩衝液、すなわちTris-EDTA緩衝液またはTE溶液)を添加して、十分に攪拌して、水相と有機相とを分離させ、水相を回収することによって行われ得る。これにより、油中水滴型粒子において、液滴のコンパートメントそれぞれに離散的に存在していた目的のDNA(すなわち、連結物)を水溶液中に回収することができる。このようにして得られた水溶液では、含まれる液滴に由来するすべての連結物が溶液中(オイルによる区画を有しない溶液である)で混在している(すなわち、液滴のコンパートメントそれぞれに離散的に存在していた連結物が1つの溶液コンパートメント中に存在する状態になる)。上記のようにシークエンスでは、多数の遺伝子断片の塩基配列を並列的に解読できるので、多数のDNAが混在した溶液は、シークエンスに適する。
本発明の配列決定方法はまた、シークエンス前に、DNAを精製することをさらに含んでいてもよい。DNAの精製は、上記回収工程により得られた水溶液をゲル濾過することにより行われ得る。ゲル濾過としては、DNA増幅産物とそれ以外の溶液中の構成要素(例えば、未連結のバーコード増幅物、増幅に用いられなかったプライマー、その他)を分離するために通常用いられる手法によりゲル濾過カラム等を用いて行うことができる。ゲル濾過カラムとしては、例えば、DNA精製用のゲル濾過カラムを用いることができる。また、本発明の配列決定方法は、カルボキシル基を表出するカラムまたはビーズで溶液中に含まれるDNAを精製することをさらに含んでいてもよい。カルボキシル基を表出するカラムまたはビーズには脱水和したDNAが塩を介して特異的に吸着することができ、その後、水和させることによりDNAをカラムから離脱させることができる。カルボキシル基を表出するビーズとしては、例えば、Agencourt AMPure XP(ベックマンコールター)などを使用することができる。
さらには、また、DNA増幅の工程において、DNAの増幅反応を、タグを有するタグ化プライマー(例えば、ビオチン化プライマー)を用いて行った場合には、DNA増幅産物はタグ(例えば、ビオチン)が結合している。そのようなタグ付きDNA増幅産物は、タグに結合する分子(例えば、アビジン、ストレプトアビジン、およびニュートラビジン等のタグ結合分子)を連結したカラムやビーズにより濃縮または除去することができる。特に、本発明の配列決定方法は、細胞バーコードと所定の遺伝子とが連結した産物を得る場合に、連結し損ねたものを除去することを好ましく含み得る。すなわち、細胞バーコードを増幅するプライマーの1つと、所定の遺伝子を増幅するプライマーの1つを、タグを有するプライマーとし、かつ、相補的な配列を有するように設計することができる。すなわち、相補的な配列を有するように設計されたプライマーそれぞれについてのみタグを付与することができる。このようにすると、図5に示されるように、細胞バーコードの増幅産物と所定の遺伝子の増幅産物は、タグ化したプライマー部分に対応する領域において互いに連結し得る。得られた連結物をさらに遺伝子増幅により増幅すると、連結物の増幅物にはタグは含まれないのに対して、連結し損ねた増幅産物はその末端にプライマー由来のタグを有する。このように、ある態様では、前記(B)において、細胞バーコードを増幅する2つのプライマーのうちの1つであって、所定の遺伝子を増幅する2つのプライマーの1つ(当該1つはタグ分子を有する)と相補的な配列を有するプライマーは、タグ分子を有する。タグ分子は、細胞バーコードと所定の遺伝子の増幅中に、細胞バーコードと所定の遺伝子との連結物からは失われ、タグ分子は、連結し損ねた増幅物においてのみ残ることとなる。したがって、連結し損ねた増幅産物は、タグ結合分子を結合したカラムやビーズを用いてアフィニティーにより除去することができ、これにより、連結物の増幅物をより純度高く精製することができる。
したがって、本発明の配列決定方法は、
前記(B)において、細胞バーコードの増幅産物は、第一のプライマーに由来する第一の領域を有し、所定の遺伝子の増幅産物は、第二プライマーに由来する第二の領域を有し、第一の領域と第二の領域は、互いにハイブリダイズ可能な相補的な配列部分を有し、前記第一のプライマーおよび第二のプライマーはそれぞれ、1以上のタグ分子を連結しており、当該タグ分子は、前記連結物には含まれず、かつ、
前記(B)において、水溶液中に回収された連結物から、タグ分子を有する増幅産物を当該タグ分子に親和性を有する分子を担持したカラムまたはビーズを用いて除去することをさらに含んでいてもよい。これにより、所望の連結物から、タグ分子を有する連結し損ねた増幅産物を分離することができる。
本発明の配列決定方法では、シークエンス品質の低い塩基配列の領域を削除することを含んでいてもよい。シークエンスの品質は、例えば、Phredアルゴリズムに基づく品質スコア(例えば、phred品質スコア、例えば、Qスコア(Q=-10log10(e){ここで、eは、ベースコールが誤っている確率の推定値である})によって行うことができる(Ewing et al., Genome Res., 8(3): 175-185, 1998、およびEwing and Green, Genome Res., 8(3): 186-194, 1998参照)。シークエンスの解読エラーを低減させるために当業者により広く行われているように、品質スコアが一定の閾値以下である配列は、解析から除外することができる。例えば、Qスコアが、20以下、15以下、または10以下である配列を解析から除外することができる。
本発明の配列決定方法は、
(C-1)細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得ること
をさらに含んでいてもよい。
上記(C-1)において「決定された塩基配列」とは、決定された所定の遺伝子の塩基配列と細胞バーコードの塩基配列を含む塩基配列の組合せであり得る。
決定された細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングすることは、細胞バーコードの塩基配列が完全に同一の配列であるか否かでクラスタリングすることのみならず、多少の相違を有する配列を同じクラスターにクラスタリングすることを含み得る。多少の相違を有する配列を同じクラスターにクラスタリングする理由は、実験的には、細胞バーコードの増幅反応やシークエンスにおいてエラーが生じ、解読された塩基配列が本来の塩基配列と異なる配列になり得るためである。しかし、増幅反応やシークエンスにおいて生じるエラーは、経験的によく知られており、それに対応するエラーによって同一配列を異なる配列として区別しないようにするためには、多少の相違を有する配列を同じクラスターにクラスタリングすることが有効である。
例えば、決定された細胞バーコードの塩基配列が、完全に同一であるという基準(距離0)でクラスタリングをすると、増幅エラーやシークエンスエラーが存在しない場合には、1つの細胞に由来する塩基配列は、1つのクラスターに正しくクラスタリングされることとなる。したがって、このようなケースについては、問題がない。これに対して、決定された細胞バーコードの塩基配列が、完全に同一であるという基準(距離0)でクラスタリングをすると、増幅エラーやシークエンスエラーが存在する場合には、1つの細胞に由来する塩基配列が、異なる細胞に由来するものとして、2つ以上のクラスターに誤ってクラスタリングされ得る。
理論的には、n個の塩基の付加、削除、欠失、または挿入(特にインデル)を有する配列も同一のクラスターにクラスタリングするという基準(距離nであり、nは1~5の自然数であり得る)では、増幅エラーやシークエンスエラーによってn個までの塩基の付加、削除、欠失、または挿入(特にインデル)が発生した場合にも、1つの細胞に由来する塩基配列は、1つのクラスターに正しくクラスタリングされることとなる。ここで、当業者であれば、増幅反応におけるエラー率やシークエンスエラー率に基づいて、nを適宜設定することができる。nを大きく設定する場合には、細胞バーコードが細胞毎にn塩基よりも必ず多く異なるようにデザインすることができる。本発明のある態様では、nは、1とすることができる。本発明の別の態様では、nは、2とすることができる、本発明のさらなる別の態様では、nは、3とすることができる。決定された細胞バーコードの塩基配列が、細胞毎に大きく異なる配列となるように設計することによって、n個までの塩基の付加、削除、欠失、または挿入(特にインデル)が発生した場合にも、当該エラーを有する塩基配列が、いずれの細胞バーコードに由来するかを決定することができる。クラスタリングにはこのような実験的エラーによる影響を低減する効果が期待できる。クラスタリングに関しては、引用することによりその全体が本明細書に組込まれるWO2018/235938を参照して実施することができる。
細胞バーコードは、各細胞に対して固有の配列であるために、同一の細胞バーコードを含む連結物は、理論的には、同一細胞に由来する所定の遺伝子としか連結していないはずである。したがって、同一の細胞バーコードの塩基配列に基づいて、決定された塩基配列(細胞バーコードと所定の遺伝子の増幅産物を含む)をクラスタリングすることで、同一細胞に由来する所定の遺伝子が決定できる。所定の遺伝子が、細胞内に1つのみ存在する場合は、理論上、上記(C-1)で得られる第一のクラスターには、所定の遺伝子に関して1つの配列しか検出されない。他方で、所定の遺伝子が、細胞内に複数存在する場合には、理論上、上記(C-1)で得られる第一のクラスターは、所定の遺伝子に関して2つ以上の配列(パラログ)を含み得る。そのため、上記(C-1)をさらに含む本発明の細胞集団の分析方法では、細胞集団中に、所定の遺伝子の重複(コピーまたはパラログ等)を有する細胞の存在を検出することができる。
また、上記において、本発明の方法では、細胞数は、理論上は、細胞バーコードの種類の数または細胞バーコードの塩基配列に基づいて得られたクラスターの数に等しいと推定できる。したがって、1細胞中での所定の遺伝子の重複は、算出される細胞数の正確性に影響を及ぼさないという利点がある。
したがって、本発明の細胞集団に含まれる遺伝子配列の決定方法は、
(D-1)得られた第一のクラスターの数から細胞集団に含まれる細胞の数または特定の所定の遺伝子を有する細胞の数を推定すること
をさらに含んでいてもよい。
また、上記においては、細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得た。これに対して、以下の実施態様では、本発明の細胞集団を分析する方法は、決定された所定の遺伝子の塩基配列に基づいて決定された塩基配列をクラスタリングすることを含むことができる。
すなわち、本発明の細胞集団を分析する方法は、
(C-2)決定された所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ること
をさらに含んでいてもよい。
所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ることは、完全に同一の配列であるか否かでクラスタリングすることのみならず、多少の相違を有する配列を同じクラスターにクラスタリングすることを含み得る。多少の相違を有する配列を同じクラスターにクラスタリングする理由は、実験的には、細胞バーコードの増幅反応やシークエンスにおいて配列にエラーが生じ得るためである。
例えば、決定された所定の遺伝子の塩基配列が、完全に同一であるという基準(距離0)でクラスタリングをすると、増幅エラーやシークエンスエラーが存在しない場合には、クラスタリングにより得られた各クラスターは、正確に1種類の遺伝子に由来することとなる。一方で、理論的には、n個の塩基の付加、削除、欠失、または挿入(特にインデル)を有する配列も同一のクラスターにクラスタリングするという基準(距離nであり、nは1~5の自然数であり得る)では、増幅エラーやシークエンスエラーによってn個までの塩基の付加、削除、欠失、または挿入(特にインデル)が発生した場合にも、1種類の遺伝子に由来するものが同一クラスターにクラスタリングされることになる。そして、本発明のある態様では、nは、1とすることができる。本発明の別の態様では、nは、2とすることができる、本発明のさらなる別の態様では、nは、3とすることができる。ここで、当業者であれば、nを適宜設定することができる。得られたクラスターの数は、所定の遺伝子の種類の数に対応する。
所定の遺伝子の配列が、すべての微生物において把握されているわけではない。しかし、本発明の配列決定方法では、細胞集団が、未知の微生物を含んでいてもよい。当該未知の微生物が、他の微生物と区別できる塩基配列を有する所定の遺伝子を有する限り、当該未知の微生物を既知の微生物と異なるものとして処理できるためである。
ところで、未知の微生物において、所定の遺伝子の塩基配列が、既知の所定の遺伝子の配列と距離n以下の相違しか有しない場合には、上記方法では、未知の遺伝子と既知の遺伝子が本来的に異なる塩基配列を有する場合であっても、同じクラスターにクラスタリングされることとなり、同一の遺伝子に由来すると推定されることとなる可能性がある。
したがって、上記(C-2)は、さらなる工程:
(C-2α)あるクラスターにおいて、所定の遺伝子に関して相違する塩基配列が含まれている場合に、当該相違する塩基配列の1つの位置において、最も豊富な塩基を決定することと、二番目に豊富な塩基を決定することと、当該位置において、最も豊富な塩基を有する塩基配列の数(すなわち、リード数)に対する二番目に豊富な塩基を有する塩基配列の数(すなわち、リード数)の比(Ratio2nd)が所定の値以上である場合には、最も豊富な塩基を有する塩基配列と、二番目に豊富な塩基を有する塩基配列とを別のクラスターにクラスタリングすること
をさらに含み得る。これによって、同一クラスターに分類された塩基配列のうち、本来的に異なる遺伝子に由来するものを異なるものとして処理することができ、これにより、(c-2)の工程によって、異なる遺伝子が同一と評価される頻度を低減することができる。
工程(C-2α)は、すべての塩基配列の相違について、Ratio2ndが所定の値未満となるまで続けられ得る。所定の値は、例えば、0.6以上、0.65以上、0.7以上、0.75以上、または0.8以上の数字であり得る。これは、本当に存在する塩基配列であれば、複数の細胞に含まれているはずであり、一定の割合を占めるように検出されるであろうからである。一方で、エラーはその頻度が低いので、この評価によってエラーと本来的に存在する配列とを区別することができる。
工程(C-2α)では、所定の遺伝子の塩基配列についての品質スコアにより、上記リード数に重み付けを行ってもよい。品質スコアは、例えば、Phredアルゴリズムに基づいて決定され得るスコア、例えば、phred品質スコア、または例えば、Qスコアであり得る。品質スコアが所定の値未満である場合には、低く(例えば、0と)重み付けし、品質スコアが所定の値以上である場合には、高く(例えば、スコアの数値に応じて)重み付けしてもよい。実施例のステップ3.2に記載される通りである。
この工程によって、最も豊富な塩基を有する塩基配列を当該クラスターにおける「代表的な塩基配列」(RepSeq)とする。
異なるRepSeqを対比し、塩基のずれ(シフト)が見出された場合(すなわち、塩基配列をずらすと2つの塩基配列が一致する場合)には、より多くの第一のクラスターにおいて見出されたRepSeqを母親とし、より少ない方をシフトとし、シフトした塩基配列を削除して、母親の塩基配列を有すると推定することができる。この際に、シフトした塩基配列のカウント(リード数)を母親であるRepSeqのリード数に加えることができる。実施例のステップ5に記載される通りである。
工程(C-2α)では、単一のリードでしか検出されなかった塩基配列は、エラーとして除外することをさらに含んでいてもよい。
複数の第一のクラスターから同じ配列が検出される場合、その配列は、真に存在していた配列である可能性がある。そのため、工程(C-1)と工程(C-2)とは組み合わせて実施することにより、さらに塩基配列の決定精度が高まる。また、工程(C-1)と工程(C-2)とを組み合わせると、1つの細胞に複数の所定の遺伝子が存在したかどうかを決定することができる。
これによって、本発明では、
(D-2)得られた第二のクラスターの数から細胞集団に含まれる細胞の種類の数(何種類の細胞が細胞集団に含まれるか)を推定すること
ができる。
したがって、本発明の細胞集団に含まれる遺伝子配列を決定する方法は、
(C-3)決定された細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得ることと、決定された所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ることと
をさらに含んでいてもよい。
ここでのクラスタリングの工程の詳細およびその効果は、上記(C-1)および(C-2)で説明した通りである。上記(C-3)では、第一のクラスターそれぞれに対して、第二のクラスターを形成させてもよく、第二のクラスターそれぞれに対して第一のクラスターを形成させてもよい。
本発明の細胞集団に含まれる遺伝子配列を決定する方法は、
(D-3)得られた細胞バーコードの塩基配列と所定の遺伝子の塩基配列の組合せの情報に基づいて、少なくとも1つのある第二のクラスターに分類された所定の遺伝子の塩基配列と連結している細胞バーコードの塩基配列から当該所定の遺伝子の塩基配列が分類された第一のクラスターを決定し、当該細胞バーコードが分類された第一のクラスターの数から、当該第二のクラスターに分類された細胞の数を推定すること
をさらに含んでいてもよい。
ここで、所定の遺伝子の塩基配列に関して、距離nの2つの塩基配列(例えば、配列の中心部において1つの喪失または欠失の相違(すなわち、1-インデル)を有する2つの塩基配列)について、より多くの第一のクラスターに分類された塩基配列を母親とし(すなわち、より多くの数の細胞において検出される塩基配列を母親とし)、より少ない方を1-インデルとする。母親のリード数の方が1-インデルより多い第一のクラスターの数(Nomother)と、母親のリード数が1-インデルのリード数よりも少ない第一のクラスターの数(No1-インデル)とを比較して、NomotherがNo1-インデルよりも大きい場合には、その母親と1-インデルのペアを残すことができる。さらに、母親と1-インデルの両方を含む第一のクラスターの数に対する、No1-インデルの比が、所定の値(例えば、(No1-インデル-3)/No1-インデル)よりも小さい場合に、母親と1-インデルのペアを残すことができる。残った母親と1-インデルのペアに対して、1-インデルを削除し、1-インデルのリード数を母親のリード数に足すことができる。また、同じ1-インデルに対して母親が2通り存在する場合には、より多くの第一のクラスターにおいて見出された母親に対してそのリード数を足すことができる。また、もし、母親なしで1-インデルのみが検出された第一のクラスターが存在した場合には、そのクラスターにおいては、1-インデルのリード数を母親のリード数とすることができる。実施例のステップ7に記載される通りである。
さらに、遺伝子増幅の過程において、ある増幅産物が他の増幅産物と連結したキメラ分子が生じることが問題となり得る。実施例において、本発明の方法では、キメラ分子の生成割合が極めて低いことが明らかであるが、本発明の方法は、当該キメラ分子を特定することをさらに含み得る。キメラ分子は以下のように特定することができる。例えば、キメラ分子を含む第一のクラスター数とキメラ分子(Total_N)のみを含み、親を含まない第一のクラスター数(N_d)との比(N_d/Total_N)の比が1未満の一定値以下である場合には、このキメラ分子は、エラーによって生じたとしてRepSeqから除外することができる。実施例のステップ8に記載される通りである。
本発明の方法は、上記(C-2)に加えて、
細胞ベースの操作上分類単位(cOTU)を作成することをさらに含んでいてもよい。細胞集団に含まれる微生物数及び種類が不明であることが多く、さらには、未知の微生物が存在する場合には、データベースに登録された既知の遺伝子配列情報からのみでは、細胞集団の遺伝子配列の分析は不十分となる。特に、所定の遺伝子の塩基配列ベースで操作上部類単位(OTU)を形成させると、所定の遺伝子についてある微生物種でn個の重複を有する場合には、当該微生物種の数が本来のn倍あるものとしてカウントされて誤差を生じることになる。また、2つの異なる微生物種において、一方は塩基配列AとBとを有し、他方はAとCとを有する場合に、塩基配列ベースで操作上部類単位(OTU)を形成させると、OTUは、AとBとCそれぞれに対応して3つ形成され、Aのカウントの分だけ細胞数に誤差を生じることになる。そこで、(C-4)では、遺伝子重複を有する細胞が細胞集団に含まれるときのカウントの上記誤差を低減するために、RepSeqの情報からcOTUを作成する。なお、cOTUは、理論的には、所定の遺伝子の塩基配列で分類できる微生物の分類単位であり、これまで上位の分類群でしか分類できなかった微生物をさらに詳細に分類する技術的手段である。これは、特に詳細な分類がなされていない微生物や未同定の微生物を含む細胞集団の分析において有用である。分類ができれば、これを元にして細胞集団間での相違を比較することができ、有利である。
cOTUの作成は以下のように行うことができる。すなわち、従来法同様に、一つの第二のクラスターを一つのcOTUとみなすことができる。しかし、本発明では、同じ細胞に2つ以上の第二のクラスターが含まれることを考慮して、同一の細胞バーコードと連結された複数の第二のクラスターは1つのcOTUに分類することをさらに含むことができる。
すなわち、本発明の方法は、例えば、上記(C-3)に加えて、
(C-4)同一の第一のクラスターに分類された配列が異なる第二のクラスターに分類される場合、当該第二のクラスターを同一の細胞ベースの操作上分類単位(cOTU、すなわち同一の細胞分類)に分類すること
をさらに含んでいてもよい。
このcOTUの作成においては、実験的エラー(例えば、1つの液滴中に2つの細胞が含まれて解析され、これにより一つの第一のクラスターに2つの細胞由来の所定の遺伝子の塩基配列が検出されること)を除外することをさらに含んでいてもよい。
ある細胞バーコード配列と連結した所定の遺伝子の塩基配列が2つ存在する場合に、1つの液滴に2つの細胞が混入する確率は、理論上、ポアソン分布にしたがう。上記エラータイプAは、液滴作成時の細胞の濃度に依存するエラーであると考えられるために、液滴作成時の濃度を薄めること(実施例では20%の液滴に細胞が含まれるような濃度を用いた)、によって、このエラーの頻度を低下させることができると考えられる。また、2つの塩基配列が異なる細胞に存在していたときに操作中に1つの液滴内に含まれる確率は、理論上、ポアソン分布に従う。
1つの細胞バーコードが付与されたRepSeq(RepSeqは、上記のステップで様々なエラー除去後の配列としてもよく、それが好ましい)が複数存在する場合には、それらをすべてピックアップする。2つのRepSeqが含まれる液滴の数は(Overlap)と表す。異なる細胞に由来する2つのRepSeqが1つの液滴に含まれる確率(Poission_Overlap)は、(A×B×μ)/液滴総数と表される{ここで、細胞総数は、細胞バーコードを含む液滴の総数であり、Aは一方のRepSeqが含まれる液滴の数であり、Bは他方のRepSeqが含まれる液滴の数であり、μは、PCR増幅効率、シークエンス深度効果などを含み得る液滴における検出効率のための統合パラメータである}。ここで、
式:(Poission_Overlap)=(A×B×μ)/液滴総数は、
log10(Poission_Overlap)=log10{(A×B×μ)/液滴総数}
に変換することができる。さらに上記式は、
log10(Poission_Overlap)
=log10(A×B)-log10(液滴総数/μ)
変換することができる。ここで、AおよびBは実験的に測定でき、log10(液滴総数/μ)は実験毎に一定の定数とすることができる。従って、log10(液滴総数/μ)を定数ODとすると、上記式は、
log10(Poission_Overlap)=log10(A×B)-OD
に変換できる。これは、y=x-ODで直線近似することができる。AとBについて様々な整数を想定してlog10(Poission_Overlap)を算出することができる。現実のlog10(Overlap)の値が、計算されるlog10(Poission_Overlap)の信頼区間の外である場合、2つの塩基配列は1つの細胞内に含まれていたと推測することができる。また、log10(Poission_Overlap)の信頼区間の内部である場合、2つの塩基配列はそれぞれ異なる細胞に含まれていたと推測することができる。信頼区間としては、例えば、片側信頼区間(例えば、95%以上、98%以上、99%以上、または99.9%もしくはそれ以上の信頼区間とすることができる)を用いることができる。このようにして、統計学的にポワソン分布では説明ができない場合に、2つの塩基配列は1つの細胞内に含まれていたと推定することができる。あるいは、統計学的にポワソン分布で説明できるときには、2つの塩基配列は異なる細胞に存在したと推定することができる。
また、理論的には、同じ微生物中のRepSeqの結果は、異なるサンプルにおいても同じであると考えられる。したがって、異なるサンプルにおいても、再現された場合には、複数の異なる細胞集団サンプルを測定し、2つのRepSeqを含むサンプル数に対する、log10(Overlap)の値が、log10(Poission_Overlap)の信頼区間の外であるサンプル数の比を求めることができ、この比が一定値より大きい場合(例えば、一定値は、0.4以上の数であり得る)に、2つのRepSeqが一つの細胞に由来すると推定することができる。
また、同じ第一のクラスターに分類された2つのRepSeqは同一の細胞内に存在することが分かり、したがって、この2つのRepSeqは、cOTUに分類されうる。このようにして、第二のクラスターをcOTUとして再分類することができる。
あるいは、所定の遺伝子が、16s rRNAである場合には、RDP分類を用いて分類することや、RDP分類における16s rRNAのトレーニングセットを機械学習させることによって、最も高いスコアを有する予測分類群を作成し、これをcOTUとすることができる。なお、RDP分類は、リボソームデータベースプロジェクトにより開発された16S rRNAの塩基配列から微生物種を判別するためのツールである。
また、本発明の方法は、本発明の方法で算出された細胞の総数を、光学顕微鏡等によるカウントから推定される細胞の総数によって補正(または標準化)することをさらに含んでいてもよい。本発明の方法で算出された細胞の総数を補正(または標準化)することにより、細胞数(例えば、特定のクラスターの細胞数、または特定のcOTUの細胞数)の予測精度を向上させることができる。
本発明の方法は、2つの異なる細胞集団間の比較を行うことに用いることができる。そして、本発明の方法は、
(E)第一の細胞集団と、第一の細胞集団とは異なる第二の細胞集団のそれぞれに関して、細胞集団に含まれる(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を推定し、第一の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を、第二の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTU含まれる細胞の数と比較すること
をさらに含んでいてもよい。
上記(E)において、比較する細胞集団の細胞数を同等としておくことができる。上記(E)において、2つの異なる細胞集団の間で、cOTUの数や各cOTUに含まれる細胞の数を比較することによって、各細胞集団の特徴をcOTUの観点で記述することもできる。
2つの細胞集団は、例えば、同一対象の同一部位から異なる時間に単離された細胞集団であり得、同一対象の異なる部位から同一時間に単離された細胞集団であり得、異なる対象の同一部位から同一時間に単離された細胞集団であり得る。
同一対象の同一部位から異なる時間に単離された細胞集団を上記(E)により比較した場合には、サンプルの取得時間の相違(例えば、健康状態の変遷、治療前後の健康状態の相違、疾患や状態の発症や発展)が、cOTUの観点で記述されることとなる。また、同一対象の異なる部位から同一時間に単離された細胞集団を上記(E)により比較した場合には、取得部位の相違(例えば、臓器毎の細菌叢の相違)が、cOTUの観点で記述されることとなる。また、異なる対象の同一部位から同一時間に単離された細胞集団を上記(E)により比較した場合には、対象の相違(例えば、健康状態、性別、地域、人種等)が、cOTUの観点で記述されることとなる。
本発明の方法は、
(F)第一の細胞集団に関して推定された(i)cOTUの数および(ii’)特定のcOTUに含まれる細胞の数と、第二の細胞集団に関して推定された(i)cOTUの数および(ii’)特定のcOTUに含まれる細胞の数とを比較すること
をさらに含んでいてもよい。
上記(F)では、第一の細胞集団について推定されたcOTUの数と第二の集団について推定されたcOTUの数との相関を決定することができる。
上記(F)ではまた、第一の細胞集団について推定された1以上の特定のcOTUと、当該1以上のcOTUに対応する第二の細胞集団について推定された1以上のcOTUとを比較することができる。ここで、ある細胞集団から推定されたcOTUと、他の細胞集団から推定されたcOTUが対応するかどうかは、当該cOTUに含まれるすべての塩基配列(またはエラー修正後の塩基配列)が同一であるか否かによって確認することができる。上記(F)では特に、各cOTUに含まれる細胞数の増減が、他のcOTUに含まれる細胞数の増減と正に相関するか、負に相関するか、または相関しない(相関が弱い)かを決定することができる。これにより、cOTU間のネットワークを推定することができる。
または、群集生態学の分野において群間の類似度の指標となる様々な指標を用いて細胞集団(この細胞集団は、複数のcOTU分類群を含み、各cOTU分類群に対して細胞数が決定されている)を比較することができる。例えば、第一の細胞集団と第二の細胞集団との類似度は、各cOTUに含まれる細胞数の差の2乗平均平方根(c.f. ユークリッド距離)として求められ得る。また、第一の細胞集団と第二の細胞集団との類似度は、各cOTUに含まれる細胞数の差の絶対値の和(c.f. マンハッタン距離)として求められ得る。これらの数値は、数字が大きければ大きいほど非類似であることを示し、完全に同一である場合、0である。Bray-Curtis非類似度(指数)は、マンハッタン距離を標準化したものである。第一の細胞集団の細胞組成が(X11,・・・・,X1n)とし、第二の細胞集団の細胞組成が(X21,・・・・,X2n)であるとき、Bray-Curtis指数は以下の式により求められる。
Figure 0007423101000001
Bray-Curtis指数は、2つの群が全く異なる場合に1となり、完全に一致するときに0となる。このように、異なる場合に大きくなるように設計された指数であるため、非類似度と呼ばれることがある。Bray-Curtis指数は、統計処理プログラム(例えば、Rのパッケージveganの関数、例えば、vedist関数)を用いて計算することができる。その他、類似度は、Morishita指数、Jaccard指数、Chao指数などの、群衆生物学の分野においてよく用いられる評価指標によって評価することができる。推定された類似度の標準偏差および信頼区間については、ブートストラップ法などによって評価できる。
本発明の方法は、
(G)cOTU間の階層的クラスタリングを実施することをさらに含み得る。
階層クラスタリングは、例えば、cOTU間の相関の強度(例えば、スピアマンの相関係数r)に基づいて、当業者に周知の方法により行うことができる。階層クラスタリングは、また、rから算出されるcOTU間の距離に基づいて、当業者に周知の方法により行ってもよい。距離は例えば、1-最小(│r’│)[r’∈(r - OCI, r+OCI)]{ここで、OCIは各rの90%片側信頼区間を意味する}により算出され得る。階層的クラスタリングの結果は、系統樹として表示することができる。これは、例えば、Rのパッケージhclustまたはpheatmapにより行うことができる。また、ピアソンの相関係数rが閾値(例えば、0.5以上、または0.6以上など)以上となるcOTUのネットワークをパッケージigraphを用いて図示することができる。このようにして、複数の細胞集団におけるcOTUの関係性から、cOTU間の相関を図示することができる。
cOTUが既知の微生物に対応する場合には、既知の微生物間の相関を明らかにすることができるが、cOTUが未知の微生物に対応するものであっても、cOTU間の相関を明らかにすることができる。あるcOTUが、既知の微生物の一つに対応する場合、既知の微生物の他の微生物(当該他の微生物は、未知であっても既知であってもよい)との相関を明らかにすることができる。また、相関する2つのcOTUが、既知の2つの微生物に対応する場合、2つの既知の微生物間の新しい相関を見出すことなどに用いることができる。このようにして、相関するn個のcOTUが、既知のn種類の微生物に対応する場合には、n種類の既知の微生物間の新しい相関を見出すことができる。このように本発明の方法は、複数の細胞集団(例えば、複数の細菌叢)を調べることによって、微生物間の相関を明らかにすることに用いることができる。対象の健康状態は、その対象が有する細菌叢と相関する可能性がある。したがって、対象の健康状態とあるcOTUとの相関をさらに調べることによって、cOTU自体が未知の微生物であったとしても、当該未知の微生物に対応するcOTUから対象の健康状態を予測することが可能となる{cOTU自体は、異なるサンプル間でも共通することに留意されたい}。また、対象の健康状態とあるcOTUとの相関に加えて、当該cOTUと相関する他のcOTUとの相関をさらに調べることによって、cOTUからの対象の健康状態の予測精度を向上させることができると期待できる。
このように、これまで1つの微生物が1つの所定の遺伝子しか有しないことを前提とした分析をしていたのに対して、本発明では、1つの微生物が複数の所定の遺伝子を有する場合であっても、それをcOTUという新しい群の概念により記述する方法を提供する。さらに、cOTU毎に、細胞バーコードを用いて細胞数を定性的にカウントすることにより、各cOTUに含まれる細胞の正確な計数が可能である。分析対象となる細胞集団を本発明の方法によって分析すれば、内在するcOTUの種類と、各cOTUに含まれる細胞数を決定することができる。取得される細胞集団と、cOTUの種類および各cOTUに含まれる細胞数とを分析することによって、未知の微生物を含む細胞集団に関しても、当該未知の微生物の情報を用いたより詳細な細胞集団の分析が可能となる。
さらには、本発明は、遺伝子のコピー数が細胞によって異なる場合でも、分析精度が落ちない利点を有する。すなわち、同一種の微生物であっても、細胞内での遺伝子コピー数が細胞により異なる場合がある。このような場合、従来の方法では、遺伝子のコピー数が細胞カウントに影響する可能性があった。本発明の方法では、細胞バーコードを用いて細胞数を定性的にカウントするので、細胞内の遺伝子のコピー数には影響を受けずに細胞の計数ができ得る。微生物によっては、環境に影響する物質(例えば、毒物や増殖因子など)を放出する。細胞の数を正確に測ることは、放出される物質の量をより正確に推定することが可能となり、当該放出される物質量に基づく数理モデリングの途を拓き得る。
本発明の方法では、シークエンスされる遺伝子は、特定の1種の遺伝子であってもよいし、複数の遺伝子であってもよい。本発明の方法では、シークエンスされる遺伝子は、全ゲノムである必要はない。
また、従来法では、例えば、16S rRNAの分析において、細胞集団に含まれる全16S rRNAをコードする遺伝子の塩基配列をシークエンスして、得られた塩基配列を閾値に基づいて分類していた。閾値としては、例えば、同一性において97%と設定し、97%以上の同一性を有するものを同じ遺伝子とみなして分析した。しかし、このような分析では、異なる種、異なる属、異なる科等の本来的に生物学的に異なる分類群に属するべき微生物が1つの群として認識されることとなっていた。しかし、本発明の方法では、ある新規な16S rRNAが、本当に新規なものであるか、実験的なエラーによるものであるかを判別することができる。例えば、複数の細胞において発見される同一配列は、本来的に存在していた配列である可能性があるが、これを細胞バーコードによって確認することができる。このようにして、本発明の方法では、塩基配列が相違すれば、塩基配列の類似度に影響を受けない評価方法となり得る。
実施例においては、既知の濃度の既知の細菌で構成した模擬的な細菌叢(ここでは「模擬細胞集団」という)を作製して測定系を検証し、その後、実際の細菌叢(ここでは盲腸の細菌叢)を調べた。
[方法]
模擬細胞集団の準備
ヒト腸内細菌株(ATCC29098、ATCC700926、DSM14469、JCM1297、JCM5824、JCM5827、JCM9498、JCM10188、JCM14656、およびJCM17463)からなる模擬細胞集団を調製した。これらの株の名称、供給源、培地および培養条件を表1に示す。培養菌を10%グリセロールで元の培地に保存するか、リン酸緩衝生理食塩水(PBS)中で、実験まで-80℃で保存した(表1)。JCM14656およびDSM14469は、培養後に遠心分離を用いてPBSによって1回洗浄された。JCM10188をGAM寒天(ニッスイ)上で培養し、細菌コロニーを収集し、3,200rpmで1分間ボルテックスすることによりPBSに懸濁した(VORTEX GENE 2、Scientific Industries)。
10株をPBSで希釈し、クラスIIのバイオセーフティキャビネット内で設定された濃度に従って混合した(表1)。希釈または混合の各工程に続いて、3,200rpmで1分間ボルテックスした。この混合10株の「模擬細胞集団」と呼ぶ。模擬細胞集団は実験まで-80℃で保存した。
Figure 0007423101000002
上記表中記号は以下の通りである。
*顕微鏡画像により測定された模擬細胞集団形成における添加濃度 (mean ± s.d., n=5, cells/μl)。
** “+”: グラム陽性; “-”: グラム陰性.
# -80℃で10%グリセロール下で培地中に保存された.
## -80℃でリン酸緩衝生理食塩水(PBS)中に保存された.
GAM、Gifu Anaerobic Medium (ニッスイ).
GAM Agar、Modified GAM Agar (ニッスイ)
LB、Luria-Bertani (Nacalai Tesque).
PYG、Peptone Yeast Glucose, DSMZ medium 104.
ATCC medium 1249、Modified Baar’s medium for sulfate reducers.
顕微鏡画像による細菌濃度測定
顕微鏡下蛍光イメージングにより各株の濃度を測定した。蛍光染色した細菌を、ポリスチレンミクロスフェア(Bacteria Counting Kit、Thermo Fisher Scientific)を用いて測定した。ヨウ化プロピジウム(Thermo Fisher Scientific)を用い、70℃で5分間加熱して細菌を染色した。体積は、細菌計数チャンバー(SLGC)を用いて測定したマイクロスフェアの濃度に基づいて計算した。各菌株について、5つの独立した測定を実施した;これらの5つの測定の平均濃度および標準偏差(誤差バーとして)を、模擬細胞集団における各菌株の濃度を計算するために使用した。
Figure 0007423101000003
a,b,cは、3回のサンプリングの反復による。
絶対濃度は、液滴デジタルPCR(ddPCR)によって測定された模擬細胞集団の総濃度(94,400細胞/μl)を用いて、シークエンスから決まった生のカウント値を正規化して得られた。
16S rRNA遺伝子のサンガーシークエンス
各株の16S rRNA遺伝子を、2×KAPA HiFi Hot start ready mix(Roche)およびプライマーF1-full-Fw/F3-full-Rv(表3)を用いて増幅した。次に、増幅した16S rRNA遺伝子をpCR-Blunt II-TOPOベクターにクローン化し、Zero Blunt TOPO PCR Cloning Kit (Thermo Fisher Scientific)を用いてE. coliで増幅した。次に、T7-プロモーターおよびSP6-プロモーターをプライマーとして、E. coliの単一コロニーからそれぞれ16S rRNA遺伝子を増幅した(表3)。最後に、各コロニーから増幅した16S rRNA遺伝子のV3-V4領域を、F2-Rvプライマー(表3)を用いてサンガーシークエンス(FASMAC)によりシークエンスした。
Figure 0007423101000004
16S rRNAのシークエンス法
簡単に述べると、模擬細胞集団の細菌をPBSに懸濁し、細胞溶解のためにリゾチーム、アクロモペプチダーゼ、およびプロテイナーゼKに連続的に供した。次いで、フェノール-クロロホルム抽出によりDNAを回収した。Illumina adapter overhang nucleotide sequence(表3のCONV341FおよびCONV805R)を含む領域特異的プライマーを用いて、16S rRNA遺伝子のV3-V4領域を増幅した。増幅産物を、AMPure XP磁気ビーズ(Beckman Coulter)を用いて精製し、Nextera XT Index Kit v2(Illumina)を用いてインデックス化した。AMPure XPを用いた精製後、プールしたライブラリーをTapeStation(Agilent)およびKAPA Library Quantification Kit for Illumina (Kapa Biosystems)により定性および定量した。20%PhiX control v3(Illumina)をスパイクした変性ライブラリーを、MiSeqプラットフォーム(Illumina、2×300bp paired-end reads)でシークエンスした。配列データを質について確認し、Trimmomatic version 0.3847を用いてトリミングした。OTUはMothurバージョン1.35.148を用いて97%の同一性閾値でクラスター化した。各OTUで最も豊富に存在する配列は、OTUの代表的な配列として選択された(図1b)。
マウスの準備
マウスの処置はすべて、理研の施設内動物実験委員会が承認したプロトコールに基づき、研究所の倫理指針に準拠して実施した。状態を維持しているマウスは以下のとおりであった。6週齢のC57BL6/J雄マウスをCLEA Japanから購入し、サンプリング前に同じケージにCE-2飼料(CLEA Japan)を給餌することにより理研施設で3日間維持した。
マウス盲腸内容物の採取
ネズミ盲腸は、セボフルラン麻酔下で頚椎脱臼後10分以内に手術により外に出した。異なる部位の盲腸内容物(図2a)を、滅菌済みはさみを用いてスライスすることによりサンプリングした。サンプリングプロセスは、クラスIIのバイオセーフティキャビネット内で手術後10分以内に行われた。各マウスの各部位のサンプルを、DNA Lobind Tube(Eppendorf)に採取した。対照では、2本の空試験管を用いた。サンプルの重量は、DNA Lobind Tube(全サンプルについて8.57~19.82mgの範囲)に採取した直後に測定した。次に、各試料を添加したPBS(1mg当たり50μl)に分散させ、3,200rpmで1分間ボルテックスすることにより混合した。懸濁試料は、その後の実験まで4℃で保存した。
細胞外DNAの濾過
マウス盲腸試料を、1mgの盲腸内容物当たり1mlのPBSに希釈し、その後、3,200rpmで1分間ボルテックスした。対照では、空のチューブにPBSを添加した。次いで、0.22μmの孔径のUltrafree-MC Centrifugal Filter(Merck)を用いて、希釈した試料400μlを遠心分離(10,000g、10分、4℃)により濾過した。メンブラン上に残った試料に400μlの新鮮なPBSを添加し、ピペッティングにより懸濁した後、全量を新しいDNA Lobind Tube中に写した。次いで、懸濁した試料を、3,200rpmで1分間ボルテックスした。懸濁試料およびフィルター通過液に含まれる細胞外DNAは、その後の測定まで4℃で保存した。なお、0.22μmのフィルターによるDNA分離の適切性は、0.1μmの孔径のフィルターを用いた場合と比較して、フィルター通過液中の細胞外DNAの量がほぼ一致し、フィルター通過液中に細胞が検出されなかったこと、フィロターろ過後のフィルター上から回収された細菌量が等しいこと、および、フィルターから回収された細菌量がデジタルPCRによる細菌数と相関することから確認された(図31参照)。
BarBIQ法
総濃度測定
細胞または細胞外16S rRNA遺伝子の総濃度は、プライマーF1-FwおよびF1-Rv(表3)を用いて、Droplet DigitalTM PCR(ddPCR)(Bio-Rad)により測定した。等モル混合した4つの細胞バーコードテンプレート(表3; 24個のランダム塩基を含有する各テンプレートは、我々の以前の文献25に従って設計され、ランダム塩基の数は、単一のMiSeqシークエンス作業において測定された個々の細胞を区別するのに十分であった)の濃度も、プライマーNoBiotin-Link-barcode-FおよびP5-index-R1P-barcode-R(表3)を用いたddPCRによって測定した。ddPCRは、QX200TM ddPCRTM EvaGreen(商標) Supermix(Bio-Rad)のユーザーマニュアルに従って実施した。
ワンステップの液滴増幅
シークエンスライブラリーを作製するために、合計約240,000個の細胞(または細胞外の16S rRNA遺伝子の20,000コピー)を、等モル混合細胞バーコード、プライマー(400 nM P7-R2P-341F、400 nM P5-index-R1P-R、10 nM Biotin-link-805R、および10 nM Biotin-Link-F)、ddPCRTM Supermix for Probes (No dUTP)(Bio-Rad)、128ユニットのPlatinum Taq (Invitrogen)、および100 nM NTPを含む溶液960μLと混合した。3,200rpmで1分間ボルテックス後、混合溶液をBio-Rad droplet generatorにより液滴に封入し、30μlの混合溶液および80μlのDroplet Generation Oil for Probe (Bio-Rad)をDG8TMカートリッジ上の各チャネルにロードした(各試料について32チャネルを使用した)。模擬細胞集団測定のために、約600,000個の細胞を、細胞バーコードの約600,000コピー、320ユニットのPlatimum Taq、およびプライマー、dNTP、ddPCRTM Supermix for Probes (No dUTP)を含む2400μLの溶液と混合し;次いで、ボルテックス後、混合溶液を、試料あたり80チャンネルを使用して液滴に封入した。Miseqシークエンスのためのライブラリーを、液滴中におけるワンステップPCRによって生成した(95℃の5分間;94℃の45秒間および60℃の150秒間の6サイクル;94℃の25秒間および60℃の80秒間の49サイクル;98℃の10分間)。
ライブラリーの回収および精製
液滴増幅技術により生成したライブラリーをクロロホルムを用いて回収し、80μlのTEバッファー(Invitrogen)および280μlのクロロホルム(Sigma)を、各DG8TMカートリッジ(8ウェル)から収集した液滴と混合し、その後10回ピペッティングし、水および有機相が分離されるまでボルテックスし;遠心後(21,900g、10分)、ライブラリーを含む水相の溶液を抽出した。次いで、AMPure XPを用いたビーズ精製および2%E-GelTM EX Agarose Gels (ThermoFisher Scienctific)を用いたゲル精製により、未連結バーコード増幅物、残存プライマー、回収溶液中の副産物などの非標的DNAを除去した。その後、ビオチン化された結合していない16S rRNA増幅物をストレプトアビジン磁気ビーズ(NEB)により除去し、結合していない16S rRNA増幅物をプライマーのBiotin-link-805R(図5)によりビオチン化した28。AMPure XP、ゲル、およびストレプトアビジンビーズを用いた精製工程は、それぞれ2回実施した。最後に、精製したライブラリーをDNA Clean and Concentrator Kit(Zymo Research)により濃縮した。ライブラリーの品質をAgilent 2100 Bioanalyzerにより確認し、プライマーP1_qPCR_FwおよびP2_qPCR_Rv(表3)を用いてqPCR(KAPA SYBR Fast qPCR kit, KAPA Biosystems)により濃度を測定した。AMPure XP、ゲル、およびストレプトアビジンビーズを使用する精製工程の詳細なプロトコールを、各製品のユーザー指示に従って実施した。
MiSeqシークエンシング
サンプルのライブラリーを、MiSeq platform (MiSeq Reagent Kit v3、600サイクル、Illumina)上で、Read 1については30サイクル、Index 1については295サイクル、Index 2については8サイクル、Read 2については295サイクルを割り当ててペアエンドのシークエンスをした(図5)。Illumina Index 1シークエンシングプライマーを、インデックスの代わりに16S rRNA配列を読み取るためにI1_primer(表3)と命名されたカスタムプライマーに置き換えた。シークエンスのための配列の不均一性を維持するために、別途作製したスパイクインコントロールを試料と共にシークエンスした(図18および19)。より具体的には、細菌、細胞外のDNA、または細胞バーコードの総濃度は、QX200TM ddPCR EvaGreenTM Supermix(Bio-Rad)の指示に従い、Droplet DigitalTM PCR(ddPCR)により測定した。細菌および細胞外DNA試料については、16S rRNA遺伝子のV1-V2領域を標的とするプライマー、F1-FwおよびF1-Rv、または16S rRNA遺伝子のV3-V4領域を標的とする341Fおよび805Rを用いた(表3)。細胞バーコードには、プライマーであるBiotin-Link-barcode-FおよびP5-index-R1P-barcode-R(index GTACTGAC含有)を用いた(表3)。QX200TM ddPCRTM EvaGreenTM Supermix、1μMプライマー、1μM dNTP、およびサンプル(多重希釈、1分間3,200rpmのボルテックス)を30μlの容量で混合し、混合のためにピペットで分注した。次に、Droplet Generation Oil for EvaGreen(Bio-Rad)、DG8TMカートリッジ(Bio-Rad)、およびDroplet Generator (Bio-Rad)を用いて、混合溶液を液滴に封入した。液滴PCRは、以下のステップにより実施した。初期変性には95℃が5分;変性には95℃45秒、アニーリングと伸長には60℃150秒の6サイクル;変性には95℃25秒とアニーリングと伸長には60℃80秒の39サイクル(F1-FwとF1-Rv)または95℃25秒とアニーリングと伸長には60℃80秒の34サイクル(プライマー341F/805R);シグナル安定化には4℃5分間および90℃5分間。その後、液滴の蛍光強度をQX200 Droplet Reader (Bio-Rad)により測定し、ソフトウェアQuantaSoft(Bio-Rad)による強度の二峰性分布の谷である閾値に基づいて陽性および陰性液滴数を決定した(図18a)。最後に、サンプルの濃度は、陽性および陰性液滴の比率およびサンプルの希釈率に基づいて算出した。
両プライマーセット、F1-Fw/F1-Rvおよび341F/805Rを用いて、同一試料(C57BL6/J雄マウスから得た盲腸試料)について、両細胞と細胞外のDNAの合計濃度を測定し、両者の測定濃度が一致することを確認した。以下の理由から、BarBIQの細菌試料の濃度測定にはプライマーF1-Fw/F1-Rvを用いた。
この比較のために、341F/805R(図18b)の場合の陽性および陰性の液滴の分布の間の明らかな不明瞭な分離のため、ガウスフィッティングによって陽性および陰性の液滴の割合を決定した。R package mixtool中の関数normalmixEMにより、4つのガウス分布を用いて強度分布のピークにフィットさせた(図18c)。簡単に言えば、2つのガウス分布によるフィットは十分であり得、一方は陽性の液滴に対して、他方は陰性の液滴に対してである。しかし、データは明らかに2つ以上のガウス分布があることを示した。従って、異なる数のガウス分布による強度分布をフィットさせた。4個以上のガウス分布(6個以下を試した)を用いたとき、陽性の液滴の割合は安定であることが分かった(図18d)。このことは4個のガウス分布が強度分布を説明するのに十分であることを示唆した。陽性の液滴の割合を計算するために、このガウス分布の平均が強度二峰性分布の見かけの谷よりも大きい場合、および陰性の液滴に対しては逆の場合、陽性の液滴としてフィットしたガウス分布を仮定した。最後に、2つのプライマーセットを用いて結果間で陽性の液滴の割合を比較し、それらが細菌細胞と細胞外DNA試料の両方について基本的に異ならないことを見出した(図18e)。プライマーF1-Fw/F1-Rvを用いた陽性の液滴と陰性の液滴の間の分離は、341F/805R(図18a,b)を用いたものよりはるかに明瞭であったため、BarBIQについてはF1-Fw/F1-Rvプライマーを選択した。
液滴調製時の細菌濃度およびバーコード濃度の調整
液滴生成のために、濃度250細胞/μlの細菌を使用した。この濃度は、1つの液滴の体積が約0.8nlであるので、約20%の液滴が細菌を含有することとなる。この条件下では、ポアソン分布に従い、細菌を含有する液滴の90%以上は1つの細菌のみを含み、他のものは2つ以上の細菌を含むこととなる。
理論的には、BarBIQは、シークエンスにより決定された各cOTUの比例濃度を総濃度を用いて正規化することによってcOTUの絶対濃度を測定し、異なる細胞バーコード濃度は各cOTUの比例濃度を変化させないことから、細胞バーコードの濃度はBarBIQにおける濃度測定に影響しない。しかしながら、より高濃度の細胞バーコードは、より多くのジャンクアンプリコンを生成し、これは16S rRNA配列の同定に影響するかもしれない。一方、低濃度の細胞バーコードは、細菌の検出効率を低下させるであろう。われわれは、BarBIQ測定のために100~250分子/μlの範囲の細胞バーコードを使用し、その結果、8~20%の液滴がバーコードを含むこととなった。細胞とバーコードの両方が含まれた液滴のみがシークエンスされるため、最終的に3%~11%がシークエンスされると予測された。
これらの濃度による細菌細胞の検出率は3%~11%の範囲であった。異なる試料の検出率は、同じ濃度の細胞バーコードを用いても約3倍異なり、これは細胞バーコード分子の低濃度の不安定性に起因すると思われる。シークエンスにより決定されたcOTUカウントは、細胞の異なる検出率を示す反復実験間で良好な相関を示したことから、検出率は基本的に、検出されたすべてのcOTUの比例濃度の測定には影響しないことが示唆された(図15)。
BarBIQシークエンスのスパイクインコントロール
増幅物シークエンシング54においてPhixを用いてしばしば行われるように、シークエンシングにおける不均衡な塩基型を回避するために、設計されたスパイクインコントロールをライブラリーと混合し、同時にシークエンスした。スパイクインコントロールの作成の概略を図20に示す。最初に、174および176のランダム塩基を含む2つの一本鎖DNA(ssDNA)StdTarget1およびStdTarget2を、400nMの濃度で一晩、T4 RNAリガーゼ(NEB)により連結し、次いで65℃下で15分間、酵素の変性工程を行った。次に、StdTarget1および2の連結産物から別個の設計されたランダムバーコード(RandomBar_std1、RandomBar_std2、RandomBar_std3およびRandomBar_std4;図16および表3)を含む4種類の異なるプライマーを用いて、伸長によって4種類のランダムバーコードテンプレットを作成し、15分間の90℃から室温へのアニーリング工程の後、Klenowポリメラーゼ(NEB)を用いて伸長を行った。カラム精製後、4つの異なるインデックス化プライマー(RandomBar_std2についてはIndex_NSE501、RandomBar_std3についてはIndex_NSE502、RandomBar_std4についてはIndex_NSE505、RandomBar_std1についてはIndex_NSE506、図16および表3)および他の末端にcommon primer std_R2を用い、最後の工程によって作製した伸長したテンプレートから4種類のDNA産物を増幅した。約600塩基対を含む産物をゲル電気泳動で精製した。P1_qPCR_FwおよびP2_qPCR_Rvプライマーを用いてさらに2回PCRを行い、より多くの産物を増幅した;PCRの各ラウンドからの産物をゲル電気泳動により精製した。スパイクインコントロールは、プライマーP1_qPCR_FwおよびP2_qPCR_Rvを用いてqPCRにより測定した濃度に基づいて、これらの4種類の産物を等しい割合で混合することによって作製した。
ユニークなバーコードあたりのリード数が平均60を越えると各cOTUの数が飽和することから、全シークエンシング実験におけるシークエンシング深度がデジタルカウントに十分であることを確認した(図28および34)。
データ処理のパイプライン
Bar配列とcOTU(細胞型)を同定し、各cOTUを定量するシークエンスにより得られたデータを処理するためのパイプラインを開発した。パイプラインの主な戦略は図6に示し、各ステップの詳細はWO2018/235938Aおよび以下に記載される通りであった。原則として、MiSeqからのリードは、まず細胞バーコード(Read R1)25を用いてクラスター化した。次に、同じ細胞バーコードに連結された16S rRNA配列(Read I1およびR2)を、それらの配列同一性に基づいてさらにクラスター化した。各クラスター化16S rRNA配列グループに対する代表的な配列(RepSeq)を、各配列タイプに対するリード数とそれらのシークエンス品質の両方に基づいて生成した。各RepSeqのリード数とRepSeqの各配列型に対するRepSeqの数の両方に応じて、考えられる誤ったRepSeqを複数のステップでさらに除去した(WO2018/235938Aおよび図6参照)。独特のRepSeq配列型をBar配列と名付けた。次いで、Bar配列を、同じ液滴におけるそれらの共検出頻度に基づいてcOTUにクラスター化した。もし2つ以上のBar配列が同じ液滴で頻繁に検出されたならば、それらは同じ細菌由来の複数の16S rRNA遺伝子とみなし、それらを単一のcOTUにクラスター化した。次に、各cOTUに対する細胞数を、固有の細胞バーコードの数(すなわち、バーコードクラスター)によってカウントした。各cOTUの絶対細胞濃度は、ddPCRにより測定した試料の総濃度を用いて、cOTUのシークエンスで計数された細胞を標準化することによって決定した。さらに、サンプリングおよび/または測定中にコンタミしたcOTUを対照により同定した。
パイプラインの大部分はPerl(バージョン5.22.1)で書かれており、その他はソフトウェアで実施されていた。R(バージョン3.5.1)、ヌクレオチド配列クラスタライザー(バージョン0.0.7)25、bwa(バージョン0.7.15)49。本パイプラインで使用されているPerlのモジュールおよびRのパッケージは表4に列挙されている。
Figure 0007423101000005
Figure 0007423101000006
BarBIQデータ処理の詳細
我々のシークエンスにおいて、R1(30塩基)は細胞バーコードであり、I1(295塩基)およびR2(塩基)は16S rRNA配列であり、I2(8塩基)は各試料をユニークに標識するインデックスであった。3回のシークエンス作業をすべて表4にまとめた。
ステップ1:細胞バーコードに基づいたクラスター化
細胞バーコード(R1)のリードは、当初の低品質リードの欠失を除き、以前の報告(WO2018/235938A)の通り、配列に基づいてクラスター化した。まず、広く実施されているように47、4つの連続した塩基からなる少なくとも1つのウインドウを含む低品質のR1リード(その平均スコアは15より小さい)を除外した。シークエンスラン1、2、および3のリードの割合はそれぞれ、0.23%、0.05%および0.06%であり、このプロセスによって除外された。次に、設計された細胞バーコードの最後の4つの固定塩基と一致するR1リードを次のステップのために選択した。サンプルとスパイクインコントロールの両方を含む同一シークエンスランに由来するすべての距離2のパラメータを有するR1リードを、ソフトウェア、ヌクレオチド配列-クラスタライザー25を用いてクラスター化した。異なるインデックスがなされたが、同じクラスターにクラスター化されたリードは除外された。得られたクラスターをBClusterと名付けた。各リードは、2つの16S rRNA配列(I1とR2)と細胞バーコード(R1)を有した(図6)。
ステップ2:低品質の末端とリードI1とR2のプライマー部に基づくトリミング
この段階では、すべてのリードの末端を、リードの質およびそれらのプライマー部分に基づいて、一定の位置でトリミングした。MiSeqシークエンスにおけるリードの塩基の品質は、一般に、リードの末端において減少し、末端においてより多くのエラーを生じさせる50。データ処理の次の段階では、リードの長さは同じに保つ必要があるので、われわれは均一な閾値を適用し、1回のシークエンス作業ですべてのリードの末端をトリミングした。全リードの平均品質に基づいて、シークエンスランのトリミング位置を決定した;トリミング位置を選択する規則は、連続する2つの位置の平均品質の平均が25より低く(連続する2つの位置の平均品質の平均を使用して、シークエンスの品質の偶発的な変動を回避できる)始めたとき、リードの頭部から最初の位置を選ぶことであった。シークエンスラン1にはトリミング位置231(I1)と194(R2)、シークエンスラン2には294(I1)と267(R2)、シークエンスラン3には271(I1)と237(R2)を用いた。さらに、各リードのプライマー部分は、I1については21塩基、R2については17塩基である設計されたプライマーの長さに依存して直接トリミングされた。
ステップ3:16S rRNA配列(I1とR2)によるクラスター化
この段階では、16S rRNA配列(I1およびR2)に基づいて各BCluster内のリードをクラスター化する2つのサブステップを実施した。
ステップ3.1:置換距離によるクラスタリング
ステップ3.1において、ソフトウェアヌクレオチド配列クラスタライザーを用いて、リードI1およびR2をそれらの間の置換距離に基づいて距離3のパラメータでクラスター化し、同じMiSeq IDを有するリードI1およびR2を、物理的に連結することによって単一のリードとして考えた。
ステップ3.2:リードの単一位置に基づくクラスタリング
ステップ3.1は、エラーではなく真の16S rRNA配列であるかもしれない非常に類似した配列を統合したため、追加のクラスター化ステップが用いられた。ステップ3.1によって生成された各サブクラスターについて、リードは、リードの特定の位置に基づいて再びクラスター化された(すべてのリードは、第一の塩基によって整列された)。この過程の論理図を図20に示す。リード位置ごとに、塩基 (A、T、C、G) の種類を含むリード数をカウントし、1番目に豊富な塩基を含むリード数に対する、2番目に豊富な塩基を含むリード数の比(Ratio2ndと命名)を算出した。さらに、各リードのカウントは、この位置での塩基のシークエンスの品質スコアによって重み付けされた;規則は、スコアが15未満の場合は0として重み付けし、一方スコアが15以上である場合は、当該スコアを41で割ったスコアとして重み付けした。その後、全ての位置の中で最も高いRatio2ndを選択し、閾値0.75と比較した;Ratio2nd≧0.75の場合、2番目に豊富な塩基を含むリードは、新しいサブクラスターとして元のサブクラスターから分離された。その後、両方の新しい生成サブクラスターが同じ戦略によって再度クラスター化され、全てのサブクラスターの全ての位置のRatio2ndが0.75より低くなるまで繰り返しクラスタリングが実施された。最後のサブクラスターをSClusterと名付けた(図6)。液滴中の16S rRNA配列(同じ細菌からの複数の16S rRNA配列)の増幅効率はしばしば偏りがあった。したがって、この場合のRatio2ndは0.75未満かもしれないが、両方とも真の16S rRNA配列である。幸いなことに、同一の細菌由来のこれらの異なるタイプの配列(例えば、AおよびB)の増幅バイアスはランダムに起きた。例えば、時には配列Aがより多くのリードを有し、時として配列Bがより多くのリードを有したので、これら2つの配列型の両方が異なる液滴から同定されたかもしれず、増幅バイアスは、細胞計数に影響を及ぼさなかった。しかしながら、両方の配列型を検出した液滴の数は、より低い閾値を使用した場合と比較して閾値0.75を使用した場合に減少した。このことは、同じ細菌から2つの配列を同定するのに用いたステップに影響を与えるかもしれない(ステップ12参照)。他方、0.75より低い閾値を使用すると、誤った配列のみを含むサブクラスターを生成し得、次のプロセスに問題を生じる。従って、閾値0.75を用いて16S rRNA配列を同定したが、同じ細菌由来の両方の配列が同じ液滴で検出された場合には別の閾値0.1を用いて検出した。閾値0.1によって生成されたデータは同じ細菌由来の複数の16S rRNA配列を検出するためにのみ使用され、閾値0.75によっても同定された16S rRNA配列が使用された。なお、ステップ3では置換ミスを考慮したのみであるため、挿入ミスおよび欠失ミスはすべてSClusterとしてクラスター化したが、このパイプラインの副作用は次のステップで解決した。
ステップ4:各SCクラスターの代表的な配列(RepSeq)の作成
各SClusterについて、リードI1およびR2の両方に対する代表的な配列(RepSeq)を、各塩基のシークエンス品質スコアおよび各タイプの塩基の割合の両方に基づいて生成した。各タイプの塩基の比率を計算するために、各タイプの塩基についてリード数を品質スコアで重み付けした。品質スコアが15未満の場合には0として重み付けし;スコアが15以上の場合には、41で除したスコアとして重み付けした。それぞれの位置について、1番目に豊富な塩基型を代表的な塩基として用いた(図6)。単一リードによるSCクラスターから生成されたRepSeqはエラーのリスクが高いため、この段階では単一リードによるRepSeqも除去した。各SClusterのリード数は、エラーを含む誤ったRepSeqと正しいRepSeqを区別する重要な情報として次の段階では使用された。
ステップ5:シフトしたRepSeqの除去
この段階で、ステップ2でプライマー部分として除外したリードの頭部(I1は21塩基、R2は17塩基)で生じた挿入または欠失(indels)に起因するエラー型のRepSeqを除去した。たとえば、BCluster xが16S rRNA配列のリードを含むと仮定し、そのうちのいくつかは頭部に2個の欠失をもつ場合、プライマー部分を切り取った後に2種類のリード(RepSeq iとj(リードには2個の欠失がある))が生じ、RepSeq jがiの左から右へ2塩基シフトしているはずである(図21)。このエラー型をシフトしたRepSeqと名付けた。
ステップ5の論理図を図21に示すが、戦略は以下の通りである。a)各BClusterで考えられるすべてのRepSeqs型ペアを見出し、1つのRepSeq型はもう1つのRepSeq型のシフト配列でり、そのシフトが8個未満であるRepSeq型のペアのみを選択した。b)シフトしたRepSeqタイプ(AおよびB)の各ペアについて、より多くのBClusterで同定されたRepSeqタイプを母親(mother)とし、他は可能な限りシフトと考えた。なぜなら、一般にエラーは正しいものより少ないからである。c)母親とシフトの各組について、母親のリードがシフトより多いBClusterの数(Nomother)およびその反対の事例(Noshift)をカウントした;母親とシフトの両方を含むBClusterのみを使用した;d)次に、エラーは正しいものより少ないので、NomotherがNoshiftより大きい時に、母親とシフトを保存した。e) 母親を伴うBClusterの中にこのシフトが存在する場合、このBClusterのシフトを削除し、母親にこのシフトのリード数(次のステップで母親に関するリード総数を使用した)を加え、母親を伴わないBClusterの中にシフトがある場合は、母親をシフトで置き換え(もし同一のシフトに関して2以上の母親が存在する場合には、より多くのBClusterで同定された母親を選ぶ)、シフトのリード数を置き換えられた母親に関するリード数として用いるという規則を用いて、d)において保存された母親とシフトのペアに基づいてシフトを除去した。I1およびR2RepSeqは独立して処理された。
ステップ6:I1とR2のRepSeqの連結
このステップで、I1 RepSeqおよびR2 RepSeqは、それらの末端におけるそれらのオーバーラップした配列に基づいて連結された。V3-V4領域における16S rRNA遺伝子の長さの分布は、Silvaのデータベース(v123.1)に依存してほぼ(>99.9%)400bp~500bpの範囲であるため(図22)、I1とR2の両方のリードのための295塩基のシークエンスは、基本的に、I1とR2のリードの各対の末端の間で90以上の重複塩基を達成することができる。しかしながら、各リードの末端における低いシークエンス品質(ステップ2参照)のため、実施されたシークエンスランの最良の経験に基づいて、データ処理のために用いることができるのは、I1の約294塩基およびR2の約267塩基のみである。それでも、60以上の重複塩基を検出することができる。したがって、V3-V4領域における16S rRNA遺伝子の全長を得るために、I1 RepSeqとR2 RepSeqとの間の重複配列を見出し、それらを単一のRepSeqとして連結するステップを実施した。しかし、シークエンスの質が良くなかったため、シークエンスラン1ではI1では231塩基、R2では194塩基のみが用いられ、したがって、オーバーラップした配列は検出されず、I1とR2のRepSeqは連結されなかった。
一般に、I1とR2の両方のRepSeqの末端にある数個の塩基は、偶然に同じであり得る。従って、I1 RepSeqとR2 RepSeqの両方の末端における5個以上の同一塩基の閾値を、偽のオーバーラップを回避するために重なりとして使用したためと考えた。理論的には、偶発的な重複の可能性は(1/4)であり、ここで、bは重複した塩基の数であり、5塩基の事故重複の可能性は(1/4)≦0.00098である。
さらに、模擬細胞集団およびM0のデータでは、すべての偶発的な重複が<5塩基であった(短いリードが使用されたため、重複は見出せない)。
重複部分のI1 RepSeqとR2 RepSeq間の置換の違いが、リード末端部分の品質が相対的に低かったために、稀であっても起こるかもしれない。従って、これらのエラーを除去するためにもう一つのプロセスを適用した。この戦略は、a)上述の連結プロセスの後、連結していないRepSeqを発見した。b)次に、同一のBCluster内の他のRepSeq(それぞれI1およびR2 RepSeqを直接比較)で各RepSeqを比較し、その1つの塩基が異なるRepSeqを見つけた。c) 1塩基相違のRepSeqを連結した場合、連結されていないRepSeqを削除し、連結されたRepSeqにそのリードを追加した。
ステップ7: 1つの挿入と欠失(1-indel)RepSeqの除去
このステップでは、リードの主要部分における{リードの頭部(すなわち、プライマー部分、ステップ5参照)においてではない}1つの挿入または欠失(1-indel)エラーに起因して生じたエラータイプのRepSeqを除去した。ステップ3におけるクラスタリングは上述した置換のみに基づいていたため、インデルを含む誤ったリードをすべて分離し、個々のRepSeqを作成した。一般に、シークエンスのリードの中ごろに起こるインデルは非常にまれであるので(Schirmer M et al., BMC Bioinformatics 2016; 17:125)この段階では1-indelだけでなく、ステップ9で置換を伴う2塩基インデルと1-indelだけを考えた(後述)。
ステップ7の論理図を図23に示す。戦略は以下の通りである。a)各BClusterにおいて、1-indelの差異を持つRepSeqタイプの可能なペアをすべて見出した。b) エラーは一般に正しいものより少ないので、RepSeqタイプ(AおよびB)の各1-indel対について、より多くのBClusterで同定されるRepSeqタイプを母親とし、および他のものは1-indelであると考えた。c)母親と1-indelの各ペアについて、母親のリードが1-indel(Nomother)より多いBCluster数と、その反対の事例(No1-indel)を計数した;母親と1-indelの両方を含むBClusterのみを使用した。d)われわれは、NomotherがNo1-indelより大きいときにその母親と1-indelのペアだけを残した。なぜなら、エラーのリードは一般に正しいものより少ないからである。e)可能性のある1-indel及びその可能性のある母親を含むBClusterの数と可能な1-indelを含む全てのBClusterの数(No1-indel)との比(Rs)を計算し、条件付き文言Rs≦(No1-indel-3)/ No1-indelが真である場合、可能な母親と1-indelのペアを選択した。f)選択された母親と1-indelのペアに基づき、母親とBClusterの中に1-indelが存在する場合は、このBClusterでは1-indelを削除し、母親に1-indelのリード数を加え(次のステップでは、母親としてリード総数を用いる)、もし、母親を伴わないBClusterに1-indelが存在する場合には、1-indelのリード数を母親に置き換え(同じ1-indelに対して母親が2以上ある場合は、より多くのBClusterにおいて同定された母親を選択する)、1-indelのリード数を置き換えられた母親に関するリード数として用いる。
ステップ8:キメラの除去
この段階で、キメラ増幅により生じたエラー型のRepSeqキメラを除去した。キメラは常にPCR中に起こり、産物をより複雑にする。特に16S rRNA増幅物の測定ではRepSeqキメラは非常によく起こる27
キメラを除去する論理図は図24に示し、その戦略は以下の通りであった。a)各BClusterにおいて、RepSeqタイプ(A、B、C)のすべての可能な順序のキメラをチェックした;Aの頭部がBの頭部部分と同じであり、Aの他の部分(Bを伴う)がCの末端部分と同一であり、かつ、Aのリード数が3つ中最大では無い場合、Aはキメラと考えられ、BとCはこのキメラの親であると考えられた。b)同定されたキメラそれぞれについて、キメラを含むBClusterの数(Total_No)およびキメラのみを含むが親は含まないBClusterの数(No_d)を計数した。c)条件付き文言Ratio_d(= N_d/Total_No)≦0.1、かつ、Ratio_d≦1/Total_Noが真のとき、RepSeqsからキメラ候補を除外した。
BarBIQはキメラを1~5%しか持たず、これは従来の方法によるもの(~70%)27よりはるかに低く、この工程によりキメラを除去することができたことがわかる。BarBIQでキメラがほとんど生成されなかった理由は、バーコードおよびシークエンスアダプターが、分離された空間(すなわち、液滴)におけるワンステップ増幅によって、単一の細菌由来の16S rRNA遺伝子に付着したことであり、これは、異なる細菌由来の16S rRNA増幅物が混合されなかったことを意味する。このアプローチは、液滴およびバーコードを用いたハイスループット16S rRNA遺伝子シークエンスに関する最近の研究(Borgstrom E et al., Nat Commun 2015; 6: 7173およびSheth RU et al., Nat Biotechnol 2019; 37(8): 877-883)でさえ実施されていない。
ステップ9:稀なエラーRepseqの除去
このステップでは、1インデルおよび1置換エラー(CaseAと命名)、1インデルおよび2置換(CaseBと命名)、ならびに2インデル(CaseCと命名)を有するRepSeqのような高レベルのエラーは除去された。すでに述べたように、インデルのエラーのみが、ステップ3における我々のクラスタリング方法によって生じ得るので、ここで考察する高レベルのエラーは、インデルを含む。一方、もっと複雑なエラーはきわめてまれに起こり、ステップ10で取り除かれる。
ステップ9の論理図を図25に示し、戦略は以下の通りである。a)上記相違(Case A、B、C)の何れかを有する各BClusterのRepSeqタイプの可能なペアをすべて同定し、b)各同定ペアのRepSeqのリード数を比較した。RepSeq(小型/大型)間のリード数の比が閾値0.2よりも低ければ、リード数の少ないRepSeqを除外し、リード数を他のペアに追加した。
ステップ10:低カウントRepSeqの除去
大半のエラーが上記のステップで除去された後も、未知のRepSeq(San配列とは異なる)は依然として模擬細胞集団のデータに残っていた。しかし、いずれも少数であった。そこで、残ったRepSeqsの種類ごとにBCluster数をカウントした。低カウントを原因とするばらつきが大きかったため、RepSeqタイプごとにサンプリングの反復(異なるサンプリングによる同一サンプルのシークエンス)に基づく平均カウントを用いた。各反復について、各RepSeqタイプのカウントついては、すべての反復の中で最高の総カウントに対するすべてのRepSeqタイプの総カウントによって正規化した。次いで、各RepSeqタイプの平均カウントを、全ての反復実験から計算した。模擬細胞集団に対して3回のサンプリングを行い、3回の反復実験から平均カウントを得た。最後に、平均カウントが2未満の場合、RepSeqタイプを除外した。
このステップの後、模擬細胞集団のデータについては、San配列が一致するRepSeqsタイプを除き、残ったRepSeqタイプはすべて、PCRによる1塩基エラー(ステップ11参照)またはコンタミネーション(ステップ14参照)として合理的に説明することができる。
1反復のみまたは2反復を用いても試験し、閾値<6(1反復)または閾値<3(2反復)が模擬細胞集団データに対して機能することを見出した。しかし、無作為性のため、1回と2回のサンプリングは、3回のサンプリングよりもリスクが高い可能性があるため、1回と2回のサンプリングを盲腸サンプルに用いた場合の閾値としてそれぞれ<10と<5を使用することとした。
ステップ11:1塩基エラーRepSeqの除去
この段階で、PCRによって生じたと思われるRepSeqタイプの一塩基エラーを除去した。このRepSeqの特徴を明らかにするため、まず、各San配列と1塩基またはゼロ塩基の差異を有する残存するRepSeqタイプをグループに分類した(この分析に関しては、低カウントRepSeqタイプを維持した、ステップ10を参照)。次に、各グループにおける全RepSeqタイプの平均カウントの分布(図26a)をプロットし、同一グループ内のSan-配列一致型RepSeqタイプの平均カウントに対する1塩基の異なるRepSeqタイプの最高平均カウントの比(最高比率)を算出した(図26b)。我々は、2つのカテゴリー(図26bのカテゴリー1と2):カテゴリー1はSan-配列一致型 RepSeq typeが1,000カウント以上のグループ、カテゴリー2はSan-配列一致型 RepSeq typeが1,000カウント未満のグループを見出した。カテゴリー1に関して、1塩基の異なるRepSeqタイプの最高平均数は2より大きく、それらの最高比率は異なるグループ間で一貫していた。これらの1塩基の異なるRepSeq型は、おそらくPCRによって生じた誤りであると結論づけた。それは、実際の16S rRNA配列に対する他の実際の16S rRNA配列の数の比は通常、16S rRNA配列の各タイプで異なるからである。そこで、San-配列一致型 RepSeqタイプのカウントに対する1塩基の異なるRepSeq型のカウントの比が1/400未満であるという閾値を用いて、これらのRepSeq型を除去するプロセスを適用した(図26b)。1反復のみが実施された場合は、データに対して1/100の閾値を使用した。カテゴリー2では、1塩基の異なるRepSeqタイプの最高平均カウントは異なるグループ間で類似しており、<2であったが、これはこれらの16S rRNA配列の低濃度に起因する可能性があり、エラーはランダムに発生し、全てのエラー配列は一致しなかった。RepSeqsの低カウントのリスクが高いため、ステップ10でRepSeqを除外した。模擬細胞集団データにおいて、1塩基の差のみを示す2つのRepSeqタイプのカウント数の間の比が1/50以上であれば、両方のRepSeqタイプがSan配列と一致することを確認した。しかし、この比率が1/400~1/50の範囲にある例は見つからなかった。さらに、我々の模擬細胞集団のデータでは、1つの奇妙なRepSeqタイプが検出された。この配列を確認することにより、それはサン配列JCM5824-AおよびJCM5824-Bの中央に一致するが、JCM5824-A/BのV3-V4領域の全長よりもはるかに短いことを見出した。JCM5824-A/Bの中央の6merは、16S rRNA遺伝子を増幅するために使用したフォワードプライマーの3’末端と同じであり、この奇妙な配列は同一液滴中のJCM5824-Aおよび/またはJCM5824-Bの全長V3-V4領域と常に同時検出され、そのカウントは常に非常に稀であった(3回の反復において2/4/1)ことから、この奇妙なRepSeq型は、JCM5824からの16S rRNA遺伝子の非特異的増幅産物であると解釈した。しかし、この種の短い増幅産物は盲腸検体では見つからなかったため、我々の最終パイプラインにはこれらの短い増幅産物を検出するためのいかなるステップも含めなかった。上記の全ステップ後、残ったRepSeqタイプ(固有RepSeqs)をBarBIQ同定配列(Bar配列)と名付け、各々ID番号でラベルした。
ステップ12:Bar配列のcOTUへのクラスター化
BarBIQの大きな利点を生かし、この段階での細胞バーコードに基づいて、同じ細菌から複数の16S rRNA配列を同定した。
このためには、2つの可能性を考慮すべきである。1つは同一液滴中の異なる細菌の混入の可能性であり、もう1つは同一細菌細胞からの異なる配列に対する増幅バイアスにより一方の配列しか検出できない可能性である。1つ目の場合はポアソン分布に依存しており、液滴発生に低濃度の細菌を使用したため極めて稀なものである。2つ目の場合は細菌濃度に影響されないものである。実験的に、液滴数に対する細菌数の比率を20%とすることにより、これら2つの可能性を分けることができることを見出した。
これらの2つの可能性を区別するために、著者らはBar配列の全ての可能なペアをチェックした;各ペアについて(BS_AおよびBS_Bとして標識した)、それらの両方を含む液滴の数(Overlapとして命名)、BS_Aのみを含む液滴の数(Aとして命名)、およびBS_Bのみを含む液滴の数(Bとして命名)をそれぞれ計数した。これらのカウントは、上記ステップ3.2のパラメータ0.1を使用して処理されたデータに基づいている。
理論的には、1つのペアのBar配列が異なる細菌に由来する場合、両方のBar配列が検出される液滴の数はポアソン分布に従うはずであり、同時検出された液滴の推定数(Poission_Overlapと命名)は以下のように計算できる:
Poission_Overlap=(A×B×μ)/液滴総数
{ここで、液滴総数は、細胞バーコードを含む液滴の総数であり;μは、定数であり、PCR増幅効率、シークエンス深度効果などを含み得る液滴における検出効率のための統合パラメータである}。他方、もしBar配列が同一細菌由来であれば、両方のBar配列が検出される液滴の数はポアソン分布に従わないであろう。
次に、log10変換を用いてパラメータを2つの項に分けた。
log10 (Poission_Overlap)= log10 (A×B) - log10 (液滴総数/μ)
第1項のパラメータAおよびBはデータから得ることができるが、第2項のパラメータ液滴総数およびμは個々に測定することができない。μは異なるBar配列ペアに対しても同じであると仮定し、そして、log10 (液滴総数/μ)は各実験の全Bar配列ペアに対して一定であると仮定した;この用語は操作上の液滴(OD)と命名した。次に、モデルy=x-ODを用いてlog10 (Poission_Overlap)のlog10 (A×B)に対するランニング中央値を当てはめてODを推定した。一般に、我々のデータでは、ほとんどのBar配列のペアは異なる細菌由来であり、それらの測定Overlapは理論上のPoission_Overlapと類似していた。したがって、log10 (Overlap)のランニング中央値{ここで、ランニング中央値とは、一定の大きさのウインドウaの領域における中央値と、当該領域を一定の大きさのオーバーラップbだけずらしてさらに取得される中央値と、この操作を繰り返して得られるさらなる中央値からなる中央値の群であり、a>bである}を用いて、log10 (Poission_Overlap)のランニング中央値を模倣した。log10 (Overlap)のランニング中央値は、log10 (A×B)に基づいて0.4のウインドウと0.2のオーバーラップで求め、0を超える中央値のみを用いた(図27aの赤色の白丸)。
フィッティングさせてODを得た後、log10 (A×B)+ODに対してlog10 (Overlap)でデータを再プロットした(図27b)。これは、実際には、log10 (Overlaps)とlog10 (Poission_Overlap)の間の関係であった。したがって、ペアが異なる細菌由来のlog10 (Overlap)のデータは、y=xの直線にあるはずである。しかし、ノイズのためにデータは広く分布した。
次に、シミュレーションを行い、log10 (A×B)+ODの異なる値に対するlog10 (Poission_Overlap)の可能な分布を推定した。最初に、A、BおよびODの異なる値について、log10 (A×B)+ODの値が同じ場合には、log10 (Poission_Overlap)の分布がわずかに異なり、AがBと等しい場合には分布は最も広くなり;log10 (A×B)+ODの異なる値ではlog10 (Poission_Overlap)の分布が異なることを確認した。そこで、1~1500の範囲で、AおよびBの各可能な値(A=B、整数)に対するlog10 (Poission_Overlap)の分布とOD=log10(5000)の固定値を500000回反復してシミュレートした。ここで、A=Bのときに、ポワソン分布が最も広くなると考えら、その場合においてもポワソン分布に従わない配列のペアは、異なる液滴から得られた配列である可能性がより高くなると推定できるため、ここではA=Bでシミュレーションを行った。2つのシミュレーション数間のlog10 (A×B)+ODの値について、より高い近接シミュレーション値の同じ分布を用いた。その後、各分布の片側信頼区間0.999を算出した(図27bの緑線)。
模擬細胞集団のデータについては、同一細菌由来のBar配列ペアのlog10(Overlap)のすべての値が、上側0.999の片側信頼区間(UP999)よりも大きかったが、異なる細菌由来のペアの値は片側信頼区間UP999と同じかそれよりも小さかった(図27b、検出効率は安定していなかったため、いくつかのBar配列のペアは下側0.999片側信頼区間よりも低かったが、この目標には影響しないことに留意されたい)。このデータは、同一細菌由来のペアのlog10(Overlap)の値は、液滴数に対する細菌数の20%比を用いたとき、log10(Poission_Overlap)よりも有意に大きく、UP999によって容易に区別できることを示唆した。
次に、盲腸試料の測定と同じ方法を用いてM0データを分析した。UP999周辺では、log10(Overlap)のlog10(A×B)+ODに対するプロットに明確なギャップは認められなかった(図27c)。盲腸試料の良好な閾値を見出すために、公開データベースSilvaに基づく各Bar配列のマッピング情報を使用した。たいていのBar配列の名前はデータベースに基づいて種レベルでは決定できず、時にはより高いレベルでも決定できないので、異なる名前にマッピングされたBar配列だけに焦点を当てた。M0データの各サンプリング反復実験において、データベース中の異なる名前にマッピングされたいくつかのBar配列ペアのlog10(Overlap)は、UP999(図27cの黒丸)より大きかった。次に、別の2回のサンプリングでこれらのBar配列のペアを調べたところ、log10(Overlap)の値はすべてUP999よりも低かった。1回の測定で20,000以上のBar配列のペアがあり、0.999片側信頼区間から外れていたことが合理的であったため、これらのケースはアクシデントによって統計学的に生じた可能性がある。
統計学的にまれなケースを避けるために、複数の反復実験を用い、これら2つのBar配列が同じ細菌に由来するかどうかを決定した。理論的には、同じ細菌のBar配列の結果は、異なるサンプルで同じであるべきであり、そのため、全てのサンプルをこの目的のための反復として使用することができる。次に、マウスMa、MbおよびMcの盲腸由来のすべての細胞サンプルを用い、Bar配列ペアのlog10(Overlap)がUP999より大きいことを示したサンプル数の、両方のBar配列が検出されたサンプル総数に対する比を分析した。この比をRatio_Positiveとよぶ。サンプル数よりもむしろ比率を用いるのは、一部のBar配列がサンプルの一部においてのみ検出され、各Bar配列ペアに対して用いることができるサンプルの数が異なり得るためである。信頼性を担保するために、少なくとも2つのサンプルで検出されたBar配列ペアのみを用いた。さらに、いくつかのサンプルはODのフィッティングが不良であることを見いだし、フィッティングによるODの標準誤差が0.08より小さいサンプルのみを選択した。Bar配列のマッピング名に基づき、異なる名前にマッピングしたすべてのBar配列のペアはRatio_Positiveが低く(図27d)、分布は指数関数的に減衰し、低い可能性でしか生じていないことが示唆された。したがって、Ratio_Positive>0.5の閾値を用いて、同一細菌由来のBar配列ペアを同定した。
次に、同一細菌由来の同定されたBar配列ペアに基づき、すべてのBar配列をグループに分類した。各グループは1つのBar配列または複数のBar配列を有することができる。我々は、これらのグループを細胞ベースの操作上分類単位(cOTU)と名付けた。この分類の戦略は、もしこのBar配列および複数のBar配列のうちの少なくとも1つが同じ細菌のものであれば、それぞれのBar配列をグループにまとめることであった。いくつかのcOTU内で、いくつかのBar配列ペアは、上記のプロセスによって検出されなかったが、これは、液滴が2つ以上の配列を含む場合に、検出効率が低かったためであると考えられる。
ステップ13:各cOTUのカウントセル数
同一のBClusterで検出されたRepSeqは、同一のcOTUに属する場合、単一細胞とみなした。次いで、各cOTUの細胞数を、細胞バーコード(BClusterの数)に基づいて計数した。ステップ3.2でパラメータ0.75で処理したデータを細胞数の計数に用いた。
ステップ14:異物混入したcOTUの除去
この段階で、コントロールに基づいて異物混入したcOTUを除去した。異物混入したcOTUを同定するために、模擬細胞集団の対照サンプルM0またはマウスMa、MbおよびMcの盲腸サンプルの空試験管対照を用いて、同様の時間(数日間)内に同じ条件下で測定した。
異物混入したcOTUを検出するための戦略は、以下であった:各対照について、試料中で同定されたcOTUのBCluster数をカウントし、対照における各cOTUのカウント数を、試料中の同一cOTUのカウント数と比較した。模擬細胞集団の実験では、模擬細胞集団とM0試料のライブラリーを調製するために異なる数の液滴を使用したため、推定総液滴数によってもカウントを正規化した。他の実験では、コントロールは空のチューブで、すべての実験で同じ数の液滴を使用したため、カウントに標準化は適用しなかった。
模擬細胞集団に関して、3つの異なるカテゴリー(I、II、およびIII)(図28)を見出した。(I)対照(すなわち、M0)におけるcOTUのカウントは試料(すなわち、模擬細胞集団)よりもはるかに大きく、San-配列と一致しなかった。(II)cOTUの数はサンプルと対照の間で同等であり(それらの平均±SDは重複した)、それらもSan配列と一致しなかった。(III)試料中のcOTUの数は対照よりもはるかに高く、それらはSan配列と一致した。カテゴリーIは、対照から試料への交差混入、または環境からの混入細菌が対照における細菌と同じであること(われわれは模擬細胞集団測定のコントロールとして実際のサンプルを使用したため)、さらに、このcOTUの配列は、試料中のSan配列と一致するBar配列(≦86%の同一性)と非常に異なり、キメラとして説明できなかった。このことは、このcOTUがキメラから生じたエラーではないことを示唆する。カテゴリーIIは、サンプルと対照の両方について環境からの異物混入として説明できる。なぜなら、それらの数は異なるサンプルと対照で同様であったからである。カテゴリーIとカテゴリーIIの両方について、我々はcOTUをサンプルから除去した。それは、それらがおそらく環境または他のサンプルからの異物混入であったからである。カテゴリーIIIは交差異物混入の可能性もあるが、試料から対照への混入、または偶然、環境からの混入細菌は試料中の細菌と同じであった。この場合、試料中のこのcOTUのカウントから対照中のこのcOTUのカウントを差し引いた値を、試料中のこのcOTUの最終細胞数として使用した。交差異物混入の可能性は、試料中のcOTUが高濃度である場合にのみ生じたが、異物混入した試料中のそれらカウントは非常に稀であった。
マウスMa、MbおよびMcのデータについては、各試料に対して1回のみの測定を行ったため、反復SDの代わりにポアソンサンプリングノイズに基づくエラーバーとしてカウントの平方根を用いた。
マウスMa、MbおよびMcのデータについて、対照として2本の空の試験管を用いた。この場合、試験管2本は反復をサンプリングするよりは実験的な繰り返しであり、ポアソン分布に従わない。また、反復回数が少ないことによる事故を回避するために、対照に対してエラーバーとして3.27×SDを使用した;さらに、3.27×SDがカウントの平均の10%より小さい場合は、エラーバーとして平均の10%を使用した。これらのサンプルの異物混入したcOTUを除去する規則は以下の通りであった。対照のカウント+エラーバーがサンプルのカウント-エラーバーよりも高い場合は、サンプルからこのcOTUを除去し、コントロールのカウント+エラーバーがサンプルのカウント-エラーバーよりも低い場合は、サンプルのカウント-コントロールのカウントをサンプルのcOTUの最終カウントとして使用した。
異物混入したcOTUの細胞数は、模擬細胞集団の測定で検出された全細胞数の約0.5%であり、Ma、Mb、およびMcの細胞試料測定で約4%であった。
ステップ15:細胞濃度の算出
各cOTUの絶対細胞濃度は、液滴デジタルPCRによって測定した総濃度を用いて、ステップ13で得られたカウントを正規化することによって算出した。
16S rRNA遺伝子データベースとの比較
3種類の公的データベース、GreenGene(リリース13_5)10、Ribosomal Database Project(リリース11.5)11、およびSilva(リリース131.1)12において同定されたBar配列と最も近い(すなわち、最も高い同一性)16S rRNA遺伝子の間の配列同一性は、NCBI blast(バージョン2.7.1)51を用いて算出した。
RDP分類による分類学的予測
同定されたcOTUの門から属への分類を、ブートストラップカットオフ50%36を用いたRDP分類によるそれらのBar配列に基づいて予測した。RDP分類は16S rRNAトレーニングセット11(https://rdp.cme.msu.edu/classifier/classifier.jsp)によりトレーニングされた。複数のBar配列を含むcOTUに対して、最も高いスコアを有する予測分類群を選択した。
Bray-Curtisの非類似度
Rパッケージveganのvegdist関数を用いて、細胞濃度に基づく各ペアのサンプル間のbray-Curtisの非類似度を算出した。以降の分析は、R(バージョン3.5.1)およびJupyterLab(バージョン0.34.9)を用いて実施した。
技術ノイズの推定
BarBIQで測定した試料Madistの技術反復中のcOTUのノイズは,Poisson分布から得た模擬ノイズとcOTU技術ノイズを比較することにより、主としてサンプリングノイズから確認した。技術反復における異なる検出総細胞数からのバイアスを排除するために、Rパッケージveganにおける機能希薄化を用いたサブサンプリングにより、各反復の細胞数を、反復中の最小総細胞数に対して標準化した。cOTUのノイズは、CVによって定量され、ここで、CVは、3回の技術反復におけるcOTUの正規化細胞数に基づいて計算された係数の変動を示す52,53。各cOTUについてのシミュレートされたPoissonノイズを、試料中の与えられたcOTUの平均細胞数であるPoisson分布からランダムに生成された3つの数字(3つの技術反復を模倣するため)に基づいて計算し、2つのシミュレーション(1および2)を行った。次に、各cOTUについてCVの理論平均補正後残差を算出した52,53
mc =log10 (CV)-log10 (CVPoisson );
ここで、CVPoissonは、ポアソン分布に基づく所定のcOTUに対する理論的CVである。試料Madistの全Rmcの分布はシミュレーションの分布と一致しており、BarBIQ測定の技術的ノイズは主としてサンプリングによるものであることが示唆された(図7c,d)。
マウス依存性CVの信頼区間推定
各cOTUについて、シミュレーションにより、3匹のマウス(Madist1、Mbdist、McdistまたはMaprox1、Mbprox、Mcprox)の遠位または近位位置における細胞濃度のCVの95%信頼区間を推定した。シミュレーションプロセスを1,000回繰り返し、各時間について、所与のcOTUについて3つのシミュレートされた細胞濃度からCVを得た。各シミュレートされた濃度は、Poisson分布から生成されたランダム数により得られ、その平均は、試料中の所与のcOTUのシークエンス決定細胞数(すなわち、Madist1、Mbdist、McdistまたはMaprox1、Mbprox、Mcproxの1つ)であり、その後、この試料の推定総濃度を用いて正規化した。この推定総濃度は、その平均がこのサンプルの測定叢濃度であり、その標準偏差が平均の10.1%である正規分布からランダムに生成した(10.1%は、反復フィルタリングに関する5つの独立した実験の中で、平均によって標準化された最大標準偏差(10.1%)であった(図18))。各CVの95%信頼区間は、1,000回のシミュレーションCVの分布から得た。
修正細菌ネットワーク
階層的クラスタリングを、統計パッケージ中の機能hclustにより実施した(パッケージpheatmapを用いてヒートマップを描いた)。クラスタリングに用いられる距離は、1-最小(│r’│)[r’∈(r - OCI, r+OCI)]と定義され、ここで、OCIは各rの90%片側信頼区間を意味する。階層的クラスタリングの系統樹を完全連結法により得た。具体的には、含まれるすべてのcOTU間のピアソンの相関係数rを求めた。その後、ある微生物と他の微生物の距離を上記式に基づいて決定し、距離に基づいてcOTUをクラスタリングした。クラスタリング後の枝内の可能なcOTUペアの距離は枝の高さより低かった。各rのOCIは、シミュレーションにより得た。シミュレーションプロセスを1,000回繰り返し、各時間について、各cOTUの細胞濃度を、試料Madist1、Maprox1、Mbdist、Mbprox、McdistおよびMcprox(このプロセスは、上記のCV信頼区間のシミュレーションと同じである)についてランダムに生成し、各cOTU対についてピアソンのrを計算した。その後、OCIは、1,000回のシミュレーションされたシミュレータの分布から得られた。
閾値0.6により得られた各SCBGについてのcOTUのネットワークを、パッケージのigraphを用いてforce-directed layout39により可視化し、ネットワークにおけるノード(すなわち、cOTU)のレイアウトを、0.9より大きいrを用いて描き、cOTU間のすべてのrを、パッケージRColorBrewerを用いて色勾配により線で示した。
SCBGの各可能なペアの間のSCBG間相関に基づくSCBGのネットワーク(Rinter)を、パッケージigraphを用いてforce-directed layoutにより可視化した。SCBGのレイアウトは0.7より大きいRinterに基づいて決定し、SCBG間のすべてのRinterはパッケージRColorBrewerを用いて色勾配により線で描いた。Rinterの平均の比較のためのKruskal-Wallis検定を、Rパッケージstatsにおける機能Kruskal.testを用いて実施した。
実施例1:細菌叢に含まれる細菌の単一細胞インデックス付与(indexing)と単一RNAバーコード付与(Barcording)、ならびに配列解読による細胞単位と分子数のカウント
微生物相と宿主の相互作用は宿主のホメオスタシスおよび多くの疾患13-16と関連している。微生物相と宿主の相互作用のメカニズムをさらにかつ統合的に理解するために、微生物相を研究するだけでなく、微生物相と宿主の両方についてメタボロミクスおよび/またはトランスクリプトミクスのような他の分析と微生物相の組成分析を結びつけることが重要である。この目的のためには、一般に使用可能な単位、例えば、重量あたりの細胞数および/または体積あたりの分子数に基づく濃度測定が必要である。しかし、現行の技術6-8では、細胞レベルでの微生物相組成の測定は困難であった。さらに、微生物叢は多数の細菌種からの膨大な数の細菌からなる17。そのため、高い分類学的分解能を有するハイスループット細胞定量法が望まれている。
次世代シークエンシング技術を用いた16S rRNA遺伝子増幅物シークエンシングに基づいたハイスループット法が、いく年にもわたる所与の細胞集団における細菌の多様性の研究に貢献した22,23。しかし、従来の方法は、精製バルク細菌ゲノムから16S rRNA遺伝子を増幅し、増幅した分子の数を測定するので、基本的には以下の限界がある。
1)異なる種はゲノム上に16S rRNA遺伝子の異なるコピー数を有し、大部分の種のコピー数は不明であるため、細胞数を測定し、異なる種の細胞数を比較するのは困難である;
2)16S rRNA配列の同定は、シークエンスおよび増幅エラーのために正確ではなく、低分類学的分解能をもたらす。
実際、シークエンスエラーは、分子バーコード24-26を用いて修正されたが、主に配列増幅時に生じるキメラ生成に由来する増幅エラーは、未だ十分に除去できていない27
これらの従来の方法の限界を克服するために、正確な16S rRNA遺伝子同定、BarBIQ(図1a、図29)を伴う細胞定量法を開発した。最初に試料を緩衝液中で調製し、ボルテックスにより塊を破壊した。次に、細菌試料を細胞バーコード2526、プライマーおよびDNA増幅用試薬を含む溶液と混合し、100μmサイズの液滴に封入した。液滴の約4%が単一細胞と単一細胞バーコード(すなわち、DNA分子)の両方を有するように、バーコードおよび細菌の濃度、ならびにポアソン分布に基づいてそれらの比を調整した。その後のシークエンスのために、増幅されたバーコードおよびシークエンスアダプターを、シングルステップ増幅によって液滴中の増幅された16S rRNA遺伝子(V3-V4領域、約450塩基)と連結した28(図5)。増幅後、液滴を切断し、ライブラリー(連結したアンプリコン)を精製し、高スループットシーケンサーMiSeqを用いて個々の増幅分子の細胞バーコードおよび16S rRNA配列の両方をシークエンスした。われわれは、バーコード(すなわち、細胞)の各配列タイプについてシークエンスされた分子(すなわち、リード)を分析し、その16S rRNA配列に基づいて各細胞のタイプを同定し、各細胞タイプについて細胞数をカウントした(図6)。この解析は、ゲノム上に複数の16S rRNAシークエンス型を有する細菌に対しても機能した。なぜなら、同じ細胞バーコードが、同一細胞由来の増幅された複数の16S rRNAシークエンスに連結したからである。最終的に、液滴デジタルPCR(「BarB1Q法」の項目参照)で測定した同一試料の総濃度を用いて、シークエンスした細胞数を正規化することにより、試料中の各細胞型の細胞濃度を得た。
BarBIQと従来法との本質的な相違点は、微生物相の組成を定義するための単位である。従来法では、単位は操作上の分類単位(operational taxonomic unit, OTU)であり、これはバルクサンプリングから得られた配列の同一性に基づいてクラスタリングすることによって基本的に得られる類似の16S rRNA配列のグループを示す30。しかしながら、BarBIQは、各バーコード化細胞から同定された16S rRNA配列に基づいて分類される細胞型を使用する。本発明者らの細胞ベースの方法とOTUを用いた従来の方法とを区別するために、ここで得られる分類単位を、「細胞ベースの操作上分類単位(cOTU)」と名付けた。
最初に、BarBIQが10種類の培養ヒト腸内細菌株を含む模擬細胞集団に作用することを実証した(表1)。BarBIQにより同定されたBar配列の2対を含む模擬細胞集団由来の16の配列(Bar配列)はそれぞれ1つの塩基差を有することを見出した(図1b)。
16のBar配列はすべて、培養した10株のサンガーシークエンスにより同定された16S rRNA配列(San配列)の1つと同一であった(図1b)。いくつかのSan配列はBarBIQによっては見いだされず、サンガーシークエンスによって1個または2個の細胞からのみ検出されたことに注目する。次に、細胞バーコードに基づいて16のBar-配列から10のcOTUを同定し、それぞれが10の株のうちの1つに対応した(図1b、図20~28)。これに対して、通常の方法で同一の模擬細胞集団を測定したところ、12種類の代表的なOTU配列のうち2種類のみがSan配列の1つと同一であることがわかった(図1b)。したがって、BarBIQは16S rRNA配列同定のための一塩基精度および分解能を有した。ここで実施した従来の方法では実行不可能であると結論した。
次に、BarBIQによって、模擬細胞集団における各cOTUの濃度([C]BarBIQ) (体積当り)を測定した。BarBIQで測定された濃度は、顕微鏡画像で測定されたそれらの細胞濃度([C]顕微鏡、図1c)と一致することを確認した。2つの測定値間のPearson積率相関係数r(Pearsonのr)は0.98であった。平均比([C]BarBIQ/[C]顕微鏡)は0.88であり、固定勾配1(R=0.95)を用いて対数目盛に当てはめることにより決定した。この結果は、BarBIQが模擬細胞集団における各細菌(cOTU)の細胞濃度を正確に測定したことを示唆した。
次に、我々はBarBIQをマウス盲腸由来の微生物叢に適用した。盲腸は、微生物発酵容器31として機能し、微生物叢疾患関連研究のためのサンプリング場所としてしばしば選択されている32,33。我々は、最近報告34されたように、細胞外細菌DNAが腸内微生物叢の定量に影響する可能性があるため、盲腸検体から細胞外DNAを除去した。
C57BL6/J雄マウス(Ma、Mb、およびMc)を共収容した3匹の結腸-盲腸および小腸-盲腸の両関節由来の2つの位置(遠位(dist)および近位(prox)で微生物叢を調査した(図2a)。Maの両部位(遠位部位に対してMadist1、Madist2、Madist3および近位部位に対して;Maprox1、Maprox2およびMaprox3のそれぞれ3回の反復実験を実施)から採取したサンプルと、その他(Mbdist、Mbprox、McdistおよびMcprox)について測定を実施した。合計で1.3×10個の細菌細胞を計数し、730個のBar配列を含む604個のcOTUを同定した。驚くべきことに、同定された230のBar配列(730のうち32%)は、広く使用されている3種類の公的データベース(GreenGene10、Ribosomal Database Project11、Silva12)にいまだ登録されておらず、最も近い登録配列との同一性は86.9~99.9%であった(図2b)。BarBIQは単一塩基精度を有することを模擬細胞集団により明らかにしたため、BarBIQは未知の16S rRNA配列を同定することができると結論した。
次に、試料中の同定された各cOTUについて、上述のように細胞濃度を定量した。最初に、同一サンプルの技術的反復が再現性が高く(Pearsonのr≧0.982、図15)、濾過工程を含む定量化のためのノイズは主にサンプリングによるものであることを確認した(図7のb-d)。次いで、全サンプルで検出された240cOTUを用いてサンプル間の細胞濃度を比較した。我々は、サンプルの各対(すなわち、異なる位置および/または異なるマウス)の10~97cOTU(図2d、e、および図16a~16c)の濃度が異なることを見出した。その差はサンプリングノイズよりも大きく、倍率変化は2より大きかった(図2d、eおよび図16の信頼区間から外れ、倍率変化が2倍以上のドット;すなわち異なる濃度を有すると考えられるcOTU)が、他の143~230(240cOTUの60~96%)の濃度は一貫していた(図3d、eおよび図16a~cの信頼区間の範囲か、または倍率変化が2倍未満であるドット)。例えば、健康マウスと疾患マウスの間の差異を記述したいときは、一貫した細菌の同定が不可欠であろう。
各サンプルペアの全体的な差を定量化するため、Bray-Curtisの非類似性(存在量に基づくβの多様性)35分析を240 cOTUの細胞濃度に基づいて実施した(図2f)。上記の観察結果と一致して、異なるサンプル間の相違(図2fの異なる部位のサンプル間および異なるマウスからのサンプル間)は、Maからの反復実験(図2fのMadistおよびMaprox参照)間の相違よりも有意に大きかった。さらに、近位位置または異なる位置(図2dの丸記号)での異なるマウスからのサンプル間の異質性は、同じマウスからの異なる位置、または異なるマウスからの遠位位置(図2dの三角記号)でのそれらより高かった。これらの結果は、微生物叢の細胞ベースの包括的な相違を定量的に分析し、同じマウスまたは異なるマウスの遠位と近位の位置からの微生物叢が全体的に異なることを示唆した。
さらに、240 cOTUの各々について、位置依存性(採取場所の位置(すなわち、遠位と近位)による依存性)およびマウス依存性の濃度差の両方を検討した。まず、Maの各位置について3回の反復実験により、同じマウスの異なる位置間のcOTU濃度を統計的に比較した。13 cOTU(240 cOTUのうち5%)は有意に異なり(FDR<0.05かつ倍率変化>2)(図8)、最大倍率変化(反復実験の平均濃度に基づく)は4.1であった。
次に、各部位のcOTUに対する変動係数(CV、3匹の細胞濃度の標準偏差をそれらの平均値で除したCV)を算出することにより、3匹のマウスにおける細胞濃度の一貫性を定量した(図3a)。著者らは、各cOTUについて遠位と近位の位置の間のCVを比較し(図9aおよび9b)、大部分のcOTUのCVは、シミュレートされた信頼区間に基づいて異ならないことを見出した。興味深いことに、同一属のcOTUsの一貫性(すなわちCV)は、しばしば異なっていた(図9aおよび9b)(公的データベースからの情報が限られているため、分類はRDP分類36を用いて各cOTUのBar-sequenceにより予測されたことに注目)。例えば、Clostridium XIVa属のcOTUのCVは、両方の場所で0.05~1.70の範囲で変化した(図3b)。興味深いことに、この属のある種は、盲腸31の主要な機能であるブチレート37のような短鎖脂肪酸を生成することが報告されている。この知見は、細菌の生理学的役割の更なる理解のためには、属レベルより細かいレベルの細胞の定量、特に、cOTUレベルの細胞の定量が必要であることを示唆した37,38
細胞間の関係を理解するために、各cOTU対の相関に基づいて細菌ネットワークを探索した。ヒト状態の遷移と関連する相関細菌ネットワークは何年かにわたって示されている。しかし、これまでのネットワーク分析は、基本的に、属レベルまたはより高いレベルでのOTU、すなわちcOTUではなくOTUに基づいて行われた。本実施例では、6つの試料(Madist1、Maprox1、Mbdist、Mbprox、Mcdist、およびMcprox)からのそれらの測定濃度を用いて、一般的に検出される296 cOTUの各対について対数目盛でピアソンのrを計算することによって、細胞濃度に基づく相関を明らかにした(図4a)。大部分のcOTUと高い相関を示すcOTUは見いだされなかったが、いくつかのcOTUは他のいくつかのcOTUと強く相関した(図10)。
そこで、われわれは、可能性のあるすべてのcOTU対の距離に基づいて階層的クラスタリングを行い、│r│sを使用して、全てのcOTUが強く相関する細菌群(strongly correlated bacterial groups; SCBGs)を見出した(図4b)。正および負の相関cOTUの両方を含むSCBGを同定するために、rではなく│r│を使用した、これは、ここで定義されたSCBGが「関係グループ」であることを意味する。SCBGsの同定の信頼性を確保するために、シミュレートされた誤差を│r│sの計算に考慮した。図4bの系統樹上の点線として示される閾値0.6を使用したところ、計31のSCBGが発見された。閾値より低く、3個以上のcOTUを含む枝をSCBGと定義した(図4bおよび図17)。得られたSCBGの特徴を特徴付けた。SCBGにおけるcOTUの数は3~19個と様々であり(図11c)、半数以上(16/31)が正および負の相関したcOTUを含み(図4cおよび図12a~f)、各SCBGにおけるcOTUの平均存在量が広く分布し(図4cおよび図11d)、SCBGにおける存在量の最も高い差は230倍であり、SCBG12(図11d)で認められ、(図3cと同様に)各cOTGの分類学的予測(図4c)はそれぞれ異種であった(図4cおよび図13)。これらの知見は、細菌が異なる分類群に属するか、その存在量が異なる場合でも、強い関係を持つ可能性があることを示唆した。SCBGの数および各SCBG中のcOTUの数は、閾値の関数として変化し(図11aおよび11b)、ここで使用した閾値0.6は、SCBGの数に対する移行点であるように思われる(図11a)。SCBGを定義するために異なる閾値を選択して、特定の特徴が所定の試料において見出されるようにしてもよい。
全ネットワークレベルでの細菌微生物叢の特性を評価するために、SCBGの可能な全ての対を用いてSCBG間の相関を調べた。2つのSCBGの間のSCBG間の相関Rinterは、1つの対の2つのcOTUが異なるSCBGから由来する全ての可能なcOTU対について計算された│r│sの平均として定義した(図4d)。最初に、全てのRinterが、各SCBG内の全ての可能なcOTUペアについて計算された│r│sの平均として定義されるSCBG内の相関、Rinnerよりも基本的に低いことを確認した(図14a)。次いで、各SCBGは少数のSCBGと相対的に高い相関を示すことを見出した。最後に、各SCBGについて、SCBGと他の全てのSCBGの間のRinterの平均を計算し、全ての31のSCBGの平均は、Kruskal-Wallis検定を用いて有意差がないことを見出した(カイ二乗=30、df=29、p値=0.41)(図14b)。これらの知見は、ネットワーク全体におけるすべてのSCBGの平均的特徴は明確でないことを示唆した。全細菌ネットワークの分析は、疾患モデルの細菌ネットワークを健常マウスのそれと比較することにより、例えば、微生物叢における疾患関連ランドマークの特徴を見出すために重要であると思われる。
更に、以下の検討を行った。
実験1. 大腸試料の細分化
大腸を細分化し、かつ細分化されたそれぞれの断片の位置情報を識別可能な状態で分析することを試みた。具体的には、マウスを屠殺した直後に大腸全体を摘出して直線状になるように広げ、それぞれの大腸固形内容物の位置関係を撮影記録した。一つの大腸固形内容物を腸壁に包まれた状態のまま滅菌済みハサミと滅菌済みピンセットを用いて取り出し、ブレインスライサ(室町機械、MK-RC-01)の穴の中央に盲腸側を左側にして置いた(図39のパネルa)。このとき、盲腸側(A)と肛門側(E)が識別できるように、ブレインスライサに予め印をつけた。
次に、オートクレーブ滅菌後に50℃で保温しておいた3%アガロース(ナカライテスク、01157-95)含有1×TAE(ナカライテスク、32666-81)を静かに注ぎ入れ(図39のパネルb)、-20℃で30分間静置することにより、大腸内容物をアガロースゲルに包埋した(図39のパネルc)。ブレインスライサを-20℃の冷凍庫から取り出し、大腸固形内容物の中央より1mmほど左側に位置するブレインスライサの溝、およびその2つ右側に位置する溝に滅菌済みカミソリ刃(室町機械、TCB-100)を差し入れた(図39のパネルd)。今回用いたブレインスライサの溝の幅は1mmなので、この操作により大腸内容物から厚さ2mmの中央部分(以下、Cエリア)が分割されたことになる。その後、大腸固形内容物の左端および右端から2mm以上3mm以下の内側に位置する溝にカミソリ刃をそれぞれ差し入れ(図39のパネルe)、盲腸側先端部(以下、Aエリア)および肛門側先端部(以下、Eエリア)に分けた。Bエリア(AエリアとCエリアの間)およびDエリア(CエリアとEエリアの間)の幅は、大腸固形内容物全体の長さにより変動した。また、腸試料によっては内容物全体の長さが短く、BエリアまたはDエリアのどちらか一方が欠落したものもあった。最後に、大腸固形内容物の左端および右端から1mm以上外側に位置する溝にカミソリ刃をそれぞれ差し入れた。カミソリ刃をブレインスライサから抜くことにより、各エリアの大腸内容物が含まれる切片をカミソリ刃に付着した状態で取り出し、滅菌済みピンセットを用いて各エリアの大腸内容物をDNA Lobind Tube(Eppendorf、0030108051)に入れた。Cエリアは、ブレインスライサから取り出した後に滅菌済みペトリ皿に置いて(図39のパネルf)、15ゲージの滅菌済み金属ニードル(武蔵エンジニアリング、SNA-15G-B)を用いて中心部分(以下、CCエリア)と周辺部分(以下、COエリア)に分け、DNA Lobind Tube に採取した。上記の一連の操作を、他の大腸固形内容物に対しても繰り返した。
その結果、大腸固形内容物をA、B、CC、CO、D、Eの各エリアに分割することができた(図39のパネルg)(ただし、上記理由によりBまたはDが欠落することがあった)。
実験2. バーコード配列の分配に対する細菌の有無の影響の実験科学的検討
細菌細胞を含む、または含まない条件において、等モル混合した4つの細胞バーコードテンプレート(以下、等モル混合細胞バーコード)の濃度を、ddPCRを用いて測定した。具体的には、まず、QX200TM ddPCRTM EvaGreen Supermix(BioRad、#1864034)、1μMプライマー(NoBiotin-Link-barcode-FおよびP5-index-R1P-barcode-R)、0.1μM dNTP(New England BioLabs、N0447)、Platinum Taq DNA Polymerase(Thermo Fisher Scientific、10966034)、およびサンプル(等モル混合細胞バーコードとマウス盲腸より採取した細菌細胞、あるいは等モル混合細胞バーコードのみ)を30μlの容量で混合し、DG8カートリッジ(BioRad、#1864008)に分注した。次に、Droplet Generation Oil for EvaGreen(BioRad、#1864006)およびDroplet Generator(BioRad、#1864002JA)を用いて混合溶液を液滴に封入した。
ddPCR は以下のステップにより実施した。
第一ステージ;95℃5分
第二ステージ;95℃45秒と60℃150秒の繰り返しを6サイクル
第三ステージ;95℃25秒と60℃80秒の繰り返しを39サイクル
第四ステージ;4℃5分と90℃5分
その後、QX200 Droplet Reader (BioRad、#1864003JA)によりバーコードの濃度を測定した。
結果、細菌細胞を含む、または含まない条件においてバーコード濃度の測定値に有意差はなく(図40参照)、細菌細胞の有無はバーコードの液滴への分配比率に影響しないことが示された。
実験3. ddPCRにおけるサイクル数の変更実験
BarBIQ法のシークエンスライブラリー作製のためのPCRサイクル数が、液滴に含まれる細菌細胞の16S rRNA配列を増幅させるのに十分であることを確かめた。具体的には、まず、QX200TM ddPCRTM EvaGreen Supermix、1μMプライマー(F1-FwおよびF1-Rv)、0.1μM dNTP、およびサンプル(マウス盲腸より採取した細菌細胞)を30μlの容量で混合し、DG8カートリッジに分注した。
次に、Droplet Generation Oil for EvaGreenおよび Droplet Generatorを用いて、混合溶液を液滴に封入した。ddPCRは、第三ステージを除き、上記実験2.と同様のサイクル条件で実施した。第三ステージは、サイクル数を0、10、20、30、39、あるいは49に変えた。その後、液滴の蛍光強度をQX200 Droplet Readerにより測定し、ソフトウェア QuantaSoft(BioRad、#1864011JA)による強度の二峰性分布の谷である閾値に基づいて陽性および陰性液滴を決定した。
結果、第三ステージのサイクル数が30以上の条件下では、陽性液滴と陰性液滴の強度分布が明瞭に分離し(図41のパネルa)、液滴全体に占める陽性液滴の割合は14%程度で一定となり(図41のパネルb)、BarBIQ法のシークエンスライブラリー作製のためのPCRサイクル数が、液滴に含まれる細菌細胞の16S rRNA配列を増幅させるのに十分であると示された。
実験4. ddPCRのステップ時間の変更実験
BarBIQ法のシークエンスライブラリー作製のための初期変性の時間が、液滴に含まれる細菌細胞の16S rRNA配列を増幅させるのに十分であることを確かめた。具体的には、まず、QX200TM ddPCRTM EvaGreen Supermix、1μMプライマー (F1-FwおよびF1-Rv)、0.1μM dNTP、およびサンプル(マウス盲腸より採取した細菌細胞)を30μlの容量で混合し、DG8カートリッジに分注した。次に、Droplet Generation Oil for EvaGreenおよびDroplet Generator を用いて、混合溶液を液滴に封入した。ddPCRは、第一ステージを除き、上記実験2.と同様のサイクル条件で実施した。第一ステージは、時間を0、5、あるいは10分間に変えた。その後、液滴の蛍光強度をQX200 Droplet Readerにより測定し、ソフトウェア QuantaSoftによる強度の二峰性分布の谷である閾値に基づいて陽性および陰性液滴を決定した。
結果、第一ステージの時間を変えても、液滴全体に占める陽性液滴の割合は変化せず(図42)、BarBIQ法のシークエンスライブラリー作製のための初期変性の時間が、液滴に含まれる細菌細胞の16S rRNA配列を増幅させるのに十分であると考えられた。
現在、16S rRNA遺伝子の増幅産物ベースの微生物叢の研究では、絶対定量、正確な測定40、完全遺伝子シークエンス41、および細菌-細菌相互作用を考慮する傾向にある42。しかし、これらは依然として細胞の定量とは関連していなかった。我々が知る限り、BarBIQは、高スループット様式で細胞レベルでの細菌微生物相の高分類学的分解組成の定量を可能にする最初の方法である。さらに、BarBIQによる未知の16S RNA配列の一塩基精度によるデータベースフリーの同定は、他の研究にとって有用であると思われる。例えば、新たに見出された細菌の局在を知りたいときは、BarBIQにより同定された16S rRNA配列を用いて蛍光プローブを設計することによって、FISH(蛍光in situハイブリダイゼーション)を行うことができる。
最近、メタゲノミクス、トランスクリプトミクス、プロテオミクス、メタボロミクスのような異なるメタオミクスデータセットを統合し、これらのデータセットを用いたさらなる計算モデリングが、微生物相機能のメカニズム研究のための有望な方向として提案されている。このアプローチでは、細菌細胞は、明らかに異なるメタオミクスデータセットを統合するだけでなく、その機能のための基本単位であるので、微生物相は細胞レベルで定義されるべきである。BarBIQによって提供される微生物叢の細胞ベースおよび分類群に依存しない解析は、微生物相の研究を現在の連合研究から必要な機構研究44に移行する。

Claims (16)

  1. 細胞集団に含まれる所定の遺伝子の塩基配列を分析するための方法であって、
    (A)単離された細胞集団と固有のバーコード配列をそれぞれ有する細胞バーコードと核酸増幅用のプライマーおよび遺伝子増幅用試薬を含む細胞の分散液から、液滴集団であって、水性の液滴を含み、前記液滴の少なくとも一部のそれぞれが、1つの細胞と1分子の細胞バーコードとを含む液滴集団を得ることと、ここで、前記液滴集団は、細胞バーコードの増幅産物と前記細胞集団の細胞内の所定の遺伝子それぞれの増幅産物を得るために必要な核酸増幅用のプライマーおよび遺伝子増幅用試薬を含み、
    (B)得られたそれぞれの液滴中で、細胞バーコードの増幅産物と所定の遺伝子それぞれの増幅産物を得て、さらに、細胞バーコードと所定の遺伝子の全部または一部の塩基配列を含む連結物を得ることと、得られた連結物を液滴から水溶液中に回収して、得られた連結物をシークエンスして所定の遺伝子の塩基配列と細胞バーコードの塩基配列を決定することと
    (C-1)決定された細胞バーコードの塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第一のクラスターを得ることと、
    を含む、
    方法。
  2. 前記(B)において、細胞バーコードの増幅産物は、第一のプライマーに由来する第一の領域を有し、所定の遺伝子の増幅産物は、第二プライマーに由来する第二の領域を有し、第一の領域と第二の領域は、互いにハイブリダイズ可能な相補的な配列部分を有し、前記第一のプライマーおよび第二のプライマーはそれぞれ、1以上のタグ分子を連結しており、当該タグ分子は、前記連結物には含まれず、かつ、
    前記(B)において、水溶液中に回収された連結物から、タグ分子を有する増幅産物を当該タグ分子に親和性を有する分子を担持したカラムまたはビーズを用いて除去することをさらに含む、請求項1に記載の方法。
  3. (D-1)得られた第一のクラスターの数から細胞集団に含まれる細胞の数または特定の所定の遺伝子を有する細胞の数を推定すること
    をさらに含む、請求項1または2に記載の方法。
  4. (C-2)決定された所定の遺伝子の塩基配列に基づいて、決定された塩基配列をクラスタリングして、複数の第二のクラスターを得ること
    をさらに含む、請求項1~3のいずれか一項に記載の方法。
  5. (D-2)得られた第二のクラスターの数から細胞集団に含まれる細胞の種類の数を推定することをさらに含む、請求項4に記載の方法。
  6. (D-3)得られた細胞バーコードの塩基配列と所定の遺伝子の塩基配列の組合せの情報に基づいて、少なくとも1つのある第二のクラスターに分類された所定の遺伝子の塩基配列と連結している細胞バーコードの塩基配列から当該所定の遺伝子の塩基配列が分類された第一のクラスターを決定し、当該細胞バーコードが分類された第一のクラスターの数から、当該第二のクラスターに分類された細胞の数を推定すること
    をさらに含む、請求項4に記載の方法。
  7. (C-4)同一の第一のクラスターに分類された配列が異なる第二のクラスターに分類される場合、当該第二のクラスターを同一の細胞ベースの操作上分類単位(cOTU)に分類することをさらに含む、請求項4に記載の方法。
  8. (E)第一の細胞集団と、第一の細胞集団とは異なる第二の細胞集団のそれぞれに関して、細胞集団に含まれる(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を推定し、第一の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数を、第二の細胞集団に関して推定された(i)cOTUの数および/または(ii)特定のcOTUに含まれる細胞の数とそれぞれ比較することをさらに含む、請求項7に記載の方法。
  9. (F)第一の細胞集団に関して推定された(i)cOTUの数および(ii')特定のcOTUに含まれる細胞の数と、第二の細胞集団に関して推定された(i)cOTUの数および(ii')特定のcOTUに含まれる細胞の数を比較することを含む、請求項8に記載の方法。
  10. 細胞集団が、微生物叢である、請求項1~9のいずれか一項に記載の方法。
  11. 微生物叢が、体内または体表の微生物叢である、請求項10に記載の方法。
  12. 微生物叢が、消化管内の微生物叢である、請求項10に記載の方法。
  13. 第一の細胞集団と第二の細胞集団が、同一対象の異なる部位から取得された微生物叢である、請求項8または9に記載の方法。
  14. 第一の細胞集団と第二の細胞集団が、異なる対象の同一の部位から取得された微生物叢である、請求項8または9に記載の方法。
  15. 第一の細胞集団と第二の細胞集団が、同一対象の同一の部位から異なる時間に取得された微生物叢である、請求項8または9に記載の方法。
  16. 細胞集団が、未知の細胞を含む、請求項1~15のいずれか一項に記載の方法。
JP2022526658A 2020-05-29 2021-05-28 細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法 Active JP7423101B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020094141 2020-05-29
JP2020094141 2020-05-29
PCT/JP2021/020338 WO2021241721A1 (ja) 2020-05-29 2021-05-28 細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法

Publications (2)

Publication Number Publication Date
JPWO2021241721A1 JPWO2021241721A1 (ja) 2021-12-02
JP7423101B2 true JP7423101B2 (ja) 2024-01-29

Family

ID=78744799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022526658A Active JP7423101B2 (ja) 2020-05-29 2021-05-28 細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法

Country Status (6)

Country Link
US (1) US20230203600A1 (ja)
EP (1) EP4159873A1 (ja)
JP (1) JP7423101B2 (ja)
CN (1) CN115867676A (ja)
CA (1) CA3185619A1 (ja)
WO (1) WO2021241721A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114642684A (zh) * 2022-03-21 2022-06-21 北京航空航天大学 用于防治焦虑抑郁症的直肠真杆菌(Eubacterium rectale)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016126871A2 (en) 2015-02-04 2016-08-11 The Regents Of The University Of California Sequencing of nucleic acids via barcoding in discrete entities
WO2018218222A1 (en) 2017-05-26 2018-11-29 Goldfless Stephen Jacob High-throughput polynucleotide library sequencing and transcriptome analysis
JP2018538006A (ja) 2015-11-04 2018-12-27 アトレカ インコーポレイテッド 単一細胞に関連する核酸の解析のための、核酸バーコードの組み合わせセット
US20190002974A1 (en) 2010-12-16 2019-01-03 Gigagen, Inc. System and Methods for Massively Parallel Analysis of Nucleic Acids in Single Cells
US20190025299A1 (en) 2015-09-25 2019-01-24 Francois Vigneault High throughput process for t cell receptor target identification of natively-paired t cell receptor sequences
US20190300968A1 (en) 2018-03-27 2019-10-03 The Trustees Of Columbia University In The City Of New York Spatial Metagenomic Characterization of Microbial Biogeography

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
AU2017335897A1 (en) * 2016-09-28 2019-04-04 General Automation Lab Technologies, Inc. High resolution systems, kits, apparatus, and methods for bacterial community relationship determination and other high throughput microbiology applications
JP7160349B2 (ja) 2017-06-23 2022-10-25 国立研究開発法人理化学研究所 核酸をシークエンシングする方法および解析する方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190002974A1 (en) 2010-12-16 2019-01-03 Gigagen, Inc. System and Methods for Massively Parallel Analysis of Nucleic Acids in Single Cells
WO2016126871A2 (en) 2015-02-04 2016-08-11 The Regents Of The University Of California Sequencing of nucleic acids via barcoding in discrete entities
JP2018508198A (ja) 2015-02-04 2018-03-29 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 別個の実体におけるバーコード付加による核酸のシーケンシング
US20190025299A1 (en) 2015-09-25 2019-01-24 Francois Vigneault High throughput process for t cell receptor target identification of natively-paired t cell receptor sequences
JP2018538006A (ja) 2015-11-04 2018-12-27 アトレカ インコーポレイテッド 単一細胞に関連する核酸の解析のための、核酸バーコードの組み合わせセット
WO2018218222A1 (en) 2017-05-26 2018-11-29 Goldfless Stephen Jacob High-throughput polynucleotide library sequencing and transcriptome analysis
US20190300968A1 (en) 2018-03-27 2019-10-03 The Trustees Of Columbia University In The City Of New York Spatial Metagenomic Characterization of Microbial Biogeography

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nature Communications,2020年,11:866,pp.1-9,Published online: 13 February 2020

Also Published As

Publication number Publication date
CN115867676A (zh) 2023-03-28
EP4159873A1 (en) 2023-04-05
JPWO2021241721A1 (ja) 2021-12-02
CA3185619A1 (en) 2021-12-02
US20230203600A1 (en) 2023-06-29
WO2021241721A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
AU2021202149B2 (en) Detecting repeat expansions with short read sequencing data
US11866777B2 (en) Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP3169803B1 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular dna and cell free dna
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
JP2020530261A (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
JP7423101B2 (ja) 細胞集団の処理方法および細胞集団に含まれる遺伝子の分析方法
CN114736970B (zh) 一种鉴别不同人群的方法
Barbaro Overview of NGS platforms and technological advancements for forensic applications
Zolfo Metagenomics-based discovery of unknown bacteriophages In the human microbiome
Bajaj et al. MICROBIAL GENOMICS

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221019

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240110

R150 Certificate of patent or registration of utility model

Ref document number: 7423101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150