JP2022136465A - ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出 - Google Patents

ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出 Download PDF

Info

Publication number
JP2022136465A
JP2022136465A JP2021036092A JP2021036092A JP2022136465A JP 2022136465 A JP2022136465 A JP 2022136465A JP 2021036092 A JP2021036092 A JP 2021036092A JP 2021036092 A JP2021036092 A JP 2021036092A JP 2022136465 A JP2022136465 A JP 2022136465A
Authority
JP
Japan
Prior art keywords
copy number
segment
bin
number ratio
genome sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021036092A
Other languages
English (en)
Other versions
JP7099759B1 (ja
Inventor
克 田中
Katsu Tanaka
喜行 桜庭
Yoshiyuki Sakuraba
陽子 長井
Yoko Nagai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Varinos Inc
Original Assignee
Varinos Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Varinos Inc filed Critical Varinos Inc
Priority to JP2021036092A priority Critical patent/JP7099759B1/ja
Priority to PCT/JP2021/046235 priority patent/WO2022190495A1/ja
Priority to TW111108115A priority patent/TW202300656A/zh
Application granted granted Critical
Publication of JP7099759B1 publication Critical patent/JP7099759B1/ja
Publication of JP2022136465A publication Critical patent/JP2022136465A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ゲノム配列上のコピー数のバリアントのブレークポイントの候補を機械的に検出する。【解決手段】ゲノム配列上に連続的に設定される領域、以下ビンという、であって、断片配列のサイズよりも大きいサイズを有するものにそれぞれ含まれる断片配列を数える。ビン同士の間隔を分解能として、ゲノム配列上のコピー数比の分布を測る。ビンのゲノム配列上の位置に対する、コピー数比の変化の傾きを隣り合うビンの組、以下、これをビン-ペアという、ごとに取得する。ビン-ペアを傾きの絶対値の大きい組と傾きの絶対値の小さい組とに分け、傾きの絶対値の大きい組はコピー数比の増減区間を含むと判定する。コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データを生成する。さらにコピー数のバリアントに対してスコアリングを行うことで、胚同士の比較ができる。【選択図】図7

Description

本発明はゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出に関する。
コピー数のバリアントを有する領域と有しない領域とが1個の染色体上に分布することがある。非特許文献1は着床前の胚の細胞のゲノム配列上の領域のコピー数を検出する方法としてPGT-A、Preimplantation Genetic Testing for Aneuploidyを開示している。PGT-Aにおいてコピー数のバリアントのあること又はバリアントのないことを検出することをコール(Call)と呼ぶ場合がある。
上記技術について留意すべき点は、ゲノム配列上のコピー数比の分布の情報を得たとしても、それだけではコールしたことにはならないことである。すなわち正倍数体相当の領域を特定した上で、係る領域に対するコピー数比の閾値を設定することで、正倍数体相当の領域とバリアントを有する領域とを区別する必要がある。
特許文献1は被験対象の細胞のコピー数のバリアントの有無を判定する方法を開示している。係る方法ではゲノムの配列を決定し、決定された配列の分布を得る。次に配列の個数が変化する区切り点を特定する。このとき、区切り点の候補を予め設定し、その前後の領域に対する連検定に基づき、適切な区切り点を絞り込む。次に区切り点に挟まれた領域中のコピー数のバリアントの有無を判定する。
特表2015-506684号公報
Illumina, Inc.,"A Technical Guide to Aneuploidy Calling with VeriSeq PGS",2014年9月 Francesca Romana Grati,Gloria Gallazzi,Lara Branca,Federico Maggi,Giuseppe Simoni,Yuval Yaron,"An evidence-based scoring system for prioritizing mosaic aneuploid embryos following preimplantation genetic screening",Reproductive Biomedicine Online, 2018年2月1日,Volume 36,ISSUE 4,P442-449
本発明はゲノム配列上のコピー数のバリアントの区切り点、すなわちブレークポイントの候補を機械的に検出する手段を提供することを目的とする。係る区切り点の候補は、被験対象の細胞のゲノム配列上のコピー数の分布の情報からコピー数のバリアントの有無を判断するのに役立つものである。本発明はさらに胚同士の比較のため、コピー数のバリアントに対してスコアリングを行う手段を提供することを目的とする。
<1> ゲノム配列上のコピー数のバリアントの区切り点の候補を機械的に検出する方法であって、
細胞サンプルより得た染色体DNAの断片配列の電子データ、以下、これを検体データという、を以下の通りコンピューターで自動的に処理する、
ゲノム配列上に連続的に設定される領域、以下ビンという、であって、前記断片配列のサイズよりも大きいサイズを有するものにそれぞれ含まれる前記断片配列を数える、
前記ビン同士の間隔を分解能として、前記ゲノム配列上のコピー数比の分布を測る、
前記ビンの前記ゲノム配列上の位置に対する、前記コピー数比の変化の傾きを隣り合う前記ビンの組、以下、これをビン-ペアという、ごとに取得する、
前記ビン-ペアを前記傾きの絶対値の大きい組と前記傾きの絶対値の小さい組とに分け、前記傾きの絶対値の大きい組は前記コピー数比の増減区間を含むと判定し、
前記コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データ、以下、これを候補データという、を生成する方法。
<2> 前記増減区間を含む前記ビン-ペアを特定するために、
下記式に従い前記ビン-ペアごとにzを求め、
z>2又はz<-2であれば前記傾きの絶対値が大きいと判定する、
Figure 2022136465000002
xは傾きであり、xは絶対値ではなく正負を含み、μは前記ビン-ペアからなる母集団のxの平均であり、σは前記母集団のxの標準偏差である、
<1>に記載の方法。
<3> 前記母集団を構成している前記ビン-ペアは、一つの染色体上の全体又は一かたまりの部分の中で切れ目なく連続している、
<2>に記載の方法。
<4> 前記傾きの絶対値の大きい組に対する判定とともに、前記傾きの絶対値の小さい組はコピー数比の増減区間を含まないか又は不明と判定する、
<1>~<3>のいずれかに記載の方法。
<5> 前記ビン-ペアは染色体上で切れ目なく連続しているが、
前記ビン同士が互いに接している前記ビン-ペアと、前記ビン同士が互いに接してはおらず間隔を置いて分布するビン-ペアとが混在している、
<1>~<4>のいずれかに記載の方法。
<6> 前記ゲノム配列は前記細胞サンプルから新規に取得されたものではなく、前記細胞サンプル以外の細胞から事前に取得された全ゲノム配列又はその部分のデータである、
<1>~<5>のいずれかに記載の方法。
<7> 前記細胞サンプルは一つの胚を生検して得た細胞集団であり、
前記細胞サンプルを溶解することで、若しくは前記細胞サンプルが自発的に放出することで得られた染色体DNAを混合した状態で全ゲノム増幅し、
増幅産物からDNAシーケンサーにて前記検体データを取得する、
又は
前記細胞サンプルは一つの胚を生検して得た一つの細胞であり、
前記細胞サンプルを溶解することで、若しくは前記細胞サンプルが自発的に放出することで得られた染色体DNAを全ゲノム増幅し、
増幅産物からDNAシーケンサーにて前記検体データを取得する、
<1>~<6>のいずれかに記載の方法。
<8> 前記DNAシーケンサーから前記コンピューターに前記断片配列の前記検体データを送る、
<7>に記載の方法。
<9> 前記DNAシーケンサーが、サーバーに前記検体データを送り、
前記サーバーが前記検体データを記録し、さらに前記コンピューターの求めに応じて前記コンピューターに前記検体データを送る、
<7>に記載の方法。
<10> <1>~<9>のいずれかに記載の方法で前記候補データを生成し、さらに、コンピューターにて、
前記検体データの生データを補正することで補正後のコピー数比を取得し、
前記区切り点の候補で前記ゲノム配列を切り分けてセグメントを生成し、ここで前記セグメントには一つの前記ビン、又は連続する複数の前記ビンが含まれる、
さらにコピー数比に関する所定の閾値で各セグメントを分類した情報、以下、これをモザイクレベルという、を取得し、
前記セグメントの特定と、前記モザイクレベルとを含む電子データ、以下、これを判定データという、を生成する方法。
<11> セグメントを生成した後、
所定個数未満の前記ビンを含むセグメントをその前後に隣接するいずれかのセグメントに統合することで、前記所定個数以上の前記ビンを含むセグメントだけで前記ゲノム配列を切り分ける修正、及び
所定塩基長に満たないセグメントをその前後に隣接するいずれかのセグメントに統合することで、前記所定塩基長以上のセグメントだけで前記ゲノム配列を切り分ける修正、
の少なくともいずれかを行ってから前記補正を行う、
<10>に記載の方法。
<12> 前記細胞サンプルは複数の胚からそれぞれ得られたものであり、
<10>又は<11>に記載の方法で前記判定データを生成し、さらにコンピューターにて、
前記複数の胚を前記セグメントの前記モザイクレベルに応じてスコアリングし、
前記スコアリングを含む電子データを生成する方法。
<13> 前記スコアリングにおいて、コピー数比が正倍数体よりも高いセグメントを有しない胚を、有する胚、以下、これをゲイン(Gain)と区別する、
<12>に記載の方法。
<14> 前記スコアリングにおいて、前記ゲインの中で、染色体一本分のコピー数比の乖離度を100%としたとき、乖離度が0%超、100%未満の所定の値以上であるセグメント、以下、これをハイレベル(High Level)のセグメントという、であってコピー数比が正倍数体よりも高いセグメント、を有しない胚と、これを有する胚とを区別する、
<13>に記載の方法。
<15> 前記スコアリングにおいて、前記ゲインの中の、前記ハイレベルのセグメントを有する胚の中で、前記ハイレベルのセグメントの総塩基長が10~50%の範囲から選ばれる所定割合以上の染色体が少ない胚と、これが多い胚とを区別し、ただし、前記ハイレベルのセグメントはコピー数比が正倍数体よりも高い側及び低い側のいずれも含む、
さらに、前記ハイレベルのセグメントの総塩基長が10~50%の範囲から選ばれる所定割合以上の染色体が多い胚の中で、コピー数比が正倍数体よりも高い側のハイレベルのセグメントの総塩基長が所定割合以上の染色体が少ない胚と、これが多い胚とを区別する、
<14>に記載の方法。
<16> 前記スコアリングにおいて、コピー数比が正倍数体よりも高いセグメントを有しない胚であって、コピー数比が正倍数体よりも低いセグメントを有する胚をロス(Loss)とし、
前記ゲイン及びロスの中で、前記セグメント間における、コピー数比の正倍数体の水準からの乖離度の最大値が小さい胚と、大きい胚とを区別する、ただし、前記正倍数体の水準からの乖離度はコピー数比が正倍数体よりも高い側及び低い側のいずれも含む、
<13>~<15>のいずれかに記載の方法。
<17> 前記細胞サンプルは複数の胚からそれぞれ得られたものであり、
<10>又は<11>に記載の方法で前記判定データを生成し、
コンピューターにて、前記複数の胚を前記セグメントの前記モザイクレベルに応じてスコアリングし、
前記スコアリングを参考に施術者が前記複数の胚を順に子宮へ移植する方法。
<18> ゲノム配列上のコピー数のバリアントの区切り点の候補を検出するプログラムであって、
細胞サンプルより得た染色体DNAの断片配列の電子データに対する、以下を含む処理をコンピューターに実行させるプログラム:
上記ビンにそれぞれ含まれる前記断片配列を数えること、
前記ビン同士の間隔を分解能として、前記ゲノム配列上のコピー数比の分布を測ること、
前記ビンの前記ゲノム配列上の位置に対する、前記コピー数比の変化の傾きを隣り合う前記ビンの組、以下、これをビン-ペアという、ごとに取得すること、
前記ビン-ペアを前記傾きの絶対値の大きい組と前記傾きの絶対値の小さい組とに分け、前記傾きの絶対値の大きい組は前記コピー数比の増減区間を含むと判定すること、及び
前記コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データ、を生成すること。
本発明はゲノム配列上のコピー数のバリアントの区切り点、すなわちブレークポイントの候補を機械的に検出する手段を提供する。これら区切り点の候補は、被験対象の細胞のゲノム配列上のコピー数の分布の情報からコピー数のバリアントの有無を判断するのに役立つものである。本発明はさらに胚同士の比較のため、コピー数のバリアントに対してスコアリングを行う手段を提供する。
ゲノム配列と断片配列の模式図。 CNV(Copy Number Variation)チャート。 コピー数比の線形の補間。 線形の傾きの抽出。 傾きの度数分布モデル。 拡大したCNVチャート。 セグメント化。 セグメントごとのコール。 モザイクとCNVチャート。 セグメントの統合。 モザイクの階級。 モザイク例1のCNVチャート。 モザイク例2のCNVチャート。 モザイク例3のCNVチャート。 ハイレベルとローレベルの説明。 スコアリング結果。 モザイク例4のCNVチャート。 モザイク例5のCNVチャート。 モザイク例6のCNVチャート。
本実施形態ではゲノム配列上のコピー数のバリアントの区切り点の候補を機械的に検出する。また区切り点の候補で挟まれたセグメントのモザイクレベルを判定する。またモザイクレベルに基づき細胞集団をスコアリングする。以下の実施例を参照しつつ順に説明する。各処理はコンピューターにて機械的に行うが、別個のコンピューターにて各処理を分担してもよく、一個のコンピューターにて各処理を集中的に実行してもよい。
<1.区切り点の候補の検出>
図1は細胞と断片配列とゲノム配列とを模式的に表している。まず細胞サンプル(Cells)より染色体DNAを得てDNAシーケンシングを行う。一態様において細胞サンプルを溶解することで染色体DNAを得る。他の態様において染色体DNAはまだ溶解されていない細胞から培養液及びその他の緩衝液に対して滲出してきた染色体DNAである。一態様において滲出は細胞サンプルが自発的に染色体DNAを放出することで行われる。一態様において自発的な放出の過程はアポトーシスである。
図1において染色体DNAをDNAシーケンサーで解析する。細胞サンプルはコピー数のバリアントの有無を調べたい組織から得た細胞である。一態様において細胞サンプルはホモジーニアスな複数の細胞からなる。この場合、細胞サンプルに含まれる細胞間にはコピー数に関するモザイクが存在する可能性がある。一態様において、細胞サンプルは一つの胚を生検して得た一つの細胞である。一態様において胚は体外受精胚である。一態様において胚は胚盤胞である。一態様において、細胞サンプルは一つの胚を生検して得た複数の細胞からなる集団である。一態様において、複数の胚を用意するとともに、それぞれの胚から細胞サンプルを得る。細胞サンプルをCNV分析することで、複数の胚同士の比較を行う。
図1において、DNAシーケンシングはサンガー法又はNGS(Next generation sequencing)で行う。これにより染色体DNAの断片配列の電子データを細胞サンプルより得る。係る電子データを以下、これを検体データという場合がある。一態様において、DNAシーケンシングの前に、細胞の集団から得られた染色体DNAを全ゲノム増幅する。一態様において全ゲノム増幅は細胞の集団から得られた染色体DNAを混合した状態で行う。増幅産物からDNAシーケンサーにて検体データを取得する。
一態様においてDNAシーケンサーがコンピューターに検体データを送る。コンピューターが検体データを自動的に処理する。他の態様においてDNAシーケンサーが、サーバーに検体データを送る。サーバーが検体データを記録する。コンピューターの求めに応じてサーバーがコンピューターに検体データを送る。コンピューターが検体データを自動的に処理する。
図1は、ゲノム配列(Genome)と断片配列(Fragment)との関係を模式的に表す。ゲノム配列は全ゲノム配列又はその部分である。一態様においてゲノム配列は細胞サンプル以外の細胞から取得されたものである。すなわちゲノム配列は、細胞サンプルから新規に取得されたものではなく、細胞サンプル以外の細胞から事前に取得された全ゲノム配列又はその部分のデータである。ゲノム配列は公共のゲノムデータベースから取得してもよい。図が表すように検体データ中の断片配列がゲノム配列を隙間なく埋め尽くす必要はない。
図1に示すようにゲノム配列上に連続的にビン(Bin)を設定する。用語「ビン」は断片配列と相同する配列を有する領域を、あたかも断片配列を取り込む「容器」に見立てて、これを概念的に表現している。一態様においてビンはCNV解析のためにゲノム配列をいくつかに分割した領域を表す。一態様においてビンはChromosomal Windowのことを表す。一態様においてビンをウィンドウスケールと関連付ける。一態様において全てのビンをCNV解析に用いる。他の態様においていくつかのビンを選択してCNV解析に用いる。一態様においてビンは断片配列のサイズよりも大きいサイズを有する。設定されたビンに含まれる断片配列を数える。図中では左のビンから順に3個、2個及び2個の断片配列が存在する。断片配列の数はさらに多くてもよい。図は模式的なものである。各ビンの塩基長は同一でもよく、異なっていてもよい。隣り合う各ビンは染色体上で隙間なく並んでいてもよく、離れていてもよい。
図1に示す一態様においてビンの塩基長やゲノム配列上の位置を考慮してデータの補正を行う。特に言及しない限り「ゲノム配列上の位置」は塩基対を単位として特定される。一態様においてビンのゲノム配列上の位置は、当該ビンの5′末端、3′末端及び中央のいずれかの位置である。
図2はヒト胚のCNVチャートを示す。性別は女性(XX)である。CNVチャートの縦軸はコピー数比を示す。データの補正により正倍数体に対応するビンにおけるコピー数比を2としている。一態様において、データは生データである。一態様において、生データは、化学的な手法及び光学的な手法に基づき測定した断片配列数、いわゆるraw countと呼ばれる値である。一方、補正後のコピー数比をBin_Copyと呼ぶ場合がある。一態様においてこの補正は、別個の実験で胚又は胚以外の細胞から予め取得した配列のコピー数のデータを参照して行う。一態様において、この補正をイルミナ社から提供されるBlueFuse Multi Software(商標)又はその他のソフトウェアを用いて行う。なお男性の胚を取り扱う場合は、性染色体の一倍体を正倍数体とし、これをコピー数比1とする。また常染色体の2倍体をコピー数比2とする。
図2に示すCNVチャートの横軸はゲノム配列上の位置である。2,500個のビンの順を表す。先に述べたビン中の断片配列の数から、ゲノム配列上のコピー数比の分布を測る。一態様において隣り合うビン同士の間隔がCNVチャートの分解能となる。CNVチャートを得るための実験手法としてIllumina社の提供するVeri Seq PGS(商標)が挙げられる。コピー数比の線形は不連続である。
図3は、コピー数比の線形を補間した様子を示す。隣り合うビンの組ごとに補間を行う。以下、この組のことを本実施形態ではビン-ペアという。補間によって生じた線分は、ゲノム配列上の位置に対する、コピー数比の変化の傾きを表している。ゲノム配列上の位置は塩基対を単位とする。
図4は線形の傾きをビン-ペアのゲノム配列上の位置ごとに表したものである。一態様においてビン-ペアは染色体上で切れ目なく連続しているが、ビン-ペアに含まれるビン自体は互いに接してはおらず、間隔を置いて分布する。他の態様においてビン-ペアに含まれるビン同士が互いに接している。一態様においてビン同士が互いに接している前記ビン-ペアと、ビン同士が互いに接しておらず間隔を置いて分布するビン-ペアとが混在している、
図4においては、ビン-ペアからなる母集団に対して、傾きの平均を0とし、標準偏差を1とする正規化、いわゆる標準化を施している。ここでいう正規化においては、ビン-ペアからなる母集団が正規分布に従っているものとして、これを取り扱う。したがって正規化後のビン-ペアは標準正規分布を有する。また一態様において、母集団を構成しているビン-ペアは、一つの染色体上の全体又は一かたまりの部分の中で切れ目なく連続している。
図4において、さらに母集団中のビン-ペアを傾きの絶対値の大きい組と傾きの絶対値の小さい組とに分ける。一態様において傾きの値の度数分布に基づき、傾きの絶対値の大小を判定する。一態様において、傾きの絶対値の大きい組はコピー数比の増減区間を含むと判定する。また傾きの絶対値の小さい組はコピー数比の増減区間を含まないか又は増減区間を含むか否かは不明と判定する。
なお増減区間においては、5’から見てコピー数比が増加していれば、3’から見てコピー数比が減少している。5’から見てコピー数比が減少していれば、3’から見てコピー数比が増加している。またDNAはそもそも相補鎖同士で5’から3’の方向が逆方向になっている二重らせん分子である。したがってどちらが5’でどちらが3’であるかもまた便宜的なものである。
このようにコピー数比の増減は便宜的な定義である。増減区間に挟まれた区間、後に述べるセグメント、におけるコピー数比は別個に測定し、また評価する。したがって本実施形態の一態様ではコピー数比の増減区間を単にコピー数のバリアントの区切り点の候補として取り扱う。
コピー数比の増加区間が隣り合うことは起こり得る。すなわちコピー数比が増加した後さらに増加することは起こり得る。コピー数比の減少区間が隣り合うことは起こり得る。すなわちコピー数比が減少した後さらに減少することは起こり得る。
一態様において、標準化に際して、所定の閾値を設定して傾きの外れ値を検出する。一態様において外れ値はコピー数バリアントの区切り点の候補となる。外れ値は、当該外れ値を有するビン-ペアが、コピー数比の増減区間を有することを表す。以下、これを外れ値法という。区切り点の候補を得るための他の方法と比較する。
外れ値法と比較される態様において、区切り点の候補を得るために、ビン-ペアからなる母集団に対して非階層的クラスタリング、階層的クラスタリング、及び線形補間されたコピー数比の平滑化のいずれかを行う。これらの処理で提供される区切り点の候補は、人間が解釈しにくい区切り点の候補を提供することがある。
これらに比べて外れ値法は、より人間が解釈しやすい区切り点の候補を提供する。したがって外れ値法の実行後に、人手により、ゲノム配列上に区切り点の候補を追加・削除すること、いわゆるポストエディットが容易である。
また外れ値法は上記の非階層的クラスタリングを始めとする処理に比べて、より単純な計算によって実行できる。他の態様において、非階層的クラスタリング、階層的クラスタリング、及び線形補間されたコピー数比の平滑化のいずれかが、外れ値法によって得られる利益を損なわない範囲で外れ値法と併用される。
図5は傾きの度数分布のモデルを示す。正規分布で表されている。一態様において±2SDの範囲を外れた傾き、すなわち外れ値を有するビン-ペアが増減区間を有すると判定する。下記式に従いビン-ペアごとにzを求めた上で、z>2又はz<-2であればそのビン-ペアの傾きの絶対値が大きいと判定する。ここでzの閾値の絶対値を2としているが、この値は例示に過ぎない。他の態様においてzの閾値の絶対値は0より大きく、2より小さい。その一態様においてzの閾値の絶対値は0.5,1及び1.5のいずれかである。他の態様においてzの閾値の絶対値は2より大きい。その一態様においてzの閾値の絶対値は4以下である。その一態様においてzの閾値の絶対値は2.5,3及び3.5のいずれかである。外れ値となるzを有するビン-ペアは増減区間を有する。先に述べたように増減区間は、コピー数のバリアントの区切り点の候補である。
Figure 2022136465000003
xは傾きである。xは絶対値ではなく正負を含む。μはビン-ペアからなる母集団のxの平均である。σは、その母集団のxの標準偏差である。
図6は拡大したCNVチャートを示す。縦軸がコピー数比(Bin_Copy)を表す。正倍数体に対応するビンのコピー数比を2とする補正を行っている。概ねコピー数比が2.0から2.7の範囲で各ビンのコピー数比が分布している。いわゆるトリソミーとダイソミーのモザイクになっていることが予想される。なお厳密な検討においては、細胞サンプル中の各細胞の有するテトラソミーやモノソミーやその他の異数性の存在も考慮しなければならない。
図6に示す異数性のモザイクは、一態様において細胞サンプルがコピー数に関するモザイクを有する細胞集団であることに起因する。他の態様において細胞サンプルがシングルセルであればモザイクは生じず、正規化したコピー数比は整数となる。
図7は、増減区間を図6に示すコピー数比の分布に重ね合わせた結果である。増減区間がゲノム配列を切り分けてセグメントを生成する。増減区間はコピー数のバリアントの区切り点の候補である。増減区間で挟まれたセグメントがコピー数にバリアントが生じている区間を表しているか、他の変動に起因するかどうかはさらに後の工程で判定する。まずは、コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データを生成する。係るデータを候補データという場合がある。
図8は候補データを用いてセグメントをコールしたところを示す。楕円が、各セグメント内に含まれるビンを示すドットを囲んでいる。各セグメントには少なくとも一つのビンが含まれる。一態様において一つのセグメントには複数のビンが含まれ、またこれらのビンがセグメント内で連続する。一態様においてセグメント間にはセグメントで分類されないビンが余ることはない。
一態様においてセグメントのコピー数比を定義する。一態様においてセグメントのコピー数比はセグメント内のビンのコピー数比の平均を表す。本実施形態ではセグメントのコピー数比が2より大きい側をゲインと称する。またセグメントのコピー数比が2より小さい側をロスと称する。なお図8中のいずれのセグメントもゲインであるか、概ね正倍数体であるかのいずれかである。
図8において、正倍数体のコピー数比を2としたときに、コピー数比が2.5以上で、2.8未満のビンが中心となるセグメントを、ハイレベル(High Level)のコピー数のバリアントを有するセグメントとしてコールする。正倍数体のコピー数比からの離れ具合を乖離度という。ハイレベルのコールを行うための乖離度の下限の閾値の一例は+0.5である。図8においていくつかのセグメントはコピー数比が2.6付近である。これらのセグメントはトリソミーに近いと予想される。他の態様においてハイレベルのコールを行うための乖離度の下限の閾値は0より大きく0.5より小さい。その一態様において乖離度の下限の閾値は0.1,0.2,0.3及び0.4のいずれかである。他の態様においてハイレベルのコールを行うための乖離度の下限の閾値は0.5より大きく1より小さい。その一態様において乖離度の下限の閾値を0.6,0.7,0.8及び0.9のいずれかである。
図8において、正倍数体のコピー数比を2としたときに、コピー数比が2.2以上で、2.5未満のセグメントを、ローレベル(Low Level)のコピー数バリアントとしてコールする。ローレベルのコールを行うための乖離度の上限の閾値の一例は+0.5である。図8においていくつかのセグメントのコピー数比が2.4以下である。これらのセグメントはダイソミーに近いと予想される。他の態様においてローレベルのコールを行うための乖離度の上限の閾値は0より大きく0.5より小さい。その一態様において乖離度の上限の閾値は0.1,0.2,0.3及び0.4のいずれかである。他の態様においてローレベルのコールを行うための乖離度の上限の閾値は0.5より大きく1より小さい。その一態様において乖離度の上限の閾値は0.6,0.7,0.8及び0.9のいずれかである。一態様においてローレベルのコールを行うための乖離度の上限の閾値は、ハイレベルのコールを行うための乖離度の下限の閾値と一致する。
以下、正倍数体相当からの乖離度を、ハイレベル(High Level)及びローレベル(Low Level)で分類された結果をモザイクレベルという場合がある。なお図8ではゲイン側のコールの例を示した。他の態様において、ロス側のコールにおいても乖離度の閾値を設定する。この時、乖離度の閾値は負の値をとる。
図8に示すように、隣り合うセグメントであってコピー数比がだいたい同じか、まったく同じものもある。これらのセグメント間の増減区間はコピー数バリアントの区切り点そのものかどうかは分からない。隣り合うセグメント同士のコピー数比は同一でもよく、さらにこれらがコピー数のバリアントを有していてもよい。増減区間はコピー数のバリアントの区切り点の候補に過ぎない。一態様において、これらの増減区間をコピー数のバリアントの区切り点と、そうではないものとに区別することは有用である。他の態様においてこのように区別することは必須ではない。
<2.セグメントの統合>
図8では、増減区間から特定した、たくさんのセグメントをそのままコールする。このようなコールは、後に説明するモザイクレベルの判定を煩雑にする。そこでモザイクレベルの判定に先駆けてセグメントを統合する。
図9はCNVチャートと細胞サンプル(Cells)中のある染色体(Chromosome)に関するモザイクとを並べたものである。一態様において、この図に示すように、染色体上でモザイクレベルの分布を把握しやすい所望の状態が得られるまで、セグメントの数を減らし、セグメントを拡大する修正作業を行う。本図については後のセクションで改めて説明する。
図10は、セグメントの統合の態様を示す。上述の通りセグメントを生成した後、小さなセグメント(Small Segment)をその前後に隣接するいずれかのセグメントに統合する。一態様において小さなセグメントは所定個数未満のビンを含むセグメントである。一態様において小さなセグメントはビンを1個又は2個しか含まない。図中では右から3番目のセグメントが2個のビンしか含んでいない。そこで右から4番目のセグメントにこれを統合する。このようにセグメントを統合することで、最終的に、所定個数以上のビンを含むセグメント、すなわち大きなセグメント(Big Segment)だけでゲノム配列を切り分ける状態を得る。
他の態様において小さなセグメントは所定の塩基長に満たないセグメントである。一態様において所定の塩基長は10Mbp以下である。一態様において所定の塩基長は1,2,3,4,5,6,7,8及び9Mbpのいずれかである。このような小さなセグメントをその前後に隣接するセグメントに統合することで、所定塩基長以上のセグメントだけでゲノム配列を切り分ける。
一態様において、小さなセグメントをその前後のいずれのセグメントに統合するかは、予め定めた基準に基づいて決定する。一態様において、その前後のいずれのセグメントとの間の距離、塩基長が短い方のセグメントと、小さなセグメントとを統合する。他の態様において、正倍数体からの乖離が大きい方のセグメントと、小さなセグメントとを統合する。
一態様において小さなセグメントがセントロメアよりもテロメアに近い時、小さなセグメントをテロメアから遠いセグメントと統合する。他の態様において小さなセグメントがテロメアよりもセントロメアに近い時、小さなセグメントをセントロメアから遠いセグメントと統合する。
一態様においてセグメントの統合を行った後にモザイクレベルを判定する。他の態様においてセグメントの統合をせずにモザイクレベルを判定する。
<3.モザイクレベルの判定>
本実施例では細胞サンプルのモザイクレベルを判定する。初めにモザイクレベルを説明する。
図9において、細胞サンプルに含まれる細胞は同一の細胞、すなわち受精卵を起源としている点でホモジーニアスである。またその数が特定されている。したがって、コピー数比からモザイクの状態が判定できる。本実施形態において係るモザイクの状態の情報をモザイクレベルという。
図9において細胞サンプルは5個の細胞からなる。2本のセグメントが1.25×108 bp付近の区切り点を境にして染色体上の前半と後半とで分かれている。前半のセグメントはコピー数比が2.0である。後半のセグメントはコピー数比が2.4である。
図9において、細胞サンプル中の細胞はいずれも、この染色体に関してダイソミーかトリソミーであると仮定する。この場合、これらの細胞中のモザイクは図の下段のように表される。すなわちゲノム配列上の前半のセグメントはいずれの細胞においてもダイソミーである。またゲノム配列上の後半のセグメントは5個中2個の細胞にてトリソミーであり、3個の細胞にてダイソミーである。
図9にしめすように、モザイクレベルは細胞の集団における細胞間の遺伝学的モザイクに由来する。モザイクレベルは、集団中にコピー数のバリアントが生じている細胞と生じていない細胞とが含まれていることにより生じる。あるいはコピー数のバリアントのパターンが異なる細胞同士が含まれていることにより生じる。モザイクレベルは特定の細胞サンプルから得られる。一態様において、その細胞サンプルは一つの胚中の複数の細胞を生検して得た複数の細胞からなる集団である。
モザイクレベルは統合されたセグメントのコピー数比から得る。ただし統合されたセグメントと統合前のセグメントとの間でそれらのコピー数比は異なることがある。したがって統合された後にコピー数比を改めて取得する。一態様において、統合されたセグメントに含まれる各ビンのコピー数比の平均値を、統合されたセグメントのコピー数比とする。
統合されたセグメントを、それらの補正されたコピー数比と所定の閾値との対比に基づき分類する。閾値はモザイクレベルの高低によって複数設定される。一例において閾値は以下のとおりである。
Tetrasomy......3.8以上
Trisomy......2.8以上、3.8未満
High Level Mosaic Gain......2.5以上、2.8未満
Low Level Mosaic Gain......2.2以上、2.5未満
Euploid or Disomy......1.8超、2.2未満
Low Level Mosaic Loss......1.5超、1.8以下
High Level Mosaic Loss......1.2超、1.5以下
Monosomy......0.2超、1.2以下
Nullisomy......0.2以下
他の例において閾値は以下の通りである。
Tetrasomy......3.7以上
Trisomy......2.7以上、3.7未満
High Level Mosaic Gain......2.4以上、2.7未満
Low Level Mosaic Gain......2.3以上、2.4未満
Euploid or Disomy......1.7超、2.3未満
Low Level Mosaic Loss......1.6超、1.7以下
High Level Mosaic Loss......1.3超、1.6以下
Monosomy......0.3超、1.3以下
Nullisomy......0.3以下
上記は細胞集団におけるモザイクレベルを表している。TetrasomyやTrisomyやその他の用語は、集団中の個々の細胞の異数性を特定するものではない。これらの表現は細胞集団の異数性の水準を表すに過ぎない。
コンピューターはセグメントの特定と、そのセグメントのモザイクレベルとを含む電子データを生成する。以下、これを判定データという。一態様において、モザイクレベルを判定後に、隣り合うセグメント同士であってモザイクレベルの等しいセグメントを互いに統合して一つのセグメントとする修正を行う。かかる修正を判定データに付け加える。
<4.判定データの利用>
診断医は、細胞サンプルごとに得られた判定データを用いて、複数の胚をセグメントのモザイクレベルに応じて順位付けする。順位付けは例えば診断医が直接行う。施術者は順位付けされた複数の胚を、当該順位を参考に順に子宮へ移植する。一態様においてコンピューターは判定データそれ自体を診断医に提供する。他の態様において診断医が順位付けをしやすくなるように、コンピューターが判定データを元に各細胞サンプルを、すなわち各胚をスコアリングする。一態様においてコンピューターはスコアリング結果を診断医に提供する。一態様においてコンピューターはスコアリング結果を判定データに付加して診断医に提供する。以下において、まずスコアリングのための判定データに対する処理を説明する。
モザイクレベルが正倍数体相当であるセグメント又は最も正倍数体相当に近いセグメントをベースラインのセグメントとする。コピー数比が正倍数体よりも高い側のセグメントと、コピー数比が正倍数体よりも低い側のセグメントとが混在する場合は、正倍数体相当のセグメントをベースラインのセグメントとする。ベースラインのセグメントは染色体全体レベルの判定に用いる。ベースライン以外のセグメントはセグメントレベルの判定に用いる。以上により染色体としての判定結果を得る。
図9においては、一種類の染色体中に、モザイクレベルが2.0のセグメントと、2.4のセグメントが存在する。ここではモザイクレベルが正倍数体相当であるセグメントをベースラインのセグメントとするルールに従う。染色体全体レベルの判定ではベースラインである2.0のセグメントの判定を用いる。染色体全体レベルの判定の結果、この染色体はEuploid又はDisomyであると判定される。
図9において、ベースラインではないセグメントは2.4のセグメントとなる。染色体のセグメントレベルの判定の結果、この染色体は“Low Level Mosaic Gain”であると判定される。
染色体としての判定結果は、染色体全体レベルの判定とセグメントレベルの判定とをいずれも考慮して得る。図9において、この染色体の染色体全体レベルは、Euploid又はDisomyである。この染色体のセグメントレベルの判定は“Low Level Mosaic Gain”である。この染色体は、ベースラインから外れているセグメントを有する。したがって判定結果にSegmentalという語を追記する。この染色体に対する、染色体としての判定結果は、Euploid又はDisomyの染色体が“Low Level Segmental Mosaic Gain”のコピー数バリアントを有している、である。
<5.スコアリング>
区切り点の候補の検出からモザイクレベルの判定までの処理は、細胞サンプルごとに行うことができる。一態様において複数の細胞サンプルに対してこれらの処理を行う。一態様において細胞サンプルは複数の胚からそれぞれ得られたものである。
これらの細胞サンプルに対して判定データをもとにスコアリングを行う。セグメントは細胞サンプルごとに異なる場合がある。そこで細胞サンプル間の比較を、染色体ごとに行う。すなわち全ゲノムレベルまで拡大してモザイクの状態を判定する。
図11は、モザイクの階級を示す。左側は全ての染色体に渡るモザイクの階級を表す。以下、これを全染色体モザイクスコアという。右側はセグメントのコピー数比の正倍数体相当からの乖離度を百分率で表したときの、最高値を示すセグメントの乖離度に応じた階級を示す。以下、これをモザイク率スコアという。全染色体モザイクスコアとモザイク率スコアとに従いスコアリングを行う。一態様において、診断医は、これらのスコアが小さいほど優先度が高いものと判断する。他の態様において、診断医は、これらのスコアが小さくとも優先度が高いものとは判断しない。また一態様において、診断医は、全染色体モザイクスコアはモザイク率スコアに優先するものと判断する。他の態様において、診断医は、全染色体モザイクスコアはモザイク率スコアに優先するものとは判断しない。
図12は、モザイク例1のCNVチャートを示す。図13は、モザイク例2のCNVチャートを示す。図14は、モザイク例3のCNVチャートを示す。図15は、モザイクレベルのハイレベル及びローレベルの違いを示す。図16は、スコアリング結果を示す。モザイク例1~モザイク例3は男性(XY)のゲノム配列上のコピー数比の分布を表す。
コピー数比が正倍数体よりも高いセグメントを有する胚をゲイン(Gain)という。図11に示すようにゲインには5~9の全染色体モザイクスコアが付与される。コピー数比が正倍数体の水準よりも低いセグメントを有していても、高いセグメントを有していればゲインに分類する。
コピー数比が正倍数体の水準よりも高いセグメントを有しない胚のうち、低いセグメントを有する胚をロス(Loss)という。図11に示すようにロスには1~4の全染色体モザイクスコアが付与される。
全染色体の全ゲノム配列に渡って倍数性が正倍数体の水準にある細胞サンプルを特に正倍数体(Euploid)と称する。図11に示すようにその全染色体モザイクスコアは0である。一種類以上の染色体で異数性を有する細胞サンプルを特に異数体(Aneuploid)と称する。図11に示すようにその全染色体モザイクスコアは10である。
図12に示すモザイク例1において1番及び5番染色体でコピー数比が上昇している。図13に示すモザイク例2及び図14に示すモザイク例3において、1番、5番及び16番染色体でコピー数比が上昇している。これらのモザイク例はいずれもゲインである。
図15に示すように、本実施例では以下のモザイクレベルの閾値を利用している。すなわち染色体一本分のコピー数比の乖離度を100%としたとき、コピー数比の乖離度が50%以上であるセグメントのモザイクレベルをハイレベルとする。乖離度が50%未満であるセグメントをローレベル(ローレベル)とする。ここでは閾値を50%としたが、閾値は0%超、100%未満の範囲で適宜設定できる。閾値は10,20,30,40,60,70,80及び90%のいずれかでもよい。
図11に戻る。スコアリングにおいて、モザイクレベルがハイレベルのセグメントを有しない胚を、これを有する胚と区別する。モザイクレベルがハイレベルのセグメントを有しない胚は、これを有する胚よりも正常胚である可能性が高い。“Low-level Chromosomal Loss”の細胞サンプルはハイレベルのセグメントを有しない。“High-level Segmental Loss”、“High-level Chromosomal Loss”及び“Low-risk Complex”の細胞サンプルは、ハイレベルのセグメントを有する。“Low-level Chromosomal Loss”はこれらよりも小さい全染色体モザイクスコアを有する。
図11に示すように、スコアリングにおいて、“Low-level Chromosomal Gain”の細胞サンプルはハイレベルのセグメントを有しない。“High-level Segmental Gain”、“High-level Chromosomal Gain”、“Middle-risk Complex”及び“High-risk Complex”の細胞サンプルは、ハイレベルのセグメントを有する。“Low-level Chromosomal Gain”はこれらよりも小さい全染色体モザイクスコアを有する。
図12に示すモザイク例1においてハイレベルのゲインのセグメントは見られない。したがって、全染色体モザイクスコアは5である。図13に示すモザイク例2及び図14に示すモザイク例3において、ハイレベルのゲインのセグメントが見られる。したがって、これらの全染色体モザイクスコアは6以上である。
さらに本実施例では、ロスの細胞サンプルの一種類の染色体中でハイレベルのセグメントが染色体全体に渡っている場合“High-level Chromosomal Loss”とする。ロスの細胞サンプルの一種類の染色体中でハイレベルのゲインのセグメントが染色体全体に渡っている場合“High-level Chromosomal Gain”とする。
図13に示すモザイク例2では、16番染色体の一部にハイレベルのゲインのセグメントが見られる。したがって全染色体モザイクスコアは6である。図14に示すモザイク例3では1番染色体の全体にハイレベルのゲインのセグメントが見られる。したがって全染色体モザイクスコアは7である。
本実施例では、モザイク率スコアが小さい胚を、大きい胚と区別する。モザイク率スコアは、セグメント間における、正倍数体のコピー数比からの乖離度の最大値に応じて付与される。コピー数比の乖離度の最大値は、コピー数比が正倍数体よりも高い側とコピー数比が正倍数体よりも低い側との両方を合わせた母集団から得る。
例えば図12に示すモザイク例1では各染色体についてコピー数比が正倍数体よりも高い側の乖離度の最大値は50%に満たない。しかしながらコピー数比が正倍数体よりも低い側の乖離度の最大値は4番染色体で60%を超える。したがってコピー数比が正倍数体よりも低い側を考慮し0.6とする。
図16はスコアリングの結果を示す。図12に示すモザイク例1の総スコアは5.6なので1位である。図13に示すモザイク例2の総スコアは6.6なので2位である。図14に示すモザイク例3の総スコアは7.6なので3位である。
図11に示すロスの階級において、“Low-risk Complex”では3種類以上の染色体でハイレベルのセグメントが見られる。ただし、この『3種類以上の染色体』は、一つの染色体に占めるハイレベルのセグメントの総塩基長が所定割合以上である。所定割合は0%より大きく、100%より小さい任意の値である。その一態様において所定割合は10,20,30,40,50,60,70,80及び90のいずれかである。その一態様において所定割合は10~50%の範囲から選ばれる。スコアリングにおいては、ロスの内、このようなモザイクを有する染色体が少ない胚を、多い胚と区別する。ここで閾値を3本としたが、2本でもよい。
図17は、モザイク例4のCNVチャートを示す。モザイク例4では3番、6番及び9番染色体にコピー数比が正倍数体よりも低い側のハイレベルのセグメントが見られる。コピー数比が正倍数体よりも高い側のハイレベルのセグメントは見られない。これらのセグメントの総塩基長はそれぞれの染色体において40%以上を占める。ここでは一例として所定割合を40%としたが、この数値の選択は本発明を限定するものではない。モザイク例4はLow-risk Complex”に分類される。その全染色体モザイクスコアは4である。このようなモザイクを有する染色体が2種類以下であれば全染色体モザイクスコアは1~3である。モザイク例4並びに、以下に述べるモザイク例5及びモザイク例6は男性(XY)のゲノム配列上のコピー数比の分布を表す。
図11に示すゲインの階級において、“Middle-risk Complex”及び“High-risk Complex”では3種類以上の染色体でハイレベルのセグメントが見られる。ただし、この『3種類以上の染色体』は、一つの染色体に占めるハイレベルのセグメントの総塩基長が所定割合以上である。Complexであるか否かの判定では、コピー数比が正倍数体よりも高い側のハイレベルのセグメントも、コピー数比が正倍数体よりも低い側のハイレベルのセグメントも等しくカウントされる。これらのComplexに該当しない胚を、Complexの胚と区別する。
さらにこれらのComplexの胚の中のスコアリングにおいては、一つの染色体に占めるコピー数比が正倍数体よりも高い側のハイレベルのセグメントの総塩基長が所定割合以上である染色体が少ない胚を、多い胚と区別する。スコアリングでは、コピー数比が正倍数体よりも高い側のハイレベルのセグメントをカウントするが、コピー数比が正倍数体よりも低い側のハイレベルのセグメントはカウントしない。
図18は、モザイク例5のCNVチャートを示す。モザイク例5では3番でコピー数比が正倍数体よりも高い側のハイレベルのセグメントが見られる。6番及び9番染色体にコピー数比が正倍数体よりも低い側のハイレベルのセグメントが見られる。これらのセグメントの総塩基長はそれぞれの染色体において40%以上を占める。ここでは一例として所定割合を40%としたが、この数値の選択は本発明を限定するものではない。モザイク例5は“Middle-risk Complex”に分類される。その全染色体モザイクスコアは8である。
図19は、モザイク例6のCNVチャートを示す。モザイク例6では3番、6番及び9番染色体にコピー数比が正倍数体よりも高い側のハイレベルのセグメントが見られる。コピー数比が正倍数体よりも低い側のセグメントは見られない。これらのセグメントの総塩基長はそれぞれの染色体において40%以上を占める。ここでは一例として所定割合を40%としたが、この数値の選択は本発明を限定するものではない。モザイク例6は“High-risk Complex”に分類される。その全染色体モザイクスコアは9である。
上記の通り処理を行うことで、判定データからスコアリングを含む電子データ、これを順位データという、を生成する。さらにスコアリングを参考に順に施術者が子宮への胚の移植を行う。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。スコアリングは非特許文献2に記載の又はその他の、サンプルに基づく遡及的分析の結果得られたスコアリングシステムを利用して行ってもよい。
発明の他の観点は、上記処理をコンピューターで実行するためのプログラムである。発明の他の観点は、上記プログラムを格納するディスク、テープ、フラッシュメモリ、及びその他の不揮発性記憶媒体である。発明の他の観点は、上記プログラムを、ネットワークを介してダウンロード提供することである。発明の他の観点は、ネットワークを介して要求を受け取り、要求に応じて上記プログラムをコンピューター上で実行し、要求に応じて処理結果を、ネットワークを介して提供することである。一態様においてプログラムを実行するコンピューターの動作を、ネットワークで接続された複数の装置で実行する。

Claims (18)

  1. ゲノム配列上のコピー数のバリアントの区切り点の候補を機械的に検出する方法であって、
    細胞サンプルより得た染色体DNAの断片配列の電子データ、以下、これを検体データという、を以下の通りコンピューターで自動的に処理する、
    ゲノム配列上に連続的に設定される領域、以下ビンという、であって、前記断片配列のサイズよりも大きいサイズを有するものにそれぞれ含まれる前記断片配列を数える、
    前記ビン同士の間隔を分解能として、前記ゲノム配列上のコピー数比の分布を測る、
    前記ビンの前記ゲノム配列上の位置に対する、前記コピー数比の変化の傾きを隣り合う前記ビンの組、以下、これをビン-ペアという、ごとに取得する、
    前記ビン-ペアを前記傾きの絶対値の大きい組と前記傾きの絶対値の小さい組とに分け、前記傾きの絶対値の大きい組は前記コピー数比の増減区間を含むと判定し、
    前記コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データ、以下、これを候補データという、を生成する方法。
  2. 前記増減区間を含む前記ビン-ペアを特定するために、
    下記式に従い前記ビン-ペアごとにzを求め、
    z>2又はz<-2であれば前記傾きの絶対値が大きいと判定する、
    Figure 2022136465000004
    xは傾きであり、xは絶対値ではなく正負を含み、μは前記ビン-ペアからなる母集団のxの平均であり、σは前記母集団のxの標準偏差である、
    請求項1に記載の方法。
  3. 前記母集団を構成している前記ビン-ペアは、一つの染色体上の全体又は一かたまりの部分の中で切れ目なく連続している、
    請求項2に記載の方法。
  4. 前記傾きの絶対値の大きい組に対する判定とともに、前記傾きの絶対値の小さい組はコピー数比の増減区間を含まないか又は不明と判定する、
    請求項1~3のいずれかに記載の方法。
  5. 前記ビン-ペアは染色体上で切れ目なく連続しているが、
    前記ビン同士が互いに接している前記ビン-ペアと、前記ビン同士が互いに接してはおらず間隔を置いて分布するビン-ペアとが混在している、
    請求項1~4のいずれかに記載の方法。
  6. 前記ゲノム配列は前記細胞サンプルから新規に取得されたものではなく、前記細胞サンプル以外の細胞から事前に取得された全ゲノム配列又はその部分のデータである、
    請求項1~5のいずれかに記載の方法。
  7. 前記細胞サンプルは一つの胚を生検して得た細胞集団であり、
    前記細胞サンプルを溶解することで、若しくは前記細胞サンプルが自発的に放出することで得られた染色体DNAを混合した状態で全ゲノム増幅し、
    増幅産物からDNAシーケンサーにて前記検体データを取得する、
    又は
    前記細胞サンプルは一つの胚を生検して得た一つの細胞であり、
    前記細胞サンプルを溶解することで、若しくは前記細胞サンプルが自発的に放出することで得られた染色体DNAを全ゲノム増幅し、
    増幅産物からDNAシーケンサーにて前記検体データを取得する、
    請求項1~6のいずれかに記載の方法。
  8. 前記DNAシーケンサーから前記コンピューターに前記断片配列の前記検体データを送る、
    請求項7に記載の方法。
  9. 前記DNAシーケンサーが、サーバーに前記検体データを送り、
    前記サーバーが前記検体データを記録し、さらに前記コンピューターの求めに応じて前記コンピューターに前記検体データを送る、
    請求項7に記載の方法。
  10. 請求項1~9のいずれかに記載の方法で前記候補データを生成し、さらに、コンピューターにて、
    前記検体データの生データを補正することで補正後のコピー数比を取得し、
    前記区切り点の候補で前記ゲノム配列を切り分けてセグメントを生成し、ここで前記セグメントには一つの前記ビン、又は連続する複数の前記ビンが含まれる、
    さらにコピー数比に関する所定の閾値で各セグメントを分類した情報、以下、これをモザイクレベルという、を取得し、
    前記セグメントの特定と、前記モザイクレベルとを含む電子データ、以下、これを判定データという、を生成する方法。
  11. セグメントを生成した後、
    所定個数未満の前記ビンを含むセグメントをその前後に隣接するいずれかのセグメントに統合することで、前記所定個数以上の前記ビンを含むセグメントだけで前記ゲノム配列を切り分ける修正、及び
    所定塩基長に満たないセグメントをその前後に隣接するいずれかのセグメントに統合することで、前記所定塩基長以上のセグメントだけで前記ゲノム配列を切り分ける修正、
    の少なくともいずれかを行ってから前記補正を行う、
    請求項10に記載の方法。
  12. 前記細胞サンプルは複数の胚からそれぞれ得られたものであり、
    請求項10又は11に記載の方法で前記判定データを生成し、さらにコンピューターにて、
    前記複数の胚を前記セグメントの前記モザイクレベルに応じてスコアリングし、
    前記スコアリングを含む電子データを生成する方法。
  13. 前記スコアリングにおいて、コピー数比が正倍数体よりも高いセグメントを有しない胚を、有する胚、以下、これをゲイン(Gain)と区別する、
    請求項12に記載の方法。
  14. 前記スコアリングにおいて、前記ゲインの中で、染色体一本分のコピー数比の乖離度を100%としたとき、乖離度が0%超、100%未満の所定の値以上であるセグメント、以下、これをハイレベル(High Level)のセグメントという、であってコピー数比が正倍数体よりも高いセグメント、を有しない胚と、これを有する胚とを区別する、
    請求項13に記載の方法。
  15. 前記スコアリングにおいて、前記ゲインの中の、前記ハイレベルのセグメントを有する胚の中で、前記ハイレベルのセグメントの総塩基長が10~50%の範囲から選ばれる所定割合以上の染色体が少ない胚と、これが多い胚とを区別し、ただし、前記ハイレベルのセグメントはコピー数比が正倍数体よりも高い側及び低い側のいずれも含む、
    さらに、前記ハイレベルのセグメントの総塩基長が10~50%の範囲から選ばれる所定割合以上の染色体が多い胚の中で、コピー数比が正倍数体よりも高い側のハイレベルのセグメントの総塩基長が所定割合以上の染色体が少ない胚と、これが多い胚とを区別する、
    請求項14に記載の方法。
  16. 前記スコアリングにおいて、コピー数比が正倍数体よりも高いセグメントを有しない胚であって、コピー数比が正倍数体よりも低いセグメントを有する胚をロス(Loss)とし、
    前記ゲイン及びロスの中で、前記セグメント間における、コピー数比の正倍数体の水準からの乖離度の最大値が小さい胚と、大きい胚とを区別する、ただし、前記正倍数体の水準からの乖離度はコピー数比が正倍数体よりも高い側及び低い側のいずれも含む、
    請求項13~15のいずれかに記載の方法。
  17. 前記細胞サンプルは複数の胚からそれぞれ得られたものであり、
    請求項10又は11に記載の方法で前記判定データを生成し、
    コンピューターにて、前記複数の胚を前記セグメントの前記モザイクレベルに応じてスコアリングし、
    前記スコアリングを参考に施術者が前記複数の胚を順に子宮へ移植する方法。
  18. ゲノム配列上のコピー数のバリアントの区切り点の候補を検出するプログラムであって、
    細胞サンプルより得た染色体DNAの断片配列の電子データに対する、以下を含む処理をコンピューターに実行させるプログラム:
    ゲノム配列上に連続的に設定される領域、以下ビンという、であって、前記断片配列のサイズよりも大きいサイズを有するものにそれぞれ含まれる前記断片配列を数えること、
    前記ビン同士の間隔を分解能として、前記ゲノム配列上のコピー数比の分布を測ること、
    前記ビンの前記ゲノム配列上の位置に対する、前記コピー数比の変化の傾きを隣り合う前記ビンの組、以下、これをビン-ペアという、ごとに取得すること、
    前記ビン-ペアを前記傾きの絶対値の大きい組と前記傾きの絶対値の小さい組とに分け、前記傾きの絶対値の大きい組は前記コピー数比の増減区間を含むと判定すること、及び
    前記コピー数比の増減区間のゲノム配列上の位置を、ゲノム配列上のコピー数のバリアントの区切り点の候補として含む電子データ、を生成すること。
JP2021036092A 2021-03-08 2021-03-08 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出 Active JP7099759B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021036092A JP7099759B1 (ja) 2021-03-08 2021-03-08 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出
PCT/JP2021/046235 WO2022190495A1 (ja) 2021-03-08 2021-12-15 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出
TW111108115A TW202300656A (zh) 2021-03-08 2022-03-07 基因組序列上之拷貝數變異之候選斷點之機械性檢測

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021036092A JP7099759B1 (ja) 2021-03-08 2021-03-08 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出

Publications (2)

Publication Number Publication Date
JP7099759B1 JP7099759B1 (ja) 2022-07-12
JP2022136465A true JP2022136465A (ja) 2022-09-21

Family

ID=82384792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021036092A Active JP7099759B1 (ja) 2021-03-08 2021-03-08 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出

Country Status (3)

Country Link
JP (1) JP7099759B1 (ja)
TW (1) TW202300656A (ja)
WO (1) WO2022190495A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579054B (zh) * 2022-11-17 2023-06-02 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019500901A (ja) * 2015-12-04 2019-01-17 グリーン クロス ゲノム コーポレーションGreen Cross Genome Corporation 核酸の混合物を含むサンプルでコピー数異常を決定する方法
WO2020073058A1 (en) * 2018-10-05 2020-04-09 Coopergenomics, Inc. Systems and methods for identifying chromosomal abnormalities in an embryo

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019500901A (ja) * 2015-12-04 2019-01-17 グリーン クロス ゲノム コーポレーションGreen Cross Genome Corporation 核酸の混合物を含むサンプルでコピー数異常を決定する方法
WO2020073058A1 (en) * 2018-10-05 2020-04-09 Coopergenomics, Inc. Systems and methods for identifying chromosomal abnormalities in an embryo

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIANG, D. Y., ET AL., NATURE METHODS, vol. 6, no. 1, JPN6022006837, January 2009 (2009-01-01), pages 99 - 103, ISSN: 0004799082 *
HONG, S., ET AL., INT. J. DATA MINING AND BIOINFORMATICS, vol. 9, no. 3, JPN6022006839, 2014, pages 254 - 276, ISSN: 0004799083 *

Also Published As

Publication number Publication date
TW202300656A (zh) 2023-01-01
JP7099759B1 (ja) 2022-07-12
WO2022190495A1 (ja) 2022-09-15

Similar Documents

Publication Publication Date Title
Robertson et al. Longitudinal dynamics of clonal hematopoiesis identifies gene-specific fitness effects
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
WO2020125709A1 (en) Cell-free dna end characteristics
KR20210068554A (ko) 배아에서 염색체 이상을 확인하기 위한 시스템 및 방법(systems and methods for identifying chromosomal abnormalities in an embryo)
CN112289376A (zh) 一种检测体细胞突变的方法及装置
WO2022190495A1 (ja) ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出
CN106795551B (zh) 单细胞染色体的cnv分析方法和检测装置
CN110998318A (zh) 基于转移性疾病中循环肿瘤细胞(ctc)的单细胞表征的确定疗法的方法
KR102142909B1 (ko) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
CN114303202A (zh) 用于确定胚胎中遗传模式的系统和方法
US20180247019A1 (en) Method for determining whether cells or cell groups are derived from same person, or unrelated persons, or parent and child, or persons in blood relationship
EP1798651B1 (en) Gene information display method and apparatus
KR101618032B1 (ko) 비침습적 태아 염색체 이상 검출방법
CN108229099A (zh) 数据处理方法、装置、存储介质及处理器
US11535896B2 (en) Method for analysing cell-free nucleic acids
Ericson et al. ImmGen microarray gene expression data: Data Generation and Quality Control pipeline
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
WO2023142041A1 (en) Methods for processing sequencing data and uses thereof
WO2024022529A1 (en) Epigenetics analysis of cell-free dna
Xia et al. A novel framework for analyzing somatic copy number aberrations and tumor subclones for paired heterogeneous tumor samples
Shams et al. 31. Computer-aided cytogenomic classification of renal cell carcinoma
Sahajpal et al. 32. Clinical utility and feasibility of adopting optical genome mapping for chromosomal characterization of solid tumors
TW202321461A (zh) 使用確定性限制位點全基因組擴增(drs-wga)分析至少兩個樣本之相似程度的方法
Marquardt Bestimmung von Tumorentitäten, Tumorsubgruppen und Therapieoptionen basierend auf maschinellem Lernen
Marquardt Machine-Learning-Based Identification of Tumor Entities, Tumor Subgroups, and Therapy Options

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7099759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350