JP7362901B2 - 塩基のメチル化度の算出方法及びプログラム - Google Patents

塩基のメチル化度の算出方法及びプログラム Download PDF

Info

Publication number
JP7362901B2
JP7362901B2 JP2022509240A JP2022509240A JP7362901B2 JP 7362901 B2 JP7362901 B2 JP 7362901B2 JP 2022509240 A JP2022509240 A JP 2022509240A JP 2022509240 A JP2022509240 A JP 2022509240A JP 7362901 B2 JP7362901 B2 JP 7362901B2
Authority
JP
Japan
Prior art keywords
methylation
base
reads
degree
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022509240A
Other languages
English (en)
Other versions
JPWO2021192395A1 (ja
Inventor
奈央子 山口
舞子 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2021192395A1 publication Critical patent/JPWO2021192395A1/ja
Application granted granted Critical
Publication of JP7362901B2 publication Critical patent/JP7362901B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本開示は、DNAの配列解析データから塩基のメチル化度を算出する方法及びプログラムに関する。
DNAを構成する塩基の炭素原子にメチル基が付加し、塩基がメチル化される現象がある。塩基のメチル化は遺伝子発現の制御因子としてはたらくことが知られており、生命現象のメカニズム解明又は疾患の診断に有用な情報であるとして注目されている。
DNA中の塩基のメチル化度の計測方法は幾つか存在するが、代表的な一つが、核酸の塩基配列を読み取る装置、すなわちシーケンサーを用いる方法である。例えば、バイサルファイト処理とPCR(polymerase chain reaction)とシーケンサーによる配列解析とを組み合わせた方法(すなわちバイサルファイトシーケンス法)がある。DNAをバイサルファイト(亜硫酸水素塩)で処理すると、非メチル化シトシンがウラシルへと変換される一方、メチル化シトシンはシトシンとして残存する。つまり、バイサルファイト処理により、シトシンのメチル化状態(メチル化されていない、又は、メチル化されている)は、その位置の配列情報(ウラシル又はシトシン)に変換される。次いで、PCRによってDNA断片の増幅を行う。この過程でウラシルはチミンへと変換される。次いで、増幅産物の配列をシーケンサーを用いて解析する。解析対象の位置の塩基がチミン又はシトシンのいずれであるかを決定することにより、DNA中の目的の位置のシトシンのメチル化状態を知ることができる。
例えば特表2007-502126号公報及び特表2005-514035号公報に、バイサルファイトシーケンス法を改変した、塩基のメチル化の検出方法が開示されている。
バイサルファイトシーケンス法によれば、理論的には、DNA中の任意の位置のシトシンのメチル化度を0~100%の範囲で定量することができる。しかしながら、実際には、バイサルファイト処理の際の塩基の変換エラー、PCRの増幅エラー、シーケンサーの読み取りエラーなどによって、定量性の正確さには限界がある。
本開示の実施形態は、上記状況のもとになされた。
本開示は、DNAの配列解析データからより正確に塩基のメチル化度を算出する方法及びプログラムを提供することを課題とする。
上記の課題を解決するための具体的手段には、下記の態様が含まれる。
<1> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<2> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<3> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<4> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<5> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分けることと、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定することと、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<6> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得ることと、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定することと、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<7> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データを取得することと、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出することと、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とすることと
を含む、塩基のメチル化度の算出方法。
<8> すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、<7>に記載の塩基のメチル化度の算出方法。
<9> <1>に記載の塩基のメチル化度の算出方法、<2>に記載の塩基のメチル化度の算出方法、<3>に記載の塩基のメチル化度の算出方法、<4>に記載の塩基のメチル化度の算出方法、<5>に記載の塩基のメチル化度の算出方法、<6>に記載の塩基のメチル化度の算出方法、<7>に記載の塩基のメチル化度の算出方法、及び<8>に記載の塩基のメチル化度の算出方法からなる群から選ばれる2つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
<10> <1>~<9>のいずれか1つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。
<10’> <1>~<9>のいずれか1つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラムにより作動するコンピュータ。
<11> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<12> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<13> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<14> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<15> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分ける段階と、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定する段階と、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<16> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得る段階と、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定する段階と、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<17> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データを取得する段階と、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とする段階と、
をコンピュータに実行させるためのプログラム。
<18> すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、<17>に記載のプログラム。
<19> <11>に記載のプログラム、<12>に記載のプログラム、<13>に記載のプログラム、<14>に記載のプログラム、<15>に記載のプログラム、<16>に記載のプログラム、<17>に記載のプログラム、及び<18>に記載のプログラムからなる群から選ばれる2つ以上を組み合わせてコンピュータに実行させるためのプログラム。
<20> <11>~<19>のいずれか1つに記載のプログラムにより作動するコンピュータ。
本開示によれば、DNAの配列解析データからより正確に塩基のメチル化度を算出する方法及びプログラムが提供される。
実施形態1-1の流れを説明するフローチャートである。 実施形態1-2の流れを説明するフローチャートである。 実施形態2-1の流れを説明するフローチャートである。 実施形態2-2の流れを説明するフローチャートである。 実施形態3-1の流れを説明するフローチャートである。 実施形態3-2の流れを説明するフローチャートである。 実施形態4-1の流れを説明するフローチャートである。 コンピュータのハードウェア構成図である。
以下に、本開示の実施形態について説明する。これらの説明及び実施例は実施形態を例示するものであり、実施形態の範囲を制限するものではない。
本開示において「~」を用いて示された数値範囲は、「~」の前後に記載される数値をそれぞれ最小値及び最大値として含む範囲を示す。
本開示において使用する用語の意味は次のとおりである。
DNA中の目的の位置とは、本開示の方法及びプログラムによってメチル化度を算出する対象となる位置を意味する。DNA中の目的の位置は任意である。
塩基のメチル化度は、DNA断片の集合から算出される値であり、DNA中の塩基ごとに算出される。ある塩基のメチル化度は、{ある塩基がメチル化されているDNA断片数/(ある塩基がメチル化されているDNA断片数+ある塩基がメチル化されていないDNA断片数)}であり、百分率(%)で表す。
配列解析データは、各リードの塩基配列、リード間の配列の同一性、配列解析の品質情報など、配列解析についてシーケンサーが出力した全ての情報を含む。品質情報とは、1回のシーケンス処理の配列の確からしさ、個々のリードの配列の確からしさ、及び各位置の塩基の確からしさの少なくとも一つを含む情報である。
シーケンサーは、第一世代シーケンサー(キャピラリーシーケンサー)、第二世代シーケンサー(次世代シーケンサー)、第三世代シーケンサー、第四世代シーケンサー、及び今後開発されるシーケンサーを含む用語である。シーケンサーは、特に断りのない限り、キャピラリーシーケンサーでもよく、次世代シーケンサーでもよく、その他のシーケンサーでもよい。シーケンサーとしては、解析の速さ、1度に処理可能な試料数の多さ等の観点から、次世代シーケンサーが好ましい。次世代シーケンサー(next generation sequencer,NGS)とは、サンガー法を利用したキャピラリーシーケンサー(第一世代シーケンサーと呼ばれる。)に対比して分類されるシーケンサーを指す。現時点で最も普及している次世代シーケンサーは、DNAポリメラーゼによる相補鎖合成又はDNAリガーゼによる相補鎖結合に連動した蛍光又は発光をとらえ塩基配列を決定する原理のシーケンサーである。具体的には、MiSeq(Illumina社)、HiSeq2000(Illumina社、HiSeqは登録商標)、Roche454(Roche社)等が挙げられる。
リードとは、シーケンサーが読み取り処理を行った塩基配列の単位をいう。
リードを補正することは、配列解析データに含まれる品質情報に基づいて行われる。リードの補正には、配列の確からしさが絶対的に又は相対的に低いリードの除外、配列の確からしさが絶対的に又は相対的に高いリードの選択、及び、個々の塩基の修正(例えば、存在の確からしさが高い塩基で、存在の確からしさが低い塩基を置き換えること)の少なくともいずれかが含まれる。
共メチル化サイトとは、DNA上の異なる位置にある2個以上のメチル化サイトが同じメチル化状態(共にメチル化されている、又は、共にメチル化されていない)であると推定される場合に、これら2個以上のメチル化サイトを指す。
共メチル化サイトは、例えば、1個又は複数個の塩基を間に挟んで隣接する2個のCpG部位(シトシンの次にグアニンが現れる2塩基配列)である。
ペアエンド法とは、核酸の両端それぞれから塩基配列を読み取る方法をいう。
ペアエンドリードとは、一の塩基配列について両端それぞれから読み取ったリード対を意味する。
分子バーコードとは、計測対象である複数の核酸を互いに見分けるために付加する、互いに配列が異なる合成核酸である。計測対象である核酸に対して増幅前に固有の分子バーコードを付加しておけば、計測対象である核酸からの増幅産物を同定することが可能となる。
本開示は、シーケンサーを用いてDNAを配列解析して得られた配列解析データを取得し、配列解析データからDNA中の目的の位置の塩基のメチル化度を算出する方法及びプログラムを開示する。目的の位置にある塩基としては、シトシン、アデニンが挙げられる。
シーケンサーを用いたDNAの配列解析は、目的の位置にある塩基がシトシンの場合、バイサルファイトシーケンス法が好ましい。バイサルファイトシーケンス法のある実施形態例は、DNAをバイサルファイト処理することと、プライマー対を用いてPCRを行うことと、シーケンサーを用いて増幅産物の配列解析することと、を含む。
本開示は、塩基のメチル化度を算出する方法及びプログラムとして、第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態を開示する。以下、各実施形態を、図1~図7に示すフローチャートを参照しながら説明する。
<第一の実施形態:共メチル化サイトを利用する実施形態>
第一の実施形態は、共メチル化サイトを有するDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第一の実施形態は、解析対象のDNA中に共メチル化サイトがあり、目的の位置の塩基が共メチル化サイトを構成している場合に実施可能な形態である。
DNA中の共メチル化サイトは、共メチル化サイトのリスト又は探索アルゴリズムによって同定することが可能である。第一の実施形態は、共メチル化サイトのリスト又は探索アルゴリズムによって、解析対象とするDNA中の共メチル化サイトを同定すること、をさらに含んでいてもよい。
共メチル化サイトのリストは、既存の遺伝子データベースからメチル化サイトの情報を得て構築することができる。共メチル化サイトの探索アルゴリズムは、例えば、1個以上10個以下の塩基を間に挟んで隣接する2個のCpG部位を探索するアルゴリズムである。
第一の実施形態は、共メチル化サイトを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第一の実施形態は、共メチル化サイトの利用の仕方によって2形態(実施形態1-1及び実施形態1-2という。)に分けられる。
[実施形態1-1]
図1は、実施形態1-1の流れを説明するフローチャートである。実施形態1-1は、S111に示す段階、S112に示す段階及びS113に示す段階を含む。
DNA中の共メチル化サイトは同じメチル化状態(共にメチル化されている、又は、共にメチル化されていない)と見込まれるところ、リード中の共メチル化サイトのC/T配列が異なっている場合、共メチル化サイトの少なくとも一方の塩基に計測エラー(例えば、バイサルファイト処理の際の塩基の変換エラー、PCRの増幅エラー、シーケンサーの読み取りエラー)が生じたものと推定される。実施形態1-1は、S112に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。
S111に示す段階において、シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する。そして、S112に示す段階に進む。
S112に示す段階において、配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正する。具体的には、リード中の共メチル化サイトのうちの、C/T配列の信頼性が高い方のサイトの塩基で、C/T配列の信頼性が低い方のサイトの塩基を置き換える補正を行うことが好ましい。リード中の共メチル化サイト間でC/T配列が異なっている場合、S112に示す段階において、リード中の共メチル化サイト間のC/T配列が同じ配列に置き換えられる。
次に、S113に示す段階において、補正後のリードから目的の位置の塩基のメチル化度を算出する。目的の位置の塩基の確からしさが増したリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。
[実施形態1-2]
図2は、実施形態1-2の流れを説明するフローチャートである。実施形態1-2は、S121に示す段階、S122に示す段階及びS123に示す段階を含む。
DNA中の共メチル化サイトは同じメチル化状態(共にメチル化されている、又は、共にメチル化されていない)と見込まれるところ、リード中の共メチル化サイトのC/T配列が異なっている場合、共メチル化サイトの少なくとも一方の塩基に計測エラー(例えば、バイサルファイト処理の際の塩基の変換エラー、PCRの増幅エラー、シーケンサーの読み取りエラー)が生じたものと推定される。実施形態1-2は、S122に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。
S121に示す段階において、シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する。そして、S122に示す段階に進む。
S122に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除く。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。次いで、共メチル化サイト間で塩基が一致しないリードを除く。S122に示す段階において、もとのリードが絞り込まれ、配列の信頼性が高いリードの集団が形成される。
次に、S123に示す段階において、残ったリードから目的の位置の塩基のメチル化度を算出する。配列の信頼性が高いリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。
<第二の実施形態:ペアエンドリードを利用する実施形態>
第二の実施形態は、次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第二の実施形態は、ペアエンドリードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第二の実施形態は、ペアエンドリードの利用の仕方によって2形態(実施形態2-1及び実施形態2-2という。)に分けられる。
[実施形態2-1]
図3は、実施形態2-1の流れを説明するフローチャートである。実施形態2-1は、S211に示す段階、S212に示す段階及びS213に示す段階を含む。
一つのペアエンドリードを構成するリード対は同じ配列と見込まれるところ、ペアエンドリード間の配列が異なっている場合、ペアエンドリードの少なくとも一方のリードにシーケンサーの読み取りエラーが生じたものと推定される。実施形態2-1は、S212に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。
S211に示す段階において、次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する。そして、S212に示す段階に進む。
S212に示す段階において、配列解析データに含まれる品質情報に基づきペアエンドリードを補正する。リードの補正は、目的の位置の塩基の確からしさが絶対的に又は相対的に高い方のリードを選択し、このリードをペアエンドリードの代表とすることが好ましい。ペアエンドリード間の配列が異なっている場合、S212に示す段階において、リードの配列が目的の位置について修正される。
次に、S213に示す段階において、補正後のリードから目的の位置の塩基のメチル化度を算出する。目的の位置の塩基の確からしさが増したリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。
[実施形態2-2]
図4は、実施形態2-2の流れを説明するフローチャートである。実施形態2-2は、S221に示す段階、S222に示す段階及びS223に示す段階を含む。
一つのペアエンドリードを構成するリード対は同じ配列と見込まれるところ、ペアエンドリード間の配列が異なっている場合、ペアエンドリードの少なくとも一方のリードにシーケンサーの読み取りエラーが生じたものと推定される。実施形態2-2は、S222に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。
S221に示す段階において、次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する。そして、S222に示す段階に進む。
S222に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。次いで、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く。S222に示す段階において、もとのリードが絞り込まれ、配列の信頼性が高いリードの集団が形成される。
次に、S223に示す段階において、残ったリードから目的の位置の塩基のメチル化度を算出する。配列の信頼性が高いリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。
<第三の実施形態:分子バーコードを利用する実施形態>
第三の実施形態は、分子バーコードが付加されたDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第三の実施形態は、分子バーコードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第三の実施形態は、分子バーコードの利用の仕方によって2形態(実施形態3-1及び実施形態3-2という。)に分けられる。
[実施形態3-1]
図5は、実施形態3-1の流れを説明するフローチャートである。実施形態3-1は、S311に示す段階、S312に示す段階、S313に示す段階、S314に示す段階及びS315に示す段階を含む。
分子バーコードが同一であるリード群は配列が一致すると見込まれるところ、このリード群に配列が異なるリードが含まれている場合、このリードに計測エラー(例えば、PCRの増幅エラー、シーケンサーの読み取りエラー)が生じたものと推定される。実施形態3-1は、S311~S315に示す一連の段階を経ることによって、塩基のメチル化度の算出に与える上記計測エラーの影響を低減する。
以下、各段階を説明する。
S311に示す段階において、シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する。そして、S312に示す段階に進む。
S312に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。
次に、S313に示す段階において、補正後のリードを分子バーコードが同一であるリード群に分ける。そして、S314に示す段階に進む。
S314に示す段階において、分子バーコードが同一であるリード群それぞれにおいて目的の位置に最頻出する塩基を決定する。そして、S315に示す段階に進む。
S315に示す段階において、最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出する。S311~S315に示す段階を経ることによって目的の位置の塩基の確からしさが高まるので、塩基のメチル化度の正確性が上がる。
[実施形態3-2]
図6は、実施形態3-2の流れを説明するフローチャートである。実施形態3-2は、S321に示す段階、S322に示す段階、S323に示す段階、S324に示す段階及びS325に示す段階を含む。
分子バーコードが同一であるリード群は配列が一致すると見込まれるところ、このリード群に配列が異なるリードが含まれている場合、このリードに計測エラー(例えば、PCRの増幅エラー、シーケンサーの読み取りエラー)が生じたものと推定される。実施形態3-2は、S321~S325に示す一連の段階を経ることによって、塩基のメチル化度の算出に与える上記計測エラーの影響を低減する。
以下、各段階を説明する。
S321に示す段階において、シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する。そして、S322に示す段階に進む。
S322に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。
次に、S323に示す段階において、補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得る。ここで、目的の位置を含む領域は、リードの一部でもよく、リード全長でもよい。目的の位置を含む領域は、塩基長が5以上の領域であることが好ましい。配列の同一性は、配列解析データに含まれる情報を採用してよく、所定の判定基準に満たない場合、配列に同一性がないと判断する。配列の同一性は、90%以上が好ましく、95%以上がより好ましく、100%が更に好ましく、この数値を判定基準としてよい。配列の同一性についての所定の判定基準を満たした配列を、配列が同一であるとする。
次に、S324に示す段階において、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定する。そして、S325に示す段階に進む。
S325に示す段階において、決定した塩基の集合から目的の位置の塩基のメチル化度を算出する。S321~S324を経ることによって目的の位置の塩基の確からしさが高まるので、塩基のメチル化度の正確性が上がる。
<第四の実施形態:複数の配列解析データを利用する実施形態>
第四の実施形態は、シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第四の実施形態は、複数の配列解析データを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。
第四の実施形態の詳細を、下記の実施形態4-1において説明する。また、実施形態4-1の一形態例として、実施形態4-2を説明する。
[実施形態4-1]
図7は、実施形態4-1の流れを説明するフローチャートである。実施形態4-1は、S411に示す段階、S412に示す段階及びS413に示す段階を含む。
同じDNAを試料とした場合、複数の配列解析データそれぞれから算出される塩基のメチル化度の値は一致するのが理想である。しかし、リードの計測エラー(例えば、バイサルファイト処理の際の塩基の変換エラー、PCRの増幅エラー、シーケンサーの読み取りエラー)を常にゼロにすることは困難であるので、複数の配列解析データそれぞれから算出される塩基のメチル化度の値がばらつくことがある。実施形態4-1は、塩基のメチル化度の値のばらつきを除いて、塩基のメチル化度の正確性を上げる形態である。
以下、各段階を説明する。
S411に示す段階において、シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データを取得する。そして、S412に示す段階に進む。
S412に示す段階において、各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択、及び、個々の塩基の修正の少なくとも1つであることが好ましい。
次に、S413に示す段階において、すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とする。代表値は、平均値、中央値、最頻値、任意の定義による値のいずれでもよい。複数の配列解析データそれぞれから算出される塩基のメチル化度の代表値を求めるので、塩基のメチル化度の正確性が上がる。
[実施形態4-2]
実施形態4-2は、実施形態4-1のS413に示す段階において、すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する。実施形態4-2は、信頼性の低いメチル化度を出力せず、算出不能との判断を行う形態である。
以上に説明した第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態の少なくとも1つを行うことによって、より正確に塩基のメチル化度が算出できる。
さらに正確な塩基のメチル化度を算出する目的で、第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態からなる群から選ばれる2つ以上の実施形態を組み合わせて行ってもよい。
第一の実施形態、第二の実施形態、第三の実施形態、第四の実施形態、及びこれらの組合せの実施形態は、そのプログラムをコンピュータ100に実行させることにより実現することができる。
コンピュータ100は、図8のハードウェア構成に示すように、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及びストレージ104を有する。各構成は、バス109を介して相互に通信可能に接続されている。
CPU101は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU101は、ROM102又はストレージ104からプログラムを読み出し、RAM103を作業領域としてプログラムを実行する。CPU101は、ROM102又はストレージ104に記録されているプログラムを実行し、各段階の制御及び各種の演算処理を行う。
ROM102は、各種プログラム及び各種データを格納する。RAM103は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ104は、HDD(Hard Disk Drive)、SSD(Solid State Drive)又はフラッシュメモリにより構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。ストレージ104には、配列解析データを保存しておくこともできる。
コンピュータ100は、上記ハードウェア構成のうちCPU101が、図1~図7のフローチャートに示すプログラムを実行し、これにより、塩基のメチル化度の算出方法が実現される。
本開示の実施形態によって算出された塩基のメチル化度(%)は、塩基のメチル化度(%)の真の値との差分が小さいほど好ましく、好ましくは差分が0.2%以下であり、より好ましくは差分が0.1%以下であり、特に好ましくは差分が0%である。
以下、実施例により発明の実施形態をさらに説明するが、発明の実施形態は、これら実施例に何ら限定されるものではない。
[試験用のDNA及びプライマー対の準備]
試験用のDNAとして、ラムダファージDNAの12516塩基目から12614塩基目までの99塩基に相当する合成DNA(配列番号1,5'-TTGATGGTATTGCACAGAATATGGCGGCGATGCTGACCGGCAGTGAGCAGAACTGGCGCAGCTTCACCCGTTCCGTGCTGTCCATGATGACAGAAATTC-3')を用意した。配列番号1の25塩基目のシトシンをサイトAといい、配列番号1の28塩基目のシトシンをサイトBという。
配列番号1の合成DNAをPCRにより増幅するためのプライマー対として、下記のフォワードプライマー及びリバースプライマーを準備した。
・フォワードプライマー:5'-TTGATGGTATTGTATAGAATATGG-3'(配列番号2)
・リバースプライマー :5'-AAATTTCTATCATCATAAACAACA-3'(配列番号3)
<実施例1:第一の実施形態の実施例>
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。さらに、サイトBのメチル化状態を、サイトAのメチル化状態と同一になるようコントロールしてある。塩基間の距離が10塩基以内の2つのメチル化サイトを共メチル化サイトとみなすアルゴリズムによって、サイトAとサイトBとは共メチル化サイトと判定された。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。リードを、サイトAとサイトBの塩基の種類(シトシンであるか、チミンであるか)によって群分けすると、その内訳は下記のとおりであった。
・リード群1:
サイトA=シトシン/サイトB=シトシン・・・ 1599リード
・リード群2:
サイトA=チミン /サイトB=チミン ・・・154620リード
・リード群3:
サイトA=シトシン/サイトB=チミン ・・・ 1546リード
・リード群4:
サイトA=チミン /サイトB=シトシン・・・ 1558リード
合計・・・159323リード
上記のリード群1~リード群4の集合からサイトAのメチル化度を算出すると、(群1のリード数+群3のリード数)÷全リード数×100=(1599+1546)÷159323×100=1.97%であった。
上記のリード群1~リード群4の配列解析データをもとにして、下記の実施例1-1及び実施例1-2をそれぞれ行った。
[実施例1-1:実施形態1-1の実施例]
共メチル化サイトであるサイトAとサイトBとの間で塩基が異なるリードにおいては、一方のサイトに計測エラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトAとサイトBとの間で配列の信頼性が高い方の塩基で配列の信頼性が低い方の塩基を置き換える補正を行った。この補正によって、リード群3は下記のリード群3-1(サイトAの塩基でサイトBの塩基を置換)又はリード群3-2(サイトBの塩基でサイトAの塩基を置換)に補正され、リード群4は下記のリード群4-1(サイトBの塩基でサイトAの塩基を置換)又はリード群4-2(サイトAの塩基でサイトBの塩基を置換)に補正された。
・リード群3-1:
サイトA=シトシン/サイトB=シトシン・・・ 15リード
・リード群3-2:
サイトA=チミン /サイトB=チミン ・・・1531リード
・リード群4-1:
サイトA=シトシン/サイトB=シトシン・・・ 19リード
・リード群4-2:
サイトA=チミン /サイトB=チミン ・・・1539リード
補正後のリードの集合からサイトAのメチル化度を算出すると、(群1のリード数+群3-1のリード数+群4-1のリード数)÷全リード数×100=(1599+15+19)÷159323×100=1.02%であった。共メチル化サイトを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の1.00%に近い値を得ることができた。
[実施例1-2:実施形態1-2の実施例]
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、リード群1~リード群4は下記のリード群1’~リード群4’に補正された。
・リード群1’:
サイトA=シトシン/サイトB=シトシン・・・ 1567リード
・リード群2’:
サイトA=チミン /サイトB=チミン ・・・151528リード
・リード群3’:
サイトA=シトシン/サイトB=チミン ・・・ 1469リード
・リード群4’:
サイトA=チミン /サイトB=シトシン・・・ 1402リード
合計・・・155966リード
さらに、共メチル化サイトであるサイトAとサイトBとの間で塩基が異なるリード(すなわちリード群3’及びリード群4’)を除いた。残ったリード(すなわちリード群1’及びリード群2’)の集合からサイトAのメチル化度を算出すると、群1’のリード数÷(群1’のリード数+群2’のリード数)×100=1567÷(1567+151528)×100=1.02%であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の1.00%に近い値を得ることができた。
<実施例2:第二の実施形態の実施例>
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いてペアエンド法で解析した。ペアエンドリードの一方をR1、もう一方をR2という。R1とR2の組合せをサイトAの塩基の種類(シトシンであるか、チミンであるか)によって群分けすると、その内訳は下記のとおりであった。
・ペアエンドリード群5:
R1=シトシン/R2=シトシン・・・ 1547ペア
・ペアエンドリード群6:
R1=チミン /R2=チミン ・・・153182ペア
・ペアエンドリード群7:
R1=シトシン/R2=チミン ・・・ 754ペア
・ペアエンドリード群8:
R1=チミン /R2=シトシン・・・ 808ペア
合計・・・156291ペア
上記のペアエンドリード群5~ペアエンドリード群8におけるR1の塩基とR2の塩基の和集合からサイトAのメチル化度を算出すると、(群5のペア数×2+群7のペア数+群8のペア数)÷(全ペア数×2)×100=(1547×2+754+808)÷(156291×2)×100=1.49%であった。
上記のペアエンドリード群5~ペアエンドリード群8の配列解析データをもとにして、下記の実施例2-1及び実施例2-2をそれぞれ行った。
[実施例2-1:実施形態2-1の実施例]
ペアエンドリード間でサイトAの塩基が一致しないペアエンドリードにおいては、一方のリードに読み取りエラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトAについて配列の信頼性が高い方のリードをそのペアエンドリードの代表として選択する補正を行った。この補正によって、ペアエンドリード群7は下記のリード群7-1(R1を代表として選択)とリード群7-2(R2を代表として選択)とに補正され、ペアエンドリード群8は下記のリード群8-1(R2を代表として選択)とリード群8-2(R1を代表として選択)とに補正された。下記には、ペアエンドリード群5及びペアエンドリード群6それぞれについても代表するリードをリード群5-1及びリード群6-1として示す。
・リード群5-1:サイトA=シトシン・・・ 1547リード
・リード群6-1:サイトA=チミン ・・・153182リード
・リード群7-1:サイトA=シトシン・・・ 155リード
・リード群7-2:サイトA=チミン ・・・ 599リード
・リード群8-1:サイトA=シトシン・・・ 165リード
・リード群8-2:サイトA=チミン ・・・ 643リード
合計・・・156291リード
上記のリードの集合からサイトAのメチル化度を算出すると、(群5-1のリード数+群7-1のリード数+群8-1のリード数)÷全リード数×100=(1547+155+165)÷156291×100=1.19%であった。ペアエンドリードを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の1.00%に近い値を得ることができた。
[実施例2-2:実施形態2-2の実施例]
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、ペアエンドリード群5~ペアエンドリード群8は下記のペアエンドリード群5’~ ペアエンドリード群8’に補正された。
・ペアエンドリード群5’:
R1=シトシン/R2=シトシン・・・ 1516ペア
・ペアエンドリード群6’:
R1=チミン /R2=チミン ・・・150118ペア
・ペアエンドリード群7’:
R1=シトシン/R2=チミン ・・・ 716ペア
・ペアエンドリード群8’:
R1=チミン /R2=シトシン・・・ 727ペア
合計・・・153077ペア
さらに、ペアエンドリード間でサイトAの塩基が一致しないペアエンドリード群(すなわちペアエンドリード群7’及びペアエンドリード群8’)を除いた。残ったペアエンドリード群(すなわちペアエンドリード群5’及びペアエンドリード群6’)の集合からサイトAのメチル化度を算出すると、群5’のペア数÷(群5’のペア数+群6’のペア数)×100=1516÷(1516+150118)×100=1.00%であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の1.00%に近い値を得ることができた。
<実施例3:第三の実施形態の実施例>
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngに、アデニン、グアニン、シトシン及びチミンをランダムに10塩基並べた分子バーコードを付加し、ランダムプライマーを用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。
ここで、全リードのサイトAの塩基からメチル化度を算出した場合のメチル化度は、シトシンの個数÷(シトシンの個数+チミンの個数)×100=184496÷13369344×100=1.38%であった。
上記のリードの配列解析データをもとにして、下記の実施例3-1及び実施例3-2をそれぞれ行った。
[実施例3-1:実施形態3-1の実施例]
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。1310720リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、分子バーコードが同一であるリード群それぞれにおいてサイトAの最頻出塩基を決定した。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'(配列番号4)であるリード群において、サイトAの塩基の内訳は下記のとおりであった。このリード群におけるサイトAの最頻出塩基はシトシンであった。
・シトシン・・・6853リード
・チミン ・・・ 52リード
・アデニン・・・ 32リード
・グアニン・・・ 44リード
例えば、分子バーコードの配列が5'-CTGATCCAAT-3'(配列番号5)であるリード群において、サイトAの塩基の内訳は下記のとおりであった。このリード群におけるサイトAの最頻出塩基はチミンであった。
・シトシン・・・ 43リード
・チミン ・・・8652リード
・アデニン・・・ 5リード
・グアニン・・・ 21リード
上記のようにして、分子バーコードが同一であるリード群それぞれにおいてサイトAの最頻出塩基を決定したところ、シトシンである群が2700群、チミンである群が259444群であった。サイトAの最頻出塩基の集合からメチル化度を算出すると、2700÷(2700+259444)×100=1.03%であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の1.00%に近い値を得ることができた。
[実施例3-2:実施形態3-2の実施例]
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。1310720リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて、サイトAを含む領域の配列に同一性がないリードを除いた。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'(配列番号4)であるリード群(全6981リード)においては、分子バーコード配列を除く配列の最頻出配列が5'-TTGATGGTATTGTATAGAATATGGCGGCGATGTTGATCGGTAGTGAGTAGAATTGGCGTAGTTTTATTCGTTTCGTGTTGTTTATGATGATAGAAATTT-3'(配列番号6)であり、この最頻出配列と同一でないリードを除くと(本実施例では、リード全体の配列の完全一致を同一とした。)、残りは5724リードであった。この5724リードのサイトAの塩基はシトシンであった。
上記のようにして、分子バーコードが同一且つ配列が同一のリード群それぞれにおいてサイトAの塩基を決定したところ、シトシンである群が2673群、チミンである群が259471群であった。サイトAの塩基の集合からメチル化度を算出すると、2673÷(2673+259471)×100=1.02%であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の1.00%に近い値を得ることができた。
<実施例4:第四の実施形態の実施例>
合成DNAのサイトAのメチル化度又はサイトBのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になり、サイトBのメチル化度が1.00%になるよう、それぞれ独立にコントロールしてある。
DNAを3分割し、サンプル1、サンプル2及びサンプル3とした。
サンプル各100ngのDNAをバイサルファイト処理した。回収したDNAのうち各10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。
3回の配列解析データをもとにして、下記の実施例4-1及び実施例4-2をそれぞれ行った。
[実施例4-1:実施形態4-1の実施例]
各サンプルの配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトAの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル1は1736リード、サンプル2は1803リード、サンプル3は1781リードが除かれた。
サンプルごとに、残ったリードの集合からサイトAのメチル化度を算出すると、サンプル1で1.14%、サンプル2で0.79%、サンプル3で1.45%であった。3つの値の中央値である1.14%をサイトAのメチル化度と算出した。
[実施例4-2:実施形態4-2の実施例]
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトBの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル1は1632リード、サンプル2は1338リード、サンプル3は1305リードが除かれた。
サンプルごとに、残ったリードの集合からサイトBのメチル化度を算出すると、サンプル1で1.25%、サンプル2で5.32%、サンプル3で1.32%であった。複数回の計測間でメチル化度に3%以上の乖離がある場合には計測に頑強性がないものとみなし、サイトBのメチル化度を算出不能とした。
本開示の塩基のメチル化度を算出する方法及びプログラムは、発生学、病態生理学、脳神経科学、再生医学などの学術分野において、核酸のメチル化の研究手段として有用である。
本開示の塩基のメチル化度を算出する方法及びプログラムは、疾患に関連する遺伝子のメチル化異常の検出手段として有用である。本開示の塩基のメチル化度を算出する方法及びプログラムによって検出された遺伝子のメチル化異常は、医師の診断を補助する情報、医師が精密検査(例えば画像検査)の要否を判断する根拠、医師が治療方法又は治療薬を選択する根拠、治療効果の判定、患者の予後予測などとして有用である。
2020年3月25日に出願された日本国出願番号第2020-055116号の開示は、その全体が参照により本明細書に取り込まれる。
本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (4)

  1. 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
    シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
    前記配列解析データに含まれる品質情報に基づきリード中の前記共メチル化サイトの塩基のうち信頼性が高い方の塩基で信頼性が低い方の塩基を置き換える補正を行うことと、
    補正後のリードから前記目的の位置の塩基のメチル化度を算出することと、
    を含む、塩基のメチル化度の算出方法。
  2. 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
    シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
    前記配列解析データに含まれる品質情報に基づきリードを補正し、さらに、前記共メチル化サイト間で塩基が一致しないリードを除くことと、
    残ったリードから前記目的の位置の塩基のメチル化度を算出することと、
    を含む、塩基のメチル化度の算出方法。
  3. 請求項1に記載の塩基のメチル化度の算出方法、及び請求項2に記載の塩基のメチル化度の算出方法からなる群から選ばれる2つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
  4. 請求項1又は請求項2に記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。
JP2022509240A 2020-03-25 2020-11-10 塩基のメチル化度の算出方法及びプログラム Active JP7362901B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020055116 2020-03-25
JP2020055116 2020-03-25
PCT/JP2020/041984 WO2021192395A1 (ja) 2020-03-25 2020-11-10 塩基のメチル化度の算出方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021192395A1 JPWO2021192395A1 (ja) 2021-09-30
JP7362901B2 true JP7362901B2 (ja) 2023-10-17

Family

ID=77891135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022509240A Active JP7362901B2 (ja) 2020-03-25 2020-11-10 塩基のメチル化度の算出方法及びプログラム

Country Status (5)

Country Link
US (1) US20230054019A1 (ja)
EP (1) EP4130289A4 (ja)
JP (1) JP7362901B2 (ja)
CN (1) CN115427587A (ja)
WO (1) WO2021192395A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160076093A1 (en) 2014-08-04 2016-03-17 University Of Washington Multiplex homology-directed repair
WO2019014218A2 (en) 2017-07-12 2019-01-17 Agilent Technologies, Inc. SEQUENCING METHOD FOR DETECTION OF GENOMIC REARRANGEMENTS

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10201138B4 (de) 2002-01-08 2005-03-10 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern durch exponentielle Ligation hybridisierter Sondenoligonukleotide (MLA)
JP2004019840A (ja) 2002-06-19 2004-01-22 Gac Corp パイプアッセンブリの製造方法
US20060183128A1 (en) * 2003-08-12 2006-08-17 Epigenomics Ag Methods and compositions for differentiating tissues for cell types using epigenetic markers
DE10338308B4 (de) 2003-08-15 2006-10-19 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungen in DNA
BR112019018272A2 (pt) * 2017-03-02 2020-07-28 Youhealth Oncotech, Limited marcadores metilação para diagnosticar hepatocelular carcinoma e câncer
JP7239101B2 (ja) 2018-09-28 2023-03-14 株式会社カワタ 粉粒体供給装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160076093A1 (en) 2014-08-04 2016-03-17 University Of Washington Multiplex homology-directed repair
WO2019014218A2 (en) 2017-07-12 2019-01-17 Agilent Technologies, Inc. SEQUENCING METHOD FOR DETECTION OF GENOMIC REARRANGEMENTS

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Briefings in Bioinformatics,2016年,17(6),p. 938-952
IEEE SIGNAL PROCESSING MAGAZINE,2012年,Volume: 29, Issue: 1,p. 89-97

Also Published As

Publication number Publication date
EP4130289A4 (en) 2023-09-13
CN115427587A (zh) 2022-12-02
JPWO2021192395A1 (ja) 2021-09-30
WO2021192395A1 (ja) 2021-09-30
US20230054019A1 (en) 2023-02-23
EP4130289A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
US20180340228A1 (en) Diagnostic mirna markers for parkinson's disease
CN108138227A (zh) 使用具有独特分子索引(umi)的冗余读段在测序dna片段中抑制误差
JP2019531700A5 (ja)
US20140066317A1 (en) Systems and methods to detect rare mutations and copy number variation
CN109767810B (zh) 高通量测序数据分析方法及装置
JP6125731B2 (ja) 核酸分子数計測法
CA3044231A1 (en) Validation methods and systems for sequence variant calls
Bacher et al. Mutational profiling in patients with MDS: ready for every-day use in the clinic?
EP3080303A1 (en) Methods for full-length amplification of double-stranded linear nucleic acids of unknown sequences
JP2024056939A (ja) 生体試料のフィンガープリンティングのための方法
JP7362901B2 (ja) 塩基のメチル化度の算出方法及びプログラム
JP7084034B2 (ja) 神経芽腫の微小残存病変を評価するために用いられる試薬、およびそれを用いた生体試料の分析方法
CN106233291A (zh) 高通量测序应用中的变体分析
WO2017136606A1 (en) Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation
JP2021502072A (ja) 脱アミノ化に誘導される配列エラーの補正
JP2020517304A (ja) Dna分析のためのオフターゲット配列の使用
WO2023021978A1 (ja) 自己免疫疾患を検査する方法
WO2023232940A1 (en) A computer implemented method for identifying, if present, a preselected genetic disorder

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231004

R150 Certificate of patent or registration of utility model

Ref document number: 7362901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150