JP7362901B2

JP7362901B2 - 塩基のメチル化度の算出方法及びプログラム

Info

Publication number: JP7362901B2
Application number: JP2022509240A
Authority: JP
Inventors: 奈央子山口; 舞子脇田
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2020-03-25
Filing date: 2020-11-10
Publication date: 2023-10-17
Anticipated expiration: 2040-11-10
Also published as: JPWO2021192395A1; EP4130289A1; US20230054019A1; EP4130289A4; CN115427587A; WO2021192395A1

Description

本開示は、ＤＮＡの配列解析データから塩基のメチル化度を算出する方法及びプログラムに関する。

ＤＮＡを構成する塩基の炭素原子にメチル基が付加し、塩基がメチル化される現象がある。塩基のメチル化は遺伝子発現の制御因子としてはたらくことが知られており、生命現象のメカニズム解明又は疾患の診断に有用な情報であるとして注目されている。

ＤＮＡ中の塩基のメチル化度の計測方法は幾つか存在するが、代表的な一つが、核酸の塩基配列を読み取る装置、すなわちシーケンサーを用いる方法である。例えば、バイサルファイト処理とＰＣＲ（polymerase chain reaction）とシーケンサーによる配列解析とを組み合わせた方法（すなわちバイサルファイトシーケンス法）がある。ＤＮＡをバイサルファイト（亜硫酸水素塩）で処理すると、非メチル化シトシンがウラシルへと変換される一方、メチル化シトシンはシトシンとして残存する。つまり、バイサルファイト処理により、シトシンのメチル化状態（メチル化されていない、又は、メチル化されている）は、その位置の配列情報（ウラシル又はシトシン）に変換される。次いで、ＰＣＲによってＤＮＡ断片の増幅を行う。この過程でウラシルはチミンへと変換される。次いで、増幅産物の配列をシーケンサーを用いて解析する。解析対象の位置の塩基がチミン又はシトシンのいずれであるかを決定することにより、ＤＮＡ中の目的の位置のシトシンのメチル化状態を知ることができる。

例えば特表２００７－５０２１２６号公報及び特表２００５－５１４０３５号公報に、バイサルファイトシーケンス法を改変した、塩基のメチル化の検出方法が開示されている。

バイサルファイトシーケンス法によれば、理論的には、ＤＮＡ中の任意の位置のシトシンのメチル化度を０～１００％の範囲で定量することができる。しかしながら、実際には、バイサルファイト処理の際の塩基の変換エラー、ＰＣＲの増幅エラー、シーケンサーの読み取りエラーなどによって、定量性の正確さには限界がある。

本開示の実施形態は、上記状況のもとになされた。
本開示は、ＤＮＡの配列解析データからより正確に塩基のメチル化度を算出する方法及びプログラムを提供することを課題とする。

上記の課題を解決するための具体的手段には、下記の態様が含まれる。
＜１＞共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜２＞共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜３＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜４＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜５＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分けることと、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定することと、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜６＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得ることと、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定することと、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
＜７＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いてＤＮＡを複数回配列解析して得られた複数の配列解析データを取得することと、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出することと、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とすることと
を含む、塩基のメチル化度の算出方法。
＜８＞すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、＜７＞に記載の塩基のメチル化度の算出方法。
＜９＞＜１＞に記載の塩基のメチル化度の算出方法、＜２＞に記載の塩基のメチル化度の算出方法、＜３＞に記載の塩基のメチル化度の算出方法、＜４＞に記載の塩基のメチル化度の算出方法、＜５＞に記載の塩基のメチル化度の算出方法、＜６＞に記載の塩基のメチル化度の算出方法、＜７＞に記載の塩基のメチル化度の算出方法、及び＜８＞に記載の塩基のメチル化度の算出方法からなる群から選ばれる２つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
＜１０＞＜１＞～＜９＞のいずれか１つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。
＜１０’＞＜１＞～＜９＞のいずれか１つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラムにより作動するコンピュータ。

＜１１＞共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１２＞共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１３＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１４＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１５＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分ける段階と、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定する段階と、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１６＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得る段階と、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定する段階と、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
＜１７＞ＤＮＡ中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いてＤＮＡを複数回配列解析して得られた複数の配列解析データを取得する段階と、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とする段階と、
をコンピュータに実行させるためのプログラム。
＜１８＞すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、＜１７＞に記載のプログラム。
＜１９＞＜１１＞に記載のプログラム、＜１２＞に記載のプログラム、＜１３＞に記載のプログラム、＜１４＞に記載のプログラム、＜１５＞に記載のプログラム、＜１６＞に記載のプログラム、＜１７＞に記載のプログラム、及び＜１８＞に記載のプログラムからなる群から選ばれる２つ以上を組み合わせてコンピュータに実行させるためのプログラム。
＜２０＞＜１１＞～＜１９＞のいずれか１つに記載のプログラムにより作動するコンピュータ。

本開示によれば、ＤＮＡの配列解析データからより正確に塩基のメチル化度を算出する方法及びプログラムが提供される。

実施形態１－１の流れを説明するフローチャートである。実施形態１－２の流れを説明するフローチャートである。実施形態２－１の流れを説明するフローチャートである。実施形態２－２の流れを説明するフローチャートである。実施形態３－１の流れを説明するフローチャートである。実施形態３－２の流れを説明するフローチャートである。実施形態４－１の流れを説明するフローチャートである。コンピュータのハードウェア構成図である。

以下に、本開示の実施形態について説明する。これらの説明及び実施例は実施形態を例示するものであり、実施形態の範囲を制限するものではない。

本開示において「～」を用いて示された数値範囲は、「～」の前後に記載される数値をそれぞれ最小値及び最大値として含む範囲を示す。

本開示において使用する用語の意味は次のとおりである。

ＤＮＡ中の目的の位置とは、本開示の方法及びプログラムによってメチル化度を算出する対象となる位置を意味する。ＤＮＡ中の目的の位置は任意である。

塩基のメチル化度は、ＤＮＡ断片の集合から算出される値であり、ＤＮＡ中の塩基ごとに算出される。ある塩基のメチル化度は、｛ある塩基がメチル化されているＤＮＡ断片数／（ある塩基がメチル化されているＤＮＡ断片数＋ある塩基がメチル化されていないＤＮＡ断片数）｝であり、百分率（％）で表す。

配列解析データは、各リードの塩基配列、リード間の配列の同一性、配列解析の品質情報など、配列解析についてシーケンサーが出力した全ての情報を含む。品質情報とは、１回のシーケンス処理の配列の確からしさ、個々のリードの配列の確からしさ、及び各位置の塩基の確からしさの少なくとも一つを含む情報である。

シーケンサーは、第一世代シーケンサー（キャピラリーシーケンサー）、第二世代シーケンサー（次世代シーケンサー）、第三世代シーケンサー、第四世代シーケンサー、及び今後開発されるシーケンサーを含む用語である。シーケンサーは、特に断りのない限り、キャピラリーシーケンサーでもよく、次世代シーケンサーでもよく、その他のシーケンサーでもよい。シーケンサーとしては、解析の速さ、１度に処理可能な試料数の多さ等の観点から、次世代シーケンサーが好ましい。次世代シーケンサー（next generation sequencer，ＮＧＳ）とは、サンガー法を利用したキャピラリーシーケンサー（第一世代シーケンサーと呼ばれる。）に対比して分類されるシーケンサーを指す。現時点で最も普及している次世代シーケンサーは、ＤＮＡポリメラーゼによる相補鎖合成又はＤＮＡリガーゼによる相補鎖結合に連動した蛍光又は発光をとらえ塩基配列を決定する原理のシーケンサーである。具体的には、MiSeq（Illumina社）、HiSeq2000（Illumina社、HiSeqは登録商標）、Roche454（Roche社）等が挙げられる。

リードとは、シーケンサーが読み取り処理を行った塩基配列の単位をいう。

リードを補正することは、配列解析データに含まれる品質情報に基づいて行われる。リードの補正には、配列の確からしさが絶対的に又は相対的に低いリードの除外、配列の確からしさが絶対的に又は相対的に高いリードの選択、及び、個々の塩基の修正（例えば、存在の確からしさが高い塩基で、存在の確からしさが低い塩基を置き換えること）の少なくともいずれかが含まれる。

共メチル化サイトとは、ＤＮＡ上の異なる位置にある２個以上のメチル化サイトが同じメチル化状態（共にメチル化されている、又は、共にメチル化されていない）であると推定される場合に、これら２個以上のメチル化サイトを指す。
共メチル化サイトは、例えば、１個又は複数個の塩基を間に挟んで隣接する２個のＣｐＧ部位（シトシンの次にグアニンが現れる２塩基配列）である。

ペアエンド法とは、核酸の両端それぞれから塩基配列を読み取る方法をいう。
ペアエンドリードとは、一の塩基配列について両端それぞれから読み取ったリード対を意味する。

分子バーコードとは、計測対象である複数の核酸を互いに見分けるために付加する、互いに配列が異なる合成核酸である。計測対象である核酸に対して増幅前に固有の分子バーコードを付加しておけば、計測対象である核酸からの増幅産物を同定することが可能となる。

本開示は、シーケンサーを用いてＤＮＡを配列解析して得られた配列解析データを取得し、配列解析データからＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法及びプログラムを開示する。目的の位置にある塩基としては、シトシン、アデニンが挙げられる。

シーケンサーを用いたＤＮＡの配列解析は、目的の位置にある塩基がシトシンの場合、バイサルファイトシーケンス法が好ましい。バイサルファイトシーケンス法のある実施形態例は、ＤＮＡをバイサルファイト処理することと、プライマー対を用いてＰＣＲを行うことと、シーケンサーを用いて増幅産物の配列解析することと、を含む。

本開示は、塩基のメチル化度を算出する方法及びプログラムとして、第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態を開示する。以下、各実施形態を、図１～図７に示すフローチャートを参照しながら説明する。

＜第一の実施形態：共メチル化サイトを利用する実施形態＞
第一の実施形態は、共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データから、ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法である。第一の実施形態は、解析対象のＤＮＡ中に共メチル化サイトがあり、目的の位置の塩基が共メチル化サイトを構成している場合に実施可能な形態である。

ＤＮＡ中の共メチル化サイトは、共メチル化サイトのリスト又は探索アルゴリズムによって同定することが可能である。第一の実施形態は、共メチル化サイトのリスト又は探索アルゴリズムによって、解析対象とするＤＮＡ中の共メチル化サイトを同定すること、をさらに含んでいてもよい。
共メチル化サイトのリストは、既存の遺伝子データベースからメチル化サイトの情報を得て構築することができる。共メチル化サイトの探索アルゴリズムは、例えば、１個以上１０個以下の塩基を間に挟んで隣接する２個のＣｐＧ部位を探索するアルゴリズムである。

第一の実施形態は、共メチル化サイトを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第一の実施形態は、共メチル化サイトの利用の仕方によって２形態（実施形態１－１及び実施形態１－２という。）に分けられる。

［実施形態１－１］
図１は、実施形態１－１の流れを説明するフローチャートである。実施形態１－１は、Ｓ１１１に示す段階、Ｓ１１２に示す段階及びＳ１１３に示す段階を含む。

ＤＮＡ中の共メチル化サイトは同じメチル化状態（共にメチル化されている、又は、共にメチル化されていない）と見込まれるところ、リード中の共メチル化サイトのＣ／Ｔ配列が異なっている場合、共メチル化サイトの少なくとも一方の塩基に計測エラー（例えば、バイサルファイト処理の際の塩基の変換エラー、ＰＣＲの増幅エラー、シーケンサーの読み取りエラー）が生じたものと推定される。実施形態１－１は、Ｓ１１２に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。

Ｓ１１１に示す段階において、シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ１１２に示す段階に進む。

Ｓ１１２に示す段階において、配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正する。具体的には、リード中の共メチル化サイトのうちの、Ｃ／Ｔ配列の信頼性が高い方のサイトの塩基で、Ｃ／Ｔ配列の信頼性が低い方のサイトの塩基を置き換える補正を行うことが好ましい。リード中の共メチル化サイト間でＣ／Ｔ配列が異なっている場合、Ｓ１１２に示す段階において、リード中の共メチル化サイト間のＣ／Ｔ配列が同じ配列に置き換えられる。

次に、Ｓ１１３に示す段階において、補正後のリードから目的の位置の塩基のメチル化度を算出する。目的の位置の塩基の確からしさが増したリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。

［実施形態１－２］
図２は、実施形態１－２の流れを説明するフローチャートである。実施形態１－２は、Ｓ１２１に示す段階、Ｓ１２２に示す段階及びＳ１２３に示す段階を含む。

ＤＮＡ中の共メチル化サイトは同じメチル化状態（共にメチル化されている、又は、共にメチル化されていない）と見込まれるところ、リード中の共メチル化サイトのＣ／Ｔ配列が異なっている場合、共メチル化サイトの少なくとも一方の塩基に計測エラー（例えば、バイサルファイト処理の際の塩基の変換エラー、ＰＣＲの増幅エラー、シーケンサーの読み取りエラー）が生じたものと推定される。実施形態１－２は、Ｓ１２２に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。

Ｓ１２１に示す段階において、シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ１２２に示す段階に進む。

Ｓ１２２に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除く。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。次いで、共メチル化サイト間で塩基が一致しないリードを除く。Ｓ１２２に示す段階において、もとのリードが絞り込まれ、配列の信頼性が高いリードの集団が形成される。

次に、Ｓ１２３に示す段階において、残ったリードから目的の位置の塩基のメチル化度を算出する。配列の信頼性が高いリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。

＜第二の実施形態：ペアエンドリードを利用する実施形態＞
第二の実施形態は、次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データから、ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法である。第二の実施形態は、ペアエンドリードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第二の実施形態は、ペアエンドリードの利用の仕方によって２形態（実施形態２－１及び実施形態２－２という。）に分けられる。

［実施形態２－１］
図３は、実施形態２－１の流れを説明するフローチャートである。実施形態２－１は、Ｓ２１１に示す段階、Ｓ２１２に示す段階及びＳ２１３に示す段階を含む。

一つのペアエンドリードを構成するリード対は同じ配列と見込まれるところ、ペアエンドリード間の配列が異なっている場合、ペアエンドリードの少なくとも一方のリードにシーケンサーの読み取りエラーが生じたものと推定される。実施形態２－１は、Ｓ２１２に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。

Ｓ２１１に示す段階において、次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ２１２に示す段階に進む。

Ｓ２１２に示す段階において、配列解析データに含まれる品質情報に基づきペアエンドリードを補正する。リードの補正は、目的の位置の塩基の確からしさが絶対的に又は相対的に高い方のリードを選択し、このリードをペアエンドリードの代表とすることが好ましい。ペアエンドリード間の配列が異なっている場合、Ｓ２１２に示す段階において、リードの配列が目的の位置について修正される。

次に、Ｓ２１３に示す段階において、補正後のリードから目的の位置の塩基のメチル化度を算出する。目的の位置の塩基の確からしさが増したリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。

［実施形態２－２］
図４は、実施形態２－２の流れを説明するフローチャートである。実施形態２－２は、Ｓ２２１に示す段階、Ｓ２２２に示す段階及びＳ２２３に示す段階を含む。

一つのペアエンドリードを構成するリード対は同じ配列と見込まれるところ、ペアエンドリード間の配列が異なっている場合、ペアエンドリードの少なくとも一方のリードにシーケンサーの読み取りエラーが生じたものと推定される。実施形態２－２は、Ｓ２２２に示す段階において上記計測エラーの補正を行う。
以下、各段階を説明する。

Ｓ２２１に示す段階において、次世代シーケンサーを用いてペアエンド法によってＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ２２２に示す段階に進む。

Ｓ２２２に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。次いで、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く。Ｓ２２２に示す段階において、もとのリードが絞り込まれ、配列の信頼性が高いリードの集団が形成される。

次に、Ｓ２２３に示す段階において、残ったリードから目的の位置の塩基のメチル化度を算出する。配列の信頼性が高いリードの集合からメチル化度を算出するので、塩基のメチル化度の正確性が上がる。

＜第三の実施形態：分子バーコードを利用する実施形態＞
第三の実施形態は、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データから、ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法である。第三の実施形態は、分子バーコードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第三の実施形態は、分子バーコードの利用の仕方によって２形態（実施形態３－１及び実施形態３－２という。）に分けられる。

［実施形態３－１］
図５は、実施形態３－１の流れを説明するフローチャートである。実施形態３－１は、Ｓ３１１に示す段階、Ｓ３１２に示す段階、Ｓ３１３に示す段階、Ｓ３１４に示す段階及びＳ３１５に示す段階を含む。

分子バーコードが同一であるリード群は配列が一致すると見込まれるところ、このリード群に配列が異なるリードが含まれている場合、このリードに計測エラー（例えば、ＰＣＲの増幅エラー、シーケンサーの読み取りエラー）が生じたものと推定される。実施形態３－１は、Ｓ３１１～Ｓ３１５に示す一連の段階を経ることによって、塩基のメチル化度の算出に与える上記計測エラーの影響を低減する。
以下、各段階を説明する。

Ｓ３１１に示す段階において、シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ３１２に示す段階に進む。

Ｓ３１２に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。

次に、Ｓ３１３に示す段階において、補正後のリードを分子バーコードが同一であるリード群に分ける。そして、Ｓ３１４に示す段階に進む。

Ｓ３１４に示す段階において、分子バーコードが同一であるリード群それぞれにおいて目的の位置に最頻出する塩基を決定する。そして、Ｓ３１５に示す段階に進む。

Ｓ３１５に示す段階において、最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出する。Ｓ３１１～Ｓ３１５に示す段階を経ることによって目的の位置の塩基の確からしさが高まるので、塩基のメチル化度の正確性が上がる。

［実施形態３－２］
図６は、実施形態３－２の流れを説明するフローチャートである。実施形態３－２は、Ｓ３２１に示す段階、Ｓ３２２に示す段階、Ｓ３２３に示す段階、Ｓ３２４に示す段階及びＳ３２５に示す段階を含む。

分子バーコードが同一であるリード群は配列が一致すると見込まれるところ、このリード群に配列が異なるリードが含まれている場合、このリードに計測エラー（例えば、ＰＣＲの増幅エラー、シーケンサーの読み取りエラー）が生じたものと推定される。実施形態３－２は、Ｓ３２１～Ｓ３２５に示す一連の段階を経ることによって、塩基のメチル化度の算出に与える上記計測エラーの影響を低減する。
以下、各段階を説明する。

Ｓ３２１に示す段階において、シーケンサーを用いて、分子バーコードが付加されたＤＮＡを配列解析して得られた配列解析データを取得する。そして、Ｓ３２２に示す段階に進む。

Ｓ３２２に示す段階において、配列解析データに含まれる品質情報に基づきリードを補正する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、又は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択であることが好ましい。

次に、Ｓ３２３に示す段階において、補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得る。ここで、目的の位置を含む領域は、リードの一部でもよく、リード全長でもよい。目的の位置を含む領域は、塩基長が５以上の領域であることが好ましい。配列の同一性は、配列解析データに含まれる情報を採用してよく、所定の判定基準に満たない場合、配列に同一性がないと判断する。配列の同一性は、９０％以上が好ましく、９５％以上がより好ましく、１００％が更に好ましく、この数値を判定基準としてよい。配列の同一性についての所定の判定基準を満たした配列を、配列が同一であるとする。

次に、Ｓ３２４に示す段階において、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定する。そして、Ｓ３２５に示す段階に進む。

Ｓ３２５に示す段階において、決定した塩基の集合から目的の位置の塩基のメチル化度を算出する。Ｓ３２１～Ｓ３２４を経ることによって目的の位置の塩基の確からしさが高まるので、塩基のメチル化度の正確性が上がる。

＜第四の実施形態：複数の配列解析データを利用する実施形態＞
第四の実施形態は、シーケンサーを用いてＤＮＡを複数回配列解析して得られた複数の配列解析データから、ＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法である。第四の実施形態は、複数の配列解析データを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。

第四の実施形態の詳細を、下記の実施形態４－１において説明する。また、実施形態４－１の一形態例として、実施形態４－２を説明する。

［実施形態４－１］
図７は、実施形態４－１の流れを説明するフローチャートである。実施形態４－１は、Ｓ４１１に示す段階、Ｓ４１２に示す段階及びＳ４１３に示す段階を含む。

同じＤＮＡを試料とした場合、複数の配列解析データそれぞれから算出される塩基のメチル化度の値は一致するのが理想である。しかし、リードの計測エラー（例えば、バイサルファイト処理の際の塩基の変換エラー、ＰＣＲの増幅エラー、シーケンサーの読み取りエラー）を常にゼロにすることは困難であるので、複数の配列解析データそれぞれから算出される塩基のメチル化度の値がばらつくことがある。実施形態４－１は、塩基のメチル化度の値のばらつきを除いて、塩基のメチル化度の正確性を上げる形態である。
以下、各段階を説明する。

Ｓ４１１に示す段階において、シーケンサーを用いてＤＮＡを複数回配列解析して得られた複数の配列解析データを取得する。そして、Ｓ４１２に示す段階に進む。

Ｓ４１２に示す段階において、各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出する。リードの補正は、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に低いリードの除外、リード全体の配列の確からしさ又は目的の位置の塩基の確からしさが絶対的に又は相対的に高いリードの選択、及び、個々の塩基の修正の少なくとも１つであることが好ましい。

次に、Ｓ４１３に示す段階において、すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とする。代表値は、平均値、中央値、最頻値、任意の定義による値のいずれでもよい。複数の配列解析データそれぞれから算出される塩基のメチル化度の代表値を求めるので、塩基のメチル化度の正確性が上がる。

［実施形態４－２］
実施形態４－２は、実施形態４－１のＳ４１３に示す段階において、すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する。実施形態４－２は、信頼性の低いメチル化度を出力せず、算出不能との判断を行う形態である。

以上に説明した第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態の少なくとも１つを行うことによって、より正確に塩基のメチル化度が算出できる。
さらに正確な塩基のメチル化度を算出する目的で、第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態からなる群から選ばれる２つ以上の実施形態を組み合わせて行ってもよい。

第一の実施形態、第二の実施形態、第三の実施形態、第四の実施形態、及びこれらの組合せの実施形態は、そのプログラムをコンピュータ１００に実行させることにより実現することができる。

コンピュータ１００は、図８のハードウェア構成に示すように、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３及びストレージ１０４を有する。各構成は、バス１０９を介して相互に通信可能に接続されている。

ＣＰＵ１０１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１０１は、ＲＯＭ１０２又はストレージ１０４からプログラムを読み出し、ＲＡＭ１０３を作業領域としてプログラムを実行する。ＣＰＵ１０１は、ＲＯＭ１０２又はストレージ１０４に記録されているプログラムを実行し、各段階の制御及び各種の演算処理を行う。

ＲＯＭ１０２は、各種プログラム及び各種データを格納する。ＲＡＭ１０３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１０４は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）又はフラッシュメモリにより構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。ストレージ１０４には、配列解析データを保存しておくこともできる。

コンピュータ１００は、上記ハードウェア構成のうちＣＰＵ１０１が、図１～図７のフローチャートに示すプログラムを実行し、これにより、塩基のメチル化度の算出方法が実現される。

本開示の実施形態によって算出された塩基のメチル化度（％）は、塩基のメチル化度（％）の真の値との差分が小さいほど好ましく、好ましくは差分が０．２％以下であり、より好ましくは差分が０．１％以下であり、特に好ましくは差分が０％である。

以下、実施例により発明の実施形態をさらに説明するが、発明の実施形態は、これら実施例に何ら限定されるものではない。

［試験用のＤＮＡ及びプライマー対の準備］
試験用のＤＮＡとして、ラムダファージＤＮＡの１２５１６塩基目から１２６１４塩基目までの９９塩基に相当する合成ＤＮＡ（配列番号１，5'-TTGATGGTATTGCACAGAATATGGCGGCGATGCTGACCGGCAGTGAGCAGAACTGGCGCAGCTTCACCCGTTCCGTGCTGTCCATGATGACAGAAATTC-3'）を用意した。配列番号１の２５塩基目のシトシンをサイトＡといい、配列番号１の２８塩基目のシトシンをサイトＢという。

配列番号１の合成ＤＮＡをＰＣＲにより増幅するためのプライマー対として、下記のフォワードプライマー及びリバースプライマーを準備した。
・フォワードプライマー：5'-TTGATGGTATTGTATAGAATATGG-3'（配列番号２）
・リバースプライマー：5'-AAATTTCTATCATCATAAACAACA-3'（配列番号３）

＜実施例１：第一の実施形態の実施例＞
合成ＤＮＡのサイトＡのメチル化度を算出したい。ＤＮＡの合成時に、サイトＡのメチル化度が１．００％になるようコントロールしてある。さらに、サイトＢのメチル化状態を、サイトＡのメチル化状態と同一になるようコントロールしてある。塩基間の距離が１０塩基以内の２つのメチル化サイトを共メチル化サイトとみなすアルゴリズムによって、サイトＡとサイトＢとは共メチル化サイトと判定された。
１００ｎｇのＤＮＡをバイサルファイト処理した。回収したＤＮＡのうち１０ｎｇを、先述のプライマー対を用いてＰＣＲにより増幅した。増幅したＤＮＡ断片の配列を、次世代シーケンサーを用いて解析した。リードを、サイトＡとサイトＢの塩基の種類（シトシンであるか、チミンであるか）によって群分けすると、その内訳は下記のとおりであった。
・リード群１：
サイトＡ＝シトシン／サイトＢ＝シトシン・・・１５９９リード
・リード群２：
サイトＡ＝チミン／サイトＢ＝チミン・・・１５４６２０リード
・リード群３：
サイトＡ＝シトシン／サイトＢ＝チミン・・・１５４６リード
・リード群４：
サイトＡ＝チミン／サイトＢ＝シトシン・・・１５５８リード
合計・・・１５９３２３リード
上記のリード群１～リード群４の集合からサイトＡのメチル化度を算出すると、（群１のリード数＋群３のリード数）÷全リード数×１００＝（１５９９＋１５４６）÷１５９３２３×１００＝１．９７％であった。
上記のリード群１～リード群４の配列解析データをもとにして、下記の実施例１－１及び実施例１－２をそれぞれ行った。

［実施例１－１：実施形態１－１の実施例］
共メチル化サイトであるサイトＡとサイトＢとの間で塩基が異なるリードにおいては、一方のサイトに計測エラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトＡとサイトＢとの間で配列の信頼性が高い方の塩基で配列の信頼性が低い方の塩基を置き換える補正を行った。この補正によって、リード群３は下記のリード群３－１（サイトＡの塩基でサイトＢの塩基を置換）又はリード群３－２（サイトＢの塩基でサイトＡの塩基を置換）に補正され、リード群４は下記のリード群４－１（サイトＢの塩基でサイトＡの塩基を置換）又はリード群４－２（サイトＡの塩基でサイトＢの塩基を置換）に補正された。
・リード群３－１：
サイトＡ＝シトシン／サイトＢ＝シトシン・・・１５リード
・リード群３－２：
サイトＡ＝チミン／サイトＢ＝チミン・・・１５３１リード
・リード群４－１：
サイトＡ＝シトシン／サイトＢ＝シトシン・・・１９リード
・リード群４－２：
サイトＡ＝チミン／サイトＢ＝チミン・・・１５３９リード
補正後のリードの集合からサイトＡのメチル化度を算出すると、（群１のリード数＋群３－１のリード数＋群４－１のリード数）÷全リード数×１００＝（１５９９＋１５＋１９）÷１５９３２３×１００＝１．０２％であった。共メチル化サイトを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の１．００％に近い値を得ることができた。

［実施例１－２：実施形態１－２の実施例］
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、リード群１～リード群４は下記のリード群１’～リード群４’に補正された。
・リード群１’：
サイトＡ＝シトシン／サイトＢ＝シトシン・・・１５６７リード
・リード群２’：
サイトＡ＝チミン／サイトＢ＝チミン・・・１５１５２８リード
・リード群３’：
サイトＡ＝シトシン／サイトＢ＝チミン・・・１４６９リード
・リード群４’：
サイトＡ＝チミン／サイトＢ＝シトシン・・・１４０２リード
合計・・・１５５９６６リード
さらに、共メチル化サイトであるサイトＡとサイトＢとの間で塩基が異なるリード（すなわちリード群３’及びリード群４’）を除いた。残ったリード（すなわちリード群１’及びリード群２’）の集合からサイトＡのメチル化度を算出すると、群１’のリード数÷（群１’のリード数＋群２’のリード数）×１００＝１５６７÷（１５６７＋１５１５２８）×１００＝１．０２％であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の１．００％に近い値を得ることができた。

＜実施例２：第二の実施形態の実施例＞
合成ＤＮＡのサイトＡのメチル化度を算出したい。ＤＮＡの合成時に、サイトＡのメチル化度が１．００％になるようコントロールしてある。
１００ｎｇのＤＮＡをバイサルファイト処理した。回収したＤＮＡのうち１０ｎｇを、先述のプライマー対を用いてＰＣＲにより増幅した。増幅したＤＮＡ断片の配列を、次世代シーケンサーを用いてペアエンド法で解析した。ペアエンドリードの一方をＲ１、もう一方をＲ２という。Ｒ１とＲ２の組合せをサイトＡの塩基の種類（シトシンであるか、チミンであるか）によって群分けすると、その内訳は下記のとおりであった。
・ペアエンドリード群５：
Ｒ１＝シトシン／Ｒ２＝シトシン・・・１５４７ペア
・ペアエンドリード群６：
Ｒ１＝チミン／Ｒ２＝チミン・・・１５３１８２ペア
・ペアエンドリード群７：
Ｒ１＝シトシン／Ｒ２＝チミン・・・７５４ペア
・ペアエンドリード群８：
Ｒ１＝チミン／Ｒ２＝シトシン・・・８０８ペア
合計・・・１５６２９１ペア
上記のペアエンドリード群５～ペアエンドリード群８におけるＲ１の塩基とＲ２の塩基の和集合からサイトＡのメチル化度を算出すると、（群５のペア数×２＋群７のペア数＋群８のペア数）÷（全ペア数×２）×１００＝（１５４７×２＋７５４＋８０８）÷（１５６２９１×２）×１００＝１．４９％であった。
上記のペアエンドリード群５～ペアエンドリード群８の配列解析データをもとにして、下記の実施例２－１及び実施例２－２をそれぞれ行った。

［実施例２－１：実施形態２－１の実施例］
ペアエンドリード間でサイトＡの塩基が一致しないペアエンドリードにおいては、一方のリードに読み取りエラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトＡについて配列の信頼性が高い方のリードをそのペアエンドリードの代表として選択する補正を行った。この補正によって、ペアエンドリード群７は下記のリード群７－１（Ｒ１を代表として選択）とリード群７－２（Ｒ２を代表として選択）とに補正され、ペアエンドリード群８は下記のリード群８－１（Ｒ２を代表として選択）とリード群８－２（Ｒ１を代表として選択）とに補正された。下記には、ペアエンドリード群５及びペアエンドリード群６それぞれについても代表するリードをリード群５－１及びリード群６－１として示す。
・リード群５－１：サイトＡ＝シトシン・・・１５４７リード
・リード群６－１：サイトＡ＝チミン・・・１５３１８２リード
・リード群７－１：サイトＡ＝シトシン・・・１５５リード
・リード群７－２：サイトＡ＝チミン・・・５９９リード
・リード群８－１：サイトＡ＝シトシン・・・１６５リード
・リード群８－２：サイトＡ＝チミン・・・６４３リード
合計・・・１５６２９１リード
上記のリードの集合からサイトＡのメチル化度を算出すると、（群５－１のリード数＋群７－１のリード数＋群８－１のリード数）÷全リード数×１００＝（１５４７＋１５５＋１６５）÷１５６２９１×１００＝１．１９％であった。ペアエンドリードを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の１．００％に近い値を得ることができた。

［実施例２－２：実施形態２－２の実施例］
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、ペアエンドリード群５～ペアエンドリード群８は下記のペアエンドリード群５’～ペアエンドリード群８’に補正された。
・ペアエンドリード群５’：
Ｒ１＝シトシン／Ｒ２＝シトシン・・・１５１６ペア
・ペアエンドリード群６’：
Ｒ１＝チミン／Ｒ２＝チミン・・・１５０１１８ペア
・ペアエンドリード群７’：
Ｒ１＝シトシン／Ｒ２＝チミン・・・７１６ペア
・ペアエンドリード群８’：
Ｒ１＝チミン／Ｒ２＝シトシン・・・７２７ペア
合計・・・１５３０７７ペア
さらに、ペアエンドリード間でサイトＡの塩基が一致しないペアエンドリード群（すなわちペアエンドリード群７’及びペアエンドリード群８’）を除いた。残ったペアエンドリード群（すなわちペアエンドリード群５’及びペアエンドリード群６’）の集合からサイトＡのメチル化度を算出すると、群５’のペア数÷（群５’のペア数＋群６’のペア数）×１００＝１５１６÷（１５１６＋１５０１１８）×１００＝１．００％であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の１．００％に近い値を得ることができた。

＜実施例３：第三の実施形態の実施例＞
合成ＤＮＡのサイトＡのメチル化度を算出したい。ＤＮＡの合成時に、サイトＡのメチル化度が１．００％になるようコントロールしてある。
１００ｎｇのＤＮＡをバイサルファイト処理した。回収したＤＮＡのうち１０ｎｇに、アデニン、グアニン、シトシン及びチミンをランダムに１０塩基並べた分子バーコードを付加し、ランダムプライマーを用いてＰＣＲにより増幅した。増幅したＤＮＡ断片の配列を、次世代シーケンサーを用いて解析した。
ここで、全リードのサイトＡの塩基からメチル化度を算出した場合のメチル化度は、シトシンの個数÷（シトシンの個数＋チミンの個数）×１００＝１８４４９６÷１３３６９３４４×１００＝１．３８％であった。
上記のリードの配列解析データをもとにして、下記の実施例３－１及び実施例３－２をそれぞれ行った。

［実施例３－１：実施形態３－１の実施例］
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。１３１０７２０リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、分子バーコードが同一であるリード群それぞれにおいてサイトＡの最頻出塩基を決定した。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'（配列番号４）であるリード群において、サイトＡの塩基の内訳は下記のとおりであった。このリード群におけるサイトＡの最頻出塩基はシトシンであった。
・シトシン・・・６８５３リード
・チミン・・・５２リード
・アデニン・・・３２リード
・グアニン・・・４４リード
例えば、分子バーコードの配列が5'-CTGATCCAAT-3'（配列番号５）であるリード群において、サイトＡの塩基の内訳は下記のとおりであった。このリード群におけるサイトＡの最頻出塩基はチミンであった。
・シトシン・・・４３リード
・チミン・・・８６５２リード
・アデニン・・・５リード
・グアニン・・・２１リード
上記のようにして、分子バーコードが同一であるリード群それぞれにおいてサイトＡの最頻出塩基を決定したところ、シトシンである群が２７００群、チミンである群が２５９４４４群であった。サイトＡの最頻出塩基の集合からメチル化度を算出すると、２７００÷（２７００＋２５９４４４）×１００＝１．０３％であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の１．００％に近い値を得ることができた。

［実施例３－２：実施形態３－２の実施例］
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。１３１０７２０リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて、サイトＡを含む領域の配列に同一性がないリードを除いた。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'（配列番号４）であるリード群（全６９８１リード）においては、分子バーコード配列を除く配列の最頻出配列が5'-TTGATGGTATTGTATAGAATATGGCGGCGATGTTGATCGGTAGTGAGTAGAATTGGCGTAGTTTTATTCGTTTCGTGTTGTTTATGATGATAGAAATTT-3'（配列番号６）であり、この最頻出配列と同一でないリードを除くと（本実施例では、リード全体の配列の完全一致を同一とした。）、残りは５７２４リードであった。この５７２４リードのサイトＡの塩基はシトシンであった。
上記のようにして、分子バーコードが同一且つ配列が同一のリード群それぞれにおいてサイトＡの塩基を決定したところ、シトシンである群が２６７３群、チミンである群が２５９４７１群であった。サイトＡの塩基の集合からメチル化度を算出すると、２６７３÷（２６７３＋２５９４７１）×１００＝１．０２％であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の１．００％に近い値を得ることができた。

＜実施例４：第四の実施形態の実施例＞
合成ＤＮＡのサイトＡのメチル化度又はサイトＢのメチル化度を算出したい。ＤＮＡの合成時に、サイトＡのメチル化度が１．００％になり、サイトＢのメチル化度が１．００％になるよう、それぞれ独立にコントロールしてある。
ＤＮＡを３分割し、サンプル１、サンプル２及びサンプル３とした。
サンプル各１００ｎｇのＤＮＡをバイサルファイト処理した。回収したＤＮＡのうち各１０ｎｇを、先述のプライマー対を用いてＰＣＲにより増幅した。増幅したＤＮＡ断片の配列を、次世代シーケンサーを用いて解析した。
３回の配列解析データをもとにして、下記の実施例４－１及び実施例４－２をそれぞれ行った。

［実施例４－１：実施形態４－１の実施例］
各サンプルの配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトＡの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル１は１７３６リード、サンプル２は１８０３リード、サンプル３は１７８１リードが除かれた。
サンプルごとに、残ったリードの集合からサイトＡのメチル化度を算出すると、サンプル１で１．１４％、サンプル２で０．７９％、サンプル３で１．４５％であった。３つの値の中央値である１．１４％をサイトＡのメチル化度と算出した。

［実施例４－２：実施形態４－２の実施例］
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトＢの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル１は１６３２リード、サンプル２は１３３８リード、サンプル３は１３０５リードが除かれた。
サンプルごとに、残ったリードの集合からサイトＢのメチル化度を算出すると、サンプル１で１．２５％、サンプル２で５．３２％、サンプル３で１．３２％であった。複数回の計測間でメチル化度に３％以上の乖離がある場合には計測に頑強性がないものとみなし、サイトＢのメチル化度を算出不能とした。

本開示の塩基のメチル化度を算出する方法及びプログラムは、発生学、病態生理学、脳神経科学、再生医学などの学術分野において、核酸のメチル化の研究手段として有用である。

本開示の塩基のメチル化度を算出する方法及びプログラムは、疾患に関連する遺伝子のメチル化異常の検出手段として有用である。本開示の塩基のメチル化度を算出する方法及びプログラムによって検出された遺伝子のメチル化異常は、医師の診断を補助する情報、医師が精密検査（例えば画像検査）の要否を判断する根拠、医師が治療方法又は治療薬を選択する根拠、治療効果の判定、患者の予後予測などとして有用である。

２０２０年３月２５日に出願された日本国出願番号第２０２０－０５５１１６号の開示は、その全体が参照により本明細書に取り込まれる。
本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得することと、
前記配列解析データに含まれる品質情報に基づきリード中の前記共メチル化サイトの塩基のうち信頼性が高い方の塩基で信頼性が低い方の塩基を置き換える補正を行うことと、
補正後のリードから前記目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
共メチル化サイトを有するＤＮＡ中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するＤＮＡを配列解析して得られた配列解析データを取得することと、
前記配列解析データに含まれる品質情報に基づきリードを補正し、さらに、前記共メチル化サイト間で塩基が一致しないリードを除くことと、
残ったリードから前記目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
請求項１に記載の塩基のメチル化度の算出方法、及び請求項２に記載の塩基のメチル化度の算出方法からなる群から選ばれる２つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
請求項１又は請求項２に記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。