JP7362901B2 - 塩基のメチル化度の算出方法及びプログラム - Google Patents
塩基のメチル化度の算出方法及びプログラム Download PDFInfo
- Publication number
- JP7362901B2 JP7362901B2 JP2022509240A JP2022509240A JP7362901B2 JP 7362901 B2 JP7362901 B2 JP 7362901B2 JP 2022509240 A JP2022509240 A JP 2022509240A JP 2022509240 A JP2022509240 A JP 2022509240A JP 7362901 B2 JP7362901 B2 JP 7362901B2
- Authority
- JP
- Japan
- Prior art keywords
- methylation
- base
- reads
- degree
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本開示は、DNAの配列解析データからより正確に塩基のメチル化度を算出する方法及びプログラムを提供することを課題とする。
<1> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<2> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<3> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正することと、
補正後のリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<4> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除くことと、
残ったリードから目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<5> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分けることと、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定することと、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<6> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得することと、
配列解析データに含まれる品質情報に基づきリードを補正することと、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得ることと、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定することと、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。
<7> DNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データを取得することと、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出することと、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とすることと
を含む、塩基のメチル化度の算出方法。
<8> すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、<7>に記載の塩基のメチル化度の算出方法。
<9> <1>に記載の塩基のメチル化度の算出方法、<2>に記載の塩基のメチル化度の算出方法、<3>に記載の塩基のメチル化度の算出方法、<4>に記載の塩基のメチル化度の算出方法、<5>に記載の塩基のメチル化度の算出方法、<6>に記載の塩基のメチル化度の算出方法、<7>に記載の塩基のメチル化度の算出方法、及び<8>に記載の塩基のメチル化度の算出方法からなる群から選ばれる2つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
<10> <1>~<9>のいずれか1つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。
<10’> <1>~<9>のいずれか1つに記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラムにより作動するコンピュータ。
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリード中の共メチル化サイトの塩基を補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<12> 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、共メチル化サイト間で塩基が一致しないリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<13> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきペアエンドリードを補正する段階と、
補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<14> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正し、さらに、ペアエンドリード間で目的の位置の塩基が一致しないペアエンドリードを除く段階と、
残ったリードから目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<15> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分ける段階と、
リード群それぞれにおいて目的の位置に最頻出する塩基を決定する段階と、
最頻出する塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<16> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いて、分子バーコードが付加されたDNAを配列解析して得られた配列解析データを取得する段階と、
配列解析データに含まれる品質情報に基づきリードを補正する段階と、
補正後のリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて目的の位置を含む領域の配列に同一性がないリードを除き、分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群を得る段階と、
分子バーコードが同一且つ目的の位置を含む領域の配列が同一のリード群それぞれにおいて目的の位置の塩基を決定する段階と、
決定した塩基の集合から目的の位置の塩基のメチル化度を算出する段階と、
をコンピュータに実行させるためのプログラム。
<17> DNA中の目的の位置の塩基のメチル化度を算出するプログラムであって、
シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データを取得する段階と、
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づきリードを補正し、補正後のリードから目的の位置の塩基のメチル化度を算出する段階と、
すべての回のメチル化度の集合から代表値を算出し、代表値を目的の位置の塩基のメチル化度とする段階と、
をコンピュータに実行させるためのプログラム。
<18> すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する、<17>に記載のプログラム。
<19> <11>に記載のプログラム、<12>に記載のプログラム、<13>に記載のプログラム、<14>に記載のプログラム、<15>に記載のプログラム、<16>に記載のプログラム、<17>に記載のプログラム、及び<18>に記載のプログラムからなる群から選ばれる2つ以上を組み合わせてコンピュータに実行させるためのプログラム。
<20> <11>~<19>のいずれか1つに記載のプログラムにより作動するコンピュータ。
共メチル化サイトは、例えば、1個又は複数個の塩基を間に挟んで隣接する2個のCpG部位(シトシンの次にグアニンが現れる2塩基配列)である。
ペアエンドリードとは、一の塩基配列について両端それぞれから読み取ったリード対を意味する。
第一の実施形態は、共メチル化サイトを有するDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第一の実施形態は、解析対象のDNA中に共メチル化サイトがあり、目的の位置の塩基が共メチル化サイトを構成している場合に実施可能な形態である。
共メチル化サイトのリストは、既存の遺伝子データベースからメチル化サイトの情報を得て構築することができる。共メチル化サイトの探索アルゴリズムは、例えば、1個以上10個以下の塩基を間に挟んで隣接する2個のCpG部位を探索するアルゴリズムである。
図1は、実施形態1-1の流れを説明するフローチャートである。実施形態1-1は、S111に示す段階、S112に示す段階及びS113に示す段階を含む。
以下、各段階を説明する。
図2は、実施形態1-2の流れを説明するフローチャートである。実施形態1-2は、S121に示す段階、S122に示す段階及びS123に示す段階を含む。
以下、各段階を説明する。
第二の実施形態は、次世代シーケンサーを用いてペアエンド法によってDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第二の実施形態は、ペアエンドリードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第二の実施形態は、ペアエンドリードの利用の仕方によって2形態(実施形態2-1及び実施形態2-2という。)に分けられる。
図3は、実施形態2-1の流れを説明するフローチャートである。実施形態2-1は、S211に示す段階、S212に示す段階及びS213に示す段階を含む。
以下、各段階を説明する。
図4は、実施形態2-2の流れを説明するフローチャートである。実施形態2-2は、S221に示す段階、S222に示す段階及びS223に示す段階を含む。
以下、各段階を説明する。
第三の実施形態は、分子バーコードが付加されたDNAを配列解析して得られた配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第三の実施形態は、分子バーコードを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。第三の実施形態は、分子バーコードの利用の仕方によって2形態(実施形態3-1及び実施形態3-2という。)に分けられる。
図5は、実施形態3-1の流れを説明するフローチャートである。実施形態3-1は、S311に示す段階、S312に示す段階、S313に示す段階、S314に示す段階及びS315に示す段階を含む。
以下、各段階を説明する。
図6は、実施形態3-2の流れを説明するフローチャートである。実施形態3-2は、S321に示す段階、S322に示す段階、S323に示す段階、S324に示す段階及びS325に示す段階を含む。
以下、各段階を説明する。
第四の実施形態は、シーケンサーを用いてDNAを複数回配列解析して得られた複数の配列解析データから、DNA中の目的の位置の塩基のメチル化度を算出する方法である。第四の実施形態は、複数の配列解析データを利用するに際し、配列解析データの品質情報に基づきリードを補正することによって、塩基のメチル化度の正確性を上げる。
図7は、実施形態4-1の流れを説明するフローチャートである。実施形態4-1は、S411に示す段階、S412に示す段階及びS413に示す段階を含む。
以下、各段階を説明する。
実施形態4-2は、実施形態4-1のS413に示す段階において、すべての回のメチル化度の集合が、互いにばらつく、及び、特異的に大きい若しくは小さいメチル化度を含む、の一方又は両方であるとき、代表値及び目的の位置の塩基のメチル化度を算出不能と算出する。実施形態4-2は、信頼性の低いメチル化度を出力せず、算出不能との判断を行う形態である。
さらに正確な塩基のメチル化度を算出する目的で、第一の実施形態、第二の実施形態、第三の実施形態、及び第四の実施形態からなる群から選ばれる2つ以上の実施形態を組み合わせて行ってもよい。
試験用のDNAとして、ラムダファージDNAの12516塩基目から12614塩基目までの99塩基に相当する合成DNA(配列番号1,5'-TTGATGGTATTGCACAGAATATGGCGGCGATGCTGACCGGCAGTGAGCAGAACTGGCGCAGCTTCACCCGTTCCGTGCTGTCCATGATGACAGAAATTC-3')を用意した。配列番号1の25塩基目のシトシンをサイトAといい、配列番号1の28塩基目のシトシンをサイトBという。
・フォワードプライマー:5'-TTGATGGTATTGTATAGAATATGG-3'(配列番号2)
・リバースプライマー :5'-AAATTTCTATCATCATAAACAACA-3'(配列番号3)
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。さらに、サイトBのメチル化状態を、サイトAのメチル化状態と同一になるようコントロールしてある。塩基間の距離が10塩基以内の2つのメチル化サイトを共メチル化サイトとみなすアルゴリズムによって、サイトAとサイトBとは共メチル化サイトと判定された。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。リードを、サイトAとサイトBの塩基の種類(シトシンであるか、チミンであるか)によって群分けすると、その内訳は下記のとおりであった。
・リード群1:
サイトA=シトシン/サイトB=シトシン・・・ 1599リード
・リード群2:
サイトA=チミン /サイトB=チミン ・・・154620リード
・リード群3:
サイトA=シトシン/サイトB=チミン ・・・ 1546リード
・リード群4:
サイトA=チミン /サイトB=シトシン・・・ 1558リード
合計・・・159323リード
上記のリード群1~リード群4の集合からサイトAのメチル化度を算出すると、(群1のリード数+群3のリード数)÷全リード数×100=(1599+1546)÷159323×100=1.97%であった。
上記のリード群1~リード群4の配列解析データをもとにして、下記の実施例1-1及び実施例1-2をそれぞれ行った。
共メチル化サイトであるサイトAとサイトBとの間で塩基が異なるリードにおいては、一方のサイトに計測エラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトAとサイトBとの間で配列の信頼性が高い方の塩基で配列の信頼性が低い方の塩基を置き換える補正を行った。この補正によって、リード群3は下記のリード群3-1(サイトAの塩基でサイトBの塩基を置換)又はリード群3-2(サイトBの塩基でサイトAの塩基を置換)に補正され、リード群4は下記のリード群4-1(サイトBの塩基でサイトAの塩基を置換)又はリード群4-2(サイトAの塩基でサイトBの塩基を置換)に補正された。
・リード群3-1:
サイトA=シトシン/サイトB=シトシン・・・ 15リード
・リード群3-2:
サイトA=チミン /サイトB=チミン ・・・1531リード
・リード群4-1:
サイトA=シトシン/サイトB=シトシン・・・ 19リード
・リード群4-2:
サイトA=チミン /サイトB=チミン ・・・1539リード
補正後のリードの集合からサイトAのメチル化度を算出すると、(群1のリード数+群3-1のリード数+群4-1のリード数)÷全リード数×100=(1599+15+19)÷159323×100=1.02%であった。共メチル化サイトを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の1.00%に近い値を得ることができた。
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、リード群1~リード群4は下記のリード群1’~リード群4’に補正された。
・リード群1’:
サイトA=シトシン/サイトB=シトシン・・・ 1567リード
・リード群2’:
サイトA=チミン /サイトB=チミン ・・・151528リード
・リード群3’:
サイトA=シトシン/サイトB=チミン ・・・ 1469リード
・リード群4’:
サイトA=チミン /サイトB=シトシン・・・ 1402リード
合計・・・155966リード
さらに、共メチル化サイトであるサイトAとサイトBとの間で塩基が異なるリード(すなわちリード群3’及びリード群4’)を除いた。残ったリード(すなわちリード群1’及びリード群2’)の集合からサイトAのメチル化度を算出すると、群1’のリード数÷(群1’のリード数+群2’のリード数)×100=1567÷(1567+151528)×100=1.02%であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の1.00%に近い値を得ることができた。
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いてペアエンド法で解析した。ペアエンドリードの一方をR1、もう一方をR2という。R1とR2の組合せをサイトAの塩基の種類(シトシンであるか、チミンであるか)によって群分けすると、その内訳は下記のとおりであった。
・ペアエンドリード群5:
R1=シトシン/R2=シトシン・・・ 1547ペア
・ペアエンドリード群6:
R1=チミン /R2=チミン ・・・153182ペア
・ペアエンドリード群7:
R1=シトシン/R2=チミン ・・・ 754ペア
・ペアエンドリード群8:
R1=チミン /R2=シトシン・・・ 808ペア
合計・・・156291ペア
上記のペアエンドリード群5~ペアエンドリード群8におけるR1の塩基とR2の塩基の和集合からサイトAのメチル化度を算出すると、(群5のペア数×2+群7のペア数+群8のペア数)÷(全ペア数×2)×100=(1547×2+754+808)÷(156291×2)×100=1.49%であった。
上記のペアエンドリード群5~ペアエンドリード群8の配列解析データをもとにして、下記の実施例2-1及び実施例2-2をそれぞれ行った。
ペアエンドリード間でサイトAの塩基が一致しないペアエンドリードにおいては、一方のリードに読み取りエラーが生じたものとみなし、配列解析データに含まれる品質情報に基づき、サイトAについて配列の信頼性が高い方のリードをそのペアエンドリードの代表として選択する補正を行った。この補正によって、ペアエンドリード群7は下記のリード群7-1(R1を代表として選択)とリード群7-2(R2を代表として選択)とに補正され、ペアエンドリード群8は下記のリード群8-1(R2を代表として選択)とリード群8-2(R1を代表として選択)とに補正された。下記には、ペアエンドリード群5及びペアエンドリード群6それぞれについても代表するリードをリード群5-1及びリード群6-1として示す。
・リード群5-1:サイトA=シトシン・・・ 1547リード
・リード群6-1:サイトA=チミン ・・・153182リード
・リード群7-1:サイトA=シトシン・・・ 155リード
・リード群7-2:サイトA=チミン ・・・ 599リード
・リード群8-1:サイトA=シトシン・・・ 165リード
・リード群8-2:サイトA=チミン ・・・ 643リード
合計・・・156291リード
上記のリードの集合からサイトAのメチル化度を算出すると、(群5-1のリード数+群7-1のリード数+群8-1のリード数)÷全リード数×100=(1547+155+165)÷156291×100=1.19%であった。ペアエンドリードを利用してリード中の目的の位置の塩基の確からしさを増したことによって、真値の1.00%に近い値を得ることができた。
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。この補正によって、ペアエンドリード群5~ペアエンドリード群8は下記のペアエンドリード群5’~ ペアエンドリード群8’に補正された。
・ペアエンドリード群5’:
R1=シトシン/R2=シトシン・・・ 1516ペア
・ペアエンドリード群6’:
R1=チミン /R2=チミン ・・・150118ペア
・ペアエンドリード群7’:
R1=シトシン/R2=チミン ・・・ 716ペア
・ペアエンドリード群8’:
R1=チミン /R2=シトシン・・・ 727ペア
合計・・・153077ペア
さらに、ペアエンドリード間でサイトAの塩基が一致しないペアエンドリード群(すなわちペアエンドリード群7’及びペアエンドリード群8’)を除いた。残ったペアエンドリード群(すなわちペアエンドリード群5’及びペアエンドリード群6’)の集合からサイトAのメチル化度を算出すると、群5’のペア数÷(群5’のペア数+群6’のペア数)×100=1516÷(1516+150118)×100=1.00%であった。もとのリードを配列の信頼性が高いリードに絞り込んだことによって、真値の1.00%に近い値を得ることができた。
合成DNAのサイトAのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になるようコントロールしてある。
100ngのDNAをバイサルファイト処理した。回収したDNAのうち10ngに、アデニン、グアニン、シトシン及びチミンをランダムに10塩基並べた分子バーコードを付加し、ランダムプライマーを用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。
ここで、全リードのサイトAの塩基からメチル化度を算出した場合のメチル化度は、シトシンの個数÷(シトシンの個数+チミンの個数)×100=184496÷13369344×100=1.38%であった。
上記のリードの配列解析データをもとにして、下記の実施例3-1及び実施例3-2をそれぞれ行った。
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。1310720リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、分子バーコードが同一であるリード群それぞれにおいてサイトAの最頻出塩基を決定した。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'(配列番号4)であるリード群において、サイトAの塩基の内訳は下記のとおりであった。このリード群におけるサイトAの最頻出塩基はシトシンであった。
・シトシン・・・6853リード
・チミン ・・・ 52リード
・アデニン・・・ 32リード
・グアニン・・・ 44リード
例えば、分子バーコードの配列が5'-CTGATCCAAT-3'(配列番号5)であるリード群において、サイトAの塩基の内訳は下記のとおりであった。このリード群におけるサイトAの最頻出塩基はチミンであった。
・シトシン・・・ 43リード
・チミン ・・・8652リード
・アデニン・・・ 5リード
・グアニン・・・ 21リード
上記のようにして、分子バーコードが同一であるリード群それぞれにおいてサイトAの最頻出塩基を決定したところ、シトシンである群が2700群、チミンである群が259444群であった。サイトAの最頻出塩基の集合からメチル化度を算出すると、2700÷(2700+259444)×100=1.03%であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の1.00%に近い値を得ることができた。
配列解析データに含まれる品質情報に基づき、個々のリードごとにリード全体の配列の信頼性が基準値より低いリードを除く補正を行った。1310720リードが除かれた。
次に、残ったリードを分子バーコードが同一であるリード群に分け、さらに、リード群それぞれにおいて、サイトAを含む領域の配列に同一性がないリードを除いた。
例えば、分子バーコードの配列が5'-ATGATCGATC-3'(配列番号4)であるリード群(全6981リード)においては、分子バーコード配列を除く配列の最頻出配列が5'-TTGATGGTATTGTATAGAATATGGCGGCGATGTTGATCGGTAGTGAGTAGAATTGGCGTAGTTTTATTCGTTTCGTGTTGTTTATGATGATAGAAATTT-3'(配列番号6)であり、この最頻出配列と同一でないリードを除くと(本実施例では、リード全体の配列の完全一致を同一とした。)、残りは5724リードであった。この5724リードのサイトAの塩基はシトシンであった。
上記のようにして、分子バーコードが同一且つ配列が同一のリード群それぞれにおいてサイトAの塩基を決定したところ、シトシンである群が2673群、チミンである群が259471群であった。サイトAの塩基の集合からメチル化度を算出すると、2673÷(2673+259471)×100=1.02%であった。配列解析データに含まれる品質情報に基づきリードを補正し、さらに、分子バーコードを利用して塩基のメチル化度の算出に与える計測エラーの影響を低減することによって、真値の1.00%に近い値を得ることができた。
合成DNAのサイトAのメチル化度又はサイトBのメチル化度を算出したい。DNAの合成時に、サイトAのメチル化度が1.00%になり、サイトBのメチル化度が1.00%になるよう、それぞれ独立にコントロールしてある。
DNAを3分割し、サンプル1、サンプル2及びサンプル3とした。
サンプル各100ngのDNAをバイサルファイト処理した。回収したDNAのうち各10ngを、先述のプライマー対を用いてPCRにより増幅した。増幅したDNA断片の配列を、次世代シーケンサーを用いて解析した。
3回の配列解析データをもとにして、下記の実施例4-1及び実施例4-2をそれぞれ行った。
各サンプルの配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトAの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル1は1736リード、サンプル2は1803リード、サンプル3は1781リードが除かれた。
サンプルごとに、残ったリードの集合からサイトAのメチル化度を算出すると、サンプル1で1.14%、サンプル2で0.79%、サンプル3で1.45%であった。3つの値の中央値である1.14%をサイトAのメチル化度と算出した。
各回の配列解析データごとに、配列解析データに含まれる品質情報に基づき、サイトBの塩基の信頼性が基準値より低いリードを除く補正を行った。サンプル1は1632リード、サンプル2は1338リード、サンプル3は1305リードが除かれた。
サンプルごとに、残ったリードの集合からサイトBのメチル化度を算出すると、サンプル1で1.25%、サンプル2で5.32%、サンプル3で1.32%であった。複数回の計測間でメチル化度に3%以上の乖離がある場合には計測に頑強性がないものとみなし、サイトBのメチル化度を算出不能とした。
本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
Claims (4)
- 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
前記配列解析データに含まれる品質情報に基づきリード中の前記共メチル化サイトの塩基のうち信頼性が高い方の塩基で信頼性が低い方の塩基を置き換える補正を行うことと、
補正後のリードから前記目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。 - 共メチル化サイトを有するDNA中の目的の位置の塩基のメチル化度を算出する方法であって、
シーケンサーを用いて共メチル化サイトを有するDNAを配列解析して得られた配列解析データを取得することと、
前記配列解析データに含まれる品質情報に基づきリードを補正し、さらに、前記共メチル化サイト間で塩基が一致しないリードを除くことと、
残ったリードから前記目的の位置の塩基のメチル化度を算出することと、
を含む、塩基のメチル化度の算出方法。 - 請求項1に記載の塩基のメチル化度の算出方法、及び請求項2に記載の塩基のメチル化度の算出方法からなる群から選ばれる2つ以上を組み合わせて行う、塩基のメチル化度の算出方法。
- 請求項1又は請求項2に記載の塩基のメチル化度の算出方法をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020055116 | 2020-03-25 | ||
JP2020055116 | 2020-03-25 | ||
PCT/JP2020/041984 WO2021192395A1 (ja) | 2020-03-25 | 2020-11-10 | 塩基のメチル化度の算出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021192395A1 JPWO2021192395A1 (ja) | 2021-09-30 |
JP7362901B2 true JP7362901B2 (ja) | 2023-10-17 |
Family
ID=77891135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022509240A Active JP7362901B2 (ja) | 2020-03-25 | 2020-11-10 | 塩基のメチル化度の算出方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230054019A1 (ja) |
EP (1) | EP4130289A4 (ja) |
JP (1) | JP7362901B2 (ja) |
CN (1) | CN115427587A (ja) |
WO (1) | WO2021192395A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160076093A1 (en) | 2014-08-04 | 2016-03-17 | University Of Washington | Multiplex homology-directed repair |
WO2019014218A2 (en) | 2017-07-12 | 2019-01-17 | Agilent Technologies, Inc. | SEQUENCING METHOD FOR DETECTION OF GENOMIC REARRANGEMENTS |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10201138B4 (de) | 2002-01-08 | 2005-03-10 | Epigenomics Ag | Verfahren zum Nachweis von Cytosin-Methylierungsmustern durch exponentielle Ligation hybridisierter Sondenoligonukleotide (MLA) |
JP2004019840A (ja) | 2002-06-19 | 2004-01-22 | Gac Corp | パイプアッセンブリの製造方法 |
US20060183128A1 (en) * | 2003-08-12 | 2006-08-17 | Epigenomics Ag | Methods and compositions for differentiating tissues for cell types using epigenetic markers |
DE10338308B4 (de) | 2003-08-15 | 2006-10-19 | Epigenomics Ag | Verfahren zum Nachweis von Cytosin-Methylierungen in DNA |
BR112019018272A2 (pt) * | 2017-03-02 | 2020-07-28 | Youhealth Oncotech, Limited | marcadores metilação para diagnosticar hepatocelular carcinoma e câncer |
JP7239101B2 (ja) | 2018-09-28 | 2023-03-14 | 株式会社カワタ | 粉粒体供給装置 |
-
2020
- 2020-11-10 JP JP2022509240A patent/JP7362901B2/ja active Active
- 2020-11-10 CN CN202080098492.6A patent/CN115427587A/zh active Pending
- 2020-11-10 WO PCT/JP2020/041984 patent/WO2021192395A1/ja unknown
- 2020-11-10 EP EP20926889.5A patent/EP4130289A4/en active Pending
-
2022
- 2022-09-15 US US17/945,689 patent/US20230054019A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160076093A1 (en) | 2014-08-04 | 2016-03-17 | University Of Washington | Multiplex homology-directed repair |
WO2019014218A2 (en) | 2017-07-12 | 2019-01-17 | Agilent Technologies, Inc. | SEQUENCING METHOD FOR DETECTION OF GENOMIC REARRANGEMENTS |
Non-Patent Citations (2)
Title |
---|
Briefings in Bioinformatics,2016年,17(6),p. 938-952 |
IEEE SIGNAL PROCESSING MAGAZINE,2012年,Volume: 29, Issue: 1,p. 89-97 |
Also Published As
Publication number | Publication date |
---|---|
EP4130289A4 (en) | 2023-09-13 |
CN115427587A (zh) | 2022-12-02 |
JPWO2021192395A1 (ja) | 2021-09-30 |
WO2021192395A1 (ja) | 2021-09-30 |
US20230054019A1 (en) | 2023-02-23 |
EP4130289A1 (en) | 2023-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7119014B2 (ja) | まれな変異およびコピー数多型を検出するためのシステムおよび方法 | |
JP7051900B2 (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
US20180340228A1 (en) | Diagnostic mirna markers for parkinson's disease | |
CN108138227A (zh) | 使用具有独特分子索引(umi)的冗余读段在测序dna片段中抑制误差 | |
JP2019531700A5 (ja) | ||
US20140066317A1 (en) | Systems and methods to detect rare mutations and copy number variation | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
JP6125731B2 (ja) | 核酸分子数計測法 | |
CA3044231A1 (en) | Validation methods and systems for sequence variant calls | |
Bacher et al. | Mutational profiling in patients with MDS: ready for every-day use in the clinic? | |
EP3080303A1 (en) | Methods for full-length amplification of double-stranded linear nucleic acids of unknown sequences | |
JP2024056939A (ja) | 生体試料のフィンガープリンティングのための方法 | |
JP7362901B2 (ja) | 塩基のメチル化度の算出方法及びプログラム | |
JP7084034B2 (ja) | 神経芽腫の微小残存病変を評価するために用いられる試薬、およびそれを用いた生体試料の分析方法 | |
CN106233291A (zh) | 高通量测序应用中的变体分析 | |
WO2017136606A1 (en) | Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation | |
JP2021502072A (ja) | 脱アミノ化に誘導される配列エラーの補正 | |
JP2020517304A (ja) | Dna分析のためのオフターゲット配列の使用 | |
WO2023021978A1 (ja) | 自己免疫疾患を検査する方法 | |
WO2023232940A1 (en) | A computer implemented method for identifying, if present, a preselected genetic disorder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7362901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |