JP6679065B2 - 稀少突然変異の検出方法、検出装置及びコンピュータプログラム - Google Patents

稀少突然変異の検出方法、検出装置及びコンピュータプログラム Download PDF

Info

Publication number
JP6679065B2
JP6679065B2 JP2015199342A JP2015199342A JP6679065B2 JP 6679065 B2 JP6679065 B2 JP 6679065B2 JP 2015199342 A JP2015199342 A JP 2015199342A JP 2015199342 A JP2015199342 A JP 2015199342A JP 6679065 B2 JP6679065 B2 JP 6679065B2
Authority
JP
Japan
Prior art keywords
base
ratio
genomic dna
mutation
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015199342A
Other languages
English (en)
Other versions
JP2017070240A (ja
Inventor
牛島 俊和
俊和 牛島
聡 山下
聡 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
National Cancer Center Japan
Original Assignee
Sysmex Corp
National Cancer Center Japan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp, National Cancer Center Japan filed Critical Sysmex Corp
Priority to JP2015199342A priority Critical patent/JP6679065B2/ja
Priority to US15/287,121 priority patent/US20170101670A1/en
Publication of JP2017070240A publication Critical patent/JP2017070240A/ja
Application granted granted Critical
Publication of JP6679065B2 publication Critical patent/JP6679065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)

Description

本発明は、稀少突然変異の検出方法に関する。また、本発明は、稀少突然変異の検出装置及び稀少突然変異の検出をコンピュータに実行させるためのコンピュータプログラムに関する。
個人のゲノム配列は単一であると考えられてきたが、次世代シーケンサーを用いた研究により、個人には、塩基配列がわずかに異なるゲノムDNAが多数存在することが明らかとなった。これは、生殖細胞の発生の間に一定の頻度で塩基配列に変異が生じることや、細胞分裂及び染色体複製の際にも一定の頻度で塩基配列に変異が生じることによる。このようにして生じたゲノム配列の変異は、疾患の発症の一因にもなることが知られている。
がんは、がん遺伝子及びがん抑制遺伝子に塩基配列の変異が段階的に生じることにより発生するといわれている。腫瘍組織から得たゲノムDNAを次世代シーケンサーで解析することにより、個々のがん細胞は単一のゲノム配列を有しておらず、種々の変異を有することが知られている。非特許文献1では、胃の腫瘍組織及び胃の非腫瘍組織のゲノムDNAについて全エキソームシーケンシング及びディープシーケンシングを行い、体細胞変異が、炎症を生じた胃がん組織の種々の遺伝子に蓄積していることを開示している。
Shimizu T.ら, Accumulation of Somatic Mutations in TP53 in Gastric Epithelium With Helicobacter pylori Infection, Gastroenterology, 2014, vol.147, No.2, p.407-417
ゲノムDNAにおいて非常に低い頻度で認められる変異を、塩基配列の解析(以下、「シーケンシング」ともいう)により検出する場合、当該変異を有するゲノムDNA分子が試料中に確実に含まれるようにするために、通常は十分量のゲノムDNAをテンプレートに用いる。例えば、非特許文献1では、DNAシーケンシングのために約5μgの断片化DNAをテンプレートに用いている。しかし、現在の技術では、テンプレートDNAの核酸増幅時及びシーケンシング時に所定の頻度でエラーが起こるので、解析したゲノムDNAの塩基配列には、該エラーに由来する変異が含まれ得る。そのため、シーケンシングで検出したゲノムDNAの変異が、突然変異であるか又はエラーによる変異であるかを区別することが難しい。
本発明者らは、驚くべきことに、通常よりも極めて少ない量のDNAをテンプレートに用いてシーケンシングを行うことによって、テンプレートDNA中に検出した変異が、突然変異であるか又はエラーによる変異であるかを区別できることを見出して、本発明を完成した。
よって、本発明は、稀少突然変異の検出方法を提供する。この検出方法は、1000コピー以下のテンプレートDNAを含む試料を調製する工程と、テンプレートDNAを増幅してライブラリを作製し、このライブラリの塩基配列を解析する工程と、解析結果から、所定の位置の塩基における変異体の割合を算出する工程と、算出した変異体の割合と所定のカットオフ値とを比較し、この変異体の割合が所定のカットオフ値以上の場合に、上記所定の位置の塩基に稀少突然変異があると判定する工程とを含む。
さらに、本発明は、稀少突然変異の検出方法を提供する。この検出方法は、テンプレートDNAを含む試料を分割し、1000コピー以下のテンプレートDNAを含む複数のアリコートを調製する工程と、第1のアリコート中のテンプレートDNAを増幅してライブラリを作製し、このライブラリの塩基配列を解析する工程と、解析結果から、所定の位置の塩基における変異体の割合を算出する工程と、算出した変異体の割合と所定のカットオフ値とを比較し、この変異体の割合が所定のカットオフ値以上の場合に、上記所定の位置の塩基に稀少突然変異があると判定し、上記変異体の割合が上記所定のカットオフ値未満の場合に、上記所定の位置の塩基に稀少突然変異がないと判定する工程と、第2のアリコートを用いて上記解析工程、上記算出工程及び上記判定工程を実行する工程とを含む。
本発明は、稀少突然変異の検出装置を提供する。この装置は、1000コピー以下のテンプレートDNAを含む試料を用いて核酸増幅反応により作製されたライブラリの解析データを受信する受信部と、所定のカットオフ値を格納したメモリと、受信部から入力された前記解析データから、所定の位置の塩基における変異体の割合を算出し、算出した変異体の割合と所定のカットオフ値とを比較し、この変異体の割合が所定のカットオフ値以上の場合に、上記所定の位置の塩基に稀少突然変異があると判定するCPUとを備える。
本発明は、コンピュータが読み取り可能な媒体に記録された、稀少突然変異の検出用コンピュータプログラムを提供する。このコンピュータプログラムは、1000コピー以下のテンプレートDNAを含む試料を用いて核酸増幅反応により作製されたライブラリの解析データを取得するステップと、取得した解析データから、所定の位置の塩基における変異体の割合を算出するステップと、算出した変異体の割合と所定のカットオフ値とを比較し、この変異体の割合が所定のカットオフ値以上の場合に、上記所定の位置の塩基に稀少突然変異があると判定するステップとをコンピュータに実行させる。
本発明によれば、ゲノムDNAにおける稀少突然変異を検出することが可能となる。
通常の量のゲノムDNAをテンプレートに用いる従来のシーケンシング法の原理を示した図である。 本実施形態の稀少突然変異の検出方法の原理を示した図である。 変異原により誘導された体細胞変異の頻度を示すグラフである。 各患者グループから得た組織粘膜DNAにおける変異の頻度を示す散布図である。 食道発がん危険因子の曝露がある健常者から得た正常食道粘膜の変異頻度と、食道扁平上皮がん患者から得た非がん性食道粘膜の変異頻度から、がん患者を識別するためのROC曲線である。 検出装置の一例を示した概略図である。 検出装置のハードウェア構成を示すブロック図である。 検出装置を用いた稀少突然変異の存否の判定のフローチャートである。 検出装置を用いた稀少突然変異の存否の判定のフローチャートである。
[1.稀少突然変異の検出方法]
本実施形態において、「稀少突然変異」とは、生体内で生じた、核酸中の塩基の変異であって、以下の2つの条件を満たす変異を意図する:
- DNA分子において、当該変異は、1×10-3/塩基以下の頻度(すなわち、1,000塩基に1つ以下の確率)で出現する;
- DNA分子を含む試料において、所定の位置の塩基に当該変異を有するDNA分子の割合が、試料中の全DNA分子数の10%以下となる。
塩基の変異は、置換、挿入及び欠失のいずれでもよいが、好ましくは置換である。本実施形態では、テンプレートDNA又は後述のリードの所定の位置における、元の塩基とは異なる塩基を「変異体」(variant)とも呼ぶ。変異体は、突然変異に由来してもよいし、核酸増幅又はシーケンシングで発生するエラーによる変異に由来してもよい。
本実施形態では、SNP(一塩基多型)は、稀少突然変異には含まれない。SNPは、1×10-3/塩基以下の頻度でその出現が認められるゲノムDNAの変異ではあるが、各個人のDNA分子を含む試料では、SNPを有するDNA分子が50%又は100%の割合(母方アレル及び父方アレルのいずれか一方又は両方)で認められる遺伝的多型の一種であり、突然変異とは異なるからである。
稀少突然変異は、生体内で種々の原因により生じ得る。例えば、細胞が変異原又は変異をもたらすリスクのある物質に曝露されることにより、一部の細胞のDNAに変異が生じることがある。このような変異も、上記の条件を満たすのであれば、「稀少突然変異」に含まれる。また、がんなど疾患においては、DNAに変異が起きやすい状態となることが知られている。がん化の過程において、疾患の主因となる変異(ドライバー変異ともいう)と同時に、疾患の原因とはならない変異も生じることがあり、そのような変異は一般的にパッセンジャー変異と呼ばれる。非がん組織におけるパッセンジャー変異は、DNA上の様々な位置にランダムで1×10-3/塩基以下の頻度で出現すると一般的に言われており、「稀少突然変異」に含まれ得る。
本実施形態の稀少突然変異の検出方法(以下、単に「検出方法」ともいう)では、稀少突然変異の頻度の下限は、理論上は特に限定されない。本実施形態では、1,000コピー以下のテンプレートDNA中に少なくとも1つの稀少突然変異が含まれ得るかぎり、1×10-4/塩基以下、1×10-5/塩基以下、1×10-6/塩基以下の頻度で認められる稀少突然変異でも検出可能である。例えば、出現頻度が1×10-6/塩基である稀少突然変異を検出する場合、100コピーのゲノムDNAについて10,000塩基の領域を解析すれば、理論上、該100コピーのゲノムDNAの解析した領域中に1つの稀少突然変異が含まれ得る(1×10-6×10000×100=1)。
以下、図1A及びBを参照して、本実施形態の検出方法の原理を説明する。なお、以下はあくまで本発明を理解するための例であって、本発明を限定するものではない。まず、通常の量のゲノムDNAをテンプレートに用いる従来のシーケンシング法について、図1Aを参照して説明する。図1Aの左側は、テンプレートDNAとして用いられる15,000コピーのゲノムDNA(50 ngに相当)を示す。各バーは、ゲノムDNA分子を表す。本明細書では、DNAのコピー数は、DNAの分子数と同じ意味である。図中、「■」は、稀少突然変異を表し、2本の破線で挟まれた領域は、核酸増幅される所定の領域(150 bp)を表す(後述の図1Bについても同様)。従来技術では、ゲノムDNA中の所望の領域をPCRで増幅し、アンプリコン(PCR産物)から作製されたライブラリをシーケンシングする場合、テンプレートとして通常50〜100 ngのゲノムDNAが必要である。図1Aでは、15,000コピーのゲノムDNA中に稀少突然変異が6つ含まれ、増幅領域には3つ含まれている。これらの稀少突然変異の頻度は、増幅領域において1.33×10-6/塩基である(3/(150×15000)=1.33×10-6)。また、試料中のゲノムDNAの分子数に対する、所定の位置の塩基に変異体があるゲノムDNAの分子数の割合は1%未満である。例えば、矢印で示した位置の塩基では、15,000コピーのゲノムDNA中に変異が1つあるので、変異体の割合は6.66×10-3%である((1/15000)×100=6.66×10-3)。
図1Aの右側は、ゲノムDNAをPCR増幅して作製されたライブラリの塩基配列の解析結果を示す。各バーは、リードを表す。ここで、「ライブラリ」とは、シーケンサーにより塩基配列を解析されることとなるアンプリコンの集合体を意味し、「リード」とは、シーケンサーにより塩基配列を解析されたアンプリコンの単位を意味する。ここでは、ゲノムDNAが10倍に増幅され、得られたアンプリコンの全てが解析されて150,000リードを得た状態を示す。図中、「×」は、核酸増幅及びシーケンシングによるエラー(以下、単に「エラー」ともいう)に由来する変異を表す(後述の図1Bについても同様)。ここで、変異体が含まれるリードの数の割合(以下、単に「変異体の割合」ともいう)を算出する。稀少突然変異に由来する変異体の割合は、テンプレートDNAと同様に1%未満である。また、エラーに由来する変異体の割合も、通常は1%未満である。したがって、シーケンシングの結果、テンプレートDNA中の変異を検出したとしても、この変異が、稀少突然変異であるのか又はエラーに由来する変異であるのかを区別できない。
上記の点について、より具体的に説明する。図1Aを参照して、ゲノムDNAにおいて矢印で示した位置に稀少突然変異が1つあった場合、核酸増幅及びシーケンシングにより、この稀少突然変異に由来する変異を有するリードは10個となる。ここで、エラーに由来する変異体の割合が0.1%であるとき、エラーによる変異を有するリードは150個となる(150000×0.1/100=150)。したがって、150,000リードにおける変異体の割合は0.106%となる([(10+150)/150000]×100=0.106)。一方、ゲノムDNAにおいて矢印で示した位置に稀少突然変異がなかった場合、リードには、エラーに由来する変異のみが含まれる。よって、150,000リードにおける変異体の割合は0.100%となる((150/150000)×100=0.100)。このように、ゲノムDNAに稀少突然変異があった場合(0.106%)と、なかった場合(0.100%)とで、変異体の割合には差がほとんどない。よって、通常の量のゲノムDNAをテンプレートに用いる従来のシーケンシング法では、検出した変異が、稀少突然変異であるのか又はエラーに由来する変異であるのかを区別できない。
本実施形態の検出方法の原理を、図1Bを参照して説明する。図1Bの左側は、テンプレートDNAとして用いられる、100コピーのゲノムDNA(0.33 ngに相当)を示す。図1Bでは、100コピーのゲノムDNA中に稀少突然変異が1つ含まれている。この稀少突然変異の頻度は、増幅領域において6.66×10-5/塩基である(1/(150×100)=6.66×10-5)。また、変異体が含まれるリード数の割合は、例えば、矢印で示した位置の塩基では100コピーのゲノムDNA中に変異が1つあるので、1%である((1/100)×100=1)。図1Bの右側は、リードを示す。ここでは、ゲノムDNAが10倍に増幅され、得られたアンプリコンの全てが解析されて1,000リードを得た状態を示す。このとき、稀少突然変異に由来する変異体の割合は、テンプレートDNAと同様に、1%である。一方、エラーに由来する変異体の割合は、通常1%未満である。このように、稀少突然変異に由来する変異体の割合は、エラーに由来する変異体の割合よりも高い。したがって、本実施形態の検出方法では、シーケンシングにより検出した変異が、稀少突然変異であるのか又はエラーに由来する変異であるのかを区別できる。
上記の点について、より具体的に説明する。図1Bを参照して、ゲノムDNAにおいて矢印で示した位置に稀少突然変異が1つあった場合、核酸増幅及びシーケンシングにより、この稀少突然変異に由来する変異を有するリードは10個となる。ここで、エラーに由来する変異体の割合が0.1%であるとき、エラーに由来する変異を有するリードは1個となる(1000×0.1/100=1)。したがって、1,000リードにおける変異体の割合は1.1%となる([(10+1)/1000]×100=1.1)。一方、ゲノムDNAにおいて矢印で示した位置に稀少突然変異がなかった場合、リードには、エラーに由来する変異のみが含まれる。よって、1,000リードにおける変異体があるリード数の割合は0.1%となる((1/1000)×100=0.1)。このように、ゲノムDNAに稀少突然変異があった場合(1.1%)と、なかった場合(0.1%)とで、変異体の割合の差が大きくなる。よって、本実施形態の検出方法では、検出した変異が、稀少突然変異であるのか又はエラーに由来する変異であるのかを区別することが可能となる。
稀少突然変異の有無が未知のテンプレートDNAを用いて図1Bの方法を実施した場合、該テンプレートDNAから得たリード上の各位置において、元の塩基とは異なる塩基(稀少突然変異又はエラー)を含むリードの数の割合を算出し、いずれの位置で稀少突然変異が存在するかを判定できる。例えば、150 bpの増幅領域において、1番目の塩基が1,000リードのうち約1.1%の割合で元の塩基と異なっており、2〜150番目の塩基はいずれも約0.1%の割合で元の塩基と異なっていた場合、増幅領域のうち1番目の塩基に稀少突然変異が存在すると判定できる。
なお、図1Bに示される方法によると、テンプレートDNAの分子数が少ないので、確率的に、稀少突然変異に由来する変異体が試料中に含まれない場合がある。その場合は、図1Bに示される方法を複数回実施することにより、稀少突然変異が存在する部位を特定してもよい。例えば、まず、テンプレートDNAを多量に含む試料を複数のアリコート(aliquot)に分割する。ここで、試料の分割は、各アリコートが1,000コピー以下のテンプレートDNAを含むように行われる。そして、第1のアリコートに対して図1Bの方法を実施し、稀少突然変異を検出する。同様に、残りのアリコートに対しても、それぞれ図1Bの方法を実施する。このように試料を分割して、図1Bに示される方法を複数回実施することにより、多量のテンプレートDNAから稀少突然変異を検出することができる。より具体的には、15,000分子のテンプレートDNAを全て分析する場合は、100分子のテンプレートDNAを含むアリコートを150個調製し、第1アリコート〜第150アリコートの各々を用いて150回の分析(図1Bの方法)を行うことができる。この実施形態では、複数のアリコートを同時に分析してもよいし、各アリコートを順次分析してもよい。例えば、第1のアリコートに対する分析において稀少突然変異が検出されなかった場合に、第2のアリコートに対して分析を行ってもよい。アリコートの数は、各アリコートに含まれるテンプレートDNAの分子数が1,000以下であれば、特に限定されない。
本実施形態の検出方法の各工程について、以下に説明する。本実施形態の検出方法では、まず、1,000コピー以下のテンプレートDNAを含む試料を調製する。
テンプレートDNAは、稀少突然変異を含む可能性のあるDNAであれば特に限定されないが、好ましくはゲノムDNAである。テンプレートDNAの由来は特に限定されず、動物、植物及び微生物のいずれの生物種に由来してもよい。それらの中でも、ゲノムDNAの全配列が解析されている生物のゲノムDNAが好ましく、ヒトのゲノムDNAが特に好ましい。ヒトのゲノムDNAは、例えば、生体試料から抽出できる。生体試料としては、細胞、組織、体液、尿、便などが挙げられる。体液としては、血液、血清、血漿、リンパ液、骨髄液、腹水、羊水、精液、乳頭分泌液などが挙げられる。また、組織のFFPE(ホルマリン固定パラフィン包埋)試料から抽出したDNAを用いてもよい。
DNAの抽出方法は、特に限定されない。ゲノムDNAを生体試料から抽出する場合は、フェノール/クロロホルム法などの当該技術において公知の方法で抽出できる。また、市販のDNA抽出キットなどを用いてもよい。必要に応じて、抽出したテンプレートDNAの断片化、サイズセレクション及び末端平滑化などを行ってもよい。
本実施形態において、テンプレートDNAのコピー数の下限は、少なくとも10コピー、好ましくは30コピーであり、より好ましくは50コピーである。テンプレートDNAのコピー数の上限は、通常1,000コピーであり、好ましくは500コピーであり、より好ましくは200コピーである。本実施形態では、テンプレートDNAのコピー数が10コピー以上1,000コピー以下の範囲であれば、稀少突然変異に由来する変異体の割合と、核酸増幅及びシーケンシングのエラーに由来する変異体の割合とを区別することが可能である。特に好ましくは、テンプレートDNAのコピー数は100コピーである。
試料中のテンプレートDNAを1,000コピー以下に調整する手段は、特に限定されない。当該技術においては、1ngのゲノムDNAは300コピーに相当することが知られている。よって、生体試料から抽出したゲノムDNAの濃度を分光光度計により測定し、該濃度に基づいて、希釈によりゲノムDNAを1000コピー以下、すなわち3.33 ng以下で含む試料を調製してもよい。また、リアルタイムPCRによりテンプレートDNA中の所定の遺伝子を定量して、定量結果からテンプレートDNAのコピー数を決定してもよい。リアルタイムPCRで定量する所定の遺伝子は、テンプレートDNAのいずれの分子にも存在する遺伝子が適している。そのような遺伝子としては、ヒトゲノムDNAでは例えば、ALB、GAPDH、KCNA1、ARHGEF4、RAPGEFL1などが挙げられる。リアルタイムPCRは、テンプレートDNAの正確なコピー数を測定できるので特に好ましい。
本実施形態の検出方法では、上記の試料に含まれるテンプレートDNAを増幅してライブラリを作製し、このライブラリのシークエンシングを行う。
テンプレートDNAの増幅は、PCRに基づく方法によって行うことが好ましい。テンプレートDNA中の解析対象とする領域を増幅可能なプライマー対を設計し、これを用いてテンプレートDNAをPCR法で増幅することにより、アンプリコンを得ることができる。また、シーケンス・キャプチャー法により、断片化ゲノムDNAから解析対象とする領域を濃縮して、これをテンプレートDNAとして用いてアンプリコンを得てもよい。
解析対象とする領域は、テンプレートDNA中の任意の部位から決定できる。例えば、ゲノムDNAの場合は、解析対象とする領域は、エキソン、イントロン、及びそれらの両方を含む領域のいずれであってもよい。あるいは、テンプレートDNAを予めシーケンシングし、その結果から、高いリード数を確保できる領域やシーケンシングエラーが少ない領域を解析対象として選択してもよい。
解析対象とする領域の長さ(以下、「シーケンシング長」ともいう)の下限は、出現頻度の低い突然変異を検出する観点から、少なくとも1,000塩基、好ましくは5,000塩基、より好ましくは10,000塩基である。シーケンシング長の上限は、理論上は特に限定されないが、シーケンシング長が長くなるほど、シーケンシングのコストも増加する。本実施形態では、シーケンシング長の上限は、好ましくは1,000,000塩基、より好ましくは100,000塩基である。
テンプレートDNAの増幅に用いるプライマーには、用いるシーケンサーの種類に応じて、アダプター配列やバーコード配列などの付加配列、標識物質などを有していてもよい。プライマー対の数は、所望のシーケンシング長と後述のアンプリコンの平均長により決定される。ここで、プライマー対の数は、1つのフォワードプライマー及び1つのリバースプライマーで、1対とカウントされる。プライマー対の数は、以下の式に基づいて決定できる。
(シーケンシング長)=(アンプリコンの平均長)×(プライマー対の数)
複数のプライマー対を用いる場合、これらのプライマー対はマルチプレックスPCRが可能であることが好ましい。これにより、テンプレートDNA中の複数の領域を同時に増幅できる。この場合、各プライマー対には、相互に異なるバーコード配列を付加することが好ましい。これにより、各プライマー対によるアンプリコンを識別できる。また、エキソームシーケンシングキットなどの市販のキットに添付されているマルチプレックスPCR用プライマーセットを用いてもよい。
アンプリコンの平均長は、用いるシーケンサーの性能に応じて決定できるが、通常は少なくとも50 bpであればよい。アンプリコンの平均長の上限は、理論上は特に限定されないが、シーケンサーにより安定にシーケンシング可能な長さが好ましい。
PCRによるテンプレートDNAの増幅では、増幅によるエラーを抑えるために、PCRのサイクル数は、シーケンシングに必要なリード数が得られる範囲で最小限にすることが好ましい。本実施形態では、サイクル数は、例えば10サイクル以上25サイクル以下の範囲から決定すればよい。当該技術においては、PCRのサイクルで、1つの分子(増幅産物)の所定の位置にエラーによる変異が導入されたとしても、同時に他の分子の同じ位置にもエラーによる変異が導入される確率は低いと考えられている。よって、本実施形態の検出方法は、稀少突然変異に由来する変異体の割合のほうが、核酸増幅時のエラーに由来する変異体の割合よりも高くなるので、両者を区別できる。
テンプレートDNAの増幅に用いるポリメラーゼは、PCRに用いられる公知の耐熱性ポリメラーゼから適宜選択できる。それらの中でも、マルチプレックスPCRに適しており、且つPCRエラーが少ない耐熱性ポリメラーゼが望ましい。増幅反応には、選択したポリメラーゼに適したバッファーを用いればよい。
本実施形態では、上記のようにしてライブラリについて、当該技術において公知のシーケンシング法により塩基配列を解析すればよい。シーケンシング法は特に限定されないが、次世代シーケンサーによる解析が好ましい。ここで、「次世代シーケンサー」とは、サンガー法を利用したキャピラリー電気泳動によるシーケンサーである「第1世代シーケンサー」と対比させて用いられる用語であり、数千万から数億のDNA断片を同時並列的に処理して塩基配列を決定する装置を意味する。本実施形態では、次世代シーケンサーは特に限定されないが、例えば、HiSeq2500 (illumina社)、MiSeq (illumina社)、Ion Proton (Thermo Fisher Scientific社)、Ion PGM (Thermo Fisher Scientific社)などが挙げられる。
本実施形態では、後述の判定結果の信頼性を高めるために、稀少突然変異に由来する変異を有するリードの数が少なくとも10個以上となることが望ましい。そのためには、各プライマー対で増幅される領域について、シーケンシングのリード数が、テンプレートDNAのコピー数の10倍以上の数であることが好ましい。一方で、複数のプライマー対による増幅では、増幅効率がそれぞれ異なる場合があるので、アンプリコンの数は、増幅した部位によって異なり得る。そのため、シーケンシングのリード数も、増幅した部位に応じて変動する。例えば、Ion Proton シーケンサー(Thermo Fisher Scientific社)による解析では、平均リード数が5,000であった場合、実際のリード数は、増幅した部位によって2,000〜20,000リード程度のばらつきがあることが知られている。したがって、本実施形態では、シーケンシングの平均リード数が、例えば、テンプレートDNAのコピー数の25倍以上、好ましくは50倍以上の数となることが好ましい。なお、リードの数は、次世代シーケンサーによりデジタルに数値でカウントできる。平均リード数は、全てのリードの数を、プライマー対の数で割ることにより算出できる。
当該技術において、ゲノム配列が既に解読されている生物種については、そのゲノム配列は、リファレンス配列として一般に取得可能である。本実施形態では、テンプレートDNAが、ゲノム配列が既に解読されている生物種に由来する場合、解析した塩基配列をリファレンス配列と比較することにより、変異を見出すことが好ましい。次世代シーケンサーによる解析では、リードごとに変異の有無を検出できる。
本実施形態では、塩基配列の解析結果から、所定の位置の塩基における変異体の割合を算出する。所定の位置としては、リファレンス配列との比較によって見出された変異が存在する位置が好ましい。この位置の塩基における変異体の割合を求めることにより、見出された変異が、稀少突然変異であるか又はエラーに由来する変異であるかを判定できる。所定の位置の塩基における変異体の割合は、下記の式により算出される。
(所定の位置の塩基における変異体の割合)=(所定の位置の塩基に変異を有するリードの数)/(所定の位置の塩基を含むリードの数)
上記の式において、「所定の位置の塩基を含むリードの数」とは、所定の位置の塩基に変異を有するリードの数と、該所定の位置の塩基に変異がないリードの数との和である。図1Bに示されるように、稀少突然変異は出現頻度が低いので、試料中のテンプレートDNA分子中には、稀少突然変異を有するテンプレートDNAと、稀少突然変異のないテンプレートDNAとが存在する。また、核酸増幅及びシーケンスによるエラーも低い頻度でランダムに生じる。したがって、リードには、所定の位置の塩基に変異を有するリードと、該所定の位置の塩基に変異がないリードとが存在する。
本実施形態では、上記の変異体の割合は、解析対象とする領域の1塩基ごとについて算出することが好ましい。解析対象とする領域において、複数の変異が相互に異なる位置にある場合は、それぞれの変異が存在する位置の塩基について変異体の割合を算出する。
本実施形態では、算出した変異体の割合と所定のカットオフ値とを比較し、その結果に基づいて、所定の位置の塩基に稀少突然変異があるか否かを判定する。具体的には、算出した変異体の割合が所定のカットオフ値以上の場合に、上記の所定の位置の塩基に稀少突然変異があると判定する。一方、算出した変異体の割合が所定のカットオフ値より低い場合、上記の所定の位置の塩基に稀少突然変異がないと判定する。所定の位置の塩基に稀少突然変異がないと判定された場合、その位置の塩基における変異はエラーに由来すると判定してもよい。
本実施形態において、所定のカットオフ値は、エラーに由来する変異体の割合であってもよい。ここで、核酸増幅及びシーケンシングによるエラーの分布は、低頻度でランダムな事象の分布であるポアソン分布に従うと考えられる。したがって、そのような所定のカットオフ値は、解析した塩基配列のPhredスコアとリード数とに基づくポアソン分布から得られるポアソン確率から決定できる。なお、所定のカットオフ値は、解析対象とする領域中の1塩基ごとに設定してもよいが、解析した塩基配列のPhredスコアの平均値と、平均リード数とに基づいて、単一のカットオフ値を設定することが簡便で好ましい。
ここで、「Phred」とは、DNAシーケンサーに用いられるベースコーリング(base calling)プログラムであり、当該技術において公知である。Phredにより、DNAシーケンサーが取得したトレースデータ(シーケンシング反応で得たシグナルの波形データなどのグラフイメージ)からベースコール(塩基の指定)が行われ、その際に、指定した各塩基についてPhredスコア(「Phredクオリティスコア」とも呼ばれる)が算出される。Phredスコアは、シーケンサーにより解析された塩基配列の正確さを表す指標であり、当該技術において広く普及している。解析した塩基配列におけるPhredスコア(又はその平均値)とエラーの頻度の関係は、以下の式で表される。
(エラーの頻度)=10-a/10 (/塩基)
[式中、aは、Phredスコア又はその平均値である]
例えば、ある塩基のPhredスコアが20であるとき、その塩基におけるエラーの頻度は1×10-2/塩基であり、Phredスコアが30であるとき、その塩基におけるエラーの頻度は1×10-3/塩基である。Phredスコアの平均値は、解析した塩基配列におけるエラーの頻度を表すことができる。例えば、Phredスコアの平均値が20であるとき、エラーは100塩基に1つ(1×10-2/塩基)であり、Phredスコアの平均値が30であるとき、エラーは1,000塩基に1つ(1×10-3/塩基)である。
各塩基のPhredスコアは、次世代シーケンサーにより自動的に算出される。Phredスコアの平均値は、解析した各塩基のPhredスコアの和を、解析した塩基の数で割ることにより算出できる。Phredスコアは、用いるシーケンサーによって異なる。例えば、本実施例で用いたIon Protonシーケンサーの場合、解析した塩基配列のPhredスコアの平均値は約25である。
本実施形態では、所定のカットオフ値として、シーケンシング長におけるエラーによる変異の個数の期待値が1以下となるときの変異体の割合を設定することが好ましい。そのような変異体の割合は、解析した塩基配列のPhredスコアの平均値及び平均リード数に基づくポアソン分布から得られるポアソン確率と、シーケンシング長とから算出される。この所定のカットオフ値の算出例を、以下に説明する。
所定のカットオフ値の算出例
100コピーのゲノムDNAについて、次世代シーケンサーにより塩基配列を解析した。この解析において、シーケンシング長は10,000塩基であり、Phredスコアの平均値は30であり、平均リード数は5,000であった。シーケンシング長におけるエラーの頻度は、Phredスコアの平均値が30であるので、1×10-3/塩基である(10-30/10=1×10-3)。平均リード数が5,000であるので、ポアソン分布の平均は5となる(5000×1×10-3=5)。すなわち、5,000リードあたり、エラーによる変異を有するリードの数は平均で5個である。なお、ポアソン分布の平均、平均リード数及びPhredスコアの平均値との関係は、下記の式で表される。
(ポアソン分布の平均)=(平均リード数)×10-a/10
[式中、aは、Phredスコアの平均値である]
次いで、5,000リードあたり、エラーによる変異を有するリードの数(事象の数)がk個となるときの確率の分布(ポアソン分布)を求める。この確率P(k)は、以下の式により算出される(ただし、0!=1とする)。
P(k)=e-λ(λk/k!)
(式中、λは、ポアソン分布の平均であり、kは、事象の数である。)
上記のポアソン分布は、統計学的処理が可能な表計算ソフトを用いて算出してもよい。そのような表計算ソフトとしては、例えばExcel(登録商標) (Microsoft社)などが挙げられる。具体的には、Excel(登録商標)により、ポアソン分布の平均を5、事象の数を0〜50、関数形式をFALSEとして、事象の数が0〜50のときのポアソン確率の表を作成する。この例では、事象の数の上限は平均リード数そのもの(すなわち5000)であるが、エラーの発生は低頻度なので、通常は、事象の数の上限を平均リード数の1/50以下として、ポアソン確率を計算すればよい。そして、シーケンシング長におけるエラーによる変異の数の期待値を、下記の式に基づいて算出した。
(エラーによる変異の数の期待値)=(シークエンシング長)×(ポアソン確率)
算出された期待値が1以下となるとき、すなわち、10,000塩基中のエラーによる変異の数が1つ以下であるときの事象の数(変異を有するリードの数)は、0〜2及び16〜50であった。ここで、事象の数が0〜2であるときの期待値は、見かけ上は1以下であったが、エラーの発生を過小評価している可能性が高い。ここでは、最も低い所定のカットオフ値を算出するため、期待値が1以下となるときの事象の数として16を用いた。なお、P(16)=4.91×10-5であり、期待値は0.491である(4.91×10-5×10000=0.491)。このとき、エラーに由来する変異体の割合は、5,000リード中16個であるので、0.32%である((16/5000)×100=0.32)。よって、0.32%を所定のカットオフ値として設定できる。
Phredスコアが比較的低い値(例えば27以下)の場合、算出された期待値が1以下となるときの事象の数(「k'」という)は、上記の例のように、0以上において、低い値(又は低い値の群)及び高い値(又は高い値の群)の2つをとり得る。ここで、k'として低い値又は低い値の群から選択した値を用いると、エラーに由来する変異体の割合を過小評価することになる。よって、本実施形態では、k'として高い値又は高い値の群から選択した値を用いることが望ましい。k'として、高い値の群のうち最も低い値を用いると、最も低い所定のカットオフ値を算出できる。
用いた次世代シーケンサーによる平均リード数及びPhredスコアの平均値が、解析間である程度安定している場合は、所定のカットオフ値は、本実施形態の検出方法を行うたびに算出しなくてもよい。すなわち、所定のカットオフ値として、固定値を用いてもよい。固定値は、用いた次世代シーケンサーにより経験的に得られる平均リード数及びPhredスコアの平均値から、上記のようにして算出できる。
上述のとおり、本実施形態では、所定の位置の塩基における変異体の割合が、所定のカットオフ値以上の場合に、上記の所定の位置の塩基に稀少突然変異があると判定する。しかし、所定の位置の塩基における変異体の割合が高すぎる場合、この所定の位置の塩基における変異は、稀少突然変異ではない可能性がある。例えば、テンプレートDNA中の変異がSNPである場合、SNPの位置の塩基における変異体の割合は、理論上50%又は100%となる。SNPは遺伝的多型の一種であり、本発明で検出対象とする稀少突然変異とは区別することが望ましい。本実施形態では、所定の位置の塩基における変異体の割合は10%以下であることが好ましい。
[2.稀少突然変異の検出装置及びコンピュータプログラム]
本発明の範囲には、稀少突然変異の検出装置も含まれる(以下、単に「検出装置」ともいう)。また、本発明の範囲には、稀少突然変異の検出をコンピュータに実行させるためのコンピュータプログラムも含まれる(以下、単に「コンピュータプログラム」ともいう)。
以下に、検出装置の一例を、図面を参照して説明する。しかし、本実施形態は、この例に示される形態のみに限定されない。図4は、稀少突然変異の検出システムの概略図である。図4に示された稀少突然変異の検出システム10は、シーケンサー20と、該シーケンサー20と接続された検出装置30とを含む。図4では、検出装置30は、コンピュータ本体300と、入力部301と、表示部302とを含むコンピュータシステムとして示されるが、この形態に限定されない。検出装置30は、図4に示されるように、シーケンサー20とは別個の機器であってもよいし、シーケンサー20を内包する機器であってもよい。後者の場合、検出装置30は、それ自体で検出システム10となってもよい。シーケンサー20は、次世代シーケンサーであることが好ましい。市販されている次世代シーケンサーに、本実施形態のコンピュータプログラムを搭載してもよい。
シーケンサー20に、1,000コピー以下のテンプレートDNAを含む試料を用いて核酸増幅反応により作製されたライブラリをセットすると、該シーケンサー20は、ライブラリの塩基配列の解析を実行し、解析した塩基配列、各塩基のPhredスコア、リード数、シーケンシング長などの情報を取得し、得られた各種の情報を解析データとして検出装置30に送信する。解析データのフォーマット形式は特に限定されず、用いたシーケンサーに応じた形式であればよい。そのような形式としては、例えばFASTAフォーマットなどが挙げられる。
検出装置30は、シーケンサー20から解析データを受信する。そして、検出装置30のプロセッサ(CPU)は、解析データに基づいて、ハードディスク313(図5参照)にインストールされた、稀少突然変異の検出のためのコンピュータプログラムを実行する。
図5を参照して、コンピュータ本体300は、CPU(Central Processing Unit)310と、ROM(Read Only Memory)311と、RAM(Random Access Memory)312と、ハードディスク313と、入出力インターフェイス314と、読取装置315と、通信インターフェイス316と、画像出力インターフェイス317とを備えている。CPU310、ROM311、RAM312、ハードディスク313、入出力インターフェイス314、読取装置315、通信インターフェイス316及び画像出力インターフェイス317は、バス318によってデータ通信可能に接続されている。コンピュータ本体300は、通信インターフェイス316を介してシーケンサー20と通信可能に接続されており、シーケンサー20との間でデータの送受信を行う。
CPU310は、ROM311又はハードディスク313に記憶されているプログラム及びRAM312にロードされたプログラムを実行することが可能である。CPU310は、所定の位置の塩基における変異体の割合を算出し、ROM311又はハードディスク313に記憶されている所定のカットオフ値を読み出し、該所定の位置の塩基における稀少突然変異の存否を判定する。CPU310は、判定結果を出力して表示部302に表示させる。
ROM311は、マスクROM、PROM、EPROM、EEPROMなどによって構成されている。ROM311には、上述のようにCPU310によって実行されるコンピュータプログラム及び当該コンピュータプログラムの実行に用いるデータが記録されている。ROM311には、所定のカットオフ値が記録されていてもよい。さらに、ROM311には、平均リード数を算出する式、Phredスコアの平均値を算出する式、ポアソン確率を算出する式、リファレンス配列などが記録されていてもよい。
RAM312は、SRAM、DRAMなどによって構成されている。RAM312は、ROM311及びハードディスク313に記録されているプログラムの読み出しに用いられる。また、RAM312は、これらのプログラムを実行するときに、CPU310の作業領域として利用される。
ハードディスク313は、CPU310に実行させるためのオペレーティングシステム、アプリケーションプログラム(本実施形態のコンピュータプログラム)などのプログラム及び当該プログラムの実行に用いるデータがインストールされている。ハードディスク313には、所定のカットオフ値が記録されていてもよい。さらに、ハードディスク313には、平均リード数を算出する式、Phredスコアの平均値を算出する式、ポアソン確率を算出する式、リファレンス配列などが記録されていてもよい。
入出力インターフェイス314は、例えば、USB、IEEE1394、RS−232Cなどのシリアルインターフェイスと、SCSI、IDE、IEEE1284などのパラレルインターフェイスと、D/A変換器、A/D変換器などからなるアナログインターフェイスとから構成されている。入出力インターフェイス314には、キーボード、マウスなどの入力部301が接続されている。操作者は、該入力部301により、コンピュータ本体300に各種の指令及びデータを入力することが可能である。
読取装置315は、フレキシブルディスクドライブ、CD−ROMドライブ、DVD−ROMドライブなどによって構成されている。読取装置315は、可搬型記録媒体40に記録されたプログラム又はデータを読み取ることができる。
通信インターフェイス316は、例えば、Ethernet(登録商標)インターフェイスなどである。コンピュータ本体300は、通信インターフェイス316により、プリンタへの印刷データの送信が可能である。
画像出力インターフェイス317は、LCD、CRTなどで構成される表示部302に接続されている。これにより、表示部302は、CPU310から与えられた画像データに応じた映像信号を出力できる。表示部302は、入力された映像信号にしたがって画像(画面)を表示する。
図6Aを参照して、検出装置30により実行される、稀少突然変異の存否の判定フローについて説明する。ここでは、次世代シーケンサーであるシーケンサー20から取得した解析データから、所定の位置の塩基における変異体の割合を算出し、この変異体の割合と、あらかじめメモリに格納された所定のカットオフ値とを用いて判定を行なう場合を例として説明する。しかし、本実施形態は、この例のみに限定されない。
ステップS101において、CPU310は、シーケンサー20から解析データを取得し、解析した塩基配列及びリード数をハードディスク313に記憶する。ステップS102において、CPU310は、所定の位置の塩基における変異体の割合を、記憶したリード数に基づいて算出して、ハードディスク313に記憶する。所定の位置の塩基は、リファレンス配列に対して変異が存在する位置であることが好ましい。この変異体の割合の算出は、本実施形態の検出方法について述べたことと同様である。ステップS103において、CPU310は、算出した変異体の割合と、ハードディスク313に記憶された所定のカットオフ値とを比較する。算出した変異体の割合が所定のカットオフ値と同じか又はそれより高いとき、処理は、ステップS104に進行し、上記の所定の位置の塩基に稀少突然変異があることを示す判定結果をハードディスク313に記憶する。一方、算出した変異体の割合が所定のカットオフ値より低いとき、処理は、ステップS105に進行し、上記の所定の位置の塩基に稀少突然変異がないことを示す判定結果をハードディスク313に記憶する。ステップS106において、CPU310は、判定結果を出力し、表示部302に表示させたり、プリンタに印刷させたりする。
図6Bを参照して、稀少突然変異の存否の判定フローについて説明する。ここでは、次世代シーケンサーであるシーケンサー20から取得した解析データから、所定の位置の塩基における変異体の割合及び所定のカットオフ値を算出し、算出した変異体の割合と、算出した所定のカットオフ値とを用いて判定を行なう場合を例として説明する。しかし、本実施形態は、この例のみに限定されない。
ステップS201において、CPU310は、シーケンサー20から解析データを取得し、解析した塩基配列、リード数及び各塩基のPhredスコアをハードディスク313に記憶する。ステップS202において、上記のステップS102と同様に、所定の位置の塩基における変異体の割合を、記憶したリード数に基づいて算出して、ハードディスク313に記憶する。ステップ203において、CPU310は、記憶したリード数に基づいて平均リード数を算出し、記憶したPhredスコアに基づいてPhredスコアの平均値を算出して、これらの値をハードディスク313に記憶する。これらの値の算出は、本実施形態の検出方法について述べたことと同様である。ステップS204において、CPU310は、記憶した平均リード数及びPhredスコアの平均値に基づいて、シーケンシング長におけるエラーによる変異の数の期待値が1以下となるときの変異体の割合を算出し、この値を所定のカットオフ値としてハードディスク313に記憶する。この所定のカットオフ値の算出は、本実施形態の検出方法について述べたことと同様である。ステップS205において、CPU310は、算出した変異体の割合と、算出した所定のカットオフ値とを比較する。算出した変異体の割合が所定のカットオフ値と同じか又はそれより高いとき、処理は、ステップS206に進行し、上記の所定の位置の塩基に稀少突然変異があることを示す判定結果をハードディスク313に記憶する。一方、算出した変異体の割合が所定のカットオフ値より低いとき、処理は、ステップS207に進行し、上記の所定の位置の塩基に稀少突然変異がないことを示す判定結果をハードディスク313に記憶する。ステップS208において、CPU310は、判定結果を出力し、表示部302に表示させたり、プリンタに印刷させたりする。
なお、試料を分割して複数のアリコートを調製する場合、複数のアリコートの調製を装置で自動的に行うこともできる。また、第1のアリコートを用いて本実施形態の検出方法を実施し、稀少突然変異が検出されなかった場合、第2のアリコートを用いた検出を自動的に行ってもよい。シーケンサー20及び検出装置30は、稀少突然変異が検出されるまでアリコートの分析を自動的に繰り返すよう構成されていてもよい。
以下に、本発明を実施例により詳細に説明するが、本発明はこれらの実施例に限定されるものではない。
実施例1
実施例1では、変異原であるN-ニトロソ-N-メチルウレア(以下、「MNU」という)を培養細胞に投与し、ゲノムDNAの点突然変異を誘導させた。そして、本実施形態の検出方法により変異を検出して、その変異の出現頻度を算出した。この解析を独立して3回行った。
(1) 細胞及び変異原の投与
ヒトTK6リンパ芽球(以下、「TK6細胞」という)をアメリカン・タイプ・カルチャー・コレクションより入手した。第0日目に、1×105 cellsのTK6細胞を10 cmプレートに播種した。第1日目に、TK6細胞を、0、0.1、0.3、1、3、10又は30μMの濃度のMNU(Sigma社)に24時間曝露した。第7日目に、細胞数を計測して細胞を回収し、ゲノムDNAをフェノール/クロロホルム法により抽出した。
(2) ゲノムDNAのコピー数の定量
抽出したゲノムDNAのコピー数を、SYBR(登録商標) green I (BioWhittaker Molecular Applications社)及びiCycler Thermal Cycler (Bio-Rad Laboratories社)を用いたリアルタイムPCRにより定量した。測定対象の遺伝子及びプライマーの配列を、表1に示す。表中、「F」はフォワードプライマーを意味し、「R」はリバースプライマーを意味する。各サンプルについて3種類のプライマーを用いて測定した。これらによって得られた3通りのコピー数の平均値をサンプルのDNAコピー数とした。
(3) 稀少突然変異の検出
上記のコピー数の測定結果に基づいて、100コピーのゲノムDNAを含む試料を調製した。これらの試料中の100コピーのゲノムDNAをテンプレートとして、マルチプレックスPCRにより増幅してシーケンシング用ライブラリを作製した。このライブラリの作製には、Ion AmpliSeq Library Kit 2.0 (Thermo Fisher Scientific社)を用いた。具体的な操作は、当該キットに添付の説明書に従って行った。マルチプレックスPCRでは、291対のプライマー対(配列番号7〜588:奇数の配列番号で示される配列は、フォワードプライマーの配列であり、偶数の配列番号で示される配列は、リバースプライマーの配列である)を用いた。これにより、ゲノムDNA上の55個のがん関連遺伝子における291領域を同時に増幅した。これらのプライマー対は48,587 bpをカバーする。ライブラリ中のアンプリコンには、上記のキットにより、各サンプルに応じたバーコード配列が付加されている。得られたライブラリを、Ion PI Chip及びIon Protonシーケンサー(Thermo Fisher Scientific社)でシーケンシングした。取得した塩基配列データを、Ion Suite 4.0 (Thermo Fisher Scientific社)を用いてヒトリファレンスゲノムhg19にマップして、塩基配列を決定した。シーケンシングの平均リード数は5,000であった。なお、解析した48,587塩基のうち、15,724塩基を選択した。これは、この選択した領域では、独立の3回の解析における平均リード数が、未処理のTK6細胞において2,500以上であり、この選択した領域は、未処理のTK6細胞において、変異体の割合が0.2%以上の変異を含まないからである。
100コピーのゲノムDNA中に変異が1つあった場合、変異体の割合は、理論上1%である。この割合は、上記のPCR及びシーケンシングによるエラーに由来する変異体の割合よりも高いと考えられる。ここで、エラーに由来する変異体の割合を、次のようにして算出した。Ion Protonシーケンサーにより解析した塩基配列のPhredスコアの平均値は25であった。よって、エラーの頻度は3.16×10-3/塩基である(10-25/10=3.16×10-3)。平均リード数は5,000であるので、ポアソン分布の平均は15.8となる(5000×3.16×10-3=15.8)。そして、5,000リード中のエラーを有するリードの数をポアソン分布の事象の数として、表計算ソフトExcel(登録商標) (Microsoft社)によりポアソン確率の表を作成した(ポアソン分布の平均:15.8、事象の数;0〜60、関数形式:FALSE)。そして、上記で選択した領域におけるエラーによる変異の数の期待値を、それぞれの事象の数におけるポアソン確率と、選択した領域の長さ(15,724塩基)との積から算出した。得られた期待値が1以下のとき、すなわち、15,724塩基中、エラーによる変異の数が1つ以下であるときの事象の数(変異を有するリードの数)は33であった。このとき、エラーに由来する変異体の割合は0.66%である((33/5000)×100=0.66)。よって、解析した塩基配列において、変異体の割合が0.66%よりも高くなる変異は、エラーによる変異ではなく、MNUにより誘導された体細胞変異であると考えられる。実施例1では、変異体の割合が0.8〜10%である変異を、MNUにより誘導された体細胞変異として検出した。そして、検出した変異の頻度を、1,572,400塩基(15,724塩基×100コピー)中の変異の数として算出した。
(4) 結果
独立して行った3回の解析結果を、図2に示す。図2中、横軸はMNUの濃度を示し、縦軸は点突然変異の出現頻度を示す。図2に示されるように、MNUの投与量と変異の蓄積との間に相関関係があることがわかった。MNUによって誘導される変異の頻度は、極めて低いにもかかわらず、実施例1の検出方法を用いることによって、変異を検出し得ることが示された。
実施例2
実施例2では、ドナーから採取した食道粘膜を検体として、それらのゲノムDNAにおける点突然変異を本実施形態の検出方法により検出し、出現頻度を算出した。
(1) 組織検体
食道粘膜291検体を、2008年9月から2013年4月までの間にがんスクリーニング検査を受けた成人から内視鏡を用いて採取した。各検体のドナーから、飲酒(Alcohol drinking)、ビンロウジ噛み(Betel quid chewing)及びタバコの喫煙(Cigarette smoking)の食道発がん危険因子(以下、「ABC」ともいう)に関する履歴を面接により得た(Y.C. Leeら, Cancer Prev Res (Phila), 2011, vol.4, p.1982-1992参照)。がんのリスクに応じて、93検体を以下の3つのグループに分類した。
グループ1:ABCの曝露がない健常者から得た正常食道粘膜(30検体)
グループ2:ABCの曝露がある健常者から得た正常食道粘膜(32検体)
グループ3:食道扁平上皮がん患者から得た非がん性食道粘膜(31検体)
(2) ゲノムDNAの抽出及びコピー数の定量
フェノール/クロロホルム法により、各検体からゲノムDNAを抽出した。得られたゲノムDNAについて、実施例1と同様にして、コピー数を定量し、100コピーのゲノムDNAを含む試料を調製した。
(3) 稀少突然変異の検出
各検体から調製した100コピーのゲノムDNAを含む試料について、実施例1と同様にして、シーケンシング用ライブラリを作製し、Ion PI Chip及びIon Protonシーケンサー(Thermo Fisher Scientific社)でシーケンシングした。そして、実施例1と同様にして、ゲノムDNA中の変異を、エラーに由来する変異と区別して検出し、変異の出現頻度を算出した。
(4) 結果
各グループの変異の出現頻度を、図3Aに示す。図3A中、縦軸は点突然変異の出現頻度を示し、実線は各グループの変異の頻度の平均値を示す。また、グループ2(食道発がん危険因子の曝露がある健常者から得た正常食道粘膜)の変異頻度と、グループ3(食道扁平上皮がん患者から得た非がん性食道粘膜)の変異頻度から、がん患者を識別するためのROC曲線を作成し、AUCを算出した。得られたROC曲線を図3Bに示す。このROC曲線のAUCは0.790であり、直線傾向のp値は0.001未満であった。図3Bに示されるように、発がんのリスクに応じて変異の出現頻度が高くなることが示された。
10 検出システム
20 シーケンサー
30 検出装置(コンピュータシステム)
40 記録媒体
300 コンピュータ本体
301 入力部
302 表示部
310 CPU
311 ROM
312 RAM
313 ハードディスク
314 入出力インターフェイス
315 読取装置
316 通信インターフェイス
317 画像出力インターフェイス
318 バス

Claims (10)

  1. 試料中のゲノムDNAの濃度を測定し、前記試料中のゲノムDNAコピー数が1000コピー以下の場合は前記試料を希釈せず、前記試料中のゲノムDNAコピー数が1000コピーより多い場合は前記試料を希釈して1000コピー以下のゲノムDNAを含む試料を調製する工程と、
    前記ゲノムDNAを増幅してライブラリを作製し、次世代シーケンサーにより前記ライブラリの塩基配列を解析する工程と、
    解析結果から、所定の位置の塩基における変異体の割合を算出する工程と、
    算出した変異体の割合と所定のカットオフ値とを比較し、前記変異体の割合が所定のカットオフ値以上の場合に、前記所定の位置の塩基に稀少突然変異があると判定する工程とを含み、
    前記ライブラリが、前記ゲノムDNAをテンプレートDNAとするPCR増幅により得られたアンプリコンである、稀少突然変異の検出方法。
  2. 前記稀少突然変異が、1×10-3/塩基以下の頻度で認められる変異である、請求項1の検出方法。
  3. 前記所定の位置の塩基における変異体の割合が、下記の式:
    (所定の位置の塩基における変異体の割合)=(所定の位置の塩基に変異を有するリードの数)/(所定の位置の塩基を含むリードの数)
    により算出される、請求項1又は2の検出方法。
  4. 前記所定のカットオフ値が、シーケンシング長におけるエラーによる変異の数の期待値が1以下となるときの変異体の割合であり、
    前記期待値が1以下となるときの変異体の割合が、解析した塩基配列のPhredスコアの平均値及び平均リード数に基づくポアソン分布から得られるポアソン確率と、前記シーケンシング長とから算出される、
    請求項1〜3のいずれか1項の検出方法。
  5. ポアソン分布の平均が、下記の式:
    (ポアソン分布の平均)=(平均リード数)×10-a/10
    [式中、aは、Phredスコアの平均値である]
    により算出され、
    ポアソン分布の事象の数が、核酸増幅及びシーケンシングのエラーによる変異を有するリードの数である、請求項4に記載の検出方法。
  6. 前記期待値が、下記の式:
    (エラーによる変異の数の期待値)=(シークエンシング長)×(ポアソン確率)
    により算出される、請求項4又は5に記載の検出方法。
  7. 前記ゲノムDNAを含む試料の調製工程において、ゲノムDNAのコピー数が、リアルタイムPCRにより決定される、請求項1〜6のいずれか1項に記載の検出方法。
  8. 1000コピーより多いゲノムDNAを含む試料を分割し、1000コピー以下のゲノムDNAを含む複数のアリコートを調製する工程と、
    第1のアリコート中の前記ゲノムDNAを増幅してライブラリを作製し、次世代シーケンサーにより前記ライブラリの塩基配列を解析する工程と、
    解析結果から、所定の位置の塩基における変異体の割合を算出する工程と、
    算出した変異体の割合と所定のカットオフ値とを比較し、前記変異体の割合が所定のカットオフ値以上の場合に、前記所定の位置の塩基に稀少突然変異があると判定し、前記変異体の割合が前記所定のカットオフ値未満の場合に、前記所定の位置の塩基に稀少突然変異がないと判定する工程と、
    第2のアリコートを用いて前記解析工程、前記算出工程及び前記判定工程を実行する工程と
    を含み、
    前記ライブラリが、前記ゲノムDNAをテンプレートDNAとするPCR増幅により得られたアンプリコンである、稀少突然変異の検出方法。
  9. 稀少突然変異の検出装置であって、
    1000コピー以下のゲノムDNAを含む試料を用いて核酸増幅反応により作製されたライブラリの解析データを受信する受信部と、
    所定のカットオフ値を格納したメモリと、
    前記受信部から入力された前記解析データから、所定の位置の塩基における変異体の割合を算出し、算出した変異体の割合と所定のカットオフ値とを比較し、前記変異体の割合が所定のカットオフ値以上の場合に、前記所定の位置の塩基に稀少突然変異があると判定するCPUと、
    を備え
    前記ライブラリが、前記ゲノムDNAをテンプレートDNAとするPCR増幅により得られたアンプリコンであり、前記解析データが、前記ライブラリの塩基配列を次世代シーケンサーにより解析して取得されたデータである、前記装置。
  10. コンピュータが読み取り可能な媒体に記録されているコンピュータプログラムであって、下記のステップ:
    1000コピー以下のゲノムDNAを含む試料を用いて核酸増幅反応により作製されたライブラリの解析データを取得するステップと、
    前記解析データから、所定の位置の塩基における変異体の割合を算出するステップと、
    算出した変異体の割合と所定のカットオフ値とを比較し、前記変異体の割合が所定のカットオフ値以上の場合に、前記所定の位置の塩基に稀少突然変異があると判定するステップと
    を前記コンピュータに実行させる、稀少突然変異の検出用コンピュータプログラムであって、
    前記ライブラリが、前記ゲノムDNAをテンプレートDNAとするPCR増幅により得られたアンプリコンであり、前記解析データが、前記ライブラリの塩基配列を次世代シーケンサーにより解析して取得されたデータである、前記コンピュータプログラム
JP2015199342A 2015-10-07 2015-10-07 稀少突然変異の検出方法、検出装置及びコンピュータプログラム Active JP6679065B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015199342A JP6679065B2 (ja) 2015-10-07 2015-10-07 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
US15/287,121 US20170101670A1 (en) 2015-10-07 2016-10-06 Method for detecting rare mutation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015199342A JP6679065B2 (ja) 2015-10-07 2015-10-07 稀少突然変異の検出方法、検出装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2017070240A JP2017070240A (ja) 2017-04-13
JP6679065B2 true JP6679065B2 (ja) 2020-04-15

Family

ID=58499693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015199342A Active JP6679065B2 (ja) 2015-10-07 2015-10-07 稀少突然変異の検出方法、検出装置及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US20170101670A1 (ja)
JP (1) JP6679065B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6898282B2 (ja) * 2018-04-27 2021-07-07 花王株式会社 高精度シーケンシング方法
EP3899951A1 (en) * 2018-12-23 2021-10-27 F. Hoffmann-La Roche AG Tumor classification based on predicted tumor mutational burden
CN109979531B (zh) * 2019-03-29 2021-08-31 北京市商汤科技开发有限公司 一种基因变异识别方法、装置和存储介质
CN109994155B (zh) * 2019-03-29 2021-08-20 北京市商汤科技开发有限公司 一种基因变异识别方法、装置和存储介质
EP3979252A4 (en) * 2019-05-31 2022-08-17 NEC Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120252015A1 (en) * 2011-02-18 2012-10-04 Bio-Rad Laboratories Methods and compositions for detecting genetic material

Also Published As

Publication number Publication date
US20170101670A1 (en) 2017-04-13
JP2017070240A (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
JP6679065B2 (ja) 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
McElhoe et al. Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq
ES2745556T3 (es) Acidos nucleicos y métodos para detectar anomalías cromosómicas
US9115401B2 (en) Partition defined detection methods
CN110176273B (zh) 遗传变异的非侵入性评估的方法和过程
EP4112740B1 (en) Size-based analysis of fetal dna fraction in maternal plasma
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
JP7067896B2 (ja) 品質評価方法、品質評価装置、プログラム、および記録媒体
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
US20190121941A1 (en) Algorithms for sequence determinations
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
JP2023109998A (ja) マイクロサテライト不安定性の検出
WO2006028152A1 (ja) 遺伝子コピーの解析方法及び装置
WO2022029688A1 (en) Highly sensitive method for detecting cancer dna in a sample
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN113454218A (zh) 用于改进核酸分子的回收的方法、组合物和系统
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
US20200048715A1 (en) Use of off-target sequences for dna analysis
US20200385783A1 (en) Method for analyzing a nucleic acid sequence
EP4192979A1 (en) Highly sensitive method for detecting cancer dna in a sample
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
US11618920B2 (en) Method for analyzing nucleic acid sequence
CN106148523A (zh) 确定儿童肺间质性肺炎的基因突变位点的方法
Amuzu et al. Custom hereditary breast cancer gene panel selectively amplifies target genes for reliable variant calling
WO2024038396A1 (en) Method of detecting cancer dna in a sample

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200310

R150 Certificate of patent or registration of utility model

Ref document number: 6679065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250