JP2003270205A - 核酸塩基配列決定方法 - Google Patents

核酸塩基配列決定方法

Info

Publication number
JP2003270205A
JP2003270205A JP2002076376A JP2002076376A JP2003270205A JP 2003270205 A JP2003270205 A JP 2003270205A JP 2002076376 A JP2002076376 A JP 2002076376A JP 2002076376 A JP2002076376 A JP 2002076376A JP 2003270205 A JP2003270205 A JP 2003270205A
Authority
JP
Japan
Prior art keywords
base sequence
sequence
nucleic acid
base
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002076376A
Other languages
English (en)
Other versions
JP2003270205A5 (ja
JP3878503B2 (ja
Inventor
Tomotsugu Hirata
智嗣 平田
Hitoshi Matsuo
仁司 松尾
Shinichi Fukuzono
真一 福薗
Kokichi Sugano
康吉 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tochigi Prefecture
Hitachi High Tech Corp
Original Assignee
Hitachi High Technologies Corp
Tochigi Prefecture
Hitachi High Tech Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi High Technologies Corp, Tochigi Prefecture, Hitachi High Tech Corp filed Critical Hitachi High Technologies Corp
Priority to JP2002076376A priority Critical patent/JP3878503B2/ja
Publication of JP2003270205A publication Critical patent/JP2003270205A/ja
Publication of JP2003270205A5 publication Critical patent/JP2003270205A5/ja
Application granted granted Critical
Publication of JP3878503B2 publication Critical patent/JP3878503B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 【課題】 電気泳動した核酸断片を測定して得られた蛍
光強度波形データを解釈して塩基配列を決定する際、解
釈困難な部位の配列を精度良く決定する。 【解決手段】 既知の塩基配列の情報を参照して塩基配
列を決定する際、蛍光強度波形のピーク間隔を評価基準
として既知塩基配列との並置の仕方を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、核酸試料を電気泳
動して得られる蛍光強度波形データを解釈して、塩基配
列を決定する核酸塩基配列決定方法に関するものであ
る。
【0002】
【従来の技術】最近、30億塩基からなるヒトの遺伝子情
報を解読するヒトゲノム計画がほぼ完了したとの発表が
なされ、これと並行してヒトの様々な疾患が核酸(DN
A)塩基配列の変異に起因することが解明されつつあ
る。個人間においては、その身体的特徴が異なるのと同
様に核酸塩基配列も多くの部位で異なっており、この違
いは多型と呼ばれている。多型は、ある塩基の変化が人
口中1%以上の頻度で存在しているものと定義されてお
り、一つの塩基が他の塩基に置き換わっているもの(Si
ngle Nucleotide Polymorphisms : SNPs)や、1〜数十
塩基が欠失や挿入しているもの、2塩基から数十塩基の
遺伝配列が繰り返している部位の繰り返し回数が個人間
で異なっているもの等がある。ヒトゲノム30億塩基中で
は、500塩基〜1000塩基に一カ所位の割合で変異が存在
していると推測されており、300万個以上の一塩基変異
対(SNPs)があると考えられている。このようなSNPs等
を指標とする遺伝子診断(DNAマーカー)法は、疾患遺
伝子の探索や疾患感受性の判断、及び医薬品の開発(テ
ーラーメイド医療)等で、その利用が期待されている。
特に最近では、先のヒトゲノム解読完了(99%以上)を
受け、この膨大な解読済みデータを利用して個人毎の計
測データの差異(多型)を解明したいという要望が強ま
っている。
【0003】現在、このような多型を低コストかつ容易
に検出する方法が多数開発されているが、何れの方法も
核酸断片の大きさを比較して間接的に変異を知る方法で
あるため、最終的な確認として、信頼度が高く変異部位
を直接検出できる塩基配列決定を行う場合が多い。従
来、この塩基配列を決定するため、核酸断片を蛍光標識
する技術、高解像度のゲル電気泳動技術、及び高感度の
蛍光検出技術を組み合わせたDNAシーケンシング法が広
く用いられてきた。
【0004】従来の核酸塩基配列決定方法では、しばし
ば塩基配列の決定が困難な蛍光強度波形が得られる場合
があった。その原因として、核酸断片の量が少なく信号
強度が弱い場合や、核酸断片が自分自身で2次構造をと
り余分な信号成分が発生する場合、塩基配列を決定すべ
き核酸試料の精製度が低いため余分な信号成分となる核
酸断片が生成される場合、シーケンス反応時や電気泳動
時の条件によって信号に歪みが生じる場合等が考えられ
る。また、一回の測定で決定可能な塩基長には限界があ
り、この限界はゲル電気泳動におけるDNA断片の分離限
界塩基長によって決定される。すなわち、ゲル電気泳動
においては、1塩基長だけ異なるDNA断片どうしのピーク
分離が塩基長の増大とともに困難になってくる。これ
は、塩基長の増大に伴うピーク半値幅(サンプリング後
の波形データにおけるピーク半値幅)の増大の度合い
が、ピーク間隔(サンプリング後の波形データにおける
ピーク間隔)の増大の度合いに比べて大きくなり、隣り
合ったピークどうしの分離が困難になることによってい
る。
【0005】一般にこれらの問題に対しては、塩基配列
を決定すべき核酸試料に対して相補な塩基配列(配列順
序(前後)も反転している)を持つ核酸の塩基配列を決
定し、互いに相補な2つの塩基配列を照らし合わせるこ
とにより配列を確定したり、熟練した作業者が経験を元
に目視判別による配列決定を行ったりして、対応する場
合が多い。しかし、2つの試料を用意して塩基配列を2
回決定する場合も、熟練者による目視判別を行う場合
も、多くの時間や費用を要してしまうという新たな問題
が生じてしまい、また試料によっては互いに相補な二つ
の塩基配列自体が得られない場合もある。以上の問題点
は、全くの未知塩基配列を解読しようとする場合にしば
しば問題となる。しかし、実際の核酸試料の塩基配列決
定では、ある特定部位塩基の変異を調べる場合のよう
に、塩基配列を決定すべき核酸試料の塩基配列の少なく
とも一部が既知である場合も多く、ヒトゲノム計画がほ
ぼ完了した現在では、既知となったヒトゲノム情報との
違い(個人差=多型)を解明することに関心が集まって
いるとも言える。このような参照できる既知の塩基配列
が存在する場合、既知の塩基配列を何らかの方法により
参照して、核酸断片検出データの解釈がなされている。
【0006】例えば、まず初めに、新規に取得した核酸
断片の蛍光強度波形に対して、その信号強度からおおま
かに仮決定した塩基配列(誤りを含む可能性が有る)を
決定する。次に、同様の核酸断片を計測した際に得られ
ている既知の塩基配列を用意する。そして、仮決定した
塩基配列と既知の塩基配列に対して、ホモロジー検索
(相同性の検索)を行い、塩基配列の各々の部位につい
て関連付けを行う。この時、仮決定した塩基配列(配列
1=AACGTTCG)と既知の塩基配列(配列2=AACGTTCG)
が完全に一致している場合には、下記のように横2列に
並べて表示・比較すること(並置)が可能となる。 配列1 =AACGTTCG 配列2 =AACGTTCG
【0007】これに対して、仮決定した塩基配列(配列
1'= ACGTTCGG)に誤りが有る場合(ノイズをピークと
して判定した場合や、小さなピークを見落とした場合
等)や、実際に一部の配列が変異している場合には、下
記のようにギャップ(塩基が欠損している部分)等を考
慮して、最も相同性が高い組み合わせ(最適な並置)を
検索することになる。 配列1' =A:CGTTCGG 配列2 =AACGTTCG: ここで、上記配列文字中の「:」は、ギャップ(欠損)
を表す記号である。
【0008】従来のDNA配列の比較を行う方法として、
ダイナミックプログラミング(DP)法に基づいたスミス
・ウォーターマンの方法が最も厳密な方法として知られ
ている(ジャーナルオブモレキュラーバイオロジー,14
7巻,195〜197頁,1981年)。スミス・ウォーターマン
の方法は、二つの文字配列を比較する際に、文字の一致
にプラスのスコアを、不一致、欠失、挿入にマイナスの
スコアを与えた上で、二つの文字配列の並置を行い、あ
らゆる並置の中からスコアの総計が最大になるような並
置を求める方法である。
【0009】一例として、DP法による配列1”(AAGGTAT
C)と配列2(AACGTTCG)を並置する場合について、図8
を用いて説明する。DP法では2次元メッシュのX軸、Y軸
方向に添ってそれぞれ2本の配列を置き、メッシュの各
点をノードとして、ノード間には縦、横、斜めの3方向
の経路を考えた時に任意の2つのノード間を左上から右
下に向かう最適経路を求める。縦、横のアーク(格子点
間を結ぶ線)は挿入・欠失に相当するためペナルティス
コアがかかり、また配列要素が対合する斜めのアークに
も対合の種類に応じたスコアが与えられる。これらのス
コアを経路に沿って総計した合計スコアがもっとも高く
なる経路をDP法によって解き最適な並置を求める。DNA
配列どうしの並置において一般的に用いられているスコ
アは、挿入・欠失のスコアはn文字の挿入・欠失に対し
て−4n−8点、一致した1文字のスコアは4点、異なって
いる1文字のスコアは−3点である。例えば、図8に示し
た経路でのスコアは9点となる。
【0010】このスミス・ウォーターマンの方法以外
に、精度は劣るがより高速な検索が可能となる、FASTA
法(アカデミックプレス発行、ドゥーリトル編集、メソ
ッズ・イン・エンザイモロジー、183巻、63〜98頁、199
0年)や、BLAST法(ジャーナル・オブ・モレキュラー・
バイオロジー、215巻、403〜410頁、1990年)が代表的
な方法として知られている。
【0011】
【発明が解決しようとする課題】上記いずれの方法も文
字配列の情報のみで比較をおこなっており、ピーク位置
が正しく認識できていない場合(ノイズをピークとして
判定した場合や、小さなピークを見落とした場合等)に
は、最適な並置を得ることが出来ず、その結果として配
列決定精度が低下することがあった。本発明は、このよ
うな従来技術の問題点に鑑み、核酸塩基配列を精度良く
決定することができる方法を提供することを目的とす
る。
【0012】
【課題を解決するための手段】本発明の方法を実行する
核酸塩基配列決定装置は、蛍光体標識した核酸断片を電
気泳動して得られた蛍光強度波形データを読み込む手段
と、読み込んだ蛍光強度波形データに演算を行う手段
と、蛍光強度波形データ及び塩基配列に関連する情報を
表示する手段とを有し、蛍光強度波形データに演算を行
う手段は、既知の塩基配列情報を格納する機能と、検出
した蛍光強度波形データを処理して各塩基のピーク間隔
を算出する機能を有し、既知の塩基配列の情報を参照す
る際、算出した各塩基種のピーク間隔を評価基準として
既知塩基配列との並置の仕方を決定する機能を有する。
【0013】すなわち、本発明による核酸塩基配列決定
方法は、核酸試料から得た種々の長さの蛍光標識した核
酸断片を電気泳動して得られた4種類の塩基の蛍光強度
波形データのピーク情報を元に核酸試料の塩基配列を仮
決定するステップと、仮決定した塩基配列と既知塩基配
列に対してホモロジー検索を行い、仮決定した塩基配列
に相同性が高い既知塩基配列を候補配列として選択する
ステップと、候補配列が複数ある場合、4種類の塩基の
蛍光強度波形データのピーク間隔を算出するステップ
と、塩基欠損部分として判定される部位を挟む2つのピ
ークの間隔が最小である候補配列を仮決定した塩基配列
と並置するステップとを含むことを特徴とする。
【0014】(本)決定した核酸試料の塩基配列の中に
既知塩基配列と異なる部位がある場合には、その部位の
ピーク番号を表示するのが好ましい。同様に、(本)決
定した核酸試料の塩基配列の中に、同一ピーク位置に複
数の塩基が含まれていると同定された部位がある場合に
は、その部位のピーク番号を表示するのが好ましい。ま
た、表示されたピーク番号を選択したとき、蛍光強度波
形データの選択されたピーク番号に対応する部分を拡大
表示するようにするのが好ましい。
【0015】また、本発明は、核酸試料から得た種々の
長さの蛍光標識した核酸断片を電気泳動して得られた4
種類の塩基の蛍光強度波形データのピーク情報を元に核
酸試料の塩基配列を仮決定するステップと、仮決定した
塩基配列と既知塩基配列に対してホモロジー検索を行
い、仮決定した塩基配列に相同性が高い既知塩基配列を
候補配列として選択するステップと、候補配列が複数あ
る場合、4種類の塩基の蛍光強度波形データのピーク間
隔を算出するステップと、塩基欠損部分として判定され
る部位を挟む2つのピークの間隔が最小である候補配列
を仮決定した塩基配列と並置するステップとをコンピュ
ータに実行させるためのプログラムを提供する。
【0016】本発明によると、核酸塩基配列を精度良く
決定することができる。そして、本発明の方法によって
決定した核酸塩基配列に基づいて一塩基変異対(SNPs)
等を指標とする遺伝子診断(DNAマーカー)を行うこと
により、変異を容易に検出することが可能となり、疾患
遺伝子の探索や疾患感受性の判断、及び医薬品の開発
(テーラーメイド医療)等を、高精度かつ迅速に行える
ようになる。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1に、本発明が適用される核酸
塩基配列決定装置の構成例を示す。この装置は、核酸断
片泳動部11、蛍光信号計測部12、蛍光信号演算部1
3、データ表示部14、データ格納部15、各部を制御
する装置制御部16を備える。核酸断片泳動部11は、
蛍光標識した核酸断片群を電気泳動し塩基長の違いによ
り分離する。蛍光信号計測部12は、分離した核酸断片
にレーザーを照射する光学機器及び発生する蛍光を検出
する検出器等からなる。蛍光信号演算部13は、計測し
た蛍光強度波形データを信号処理し塩基配列の決定等を
行う。データ表示部14は、蛍光強度波形データ及び決
定した塩基配列に関連する情報の表示を行う。データ格
納部15は、蛍光強度波形データ及び決定した塩基配列
等の記録を行う。装置制御部16は、核酸断片泳動部1
1の電源の制御、蛍光信号計測部12の光源制御と検出
器のサンプリング条件の制御、蛍光信号演算部13とデ
ータ表示部14及びデータ格納部15間のデータ転送の
制御、蛍光信号演算部13におけるデータ処理内容の制
御等を行う。
【0018】図1に示した塩基配列決定装置を用いて塩
基配列を決定(仮決定)するためには、核酸断片分離部
11において、サンガー法等を用いて塩基配列を決定す
べき核酸試料を元に様々な長さの核酸断片群を調製す
る。反応には、蛍光色素により標識したプライマー、又
は蛍光色素により標識したddNTPを用い、核酸断片群に
蛍光色素を標識する。
【0019】まず初めに、塩基配列を知りたいDNA(テ
ンプレートDNA)を用意する。通常、未知の配列を持っ
たDNAをプラスミド(細菌等の細胞内にある核以外の細
胞質中の DNAで、主に複製開始情報のみを有する)に組
み込んだものか、ポリメラーゼ連鎖増幅反応(PCR)法
で塩基配列を直接増幅した核酸断片を用いる。次に、テ
ンプレートDNAとプライマー(テンプレートDNAの特定部
分の配列と相補的な塩基配列を有するもので、PCR法を
用いた場合は反応で利用した片側のものに相当する)を
試験管内の溶液中で混合し、温度をコントロールするこ
とでプライマーとテンプレートが相補的な二本鎖を形成
するようにする(アニーリング)。更に、このプライマ
ーを起点としてDNAを複製する過程に進み、複製はDNAポ
リメラーゼと呼ばれる酵素を触媒として行われる。そし
て、この反応液中にはDNAの合成に必要なdNTP(各種塩
基:アデニン(A)、シトシン(C)、グアニン(G)、
チミン(T)(もしくはウラシル(U))のモノマー)
と、4種類のddNTP(A,C,G,T(U)のターミネーター)
を所定の割合で混合し所定の濃度で入れておく。する
と、DNAが合成されていく時、ddNTPが取り込まれるとDN
Aの合成がそれ以上進まなくなる(伸長反応)。ここ
で、ddNTPにそれぞれの塩基に応じて色の異なる蛍光色
素を標識しておく。その結果、末端にddNTPを持つ様々
な長さ(塩基長)で合成が止まった核酸断片が生成さ
れ、各断片はその末端塩基に応じた蛍光色で標識される
ことになる。
【0020】次に、標識された核酸断片群に対し電気泳
動を行い、蛍光信号処理部12において蛍光信号を検出
して蛍光強度波形データを作成する。具体的には、上記
のようにしてできた核酸断片を含む溶液を濃縮精製した
後、一本鎖に変性して、ゲル電気泳動装置を用いて塩基
長毎に核酸断片を分離する。以下では、ゲル電気泳動装
置の一例として、キャピラリ泳動装置を用いた場合につ
いて説明する。まず、粘性のある高分子ポリマーをキャ
ピラリ(ガラス細管)に充填しておき、その両端に電圧
を印加することにより、負の電荷を有する核酸断片をキ
ャピラリの片側から導入・泳動させる。この時、核酸断
片は鎖状の重合体高分子であるため、ポリマー中を分子
量に反比例した速度で移動し、短い(分子量が小さい)
核酸断片ほど速く、長い(分子量が大きい)核酸断片ほ
どゆっくり移動するため、塩基長毎に核酸断片を分離す
ることができる。そしてキャピラリの終端付近(各核酸
断片を1塩基の長さの差異で分離可能となった位置)で
核酸断片にレーザ光を照射し、各断片末端塩基から発生
する蛍光を検出器により測定する。前記の通り、短い核
酸断片から順番に蛍光を発生していくので、4塩基種毎
の蛍光強度曲線が得られ、各ピーク位置での4種類の蛍
光強度等を比較することにより、塩基種(A,C,G,T
(U))の配列決定が可能となる。
【0021】図2は、蛍光強度波形データの例21と、
それを解釈して決定される塩基配列の例22である。実
際には、1度の計測で数百塩基分のデータが得られる
が、ここでは説明のためにその一部を示している。縦軸
は蛍光強度を表し、横軸は泳動時間を表している。蛍光
強度波形データ21に現れるピークの高さは、ある長さ
の核酸断片の量を反映したものである。通常、長い核酸
断片ほど泳動時間が遅いところにピークが現れ、ピーク
間隔は核酸断片が長くなるにつれて大きくなる傾向があ
る。そこで、表示の時間軸が塩基長に比例するように、
泳動電圧等の泳動条件で決まるパラメータを用いて補正
するのも有効である。
【0022】図3は、未知核酸断片の塩基配列を決定す
るために蛍光強度波形データに対して行う処理を示す図
である。この処理は、蛍光信号演算部13によって行わ
れる。蛍光信号演算部13は、未知核酸断片の蛍光強度
波形データに対して、スムージング処理(S31)及び
バックグラウンド補正(S32)を行う。その後、ピー
クの検出(S33)及びピーク間隔の決定(S34)を
行う。また、電気泳動時の泳動むら(スマイリング)に
よりピーク間隔は常に一定になるとは限らないため、得
られたピーク間隔の大きさから必要に応じてピーク位置
の補正(スマイリング補正)を行う(S35)。次に、
各ピーク位置での各塩基種の信号強度(あるいは各ピー
クの面積等)を比較して、所定の同定基準に従い塩基種
を順次決定する(塩基配列の仮決定)(S36)。
【0023】この同定基準の例としては、あるピーク位
置においてある塩基種(例えばA)の信号強度が一番大
きく、残る3つの塩基種の中で最も大きな塩基種(例え
ばC)の信号強度が最大塩基種(ここではA)の信号値の
T%未満であった場合(Tは閾値、例えば50%)、最大塩基
種(ここではA)として同定する。また、二番目の塩基
種(ここではC)がT%(例えば50%)以上であり、かつ三
番目の塩基種(例えばG)の強度が最大塩基種(ここで
はA)の信号値のT%(例えば50%)未満であった場合、最
大塩基種(ここではA)と二番目の塩基種(ここではC)
のヘテロ(混合塩基=同一ピーク位置に複数の塩基が含
まれていると同定された部位)として決定される(ここ
ではM(=A+C):IUB規格の混合塩基表示法)。同様にし
て全ての組み合わせに応じて混合塩基の表示方法(IUB
規格の混合塩基表示法)が決められているが、その判定
基準としては明確な値は示されていない。
【0024】上述のように、実際の核酸試料の塩基配列
決定では、ある特定部位の塩基変異を調べる場合のよう
に、塩基配列を決定すべき核酸試料の塩基配列の少なく
とも一部が既知である場合が多い。このような参照でき
る既知の塩基配列が存在する場合、上記仮決定した塩基
配列と既知の塩基配列に対してホモロジー検索を実施
し、仮決定した塩基配列の各々の部位について既知の塩
基配列との関連付けを行い、相同性が高い既知の塩基配
列を並置して参照することにより、塩基配列の決定精度
を高めることが可能となる。以下、上記ホモロジー検索
の具体的な処理内容について、図を用いて説明する。
【0025】一例として、図4に示した蛍光強度波形
(一部)の塩基配列を決定する場合について述べる。図
4の蛍光強度波形は、塩基長の長い(泳動時刻の遅い)
部分で得られた波形データであるため、塩基長の増大に
伴いピークどうしの分離が困難となりつつある部分の例
である。このような波形に対してピーク検出を行うと、
半値幅が広がった1つのピークが、しばしば「2つのピ
ークが重畳している状態」として判定されることがあ
る。図4の場合には、「CAAGGA」(=データベース(D
B)配列)として判定されるべき配列が、4番目の塩基G
及び5番目の塩基Gがともに2つのピークとして識別さ
れ、「CAAGGGGA」として仮決定されている。この仮決定
された配列「CAAGGGGA」と既知の配列「CAAGGA」を「従
来の技術」で述べた文字配列の情報のみで比較を行うス
ミス・ウォーターマンのホモロジー検索法で並置させた
場合(図3のステップ37)、下記3種類の配列が同ス
コアの候補として挙げられる(図3のステップ38の判
定でYESの場合)。 (仮配列 =CAAGGGGA) 候補配列1=CAA::GGA 候補配列2=CAAG::GA 候補配列3=CAAGG::A
【0026】ここで候補配列1は、6番目及び7番目の
文字「GG」が、どちらも二つ目のGのピークに由来する
ものであるため最適な並置とは言えず、同様に、候補配
列3も、4番目及び5番目の文字「GG」が、どちらも一
つ目のGのピークに由来するものであるため、最適な並
置とは言えない。即ち、この3種類の候補の中では候補
配列2が最適な並置と言える。なお、上記の候補配列1
〜3は、「n文字の挿入・欠失に対して、−4n−8点」と
するスコア方法を用いた場合の結果であり、スコア方法
を「n文字の挿入・欠失に対して、−4n点」とした場合
には、下記の候補配列4〜6もスミス・ウォーターマン
法での候補配列となり、これらの3種類の候補配列も最
適な並置の一つと言える。 (仮配列 =CAAGGGGA) 候補配列4=CAA:G:GA 候補配列5=CAA:GG:A 候補配列6=CAAG:G:A しかしながら、従来のホモロジー検索では、文字配列の
情報のみで判定を行うため、上記6種類の候補配列の中
から、最適な配列(候補配列2及び候補配列4〜6のい
ずれか)を選択するための判定根拠を見いだすことがで
きない。
【0027】これに対して本発明では、検出した蛍光強
度波形データから各塩基のピーク間隔を算出し、既知の
塩基配列と並置させる際に、算出した各塩基種のピーク
間隔を評価基準として用いることにより、最適な並置を
行うことが可能となる。以下、上記の例に対して、本発
明の方法を適用した場合について述べる。
【0028】まず初めに、図3のステップ39におい
て、仮配列のピーク間隔を以下のように算出しておく。 ここで、上記数列の最初の値「9」は、1番目の塩基
「C」と2番目の塩基「A」のピーク間隔を示す点数で、
2番目の値「7」は、2番目の塩基「A」と3番目の塩
基「A」のピーク間隔を示す点数、以下同様にして、各
値が各ピークの間隔を示している。以下に、上記6種類
の候補配列に対して各同定塩基のピーク間隔を算出した
ものを示す。
【0029】上記各候補配列のギャップ「:」を含む部
分のピーク間隔の値を下に示す。なお、ギャップを含む
部分が複数ある場合にはその平均値をとる。 候補配列1=19 候補配列2=18 候補配列3=20 候補配列4=12.5 候補配列5=13.5 候補配列6=13
【0030】図3のステップ40において、上記ギャッ
プを含む部分のピーク間隔の値が最も小さい候補配列を
選択すると、候補配列4が選ばれる。候補配列4は、上
記の最適な配列(候補配列2及び候補配列4〜6)の一
つである。また、上記のピーク間隔が小さい順に候補配
列を並べた場合、上位4つの配列(候補配列4、候
補配列6、候補配列5、候補配列2)が上記の最適
な候補配列となっており、「ギャップを含む部分のピー
ク間隔の値が最も小さい」という選択基準が、最適な配
列を選択するための判定根拠として適していることが分
かる。
【0031】図4では、このようにして最適な候補塩基
(ここでは候補塩基4)との並置を決定したのち、候補
塩基4のギャップを削除した候補配列4’(CAAGGA)を
作成し、DB配列として表示している。なお、このDB配列
の表示を行う際には、「2つのピークが重畳している状
態」として誤って判定されていたピーク位置(「GG」の
ピーク位置)を補正するため、再度、1つのピークであ
ることを考慮してピーク位置検索を行い、各ピークの最
大信号強度の位置上に塩基種を示す文字が配置されるよ
うにしてある。
【0032】なお、塩基配列の最終的な確定は、表示さ
れているDB配列を参照して、人間がマニュアルで確定を
行っても良いし、各ピーク位置での各塩基種の信号強度
を比較して、自動的に確定を行っても良い。図4の例で
は、候補配列4’と同じ配列「CAAGGA」を決定配列とし
て表示している。
【0033】もう一つの例として、図5に示したヘテロ
を含む蛍光強度波形(一部)の塩基配列を決定する場合
について述べる。この図5の蛍光強度波形は、図4の場
合と同様に、塩基長の長い部分で得られた波形データで
あるため、ピークどうしの分離が困難になりつつある部
分の例である。また、一つのピークが変異を起こし、ヘ
テロが生じている場合の例でもある(5番目の塩基Gが
変異を起こしてAとGのヘテロ(R)になっている)。こ
のような波形に対してピーク検出を行うと、図4の場合
と同様に、半値幅が広がった1つのピークが、「2つの
ピークが重畳している状態」として判定される。この場
合には、「CAAGGAC」(=DB配列)として判定されるべ
き配列が、4番目の塩基Gが2つのピークとして認識さ
れ、配列は「CAAGGRAC」として仮決定されている。この
仮決定された配列「CAAGGRAC」と既知の配列「CAAGGA
C」を「従来の技術」で述べた文字配列の情報のみで比
較を行うスミス・ウォーターマンのホモロジー検索法で
並置させた場合、下記の配列が最高スコアの候補として
挙げられる。 (仮配列 =CAAGGRAC ) 候補配列1=CAAGG:AC
【0034】なお、上記の候補配列1は、「完全に一致
した1文字のスコアは4点」(即ち、「R(=A+G)」と
「A」や、「R」と「G」の組み合わせを一致と見なさな
い)とするスコア方法を用いた場合の結果であり、スコ
ア方法を「一部でも一致した1文字のスコアは4点」(即
ち、「R(=A+G)」と「A」や、「R」と「G」の組み合わ
せを一致と見なす)とした場合には、下記の候補配列2
〜4もスミス・ウォーターマン法での候補配列となる
(図3のステップ37を経て、図3のステップ38の判
定でYESの場合)。 (仮配列 =CAAGGRAC) 候補配列2=CAA:GGAC 候補配列3=CAAG:GAC 候補配列4=CAAGGA:C ここで候補配列1は、5番目の塩基「G」が一つ目のGの
ピークに由来するものであるため最適な並置とは言えな
い。また候補配列4は、6番目の塩基「A」が「R」のピ
ークに由来するものであるため最適な並置とは言えな
い。この4種類の候補の中では候補配列2〜3が最適な
並置と言える。
【0035】しかしながら、従来のホモロジー検索で
は、文字配列の情報のみで判定を行うため、上記4種類
の候補配列の中から、最適な配列(候補配列2〜3のど
ちらか)を選択するための判定根拠を見いだすことがで
きない。これに対して本発明では、検出した蛍光強度波
形データから各塩基のピーク間隔を算出し、既知の塩基
配列と並置させる際に、算出した各塩基種のピーク間隔
を評価基準として用いることにより、最適な並置を行う
ことが可能となる。以下、上記の例に対して、本発明の
方法を適用した場合について述べる。
【0036】まず初めに、仮配列のピーク間隔を以下の
ように算出しておく。 ここで、上記数列の最初の値「9」は、1番目の塩基
「C」と2番目の塩基「A」のピーク間隔を示す点数で、
2番目の値「7」は、2番目の塩基「A」と3番目の塩
基「A」のピーク間隔を示す点数、以下同様にして、各
値が各ピークの間隔を示している。
【0037】以下に、上記4種類の候補配列に対して各
同定塩基のピーク間隔を算出したものを示す。 図3のステップ39において算出した上記各候補配列の
ギャップ「:」を含む部分のピーク間隔の値を下に示
す。 候補配列1=20.0 候補配列2=13.0 候補配列3=15.0 候補塩基4=19.0
【0038】図3のステップ40において上記ギャップ
を含む部分のピーク間隔の値が最も小さい候補配列を選
択した場合、候補配列2が選ばれる。候補配列2は、上
記の最適な配列(候補配列2〜3)の一つである。ま
た、上記のピーク間隔が小さい順に候補配列を並べた場
合、上位2つの配列(候補配列2、候補配列3)が
上記の最適な配列となっており、「ギャップを含む部分
のピーク間隔の値が最も小さい」という選択基準が最適
な配列を選択するための判定根拠として適していること
が分かる。
【0039】図5では、このようにして最適な候補塩基
(ここでは候補塩基2)との並置を決定したのち、候補
塩基2のギャップを削除した候補配列2’(CAAGGAC)
を作成し、DB配列として表示している。なお、このDB配
列の表示を行う際には、「2つのピークが重畳している
状態」として誤って判定されていたピーク位置(「GG」
のピーク位置)を補正するため、再度、1つのピークで
あることを考慮してピーク位置検索を行い、各ピークの
最大信号強度の位置上(ピーク位置の真上)に塩基種を
示す文字が配置されるようにしてある。
【0040】なお、塩基配列の最終的な確定は、表示さ
れているDB配列を参照して、オペレータがマニュアルで
確定を行っても良いし、各ピーク位置での各塩基種の信
号強度を比較して、自動的に確定を行っても良い。図5
の例では、5番目の塩基において、既知配列である
「A」の信号強度と、既知配列ではない「G」の信号強度
が同等であることを判定の根拠として、「A」と「G」の
ヘテロ(R)であると確定し、候補配列2’とは1塩基
異なる配列「CAAGRAC」を決定配列として表示してい
る。
【0041】上記のようにして決定された塩基配列情報
(ピーク番号、ピーク位置、塩基種等)は、上記図1の
データ格納部15に記録される。記録する際の形式(フ
ォーマット)として、既に様々なものが提案されている
が、一例としてSCFフォーマットと呼ばれる形式につい
て、以下、簡単に説明する。SCFフォーマット(version
3.00)では、以下の項目に対応する値が、ファイルに
順次、記録されている。
【0042】 項目 内容 magic_number = フォーマット識別数(文字列".SCF"を数値化したもの) samples = 波形点数 samples_offset = 波形強度が記録されている最初の番地(バイトオフセット ) bases = 塩基数 bases_left_clip = 不使用(No. bases in left clip) bases_right_clip= 不使用(No. bases in right clip) bases_offset = 塩基配列が記録されている最初の番地(バイトオフセット ) comments_size = コメントの大きさ comments_offset = コメントが記録されている最初の番地(バイトオフセット ) version = バージョン sample_size = 波形強度値のビットサイズ(1=8ビット、2=16ビット ) code_set = 使用されているコードセット private_size = プライベートデータの大きさ private_offset = プライベート値が記録されている最初の番地(バイトオフ セット) spare = 予備 Samples for A trace = アデニン(A)塩基の波形データ Samples for C trace = シトシン(C)塩基の波形データ Samples for G trace = グアニン(G)塩基の波形データ Samples for T trace = チミン(T)塩基の波形データ Offset into peak index for each base = 各塩基のピーク位置 Accuracy estimate bases being 'A' = A塩基の同定信頼性 Accuracy estimate bases being 'C' = C塩基の同定信頼性 Accuracy estimate bases being 'G' = G塩基の同定信頼性 Accuracy estimate bases being 'T' = T塩基の同定信頼性 The called bases = 同定された塩基種(決定塩基配列) Reserved for future use = 予備 Comments = コメント Private data = プライベートデータ 上記SCFフォーマット(version 3.00)で記録された情
報(データファイル)を用いることにより、上記図5と
同等の解析結果(新規に計測した蛍光強度波形と各ピー
ク位置に対応する塩基種文字)を再現することが可能と
なる。なお図5では、既知塩基配列と解析途中の仮決定
配列が表示されているが、既知塩基配列については、上
記のSCFフォーマットで別途記録されたデータ(波形デ
ータやピーク位置等は省かれているもの)を用いても良
いし、既知塩基配列だけが単なる文字列(テキストファ
イル)として記録されたものを用いても良い。また、解
析途中の仮決定配列に関しては、特に記録しておく必要
は無い。
【0043】図6は本発明による核酸塩基配列検査シス
テムの表示画面の例(ピーク番号表示)を示す図、図7
はピークを拡大表示した表示例を示す図である。図6の
表示例では1画面に870ピーク分の波形が表示されてい
るのに対し、図7の表示例は1画面に19ピーク分の波形
が表示されている(約46倍の拡大率)。拡大後の画面に
おいて1画面当たり1〜50個のピークが表示されるよう
な拡大倍率で拡大を行えば、同様の効果を得ることが出
来る。
【0044】なお、計測した蛍光強度波形データに、上
記第2の例のようなヘテロを示す部位が多数(1つ以
上)存在していた場合、図6の表示欄61に示すよう
に、ヘテロと同定された部位のピーク番号を纏めて表示
しておくことにより、ヘテロの有無を容易にチェックす
ることが可能となる。更に、表示されているピーク番号
を選択した場合に、図7に示すように、そのピーク番号
に対応する蛍光強度波形の該当部分71を拡大して表示
することによって、ヘテロと判定された部分の波形のチ
ェックが容易になる。なお、表示画面上でのピーク番号
の選択方法としては、画面上の表示部分をマウスカーソ
ル63等で選択してクリックする方法や、ピーク番号入
力ボックス64にピーク番号を入力する方法等を用いれ
ば良い。
【0045】また、計測した蛍光強度波形データに、上
記第2の例のようなDB配列とは異なる配列を示す部位が
多数(1つ以上)存在していた場合、図6の表示欄62
に示すように、DB配列と異なる塩基種に同定された部位
のピーク番号を纏めて表示しておくことにより、DB配列
との差異の有無を容易にチェックすることが可能とな
る。更に、上記ヘテロの場合と同様に、表示されている
ピーク番号を選択した場合に、そのピーク番号に対応す
る蛍光強度波形の該当部分を拡大して表示することによ
って、容易にDB配列と異なる塩基種に同定された部分の
波形をチェックすることが可能となる。なお、上記ピー
ク番号の選択方法としては、上記ヘテロの場合と同様
に、画面上の表示部分をマウス等でクリックする方法や
ピーク番号を入力する方法等を用いれば良い。
【0046】なお、本発明が適用される図1の核酸塩基
配列決定装置の構成例では、蛍光標識した核酸断片群を
電気泳動し塩基長の違いにより分離する核酸断片分離部
11、分離した核酸断片にレーザ光を照射する光学機器
及び発生する蛍光を検出する検出器等からなる蛍光信号
計測部12を含む装置構成例が示されているが、これら
の構成部分は必ずしも必要ではなく、別の蛍光強度波形
計測装置等で測定された蛍光強度波形データを読み込む
機能を、蛍光信号処理部13に持たせた場合にも、同様
の効果を得ることができる。なお、上記データの読み込
み方法には、フロッピー(登録商標)ディスクや光ディ
スク等の記録媒体を用いる情報伝達方法や、通信回線を
用いる方法等を利用できる。
【0047】
【発明の効果】本発明によれば、核酸断片を測定して得
られた蛍光強度波形データを解釈して、A、C、G、T
(U)等の塩基配列を決定する際に、既知の塩基配列を
正しく並置して参照することが可能となり、その結果と
して塩基配列の決定精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明が適用される塩基配列決定装置の構成例
を示す図。
【図2】蛍光強度波形データと塩基配列の例を示す図。
【図3】蛍光強度波形データに対する処理手順の例を示
す図。
【図4】本発明による塩基配列決定の例を示す図。
【図5】本発明による塩基配列決定の他の例(ヘテロを
含む場合)を示す図。
【図6】本発明による核酸塩基配列検査システムの表示
例(ピーク番号表示)の図。
【図7】本発明による核酸塩基配列検査システムの表示
例(ピーク拡大図)の図。
【図8】スミス・ウォーターマンの方法の説明図。
【符号の説明】
11…核酸断片分離部、12…蛍光信号計測部、13…
蛍光信号処理部、14…データ表示部、15…データ格
納部、16…装置制御部、21…蛍光強度波形、22…
塩基配列、61…ヘテロと同定されたピークの番号表示
欄、62…DBと異なる塩基種として同定されたピーク
の番号表示欄、63…マウスカーソル、64…拡大表示
するピーク番号の入力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松尾 仁司 東京都国分寺市東恋ヶ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 福薗 真一 茨城県ひたちなか市大字市毛882番地 株 式会社日立ハイテクノロジーズ設計・製造 統括本部那珂事業所内 (72)発明者 菅野 康吉 栃木県宇都宮市陽南4−9−13 栃木県立 がんセンター研究所 がん遺伝子研究室・ がん予防研究室内 Fターム(参考) 2G043 AA04 BA16 CA04 DA02 EA01 EA19 FA03 GA07 GB21 LA01 4B063 QA13 QQ42 QQ52 QR66 QS16 QS36 QS39 QS40 QX02 QX10

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】核酸試料から得た種々の長さの蛍光標識し
    た核酸断片を電気泳動して得られた4種類の塩基の蛍光
    強度波形データのピーク情報を元に前記核酸試料の塩基
    配列を仮決定するステップと、 前記仮決定した塩基配列と既知塩基配列に対してホモロ
    ジー検索を行い、前記仮決定した塩基配列に相同性が高
    い既知塩基配列を候補配列として選択するステップと、 前記候補配列が複数ある場合、前記4種類の塩基の蛍光
    強度波形データのピーク間隔を算出するステップと、 塩基欠損部分として判定される部位を挟む2つのピーク
    の間隔が最小である候補配列を前記仮決定した塩基配列
    と並置するステップとを含むことを特徴とする核酸塩基
    配列決定方法。
  2. 【請求項2】請求項1記載の核酸塩基配列決定方法にお
    いて、前記核酸試料の塩基配列の中に前記既知塩基配列
    と異なる部位がある場合に、該部位のピーク番号を表示
    することを特徴とする核酸塩基配列決定方法。
  3. 【請求項3】請求項1又は2記載の核酸塩基配列決定方
    法において、前記核酸試料の塩基配列の中に、同一ピー
    ク位置に複数の塩基が含まれていると同定された部位が
    ある場合に、該部位のピーク番号を表示することを特徴
    とする核酸塩基配列決定方法。
  4. 【請求項4】請求項2又は3記載の核酸塩基配列決定方
    法において、 表示されたピーク番号を選択するステップと、 前記蛍光強度波形データの前記選択されたピーク番号に
    対応する部分を拡大表示するステップとを更に有するこ
    とを特徴とする核酸塩基配列決定方法。
  5. 【請求項5】核酸試料から得た種々の長さの蛍光標識し
    た核酸断片を電気泳動して得られた4種類の塩基の蛍光
    強度波形データのピーク情報を元に前記核酸試料の塩基
    配列を仮決定するステップと、 前記仮決定した塩基配列と既知塩基配列に対してホモロ
    ジー検索を行い、前記仮決定した塩基配列に相同性が高
    い既知塩基配列を候補配列として選択するステップと、 前記候補配列が複数ある場合、前記4種類の塩基の蛍光
    強度波形データのピーク間隔を算出するステップと、 塩基欠損部分として判定される部位を挟む2つのピーク
    の間隔が最小である候補配列を前記仮決定した塩基配列
    と並置するステップとをコンピュータに実行させるため
    のプログラム。
JP2002076376A 2002-03-19 2002-03-19 核酸塩基配列決定方法 Expired - Lifetime JP3878503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002076376A JP3878503B2 (ja) 2002-03-19 2002-03-19 核酸塩基配列決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002076376A JP3878503B2 (ja) 2002-03-19 2002-03-19 核酸塩基配列決定方法

Publications (3)

Publication Number Publication Date
JP2003270205A true JP2003270205A (ja) 2003-09-25
JP2003270205A5 JP2003270205A5 (ja) 2005-08-11
JP3878503B2 JP3878503B2 (ja) 2007-02-07

Family

ID=29205167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002076376A Expired - Lifetime JP3878503B2 (ja) 2002-03-19 2002-03-19 核酸塩基配列決定方法

Country Status (1)

Country Link
JP (1) JP3878503B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084471A (ja) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag 核酸クロマトグラムを処理するためのシステムおよび方法
JP2008249440A (ja) * 2007-03-30 2008-10-16 Hitachi High-Technologies Corp クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
JP2009294231A (ja) * 2009-09-24 2009-12-17 Hitachi High-Technologies Corp クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
JP2013094149A (ja) * 2011-11-04 2013-05-20 Hitachi Ltd Dna配列解読システム、dna配列解読方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084471A (ja) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag 核酸クロマトグラムを処理するためのシステムおよび方法
JP2008249440A (ja) * 2007-03-30 2008-10-16 Hitachi High-Technologies Corp クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
US7742879B2 (en) 2007-03-30 2010-06-22 Hitachi High-Technologies Corporation Method and apparatus for chromatography mass spectrometry
JP4602374B2 (ja) * 2007-03-30 2010-12-22 株式会社日立ハイテクノロジーズ クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
JP2009294231A (ja) * 2009-09-24 2009-12-17 Hitachi High-Technologies Corp クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
JP2013094149A (ja) * 2011-11-04 2013-05-20 Hitachi Ltd Dna配列解読システム、dna配列解読方法及びプログラム

Also Published As

Publication number Publication date
JP3878503B2 (ja) 2007-02-07

Similar Documents

Publication Publication Date Title
US10984887B2 (en) Systems and methods for detecting structural variants
JP2018508852A (ja) 構造的変異及び相化情報を視覚化するシステム及び方法
US7617054B2 (en) Method and apparatus for analysing nucleic acid sequence
WO2019001168A1 (zh) 测序数据结果分析方法和装置、测序文库构建和测序方法
US20160002717A1 (en) Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease
CN110033829A (zh) 基于差异snp标记物的同源基因的融合检测方法
CN108431236B (zh) 用于重复序列的核酸大小检测的方法
CN110846429A (zh) 一种玉米全基因组InDel芯片及其应用
CN109593832A (zh) 一种ARMS-ddPCR基因点突变的检测方法
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
JP2002055080A (ja) 核酸塩基配列決定装置および検査システム
JP3878503B2 (ja) 核酸塩基配列決定方法
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
JP4209623B2 (ja) 核酸塩基配列決定方法
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
JP4317398B2 (ja) 核酸塩基配列情報の記録方法及び核酸塩基配列決定方法
US20220364080A1 (en) Methods for dna library generation to facilitate the detection and reporting of low frequency variants
CN108304693B (zh) 利用高通量测序数据分析基因融合的方法
JP4226912B2 (ja) 核酸塩基配列決定方法
Osborne et al. Single-molecule LATE-PCR analysis of human mitochondrial genomic sequence variations
US6291167B1 (en) Method for determining the existence of a mutation
JP4414823B2 (ja) 遺伝子情報の表示方法及び表示装置
CN117265139B (zh) 一种萨福克羊体重相关snp标记及其筛选方法与应用
Adam et al. Nanopore guided assembly of segmental duplications near telomeres
Mostovoy et al. Genome mapping resolves structural variation within segmental duplications associated with microdeletion/microduplication syndromes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3878503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131110

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term