JP3943937B2 - 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法 - Google Patents

基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法 Download PDF

Info

Publication number
JP3943937B2
JP3943937B2 JP2002010851A JP2002010851A JP3943937B2 JP 3943937 B2 JP3943937 B2 JP 3943937B2 JP 2002010851 A JP2002010851 A JP 2002010851A JP 2002010851 A JP2002010851 A JP 2002010851A JP 3943937 B2 JP3943937 B2 JP 3943937B2
Authority
JP
Japan
Prior art keywords
homologous
reference sequence
region
base
extraction filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002010851A
Other languages
English (en)
Other versions
JP2003216616A (ja
Inventor
操 大木
剛 前野
徳起 崎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Cancer Center Japan
National Institute of Biomedical Innovation NIBIO
Original Assignee
National Cancer Center Japan
National Institute of Biomedical Innovation NIBIO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Cancer Center Japan, National Institute of Biomedical Innovation NIBIO filed Critical National Cancer Center Japan
Priority to JP2002010851A priority Critical patent/JP3943937B2/ja
Publication of JP2003216616A publication Critical patent/JP2003216616A/ja
Application granted granted Critical
Publication of JP3943937B2 publication Critical patent/JP3943937B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、基準配列抽出フィルターを用いて、被験DNA配列における塩基の挿入もしくは欠失の有無、並びに、挿入もしくは欠失された塩基数を判定する方法に関する。
【0002】
【従来の技術】
ヒトなどの2倍体生物は各染色体を2コピーずつ持っており、ヘテロな塩基挿入欠失が起きたとき、これをシークエンスすると波形が2本重なったような状態となりノイズとの判別が難しい。シークエンサーから出力される塩基配列波形データは塩基修飾試薬、電気泳動、検出走査系統などから構成される計測系を通して得られている。そのため、波形データにはノイズ等の劣化要素が加わっている。このように劣化して検出された波形データは塩基挿入、欠失が存在している波形と区別がつかずこれらを自動的に選別することは困難であった。通常、塩基挿入、欠失を検出するためにはSSCP (Single‐Strand Conformational Polymorphism)などのDNAの高次構造の違いからこれらを検出する方法があるが、実験条件設定をいくつか振り分けなければならなく、それに伴いハイスループット化が難しい実験手法であることが問題となっていた。シークエンシング(塩基配列決定)は近年著しいハイスループット化が実現おり、装置の普及も進んでいる。ノイズを含めたシークエンス結果から挿入または欠失の起きたサンプルを判定できれば、挿入欠失サンプル発見において標準的で高速な手段となりうるが、そのような方法が開発されたという報告は皆無であった。
【0003】
【発明が解決しようとする課題】
本発明は、このような状況に鑑みてなされたものであり、その目的は、被験DNA配列における塩基の挿入もしくは欠失の判定を高速かつ自動で行うことができる新しい方法を提供することにある。より詳細には、ノイズ等の劣化要素が加わっている波形データで示される被験DNA配列から、基準配列抽出フィルターを用いて、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法を提供することを目的とする。
【0004】
【課題を解決するための手段】
本発明者らは、上記の課題を解決するために鋭意研究を行った。まず、基準配列と波形データで示される被験DNA配列を、各塩基ごとに4塩基成分に分解したベクトルの集合で、2次元のマトリクスに変換し、それぞれ基準配列抽出フィルターおよびサンプルマトリクスと命名した。次いで、基準配列抽出フィルターとサンプルマトリクスの開始末端と終止末端を重ね合わせ、基準配列抽出フィルターとサンプルマトリクスを1塩基ずつ移動させながら、最初に重ね合わせた点からの移動距離、および重なり合った塩基についてマトリクスの積の和を計算した。また、各位置での相同領域を特定した。さらに、最大相同塩基配列検出点および標準基準配列抽出フィルター相同領域、標準サンプルマトリクス相同領域を特定し、基準配列抽出フィルター予測相同領域を計算した。予測相同領域と実測相同領域を比較し、データの整合性を確認した。次いで、移動距離を縦軸、基準配列マトリクス位置を横軸にとり検出位置関係図を作成した。本発明者らは、上記の相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域から、被験DNA配列において塩基の挿入もしくは欠失の有無を評価し、挿入もしくは欠失された塩基数を同定できることを示した。さらに、上記の工程をコンピュータに実行させることで被験DNA配列における塩基の挿入もしくは欠失の有無の評価、または挿入もしくは欠失された塩基数の同定のハイスループット化が実現できることを示した。
【0005】
以上のことから、被験DNA配列における塩基の挿入もしくは欠失の判定を高速かつ自動で行うことができる。上記方法においては、波形データで示される被験DNA配列をマトリックスに変換することにより、ノイズ等のデータ劣化要素を取り除くことができる。従って本発明の方法によって、特にノイズ等の劣化要素が加わっている波形データから、被験DNA配列における塩基の挿入もしくは欠失の判定が容易になるものと大いに期待される。
【0006】
即ち、本発明は、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を高速かつ自動で判定できる新しい方法に関し、より具体的には、
〔1〕被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法であって、
(a)基準配列を、各塩基ごとに4塩基成分に分解したベクトルの集合からなる基準配列抽出フィルター、および、被験DNA配列を各塩基ごとに4塩基成分に分解したベクトルの集合からなるサンプルマトリクスを作成する工程、
(b)該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせる工程、
(c)該基準配列抽出フィルターと該サンプルマトリクスを1塩基ずつ移動させながら、該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせた点からの移動距離、および重なり合った塩基についてマトリクスの積の和を算出する工程、
(d)該マトリクスの積の和から、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域を算出する工程、
(e)最も多い相同塩基数を示す場合の移動距離である最大相同塩基配列検出点、該検出点における基準配列抽出フィルター相同領域である標準基準配列抽出フィルター相同領域、および該検出点におけるサンプルマトリクス相同領域である標準サンプルマトリクス相同領域を算出する工程、
(f)該標準基準配列抽出フィルター相同領域および該標準サンプルマトリクス相同領域から、マトリクス間位置補正値を算出する工程、
を含み、上記の相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域から、被験DNA配列において塩基の挿入もしくは欠失の有無を評価し、挿入もしくは欠失された塩基数を判定する方法、
〔2〕コンピュータに〔1〕の(a)〜(f)の工程を実行させて、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定するためのプログラム、
〔3〕〔2〕に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体、
〔4〕以下の(1)〜(3)の手段を含む、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定するための装置、
(1)基準配列および被験DNA配列情報が入力される入力手段
(2)〔1〕の(a)〜(f)の工程により、相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域を算出する演算手段
(3)演算結果を表示する表示手段、を提供するものである。
【0007】
【発明の実施の形態】
本発明は、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法を提供する。
【0008】
本発明においては、まず、基準配列を各塩基ごとに4塩基成分に分解したベクトルの集合からなる基準配列抽出フィルター、および、被験DNA配列を各塩基ごとに4塩基成分に分解したベクトルの集合からなるサンプルマトリクスを作成する(工程(a))。
【0009】
本発明の方法により塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数の判定を行う被験DNA配列としては、例えば、当業者において一般的に行われるDNAシークエンシングによって取得される所望のDNA配列データを挙げることができる。塩基の挿入もしくは欠失の有無、または、挿入もしくは欠失された塩基数の判定は、通常、被験DNA配列と既にDNA配列が決定されているDNAの配列(例えば野生型遺伝子のDNA配列等)を比較することにより行われる。例えば、ある被験試料の遺伝子Aについてシークエンシングを行って得られた被験DNA配列について、本発明の方法により塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数の判定を行う場合、該被験DNA配列を、野生型遺伝子Aの塩基配列と比較することにより、本発明の判定を行うことができる。
【0010】
本発明の被験DNAとしては、その由来等は特に限定されず、例えば、1倍体生物もしくは2倍体生物から調製した染色体DNAまたはcDNAを挙げることができる。2倍体生物から調製した染色体DNAを被験DNAとする場合、塩基の挿入もしくは欠失として、具体的には、(1)片方の染色体DNAに塩基の挿入もしくは欠失が生じているタイプ(ヘテロ挿入またはヘテロ欠失)、(2)両方の染色体に塩基の挿入もしくは欠失が生じているタイプ(ホモ挿入またはホモ欠失)が挙げられ、本発明の方法は、このようなタイプについて、塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数の判定を行うことが可能である。また、本発明は2倍体生物のホモ欠失およびホモ挿入に対して有効であることから、1倍体生物の染色体DNA配列に対しても適用可能である。また、本発明は、被験DNA配列において複数箇所の挿入、欠失の判定を行うことが可能である。
【0011】
本発明においては、被験DNA配列と比較を行うべきDNA配列を基準配列と呼ぶ。本発明における基準配列としては、同種の同一領域をコードしている塩基配列が個体によりわずかに異なるような場合は、それらの配列の一般型の配列を指す。一般型の配列は、例えば複数のサンプルにおいて、同じ領域の塩基配列をシークエンサーにより決定し、アセンブラーによってつなぎ合わせることにより同定することができる。また、既存データベースにその領域が登録されている場合、これを用いてもよい。基準配列は被験DNA配列と同一鎖の塩基配列であり、相補鎖であってはならない。
【0012】
本発明において、上記基準配列抽出フィルターとは、基準配列(A,T,G,Cであらわされた塩基配列)を各塩基ごとに4塩基成分に分解したベクトルの集合で、2次元のマトリクスへ翻訳(展開)したものを言い、本発明においては、基準配列マトリクスとも記載する。また、本発明における上記サンプルマトリクスとは、被験DNA配列を4塩基成分に分解したベクトルの集合で、シークエンスを2次元のマトリクスへ翻訳(展開)したものを意味する。
【0013】
具体的には、被験DNA配列中のある位置の塩基の種類がA、T、G、またはCである場合には、上記ベクトルは、例えば、それぞれ(1,0,0,0)、(0,0,0,1)、(0,1,0,0)、または(0,0,1,0)で表すことができ、被験DNA配列はこれらのベクトルの集合であるマトリクスとして表現される。つまり、被験DNA配列は、上記のようにして表されるベクトルを、該配列の塩基の並びに従って集合させたマトリクスとして表される。より具体的には、被験DNA配列が、例えばシークエンスを行った際に結果として検出される波形データである場合には、本発明のマトリクスは、例えば後述の実施例1の表1または表2で示すように表現することができる。具体的には、波形として検出されたものは1、そうでないものは0とし、各塩基を例えば、A(1,0,0,0)、G(0,1,0,0)、C(0,0,1,0)およびT(0,0,0,1)で表現することができる。しかし、被験DNA配列を上記のようにデジタル情報(二進法)として表現し得る方法であれば、上記の表現形態に限定されるものではない。また、波形データ中の1つの塩基に対応する波形シグナルが1つに特定されず、2つ以上の波形シグナルを有する場合も考えられる。この場合、上記ベクトルは、例えば、AおよびTの2つ波形シグナルが出ている場合には(1,0,0,1)、AGの2つ波形シグナルが出ている場合には(1,0,1,0)として表すことができる。本発明においてはノイズ等の劣化要素が加わっている波形データを、劣化要素も含めて1または0のようにデジタル化する。劣化要素の出現は規則性が無いので基準配列抽出フィルターとの比較において連続的な相同性は得られない。よって劣化要素を取り除くことができる。さらに、2本の波形シグナルが出ている場合でも、この2本のシグナルを挿入、欠失を判定する情報として加味することができるため、挿入・欠失についてヘテロまたはホモの判定が可能となった。
【0014】
本発明においては、次いで、基準配列抽出フィルターとサンプルマトリクスの開始末端と終止末端を重ね合わせる(工程(b))。
【0015】
本工程における好ましい態様としては、まず、ベクトルの集合である2つのマトリクスを、一方のマトリクスの最初のベクトル(開始末端)と他方のマトリクスの最後のベクトル(終止末端)が対応するように、重ね合わせる。この状態を本発明においては、「計測開始点」と呼ぶ。この計測開始点として、具体的には、後述の実施例1の図5で示されるような状態を例示することができる。本発明において「計測開始点」とは、通常最初のベクトルと他方のマトリクスの最後のベクトルが対応するように重ねあわされた場所を指し、通常、基準配列抽出フィルターにおけるシークエンス反応開始点を提示できる場合のみ計測開始点を移動させることができる。また、計測開始点としては、上記の開始末端と終止末端の末端同士に限定されず、基準配列抽出フィルターにおけるシークエンス反応開始点が分かっている場合には、計算量削減のため上記以外の重ね合わせの状態を計測開始点とすることも可能である。
【0016】
本発明においては、次いで、基準配列抽出フィルターとサンプルマトリクスを1塩基ずつ移動させながら、基準配列抽出フィルターとサンプルマトリクスの開始末端と終止末端を重ね合わせた点(計測開始点)からの移動距離、および重なり合った塩基についてマトリクスの積の和を算出する(工程(c))。
【0017】
上記工程において、「基準配列抽出フィルターとサンプルマトリクスを1塩基ずつ移動させる」とは、上記計測開始点から、基準配列抽出フィルターとサンプルマトリクスを、これらの重なり合う領域が1塩基分(1ベクトル分)変化するようにずらす操作をいう。この操作はマトリクス同士の重なりが無くなり次第、もしくはサンプルマトリクス開始点が基準配列抽出フィルターにおけるシークエンス反応終止点と重なったら終了する。
【0018】
また、移動距離とは、基準配列抽出フィルターとサンプルマトリクスを1塩基ずつ移動させた場合の、計測開始点からの移動したベクトルの数、即ち、移動塩基数を言う。
【0019】
また、重なり合った塩基についてマトリクスの積の和を算出するとは、重なり合ったマトリクスの領域において該領域に含まれる全てのベクトルについて、各々の重なり合うベクトル同士の積の和を算出することを言う。
【0020】
ベクトルの積の和は、例えば、2つのベクトルが(a1,b1,c1,d1)および(a2,b2,c2,d2)であるとき、{(a1×a2)+(b1×b2)+(c1×c2)+(d1×d2)}で表される。具体的には、2つのベクトルが(1,0,0,0)および(1,0,0,1)であるとき、これらのベクトルの積の和は、(1×1)+(0×0)+(0×0)+(0×1)=1となる。また、2つのベクトルが(1,0,0,0)および(0,0,1,0)であるとき、これらのベクトルの積の和は、(1×0)+(0×0)+(0×1)+(0×0)=0となる。
【0021】
本発明においては、次いで、マトリクスの積の和から、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域を算出する(工程(d))。
【0022】
本発明において「相同な塩基」であるか否かの判定は、例えば、上記工程(c)により算出されるマトリクスの積の和が1以上である場合に重なり合う塩基は相同であると判定し、マトリクスの積の和が0である場合には相同ではない(非相同である)と判定する。
【0023】
「重なり合った塩基における連続する相同な塩基配列」とは、上記判定により相同な塩基であることを示すマトリクスの積の和の「1以上の数字」が連続して出現するマトリクス領域である。「連続して出現」とは一定塩基数以上の相同性があった場合をいう。一定塩基数の基準は特に限定されないが、例えば、1ベクトルに複数の波形出ている場合(ノイズが非常に多い状態)、20塩基以下の相同性を持つ領域が大量に検出されるため、本発明においては通常、25塩基以上の相同性があった場合記録する。
【0024】
「相同塩基数」とはマトリクスの積の和の「1以上の数字」が連続して出現した回数を言う。「基準配列抽出フィルター相同領域」とはマトリクスの積の和の「1以上の数字」が連続して出現した領域の中で最初と最後に「1以上の数字」が出現した基準配列抽出フィルター上での位置情報である。「サンプルマトリクス相同領域」についても同様である。これら移動距離、相同塩基数、基準配列抽出フィルターの相同性をもつ領域の両末端の位置、サンプルマトリクスの相同性を持つ領域の両末端の位置は、上記の工程(c)でマトリクスを1塩基ずつ移動させ、「重なり合った塩基における連続する相同な塩基配列」が検出された際に、その都度記録を行う。なお、本発明において上記の「1以上の数字」とは、通常「1」である。
【0025】
また、工程(d)において得られたデータの中にはノイズや繰り返し配列由来の偽陽性のデータが多数あり、通常、これを除かなければならない。本発明においては、次いで、最も多い相同塩基数を示す場合の移動距離である最大相同塩基配列検出点、該検出点における基準配列抽出フィルター相同領域である標準基準配列抽出フィルター相同領域、および該検出点におけるサンプルマトリクス相同領域である標準サンプルマトリクス相同領域を算出し(工程(e))、次いで、該標準基準配列抽出フィルター相同領域および該標準サンプルマトリクス相同領域から、マトリクス間位置補正値を算出する(工程(f))。
【0026】
上記「最大相同塩基配列検出点」は、シークエンス配列に挿入欠失部位が無ければ、全ての相同性を示す領域は通常、該検出点上に存在するものと考えられる。一方、「最大相同塩基配列検出点」から離れた移動距離に相同領域がある場合、挿入および/または欠失が生じているものと考えられる。
【0027】
上記「マトリクス間位置補正値」はマトリクス間の標準相同領域の差分であり、「基準配列抽出フィルター相同領域」または「サンプルマトリクス相同領域」のどちらかがわかれば、「マトリクス間位置補正値」を用いて本来あるべきお互いのマトリクス上の位置を算出することが可能である。「マトリクス間位置補正値」の算出は、具体的には「標準基準配列抽出フィルター相同領域」を (c1,c2)、「標準サンプルマトリクス相同領域」を (s1,s2)としたときマトリクス間位置補正値は、c1‐s1またはc2‐s2として表される。
【0028】
次いで、本発明の好ましい態様においては、上記の各移動距離の差分を、該標準サンプルマトリクス相同領域に加え、さらにマトリクス間位置補正を行うことで、基準配列抽出フィルター予測相同領域が算出される。
【0029】
上記「移動距離の差分」とは「最大相同塩基配列検出点」からの移動距離の差を計算したもので、これをサンプルマトリクス相同領域に加えると挿入や欠失が無かった場合のサンプルマトリクス相同領域が計算できる。
【0030】
「基準配列抽出フィルター予測相同領域」の算出は、例えば、「マトリクス間位置補正値」をa、「最大相同塩基配列検出点」をbとしたとき、移動距離b’、「サンプルマトリクス相同領域」 (s1,s2)、における「基準配列抽出フィルター予測相同領域」(c1,c2)は、{c1 = s1' + a-(b' ‐b)}、{c2 = s2' + a-(b' ‐ b)}で表される。具体的には「標準基準配列抽出フィルター相同領域」を(100,500)、「標準サンプルマトリクス相同領域」を(150,550)としたとき、マトリクス間位置補正値は100‐150=-50である。また「最大相同塩基配列検出点」を1200としたとき、移動距離1210、「サンプルマトリクス相同領域」(300,550)における「基準配列抽出フィルター予測相同領域」(c1,c2)は、c1 = 300+(‐50)-(1210‐1200) = 240、c2 = 550+(‐50)-(1210‐1200) = 490で表される。
【0031】
「最大相同塩基配列検出点」より10塩基多い移動距離で検出されたことは、10塩基欠失であるということである。10塩基欠失でサンプルマトリクスの相同領域は300〜550であるから、マトリクス間位置補正を行うと、基準配列抽出フィルター予想相同領域は240〜490である。このようにしてえられた予想相同領域と実際に検出された基準配列抽出フィルター相同領域とが同一であれば、挿入および欠失に基づく相同領域情報であることが確認される。このように、基準配列抽出フィルター予想相同領域の算出、および実際の基準配列抽出フィルター相同領域との比較を行いデータの整合性を確認することができる。
【0032】
本発明においては、上記の相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域から、被験DNA配列において塩基の挿入もしくは欠失の有無を評価し、挿入もしくは欠失された塩基数を判定する。
【0033】
上記判定における好ましい態様としては、上記工程によって算出される全ての「基準配列抽出フィルター」を表記する検出位置関係図を作成し、この検出位置関係図をもとに上記判定を行う。図7〜図16に、このようにして作成される検出位置関係図の具体例を示すが、本発明におけるグラフの種類等は特に限定されない。
【0034】
作成される検出位置関係図は、挿入も欠失も有さない通常のサンプルの場合、最大相同塩基配列検出点上にすべての基準配列抽出フィルター配列抽出相同領域が記載される。これに対して挿入、欠失を起こしたサンプルはその数に応じて相同領域が複数個出現し、その検出形態から挿入、欠失、ホモ、ヘテロ等の形態を予測することができる。
【0035】
描画された検出形態は基準配列マトリクス位置上流の相同領域に対してひとつ下流の相同領域を評価することで挿入、欠失を決定する。上流から順に挿入、欠失の評価を行うことで、複数の変異が存在した場合の変異の意味付けを容易にする。例えば、上流の相同領域に対してほぼ全領域重複して別の移動距離に相同領域の存在が認められた場合、ヘテロの挿入もしくは欠失であることが分かる。また、上流の相同領域に対してほぼ重複せずにそれとは別の移動距離に相同領域が認められた場合、ホモの挿入もしくは欠失であることが分かる。挿入や欠失の判断は、上流の相同領域に対して対象となる相同領域の移動距離が長ければ挿入、短ければ欠失である。挿入や欠失の位置決定は検出方法の特性から、1塩基繰り返し配列上にあった場合、正確な位置の決定ができないが、それ以外でノイズが少なければ位置決定も可能である。
【0036】
さらに本発明の方法は、マイクロサテライトなどのタンデムリピート配列の繰り返し回数の計測にも有効である。サンプルマトリクスは繰り返し回数の異なるタンデムリピート配列をシークエンスした場合、挿入欠失と同様に複数の波形が重なるようにして検出される。これは、タンデムリピート配列終了後の配列が繰り返し回数の違いから重なるようにして検出されるものである。該検出法の違いは上記の基準配列抽出フィルターマトリクスの作成のみである。つまり、タンデムリピート配列を除いた塩基配列で基準配列抽出フィルターマトリクスを作成し、タンデムリピート配列を含むサンプルマトリクスに対して本検定を行うことで、タンデムリピート配列塩基数を挿入塩基数として検出することが可能である。繰り返し回数に差があった場合、同じ領域に異なる挿入塩基数を検出することになる。
【0037】
本発明の方法は、マイクロサテライトなどのタンデムリピート配列の塩基数計測に有効である。繰り返し回数の異なるタンデムリピート配列をシークエンスした場合、サンプルマトリクスは挿入欠失と同様に複数の波形が重なるようにして検出される。これは、タンデムリピート配列終了後の配列が繰り返し回数の違いから重なるようにして検出されるものである。
【0038】
検出法の違いは基準配列抽出フィルターマトリクスの作成のみである。タンデムリピート配列を除いた塩基配列で基準配列抽出フィルターマトリクスを作成する。タンデムリピート配列を含むサンプルマトリクスに対して本検定を行うことで、タンデムリピート配列塩基数を挿入塩基数として検出する。繰り返し回数に差があった場合、同じ領域に異なる挿入塩基数を検出することになる(図17)。
【0039】
また、本発明は、コンピュータに上記の(a)〜(f)の工程を実行させて、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定するためのプログラムを提供する。
【0040】
本発明のコンピュータプログラムには、下記(1)から(7)のプログラムの一部または全部が含まれる。
(1)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法においてコンピュータに、基準配列抽出フィルター、およびサンプルマトリクスを作成させるためのコンピュータプログラム(「マトリクス作成プログラム」とも記載)。
(2)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法においてコンピュータに、基準配列抽出フィルターとサンプルマトリクスの開始末端と終止末端を重ねあわせた点からの移動距離を算出させるためのコンピュータプログラム(「移動距離算出プログラム」とも記載)。
(3)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法においてコンピュータに、基準配列抽出フィルターとサンプルマトリクスとの重なり合う塩基についてマトリクスの積の和を算出させるためのコンピュータプログラム(「マトリクスの積の和算出プログラム」とも記載)。
(4)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法においてコンピュータに、マトリクスの積の和から重なり合った塩基における連続する相同領域を算出させるためのコンピュータプログラム(「相同領域算出プログラム」とも記載)。
(5)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法において相同領域の中から最大相同塩基配列検出点をもつ標準基準配列抽出フィルター相同領域と標準サンプルマトリクス相同領域を算出させるためのコンピュータプログラム(「最大相同塩基配列検出点算出プログラム」とも記載)。
(6)本発明の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法において各相同領域において基準配列抽出フィルター予測相同領域を算出し、実際の基準配列抽出フィルター相同領域と比較するコンピュータプログラム(「予測相同領域算出プログラム」とも記載)。
(7)コンピュータに、移動距離および基準配列抽出フィルター相同領域を含む検出位置関係図を描画するコンピュータプログラム(「検出位置関係図描画プログラム」とも記載)。
【0041】
さらに本発明は、上記本発明のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。本発明の記録媒体は、汎用コンピュータが読み取り可能なものであって、本発明のコンピュータプログラムが記録されている。本発明の記録媒体は、可搬型または固定型の両方の媒体が含まれ、例えば、CD-ROM、フレキシブルディスク(FD)、DVD、ハードディスク、半導体メモリ等を挙げることができる。
【0042】
また、本発明のプログラムは、上記可搬型記録媒体にプログラムを格納して売買したり、ネットワークを介して接続されたコンピュータの記録装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。本発明の処理工程を実行するコンピュータプログラムをユーザに提供する提供媒体は、様々な形式のコンピュータ読み出し可能媒体として頒布可能であって、本発明は実際の頒布のために使用される特定のタイプの媒体に関係なく適用される。
【0043】
また本発明は、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定するための装置を提供する。該装置は、基準配列および被験DNA配列情報が入力される入力手段、上記工程(a)〜(f)により、相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域を算出する演算手段、および演算結果を表示する表示手段を含む。
【0044】
本発明の上記装置の好ましい態様は、本発明のプログラムをハードディスク装置等の補助記憶装置に格納されたコンピュータである。該装置には、マトリクス作成プログラム、移動距離算出プログラム、マトリクスの積の和算出プログラム、相同領域算出プログラム、最大相同塩基配列検出点算出プログラム、予想相同領域算出プログラム、検出位置関係図描画プログラム、およびこれらのプログラムを制御するためのプログラムのうちの一部または全部のプログラムを内包する。
【0045】
図1には、本発明の装置のシステム構成図の一例を示す。入力手段1と表示手段2がバス線3に接続されている。一時記憶手段4は、入力されたデータ、および算出された数値データ等を一時的に記憶する。中央処理装置(CPU)5は、本発明のプログラムの命令を受けて各種演算を行う。メインメモリ6には本発明の処理を実行するための各種プログラムが格納されている。このプログラムは、マトリクス作成プログラム61、移動距離算出プログラム62、マトリクスの積の和算出プログラム63、相同領域算出プログラム64、最大相同塩基配列検出点算出プログラム65、予想相同領域算出プログラム66、検出位置関係図描画プログラム67およびこれらのプログラムを制御するためのプログラム68に大きく分けられる。これらプログラム61〜68を1つのプログラムにまとめることも可能である。
【0046】
図2は該装置により実行される処理のフローの一例である。まず、入力手段から基準配列および被験DNA配列情報(以降、2つを合わせて「配列情報」と記載し、該配列情報には、波形データも含まれる)が入力される。この配列情報は、キーボード等の入力手段から直接本発明の装置へ入力する以外に、配列情報が記録された可搬型記録媒体、ハードディスク等の固定型媒体、またはインターネットのデータバンク等の通信ネットワークから、モデム等の受信手段を利用してコンピュータに供給することが可能である。通常、本発明の配列情報は、国内外の塩基配列データベースから取得する、もしくはDNAオートシークエンサーにより出力された情報を使用することができる。また、市販のテキストエディタを使用して作成することも可能である。また、予め適当な配列情報をハードディスク等の固定型媒体に記憶させておき、該固定型媒体から、適宜ロードして使用することも可能である。入力された配列情報はコンピュータのメインメモリまたは一時記憶手段に格納しておくことができる。上記入力手段によって入力された配列情報は、マトリクスへ変換される。通常、この処理工程は、メインメモリまたは一時記憶手段に格納された配列情報を基に、中央処理装置(CPU)等の演算手段がメインメモリ中のマトリクス作成プログラムの指令を受け実施される。また、特に波形データからマトリクスへの変換工程は一般的にベースコールと呼ばれる。本発明においては、このベースコールの作業を、波形データを見ながら手作業で実施することも可能である。
【0047】
次いで、入力された配列情報から、本発明の工程(a)〜(d)を行うことによりマトリクスの積の和、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域を算出する。通常、この処理工程は、中央処理装置(CPU)等の演算手段がメインメモリ中のマトリクスの積の和算出プログラム、移動距離算出プログラム、および相同領域算出プログラム等の指令を受け、配列情報を読み出し、マトリクスの積の和、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域の計算を行う。算出されたマトリクスの積の和、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域の算出結果は、コンピュータの記憶手段または一時記憶手段に格納され、下記の工程における算出の際に利用される。
【0048】
続いて、上記工程(e)および(f)に従い、最も多い相同塩基数を示す場合の移動距離である最大相同塩基配列検出点、該検出点における基準配列抽出フィルター相同領域である標準基準配列抽出フィルター相同領域、および該検出点におけるサンプルマトリクス相同領域である標準サンプルマトリクス相同領域の算出を行う。さらに各相同領域において基準配列抽出フィルター予測相同領域を算出し、実際の基準配列抽出フィルター相同領域と比較を行う。これらの処理工程は、記憶手段に格納された上記工程によって算出された演算結果を基に、中央処理装置(CPU)等の演算手段がメインメモリ中の最大相同領域算出プログラム、最大相同塩基配列検出点算出プログラム、および予想相同領域算出プログラム等の指令を受け計算を行う。
【0049】
次いで、算出された演算結果が表示手段によって表示される。この演算結果は、例えばテキストとして表示する形態、または上述のように移動距離および基準配列マトリクス位置を軸とするグラフとして表示することができるが、表示形態は特に制限されない。通常、この処理工程は、上記工程によって算出された演算結果を基に、メインメモリ中の検出位置関係図描画プログラムの指令を受け実行される。この表示手段には、ディスプレイ・モニタのほか、プリンター等も含まれる。
【0050】
【実施例】
以下、本発明を実施例により、さらに具体的に説明するが本発明はこれら実施例に制限されるものではない。
[実施例1]
(1)まず、共通塩基パターン認識のための基準配列抽出フィルターの作成を行った。基準配列抽出フィルターは基準配列(挿入欠失がない通常の波形(図3))を展開することにより作成した。本実施例においては、Aの場合(1,0,0,0)Tの場合(0,0,0,1)Gの場合(0,1,0,0)Cの場合(0,0,1,0)とした。基準配列各塩基ごとのマトリクスを作成し、これを基準配列抽出フィルターとした(表1)。
【0051】
【表1】
Figure 0003943937
【0052】
(2)次にサンプル波形のマトリクスへの展開を行った。サンプル波形マトリクスはサンプル波形(図4)を展開することにより作成した。例えばATの波形が出ている場合(1,0,0,1)となり、AGの波形が出ている場合(1,0,1,0)となる。サンプル波形の各塩基ごとのマトリクスを作成し、これをサンプルマトリクスとした。本実施例では、1塩基欠失しているサンプルを用いた(表2)。
【0053】
【表2】
Figure 0003943937
【0054】
(3)次いで基準配列抽出フィルター開始末端とサンプルマトリクス終止末端を重ねた合わせ、これを計測開始点とした(図5)。
(4)各塩基ごとの積とその位置での各積の和を求めた。基準配列(1,0,0,0)サンプル(1,0,0,1)のとき(1×1)+(0×0)+(0×0)+(0×1)=1である。これに対し、基準配列(1,0,0,0)サンプル(0,0,1,0)のとき(1×0)+(0×0)+(0×1)+(0×0)=0である。1が連続して出てきた場合、この部位の各塩基配列に相同性があることになる。最長相同性を持つ部位を記録した。
(5)基準配列抽出フィルターとサンプルマトリクスの重なりを1塩基ずつずらし、各位置での相同領域を特定した。
(6)マトリクス同士の重なりが無くなることで計算を終了した。
(7)最大相同塩基配列検出点および標準基準配列抽出フィルター相同領域、標準サンプルマトリクス相同領域を特定した。
(8)基準配列抽出フィルター予測相同領域を計算した。
(9)予測相同領域と実測相同領域を比較し、挿入や欠失が反映されているデータのみを選択した。図6に基準配列抽出フィルターによる相同領域および移動距離から予測相同領域を求める計算法を示す。マトリクスのスライドが終了後、最大の相同領域をもつ移動距離は29であることから、最大相同塩基配列検出点を29とし、各標準相同領域を定めた。マトリクス間位置補正値を算出後、各移動距離におけるサンプルマトリクス相同領域から基準配列抽出フィルター予測相同領域を算出、これを基準配列抽出フィルター相同領域実測値と比較しデータの整合性を確認した。
(10)移動距離を縦軸、基準配列マトリクス位置を横軸にとり検出位置関係図を作成した(図7)。相同領域A(移動距離29相同領域1〜29)に対する相同領域B(移動距離30相同領域15〜29)の関係から、二つの相同領域は重複しており、Bの移動距離が長いことから15塩基目に1塩基のヘテロ挿入があることがわかる。
【0055】
[実施例2]
挿入欠失のない通常のサンプルの解析を行った(図8)。その結果、「最大相同塩基配列検出点」が移動距離300にあり、標準基準配列抽出フィルター相同領域は150〜550になった。このように挿入欠失がない場合は、相同領域は1ヶ所の移動距離上に存在することが明らかになった。
【0056】
[実施例3]
1部位へテロ挿入(400塩基目に150塩基のヘテロ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜550)と相同領域B(移動距離450相同領域400〜550)が検出された(図9左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が長いことから400塩基目に150塩基のヘテロ挿入があることがわかる。
【0057】
また、1部位へテロ欠失(300〜400塩基まで100塩基のヘテロ欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜550)と相同領域B(移動距離200相同領域400〜550)が検出された(図9右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が短いことから400塩基目に100塩基のヘテロ欠失があることがわかる。
【0058】
[実施例4]
1部位ホモ挿入(350塩基目に100塩基のホモ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜350)と相同領域B(移動距離400相同領域350〜500)が検出された(図10左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから350塩基目に100塩基のホモ挿入があることがわかる。
【0059】
また、1部位ホモ欠失(350〜450塩基まで100塩基のホモ欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜350)と相同領域B(移動距離200相同領域450〜550)が検出された(図10右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が短いことから450塩基目に100塩基のホモ欠失があることがわかる。
【0060】
[実施例5]
ホモ挿入後ヘテロ挿入(250塩基目に100塩基のホモ挿入、400塩基目に50塩基のヘテロ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜250)、相同領域B(移動距離400相同領域250〜550)および相同領域C(移動距離450相同領域400〜550)が検出された(図11左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから250塩基目に100塩基のホモ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しており、Cの移動距離が長いことから400塩基目に50塩基のヘテロ挿入があることがわかる。
【0061】
また、ホモ挿入後ヘテロ欠失(250塩基目に100塩基のホモ挿入、350〜400塩基まで50塩基のヘテロ欠失)サンプルを行った結果、相同領域A(移動距離300相同領域150〜250)、相同領域B(移動距離400相同領域250〜550)および相同領域C(移動距離350相同領域400〜550)が検出された(図11右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから250塩基目に100塩基のホモ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つ相同領域は重複しており、Cの移動距離が短いことから400塩基目に50塩基のヘテロ欠失があることがわかる。
【0062】
[実施例6]
ヘテロ挿入後ホモ挿入(200塩基目に150塩基のヘテロ挿入、400塩基目に50塩基のホモ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜400)、相同領域B(移動距離450相同領域200〜400)、相同領域C(移動距離350相同領域400〜550)、および相同領域D(移動距離500相同領域400〜550)が検出された(図12左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が長いことから200塩基目に150塩基のヘテロ挿入があることがわかる。また、基準配列マトリクス位置400において相同領域Aに対して相同領域C、相同領域Bに対して相同領域Dは相同領域が重複しておらず、それぞれ移動距離が50長いことから、400塩基目に50塩基のホモの挿入があることがわかる。
【0063】
また、ヘテロ挿入後ホモ欠失(200塩基目に150塩基のヘテロ挿入、400〜450塩基まで50塩基のホモ欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜400)、相同領域B(移動距離450相同領域200〜400)、相同領域C(移動距離250相同領域450〜550)、および相同領域D(移動距離400相同領域450〜550)が検出された(図12右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が長いことから200塩基目に150塩基のヘテロ挿入があることがわかる。また、基準配列マトリクス位置450において相同領域Aに対して相同領域C、相同領域Bに対して相同領域Dは相同領域が重複しておらず、それぞれ移動距離が50短いことから、450塩基目に50塩基のホモの欠失があることがわかる。
【0064】
[実施例7]
ヘテロ欠失後ホモ挿入(200〜250塩基まで50塩基のヘテロ欠失、400塩基目に100塩基のホモ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜400)、相同領域B(移動距離250相同領域250〜400)、相同領域C(移動距離400相同領域400〜550)、および相同領域D(移動距離350相同領域400〜550)が検出された(図13左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が短いことから250塩基目に50塩基のヘテロ欠失があることがわかる。また、基準配列マトリクス位置400において相同領域Aに対して相同領域C、相同領域Bに対して相同領域Dは相同領域が重複しておらず、それぞれ移動距離が100長いことから、400塩基目に100塩基のホモの挿入があることがわかる。
【0065】
また、ヘテロ欠失後ホモ欠失(200〜250塩基まで50塩基のヘテロ欠失、400〜450塩基まで50塩基のホモ欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜400)、相同領域B(移動距離250相同領域250〜400)、相同領域C(移動距離250相同領域450〜550)、および相同領域D(移動距離200相同領域450〜550)が検出された(図13右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が短いことから250塩基目に50塩基のヘテロ欠失があることがわかる。また、基準配列マトリクス位置450において、相同領域Aに対して相同領域C、相同領域Bに対して相同領域Dは相同領域が重複しておらず、それぞれ移動距離が50短いことから、450塩基目に50塩基のホモの欠失があることがわかる。
【0066】
[実施例8]
ホモ挿入後ホモ挿入(250塩基目に100塩基のホモ挿入、400塩基目に50塩基のホモ挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜250)、相同領域B(移動距離400相同領域250〜400)、および相同領域C(移動距離450相同領域400〜550)が検出された(図14左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから250塩基目に100塩基のホモ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Cの移動距離が長いことから400塩基目に50塩基のホモ挿入があることがわかる。
【0067】
また、ホモ挿入後ホモ欠失(200塩基目に150塩基のホモ挿入、400〜450塩基まで50塩基のホモ欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜200)、相同領域B(移動距離450相同領域200〜400)、および相同領域C(移動距離400相同領域450〜550)が検出された(図14右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから200塩基目に150塩基のホモ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Cの移動距離が短いことから450塩基目に50塩基のホモ欠失があることがわかる。
【0068】
[実施例9]
片側の染色体上に2ヶ所の挿入(250塩基目に100塩基の挿入、400塩基目に50塩基の挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜550)、相同領域B(移動距離400相同領域250〜400)、および相同領域C(移動距離450相同領域400〜550)が検出された(図15左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が長いことから250塩基目に100塩基のヘテロ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから400塩基目に50塩基のヘテロ挿入があることがわかる。相同領域の重複が無い場合は通常ホモの変異であるが、すでに上流でヘテロの変異が起きているために連続して同一染色体上に変異が起きていると考える。
【0069】
また、片側の染色体上に2ヶ所の欠失(100〜200塩基まで100塩基の欠失、350〜450塩基まで100塩基の欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域50〜550)、相同領域B(移動距離200相同領域200〜350)、および相同領域C(移動距離100相同領域450〜500)が検出された(図15右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が短いことから200塩基目に100塩基のヘテロ欠失があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Cの移動距離が短いことから450塩基目に100塩基のヘテロ欠失があることがわかる。相同領域の重複が無い場合は通常ホモの変異であるが、すでに上流でヘテロの変異が起きているために連続して同一染色体上に変異が起きていると考える。
【0070】
[実施例10]
片側の染色体上に欠失と挿入(200〜300塩基まで100塩基の欠失、400塩基目に50塩基の挿入)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜550)、相同領域B(移動距離200相同領域300〜400)、および相同領域C(移動距離250相同領域400〜500)が検出された(図16左図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しておらず、Bの移動距離が短いことから300塩基目に100塩基のヘテロ欠失があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Bの移動距離が長いことから400塩基目に50塩基のヘテロ挿入があることがわかる。相同領域の重複が無い場合は通常ホモの変異であるが、すでに上流でヘテロの変異が起きているために連続して同一染色体上に変異が起きていると考える。
【0071】
また、片側の染色体上に挿入と欠失(350塩基目に200塩基の挿入、450〜500塩基まで50塩基の欠失)サンプルの解析を行った結果、相同領域A(移動距離300相同領域150〜550)、相同領域B(移動距離500相同領域350〜450)、および相同領域C(移動距離450相同領域500〜550)が検出された(図16右図)。この場合、相同領域Aに対する相同領域Bの関係から、二つの相同領域は重複しており、Bの移動距離が長いことから350塩基目に200塩基のヘテロ挿入があることがわかる。また、相同領域Bに対する相同領域Cの関係から、二つの相同領域は重複しておらず、Cの移動距離が短いことから500塩基目に50塩基のヘテロ欠失があることがわかる。相同領域の重複が無い場合は通常ホモの変異であるが、すでに上流でヘテロの変異が起きているために連続して同一染色体上に変異が起きていると考える。
【0072】
[実施例11]
タンデムリピート配列の塩基数の計測を行った(図17)。マイクロサテライトタンデムリピート配列2つのアレルをサンプルとして用いた。アレル1ではGAモチーフは4回繰り返す(小さい)が、アレル2では7回繰り返す(大きい)。まず、タンデムリピート配列部位のシークエンスを行い、挿入欠失解析を行うことでタンデムリピートのタイプ分けを行った。通常の挿入欠失解析と異なるのは、基準配列フィルターからタンデムリピート配列を除いて解析を行うことである。タンデムリピート配列を除くことでこれを挿入塩基数として計測できた。GAモチーフの4回繰り返しは8塩基挿入として、7回繰り返しは14塩基挿入として検出された。
【0073】
【発明の効果】
本発明によって、被験DNA配列における塩基の挿入もしくは欠失の有無、または挿入もしくは欠失された塩基数を判定する方法が提供された。該方法は、ホモ、ヘテロを問わず塩基の挿入または欠失が起きているサンプルを決定でき、挿入欠失塩基数を高感度に特定できる。また、シークエンシングの高速化に伴い塩基挿入欠失部位検定の高速化が実現できる。さらに本発明の方法は、ノイズ等のデータ劣化要素を取り除くことができるため、特にノイズ等の劣化要素が加わっている波形データにおいて、塩基の挿入もしくは欠失の判定が容易になるものと大いに期待される。
【図面の簡単な説明】
【図1】 本発明の装置のシステム構成図である。
【図2】 本発明の装置により実行される処理のフローの一例を示す図である。
【図3】 挿入欠失のない通常のサンプルの波形を示す図である。
【図4】 1塩基欠失しているサンプルの波形を示す図である。
【図5】 基準配列抽出フィルターとサンプルマトリクスを重ねあわせる計測開始点の概念図である。
【図6】 基準配列抽出フィルターによる相同領域および移動距離から予測相同領域をもとめる計算法を示す図である。
【図7】 1部位へテロ挿入の解析結果例を示す検出位置関係図である。
【図8】 挿入欠失のない通常のサンプルの解析結果例を示す検出位置関係図である。
【図9】 1部位へテロ挿入および1部位へテロ欠失サンプルの解析結果例を示す検出位置関係図である。
【図10】 1部位ホモ挿入および1部位ホモ欠失サンプルの解析結果例を示す検出位置関係図である。
【図11】 ホモ挿入後ヘテロ欠失、およびホモ挿入後ヘテロ挿入サンプルの解析結果例を示す検出位置関係図である。
【図12】 ヘテロ挿入後ホモ挿入、およびヘテロ挿入後ホモ欠失サンプルの解析結果例を示す検出位置関係図である。
【図13】 ヘテロ欠失後ホモ挿入、およびヘテロ欠失後ホモ欠失サンプルの解析結果例を示す検出位置関係図である。
【図14】 ホモ挿入後ホモ挿入、およびホモ挿入後ホモ欠失サンプルの解析結果例を示す検出位置関係図である。
【図15】 片側の染色体に2ヶ所の挿入および片側の染色体に2ヶ所の欠失サンプルの解析結果例を示す検出位置関係図である。
【図16】 片側の染色体に欠失と挿入および片側の染色体に挿入と欠失サンプルの解析結果例を示す検出位置関係図である。
【図17】 タンデムリピート配列の塩基数計測法を示す図である。
【符号の説明】
1 入力手段
2 表示手段
3 バス線
4 一時記憶手段
5 中央処理装置(CPU)
6 メインメモリ

Claims (4)

  1. ヘテロな挿入欠失を含む被験DNA配列における塩基の挿入もしくは欠失の有無を決定し、挿入もしくは欠失された塩基数を算出する方法であって、
    (a−1)基準配列と被験 DNA 配列を取得する工程、
    (a−2)基準配列を、各塩基ごとに4塩基成分に分解したベクトルの集合からなる基準配列抽出フィルター、および、被験DNA配列を各塩基ごとに4塩基成分に分解したベクトルの集合からなるサンプルマトリクスを作成する工程、
    (b)該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせる工程、
    (c)該基準配列抽出フィルターと該サンプルマトリクスを1塩基ずつ移動させながら、該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせた点からの移動距離、および重なり合った塩基についてマトリクスの積の和を算出する工程、
    (d)該マトリクスの積の和から、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域を算出する工程、
    (e)最も多い相同塩基数を示す場合の移動距離である最大相同塩基配列検出点、該検出点における基準配列抽出フィルター相同領域である標準基準配列抽出フィルター相同領域、および該検出点におけるサンプルマトリクス相同領域である標準サンプルマトリクス相同領域を算出する工程、
    (f)該標準基準配列抽出フィルター相同領域および該標準サンプルマトリクス相同領域から、マトリクス間位置補正値を算出する工程、
    を含み、上記の相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域から、被験DNA配列において塩基の挿入もしくは欠失の有無を決定し、挿入もしくは欠失された塩基数を算出する方法。
  2. コンピュータに以下の(a)〜()の工程を実行させて、ヘテロな挿入欠失を含む被験DNA配列における塩基の挿入もしくは欠失の有無を決定し、挿入もしくは欠失された塩基数を算出するための移動距離および基準配列抽出フィルター相同領域を含む検出位置関係図を描画するプログラム。
    a)基準配列と被験 DNA 配列を取得する工程、
    (b)基準配列を各塩基ごとに 4 塩基成分に分解したベクトルの集合からなる基準配列抽出フィルター、および、被験 DNA 配列を各塩基ごとに 4 塩基成分に分解したベクトルの集合からなるサンプルマトリクスを作成する工程、
    (c)該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせる工程、
    (d)該基準配列抽出フィルターと該サンプルマトリクスを 1 塩基ずつ移動させながら、該基準配列抽出フィルターと該サンプルマトリクスの開始末端と終止末端を重ね合わせた点からの移動距離、および重なり合った塩基についてマトリクスの積の和を算出する工程、
    (e)該マトリクスの積の和から、重なり合った塩基における連続相同塩基数、移動距離、基準配列抽出フィルター相同領域、およびサンプルマトリクス相同領域を算出する工程、
    (f)最も多い相同塩基数を示す場合の移動距離である最大相同塩基配列検出点、該検出点における基準配列抽出フィルター相同領域である標準基準配列抽出フィルター相同領域、および該検出点におけるサンプルマトリクス相同領域である標準サンプルマトリクス相同領域を算出する工程、
    (g)該標準基準配列抽出フィルター相同領域および該標準サンプルマトリクス相同領域から、マトリクス間位置補正値を算出する工程、
    (h)移動距離および基準配列抽出フィルター相同領域を含む検出位置関係図を描画する 工程。
  3. 請求項2に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  4. 以下の(1)〜(3)の手段を含む、ヘテロな挿入欠失を含む被験DNA配列における塩基の挿入もしくは欠失の有無を決定し、挿入もしくは欠失された塩基数を算出するための装置。
    (1)基準配列および被験DNA配列情報が入力される入力手段
    (2)請求項1の(a−1)〜(f)の工程により、相同塩基数、基準配列抽出フィルター相同領域、サンプルマトリクス相同領域、最大相同塩基配列検出点、標準基準配列抽出フィルター相同領域、および標準サンプルマトリクス相同領域を算出する演算手段
    (3)演算結果を表示する表示手段
JP2002010851A 2002-01-18 2002-01-18 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法 Expired - Fee Related JP3943937B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002010851A JP3943937B2 (ja) 2002-01-18 2002-01-18 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002010851A JP3943937B2 (ja) 2002-01-18 2002-01-18 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法

Publications (2)

Publication Number Publication Date
JP2003216616A JP2003216616A (ja) 2003-07-31
JP3943937B2 true JP3943937B2 (ja) 2007-07-11

Family

ID=27648474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002010851A Expired - Fee Related JP3943937B2 (ja) 2002-01-18 2002-01-18 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法

Country Status (1)

Country Link
JP (1) JP3943937B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7166434B2 (ja) * 2018-08-13 2022-11-07 エフ.ホフマン-ラ ロシュ アーゲー 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法

Also Published As

Publication number Publication date
JP2003216616A (ja) 2003-07-31

Similar Documents

Publication Publication Date Title
Booker et al. Detecting positive selection in the genome
Rasmussen et al. Genome-wide inference of ancestral recombination graphs
Parchman et al. RADseq approaches and applications for forest tree genetics
Qanbari On the extent of linkage disequilibrium in the genome of farm animals
Ingvarsson Multilocus patterns of nucleotide polymorphism and the demographic history of Populus tremula
Horne et al. Principal component analysis for selection of optimal SNP‐sets that capture intragenic genetic variation
Templeton et al. A cladistic analysis of phenotypic associations with haplotypes inferred from restriction endonuclease mapping. I. Basic theory and an analysis of alcohol dehydrogenase activity in Drosophila
Yalcin et al. Commercially available outbred mice for genome-wide association studies
Petroli et al. Genomic characterization of DArT markers based on high-density linkage analysis and physical mapping to the Eucalyptus genome
Lemaitre et al. Footprints of inversions at present and past pseudoautosomal boundaries in human sex chromosomes
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
CN113496760A (zh) 基于第三代测序的多倍体基因组组装方法和装置
Genete et al. Genotyping and de novo discovery of allelic variants at the Brassicaceae self-incompatibility locus from short-read sequencing data
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
Lillie et al. Genomic signatures of 60 years of bidirectional selection for 8-week body weight in chickens
CN114694749B (zh) 基因数据处理方法、装置、计算机设备和存储介质
Lian et al. inGAP-family: accurate detection of meiotic recombination loci and causal mutations by filtering out artificial variants due to genome complexities
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
JP3943937B2 (ja) 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法
Cumer et al. Genome-wide detection of structural variations reveals new regions associated with domestication in small ruminants
Vaughn et al. Gene disruption by structural mutations drives selection in US rice breeding over the last century
Zhang et al. Next-generation sequencing-based bulked segregant analysis without sequencing the parental genomes
EP1798651B1 (en) Gene information display method and apparatus
Magi et al. AUDACITY: A comprehensive approach for the detection and classification of Runs of Homozygosity in medical and population genomics

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040914

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees