JP2003216616A - Method of selecting base sequence waveform data with base inserted or deleted part by use of reference sequence extracting filter - Google Patents

Method of selecting base sequence waveform data with base inserted or deleted part by use of reference sequence extracting filter

Info

Publication number
JP2003216616A
JP2003216616A JP2002010851A JP2002010851A JP2003216616A JP 2003216616 A JP2003216616 A JP 2003216616A JP 2002010851 A JP2002010851 A JP 2002010851A JP 2002010851 A JP2002010851 A JP 2002010851A JP 2003216616 A JP2003216616 A JP 2003216616A
Authority
JP
Japan
Prior art keywords
bases
homologous
region
base
reference sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002010851A
Other languages
Japanese (ja)
Other versions
JP3943937B2 (en
Inventor
Misao Oki
操 大木
Takeshi Maeno
剛 前野
Tokuki Sakiyama
徳起 崎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IYAKUHIN FUKUSAYOU HIGAI KYUUS
JENOKKUSU SOYAKU KENKYUSHO KK
Genox Research Inc
National Cancer Center Japan
Iyakuhin Fukusayou Higai Kyuusai Kenkyu Shinko Chosa Kiko
Original Assignee
IYAKUHIN FUKUSAYOU HIGAI KYUUS
JENOKKUSU SOYAKU KENKYUSHO KK
Genox Research Inc
National Cancer Center Japan
Iyakuhin Fukusayou Higai Kyuusai Kenkyu Shinko Chosa Kiko
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IYAKUHIN FUKUSAYOU HIGAI KYUUS, JENOKKUSU SOYAKU KENKYUSHO KK, Genox Research Inc, National Cancer Center Japan, Iyakuhin Fukusayou Higai Kyuusai Kenkyu Shinko Chosa Kiko filed Critical IYAKUHIN FUKUSAYOU HIGAI KYUUS
Priority to JP2002010851A priority Critical patent/JP3943937B2/en
Publication of JP2003216616A publication Critical patent/JP2003216616A/en
Application granted granted Critical
Publication of JP3943937B2 publication Critical patent/JP3943937B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method of determining, using a reference sequence extracting filter, whether or not there is insertion or deletion of bases in a DNA sequence to be tested or determining the number of bases inserted or deleted. <P>SOLUTION: A reference sequence and a DNA sequence to be tested are converted respectively into a reference sequence extracting filter and a sample matrix. The filter and the starting and ending terminals of the matrix are arranged to overlap one another, and as bases are moved one by one, the sum of the products of matrixes is calculated for the distances traveled and for overlapping bases. These bases are used to enable evaluation as to whether or not there is insertion or deletion of bases in the DNA sequence to be tested or determine the number of bases inserted or deleted. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、基準配列抽出フィ
ルターを用いて、被験DNA配列における塩基の挿入もし
くは欠失の有無、並びに、挿入もしくは欠失された塩基
数を判定する方法に関する。
TECHNICAL FIELD The present invention relates to a method for determining the presence or absence of insertion or deletion of bases in a test DNA sequence and the number of inserted or deleted bases using a reference sequence extraction filter.

【0002】[0002]

【従来の技術】ヒトなどの2倍体生物は各染色体を2コピ
ーずつ持っており、ヘテロな塩基挿入欠失が起きたと
き、これをシークエンスすると波形が2本重なったよう
な状態となりノイズとの判別が難しい。シークエンサー
から出力される塩基配列波形データは塩基修飾試薬、電
気泳動、検出走査系統などから構成される計測系を通し
て得られている。そのため、波形データにはノイズ等の
劣化要素が加わっている。このように劣化して検出され
た波形データは塩基挿入、欠失が存在している波形と区
別がつかずこれらを自動的に選別することは困難であっ
た。通常、塩基挿入、欠失を検出するためにはSSCP (Si
ngle‐Strand Conformational Polymorphism)などのDNA
の高次構造の違いからこれらを検出する方法があるが、
実験条件設定をいくつか振り分けなければならなく、そ
れに伴いハイスループット化が難しい実験手法であるこ
とが問題となっていた。シークエンシング(塩基配列決
定)は近年著しいハイスループット化が実現おり、装置
の普及も進んでいる。ノイズを含めたシークエンス結果
から挿入または欠失の起きたサンプルを判定できれば、
挿入欠失サンプル発見において標準的で高速な手段とな
りうるが、そのような方法が開発されたという報告は皆
無であった。
2. Description of the Related Art Diploid organisms such as humans have two copies of each chromosome, and when a heterozygous base insertion deletion occurs, the sequence becomes a state where two waveforms are overlapped and noise occurs. Is difficult to determine. The base sequence waveform data output from the sequencer is obtained through a measurement system including a base modification reagent, electrophoresis, and a detection scanning system. Therefore, deterioration factors such as noise are added to the waveform data. The waveform data thus detected by deterioration is indistinguishable from the waveform having base insertions and deletions, and it is difficult to automatically select these. Usually, SSCP (Si
DNA such as ngle‐Strand Conformational Polymorphism)
There is a method to detect these from the difference in the higher order structure of
It has been a problem that the experimental method is difficult to achieve high throughput because some experimental condition settings have to be distributed. Sequencing (base sequence determination) has achieved remarkable high throughput in recent years, and the spread of the device is progressing. If it is possible to determine the sample with insertion or deletion from the sequencing result including noise,
Although it could be the standard and fast means of finding insertional deletion samples, there were no reports of the development of such methods.

【0003】[0003]

【発明が解決しようとする課題】本発明は、このような
状況に鑑みてなされたものであり、その目的は、被験DN
A配列における塩基の挿入もしくは欠失の判定を高速か
つ自動で行うことができる新しい方法を提供することに
ある。より詳細には、ノイズ等の劣化要素が加わってい
る波形データで示される被験DNA配列から、基準配列抽
出フィルターを用いて、被験DNA配列における塩基の挿
入もしくは欠失の有無、または挿入もしくは欠失された
塩基数を判定する方法を提供することを目的とする。
The present invention has been made in view of such a situation, and its object is to test DN.
It is an object of the present invention to provide a new method capable of quickly and automatically determining the insertion or deletion of a base in an A sequence. More specifically, the presence or absence of insertion or deletion of bases in the test DNA sequence, or the insertion or deletion from the test DNA sequence indicated by the waveform data to which deterioration elements such as noise are added, is determined using a reference sequence extraction filter. It is an object of the present invention to provide a method for determining the number of generated bases.

【0004】[0004]

【課題を解決するための手段】本発明者らは、上記の課
題を解決するために鋭意研究を行った。まず、基準配列
と波形データで示される被験DNA配列を、各塩基ごとに4
塩基成分に分解したベクトルの集合で、2次元のマトリ
クスに変換し、それぞれ基準配列抽出フィルターおよび
サンプルマトリクスと命名した。次いで、基準配列抽出
フィルターとサンプルマトリクスの開始末端と終止末端
を重ね合わせ、基準配列抽出フィルターとサンプルマト
リクスを1塩基ずつ移動させながら、最初に重ね合わせ
た点からの移動距離、および重なり合った塩基について
マトリクスの積の和を計算した。また、各位置での相同
領域を特定した。さらに、最大相同塩基配列検出点およ
び標準基準配列抽出フィルター相同領域、標準サンプル
マトリクス相同領域を特定し、基準配列抽出フィルター
予測相同領域を計算した。予測相同領域と実測相同領域
を比較し、データの整合性を確認した。次いで、移動距
離を縦軸、基準配列マトリクス位置を横軸にとり検出位
置関係図を作成した。本発明者らは、上記の相同塩基
数、基準配列抽出フィルター相同領域、サンプルマトリ
クス相同領域、最大相同塩基配列検出点、標準基準配列
抽出フィルター相同領域、および標準サンプルマトリク
ス相同領域から、被験DNA配列において塩基の挿入もし
くは欠失の有無を評価し、挿入もしくは欠失された塩基
数を同定できることを示した。さらに、上記の工程をコ
ンピュータに実行させることで被験DNA配列における塩
基の挿入もしくは欠失の有無の評価、または挿入もしく
は欠失された塩基数の同定のハイスループット化が実現
できることを示した。
[Means for Solving the Problems] The inventors of the present invention have conducted extensive studies to solve the above problems. First, the test DNA sequence represented by the reference sequence and the waveform data is
A set of vectors decomposed into base components was converted into a two-dimensional matrix and named as a reference sequence extraction filter and a sample matrix, respectively. Then, overlap the reference sequence extraction filter and the start and end ends of the sample matrix, and move the reference sequence extraction filter and the sample matrix one base at a time, moving distance from the first overlapping point, and overlapping bases. The sum of matrix products was calculated. Moreover, the homologous region at each position was identified. Furthermore, the maximum homologous nucleotide sequence detection point, the standard reference sequence extraction filter homology region, and the standard sample matrix homology region were specified, and the reference sequence extraction filter predicted homology region was calculated. The predicted homology region and the measured homology region were compared to confirm the data consistency. Next, a detection positional relationship diagram was created with the moving distance on the vertical axis and the reference array matrix position on the horizontal axis. From the above homologous base number, reference sequence extraction filter homology region, sample matrix homology region, maximum homology base sequence detection point, standard reference sequence extraction filter homology region, and standard sample matrix homology region, the test DNA sequence In, the presence or absence of base insertions or deletions was evaluated, and it was shown that the number of bases inserted or deleted can be identified. Furthermore, it was shown that by performing the above steps on a computer, it is possible to realize high throughput evaluation of the presence or absence of insertion or deletion of bases in the test DNA sequence, or identification of the number of inserted or deleted bases.

【0005】以上のことから、被験DNA配列における塩
基の挿入もしくは欠失の判定を高速かつ自動で行うこと
ができる。上記方法においては、波形データで示される
被験DNA配列をマトリックスに変換することにより、ノ
イズ等のデータ劣化要素を取り除くことができる。従っ
て本発明の方法によって、特にノイズ等の劣化要素が加
わっている波形データから、被験DNA配列における塩基
の挿入もしくは欠失の判定が容易になるものと大いに期
待される。
From the above, the insertion or deletion of a base in a test DNA sequence can be determined rapidly and automatically. In the above method, the data deterioration element such as noise can be removed by converting the test DNA sequence represented by the waveform data into a matrix. Therefore, it is highly expected that the method of the present invention facilitates the determination of insertion or deletion of a base in a test DNA sequence, particularly from waveform data in which a deterioration element such as noise is added.

【0006】即ち、本発明は、被験DNA配列における塩
基の挿入もしくは欠失の有無、または挿入もしくは欠失
された塩基数を高速かつ自動で判定できる新しい方法に
関し、より具体的には、〔1〕被験DNA配列における塩
基の挿入もしくは欠失の有無、または挿入もしくは欠失
された塩基数を判定する方法であって、(a)基準配列
を、各塩基ごとに4塩基成分に分解したベクトルの集合
からなる基準配列抽出フィルター、および、被験DNA配
列を各塩基ごとに4塩基成分に分解したベクトルの集合
からなるサンプルマトリクスを作成する工程、(b)該
基準配列抽出フィルターと該サンプルマトリクスの開始
末端と終止末端を重ね合わせる工程、(c)該基準配列
抽出フィルターと該サンプルマトリクスを1塩基ずつ移
動させながら、該基準配列抽出フィルターと該サンプル
マトリクスの開始末端と終止末端を重ね合わせた点から
の移動距離、および重なり合った塩基についてマトリク
スの積の和を算出する工程、(d)該マトリクスの積の
和から、重なり合った塩基における連続相同塩基数、移
動距離、基準配列抽出フィルター相同領域、およびサン
プルマトリクス相同領域を算出する工程、(e)最も多
い相同塩基数を示す場合の移動距離である最大相同塩基
配列検出点、該検出点における基準配列抽出フィルター
相同領域である標準基準配列抽出フィルター相同領域、
および該検出点におけるサンプルマトリクス相同領域で
ある標準サンプルマトリクス相同領域を算出する工程、
(f)該標準基準配列抽出フィルター相同領域および該
標準サンプルマトリクス相同領域から、マトリクス間位
置補正値を算出する工程、を含み、上記の相同塩基数、
基準配列抽出フィルター相同領域、サンプルマトリクス
相同領域、最大相同塩基配列検出点、標準基準配列抽出
フィルター相同領域、および標準サンプルマトリクス相
同領域から、被験DNA配列において塩基の挿入もしくは
欠失の有無を評価し、挿入もしくは欠失された塩基数を
判定する方法、〔2〕コンピュータに〔1〕の(a)〜
(f)の工程を実行させて、被験DNA配列における塩基
の挿入もしくは欠失の有無、または挿入もしくは欠失さ
れた塩基数を判定するためのプログラム、〔3〕〔2〕
に記載のプログラムを記録したコンピュータ読み取り可
能な記録媒体、〔4〕以下の(1)〜(3)の手段を含
む、被験DNA配列における塩基の挿入もしくは欠失の有
無、または挿入もしくは欠失された塩基数を判定するた
めの装置、 (1)基準配列および被験DNA配列情報が入力される入
力手段 (2)〔1〕の(a)〜(f)の工程により、相同塩基
数、基準配列抽出フィルター相同領域、サンプルマトリ
クス相同領域、最大相同塩基配列検出点、標準基準配列
抽出フィルター相同領域、および標準サンプルマトリク
ス相同領域を算出する演算手段 (3)演算結果を表示する表示手段、を提供するもので
ある。
That is, the present invention relates to a new method capable of rapidly and automatically determining the presence or absence of insertion or deletion of bases in a test DNA sequence, or the number of inserted or deleted bases, and more specifically, [1 ] A method for determining the presence or absence of base insertions or deletions in a test DNA sequence, or the number of bases inserted or deleted, comprising the steps of (a) decomposing a vector into four base components for each base: Creating a reference sequence extraction filter consisting of a set, and a sample matrix consisting of a set of vectors obtained by decomposing the test DNA sequence into four base components for each base, (b) starting the reference sequence extraction filter and the sample matrix A step of superimposing the end and the terminating end, (c) while moving the reference sequence extraction filter and the sample matrix one by one, the reference sequence extraction Calculating a sum of products of matrices for a moving distance from a point where a filter and a start end and a stop end of the sample matrix are overlapped, and overlapping bases; (d) overlapping bases from the sum of products of the matrix In the step of calculating the number of continuous homologous bases, migration distance, reference sequence extraction filter homology region, and sample matrix homology region, (e) maximum homologous base sequence detection point which is the migration distance in the case of showing the most number of homologous bases, Standard reference sequence extraction filter homology region that is the reference sequence extraction filter homology region at the detection point,
And a step of calculating a standard sample matrix homology region which is a sample matrix homology region at the detection point,
(F) a step of calculating an inter-matrix position correction value from the standard reference sequence extraction filter homology region and the standard sample matrix homology region,
From the reference sequence extraction filter homology region, sample matrix homology region, maximum homologous base sequence detection point, standard reference sequence extraction filter homology region, and standard sample matrix homology region, the presence or absence of base insertion or deletion in the test DNA sequence is evaluated. , A method for determining the number of inserted or deleted nucleotides, [2] computer (1) (a) ~
A program for executing the step (f) to determine the presence or absence of base insertions or deletions in the test DNA sequence, or the number of bases inserted or deleted, [3] [2]
A computer-readable recording medium recording the program according to [4], including the means of (1) to (3) below, and the presence or absence of insertion or deletion of bases in the test DNA sequence, or insertion or deletion. A device for determining the number of bases, (1) the reference sequence and the input means for inputting the test DNA sequence information (2) by the steps (a) to (f) of [1], the number of homologous bases and the reference sequence Provided are an extraction filter homology region, a sample matrix homology region, a maximum homologous base sequence detection point, a standard reference sequence extraction filter homology region, and a calculation unit (3) a display unit for displaying the calculation result. It is a thing.

【0007】[0007]

【発明の実施の形態】本発明は、被験DNA配列における
塩基の挿入もしくは欠失の有無、または挿入もしくは欠
失された塩基数を判定する方法を提供する。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention provides a method for determining the presence or absence of insertion or deletion of bases in a test DNA sequence, and the number of inserted or deleted bases.

【0008】本発明においては、まず、基準配列を各塩
基ごとに4塩基成分に分解したベクトルの集合からなる
基準配列抽出フィルター、および、被験DNA配列を各塩
基ごとに4塩基成分に分解したベクトルの集合からなる
サンプルマトリクスを作成する(工程(a))。
In the present invention, first, a reference sequence extraction filter consisting of a set of vectors obtained by decomposing the reference sequence into 4 base components for each base, and a vector obtained by decomposing the test DNA sequence into 4 base components for each base. A sample matrix composed of a set of is created (step (a)).

【0009】本発明の方法により塩基の挿入もしくは欠
失の有無、または挿入もしくは欠失された塩基数の判定
を行う被験DNA配列としては、例えば、当業者において
一般的に行われるDNAシークエンシングによって取得さ
れる所望のDNA配列データを挙げることができる。塩基
の挿入もしくは欠失の有無、または、挿入もしくは欠失
された塩基数の判定は、通常、被験DNA配列と既にDNA配
列が決定されているDNAの配列(例えば野生型遺伝子のD
NA配列等)を比較することにより行われる。例えば、あ
る被験試料の遺伝子Aについてシークエンシングを行っ
て得られた被験DNA配列について、本発明の方法により
塩基の挿入もしくは欠失の有無、または挿入もしくは欠
失された塩基数の判定を行う場合、該被験DNA配列を、
野生型遺伝子Aの塩基配列と比較することにより、本発
明の判定を行うことができる。
As the test DNA sequence for determining the presence or absence of a base insertion or deletion, or the number of inserted or deleted bases by the method of the present invention, for example, DNA sequencing generally performed by those skilled in the art can be used. The desired DNA sequence data obtained may be mentioned. The presence or absence of base insertions or deletions, or the number of bases inserted or deleted, is usually determined by comparing the test DNA sequence with a DNA sequence whose DNA sequence has already been determined (for example, D of the wild-type gene).
NA sequences, etc.) are compared. For example, in the case of determining the presence or absence of insertion or deletion of bases, or the number of inserted or deleted bases by the method of the present invention for a test DNA sequence obtained by sequencing Gene A of a certain test sample , The test DNA sequence,
The determination of the present invention can be made by comparing with the base sequence of the wild-type gene A.

【0010】本発明の被験DNAとしては、その由来等は
特に限定されず、例えば、1倍体生物もしくは2倍体生物
から調製した染色体DNAまたはcDNAを挙げることができ
る。2倍体生物から調製した染色体DNAを被験DNAとする
場合、塩基の挿入もしくは欠失として、具体的には、
(1)片方の染色体DNAに塩基の挿入もしくは欠失が生
じているタイプ(ヘテロ挿入またはヘテロ欠失)、
(2)両方の染色体に塩基の挿入もしくは欠失が生じて
いるタイプ(ホモ挿入またはホモ欠失)が挙げられ、本
発明の方法は、このようなタイプについて、塩基の挿入
もしくは欠失の有無、または挿入もしくは欠失された塩
基数の判定を行うことが可能である。また、本発明は2
倍体生物のホモ欠失およびホモ挿入に対して有効である
ことから、1倍体生物の染色体DNA配列に対しても適用可
能である。また、本発明は、被験DNA配列において複数
箇所の挿入、欠失の判定を行うことが可能である。
The origin of the test DNA of the present invention is not particularly limited, and examples thereof include chromosomal DNA or cDNA prepared from a haploid or diploid organism. When using a chromosomal DNA prepared from a diploid organism as a test DNA, specifically, as insertion or deletion of bases,
(1) A type in which a chromosomal DNA has a base insertion or deletion (hetero insertion or deletion),
(2) A type in which a base insertion or deletion occurs in both chromosomes (homo insertion or homo deletion) is included, and the method of the present invention includes the presence or absence of base insertion or deletion in such a type. , Or the number of inserted or deleted bases can be determined. Further, the present invention is 2
Since it is effective against homozygous deletions and insertions in polyploid organisms, it is also applicable to chromosomal DNA sequences of haploid organisms. In addition, the present invention is capable of determining insertions and deletions at multiple positions in a test DNA sequence.

【0011】本発明においては、被験DNA配列と比較を
行うべきDNA配列を基準配列と呼ぶ。本発明における基
準配列としては、同種の同一領域をコードしている塩基
配列が個体によりわずかに異なるような場合は、それら
の配列の一般型の配列を指す。一般型の配列は、例えば
複数のサンプルにおいて、同じ領域の塩基配列をシーク
エンサーにより決定し、アセンブラーによってつなぎ合
わせることにより同定することができる。また、既存デ
ータベースにその領域が登録されている場合、これを用
いてもよい。基準配列は被験DNA配列と同一鎖の塩基配
列であり、相補鎖であってはならない。
In the present invention, the DNA sequence to be compared with the test DNA sequence is called the reference sequence. In the present invention, the reference sequence refers to a general sequence of these sequences when the nucleotide sequences encoding the same region of the same species differ slightly from one individual to another. The general-type sequence can be identified by, for example, determining the base sequences of the same region in a plurality of samples by a sequencer and connecting them by an assembler. If the area is registered in the existing database, it may be used. The reference sequence has the same base sequence as the test DNA sequence and should not be a complementary strand.

【0012】本発明において、上記基準配列抽出フィル
ターとは、基準配列(A,T,G,Cであらわされた塩基配
列)を各塩基ごとに4塩基成分に分解したベクトルの集
合で、2次元のマトリクスへ翻訳(展開)したものを言
い、本発明においては、基準配列マトリクスとも記載す
る。また、本発明における上記サンプルマトリクスと
は、被験DNA配列を4塩基成分に分解したベクトルの集合
で、シークエンスを2次元のマトリクスへ翻訳(展開)
したものを意味する。
In the present invention, the above-mentioned reference sequence extraction filter is a set of vectors obtained by decomposing the reference sequence (base sequence represented by A, T, G, C) into 4 base components for each base, and is a two-dimensional array. In the present invention, it is also referred to as a reference sequence matrix. Further, the sample matrix in the present invention is a set of vectors obtained by decomposing the test DNA sequence into four base components, and the sequence is translated (developed) into a two-dimensional matrix.
Means what you have done.

【0013】具体的には、被験DNA配列中のある位置の
塩基の種類がA、T、G、またはCである場合には、上記ベ
クトルは、例えば、それぞれ(1,0,0,0)、(0,0,0,
1)、(0,1,0,0)、または(0,0,1,0)で表すことがで
き、被験DNA配列はこれらのベクトルの集合であるマト
リクスとして表現される。つまり、被験DNA配列は、上
記のようにして表されるベクトルを、該配列の塩基の並
びに従って集合させたマトリクスとして表される。より
具体的には、被験DNA配列が、例えばシークエンスを行
った際に結果として検出される波形データである場合に
は、本発明のマトリクスは、例えば後述の実施例1の表
1または表2で示すように表現することができる。具体
的には、波形として検出されたものは1、そうでないも
のは0とし、各塩基を例えば、A(1,0,0,0)、G(0,1,0,
0)、C(0,0,1,0)およびT(0,0,0,1)で表現すること
ができる。しかし、被験DNA配列を上記のようにデジタ
ル情報(二進法)として表現し得る方法であれば、上記
の表現形態に限定されるものではない。また、波形デー
タ中の1つの塩基に対応する波形シグナルが1つに特定さ
れず、2つ以上の波形シグナルを有する場合も考えられ
る。この場合、上記ベクトルは、例えば、AおよびTの2
つ波形シグナルが出ている場合には(1,0,0,1)、AGの2つ
波形シグナルが出ている場合には(1,0,1,0)として表す
ことができる。本発明においてはノイズ等の劣化要素が
加わっている波形データを、劣化要素も含めて1または0
のようにデジタル化する。劣化要素の出現は規則性が無
いので基準配列抽出フィルターとの比較において連続的
な相同性は得られない。よって劣化要素を取り除くこと
ができる。さらに、2本の波形シグナルが出ている場合
でも、この2本のシグナルを挿入、欠失を判定する情報
として加味することができるため、挿入・欠失について
ヘテロまたはホモの判定が可能となった。
Specifically, when the type of the base at a certain position in the test DNA sequence is A, T, G, or C, the above vectors are, for example, (1,0,0,0), respectively. , (0,0,0,
1), (0,1,0,0), or (0,0,1,0), and the test DNA sequence is expressed as a matrix which is a set of these vectors. That is, the test DNA sequence is represented as a matrix in which the vectors represented as described above are assembled according to the base sequence of the sequence. More specifically, when the test DNA sequence is, for example, waveform data detected as a result of performing a sequence, the matrix of the present invention can be obtained, for example, in Table 1 or Table 2 of Example 1 described later. It can be expressed as shown. Specifically, 1 is detected as a waveform, 0 is not detected, and each base is, for example, A (1,0,0,0), G (0,1,0,
0), C (0,0,1,0) and T (0,0,0,1). However, as long as the test DNA sequence can be expressed as digital information (binary system) as described above, it is not limited to the above expression form. It is also possible that the waveform signal corresponding to one base in the waveform data is not specified as one and has two or more waveform signals. In this case, the vector is, for example, 2 of A and T.
If there are two waveform signals, it can be represented as (1,0,0,1), and if there are two waveform signals of AG, they can be represented as (1,0,1,0). In the present invention, the waveform data to which a deterioration element such as noise is added is 1 or 0 including the deterioration element.
To digitize. Since the appearance of deterioration elements has no regularity, continuous homology cannot be obtained in comparison with the reference sequence extraction filter. Therefore, the deterioration factor can be removed. Furthermore, even if two waveform signals are output, these two signals can be added as information for determining the insertion or deletion, so that it is possible to determine whether the insertion or deletion is hetero or homo. It was

【0014】本発明においては、次いで、基準配列抽出
フィルターとサンプルマトリクスの開始末端と終止末端
を重ね合わせる(工程(b))。
In the present invention, the reference sequence extraction filter and the starting end and the ending end of the sample matrix are then superposed (step (b)).

【0015】本工程における好ましい態様としては、ま
ず、ベクトルの集合である2つのマトリクスを、一方の
マトリクスの最初のベクトル(開始末端)と他方のマト
リクスの最後のベクトル(終止末端)が対応するよう
に、重ね合わせる。この状態を本発明においては、「計
測開始点」と呼ぶ。この計測開始点として、具体的に
は、後述の実施例1の図5で示されるような状態を例示
することができる。本発明において「計測開始点」と
は、通常最初のベクトルと他方のマトリクスの最後のベ
クトルが対応するように重ねあわされた場所を指し、通
常、基準配列抽出フィルターにおけるシークエンス反応
開始点を提示できる場合のみ計測開始点を移動させるこ
とができる。また、計測開始点としては、上記の開始末
端と終止末端の末端同士に限定されず、基準配列抽出フ
ィルターにおけるシークエンス反応開始点が分かってい
る場合には、計算量削減のため上記以外の重ね合わせの
状態を計測開始点とすることも可能である。
In a preferred mode in this step, first, two matrices, which are a set of vectors, are made to correspond to the first vector (start end) of one matrix and the last vector (stop end) of the other matrix. Then, overlay. In the present invention, this state is called a "measurement start point". As the measurement start point, specifically, a state as shown in FIG. 5 of Example 1 described later can be exemplified. In the present invention, the "measurement start point" usually refers to a place where the first vector and the last vector of the other matrix are superposed so as to correspond to each other, and usually the sequence reaction start point in the reference sequence extraction filter can be presented. Only when the measurement start point can be moved. In addition, the measurement start point is not limited to the ends of the above-mentioned start end and end end, and when the sequence reaction start point in the reference sequence extraction filter is known, overlapping other than the above is performed to reduce the calculation amount. It is also possible to use the state of as the measurement starting point.

【0016】本発明においては、次いで、基準配列抽出
フィルターとサンプルマトリクスを1塩基ずつ移動させ
ながら、基準配列抽出フィルターとサンプルマトリクス
の開始末端と終止末端を重ね合わせた点(計測開始点)
からの移動距離、および重なり合った塩基についてマト
リクスの積の和を算出する(工程(c))。
In the present invention, next, the reference sequence extraction filter and the sample matrix are moved one base at a time, while the start and end ends of the reference sequence extraction filter and the sample matrix are overlapped (measurement start point).
And the sum of the products of the matrices for the overlapping bases is calculated (step (c)).

【0017】上記工程において、「基準配列抽出フィル
ターとサンプルマトリクスを1塩基ずつ移動させる」と
は、上記計測開始点から、基準配列抽出フィルターとサ
ンプルマトリクスを、これらの重なり合う領域が1塩基
分(1ベクトル分)変化するようにずらす操作をいう。
この操作はマトリクス同士の重なりが無くなり次第、も
しくはサンプルマトリクス開始点が基準配列抽出フィル
ターにおけるシークエンス反応終止点と重なったら終了
する。
In the above step, "moving the reference sequence extraction filter and the sample matrix by one base at a time" means that the overlapping region between the reference sequence extraction filter and the sample matrix is one base (1 This is an operation that shifts the vector so that it changes.
This operation is finished as soon as the matrices do not overlap each other, or when the sample matrix start point overlaps with the sequence reaction end point in the reference sequence extraction filter.

【0018】また、移動距離とは、基準配列抽出フィル
ターとサンプルマトリクスを1塩基ずつ移動させた場合
の、計測開始点からの移動したベクトルの数、即ち、移
動塩基数を言う。
The moving distance means the number of vectors moved from the measurement starting point, that is, the number of moving bases, when the reference sequence extraction filter and the sample matrix are moved one base at a time.

【0019】また、重なり合った塩基についてマトリク
スの積の和を算出するとは、重なり合ったマトリクスの
領域において該領域に含まれる全てのベクトルについ
て、各々の重なり合うベクトル同士の積の和を算出する
ことを言う。
To calculate the sum of matrix products for overlapping bases means to calculate the sum of products of overlapping vectors for all the vectors included in the overlapping matrix region in the region. .

【0020】ベクトルの積の和は、例えば、2つのベク
トルが(a1,b1,c1,d1)および(a2,b2,c 2,d2)であるとき、
{(a1×a2)+(b1×b2)+(c1×c2)+(d1×d2)}で表され
る。具体的には、2つのベクトルが(1,0,0,0)および
(1,0,0,1)であるとき、これらのベクトルの積の和
は、(1×1)+(0×0)+(0×0)+(0×1)=1となる。
また、2つのベクトルが(1,0,0,0)および(0,0,1,0)
であるとき、これらのベクトルの積の和は、(1×0)+
(0×0)+(0×1)+(0×0)=0となる。
The sum of the vector products can be calculated, for example, by two vectors
Toru is (a1, b1, c1, d1) And (a2, b2, c 2, d2),
{(a1× a2) + (B1× b2) + (C1× c2) + (D1× d2)}
It Specifically, two vectors are (1,0,0,0) and
The sum of the products of these vectors when (1,0,0,1)
Is (1 × 1) + (0 × 0) + (0 × 0) + (0 × 1) = 1.
Also, the two vectors are (1,0,0,0) and (0,0,1,0)
The sum of the products of these vectors is (1 × 0) +
(0x0) + (0x1) + (0x0) = 0.

【0021】本発明においては、次いで、マトリクスの
積の和から、重なり合った塩基における連続相同塩基
数、移動距離、基準配列抽出フィルター相同領域、およ
びサンプルマトリクス相同領域を算出する(工程
(d))。
In the present invention, the number of consecutive homologous bases in the overlapping bases, the migration distance, the reference sequence extraction filter homology region, and the sample matrix homology region are then calculated from the sum of the matrix products (step (d)). .

【0022】本発明において「相同な塩基」であるか否
かの判定は、例えば、上記工程(c)により算出される
マトリクスの積の和が1以上である場合に重なり合う塩
基は相同であると判定し、マトリクスの積の和が0であ
る場合には相同ではない(非相同である)と判定する。
In the present invention, whether or not the bases are homologous is judged by, for example, that the overlapping bases are homologous when the sum of the products of the matrix calculated in the step (c) is 1 or more. If the sum of products of the matrix is 0, it is determined that they are not homologous (non-homologous).

【0023】「重なり合った塩基における連続する相同
な塩基配列」とは、上記判定により相同な塩基であるこ
とを示すマトリクスの積の和の「1以上の数字」が連続
して出現するマトリクス領域である。「連続して出現」
とは一定塩基数以上の相同性があった場合をいう。一定
塩基数の基準は特に限定されないが、例えば、1ベクト
ルに複数の波形出ている場合(ノイズが非常に多い状
態)、20塩基以下の相同性を持つ領域が大量に検出され
るため、本発明においては通常、25塩基以上の相同性が
あった場合記録する。
The term "consecutive homologous base sequences in overlapping bases" means a matrix area in which "one or more numbers" of the sum of products of matrices showing the homologous bases in the above judgment appear consecutively. is there. "Consecutive appearance"
Means that there is a homology of a certain number or more. The criterion for the fixed number of bases is not particularly limited. For example, when multiple waveforms appear in one vector (a state where there is a lot of noise), a large number of regions with homology of 20 bases or less are detected. In the invention, it is usually recorded when there is a homology of 25 bases or more.

【0024】「相同塩基数」とはマトリクスの積の和の
「1以上の数字」が連続して出現した回数を言う。「基
準配列抽出フィルター相同領域」とはマトリクスの積の
和の「1以上の数字」が連続して出現した領域の中で最
初と最後に「1以上の数字」が出現した基準配列抽出フ
ィルター上での位置情報である。「サンプルマトリクス
相同領域」についても同様である。これら移動距離、相
同塩基数、基準配列抽出フィルターの相同性をもつ領域
の両末端の位置、サンプルマトリクスの相同性を持つ領
域の両末端の位置は、上記の工程(c)でマトリクスを
1塩基ずつ移動させ、「重なり合った塩基における連続
する相同な塩基配列」が検出された際に、その都度記録
を行う。なお、本発明において上記の「1以上の数字」
とは、通常「1」である。
The "number of homologous bases" refers to the number of times the "numerical value of 1 or more" of the sum of products of the matrix appears consecutively. "Reference sequence extraction filter homologous region" is on the reference sequence extraction filter where "1 or more numbers" appear at the beginning and end of the region where "1 or more numbers" of the sum of matrix products appear consecutively. It is the position information in. The same applies to the “sample matrix homologous region”. The migration distance, the number of homologous bases, the positions of both ends of the region having homology of the reference sequence extraction filter, and the positions of both ends of the region having homology of the sample matrix are determined by the matrix in the above step (c).
Each base is moved, and a record is made each time a "consecutive homologous base sequence in overlapping bases" is detected. In addition, in the present invention, the above-mentioned “number of 1 or more”
Is usually "1".

【0025】また、工程(d)において得られたデータ
の中にはノイズや繰り返し配列由来の偽陽性のデータが
多数あり、通常、これを除かなければならない。本発明
においては、次いで、最も多い相同塩基数を示す場合の
移動距離である最大相同塩基配列検出点、該検出点にお
ける基準配列抽出フィルター相同領域である標準基準配
列抽出フィルター相同領域、および該検出点におけるサ
ンプルマトリクス相同領域である標準サンプルマトリク
ス相同領域を算出し(工程(e))、次いで、該標準基
準配列抽出フィルター相同領域および該標準サンプルマ
トリクス相同領域から、マトリクス間位置補正値を算出
する(工程(f))。
Further, in the data obtained in the step (d), there are a lot of false positive data derived from noises and repetitive sequences, which usually must be removed. In the present invention, then, the maximum homologous base sequence detection point, which is the migration distance when showing the highest number of homologous bases, the standard reference sequence extraction filter homology region which is the reference sequence extraction filter homology region at the detection point, and the detection A standard sample matrix homology region that is a sample matrix homology region at a point is calculated (step (e)), and then an inter-matrix position correction value is calculated from the standard reference sequence extraction filter homology region and the standard sample matrix homology region. (Step (f)).

【0026】上記「最大相同塩基配列検出点」は、シー
クエンス配列に挿入欠失部位が無ければ、全ての相同性
を示す領域は通常、該検出点上に存在するものと考えら
れる。一方、「最大相同塩基配列検出点」から離れた移
動距離に相同領域がある場合、挿入および/または欠失
が生じているものと考えられる。
The above "maximum homologous nucleotide sequence detection point" is considered to be where all the regions showing homology are usually present on the detection point if there is no insertion / deletion site in the sequence sequence. On the other hand, if there is a homologous region at a migration distance away from the “maximum homologous nucleotide sequence detection point”, it is considered that insertion and / or deletion has occurred.

【0027】上記「マトリクス間位置補正値」はマトリ
クス間の標準相同領域の差分であり、「基準配列抽出フ
ィルター相同領域」または「サンプルマトリクス相同領
域」のどちらかがわかれば、「マトリクス間位置補正
値」を用いて本来あるべきお互いのマトリクス上の位置
を算出することが可能である。「マトリクス間位置補正
値」の算出は、具体的には「標準基準配列抽出フィルタ
ー相同領域」を (c1,c2)、「標準サンプルマトリク
ス相同領域」を (s1,s2)としたときマトリクス間位
置補正値は、c1‐s1またはc2‐s2として表される。
The "inter-matrix position correction value" is the difference in the standard homology region between the matrices, and if either "reference sequence extraction filter homology region" or "sample matrix homology region" is known, "inter-matrix position correction value" is obtained. It is possible to calculate the original position on the matrix of each other using "value". The calculation of the “inter-matrix position correction value” is performed specifically when the “standard reference sequence extraction filter homology region” is (c1, c2) and the “standard sample matrix homology region” is (s1, s2). The correction value is expressed as c1-s1 or c2-s2.

【0028】次いで、本発明の好ましい態様において
は、上記の各移動距離の差分を、該標準サンプルマトリ
クス相同領域に加え、さらにマトリクス間位置補正を行
うことで、基準配列抽出フィルター予測相同領域が算出
される。
Next, in a preferred embodiment of the present invention, the difference in each of the above moving distances is added to the standard sample matrix homology region, and further inter-matrix position correction is performed to calculate the reference sequence extraction filter predicted homology region. To be done.

【0029】上記「移動距離の差分」とは「最大相同塩
基配列検出点」からの移動距離の差を計算したもので、
これをサンプルマトリクス相同領域に加えると挿入や欠
失が無かった場合のサンプルマトリクス相同領域が計算
できる。
The "difference in moving distance" is calculated by calculating the difference in moving distance from the "detection point of maximum homologous base sequence".
When this is added to the sample matrix homology region, the sample matrix homology region when there is no insertion or deletion can be calculated.

【0030】「基準配列抽出フィルター予測相同領域」
の算出は、例えば、「マトリクス間位置補正値」をa、
「最大相同塩基配列検出点」をbとしたとき、移動距離
b’、「サンプルマトリクス相同領域」 (s1,s2)、に
おける「基準配列抽出フィルター予測相同領域」(c1,
c2)は、{c1 = s1' + a-(b' ‐b)}、{c2 = s2' +a-
(b' ‐ b)}で表される。具体的には「標準基準配列抽
出フィルター相同領域」を(100,500)、「標準サンプ
ルマトリクス相同領域」を(150,550)としたとき、マ
トリクス間位置補正値は100‐150=-50である。また「最
大相同塩基配列検出点」を1200としたとき、移動距離12
10、「サンプルマトリクス相同領域」(300,550)にお
ける「基準配列抽出フィルター予測相同領域」(c1,c
2)は、c1= 300+(‐50)-(1210‐1200) = 240、c2 = 550
+(‐50)-(1210‐1200) = 490で表される。
"Reference sequence extraction filter predicted homology region"
The calculation of, for example, "inter-matrix position correction value" is a,
Moving distance when "maximum homologous nucleotide sequence detection point" is b
b ', "Sample matrix homology region" (s1, s2), "reference sequence extraction filter predicted homology region" (c1,
c2) is {c1 = s1 '+ a- (b'-b)}, {c2 = s2' + a-
(b'-b)}. Specifically, when the "standard reference sequence extraction filter homology region" is (100,500) and the "standard sample matrix homology region" is (150,550), the inter-matrix position correction value is 100-150 = -50. is there. When the "maximum homologous nucleotide sequence detection point" is 1200, the moving distance is 12
10, "Sample sequence homology region" (300, 550) "reference sequence extraction filter predicted homology region" (c1, c
2) is c1 = 300 + (-50)-(1210-1200) = 240, c2 = 550
It is represented by + (-50)-(1210-1200) = 490.

【0031】「最大相同塩基配列検出点」より10塩基多
い移動距離で検出されたことは、10塩基欠失であるとい
うことである。10塩基欠失でサンプルマトリクスの相同
領域は300〜550であるから、マトリクス間位置補正を行
うと、基準配列抽出フィルター予想相同領域は240〜490
である。このようにしてえられた予想相同領域と実際に
検出された基準配列抽出フィルター相同領域とが同一で
あれば、挿入および欠失に基づく相同領域情報であるこ
とが確認される。このように、基準配列抽出フィルター
予想相同領域の算出、および実際の基準配列抽出フィル
ター相同領域との比較を行いデータの整合性を確認する
ことができる。
Detected at a migration distance that is 10 bases more than the "maximum homologous base sequence detection point" means that 10 bases have been deleted. The homology region of the sample matrix is 300-550 due to the deletion of 10 bases. Therefore, when the inter-matrix position correction is performed, the expected homology region of the reference sequence extraction filter is 240-490.
Is. If the predicted homologous region thus obtained and the actually detected reference sequence extraction filter homologous region are the same, it is confirmed that the information is homologous region information based on insertion and deletion. In this way, the consistency of the data can be confirmed by calculating the predicted homology region of the reference sequence extraction filter and comparing it with the actual homology region of the reference sequence extraction filter.

【0032】本発明においては、上記の相同塩基数、基
準配列抽出フィルター相同領域、サンプルマトリクス相
同領域、最大相同塩基配列検出点、標準基準配列抽出フ
ィルター相同領域、および標準サンプルマトリクス相同
領域から、被験DNA配列において塩基の挿入もしくは欠
失の有無を評価し、挿入もしくは欠失された塩基数を判
定する。
In the present invention, the number of homologous bases, the reference sequence extraction filter homology region, the sample matrix homology region, the maximum homologous base sequence detection point, the standard reference sequence extraction filter homology region, and the standard sample matrix homology region are used for the test. The presence or absence of base insertions or deletions in the DNA sequence is evaluated to determine the number of bases inserted or deleted.

【0033】上記判定における好ましい態様としては、
上記工程によって算出される全ての「基準配列抽出フィ
ルター」を表記する検出位置関係図を作成し、この検出
位置関係図をもとに上記判定を行う。図7〜図16に、
このようにして作成される検出位置関係図の具体例を示
すが、本発明におけるグラフの種類等は特に限定されな
い。
As a preferable mode in the above judgment,
A detection positional relationship diagram that describes all "reference sequence extraction filters" calculated in the above steps is created, and the above determination is performed based on this detection positional relationship diagram. 7 to 16,
A specific example of the detected positional relationship diagram created in this way is shown, but the type of graph in the present invention is not particularly limited.

【0034】作成される検出位置関係図は、挿入も欠失
も有さない通常のサンプルの場合、最大相同塩基配列検
出点上にすべての基準配列抽出フィルター配列抽出相同
領域が記載される。これに対して挿入、欠失を起こした
サンプルはその数に応じて相同領域が複数個出現し、そ
の検出形態から挿入、欠失、ホモ、ヘテロ等の形態を予
測することができる。
In the detection positional relationship diagram prepared, in the case of a normal sample having neither insertion nor deletion, all the reference sequence extraction filters and sequence extraction homology regions are described on the maximum homologous nucleotide sequence detection point. On the other hand, in the sample in which insertion or deletion occurs, a plurality of homologous regions appear according to the number, and the forms of insertion, deletion, homo, hetero, etc. can be predicted from the detected form.

【0035】描画された検出形態は基準配列マトリクス
位置上流の相同領域に対してひとつ下流の相同領域を評
価することで挿入、欠失を決定する。上流から順に挿
入、欠失の評価を行うことで、複数の変異が存在した場
合の変異の意味付けを容易にする。例えば、上流の相同
領域に対してほぼ全領域重複して別の移動距離に相同領
域の存在が認められた場合、ヘテロの挿入もしくは欠失
であることが分かる。また、上流の相同領域に対してほ
ぼ重複せずにそれとは別の移動距離に相同領域が認めら
れた場合、ホモの挿入もしくは欠失であることが分か
る。挿入や欠失の判断は、上流の相同領域に対して対象
となる相同領域の移動距離が長ければ挿入、短ければ欠
失である。挿入や欠失の位置決定は検出方法の特性か
ら、1塩基繰り返し配列上にあった場合、正確な位置の
決定ができないが、それ以外でノイズが少なければ位置
決定も可能である。
In the drawn detection pattern, insertion and deletion are determined by evaluating one homologous region downstream with respect to the homologous region upstream of the reference sequence matrix position. By evaluating insertion and deletion in order from the upstream, it becomes easy to make sense of mutations when multiple mutations exist. For example, when the presence of a homologous region at another migration distance overlapping almost the entire region with respect to the upstream homologous region is recognized, it indicates that the insertion or deletion is a hetero. In addition, when the homologous region is observed at a migration distance different from that of the upstream homologous region with almost no overlap, it is found that the homologous region is a homologous insertion or deletion. The determination of insertion or deletion is insertion if the migration distance of the target homologous region with respect to the upstream homologous region is long, and deletion is short. Due to the characteristics of the detection method, the position of insertion or deletion cannot be accurately determined when it is on a single-nucleotide repeat sequence, but it can also be determined if there is little noise otherwise.

【0036】さらに本発明の方法は、マイクロサテライ
トなどのタンデムリピート配列の繰り返し回数の計測に
も有効である。サンプルマトリクスは繰り返し回数の異
なるタンデムリピート配列をシークエンスした場合、挿
入欠失と同様に複数の波形が重なるようにして検出され
る。これは、タンデムリピート配列終了後の配列が繰り
返し回数の違いから重なるようにして検出されるもので
ある。該検出法の違いは上記の基準配列抽出フィルター
マトリクスの作成のみである。つまり、タンデムリピー
ト配列を除いた塩基配列で基準配列抽出フィルターマト
リクスを作成し、タンデムリピート配列を含むサンプル
マトリクスに対して本検定を行うことで、タンデムリピ
ート配列塩基数を挿入塩基数として検出することが可能
である。繰り返し回数に差があった場合、同じ領域に異
なる挿入塩基数を検出することになる。
Furthermore, the method of the present invention is also effective for measuring the number of repetitions of a tandem repeat array such as microsatellite. When a tandem repeat sequence having a different number of repeats is sequenced, the sample matrix is detected by overlapping a plurality of waveforms as in the case of insertion deletion. This is to detect the sequences after the tandem repeat sequence is overlaid due to the difference in the number of repetitions. The only difference in the detection method is the creation of the reference sequence extraction filter matrix. In other words, create a reference sequence extraction filter matrix with a base sequence excluding the tandem repeat sequence, and perform this test on a sample matrix containing the tandem repeat sequence to detect the base number of the tandem repeat sequence as the number of inserted bases. Is possible. If there is a difference in the number of repetitions, different numbers of inserted bases will be detected in the same region.

【0037】本発明の方法は、マイクロサテライトなど
のタンデムリピート配列の塩基数計測に有効である。繰
り返し回数の異なるタンデムリピート配列をシークエン
スした場合、サンプルマトリクスは挿入欠失と同様に複
数の波形が重なるようにして検出される。これは、タン
デムリピート配列終了後の配列が繰り返し回数の違いか
ら重なるようにして検出されるものである。
The method of the present invention is effective for measuring the number of bases in a tandem repeat sequence such as microsatellite. When tandem repeat sequences with different numbers of repeats are sequenced, the sample matrix is detected by overlapping a plurality of waveforms as in the case of insertion deletion. This is to detect the sequences after the tandem repeat sequence is overlaid due to the difference in the number of repetitions.

【0038】検出法の違いは基準配列抽出フィルターマ
トリクスの作成のみである。タンデムリピート配列を除
いた塩基配列で基準配列抽出フィルターマトリクスを作
成する。タンデムリピート配列を含むサンプルマトリク
スに対して本検定を行うことで、タンデムリピート配列
塩基数を挿入塩基数として検出する。繰り返し回数に差
があった場合、同じ領域に異なる挿入塩基数を検出する
ことになる(図17)。
The difference in the detection method is only the creation of the reference sequence extraction filter matrix. Create a reference sequence extraction filter matrix with the base sequence excluding the tandem repeat sequence. By performing this test on a sample matrix containing a tandem repeat sequence, the number of tandem repeat sequence bases is detected as the number of inserted bases. If there is a difference in the number of repetitions, different numbers of inserted bases will be detected in the same region (Fig. 17).

【0039】また、本発明は、コンピュータに上記の
(a)〜(f)の工程を実行させて、被験DNA配列にお
ける塩基の挿入もしくは欠失の有無、または挿入もしく
は欠失された塩基数を判定するためのプログラムを提供
する。
The present invention also causes a computer to execute the above steps (a) to (f) to determine the presence or absence of insertion or deletion of bases in the test DNA sequence, or the number of inserted or deleted bases. Provide a program for judgment.

【0040】本発明のコンピュータプログラムには、下
記(1)から(7)のプログラムの一部または全部が含
まれる。 (1)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法においてコンピ
ュータに、基準配列抽出フィルター、およびサンプルマ
トリクスを作成させるためのコンピュータプログラム
(「マトリクス作成プログラム」とも記載)。 (2)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法においてコンピ
ュータに、基準配列抽出フィルターとサンプルマトリク
スの開始末端と終止末端を重ねあわせた点からの移動距
離を算出させるためのコンピュータプログラム(「移動
距離算出プログラム」とも記載)。 (3)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法においてコンピ
ュータに、基準配列抽出フィルターとサンプルマトリク
スとの重なり合う塩基についてマトリクスの積の和を算
出させるためのコンピュータプログラム(「マトリクス
の積の和算出プログラム」とも記載)。 (4)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法においてコンピ
ュータに、マトリクスの積の和から重なり合った塩基に
おける連続する相同領域を算出させるためのコンピュー
タプログラム(「相同領域算出プログラム」とも記
載)。 (5)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法において相同領
域の中から最大相同塩基配列検出点をもつ標準基準配列
抽出フィルター相同領域と標準サンプルマトリクス相同
領域を算出させるためのコンピュータプログラム(「最
大相同塩基配列検出点算出プログラム」とも記載)。 (6)本発明の挿入もしくは欠失の有無、または挿入も
しくは欠失された塩基数を判定する方法において各相同
領域において基準配列抽出フィルター予測相同領域を算
出し、実際の基準配列抽出フィルター相同領域と比較す
るコンピュータプログラム(「予測相同領域算出プログ
ラム」とも記載)。 (7)コンピュータに、移動距離および基準配列抽出フ
ィルター相同領域を含む検出位置関係図を描画するコン
ピュータプログラム(「検出位置関係図描画プログラ
ム」とも記載)。
The computer program of the present invention includes a part or all of the following programs (1) to (7). (1) A computer program for causing a computer to create a reference sequence extraction filter and a sample matrix in the method of determining the presence or absence of insertion or deletion of the present invention, or the number of inserted or deleted bases (“matrix creating program”). Is also described). (2) In the method of the present invention for determining the presence or absence of insertions or deletions, or the number of inserted or deleted bases, the reference sequence extraction filter and the start end and end end of the sample matrix are superposed on each other. A computer program for calculating the moving distance (also referred to as a "moving distance calculating program"). (3) In the method of the present invention for determining the presence or absence of insertion or deletion, or the number of inserted or deleted bases, a computer is caused to calculate the sum of matrix products for overlapping bases of a reference sequence extraction filter and a sample matrix. A computer program (also referred to as "a program for calculating the sum of matrix products"). (4) In the method of the present invention for determining the presence or absence of insertion or deletion, or the number of inserted or deleted bases, a computer for causing a computer to calculate continuous homologous regions in overlapping bases from the sum of products of matrices Program (also referred to as "homologous region calculation program"). (5) Standard reference sequence extraction filter homologous region and standard sample having a maximum homologous nucleotide sequence detection point among homologous regions in the method of the present invention for determining the presence or absence of insertion or deletion, or the number of inserted or deleted nucleotides A computer program for calculating a matrix homology region (also referred to as "maximum homologous nucleotide sequence detection point calculation program"). (6) In the method for determining the presence or absence of insertion or deletion, or the number of inserted or deleted bases of the present invention, a reference sequence extraction filter predicted homology region is calculated in each homology region, and an actual reference sequence extraction filter homology region is calculated. A computer program to be compared with (also referred to as a “predicted homology region calculation program”). (7) A computer program (also referred to as a “detection position relationship diagram drawing program”) for drawing a detection position relationship diagram including a movement distance and a reference sequence extraction filter homology region on a computer.

【0041】さらに本発明は、上記本発明のコンピュー
タプログラムを記録したコンピュータ読み取り可能な記
録媒体を提供する。本発明の記録媒体は、汎用コンピュ
ータが読み取り可能なものであって、本発明のコンピュ
ータプログラムが記録されている。本発明の記録媒体
は、可搬型または固定型の両方の媒体が含まれ、例え
ば、CD-ROM、フレキシブルディスク(FD)、DVD、ハード
ディスク、半導体メモリ等を挙げることができる。
The present invention further provides a computer-readable recording medium in which the computer program of the present invention is recorded. The recording medium of the present invention can be read by a general-purpose computer, and the computer program of the present invention is recorded therein. The recording medium of the present invention includes both portable and fixed media, and examples thereof include a CD-ROM, a flexible disk (FD), a DVD, a hard disk, and a semiconductor memory.

【0042】また、本発明のプログラムは、上記可搬型
記録媒体にプログラムを格納して売買したり、ネットワ
ークを介して接続されたコンピュータの記録装置に格納
しておき、ネットワークを通じて他のコンピュータに転
送することもできる。本発明の処理工程を実行するコン
ピュータプログラムをユーザに提供する提供媒体は、様
々な形式のコンピュータ読み出し可能媒体として頒布可
能であって、本発明は実際の頒布のために使用される特
定のタイプの媒体に関係なく適用される。
Further, the program of the present invention is stored in the portable recording medium for sale and sale, or stored in a recording device of a computer connected through a network and transferred to another computer through the network. You can also do it. The providing medium that provides the user with the computer program that executes the processing steps of the present invention can be distributed as various forms of computer-readable media, and the present invention can be realized by using the specific type of computer program used for actual distribution. Applies regardless of medium.

【0043】また本発明は、被験DNA配列における塩基
の挿入もしくは欠失の有無、または挿入もしくは欠失さ
れた塩基数を判定するための装置を提供する。該装置
は、基準配列および被験DNA配列情報が入力される入力
手段、上記工程(a)〜(f)により、相同塩基数、基
準配列抽出フィルター相同領域、サンプルマトリクス相
同領域、最大相同塩基配列検出点、標準基準配列抽出フ
ィルター相同領域、および標準サンプルマトリクス相同
領域を算出する演算手段、および演算結果を表示する表
示手段を含む。
The present invention also provides an apparatus for determining the presence or absence of insertion or deletion of bases in a test DNA sequence, or the number of inserted or deleted bases. The apparatus comprises an input means for inputting reference sequence and test DNA sequence information, and the number of homologous bases, reference sequence extraction filter homology region, sample matrix homology region, maximum homologous base sequence detection by the above steps (a) to (f). Calculating means for calculating points, standard reference sequence extraction filter homologous areas, and standard sample matrix homologous areas, and display means for displaying calculation results.

【0044】本発明の上記装置の好ましい態様は、本発
明のプログラムをハードディスク装置等の補助記憶装置
に格納されたコンピュータである。該装置には、マトリ
クス作成プログラム、移動距離算出プログラム、マトリ
クスの積の和算出プログラム、相同領域算出プログラ
ム、最大相同塩基配列検出点算出プログラム、予想相同
領域算出プログラム、検出位置関係図描画プログラム、
およびこれらのプログラムを制御するためのプログラム
のうちの一部または全部のプログラムを内包する。
A preferred embodiment of the above apparatus of the present invention is a computer in which the program of the present invention is stored in an auxiliary storage device such as a hard disk device. The apparatus includes a matrix creating program, a moving distance calculating program, a matrix product sum calculating program, a homologous region calculating program, a maximum homologous base sequence detection point calculating program, an expected homologous region calculating program, a detection position relationship diagram drawing program,
Further, it includes some or all of the programs for controlling these programs.

【0045】図1には、本発明の装置のシステム構成図
の一例を示す。入力手段1と表示手段2がバス線3に接
続されている。一時記憶手段4は、入力されたデータ、
および算出された数値データ等を一時的に記憶する。中
央処理装置(CPU)5は、本発明のプログラムの命令を受
けて各種演算を行う。メインメモリ6には本発明の処理
を実行するための各種プログラムが格納されている。こ
のプログラムは、マトリクス作成プログラム61、移動
距離算出プログラム62、マトリクスの積の和算出プロ
グラム63、相同領域算出プログラム64、最大相同塩
基配列検出点算出プログラム65、予想相同領域算出プ
ログラム66、検出位置関係図描画プログラム67およ
びこれらのプログラムを制御するためのプログラム68
に大きく分けられる。これらプログラム61〜68を1
つのプログラムにまとめることも可能である。
FIG. 1 shows an example of a system configuration diagram of the apparatus of the present invention. The input means 1 and the display means 2 are connected to the bus line 3. The temporary storage means 4 stores the input data,
The calculated numerical data and the like are temporarily stored. The central processing unit (CPU) 5 performs various calculations in response to the instructions of the program of the present invention. The main memory 6 stores various programs for executing the processing of the present invention. This program includes a matrix creation program 61, a moving distance calculation program 62, a matrix product sum calculation program 63, a homologous region calculation program 64, a maximum homologous base sequence detection point calculation program 65, an expected homologous region calculation program 66, and a detection position relationship. Drawing drawing program 67 and program 68 for controlling these programs
Can be roughly divided into 1 of these programs 61-68
It is also possible to combine them into one program.

【0046】図2は該装置により実行される処理のフロ
ーの一例である。まず、入力手段から基準配列および被
験DNA配列情報(以降、2つを合わせて「配列情報」と記
載し、該配列情報には、波形データも含まれる)が入力
される。この配列情報は、キーボード等の入力手段から
直接本発明の装置へ入力する以外に、配列情報が記録さ
れた可搬型記録媒体、ハードディスク等の固定型媒体、
またはインターネットのデータバンク等の通信ネットワ
ークから、モデム等の受信手段を利用してコンピュータ
に供給することが可能である。通常、本発明の配列情報
は、国内外の塩基配列データベースから取得する、もし
くはDNAオートシークエンサーにより出力された情報を
使用することができる。また、市販のテキストエディタ
を使用して作成することも可能である。また、予め適当
な配列情報をハードディスク等の固定型媒体に記憶させ
ておき、該固定型媒体から、適宜ロードして使用するこ
とも可能である。入力された配列情報はコンピュータの
メインメモリまたは一時記憶手段に格納しておくことが
できる。上記入力手段によって入力された配列情報は、
マトリクスへ変換される。通常、この処理工程は、メイ
ンメモリまたは一時記憶手段に格納された配列情報を基
に、中央処理装置(CPU)等の演算手段がメインメモリ中
のマトリクス作成プログラムの指令を受け実施される。
また、特に波形データからマトリクスへの変換工程は一
般的にベースコールと呼ばれる。本発明においては、こ
のベースコールの作業を、波形データを見ながら手作業
で実施することも可能である。
FIG. 2 shows an example of the flow of processing executed by the apparatus. First, a reference sequence and test DNA sequence information (hereinafter, the two are collectively referred to as “sequence information”, and the sequence information includes waveform data) are input from the input means. This sequence information is directly input to the device of the present invention from an input unit such as a keyboard, and also a portable recording medium on which the sequence information is recorded, a fixed medium such as a hard disk,
Alternatively, it can be supplied to the computer from a communication network such as a data bank of the Internet using a receiving means such as a modem. Usually, as the sequence information of the present invention, information obtained from a nucleotide sequence database in Japan or overseas or output by a DNA autosequencer can be used. It can also be created using a commercially available text editor. Further, it is also possible to store appropriate array information in advance in a fixed medium such as a hard disk and appropriately load from the fixed medium for use. The input sequence information can be stored in the main memory or temporary storage means of the computer. The sequence information input by the input means is
Converted to matrix. Normally, this processing step is carried out by an arithmetic means such as a central processing unit (CPU) receiving an instruction of a matrix creating program in the main memory based on the array information stored in the main memory or the temporary storage means.
In particular, the process of converting waveform data into a matrix is generally called base call. In the present invention, it is also possible to manually perform this base call operation while observing the waveform data.

【0047】次いで、入力された配列情報から、本発明
の工程(a)〜(d)を行うことによりマトリクスの積
の和、重なり合った塩基における連続相同塩基数、移動
距離、基準配列抽出フィルター相同領域、およびサンプ
ルマトリクス相同領域を算出する。通常、この処理工程
は、中央処理装置(CPU)等の演算手段がメインメモリ中
のマトリクスの積の和算出プログラム、移動距離算出プ
ログラム、および相同領域算出プログラム等の指令を受
け、配列情報を読み出し、マトリクスの積の和、重なり
合った塩基における連続相同塩基数、移動距離、基準配
列抽出フィルター相同領域、およびサンプルマトリクス
相同領域の計算を行う。算出されたマトリクスの積の
和、移動距離、基準配列抽出フィルター相同領域、およ
びサンプルマトリクス相同領域の算出結果は、コンピュ
ータの記憶手段または一時記憶手段に格納され、下記の
工程における算出の際に利用される。
Next, from the inputted sequence information, the steps (a) to (d) of the present invention are carried out so that the sum of the products of the matrix, the number of consecutive homologous bases in the overlapping bases, the moving distance, the homology of the reference sequence extraction filter Calculate the region and the sample matrix homology region. Normally, in this processing step, arithmetic means such as a central processing unit (CPU) receives instructions from a matrix product sum calculation program in the main memory, a movement distance calculation program, a homologous region calculation program, etc., and reads array information. , The sum of matrix products, the number of consecutive homologous bases in overlapping bases, the migration distance, the reference sequence extraction filter homology region, and the sample matrix homology region are calculated. The calculated sum of products of matrix, movement distance, reference sequence extraction filter homology region, and calculation result of sample matrix homology region are stored in the storage means or the temporary storage means of the computer and used in the calculation in the following steps. To be done.

【0048】続いて、上記工程(e)および(f)に従
い、最も多い相同塩基数を示す場合の移動距離である最
大相同塩基配列検出点、該検出点における基準配列抽出
フィルター相同領域である標準基準配列抽出フィルター
相同領域、および該検出点におけるサンプルマトリクス
相同領域である標準サンプルマトリクス相同領域の算出
を行う。さらに各相同領域において基準配列抽出フィル
ター予測相同領域を算出し、実際の基準配列抽出フィル
ター相同領域と比較を行う。これらの処理工程は、記憶
手段に格納された上記工程によって算出された演算結果
を基に、中央処理装置(CPU)等の演算手段がメインメモ
リ中の最大相同領域算出プログラム、最大相同塩基配列
検出点算出プログラム、および予想相同領域算出プログ
ラム等の指令を受け計算を行う。
Then, according to the above steps (e) and (f), the maximum homologous base sequence detection point, which is the migration distance when the maximum number of homologous bases is shown, and the standard sequence extraction filter homology region at the detection point. The reference sequence extraction filter homology region and the standard sample matrix homology region that is the sample matrix homology region at the detection point are calculated. Furthermore, a reference sequence extraction filter predicted homology region is calculated in each homology region and compared with the actual reference sequence extraction filter homology region. These processing steps include a maximum homologous region calculation program in the main memory and a maximum homologous base sequence detection based on the arithmetic result calculated by the above step stored in the storage means by the arithmetic means such as the central processing unit (CPU). Calculation is performed in response to commands such as the point calculation program and the predicted homology region calculation program.

【0049】次いで、算出された演算結果が表示手段に
よって表示される。この演算結果は、例えばテキストと
して表示する形態、または上述のように移動距離および
基準配列マトリクス位置を軸とするグラフとして表示す
ることができるが、表示形態は特に制限されない。通
常、この処理工程は、上記工程によって算出された演算
結果を基に、メインメモリ中の検出位置関係図描画プロ
グラムの指令を受け実行される。この表示手段には、デ
ィスプレイ・モニタのほか、プリンター等も含まれる。
Next, the calculated calculation result is displayed by the display means. The calculation result can be displayed as text, for example, or as a graph with the moving distance and the reference array matrix position as an axis as described above, but the display form is not particularly limited. Normally, this processing step is executed in response to a command from the detected positional relationship diagram drawing program in the main memory based on the calculation result calculated in the above step. This display means includes a display monitor, a printer, and the like.

【0050】[0050]

【実施例】以下、本発明を実施例により、さらに具体的
に説明するが本発明はこれら実施例に制限されるもので
はない。 [実施例1] (1)まず、共通塩基パターン認識のための基準配列抽
出フィルターの作成を行った。基準配列抽出フィルター
は基準配列(挿入欠失がない通常の波形(図3))を展
開することにより作成した。本実施例においては、Aの
場合(1,0,0,0)Tの場合(0,0,0,1)Gの場合(0,1,0,
0)Cの場合(0,0,1,0)とした。基準配列各塩基ごとの
マトリクスを作成し、これを基準配列抽出フィルターと
した(表1)。
EXAMPLES The present invention will be described in more detail below with reference to examples, but the present invention is not limited to these examples. [Example 1] (1) First, a reference sequence extraction filter for recognition of a common base pattern was prepared. The reference sequence extraction filter was created by expanding the reference sequence (normal waveform without insertion deletion (Fig. 3)). In this embodiment, in the case of A (1,0,0,0) in the case of T (0,0,0,1) in the case of G (0,1,0,
0) In the case of C, it was set to (0,0,1,0). A matrix for each base of the reference sequence was prepared and used as a reference sequence extraction filter (Table 1).

【0051】[0051]

【表1】 [Table 1]

【0052】(2)次にサンプル波形のマトリクスへの
展開を行った。サンプル波形マトリクスはサンプル波形
(図4)を展開することにより作成した。例えばATの波
形が出ている場合(1,0,0,1)となり、AGの波形が出て
いる場合(1,0,1,0)となる。サンプル波形の各塩基ご
とのマトリクスを作成し、これをサンプルマトリクスと
した。本実施例では、1塩基欠失しているサンプルを用
いた(表2)。
(2) Next, the sample waveform was developed into a matrix. The sample waveform matrix was created by expanding the sample waveform (FIG. 4). For example, when the AT waveform is output (1,0,0,1), it is output when the AG waveform is output (1,0,1,0). A matrix for each base of the sample waveform was created and used as a sample matrix. In this example, a sample in which one base was deleted was used (Table 2).

【0053】[0053]

【表2】 [Table 2]

【0054】(3)次いで基準配列抽出フィルター開始
末端とサンプルマトリクス終止末端を重ねた合わせ、こ
れを計測開始点とした(図5)。 (4)各塩基ごとの積とその位置での各積の和を求め
た。基準配列(1,0,0,0)サンプル(1,0,0,1)のとき
(1×1)+(0×0)+(0×0)+(0×1)=1である。これ
に対し、基準配列(1,0,0,0)サンプル(0,0,1,0)のと
き(1×0)+(0×0)+(0×1)+(0×0)=0である。1が
連続して出てきた場合、この部位の各塩基配列に相同性
があることになる。最長相同性を持つ部位を記録した。 (5)基準配列抽出フィルターとサンプルマトリクスの
重なりを1塩基ずつずらし、各位置での相同領域を特定
した。 (6)マトリクス同士の重なりが無くなることで計算を
終了した。 (7)最大相同塩基配列検出点および標準基準配列抽出
フィルター相同領域、標準サンプルマトリクス相同領域
を特定した。 (8)基準配列抽出フィルター予測相同領域を計算し
た。 (9)予測相同領域と実測相同領域を比較し、挿入や欠
失が反映されているデータのみを選択した。図6に基準
配列抽出フィルターによる相同領域および移動距離から
予測相同領域を求める計算法を示す。マトリクスのスラ
イドが終了後、最大の相同領域をもつ移動距離は29であ
ることから、最大相同塩基配列検出点を29とし、各標準
相同領域を定めた。マトリクス間位置補正値を算出後、
各移動距離におけるサンプルマトリクス相同領域から基
準配列抽出フィルター予測相同領域を算出、これを基準
配列抽出フィルター相同領域実測値と比較しデータの整
合性を確認した。 (10)移動距離を縦軸、基準配列マトリクス位置を横
軸にとり検出位置関係図を作成した(図7)。相同領域
A(移動距離29相同領域1〜29)に対する相同領域B(移
動距離30相同領域15〜29)の関係から、二つの相同領域
は重複しており、Bの移動距離が長いことから15塩基目
に1塩基のヘテロ挿入があることがわかる。
(3) Next, the starting end of the reference sequence extraction filter and the ending end of the sample matrix were overlapped and used as the measurement starting point (FIG. 5). (4) The product of each base and the sum of the products at that position were calculated. When the reference array (1,0,0,0) sample (1,0,0,1) is (1 × 1) + (0 × 0) + (0 × 0) + (0 × 1) = 1 . On the other hand, when the reference array (1,0,0,0) sample (0,0,1,0) is (1 × 0) + (0 × 0) + (0 × 1) + (0 × 0) = 0. When 1 appears consecutively, it means that each nucleotide sequence at this site has homology. The site with the longest homology was recorded. (5) The overlap between the reference sequence extraction filter and the sample matrix was shifted by one base, and the homologous region at each position was identified. (6) The calculation ends when the matrices do not overlap each other. (7) The maximum homologous nucleotide sequence detection point, the standard reference sequence extraction filter homology region, and the standard sample matrix homology region were identified. (8) Reference sequence extraction filter The predicted homology region was calculated. (9) The predicted homology region and the measured homology region were compared, and only the data in which the insertion or deletion was reflected were selected. FIG. 6 shows a calculation method for obtaining the predicted homologous region from the homologous region and the movement distance by the reference sequence extraction filter. After the slide of the matrix was completed, the migration distance with the maximum homologous region was 29, so the maximum homologous nucleotide sequence detection point was set to 29 and each standard homologous region was defined. After calculating the inter-matrix position correction value,
The reference sequence extraction filter homology region was calculated from the sample matrix homology region at each movement distance, and this was compared with the actual value of the reference sequence extraction filter homology region to confirm the data consistency. (10) A detection positional relationship diagram was created with the moving distance on the vertical axis and the reference array matrix position on the horizontal axis (FIG. 7). Homology domain
From the relationship of homologous region B (moving distance 30 homologous region 1 to 29) to A (moving distance 29 homologous region 1 to 29), the two homologous regions overlap, and since the moving distance of B is long, it is the 15th base. It can be seen that there is a single base hetero insertion.

【0055】[実施例2]挿入欠失のない通常のサンプル
の解析を行った(図8)。その結果、「最大相同塩基配
列検出点」が移動距離300にあり、標準基準配列抽出フ
ィルター相同領域は150〜550になった。このように挿入
欠失がない場合は、相同領域は1ヶ所の移動距離上に存
在することが明らかになった。
[Example 2] A normal sample without insertion deletion was analyzed (Fig. 8). As a result, the "maximum homologous nucleotide sequence detection point" was at the migration distance of 300, and the standard reference sequence extraction filter homology region was 150 to 550. In this way, it was revealed that the homologous region exists at a single migration distance in the absence of insertion deletion.

【0056】[実施例3]1部位へテロ挿入(400塩基目に
150塩基のヘテロ挿入)サンプルの解析を行った結果、
相同領域A(移動距離300相同領域150〜550)と相同領域
B(移動距離450相同領域400〜550)が検出された(図9
左図)。この場合、相同領域Aに対する相同領域Bの関係
から、二つの相同領域は重複しており、Bの移動距離が
長いことから400塩基目に150塩基のヘテロ挿入があるこ
とがわかる。
[Example 3] Tero insertion at one site (at the 400th base)
As a result of analysis of a sample of 150 base hetero insertion),
Homologous region A (moving distance 300, homologous region 150 to 550) and homologous region
B (moving distance 450 homology region 400 to 550) was detected (Fig. 9).
(Left figure). In this case, the relationship between the homologous region B and the homologous region A indicates that the two homologous regions overlap and the B migration distance is long, so that there is a 150-base hetero insertion at the 400th base.

【0057】また、1部位へテロ欠失(300〜400塩基ま
で100塩基のヘテロ欠失)サンプルの解析を行った結
果、相同領域A(移動距離300相同領域150〜550)と相同
領域B(移動距離200相同領域400〜550)が検出された
(図9右図)。この場合、相同領域Aに対する相同領域B
の関係から、二つの相同領域は重複しており、Bの移動
距離が短いことから400塩基目に100塩基のヘテロ欠失が
あることがわかる。
In addition, as a result of analyzing a sample with one site heterozygous deletion (hetero deletion of 100 bases from 300 to 400 bases), homology region A (migration distance 300 homology region 150 to 550) and homology region B ( A movement distance of 200 homologous regions 400 to 550) was detected (Fig. 9, right). In this case, homologous region B to homologous region A
From the relationship, it can be seen that the two homologous regions overlap and the B migration distance is short, so that there is a heterodeletion of 100 bases at the 400th base.

【0058】[実施例4]1部位ホモ挿入(350塩基目に10
0塩基のホモ挿入)サンプルの解析を行った結果、相同
領域A(移動距離300相同領域150〜350)と相同領域B
(移動距離400相同領域350〜500)が検出された(図1
0左図)。この場合、相同領域Aに対する相同領域Bの関
係から、二つの相同領域は重複しておらず、Bの移動距
離が長いことから350塩基目に100塩基のホモ挿入がある
ことがわかる。
[Example 4] 1-site homo insertion (10 at the 350th base)
As a result of analyzing the sample, homologous region A (movement distance 300, homologous region 150 to 350) and homologous region B were analyzed.
(Moving distance 400 homology region 350-500) was detected (Fig. 1
0 left figure). In this case, the relationship between the homologous region B and the homologous region A indicates that the two homologous regions do not overlap with each other and that B has a long migration distance, so that there is a 100-base homozygous insertion at the 350th base.

【0059】また、1部位ホモ欠失(350〜450塩基まで1
00塩基のホモ欠失)サンプルの解析を行った結果、相同
領域A(移動距離300相同領域150〜350)と相同領域B
(移動距離200相同領域450〜550)が検出された(図1
0右図)。この場合、相同領域Aに対する相同領域Bの関
係から、二つの相同領域は重複しておらず、Bの移動距
離が短いことから450塩基目に100塩基のホモ欠失がある
ことがわかる。
Also, one-site homodeletion (1 to 350-450 bases
As a result of analysis of a sample (homo-deletion of 00 bases), homology region A (migration distance 300, homology region 150 to 350) and homology region B
(Movement distance 200 homology region 450-550) was detected (Fig. 1
0 right figure). In this case, the relationship between the homologous region B and the homologous region A indicates that the two homologous regions do not overlap with each other and the B migration distance is short, so that there is a 100 base homozygous deletion at the 450th base.

【0060】[実施例5]ホモ挿入後ヘテロ挿入(250塩
基目に100塩基のホモ挿入、400塩基目に50塩基のヘテロ
挿入)サンプルの解析を行った結果、相同領域A(移動
距離300相同領域150〜250)、相同領域B(移動距離400
相同領域250〜550)および相同領域C(移動距離450相同
領域400〜550)が検出された(図11左図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しておらず、Bの移動距離が長いことから2
50塩基目に100塩基のホモ挿入があることがわかる。ま
た、相同領域Bに対する相同領域Cの関係から、二つの相
同領域は重複しており、Cの移動距離が長いことから400
塩基目に50塩基のヘテロ挿入があることがわかる。
[Example 5] As a result of analysis of a sample after homo insertion and hetero insertion (100 bases homo insertion at 250th base, 50 bases hetero insertion at 400th base), homology region A (movement distance 300 homology) Area 150-250), homology area B (travel distance 400
The homologous regions 250 to 550) and the homologous region C (moving distance 450, homologous regions 400 to 550) were detected (FIG. 11, left diagram). In this case, because of the relationship between the homologous region A and the homologous region B, the two homologous regions do not overlap, and the moving distance of B is long.
It can be seen that there is a 100 base homo insertion at the 50th base. Further, from the relationship of the homologous region C to the homologous region B, the two homologous regions overlap and the movement distance of C is long, so 400
It can be seen that there is a hetero insertion of 50 bases at the base position.

【0061】また、ホモ挿入後ヘテロ欠失(250塩基目
に100塩基のホモ挿入、350〜400塩基まで50塩基のヘテ
ロ欠失)サンプルを行った結果、相同領域A(移動距離3
00相同領域150〜250)、相同領域B(移動距離400相同領
域250〜550)および相同領域C(移動距離350相同領域40
0〜550)が検出された(図11右図)。この場合、相同
領域Aに対する相同領域Bの関係から、二つの相同領域は
重複しておらず、Bの移動距離が長いことから250塩基目
に100塩基のホモ挿入があることがわかる。また、相同
領域Bに対する相同領域Cの関係から、二つ相同領域は重
複しており、Cの移動距離が短いことから400塩基目に50
塩基のヘテロ欠失があることがわかる。
Further, as a result of carrying out a sample after homo insertion and hetero deletion (a homo insertion of 100 bases at the 250th base, a hetero deletion of 50 bases from 350 to 400 bases), a homologous region A (movement distance 3
00 homology region 150-250), homology region B (travel distance 400 homology region 250-550) and homology region C (travel distance 350 homology region 40)
0-550) was detected (the right figure in FIG. 11). In this case, the relationship between the homologous region B and the homologous region A indicates that the two homologous regions do not overlap with each other, and the migration distance of B is long, so that there is a 100-base homozygous insertion at the 250th base. Further, from the relationship of the homologous region C to the homologous region B, the two homologous regions are overlapping, and because the migration distance of C is short, 50 at the 400th base.
It can be seen that there is a heterodeletion of bases.

【0062】[実施例6]ヘテロ挿入後ホモ挿入(200塩
基目に150塩基のヘテロ挿入、400塩基目に50塩基のホモ
挿入)サンプルの解析を行った結果、相同領域A(移動
距離300相同領域150〜400)、相同領域B(移動距離450
相同領域200〜400)、相同領域C(移動距離350相同領域
400〜550)、および相同領域D(移動距離500相同領域40
0〜550)が検出された(図12左図)。この場合、相同
領域Aに対する相同領域Bの関係から、二つの相同領域は
重複しており、Bの移動距離が長いことから200塩基目に
150塩基のヘテロ挿入があることがわかる。また、基準
配列マトリクス位置400において相同領域Aに対して相同
領域C、相同領域Bに対して相同領域Dは相同領域が重複
しておらず、それぞれ移動距離が50長いことから、400
塩基目に50塩基のホモの挿入があることがわかる。
[Example 6] Homo-insertion after hetero insertion (150 base hetero insertion at 200 bases, 50 base homo insertion at 400 bases) As a result of analysis, a homology region A (movement distance 300 homology) Region 150-400), homology region B (travel distance 450)
Homologous region 200-400), homologous region C (moving distance 350 homologous region)
400 to 550), and homology region D (moving distance 500 homology region 40
0-550) was detected (the left figure of FIG. 12). In this case, from the relationship of the homologous region B to the homologous region A, the two homologous regions overlap, and the migration distance of B is long, so at the 200th base.
It can be seen that there is a heterogeneous insertion of 150 bases. Further, at the reference array matrix position 400, the homologous region C does not overlap with the homologous region A with respect to the homologous region A, and the homologous region D does not overlap with the homologous region B.
It can be seen that there is a homozygous insertion of 50 bases at the base position.

【0063】また、ヘテロ挿入後ホモ欠失(200塩基目
に150塩基のヘテロ挿入、400〜450塩基まで50塩基のホ
モ欠失)サンプルの解析を行った結果、相同領域A(移
動距離300相同領域150〜400)、相同領域B(移動距離45
0相同領域200〜400)、相同領域C(移動距離250相同領
域450〜550)、および相同領域D(移動距離400相同領域
450〜550)が検出された(図12右図)。この場合、相
同領域Aに対する相同領域Bの関係から、二つの相同領域
は重複しており、Bの移動距離が長いことから200塩基目
に150塩基のヘテロ挿入があることがわかる。また、基
準配列マトリクス位置450において相同領域Aに対して相
同領域C、相同領域Bに対して相同領域Dは相同領域が重
複しておらず、それぞれ移動距離が50短いことから、45
0塩基目に50塩基のホモの欠失があることがわかる。
In addition, as a result of analysis of a homozygous deletion sample after hetero insertion (a hetero insertion of 150 bases at the 200th base, a homo deletion of 50 bases from 400 to 450 bases), a homologous region A (300 homologous migration distances) Area 150-400), homology area B (moving distance 45
0 homology region 200-400), homology region C (travel distance 250 homology region 450-550), and homology region D (travel distance 400 homology region)
450-550) was detected (the right figure in FIG. 12). In this case, the relationship between the homologous region B and the homologous region A indicates that the two homologous regions overlap and the B migration distance is long, so that there is a hetero insertion of 150 bases at the 200th base. Further, at the reference array matrix position 450, the homologous region C does not overlap the homologous region A with respect to the homologous region A, and the homologous region D does not overlap with the homologous region B.
It can be seen that there is a homozygous deletion of 50 bases at the 0th base.

【0064】[実施例7]ヘテロ欠失後ホモ挿入(200〜2
50塩基まで50塩基のヘテロ欠失、400塩基目に100塩基の
ホモ挿入)サンプルの解析を行った結果、相同領域A
(移動距離300相同領域150〜400)、相同領域B(移動距
離250相同領域250〜400)、相同領域C(移動距離400相
同領域400〜550)、および相同領域D(移動距離350相同
領域400〜550)が検出された(図13左図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しており、Bの移動距離が短いことから250
塩基目に50塩基のヘテロ欠失があることがわかる。ま
た、基準配列マトリクス位置400において相同領域Aに対
して相同領域C、相同領域Bに対して相同領域Dは相同領
域が重複しておらず、それぞれ移動距離が100長いこと
から、400塩基目に100塩基のホモの挿入があることがわ
かる。
[Example 7] Homo-insertion after hetero-deletion (200-2
A heterozygous deletion of 50 bases up to 50 bases, a 100 base homo insertion at the 400th base) As a result of analysis of the sample, homology region A
(Movement distance 300 homology region 150 to 400), homology region B (movement distance 250 homology region 250 to 400), homology region C (migration distance 400 homology region 400 to 550), and homology region D (movement distance 350 homology region 400 ~ 550) was detected (Fig. 13, left). In this case, because of the relationship of the homologous region B to the homologous region A, the two homologous regions overlap, and because the moving distance of B is short, 250
It can be seen that there is a 50-base heterodeletion at the base position. Further, at the reference sequence matrix position 400, the homologous region C does not overlap with the homologous region A with respect to the homologous region A, and the homologous region D does not overlap with the homologous region B. It can be seen that there is a 100 base homo insertion.

【0065】また、ヘテロ欠失後ホモ欠失(200〜250塩
基まで50塩基のヘテロ欠失、400〜450塩基まで50塩基の
ホモ欠失)サンプルの解析を行った結果、相同領域A
(移動距離300相同領域150〜400)、相同領域B(移動距
離250相同領域250〜400)、相同領域C(移動距離250相
同領域450〜550)、および相同領域D(移動距離200相同
領域450〜550)が検出された(図13右図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しており、Bの移動距離が短いことから250
塩基目に50塩基のヘテロ欠失があることがわかる。ま
た、基準配列マトリクス位置450において、相同領域Aに
対して相同領域C、相同領域Bに対して相同領域Dは相同
領域が重複しておらず、それぞれ移動距離が50短いこと
から、450塩基目に50塩基のホモの欠失があることがわ
かる。
Further, as a result of analysis of the homo-deleted sample after hetero-deletion (50-base hetero-deletion from 200 to 250 bases, 50-base homo-deletion from 400 to 450 bases), homologous region A
(Movement distance 300 homology region 150 to 400), Homology region B (Movement distance 250 homology region 250 to 400), Homology region C (Movement distance 250 homology region 450 to 550), and Homology region D (Movement distance 200 homology region 450) (-550) was detected (the right figure of FIG. 13). In this case, because of the relationship of the homologous region B to the homologous region A, the two homologous regions overlap, and because the moving distance of B is short, 250
It can be seen that there is a 50-base heterodeletion at the base position. In the reference sequence matrix position 450, the homologous region C does not overlap with the homologous region A with respect to the homologous region A and the homologous region D does not overlap with the homologous region B. It can be seen that there is a homozygous deletion of 50 bases.

【0066】[実施例8]ホモ挿入後ホモ挿入(250塩基
目に100塩基のホモ挿入、400塩基目に50塩基のホモ挿
入)サンプルの解析を行った結果、相同領域A(移動距
離300相同領域150〜250)、相同領域B(移動距離400相
同領域250〜400)、および相同領域C(移動距離450相同
領域400〜550)が検出された(図14左図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しておらず、Bの移動距離が長いことから2
50塩基目に100塩基のホモ挿入があることがわかる。ま
た、相同領域Bに対する相同領域Cの関係から、二つの相
同領域は重複しておらず、Cの移動距離が長いことから4
00塩基目に50塩基のホモ挿入があることがわかる。
[Example 8] After homo-insertion, homo-insertion (100-base homo-insertion at 250th base, 50-base homo-insertion at 400th base) was analyzed. As a result, homology region A (movement distance 300 homology) Regions 150 to 250), homologous region B (moving distance 400 homologous region 250 to 400), and homologous region C (moving distance 450 homologous region 400 to 550) were detected (FIG. 14, left diagram). In this case, because of the relationship between the homologous region A and the homologous region B, the two homologous regions do not overlap, and the moving distance of B is long.
It can be seen that there is a 100 base homo insertion at the 50th base. Also, due to the relationship of homologous region C to homologous region B, the two homologous regions do not overlap and C has a long moving distance.
It can be seen that there is a homozygous insertion of 50 bases at the 00th base.

【0067】また、ホモ挿入後ホモ欠失(200塩基目に1
50塩基のホモ挿入、400〜450塩基まで50塩基のホモ欠
失)サンプルの解析を行った結果、相同領域A(移動距
離300相同領域150〜200)、相同領域B(移動距離450相
同領域200〜400)、および相同領域C(移動距離400相同
領域450〜550)が検出された(図14右図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しておらず、Bの移動距離が長いことから2
00塩基目に150塩基のホモ挿入があることがわかる。ま
た、相同領域Bに対する相同領域Cの関係から、二つの相
同領域は重複しておらず、Cの移動距離が短いことから4
50塩基目に50塩基のホモ欠失があることがわかる。
In addition, after the homo insertion, the homo deletion (1 at the 200th base)
As a result of analysis of a sample of 50 base homo insertion, 50 base homo deletion from 400 to 450 bases, homology region A (migration distance 300 homology region 150 to 200), homology region B (migration distance 450 homology region 200) .About.400), and homology region C (moving distance 400, homology region 450 to 550) were detected (right diagram in FIG. 14). In this case, because of the relationship between the homologous region A and the homologous region B, the two homologous regions do not overlap, and the moving distance of B is long.
It can be seen that there is a homozygous insertion of 150 bases at the 00th base. Also, due to the relationship of homologous region C to homologous region B, the two homologous regions do not overlap and the migration distance of C is
It can be seen that there is a 50 base homozygous deletion at the 50th base.

【0068】[実施例9]片側の染色体上に2ヶ所の挿入
(250塩基目に100塩基の挿入、400塩基目に50塩基の挿
入)サンプルの解析を行った結果、相同領域A(移動距
離300相同領域150〜550)、相同領域B(移動距離400相
同領域250〜400)、および相同領域C(移動距離450相同
領域400〜550)が検出された(図15左図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しており、Bの移動距離が長いことから250
塩基目に100塩基のヘテロ挿入があることがわかる。ま
た、相同領域Bに対する相同領域Cの関係から、二つの相
同領域は重複しておらず、Bの移動距離が長いことから4
00塩基目に50塩基のヘテロ挿入があることがわかる。相
同領域の重複が無い場合は通常ホモの変異であるが、す
でに上流でヘテロの変異が起きているために連続して同
一染色体上に変異が起きていると考える。
[Example 9] Insertion at two sites on one side of the chromosome (insert of 100 bases at 250th base, insertion of 50 bases at 400th base) As a result of analysis of the sample, homologous region A (movement distance 300 homology region 150-550), homology region B (migration distance 400 homology region 250-400), and homology region C (migration distance 450 homology region 400-550) were detected (Fig. 15, left figure). In this case, from the relationship of the homologous region B to the homologous region A, the two homologous regions overlap, and since the moving distance of B is long, 250
It can be seen that there is a 100 base hetero insertion at the base position. Also, because of the relationship of homologous region C to homologous region B, the two homologous regions do not overlap and B has a long moving distance, so
It can be seen that there is a hetero insertion of 50 bases at the 00th base. When there is no duplication of homologous regions, it is usually a homozygous mutation, but it is considered that mutations occur continuously on the same chromosome because a heterozygous mutation has already occurred in the upstream.

【0069】また、片側の染色体上に2ヶ所の欠失(100
〜200塩基まで100塩基の欠失、350〜450塩基まで100塩
基の欠失)サンプルの解析を行った結果、相同領域A
(移動距離300相同領域50〜550)、相同領域B(移動距
離200相同領域200〜350)、および相同領域C(移動距離
100相同領域450〜500)が検出された(図15右図)。
この場合、相同領域Aに対する相同領域Bの関係から、二
つの相同領域は重複しておらず、Bの移動距離が短いこ
とから200塩基目に100塩基のヘテロ欠失があることがわ
かる。また、相同領域Bに対する相同領域Cの関係から、
二つの相同領域は重複しておらず、Cの移動距離が短い
ことから450塩基目に100塩基のヘテロ欠失があることが
わかる。相同領域の重複が無い場合は通常ホモの変異で
あるが、すでに上流でヘテロの変異が起きているために
連続して同一染色体上に変異が起きていると考える。
In addition, two deletions (100
~ 100 bases deleted up to 200 bases, 100 bases deleted up to 350-450 bases) As a result of sample analysis, homologous region A
(Moving distance 300 homology region 50 to 550), homology region B (moving distance 200 homology region 200 to 350), and homology region C (moving distance
100 homologous regions 450 to 500) were detected (Fig. 15, right panel).
In this case, the relationship between the homologous region A and the homologous region A indicates that the two homologous regions do not overlap with each other, and the migration distance of B is short, so that there is a 100-base heterodeletion at the 200th base. Also, from the relationship of the homologous region C to the homologous region B,
The two homologous regions do not overlap and the C migration distance is short, indicating that there is a 100-base heterodeletion at the 450th base. When there is no duplication of homologous regions, it is usually a homozygous mutation, but it is considered that mutations occur continuously on the same chromosome because a heterozygous mutation has already occurred in the upstream.

【0070】[実施例10]片側の染色体上に欠失と挿入
(200〜300塩基まで100塩基の欠失、400塩基目に50塩基
の挿入)サンプルの解析を行った結果、相同領域A(移
動距離300相同領域150〜550)、相同領域B(移動距離20
0相同領域300〜400)、および相同領域C(移動距離250
相同領域400〜500)が検出された(図16左図)。この
場合、相同領域Aに対する相同領域Bの関係から、二つの
相同領域は重複しておらず、Bの移動距離が短いことか
ら300塩基目に100塩基のヘテロ欠失があることがわか
る。また、相同領域Bに対する相同領域Cの関係から、二
つの相同領域は重複しておらず、Bの移動距離が長いこ
とから400塩基目に50塩基のヘテロ挿入があることがわ
かる。相同領域の重複が無い場合は通常ホモの変異であ
るが、すでに上流でヘテロの変異が起きているために連
続して同一染色体上に変異が起きていると考える。
[Example 10] Deletion and insertion on one chromosome (deletion of 100 bases from 200 to 300 bases, insertion of 50 bases at the 400th base) As a result of analysis of the sample, homologous region A ( Movement distance 300 homology region 150 to 550), homology region B (movement distance 20
0 homology region 300 to 400), and homology region C (travel distance 250)
The homologous region 400-500) was detected (the left figure in FIG. 16). In this case, the relationship between the homologous region A and the homologous region A indicates that the two homologous regions do not overlap with each other, and the migration distance of B is short, and thus there is a 100-base heterodeletion at the 300th base. Further, from the relationship between the homologous region C and the homologous region B, it is clear that the two homologous regions do not overlap and the B migration distance is long, so that there is a hetero insertion of 50 bases at the 400th base. When there is no duplication of homologous regions, it is usually a homozygous mutation, but it is considered that mutations occur continuously on the same chromosome because a heterozygous mutation has already occurred in the upstream.

【0071】また、片側の染色体上に挿入と欠失(350
塩基目に200塩基の挿入、450〜500塩基まで50塩基の欠
失)サンプルの解析を行った結果、相同領域A(移動距
離300相同領域150〜550)、相同領域B(移動距離500相
同領域350〜450)、および相同領域C(移動距離450相同
領域500〜550)が検出された(図16右図)。この場
合、相同領域Aに対する相同領域Bの関係から、二つの相
同領域は重複しており、Bの移動距離が長いことから350
塩基目に200塩基のヘテロ挿入があることがわかる。ま
た、相同領域Bに対する相同領域Cの関係から、二つの相
同領域は重複しておらず、Cの移動距離が短いことから5
00塩基目に50塩基のヘテロ欠失があることがわかる。相
同領域の重複が無い場合は通常ホモの変異であるが、す
でに上流でヘテロの変異が起きているために連続して同
一染色体上に変異が起きていると考える。
In addition, insertion and deletion on one chromosome (350
Insertion of 200 bases at the base position, deletion of 50 bases from 450 to 500 bases was analyzed. As a result, homology region A (movement distance 300 homology region 150 to 550), homology region B (movement distance 500 homology region) 350-450) and homology region C (moving distance 450 homology region 500-550) were detected (FIG. 16, right panel). In this case, because of the relationship of the homologous region B to the homologous region A, the two homologous regions overlap, and since the moving distance of B is long, 350
It can be seen that there is a 200-base hetero insertion at the base position. Further, from the relationship of the homologous region C to the homologous region B, the two homologous regions do not overlap, and the moving distance of C is 5
It can be seen that there is a hetero deletion of 50 bases at the 00th base. When there is no duplication of homologous regions, it is usually a homozygous mutation, but it is considered that mutations occur continuously on the same chromosome because a heterozygous mutation has already occurred in the upstream.

【0072】[実施例11]タンデムリピート配列の塩基
数の計測を行った(図17)。マイクロサテライトタン
デムリピート配列2つのアレルをサンプルとして用い
た。アレル1ではGAモチーフは4回繰り返す(小さい)が、
アレル2では7回繰り返す(大きい)。まず、タンデムリピ
ート配列部位のシークエンスを行い、挿入欠失解析を行
うことでタンデムリピートのタイプ分けを行った。通常
の挿入欠失解析と異なるのは、基準配列フィルターから
タンデムリピート配列を除いて解析を行うことである。
タンデムリピート配列を除くことでこれを挿入塩基数と
して計測できた。GAモチーフの4回繰り返しは8塩基挿入
として、7回繰り返しは14塩基挿入として検出された。
Example 11 The number of bases in the tandem repeat sequence was measured (FIG. 17). Two alleles of microsatellite tandem repeat sequences were used as samples. In allele 1, the GA motif repeats 4 times (small),
Repeat 7 times for Allele 2 (large). First, the tandem repeat sequence sites were sequenced, and the tandem repeats were typed by performing insertion and deletion analysis. The difference from the usual insertion / deletion analysis is that the tandem repeat sequence is removed from the reference sequence filter and the analysis is performed.
By removing the tandem repeat sequence, this could be measured as the number of inserted bases. Four repeats of the GA motif were detected as 8 base insertions, and 7 repeats were detected as 14 base insertions.

【0073】[0073]

【発明の効果】本発明によって、被験DNA配列における
塩基の挿入もしくは欠失の有無、または挿入もしくは欠
失された塩基数を判定する方法が提供された。該方法
は、ホモ、ヘテロを問わず塩基の挿入または欠失が起き
ているサンプルを決定でき、挿入欠失塩基数を高感度に
特定できる。また、シークエンシングの高速化に伴い塩
基挿入欠失部位検定の高速化が実現できる。さらに本発
明の方法は、ノイズ等のデータ劣化要素を取り除くこと
ができるため、特にノイズ等の劣化要素が加わっている
波形データにおいて、塩基の挿入もしくは欠失の判定が
容易になるものと大いに期待される。
INDUSTRIAL APPLICABILITY The present invention provides a method for determining the presence or absence of insertion or deletion of bases in a test DNA sequence, and the number of inserted or deleted bases. The method can determine a sample in which insertion or deletion of bases is occurring regardless of whether it is homo or hetero, and the number of insertion-deletion bases can be specified with high sensitivity. In addition, the speeding up of the nucleotide insertion / deletion site test can be realized along with the speeding up of the sequencing. Furthermore, since the method of the present invention can remove the data deterioration element such as noise, it is highly expected that the determination of the insertion or deletion of the base will be easy especially in the waveform data in which the deterioration element such as noise is added. To be done.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の装置のシステム構成図である。FIG. 1 is a system configuration diagram of an apparatus of the present invention.

【図2】 本発明の装置により実行される処理のフロー
の一例を示す図である。
FIG. 2 is a diagram showing an example of a flow of processing executed by the device of the present invention.

【図3】 挿入欠失のない通常のサンプルの波形を示す
図である。
FIG. 3 shows the waveform of a normal sample without insertion deletion.

【図4】 1塩基欠失しているサンプルの波形を示す図
である。
FIG. 4 is a diagram showing a waveform of a sample in which one base is deleted.

【図5】 基準配列抽出フィルターとサンプルマトリク
スを重ねあわせる計測開始点の概念図である。
FIG. 5 is a conceptual diagram of a measurement start point where a reference sequence extraction filter and a sample matrix are superposed.

【図6】 基準配列抽出フィルターによる相同領域およ
び移動距離から予測相同領域をもとめる計算法を示す図
である。
FIG. 6 is a diagram showing a calculation method for obtaining a predicted homology region from a homology region and a movement distance by a reference sequence extraction filter.

【図7】 1部位へテロ挿入の解析結果例を示す検出位
置関係図である。
FIG. 7 is a detection positional relationship diagram showing an example of analysis result of 1-site hetero insertion.

【図8】 挿入欠失のない通常のサンプルの解析結果例
を示す検出位置関係図である。
FIG. 8 is a detection positional relationship diagram showing an example of analysis results of a normal sample having no insertion deletion.

【図9】 1部位へテロ挿入および1部位へテロ欠失サン
プルの解析結果例を示す検出位置関係図である。
FIG. 9 is a detection positional relationship diagram showing an example of analysis results of 1-site hetero insertion and 1-site hetero deletion samples.

【図10】 1部位ホモ挿入および1部位ホモ欠失サンプ
ルの解析結果例を示す検出位置関係図である。
FIG. 10 is a detection positional relationship diagram showing an example of the analysis result of a 1-site homo-insertion and 1-site homo deletion sample.

【図11】 ホモ挿入後ヘテロ欠失、およびホモ挿入後
ヘテロ挿入サンプルの解析結果例を示す検出位置関係図
である。
FIG. 11 is a detection positional relationship diagram showing an example of analysis results of a hetero-deleted sample after homo-insertion and a hetero-inserted sample after homo-insertion.

【図12】 ヘテロ挿入後ホモ挿入、およびヘテロ挿入
後ホモ欠失サンプルの解析結果例を示す検出位置関係図
である。
FIG. 12 is a detection positional relationship diagram showing an example of analysis results of a homo insertion after hetero insertion and a homo deletion sample after hetero insertion.

【図13】 ヘテロ欠失後ホモ挿入、およびヘテロ欠失
後ホモ欠失サンプルの解析結果例を示す検出位置関係図
である。
FIG. 13 is a detection positional relationship diagram showing an example of analysis results of homo-insertion after hetero-deletion and homo-deletion sample after hetero-deletion.

【図14】 ホモ挿入後ホモ挿入、およびホモ挿入後ホ
モ欠失サンプルの解析結果例を示す検出位置関係図であ
る。
FIG. 14 is a detection positional relationship diagram showing an example of analysis results of homo-insertion after homo-insertion and homo-deletion sample after homo-insertion.

【図15】 片側の染色体に2ヶ所の挿入および片側の
染色体に2ヶ所の欠失サンプルの解析結果例を示す検出
位置関係図である。
[Fig. 15] Fig. 15 is a detection positional relationship diagram showing an example of analysis results of two insertions on one chromosome and two deletions on one chromosome.

【図16】 片側の染色体に欠失と挿入および片側の染
色体に挿入と欠失サンプルの解析結果例を示す検出位置
関係図である。
FIG. 16 is a detection positional relationship diagram showing an example of analysis results of deletion and insertion in one chromosome and insertion and deletion samples in one chromosome.

【図17】 タンデムリピート配列の塩基数計測法を示
す図である。
FIG. 17 is a diagram showing a method for measuring the number of bases in a tandem repeat sequence.

【符号の説明】 1 入力手段 2 表示手段 3 バス線 4 一時記憶手段 5 中央処理装置(CPU) 6 メインメモリ[Explanation of symbols] 1 Input means 2 display means 3 bus lines 4 Temporary storage means 5 Central processing unit (CPU) 6 main memory

───────────────────────────────────────────────────── フロントページの続き (72)発明者 大木 操 東京都中央区築地5−1−1 国立がんセ ンター研究所内 (72)発明者 前野 剛 東京都中央区築地5−1−1 国立がんセ ンター研究所内 (72)発明者 崎山 徳起 東京都中央区築地5−1−1 国立がんセ ンター研究所内 Fターム(参考) 5B056 BB22 BB37 BB42 BB71 5B075 ND03 UU19    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Misao Oki             5-1-1 Tsukiji, Chuo-ku, Tokyo National Cancer Center             Center Institute (72) Inventor Tsuyoshi Maeno             5-1-1 Tsukiji, Chuo-ku, Tokyo National Cancer Center             Center Institute (72) Inventor Tokuoki Sakiyama             5-1-1 Tsukiji, Chuo-ku, Tokyo National Cancer Center             Center Institute F-term (reference) 5B056 BB22 BB37 BB42 BB71                 5B075 ND03 UU19

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 被験DNA配列における塩基の挿入もしく
は欠失の有無、または挿入もしくは欠失された塩基数を
判定する方法であって、(a)基準配列を、各塩基ごと
に4塩基成分に分解したベクトルの集合からなる基準配
列抽出フィルター、および、被験DNA配列を各塩基ごと
に4塩基成分に分解したベクトルの集合からなるサンプ
ルマトリクスを作成する工程、(b)該基準配列抽出フ
ィルターと該サンプルマトリクスの開始末端と終止末端
を重ね合わせる工程、(c)該基準配列抽出フィルター
と該サンプルマトリクスを1塩基ずつ移動させながら、
該基準配列抽出フィルターと該サンプルマトリクスの開
始末端と終止末端を重ね合わせた点からの移動距離、お
よび重なり合った塩基についてマトリクスの積の和を算
出する工程、(d)該マトリクスの積の和から、重なり
合った塩基における連続相同塩基数、移動距離、基準配
列抽出フィルター相同領域、およびサンプルマトリクス
相同領域を算出する工程、(e)最も多い相同塩基数を
示す場合の移動距離である最大相同塩基配列検出点、該
検出点における基準配列抽出フィルター相同領域である
標準基準配列抽出フィルター相同領域、および該検出点
におけるサンプルマトリクス相同領域である標準サンプ
ルマトリクス相同領域を算出する工程、(f)該標準基
準配列抽出フィルター相同領域および該標準サンプルマ
トリクス相同領域から、マトリクス間位置補正値を算出
する工程、を含み、上記の相同塩基数、基準配列抽出フ
ィルター相同領域、サンプルマトリクス相同領域、最大
相同塩基配列検出点、標準基準配列抽出フィルター相同
領域、および標準サンプルマトリクス相同領域から、被
験DNA配列において塩基の挿入もしくは欠失の有無を評
価し、挿入もしくは欠失された塩基数を判定する方法。
1. A method for determining the presence or absence of insertion or deletion of bases in a test DNA sequence, or the number of inserted or deleted bases, wherein (a) the reference sequence is divided into 4 base components for each base. A reference sequence extraction filter consisting of a set of decomposed vectors, and a step of creating a sample matrix consisting of a set of vectors into which a test DNA sequence is decomposed into 4 base components for each base, (b) the reference sequence extraction filter and the Superimposing the starting end and the ending end of the sample matrix, (c) while moving the reference sequence extraction filter and the sample matrix one by one,
Calculating the sum of the products of the matrices for the moving distance from the point where the reference end extraction filter and the start end and the end end of the sample matrix are overlapped, and the overlapping bases, (d) from the sum of the products of the matrix , A step of calculating the number of consecutive homologous bases in overlapping bases, migration distance, reference sequence extraction filter homology region, and sample matrix homology region, (e) maximum homologous base sequence that is the migration distance when showing the largest number of homologous bases Calculating a detection point, a standard reference sequence extraction filter homology region that is a reference sequence extraction filter homology region at the detection point, and a standard sample matrix homology region that is a sample matrix homology region at the detection point, (f) the standard reference Sequence extraction filter homology region and the standard sample matrix homology region And the step of calculating the inter-matrix position correction value, including the number of homologous bases, the reference sequence extraction filter homology region, the sample matrix homology region, the maximum homology base sequence detection point, the standard reference sequence extraction filter homology region, and the standard. A method for determining the number of inserted or deleted bases by evaluating the presence or absence of bases in the test DNA sequence from the sample matrix homology region.
【請求項2】 コンピュータに請求項1の(a)〜
(f)の工程を実行させて、被験DNA配列における塩基
の挿入もしくは欠失の有無、または挿入もしくは欠失さ
れた塩基数を判定するためのプログラム。
2. A computer according to claim 1, comprising:
A program for executing the step (f) to determine the presence or absence of insertion or deletion of bases in the test DNA sequence, or the number of inserted or deleted bases.
【請求項3】 請求項2に記載のプログラムを記録した
コンピュータ読み取り可能な記録媒体。
3. A computer-readable recording medium in which the program according to claim 2 is recorded.
【請求項4】 以下の(1)〜(3)の手段を含む、被
験DNA配列における塩基の挿入もしくは欠失の有無、ま
たは挿入もしくは欠失された塩基数を判定するための装
置。 (1)基準配列および被験DNA配列情報が入力される入
力手段 (2)請求項1の(a)〜(f)の工程により、相同塩
基数、基準配列抽出フィルター相同領域、サンプルマト
リクス相同領域、最大相同塩基配列検出点、標準基準配
列抽出フィルター相同領域、および標準サンプルマトリ
クス相同領域を算出する演算手段 (3)演算結果を表示する表示手段
4. An apparatus for determining the presence or absence of insertion or deletion of bases in a test DNA sequence, or the number of inserted or deleted bases, which comprises the following means (1) to (3). (1) Input means for inputting the reference sequence and test DNA sequence information (2) By the steps (a) to (f) of claim 1, the number of homologous bases, the reference sequence extraction filter homology region, the sample matrix homology region, Calculation means for calculating the maximum homologous nucleotide sequence detection point, the standard reference sequence extraction filter homology area, and the standard sample matrix homology area (3) Display means for displaying the calculation result
JP2002010851A 2002-01-18 2002-01-18 Selection method of nucleotide sequence waveform data with nucleotide insertion / deletion site using reference sequence extraction filter Expired - Fee Related JP3943937B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002010851A JP3943937B2 (en) 2002-01-18 2002-01-18 Selection method of nucleotide sequence waveform data with nucleotide insertion / deletion site using reference sequence extraction filter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002010851A JP3943937B2 (en) 2002-01-18 2002-01-18 Selection method of nucleotide sequence waveform data with nucleotide insertion / deletion site using reference sequence extraction filter

Publications (2)

Publication Number Publication Date
JP2003216616A true JP2003216616A (en) 2003-07-31
JP3943937B2 JP3943937B2 (en) 2007-07-11

Family

ID=27648474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002010851A Expired - Fee Related JP3943937B2 (en) 2002-01-18 2002-01-18 Selection method of nucleotide sequence waveform data with nucleotide insertion / deletion site using reference sequence extraction filter

Country Status (1)

Country Link
JP (1) JP3943937B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021534492A (en) * 2018-08-13 2021-12-09 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Systems and Methods Using Neural Networks for Germline and Somatic Mutation Calls

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021534492A (en) * 2018-08-13 2021-12-09 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Systems and Methods Using Neural Networks for Germline and Somatic Mutation Calls
JP7166434B2 (en) 2018-08-13 2022-11-07 エフ.ホフマン-ラ ロシュ アーゲー Systems and methods using neural networks for germline and somatic mutation calling

Also Published As

Publication number Publication date
JP3943937B2 (en) 2007-07-11

Similar Documents

Publication Publication Date Title
Rasmussen et al. Genome-wide inference of ancestral recombination graphs
Hermsen et al. Genomic landscape of rat strain and substrain variation
Cridland et al. Abundance and distribution of transposable elements in two Drosophila QTL mapping resources
Yalcin et al. Commercially available outbred mice for genome-wide association studies
Kan et al. Gene structure prediction and alternative splicing analysis using genomically aligned ESTs
Horne et al. Principal component analysis for selection of optimal SNP‐sets that capture intragenic genetic variation
Morgan et al. Informatics resources for the Collaborative Cross and related mouse populations
Yan et al. Local adaptation and archaic introgression shape global diversity at human structural variant loci
Zhang et al. SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data
WO2012168815A2 (en) Method for assembly of nucleic acid sequence data
Jing et al. Multiple domestications of Asian rice
CN106715711A (en) Method for determining the sequence of a probe and method for detecting genomic structural variation
Hills et al. BAIT: Organizing genomes and mapping rearrangements in single cells
CN110621785B (en) Method and device for haplotyping diploid genome based on three-generation capture sequencing
Wang et al. Graph-based pan-genomes: increased opportunities in plant genomics
Genete et al. Genotyping and de novo discovery of allelic variants at the Brassicaceae self-incompatibility locus from short-read sequencing data
Tanudisastro et al. Sequencing and characterizing short tandem repeats in the human genome
Cosentino et al. Allele-specific assembly of a eukaryotic genome corrects apparent frameshifts and reveals a lack of nonsense-mediated mRNA decay
Yang et al. Genomic sequencing analysis reveals copy number variations and their associations with economically important traits in beef cattle
Lian et al. inGAP-family: accurate detection of meiotic recombination loci and causal mutations by filtering out artificial variants due to genome complexities
Enomoto et al. CNV analysis using whole exome sequencing identified biallelic CNVs of VPS13B in siblings with intellectual disability
Wang et al. Genome-wide analysis reveals selection signatures for body size and drought adaptation in Liangzhou donkey
CN112489727A (en) Method and system for rapidly acquiring pathogenic site of rare disease
JP2003216616A (en) Method of selecting base sequence waveform data with base inserted or deleted part by use of reference sequence extracting filter
Zhang et al. Next-generation sequencing-based bulked segregant analysis without sequencing the parental genomes

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040914

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees