JPH11178575A - Apparatus for analyzing dna base sequence, analysis and recording medium - Google Patents

Apparatus for analyzing dna base sequence, analysis and recording medium

Info

Publication number
JPH11178575A
JPH11178575A JP9353660A JP35366097A JPH11178575A JP H11178575 A JPH11178575 A JP H11178575A JP 9353660 A JP9353660 A JP 9353660A JP 35366097 A JP35366097 A JP 35366097A JP H11178575 A JPH11178575 A JP H11178575A
Authority
JP
Japan
Prior art keywords
sequence
dna
electrophoresis
base sequence
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9353660A
Other languages
Japanese (ja)
Inventor
Ryotaro Irie
亮太郎 入江
Masao Kamahori
政男 釜堀
Susumu Hiraoka
進 平岡
Satoshi Takahashi
智 高橋
Keiichi Nagai
啓一 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9353660A priority Critical patent/JPH11178575A/en
Publication of JPH11178575A publication Critical patent/JPH11178575A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To determine the DNA sequence, analyze the sequence and determine a plan for adopting or not adopting the results of the analysis in an early stage during the midst of electrophoresis. SOLUTION: This apparatus for analyzing a DNA sequence is composed of a conventional device for eletrophoresis for determining the DNA sequence, a signal memory device capable of obtaining a signal from a signal detecting part thereof at a prescribed time interval and accumulating the obtained signal, a computer capable of accessing the signal memory device at a prescribed time interval, determining the sequence and similarly searching for data groups of the known DNA sequences or the known amino acid sequences using the sequence as a query and a display device. The results of determination of the sequence are displayed together with the time to the completion of the determination of the whole sequence or the number of bases and the results of the search are then displayed as a top score list 302, a progress of the number of sequences having the prescribed minimum value or more or similarity with the passage of time 301 or the like.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、生物学研究、健
康、医療に用いられる泳動を用いるDNA配列決定装
置、方法及び記録媒体に関わる。
The present invention relates to an apparatus, a method and a recording medium for DNA sequencing using electrophoresis used in biological research, health and medical care.

【0002】[0002]

【従来の技術】従来、Sangerの塩基配列決定法(F. San
ger, S. Nicklen, and A. R. Coulson. "DNA sequencin
g with chain-terminating inhibitors." Proc. Natl.
Acad.Sci. USA, 74: 5463-5467 (1977).)を用いてDN
A塩基配列を決定する場合、DNA断片の電気泳動が終
了してから、蓄積した泳動パターンを解析し、配列を決
定した。しかし、この方法を採用する限り、電気泳動が
終了するまで、試料の配列に関する情報は、電気泳動成
分の濃度パターンを視察により読み取る以外の方法では
得られない。電気泳動パターンの視察による配列決定
は、ユーザーの熟練が必要な上に、時間がかかるので、
一般のユーザにとって、電気泳動中の配列決定は、従来
の手順では、ほとんどの場合、不可能であると言ってよ
い。
2. Description of the Related Art Conventionally, Sanger's nucleotide sequencing method (F. San
ger, S. Nicklen, and AR Coulson. "DNA sequencin
g with chain-terminating inhibitors. "Proc. Natl.
Acad. Sci. USA, 74: 5463-5467 (1977)).
When determining the A base sequence, after the electrophoresis of the DNA fragment was completed, the accumulated migration pattern was analyzed to determine the sequence. However, as long as this method is adopted, information on the sequence of the sample cannot be obtained by a method other than reading the concentration pattern of the electrophoretic components by inspection until the electrophoresis is completed. Sequencing by inspection of the electrophoresis pattern requires user skill and takes time,
For the average user, sequencing during electrophoresis may be said to be impossible in most cases with conventional procedures.

【0003】電気泳動中の配列決定が事実上不可能であ
ることにより、不必要な電気泳動パターンまで採取して
いる場合があった。また、通常、約500塩基の長さのD
NAの配列が一回の電気泳動で決定されるが、この電気
泳動の時間は数時間と長いので、この時間を短縮した
り、有効利用したりするのは、DNA配列決定、解析プ
ロセスの迅速化、解析結果の迅速利用等において重要で
ある。
[0003] Unnecessary electrophoresis patterns have been collected in some cases because sequencing during electrophoresis is practically impossible. Also, usually, a D-base having a length of about 500 bases
The sequence of NA is determined by a single electrophoresis. The time required for this electrophoresis is as long as several hours. It is important in the conversion and rapid use of analysis results.

【0004】[0004]

【発明が解決しようとする課題】電気泳動途中でのDN
A配列決定及び配列解析を容易とするようなDNA配列
解析装置、方法及び記録媒体を提供することが、また、
電気泳動の途中で前記解析結果の採用、不採用の早期意
思決定を可能とすることが、本発明の課題である。
SUMMARY OF THE INVENTION DN during electrophoresis
A To provide a DNA sequence analysis apparatus, method and recording medium that facilitates sequencing and sequence analysis,
It is an object of the present invention to enable early decision-making to adopt or reject the analysis result during electrophoresis.

【0005】[0005]

【課題を解決するための手段】本発明は、上記の課題、
特に、電気泳動途中でのDNA配列決定を容易とするた
めに、請求項1記載の発明は、DNA断片を泳動分離す
る泳動路(101)と、該泳動により分離されたDNA断片
の各成分を検出する検出装置(102)と、前記検出装置か
らの検出信号を記憶する記憶装置(103)と、該記憶装置
に記憶された信号に基づいて解析対象のDNA断片の配
列を決定する配列決定装置(104)と、該配列決定装置に
よって決定された配列を表示する表示装置(105)を備え
るDNA塩基配列解析装置において、前記配列決定装置
は、泳動途中において、その時までに前記記憶装置に記
憶されている信号に基づいて前記DNA断片の配列の一
部を決定することを特徴とするDNA塩基配列解析装置
である。
SUMMARY OF THE INVENTION The present invention provides the above-mentioned object,
In particular, in order to facilitate DNA sequencing during electrophoresis, the invention according to claim 1 employs an electrophoresis path (101) for electrophoretically separating DNA fragments and each component of the DNA fragments separated by electrophoresis. A detection device (102) for detecting, a storage device (103) for storing a detection signal from the detection device, and a sequence determination device for determining the sequence of a DNA fragment to be analyzed based on the signal stored in the storage device (104) and a DNA base sequence analysis device comprising a display device (105) for displaying a sequence determined by the sequence determination device, wherein the sequence determination device is stored in the storage device by that time during electrophoresis. A part of the sequence of the DNA fragment is determined based on the signal.

【0006】請求項2記載の発明は、前記表示装置(10
5)が、泳動途中において、既に決定された塩基配列と未
だ決定されていない塩基配列の長さを表示するものであ
る。請求項3記載の発明は、泳動途中において、DNA
配列データ群(107)にアクセスして、前記配列決定装置
で既に決定された塩基配列と一致する、または類似する
DNA配列を前記DNA配列データ群から検索する配列
検索装置(106)を備えるものである。
According to a second aspect of the present invention, the display device (10
5) indicates the length of a base sequence already determined and the length of a base sequence not yet determined during electrophoresis. The invention according to claim 3 is characterized in that, during the migration, the DNA
A sequence search device (106) for accessing the sequence data group (107) and searching the DNA sequence data group for a DNA sequence that matches or is similar to the base sequence already determined by the sequence determination device. is there.

【0007】請求項4記載の発明は、泳動途中におい
て、アミノ酸配列データ群(107)にアクセスして、前記
配列決定装置で既に決定された塩基配列を翻訳した後の
アミノ酸配列と一致する、または類似するアミノ酸配列
を前記アミノ酸配列データ群から検索する配列検索装置
(106)を備えるものである。請求項5記載の発明は、前
記表示装置(105)が、前記配列検索装置(106)で検索され
た配列に関する情報を、所定の類似尺度において類似度
の高い配列から順に所定の配列数だけ、または所定の第
1の最小値以上の類似度を有する配列までについて、表
示するものである。
The invention according to claim 4 is that, during the electrophoresis, the amino acid sequence data group (107) is accessed to match the amino acid sequence after the translation of the base sequence already determined by the sequencing device, or Sequence search apparatus for searching for a similar amino acid sequence from the amino acid sequence data group
(106). The invention according to claim 5, wherein the display device (105), the information on the sequence searched by the sequence search device (106), by a predetermined number of sequences in order from the highest similarity in a predetermined similarity scale, Alternatively, up to an array having a similarity greater than or equal to a predetermined first minimum value is displayed.

【0008】請求項6記載の発明は、前記表示装置(10
5)が、前記配列検索装置(106)で検索された配列の中
で、所定の類似尺度において所定の第2の最小値以上の
類似度を有する配列の数を、前記信号の取得時刻の関数
として、または、前記決定された配列の塩基数の関数と
して、表示するものである。このような表示により、前
記配列検索装置の検索結果の採用、不採用を早期に意思
決定することができる。
[0008] The invention according to claim 6 is the display device (10)
5) determines the number of sequences having a similarity greater than or equal to a predetermined second minimum value on a predetermined similarity scale among the sequences searched by the sequence search device (106), as a function of the signal acquisition time. Or as a function of the number of bases in the determined sequence. With such a display, it is possible to make an early decision on the adoption or non-employment of the search result of the sequence search apparatus.

【0009】請求項7記載の発明は、泳動分離されたD
NA断片の各成分を検出した信号に基づいて解析対象の
DNA断片の配列を決定するDNA塩基配列解析方法に
おいて、泳動途中において、その時までに得られている
前記信号に基づいて前記DNA断片の配列の一部を決定
することを特徴とするDNA塩基配列解析方法である。
請求項8記載の発明は、請求項7に記載されたDNA塩
基配列解析方法をコンピュータに実行させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
である。
[0009] The invention according to claim 7 is characterized in that the electrophoretically separated D
In a DNA base sequence analysis method for determining the sequence of a DNA fragment to be analyzed based on a signal obtained by detecting each component of an NA fragment, during the electrophoresis, the sequence of the DNA fragment is determined based on the signal obtained up to that time. Is a method for analyzing a DNA base sequence, wherein a part of the DNA base sequence is determined.
The invention according to claim 8 is a computer-readable recording medium that records a program for causing a computer to execute the DNA base sequence analysis method according to claim 7.

【0010】[0010]

【発明の実施の形態】図1を用いて、本発明のDNA塩
基配列解析装置の全体構成を示す。101はSangerの塩基
配列決定法における伸長反応後の溶液を通す電気泳動
路、102は泳動により分離された各成分を検出する検出
装置、103は、102で検出された信号を記憶する信号記憶
装置、104は、103に記憶された信号の経時変化に基づい
て分析対象のDNA断片の配列の一部分を決定する配列
決定装置、105は表示装置、106は配列検索装置、107は
既知のDNA配列またはアミノ酸配列のデータを記憶す
る配列記憶装置である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Referring to FIG. 1, the overall configuration of a DNA base sequence analyzer of the present invention is shown. 101 is an electrophoresis path through which the solution after the extension reaction in Sanger's base sequence determination method passes, 102 is a detection device that detects each component separated by electrophoresis, 103 is a signal storage device that stores the signal detected in 102 , 104 is a sequence determination device that determines a part of the sequence of the DNA fragment to be analyzed based on the change over time of the signal stored in 103, 105 is a display device, 106 is a sequence search device, 107 is a known DNA sequence or It is a sequence storage device that stores amino acid sequence data.

【0011】電気泳動路101の例としては、高分子ゲル
を2枚の平板で挟んだ平板ゲル泳動路、高分子ゲルを管
に充填したキャピラリー・ゲル泳動路が挙げられる。検
出装置102の例としては、電気泳動成分からの発光を検
出するカメラが挙げられる。信号記憶装置103の例とし
ては、ランダム・アクセス・メモリー、ハードディス
ク、光磁気ディスク等が挙げられる。配列決定装置104
としては、配列決定ソフトをロードしたディジタル・コ
ンピュータが挙げられる。表示装置105の例としては、
パソコン、ワークステーション等で用いられるモニター
が挙げられる。配列検索装置106の例としては、配列の
一致検索ソフトまたは類似検索ソフトをロードするディ
ジタル・コンピュータが挙げられる。配列記憶装置107
の例としては、ランダム・アクセス・メモリー、ハード
ディスク、光磁気ディスク等が挙げられる。
Examples of the electrophoresis path 101 include a plate gel electrophoresis path in which a polymer gel is sandwiched between two flat plates, and a capillary gel electrophoresis path in which a polymer gel is filled in a tube. An example of the detection device 102 includes a camera that detects light emission from an electrophoretic component. Examples of the signal storage device 103 include a random access memory, a hard disk, and a magneto-optical disk. Sequence determination device 104
One example is a digital computer loaded with sequencing software. As an example of the display device 105,
Monitors used in personal computers, workstations, and the like are included. An example of a sequence search device 106 is a digital computer that loads sequence match or similarity search software. Sequence storage device 107
Examples include a random access memory, a hard disk, and a magneto-optical disk.

【0012】図1では、配列決定装置104と配列検索装
置106を分けて示したが、場合によっては、これらの装
置を配列決定機能及び配列検索機能を有する一個のディ
ジタル・コンピュータに置き換えてもよい。または、こ
れらのディジタル・コンピュータは、複数の中央演算装
置を用いる並列計算機であってもよい。図1を用いて、
本発明のDNA塩基配列解析装置の動作を説明する。
In FIG. 1, the sequence determination device 104 and the sequence search device 106 are shown separately. However, in some cases, these devices may be replaced with a single digital computer having a sequence determination function and a sequence search function. . Alternatively, these digital computers may be parallel computers using a plurality of central processing units. Using FIG.
The operation of the DNA base sequence analyzer of the present invention will be described.

【0013】検出装置102は、電気泳動中に、所定の時
間間隔で、泳動成分からの信号を検出し、該時刻におい
て検出された信号を信号記憶装置103に渡す。信号記憶
装置103は、受けた信号を記憶する。従って、信号記憶
装置103は、その時々の信号を蓄積することになる。配
列決定装置104は、所定の時間間隔で信号記憶装置103に
アクセスし、以前のアクセス時以来、追加された信号を
104内の記憶装置にコピーし、該アクセス時刻も記録す
る。コピー終了後、レーンを決定し、各レーン上の信号
強度経時変化に基づいて配列決定を行う。104で決定さ
れた配列は、表示装置105に表示される。決定された配
列を直接的に表示することにより、現在、電気泳動中の
DNAサンプルの解析がより容易となる。決定配列に関
わる別の表示方法は、後に述べる。
The detection device 102 detects a signal from the electrophoresis component at a predetermined time interval during the electrophoresis, and transfers the signal detected at the time to the signal storage device 103. The signal storage device 103 stores the received signal. Therefore, the signal storage device 103 accumulates the signals at each time. The sequencing device 104 accesses the signal storage device 103 at predetermined time intervals, and retrieves signals added since the previous access.
The data is copied to the storage device in 104, and the access time is also recorded. After the copy is completed, the lanes are determined, and the sequence is determined based on the time-dependent change in the signal intensity on each lane. The arrangement determined in 104 is displayed on the display device 105. By displaying the determined sequence directly, it is easier to analyze the DNA sample currently being electrophoresed. Another display method related to the determined sequence will be described later.

【0014】さらに、決定された配列は、配列検索装置
106に渡され、配列検索装置106は、渡されたDNA配列
と一致する、または、類似するDNA配列を配列記憶装
置107に格納されている既知DNA配列群から探し出す
か、該渡されたDNA配列を翻訳することにより得られ
るアミノ酸配列と一致する、または、類似するアミノ酸
配列を配列記憶装置107に格納されている既知アミノ酸
配列群から探し出す。探し出された類似配列は、各配列
の注釈と共に、所定の類似尺度(用語の説明参照)にお
いて、類似度(用語の説明参照)の高いものから順に、
所定数だけ、または、所定の類似度の最小値を有する配
列まで、表示装置105に表示される。このような注釈付
きの類似配列の表示により、ユーザは、電気泳動中のサ
ンプルのDNA配列のゲノム上の位置、遺伝子機能等を
知るための情報をより早く知ることができる。さらに、
類似配列に関連する別の表示方法については、後に述べ
る。
Further, the determined sequence is stored in a sequence search device.
The sequence search device 106 searches the known DNA sequence group stored in the sequence storage device 107 for a DNA sequence that matches or is similar to the passed DNA sequence, or The amino acid sequence that matches or is similar to the amino acid sequence obtained by translating is searched from the group of known amino acid sequences stored in the sequence storage device 107. The found similar sequences are annotated with each sequence, and in a predetermined similarity scale (refer to the explanation of terms), in descending order of similarity (refer to explanation of terms),
A predetermined number or an array having a predetermined minimum similarity is displayed on the display device 105. By displaying such an annotated similar sequence, the user can know information for knowing the position of the DNA sequence of the sample during electrophoresis on the genome, the function of the gene, and the like more quickly. further,
Another display method related to the similar sequence will be described later.

【0015】図2を用いて、決定配列に関わる別の表示
方法を説明する。配列決定装置104で決定された配列
は、例えば、図2に示すように、A,C,G,Tの記号を
水平に等間隔に並べることにより、表示する。記号が並
べられた部分が配列決定が終了した部分である。配列未
決定の領域の長さは、あらかじめ配列決定装置104に入
力されたDNAサンプルの長さ(塩基単位;この長さ
は、サンプルの電気泳動等による分離における保持時間
から予測することができる)から、決定済みの領域の長
さを差し引くことにより、得られ、これを、例えば、図
2のように、決定済み領域に隣接する、対応する長さの
空欄として表示する。このような表示により、分析対象
の何割が配列決定されたかが、容易にわかる。また、配
列決定終了までの所要時間は、図2の下部に示すよう
に、残り塩基数を換算して、数値で直接示してもよい。
Another display method related to the determined sequence will be described with reference to FIG. The arrangement determined by the arrangement determining device 104 is displayed by, for example, arranging the symbols of A, C, G, and T horizontally at equal intervals, as shown in FIG. The part where the symbols are arranged is the part where the sequencing has been completed. The length of the undetermined region is the length of a DNA sample (base unit; this length can be predicted from the retention time in separation of the sample by electrophoresis or the like) which has been input to the sequencing device 104 in advance. Is obtained by subtracting the length of the determined area from, and this is displayed as a blank of the corresponding length adjacent to the determined area, for example, as shown in FIG. With such a display, it is easy to see what percentage of the analysis target has been sequenced. In addition, the time required for completing the sequencing may be directly indicated by a numerical value after converting the number of remaining bases as shown in the lower part of FIG.

【0016】このような配列決定済み領域の割合に関す
る情報は、電気泳動の延長により、どの程度まで配列情
報が、詳細化し得るかを判断するための材料となる。す
なわち、電気泳動を待つことにより、どの程度の情報の
追加が期待できるかの判断基準を与える。このような情
報は、サンプルのDNA配列に基づく診断、個人識別
等、意思決定のための時間に制限が与えられている場合
において、特に有用である。
Such information on the ratio of the determined regions is a material for judging to what extent the sequence information can be refined by extending the electrophoresis. That is, by waiting for electrophoresis, a criterion for determining how much information can be expected to be added is given. Such information is particularly useful in cases where time for decision making is limited, such as diagnosis based on the DNA sequence of a sample, personal identification, and the like.

【0017】サンプル配列の全領域を決定するまでの時
間を表示する、その他の方法としては、電気泳動成分の
信号データの取得時間に基づくタイム・スケールを、図
2の様に表示すると、より分かり安い。また、タイム・
スケールに加えて、塩基数を単位としたスケールを表示
すると、残り塩基数も読み安くなる。図3を用いて、類
似配列に関連する別の表示方法を説明する。
As another method of displaying the time until the entire region of the sample sequence is determined, a time scale based on the acquisition time of the signal data of the electrophoresis component is displayed as shown in FIG. cheap. In addition, time
If a scale is displayed in units of the number of bases in addition to the scale, the number of remaining bases becomes easier to read. Another display method related to a similar sequence will be described with reference to FIG.

【0018】301は、配列決定装置104が、ある時刻に受
け取った信号データに基づいて、決定した配列を検索キ
ー(クウェリー)(用語の説明参照)として、配列検索
装置106が、配列記憶装置107内の既知配列群を検索した
結果得られた類似配列に関する情報の表示の一例でる。
302は、前記検索された類似配列を、所定の類似尺度に
おいて類似度の高い配列から順に、所定の配列数だけ、
または、所定の最小値以上の類似度を有する配列までに
ついて、各配列の類似度及び配列の注釈を用いて表示す
るリストで、ここでは、トップスコアリスト(用語の説
明参照)と呼ぶ。ここで、類似度の尺度の例としては、
対置された配列要素間の類似度の和を基本として計算さ
れる「スコア」(用語の説明参照)と、クウェリーの既
知配列群との間のスコアの分布に基づいて計算される類
似性の統計的重要度とが挙げられる。
At 301, the sequence retrieving device 106 uses the sequence determined based on the signal data received at a certain time by the sequence determining device 104 as a search key (query) (see the explanation of terms). 5 is an example of display of information on similar sequences obtained as a result of a search for a group of known sequences in the list.
302, the searched similar sequences, in order from a sequence having a high degree of similarity in a predetermined similarity scale, a predetermined number of sequences,
Alternatively, a list displayed using the similarity of each sequence and an annotation of the sequence up to a sequence having a similarity equal to or greater than a predetermined minimum value is referred to as a top score list (refer to the explanation of terms). Here, as an example of the similarity measure,
A similarity statistic calculated based on the distribution of scores between the "score" (see the explanation of terms) calculated based on the sum of similarities between the contiguous array elements and the known sequence group of Queries Importance.

【0019】図4に、トップスコアリストの一例を示
す。この例では、15塩基長のDNA塩基配列をクウェ
リーとして約6万のアミノ酸配列群SWISS・PRO
T(約2千万アミノ酸)を検索した結果である。図4の
スコア欄には、アミノ酸配列の長さを考慮したスコアが
示されている。本例では最大スコアのアミノ酸配列から
スコア順に17配列の情報が表示されている。P(z>x)
及びE(z>x) 欄は統計的重要度を表す欄である。P(z>
x) は、クウェリーとランダムなアミノ酸配列とが、左
記のスコア値以上の類似度を有する確率である。E(z>
x) はそのアミノ酸配列の数の期待値である。したがっ
て、P(z>x) 及びE(z>x) はいずれも値が小さければ小
さい程、統計的重要度が高いことになる。ターゲット欄
は、アミノ酸配列に関する注釈が表示される欄である。
ここでは、各注釈の冒頭部分のみ(主として、生物種や
タンパク質の機能に関わるキーワードが記されている)
が表示されている。
FIG. 4 shows an example of the top score list. In this example, a DNA base sequence having a length of 15 bases was used as a querily and about 60,000 amino acid sequence groups SWISS • PRO
This is the result of searching for T (about 20 million amino acids). The score column in FIG. 4 shows a score in consideration of the length of the amino acid sequence. In this example, information of 17 sequences is displayed in order of the score from the amino acid sequence having the largest score. P (z> x)
And E (z> x) are columns indicating statistical significance. P (z>
x) is the probability that the query and the random amino acid sequence have a similarity greater than or equal to the score shown on the left. E (z>
x) is the expected value of the number of the amino acid sequence. Therefore, the smaller the value of both P (z> x) and E (z> x), the higher the statistical significance. The target column is a column in which annotations regarding the amino acid sequence are displayed.
Here, only the beginning of each annotation (keywords related to the function of species and proteins are mainly written)
Is displayed.

【0020】301中、302を除く部分には、検索された配
列の中で、クウェリーと所定の限界値以上の類似度を有
する配列記憶装置中の配列の数が、配列決定装置104に
よる信号記憶装置103からの信号データ取得時刻の、ま
たは、該信号データ取得により更新されたデータに基づ
いて配列決定装置104において決定された配列の塩基数
の関数として、表示されている。ここで、クウェリーと
の類似度の限界値は、クウェリーと一致する配列の類似
度(スコア、統計的重要度など)と等しい値、または、
それに一定の因子(正の値)を乗じた値が好ましい。
In the portion other than 302 in 301, the number of sequences in the sequence storage device having a similarity with the query or higher than a predetermined limit value among the searched sequences is stored in the signal storage device 104 by the sequence determination device 104. It is displayed as a function of the number of bases of the sequence determined by the sequence determination device 104 based on the signal data acquisition time from the device 103 or the data updated by the signal data acquisition. Here, the threshold value of similarity with Queries is a value equal to the similarity (score, statistical significance, etc.) of the sequence that matches Queries, or
A value multiplied by a certain factor (positive value) is preferable.

【0021】図3では、類似配列数はログ・スケールで
表示されているが、ノーマル・スケールを採用してもよ
い。類似配列数の時間依存または決定塩基数依存は、図
3では、折れ線グラフで表現されているが、別の表現法
を採用してもよい。折れ線の実線部分は決定された配列
をクウェリーとして検索した結果を表示したものであ
る。折れ線の破線部分は、今後の類似配列数変化の予想
である。
In FIG. 3, the number of similar sequences is displayed on a log scale, but a normal scale may be employed. The time dependence of the number of similar sequences or the dependence on the number of determined bases is represented by a line graph in FIG. 3, but another expression method may be adopted. The solid line portion of the polygonal line indicates the result of searching for the determined sequence as a query. The broken line portion of the broken line is a prediction of a change in the number of similar sequences in the future.

【0022】上記の301と302の表示内容は、配列決定装
置104が新たなデータを取得し、新たに配列を決定し、
決定された配列をクウェリーとして、配列検索装置106
により検索し、新たな結果を出す度に更新される。今後
の類似配列数の変化を予想することにより、サンプルD
NAの同定が可能になる時刻が予想できる。すなわち、
ある限界値以上の類似度を有する配列の数が数個程度に
なれば、ユーザは、トップスコアリスト302の注釈を見
ながら、同定作業を始めることができる。類似配列数の
予想直線または曲線を用いて、配列数が数個程度になる
時刻を読み取ればよい。図3の例に示すように、同定可
能予想時刻を自動的に表示すると、より読み取り易くな
る。
According to the display contents of 301 and 302, the sequence determination device 104 acquires new data, determines a new sequence,
Using the determined sequence as a query, the sequence search device 106
And is updated each time a new result is obtained. By estimating future changes in the number of similar sequences, sample D
The time at which NA can be identified can be predicted. That is,
When the number of sequences having a similarity equal to or more than a certain limit becomes about several, the user can start the identification work while looking at the annotations of the top score list 302. The time at which the number of sequences becomes about several may be read using a predicted straight line or curve of the number of similar sequences. As shown in the example of FIG. 3, when the identifiable expected time is automatically displayed, it becomes easier to read.

【0023】類似曲線の外挿法の例として、次に示すモ
デル関数を用いる方法が挙げられる。配列記憶装置107
に格納される配列群のモデルとして、非常に長いランダ
ム配列を採用する。長さN(十分大きな値)のランダム
配列の中に長さnのクウェリー配列と一致する部分配列
の個数fは、 f = N*(1/k)**n である。ここで、kは配列要素の種類の数である(DN
A配列ではk=4,アミノ酸配列ではk=20)。従って、 log(f) = log(N) - n*log(k) すなわち、クウェリー配列と一致する部分配列の個数f
の対数は、クウェリー配列の長さnに対して一次依存で
ある。クウェリー配列と所定の限界値以上の類似度を有
する配列の個数についても、クウェリー配列の長さnに
対して一次依存であると期待できる。従って、図3に示
すように、類似配列数のログ・スケールを用いて、直線
的な外挿により、類似配列数の変化を予想できる。
As an example of the extrapolation method of the similar curve, there is a method using a model function shown below. Sequence storage device 107
A very long random array is adopted as a model of the array group stored in the. The number f of subarrays in the random array of length N (a sufficiently large value) that matches the Quarry array of length n is f = N * (1 / k) ** n. Here, k is the number of types of array elements (DN
K = 4 for the A sequence and k = 20 for the amino acid sequence). Therefore, log (f) = log (N) -n * log (k), that is, the number f of subsequences that match the Quarry array
Is linearly dependent on the length n of the Quarry array. It can be expected that the number of arrays having a similarity equal to or greater than a predetermined limit value to the Quarry array is also linearly dependent on the length n of the Quarry array. Therefore, as shown in FIG. 3, a change in the number of similar sequences can be predicted by linear extrapolation using a log scale of the number of similar sequences.

【0024】このように、電気泳動中に、サンプルDN
Aの同定が可能となる時刻の表示は、診断、個人認識等
で、意志決定の時間制限が厳しい場合、非常に有用な情
報となる。すなわち、このDNA配列解析情報が意志決
定の材料として、採用し得るかどうかの判断が可能とな
る。
Thus, during the electrophoresis, the sample DN
The display of the time at which A can be identified is very useful information when the time limit for decision-making is severe in diagnosis, personal recognition, and the like. That is, it is possible to determine whether or not this DNA sequence analysis information can be used as a material for decision making.

【0025】[0025]

【発明の効果】本発明によれば、電気泳動によるDNA
配列解析装置において、電気泳動中の配列決定が可能と
なり、決定された配列を直接的に表示することが可能と
なるので、電気泳動中に、DNAサンプルを解析するこ
とがより容易となる。
According to the present invention, DNA by electrophoresis
In the sequence analyzer, it is possible to determine the sequence during the electrophoresis, and it is possible to directly display the determined sequence. Therefore, it is easier to analyze the DNA sample during the electrophoresis.

【0026】また、電気泳動中に決定されたDNA配列
と既知DNA配列または既知アミノ酸配列との比較が可
能となるので、電気泳動中に、注釈付きの類似配列の表
示が可能となり、ユーザは、サンプルのDNA配列のゲ
ノム上の位置、遺伝子機能等を知るための情報をより早
く知ることができる。また、電気泳動中に配列決定済み
領域の割合に関する情報を与えることが可能となるの
で、電気泳動を待つことにより、どの程度の情報の追加
が期待できるかの判断基準を与え、診断、個人識別等
で、時間に制約がある状況での意思決定において有用で
ある。
Further, since it is possible to compare the DNA sequence determined during electrophoresis with the known DNA sequence or known amino acid sequence, it is possible to display annotated similar sequences during electrophoresis. The information for knowing the position of the DNA sequence of the sample on the genome, gene function, and the like can be obtained more quickly. In addition, it is possible to provide information on the ratio of the sequenced region during electrophoresis, so that waiting for electrophoresis gives a criterion of how much information can be expected to be added, diagnosis, and personal identification. For example, it is useful for decision making in a situation where time is limited.

【0027】また、電気泳動中に、サンプルDNAの同
定が可能となる予想時刻の表示が可能となるので、診
断、個人認識等で、このDNA配列解析情報を意志決定
の材料として、採用し得るかどうかの判断が可能とな
り、時間制限が厳しい状況下での意志決定に有用な情報
を与える。
In addition, since the expected time at which the sample DNA can be identified can be displayed during the electrophoresis, this DNA sequence analysis information can be used as a material for decision making in diagnosis, personal recognition and the like. It is possible to judge whether or not it is possible, and to provide useful information for decision making under a situation where time is severe.

【0028】[用語の説明] クウェリー;ある配列と一致する、または、類似する配
列を、複数の配列から見出そうとする(検索する)時、
前者の「ある配列」をクウェリーと呼ぶ。 ライブラリー;検索対象の配列群を指す。 類似度;2つの配列を比較した時の類似の度合いを指
す。ただし、2配列が異なる種類の配列である場合(例
えば、アミノ酸とDNA塩基配列)、一方の配列を翻訳
して他方と同一種類として比較する場合もある。例え
ば、DNA塩基配列をアミノ酸配列に翻訳して、他のア
ミノ酸配列と比較する場合等。 スコア;2つの配列間の類似度を表現する数値を指す。
通常、2配列間のスコアは、2つの配列をある配置で並
べた時、相対する配列要素(DNA塩基、アミノ酸等を
表現する文字)間の類似度の和から計算される。ただ
し、配置によっては、相対する配列要素の並びの途中に
相手となる配列要素が欠ける部分(ギャップ)を含む場
合もあり、その時は、上記の要素間の類似度の和にペナ
ルティー(負の数値)を加える。この他、検索におい
て、ライブラリーの配列の長さを考慮したスコア計算法
もある。 類似尺度;2配列間の類似度を表現する数値の計算方
法。例えば、種々のスコア計算法、及び、種々の統計的
重要度計算法がある。 トップスコアリスト;この明細書における造語。検索さ
れたライブラリーの配列を表示するリスト。所定の類似
尺度の類似度の高い配列から順に、所定の配列数だけ、
または、所定の最小値以上の類似度を有する配列につい
て、各配列の類似度及び注釈を表示する。
[Explanation of Terms] Queries: When a sequence matching or similar to a certain sequence is to be found (searched) from a plurality of sequences,
The former "certain arrangement" is called a query. Library; refers to a sequence group to be searched. Similarity: refers to the degree of similarity when comparing two sequences. However, when the two sequences are of different types (for example, amino acid and DNA base sequences), one sequence may be translated and compared with the other as the same type. For example, when a DNA base sequence is translated into an amino acid sequence and compared with another amino acid sequence. Score; refers to a numerical value expressing the similarity between two sequences.
Usually, the score between two sequences is calculated from the sum of similarities between opposing sequence elements (characters representing DNA bases, amino acids, etc.) when the two sequences are arranged in a certain arrangement. However, depending on the arrangement, there may be a gap (gap) where the partner array element is missing in the middle of the arrangement of the opposing array elements. In this case, the sum of the similarities between the above elements is penalized (negative numerical value). ). In addition, there is a score calculation method that takes into account the length of the library sequence in the search. Similarity measure: A method of calculating a numerical value expressing the degree of similarity between two sequences. For example, there are various score calculation methods and various statistical importance calculation methods. Top score list; coined word in this specification. List showing the sequences of the searched libraries. In order from the sequence with the highest similarity of the predetermined similarity measure, only the predetermined number of sequences,
Alternatively, for sequences having a similarity greater than or equal to a predetermined minimum value, the similarity and annotation of each sequence are displayed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の全体構成を説明する図。FIG. 1 is a diagram illustrating an overall configuration of the present invention.

【図2】本発明における表示の例を説明する図(その
1)。
FIG. 2 is a view for explaining an example of display in the present invention (part 1).

【図3】本発明における表示の例を説明する図(その
2)。
FIG. 3 is a view for explaining an example of display in the present invention (part 2).

【図4】本発明におけるトップスコアリスト表示を説明
する図。
FIG. 4 is a diagram illustrating a top score list display according to the present invention.

【符号の説明】[Explanation of symbols]

101 電気泳動路 102 検出装置 103 信号記憶装置 104 配列決定装置 105 表示装置 106 配列検索装置 107 配列記憶装置 Reference Signs List 101 electrophoresis path 102 detection device 103 signal storage device 104 sequence determination device 105 display device 106 sequence search device 107 sequence storage device

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 17/30 G06F 15/40 370F (72)発明者 高橋 智 茨城県ひたちなか市市毛882番地 株式会 社日立製作所計測器事業部内 (72)発明者 永井 啓一 東京都国分寺市東恋ヶ窪一丁目280番地 株式会社日立製作所中央研究所内──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 6 Identification code FI G06F 17/30 G06F 15/40 370F (72) Inventor Satoshi Takahashi 882 Ma, Hitachinaka-shi, Ibaraki Measuring Instruments Business Hitachi, Ltd. (72) Keiichi Nagai, Inventor 1-280 Higashi Koigabo, Kokubunji-shi, Tokyo Inside Central Research Laboratory, Hitachi, Ltd.

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 DNA断片を泳動分離する泳動路と、該
泳動により分離されたDNA断片の各成分を検出する検
出装置と、前記検出装置からの検出信号を記憶する記憶
装置と、該記憶装置に記憶された信号に基づいて解析対
象のDNA断片の配列を決定する配列決定装置と、該配
列決定装置によって決定された配列を表示する表示装置
を備えるDNA塩基配列解析装置において、 前記配列決定装置は、泳動途中において、その時までに
前記記憶装置に記憶されている信号に基づいて前記DN
A断片の配列の一部を決定することを特徴とするDNA
塩基配列解析装置。
An electrophoresis path for electrophoretically separating DNA fragments, a detection device for detecting each component of the DNA fragments separated by the electrophoresis, a storage device for storing a detection signal from the detection device, and the storage device A sequence determination device that determines the sequence of the DNA fragment to be analyzed based on the signal stored in the storage device; and a display device that displays the sequence determined by the sequence determination device. During the electrophoresis, based on the signal stored in the storage device up to that time, the DN
DNA for determining a part of the sequence of fragment A
Base sequence analyzer.
【請求項2】 前記表示装置は、泳動途中において、既
に決定された塩基配列と未だ決定されていない塩基配列
の長さを表示することを特徴とする請求項1記載のDN
A塩基配列解析装置。
2. The DN according to claim 1, wherein the display device displays the determined base sequence and the length of the base sequence not yet determined during the electrophoresis.
A base sequence analyzer.
【請求項3】 泳動途中において、DNA配列データ群
にアクセスして、前記配列決定装置で既に決定された塩
基配列と一致する、または類似するDNA配列を前記D
NA配列データ群から検索する配列検索装置を備えるこ
とを特徴とする請求項1記載ののDNA塩基配列解析装
置。
3. During the electrophoresis, a DNA sequence data group is accessed, and a DNA sequence that matches or is similar to the base sequence already determined by the
2. The DNA base sequence analyzer according to claim 1, further comprising a sequence search device for searching from the NA sequence data group.
【請求項4】 泳動途中において、アミノ酸配列データ
群にアクセスして、前記配列決定装置で既に決定された
塩基配列を翻訳した後のアミノ酸配列と一致する、また
は類似するアミノ酸配列を前記アミノ酸配列データ群か
ら検索する配列検索装置を備えることを特徴とする請求
項1記載ののDNA塩基配列解析装置。
4. Accessing the amino acid sequence data group during the electrophoresis to find an amino acid sequence that matches or is similar to the amino acid sequence after translating the base sequence already determined by the sequencer. 2. The DNA base sequence analyzer according to claim 1, further comprising a sequence search device for searching from a group.
【請求項5】 前記表示装置は、前記配列検索装置で検
索された配列に関する情報を、所定の類似尺度において
類似度の高い配列から順に所定の配列数だけ、または所
定の第1の最小値以上の類似度を有する配列までについ
て、表示することを特徴とする請求項3または4記載の
DNA塩基配列解析装置。
5. The display device according to claim 1, wherein the information on the sequences searched by the sequence search device is a predetermined number of sequences in order from a sequence having a high degree of similarity on a predetermined similarity scale, or a predetermined first minimum value or more. The DNA base sequence analyzer according to claim 3 or 4, wherein up to the sequence having the similarity of (1) is displayed.
【請求項6】 前記表示装置は、前記配列検索装置で検
索された配列の中で、所定の類似尺度において所定の第
2の最小値以上の類似度を有する配列の数を、前記信号
の取得時刻の関数として、または、前記決定された配列
の塩基数の関数として、表示することを特徴とする請求
項3ないし5のいずれかに記載のDNA塩基配列解析装
置。
6. The display device obtains the number of sequences having a similarity greater than or equal to a predetermined second minimum value on a predetermined similarity scale among the sequences searched by the sequence search device. The DNA base sequence analyzer according to any one of claims 3 to 5, wherein the information is displayed as a function of time or as a function of the number of bases of the determined sequence.
【請求項7】 泳動分離されたDNA断片の各成分を検
出した信号に基づいて解析対象のDNA断片の配列を決
定するDNA塩基配列解析方法において、泳動途中にお
いて、その時までに得られている前記信号に基づいて前
記DNA断片の配列の一部を決定することを特徴とする
DNA塩基配列解析方法。
7. A DNA base sequence analysis method for determining the sequence of a DNA fragment to be analyzed based on a signal obtained by detecting each component of a DNA fragment subjected to electrophoresis separation, wherein the DNA base sequence analysis method comprises the steps of: A DNA base sequence analysis method, comprising determining a part of the sequence of the DNA fragment based on a signal.
【請求項8】 請求項7に記載されたDNA塩基配列解
析方法をコンピュータに実行させるためのプログラムを
記録したコンピュータ読み取り可能な記録媒体。
8. A computer-readable recording medium on which a program for causing a computer to execute the DNA base sequence analysis method according to claim 7 is recorded.
JP9353660A 1997-12-22 1997-12-22 Apparatus for analyzing dna base sequence, analysis and recording medium Pending JPH11178575A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9353660A JPH11178575A (en) 1997-12-22 1997-12-22 Apparatus for analyzing dna base sequence, analysis and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9353660A JPH11178575A (en) 1997-12-22 1997-12-22 Apparatus for analyzing dna base sequence, analysis and recording medium

Publications (1)

Publication Number Publication Date
JPH11178575A true JPH11178575A (en) 1999-07-06

Family

ID=18432359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9353660A Pending JPH11178575A (en) 1997-12-22 1997-12-22 Apparatus for analyzing dna base sequence, analysis and recording medium

Country Status (1)

Country Link
JP (1) JPH11178575A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030038911A (en) * 2001-11-07 2003-05-17 (주)엔솔테크 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations
JP2006084471A (en) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag System and method for processing nucleic acid chromatogram
JP2015509710A (en) * 2012-02-16 2015-04-02 オックスフォード ナノポール テクノロジーズ リミテッド Analysis of polymer measurements
US10131943B2 (en) 2012-12-19 2018-11-20 Oxford Nanopore Technologies Ltd. Analysis of a polynucleotide via a nanopore system
US10689697B2 (en) 2014-10-16 2020-06-23 Oxford Nanopore Technologies Ltd. Analysis of a polymer
US11921103B2 (en) 2011-09-23 2024-03-05 Oxford Nanopore Technologies Plc Method of operating a measurement system to analyze a polymer

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030038911A (en) * 2001-11-07 2003-05-17 (주)엔솔테크 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations
JP2006084471A (en) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag System and method for processing nucleic acid chromatogram
US11921103B2 (en) 2011-09-23 2024-03-05 Oxford Nanopore Technologies Plc Method of operating a measurement system to analyze a polymer
JP2015509710A (en) * 2012-02-16 2015-04-02 オックスフォード ナノポール テクノロジーズ リミテッド Analysis of polymer measurements
US11959906B2 (en) 2012-02-16 2024-04-16 Oxford Nanopore Technologies Plc Analysis of measurements of a polymer
US10131943B2 (en) 2012-12-19 2018-11-20 Oxford Nanopore Technologies Ltd. Analysis of a polynucleotide via a nanopore system
US11085077B2 (en) 2012-12-19 2021-08-10 Oxford Nanopore Technologies Ltd. Analysis of a polynucleotide via a nanopore system
US10689697B2 (en) 2014-10-16 2020-06-23 Oxford Nanopore Technologies Ltd. Analysis of a polymer
US11401549B2 (en) 2014-10-16 2022-08-02 Oxford Nanopore Technologies Plc Analysis of a polymer

Similar Documents

Publication Publication Date Title
EP1012749B1 (en) Alignment-based similarity scoring methods for quantifying the differences between related biopolymer sequences
Pavelka et al. Statistical similarities between transcriptomics and quantitative shotgun proteomics data
US8594951B2 (en) Methods and systems for nucleic acid sequence analysis
US8392126B2 (en) Method and system for determining the accuracy of DNA base identifications
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
KR20160062127A (en) Methods and system for detecting sequence variants
JP2016536698A (en) Method and system for aligning arrays
JP2002529818A (en) Method and apparatus for forming a pattern dictionary for use in sequence homology detection
KR101313087B1 (en) Method and Apparatus for rearrangement of sequence in Next Generation Sequencing
US7962489B1 (en) Indexing using contiguous, non-overlapping ranges
Di Francesco et al. FORESST: fold recognition from secondary structure predictions of proteins.
JPH11178575A (en) Apparatus for analyzing dna base sequence, analysis and recording medium
KR101067352B1 (en) System and method comprising algorithm for mode-of-action of microarray experimental data, experiment/treatment condition-specific network generation and experiment/treatment condition relation interpretation using biological network analysis, and recording media having program therefor
Walker Pharmaceutical target identification by gene expression analysis
US20090319450A1 (en) Protein search method and device
Vialle et al. RAFTS3: Rapid alignment-free tool for sequence similarity search
CN112634988B (en) Python language-based gene variation detection method and system
CN103488913A (en) A computational method for mapping peptides to proteins using sequencing data
CN111028885B (en) Method and device for detecting yak RNA editing site
KR100856526B1 (en) System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor
KR102287096B1 (en) Method for determining fetal fraction in maternal sample
CN113355438B (en) Plasma microbial species diversity evaluation method and device and storage medium
Hu et al. Predicting Moonlighting Proteins from Protein Sequence.
JP4218874B2 (en) Evaluation method of data string composed of characters, etc., program for executing the evaluation method, and execution result of the evaluation method
Hoffman et al. New molecular research technologies in the study of muscle disease