JP2001258598A - Method and device for analyzing dna sequence - Google Patents

Method and device for analyzing dna sequence

Info

Publication number
JP2001258598A
JP2001258598A JP2000084184A JP2000084184A JP2001258598A JP 2001258598 A JP2001258598 A JP 2001258598A JP 2000084184 A JP2000084184 A JP 2000084184A JP 2000084184 A JP2000084184 A JP 2000084184A JP 2001258598 A JP2001258598 A JP 2001258598A
Authority
JP
Japan
Prior art keywords
dna sequence
sequence
distribution
analyzed
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000084184A
Other languages
Japanese (ja)
Inventor
Hironobu Takahashi
裕信 高橋
Ryuichi Oka
隆一 岡
Yasuhide Mori
靖英 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
REAL WORLD COMPUTING PARTNERSH
Hitachi Ltd
Real World Computing Partnership
Original Assignee
REAL WORLD COMPUTING PARTNERSH
Hitachi Ltd
Real World Computing Partnership
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by REAL WORLD COMPUTING PARTNERSH, Hitachi Ltd, Real World Computing Partnership filed Critical REAL WORLD COMPUTING PARTNERSH
Priority to JP2000084184A priority Critical patent/JP2001258598A/en
Publication of JP2001258598A publication Critical patent/JP2001258598A/en
Pending legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of DNA analysis. SOLUTION: This method for analyzing a DNA sequence, characterized by sequentially sampling a plurality of bases from the DNA sequence at the distance of smaller base number than the base number of a sampling, clustering the sampled words, assuming that the distribution of the words on the galaxy obtained as the result is the characteristics of the DNA sequence, comparing the characteristics of a standard DNA sequence with the DNA sequence of the analysis target to detect inconsistent sections, and consequently detecting an abnormal site in the DNA sequence section.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、塩基列の形態で表
されたDNAシーケンスを分析し、当然変異部分や挿入
部等を検出する場合に好適なDNAシーケンス分析方法
および装置に関する。
The present invention relates to a DNA sequence analysis method and apparatus suitable for analyzing a DNA sequence represented in the form of a base sequence and naturally detecting a mutated portion, an inserted portion and the like.

【0002】[0002]

【従来の技術】従来、塩基列の形態で表されるDNAシ
ーケンスを分析する方法としては隠れマルコフモデルや
動的計画法を用いて、DNAシーケンスのアライメント
を明確にする方法が知られている。
2. Description of the Related Art Conventionally, as a method of analyzing a DNA sequence represented in the form of a base sequence, a method of clarifying the alignment of a DNA sequence using a hidden Markov model or a dynamic programming method is known.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上述の
方法では、分析精度が低く、より高い精度での分析性能
が求められている。
However, in the above-mentioned method, the analysis accuracy is low, and the analysis performance with higher accuracy is required.

【0004】そこで、本発明の目的は、分析精度を向上
させ、高い分析制度を有する新規なDNAシーケンス分
析方法および装置を提供することにある。
Accordingly, an object of the present invention is to provide a novel DNA sequence analysis method and apparatus having improved analysis accuracy and a high analysis accuracy.

【0005】[0005]

【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、基準DNAシーケンスを
情報処理装置内に記憶しておき、前記情報処理装置に分
析対象のDNAシーケンスを与え、前記情報処理装置
は、基準DNAシーケンスおよび分析対象のDNAシー
ケンスについてそれぞれ一定個数の塩基列を前記一定個
数より小さい塩基数間隔で順次にサンプリングし、当該
サンプリングされた塩基列についてクラスタリングして
ギャラクシー空間上の分布状態を取得し、前記基準シー
ケンスの前記分布と前記分析対象の分布とを比較して分
布が一致しない分析対象のDNAシーケンスの区間を検
出することを特徴とする。
In order to achieve the above object, according to the present invention, a reference DNA sequence is stored in an information processing apparatus, and the DNA sequence to be analyzed is stored in the information processing apparatus. The information processing apparatus sequentially samples a fixed number of base sequences for the reference DNA sequence and the DNA sequence to be analyzed at intervals of a base number smaller than the fixed number, and clusters the sampled base sequences. A distribution state in a galaxy space is acquired, and the distribution of the reference sequence and the distribution of the analysis target are compared to detect a section of the DNA sequence of the analysis target whose distribution does not match.

【0006】請求項2の発明は、請求項1に記載のDN
Aシーケンス分析方法において、前記情報処理装置は分
布が一致しない基準DNAシーケンスおよび分析対象の
DNAシーケンスの区間の塩基列の個数をそれぞれ計数
し、当該計数の結果を比較することにより、塩基の挿入
および欠落を検出することを特徴とする。
According to a second aspect of the present invention, there is provided the DN according to the first aspect.
In the A-sequence analysis method, the information processing device counts the number of base sequences in a section of a reference DNA sequence and a DNA sequence to be analyzed whose distributions do not match, and compares the results of the counting to insert and remove bases. It is characterized in that the missing is detected.

【0007】請求項3の発明は、請求項1に記載のDN
Aシーケンス分析方法において、前記情報処理装置は少
なくとも前記分布が一致しない分析対象のDNAシーケ
ンスの区間を分析結果として出力することを特徴とす
る。
According to a third aspect of the present invention, there is provided the DN according to the first aspect.
In the A-sequence analysis method, the information processing device outputs at least a section of the DNA sequence to be analyzed whose distribution does not match as an analysis result.

【0008】請求項4の発明は、基準DNAシーケンス
を記憶する記憶手段と、分析対象のDNAシーケンスを
入力する入力手段と、基準DNAシーケンスおよび分析
対象のDNAシーケンスについてそれぞれ一定個数の塩
基列を前記一定個数より小さい塩基数間隔で順次にサン
プリングするサンプリング手段と、当該サンプリングさ
れた塩基列についてクラスタリングしてギャラクシー空
間上の分布状態を取得するクラスタリング手段と、前記
基準シーケンスの分布と前記分析対象の分布とを比較し
て分布が一致しない分析対象のDNAシーケンスの区間
を検出する手段とを具えたことを特徴とする。
According to a fourth aspect of the present invention, there are provided a storage means for storing a reference DNA sequence, an input means for inputting a DNA sequence to be analyzed, and a fixed number of base sequences for each of the reference DNA sequence and the DNA sequence to be analyzed. Sampling means for sequentially sampling at a base number interval smaller than a certain number; clustering means for clustering the sampled base sequence to obtain a distribution state in a Galaxy space; distribution of the reference sequence and distribution of the analysis target And means for detecting a section of the DNA sequence to be analyzed whose distribution does not match by comparing

【0009】請求項5の発明は、請求項4に記載のDN
Aシーケンス分析装置において、前記分布が一致しない
基準DNAシーケンスおよび分析対象のDNAシーケン
スの区間の塩基列の個数をそれぞれ計数し、当該計数の
結果を比較することにより、塩基の挿入および欠落を検
出する手段をさらに具えたことを特徴とする。
[0009] The invention of claim 5 provides the above-described DN.
In the A-sequence analyzer, the number of base sequences in the section of the reference DNA sequence whose distribution does not match and the number of base sequences in the section of the DNA sequence to be analyzed are counted, and the results of the counting are compared to detect insertion and deletion of bases. It is characterized by further comprising means.

【0010】請求項6の発明は、請求項4に記載のDN
Aシーケンス分析装置において、少なくとも前記分布が
一致しない分析対象のDNAシーケンスの区間を分析結
果として出力する手段をさらに具えたことを特徴とす
る。
According to a sixth aspect of the present invention, there is provided the DN according to the fourth aspect.
The A-sequence analyzer further comprises means for outputting at least a section of the DNA sequence to be analyzed whose distribution does not match as an analysis result.

【0011】[0011]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0012】図1は本実施形態のDNAシーケンス分析
方法の処理手順を説明するための説明図である。本実施
形態では、DNAシーケンスが与えられると、N個(N
は正数)の連続する塩基をサンプリングする。サンプリ
ングする塩基列はサンプリングシーケンス中で、M個
(MはNより小さい正数)ずつサンプリング位置をずら
して行く。図1の例ではM=7、N=1の例を示してい
る。サンプリングされた塩基列の組み合わせは有限であ
るので、類似する組み合わせを1つの集合にまとめ、複
数の集合を作成する。集合を作成することを本実施形態
ではクラスタリングと呼ぶことにする。図1の例ではサ
ンプリングされた塩基列はそれぞれが異なるので、集合
(本実施形態では、ワードと呼ぶ)W1,W2,W
3...が作成される。本実施形態では、クラスタリン
のための手法としてギャラクシークラスタリング方法を
使用する。この手法は、Hironobu Takah
ashi、Yoshitaka Nitta,Taka
shi Endo、“Clustering Meth
od of large−scale Bigram
Network Specialization an
d Application to Text Ret
rieval“、Technical Report
of IECE,NLC−97−34、pp。41−4
7において開示されているが、本発明に係るので簡単に
説明する。
FIG. 1 is an explanatory diagram for explaining the processing procedure of the DNA sequence analysis method of the present embodiment. In this embodiment, when a DNA sequence is given, N (N
Is a positive number). The sampling sequence shifts the sampling position by M (M is a positive number smaller than N) in the sampling sequence. FIG. 1 shows an example in which M = 7 and N = 1. Since the combinations of the sampled base sequences are finite, similar combinations are combined into one set to create a plurality of sets. In this embodiment, creating a set is referred to as clustering. In the example of FIG. 1, since the sampled base sequences are different from each other, a set (called a word in this embodiment) W1, W2, W
3. . . Is created. In the present embodiment, a galaxy clustering method is used as a technique for clustering. This technique is based on the Hironobu Takah
ashi, Yoshitaka Nita, Taka
shi Endo, “Clustering Meth
od of large-scale Bigram
Network Specialization an
d Application to Text Ret
rieval “, Technical Report
of IECE, NLC-97-34, pp. 41-4
7, which will be briefly described because it relates to the present invention.

【0013】N次元の特徴を表す仮想空間(ギャラクシ
ー空間)を想定し、1つのオブジェクトのギャラクシー
空間上の位置をxで表す。複数のオブジェクトの順番を
番号iで表す。また、位置xiとxjの2つのオブジェ
クトの類似度をMijで表す。2つのオブジェクト位置
の間の距離をdijで表す。上記類似度および距離を計
算する計算式を予め用意し、複数のオフジェクトの中の
2つのオブジェクをオブジェクトを異ならせながら選択
し、2つのオブジェクトの間の類似度および距離を計算
する。
Assuming a virtual space (galaxy space) representing N-dimensional features, the position of one object in the galaxy space is represented by x. The order of a plurality of objects is represented by a number i. The similarity between the two objects at the positions xi and xj is represented by Mij. The distance between two object positions is represented by dij. A calculation formula for calculating the similarity and the distance is prepared in advance, and two objects among a plurality of objects are selected while differentiating the objects, and the similarity and the distance between the two objects are calculated.

【0014】2つのオブジェクトが類似する場合、類似
度Mijの値が大きくまた、オブジェクト間の距離di
jも大きくなる性質があるので、類似度および距離の2
つのパラメータを使用して、ギャラクシー空間上で近接
するオブジェクトを集めた複数の集合を作成する。
When two objects are similar, the value of the similarity Mij is large and the distance di between the objects is di.
Since j also has the property of increasing, the similarity and distance 2
One set of parameters is used to create a plurality of sets of objects that are close to each other in the galaxy space.

【0015】このような手法を使用して、特定の塩基の
位置や隣接する他の塩基の組み合わせなどを特徴とする
と、上記ワード(サンプリングした塩基列)をクラスタ
リングすることができる。
If such a technique is used to characterize the position of a specific base or a combination of other adjacent bases, the word (sampled base sequence) can be clustered.

【0016】クラスタリングされた集合(ワード)を順
番に接続すると図1の下部に示すように模式的に表示す
ることができる。この表示例は図示のために2次元表示
しているが実際にはN次元空間上、すなわち、ギャラク
シー空間上に複数の集合が配置される。本実施形態で
は、この配置、すなわち、ワードの分布状態をDNAシ
ーケンスの特徴として取り扱う。
When clustered sets (words) are connected in order, they can be schematically displayed as shown in the lower part of FIG. In this display example, two-dimensional display is performed for illustration, but a plurality of sets are actually arranged in an N-dimensional space, that is, in a Galaxy space. In this embodiment, this arrangement, that is, the distribution state of words is treated as a feature of the DNA sequence.

【0017】予め遺伝子の性質が判明している基準DN
Aシーケンスについて、情報処理装置たとえば、パソコ
ンにより上記情報処理を施して、ワード(集合)のギャ
ラクシー空間上の分布の特徴を情報処理装置たとえば、
パソコンにより取得する。次に分析対象のDNAシーケ
ンスについても上述の処理を施してギャラクシー空間上
の分布の特徴を取得する。得られた2つの分布状態を図
2から図4に模式的に示す。図2(A)に示すように基
準DNAシーケンスの中の1つの塩基が分析対象のDN
Aシーケンスでは他の塩基に変異した例であり、基準D
NAシーケンスのギャラクシー空間上のワードをDで表
し、分析対象のDNAシーケンスのギャラクシー空間上
のワードをMで表している。図2(B)では変異部分の
個所がギャラクシー空間上では、目視確認できるほど、
分布の状態が異なっていることがわかる。
Reference DN whose gene properties are known in advance
For the A-sequence, the above information processing is performed by an information processing device such as a personal computer, and the characteristics of the distribution of words (sets) in the Galaxy space are processed by the information processing device such as
Obtain by PC. Next, the above-described processing is also performed on the DNA sequence to be analyzed to acquire the characteristics of the distribution in the Galaxy space. FIGS. 2 to 4 schematically show two obtained distribution states. As shown in FIG. 2A, one base in the reference DNA sequence is the DN to be analyzed.
A sequence is an example of mutation to another base,
A word in the Galaxy space of the NA sequence is represented by D, and a word in the Galaxy space of the DNA sequence to be analyzed is represented by M. In FIG. 2 (B), the location of the mutated portion can be visually confirmed in the Galaxy space.
It can be seen that the state of distribution is different.

【0018】図3(A)は分析対象のDNAシーケンス
の中に基準DNAシーケンスにはない塩基列が挿入され
た事例を示し、図3(B)はこの事例におけるギャラク
シー空間上のワードの配置を示す。ここで、分析対象の
ワードはIで表している。
FIG. 3A shows a case where a base sequence not present in the reference DNA sequence is inserted into the DNA sequence to be analyzed, and FIG. 3B shows the arrangement of words in the Galaxy space in this case. Show. Here, the word to be analyzed is represented by I.

【0019】図4は基準DNAシーケンスの中の1以上
の塩基列が分析対象のDNAシーケンスの中で欠落する
事例を示す。図4(B)はこの事例におけるギャラクシ
ー空間上のワードの分布を示す。ここで、分析対象の分
布はVで表している。
FIG. 4 shows a case where one or more base sequences in the reference DNA sequence are missing in the DNA sequence to be analyzed. FIG. 4B shows the distribution of words on the Galaxy space in this case. Here, the distribution of the analysis target is represented by V.

【0020】したがって、本実施形態ではギャラクシー
空間上の2つのワードの分布状態を比較することにより
次のようなことがわかる。 1)2つの分布の間の距離を計算し、計算した距離が予
め定めた閾値より大きい区間は基準のDNAシーケンス
とは異なる区間となる。これにより異常部分の区間をも
簡単な情報処理で検出することができる。 2)上記距離が閾値より大きくなる区間の2つの分布上
のワードの個数をそれぞれ計数し、計数した個数を比較
(差の計算)すると、変異、挿入、欠落の種類を判別す
ることができる。 (a)ワードの個数が一致する場合(差が0)の場合に
は、変異であり、距離が最も大きくなる分析対象のワー
ドの中に変異部分が存在することも判明する。異常区間
のDNAシーケンスのワードの比較により変異した塩基
列も検出することができる。 (b)基準DNAシーケンスのワードの個数が分析対象
のワードの個数よりも大きい場合は分析対象のDNAシ
ーケンス側に欠落があり、異常区間のDNAシーケンス
の塩基の比較により欠落する塩基列も検出することがで
きる。 (c)基準DNAシーケンスのワードの個数が分析対象
のワードの個数よりも小さい場合は分析対象のDNAシ
ーケンス側に塩基列の挿入があり、異常区間のDNAシ
ーケンスのワードの比較により挿入された塩基列も検出
することができる。
Therefore, in the present embodiment, the following can be understood by comparing the distribution states of two words in the Galaxy space. 1) The distance between two distributions is calculated, and a section where the calculated distance is larger than a predetermined threshold is a section different from the reference DNA sequence. Thereby, the section of the abnormal part can be detected by simple information processing. 2) Counting the number of words on the two distributions in the section in which the distance is greater than the threshold value, and comparing the counted numbers (calculating the difference), the type of mutation, insertion, or deletion can be determined. (A) If the number of words matches (the difference is 0), it is a mutation, and it is also found that there is a mutated part in the analysis target word having the largest distance. A mutated base sequence can also be detected by comparing the words of the DNA sequence in the abnormal section. (B) If the number of words in the reference DNA sequence is larger than the number of words to be analyzed, there is a missing in the DNA sequence to be analyzed, and the missing base sequence is also detected by comparing the bases of the DNA sequence in the abnormal section. be able to. (C) When the number of words in the reference DNA sequence is smaller than the number of words to be analyzed, a base sequence is inserted on the side of the DNA sequence to be analyzed, and the base inserted by comparison of the words in the DNA sequence in the abnormal section. Columns can also be detected.

【0021】以上、述べたDNA分析方法を実現するた
めのシステムを次に説明する。システムとしてはパソコ
ンなどの汎用コンピュータやデジタル回路で実現可能で
あるが、汎用コンピュータのソフトウェアにより上記分
析機能を実現する例を説明する。
A system for realizing the above-described DNA analysis method will now be described. Although the system can be realized by a general-purpose computer such as a personal computer or a digital circuit, an example in which the analysis function is realized by software of a general-purpose computer will be described.

【0022】図5は分析機能を実現するためのソフトウ
ェアプロラムの機能構成を示す。図5において、10は
キーボードからの入力やテキストファイルにより与えら
れる分析対象のDNAシーケンスからワードを順次にサ
ンプリングするワード抽出部である。20は抽出された
ワードをクラスタリングし、ギャラクシー空間上のワー
ドの分布を出力するクラスタリング部である。
FIG. 5 shows a functional configuration of a software program for realizing the analysis function. In FIG. 5, reference numeral 10 denotes a word extraction unit for sequentially sampling words from a DNA sequence to be analyzed given by input from a keyboard or a text file. Reference numeral 20 denotes a clustering unit that clusters the extracted words and outputs a word distribution on the Galaxy space.

【0023】30は基準シーケンス記憶部であり、キー
ボードからの入力やテキストファイルの形態で与えられ
た規準の(DNA)シーケンスを記憶する。基準シーケ
ンス記憶部30としてはハードディスクを使用すること
ができる。
Reference numeral 30 denotes a reference sequence storage unit which stores a reference (DNA) sequence given in the form of a text file or an input from a keyboard. A hard disk can be used as the reference sequence storage unit 30.

【0024】40は基準シーケンスからワードを順次に
抽出するワード抽出部であり、ワード抽出部10を共有
使用することができる。50は基準シーケンスのワード
をクラスタリングするクラスタリング部であり、基準シ
ーケンス側のギャラクシー空間上のワードの分布を出力
する。クラスタリング部20および40を共有使用する
ことができる。
Reference numeral 40 denotes a word extracting unit for sequentially extracting words from the reference sequence, and the word extracting unit 10 can be commonly used. Reference numeral 50 denotes a clustering unit that clusters words in the reference sequence, and outputs a word distribution in the Galaxy space on the reference sequence side. The clustering units 20 and 40 can be shared.

【0025】70はパターン分析部であり、クラスタリ
ング部20および50から出力されるワードの分布を上
述の分析方法により分析し、その分析結果を出力する。
出力部70はパターン分析部60から出力される分析結
果を出力する出力部であり、たとえば、図6に示す形態
で分析結果を表示出力する。出力部70としては、プリ
ンタ、通信装置等を使用することができる。 処理部1
0、20、40、50および60はソフトウェアプログ
ラムをCPUが実行することによりその機能が実現され
る。具体的なソフトウェアプログラムの内容は言語形態
によっても異なり、また、上述の分析方法の説明により
当業者であれば作成できるので詳細な説明は省略する。
Reference numeral 70 denotes a pattern analysis unit which analyzes the distribution of words output from the clustering units 20 and 50 by the above-described analysis method, and outputs the analysis result.
The output unit 70 is an output unit that outputs the analysis result output from the pattern analysis unit 60, and displays and outputs the analysis result in the form shown in FIG. 6, for example. As the output unit 70, a printer, a communication device, or the like can be used. Processing unit 1
The functions of 0, 20, 40, 50 and 60 are realized by the CPU executing the software program. The specific contents of the software program differ depending on the language form, and can be created by those skilled in the art based on the description of the analysis method described above.

【0026】図6の分析解析結果は基準のDNAシーケ
ンスの塩基列と分析対象のDNAシーケンスを対比させ
て表示し、一致する塩基(ワード間の距離が閾値以下の
区間)は直線で一致していることを表し、一致しない塩
基列部分には(ワード分布が以上となる部分)直線を引
かないことで、塩基の挿入部や欠落部を表す。変異部に
ついては塩基の色を他の表示と異ならせてユーザに報知
する。また、DNAシーケンスの各塩基の順番を示す番
号を表示する。
The results of the analysis and analysis shown in FIG. 6 are displayed by comparing the base sequence of the reference DNA sequence with the DNA sequence to be analyzed, and the matching bases (sections in which the distance between words is equal to or less than the threshold value) are linearly matched. A base line portion that does not match (a portion where the word distribution is equal to or greater) is not drawn to indicate a base insertion portion or a missing portion. For the mutated portion, the user is notified by making the color of the base different from other displays. Also, a number indicating the order of each base in the DNA sequence is displayed.

【0027】このような表示を行なうためには入力され
た分析対象のDNAシーケンスを一時記憶しておき、ハ
ードディスクに記憶されているDNAシーケンスと共に
表示する。この際に、塩基の順番をカウンタで計数し、
その計数結果を塩基位置を示す番号として表示する。直
線を結ぶ塩基同士は上述の分析方法で検出する。以上の
処理はソフトウェアをCPUが実行することで実現可能
である。
In order to perform such display, the input DNA sequence to be analyzed is temporarily stored and displayed together with the DNA sequence stored in the hard disk. At this time, the order of bases is counted by a counter,
The counting result is displayed as a number indicating the base position. Bases connecting the straight lines are detected by the above-described analysis method. The above processing can be realized by executing software by the CPU.

【0028】図6の表示の形態は説明のための1実施例
であって異常な内容、その塩基列やワード位置を塩基の
形態で出力してもよいし、他の種々の報知形態を採るこ
とができる。
The display form shown in FIG. 6 is one embodiment for explanation, and abnormal contents, its base sequence and word position may be output in the form of bases, and various other notification forms may be employed. be able to.

【0029】上述の実施形態の他に次の形態を実施する
ことが可能である。 1)上述の実施形態ではサンプリングする塩基数は7
個、サンプリング間隔は1塩基の例を示したが、キーボ
ードなどから任意のサンプリングの塩基数やサンプリン
グ間隔の塩基数を入力したり、マウスの指定によりサン
プリングの塩基数やサンプリング間隔の塩基数を可変設
定してもよい。 2)基準のDNAシーケンスは複数組用意するとよい。
複数組の基準のDNAシーケンスの中から分析対象のD
NAシーケンスと類似している基準のDNA―シーケン
スを検出することもできる。この場合には、ワード分布
についての距離計算を行い、最も距離が近い基準のDN
Aシーケンスを類似のDNAシーケンスと決定する。複
数の基準のDNAシーケンスに遺伝子の性質を示す識別
情報を与えておき、検出された類似の基準のDNAシー
ケンスの識別情報を取り出すと、分析対象のDNAシー
ケンスの遺伝子の性質の種類判別を行なうことができ
る。
The following embodiment can be carried out in addition to the above embodiment. 1) In the above embodiment, the number of bases to be sampled is 7
The number of samples and the sampling interval are shown as one base, but the number of bases for sampling and the number of bases for sampling interval can be input from the keyboard etc. May be set. 2) A plurality of sets of reference DNA sequences may be prepared.
D to be analyzed from multiple sets of standard DNA sequences
A reference DNA-sequence similar to the NA sequence can also be detected. In this case, a distance calculation is performed for the word distribution, and the reference DN having the closest distance is used.
The A sequence is determined to be a similar DNA sequence. When identification information indicating the property of a gene is given to a plurality of reference DNA sequences and identification information of the detected similar reference DNA sequence is taken out, the type of the property of the gene of the DNA sequence to be analyzed is determined. Can be.

【0030】また、このようにして選択された基準のD
NAシーケンスに対して上述の実施形態の分析処理を施
してもよい。
The reference D thus selected is
The analysis processing of the above embodiment may be performed on the NA sequence.

【0031】以上述べた実施形態の他に種々の変形が可
能であるが、その変形が本願特許請求の範囲に記載され
た技術思想に基づくものであるかぎり、その変形は本発
明の技術範囲内となる。
Although various modifications are possible in addition to the above-described embodiment, the modifications are within the technical scope of the present invention as long as the modifications are based on the technical idea described in the claims of the present application. Becomes

【0032】[0032]

【発明の効果】以上、説明した本発明に基づき実際に実
験を行なうと、従来の分析方法に比べて高い分析精度が
得られた。本発明ではサンプリングした塩基列がクラス
タリングされるので、その塩基列の変化の中の塩基の変
化がDNAシーケンスの特徴として捕まえられ、また、
ギャラクシー分布の中にこの特徴が織り込まれるので、
分析対象のDNAシーケンス中の挿入部分や欠落分や変
異部分をより精度よく検出できると思料される。
According to the present invention as described above, when an experiment was actually performed, higher analysis accuracy was obtained as compared with the conventional analysis method. In the present invention, since the sampled base sequence is clustered, the base change in the base sequence change is captured as a characteristic of the DNA sequence.
Since this feature is woven into the Galaxy distribution,
It is considered that an inserted portion, a missing portion, or a mutated portion in a DNA sequence to be analyzed can be detected with higher accuracy.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明実施形態のDNA分析方法を説明するた
めの説明図である。
FIG. 1 is an explanatory diagram for explaining a DNA analysis method according to an embodiment of the present invention.

【図2】本発明実施形態の分析内容を説明するための説
明図である。
FIG. 2 is an explanatory diagram for explaining analysis contents of the embodiment of the present invention.

【図3】本発明実施形態の分析内容を説明するための説
明図である。
FIG. 3 is an explanatory diagram for explaining analysis contents of the embodiment of the present invention.

【図4】本発明実施形態の分析内容を説明するための説
明図である。
FIG. 4 is an explanatory diagram for explaining analysis contents of the embodiment of the present invention.

【図5】本発明実施形態のシステムの機能構成を示すブ
ロック図である。
FIG. 5 is a block diagram showing a functional configuration of a system according to the embodiment of the present invention.

【図6】本発明実施形態の表示例を示す説明図である。FIG. 6 is an explanatory diagram showing a display example according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

10、40 ワード抽出部 20、50 クラスタリング部 60 パターン分析部 70 出力部 10, 40 word extraction unit 20, 50 clustering unit 60 pattern analysis unit 70 output unit

フロントページの続き (72)発明者 岡 隆一 東京都千代田区東神田2−5−12 龍角散 ビル8階 技術研究組合新情報処理開発機 構内 (72)発明者 森 靖英 東京都国分寺市東恋ヶ窪一丁目280番地 株式会社日立製作所中央研究所内 Fターム(参考) 4B024 AA11 CA01 HA11 HA19 4B029 AA07 AA23 BB20 FA10 4B063 QA01 QA12 QA13 QA18 QQ42 QS38 QS39 Continued on the front page (72) Inventor Ryuichi Oka 2-8-12 Higashi Kanda, Chiyoda-ku, Tokyo Ryukakusan Building 8F, Technology Research Association New Information Processing Development Machine Campus (72) Inventor Mori Yasuhide Higashi Koigakubo, Kokubunji-shi, Tokyo No. 280 F term in Hitachi Central Research Laboratory Co., Ltd. (reference) 4B024 AA11 CA01 HA11 HA19 4B029 AA07 AA23 BB20 FA10 4B063 QA01 QA12 QA13 QA18 QQ42 QS38 QS39

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 基準DNAシーケンスを情報処理装置内
に記憶しておき、 前記情報処理装置に分析対象のDNAシーケンスを与
え、 前記情報処理装置は、基準DNAシーケンスおよび分析
対象のDNAシーケンスについてそれぞれ一定個数の塩
基列を前記一定個数より小さい塩基数間隔で順次にサン
プリングし、 当該サンプリングされた塩基列についてクラスタリング
してギャラクシー空間上の分布状態を取得し、 前記基準シーケンスの前記分布と前記分析対象の分布と
を比較して分布が一致しない分析対象のDNAシーケン
スの区間を検出することを特徴とするDNAシーケンス
分析方法。
1. A reference DNA sequence is stored in an information processing device, and a DNA sequence to be analyzed is given to the information processing device. The number of base sequences is sampled sequentially at a base number interval smaller than the certain number, and the sampled base sequences are clustered to obtain a distribution state in a Galaxy space, and the distribution of the reference sequence and the analysis target are obtained. A DNA sequence analysis method, comprising detecting a section of a DNA sequence to be analyzed whose distribution does not match by comparing with a distribution.
【請求項2】 請求項1に記載のDNAシーケンス分析
方法において、前記情報処理装置は分布が一致しない基
準DNAシーケンスおよび分析対象のDNAシーケンス
の区間の塩基列の個数をそれぞれ計数し、当該計数の結
果を比較することにより、塩基の挿入および欠落を検出
することを特徴とするDNAシーケンス分析方法。
2. The DNA sequence analysis method according to claim 1, wherein the information processing device counts the number of base sequences in a section between the reference DNA sequence and the DNA sequence to be analyzed whose distributions do not match, and calculates the number of base sequences. A DNA sequence analysis method characterized by detecting insertion and deletion of a base by comparing the results.
【請求項3】 請求項1に記載のDNAシーケンス分析
方法において、前記情報処理装置は少なくとも前記分布
が一致しない分析対象のDNAシーケンスの区間を分析
結果として出力することを特徴とするDANシーケンス
分析方法。
3. The DNA sequence analysis method according to claim 1, wherein the information processing device outputs at least a section of the DNA sequence to be analyzed whose distribution does not match as an analysis result. .
【請求項4】 基準DNAシーケンスを記憶する記憶手
段と、 分析対象のDNAシーケンスを入力する入力手段と、 基準DNAシーケンスおよび分析対象のDNAシーケン
スについてそれぞれ一定個数の塩基列を前記一定個数よ
り小さい塩基数間隔で順次にサンプリングするサンプリ
ング手段と、 当該サンプリングされた塩基列についてクラスタリング
してギャラクシー空間上の分布状態を取得するクラスタ
リング手段と、 前記基準シーケンスの分布と前記分析対象の分布とを比
較して分布が一致しない分析対象のDNAシーケンスの
区間を検出する手段とを具えたことを特徴とするDNA
シーケンス分析装置。
4. A storage means for storing a reference DNA sequence; an input means for inputting a DNA sequence to be analyzed; and a base sequence having a fixed number of base sequences smaller than the fixed number for each of the reference DNA sequence and the DNA sequence to be analyzed. Sampling means for sequentially sampling at several intervals; clustering means for clustering the sampled base sequence to obtain a distribution state in the Galaxy space; and comparing the distribution of the reference sequence with the distribution of the analysis target. Means for detecting a section of the DNA sequence to be analyzed whose distribution does not match,
Sequence analyzer.
【請求項5】 請求項4に記載のDNAシーケンス分析
装置において、前記分布が一致しない基準DNAシーケ
ンスおよび分析対象のDNAシーケンスの区間の塩基列
の個数をそれぞれ計数し、当該計数の結果を比較するこ
とにより、塩基の挿入および欠落を検出する手段をさら
に具えたことを特徴とするDNAシーケンス分析装置。
5. The DNA sequence analyzer according to claim 4, wherein the number of base sequences in the section of the reference DNA sequence whose distribution does not match and the number of base sequences in the section of the DNA sequence to be analyzed are counted, and the results of the counting are compared. A DNA sequence analyzer further comprising means for detecting insertion and deletion of a base.
【請求項6】 請求項4に記載のDNAシーケンス分析
装置において、少なくとも前記分布が一致しない分析対
象のDNAシーケンスの区間を分析結果として出力する
手段をさらに具えたことを特徴とするDANシーケンス
分析装置。
6. The DNA sequence analyzer according to claim 4, further comprising means for outputting, as an analysis result, at least a section of the DNA sequence to be analyzed whose distribution does not match. .
JP2000084184A 2000-03-24 2000-03-24 Method and device for analyzing dna sequence Pending JP2001258598A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000084184A JP2001258598A (en) 2000-03-24 2000-03-24 Method and device for analyzing dna sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000084184A JP2001258598A (en) 2000-03-24 2000-03-24 Method and device for analyzing dna sequence

Publications (1)

Publication Number Publication Date
JP2001258598A true JP2001258598A (en) 2001-09-25

Family

ID=18600693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000084184A Pending JP2001258598A (en) 2000-03-24 2000-03-24 Method and device for analyzing dna sequence

Country Status (1)

Country Link
JP (1) JP2001258598A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650204A (en) * 2020-12-30 2021-04-13 中南大学 Intelligent track unmanned vehicle fault gene identification method and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650204A (en) * 2020-12-30 2021-04-13 中南大学 Intelligent track unmanned vehicle fault gene identification method and system

Similar Documents

Publication Publication Date Title
KR101086510B1 (en) Document and pattern clustering method and apparatus
Pei et al. On mining cross-graph quasi-cliques
KR20130069427A (en) Method and apparatus for compressing and decompressing genetic information using next generation sequencing(ngs)
JP2004164036A (en) Method for evaluating commonality of document
JP5183155B2 (en) Batch search method and search system for a large number of sequences
CN109871686A (en) Rogue program recognition methods and device based on icon representation and software action consistency analysis
CN109376531B (en) Web intrusion detection method based on semantic recoding and feature space separation
CN111090859B (en) Malicious software detection method based on graph editing distance
CN107133271B (en) Semantic brain graph real-time expression system and operation method thereof
Lladser et al. Multiple pattern matching: A Markov chain approach
CN111354354B (en) Training method, training device and terminal equipment based on semantic recognition
CN110046501A (en) A kind of malicious code detecting method inspired by biological gene
JP2001258598A (en) Method and device for analyzing dna sequence
CN111797395A (en) Malicious code visualization and variety detection method, device, equipment and storage medium
JP6356015B2 (en) Gene expression information analyzing apparatus, gene expression information analyzing method, and program
Bannai et al. A string pattern regression algorithm and its application to pattern discovery in long introns
JP7173821B2 (en) biological sequence fingerprint
Somayajulu Index based multiple pattern matching algorithm using DNA sequence and pattern count
CN118335203B (en) Coronavirus recombination detection method, system, equipment and medium for large-scale genome data
Pavesi et al. Methods for pattern discovery in unaligned biological sequences
JP2002183667A (en) Character-recognizing device and recording medium
Greau-Hamard et al. A comparative study of sequence identification algorithms in iot context
Greau-Hamard et al. Performance analysis and comparison of sequence identification algorithms in iot context
Bonnici et al. A word recurrence based algorithm to extract genomic dictionaries
Lysiak et al. SpecGlob: rapid and accurate alignment of mass spectra differing from their peptide models by several unknown modifications