JPH05219932A - Device for examining genetic information - Google Patents

Device for examining genetic information

Info

Publication number
JPH05219932A
JPH05219932A JP2101292A JP2101292A JPH05219932A JP H05219932 A JPH05219932 A JP H05219932A JP 2101292 A JP2101292 A JP 2101292A JP 2101292 A JP2101292 A JP 2101292A JP H05219932 A JPH05219932 A JP H05219932A
Authority
JP
Japan
Prior art keywords
amino acid
acid sequence
character string
character
genetic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2101292A
Other languages
Japanese (ja)
Inventor
Mayumi Oya
真弓 大矢
Seiichi Aikawa
聖一 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2101292A priority Critical patent/JPH05219932A/en
Priority to US08/014,867 priority patent/US6370479B1/en
Publication of JPH05219932A publication Critical patent/JPH05219932A/en
Priority to US09/909,809 priority patent/US20020072863A1/en
Priority to US09/910,071 priority patent/US20020116146A1/en
Priority to US09/910,054 priority patent/US7386400B2/en
Priority to US11/258,174 priority patent/US20070016375A1/en
Withdrawn legal-status Critical Current

Links

Abstract

PURPOSE:To evaluate the similarity of two amino acid sequences at a high speed in a small volume of the memory by expressing amino acids with letters and evaluating the similarity between the amino acid sequence of an examination target and the amino acid sequence of a reference target. CONSTITUTION:The longest common letter number between an examination target amino acid sequence expressed with a letter sequence and a reference target amino acid sequence expressed with a letter sequence is detected by a detection means 10. The ratio of the longest common letter number to the letter sequence length of the examination target amino acid sequence or reference target amino acid sequence is calculated by a calculation means 11, and the calculated ratio is outputted into an output device 2.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、検査対象のアミノ酸配
列と、比較対象のアミノ酸配列との間の類似性を評価す
る遺伝子情報検査装置に関し、特に、簡単な処理機構に
従って類似性を評価することのできる遺伝子情報検査装
置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a genetic information testing apparatus for evaluating the similarity between an amino acid sequence to be tested and an amino acid sequence to be compared, and particularly, the similarity is evaluated according to a simple processing mechanism. The present invention relates to a genetic information testing device that can be used.

【0002】医薬品の開発等に必要なタンパク質工学の
分野では、分子生物学の進歩に伴って大量に遺伝情報が
蓄積され始め現在データベース化が進んでいる。これら
の大量に蓄積された遺伝情報から、タンパク質の構造や
機能等の生物学的に意味のある情報を抽出していくこと
が要求されている。この抽出処理は、高速処理を可能に
するためにも、できる限り簡単な処理機構により実現し
ていくことが好ましいのである。
In the field of protein engineering required for drug development and the like, a large amount of genetic information has begun to be accumulated with the progress of molecular biology, and a database is now being developed. It is required to extract biologically meaningful information such as protein structure and function from the large amount of accumulated genetic information. It is preferable that the extraction processing is realized by a processing mechanism as simple as possible in order to enable high speed processing.

【0003】[0003]

【従来の技術】遺伝子の本体はDNAであり、A(アデ
ニン)、T(チミン)、C(シトシン)、G(グアニ
ン)という4つの塩基で構成される塩基配列として表現
される。また、生体を構成するアミノ酸は約20種類あ
り、これまでに、塩基配列中の3つの塩基の並びと各ア
ミノ酸とが対応することが解明されている。従って、生
体内では、DNAの塩基配列に従ってアミノ酸が合成さ
れ、合成されたアミノ酸が折り畳まれることによってタ
ンパク質が形作られることになる。
2. Description of the Related Art The main body of a gene is DNA, which is expressed as a base sequence composed of four bases, A (adenine), T (thymine), C (cytosine) and G (guanine). In addition, there are about 20 kinds of amino acids that compose a living body, and it has been clarified so far that the arrangement of three bases in a base sequence corresponds to each amino acid. Therefore, in vivo, an amino acid is synthesized according to the base sequence of DNA, and the synthesized amino acid is folded to form a protein.

【0004】上述したように、分子生物学の発展に伴
い、塩基やアミノ酸の配列の決定法が確立したことによ
って、塩基配列データ、アミノ酸配列データ等の遺伝情
報が大量に蓄積され始めている。このため、遺伝子情報
処理の分野では、蓄積された膨大な遺伝情報の中から、
タンパク質の構造や機能等に関する生物情報をいかにし
て抽出するかが中心課題となってきた。
As described above, with the development of molecular biology, a method for determining the sequences of bases and amino acids has been established, and a large amount of genetic information such as base sequence data and amino acid sequence data has begun to be accumulated. Therefore, in the field of genetic information processing, from the huge amount of accumulated genetic information,
How to extract biological information about the structure and function of proteins has become a central issue.

【0005】このような生物情報を抽出する際の基本的
手法は、アミノ酸の配列を比較することである。これ
は、アミノ酸の配列が類似していることは、生物学的機
能にも類似があると考えられているためである。
The basic method for extracting such biological information is to compare amino acid sequences. This is because similar amino acid sequences are considered to have similar biological functions.

【0006】このようなことを背景にして、評価対象の
アミノ酸配列の機能を推定するために、機能が解明され
ている既知のアミノ酸配列データベースから、評価対象
のアミノ酸配列と類似するアミノ酸配列を検索する相同
性探索や、比較するアミノ酸配列間での違いと類似性が
明確になるようにアミノ酸配列を並び変えるアラインメ
ントが行われるようになってきている。
Against this background, in order to estimate the function of the amino acid sequence to be evaluated, a known amino acid sequence database whose function has been elucidated is searched for an amino acid sequence similar to the amino acid sequence to be evaluated. There is a growing tendency to search for homology, and to align amino acid sequences so that differences and similarities between compared amino acid sequences are clear.

【0007】また、アミノ酸配列の中で生物にとって重
要な機能をコードしている領域は、進化の過程でも保存
されていると考えられている。例えば、異なる生物種で
同じ機能を持つタンパク質のアミノ酸配列を比較する
と、共通に存在する配列パターンがあることが知られて
いる。このような配列パターンはモチーフと呼ばれてい
る。これから、アミノ酸配列中にどのようなモチーフが
含まれているかを調べることによって、タンパク質の性
質や機能を解明することができるだけでなく、既存のタ
ンパク質に対する強化、機能の付加、新しいタンパク質
の合成等、多岐に渡ってタンパク質工学の分野に応用す
ることができる。これから、モチーフを検索することが
行われるようになってきている。
[0007] The region of the amino acid sequence which encodes an important function for living organisms is considered to be conserved during evolution. For example, when amino acid sequences of proteins having the same function in different organism species are compared, it is known that there are common sequence patterns. Such a sequence pattern is called a motif. From this, it is possible not only to elucidate the properties and functions of proteins by investigating what kind of motif is contained in the amino acid sequence, but also to strengthen existing proteins, add functions, synthesize new proteins, etc. It can be applied to various fields of protein engineering. From now on, the search for motifs has been started.

【0008】従来、2つのアミノ酸配列を比較する方法
としては、音声認識処理等で用いられているダイナミッ
クプログラミング手法が用いられている。
Conventionally, as a method of comparing two amino acid sequences, a dynamic programming method used in speech recognition processing or the like has been used.

【0009】[0009]

【発明が解決しようとする課題】しかしながら、ダイナ
ミックプログラミング手法によるアミノ酸配列の比較方
法では、2次元的にアミノ酸配列を比較していくため
に、大きなメモリ容量が必要になるとともに、処理時間
も多くかかるという問題点があった。
However, in the method for comparing amino acid sequences by the dynamic programming method, since the amino acid sequences are compared two-dimensionally, a large memory capacity is required and a long processing time is required. There was a problem.

【0010】本発明はかかる事情に鑑みてなされたもの
であって、検査対象のアミノ酸配列と、比較対象のアミ
ノ酸配列との間の類似性を簡単な処理機構に従って評価
することのできる新たな遺伝子情報検査装置の提供を目
的とするものである。
The present invention has been made in view of the above circumstances, and is a new gene capable of evaluating the similarity between the amino acid sequence to be examined and the amino acid sequence to be compared according to a simple processing mechanism. It is intended to provide an information inspection device.

【0011】[0011]

【課題を解決するための手段】図1(a)に本発明の第
1の発明の原理構成、図1(b)に本発明の第2の発明
の原理構成を図示する。
FIG. 1 (a) shows the principle configuration of the first invention of the present invention, and FIG. 1 (b) shows the principle configuration of the second invention of the present invention.

【0012】図1(a)(b)中、1は本発明を具備する
遺伝子情報検査装置であって、アミノ酸を文字で表現す
る構成を採って、検査対象のアミノ酸配列と、比較対象
のアミノ酸配列との間の類似性を評価するもの、2は遺
伝子情報検査装置1に接続される出力装置である。
In FIGS. 1 (a) and 1 (b), reference numeral 1 denotes a genetic information testing apparatus equipped with the present invention, which has a structure in which amino acids are expressed by letters, and has an amino acid sequence to be tested and an amino acid to be compared. The output device connected to the genetic information test device 1 is used to evaluate the similarity with the sequence.

【0013】図1(a)に従う本発明の遺伝子情報検査
装置1は、文字列で表現される検査対象アミノ酸配列
と、文字列で表現される比較対象アミノ酸配列との最長
共有文字数を検出する検出手段10と、検出手段10に
より検出される最長共有文字数と、検査対象アミノ酸配
列又は比較対象アミノ酸配列の文字列長との割合を算出
する算出手段11と、算出手段11の算出する割合値を
出力装置2に出力する出力制御手段12と、算出手段1
1の算出する割合値に従って、検査対象アミノ酸配列と
比較対象アミノ酸配列との間の類似性を評価する評価手
段13とを備える。
The genetic information testing device 1 of the present invention according to FIG. 1 (a) is a detection device for detecting the maximum number of shared characters between a test amino acid sequence represented by a character string and a comparison target amino acid sequence represented by a character string. The means 10, the calculating means 11 for calculating the ratio of the longest shared character number detected by the detecting means 10, and the character string length of the amino acid sequence to be examined or the amino acid sequence to be compared, and the ratio value calculated by the calculating means 11 are output. Output control means 12 for outputting to the device 2 and calculation means 1
The evaluation unit 13 evaluates the similarity between the test target amino acid sequence and the comparison target amino acid sequence according to the calculated ratio value of 1.

【0014】図1(b)に従う本発明の遺伝子情報検査
装置1は、文字列で表現される検査対象アミノ酸配列
と、文字列で表現される比較対象アミノ酸配列との最長
共有部分列を検出する検出手段20と、検査対象アミノ
酸配列及び比較対象アミノ酸配列の持つ最長共有部分列
の配列位置を特定するとともに、その特定結果に従っ
て、その配列位置間に存在する文字列長を特定する特定
手段21と、検出手段20の検出結果や特定手段21の
特定結果を出力装置2に出力する出力制御手段22と、
検出手段20の検出結果や特定手段21の特定結果に従
って、検査対象アミノ酸配列と比較対象アミノ酸配列と
の間の類似性を評価する評価手段23とを備える。
The genetic information testing apparatus 1 of the present invention according to FIG. 1 (b) detects the longest shared subsequence of a test amino acid sequence represented by a character string and a comparison target amino acid sequence represented by a character string. A detection unit 20 and a specifying unit 21 for specifying the sequence position of the longest shared subsequence of the inspection target amino acid sequence and the comparison target amino acid sequence, and for specifying the character string length existing between the sequence positions according to the specifying result. Output control means 22 for outputting the detection result of the detection means 20 and the identification result of the identification means 21 to the output device 2,
The evaluation means 23 evaluates the similarity between the amino acid sequence to be examined and the amino acid sequence to be compared according to the detection result of the detection means 20 and the identification result of the identification means 21.

【0015】[0015]

【作用】図1(a)に従う本発明の遺伝子情報検査装置
1では、例えば、検査対象アミノ酸配列の文字列表現が
“ABCBDAB”で、比較対象アミノ酸配列の文字列
表現が“BDCABA”である場合に、検出手段10
は、この2つの文字列での最長共有文字数が“4”であ
ることを検出し、算出手段11は、この検出結果を受け
て、検査対象アミノ酸配列の文字列長を基準にする場合
には57%(=4÷7)という割合値を算出し、比較対
象アミノ酸配列の文字列長を基準にする場合には67%
(=4÷6)という割合値を算出する。
In the genetic information testing apparatus 1 of the present invention according to FIG. 1 (a), for example, when the character string expression of the amino acid sequence to be tested is "ABCBDAB" and the character string expression of the amino acid sequence to be compared is "BDCABA". And the detection means 10
Detects that the maximum number of shared characters in these two character strings is “4”, and the calculation means 11 receives this detection result and uses the character string length of the amino acid sequence to be examined as a reference. 67% when the ratio value of 57% (= 4 ÷ 7) is calculated and the character string length of the comparison target amino acid sequence is used as a reference.
A ratio value of (= 4 ÷ 6) is calculated.

【0016】そして、出力制御手段12は、この算出さ
れた割合値を出力装置2に出力していくことで、ユーザ
に対して、検査対象アミノ酸配列と比較対象アミノ酸配
列との間の類似性の評価値を通知し、一方、評価手段1
3は、この算出された割合値を規定の基準値と比較する
ことで、検査対象アミノ酸配列と比較対象アミノ酸配列
との間の類似性を機械的に評価して上述の相同性検査を
実行していく。
Then, the output control means 12 outputs the calculated ratio value to the output device 2 to inform the user of the similarity between the inspection target amino acid sequence and the comparison target amino acid sequence. The evaluation value is notified, while the evaluation means 1
3 compares the calculated ratio value with a prescribed reference value to mechanically evaluate the similarity between the amino acid sequence to be tested and the amino acid sequence to be compared, and execute the above-mentioned homology test. To go.

【0017】このように、図1(a)に従う本発明の遺
伝子情報検査装置1は、文字列で表現される検査対象ア
ミノ酸配列と、文字列で表現される比較対象アミノ酸配
列との最長共有文字数を算出する構成を採って、この最
長共有文字数に従って、検査対象アミノ酸配列と比較対
象アミノ酸配列との間の類似性を評価する構成を採るも
のであることから、ダイナミックプログラミングム手法
によるアミノ酸配列の比較方法に比べて、小さなメモリ
容量で、かつ高速に2つのアミノ酸配列の類似性を評価
することができるのである。
As described above, in the genetic information test device 1 of the present invention according to FIG. 1 (a), the maximum number of shared characters between the amino acid sequence to be examined expressed in a character string and the amino acid sequence to be compared in a character string is shared. Is calculated, and the similarity between the amino acid sequence to be tested and the amino acid sequence to be compared is evaluated according to this longest number of shared characters. Therefore, comparison of amino acid sequences by the dynamic programming method is performed. Compared with the method, it is possible to evaluate the similarity between two amino acid sequences with a small memory capacity and at high speed.

【0018】図1(b)に従う本発明の遺伝子情報検査
装置1では、例えば、検査対象アミノ酸配列の文字列表
現が“ABCBDAB”で、比較対象アミノ酸配列の文
字列表現が“BDCABA”である場合に、検出手段2
0は、この2つの文字列での最長共有部分列が“BDA
B”、“BCBA”、“BDAB”、“BCAB”であ
ることを検出する。この検出結果を受けて、特定手段2
1は、検査対象アミノ酸配列及び比較対象アミノ酸配列
の持つ各最長共有部分列の配列位置を特定するととも
に、その配列位置間に存在する文字列長を特定する。
In the genetic information test apparatus 1 of the present invention according to FIG. 1 (b), for example, when the character string expression of the amino acid sequence to be tested is "ABCBDAB" and the character string expression of the amino acid sequence to be compared is "BDCABA". And the detection means 2
0 means that the longest shared substring in these two strings is "BDA
B "," BCBA "," BDAB "," BCAB "are detected, and the specifying means 2 receives the detection result.
1 specifies the sequence position of each longest shared partial sequence of the amino acid sequence to be examined and the amino acid sequence to be compared, and also identifies the character string length existing between the sequence positions.

【0019】そして、出力制御手段22は、検出手段2
0の検出する最長共有部分列をそのまま出力したり、特
定手段21により特定される文字列長をこの最長共有部
分列に対応付けて出力したり、特定手段21により特定
される配列位置に従って、検査対象アミノ酸配列及び比
較対象アミノ酸配列の持つ最長共有部分列が対応付けら
れるべくこの2つのアミノ酸配列をアラインメントして
出力したりしていくことで、ユーザに対して、検査対象
アミノ酸配列と比較対象アミノ酸配列との間の類似性を
通知する。
The output control means 22 is the detection means 2
The longest shared subsequence detected by 0 is output as it is, the character string length specified by the specifying unit 21 is output in association with this longest shared subsequence, or the inspection is performed according to the array position specified by the specifying unit 21. By aligning and outputting these two amino acid sequences so that the longest shared subsequences of the target amino acid sequence and the comparison target amino acid sequence are associated with each other, the inspection target amino acid sequence and the comparison target amino acid are presented to the user. Signal the similarity to the sequence.

【0020】一方、評価手段23は、比較対象アミノ酸
配列が連続する文字列で表現される場合や、規定されな
い文字列を配列位置間に含む文字列のもので表現される
場合にあって、検査対象アミノ酸配列にこの比較対象ア
ミノ酸配列が含まれているか否かを評価していくときに
は、特定手段21の特定結果を考慮しつつ、検出手段2
0の検出する最長共有部分列と比較対象アミノ酸配列と
が一致するか否かを機械的に評価していくことで上述の
モチーフ検査を実行していく。
On the other hand, the evaluation means 23 performs an inspection when the amino acid sequence to be compared is expressed by a continuous character string, or when it is expressed by a character string including an unspecified character string between sequence positions. When evaluating whether or not this comparison target amino acid sequence is included in the target amino acid sequence, the detection means 2 is considered while considering the identification result of the identification means 21.
The above-mentioned motif test is executed by mechanically evaluating whether or not the longest shared subsequence of 0 and the comparison target amino acid sequence match.

【0021】このように、図1(b)に従う本発明の遺
伝子情報検査装置1は、文字列で表現される検査対象ア
ミノ酸配列と、文字列で表現される比較対象アミノ酸配
列との最長共有部分列を特定する構成を採って、この最
長共有部分列に従って、検査対象アミノ酸配列と比較対
象アミノ酸配列との間の類似性を評価する構成を採るも
のであることから、ダイナミックプログラミング手法に
よるアミノ酸配列の比較方法に比べて、小さなメモリ容
量で、かつ高速に2つのアミノ酸配列の類似性を評価す
ることができるのである。
As described above, the genetic information test device 1 of the present invention according to FIG. 1 (b) has the longest shared portion between the amino acid sequence to be examined expressed by a character string and the amino acid sequence to be compared expressed by the character string. Since the structure that specifies the sequence is adopted and the similarity between the amino acid sequence to be tested and the amino acid sequence to be compared is evaluated according to this longest shared subsequence, the amino acid sequence of the dynamic programming method Compared with the comparison method, the similarity between two amino acid sequences can be evaluated with a smaller memory capacity and faster.

【0022】[0022]

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明を実装する遺伝子情報検査装置1の
一実施例を図示する。図中、40は遺伝子情報検査装置
1に接続される入力装置、41は入力装置40の備える
キーボードやマウス等の対話装置、42は遺伝子情報検
査装置1に接続されるディスプレイ装置、50は文字列
で表現されるアミノ酸配列情報を管理するアミノ酸配列
データベース、60は文字列で表現されるモチーフ配列
情報を管理するモチーフデータベースである。
EXAMPLES The present invention will be described in detail below with reference to examples. FIG. 2 illustrates an embodiment of the genetic information test apparatus 1 implementing the present invention. In the figure, 40 is an input device connected to the genetic information test device 1, 41 is an interactive device such as a keyboard or mouse provided in the input device 40, 42 is a display device connected to the genetic information test device 1, and 50 is a character string. An amino acid sequence database that manages the amino acid sequence information represented by, and 60 is a motif database that manages the motif sequence information represented by a character string.

【0023】この実施例の遺伝子情報検査装置1は、入
力装置40から入力されてくるアミノ酸配列の文字列
と、アミノ酸配列データベース50やモチーフデータベ
ース60から与えられるアミノ酸配列の文字列との間の
最長共有文字数や、最長共有部分列(LCS:longest
common subsequence)や、最長共有部分列の展開位置を
検出するLCS検出部30と、LCS検出部30の結果
に従って、LCS検出部30の検出対象となった2つの
アミノ酸配列の相同性を判定する相同性判定部31と、
相同性判定部31の検出結果に従って、入力装置40か
ら入力されてくるアミノ酸配列と相同なアミノ酸配列を
アミノ酸配列データベース50から検索する相同性探索
部32と、LCS検出部30の結果に従って、入力装置
40から入力されてくるアミノ酸配列と相同なモチーフ
配列をモチーフデータベース60から検索するモチーフ
探索部33と、LCS検出部30の検出結果に従って、
入力装置40から入力されてくるアミノ酸配列の文字列
と、アミノ酸配列データベース50やモチーフデータベ
ース60から与えられるアミノ酸配列の文字列とをアラ
インメントするアラインメント部34と、各処理部の処
理結果をディスプレイ装置42に表示する表示部35と
を備える。
The genetic information test apparatus 1 of this embodiment has the longest distance between the character string of the amino acid sequence input from the input device 40 and the character string of the amino acid sequence provided from the amino acid sequence database 50 or the motif database 60. The number of shared characters and the longest shared substring (LCS: longest
common subsequence) and the LCS detection unit 30 that detects the expanded position of the longest shared subsequence, and the homology that determines the homology between the two amino acid sequences that are the detection targets of the LCS detection unit 30 according to the result of the LCS detection unit 30. The sex determination unit 31,
The homology search unit 32 searches the amino acid sequence database 50 for an amino acid sequence homologous to the amino acid sequence input from the input device 40 according to the detection result of the homology determination unit 31, and the input device according to the result of the LCS detection unit 30. According to the detection results of the LCS detection unit 30 and the motif search unit 33 that searches the motif database 60 for a motif sequence homologous to the amino acid sequence input from 40,
An alignment unit 34 that aligns the character string of the amino acid sequence input from the input device 40 with the character string of the amino acid sequence provided from the amino acid sequence database 50 or the motif database 60, and the display device 42 that displays the processing result of each processing unit. And a display unit 35 for displaying.

【0024】次に、図3ないし図5に示す処理フローに
従って、LCS検出部30の実行する処理について詳細
に説明する。ここで、図3に示す処理フローは、検査対
象となる2つのアミノ酸配列の持つ最長共有文字数を検
出するための処理フローであり、図4及び図5に示す処
理フローは、検査対象となる2つのアミノ酸配列の持つ
最長共有部分列と、その展開位置を検出するための処理
フローである。
Next, the processing executed by the LCS detector 30 will be described in detail according to the processing flows shown in FIGS. Here, the process flow shown in FIG. 3 is a process flow for detecting the maximum number of shared characters of two amino acid sequences to be inspected, and the process flows shown in FIGS. 4 and 5 are to be inspected. It is a processing flow for detecting the longest shared subsequence which one amino acid sequence has, and its expansion position.

【0025】LCS検出部30は、文字列1で表現され
るアミノ酸配列と、文字列2で表現されるアミノ酸配列
との間の最長共有文字数を検出する場合には、図3の処
理フローに示すように、先ず最初に、ステップ1で、文
字列1から1文字ずつ読み込んで、文字列1中での各文
字の出現位置を示す表を作成する。
When the LCS detection unit 30 detects the maximum number of shared characters between the amino acid sequence represented by the character string 1 and the amino acid sequence represented by the character string 2, it is shown in the processing flow of FIG. As described above, first, in step 1, one character is read from the character string 1 and a table showing the appearance positions of each character in the character string 1 is created.

【0026】この出現表は、例えば、A〜Zまでのアル
ファベットに対応した配列に、各文字の出現位置をポイ
ンタで連結することによって実現するものであって、例
えば、文字列1のアミノ酸配列が“ABCBDAB”で
表現される場合には、図6に示すように、“A”が6番
目と1番目に出現し、“B”が7番目と4番目と2番目
に出現し、“C”が3番目に出現し、“D”が5番目に
出現するというように作成する。そして、このステップ
1では、更に、以下の処理で用いる文字列1と同じサイ
ズを持つ配列S[i] の初期化処理を実行して、各エント
リにゼロ値を設定する。
This appearance table is realized, for example, by connecting the appearance positions of each character with a pointer to an array corresponding to the alphabet from A to Z. For example, the amino acid sequence of the character string 1 is When expressed by "ABCBDAB", as shown in FIG. 6, "A" appears at the 6th and 1st, "B" appears at the 7th, 4th and 2nd, and "C". Appears at the third position, "D" appears at the fifth position, and so on. Then, in this step 1, initialization processing of the array S [i] having the same size as the character string 1 used in the following processing is further executed, and a zero value is set in each entry.

【0027】次に、ステップ2で、文字列2から1文字
を読み込み、ステップ1で作成した出現表を参照して、
その文字の文字列1での出現位置rを特定する。続い
て、ステップ3で、用意されている配列S[i] のr番目
のS[r] のエントリデータと、(r−1)番目のS[r−1]の
エントリデータとが等しいか否かを判断する。
Next, in step 2, one character is read from the character string 2 and the appearance table created in step 1 is referred to,
The appearance position r of the character in the character string 1 is specified. Then, in step 3, it is determined whether the r-th S [r] entry data of the prepared array S [i] is equal to the (r-1) -th S [r-1] entry data. To judge.

【0028】このステップ3で、S[r] とS[r−1]とが
等しいと判断するときには、ステップ4に進んで、r番
目以上で、かつS[r] のエントリデータと等しい値のエ
ントリデータを持つ配列S[i] に“1”を加算し、続く
ステップ5で、文字列2の最後の文字までの処理を終了
したのか否かを判断して、終了していないことを判断す
るときには、ステップ2に戻っていく。一方、ステップ
3で、S[r] とS[r−1]とが等しくないと判断するとき
には、ステップ4の加算処理を実行することなく、直ち
にステップ5に進んでいく。
When it is judged in this step 3 that S [r] and S [r-1] are equal, the process proceeds to step 4, where the value is equal to or greater than the rth entry data and is equal to the entry data of S [r]. "1" is added to the array S [i] having the entry data, and in the following step 5, it is determined whether or not the processing up to the last character of the character string 2 has been completed, and it is determined that the processing has not been completed. When it does, it returns to step 2. On the other hand, when it is determined in step 3 that S [r] and S [r−1] are not equal, the process immediately proceeds to step 5 without executing the addition process of step 4.

【0029】ここで、ステップ2で読み込んだ文字列2
の文字が文字列1で複数回出現する場合には、出現位置
rの大きい順にステップ3及びステップ4の処理を実行
していくことになる。
Here, the character string 2 read in step 2
When the character of "1" appears multiple times in the character string 1, the processes of steps 3 and 4 are executed in descending order of the appearance position r.

【0030】そして、ステップ5で、文字列2の最後の
文字までの処理を終了したことを判断すると、ステップ
6に進んで、配列S[i] の最終要素のS[m] のエントリ
データKmax を最長共有文字数として出力していく。
When it is determined in step 5 that the processing up to the last character of the character string 2 has been completed, the operation proceeds to step 6 and the entry data Kmax of the last element S [m] of the array S [i]. Is output as the maximum number of shared characters.

【0031】この処理フローの実行により、例えば、文
字列1のアミノ酸配列が“ABCBDAB”で表現さ
れ、文字列2のアミノ酸配列が“BDCABA”で表現
される場合には、文字列2の第1番目の文字Bの読込処
理に従って、図6の出現表から“r=7,4,2”が特
定されて、図7(a)に示すように配列S[i] のエント
リデータが更新され、文字列2の第2番目の文字Dの読
込処理に従って、図6の出現表から“r=5”が特定さ
れて、図7(b)に示すように配列S[i] のエントリデ
ータが更新され、文字列2の第3番目の文字Cの読込処
理に従って、“r=3”が特定されて、図8(a)に示
すように配列S[i] のエントリデータが更新され、文字
列2の第4番目の文字Aの読込処理に従って、図6の出
現表から“r=6,1”が特定されて、図8(b)に示
すように配列S[i] のエントリデータが更新される。
By executing this processing flow, for example, when the amino acid sequence of the character string 1 is represented by "ABCBDAB" and the amino acid sequence of the character string 2 is represented by "BDCABA", the first character string 2 According to the reading process of the second character B, “r = 7, 4, 2” is specified from the appearance table of FIG. 6, and the entry data of the array S [i] is updated as shown in FIG. According to the reading process of the second character D of the character string 2, "r = 5" is specified from the appearance table of FIG. 6, and the entry data of the array S [i] is updated as shown in FIG. 7B. Then, "r = 3" is specified according to the reading process of the third character C of the character string 2, and the entry data of the array S [i] is updated as shown in FIG. According to the reading process of the fourth character A of No. 2, “r = 6, 1” from the appearance table of FIG. Is specified, the entry data of the array S [i] is updated as shown in Figure 8 (b).

【0032】そして、文字列2の第5番目の文字Bの読
込処理に従って、図6の出現表から“r=7,4,2”
が特定されて、図9(a)に示すように配列S[i] のエ
ントリデータが更新され、文字列2の第6番目の文字A
の読込処理に従って、図6の出現表から“r=6,1”
が特定されて、図9(b)に示すように配列S[i] のエ
ントリデータが更新されていって、最終的に、“4”と
いう最長共有文字数が特定されることになる。なお、図
7ないし図9に示す配列S[i] では、システムの便宜
上、文字列1より1文字多いサイズを持つ配列S[i] に
従うもので示してある。
Then, according to the reading process of the fifth character B of the character string 2, "r = 7, 4, 2" is found from the appearance table of FIG.
Is specified, the entry data of the array S [i] is updated as shown in FIG. 9A, and the sixth character A of the character string 2 is updated.
According to the reading process of “r = 6, 1” from the appearance table of FIG.
Is specified, the entry data of the array S [i] is updated as shown in FIG. 9B, and finally, the longest shared character number of "4" is specified. Note that the array S [i] shown in FIGS. 7 to 9 is shown to follow the array S [i] having a size one character larger than the character string 1 for convenience of the system.

【0033】次に、図4及び図5に従って、検査対象と
なる2つのアミノ酸配列の持つ最長共有部分列と、その
展開位置を検出するための処理について説明する。LC
S検出部30は、文字列1で表現されるアミノ酸配列
と、文字列2で表現されるアミノ酸配列との間の最長共
有部分列と、その展開位置とを検出する場合には、図4
の処理フローに示すように、先ず最初に、ステップ10
で、文字列1から1文字ずつ読み込んで、文字列1中で
の各文字の出現位置を示す表を作成する。すなわち、図
6で説明した出現表を作成するのである。そして、この
ステップ1では、更に、以下の処理で用いる文字列1と
同じサイズを持つ配列S[i] の初期化処理を実行して、
各エントリにゼロ値を設定するとともに、以下の処理で
用いる最長共有文字数と同じサイズを持つ配列data[k]
の初期化処理を実行して、各エントリが何もポイントし
ないように設定する。
Next, with reference to FIGS. 4 and 5, a process for detecting the longest shared partial sequence of two amino acid sequences to be inspected and its expanded position will be described. LC
When the S detection unit 30 detects the longest shared partial sequence between the amino acid sequence represented by the character string 1 and the amino acid sequence represented by the character string 2 and its expanded position, the S detection unit 30 shown in FIG.
As shown in the processing flow of FIG.
Then, one character is read from the character string 1 and a table showing the appearance positions of each character in the character string 1 is created. That is, the appearance table described in FIG. 6 is created. Then, in this step 1, initialization processing of the array S [i] having the same size as the character string 1 used in the following processing is further executed,
An array data [k] that has the same size as the maximum number of shared characters used in the following process, with a zero value set for each entry
Perform the initialization process of to make each entry point to nothing.

【0034】次に、ステップ11で、文字列2から1文
字(j番目の文字)を読み込み、ステップ10で作成し
た出現表を参照して、その文字の文字列1での出現位置
rを特定する。続いて、ステップ12で、用意されてい
る配列S[i] のr番目のS[r] のエントリデータと、(r
−1)番目のS[r−1]のエントリデータとが等しいか否か
を判断する。このステップ12で、S[r] とS[r−1]と
が等しいと判断するときには、ステップ13に進んで、
r番目以上で、かつS[r] のエントリデータと等しい値
のエントリデータを持つ配列S[i] に“1”を加算し、
一方、等しくないと判断するときには、図5の処理フロ
ーのステップ17の処理に進んで、この加算処理を実行
しないよう処理する。ここで、ステップ11で読み込ん
だ文字列2の文字が文字列1で複数回出現する場合に
は、出現位置rの大きい順にステップ12及びステップ
13の処理を実行していくことになる。
Next, in step 11, one character (jth character) is read from the character string 2 and the appearance table created in step 10 is referenced to identify the appearance position r of the character in the character string 1. To do. Then, in step 12, the r-th S [r] entry data of the prepared array S [i] and (r
It is determined whether or not the (-1) th entry data of S [r-1] is equal. When it is determined in step 12 that S [r] and S [r−1] are equal, the process proceeds to step 13,
"1" is added to the array S [i] having the entry data whose value is equal to or greater than the entry data of S [r], which is the r-th,
On the other hand, when it is determined that they are not equal, the process proceeds to step 17 in the process flow of FIG. 5 and the addition process is not executed. Here, when the character of the character string 2 read in step 11 appears multiple times in the character string 1, the processes of step 12 and step 13 are executed in descending order of the appearance position r.

【0035】このようにして設定されるS[r] のエント
リデータの値kが、文字列1のr番目の文字までの文字
列と、文字列2のj番目の文字までの文字列との間の最
長共有文字数となる。このように、LCS検出部30
は、最長共有部分列を検出していく場合にも、図3の処
理フローで説明した最長共有文字数を検出していく処理
を実行していくものである。
The value k of the entry data of S [r] set in this way is obtained by comparing the character string up to the r-th character of character string 1 and the character string up to the j-th character of character string 2. It becomes the maximum number of shared characters between. In this way, the LCS detector 30
In the case of detecting the longest shared subsequence, the process of detecting the longest shared character number described in the processing flow of FIG. 3 is executed.

【0036】ステップ13の処理を実行すると、続い
て、ステップ14で、得られたS[r]のエントリデータ
である最長共有文字数kに従って、文字列1での展開位
置rと、文字列2での展開位置jとの対データ(r,
j)を配列data[k] に格納する。ここで、配列S[i] が
前回の処理サイクルのものから変化していないときに
は、この格納処理を実行しないように処理する。最長共
有部分列は、以下の処理に従って、このデータ構造を連
結していくことで求められることになる。
When the processing of step 13 is executed, subsequently, in step 14, according to the longest shared character number k which is the entry data of S [r] obtained, the expansion position r in the character string 1 and the character string 2 Paired data (r,
j) is stored in the array data [k]. Here, when the array S [i] has not changed from that in the previous processing cycle, processing is performed so as not to execute this storage processing. The longest shared subsequence is obtained by concatenating this data structure according to the following processing.

【0037】続いて、図5の処理フローに移って、ステ
ップ15で、data[k-1] に格納された文字位置r',j'
を参照して、 r' <r, j' <j が成立するか否かを判断し、成立すると判断するときに
は、文字位置の逆転が起こらないことに対応して、ステ
ップ16に進んで、文字位置r',j' を次候補となるも
のとしてポインタを張って登録する。そして、続くステ
ップ17で、文字列2の最後の文字までの処理を終了し
たのか否かを判断して、終了していないことを判断する
ときには、図4の処理フローのステップ11に戻ってい
く。一方、ステップ15で、上述の関係式が成立しない
と判断するときには、ステップ16の処理を実行するこ
となく、直ちにステップ17の処理に入っていく。
Subsequently, moving to the processing flow of FIG. 5, in step 15, the character positions r ', j'stored in data [k-1] are stored.
It is determined whether r '<r, j'<j is satisfied by referring to, and when it is determined that it is satisfied, in response to the fact that the character position is not reversed, the process proceeds to step 16 The position r ′, j ′ is registered as a next candidate by setting a pointer. Then, in the following step 17, it is determined whether or not the processing up to the last character of the character string 2 has been completed. When it is determined that the processing has not been completed, the processing returns to step 11 of the processing flow of FIG. .. On the other hand, when it is determined in step 15 that the above relational expression is not satisfied, the process of step 16 is immediately executed without executing the process of step 16.

【0038】そして、ステップ17で、文字列2の最後
の文字までの処理を終了したことを判断すると処理を終
了する。この図4及び図5の処理フローの実行により、
上述のように、文字列1のアミノ酸配列が“ABCBD
AB”で表現され、文字列2のアミノ酸配列が“BDC
ABA”で表現される場合には、文字列2の第1番目
(j=1)の文字Bの読込処理に従って、図6の出現表
から“r=7,4,2”が特定されて、図7(a)に示
したように、“r=7”に従って“S[7] =1”が特定
されることでdata[1] に(7,1)が格納され、“r=
4”に従って“S[4] =1”が特定されることでdata
[1] に(4,1)が格納され、“r=2”に従って“S
[2] =1”が特定されることでdata[1] に(2,1)が
格納される。
When it is determined in step 17 that the processing up to the last character of the character string 2 has been completed, the processing is completed. By executing the processing flows of FIGS. 4 and 5,
As described above, the amino acid sequence of character string 1 is "ABCBD.
It is represented by "AB" and the amino acid sequence of character string 2 is "BDC.
In the case of being represented by “ABA”, “r = 7, 4, 2” is specified from the appearance table of FIG. 6 according to the reading process of the first (j = 1) character B of the character string 2, As shown in FIG. 7A, (7,1) is stored in data [1] by specifying "S [7] = 1" according to "r = 7", and "r =
"S [4] = 1" is specified according to "4"
(4, 1) is stored in [1], and “S =” is entered according to “r = 2”.
When [2] = 1 ”is specified, (2,1) is stored in data [1].

【0039】そして、文字列2の第2番目(j=2)の
文字Dの読込処理に従って、図6の出現表から“r=
5”が特定されて、図7(b)に示したように、“S
[5] =2”が特定されることでdata[2] に(5,2)が
格納される。そして、文字列2の第3番目(j=3)の
文字Cの読込処理に従って、図6の出現表から“r=
3”が特定されて、図8(a)に示したように、“S
[3] =2”が特定されることでdata[2] に(3,3)が
格納される。そして、文字列2の第4番目(j=4)の
文字Aの読込処理に従って、図6の出現表から“r=
6,1”が特定されて、図8(b)に示したように、
“r=6”に従って“S[6] =3”が特定されることで
data[3] に(6,4)が格納され、“r=1”に従って
“S[1] =1”が特定されることでdata[1] に(1,
4)が格納される。
Then, according to the reading process of the second (j = 2) character D of the character string 2, "r =
5 "is specified, and as shown in FIG.
[5] = 2 "is specified and (5,2) is stored in data [2]. Then, according to the reading process of the third (j = 3) character C of character string 2, From the appearance table of 6, "r =
3 ”is identified, and as shown in FIG.
By specifying [3] = 2 ", (3, 3) is stored in data [2]. Then, according to the reading process of the fourth character A (j = 4) of the character string 2, From the appearance table of 6, "r =
6, 1 ”is identified, and as shown in FIG.
By specifying “S [6] = 3” according to “r = 6”,
(6, 4) is stored in data [3], and "S [1] = 1" is specified according to "r = 1".
4) is stored.

【0040】そして、文字列2の第5番目(j=5)の
文字Bの読込処理に従って、図6の出現表から“r=
7,4,2”が特定されて、図9(a)に示したよう
に、“r=7”に従って“S[7] =4”が特定されるこ
とでdata[4] に(7,5)が格納され、“r=4”に従
って“S[4] =3”が特定されることでdata[3] に
(4,5)が格納され、“r=2”に従って“S[2] =
2”が特定されることでdata[2] に(2,5)が格納さ
れる。そして、文字列2の第6番目(j=6)の文字A
の読込処理に従って、図6の出現表から“r=6,1”
が特定されて、図9(b)に示したように、“r=6”
に従って“S[6] =4”が特定されることでdata[4] に
(6,6)が格納される。なお、図9(b)から分かる
ように、“r=6”と“r=1”とで配列S[i] に変化
がないことから、(1,6)の格納処理は実行されな
い。
Then, in accordance with the reading process of the fifth (j = 5) character B of the character string 2, "r =" from the appearance table of FIG.
7, 4, 2 "is specified, and as shown in FIG. 9A," S [7] = 4 "is specified according to" r = 7 ", so that data [4] has (7, 4, 2). 5) is stored, “S [4] = 3” is specified according to “r = 4”, (4, 5) is stored in data [3], and “S [2] is stored according to“ r = 2 ”. ] =
By specifying "2", (2, 5) is stored in data [2]. Then, the 6th (j = 6) character A of character string 2 is stored.
According to the reading process of “r = 6, 1” from the appearance table of FIG.
Is specified, and as shown in FIG. 9B, “r = 6”
According to the above, “S [6] = 4” is specified, whereby (6, 6) is stored in data [4]. As can be seen from FIG. 9B, since the array S [i] does not change between “r = 6” and “r = 1”, the storage process of (1,6) is not executed.

【0041】そして、これらの文字位置情報(文字列1
と文字列2の持つ同一文字の展開位置を表示する)は、
data[k-1] に格納されたものと、data[k] に格納された
ものとで文字位置の逆転が起こらない場合には、それら
の間でポインタが張られていくことで、図10のよう
に、data[k] に格納されるのである。
The character position information (character string 1
And display the expansion position of the same character that character string 2 has),
When the character positions of the data stored in data [k-1] and the data stored in data [k] do not reverse, the pointers are set between them and It is stored in data [k] like.

【0042】最長共有部分列は、このdata[k] に格納さ
れる文字位置情報のポインタを辿っていくことで特定さ
れることになる。すなわち、図10の例で説明するなら
ば、“data[4] の(7,5)→data[3] の(6,4)→
data[2] の(5,2)→data[1] の(4,1)”という
連結に従って、最長共有部分列BDABと、文字列1及
び文字列2におけるその展開位置が特定され、“data
[4] の(7,5)→data[3] の(6,4)→data[2] の
(5,2)→data[1] の(2,1)”という連結に従っ
て、最長共有部分列BDABと、文字列1及び文字列2
におけるその展開位置が特定され、“data[4] の(7,
5)→data[3] の(6,4)→data[2] の(3,3)→
data[1] の(2,1)”という連結に従って、最長共有
部分列BCABと、文字列1及び文字列2におけるその
展開位置が特定され、“data[4] の(6,6)→data
[3] の(4,5)→data[2] の(3,3)→data[1] の
(2,1)”という連結に従って、最長共有部分列BC
BAと、文字列1及び文字列2におけるその展開位置が
特定されるのである。
The longest shared subsequence is specified by tracing the pointer of the character position information stored in this data [k]. That is, to explain using the example of FIG. 10, “(5, 5) of data [4] → (6, 4) of data [3] →
According to the concatenation of (5,2) of data [2] → (4,1) ”of data [1], the longest shared subsequence BDAB and its expansion position in the character string 1 and the character string 2 are specified, and“ data
According to the concatenation of (7, 5) of [4] → (6, 4) of data [3] → (5, 2) of data [2] → (2, 1) of data [1], the longest shared part Column BDAB and character string 1 and character string 2
The expansion position in is identified, and the data (4, (7,
5) → (6,4) of data [3] → (3,3) of data [2] →
According to the concatenation of (2, 1) ”of data [1], the longest shared subsequence BCAB and its expansion position in character string 1 and character string 2 are specified, and (6, 6) → data of“ data [4] → data
According to the concatenation of (4, 5) of [3] → (3, 3) of data [2] → (2, 1) of data [1], the longest shared subsequence BC
The BA and its expanded position in the character string 1 and the character string 2 are specified.

【0043】図11及び図12に、LCS検出部30
が、この連結を辿っていくことで最長共有部分列を特定
していくときに実行する処理フローを図示する。次に、
図2に示した遺伝子情報検査装置1の各処理部が、この
LCS検出部30の検出する最長共有文字数と、最長共
有部分列及びその展開位置とを受けて実行することにな
る処理について説明する。
11 and 12, the LCS detector 30 is shown.
However, the processing flow executed when the longest shared subsequence is specified by tracing this connection is illustrated. next,
A process to be executed by each processing unit of the genetic information test apparatus 1 shown in FIG. 2 in response to the longest shared character number detected by the LCS detection unit 30, the longest shared subsequence, and its expanded position will be described. ..

【0044】相同性判定部31は、LCS検出部30が
入力装置40から入力されてくるアミノ酸配列の文字列
(以下、入力アミノ酸配列と称する)と、アミノ酸配列
データベース50やモチーフデータベース60から与え
られるアミノ酸配列の文字列との間の最長共有文字数を
検出すると、その最長共有文字数と入力アミノ酸配列の
文字列長との割合値を検出して、その割合値が規定の基
準値よりも大きい場合には、入力アミノ酸配列が、アミ
ノ酸配列データベース50やモチーフデータベース60
から与えられるアミノ酸配列と相同であると判定し、基
準値よりも小さい場合には、相同でないと判定する。
The homology determination unit 31 is supplied from the amino acid sequence database 50 and the motif database 60, together with the character string of the amino acid sequence (hereinafter referred to as the input amino acid sequence) input by the LCS detection unit 30 from the input device 40. When the maximum number of shared characters between the amino acid sequence and the character string is detected, the ratio value between the maximum number of shared characters and the character string length of the input amino acid sequence is detected, and if the ratio value is greater than the specified reference value, Indicates that the input amino acid sequence is the amino acid sequence database 50 or the motif database 60.
It is determined that the amino acid sequence is homologous to the amino acid sequence given by, and if it is smaller than the reference value, it is determined that it is not homologous.

【0045】相同性探索部32は、相同性判定部31の
判定結果を利用して、入力アミノ酸配列と相同なアミノ
酸配列をアミノ酸配列データベース50から検索する。
そして、相同の関係にある場合には、相同性判定部31
により算出された割合値と、LCS検出部30により検
出された最長共有部分列とを表示部35を介してディス
プレイ装置42に表示する。
The homology search unit 32 uses the determination result of the homology determination unit 31 to search the amino acid sequence database 50 for an amino acid sequence homologous to the input amino acid sequence.
If there is a homology relationship, the homology determination unit 31
The ratio value calculated by and the longest shared partial sequence detected by the LCS detection unit 30 are displayed on the display device 42 via the display unit 35.

【0046】図13に、この表示例の一例を図示する。
この表示例は、ヒトチトクロームcとバクテリアチトク
ロームcという2つのアミノ酸配列の処理結果を表示す
るものであって、最長共有部分列については、両者のア
ミノ酸配列にどのような文字間隔でもって配置されてい
るかを示す表示形態に従って表示する構成を採ってい
る。すなわち、“GD{x3,3}G{x0,1}K
{x0,2}・・”と表示する形態を採って、ヒトチト
クロームcでは、“GD”の後3文字については一致し
ない文字が続いて、その後に“G”が続いて、その後直
ぐに“K”が続き、一方、バクテリアチトクロームcで
は、“GD”の後3文字については一致しない文字が続
いて、その後に“G”が続いて、その後1文字について
は一致しない文字が続いて、その後に“K”が続くとい
うように表示するものである。
FIG. 13 shows an example of this display example.
This display example shows the results of processing two amino acid sequences of human cytochrome c and bacterial cytochrome c. The longest shared subsequences are arranged in both amino acid sequences at any character intervals. It is configured to display according to the display form indicating whether or not. That is, "GD {x3,3} G {x0,1} K
In the form of displaying {x0,2} ... ", in human cytochrome c, three characters after" GD "are not matched, followed by" G ", and immediately after that," K ". On the other hand, in bacterial cytochrome c, "GD" is followed by three non-matching characters, followed by "G", followed by one non-matching character, and then one It is displayed such that "K" continues.

【0047】モチーフ探索部33は、相同性判定部31
の判定結果を利用して、先ず最初に、入力アミノ酸配列
と相同なモチーフ配列をモチーフデータベース60から
検索し、続いて、LCS検出部30の検出する最長共有
部分列と、その配列位置間の持つ文字列長とに従って、
この相同の関係にあるモチーフ配列が本来のモチーフ配
列であるか否かを判定する。例えば、“L”の後に規定
されない文字が6文字続いてその後に“L”が続き、こ
の“L”の総個数が5個となるロイシンジッパーという
モチーフ配列が、規定されない6文字まで含めて入力ア
ミノ酸配列に含まれているか否かをLCS検出部30の
検出結果に従ってチェックしていくのである。そして、
モチーフ探索部33は、入力アミノ酸配列がモチーフ配
列を持つ場合には、入力アミノ酸配列とモチーフ配列と
を表示部35を介してディスプレイ装置42に表示す
る。図14に、ロイシンジッパーを持つラット卵細胞カ
リウムチャンネルの表示例を図示する。
The motif search unit 33 is a homology determination unit 31.
First, a motif sequence homologous to the input amino acid sequence is searched from the motif database 60 by using the determination result of 1., and subsequently, the longest shared subsequence detected by the LCS detection unit 30 and the sequence position thereof are held. According to the string length and
It is determined whether or not this homologous motif sequence is the original motif sequence. For example, enter a motif sequence called leucine zipper that includes "L" followed by 6 unspecified characters, followed by "L", and the total number of "L" is 5, including up to 6 unspecified characters. Whether or not it is contained in the amino acid sequence is checked according to the detection result of the LCS detection unit 30. And
When the input amino acid sequence has a motif sequence, the motif search unit 33 displays the input amino acid sequence and the motif sequence on the display device 42 via the display unit 35. FIG. 14 illustrates a display example of a rat egg cell potassium channel having a leucine zipper.

【0048】アラインメント部34は、LCS検出部3
0の検出する最長共有部分列と、その展開位置とを受け
て、入力アミノ酸配列と、アミノ酸配列データベース5
0やモチーフデータベース60から与えられるアミノ酸
配列の持つ最長共有部分列が対応付けられるべく、この
2つのアミノ酸配列をアラインメントして表示部35を
介してディスプレイ装置42に表示する。図15に、こ
の表示例の一例を図示する。この表示例は、ヒトチトク
ロームcとバクテリアチトクロームcという2つのアミ
ノ酸配列の処理結果を表示するものであって、配列位置
間の持つ文字列長分に相当する空白を挿入していくこと
でアラインメント処理を実行していくことになる。
The alignment unit 34 includes the LCS detection unit 3
The input amino acid sequence and the amino acid sequence database 5 based on the longest shared subsequence of 0 detected and its expanded position
The two amino acid sequences are aligned and displayed on the display device 42 via the display unit 35 so that the longest shared partial sequence of the amino acid sequence given by 0 or the motif database 60 is associated with each other. FIG. 15 illustrates an example of this display example. This display example displays the processing result of two amino acid sequences of human cytochrome c and bacterial cytochrome c, and the alignment processing is performed by inserting a blank corresponding to the character string length between sequence positions. Will be executed.

【0049】[0049]

【発明の効果】以上説明したように、本発明によれば、
文字列で表現される検査対象アミノ酸配列と、文字列で
表現される比較対象アミノ酸配列との最長共有文字数や
最長共有部分列を検出する構成を採って、この最長共有
文字数や最長共有部分列に従って、検査対象アミノ酸配
列と比較対象アミノ酸配列との間の類似性を評価する構
成を採るものであることから、ダイナミックプログラミ
ング手法によるアミノ酸配列の比較方法に比べて、小さ
なメモリ容量で、かつ高速に2つのアミノ酸配列の類似
性を評価することができるのである。
As described above, according to the present invention,
According to the maximum number of shared characters and the longest shared substring, the maximum number of shared characters and the longest shared subsequence of the amino acid sequence to be examined expressed as a character string and the amino acid sequence to be compared expressed as a character string are detected. Since it has a configuration for evaluating the similarity between the amino acid sequence to be tested and the amino acid sequence to be compared, it has a smaller memory capacity and a higher speed than the method of comparing amino acid sequences by the dynamic programming method. The similarity of two amino acid sequences can be evaluated.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の一実施例である。FIG. 2 is an example of the present invention.

【図3】LCS検出部の実行する処理フローの一実施例
である。
FIG. 3 is an example of a processing flow executed by an LCS detection unit.

【図4】LCS検出部の実行する処理フローの一実施例
である。
FIG. 4 is an example of a processing flow executed by an LCS detection unit.

【図5】LCS検出部の実行する処理フローの一実施例
である。
FIG. 5 is an example of a processing flow executed by an LCS detection unit.

【図6】LCS検出部の作成する出現表の説明図であ
る。
FIG. 6 is an explanatory diagram of an appearance table created by the LCS detection unit.

【図7】配列S[i] の更新処理の説明図である。FIG. 7 is an explanatory diagram of update processing of the array S [i].

【図8】配列S[i] の更新処理の説明図である。FIG. 8 is an explanatory diagram of an updating process of the array S [i].

【図9】配列S[i] の更新処理の説明図である。FIG. 9 is an explanatory diagram of an updating process of the array S [i].

【図10】LCS検出部の作成するデータ構造の説明図
である。
FIG. 10 is an explanatory diagram of a data structure created by the LCS detection unit.

【図11】LCS検出部の実行する処理フローの一実施
例である。
FIG. 11 is an example of a processing flow executed by an LCS detection unit.

【図12】LCS検出部の実行する処理フローの一実施
例である。
FIG. 12 is an example of a processing flow executed by an LCS detection unit.

【図13】処理結果の表示形態の一実施例である。FIG. 13 is an example of a display form of processing results.

【図14】処理結果の表示形態の一実施例である。FIG. 14 is an example of a display form of processing results.

【図15】処理結果の表示形態の一実施例である。FIG. 15 is an example of a display form of processing results.

【符号の説明】[Explanation of symbols]

1 遺伝子情報検査装置 2 出力装置 10 検出手段 11 算出手段 12 出力制御手段 13 評価手段 20 検出手段 21 特定手段 22 出力制御手段 23 評価手段 DESCRIPTION OF SYMBOLS 1 Gene information test device 2 Output device 10 Detection means 11 Calculation means 12 Output control means 13 Evaluation means 20 Detection means 21 Identification means 22 Output control means 23 Evaluation means

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 検査対象のアミノ酸配列と、比較対象の
アミノ酸配列との間の類似性を評価する遺伝子情報検査
装置において、 アミノ酸を文字で表現する構成を採り、 かつ、文字列で表現される検査対象アミノ酸配列と、文
字列で表現される比較対象アミノ酸配列との最長共有文
字数を検出する検出手段(10)と、 上記検出手段(10)により検出される最長共有文字数と、
検査対象アミノ酸配列又は比較対象アミノ酸配列の文字
列長との割合を算出する算出手段(11)とを備えること
を、 特徴とする遺伝子情報検査装置。
1. A genetic information test apparatus for evaluating the similarity between an amino acid sequence to be examined and an amino acid sequence to be compared, wherein an amino acid is represented by a character and is represented by a character string. Amino acid sequence to be tested and a detection means (10) for detecting the longest shared character number between the comparison target amino acid sequence represented by a character string, and the longest shared character number detected by the detection means (10),
A genetic information inspection apparatus, comprising: a calculating means (11) for calculating a ratio of the inspection target amino acid sequence or the comparison target amino acid sequence to the character string length.
【請求項2】 検査対象のアミノ酸配列と、比較対象の
アミノ酸配列との間の類似性を評価する遺伝子情報検査
装置において、 アミノ酸を文字で表現する構成を採り、 かつ、文字列で表現される検査対象アミノ酸配列と、文
字列で表現される比較対象アミノ酸配列との最長共有部
分列を検出する検出手段(20)を備えることを、 特徴とする遺伝子情報検査装置。
2. A genetic information test apparatus for evaluating the similarity between an amino acid sequence to be tested and an amino acid sequence to be compared, wherein an amino acid is represented by a character and is represented by a character string. A genetic information testing apparatus comprising a detection means (20) for detecting the longest shared subsequence of a test amino acid sequence and a comparison amino acid sequence represented by a character string.
【請求項3】 請求項2記載の遺伝子情報検査装置にお
いて、 検査対象アミノ酸配列及び比較対象アミノ酸配列の持つ
最長共有部分列の配列位置を特定する特定手段(21)を備
えることを、 特徴とする遺伝子情報検査装置。
3. The genetic information test apparatus according to claim 2, further comprising a specifying means (21) for specifying the sequence position of the longest shared partial sequence of the amino acid sequence to be examined and the amino acid sequence to be compared. Genetic information testing device.
【請求項4】 請求項3記載の遺伝子情報検査装置にお
いて、 出力装置に対して2つのアミノ酸配列を出力する構成を
採って、この出力時に、特定手段(21)により特定される
配列位置に従って、この2つのアミノ酸配列の持つ最長
共有部分列が対応付けられるべく該アミノ酸配列をアラ
インメントして出力していくよう処理することを、 特徴とする遺伝子情報検査装置。
4. The genetic information test apparatus according to claim 3, wherein two amino acid sequences are output to an output device, and at the time of output, according to the sequence position specified by the specifying means (21), A genetic information inspection apparatus characterized in that the longest shared subsequences of these two amino acid sequences are aligned and output so that the longest shared subsequences are associated with each other.
【請求項5】 請求項3記載の遺伝子情報検査装置にお
いて、 出力装置に対して2つのアミノ酸配列の持つ最長共有部
分列を出力する構成を採って、この出力時に、特定手段
(21)により特定される配列位置に従って規定される該配
列位置間の持つ文字列長を、該最長共有文字列に対応付
けて出力していくよう処理することを、 特徴とする遺伝子情報検査装置。
5. The genetic information testing apparatus according to claim 3, wherein the longest shared partial sequence of the two amino acid sequences is output to the output device, and at the time of this output, the identifying means is provided.
A genetic information testing device, characterized in that the character string length between the array positions defined according to the array position specified by (21) is processed so as to be output in association with the longest shared character string. ..
JP2101292A 1992-02-06 1992-02-06 Device for examining genetic information Withdrawn JPH05219932A (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2101292A JPH05219932A (en) 1992-02-06 1992-02-06 Device for examining genetic information
US08/014,867 US6370479B1 (en) 1992-02-06 1993-02-08 Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US09/909,809 US20020072863A1 (en) 1992-02-06 2001-07-23 Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US09/910,071 US20020116146A1 (en) 1992-02-06 2001-07-23 Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US09/910,054 US7386400B2 (en) 1992-02-06 2001-07-23 Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US11/258,174 US20070016375A1 (en) 1992-02-06 2005-10-26 Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2101292A JPH05219932A (en) 1992-02-06 1992-02-06 Device for examining genetic information

Publications (1)

Publication Number Publication Date
JPH05219932A true JPH05219932A (en) 1993-08-31

Family

ID=12043146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2101292A Withdrawn JPH05219932A (en) 1992-02-06 1992-02-06 Device for examining genetic information

Country Status (1)

Country Link
JP (1) JPH05219932A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287717A (en) * 1994-02-28 1995-10-31 Fujitsu Ltd Device for extracting common structure
JP2020054271A (en) * 2018-10-01 2020-04-09 日本ソフトウェアマネジメント株式会社 Dna authentication method capable of individual identification with decomposed dna

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287717A (en) * 1994-02-28 1995-10-31 Fujitsu Ltd Device for extracting common structure
US6453064B1 (en) * 1994-02-28 2002-09-17 Fujitsu Limited Common structure extraction apparatus
JP2020054271A (en) * 2018-10-01 2020-04-09 日本ソフトウェアマネジメント株式会社 Dna authentication method capable of individual identification with decomposed dna

Similar Documents

Publication Publication Date Title
CN105793859B (en) System for detecting sequence variants
EP0561563A2 (en) Methods and apparatus for studying very large sets of data
US20020015948A1 (en) Computer-aided visualization of expression comparison
KR950704749A (en) OLIGOPROBE DISIGNSTATIONS: A COMPUTERIZED METHOD FOR DESIGNING OPTIMAL OLIGONUCLEOTIDE PROBES AND PRIMERS
US20070016375A1 (en) Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
JP2009520278A (en) Systems and methods for scientific information knowledge management
CN107491664B (en) Protein structure de novo prediction method based on information entropy
CN112466463B (en) Intelligent answering system based on tumor accurate diagnosis and treatment knowledge graph
JPH05219932A (en) Device for examining genetic information
CN110148443B (en) Identification method and system for clinical examination sample
JP3929418B2 (en) Information search program and medium on which information search program is recorded
US7599801B2 (en) Profile database and method for preparing profile
US20010016318A1 (en) Methods for extrating similar expression patterns and related biopolymers
WO2001045026A2 (en) Method and system for displaying dendrogram
TWI286203B (en) Single phonetic symbol retrieval method for electronic device and apparatus thereof
JP2003006329A (en) System for supporting diagnosis
Evers Comparative Transcriptomics of Candida albicans: Identifying Species-Specific Filamentation Genes Dependent on Environment
EP1640887A1 (en) Method for designing primer for realtime PCR
CN113838524B (en) S-nitrosylation site prediction method, model training method and storage medium
JP2001052082A (en) Inspection sample examined result display method
CN116153516A (en) Disease big data mining analysis system based on distributed computing
JPH07155169A (en) Method for displaying and extracting local similar sequence in biopolymer and device therefor
Bender et al. Combination Bayesian and logical approach to analysis of normal and abnormal chromosome spreads
JP2003509062A (en) Method for determining nucleic acid and / or amino acid sequence
Muzammil et al. Entity Matching Analysis using SIF, RNN, Attention and Hybrid Methods for Research Article Similarity

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518