JP3611601B2 - リスト処理システムとその方法 - Google Patents

リスト処理システムとその方法 Download PDF

Info

Publication number
JP3611601B2
JP3611601B2 JP20830894A JP20830894A JP3611601B2 JP 3611601 B2 JP3611601 B2 JP 3611601B2 JP 20830894 A JP20830894 A JP 20830894A JP 20830894 A JP20830894 A JP 20830894A JP 3611601 B2 JP3611601 B2 JP 3611601B2
Authority
JP
Japan
Prior art keywords
sequence
list
lists
search
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20830894A
Other languages
English (en)
Other versions
JPH0877177A (ja
Inventor
保 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20830894A priority Critical patent/JP3611601B2/ja
Publication of JPH0877177A publication Critical patent/JPH0877177A/ja
Priority to US08/904,425 priority patent/US5873082A/en
Application granted granted Critical
Publication of JP3611601B2 publication Critical patent/JP3611601B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、複数のデータを有する複数のリストを処理して、それらの間の特徴を抽出するリスト処理システムとその方法に関する。
【0002】
【従来の技術】
近年のバイオテクノロジーの進歩が社会に及ぼす影響は、日増しに増大しつつある。特に、遺伝子の本体であるデオキシリボ核酸(DNA)分子に組み換え等の操作を施す遺伝子工学や、既存の蛋白質を基にして新しい蛋白質を作り出す蛋白質工学の発達には著しいものがある。
【0003】
DNAは、塩基、糖(デオキシリボース)、リン酸から成るヌクレオチドと呼ばれる構成単位から成る高分子である。このうち、DNAを構成する塩基には、アデニン(A)、チミン(T)、シトシン(C)、グアニン(G)の4種類がある。それぞれのヌクレオチド間では、デオキシリボースとリン酸同士が結合して鎖状に繋がり、2本の鎖が互いに塩基で結びついた二重螺旋構造を持つ。
【0004】
塩基同士の結びつきには規則性があり、AとT、CとGがそれぞれ結合する。これらの塩基のDNA内における配列順序がDNAの種類、すなわち遺伝子の種類を決めている。
【0005】
このようにDNAの塩基配列が遺伝情報を記述しているため、遺伝子工学においては、与えられたDNAの複雑な塩基配列(遺伝子配列)を正確かつ迅速に解析する技術が必要不可欠である。
【0006】
蛋白質は、種類の異なる多数のアミノ酸がペプチド結合により鎖状に連結した高分子化合物である。アミノ酸だけからできているポリペプチドは単純蛋白質と呼ばれ、アミノ酸と核酸、炭水化物、リン酸等が結合したものは複合蛋白質と呼ばれる。蛋白質の多様な機能は、ポリペプチド鎖を作るアミノ酸の配列順序やポリペプチド鎖の幾何学的配置等により決められている。したがって、蛋白質工学においては、与えられた蛋白質のアミノ酸配列を正確かつ迅速に解析する技術が必要となる。
【0007】
従来より遺伝子や蛋白質の性質を調べるために、その塩基配列やアミノ酸配列をデータベースに格納された既知の配列データと比較して、与えられた遺伝子等との間にホモロジー(相同性)を有する配列データを求める手法が採られている。このようにデータベース内の類似配列を検索する手法はホモロジー検索と呼ばれている。ホモロジー検索において、一般的には比較する2つの配列データの先頭からそれらの類似部分を検索していく。そして各部分の類似度を計算して配列全体としての類似性を評価する。
【0008】
しかし、このようなホモロジー検索の手法には確立されたものがあるわけではなく、様々な手法が併用され、比較されながら用いられている。また、検索のために用いられる既存のデータベースにも、複数の異なるものが存在する。同じ配列データを対象にしてホモロジー検索を行っても、その検索結果は用いた手法やデータベース、また、検索の際に与えるパラメータ等によって異なってくる。
【0009】
従来は、いくつかの手法やパラメータ等を組み合わせて何回かホモロジー検索を行い、それらの結果を比較して検索データの取捨選択を行ったり、最適な検索手法やパラメータを決定したりしていた。
【0010】
そして、個々のホモロジー検索結果をリスト形式で出力し、手作業でそれらの結果の間の類似点や相違点を調べていた。
【0011】
【発明が解決しようとする課題】
しかしながら従来の作業方法においては、ホモロジー検索結果が少ない場合は手作業で対処できるが、その数が増えるにしたがって時間もかかるし、間違いも多くなるという問題がある。
【0012】
また、最近の遺伝子及びアミノ酸配列自動読み取り装置の普及と、遺伝子情報の解明を目的としたヒトゲノムプロジェクトなどのビックプロジェクトの成果として、配列データの件数が飛躍的に増加したのに伴い、個々の検索結果に含まれるデータは既に人間の手作業では対処できない数に達している。
【0013】
本発明は、複数のデータを有する複数のリストを効率的に処理して、それらの間の特徴を抽出するリスト処理システムとその方法を提供することを目的とする。
【0014】
さらに詳しくは、バイオテクノロジー等の分野におけるホモロジー検索の結果を項目別に分類管理することにより、それらの結果の類似点や相違点等の特徴を明確に示すことを目的とする。
【0015】
【課題を解決するための手段】
本発明は、データベースに格納されたデータを処理する情報処理装置におけるリスト処理システムとその方法である。
【0016】
図1は本発明のリスト処理システムの原理図である。本発明のリスト処理システムは、リスト格納手段1、特徴抽出手段2、および特徴表示手段3を備え、データベース4に格納されたデータを用いて処理を行う。
【0017】
リスト格納手段1は、データベース4の検索結果であってデータベース4に格納された複数のデータより構成されるリストを複数格納し、データを検索するときに用いた情報を得られたリストのファイル名に付加して格納する。
【0018】
また、リスト格納手段1は、リストを構成する複数のデータに順位を付加して格納し、データに順位を付加するときに用いた情報をそのリストのファイル名に付加して格納する。
【0019】
データベース4がホモロジー検索のためのデータベースである場合は、リスト格納手段1は、検索により得られた、与えられたデータに類似したデータの識別子に順位を付加して得られるリストを複数格納する。またリスト格納手段1は、上記与えられたデータの識別名、上記類似したデータの識別子に順位を付加するときに用いた手法の識別名、データベース4の識別名、上記手法のパラメータ等の情報のうちいずれかを前記リストのファイル名に付加して格納し、複数のリストを管理する。
【0020】
特徴抽出手段2は、リスト格納手段1に格納された複数のリストの間の類似点や相違点等の特徴を抽出して出力する。
特徴表示手段3は、ウィンドウ機能およびグラフィック機能を有し、複数のリストのファイル名を並べて画面表示し、ユーザがいくつかのファイル名を指定すると、指定されたファイル名を持つリストの内容を画面表示する。また特徴表示手段3は、ウィンドウ機能またはグラフィック機能を用いて特徴抽出手段2が出力する上記特徴を画面表示する。
【0021】
例えば図3に示されるように、本発明のリスト格納手段1は結果ファイル格納部15であり、特徴抽出手段2はホモロジー検索結果処理プログラム12を実行する不図示のプロセッサであり、特徴表示手段3はホモロジー検索結果処理プログラム12を実行するプロセッサと端末13である。
また、本発明の別のリスト処理システムは、リスト格納手段1、プロセッサ、および表示手段を備え、与えられた塩基配列またはアミノ酸配列の配列データに類似する配列データを配列データベースから検索するホモロジー検索により得られたリストを処理する。プロセッサは、与えられた配列データに類似する複数の配列データの識別子を類似度順に含むリストに、ホモロジー検索に用いた検索方法名、ホモロジー検索に用いた配列データベース名、類似度を高めるために連続する2つの塩基またはアミノ酸の間に挿入されたギャップに対するペナルティの値、および検索時に一度に比較される部分配列に含まれる塩基またはアミノ酸の数を示す情報を含むファイル名を付加して、リスト格納手段1に格納する。表示手段は、与えられた配列データに対する複数回のホモロジー検索の結果としてプロセッサによりリスト格納手段1に格納された複数のリストのファイル名を一覧表示し、特定の検索方法または配列データベースが選択されたとき、表示された複数のリストのうち、選択された検索方法または配列データベースを示す情報を含むファイル名が付加されている2つ以上のリストの内容を表示する。そして、プロセッサは、2つ以上のリストのすべてに含まれている配列データ、2つ以上のリストの同じ順位にある同じ配列データ、2つ以上のリストの1つに含まれていないが他のリストに含まれている配列データ、または2つ以上のリストのすべてに含まれている配列データとは異なる配列データを特徴として抽出し、表示手段は、抽出された特徴を画面表示する。
【0022】
【作用】
リスト格納手段1が与えられたデータや手法の識別名等の情報をリストのファイル名に付加して管理し、特徴表示手段3がそれらの識別名等を付加されたファイル名を画面に表示するので、ユーザは各リストがどのようにして得られたのかを一目で認識できる。また、表示されたファイル名を持つリストの中から特定の情報を持つリストを容易に選ぶことができる。
【0023】
例えば、ホモロジー検索により得られた配列データの配列名のリストに、検索対象の配列名や検索手法名等をファイル名として付加すれば、リスト(ファイル)の内容を見なくても、どのような検索結果が格納されたファイルであるかが分かる。
【0024】
また、特徴抽出手段2が複数のリストの間の類似点や相違点等の特徴を抽出して、特徴表示手段3が抽出された特徴を分かりやすく画面に表示するので、複数のリストの間の特徴を効率よく把握することが出来る。ホモロジー検索結果の処理においては、従来のように検索された配列名を手作業で比較する必要がなく、検索結果に含まれる配列名が膨大な数になる場合や多数の検索結果のリストを比較する場合でも、高速にリストを処理することができる。グラフィック機能を用いて、抽出された特徴をグラフ表示すれば、より明確に特徴を認識できる。
【0025】
【実施例】
以下、本発明のバイオテクノロジーの分野における実施例について、図面を参照しながら詳細に説明する。
【0026】
図2は、バイオテクノロジーの分野におけるホモロジー検索結果に影響を与える複数の項目を示している。図2において、配列は、検索の対象となる遺伝子の塩基配列または蛋白質のアミノ酸配列である。
【0027】
ホモロジー検索手法としては、FASTA、BLAST(Basic Local Alignment Search Tool )、Smith−Waterman法等が知られている。FASTAは、比較する2つの配列データを単位長さ毎に区切って、この比較単位をずらしながら類似度を計算する手法である。BLASTはFASTAと似ているが、FASTAより部分的な類似性を高く評価する手法であり、またFASTAよりも高速に結果が得られる。Smith−Waterman法は正確な結果が得られるが、複数のアルゴリズムを用いるため時間がかかる。
【0028】
既知の配列データベースとしては、我が国のDDBJ(DNA Data Bank of Japan)、アメリカのGenBank (Genetic Sequence Data Bank)、ヨーロッパのEMBL(European Molecular Biology Laboratory )のヌクレオチド配列データベース、NBRF(National Biomedical Research Foundation )の核酸配列データベース、SWISS−PROT(Swiss Protein Sequence Data Bank)等がある。
【0029】
また、パラメータは、各ホモロジー検索手法において用いられるパラメータであり、その値の取り方によって同じ検索手法を用いても結果が変わってくる。
当然の事ながら、これらの検索結果がユーザ毎に必要になり、それらを必要に応じて表示しなくてはならない。そこで結果ファイル群のデータをファイル名の指定により簡単に読み込むことができるようなシステムが必要になる。
【0030】
図3は、本発明の実施例のホモロジー検索結果処理システムの構成を示している。図3のシステムは、既知の配列データを格納する配列データベース(配列DB)14、ホモロジー検索の結果得られた配列データのリストを格納する結果ファイル格納部15、入出力に用いられる端末13、プログラムを格納する不図示のプロググラムメモリ、およびプログラムを実行する不図示のプロセッサを有する。ホモロジー検索プログラム11とホモロジー検索結果処理プログラム12は、プロググラムメモリに格納され、プロセッサにより実行される。
【0031】
ホモロジー検索はある配列に対して相同性を持った配列を配列データベース14中より探すもので、相同性の高い順に検索結果を出力する。その際の指標となる数値は用いる手法によって異なるが、一般には同一性(Identity)と呼ばれる指標で表される。
【0032】
ホモロジー検索プログラム11は、複数のホモロジー検索手法に対応する複数の検索プログラムから成り、ホモロジー検索結果処理プログラム12から起動される。また、配列データベース14は、複数の異なるデータベースを表している。
【0033】
検索の対象となる配列は、ユーザによる端末13の操作により、キー入力、データベース検索、シーケンサ(配列読み取り装置)等の様々な方法で入力される。さらに端末13よりホモロジー検索手法及びそのパラメータや検索を行うデータベースが指定されると、ホモロジー検索結果処理プログラム12はその情報を指定されたホモロジー検索プログラム11に渡し、指定された配列データベース14内でのホモロジー検索を行わせ、その結果を受け取る。このとき受け取るホモロジー検索結果は、例えば検索された配列データの識別子(配列ID)やIdentity等である。
【0034】
ホモロジー検索結果処理プログラム12は、ホモロジー検索結果を一旦結果ファイル格納部15に格納し、次に指定された検索手法やパラメータに従ってホモロジー検索プログラム11を起動し、同一の配列について検索を行わせる。これを繰り返すことにより、同一の配列を対象とした複数の結果ファイルが得られる。その後ホモロジー検索結果処理プログラム12は、各結果ファイルの間の類似点や相違点等の特徴を抽出し、端末13に表示する。抽出された結果ファイル間の特徴は、不図示のプリンタ等を用いて出力することもできる。
【0035】
本実施例のシステムはUNIX環境を前提としており、各ファイルはUNIXの持つディレクトリ構造の中に作成される。結果ファイルは、図4に示すように、ユーザのホームディレクトリ配下の本システム専用のディレクトリhsの配下に作成される。
【0036】
結果ファイルのファイル名は、図4に示すように、図2の分類項目毎に区切られ、配列名、手法名、データベース(DB)名の各識別名、およびパラメータから成る。例えば図4のファイル名HIV11 FASTA SW 5.5.1のうち、HIV11は検索対象となる未知の配列名を表し、FASTAは検索に用いる手法名を表し、SW(SWISS−PROT)は検索に用いるデータベース名を表し、5.5.1はFASTAで用いられるパラメータを表す。このような命名規約によりファイル名を管理すれば、どの配列についてどの手法、データベース、パラメータを用いて検索したのかがファイル名から一目瞭然となる。
【0037】
図5は、ディレクトリhsの配下に作成された結果ファイル名のリストの一例である。HIV(Human Immunodeficiency Virus)、LYSO(Lysozyme)、UBIQ(Ubiquitin )、LECTIN、TRYPSINは検索対象の配列名を表し、FASTA1、FASTAN、FASTAOは互いに異なる3種のFASTAを表し、SM−WTはSmith−Waterman法を表す。SWはデータベースSWISS−PROTを表し、5.2.1等はそれぞれの検索手法において用いたパラメータである。
【0038】
図5の各結果ファイルのデータ構造の一例が図6に示されている。図6の結果ファイルは、基本的にはそのファイル名に記述された情報の詳細な内容と、検索された配列に関する情報とから成っている。
【0039】
図6の例では、ファイル名に5.2.1と記されたパラメータが、ギャップペナルティ(Gap Penalty )U=5、ギャップペナルティV=2、ktup=1であることを示しているのがわかる。ktupは、FASTAにおいて一度に比較する部分配列に含まれる構成単位(塩基、アミノ酸等)の数を表す。例えば、ここでは構成単位を1個ずつ比較していくことを表している。ギャップペナルティU、ギャップペナルティVについては後述する。
【0040】
また、検索対象(TARGET)の実際の配列名はHIV−1 PROTEASEであり、検索したデータベースはSWISS−PROTであることがわかる。
LISTは、検索されたデータベース内の配列のエントリー名をそのスコアとともに、スコアの高い順に並べたリストである。配列のエントリー名は、図2の各データベース毎に決められた配列データの識別子あるいは識別名であり、図6ではSWISS−PROTのエントリー名として、例えばHIV MANMA等が示されている。スコアは配列データのIdentityを表し、その値が大きいほど検索対象の配列に類似していることを示す。例えばHIV MANMAのスコアは1133であり、この検索結果においてはHIV−1 PROTEASEに最も類似していると考えられる。
【0041】
図7は、FASTAによるスコア計算に用いられるスコアテーブルの一例を示している。図7のスコアテーブルは、2つのアミノ酸の間の類似度を表すマトリクスであり、その行と列はそれぞれAからXまでのアミノ酸の名称を成分として持つ。Xはアミノ酸名が具体的に特定できない場合に相当する。各行と各列の交点の数値がそれらのアミノ酸の類似度であり、値が大きいほど類似度が高いことを示す。この数値はそれぞれのアミノ酸の性質等から決められている。このようなスコアテーブルは一般に数種類考案されており、検索の対象となる配列によって使い分けられている。
【0042】
FASTAにおいては、検索対象のアミノ酸配列とデータベース中の配列データのうち、一方の配列中のアミノ酸をスコアテーブルの行内で探し、対応するもう一方の配列中のアミノ酸をスコアテーブルの列内で探して、それらの交点の数値をその配列データのスコアに加算する。そして、対象となる全てのアミノ酸について加算が終了した時点で、あるしきい値より大きなスコアを持つ配列データを検索対象のアミノ酸配列の類似配列と考える。
【0043】
しかしながら、連続する配列のペアを順次比較するだけでは、配列データのスコアは必ずしも大きくならないので、連続する2つのアミノ酸の間にギャップを挿入して類似度を高める手法が用いられる。
【0044】
図8は、FASTAにより求められた配列データの一例を示している。図8において、各アルファベットは図7のマトリクスの行に示されるようなアミノ酸の名称を表し、記号「−」はギャップを表す。これらの配列データにおいては、★印を付加した位置のアミノ酸が全て一致している。もしギャップを入れないで配列データを検索すれば、例えば下から3番目の配列A33813の左端には他の配列と異なるアミノ酸G、Sがあるため、他の配列とはかなりずれてしまい、そのスコアは小さくなる。したがって、複数の★印の位置に他の配列と一致するアミノ酸があるにも関わらず、この配列は検索結果には現れない可能性が高い。
【0045】
このようにギャップを入れることによって、見落とす可能性のあった配列データを検索することができるが、これを多用するとスコアを無制限に大きくすることができるため、類似とはいえないような配列データまで検索される危険性がある。これを防ぐために、ギャップを入れた場合には次式で算出されるペナルティPをスコアから減じて、スコアの増大を抑えている。
P=UL+V (1)
(1)式においてU、Vは図6のギャップペナルティであり、この場合はU=5、V=2である。またLは挿入したギャップの長さ(構成単位数)である。(1)式からわかるように、ペナルティPはLの一次関数で表される。ギャップペナルティU、Vの値は、ktupとともに、ホモロジー検索のパラメータとして与えられる。これらのパラメータのとり方によってスコアが変わるため、検索される配列データも変わってくる。
【0046】
図9から図12までは、蛋白質の一種であるCYTOCHROMEを対象としてFASTAにより得られたホモロジー検索の結果ファイルの一例を示している。
図9にはデータベース中の検索されたファイル名が示されており、図10には検索により類似配列として求められた配列データの個数がスコアの範囲とともに示されている。図10において、左端の列の数値はスコアの範囲を表し、initn の列の数値はギャップを入れて計算した場合の該当するスコアを持つ配列データの個数を表し、init1 の列の数値はギャップを入れないで計算した場合の該当するスコアを持つ配列データの個数を表す。
【0047】
その右側のグラフはinitn およびinit1 の場合の配列データの個数を示している。「=」、「−」、「+」は、それぞれ2個分の配列データを表す。「−」はinit1 の場合の配列データを表し、「+」はinitn の場合にギャップを入れることにより新たに増えた配列データを表す。
【0048】
図11および図12は、init1 のスコアが33を越える配列データの名称とそのスコアのリストである。図11の1行目には、42215個の配列データ中の12411076個のアミノ酸について比較が行われたことが示され、続いてinitn およびinit1 の場合のスコアの平均値が示されている。また、4行目の5864はinit1 の場合のスコアが33を越える配列データの個数を表す。
【0049】
initn の列の数値はギャップを入れて計算したスコアを表し、init1 の列の数値はギャップを入れないで計算したスコアを表す。また、opt の列の数値はinit1 の場合の結果に対して公知のNeedleman−Wunsh−Sellers のアライメントを行い、スコアを計算し直した値を表す。図11および図12においては、initn の場合のスコアの大きな順に配列名が並んでいる。検索手法や用いるパラメータが異なれば、一般に結果ファイルにおける配列名の順序が異なってくる。
【0050】
検索手法やパラメータを変えて得られる多数の結果ファイルが結果ファイル格納部15に格納されると、ホモロジー検索結果処理プログラム12は、得られた結果ファイル名のリストを端末13のディスプレイ上に表示する。
【0051】
図13は、図5に示される結果ファイルのうち、HIVに関するもののファイル名を表示した場合を示している。図13において、ユーザは任意の複数の結果ファイル名を選択して、選択された結果ファイルの配列データに関する処理をホモロジー検索結果処理プログラム12に行わせることができる。この選択操作は、端末13から特定の手法名やデータベース名を入力することにより行われる。
【0052】
例えば図13では、配列名HIV、データベース名SW、およびパラメータ5.2.1が指定され、手法名はワイルドカード*により無指定となっている。その結果該当するHIV FASTA1 SW 5.2.1、HIV FASTAN SW 5.2.1、HIV FASTAO SW 5.2.1の3つのファイル名が網がけ表示される。ホモロジー検索結果処理プログラム12は、これらの選択された結果ファイルを必要に応じて結果ファイル格納部15より読み込んで、各検索結果の類似点や相違点等の特徴を抽出し、それを端末13等に出力する。
【0053】
次に図14から31までを参照しながら、検索結果の特徴の表示例とその抽出方法について説明する。
図14、17、20、23、26、および29は、図13で選択された3つの結果ファイルについて抽出された様々な特徴の表示例を示している。これらの図において、画面上方にはTARGETとして、検索対象の配列名HIVが表示され、表示領域21、22、23にはそれぞれ結果ファイルHIV FASTA1 SW 5.2.1、HIV FASTAN SW 5.2.1、HIV FASTAO SW 5.2.1に含まれる配列データのエントリー名がスコアの高い順に表示されている。この場合はLOCUS 1 等が1つの配列データに相当するエントリー名である。また、表示領域21、22、23内の上部にはそれぞれの結果ファイルの手法名、パラメータ、データベース名が表示されている。
【0054】
また、図15、16、18、19、21、22、24、25、27、28、30、31は、ホモロジー検索結果処理プログラム12による特徴抽出処理のフローチャートである。
【0055】
図14は、選択された結果ファイルの全てに含まれている配列の表示例を示している。図14において、エントリー名LOCUS 1 、LOCUS 2 、LOCUS 3 、LOCUS 5 は3つの結果ファイルの全てに含まれているので、結果ファイル間の類似点として網がけ表示される。
【0056】
図15は、結果ファイルの選択処理および図14の類似点を抽出する処理のフローチャートである。図15において処理が開始されると、例えば図13のような結果ファイル名のリストが表示される(ステップS1)。次にユーザにより端末13から結果ファイル名の指定情報が入力されると(ステップS2)、指定情報に該当する結果ファイル名が選択され、網がけ表示される(ステップS3)。続いて、選択された各結果ファイルの内容が例えば図14のように表示される。このとき選択された結果ファイルの数はjmaxとして不図示のメモリに記憶される。次にユーザが、選択された結果ファイルに共通して含まれるエントリー名の検索を指示すると(ステップS4)、指示された検索が行われ、その結果が網がけ表示される(ステップS5)。
【0057】
図16は、ホモロジー検索結果処理プログラム12による図15のステップS5の処理のフローチャートである。図16の処理は、図15の処理から呼び出されるサブルーチン、あるいは図15の処理とは別のプロセスにより実行される。図16において、まず各結果ファイル内の配列のエントリー名をサブルーチンあるいは別プロセスに入力し(ステップS11)、i=1、1番目の結果ファイルのエントリー数をimaxとおく(ステップS12)。例えば図14の場合は、1番目の結果ファイルの内容は表示領域21に表示されており、imax=6となる。また2番目、3番目の結果ファイルの内容は、それぞれ表示領域22、23に表示されている。
【0058】
次にj=2とおき(ステップS13)、1番目の結果ファイルのi番目のエントリー名がj番目の結果ファイルに含まれるかどうかを判定する(ステップS14)。判定結果がYESの場合は、jに1を加算し(ステップS15)、続いてjとjmaxの値を比較する(ステップS16)。ステップS16でjがjmaxを越えていなければ(ステップS16、YES)、ステップS14以降の処理を繰り返す。
【0059】
ステップS16でjがjmaxを越えると(ステップS16、NO)、そのエントリー名が全ての結果ファイルに含まれることが分かるので、全ての結果ファイルの該当するエントリー名にフラグ(FLAG)を立てる(ステップS17)。そしてiに1を加算し(ステップS18)、続いてiとimaxの値を比較する(ステップS19)。
【0060】
ステップS14で判定結果がNOの場合は、ステップS15からS17の処理を行わずに、ステップS18の処理に進む。
ステップS19でiがimaxを越えていなければ(ステップS19、YES)、ステップS13以降の処理を繰り返し、iがimaxを越えると処理を終了する(ステップS19、NO)。その後、図15のステップS5では、フラグの立っている各結果ファイルのエントリー名が網がけ表示される。
【0061】
例えば図14の場合は、i=1、2、3、5にそれぞれ対応するLOCUS 1 、LOCUS 2 、LOCUS 3 、LOCUS 5 の各エントリー名についてステップS17の処理が行われ、表示領域21、22、23内のこれらのエントリー名が網がけ表示される。i=4、6に対応するエントリー名LOCUS 4 、LOCUS 6 については、それぞれj=3、2のときにステップS14の判定結果がNOとなり、ステップS17の処理は行われない。したがって、これらのエントリー名は網がけ表示されない。
【0062】
図17は、指定した結果ファイルの中の配列とは異なる配列の表示例を示している。図17においては、ユーザにより表示領域22の結果ファイルが指定され、他の結果ファイル内のエントリー名のうちLOCUS 6 とLOCUS 8 が指定された結果ファイルに含まれないので、これらのエントリー名が指定された結果ファイルとの相違点として表示領域21、22内で網がけ表示される。
【0063】
図18は、結果ファイルの選択処理および図17の相違点を抽出する処理のフローチャートである。図18のステップS21、S22、S23の処理は、図15のステップS1、S2、S3の処理と同様である。ステップS23の処理に続いて、ユーザが結果ファイルの指定を行い、その結果ファイルに含まれないエントリー名の検索を指示すると(ステップS24)、指示された検索が行われ、その結果が網がけ表示される(ステップS25)。
【0064】
図19は、ホモロジー検索結果処理プログラム12による図17のステップS25の処理のフローチャートである。図19において、まず指定された結果ファイルを1番目として、各結果ファイル内の配列のエントリー名をサブルーチン等に入力し(ステップS31)、i=1、1番目の結果ファイルのエントリー数をimaxとおく(ステップS32)。例えば図17の場合は、1番目の結果ファイルの内容は表示領域22に表示されており、imax=6である。また2番目、3番目の結果ファイルの内容は、それぞれ表示領域21、23に表示されている。
【0065】
次にj=2とおき(ステップS33)、指定された1番目の結果ファイルのi番目のエントリー名がj番目の結果ファイルに含まれるかどうかを判定する(ステップS34)。判定結果がYESの場合は、j番目の結果ファイルのそのエントリー名に負のフラグを立て(ステップS35)、jに1を加算し(ステップS36)、続いてjとjmaxの値を比較する(ステップS37)。ステップS34で判定結果がNOの場合は、ステップS35の処理を行わずにステップS36の処理に進む。
【0066】
ステップS37でjがjmaxを越えていなければ(ステップS37、YES)、ステップS34以降の処理を繰り返す。
ステップS37でjがjmaxを越えると(ステップS37、NO)、iに1を加算し(ステップS38)、続いてiとimaxの値を比較する(ステップS39)。
【0067】
ステップS39でiがimaxを越えていなければ(ステップS39、YES)、ステップS33以降の処理を繰り返し、iがimaxを越えると処理を終了する(ステップS39、NO)。その後、図18のステップS25では、負のフラグが立っていない、指定されなかった結果ファイルのエントリー名が網がけ表示される。
【0068】
例えば図17の場合は、指定された表示領域22の結果ファイルに含まれるLOCUS 1 、LOCUS 2 、LOCUS 4 、LOCUS 7 、LOCUS 3 、LOCUS 5 の各エントリー名についてステップS35の処理が行われ、表示領域21、23内のこれらのエントリー名は網がけ表示されない。一方、表示領域21内のLOCUS 6 と表示領域23内のLOCUS 8 についてはステップS35の処理は行われないので、これらのエントリー名が網がけ表示される。
【0069】
図20は、選択された結果ファイルの全てに含まれている配列とは異なる配列の表示例を示している。選択された結果ファイルの全てに含まれている配列のエントリー名は、図14に示したとおり、LOCUS 1 、LOCUS 2 、LOCUS 3 、LOCUS 5 の4つである。図20においては、それら以外のエントリー名であるLOCUS 4 、LOCUS 6 、LOCUS 7 、LOCUS 8 が、結果ファイル間の相違点として各表示領域内で網がけ表示される。
【0070】
図21は、結果ファイルの選択処理および図20の相違点を抽出する処理のフローチャートである。図21のステップS41、S42、S43の処理は、図15のステップS1、S2、S3の処理と同様である。ステップS43の処理に続いて、ユーザが選択された結果ファイルの全てに含まれている配列とは異なる配列の検索を指示すると(ステップS44)、指示された検索が行われ、その結果が網がけ表示される(ステップS45)。
【0071】
図22は、ホモロジー検索結果処理プログラム12による図21のステップS45の処理のフローチャートである。図22において、まず各結果ファイル内の配列のエントリー名をサブルーチン等に入力し(ステップS51)、i=1、1番目の結果ファイルのエントリー数をimaxとおく(ステップS52)。例えば図20の場合は、1番目の結果ファイルの内容は表示領域21に表示されており、imax=6である。また2番目、3番目の結果ファイルの内容は、それぞれ表示領域22、23に表示されている。
【0072】
次にj=2とおき(ステップS53)、1番目の結果ファイルのi番目のエントリー名がj番目の結果ファイルに含まれるかどうかを判定する(ステップS54)。判定結果がYESの場合は、jに1を加算し(ステップS55)、続いてjとjmaxの値を比較する(ステップS56)。ステップS56でjがjmaxを越えていなければ(ステップS56、YES)、ステップS54以降の処理を繰り返す。
【0073】
ステップS56でjがjmaxを越えると(ステップS56、NO)、そのエントリー名が全ての結果ファイルに含まれることが分かるので、これを網がけ表示させないために全ての結果ファイルの該当するエントリー名に負のフラグを立てる(ステップS57)。そしてiに1を加算し(ステップS58)、続いてiとimaxの値を比較する(ステップS59)。
【0074】
ステップS54で判定結果がNOの場合は、ステップS55からS57の処理を行わずに、ステップS58の処理に進む。
ステップS59でiがimaxを越えていなければ(ステップS59、YES)、ステップS53以降の処理を繰り返し、iがimaxを越えると処理を終了する(ステップS59、NO)。その後、図21のステップS45では、負のフラグが立っていない、全ての結果ファイルのエントリー名が網がけ表示される。
【0075】
例えば図20の場合は、i=1、2、3、5にそれぞれ対応するLOCUS 1 、LOCUS 2 、LOCUS 3 、LOCUS 5 の各エントリー名についてステップS57の処理が行われ、表示領域21、22、23内のこれらのエントリー名は網がけ表示されない。i=4、6に対応するエントリー名LOCUS 4 、LOCUS 6 については、それぞれj=3、2のときにステップS54の判定結果がNOとなり、ステップS57の処理は行われない。また、1番目の結果ファイルに含まれないエントリー名LOCUS 7 、LOCUS 8 についてもステップS57の処理は行われない。したがって、LOCUS 4 、LOCUS 6 、LOCUS 7 、LOCUS 8 のみが網がけ表示される。
【0076】
図23は、指定した配列が結果ファイルの中に含まれているかどうかを表示した例を示している。図23においては、ユーザによりエントリー名LOCUS 4 とLOCUS 5 が指定され、それぞれ別の網目を用いて網がけ表示される。このように、ユーザは任意の配列を指定して、それが選択された結果ファイル内に含まれているか否か、また、どの結果ファイル内に含まれているかを認識することができる。
【0077】
図24は、結果ファイルの選択処理および図23に示された指定エントリー名を抽出する処理のフローチャートである。図24のステップS61、S62、S63の処理は、図15のステップS1、S2、S3の処理と同様である。ステップS63の処理に続いて、ユーザが特定の配列のエントリー名を指定して、選択された結果ファイル内でそのエントリー名の検索を指示すると(ステップS64)、指示された検索が行われ、その結果が網がけ表示される(ステップS65)。
【0078】
図25は、ホモロジー検索結果処理プログラム12による図24のステップS65の処理のフローチャートである。図25において、まず各結果ファイル内の配列のエントリー名をサブルーチン等に入力し(ステップS71)、j=1とおく(ステップS72)。
【0079】
次にi=1、j番目の結果ファイルのエントリー数をimaxとおく(ステップS73)。例えば図23の場合は、表示領域21、22、23の結果ファイルをそれぞれ1、2、3番目の結果ファイルとする。これらの結果ファイルのエントリー数はいずれも6なので、imaxは6となる。
【0080】
次にj番目の結果ファイルのi番目のエントリー名が指定されたエントリー名かどうかを判定する(ステップS74)。判定結果がYESの場合は、j番目の結果ファイルのi番目のエントリー名にフラグを立てる(ステップS77)。そしてjに1を加算し(ステップS78)、続いてjとjmaxの値を比較する(ステップS59)。
【0081】
ステップS74で判定結果がNOの場合は、iに1を加算し(ステップS75)、続いてiとimaxの値を比較する(ステップS76)。ステップS76でiがimaxを越えていなければ(ステップS76、YES)、ステップS74以降の処理を繰り返す。ステップS76でiがimaxを越えると(ステップS76、NO)、ステップS78の処理に進む。
【0082】
ステップS79でjがjmaxを越えていなければ(ステップS79、YES)、ステップS73以降の処理を繰り返し、jがjmaxを越えると処理を終了する(ステップS79、NO)。その後、図24のステップS65では、フラグの立っている各結果ファイルのエントリー名が網がけ表示される。
【0083】
例えば図23の場合は、ユーザにより最初にエントリー名LOCUS 4 が指定され、j=1、i=4のときとj=2、i=3のときにステップS77の処理が行われ、表示領域21、22内のエントリー名LOCUS 4 が網がけ表示される。次にエントリー名LOCUS 5 が指定され、j=1、i=5のときとj=2、i=6のとき、およびj=3、i=4のときにステップS77の処理が行われ、表示領域21、22、23内のエントリー名LOCUS 5 が、別の網目により網がけ表示される。他のエントリー名については、ステップS74の判定結果がNOとなり、ステップS77の処理は行われないので、網がけ表示されない。
【0084】
図26は、選択された結果ファイルのデータを重ねて、一致している部分を類似点として強調表示した例を示している。図26(a)においては、エントリー名LOCUS 1 とLOCUS 2 が全ての表示領域の1番目に表示されており、LOCUS 3 は表示領域21と23の2番目に表示されている。したがって、ユーザが重ね合わせ表示を指示すると、図26(b)に示すようにLOCUS 1 とLOCUS 2 が同じ網目を用いて網がけ表示され、LOCUS 3 は別の網目で表示される。他のエントリー名については各結果ファイルの間で重なりが生じていないので、網がけ表示されずに個別に表示される。重なりが多いエントリー名ほどその順位の信頼性が高いので、これにより得られた検索結果の相同性の信頼度が示される。
【0085】
図27は、結果ファイルの選択処理および図26(b)の類似点を抽出する処理のフローチャートである。図27のステップS81、S82、S83の処理は、図15のステップS1、S2、S3の処理と同様である。ステップS83の処理に続いて、ユーザが重ね合わせ表示を指示すると(ステップS84)、結果ファイルのリスト内において同順位の同じエントリー名の数が求められ(ステップS85)、その数に応じてエントリー名が網がけ表示される(ステップS86)。
【0086】
図28は、ホモロジー検索結果処理プログラム12による図27のステップS85の処理のフローチャートである。図28において、まず各結果ファイル内の配列のエントリー名をサブルーチン等に入力し(ステップS91)、i=1、結果ファイルのエントリー数の最大値をimaxとおく(ステップS92)。例えば図26(a)の場合は、結果ファイルのエントリー数はいずれも6なので、imax=6である。また、表示領域21、22、23に表示された結果ファイルをそれぞれ順に1、2、3番目の結果ファイルとする。
【0087】
次にj=1、n=1、nmax=1、k(1)=1、k(n)=0(n=2,・・・,jmax)とおき(ステップS93)、j番目の結果ファイルのi番目のエントリー名をn番目の検索対象にする(ステップS94)。次にj=j+1とおき(ステップS95)、n番目の検索対象のエントリー名がj番目の結果ファイルのi番目のエントリー名と一致するか否かを判定する(ステップS96)。判定結果がNOの場合は、n=n+1とおき(ステップS97)、nとnmaxの値を比較する(ステップS98)。nがnmaxを越えていなければ(ステップS98、NO)、ステップS96以降の処理を繰り返す。
【0088】
ステップS98でnがnmaxを越えれば(ステップS98、YES)、j番目の結果ファイルのi番目のエントリー名をn番目の検索対象にする(ステップS99)。続いてnmaxに1を加算し(ステップS100)、k(n)に1を加算し(ステップS101)、jに1を加算してn=1とおいて(ステップS102)、jとjmaxの値を比較する(ステップS103)。
【0089】
ステップS96で判定結果がYESの場合は、ステップS97〜S100の処理を行わずに、ステップS101以降の処理を行う。
ステップS103でjがjmaxを越えていなければ(ステップS103、YES)、ステップS96以降の処理を繰り返し、jがjmaxを越えると(ステップS103、NO)、iに1を加算して(ステップS104)、続いてiとimaxの値を比較する(ステップS105)。
【0090】
ステップS105でiがimaxを越えていなければ(ステップS105、YES)、ステップS93以降の処理を繰り返し、iがimaxを越えると処理を終了する(ステップS105、NO)。その後、図27のステップS86では、スコアの順位毎にn番目の検索対象に指定されたエントリー名が左から順に表示され、k(n)の値に応じて異なる網目を用いて網がけ表示される。どの網目を用いるかは環境変数により決められている。
【0091】
例えば図26(a)の場合は、i=1のとき3つの結果ファイルには同じエントリー名LOCUS 1 が含まれるのでn=1についてのみ検索が行われ、j=2、3についてステップS96の判定結果がYESとなる。したがって、LOCUS 1 に対応するk(1)は2回インクリメントされて(ステップS101)、3になる。i=2のときも同様である。
【0092】
i=3のとき、まず1番目の結果ファイルの3番目のエントリー名LOCUS 3 が1番目の検索対象となり(ステップS94)、LOCUS 3 が2番目の結果ファイルの3番目にないので(ステップS96、NO)、次に2番目の結果ファイルの3番目のエントリー名LOCUS 4 が2番目の検索対象となる(ステップS99)。そしてLOCUS 4 に対応するk(2)がインクリメントされて1になる(ステップS101)。次にLOCUS 3 が3番目の結果ファイルの3番目にあるので(ステップS96、YES)、LOCUS 3 に対応するk(1)がインクリメントされて2になる(ステップS101)。ここで、j=4>3=jmaxとなるため(ステップS103、NO)、iがインクリメントされる。
【0093】
i=4のとき、まず1番目の結果ファイルの4番目のエントリー名LOCUS 4 が1番目の検索対象となり(ステップS94)、LOCUS 4 が2番目の結果ファイルの4番目にないので(ステップS96、NO)、次に2番目の結果ファイルの4番目のエントリー名LOCUS 7 が2番目の検索対象となる(ステップS99)。そしてLOCUS 7 に対応するk(2)がインクリメントされて1になる(ステップS101)。
【0094】
ところが、LOCUS 4 とLOCUS 7 のいずれも3番目の結果ファイルの4番目にないので(ステップS96、NO)、3番目の結果ファイルの4番目のエントリー名LOCUS 5 が3番目の検索対象となり(ステップS99)、LOCUS 5 に対応するk(3)がインクリメントされて1になる(ステップS101)。ここで、j=4になるため(ステップS102)、iがインクリメントされる。LOCUS 5 に対応するk(1)はインクリメントされず、1のままである(ステップS93)。i=5、6のときも同様である。
【0095】
図27のステップS86では、こうして得られた各k(n)の値毎に異なる網目を用いて、図26(b)に示すように対応するエントリー名が網がけ表示される。ただし、k(n)=1のエントリー名については強調する必要がないので、網がけ表示されない。
【0096】
図29は、選択された結果ファイル内の配列の数をグラフ表示した例を示している。図29(a)においてユーザがグラフ表示を指示すると、図29(b)に示すように、全ての結果ファイルに含まれる各エントリー名の個数Nがグラフ表示される。結果ファイルに多く含まれるエントリー名の配列は検索対象の配列との類似度が高いと考えられ、グラフ化することにより検索結果の信頼性が示される。例えばLOCUS 4 、LOCUS 5 、LOCUS 7 は、図26(b)の重ね合わせ表示においては強調されていないが、表示領域21、22、23に複数現れていることが明らかになる。
【0097】
図30は、結果ファイルの選択処理および図29(b)のグラフ化処理のフローチャートである。図30のステップS111、S112、S113の処理は、図15のステップS1、S2、S3の処理と同様である。ステップS113の処理に続いて、ユーザがグラフ表示を指示すると(ステップS114)、結果ファイル内の同じエントリー名の総数が求められ(ステップS115)、その数がエントリー名毎にグラフ表示される(ステップS116)。
【0098】
図31は、ホモロジー検索結果処理プログラム12による図30のステップS115の処理のフローチャートである。図31において、まず各結果ファイル内の配列のエントリー名をサブルーチン等に入力し(ステップS121)、結果ファイルのエントリー数の最大値をimax、n=1とおく(ステップS122)。例えば図29(a)の場合はimax=6である。また、表示領域21、22、23に表示された結果ファイルをそれぞれ順に1、2、3番目の結果ファイルとする。
【0099】
次にi=1とおき(ステップS123)、n番目の結果ファイルのi番目のエントリー名にフラグが立っているか否かを判定する。判定結果がNOであればj=n+1、k=1とおき(ステップS125)、続いてn番目の結果ファイルのi番目のエントリー名がj番目の結果ファイルに含まれるか否かを判定する(ステップS126)。この判定結果がYESの場合は、k=k+1とおき(ステップS127)、j番目の結果ファイルのi番目のエントリー名にフラグを立てる(ステップS128)。次にjに1を加算し(ステップS129)、jとjmaxの値を比較する(ステップS130)。
【0100】
ステップS126で判定結果がNOの場合は、ステップS129以降の処理を行う。
ステップS130でjがjmaxを越えていなければ(ステップS130、YES)、ステップS126以降の処理を繰り返し、jがjmaxを越えると(ステップS130、NO)、n番目の結果ファイルのi番目のエントリー名をkの値とともに不図示のメモリに格納する(ステップS131)。続いてiに1を加算し(ステップS132)、iとimaxの値を比較する(ステップS133)。ステップS124で判定結果がYESの場合は、ステップS132以降の処理を行う。
【0101】
ステップS133でiがimaxを越えていなければ(ステップS133、YES)、ステップS124以降の処理を繰り返す。iがimaxを越えるとnに1を加算し(ステップS134)、nとjmaxの値を比較する(ステップS135)。
【0102】
ステップS135でnがjmaxを越えていなければ(ステップS135、YES)、ステップS123以降の処理を繰り返し、nがjmaxを越えると処理を終了する(ステップS135、NO)。その後、図30のステップS116では、上記メモリに格納された各エントリー名とそのkの値が順に取り出され、このkの値がそのエントリー名の個数としてグラフ表示される。
【0103】
例えば図29(a)の場合は、n=1、i=1のとき、1番目の結果ファイルの1番目のエントリー名LOCUS 1 が、2番目、3番目の結果ファイルにも含まれているので(ステップS126、YES)、j=2、3についてkがインクリメントされ(ステップS127)、2番目、3番目の結果ファイルのLOCUS 1 にフラグが立てられる(ステップS128)。このときk=3がエントリー名LOCUS 1 の個数として記憶される(ステップS131)。i=2、3、5にそれぞれ相当するLOCUS 2 、LOCUS 3 、LOCUS 5 についても同様である。
【0104】
次にi=4のとき、1番目の結果ファイルの4番目のエントリー名LOCUS 4 は2番目の結果ファイルには含まれているが(ステップS126、YES)、3番目の結果ファイルには含まれていないので(ステップS126、NO)、j=2についてのみkがインクリメントされ(ステップS127)、2番目の結果ファイルのLOCUS 4 にフラグが立てられる(ステップS128)。このときk=2がエントリー名LOCUS 4 の個数として記憶される(ステップS131)。
【0105】
次にi=6のとき、1番目の結果ファイルの6番目のエントリー名LOCUS 6 は他の結果ファイルに含まれていないので(ステップS126、NO)、kはインクリメントされず、k=1がエントリー名LOCUS 6 の個数として記憶される(ステップS131)。
【0106】
次にiをインクリメントすると(ステップS132)、iがimaxを越えるので(ステップS133、NO)、n=2として(ステップS134)iを初期化し(ステップS123)、同様の処理を行う。ここでi=1、2、3、5、6のときは、そのエントリー名にフラグが立っているため(ステップS124、YES)、kはインクリメントされずステップS131の処理も行われない。
【0107】
i=4のとき、2番目の結果ファイルの4番目のエントリー名LOCUS 7 にはフラグが立っていなくて(ステップS124、NO)、しかもLOCUS 7 は3番目の結果ファイルに含まれるので(ステップS126、YES)、j=3についてkがインクリメントされ(ステップS127)、3番目の結果ファイルのLOCUS 7 にフラグが立てられる(ステップS128)。このときk=2がエントリー名LOCUS 7 の個数として記憶される(ステップS131)。
【0108】
次にn=3のときは、i=6のエントリー名LOCUS 8 についてのみステップS126の判定が行われるが、4番目の結果ファイルは存在しないので(ステップS126、NO)、kはインクリメントされず、k=1がエントリー名LOCUS 8 の個数として記憶される(ステップS131)。
【0109】
こうして記憶された各エントリー名の個数が、図29(b)のようなグラフとして表示される(ステップS116)。
以上の実施例では、選択された複数の結果ファイルについてのいくつかの特徴抽出の例を示したが、本発明はこれらに限定されることはなく、ホモロジー検索結果処理プログラム12として他のアプリケーションを用意することにより、任意の他の特徴を抽出する構成とすることもできる。
【0110】
また、図13、14等において、ファイル名やエントリー名を網がけ表示しているが、多色あるいは多階調のマーカーを用いてエントリー名をマークして表示する構成にしてもよい。本発明においては、結果ファイル内の検索結果をその後の結果の比較やアライメント等の解析のデータとして利用するために、選択により結果ファイル全体を保存したり、マークされた配列の情報のみを保存したり、あるいはマークされなかった配列の情報のみを保存したりすることができる。
【0111】
さらに、本発明は、バイオテクノロジー分野におけるホモロジー検索結果の処理に限らず、順位付けられたデータ項目を有する複数のリストの間の任意の特徴を抽出する処理に適用することができる。
【0112】
【発明の効果】
本発明によれば、ホモロジー検索結果に見られるような、互いに類似点と相違点を有する複数のリストを効率よく比較することができる。ホモロジー検索結果の場合、膨大な数の配列名を含む多数のリストの比較を迅速に行うことができる。
【0113】
複数のリストを比較してそれらの類似点を抽出することにより、信頼性の高いデータが得られる。ホモロジー検索結果においては、多数のリストに共通して含まれる配列名等の良質なデータを効率よく抽出することができる。
【0114】
また、抽出された各種の特徴が分かりやすく画面表示されるので、それらの特徴の把握が容易になり、それらを選択して保存することにより、他のシステムや装置へのデータの受け渡しも容易になる。
【0115】
さらに、ホモロジー検索結果を格納するファイルを、使用した検索手法等の項目名を用いて管理しているので、多数のファイルの中から特定の項目名やパラメータを持つファイルを選択する操作が容易になる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】ホモロジー検索結果に影響を与える項目を示す図である。
【図3】本発明の実施例の構成図である。
【図4】本発明の実施例における結果ファイルの命名規約を示す図である。
【図5】本発明の実施例における結果ファイル名を示す図である。
【図6】本発明の実施例における結果ファイルのデータ構造を示す図である。
【図7】ホモロジー検索において用いられるスコアテーブルの一例を示す図である。
【図8】検索された配列データを示す図である。
【図9】FASTAによる結果ファイルの一例を示す図(その1)である。
【図10】FASTAによる結果ファイルの一例を示す図(その2)である。
【図11】FASTAによる結果ファイルの一例を示す図(その3)である。
【図12】FASTAによる結果ファイルの一例を示す図(その4)である。
【図13】本発明の実施例における結果ファイル名の画面表示を示す図である。
【図14】本発明の実施例における共通する配列名の画面表示を示す図である。
【図15】本発明の実施例における共通する配列名の表示処理を示すフローチャートである。
【図16】本発明の実施例における共通する配列名の抽出処理を示すフローチャートである。
【図17】本発明の実施例における指定された結果ファイルに含まれない配列名の画面表示を示す図である。
【図18】本発明の実施例における指定された結果ファイルに含まれない配列名の表示処理を示すフローチャートである。
【図19】本発明の実施例における指定された結果ファイルに含まれない配列名の抽出処理を示すフローチャートである。
【図20】本発明の実施例における共通して含まれない配列名の画面表示を示す図である。
【図21】本発明の実施例における共通して含まれない配列名の表示処理を示すフローチャートである。
【図22】本発明の実施例における共通して含まれない配列名の抽出処理を示すフローチャートである。
【図23】本発明の実施例における指定された配列名の画面表示を示す図である。
【図24】本発明の実施例における指定された配列名の表示処理を示すフローチャートである。
【図25】本発明の実施例における指定された配列名の抽出処理を示すフローチャートである。
【図26】本発明の実施例における共通する同順位の配列名の画面表示を示す図である。
【図27】本発明の実施例における共通する同順位の配列名の表示処理を示すフローチャートである。
【図28】本発明の実施例における共通する同順位の配列名の抽出処理を示すフローチャートである。
【図29】本発明の実施例における配列名の数のグラフ表示を示す図である。
【図30】本発明の実施例における配列名の数のグラフ表示処理を示すフローチャートである。
【図31】本発明の実施例における配列名の数の計算処理を示すフローチャートである。
【符号の説明】
1 リスト格納手段
2 特徴抽出手段
3 特徴表示手段
4 データベース

Claims (2)

  1. 与えられた塩基配列またはアミノ酸配列の配列データに類似する配列データを配列データベースから検索するホモロジー検索により得られたリストを処理するリスト処理システムであって、
    リスト格納手段と、
    前記与えられた配列データに類似する複数の配列データの識別子を類似度順に含むリストに、前記ホモロジー検索に用いた検索方法名、該ホモロジー検索に用いた配列データベース名、類似度を高めるために連続する2つの塩基またはアミノ酸の間に挿入されたギャップに対するペナルティの値、および検索時に一度に比較される部分配列に含まれる塩基またはアミノ酸の数を示す情報を含むファイル名を付加して、前記リスト格納手段に格納するプロセッサと、
    前記与えられた配列データに対する複数回のホモロジー検索の結果として前記プロセッサにより前記リスト格納手段に格納された複数のリストのファイル名を一覧表示し、特定の検索方法または配列データベースが選択されたとき、表示された複数のリストのうち、選択された検索方法または配列データベースを示す情報を含むファイル名が付加されている2つ以上のリストの内容を表示する表示手段とを備え、
    前記プロセッサは、前記2つ以上のリストのすべてに含まれている配列データ、前記2つ以上のリストの同じ順位にある同じ配列データ、前記2つ以上のリストの1つに含まれていないが他のリストに含まれている配列データ、または前記2つ以上のリストのすべてに含まれている配列データとは異なる配列データを特徴として抽出し、前記表示手段は、抽出された特徴を画面表示することを特徴とするリスト処理システム。
  2. 与えられた塩基配列またはアミノ酸配列の配列データに類似する配列データを配列データベースから検索するホモロジー検索により得られたリストを処理するリスト処理方法であって、
    プロセッサが、前記与えられた配列データに類似する複数の配列データの識別子を類似度順に含むリストに、前記ホモロジー検索に用いた検索方法名、該ホモロジー検索に用いた配列データベース名、類似度を高めるために連続する2つの塩基またはアミノ酸の間に挿入されたギャップに対するペナルティの値、および検索時に一度に比較される部分配列に含まれる塩基またはアミノ酸の数を示す情報を含むファイル名を付加して、前記リスト格納手段に格納する処理を、該与えられた配列データに対する複数回のホモロジー検索の結果として得られた複数のリストについて繰り返し、
    表示手段が、前記リスト格納手段に格納された前記複数のリストのファイル名を一覧表示し、特定の検索方法または配列データベースが選択されたとき、表示された複数のリストのうち、選択された検索方法または配列データベースを示す情報を含むファイル名が付加されている2つ以上のリストの内容を表示し、
    前記プロセッサが、前記2つ以上のリストのすべてに含まれている配列データ、前記2つ以上のリストの同じ順位にある同じ配列データ、前記2つ以上のリストの1つに含まれていないが他のリストに含まれている配列データ、または前記2つ以上のリストのすべてに含まれている配列データとは異なる配列データを特徴として抽出し、
    前記表示手段が、抽出された特徴を画面表示する
    ことを特徴とするリスト処理方法。
JP20830894A 1994-09-01 1994-09-01 リスト処理システムとその方法 Expired - Fee Related JP3611601B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP20830894A JP3611601B2 (ja) 1994-09-01 1994-09-01 リスト処理システムとその方法
US08/904,425 US5873082A (en) 1994-09-01 1997-07-31 List process system for managing and processing lists of data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20830894A JP3611601B2 (ja) 1994-09-01 1994-09-01 リスト処理システムとその方法

Publications (2)

Publication Number Publication Date
JPH0877177A JPH0877177A (ja) 1996-03-22
JP3611601B2 true JP3611601B2 (ja) 2005-01-19

Family

ID=16554110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20830894A Expired - Fee Related JP3611601B2 (ja) 1994-09-01 1994-09-01 リスト処理システムとその方法

Country Status (2)

Country Link
US (1) US5873082A (ja)
JP (1) JP3611601B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094962A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp 画像内に表現された被写体の特定

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571201B2 (ja) * 1997-12-12 2004-09-29 富士通株式会社 データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2000026818A1 (en) * 1998-10-30 2000-05-11 International Business Machines Corporation Methods and apparatus for performing sequence homology detection
US6507788B1 (en) 1999-02-25 2003-01-14 Société de Conseils de Recherches et D'Applications Scientifiques (S.C.R.A.S.) Rational selection of putative peptides from identified nucleotide, or peptide sequences, of unknown function
US7418431B1 (en) * 1999-09-30 2008-08-26 Fair Isaac Corporation Webstation: configurable web-based workstation for reason driven data analysis
AU7840300A (en) * 1999-09-30 2001-04-30 Hnc Software, Inc. Webstation: configurable web-based workstation for reason driven data analysis
CA2397304A1 (en) * 2000-01-14 2001-07-19 Altruis, L.L.C. System and method for providing an information network on the internet
US20020120403A1 (en) * 2000-12-21 2002-08-29 Wen-Hsuang Yao Method, system, and program of searching for a pair of fragments from two data sequences
JP3871301B2 (ja) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索装置、及びプログラム
JP2004178315A (ja) * 2002-11-27 2004-06-24 Hitachi Software Eng Co Ltd データ配信方法、データ検索方法及びデータ検索システム
US20050262058A1 (en) * 2004-05-24 2005-11-24 Microsoft Corporation Query to task mapping
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム
US8103686B2 (en) * 2007-12-12 2012-01-24 Microsoft Corporation Extracting similar entities from lists/tables
US9411877B2 (en) * 2008-09-03 2016-08-09 International Business Machines Corporation Entity-driven logic for improved name-searching in mixed-entity lists
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
CN118133039A (zh) * 2018-05-01 2024-06-04 谷歌有限责任公司 加速大规模相似性计算
AU2021446660A1 (en) * 2021-05-18 2023-11-30 Fujitsu Limited Information processing program, information processing method, and information processing apparatus

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2664686B2 (ja) * 1987-08-13 1997-10-15 富士通株式会社 複数配列同時比較方法
US5220657A (en) * 1987-12-02 1993-06-15 Xerox Corporation Updating local copy of shared data in a collaborative system
US5297249A (en) * 1990-10-31 1994-03-22 International Business Machines Corporation Hypermedia link marker abstract and search services
JP3258063B2 (ja) * 1992-02-07 2002-02-18 新日鉄ソリューションズ株式会社 データベース検索システム及び方法
US5202828A (en) * 1991-05-15 1993-04-13 Apple Computer, Inc. User interface system having programmable user interface elements
JPH05192194A (ja) * 1991-09-05 1993-08-03 Pola Chem Ind Inc 遺伝子の検索方法及び装置
JPH05216726A (ja) * 1992-02-04 1993-08-27 Nec Corp ソースプログラムの世代比較画面表示方式
JPH05274358A (ja) * 1992-03-27 1993-10-22 Fuji Xerox Co Ltd 情報検索装置
US5556749A (en) * 1992-11-12 1996-09-17 Hitachi Chemical Research Center, Inc. Oligoprobe designstation: a computerized method for designing optimal DNA probes
US5530852A (en) * 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094962A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp 画像内に表現された被写体の特定

Also Published As

Publication number Publication date
US5873082A (en) 1999-02-16
JPH0877177A (ja) 1996-03-22

Similar Documents

Publication Publication Date Title
JP3611601B2 (ja) リスト処理システムとその方法
Quandt et al. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data
Brāzma et al. Predicting gene regulatory elements in silico on a genomic scale
Snyder et al. Identification of coding regions in genomic DNA sequences: an application of dynamic programming and neural networks
KR101117603B1 (ko) 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
Chen et al. PromFD 1.0: a computer program that predicts eukaryotic pol II promoters using strings and IMD matrices
US8788522B2 (en) Pair character string retrieval system
Yap et al. High performance computational methods for biological sequence analysis
US20030200033A1 (en) High-throughput alignment methods for extension and discovery
JP5469882B2 (ja) 生物種同定方法及びシステム
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
JP2003157267A (ja) 核酸塩基配列のアセンブル方法及びアセンブル装置
KR100538451B1 (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
Wistow et al. Grouping and identification of sequence tags (GRIST): bioinformatics tools for the NEIBank database
US7315785B1 (en) Method and system for displaying dendrogram
US7277798B2 (en) Methods for extracting similar expression patterns and related biopolymers
US20200327958A1 (en) Functional sequence selection method and functional sequence selection system
JP4247026B2 (ja) キーワード頻度算出方法及びそれを実行するプログラム
Schächter Bioinformatics of large-scale protein interaction networks
Tinker Why quantitative geneticists should care about bioinformatics.
JP2002099546A (ja) cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法
Frias et al. Finding gene promoters in the genome of the fungus Crinipellis perniciosa using feed-forward neural networks
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置
Shinozaki et al. A method for the best model selection for single and paired motifs
Ko et al. Suffix tree applications in computational biology

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041020

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees