JP2005190427A

JP2005190427A - 配列を同定するための変異要素のセット抽出方法

Info

Publication number: JP2005190427A
Application number: JP2003434554A
Authority: JP
Inventors: Mamoru Tsukada; 護塚田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-26
Filing date: 2003-12-26
Publication date: 2005-07-14
Also published as: US8041512B2; US20050143930A1

Abstract

【課題】同定のための識別要素のセットの候補を、正確且つ効率的に取得する方法を提供する。
【解決手段】複数の配列データにおいて特定配列を識別可能な要素（配列部位）に関する情報を取得するための情報処理方法であって、類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、を有することを特徴とする情報処理方法。
【選択図】図１

Description

本発明は複数の配列情報の中から、特定の配列を特徴づけている要素（例えば特定箇所の文字や記号）を取得する情報処理方法に関するものであり、好適には塩基配列やアミノ酸配列などの配列情報を処理する技術に関する。

近年ＳＮＰｓ、多型解析等、異なる核酸配列をハイブリダイゼーションやＰＣＲ等の方法によって識別、同定したいというニーズがある。そのためにはまず識別、同定するための要素を抽出し、その要素を含んだプローブ（またはプライマー）を選定しなければならない。

従来こうした場合、例えばまったく違う種類のたんぱく質であるところのアミノ酸配列や塩基配列を比較したいなどといった場合には、核酸配列やアミノ酸配列の数が増えようともさほど問題とはならなかった。つまり個々の配列はお互いを十分に識別するだけの違いを保有していたからである。したがってこれらは一般的なアライメントツールやｂｌａｓｔツールを使用することで、手作業でプローブ選定を遂行できた。しかし異種生物間で同じたんぱく質の識別をしたいとか、菌体の属、種、株の識別、人ではＨＬＡ領域の多型など、似たもの同士をうまく識別しようとした場合、こうしたツールを使ったとしても作業は次第に鬱陶しく、煩雑なものとなる。

さらに対象となる複数の配列が非常に似た配列同士の場合、たいてい一箇所の変異のみでその配列を同定することは不可能で、アライメント位置の異なる、数箇所にわたる変異のセットをうまく抽出して初めてその配列の同定が可能となることが多い。

しかも対象となる配列が格納されたデータベースにおけるデータ量は年々増大しつつ、従来の方法では上記の変異セットの抽出はますます困難になってきた。

また、たとえば特許文献１のように、既知の生体高分子の塩基配列を、生体高分子の種類によらず同一の配列をとる共通領域と変異を含む変異領域とに分け、決定された共通領域と変異領域に対して別々に補助プローブを設計するアルゴリズムは公開されているが、該プローブ設計のアルゴリズムは、未知の遺伝子（またはＤＮＡ断片）を捕獲するための複数の補助プローブを設計するものであり、類似の配列を全て識別しうるプローブセットをできる限り少数の変異箇所の同定によって抽出するものではなかった。
特開２００３−０３８１６０号公報

本発明は、この様な背景技術に鑑みてなされたものであり、同定のための識別要素のセットの候補を正確かつ効率的に取得する方法を提供する。

すなわち、本発明に係る情報処理方法は、複数の配列データにおいて特定配列を識別可能な要素（配列部位）に関する情報を取得するための情報処理方法であって、
類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、
前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、
を有することを特徴とする。

また、前記演算が、アライメント位置におけるそれぞれの配列情報の要素が同じである場合に、該要素を排除する演算であるとよい。

また、前記演算が、前記排除する演算処理がなされた後に、排除されなかった要素をもつアライメント位置の要素同士をさらに演算するものであるとよい。

また、前記演算が、少なくとも一つ以上の他の配列データとは異なる要素を有するアライメント位置のそれぞれの要素と、選択された要素とを対比し、同じまたは異なる要素を排除する演算と、前記排除する演算により取得された第一のアライメント位置のそれぞれの配列要素と、前記演算により取得された第二のアライメント位置のそれぞれの配列要素と、をさらに対比する演算であるとよい。

また、前記演算が、前記アライメントされた個々の配列情報（ｂ_m）を行の情報として配置し、前記アライメント位置情報をn列の情報として配置した行列の集合情報Ｐとして保持し、該行列における任意に選ばれた二つの列の同一行の要素に対して行われる演算であるとよい。

また上記の方法を用いて導き出される変異要素を少なくとも1つ以上含むプローブまたはプローブセット、方法を実現するためのコンピュータに実行させるための制御プログラム、上記方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体、をも本発明は包含する。

本発明によって、類似する複数の配列における特異部分の取得を例えばコンピューター処理により行なうことが可能となるため、従来は不可能であった多数の類似した配列から特定の配列を同定するための識別要素のセットを正確且つ効率的に抽出することができる。

さらにアライメント処理がなされた複数の配列データに対して演算処理が行なわれるために、同一要素の部位の排除処理が容易であり、処理にかかる時間を短縮することが可能となる。

また、得られた候補の評価を更に行なうことで、より少ない数のセットの抽出や、より正確な同定を可能とするプローブの選定を容易に行なうことが可能となる。

以下、本発明を詳細に説明する。

本発明に係る変異要素のセット抽出方法の１実施形態として、以下のステップを有する。
（１）共通領域においてアライメントされたデータを取得するステップ。
（２）前記アライメントされたデータに所定の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップ。

本発明において、共通領域においてアライメントされたデータとは、後述のアライメント処理を行なった上で得られるデータに基づいて取得されるものである。共通領域とは、対象となる複数配列の所定の領域において、たとえば塩基配列において一般的に用いられる共通領域のような、同じまたは非常に似た配列（相同性の高い配列）を有する領域であるが、異なる部位（要素）をそれぞれが互いに含む領域であることが好ましい。

図２は本発明の一実施形態にかかる情報処理方法（識別可能な要素を抽出する抽出方法）を実現するための情報処理装置の構成を示すブロック図である。

本発明に係る抽出方法は、外部記憶装置９、中央処理装置（ＣＰＵ）１０、メモリ１１、入出力装置１２から構成される装置において実現される。外部記憶装置９は、本実施形態にかかる抽出方法を実現するプログラムや、配列データを保持する。また、本実施形態によって導かれた抽出結果を保持する機能を持つ。中央処理装置（ＣＰＵ）１０は本発明の抽出方法のプログラムを実行したり、すべての装置の制御を行ったりする。メモリ１１は中央処理装置（ＣＰＵ）１０で処理されるプログラム、及びサブルーチンやデータを一時的に記録する。入出力装置１２は、ユーザとのインタラクションを行う。また、プログラムの実行トリガーは入出力装置１２を介してユーザが入力する。さらに、ユーザは入出力装置１２を介して判定結果を見たり、プログラムのパラメータを設定したりすることができる。

上記のシステムを用いて、配列が塩基配列であった場合について、識別可能な要素を抽出する方法を具体例を挙げて説明する。

（１）共通領域においてアライメントされたデータを取得するステップ。
まず、共通領域においてアライメントされたデータを取得する。対象となる複数の配列データに対してそれぞれアライメント処理を行い、共通領域においてアライメント処理がされた配列情報データを取得する。この共通領域は、予め範囲を指定しても良いし、アライメント処理が行なわれた後で、共通領域部分のデータのみを抽出してもよい。

塩基配列のアライメント方法に関しては、すでに公知の技術をそのまま使うことができる。「ＥｌｉｚａｂｅｔｈＣ．Ｔｙｌｅｒ，ＭａｒｔｈａＲ．Ｈｏｒｔｏｎ，ａｎｄＰｈｉｌｉｐＲ．Ｋｒａｕｓｅ１９９１．ＡＲｅｖｉｅｗｏｆＡｌｇｏｒｉｔｈｍｓｆｏｒＭｏｌｅｃｕｌａｒＳｅｑｕｅｎｃｅＣｏｍｐａｌｉｓｏｎ．ＣＯＭＰＵＴＥＲＳＡＮＤＢＩＯＭＥＤＩＣＡＬＲＥＳＥＡＲＣＨ２４：７２−９６」などの文献を参照して自作しても良いし、ＤＮＡＳＩＳ（日立ソフト（株））や、遺伝子解析ソフトＧＥＮＥＴＹＸ（ソフトウエア開発（株））などの市販ソフト、ロックフェラー大学のサイトｈｔｔｐ：／／ｃｓ．ｒｏｃｋｅｆｅｌｌｅｒ．ｅｄｕ／ｉｎｄｅｘ．ｐｈｐ？ｐａｇｅ＝ｔｏｏｌｋｉｔ−ａｌｉｇｎにはウェブ上で実行可能なマルチプルアライメントのツールＡＭＡＳ、ＢｏｘＳｈａｄｅなど、いくつかまとめて紹介されているので、本発明でこれらを使用することができる。

また、更に最初に識別しようとする複数の塩基配列を選び出すステップを該アライメントするステップの前に設けても良い。

選びだされた複数の配列に対して上記手段でアライメントすることで、その共通領域は次のように行列を使って表現することが可能となる。

また、この共通領域の範囲は、任意に設定してよい。

（行列の定義方法）
ここでＰは、ある任意の塩基配列ｍをもった文字列の行ベクトルｂをたとえば
ｂ_ｍ＝（Ａ，Ｔ，Ｔ，Ｔ，Ｃ，Ｇ，Ｇ，Ｔ，Ａ，Ａ，……）
のように定義するとき、行ｍ＝１，２，３…はそれぞれの塩基配列に対応し、
｛Ｐ∈ｂ_１，ｂ_２，ｂ_３，……｝
このとき定まるアライメント位置ｉにおける列ベクトルｂ_ｉ（列ｉ＝１，２，３…）も同じく
｛Ｐ∈ｂ_１，ｂ_２，ｂ_３，……｝
である。なおここでは個々の配列情報を行、アライメント位置情報を列として定義したが、行と列を入れ替えて、以降すべての取り扱いを逆にしても差し支えない。

（要素の抽出方法）
今アライメントされた配列数が４つである場合について、本発明の具体例を示す。次のように、いずれの行から見ても、その行の要素と異なる要素が少なくとも１つ以上、同一列内に含まれるところをわかりやすく□で囲んだ。

それ以外のところは見てのとおり、もともと変異要素が存在しないため、所定の演算を行っても何も変わらない。したがってこの後の演算はこの□で囲んだところを対象に行えば良く、演算処理を簡略化することができる。
次に、抽出された□の列のみに対して、演算処理を行なう。

所定の演算として例えば、ｂ_１行の配列を演算対象の配列として選び、アライメント位置２２の列ベクトルから左方向に順に、定義した演算にしたがって演算結果を得ていくものであると良い。

（より具体的な演算方法）
上記に示した演算方法をより具体的に説明する。本実施形態においては、「異なる要素を識別排除する処理」を行なう。

「異なる要素を識別排除する処理」とは、例えば対象とするアライメント位置において、比較する配列をｂ_１行の要素とし、他のｂ_２、ｂ_３、ｂ_４行の配列を識別排除する処理であり、

とするものである。ここでは排除された要素を記号−を用いて表してある。記号は本来何でも構わない。ここでは、ｂ_１行の要素（１ではＧ、２ではＡ、３ではＣ）と異なるものは、この演算で識別される。

上記の演算により得られた列ベクトルに対して、他の異なる列ベクトルと演算処理することで、さらに「異なる要素を」を排除していく。

この場合の演算結果は、排除されないのは二つの列ベクトルのｂ_１行が、いずれも排除に相当しない（両方とも−でない）ときのみで、
この演算を記号＠を使って表すと、

となる。

右辺の演算結果は、４、５式いずれも要素が存続しているか否かを表しているもので、この例では左辺第二項の要素で置き換えて表示しているが、本来どのような記号であってもかまわない。

さて、ｂ_１行の条件を満たした列ベクトル、列２２、列１４、列３を逐次選択し、４から５の演算＠を順次行った結果、演算結果の要素はただ１つの要素のみが残ることを示す最小値１に達することができた。

この１という値は、同定のための変異要素のセットの抽出に成功した、つまり自ら（ｂ_１）と同じ配列は存在せずＰ内のどの配列とも分離同定可能であること意味する。また候補数は演算開始の初期値から最小値に達するまでの間、２（１の処理結果）→２（４の処理結果）→１（５の処理結果）と変化し、候補の数を減少させることのできた列は、初期値を含めると列２２と列３であるため、変異要素のセットは列２２のＧと列３のＣ、すなわち以下の下線で示されたところとなる。
ｂ_{１−ｓｅｔ}＝（ＴＡＣＣＴＧＧＡＣＡＧＡＴＡＣＴＴＣＣＡＴＧＡＣ）
次に同様に、ｂ_２行の配列に基づいて識別排除する処理を行なう。
同様に演算＠を行うと、

となって最小値が１とならず、２に終わる。そこで要素の存続した行を集め、お互いを比較すると、
ｂ_{２−ｓｅｔ}＝（ＴＡＣＣＴＧＧＡＣＡＧＡＴＣＣＴＴＣＣＡＴＡＡＣ）
ｂ_{３−ｓｅｔ}＝（ＴＡＣＣＴＧＧＡＣＡＧＡＴＣＣＴＴＣＣＡＴＡＡＣ）
選ばれたこのｂ_２、ｂ_３の領域にはもともとお互いを識別できる要素がなかったことが判定できる。お互いを比較するする方法は、プログラミング言語上では文字列比較関数や、１文字ごとの論理比較を行えばよい。尚演算によって初期値として選択された列２２のＡは少なくともｂ_１、ｂ_４と識別可能なことを示しており、無駄とはならない。

さらに、ｂ_４行についても同様に演算＠を行うと以下のようになり、

ここでもしも一番左にある識別排除されていない列を開始行として、順次右方向にある識別排除されていない列に対して演算を行っていくことにより得られる結果は、
ｂ_{４−ｓｅｔ}＝（ＴＡＧＣＴＧＧＡＣＡＧＡＴＡＣＴＴＣＣＡＴＧＡＣ）…１１
となり、より少ない要素数で変異要素のセットを表現できる。
ちなみに

であるから、右方向に演算を行ったものでも、お互いを識別することは可能である。

即ち演算（及び評価）の実施形態は左右の方向問わない。また隣同士順番に行わなくても、端から行わなくても良い。たとえば一回の演算結果の候補数が、たえず最小であるように選択しながら最小値に達するよう、アルゴリズムを工夫しても良い。

もう少し簡単に、たとえば初期値のみ候補数が最小となるよう、列ベクトルを選んでおき、あとは単純に右または左方向から列ベクトルの演算を行うように工夫しても構わない。

こうした工夫の特徴はなるべく少ない変異要素のセットで、その配列を特徴づけることができる点にある。この点は、ＤＮＡチップ用のプローブとして用いる場合、配置プローブ数をなるべく少なくすることができるために好ましい。

逆にこのような工夫をしない特徴は、変異要素のセットがやや多くの要素で表現されるために、
ｉアッセイのさまざまな条件に対して、やや丈夫であるということ、
ii順番に演算を行えばなるべく狭い範囲に変異要素のセットを探せるかもしれないこと、
iiiアッセイが定量ＰＣＲ法であれば、３’→５’方向の演算（例では左方向）とすれば５’上流に多くの変異要素を抱えることになりやすいこと（プログラムコーディング上においても有利）などが上げられ、必要に応じて設定することが好ましい。

ゲノムから調整されるサンプルは膨大な似通った配列を多く含み、こうした観点に立つと、両者は一長一短で、本発明の実施形態上、いずれの方法をとっても良い。

（他の演算処理の実施形態）
また「異なる要素を識別排除する処理」とは、次のような形態も可能である。いま行列Ｐにｂ_０行を加え、ｂ_０行に対して識別排除すると、

いまｂ_０行を除いた、Ｐの小行列に注目する。演算＠は、ｂ_１、ｂ_２、ｂ_３については先ほどと結果が同じなので、ｂ_４の存続した要素について実施する。

両者は異なるので、ｂ_４同定のための変異要素のセットは存在し、それは列２２のＧであることがわかる。先ほど１０、１１の結果では列２２のＧはあってもなくてもよく、列３のＧが必須の同定要素であった。しかし今回は列２２のＧが必須の同定要素であることになる。その背景には新しく追加されたｂ_０が、列３にＧを持っているからである。

したがって、このような「異なる要素を識別排除する処理」であっても本発明は成り立つことがわかる。

このとき追加したｂ_０については変異要素のセットは抽出できないわけではなく、演算＠を使ってまったく同様に抽出できる。「異なる要素を識別排除する処理」、すなわち−記号識別とは、単なる論理上の命題に発生する表と裏の問題だからである。したがって行列Ｐを次のように書き直すことができ、

演算＠を実行すればよい。この場合演算を実行するまでもなく、列２、列１４、列１６、のＴ、Ｇ、Ａはいずれも独立にｂ_４同定のための変異要素のセットである。

（演算方法の他の形態）
さて、これまでの説明は配列として最も単純なＡ、Ｃ、Ｔ、Ｇの４つの表記をもつ塩基配列について述べてきた。本発明はこれに限らず、単なる文字の羅列であっても抽出が可能である。たとえば行列Ｐに、よくあるように塩基の欠失を表す記号として、＊を一つ加えても適用可能である。（下記参照）

であることは明らかである。

また、記号を一つ追加するにしても、たとえば全く意味のない記号を加えてもよい。下記Ｐにおいて、記号｜はｅｘｏｎ境界を表す。このとき記号｜はどの行においても異なる要素とならないので、演算上全く意味を持たないが、ゲノム検体の場合ｅｘｏｎ境界をまたがる配列をプローブに選択することは不可能であるため、プローブ設計ソフトウエアにとっては有意な情報を提供してくれる。

つまり本発明で定義するところの演算は、記号の種類や数に左右されることなく、さらに記号を増やして２０個の記号で表現されるアミノ酸一文字表記であっても、また塩基配列のＩＵＢ（国際生化学連合）表記であっても全く問題ない。

（演算結果の評価）
本発明においては、取得した識別要素に対して、評価を行なう工程を更に有するとよい。

得られた識別要素からたとえばハイブリダイゼーションのプローブを選定するのであれば、欠失部分を中央部分においた、欠失記号を取り除いた配列をプローブに設定すれば、Ｔｍ値が他とは大きく異なるプローブが得られる。

実際このように抽出された、同定のための変異要素のセットは、ＤＮＡマイクロアレイ上でのハイブリダイゼーションや、定量ＰＣＲ法のプローブ選定にとって必要な情報となる。ハイブリダイゼーションの場合、上記同定のための変異要素がほぼプローブの中心部にくるように２０塩基前後（１塩基ミスマッチ検出の場合）の配列を切り出したほうが、フルマッチとミスマッチのＴｍ値に大きな差がつきやすく、反応温度をうまく両者の境界に設けることによって、分離、同定がなされやすい。定量ＰＣＲ法の場合、耐熱性ポリメラーゼが鎖を伸長しないよう、３‘末端側に上記同定のための変異要素がくるよう２０塩基前後の配列を切り出したほうが分離、同定がなされやすい。

両方法ともミスマッチをなるべく数多くプローブ内に抱えたほうが、分離同定がなされやすいプローブとなることは言うまでもない。

すなわち、変異要素のセットを求めるにあたって、プローブ内に含まれるミスマッチの個数を規制したり、アミノ酸レベルの変異があることをプローブ候補（または変異要素のセット）の条件としたり、することによって、本発明で定義するところの「所定の評価」で可能である。

本実施形態においては、演算によって存続した（排除されなかった）要素を抽出し、その複数の要素を候補において、その候補数を減少させることを目指して逐次他の列を選択し、演算を行っている。

このときの演算は、前回の演算結果と次選択の列ベクトルを演算する、という具合に、いわば論理的な積のみで候補数を減少させることができる。

（演算結果の評価の他の実施形態）
本実施形態においては、さらに効率的に候補数を減少させるための評価ステップとして、部分的和を考慮して評価をおこなっている。

以下の例は列１６から１８にかけて、ＧＡＴ（Ａｓｐ）がＡＧＣ（Ｓｅｒ）に変異している。また見やすいように各行ベクトルをコドン単位でまとめて表記した。

アミノ酸レベルの変異を評価条件にしたいのであれば、この場合アミノ酸１文字コードでベクトルを表示しなおして演算を行えば、変異要素のセットは求まる（ただし例ではｂ_２、ｂ_３、ｂ_４は識別できない。列９の１塩基変異はアミノ酸が変わるまでには至らない）。

また今までの論理的な積（前回の演算結果に対して次選択の列ベクトルを演算するという過程）のみでは、右から左方向に順次計算するとｂ_２、ｂ_３、ｂ_４では列１８の要素が選択され、列１７、列１６では候補数を減少させることができないため、候補には残らない。しかし論理的な和（前回の演算結果に対して次選択の列ベクトルを演算しない、列と列はそれぞれ独立に演算するという過程）を考慮すると、ｂ_２では、

列１６、列１７、列１８の演算結果はいずれも等価（残った要素数およびその行位置が同じ）であることがわかる。

この例の場合、「隣合う列の演算結果が三回連続して等価であれば、候補として残す」という評価条件を与えれば、アミノ酸レベルの変異を抽出できることになる。

また同様に「連続する２０ｍｅｒ以内に二つの変異を含むこと」を評価条件に与えれば、たとえばｂ_３では
ｂ_{３−ｓｅｔ}＝（ＧＡＧＣＴＧＧＧＡＣＧＧＣＣＴＡＧＣＧＣＣＧＡＧＴＡＣＴＧＧ）（右方向へ演算）
となるであろうし、分離同定のためのプローブとして、より優れたものとなるよう、評価条件を設定してなんら問題ない。もしも評価条件によって、最終的に要素数が１にならなくとも、条件を順次緩和して、要素数が１に到達するよう、再帰的アルゴリズムを用意すればよい。

また本発明の１８のような形態は、実際にハイブリダイゼーションが行われる検体が、複数の似通った配列の混合物である場合、検体によるアッセイ結果の違いをシミュレートするのに都合がよい。

たとえば実際の例として、人のＭＨＣ領域のＤＲＢ抗原を分離同定するＤＮＡマイクロアレイを設計して、実検体を用いてのハイブリダイゼーションによって、その設計したアレイのプローブ一つ一つに問題がなかったかどうかを確認する作業は、並大抵でない。現在ＤＲＢアレルの数は４００種類近く報告され、検体は父方と母方のＤＮＡの混合物として存在する。

しかも運悪い場合、ＰＣＲ後のサンプルで、たとえばＤＲＢ１とＤＲＢ３を含む４種類の混合物となることもある。仮に１００アレルの２種類の混合物として、_１００Ｃ_２＝４９５０通りとなり、すべての検体において性能はどうかということを、とても実検体では評価しきれない。

しかし１８のような形態は、変異要素のセットの表現が
ｂ_{１−ｓｅｔ}＝（−ＡＣ−−−−−−−−−−Ａ−Ｔ−−−−−Ｇ−−）
となるため、自動的に貴重な情報を付加してくれる。たとえば定量ＰＣＲ用のプローブとして末端にミスマッチを含むものを、Ｔｍが５３℃を超えないように選んだとする。ｂ_０の配列を参照して比較を行い、−記号を塩基に置き換える際に、小文字を使用すると、

ここで、ｂ_１−ｐｒｏｂ内の大文字のＡおよびＴは、ｂ_０から見てミスマッチであるものの、変異を識別する要素のセットとはならなかったものである。しかしｂ_１−ｐｒｏｂプローブ自体には合計３つのミスマッチを含み、１つのミスマッチであった場合に比べると、それほど悪いプローブではないことが読み取れる。さらにｂ_０を変更して、検体中に考えられる例えば４種類のアレルについて、同様の検討をしてみる。さらに考え得る種々の検体で、どの検体のとき、どのプローブに起因して、どのアレルの分離同定が難しいか、演算結果を参照して容易に検討することができる。

（実現例）
上述の方法を具体的に実現するシステムについて更に詳細に説明する。図１のフローは本発明の１実施形態を表すもので、インターネット１を介して（またはもともと存在して）遺伝子情報配列のデータベースがネットワークドライブ２上にある。

複数の配列の選択がキーボード３を操作するオペレーターによって行われる。

選択された複数の配列に対して、アライメント処理ルーチン４によってアライメントが行われる。アライメント後、同定のための変異要素セットを探す範囲（アライメント後の共通領域）が、オペレーターのキーボード３入力情報に基づいて行われ、演算ルーチン５によって演算がなされる。このとき演算の評価条件６（同様にオペレーターから与えても、予めプログラムされていてもよい。）に基づいて評価され、所定の結果（最小値）に到達するまで演算が試行される。試行によって存続した要素（評価条件をパスした）について、同じくオペレーターのキーボード３入力情報に基づき、プローブ抽出ルーチン７によってプローブが決定され、決定されたプローブ情報が出力８される。

次に具体的に、人のＭＨＣのＤＲＢにおけるアレルの分離、同定のための変異要素のセットおよびそのプローブセットを抽出する例を挙げる。データベースから選ばれたアレル群は日本人によく見られる認定済みのアレルでその集合をＰとすると、

なお、この処理方法の実行条件として、
ｉ同定のための変異要素セットを探す範囲をｅｘｏｎ２の１１３から３４５までとする。
ii ３’末端に変異要素をもつプローブとする。
iii ｉｉのプローブはＴｍが５５℃を超えないものとする。
iv ＤＲＢ１＊０１０１０１に対する変異を大文字で表す。
とした。次に出力結果を示す。

（出力結果）

（他の実施形態）
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク，ハードディスク，光ディスク，光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明の方法は、配列を同定するための変異要素のセットを効率的に抽出することができるので、人為的なミスがなく、膨大な配列種から特定の要素を抽出することができる。

この結果、ＤＮＡ分析や診断に使用するＤＮＡプローブの選択に利用することができる。

本発明の１実施形態を表すフロー図である。本発明の一実施形態にかかる情報処理方法（識別可能な要素を抽出する抽出方法）を実現するための情報処理装置の構成を示すブロック図である。

符号の説明

１インターネット
２ネットワークドライブ
３キーボード
４アライメント処理ルーチン
５演算ルーチン
６演算の評価条件
７プローブ抽出ルーチン
８出力
９外部記憶装置
１０中央処理装置（ＣＰＵ）
１１メモリ
１２入出力装置

Claims

複数の配列データにおいて特定配列を識別可能な要素（配列部位）に関する情報を取得するための情報処理方法であって、
類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、
前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、
を有することを特徴とする情報処理方法。
前記演算が、アライメント位置におけるそれぞれの配列情報の要素が同じである場合に、該要素を排除する演算である請求項１に記載の情報処理方法。
前記演算が、前記排除する演算処理がなされた後に、排除されなかった要素をもつアライメント位置の要素同士をさらに演算するものである請求項２に記載の情報処理方法。
前記演算が、少なくとも一つ以上の他の配列データとは異なる要素を有するアライメント位置のそれぞれの要素と、選択された要素とを対比し、同じまたは異なる要素を排除する演算と、
前記排除する演算により取得された第一のアライメント位置のそれぞれの配列要素と、前記演算により取得された第二のアライメント位置のそれぞれの配列要素と、をさらに対比する演算である請求項１に記載の情報処理方法。
前記得られた候補の評価を行うステップを更に有することを特徴とする請求項１〜４のいずれかに記載の情報処理方法。
前記演算が、前記アライメントされた個々の配列情報（ｂ_ｍ）を行の情報として配置し、前記アライメント位置情報をｎ列の情報として配置した行列の集合情報Ｐとして保持し、該行列における任意に選ばれた二つの列の同一行の要素に対して行われる演算である請求項１〜５のいずれかに記載の情報処理方法。
請求項１〜６の方法を用いて導き出される変異要素を少なくとも１つ以上含むことを特徴とした、プローブまたはプローブセット。
請求項１〜６のいずれかに記載の方法を実現するためのコンピュータに実行させるための制御プログラム。
請求項１〜６のいずれかに記載の方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体。