JP2003256435A

JP2003256435A - 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム

Info

Publication number: JP2003256435A
Application number: JP2002059973A
Authority: JP
Inventors: Makihiko Satou; 眞木彦佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2003-09-12
Also published as: EP1351183A2; EP1351183A3; US20030171902A1; AU2003200409A1

Abstract

(57)【要約】【課題】既存の，ホモロジーグループに分類されてい
る配列データ群から、より利用しやすい形で整理がなさ
れている情報を生成してバイオ研究者等へ提供すること
が、簡単に（高速に）行える配列データ統合処理装置
を、提供する。【解決手段】配列データ統合処理装置１０は、複数の
ホモロジーグループのそれぞれについて、そのホモロジ
ーグループを表すＨＭＭを作成するＨＭＭ作成部２２
と、各ＨＭＭペアについて、そのＨＭＭペアを構成する
ＨＭＭ間の類似性の指標である類似度を算出する類似度
演算部２２と、この類似度演算部２２により算出された
複数の類似度に基づき、複数のホモロジーグループの中
に、類似していると見なせる２以上のホモロジーグルー
プが存在しているか否かを判断し、類似している見なせ
る２以上のホモロジーグループが存在していた場合に
は、それらのホモロジーグループを統合する処理を行う
統合処理部２４とを、含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数のホモロジー
グループに分類されている複数の配列データを分類し直
すためのに用いられる配列データ統合処理方法、配列デ
ータ統合処理装置及び配列データ統合処理プログラム
に、関する。

【０００２】

【従来の技術】周知のように、バイオの分野では、ＤＮ
Ａ配列やアミノ酸配列に関する膨大な量の情報を記憶し
たデータベースが利用されて研究が進められている。

【０００３】

【発明が解決しようとする課題】バイオ研究に利用され
ているデータベースは、通常、類似した配列に関するデ
ータが、ホモロジーグループと呼ばれるグループに分類
されているが、既存のベース中には、極めて類似したホ
モロジーグループが、複数個、存在していることがあ
る。また、研究の目的によっては、データベースが、よ
り大きなグループに（とり少数のグループに）配列に関
する情報が分類されているものである方が、良い場合も
ある。

【０００４】本発明は、このような実情に鑑みなされた
ものであり、本発明の課題は、既存のホモロジーグルー
プに分類されている配列データ群に基づき、より利用し
やすい形で整理がなされている情報を生成してバイオ研
究者等へ提供することが、簡単に（高速に）行える配列
データ統合処理方法及び配列データ統合処理装置を、提
供することにある。

【０００５】また、本発明の他の課題は、コンピュータ
に、本発明の配列データ統合処理方法を実施させること
が出来る配列データ統合処理プログラムを、提供するこ
とにある。

【０００６】

【課題を解決するための手段】上記課題を解決するため
に、本発明の配列データ統合処理方法は、複数のホモロ
ジーグループのそれぞれについて、そのホモロジーグル
ープに属する複数の配列データからそのホモロジーグル
ープを表す確率モデルを作成する確率モデル作成ステッ
プと、確率モデル作成ステップにより作成された複数の
確率モデルの中から選択可能な全ての確率モデルペアの
それぞれについて、その確率モデルペアを構成する確率
モデル間の類似性の指標である類似度を算出する類似度
算出ステップと、この類似度算出ステップにより算出さ
れた複数の類似度に基づき、複数のホモロジーグループ
の中に、類似していると見なせる２以上のホモロジーグ
ループが存在しているか否かを判断し、類似している見
なせる２以上のホモロジーグループが存在していた場合
には、それらのホモロジーグループを統合する処理を行
う統合処理ステップとを含む。

【０００７】すなわち、本発明の配列データ統合処理方
法は、配列データ自体の類似性を判断することにより、
より利用しやすい形で整理がなされている情報が生成さ
れるのではなく、既存のグループ化された配列データ群
を幾つか統合することにより、より利用しやすい形で整
理がなされている情報が生成される方法となっている。
従って、本配列データ統合処理方法を用いれば、より利
用しやすい形で内容が整理された遺伝子配列等に関する
情報をバイオ研究者等に提供することが、簡単に（高速
に）、行えることになる。

【０００８】本発明の配列データ統合処理方法を実施す
る際には、確率モデルが、隠れマルコフモデルとなるよ
うにしておくことが出来る。また、本発明の配列データ
統合処理方法を実施する際には、類似度算出ステップ
が、ダイナミック・プログラミング法に基づく演算処理
により類似度を算出するステップとなるようにしておく
ことも出来る。さらに、本発明の配列データ統合処理方
法を実施するに際しては、統合処理ステップが、ホモロ
ジーグループを統合した場合いには、その統合結果に関
する確率モデルを作成するステップとなるようにしてお
くことも出来る。

【０００９】そして、本発明の配列データ統合処理装置
は、複数のホモロジーグループのそれぞれについて、そ
のホモロジーグループに属する複数の配列データからそ
のホモロジーグループを表す確率モデルを作成する確率
モデル作成手段と、確率モデル作成手段によって作成さ
れた複数の確率モデルから選択可能な全ての確率モデル
のペアのそれぞれについて、確率モデル間の類似性の指
標である類似度を算出する類似度算出手段と、この類似
度算出ステップにより算出された複数の類似度に基づ
き、複数のホモロジーグループの中に、類似していると
見なせる２以上のホモロジーグループが存在しているか
否かを判断し、類似している見なせる２以上のホモロジ
ーグループが存在していた場合には、それらのホモロジ
ーグループを統合する処理を行う統合処理手段とを備え
る。

【００１０】すなわち、本発明の配列データ統合処理装
置は、本発明の配列データ統合処理方法が実行される装
置となっている。このため、この配列データ統合処理装
置を用いれば、より利用しやすい形で内容が整理された
遺伝子配列等に関する情報をバイオ研究者等に提供する
ことが、簡単に（高速に）、行えることになる。

【００１１】また、本発明の配列データ統合処理プログ
ラムは、コンピュータに、本発明の配列データ統合処理
方法を実行されることが出来るプログラムとなってい
る。従って、本発明の配列データ統合処理プログラムを
用いても、より利用しやすい形で内容が整理された遺伝
子配列等に関する情報をバイオ研究者等に提供すること
が、簡単に（高速に）、行えることになる。

【００１２】

【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して詳細に説明する。

【００１３】図１に、本発明の一実施形態に係る配列デ
ータ統合処理装置１０の機能ブロック図を、示す。な
お、本実施形態に係る配列データ統合処理装置１０は、
入力装置と表示装置とを有する比較的に高機能なコンピ
ュータに、配列データ統合処理プログラムをインストー
ルすることにより実現された装置となっている。

【００１４】図示したように、配列データ統合処理装置
１０は、配列データ抽出部２１とＨＭＭ作成部２２と類
似度演算部２３と統合処理部２４とを、備える。

【００１５】＜配列データ抽出部＞配列データ抽出部２
１は、遺伝子配列やアミノ酸配列に関するデータベース
から、操作者によって指定された検索条件を満たすホモ
ロジーグループ情報（同一ホモロジーグループに分類さ
れている配列データの集合）を抽出して、配列データ統
合処理装置１０が備える補助記憶装置（図示せず）に記
憶するユニットである。この配列データ抽出部２１は、
上記検索条件を指定するための操作を含む所定手順の操
作が、配列データ統合処理装置１０の入力装置に対して
なされたときに、実際の動作を開始するユニットとなっ
ている。

【００１６】また、配列データ抽出部２１が抽出するホ
モロジーグループ情報（以下、ＨＧ情報とも表記する）
は、マルチプル・アライメントが取られている配列デー
タの集合となっている。ここで、マルチプル・アライメ
ントとは、与えられた３つ以上の配列を対象として、各
配列の適当な場所にギャップを入れることにより、要素
の並び方が最も類似した配列群を得る操作（処理）のこ
とである。

【００１７】＜ＨＭＭ作成部＞ＨＭＭ作成部２２は、配
列データ抽出部２１によって抽出された複数のホモロジ
ーグループ情報に基づき、ホモロジーグループ情報毎に
その隠れマルコフモデル（ＨＭＭ：Hidden Markov Mode
l）を作成するユニットである。

【００１８】ここで、ＨＭＭとは、図２に例示したよう
に、遷移確率（図では、矢印）を介して関連づけられた
Ｍノード、Ｉノード、Ｄノード、Ｓノード及びＥノード
からなる確率モデルのことである。

【００１９】このＨＭＭの要素であるＭノード及びＩノ
ードは、いずれも、配列（配列アライメント）の或る要
素の状態を表すノードであり、Ｍノードは、記号の出力
確率（塩基配列を表すＨＭＭでは、Ａ、Ｇ、Ｃ、Ｔとい
った４種の記号についての４種の出力確率、アミノ酸配
列を表すＨＭＭでは、２０種の出力確率）と、幾つかの
他ノード（Ｍノード、Ｉノード及びＤノード）への遷移
確率とが、対応づけられたノードとなっている。また、
Ｉノードは、複数の記号の出力確率と、幾つかの遷移確
率と、他Ｉノードへの遷移確率ではなく自Ｉノードへの
遷移確率とが対応づけられたノードとなっている。

【００２０】一方、Ｄノードは、幾つかのノードへの遷
移確率のみが対応づけられているダミーノードである。
Ｓノードは、このＨＭＭの初期状態を表す、幾つかの他
ノードへの遷移確率のみが対応づけられたノードであ
り、Ｅノードは、このＨＭＭの最終状態を表す、出力確
率のみが対応づけられたノードである。

【００２１】なお、このようなＨＭＭを作成するため
に、ＨＭＭ作成部２２が行う処理は、ＨＭＭを作成する
ために一般的に行われている処理と同じものである。こ
のため、ＨＭＭ作成部２２によるＨＭＭの作成手順の説
明は、省略することにする。

【００２２】＜類似度演算部＞類似度演算部２３（図
１）は、ＨＭＭ作成部２２によって作成された複数のＨ
ＭＭの中から選択可能な全てのＨＭＭペア（２つのＨＭ
Ｍの組み合わせ）のそれぞれについて、そのＨＭＭペア
を構成しているＨＭＭ間の類似性の指標である類似度を
算出するユニットである。

【００２３】各ＨＭＭペアに関する類似度を算出するた
めに、この類似度演算部２３により行われる演算処理
は、ペアワイズ・アライメントのために従来より行なわ
れているダイナミック・プログラミング法による演算処
理と同一原理の処理となっている。

【００２４】このため、類似度演算部２３の動作説明を
行う前に、ペアワイズ・アライメントのために行なわれ
ているダイナミック・プログラミング法による演算処理
の内容を説明することにする。

【００２５】ペアワイズ・アライメントとは、与えられ
た２つの配列の適当な場所にギャップを入れることによ
り、要素の並び方が最も類似した２つの配列を得る操作
（処理）のことである。

【００２６】例えば、“ＡＩＭＳ”及び“ＡＭＯＳ”と
いう２つの配列（文字列）に対してペアワイズ・アライ
メントが行なわれる場合、図３に模式的に示したような
マトリックス、すなわち、５×５のノード（白丸）を含
み、縦方向に並んだノード群には、アライメントを求め
るべき一方の配列（以下、第１配列と表記する；図で
は、“ＡＩＭＳ”）の特定の要素が対応づけられ、横方
向に並んだノードには、アライメントを求めるべき他方
の配列（以下、第２配列と表記する；図では、“ＡＭＯ
Ｓ”）の特定の要素が対応づけられているマトリックス
の存在が、想定される。

【００２７】そして、このマトリックスの左上端のノー
ドから右下端のノードまでの、矢印に従った各移動経路
が、１つのアライメント（２配列に関する１つの調整結
果）として解釈される。

【００２８】具体的には、このマトリックス上の右方向
矢印に従った移動は、第１配列に関しては、移動後のノ
ードに対応づけられている要素（文字）を調整結果の要
素として出力する操作と解釈され、第２配列に関して
は、ギャップを調整結果の要素として出力する操作と解
釈される。また、斜め方向矢印に従った移動は、第１配
列、第２配列の双方に関して、移動後のノードに対応づ
けられている要素（文字）を調整結果の要素として出力
する操作と解釈される。そして、下方向矢印に従った移
動は、第１配列に関しては、ギャップを調整結果の要素
として出力する操作と解釈され、第２配列に関しては、
移動後のノードに対応づけられている要素（文字）を調
整結果の要素として出力する操作と解釈される。

【００２９】すなわち、この図中に、点線矢印で示され
ている経路は、“−ＡＩＭＳ”及び“ＡＭＯＳ−”を示
すものとして解釈され、太線矢印で示されている経路
は、“ＡＩＭ−Ｓ”及び“Ａ−ＭＯＳ”を示すものとし
て解釈されるのである。

【００３０】このマトリックスが表し得る全ての調整結
果の中から、調整後の２配列が最も類似したものを見出
せば、最適アライメントが特定できることになる。ただ
し、全ての調整結果について、調整後の２配列がどの程
度類似しているかを評価していたのでは、目的とするア
ライメントが特定されるまでに時間がかかってしまうこ
とになる。

【００３１】このため、ペアワイズ・アライメントを求
める際には、以下に記す（１）式（ｉ，ｊに関する漸化
式）を用いて、このマトリクス上の各移動経路に対する
評価点（評価値）を求めることが、行われている。

【００３２】

【数１】

【００３３】この（１）式及び後述する各式において、
｛｝は、括弧内の複数の演算式の値のうち、最も値の大
きなものを選択するmax関数である。また、この（１）
式において、Ｖ_i,jは、第１配列の要素＃ｉと第２配列
の要素＃ｊとに対応づけられたノードまでの経路に対す
る評価点（評価値）であり、ｄは、ギャップペナルティ
或いはギャップコストと呼ばれる対応要素の欠失に対す
る評価点である。また、ｗ_i,jは、第１配列の要素＃ｉ
と第２配列の要素＃ｊとの類似性に関する評価点であ
る。このｗ_i,jとしては、塩基配列を対象とする場合に
は、両要素が一致しているか否かに応じた値（予め用意
された２値のうちのいずれか）が用いられており、アミ
ノ酸配列を対象とする場合には、２つのアミノ酸の各組
み合わせに対するｗ値を保持したテーブルから読み出し
た値が、用いられている。

【００３４】そして、ダイナミック・プログラミング法
にてペアワイズ・アライメントを求める際には、この
（１）式による計算が、ｉ，ｊを増加させながら各ノー
ドについて行なわれる。また、その際には、どの経路
（複数のこともあり得る）をたどった場合に最適であっ
たかを記憶する処理も行われる。そして、全ての演算が
完了した後に、右下端から最適経路を逆向きにたどる
（トレースバックする）ことにより、最適アライメント
が求められている。

【００３５】要するに、ダイナミック・プログラミング
法によってペアワイズ・アライメントを求める際に行わ
れている演算処理は、１つのノードについてＶ値の計算
を行う度に、最終的な評価点（調整後の２配列の評価
点）の算出を行わない経路が増えていく（max関数によ
り、そのノードに至ることが出来る３種の経路の中の２
個の経路が、最終的な評価点の算出を行わない経路とさ
れてしまう）処理となっている。

【００３６】次に、類似度演算部２３の動作を、説明す
る。

【００３７】類似度演算部２３は、各ＨＭＭペアに関す
る類似度を算出するために、上記した演算処理と同一原
理の類似度演算処理を行なうものとなっている。

【００３８】具体的には、類似度演算部２３によって行
われる類似度演算処理では、（ｉmax＋１）×（ｊmax＋
１）個のノードからなり、ノード〔ｉ，ｊ〕が、ＨＭＭ
＃０に関するｉ番目のＭノードの出力確率ベクトルと、
ＨＭＭ＃１に関するｊ番目のＭノードの出力確率ベクト
ルとに対応づけられたマトリックス（以下、評価値マト
リックスと表記する）の存在が、想定される。ここで、
ＨＭＭ＃０とは、類似度を算出すべきＨＭＭペアを構成
している一方のＨＭＭのことであり、ＨＭＭ＃１とは、
類似度を算出すべきＨＭＭペアを構成している他方のＨ
ＭＭのことである。また、ｉmaxとは、ＨＭＭ＃０のＭ
ノードの数のことであり、ｊmaxとは、ＨＭＭ＃１のＭ
ノードの数のことである。

【００３９】そして、類似度演算処理は、その評価値マ
トリックスから最適経路を見出すために、ノード〔ｉ，
ｊ〕の評価値Ｖ_i,j が、以下に記す（２）式にて算出さ
れる処理となっている。

【００４０】

【数２】

【００４１】（２）式において、ｄは、いわゆるギャッ
プコスト（ギャップペナルティ）であり、Ｌ、Ｌ′、
Ｌ″は、ノード〔ｉ，ｊ〕に至るまでに通過してきたノ
ードの数である。なお、この（２）式を、Ｌ、Ｌ′及び
Ｌ″を含むものとしてあるのは、ギャップが多く挿入さ
れた経路の評価値が、相対的に小さな値となるようにす
るためである。

【００４２】Ｍ_iは、ＨＭＭ＃０のノードＭ_iに関する出
力確率ベクトルであり、Ｍ_jは、ＨＭＭ＃１のノードＭ_j
に関する出力確率ベクトルである。Ｓ(Ｍ_i，Ｍ_j)は、出
力確率ベクトルＭ_iと出力確率ベクトルＭ_jとから、それ
らの類似性を表す類似度を求めるための関数である。こ
のＳ(Ｍ_i，Ｍ_j)としては、Ｍ_i，Ｍ_jが同一のものである
ときに、最大値（例えば、“１”）をとり、Ｍ_i，Ｍ_jが
全く異なったものである（Ｍ_i，Ｍ_jが直交している）と
きに、最小値（例えば、“０”）をとる関数であれば、
どのようなものを用いても良いのであるが、本実施形態
に係る類似度演算部２３は、このＳ(Ｍ_i，Ｍ_j)として、
角度θの余弦の二乗値cos²(θ)を用いたものとなってい
る。

【００４３】＜統合処理部＞統合処理部２４（図１）
は、類似度演算部２３による演算結果に基づき、配列デ
ータ抽出部２１によって抽出されている複数のＨＧ情報
を統合する処理を行うユニットである。

【００４４】この統合処理部２４は、類似度演算部２３
による演算が終了した際に動作を開始する。そして、統
合処理部２４は、類似度演算部２３によって算出された
類似度が、予め与えられている類似度閾値以下となって
いるＨＭＭペアの特定を試み、１つ以上のＨＭＭペアが
特定できた場合には、特定した１つ以上のＨＭＭペアに
関係しているＨＧ情報を統合する統合処理を、行う。

【００４５】以下、類似度演算部２３による類似度の算
出結果が、図４に示したものであり、類似度閾値が
“０．９”であった場合を例に、統合処理部２４により
実行される統合処理の内容を具体的に説明する。

【００４６】なお、この図４に、類似度の算出結果が示
されているＨＭＭ−α〜γは、それぞれ、図５〜図７に
示した内容の３つのＨＧ情報α〜γ（5H1A#MOUSE.7、5H
1B#DIDMA.7、SSR1#RAT.3）から生成されたＨＭＭであ
り、ＨＭＭ−αとＨＭＭ−β、ＨＭＭ−αとＨＭＭ−
γ、ＨＭＭ−βとＨＭＭ−γは、それぞれ、図８（Ａ）
〜（Ｃ）に示したような関係を有するものとなってい
る。なお、図８（Ａ）〜（Ｃ）は、類似度算出時に行わ
れた演算結果で２つのＨＭＭ間の関係を示した図であ
り、各図は、バックトレースが行われた個所の中の、斜
め上、上、横（左）から接続されているとされた個所
に、それぞれ、“＼”、“｜”、“＝”を示し、バック
トレースが行われなかった、斜め上、上、横（左）から
接続されているとされた個所に、それぞれ、
“＋”、“：”、“−”を示した図となっている。

【００４７】類似度演算部２３による類似度の算出結果
が図４に示したものであり、類似度閾値が“０．９”で
あった場合、類似度閾値を超える類似度が算出されてい
るＨＭＭペアは、ＨＭＭ−αとＨＭＭ−βのペアだけで
ある。このため、統合処理部２４は、これらに関係する
ＨＧ情報であるＨＧ情報α及びＨＧ情報βから、重複が
ない形で配列データを抽出するとともに、それらの配列
データに対してマルチプル・アライメント処理を行うこ
とにより、図９に示したような内容の新たなＨＧ情報を
作成して補助記憶装置に記憶する。また、統合処理部２
４は、作成したＨＧ情報からＨＭＭを作成して補助記憶
装置に記憶する処理も行う。そして、統合処理部２４
は、動作を終了し、配列データ統合処理装置１０は、配
列データ抽出部２１への動作開始指示が操作者によって
行われるのを待機する状態となる。

【００４８】以上、説明したように、本実施形態に係る
配列データ統合処理装置１０は、複数のＨＧ情報の中か
ら、類似したＨＧ情報を検索し、検索した複数のＨＧ情
報を統合できる装置となっている。換言すれば、本配列
データ統合処理装置１０は、配列データ自体の類似性を
判断することにより、より利用しやすい形で整理がなさ
れているＨＧ情報群を生成するのではなく、既存のＨＧ
情報群の一部を統合することにより、より利用しやすい
形で整理がなされているＨＧ情報群を生成する装置とな
っている。また、配列データ統合処理装置１０は、統合
したＨＧ情報についてＨＭＭの作成を行う装置ともなっ
てので、本配列データ統合処理装置１０を用いれば、よ
り利用しやすい形で内容が整理された遺伝子配列等に関
する情報をバイオ研究者等に提供することが、簡単に
（高速に）、行えることになる。

【００４９】＜変形形態＞実施形態に係る配列データ統
合処理装置１０は、（２）式により評価値マトリックス
のノード〔ｉ，ｊ〕の評価値Ｖ_i,j が算出される装置
（Ｍノードに付与されている出力確率のみを用いて、２
つのＨＭＭの類似度が算出される装置）であったが、
（２）式の代わりに、（３）式が用いられるように、配
列データ統合処理装置１０を変形しておいても良い。

【００５０】

【数３】

【００５１】この（３）式において、Ｔ_iは、ＨＭＭ＃
０のノードＭ_iに関する遷移確率ベクトルであり、Ｔ
_jは、ＨＭＭ＃１のノードＭ_jに関する遷移確率ベクトル
である。Ｓ(Ｔ_i，Ｔ_j)は、それら２つの遷移確率ベクト
ル間の類似度（２ベクトルのなす角の余弦の二乗値）で
ある。

【００５２】また、（２）式の代わりに、（４）〜
（７）式が用いられるように、配列データ統合処理装置
１０を変形しておいても良い。

【００５３】

【数４】

【００５４】なお、これらの式において、Ｔｍ_i、Ｔ
ｉ_i、Ｔｄ_iは、それぞれ、ＨＭＭ＃０のＭノード＃ｉに
関するＭノードへの遷移確率、Ｉノードへの遷移確率、
Ｄノードへの遷移確率である。Ｔｍ_j、Ｔｉ_j、Ｔｄ
_jは、それぞれ、ＨＭＭ＃１のＭノード＃ｊに関するＭ
ノードへの遷移確率、Ｉノードへの遷移確率、Ｄノード
への遷移確率ある。また、Ｉ_iは、ＨＭＭ＃０のノード
Ｉ_iに関する出力確率ベクトルであり、Ｉ_jは、ＨＭＭ＃
１のノードＩ_jに関する出力確率ベクトルである。

【００５５】また、統合処理部２４が以下の動作を行う
ものとなるように、配列データ統合処理装置１０を、構
成しておいても良い。

【００５６】類似度演算部２３による演算が終了した
際、統合処理部２４は、まず、待機画面を表示装置に表
示させる。ここで、待機画面とは、類似度の範囲別に、
その範囲内に算出された類似度が入っているＨＭＭペア
の数が示されているとともに、その時点において統合処
理部２４が類似度閾値として記憶している値が示されて
いる画面（換言すれば、現在の類似度閾値でいくつのＨ
Ｇ情報が統合されることになるかを操作者がその表示内
容から認識することが出来る画面）のことである。

【００５７】そのような待機画面を表示装置に表示させ
た後、統合処理部２４は、入力装置に対する操作を通じ
て、操作者から、類似度閾値の変更指示、再分類処理の
開始指示等を、受け付ける状態（以下、指示入力待機状
態と表記する）となる。

【００５８】操作者から類似度閾値の変更指示が与えら
れた場合、統合処理部２４は、類似度閾値の入力を促す
画面を表示装置に表示させた後、類似度閾値（数値情
報）が入力されるのを待機する状態に移行する。そし
て、統合処理部２４は、類似度閾値の入力が行われたと
きに、その類似度閾値を内部に記憶して、その類似度閾
値が示された待機画面を表示装置に表示させる処理を行
ってから、指示入力待機状態に戻る。

【００５９】そして、統合処理部２４は、操作者から再
分類処理の開始指示が与えられた場合には、類似度演算
部２３によって算出された類似度が、その時点において
内部に記憶している類似度閾値以下となっているＨＭＭ
ペアの特定を試み、１つ以上のＨＭＭペアが特定できた
場合には、特定した１つ以上のＨＭＭペアに関係してい
るＨＧ情報を統合する統合処理を、行う。

【００６０】要するに、ＨＧ情報を統合する処理を対話
形式で進められるものとなるように、配列データ統合処
理装置１０を構成しておいても良い

【００６１】また、配列データ統合処理装置１０は、コ
ンピュータに配列データ統合処理プログラムをインスト
ールした装置であったが、類似度演算部２３等をＩＣで
実現してもよいことや、配列データ統合処理装置１０で
用いられている技術を、ＨＭＭ以外の確率モデルに適用
しても良いことは、当然である。また、配列データ統合
処理プログラムを可搬型の記録媒体（ＣＤ−ＲＯＭ、Ｍ
Ｏ等）に記録して、希望者に配布（販売）して良いこと
も、当然である。

【００６２】

【発明の効果】本発明によれば、バイオ研究者等に、よ
り利用しやすい形で内容が整理された遺伝子配列等に関
する情報を提供することが、簡単に（高速に）、行える
ことになる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る配列データ統合処
理装置の機能ブロック図である。

【図２】実施形態に係る配列データ統合処理装置によ
って作成される確率モデルであるＨＭＭを説明するため
の図である。

【図３】ダイナミック・プログラミング法によるペア
ワイズ・アライメントを説明するための図である。

【図４】ダイナミック・プログラミング処理部によっ
て算出される類似度の説明図である。

【図５】類似度演算部による演算結果の一例を示した
図である。

【図６】図５に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。

【図７】図５に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。

【図８】図５に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。

【図９】図５に示したホモロジーグループ情報と、図
６に示したホモロジーグループ情報とから、統合処理部
が生成するホモロジーグループ情報の説明図である。

【符号の説明】

１０配列データ統合処理装置２１配列データ抽出部２２ＨＭＭ作成部２３類似度演算部２４統合処理部

Claims

【特許請求の範囲】

【請求項１】複数のホモロジーグループに分類されて
いる複数の配列データを分類し直すための配列データ統
合処理方法であって、前記複数のホモロジーグループのそれぞれについて、そ
のホモロジーグループに属する複数の配列データからそ
のホモロジーグループを表す確率モデルを作成する確率
モデル作成ステップと、前記確率モデル作成ステップにより作成された複数の確
率モデルの中から選択可能な全ての確率モデルペアのそ
れぞれについて、その確率モデルペアを構成する確率モ
デル間の類似性の指標である類似度を算出する類似度算
出ステップと、この類似度算出ステップにより算出された複数の類似度
に基づき、前記複数のホモロジーグループの中に、類似
していると見なせる２以上のホモロジーグループが存在
しているか否かを判断し、類似している見なせる２以上
のホモロジーグループが存在していた場合には、それら
のホモロジーグループを統合する処理を行う統合処理ス
テップとを含むことを特徴とする配列データ統合処理方
法。
【請求項２】前記確率モデルが、隠れマルコフモデル
であることを特徴とする請求項１記載の配列データ統合
処理方法。
【請求項３】前記類似度算出ステップは、ダイナミッ
ク・プログラミング法に基づく演算処理により類似度を
算出することを特徴とする請求項１又は請求項２に記載
の配列データ統合処理方法。
【請求項４】統合処理ステップは、ホモロジーグルー
プを統合した場合には、その統合結果に関する確率モデ
ルを作成することを特徴とする請求項１乃至請求項３記
載の配列データ統合処理方法。
【請求項５】複数のホモロジーグループに分類されて
いる複数の配列データを分類し直すための配列データ統
合処理装置であって、前記複数のホモロジーグループのそれぞれについて、そ
のホモロジーグループに属する複数の配列データからそ
のホモロジーグループを表す確率モデルを作成する確率
モデル作成手段と、前記確率モデル作成手段によって作成された複数の確率
モデルから選択可能な全ての確率モデルのペアのそれぞ
れについて、確率モデル間の類似性の指標である類似度
を算出する類似度算出手段と、この類似度算出ステップにより算出された複数の類似度
に基づき、前記複数のホモロジーグループの中に、類似
していると見なせる２以上のホモロジーグループが存在
しているか否かを判断し、類似している見なせる２以上
のホモロジーグループが存在していた場合には、それら
のホモロジーグループを統合する処理を行う統合処理手
段とを備えることを特徴とする配列データ統合処理装
置。
【請求項６】前記確率モデルが、隠れマルコフモデル
であることを特徴とする請求項５記載の配列データ統合
処理装置。
【請求項７】前記類似度算出手段は、ダイナミック・
プログラミング法に基づく演算処理により類似度を算出
することを特徴とする請求項５又は請求項６に記載の配
列データ統合処理装置。
【請求項８】コンピュータに、複数のホモロジーグループのそれぞれについて、そのホ
モロジーグループに属する複数の配列データからそのホ
モロジーグループを表す確率モデルを作成する確率モデ
ル作成ステップと、前記確率モデル作成ステップにより作成された複数の確
率モデルから選択可能な全ての確率モデルのペアのそれ
ぞれについて、確率モデル間の類似性の指標である類似
度を算出する類似度算出ステップと、この類似度算出ステップにより算出された複数の類似度
に基づき、前記複数のホモロジーグループの中に、類似
していると見なせる２以上のホモロジーグループが存在
しているか否かを判断し、類似している見なせる２以上
のホモロジーグループが存在していた場合には、それら
のホモロジーグループを統合する処理を行う統合処理ス
テップとを実行させることを特徴とする配列データ統合
処理プログラム。
【請求項９】前記確率モデルが、隠れマルコフモデル
であることを特徴とする請求項８記載の配列データ統合
処理プログラム。
【請求項１０】前記類似度算出ステップは、ダイナミ
ック・プログラミング法に基づく演算処理により類似度
を算出することを特徴とする請求項８又は請求項９に記
載の配列データ統合処理プログラム。