JP2003256435A - 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム - Google Patents

配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム

Info

Publication number
JP2003256435A
JP2003256435A JP2002059973A JP2002059973A JP2003256435A JP 2003256435 A JP2003256435 A JP 2003256435A JP 2002059973 A JP2002059973 A JP 2002059973A JP 2002059973 A JP2002059973 A JP 2002059973A JP 2003256435 A JP2003256435 A JP 2003256435A
Authority
JP
Japan
Prior art keywords
similarity
integration processing
homology
data integration
array data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002059973A
Other languages
English (en)
Inventor
Makihiko Satou
眞木彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002059973A priority Critical patent/JP2003256435A/ja
Priority to US10/353,000 priority patent/US20030171902A1/en
Priority to AU2003200409A priority patent/AU2003200409A1/en
Priority to EP03251311A priority patent/EP1351183A3/en
Publication of JP2003256435A publication Critical patent/JP2003256435A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 既存の,ホモロジーグループに分類されてい
る配列データ群から、より利用しやすい形で整理がなさ
れている情報を生成してバイオ研究者等へ提供すること
が、簡単に(高速に)行える配列データ統合処理装置
を、提供する。 【解決手段】 配列データ統合処理装置10は、複数の
ホモロジーグループのそれぞれについて、そのホモロジ
ーグループを表すHMMを作成するHMM作成部22
と、各HMMペアについて、そのHMMペアを構成する
HMM間の類似性の指標である類似度を算出する類似度
演算部22と、この類似度演算部22により算出された
複数の類似度に基づき、複数のホモロジーグループの中
に、類似していると見なせる2以上のホモロジーグルー
プが存在しているか否かを判断し、類似している見なせ
る2以上のホモロジーグループが存在していた場合に
は、それらのホモロジーグループを統合する処理を行う
統合処理部24とを、含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のホモロジー
グループに分類されている複数の配列データを分類し直
すためのに用いられる配列データ統合処理方法、配列デ
ータ統合処理装置及び配列データ統合処理プログラム
に、関する。
【0002】
【従来の技術】周知のように、バイオの分野では、DN
A配列やアミノ酸配列に関する膨大な量の情報を記憶し
たデータベースが利用されて研究が進められている。
【0003】
【発明が解決しようとする課題】バイオ研究に利用され
ているデータベースは、通常、類似した配列に関するデ
ータが、ホモロジーグループと呼ばれるグループに分類
されているが、既存のベース中には、極めて類似したホ
モロジーグループが、複数個、存在していることがあ
る。また、研究の目的によっては、データベースが、よ
り大きなグループに(とり少数のグループに)配列に関
する情報が分類されているものである方が、良い場合も
ある。
【0004】本発明は、このような実情に鑑みなされた
ものであり、本発明の課題は、既存のホモロジーグルー
プに分類されている配列データ群に基づき、より利用し
やすい形で整理がなされている情報を生成してバイオ研
究者等へ提供することが、簡単に(高速に)行える配列
データ統合処理方法及び配列データ統合処理装置を、提
供することにある。
【0005】また、本発明の他の課題は、コンピュータ
に、本発明の配列データ統合処理方法を実施させること
が出来る配列データ統合処理プログラムを、提供するこ
とにある。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明の配列データ統合処理方法は、複数のホモロ
ジーグループのそれぞれについて、そのホモロジーグル
ープに属する複数の配列データからそのホモロジーグル
ープを表す確率モデルを作成する確率モデル作成ステッ
プと、確率モデル作成ステップにより作成された複数の
確率モデルの中から選択可能な全ての確率モデルペアの
それぞれについて、その確率モデルペアを構成する確率
モデル間の類似性の指標である類似度を算出する類似度
算出ステップと、この類似度算出ステップにより算出さ
れた複数の類似度に基づき、複数のホモロジーグループ
の中に、類似していると見なせる2以上のホモロジーグ
ループが存在しているか否かを判断し、類似している見
なせる2以上のホモロジーグループが存在していた場合
には、それらのホモロジーグループを統合する処理を行
う統合処理ステップとを含む。
【0007】すなわち、本発明の配列データ統合処理方
法は、配列データ自体の類似性を判断することにより、
より利用しやすい形で整理がなされている情報が生成さ
れるのではなく、既存のグループ化された配列データ群
を幾つか統合することにより、より利用しやすい形で整
理がなされている情報が生成される方法となっている。
従って、本配列データ統合処理方法を用いれば、より利
用しやすい形で内容が整理された遺伝子配列等に関する
情報をバイオ研究者等に提供することが、簡単に(高速
に)、行えることになる。
【0008】本発明の配列データ統合処理方法を実施す
る際には、確率モデルが、隠れマルコフモデルとなるよ
うにしておくことが出来る。また、本発明の配列データ
統合処理方法を実施する際には、類似度算出ステップ
が、ダイナミック・プログラミング法に基づく演算処理
により類似度を算出するステップとなるようにしておく
ことも出来る。さらに、本発明の配列データ統合処理方
法を実施するに際しては、統合処理ステップが、ホモロ
ジーグループを統合した場合いには、その統合結果に関
する確率モデルを作成するステップとなるようにしてお
くことも出来る。
【0009】そして、本発明の配列データ統合処理装置
は、複数のホモロジーグループのそれぞれについて、そ
のホモロジーグループに属する複数の配列データからそ
のホモロジーグループを表す確率モデルを作成する確率
モデル作成手段と、確率モデル作成手段によって作成さ
れた複数の確率モデルから選択可能な全ての確率モデル
のペアのそれぞれについて、確率モデル間の類似性の指
標である類似度を算出する類似度算出手段と、この類似
度算出ステップにより算出された複数の類似度に基づ
き、複数のホモロジーグループの中に、類似していると
見なせる2以上のホモロジーグループが存在しているか
否かを判断し、類似している見なせる2以上のホモロジ
ーグループが存在していた場合には、それらのホモロジ
ーグループを統合する処理を行う統合処理手段とを備え
る。
【0010】すなわち、本発明の配列データ統合処理装
置は、本発明の配列データ統合処理方法が実行される装
置となっている。このため、この配列データ統合処理装
置を用いれば、より利用しやすい形で内容が整理された
遺伝子配列等に関する情報をバイオ研究者等に提供する
ことが、簡単に(高速に)、行えることになる。
【0011】また、本発明の配列データ統合処理プログ
ラムは、コンピュータに、本発明の配列データ統合処理
方法を実行されることが出来るプログラムとなってい
る。従って、本発明の配列データ統合処理プログラムを
用いても、より利用しやすい形で内容が整理された遺伝
子配列等に関する情報をバイオ研究者等に提供すること
が、簡単に(高速に)、行えることになる。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して詳細に説明する。
【0013】図1に、本発明の一実施形態に係る配列デ
ータ統合処理装置10の機能ブロック図を、示す。な
お、本実施形態に係る配列データ統合処理装置10は、
入力装置と表示装置とを有する比較的に高機能なコンピ
ュータに、配列データ統合処理プログラムをインストー
ルすることにより実現された装置となっている。
【0014】図示したように、配列データ統合処理装置
10は、配列データ抽出部21とHMM作成部22と類
似度演算部23と統合処理部24とを、備える。
【0015】<配列データ抽出部>配列データ抽出部2
1は、遺伝子配列やアミノ酸配列に関するデータベース
から、操作者によって指定された検索条件を満たすホモ
ロジーグループ情報(同一ホモロジーグループに分類さ
れている配列データの集合)を抽出して、配列データ統
合処理装置10が備える補助記憶装置(図示せず)に記
憶するユニットである。この配列データ抽出部21は、
上記検索条件を指定するための操作を含む所定手順の操
作が、配列データ統合処理装置10の入力装置に対して
なされたときに、実際の動作を開始するユニットとなっ
ている。
【0016】また、配列データ抽出部21が抽出するホ
モロジーグループ情報(以下、HG情報とも表記する)
は、マルチプル・アライメントが取られている配列デー
タの集合となっている。ここで、マルチプル・アライメ
ントとは、与えられた3つ以上の配列を対象として、各
配列の適当な場所にギャップを入れることにより、要素
の並び方が最も類似した配列群を得る操作(処理)のこ
とである。
【0017】<HMM作成部>HMM作成部22は、配
列データ抽出部21によって抽出された複数のホモロジ
ーグループ情報に基づき、ホモロジーグループ情報毎に
その隠れマルコフモデル(HMM:Hidden Markov Mode
l)を作成するユニットである。
【0018】ここで、HMMとは、図2に例示したよう
に、遷移確率(図では、矢印)を介して関連づけられた
Mノード、Iノード、Dノード、Sノード及びEノード
からなる確率モデルのことである。
【0019】このHMMの要素であるMノード及びIノ
ードは、いずれも、配列(配列アライメント)の或る要
素の状態を表すノードであり、Mノードは、記号の出力
確率(塩基配列を表すHMMでは、A、G、C、Tとい
った4種の記号についての4種の出力確率、アミノ酸配
列を表すHMMでは、20種の出力確率)と、幾つかの
他ノード(Mノード、Iノード及びDノード)への遷移
確率とが、対応づけられたノードとなっている。また、
Iノードは、複数の記号の出力確率と、幾つかの遷移確
率と、他Iノードへの遷移確率ではなく自Iノードへの
遷移確率とが対応づけられたノードとなっている。
【0020】一方、Dノードは、幾つかのノードへの遷
移確率のみが対応づけられているダミーノードである。
Sノードは、このHMMの初期状態を表す、幾つかの他
ノードへの遷移確率のみが対応づけられたノードであ
り、Eノードは、このHMMの最終状態を表す、出力確
率のみが対応づけられたノードである。
【0021】なお、このようなHMMを作成するため
に、HMM作成部22が行う処理は、HMMを作成する
ために一般的に行われている処理と同じものである。こ
のため、HMM作成部22によるHMMの作成手順の説
明は、省略することにする。
【0022】<類似度演算部>類似度演算部23(図
1)は、HMM作成部22によって作成された複数のH
MMの中から選択可能な全てのHMMペア(2つのHM
Mの組み合わせ)のそれぞれについて、そのHMMペア
を構成しているHMM間の類似性の指標である類似度を
算出するユニットである。
【0023】各HMMペアに関する類似度を算出するた
めに、この類似度演算部23により行われる演算処理
は、ペアワイズ・アライメントのために従来より行なわ
れているダイナミック・プログラミング法による演算処
理と同一原理の処理となっている。
【0024】このため、類似度演算部23の動作説明を
行う前に、ペアワイズ・アライメントのために行なわれ
ているダイナミック・プログラミング法による演算処理
の内容を説明することにする。
【0025】ペアワイズ・アライメントとは、与えられ
た2つの配列の適当な場所にギャップを入れることによ
り、要素の並び方が最も類似した2つの配列を得る操作
(処理)のことである。
【0026】例えば、“AIMS”及び“AMOS”と
いう2つの配列(文字列)に対してペアワイズ・アライ
メントが行なわれる場合、図3に模式的に示したような
マトリックス、すなわち、5×5のノード(白丸)を含
み、縦方向に並んだノード群には、アライメントを求め
るべき一方の配列(以下、第1配列と表記する;図で
は、“AIMS”)の特定の要素が対応づけられ、横方
向に並んだノードには、アライメントを求めるべき他方
の配列(以下、第2配列と表記する;図では、“AMO
S”)の特定の要素が対応づけられているマトリックス
の存在が、想定される。
【0027】そして、このマトリックスの左上端のノー
ドから右下端のノードまでの、矢印に従った各移動経路
が、1つのアライメント(2配列に関する1つの調整結
果)として解釈される。
【0028】具体的には、このマトリックス上の右方向
矢印に従った移動は、第1配列に関しては、移動後のノ
ードに対応づけられている要素(文字)を調整結果の要
素として出力する操作と解釈され、第2配列に関して
は、ギャップを調整結果の要素として出力する操作と解
釈される。また、斜め方向矢印に従った移動は、第1配
列、第2配列の双方に関して、移動後のノードに対応づ
けられている要素(文字)を調整結果の要素として出力
する操作と解釈される。そして、下方向矢印に従った移
動は、第1配列に関しては、ギャップを調整結果の要素
として出力する操作と解釈され、第2配列に関しては、
移動後のノードに対応づけられている要素(文字)を調
整結果の要素として出力する操作と解釈される。
【0029】すなわち、この図中に、点線矢印で示され
ている経路は、“−AIMS”及び“AMOS−”を示
すものとして解釈され、太線矢印で示されている経路
は、“AIM−S”及び“A−MOS”を示すものとし
て解釈されるのである。
【0030】このマトリックスが表し得る全ての調整結
果の中から、調整後の2配列が最も類似したものを見出
せば、最適アライメントが特定できることになる。ただ
し、全ての調整結果について、調整後の2配列がどの程
度類似しているかを評価していたのでは、目的とするア
ライメントが特定されるまでに時間がかかってしまうこ
とになる。
【0031】このため、ペアワイズ・アライメントを求
める際には、以下に記す(1)式(i,jに関する漸化
式)を用いて、このマトリクス上の各移動経路に対する
評価点(評価値)を求めることが、行われている。
【0032】
【数1】
【0033】この(1)式及び後述する各式において、
{}は、括弧内の複数の演算式の値のうち、最も値の大
きなものを選択するmax関数である。また、この(1)
式において、Vi,jは、第1配列の要素#iと第2配列
の要素#jとに対応づけられたノードまでの経路に対す
る評価点(評価値)であり、dは、ギャップペナルティ
或いはギャップコストと呼ばれる対応要素の欠失に対す
る評価点である。また、wi,jは、第1配列の要素#i
と第2配列の要素#jとの類似性に関する評価点であ
る。このwi,jとしては、塩基配列を対象とする場合に
は、両要素が一致しているか否かに応じた値(予め用意
された2値のうちのいずれか)が用いられており、アミ
ノ酸配列を対象とする場合には、2つのアミノ酸の各組
み合わせに対するw値を保持したテーブルから読み出し
た値が、用いられている。
【0034】そして、ダイナミック・プログラミング法
にてペアワイズ・アライメントを求める際には、この
(1)式による計算が、i,jを増加させながら各ノー
ドについて行なわれる。また、その際には、どの経路
(複数のこともあり得る)をたどった場合に最適であっ
たかを記憶する処理も行われる。そして、全ての演算が
完了した後に、右下端から最適経路を逆向きにたどる
(トレースバックする)ことにより、最適アライメント
が求められている。
【0035】要するに、ダイナミック・プログラミング
法によってペアワイズ・アライメントを求める際に行わ
れている演算処理は、1つのノードについてV値の計算
を行う度に、最終的な評価点(調整後の2配列の評価
点)の算出を行わない経路が増えていく(max関数によ
り、そのノードに至ることが出来る3種の経路の中の2
個の経路が、最終的な評価点の算出を行わない経路とさ
れてしまう)処理となっている。
【0036】次に、類似度演算部23の動作を、説明す
る。
【0037】類似度演算部23は、各HMMペアに関す
る類似度を算出するために、上記した演算処理と同一原
理の類似度演算処理を行なうものとなっている。
【0038】具体的には、類似度演算部23によって行
われる類似度演算処理では、(imax+1)×(jmax+
1)個のノードからなり、ノード〔i,j〕が、HMM
#0に関するi番目のMノードの出力確率ベクトルと、
HMM#1に関するj番目のMノードの出力確率ベクト
ルとに対応づけられたマトリックス(以下、評価値マト
リックスと表記する)の存在が、想定される。ここで、
HMM#0とは、類似度を算出すべきHMMペアを構成
している一方のHMMのことであり、HMM#1とは、
類似度を算出すべきHMMペアを構成している他方のH
MMのことである。また、imaxとは、HMM#0のM
ノードの数のことであり、jmaxとは、HMM#1のM
ノードの数のことである。
【0039】そして、類似度演算処理は、その評価値マ
トリックスから最適経路を見出すために、ノード〔i,
j〕の評価値Vi,j が、以下に記す(2)式にて算出さ
れる処理となっている。
【0040】
【数2】
【0041】(2)式において、dは、いわゆるギャッ
プコスト(ギャップペナルティ)であり、L、L′、
L″は、ノード〔i,j〕に至るまでに通過してきたノ
ードの数である。なお、この(2)式を、L、L′及び
L″を含むものとしてあるのは、ギャップが多く挿入さ
れた経路の評価値が、相対的に小さな値となるようにす
るためである。
【0042】Miは、HMM#0のノードMiに関する出
力確率ベクトルであり、Mjは、HMM#1のノードMj
に関する出力確率ベクトルである。S(Mi,Mj)は、出
力確率ベクトルMiと出力確率ベクトルMjとから、それ
らの類似性を表す類似度を求めるための関数である。こ
のS(Mi,Mj)としては、Mi,Mjが同一のものである
ときに、最大値(例えば、“1”)をとり、Mi,Mj
全く異なったものである(Mi,Mjが直交している)と
きに、最小値(例えば、“0”)をとる関数であれば、
どのようなものを用いても良いのであるが、本実施形態
に係る類似度演算部23は、このS(Mi,Mj)として、
角度θの余弦の二乗値cos2(θ)を用いたものとなってい
る。
【0043】<統合処理部>統合処理部24(図1)
は、類似度演算部23による演算結果に基づき、配列デ
ータ抽出部21によって抽出されている複数のHG情報
を統合する処理を行うユニットである。
【0044】この統合処理部24は、類似度演算部23
による演算が終了した際に動作を開始する。そして、統
合処理部24は、類似度演算部23によって算出された
類似度が、予め与えられている類似度閾値以下となって
いるHMMペアの特定を試み、1つ以上のHMMペアが
特定できた場合には、特定した1つ以上のHMMペアに
関係しているHG情報を統合する統合処理を、行う。
【0045】以下、類似度演算部23による類似度の算
出結果が、図4に示したものであり、類似度閾値が
“0.9”であった場合を例に、統合処理部24により
実行される統合処理の内容を具体的に説明する。
【0046】なお、この図4に、類似度の算出結果が示
されているHMM−α〜γは、それぞれ、図5〜図7に
示した内容の3つのHG情報α〜γ(5H1A#MOUSE.7、5H
1B#DIDMA.7、SSR1#RAT.3)から生成されたHMMであ
り、HMM−αとHMM−β、HMM−αとHMM−
γ、HMM−βとHMM−γは、それぞれ、図8(A)
〜(C)に示したような関係を有するものとなってい
る。なお、図8(A)〜(C)は、類似度算出時に行わ
れた演算結果で2つのHMM間の関係を示した図であ
り、各図は、バックトレースが行われた個所の中の、斜
め上、上、横(左)から接続されているとされた個所
に、それぞれ、“\”、“|”、“=”を示し、バック
トレースが行われなかった、斜め上、上、横(左)から
接続されているとされた個所に、それぞれ、
“+”、“:”、“−”を示した図となっている。
【0047】類似度演算部23による類似度の算出結果
が図4に示したものであり、類似度閾値が“0.9”で
あった場合、類似度閾値を超える類似度が算出されてい
るHMMペアは、HMM−αとHMM−βのペアだけで
ある。このため、統合処理部24は、これらに関係する
HG情報であるHG情報α及びHG情報βから、重複が
ない形で配列データを抽出するとともに、それらの配列
データに対してマルチプル・アライメント処理を行うこ
とにより、図9に示したような内容の新たなHG情報を
作成して補助記憶装置に記憶する。また、統合処理部2
4は、作成したHG情報からHMMを作成して補助記憶
装置に記憶する処理も行う。そして、統合処理部24
は、動作を終了し、配列データ統合処理装置10は、配
列データ抽出部21への動作開始指示が操作者によって
行われるのを待機する状態となる。
【0048】以上、説明したように、本実施形態に係る
配列データ統合処理装置10は、複数のHG情報の中か
ら、類似したHG情報を検索し、検索した複数のHG情
報を統合できる装置となっている。換言すれば、本配列
データ統合処理装置10は、配列データ自体の類似性を
判断することにより、より利用しやすい形で整理がなさ
れているHG情報群を生成するのではなく、既存のHG
情報群の一部を統合することにより、より利用しやすい
形で整理がなされているHG情報群を生成する装置とな
っている。また、配列データ統合処理装置10は、統合
したHG情報についてHMMの作成を行う装置ともなっ
てので、本配列データ統合処理装置10を用いれば、よ
り利用しやすい形で内容が整理された遺伝子配列等に関
する情報をバイオ研究者等に提供することが、簡単に
(高速に)、行えることになる。
【0049】<変形形態>実施形態に係る配列データ統
合処理装置10は、(2)式により評価値マトリックス
のノード〔i,j〕の評価値Vi,j が算出される装置
(Mノードに付与されている出力確率のみを用いて、2
つのHMMの類似度が算出される装置)であったが、
(2)式の代わりに、(3)式が用いられるように、配
列データ統合処理装置10を変形しておいても良い。
【0050】
【数3】
【0051】この(3)式において、Tiは、HMM#
0のノードMiに関する遷移確率ベクトルであり、T
jは、HMM#1のノードMjに関する遷移確率ベクトル
である。S(Ti,Tj)は、それら2つの遷移確率ベクト
ル間の類似度(2ベクトルのなす角の余弦の二乗値)で
ある。
【0052】また、(2)式の代わりに、(4)〜
(7)式が用いられるように、配列データ統合処理装置
10を変形しておいても良い。
【0053】
【数4】
【0054】なお、これらの式において、Tmi、T
i、Tdiは、それぞれ、HMM#0のMノード#iに
関するMノードへの遷移確率、Iノードへの遷移確率、
Dノードへの遷移確率である。Tmj、Tij、Td
jは、それぞれ、HMM#1のMノード#jに関するM
ノードへの遷移確率、Iノードへの遷移確率、Dノード
への遷移確率ある。また、Iiは、HMM#0のノード
iに関する出力確率ベクトルであり、Ijは、HMM#
1のノードIjに関する出力確率ベクトルである。
【0055】また、統合処理部24が以下の動作を行う
ものとなるように、配列データ統合処理装置10を、構
成しておいても良い。
【0056】類似度演算部23による演算が終了した
際、統合処理部24は、まず、待機画面を表示装置に表
示させる。ここで、待機画面とは、類似度の範囲別に、
その範囲内に算出された類似度が入っているHMMペア
の数が示されているとともに、その時点において統合処
理部24が類似度閾値として記憶している値が示されて
いる画面(換言すれば、現在の類似度閾値でいくつのH
G情報が統合されることになるかを操作者がその表示内
容から認識することが出来る画面)のことである。
【0057】そのような待機画面を表示装置に表示させ
た後、統合処理部24は、入力装置に対する操作を通じ
て、操作者から、類似度閾値の変更指示、再分類処理の
開始指示等を、受け付ける状態(以下、指示入力待機状
態と表記する)となる。
【0058】操作者から類似度閾値の変更指示が与えら
れた場合、統合処理部24は、類似度閾値の入力を促す
画面を表示装置に表示させた後、類似度閾値(数値情
報)が入力されるのを待機する状態に移行する。そし
て、統合処理部24は、類似度閾値の入力が行われたと
きに、その類似度閾値を内部に記憶して、その類似度閾
値が示された待機画面を表示装置に表示させる処理を行
ってから、指示入力待機状態に戻る。
【0059】そして、統合処理部24は、操作者から再
分類処理の開始指示が与えられた場合には、類似度演算
部23によって算出された類似度が、その時点において
内部に記憶している類似度閾値以下となっているHMM
ペアの特定を試み、1つ以上のHMMペアが特定できた
場合には、特定した1つ以上のHMMペアに関係してい
るHG情報を統合する統合処理を、行う。
【0060】要するに、HG情報を統合する処理を対話
形式で進められるものとなるように、配列データ統合処
理装置10を構成しておいても良い
【0061】また、配列データ統合処理装置10は、コ
ンピュータに配列データ統合処理プログラムをインスト
ールした装置であったが、類似度演算部23等をICで
実現してもよいことや、配列データ統合処理装置10で
用いられている技術を、HMM以外の確率モデルに適用
しても良いことは、当然である。また、配列データ統合
処理プログラムを可搬型の記録媒体(CD−ROM、M
O等)に記録して、希望者に配布(販売)して良いこと
も、当然である。
【0062】
【発明の効果】本発明によれば、バイオ研究者等に、よ
り利用しやすい形で内容が整理された遺伝子配列等に関
する情報を提供することが、簡単に(高速に)、行える
ことになる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る配列データ統合処
理装置の機能ブロック図である。
【図2】 実施形態に係る配列データ統合処理装置によ
って作成される確率モデルであるHMMを説明するため
の図である。
【図3】 ダイナミック・プログラミング法によるペア
ワイズ・アライメントを説明するための図である。
【図4】 ダイナミック・プログラミング処理部によっ
て算出される類似度の説明図である。
【図5】 類似度演算部による演算結果の一例を示した
図である。
【図6】 図5に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。
【図7】 図5に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。
【図8】 図5に、類似度の算出結果が示されているホ
モロジーグループ情報の説明図である。
【図9】 図5に示したホモロジーグループ情報と、図
6に示したホモロジーグループ情報とから、統合処理部
が生成するホモロジーグループ情報の説明図である。
【符号の説明】
10 配列データ統合処理装置 21 配列データ抽出部 22 HMM作成部 23 類似度演算部 24 統合処理部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 複数のホモロジーグループに分類されて
    いる複数の配列データを分類し直すための配列データ統
    合処理方法であって、 前記複数のホモロジーグループのそれぞれについて、そ
    のホモロジーグループに属する複数の配列データからそ
    のホモロジーグループを表す確率モデルを作成する確率
    モデル作成ステップと、 前記確率モデル作成ステップにより作成された複数の確
    率モデルの中から選択可能な全ての確率モデルペアのそ
    れぞれについて、その確率モデルペアを構成する確率モ
    デル間の類似性の指標である類似度を算出する類似度算
    出ステップと、 この類似度算出ステップにより算出された複数の類似度
    に基づき、前記複数のホモロジーグループの中に、類似
    していると見なせる2以上のホモロジーグループが存在
    しているか否かを判断し、類似している見なせる2以上
    のホモロジーグループが存在していた場合には、それら
    のホモロジーグループを統合する処理を行う統合処理ス
    テップとを含むことを特徴とする配列データ統合処理方
    法。
  2. 【請求項2】 前記確率モデルが、隠れマルコフモデル
    であることを特徴とする請求項1記載の配列データ統合
    処理方法。
  3. 【請求項3】 前記類似度算出ステップは、ダイナミッ
    ク・プログラミング法に基づく演算処理により類似度を
    算出することを特徴とする請求項1又は請求項2に記載
    の配列データ統合処理方法。
  4. 【請求項4】 統合処理ステップは、ホモロジーグルー
    プを統合した場合には、その統合結果に関する確率モデ
    ルを作成することを特徴とする請求項1乃至請求項3記
    載の配列データ統合処理方法。
  5. 【請求項5】 複数のホモロジーグループに分類されて
    いる複数の配列データを分類し直すための配列データ統
    合処理装置であって、 前記複数のホモロジーグループのそれぞれについて、そ
    のホモロジーグループに属する複数の配列データからそ
    のホモロジーグループを表す確率モデルを作成する確率
    モデル作成手段と、 前記確率モデル作成手段によって作成された複数の確率
    モデルから選択可能な全ての確率モデルのペアのそれぞ
    れについて、確率モデル間の類似性の指標である類似度
    を算出する類似度算出手段と、 この類似度算出ステップにより算出された複数の類似度
    に基づき、前記複数のホモロジーグループの中に、類似
    していると見なせる2以上のホモロジーグループが存在
    しているか否かを判断し、類似している見なせる2以上
    のホモロジーグループが存在していた場合には、それら
    のホモロジーグループを統合する処理を行う統合処理手
    段とを備えることを特徴とする配列データ統合処理装
    置。
  6. 【請求項6】 前記確率モデルが、隠れマルコフモデル
    であることを特徴とする請求項5記載の配列データ統合
    処理装置。
  7. 【請求項7】 前記類似度算出手段は、ダイナミック・
    プログラミング法に基づく演算処理により類似度を算出
    することを特徴とする請求項5又は請求項6に記載の配
    列データ統合処理装置。
  8. 【請求項8】 コンピュータに、 複数のホモロジーグループのそれぞれについて、そのホ
    モロジーグループに属する複数の配列データからそのホ
    モロジーグループを表す確率モデルを作成する確率モデ
    ル作成ステップと、 前記確率モデル作成ステップにより作成された複数の確
    率モデルから選択可能な全ての確率モデルのペアのそれ
    ぞれについて、確率モデル間の類似性の指標である類似
    度を算出する類似度算出ステップと、 この類似度算出ステップにより算出された複数の類似度
    に基づき、前記複数のホモロジーグループの中に、類似
    していると見なせる2以上のホモロジーグループが存在
    しているか否かを判断し、類似している見なせる2以上
    のホモロジーグループが存在していた場合には、それら
    のホモロジーグループを統合する処理を行う統合処理ス
    テップとを実行させることを特徴とする配列データ統合
    処理プログラム。
  9. 【請求項9】 前記確率モデルが、隠れマルコフモデル
    であることを特徴とする請求項8記載の配列データ統合
    処理プログラム。
  10. 【請求項10】 前記類似度算出ステップは、ダイナミ
    ック・プログラミング法に基づく演算処理により類似度
    を算出することを特徴とする請求項8又は請求項9に記
    載の配列データ統合処理プログラム。
JP2002059973A 2002-03-06 2002-03-06 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム Withdrawn JP2003256435A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002059973A JP2003256435A (ja) 2002-03-06 2002-03-06 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム
US10/353,000 US20030171902A1 (en) 2002-03-06 2003-01-29 Sequence data combining method, sequence data combining apparatus and sequence data combining program
AU2003200409A AU2003200409A1 (en) 2002-03-06 2003-01-30 Sequence Data Combining Method, Sequence Data Combining Apparatus and Sequence Data Combining Program
EP03251311A EP1351183A3 (en) 2002-03-06 2003-03-05 Sequence data combining method, apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002059973A JP2003256435A (ja) 2002-03-06 2002-03-06 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム

Publications (1)

Publication Number Publication Date
JP2003256435A true JP2003256435A (ja) 2003-09-12

Family

ID=28034826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002059973A Withdrawn JP2003256435A (ja) 2002-03-06 2002-03-06 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム

Country Status (4)

Country Link
US (1) US20030171902A1 (ja)
EP (1) EP1351183A3 (ja)
JP (1) JP2003256435A (ja)
AU (1) AU2003200409A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9593370B2 (en) 2010-10-01 2017-03-14 Oxford Nanopore Technologies Ltd. Biochemical analysis apparatus and rotary valve
GB2492955A (en) 2011-07-13 2013-01-23 Oxford Nanopore Tech Ltd One way valve
CN103946544B (zh) 2011-09-15 2017-06-06 牛津纳米孔技术有限公司
JP6457811B2 (ja) 2011-09-23 2019-01-23 オックスフォード ナノポール テクノロジーズ リミテッド ポリマー単位を含むポリマーの解析
KR102106499B1 (ko) 2012-02-16 2020-05-04 옥스포드 나노포어 테크놀로지즈 리미티드 폴리머의 측정의 분석
GB201222928D0 (en) 2012-12-19 2013-01-30 Oxford Nanopore Tech Ltd Analysis of a polynucleotide
WO2016059427A1 (en) 2014-10-16 2016-04-21 Oxford Nanopore Technologies Limited Analysis of a polymer
CN105893332B (zh) * 2016-03-25 2018-07-03 合肥工业大学 一种适用于组合状态空间模型转移率矩阵的计算方法
CN109617123B (zh) * 2018-12-29 2022-02-11 合肥工业大学 基于状态空间组合和聚类简化的风火系统的可靠性灵敏度分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
US7133780B2 (en) * 2001-04-19 2006-11-07 Affymetrix, Inc. Computer software for automated annotation of biological sequences

Also Published As

Publication number Publication date
EP1351183A2 (en) 2003-10-08
EP1351183A3 (en) 2004-03-31
US20030171902A1 (en) 2003-09-11
AU2003200409A1 (en) 2003-09-25

Similar Documents

Publication Publication Date Title
EP1993064A2 (en) Image processing apparatus and image retrieval method
US20140229476A1 (en) System for Information Discovery & Organization
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN111461168A (zh) 训练样本扩充方法、装置、电子设备及存储介质
JP6615225B2 (ja) 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
CN103440274A (zh) 一种基于细节描述的视频事件概要图构造和匹配方法
CN104508683A (zh) 手写输入支持设备和方法
JP2003256435A (ja) 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム
JP2011150515A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2023015340A (ja) ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
US6363368B2 (en) Optimum solution search method and optimum solution search apparatus as well as storage medium in which optimum solution search program is stored
JP2007213433A (ja) 文字検索装置
JP3469302B2 (ja) テキスト選定装置
JP2005107931A (ja) 画像検索装置
Bae Sequential and parallel algorithms for the generalized maximum subarray problem
JPH11213004A (ja) データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム
WO2023084704A1 (ja) 画像処理装置、方法およびプログラム
JP3812799B2 (ja) 文書集合特徴化方法および該方法を用いた文書集合検索方法およびそれらの装置
CN118072252B (zh) 适用于任意多模态数据组合的行人重识别模型训练方法
JP4721344B2 (ja) 単語検索装置、単語検索方法及びプログラム
JP2005284595A (ja) Rna配列情報処理方法、プログラムおよび装置
JP2000259637A (ja) 情報検索装置及び情報検索方法並びに情報検索処理プログラムを記録した記録媒体
JP2009003731A (ja) 特許検索システム
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510