JPH11296553A - 複数文字列アライメント方法およびシステム - Google Patents

複数文字列アライメント方法およびシステム

Info

Publication number
JPH11296553A
JPH11296553A JP11608498A JP11608498A JPH11296553A JP H11296553 A JPH11296553 A JP H11296553A JP 11608498 A JP11608498 A JP 11608498A JP 11608498 A JP11608498 A JP 11608498A JP H11296553 A JPH11296553 A JP H11296553A
Authority
JP
Japan
Prior art keywords
character
probability
characters
given
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11608498A
Other languages
English (en)
Other versions
JP3237606B2 (ja
Inventor
Hiroshi Mamizuka
拓 馬見塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11608498A priority Critical patent/JP3237606B2/ja
Publication of JPH11296553A publication Critical patent/JPH11296553A/ja
Application granted granted Critical
Publication of JP3237606B2 publication Critical patent/JP3237606B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】複数の文字列に対し、各文字列内の文字間に空
白を挿入し長さを同じにする際に、空白挿入後の各位置
での文字をなるべく合致させる、複数文字列のアライメ
ントを効率よく、且つ高精度に実現する方法及びシステ
ムの提供。 【解決手段】学習部101は、文字列データから文字列
に空白(ヌル文字)を挿入後の各文字位置iにおける
(ヌル文字を含む)文字種類jの確率分布p(i,j)の
初期値、及び文字データを入力する。学習部101は、
文字間の類似度をも使用して、p(i,j)の大域的に
最適な値を学習可能であり、学習の結果得られた、p
(i,j)を書き換える。推定部102は、学習された
確率分布p(i,j)と文字列データを入力とし、文字
列に対し最尤値を与えるヌル文字挿入位置を推定し、最
尤値に対応する文字位置とヌル文字位置をアライメント
結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文字列を、
各文字列内の文字間に空白を挿入し整合(アライメント)
する方法およびシステムに関し、特に、多数の核酸配列
やアミノ酸配列などを文字で表現する際のアライメント
に用いて好適とされる方法及びシステムに関する。
【0002】
【従来の技術】所与の複数の文字列に対し、各文字列内
の文字間に空白(以下、「ヌル文字」という)を挿入して
長さを同じにする際に、ヌル文字挿入後の各位置での文
字をなるたけ合致させることを複数文字列の整合(「ア
ライメント」)と呼ぶ。
【0003】特に、4種類の塩基で表現される核酸配列
や、20種類のアミノ酸で表現されるアミノ酸配列(タ
ンパク質)は、それぞれ4乃至20種類の文字による文
字列とみなすことが出来るので、アライメントにより、
実験的に得られた複数の配列間の類似性(これを「相同
性」という)の検査が可能になる。例えば、二本の核酸
あるいはアミノ酸配列をアライメント(「ペアワイズア
ライメント」という)し、その相同性を検査することに
より、二本の配列が同じカテゴリー(アミノ酸配列であ
れば「ファミリー」と呼ばれる)に属するか否か、ま
た、どの程度進化上離れたものであるか、といった解析
が可能となる。
【0004】また、二本以上の複数の配列をアライメン
ト(「マルチプルアライメント」という)することによっ
て、それら配列内の大部分に共通な文字列(「共通文字
列」という、なお「コンセンサス配列」あるいは「保存
配列」とも呼ばれる)を抽出し、新たに配列が与えられ
た場合に、共通文字列を有するか否かにより新しい配列
が同じカテゴリーの配列かどうかを識別することが可能
である。
【0005】すなわち、アライメントは、核酸配列やア
ミノ酸配列に対し、多岐に渡る生物学的目的に使用可能
であると言える。従って、文字列アライメントは、この
ような分子生物学から得られる核酸配列やタンパク質配
列を解析する計算生物学(Computational Biology)の分
野で最も発展してきた。
【0006】この分野において、ペアワイズアライメン
トに対しては、1970年代初頭より数多くの解決手法及び
それを実現するシステムが提案されて来ている。
【0007】例えば、文献として、1970年発行の英
国の雑誌(学術刊行物)「ジャーナル オブ モレキュ
ラ バイオロジ」(Journal of Molecular Biology)
の第48号、第443-453頁に記載されている、ニ
ードルマン(Needleman)とブンシュ(Wunsch)による「ア
ジェネラル メソード アプリカブル トゥ ザ サ
ーチ フォー シミラリティズ イン ザ アミノ ア
シド シークエンス オブ ツウ プロテインズ」(A
general method applicable to the searchfor s
imilarities in the amino acid sequences of
two proteins)と題する論文や、1981年発行の英国
の雑誌「ジャーナル オブ モレキュラー バイオロジ
ー」(Journal of Molecular Biology)の第147号
の第195-197頁に記載されている、スミス(Smith)
とウォーターマン(Waterman)による「アイデンティフィ
ケーション オブ コモン モレキュラ サブシークエ
ンスイズ」(Identification of common molecular
subsequences)と題する論文において、動的計画法に基
づく効率の良い方法が提案されてきている。
【0008】これらの方法によれば、アライメントされ
る文字列の長さをnとした時にO(n2)、の計算時間
でペアワイズアライメントを達成できる。
【0009】一方、動的計画法をマルチプルアライメン
トに適用すると、アライメントされる文字列数がk本に
なった場合には、O(nk)の計算時間が必要になり、
現実的なn及びkの値、例えば、n=200、k=100では、
到底計算不可能となる。
【0010】そこでこの問題を解決すべく、従来より、
いくつかのマルチプルアライメント手法が提案されてい
る。例えば、1988年発行の英国の雑誌「コンピュー
タアプリケーションズ イン ザ バイオサイエンスイ
ズ」(Computer Applications in the Biosciences)
の第5号、第151-153頁に記載される、ヒギンズ
(Higgins)とシャープ(Sharp)による「ファスト アンド
センシティブ マルチプル シークエンス アライメ
ンツ オン ア マイクロコンピュータ」(Fast and
sensitive multiple sequence alignments on a
microcomputer)と題する論文では、ペアワイズアライメ
ントを基にして、マルチプルアライメントを近似する手
法が提案されている。この方法では、O(nk)の計算
時間を必要とせず、O(n2)程度の計算時間で十分で
あるが、この方法は、あくまで近似手法であり、互いに
アライメントしない文字列が存在するという問題点が残
る。
【0011】この問題は、同様にペアワイズアライメン
トを基に並列計算機を用いたマルチプルアライメント手
法である、1993年発行の英国の雑誌「コンピュータ
アプリケーションズ イン ザ バイオサイエンスイ
ズ」(Computer Applications in the Biosciences)
の第9号、第267-273頁記載の石川らによる「マ
ルチプル シークエンス アライメント バイ パラレ
ル シミュレーテドアニーリング」(Multiple sequenc
e alignment by parallel simulated annealing)
と題する論文においても指摘されている。すなわち、ペ
アワイズアライメントを基にした近似アルゴリズムで
は、最初に行うペアワイズアライメントの結果に、最終
的なマルチプルアライメントの結果が影響を受けてしま
うため、文字列全体に対して最適なマルチプルアライメ
ントが得られにくい。
【0012】石川らは、上記論文において、このような
状況をなるたけ回避するために、出来るたけ多くの文字
列ペアのペアワイズアライメントを利用する方法をも提
案している。
【0013】しかし、こういった方法では、O(k×n
2)やO(k2×n2)の計算時間を必要とする。すなわ
ち、kとnのオーダが同じとすれば、O(n3)やO
(n4)の計算時間が必要となる。
【0014】一方、近年、マルチプルアライメントを確
率モデルの学習問題とみなし、確率モデルの確率パラメ
ータを所与の文字列から学習し、学習された確率モデル
が、各文字列に対して与える最も尤度の高い場合(隠れ
マルコフモデルの場合には、状態遷移における遷移順す
なわちパスであるので「最尤パス」と呼ばれる)から、
アライメント結果を得る方法が提案されて来ている。
【0015】例えば、1993年発行の英国の雑誌「ジ
ャーナル オブ モレキュラ バイオロジー」(Journal
of Molecular Biology)の第235号、第1501-
1531頁に記載される、クロー(Krogh)らによる「ヒ
ドゥン マルコフ モデルズイン コンピュテーショナ
ル バイオロジー アプリケーションズ トゥ プロテ
イン モデリング」(Hidden Markov models in com
putational biology Applications to protein mo
deling)と題する論文や、1994年発行の米国の学術
刊行物「プロシーディングス オブ ナショナル アカ
デミー オブサイエンスイズ」(Proceedings of Nati
onal Academy of Sciences)の91号1059-10
63頁に記載される、バルジ(Baldi)らのによる「ヒド
ゥンマルコフ モデルズ オブ バイオロジカル プラ
イマリ シークエンス インフォメーション」(Hidden
Markov models of biological primary sequenc
e information)と題する論文、1995年発行の米国
の雑誌「ジャーナル オブ コンピュテーショナル バ
イオロジー」(Journal of Computational Biology)
の第2号、第9-24頁に記載されているエディ(Eddy)
らによる「マキシマム ディスクリミネーション ヒド
ゥン マルコフ モデルズ オブ シークエンス コン
センサス」(Maximum discrimination hidden Markov
models ofsequence consensus)と題する論文があ
る。
【0016】上記した論文のいずれにおいても、隠れマ
ルコフモデルを確率モデルとして使用し、さらに、いず
れも共通のモデル構造を採用している。
【0017】構造の具体例を図3に示す。図3に示す隠
れマルコフモデル(HMM)は、M、I、Dと名付けら
れた3種類の状態を持つ。Mは、アライメントの結果、
共通する文字列部分に相当し、Iは共通文字列を除く文
字部分に相当し、Dは文字を発生しないので、文字列の
文字間に挿入されるヌル文字に相当する。
【0018】隠れマルコフモデルを用いたアライメント
では、Iで発生する文字の分布は固定されているので、M
で発生する文字分布を学習し、この文字分布から、各文
字列に対する最尤パスを推定する。例えば、各Mでの文
字分布が、図3に示すように学習されていれば、文字列
ADTCの最尤パスは、M1->M2->I2->M3と推定出来る。
【0019】同様に、文字列WAECの最尤パスは、I0->M1
->M2->M3となる。この隠れマルコフモデルによるアライ
メント手法では、学習はBaum-Welch(バウム・ウェル
チ、「Forward-Backward」(フォアワード・バックワー
ド)とも呼ばれる)アルゴリズムもしくはそれに類似の
アルゴリズム、また、最尤パスの推定にはビタビ(Vite
rbi)と呼ばれるアルゴリズムが使われており、いずれ
も上記、ペアワイズアライメントの場合と同様のO(n
2)の計算時間しかかからない。
【0020】しかしながら、図3に示した隠れマルコフ
モデルの構造では、共通文字列内に挿入される文字を、
たとえそれが文字列であっても一つのI状態で表現する
ため、共通文字列以外の文字列のアライメントが出来な
い、という問題点がある。
【0021】さらに、動的計画法に基づく方法では、文
字の類似度の使用が可能であるのに対し、隠れマルコフ
モデルによるアライメントでは、いずれの論文において
も、文字の類似度が全く使用できない、という問題点が
ある。
【0022】加えて最大の問題点として、隠れマルコフ
モデルの前述の学習アルゴリズムは、いずれも、局所最
適化を行うアルゴリズムであり、大域的最適化を行わな
いため、結局、所与の文字列全体に対して最適なアライ
メントが得られない場合がままある、ということであ
る。
【0023】
【発明が解決しようとする課題】上記したように、長さ
nのk本の文字列のマルチプルアライメントを行う場合
に、動的計画法によればO(nk)の計算時間がかか
り、これは計算不可能である。
【0024】そこで、一般に、動的計画法によるペアワ
イズアライメントの計算時間がO(n2)であることを
利用し、ペアワイズアライメントによりマルチプルアラ
イメントを近似しようとする。しかし、この程度の計算
時間のアルゴリズムでは精度が低く、より精度を上げよ
うとすれば、よりオーダーの大きな計算時間を必要とす
る、というのが実状である。
【0025】一方、確率モデル(の学習および推定)を使
用することにより、O(n2)の計算時間でマルチプル
アライメントを行うことが可能である。しかし、従来よ
り提案されて来た確率モデルはもっぱら隠れマルコフモ
デルに限定されていたため、共通文字列を除く文字列部
分をアライメントすることは出来ない。
【0026】さらに、文字間の類似度を全く使用出来な
い上、局所最適解を求める学習アルゴリズムを使用して
いるため、精度が低い、という問題点も有している。
【0027】従って、共通文字列以外の文字列部分がア
ライメント可能であり、さらに、文字間の類似度を使用
可能であるような確率モデル、および、それを用いたア
ライメントの計算時間がO(n2)程度に抑えられ、加
えて局所最適解ではなく大域的最適解を学習可能な方法
(アルゴリズム)およびシステムが強く求められていた。
【0028】したがって、本発明は、上記問題点及び技
術的課題の認識に基づきなされたものであって、その目
的は、複数の文字列に対し、各文字列内の文字間に空白
を挿入し長さを同じにする際に、空白挿入後の各位置で
の文字をなるべく合致させる、複数文字列のアライメン
トを効率よく、且つ高精度に実現する方法及びシステム
を提供することにある。
【0029】また本発明の他の目的は、共通文字列以外
の部分のアライメント、必要に応じて文字間の類似度の
考慮、及び確率パラメータの大域的最適化を実現可能と
し、短時間に、かつ、高い精度で、複数文字列のマルチ
プルアライメントが実現可能とする方法及びシステムを
提供することにある。
【0030】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、所与の複数の文字列に対し、各文字列内
の文字間に空白を挿入し長さを同じにする際に、挿入後
の各位置での文字をなるべく合致させる、複数文字列の
アライメント方法において、前記位置毎に文字及び空白
の確率分布を持つ確率モデルを使用し、前記所与の複数
の文字列から前記確率分布を学習し、前記所与の各文字
列に対する最適な空白挿入位置を前記確率分布から推定
するようにしたものである。
【0031】また本発明は、所与の複数の文字列に対
し、各文字列内の文字間に空白を挿入し長さを同じにす
る際に、空白挿入後の各位置での文字をなるべく合致さ
せる、複数文字列アライメントを行うシステムにおい
て、前記位置毎に文字及び空白の確率分布を持つ確率モ
デルを使用し、前記所与の複数の文字列から前記確率分
布を学習する学習手段と、前記所与の各文字列に対する
最適な空白挿入位置を前記確率分布から推定する推定手
段と、を含む。
【0032】
【発明の実施の形態】本発明の実施の形態について説明
する。本発明のアライメントシステムは、その好ましい
実施の形態において、図2を参照すると、学習部(10
1)は、文字列データから、文字列にヌル文字を挿入後
の各文字位置iにおける(ヌル文字を含む)文字種類jの
確率分布p(i,j)を、文字間の類似度をも使用し
て、p(i,j)の大域的に最適な値を学習可能に構成
されおり、推定部(102)は、学習部で学習された確
率分布p(i,j)(確率パラメータ)と文字列データ
を入力とし、文字列に対して最尤値を与えるヌル文字挿
入位置を推定し、最尤値に対応する文字位置とヌル文字
挿入位置をアライメント結果として出力する。
【0033】本発明の実施の形態によれば、学習部は、
所与の長さの複数の文字列に対してヌル文字挿入後の各
文字列の長さを等しいものとし、各文字位置(「カラ
ム」という)毎に文字の確率分布を有しi番目のカラム
における文字jの確率をp(i,j)で表し、複数のヌ
ル文字を挿入するに際して複数の場合(組合せ)の中
で、ある場合sにおいてi番目のカラムにある文字種類
をmi sとした場合に、p(i,mi s)の各カラムiにつ
いてNまでの積の場合sの総和を最大化する確率パラメ
ータを学習し、推定部は、得られた確率パラメータp
(i,mi s)の各カラムiについてNまでの積を最大化
するsを推定することで各文字列へのヌル文字挿入位置
を推定する。
【0034】また、学習部は、二つの文字種類iとjと
の間の類似度をd(i,j)(0d(i,j)1)
とし、ある位置において、類似度を加味したある文字の
出現尤度を、該文字とそれ以外の各文字との類似度と各
文字の確率との積p(i,k)×d(k,mi s)をkに
ついて合計したもので表現し、前記出現尤度を各カラム
i毎の積及び場合sについての積を最大化する確率パラ
メータの学習を行うように、出現尤度を用いて最適な確
率分布を学習するように構成してもよい。
【0035】
【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明のアラインメント方法の実施
例について説明する。使用する文字の種類の数をKと
し、各文字に対し番号を振り、最後を常にヌル文字とす
る。
【0036】所与の長さnの文字列O(Oi(i=1,
…,n)は、文字列内のi番目の文字の番号)とし、文字
列Oの中にヌル文字を挿入することを考える。
【0037】文字列にヌル文字を挿入する場合は複数あ
り得るので、その場合の数をSとする。
【0038】ここで、ヌル文字挿入後の各文字列の長さ
は等しくNであるとし、N個の文字位置それぞれを「カ
ラム」と呼ぶ。
【0039】カラム毎に文字の確率分布を持っていると
ものとして、i番目のカラムにおける文字jの確率を、
p(i,j)(Σjp(i,j)=1)とする。すなわ
ち、仮に、Σ={A,C,G,T,null}とすると
(ただし、nullはヌル文字を表す)、例えば、図1に
示すような2次元の表形式で、各確率パラメータp
(i,j)は表現される。この表の見方は、例えば1番
目、2番目、N番目目の各カラムにおける文字Aの確率
は0.4、0.1、0.0である。
【0040】また、複数のヌル文字を挿入するに際し
て、複数の場合(組合せ)があり得るが、その中で、あ
る場合sにおいて、i番目のカラムにある文字種類をm
i sとする。さらに、二つの文字種類iとjとの間の類似
度をd(i,j)(0d(i,j)1)とする。
【0041】すると、類似度を使用しない場合のアライ
メントでは、次式(1)の値を最大にする確率パラメー
タを学習し、さらに、得られた確率パラメータp(i,
j)から各文字列へのヌル文字の挿入位置を推定する。
すなわち、次式(2)の値を最大化するsを推定する。
【0042】
【数1】
【0043】
【数2】
【0044】一方、文字間の類似度を使用する場合は、
ある文字とそれ以外の各文字との類似度と、各文字の確
率と、の積の合計(総和)(「文字の出現尤度」とい
う)、すなわち次式(3)を使用し、上式(1)の代わ
りに、次式(4)を最大化する確率パラメータの学習を
行う。
【0045】
【数3】
【0046】
【数4】
【0047】まず、上式(4)をO(n2)の計算時間
で実現する学習アルゴリズムの例について説明する。
【0048】前述のように、長さNのカラムを、所与の
文字列O(長さn)とヌル文字で埋めていく際に、ヌル文
字の挿入位置により、複数の場合が生じる。ここで、O
の1番目の文字からj番目の文字とヌル文字とでカラム
の1番目からi番目が既に埋められている確率をA
(i,j)とする。すると、A(i,j)は、動的計画
法により順次、計算可能である。
【0049】すなわち、初期条件として、次式(5)を
計算する。
【0050】
【数5】
【0051】次に、iとjを順次大きくしながら動的計
画法を用いて、次式(6)を計算する。
【0052】
【数6】
【0053】同様に、Oのj番目の文字からn番目の文
字とヌル文字の挿入によりカラムのi番目からN番目が
既に埋められている確率をB(i,j)とすれば、B
(i,j)も、A(i,j)と同様に動的計画法により
順次計算可能である。
【0054】さらに、i番目のカラムにj番目の文字が
埋まる確率P(i,j)は、A(i,j)、B(i,
j)を用いて、次式(7)のように計算する。
【0055】
【数7】
【0056】最後に、確率パラメータp(i,j)の書
き換え規則は、P(i,j)を用いて、次式(8)のよ
うに得られる。
【0057】
【数8】
【0058】従って、上式(8)の書き換え規則を、p
(i,j)の変化が一定値以下となるまで反復させるこ
とにより、p(i,j)の値が学習可能である。この
際、最も計算時間がかかるのは、A(i,j)とB
(i,j)を求める部分であるが、いずれも、O
(n2)の計算時間で求めることが可能であり、すなわ
ち、学習にかかる計算時間はO(n2)で済む。
【0059】また、所与の文字列は複数あるが、その場
合には、上式(8)の分子分母それぞれに対し、所与の
すべての文字列のそれらの和を計算する。
【0060】ちなみに、文字間の類似度を使用しない上
式(1)を最大化する学習アルゴリズムの一例について
も説明しておく。
【0061】この場合、まず、前述の確率A(i,j)
をA´(i,j)とすれば、次式(9)のように初期状
態を設定し、次式(10)のように動的計画法によって
計算する。
【0062】
【数9】
【0063】
【数10】
【0064】同様に、前述の確率B(i,j)もB´
(i,j)とし、動的計画法により計算し、さらに、こ
れらA´(i,j)、B´(i,j)から、前述の確率
P(i,j)をP´(i,j)とし、次式(11)のよ
うに計算する。
【0065】
【数11】
【0066】最後に、確率P´(i,j)をもちいてp
(i,j)の書き換え規則を上式(8)と同様に、次式
(12)のように計算する。
【0067】
【数12】
【0068】所与の文字列が複数ある場合には、上式
(12)の分子分母それぞれに対し、所与のすべての文
字列のそれらの和を計算する。
【0069】次に、上式(2)をO(n2)の計算時間
で実現する推定アルゴリズムの例について説明する。所
与の文字列Oの1番目の文字からj番目の文字と(場合
によっては)ヌル文字とで、カラムの1番目からi番目
が既に埋める場合の中で最大の確率をC(i,j)とす
る。確率C(i,j)の計算は、確率A´(i,j)と
全く同じ初期状態から動的計画法により、A´(i,
j)において和を計算する代わりに最大値を計算するこ
とで得られる。
【0070】次式(13)に初期設定、および次式(1
4)に動的計画法による計算過程を示す。
【0071】C(i,j)を動的計画法で計算する際
に、どのような過程でC(N,n)が得られるか、すな
わち所与の文字列へのヌル文字挿入位置を記憶すること
によりアライメント結果が得られる。
【0072】
【数13】
【0073】
【数14】
【0074】すなわち、アライメントは、学習により得
られた確率パラメータから所与の文字列への尤度がなる
たけ高くなるように、文字列のどこにヌル文字を挿入す
るか、を推定している。
【0075】また、ここでの推定は、文字間の類似度を
使用する、すなわち文字の出現尤度を使用することも可
能である。この場合、上式(2)の代わりに、上式
(4)の最も外側の和の部分を取り去った残りに対し
て、最尤値を与えるsを求める。最尤値を与えるsは、
上式(13)および上式(14)と同様に、上式(5)
の初期設定から、上式(6)の和を計算する部分を、最
大値を計算するように代えることで得られる。
【0076】次に、上式(4)の大域的最適解を得る学
習アルゴリズムの例を説明する。
【0077】まず、パラメータβを導入する。前記した
A(i,j)、B(i,j)、P(i,j)のβ乗を、
次式(15)のように、それぞれ、A(i,j)β、B
(i,j)β、P(i,j)βとする。
【0078】
【数15】
【0079】A(i,j)は、次式(16)の初期状態
の設定から動的計画法により、次式(17)のように計
算することが出来る。
【0080】
【数16】
【0081】
【数17】
【0082】同様にB(i,j)も動的計画法により計
算することが可能である。
【0083】次に、所与の文字列Oに対し、i番目のカ
ラムで文字jを出力する確率をX(i,j)とし、さら
に、そのβ乗をχ(i,j)とし、χ(i,j)を、上
記A(i,j)、B(i,j)から次式(18)のよう
に計算する。
【0084】
【数18】
【0085】さらに、χ(i,j)から、次式(19)
のように、P(i,j)を計算する。
【0086】
【数19】
【0087】得られたP(i,j)から、上式(8)と
同様に、次式(20)に示すように確率パラメータp
(i,j)の書き換え規則を得る。
【0088】
【数20】
【0089】ここで、βは0から次第に増加させる。す
なわち、あるβでp(i,j)の書き換えが収束するま
で学習させ、βを増加させる、という動作を繰り返す。
この繰り返しは、βの値を増加させても、書き換え規則
により値の変化が所与の一定値以下に抑えられるまで繰
り返す。また、βの値の変化は、与えられる文字列の長
さに依存せず決定するので、この場合も計算時間はO
(n2)で済んでいる。
【0090】さらに、所与の文字列は複数ある場合に
は、上式(20)の分子分母それぞれに対し、所与のす
べての文字列のそれらの和を計算する。
【0091】さらに、文字間の類似度を使用しない上式
(1)を最大化する際の大域的最適解を求めるアルゴリ
ズムの例についても説明しておく。
【0092】まず、次式(21)に示すように、A´
(i,j)、B´(i,j)、P´(i,j)のβ乗を
A´(i,j)β、B´(i,j)β、P´(i,j)
βとする。
【0093】
【数21】
【0094】A´(i,j)は、A(i,j)と同様
に、動的計画法により次式(22)、(23)のように
計算する。
【0095】
【数22】
【0096】
【数23】
【0097】B´(i,j)も同様に動的計画法により
計算する。
【0098】さらに、P´(i,j)をA´(i,
j)、B´(i,j)から、次式(24)のように計算
する。
【0099】
【数24】
【0100】最後に、P´(i,j)から、p(i,
j)の書き換え規則を、上式(8)と同様に、次式(2
5)のように求める。
【0101】
【数25】
【0102】この場合も、文字間の類似度を使用する場
合と同様に、βの値を0から徐々に大きくしていく。す
なわち、あるβの値で、収束するまでp(i,j)の値
を書き換え、βの値をわずかに増やす、という動作を、
p(i,j)の値を増加させても書き換え規則によりほ
とんど変化しなくなるまで繰り返す。また、所与の文字
列は複数ある場合には、上式(25)の分子分母それぞ
れに対し、所与のすべての文字列のそれらの和を計算す
る。
【0103】次に、これまで説明してきた、本発明のア
ルゴリズムを実施するシステム構成を図2に示す。図2
を参照すると、このシステムは、学習部101、推定部
102、および、3種類のデータからなる。なお、学習
部101、推定部102はコンピュータ上で実行される
プログラムによってその機能を実現することができる。
【0104】学習部101は、アライメントにより文字
列にヌル文字を挿入後の各文字位置iにおける(ヌル文
字を含む)文字種類jの確率分布p(i,j)の初期
値、及び、文字列データを入力とする。学習部101
は、本発明のアルゴリズム(方法)として説明してきた
ように、文字間の類似度を使用してp(i,j)の大域
的最適値を学習可能であり、学習により得られたp
(i,j)の値を書き換える。
【0105】引き続き、推定部102においても、本発
明のアルゴリズムとして説明して来たように、学習され
た確率分布p(i,j)と文字列データとを入力とし、
文字列に対して最尤値を与えるヌル文字挿入位置を推定
し、最尤値に対応する文字位置とヌル文字位置を結果と
して出力する。
【0106】
【発明の効果】以上説明したように、本発明によれば、
長さnのk本の文字列のマルチプルアライメントが、O
(n2)の計算時間で可能である、という効果を奏す
る。
【0107】さらに、本発明によれば、従来、O
(n2)の計算時間でマルチプルアライメントを可能に
していた隠れマルコフモデルに基づく方法では不可能で
あった、次の3点、 1:共通文字列以外の部分のアライメント、 2:文字間の類似度の考慮、 3:確率パラメータの大域的最適化、 を実現可能としており、従来の方法に較べて、短時間
に、かつ、高い精度で、複数文字列のマルチプルアライ
メントが実現できる、という効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例を説明するための図であり、
確率パラメータの一例を模式的に示す図である。
【図2】本発明の一実施例の構成を示す図である。
【図3】従来のアラインメント方法として、隠れマルコ
フモデルによるアライメントを説明するためのの図であ
る。
【符号の説明】
101 学習部、 102 推定部、 201 率パラメータ格納部、 202 文字列データ格納部、 203 アライメント結果格納部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】所与の複数の文字列に対し、各文字列内の
    文字間に空白を挿入し長さを同じにする際に、空白挿入
    後の各位置での文字をなるべく合致させる、複数文字列
    のアライメント方法において、 前記位置毎に文字及び空白の確率分布を持つ確率モデル
    を使用し、前記所与の複数の文字列から前記確率分布を
    学習し、前記所与の各文字列に対する最適な空白挿入位
    置を前記確率分布から推定する、ことを特徴とする複数
    文字列アライメント方法。
  2. 【請求項2】所与の文字列で使用されている文字間の類
    似度が与えられた場合に、ある位置において、類似度を
    加味した、ある文字の出現尤度を、該文字とそれ以外の
    各文字との類似度と、前記位置での確率分布により各文
    字に与えられる確率との積を合計したもので表現し、前
    記出現尤度を用いて最適な確率分布を学習する、ことを
    特徴とする請求項1記載の複数文字列アライメント方
    法。
  3. 【請求項3】所与の複数の文字列から該確率分布を学習
    する際に、前記確率分布の大域的最適解を計算可能とし
    たことを特徴とする請求項1記載の複数文字列アライメ
    ント方法。
  4. 【請求項4】所与の複数の文字列に対し、各文字列内の
    文字間に空白を挿入し長さを同じにする際に、空白挿入
    後の各位置での文字をなるべく合致させる、複数文字列
    アライメントを行うシステムにおいて、 前記位置毎に文字及び空白の確率分布を持つ確率モデル
    を使用し、前記所与の複数の文字列から前記確率分布を
    学習する学習手段と、 前記所与の各文字列に対する最適な空白挿入位置を前記
    確率分布から推定する推定手段と、 を含むことを特徴とする複数文字列アライメントシステ
    ム。
  5. 【請求項5】前記学習手段が、所与の文字列で使用され
    ている文字間の類似度が与えられた場合に、ある位置に
    おいて、類似度を加味したある文字の出現尤度を、該文
    字とそれ以外の各文字との類似度と該位置での確率分布
    により各文字に与えられる確率との積を合計したもので
    表現し、該出現尤度を用いて最適な確率分布を学習す
    る、ことを特徴とする請求項4記載の複数文字列アライ
    メントシステム。
  6. 【請求項6】前記所与の複数の文字列から前記確率分布
    を学習する学習手段において、前記確率分布の大域的最
    適解が計算可能である、ことを特徴とする請求項4記載
    の複数文字列アライメントシステム。
  7. 【請求項7】所与の長さの複数の文字列に対して空白
    (「ヌル文字」という)挿入後の各文字列の長さを等し
    くし、各文字の位置(「カラム」という)毎に文字の確
    率分布を有しi番目のカラムにおける文字jの確率をp
    (i,j)で表し、複数のヌル文字を挿入するに際して
    複数の場合(組合せ)の中で、ある場合sにおいてi番
    目のカラムにある文字種類をmi sとした場合に、確率p
    (i,mi s)の各カラムiについてNまでの積の場合s
    に関する総和を最大化する確率パラメータを学習し、得
    られた確率パラメータp(i,mi s)の各カラムiにつ
    いてNまでの積を最大化するsを推定することで、各文
    字列へのヌル文字挿入位置を推定する、ことを特徴とす
    る請求項1記載の複数文字列アライメント方法。
  8. 【請求項8】二つの文字種類iとjとの間の類似度をd
    (i,j)(0d(i,j)1)とし、ある位置に
    おいて、類似度を加味した、ある文字の出現尤度を、該
    文字(mi s)とそれ以外の各文字(k)との類似度d
    (k,mi s)と各文字の確率p(i,k)との積p
    (i,k)×d(k,mi s)をkについて合計したもの
    で表現し、前記出現尤度について、各カラムi毎の積及
    び場合sについての積を最大化する確率パラメータの学
    習を行う、ことを特徴とする請求項7記載の複数文字列
    アライメント方法。
  9. 【請求項9】長さNのカラムを、所与の文字列O(長さ
    n<N)とヌル文字で埋めていく際に、ヌル文字の挿入
    位置による複数の場合について、Oの1番目の文字から
    j番目の文字とヌル文字とでカラムの1番目からi番目
    が既に埋められている確率A(i,j)を設定初期値よ
    りiとjを可変させ動的計画法により順次求め、 Oのj番目の文字からn番目の文字とヌル文字の挿入に
    よりカラムのi番目からN番目が既に埋められている確
    率B(i,j)も動的計画法により順次求め、i番目の
    カラムにj番目の文字が埋まる確率P(i,j)を前記
    A(i,j)、B(i,j)を用いて求め、 確率パラメータ分布p(i,j)を前記P(i,j)を
    用いた書き換え規則で求め、前記書き換え規則をp
    (i,j)の変化が一定値以下となるまで反復させるこ
    とにより、前記p(i,j)の値を学習する、ことを特
    徴とする請求項7記載の複数文字列アライメント方法。
  10. 【請求項10】パラメータβを導入し、前記A(i,
    j)、B(i,j)、P(i,j)をそれぞれβ乗した
    ものについて動的計画法に適用し、βの値を0から徐々
    に増やしていき、あるβの値でp(i,j)が収束する
    までβを増加させるという動作を繰り返し、大域的最適
    解を求める、ことを特徴とする請求項9記載の複数文字
    列アライメント方法。
  11. 【請求項11】(a)所与の長さの複数の文字列に対し
    て空白(「ヌル文字」という)挿入後の各文字列の長さ
    を等しくし、各文字の位置(「カラム」という)毎に文
    字の確率分布を有しi番目のカラムにおける文字jの確
    率をp(i,j)で表し、複数のヌル文字を挿入するに
    際して複数の場合(組合せ)の中で、ある場合sにおい
    てi番目のカラムにある文字種類をmi sとした場合に、
    確率p(i,mi s)の各カラムiについてNまでの積の
    場合sに関する総和を最大化する確率パラメータを学習
    する処理、及び、 (b)得られた確率パラメータp(i,mi s)の各カラ
    ムiについてNまでの積を最大化するsを推定すること
    で、各文字列へのヌル文字挿入位置を推定する処理、 の上記(a)、(b)の各処理をコンピュータで実行す
    るためのプログラムを記録した記録媒体。
  12. 【請求項12】二つの文字種類iとjとの間の類似度を
    d(i,j)(0d(i,j)1)とし、ある位置
    において、類似度を加味した、ある文字の出現尤度を、
    該文字(mi s)とそれ以外の各文字(k)との類似度d
    (k,mi s)と各文字の確率p(i,k)との積p
    (i,k)×d(k,mi s)をkについて合計したもの
    で表現し、前記出現尤度について、各カラムi毎の積及
    び場合sについての積を最大化する確率パラメータの学
    習を行う処理をコンピュータで実行させるためのプログ
    ラムを記録した請求項11記載の記録媒体。
JP11608498A 1998-04-10 1998-04-10 複数文字列アライメント方法およびシステム Expired - Fee Related JP3237606B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11608498A JP3237606B2 (ja) 1998-04-10 1998-04-10 複数文字列アライメント方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11608498A JP3237606B2 (ja) 1998-04-10 1998-04-10 複数文字列アライメント方法およびシステム

Publications (2)

Publication Number Publication Date
JPH11296553A true JPH11296553A (ja) 1999-10-29
JP3237606B2 JP3237606B2 (ja) 2001-12-10

Family

ID=14678326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11608498A Expired - Fee Related JP3237606B2 (ja) 1998-04-10 1998-04-10 複数文字列アライメント方法およびシステム

Country Status (1)

Country Link
JP (1) JP3237606B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム
CN112560405A (zh) * 2020-12-14 2021-03-26 央视国际网络无锡有限公司 一种从分词净文本到富格式文本的着色方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07115959A (ja) * 1993-10-25 1995-05-09 Fujitsu Ltd 複数配列比較装置
JPH0950289A (ja) * 1995-08-04 1997-02-18 Nec Corp 隠れマルコフモデル学習システム及び学習方法
JPH1040257A (ja) * 1996-07-24 1998-02-13 Hitachi Ltd 文字配列比較方法、およびそれを用いたアセンブル方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07115959A (ja) * 1993-10-25 1995-05-09 Fujitsu Ltd 複数配列比較装置
JPH0950289A (ja) * 1995-08-04 1997-02-18 Nec Corp 隠れマルコフモデル学習システム及び学習方法
JPH1040257A (ja) * 1996-07-24 1998-02-13 Hitachi Ltd 文字配列比較方法、およびそれを用いたアセンブル方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム
CN112560405A (zh) * 2020-12-14 2021-03-26 央视国际网络无锡有限公司 一种从分词净文本到富格式文本的着色方法
CN112560405B (zh) * 2020-12-14 2024-04-05 央视国际网络无锡有限公司 一种从分词净文本到富格式文本的着色方法

Also Published As

Publication number Publication date
JP3237606B2 (ja) 2001-12-10

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US20210216887A1 (en) Knowledge graph alignment with entity expansion policy network
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
Wang et al. GAEM: a hybrid algorithm incorporating GA with EM for planted edited motif finding problem
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN113870949B (zh) 基于深度学习的nanopore测序数据碱基识别方法
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
CN112183580B (zh) 一种基于动态知识路径学习的小样本分类方法
US7047137B1 (en) Computer method and apparatus for uniform representation of genome sequences
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
JP3237606B2 (ja) 複数文字列アライメント方法およびシステム
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN115331754A (zh) 基于哈希算法的分子分类方法
CN114530195A (zh) 一种基于深度学习的蛋白质模型质量评估方法
JP2009047929A (ja) 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体
JP2005078407A (ja) データ探索方法、データ探索装置、データ探索プログラム及びそのプログラムを記録した記録媒体
Sicking et al. DenseHMM: Learning hidden markov models by learning dense representations
US11556783B2 (en) Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program
CN116071636B (zh) 商品图像检索方法
US11409988B2 (en) Method, recording medium, and device for utilizing feature quantities of augmented training data
Koloydenko et al. MAP segmentation in Bayesian hidden Markov models: a case study
CN116092138A (zh) 基于深度学习的k近邻图迭代静脉识别方法及系统
CN107402914A (zh) 自然语言深度学习系统和方法
Rouchka Pattern Matching Techniques and Their Applications to Computational Molecular Biology-A Review

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010904

LAPS Cancellation because of no payment of annual fees