JPH11296553A

JPH11296553A - 複数文字列アライメント方法およびシステム

Info

Publication number: JPH11296553A
Application number: JP11608498A
Authority: JP
Inventors: Hiroshi Mamizuka; 拓馬見塚
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-04-10
Filing date: 1998-04-10
Publication date: 1999-10-29
Anticipated expiration: 2018-04-10
Also published as: JP3237606B2

Abstract

(57)【要約】【課題】複数の文字列に対し、各文字列内の文字間に空
白を挿入し長さを同じにする際に、空白挿入後の各位置
での文字をなるべく合致させる、複数文字列のアライメ
ントを効率よく、且つ高精度に実現する方法及びシステ
ムの提供。【解決手段】学習部１０１は、文字列データから文字列
に空白（ヌル文字）を挿入後の各文字位置ｉにおける
(ヌル文字を含む)文字種類ｊの確率分布ｐ（ｉ，ｊ）の
初期値、及び文字データを入力する。学習部１０１は、
文字間の類似度をも使用して、ｐ（ｉ，ｊ）の大域的に
最適な値を学習可能であり、学習の結果得られた、ｐ
（ｉ，ｊ）を書き換える。推定部１０２は、学習された
確率分布ｐ（ｉ，ｊ）と文字列データを入力とし、文字
列に対し最尤値を与えるヌル文字挿入位置を推定し、最
尤値に対応する文字位置とヌル文字位置をアライメント
結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の文字列を、
各文字列内の文字間に空白を挿入し整合(アライメント)
する方法およびシステムに関し、特に、多数の核酸配列
やアミノ酸配列などを文字で表現する際のアライメント
に用いて好適とされる方法及びシステムに関する。

【０００２】

【従来の技術】所与の複数の文字列に対し、各文字列内
の文字間に空白(以下、「ヌル文字」という)を挿入して
長さを同じにする際に、ヌル文字挿入後の各位置での文
字をなるたけ合致させることを複数文字列の整合(「ア
ライメント」)と呼ぶ。

【０００３】特に、４種類の塩基で表現される核酸配列
や、２０種類のアミノ酸で表現されるアミノ酸配列(タ
ンパク質)は、それぞれ４乃至２０種類の文字による文
字列とみなすことが出来るので、アライメントにより、
実験的に得られた複数の配列間の類似性(これを「相同
性」という)の検査が可能になる。例えば、二本の核酸
あるいはアミノ酸配列をアライメント(「ペアワイズア
ライメント」という)し、その相同性を検査することに
より、二本の配列が同じカテゴリー(アミノ酸配列であ
れば「ファミリー」と呼ばれる)に属するか否か、ま
た、どの程度進化上離れたものであるか、といった解析
が可能となる。

【０００４】また、二本以上の複数の配列をアライメン
ト(「マルチプルアライメント」という)することによっ
て、それら配列内の大部分に共通な文字列(「共通文字
列」という、なお「コンセンサス配列」あるいは「保存
配列」とも呼ばれる)を抽出し、新たに配列が与えられ
た場合に、共通文字列を有するか否かにより新しい配列
が同じカテゴリーの配列かどうかを識別することが可能
である。

【０００５】すなわち、アライメントは、核酸配列やア
ミノ酸配列に対し、多岐に渡る生物学的目的に使用可能
であると言える。従って、文字列アライメントは、この
ような分子生物学から得られる核酸配列やタンパク質配
列を解析する計算生物学(Computational Biology)の分
野で最も発展してきた。

【０００６】この分野において、ペアワイズアライメン
トに対しては、1970年代初頭より数多くの解決手法及び
それを実現するシステムが提案されて来ている。

【０００７】例えば、文献として、１９７０年発行の英
国の雑誌（学術刊行物）「ジャーナルオブモレキュ
ラバイオロジ」(Journal of Molecular Biology)
の第４８号、第４４３-４５３頁に記載されている、ニ
ードルマン(Needleman)とブンシュ(Wunsch)による「ア
ジェネラルメソードアプリカブルトゥザサ
ーチフォーシミラリティズインザアミノア
シドシークエンスオブツウプロテインズ」(A
general method applicable to the searchfor s
imilarities in the amino acid sequences of
two proteins)と題する論文や、１９８１年発行の英国
の雑誌「ジャーナルオブモレキュラーバイオロジ
ー」(Journal of Molecular Biology)の第１４７号
の第１９５-１９７頁に記載されている、スミス(Smith)
とウォーターマン(Waterman)による「アイデンティフィ
ケーションオブコモンモレキュラサブシークエ
ンスイズ」(Identification of common molecular
subsequences)と題する論文において、動的計画法に基
づく効率の良い方法が提案されてきている。

【０００８】これらの方法によれば、アライメントされ
る文字列の長さをｎとした時にＯ（ｎ²）、の計算時間
でペアワイズアライメントを達成できる。

【０００９】一方、動的計画法をマルチプルアライメン
トに適用すると、アライメントされる文字列数がｋ本に
なった場合には、Ｏ（ｎ^k）の計算時間が必要になり、
現実的なｎ及びｋの値、例えば、ｎ=200、ｋ=100では、
到底計算不可能となる。

【００１０】そこでこの問題を解決すべく、従来より、
いくつかのマルチプルアライメント手法が提案されてい
る。例えば、１９８８年発行の英国の雑誌「コンピュー
タアプリケーションズインザバイオサイエンスイ
ズ」(Computer Applications in the Biosciences)
の第５号、第１５１-１５３頁に記載される、ヒギンズ
(Higgins)とシャープ(Sharp)による「ファストアンド
センシティブマルチプルシークエンスアライメ
ンツオンアマイクロコンピュータ」(Fast and
sensitive multiple sequence alignments on a
microcomputer)と題する論文では、ペアワイズアライメ
ントを基にして、マルチプルアライメントを近似する手
法が提案されている。この方法では、Ｏ（ｎ^k）の計算
時間を必要とせず、Ｏ（ｎ²）程度の計算時間で十分で
あるが、この方法は、あくまで近似手法であり、互いに
アライメントしない文字列が存在するという問題点が残
る。

【００１１】この問題は、同様にペアワイズアライメン
トを基に並列計算機を用いたマルチプルアライメント手
法である、１９９３年発行の英国の雑誌「コンピュータ
アプリケーションズインザバイオサイエンスイ
ズ」(Computer Applications in the Biosciences)
の第９号、第２６７-２７３頁記載の石川らによる「マ
ルチプルシークエンスアライメントバイパラレ
ルシミュレーテドアニーリング」(Multiple sequenc
e alignment by parallel simulated annealing)
と題する論文においても指摘されている。すなわち、ペ
アワイズアライメントを基にした近似アルゴリズムで
は、最初に行うペアワイズアライメントの結果に、最終
的なマルチプルアライメントの結果が影響を受けてしま
うため、文字列全体に対して最適なマルチプルアライメ
ントが得られにくい。

【００１２】石川らは、上記論文において、このような
状況をなるたけ回避するために、出来るたけ多くの文字
列ペアのペアワイズアライメントを利用する方法をも提
案している。

【００１３】しかし、こういった方法では、Ｏ（ｋ×ｎ
²）やＯ（ｋ²×ｎ²）の計算時間を必要とする。すなわ
ち、ｋとｎのオーダが同じとすれば、Ｏ（ｎ³）やＯ
（ｎ⁴）の計算時間が必要となる。

【００１４】一方、近年、マルチプルアライメントを確
率モデルの学習問題とみなし、確率モデルの確率パラメ
ータを所与の文字列から学習し、学習された確率モデル
が、各文字列に対して与える最も尤度の高い場合(隠れ
マルコフモデルの場合には、状態遷移における遷移順す
なわちパスであるので「最尤パス」と呼ばれる)から、
アライメント結果を得る方法が提案されて来ている。

【００１５】例えば、１９９３年発行の英国の雑誌「ジ
ャーナルオブモレキュラバイオロジー」(Journal
of Molecular Biology)の第２３５号、第１５０１-
１５３１頁に記載される、クロー(Krogh)らによる「ヒ
ドゥンマルコフモデルズインコンピュテーショナ
ルバイオロジーアプリケーションズトゥプロテ
インモデリング」(Hidden Markov models in com
putational biology Applications to protein mo
deling)と題する論文や、１９９４年発行の米国の学術
刊行物「プロシーディングスオブナショナルアカ
デミーオブサイエンスイズ」(Proceedings of Nati
onal Academy of Sciences)の９１号１０５９-１０
６３頁に記載される、バルジ(Baldi)らのによる「ヒド
ゥンマルコフモデルズオブバイオロジカルプラ
イマリシークエンスインフォメーション」(Hidden
Markov models of biological primary sequenc
e information)と題する論文、１９９５年発行の米国
の雑誌「ジャーナルオブコンピュテーショナルバ
イオロジー」(Journal of Computational Biology)
の第２号、第９-２４頁に記載されているエディ(Eddy)
らによる「マキシマムディスクリミネーションヒド
ゥンマルコフモデルズオブシークエンスコン
センサス」(Maximum discrimination hidden Markov
models ofsequence consensus)と題する論文があ
る。

【００１６】上記した論文のいずれにおいても、隠れマ
ルコフモデルを確率モデルとして使用し、さらに、いず
れも共通のモデル構造を採用している。

【００１７】構造の具体例を図３に示す。図３に示す隠
れマルコフモデル（ＨＭＭ）は、Ｍ、Ｉ、Ｄと名付けら
れた３種類の状態を持つ。Mは、アライメントの結果、
共通する文字列部分に相当し、Iは共通文字列を除く文
字部分に相当し、Dは文字を発生しないので、文字列の
文字間に挿入されるヌル文字に相当する。

【００１８】隠れマルコフモデルを用いたアライメント
では、Iで発生する文字の分布は固定されているので、M
で発生する文字分布を学習し、この文字分布から、各文
字列に対する最尤パスを推定する。例えば、各Mでの文
字分布が、図３に示すように学習されていれば、文字列
ADTCの最尤パスは、M1->M2->I2->M3と推定出来る。

【００１９】同様に、文字列WAECの最尤パスは、I0->M1
->M2->M3となる。この隠れマルコフモデルによるアライ
メント手法では、学習はBaum-Welch(バウム・ウェル
チ、「Forward-Backward」（フォアワード・バックワー
ド）とも呼ばれる)アルゴリズムもしくはそれに類似の
アルゴリズム、また、最尤パスの推定にはビタビ（Vite
rbi）と呼ばれるアルゴリズムが使われており、いずれ
も上記、ペアワイズアライメントの場合と同様のＯ（ｎ
²）の計算時間しかかからない。

【００２０】しかしながら、図３に示した隠れマルコフ
モデルの構造では、共通文字列内に挿入される文字を、
たとえそれが文字列であっても一つのI状態で表現する
ため、共通文字列以外の文字列のアライメントが出来な
い、という問題点がある。

【００２１】さらに、動的計画法に基づく方法では、文
字の類似度の使用が可能であるのに対し、隠れマルコフ
モデルによるアライメントでは、いずれの論文において
も、文字の類似度が全く使用できない、という問題点が
ある。

【００２２】加えて最大の問題点として、隠れマルコフ
モデルの前述の学習アルゴリズムは、いずれも、局所最
適化を行うアルゴリズムであり、大域的最適化を行わな
いため、結局、所与の文字列全体に対して最適なアライ
メントが得られない場合がままある、ということであ
る。

【００２３】

【発明が解決しようとする課題】上記したように、長さ
ｎのｋ本の文字列のマルチプルアライメントを行う場合
に、動的計画法によればＯ（ｎ^k）の計算時間がかか
り、これは計算不可能である。

【００２４】そこで、一般に、動的計画法によるペアワ
イズアライメントの計算時間がＯ（ｎ²）であることを
利用し、ペアワイズアライメントによりマルチプルアラ
イメントを近似しようとする。しかし、この程度の計算
時間のアルゴリズムでは精度が低く、より精度を上げよ
うとすれば、よりオーダーの大きな計算時間を必要とす
る、というのが実状である。

【００２５】一方、確率モデル(の学習および推定)を使
用することにより、Ｏ（ｎ²）の計算時間でマルチプル
アライメントを行うことが可能である。しかし、従来よ
り提案されて来た確率モデルはもっぱら隠れマルコフモ
デルに限定されていたため、共通文字列を除く文字列部
分をアライメントすることは出来ない。

【００２６】さらに、文字間の類似度を全く使用出来な
い上、局所最適解を求める学習アルゴリズムを使用して
いるため、精度が低い、という問題点も有している。

【００２７】従って、共通文字列以外の文字列部分がア
ライメント可能であり、さらに、文字間の類似度を使用
可能であるような確率モデル、および、それを用いたア
ライメントの計算時間がＯ（ｎ²）程度に抑えられ、加
えて局所最適解ではなく大域的最適解を学習可能な方法
(アルゴリズム)およびシステムが強く求められていた。

【００２８】したがって、本発明は、上記問題点及び技
術的課題の認識に基づきなされたものであって、その目
的は、複数の文字列に対し、各文字列内の文字間に空白
を挿入し長さを同じにする際に、空白挿入後の各位置で
の文字をなるべく合致させる、複数文字列のアライメン
トを効率よく、且つ高精度に実現する方法及びシステム
を提供することにある。

【００２９】また本発明の他の目的は、共通文字列以外
の部分のアライメント、必要に応じて文字間の類似度の
考慮、及び確率パラメータの大域的最適化を実現可能と
し、短時間に、かつ、高い精度で、複数文字列のマルチ
プルアライメントが実現可能とする方法及びシステムを
提供することにある。

【００３０】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、所与の複数の文字列に対し、各文字列内
の文字間に空白を挿入し長さを同じにする際に、挿入後
の各位置での文字をなるべく合致させる、複数文字列の
アライメント方法において、前記位置毎に文字及び空白
の確率分布を持つ確率モデルを使用し、前記所与の複数
の文字列から前記確率分布を学習し、前記所与の各文字
列に対する最適な空白挿入位置を前記確率分布から推定
するようにしたものである。

【００３１】また本発明は、所与の複数の文字列に対
し、各文字列内の文字間に空白を挿入し長さを同じにす
る際に、空白挿入後の各位置での文字をなるべく合致さ
せる、複数文字列アライメントを行うシステムにおい
て、前記位置毎に文字及び空白の確率分布を持つ確率モ
デルを使用し、前記所与の複数の文字列から前記確率分
布を学習する学習手段と、前記所与の各文字列に対する
最適な空白挿入位置を前記確率分布から推定する推定手
段と、を含む。

【００３２】

【発明の実施の形態】本発明の実施の形態について説明
する。本発明のアライメントシステムは、その好ましい
実施の形態において、図２を参照すると、学習部（１０
１）は、文字列データから、文字列にヌル文字を挿入後
の各文字位置ｉにおける(ヌル文字を含む)文字種類ｊの
確率分布ｐ（ｉ，ｊ）を、文字間の類似度をも使用し
て、ｐ（ｉ，ｊ）の大域的に最適な値を学習可能に構成
されおり、推定部（１０２）は、学習部で学習された確
率分布ｐ（ｉ，ｊ）（確率パラメータ）と文字列データ
を入力とし、文字列に対して最尤値を与えるヌル文字挿
入位置を推定し、最尤値に対応する文字位置とヌル文字
挿入位置をアライメント結果として出力する。

【００３３】本発明の実施の形態によれば、学習部は、
所与の長さの複数の文字列に対してヌル文字挿入後の各
文字列の長さを等しいものとし、各文字位置（「カラ
ム」という）毎に文字の確率分布を有しｉ番目のカラム
における文字ｊの確率をｐ（ｉ，ｊ）で表し、複数のヌ
ル文字を挿入するに際して複数の場合（組合せ）の中
で、ある場合ｓにおいてｉ番目のカラムにある文字種類
をｍ_i ^sとした場合に、ｐ（ｉ，ｍ_i ^s）の各カラムｉにつ
いてＮまでの積の場合ｓの総和を最大化する確率パラメ
ータを学習し、推定部は、得られた確率パラメータｐ
（ｉ，ｍ_i ^s）の各カラムｉについてＮまでの積を最大化
するｓを推定することで各文字列へのヌル文字挿入位置
を推定する。

【００３４】また、学習部は、二つの文字種類ｉとｊと
の間の類似度をｄ（ｉ，ｊ）（０＜ｄ（ｉ，ｊ）＜１）
とし、ある位置において、類似度を加味したある文字の
出現尤度を、該文字とそれ以外の各文字との類似度と各
文字の確率との積ｐ（ｉ，ｋ）×ｄ（ｋ，ｍ_i ^s）をｋに
ついて合計したもので表現し、前記出現尤度を各カラム
ｉ毎の積及び場合ｓについての積を最大化する確率パラ
メータの学習を行うように、出現尤度を用いて最適な確
率分布を学習するように構成してもよい。

【００３５】

【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明のアラインメント方法の実施
例について説明する。使用する文字の種類の数をＫと
し、各文字に対し番号を振り、最後を常にヌル文字とす
る。

【００３６】所与の長さｎの文字列Ｏ(Ｏ_i（ｉ＝１，
…，ｎ)は、文字列内のｉ番目の文字の番号)とし、文字
列Ｏの中にヌル文字を挿入することを考える。

【００３７】文字列にヌル文字を挿入する場合は複数あ
り得るので、その場合の数をＳとする。

【００３８】ここで、ヌル文字挿入後の各文字列の長さ
は等しくＮであるとし、Ｎ個の文字位置それぞれを「カ
ラム」と呼ぶ。

【００３９】カラム毎に文字の確率分布を持っていると
ものとして、ｉ番目のカラムにおける文字ｊの確率を、
ｐ（ｉ，ｊ）(Σ_jｐ（ｉ，ｊ）＝１)とする。すなわ
ち、仮に、Σ＝｛Ａ，Ｃ，Ｇ，Ｔ，ｎｕｌｌ｝とすると
(ただし、ｎｕｌｌはヌル文字を表す)、例えば、図１に
示すような２次元の表形式で、各確率パラメータｐ
（ｉ，ｊ）は表現される。この表の見方は、例えば１番
目、２番目、Ｎ番目目の各カラムにおける文字Ａの確率
は０．４、０．１、０．０である。

【００４０】また、複数のヌル文字を挿入するに際し
て、複数の場合（組合せ）があり得るが、その中で、あ
る場合ｓにおいて、ｉ番目のカラムにある文字種類をｍ
_i ^sとする。さらに、二つの文字種類ｉとｊとの間の類似
度をｄ（ｉ，ｊ）（０＜ｄ（ｉ，ｊ）＜１）とする。

【００４１】すると、類似度を使用しない場合のアライ
メントでは、次式（１）の値を最大にする確率パラメー
タを学習し、さらに、得られた確率パラメータｐ（ｉ，
ｊ）から各文字列へのヌル文字の挿入位置を推定する。
すなわち、次式（２）の値を最大化するｓを推定する。

【００４２】

【数１】

【００４３】

【数２】

【００４４】一方、文字間の類似度を使用する場合は、
ある文字とそれ以外の各文字との類似度と、各文字の確
率と、の積の合計（総和）(「文字の出現尤度」とい
う)、すなわち次式（３）を使用し、上式（１）の代わ
りに、次式（４）を最大化する確率パラメータの学習を
行う。

【００４５】

【数３】

【００４６】

【数４】

【００４７】まず、上式（４）をＯ（ｎ²）の計算時間
で実現する学習アルゴリズムの例について説明する。

【００４８】前述のように、長さＮのカラムを、所与の
文字列Ｏ(長さｎ)とヌル文字で埋めていく際に、ヌル文
字の挿入位置により、複数の場合が生じる。ここで、Ｏ
の１番目の文字からｊ番目の文字とヌル文字とでカラム
の１番目からｉ番目が既に埋められている確率をＡ
（ｉ，ｊ）とする。すると、Ａ（ｉ，ｊ）は、動的計画
法により順次、計算可能である。

【００４９】すなわち、初期条件として、次式（５）を
計算する。

【００５０】

【数５】

【００５１】次に、ｉとｊを順次大きくしながら動的計
画法を用いて、次式（６）を計算する。

【００５２】

【数６】

【００５３】同様に、Ｏのｊ番目の文字からｎ番目の文
字とヌル文字の挿入によりカラムのｉ番目からＮ番目が
既に埋められている確率をＢ（ｉ，ｊ）とすれば、Ｂ
（ｉ，ｊ）も、Ａ（ｉ，ｊ）と同様に動的計画法により
順次計算可能である。

【００５４】さらに、ｉ番目のカラムにｊ番目の文字が
埋まる確率Ｐ（ｉ，ｊ）は、Ａ（ｉ，ｊ）、Ｂ（ｉ，
ｊ）を用いて、次式（７）のように計算する。

【００５５】

【数７】

【００５６】最後に、確率パラメータｐ（ｉ，ｊ）の書
き換え規則は、Ｐ（ｉ，ｊ）を用いて、次式（８）のよ
うに得られる。

【００５７】

【数８】

【００５８】従って、上式（８）の書き換え規則を、ｐ
（ｉ，ｊ）の変化が一定値以下となるまで反復させるこ
とにより、ｐ（ｉ，ｊ）の値が学習可能である。この
際、最も計算時間がかかるのは、Ａ（ｉ，ｊ）とＢ
（ｉ，ｊ）を求める部分であるが、いずれも、Ｏ
（ｎ²）の計算時間で求めることが可能であり、すなわ
ち、学習にかかる計算時間はＯ（ｎ²）で済む。

【００５９】また、所与の文字列は複数あるが、その場
合には、上式（８）の分子分母それぞれに対し、所与の
すべての文字列のそれらの和を計算する。

【００６０】ちなみに、文字間の類似度を使用しない上
式（１）を最大化する学習アルゴリズムの一例について
も説明しておく。

【００６１】この場合、まず、前述の確率Ａ（ｉ，ｊ）
をＡ´（ｉ，ｊ）とすれば、次式（９）のように初期状
態を設定し、次式（１０）のように動的計画法によって
計算する。

【００６２】

【数９】

【００６３】

【数１０】

【００６４】同様に、前述の確率Ｂ（ｉ，ｊ）もＢ´
（ｉ，ｊ）とし、動的計画法により計算し、さらに、こ
れらＡ´（ｉ，ｊ）、Ｂ´（ｉ，ｊ）から、前述の確率
Ｐ（ｉ，ｊ）をＰ´（ｉ，ｊ）とし、次式（１１）のよ
うに計算する。

【００６５】

【数１１】

【００６６】最後に、確率Ｐ´（ｉ，ｊ）をもちいてｐ
（ｉ，ｊ）の書き換え規則を上式（８）と同様に、次式
（１２）のように計算する。

【００６７】

【数１２】

【００６８】所与の文字列が複数ある場合には、上式
（１２）の分子分母それぞれに対し、所与のすべての文
字列のそれらの和を計算する。

【００６９】次に、上式（２）をＯ（ｎ²）の計算時間
で実現する推定アルゴリズムの例について説明する。所
与の文字列Ｏの１番目の文字からｊ番目の文字と(場合
によっては)ヌル文字とで、カラムの１番目からｉ番目
が既に埋める場合の中で最大の確率をＣ（ｉ，ｊ）とす
る。確率Ｃ（ｉ，ｊ）の計算は、確率Ａ´（ｉ，ｊ）と
全く同じ初期状態から動的計画法により、Ａ´（ｉ，
ｊ）において和を計算する代わりに最大値を計算するこ
とで得られる。

【００７０】次式（１３）に初期設定、および次式（１
４）に動的計画法による計算過程を示す。

【００７１】Ｃ（ｉ，ｊ）を動的計画法で計算する際
に、どのような過程でＣ（Ｎ，ｎ）が得られるか、すな
わち所与の文字列へのヌル文字挿入位置を記憶すること
によりアライメント結果が得られる。

【００７２】

【数１３】

【００７３】

【数１４】

【００７４】すなわち、アライメントは、学習により得
られた確率パラメータから所与の文字列への尤度がなる
たけ高くなるように、文字列のどこにヌル文字を挿入す
るか、を推定している。

【００７５】また、ここでの推定は、文字間の類似度を
使用する、すなわち文字の出現尤度を使用することも可
能である。この場合、上式（２）の代わりに、上式
（４）の最も外側の和の部分を取り去った残りに対し
て、最尤値を与えるｓを求める。最尤値を与えるｓは、
上式（１３）および上式（１４）と同様に、上式（５）
の初期設定から、上式（６）の和を計算する部分を、最
大値を計算するように代えることで得られる。

【００７６】次に、上式（４）の大域的最適解を得る学
習アルゴリズムの例を説明する。

【００７７】まず、パラメータβを導入する。前記した
Ａ（ｉ，ｊ）、Ｂ（ｉ，ｊ）、Ｐ（ｉ，ｊ）のβ乗を、
次式（１５）のように、それぞれ、Ａ（ｉ，ｊ）^β、Ｂ
（ｉ，ｊ）^β、Ｐ（ｉ，ｊ）^βとする。

【００７８】

【数１５】

【００７９】Ａ（ｉ，ｊ）は、次式（１６）の初期状態
の設定から動的計画法により、次式（１７）のように計
算することが出来る。

【００８０】

【数１６】

【００８１】

【数１７】

【００８２】同様にＢ（ｉ，ｊ）も動的計画法により計
算することが可能である。

【００８３】次に、所与の文字列Ｏに対し、ｉ番目のカ
ラムで文字ｊを出力する確率をＸ（ｉ，ｊ）とし、さら
に、そのβ乗をχ（ｉ，ｊ）とし、χ（ｉ，ｊ）を、上
記Ａ（ｉ，ｊ）、Ｂ（ｉ，ｊ）から次式（１８）のよう
に計算する。

【００８４】

【数１８】

【００８５】さらに、χ（ｉ，ｊ）から、次式（１９）
のように、Ｐ（ｉ，ｊ）を計算する。

【００８６】

【数１９】

【００８７】得られたＰ（ｉ，ｊ）から、上式（８）と
同様に、次式（２０）に示すように確率パラメータｐ
（ｉ，ｊ）の書き換え規則を得る。

【００８８】

【数２０】

【００８９】ここで、βは０から次第に増加させる。す
なわち、あるβでｐ（ｉ，ｊ）の書き換えが収束するま
で学習させ、βを増加させる、という動作を繰り返す。
この繰り返しは、βの値を増加させても、書き換え規則
により値の変化が所与の一定値以下に抑えられるまで繰
り返す。また、βの値の変化は、与えられる文字列の長
さに依存せず決定するので、この場合も計算時間はＯ
（ｎ²）で済んでいる。

【００９０】さらに、所与の文字列は複数ある場合に
は、上式（２０）の分子分母それぞれに対し、所与のす
べての文字列のそれらの和を計算する。

【００９１】さらに、文字間の類似度を使用しない上式
（１）を最大化する際の大域的最適解を求めるアルゴリ
ズムの例についても説明しておく。

【００９２】まず、次式（２１）に示すように、Ａ´
（ｉ，ｊ）、Ｂ´（ｉ，ｊ）、Ｐ´（ｉ，ｊ）のβ乗を
Ａ´（ｉ，ｊ）^β、Ｂ´（ｉ，ｊ）^β、Ｐ´（ｉ，ｊ）
^βとする。

【００９３】

【数２１】

【００９４】Ａ´（ｉ，ｊ）は、Ａ（ｉ，ｊ）と同様
に、動的計画法により次式（２２）、（２３）のように
計算する。

【００９５】

【数２２】

【００９６】

【数２３】

【００９７】Ｂ´（ｉ，ｊ）も同様に動的計画法により
計算する。

【００９８】さらに、Ｐ´（ｉ，ｊ）をＡ´（ｉ，
ｊ）、Ｂ´（ｉ，ｊ）から、次式（２４）のように計算
する。

【００９９】

【数２４】

【０１００】最後に、Ｐ´（ｉ，ｊ）から、ｐ（ｉ，
ｊ）の書き換え規則を、上式（８）と同様に、次式（２
５）のように求める。

【０１０１】

【数２５】

【０１０２】この場合も、文字間の類似度を使用する場
合と同様に、βの値を0から徐々に大きくしていく。す
なわち、あるβの値で、収束するまでｐ（ｉ，ｊ）の値
を書き換え、βの値をわずかに増やす、という動作を、
ｐ（ｉ，ｊ）の値を増加させても書き換え規則によりほ
とんど変化しなくなるまで繰り返す。また、所与の文字
列は複数ある場合には、上式（２５）の分子分母それぞ
れに対し、所与のすべての文字列のそれらの和を計算す
る。

【０１０３】次に、これまで説明してきた、本発明のア
ルゴリズムを実施するシステム構成を図２に示す。図２
を参照すると、このシステムは、学習部１０１、推定部
１０２、および、３種類のデータからなる。なお、学習
部１０１、推定部１０２はコンピュータ上で実行される
プログラムによってその機能を実現することができる。

【０１０４】学習部１０１は、アライメントにより文字
列にヌル文字を挿入後の各文字位置ｉにおける(ヌル文
字を含む)文字種類ｊの確率分布ｐ（ｉ，ｊ）の初期
値、及び、文字列データを入力とする。学習部１０１
は、本発明のアルゴリズム（方法）として説明してきた
ように、文字間の類似度を使用してｐ（ｉ，ｊ）の大域
的最適値を学習可能であり、学習により得られたｐ
（ｉ，ｊ）の値を書き換える。

【０１０５】引き続き、推定部１０２においても、本発
明のアルゴリズムとして説明して来たように、学習され
た確率分布ｐ（ｉ，ｊ）と文字列データとを入力とし、
文字列に対して最尤値を与えるヌル文字挿入位置を推定
し、最尤値に対応する文字位置とヌル文字位置を結果と
して出力する。

【０１０６】

【発明の効果】以上説明したように、本発明によれば、
長さｎのｋ本の文字列のマルチプルアライメントが、Ｏ
（ｎ²）の計算時間で可能である、という効果を奏す
る。

【０１０７】さらに、本発明によれば、従来、Ｏ
（ｎ²）の計算時間でマルチプルアライメントを可能に
していた隠れマルコフモデルに基づく方法では不可能で
あった、次の３点、１：共通文字列以外の部分のアライメント、２：文字間の類似度の考慮、３：確率パラメータの大域的最適化、を実現可能としており、従来の方法に較べて、短時間
に、かつ、高い精度で、複数文字列のマルチプルアライ
メントが実現できる、という効果を奏する。

【図面の簡単な説明】

【図１】本発明の一実施例を説明するための図であり、
確率パラメータの一例を模式的に示す図である。

【図２】本発明の一実施例の構成を示す図である。

【図３】従来のアラインメント方法として、隠れマルコ
フモデルによるアライメントを説明するためのの図であ
る。

【符号の説明】

１０１学習部、１０２推定部、２０１率パラメータ格納部、２０２文字列データ格納部、２０３アライメント結果格納部

Claims

【特許請求の範囲】

【請求項１】所与の複数の文字列に対し、各文字列内の
文字間に空白を挿入し長さを同じにする際に、空白挿入
後の各位置での文字をなるべく合致させる、複数文字列
のアライメント方法において、前記位置毎に文字及び空白の確率分布を持つ確率モデル
を使用し、前記所与の複数の文字列から前記確率分布を
学習し、前記所与の各文字列に対する最適な空白挿入位
置を前記確率分布から推定する、ことを特徴とする複数
文字列アライメント方法。
【請求項２】所与の文字列で使用されている文字間の類
似度が与えられた場合に、ある位置において、類似度を
加味した、ある文字の出現尤度を、該文字とそれ以外の
各文字との類似度と、前記位置での確率分布により各文
字に与えられる確率との積を合計したもので表現し、前
記出現尤度を用いて最適な確率分布を学習する、ことを
特徴とする請求項１記載の複数文字列アライメント方
法。
【請求項３】所与の複数の文字列から該確率分布を学習
する際に、前記確率分布の大域的最適解を計算可能とし
たことを特徴とする請求項１記載の複数文字列アライメ
ント方法。
【請求項４】所与の複数の文字列に対し、各文字列内の
文字間に空白を挿入し長さを同じにする際に、空白挿入
後の各位置での文字をなるべく合致させる、複数文字列
アライメントを行うシステムにおいて、前記位置毎に文字及び空白の確率分布を持つ確率モデル
を使用し、前記所与の複数の文字列から前記確率分布を
学習する学習手段と、前記所与の各文字列に対する最適な空白挿入位置を前記
確率分布から推定する推定手段と、を含むことを特徴とする複数文字列アライメントシステ
ム。
【請求項５】前記学習手段が、所与の文字列で使用され
ている文字間の類似度が与えられた場合に、ある位置に
おいて、類似度を加味したある文字の出現尤度を、該文
字とそれ以外の各文字との類似度と該位置での確率分布
により各文字に与えられる確率との積を合計したもので
表現し、該出現尤度を用いて最適な確率分布を学習す
る、ことを特徴とする請求項４記載の複数文字列アライ
メントシステム。
【請求項６】前記所与の複数の文字列から前記確率分布
を学習する学習手段において、前記確率分布の大域的最
適解が計算可能である、ことを特徴とする請求項４記載
の複数文字列アライメントシステム。
【請求項７】所与の長さの複数の文字列に対して空白
（「ヌル文字」という）挿入後の各文字列の長さを等し
くし、各文字の位置（「カラム」という）毎に文字の確
率分布を有しｉ番目のカラムにおける文字ｊの確率をｐ
（ｉ，ｊ）で表し、複数のヌル文字を挿入するに際して
複数の場合（組合せ）の中で、ある場合ｓにおいてｉ番
目のカラムにある文字種類をｍ_i ^sとした場合に、確率ｐ
（ｉ，ｍ_i ^s）の各カラムｉについてＮまでの積の場合ｓ
に関する総和を最大化する確率パラメータを学習し、得
られた確率パラメータｐ（ｉ，ｍ_i ^s）の各カラムｉにつ
いてＮまでの積を最大化するｓを推定することで、各文
字列へのヌル文字挿入位置を推定する、ことを特徴とす
る請求項１記載の複数文字列アライメント方法。
【請求項８】二つの文字種類ｉとｊとの間の類似度をｄ
（ｉ，ｊ）（０＜ｄ（ｉ，ｊ）＜１）とし、ある位置に
おいて、類似度を加味した、ある文字の出現尤度を、該
文字（ｍ_i ^s）とそれ以外の各文字（ｋ）との類似度ｄ
（ｋ，ｍ_i ^s）と各文字の確率ｐ（ｉ，ｋ）との積ｐ
（ｉ，ｋ）×ｄ（ｋ，ｍ_i ^s）をｋについて合計したもの
で表現し、前記出現尤度について、各カラムｉ毎の積及
び場合ｓについての積を最大化する確率パラメータの学
習を行う、ことを特徴とする請求項７記載の複数文字列
アライメント方法。
【請求項９】長さＮのカラムを、所与の文字列Ｏ(長さ
ｎ＜Ｎ)とヌル文字で埋めていく際に、ヌル文字の挿入
位置による複数の場合について、Ｏの１番目の文字から
ｊ番目の文字とヌル文字とでカラムの１番目からｉ番目
が既に埋められている確率Ａ（ｉ，ｊ）を設定初期値よ
りｉとｊを可変させ動的計画法により順次求め、Ｏのｊ番目の文字からｎ番目の文字とヌル文字の挿入に
よりカラムのｉ番目からＮ番目が既に埋められている確
率Ｂ（ｉ，ｊ）も動的計画法により順次求め、ｉ番目の
カラムにｊ番目の文字が埋まる確率Ｐ（ｉ，ｊ）を前記
Ａ（ｉ，ｊ）、Ｂ（ｉ，ｊ）を用いて求め、確率パラメータ分布ｐ（ｉ，ｊ）を前記Ｐ（ｉ，ｊ）を
用いた書き換え規則で求め、前記書き換え規則をｐ
（ｉ，ｊ）の変化が一定値以下となるまで反復させるこ
とにより、前記ｐ（ｉ，ｊ）の値を学習する、ことを特
徴とする請求項７記載の複数文字列アライメント方法。
【請求項１０】パラメータβを導入し、前記Ａ（ｉ，
ｊ）、Ｂ（ｉ，ｊ）、Ｐ（ｉ，ｊ）をそれぞれβ乗した
ものについて動的計画法に適用し、βの値を０から徐々
に増やしていき、あるβの値でｐ（ｉ，ｊ）が収束する
までβを増加させるという動作を繰り返し、大域的最適
解を求める、ことを特徴とする請求項９記載の複数文字
列アライメント方法。
【請求項１１】（ａ）所与の長さの複数の文字列に対し
て空白（「ヌル文字」という）挿入後の各文字列の長さ
を等しくし、各文字の位置（「カラム」という）毎に文
字の確率分布を有しｉ番目のカラムにおける文字ｊの確
率をｐ（ｉ，ｊ）で表し、複数のヌル文字を挿入するに
際して複数の場合（組合せ）の中で、ある場合ｓにおい
てｉ番目のカラムにある文字種類をｍ_i ^sとした場合に、
確率ｐ（ｉ，ｍ_i ^s）の各カラムｉについてＮまでの積の
場合ｓに関する総和を最大化する確率パラメータを学習
する処理、及び、（ｂ）得られた確率パラメータｐ（ｉ，ｍ_i ^s）の各カラ
ムｉについてＮまでの積を最大化するｓを推定すること
で、各文字列へのヌル文字挿入位置を推定する処理、の上記（ａ）、（ｂ）の各処理をコンピュータで実行す
るためのプログラムを記録した記録媒体。
【請求項１２】二つの文字種類ｉとｊとの間の類似度を
ｄ（ｉ，ｊ）（０＜ｄ（ｉ，ｊ）＜１）とし、ある位置
において、類似度を加味した、ある文字の出現尤度を、
該文字（ｍ_i ^s）とそれ以外の各文字（ｋ）との類似度ｄ
（ｋ，ｍ_i ^s）と各文字の確率ｐ（ｉ，ｋ）との積ｐ
（ｉ，ｋ）×ｄ（ｋ，ｍ_i ^s）をｋについて合計したもの
で表現し、前記出現尤度について、各カラムｉ毎の積及
び場合ｓについての積を最大化する確率パラメータの学
習を行う処理をコンピュータで実行させるためのプログ
ラムを記録した請求項１１記載の記録媒体。