JP2018147202A

JP2018147202A - 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置

Info

Publication number: JP2018147202A
Application number: JP2017041230A
Authority: JP
Inventors: 小西　智一; Tomokazu Konishi; 智一小西
Original assignee: Akita Prefectural University
Current assignee: Akita Prefectural University
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2018-09-20

Abstract

【課題】分類性能が高い生物配列分析方法を提供する。
【解決手段】
複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。この上で、マトリクスを主成分分析する。また、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの位置の各位置の塩基又はアミノ酸であるかを示す主成分とにより分析を行う。そして、複数の配列の変化を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測することも可能である。
【選択図】図２

Description

本発明は、特に生物由来の配列を統計的に分析する生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置に関する。

塩基配列又はアミノ酸配列のような生物由来の配列の情報は、生物を特定したり、分類したりするのに重要である。たとえば、ＤＮＡの塩基配列は個体に特異的なので、塩基配列の情報は、個体分類や関係推定に理想的に用いられる。
サンプル同士の関係を理解するために、複数の配列間の相同性を距離としてとらえ、これら複数の配列の総当り距離を距離行列に変換して比較する方法が当業者に知られている。また、様々な配列間の距離の定義や計算方法が考案されている。
このうち、総当り距離の距離行列による比較として、例えば、ＵＰＧＭＡ法、ＮＪ法（ｎｅｉｇｈｂｏｒ−ｊｏｉｎｉｎｇｍｅｔｈｏｄ、隣接結合法）等を含む各種階層的クラスタリング、ｋ−ｍｅａｎｓ法等の非階層的クラスタリングで分類する方式が知られている。

また、非特許文献１を参照すると、複数の配列の総当たり距離の距離行列について、主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、以下、「ＰＣＡ」という。）を行い、複数の配列を分類する方法が記載されている（以下、従来技術という。）。

なお、特許文献１を参照すると、従来の解析装置を用いてデータ行列から主成分を算出する主成分解析方法が記載されている。

特開２０１２−０３９９９４号公報

ＧｅｏｒｇｅＭ他著、「Ｂｅｒｇｅｙ'ｓＭａｎｕａｌｏｆＳｙｓｔｅｍａｔｉｃＢａｃｔｅｒｉｏｌｏｇｙＶｏｌ５Ｔｈｅｒｅｖｉｓｅｄｒｏａｄｍａｐｔｏｔｈｅｍａｎｕａｌ」、米国、、Ｓｐｒｉｎｇｅｒ、２００５年、ｐ．１５９−１８７

しかしながら、塩基配列やアミノ酸配列は、多数の塩基やアミノ酸が並んだ多変量定性データであるため、従来技術のように、配列全体の類似度を基にした総当たり距離の距離行列を用いるだけでは解析が難しく、分類等の精度を高めることができなかった。
距離は、配列間の関係をただひとつの値へと要約したものであり、配列のどの部分がどのように違っているかという情報が失われているからであった。

本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。

本発明の生物配列分析方法は、生物由来の配列を分析する生物配列分析方法であって、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、前記マトリクスを主成分分析することを特徴とする。
本発明の生物配列分析方法は、前記配列は、塩基配列又はアミノ酸配列であり、個々の前記配列の得点を示す主成分と、前記得点が前記配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
本発明の進化予測方法は、前記生物配列分析方法により、複数の前記配列の変化を示す主成分により同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、前記配列の進化を予測することを特徴とする。
本発明の生物配列分析プログラムは、生物由来の配列を分析する生物配列分析装置により実行される生物配列分析プログラムであって、前記生物配列分析装置に、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成させ、前記マトリクスを主成分分析させることを特徴とする。
本発明の生物配列分析装置は、生物由来の配列を分析する生物配列分析装置であって、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部と、前記配列数値化部により作成された前記マトリクスを主成分分析する主成分分析部とを備えることを特徴とする。

本発明によれば、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、このマトリクスを主成分分析することで、従来よりも分類等の精度を高めた生物配列分析方法を提供することができる。

本発明の実施の形態に係る生物配列分析装置のシステム構成図である。本発明の実施の形態に係る生物配列分析進化予測処理のフローチャートである。本発明の実施例１に係るアジアライオンのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。本発明の実施例１に係るアジアライオンのＰＣＡ処理のｓＰＣ_n１とｓＰＣ_n２の塩基の固有ベクトルを示すグラフである。本発明の実施例１に係るヒトのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。本発明の実施例１に係るヒトのＰＣＡ処理のｓＰＣ_n１とｓＰＣ_n２の塩基の固有ベクトルを示すグラフである。従来の距離行列によるアジアライオンのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。従来の距離行列によるヒトのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。本発明の実施例１に係る外れ値を含むヒトのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s６の散布図である。従来の距離行列による外れ値を含むヒトのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。本発明の実施例１に係る下水処理場のバクテリアの１６ＳリボソームＤＮＡのＰＣＡ処理のｓＰＣ_s１とｓＰＣ_s２の散布図である。本発明の実施例１に係る下水処理場のバクテリアの１６ＳリボソームＤＮＡのｓＰＣ_n１とｓＰＣ_n２の塩基の固有ベクトルを示すグラフである。従来のＮＪ法による下水処理場のバクテリアの１６ＳリボソームＤＮＡの樹形図である。従来のインフルエンザウイルスのＨＡタンパクの３Ｄモデルにおいて、変異したアミノ酸残基を全て示す。従来のインフルエンザウイルスのＨＡタンパクの３Ｄモデルにおいて、年度により変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクのＰＣＡ処理の（ａ）ＰＣ１、（ｂ）ＰＣ２、（ｃ）ＰＣ３の散布図である。本発明の実施例２に係るＨＡタンパクのＰＣＡ処理の（ａ）ＰＣ１ｐ、（ｂ）ＰＣ２ｐ、（ｃ）ＰＣ３ｐのアミノ酸の固有ベクトルを示すグラフである。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ１ｐで変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ２ｐで変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ３ｐで変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ４ｐで変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ５ｐで変異したアミノ酸残基を示す。本発明の実施例２に係るＨＡタンパクの３Ｄモデルにおいて、ＰＣＡ処理のＰＣ６ｐで変異したアミノ酸残基を示す。本発明の実施例３に係るインフルエンザウイルスのＨＡタンパクにおいて、様々な株と共にロシア株１９７７年のアミノ酸配列をＰＣＡ処理した結果のうち、ｓＰＣ_s６の結果を、年代と比べた散布図である。本発明の実施例３に係るＨＡタンパクの３Ｄモデルにおいて、図１２の条件でＰＣＡ処理をした際のｓＰＣ_n６で変化したアミノ酸を示す。

＜実施の形態＞
〔生物配列分析装置１の制御構成〕
まず、図１を参照して、本発明の実施の形態に係る生物配列分析装置１の制御構成について説明する。
生物配列分析装置１は、生物由来の塩基配列やアミノ酸配列等の配列を分析する生物配列分析装置である。
生物配列分析装置１は、例えば、ＰＣ／ＡＴ互換機や汎用機等から構成される。また、生物配列分析装置１は、例えば、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）等のＯＳがインストールされており、Ｒ言語等を用いた統計解析プログラムが実行可能である。
また、生物配列分析装置１は、主に、制御部１０、記憶部１１、表示部１２、入力部１３、及びＩ／Ｆ部１４を含んでいる。

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の制御演算手段である。

記憶部１１は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒａｉｖｅ）、その他フラッシュメモリ、光学記録媒体等の一時的でない記録媒体である。

表示部１２は、液晶ディスプレイや有機ＥＬディスプレイ等の表示手段である。

入力部１３は、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力手段である。

Ｉ／Ｆ部１４は、１０００Ｂａｓｅ−Ｔ等のＬＡＮボード、無線ＬＡＮボード、シリアル、パラレル、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインターフェイスである。
また、Ｉ／Ｆ部１４は、外部のネットワークや他の装置（図示せず）等と接続するためのインターフェイス等を提供する。

また、制御部１０は、配列数値化部１００及び主成分分析部１１０を備えている。

配列数値化部１００は、複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。このマトリクスの詳細については、後述する。

主成分分析部１１０は、配列数値化部１００により作成されたマトリクスを主成分分析する。この際、例えば、特異値分解により主成分分析を行うことが可能である。詳細については、後述する。
また、主成分分析部１１０は、複数の配列の得点を示す主成分と、得点が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行う。
さらに、主成分分析部１１０は、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。

また、記憶部１１は、配列情報２００を格納している。
配列情報２００は、生物由来の塩基配列又はアミノ酸配列である配列を複数含んでいる。また、配列情報２００は、配列数値化部１００により、これらの複数の配列から作成されたマトリクスを含んでいる。
また、配列情報２００は、後述するように、主成分分析部１１０により分析された主成分等のデータについても含んでいてもよい。

また、記憶部１１は、本発明の実施の形態に係る生物配列分析方法及び進化予測方法を実現するための生物配列分析プログラムを格納している。この記憶部１１の生物配列分析プログラムは、制御部１０により、ハードウェア資源を用いて実行／処理することができる。
なお、このプログラム及びデータは、別途記録媒体に記録され、生物配列分析装置１にインストール可能に構成されていてもよい。また、インターネット等からダウンロードしてインストールすることも可能である。
また、生物配列分析プログラムは、Ｒ言語やＳ言語等の統計解析用のプログラミング言語を用いて作成されていてもよい。以下、本実施形態の生物配列分析プログラムは、Ｒ言語で作成されている例について説明する。

また、生物配列分析装置１は、主に記憶部１１に記憶された各種プログラムを用いて制御部１０が実行することで、本発明の実施の形態に係る生物配列分析方法を、ハードウェア資源を用いて実現することができる。
なお、生物配列分析装置１は、印刷を行うプリンターやＭＦＰ等を備えていてもよい。また、生物配列分析装置１は、表示部１２と入力部１３とを備えず、外部のＰＣ等の端末から操作されるサーバーのような構成であってもよい。

〔生物配列分析装置１による生物配列分析進化予測処理〕
次に、図２を参照して、本発明の実施の形態に係る生物配列分析装置１による生物配列分析進化予測処理の説明を行う。
本実施形態の生物配列分析進化予測処理は、まず、複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。また、マトリクスを主成分分析する。また、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。
本実施形態の生物配列分析進化予測処理は、主に制御部１０が、記憶部１１に記憶されたプログラムを、各部と協働し、ハードウェア資源を用いて実行する。
以下で、図２のフローチャートを参照して、生物配列分析進化予測処理の詳細をステップ毎に説明する。

（ステップＳ１０１）
まず、配列数値化部１００が、配列数値化処理を行う。
配列数値化部１００は、配列情報２００の複数の配列を用いて、各配列の各要素の種類と位置とを保持して数値化した二次元のマトリクス（行列）を作成する。この各要素は、例えば、塩基又はアミノ酸である。すなわち、配列数値化部１００は、塩基配列又はアミノ酸配列を、含まれる各塩基又はアミノ酸の情報を保持したままのマトリクスに変換する。
具体的には、配列数値化部１００は、例えば、塩基配列の場合、一つの配列について、配列の全体の長さｌの塩基配列の５倍、すなわち、５ｌの長さのベクトルの領域を確保する。この上で、配列上のＡ、Ｔ、Ｇ、Ｃの各塩基、及びギャップ（−）について、順に、それぞれ、その位置に当該種類の塩基又はギャップ存在する場合は「１」、存在しない場合は「０」とした二値のベクトルに変換し、数値化する。また、配列数値化部１００は、各配列についてこのように二値のベクトルに変換したものを、列としてそれぞれ接続し、マトリクスＸとして並べる。
更に具体的には、たとえば、「ＴＡＧＣ」及び「ＧＡＧＣ」の２つの配列（サンプル）を含むマトリクスＸの例を、下記の式（１）に示す：

すなわち、配列数値化部１００は、左から右の桁についての各塩基の位置（ポジション）について、塩基配列の場合、ＡＴＧＣと「−」なので、「Ａ」、「Ｔ」、「Ｇ」、「Ｃ」の各塩基、又は、ギャップが存在していれば「１」、存在していなければ「０」として配列化する。
マトリクスＸは、塩基配列の情報をすべて持ったマトリクスであり、完全に相互に変換可能である。すべての塩基の位置は、Ａ、Ｔ、Ｇ、Ｃ、及びギャップの５つの列で表記されていて、その自由度は列をあわせて１である。またこの列の組は、互いに独立である。このため、実施例１で説明するように、これを本実施形態の主成分分析処理を実行する場合、列の組で考える距離はユークリッド距離になる。

別の具体例で説明すると、例えば、Ｒ言語でこのマトリクスを用意する場合、配列数値化部１００は、塩基長が１０であれば、まず、各配列について、１０＊５＝５０の長さのベクトルを予約する。すなわち、配列数値化部１００は、「Ａ……ＡＴ……ＴＧ……ＧＣ……Ｃ−……−」という各塩基に対応した位置の予約を行う。配列数値化部１００は、このベクトルにについて、該当する配列のそれぞれの位置で、実際に「Ａ」であったところだけに「１」を、それ以外の箇所を「０」に設定する。すなわち、配列数値化部１００は、ベクトルを「００００１００００……０００１……」のように設定する。
なお、配列がＡＴＧＣ以外の塩基、通常の２０種類以外のアミノ酸を含む場合には、それに対応する列を加えてもよい。
また、配列数値化部１００は、アミノ酸配列の場合、アミノ酸は合計２０種類あるので、それとギャップ「−」を加えて２１種類の位置について、同様に「１」「０」で表現する。

配列数値化部１００は、これら各配列に対応したベクトルを、配列の数だけ順に重ねてマトリクスＸとする。

（ステップＳ１０２）
次に、主成分分析部１１０が、主成分分析（ＰＣＡ）処理を行う。
主成分分析部１１０は、ＰＣＡ処理として、上述のマトリクスＸを回転させる。
主成分分析部１１０は、この際、データ同士の差を効率よく抽出するために、回転の中心を平均配列におくことが好適である。

主成分分析部１１０は、例えば、中心として、上述の平均配列を、各カラムの平均のベクトルとして得る。すなわち、平均配列はマトリクスの行の平均として見いだされる。

α＝（０．０１．０．００．００．００．５０．００．００．００．５０．０１．００．００．００．０１．００．００．００．００．０） …… 式（２）

また、主成分分析部１１０は、マトリクスＸを任意の列で、ｃ＝ｘ−αのように中心化したものを、マトリクスＣとして算出する。マトリクスＣは、各位置及び塩基において、平均配列からの各サンプルの差異を示す。
なお、本実施形態においては、主成分分析部１１０は、Ｃの各行をスケールしなくてもよい。これは、配列の変化には、おそらく進化的にみて異なるウェイトがあるためである。すなわち、ある位置の塩基はホットスポットで、ある位置の塩基はコンサーバティヴであるためである。このため、主成分分析部１１０は、ウェイト中の塩基が異なってもよいので、各位置中の平均ウェイトは、スケールしなくてもよい。また、コドンの最初と三番目は、アミノ酸の変異につながったり、そうでなかったりするためである。すなわち、例えば、コドンの冗長性等の理由により、コドンの３つめの塩基は、最初の塩基よりウェイトが軽くなるためである。
また、何か別の中心を定める場合には、任意に中心設定することが可能である。この中心からの距離が大きい配列ほど、大きなモーメントが得られる。

主成分分析部１１０は、中心として設定された塩基配列マトリクスＣ又はＣ_αを、Ｃ＝ＵΣＶ^*として特異値分解する。これにより、２つのユニタリー行列Ｕ及びＶが取得される。また、長方形の対角行列Σは、特異値を示す。
主成分分析部１１０は、算出された主成分（ＰＣ）について、ＰＣ_s＝ＵΣ＝ＣＶを、各配列（サンプル）の得点を推測する主成分（以下、「サンプルの主成分」という。）として取得する。また、主成分分析部１１０は、主成分ＰＣ_n＝ＶΣ＝ＣＵを、配列の各塩基又はアミノ酸用の寄与を推測する主成分（以下、「塩基の主成分」又は「アミノ酸の主成分」という。）として取得する。なお、それらの推定は、各要素の関係性を変更せず、Ｃを回転させたものであるという特徴がある。
その後、主成分分析部１１０は、ＰＣ_sについては、ｓＰＣ_s＝ＰＣ_s／ｓｑｒ（Ｌ）としてスケール変換する。ここで、ｓｑｒ（）は、平方根を示す。また、Ｌは、ひとつのサンプルがもつ塩基又はアミノ酸配列の長さである。ここで、ｓｑｒ（Ｌ）で除するのは、配列長が異なる解析間でも、値の大きさが比較できるようにするためのスケール調整である。
また、主成分分析部１１０は、塩基の主成分であるＰＣ_nについては、ｓＰＣ_n＝ＰＣ_n／ｓｑｒ（ｍ）として、スケール変換する。ここで、ｍは、特異値分解でユニタリー行列を求める際に使用したサンプル数である。

従来のＰＣＡ分析では、サンプル間の距離を示す、置き換え率ｐか進化距離ｄからなる距離行列を用いていた。この行列は、配列のどの部分のどんな塩基又はアミノ酸が、その距離に関わっているかの情報を持たない。このため、この行列は、サンプル数×サンプル数の正方行列になる。
これに対して、本実施形態では、処理する行列がすべての情報を保持していて、サンプル数×（塩基又はアミノ酸長）の大きさであり、しかも距離ではなく定性的な情報である。このように、情報が失われていないため、より詳細な知見を得ることができる。

（ステップＳ１０３）
次に、主成分分析部１１０が、配列進化予測処理を行う。
主成分分析部１１０は、上述の主成分分析処理において算出されたサンプルの主成分ｓＰＣ_sについて、各配列の固有ベクトルをグラフ上に描画する。また、主成分分析部１１０は、サンプルが得られた時期と、それらサンプルの得点とを比較して、得点が、どの時期にまとまって（同調的に）変化しているか、又は周期的に変化しているか否かを判断する。まとまって変化した得点は、強い蓋然性をもって、ある組み合わせの塩基又はアミノ酸が、一定の方向へと変化していたことを示唆する。周期性が認められた場合も同様である。それらアミノ酸又は塩基は、同じ順位の主成分ｓＰＣ_nの内、絶対値の大きな値を取得することで容易に判別可能である。主成分分析部１１０は、その主成分の塩基又はアミノ酸が同調的に変化していると判断された場合、そのタイミングで変化する塩基又はアミノ酸を算出する。主成分分析部１１０は、この塩基又はアミノ酸をグラフや３Ｄモデル等で図示して、表示部１２に表示してもよい。なお、上述の周期性の判断は、各種統計検定を用いて判断してもよく、又は、主成分の寄与率が高い順のグラフを描画して、目視でユーザーに判断させてもよい。
以上により、本発明の実施の形態に係る生物配列分析進化予測処理を終了する。

以上のように構成することで、以下のような効果を得ることができる。
従来、系統学で行うような生物の分類では、生物由来の配列としてＤＮＡの塩基配列やアミノ酸の配列の総当たり距離である「距離行列」を用いた分析が広く行われてきた。しかしながら、距離行列は配列自身に含まれる情報が削除されているため、単純な分析では、配列に含まれる「方向性」を十分解析できなかった。
これに対して、本発明の実施の形態に係る生物配列分析方法は、生物由来の配列を分析する生物配列分析方法であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、マトリクスを主成分分析することを特徴とする。
また、本発明の実施の形態に係る生物配列分析装置１は、生物由来の配列を分析する生物配列分析装置であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部１００と、配列数値化部１００により作成されたマトリクスを主成分分析する主成分分析部１１０とを備えることを特徴とする。
このように構成することで、配列の方向性を用いて従来よりも精度高く分類することが可能となる。

ここで、塩基配列又はアミノ酸配列のマトリクスは、各塩基又はアミノ酸の位置についての独立した次元を持っている多変数のデータと認めることができる。つまり、塩基又は又はアミノ酸は変数である。この意味で、サンプル関連性の評価は本質的に多変量解析の問題として扱うことが考えられる。したがって、塩基又はアミノ酸とサンプルの情報とは一体として扱われるべきであり、塩基又はアミノ酸の変化は方向を持つと考えられる。しかし、これは、配列間の相同性の距離の観察によっては、見いだすことができなかった。
これに対して、本発明の実施の形態に係る生物配列分析方法は、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
このように構成し、塩基配列又はアミノ酸配列マトリクスの分析を行うと、サンプルと塩基の間のコネクションの一致を表示することが可能である。すなわち、ＰＣＡは、マトリクスを回転させることによって、対角線の軸のセットによってマトリクスの方向を調節する。これにより、サンプル用と塩基用の評価用の軸を一度に示すことが可能となる。結果として、補足的に、どの塩基かモチーフがサンプルのどの又はどのようなグループに特有であるかを知ることができる。
また、主成分の軸は回転したマトリクスから投影された差異を示し、他の方向を無視する。したがって、少数の軸のセットにおいてマトリクスの特性を要約することができる。これにより、本実施形態の生物配列分析方法は、塩基又はアミノ酸へのサンプルの関連を観察するための実践的なツールとして提供することができる。さらに、本実施形態の生物配列分析方法を系統学的な目的に適用することで、サンプルの分類方法を改善することができる。

また、インフルエンザやＨＩＶ等のウイルスは、ゲノムの変異速度が速く、これが宿主の免疫記憶を免れる主因になっている。このため、ウイルスのワクチンを製造することが重要であるものの、上述のようにゲノムが変化するため、これに対応したものを製造しないと、効果的なワクチンとならなかった。たとえば、インフルエンザウイルスの流行予測は、専門家による総合的な判断で行われ、ワクチンは過去のウイルス株によって作成されるものの、的中率は低く、効果が高くないという評価もあった。インフルエンザウイルスは、過去と全く同じ型が出現することは考えにくいためである。また、ＨＩＶは、変化しにくいアミノ酸配列に対応するワクチンの作成が試みられているものの、効果的なものは得られていなかった。
このため、ウイルスの塩基配列が、どのように変異していくのかを適切に予測することが求められていた。ところが、塩基配列やアミノ酸配列は定性的なデータであるために、従来は、定量的な数値解析の応用が遅れがちであった。

これに対して、本発明の実施の形態に係る進化予測方法は、上述の生物配列分析方法により、複数の配列の変化を示す主成分により、同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測することを特徴とする。
このように構成し、塩基配列又はアミノ酸配列の塩基又はアミノ酸の配列上の情報を保ったまま直接主成分分析で解析することで、サンプルと配列の主成分を得ると、配列の主成分はいくつかの独立した変化を呈す。これらはそれぞれが異なる周期で振動するため、それぞれの振動を外挿し、結果を合算することで進化を予測できる。また、その振動の際に変化がなかった又は少ない箇所の塩基又はアミノ酸については、配列の構造上保存される可能性が高いため、創薬のターゲット等として用いることが可能である。
また、本実施形態の進化予測方法により、下記の実施例２で示したようにインフルエンザウイルスの塩基の変化を解析すると、従来の型のアミノ酸を混ぜ合わせた新しい型が出現することを予測可能になる。すなわち、従来の配列全体の距離ではなく、定性的なデータ自体を解析することで、インフルエンザウイルスの進化への予測が可能となる。
このようにして予測された塩基配列やアミノ酸配列から抗原を迅速に合成することで、より効果的なワクチンを製造することが可能である。

また、リバースジェネティクスを使ってゲノムの変位を予測する手法も考えられる。この手法により、まったく新しい感染可能なウイルスを作成可能であるが、その株が本当に出現するのか、出現するとしていつになるのかは原理的にわからない。
また、リバースジェネティクスでは、培養細胞で増殖しにくい株は得ることができず、この段階で選択圧が生じていた。すなわち、毒性の強いウイルスについて無毒株が得られないのは、むしろありふれた現象であるためである。このため、進化を予測できるような偏りのないライブラリーは作成困難であった。
これに対して、本発明の実施の形態に係る進化予測方法は、過去のデータから、今後どのように変異していくのかを予測することで、より出現すると考えられるウイルスの抗原を作成できる。また、いつ頃にその抗原をもつウイルスが出現するのか予測することも可能となる。

次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。

〔方法〕
（塩基配列）
自然保護区でのみ飼育されている９２頭のアジアライオンのＭＨＣ１の情報が、公開データベース（Ｓａｃｈｄｅｖ等、２００５年）から取得された。
ヒトの対応する部位の配列サンプルが、塩基配列の相同性によって検索され見つかった場合に取得された。
ヒトのデータベースは、ヒト種であることに起因したバイアスを持つため、登録者の重複を回避し、２１７サンプル中の９２個を選択した。また、サンプルのうちの１つ、Ｍ３１１８３のアクセッションＩＤは他のものと非常に異なったため、これは余分な外れ値として使用された。
下水処理場のバクテリア１６ＳリボソームＤＮＡの塩基配列は、本発明者らの大学の学生トレーニング・コース中に取得された。これらの環境上のＤＮＡは、リンカイ汚水処理プラント秋田で取得された活性汚泥から分離され、ＰＣＲ（ポリメラーゼ連鎖反応）によって増幅され、大腸菌ベクターにクローニングされた。単一コロニーの塩基配列は秋田県立大学のバイオテクノロジー・センターで決定された。
塩基配列のグループは、それぞれ、当業者に知られたＣｌｕｓｔａｌＷプログラム（ラーキン等、２００７年）により整列された。

（距離）
各塩基の独立性を考慮し、要素の距離は、直角に交差されるように扱われた。したがって、配列中の距離は、距離ｅ_1,2＝ｓｑｒ（（Σ（ｘ₁−ｘ₂）²）／２Ｌ）の平均ユークリッド長さで推定された。
この平均ユークリッド長さの距離においては、ｘ₁とｘ₂はベクトルｘ１及びベクトルｘ２の任意の組み合わせの要素で、Ｌは、塩基の長さである。
ベクトルｘは、常に二値のベクトルであるので、この距離ｅは、通常の塩基の置き換え率ｐ＝Σ｜ｘ₁−ｘ₂｜／２Ｌの平方根と推定可能である。

（マルコフ連鎖モデルによる調整）
オプションとして、マトリクスＣは、同様の割合で、又はマルコフ連鎖モデル（ＪＣ６９）によるバック・サブスティチューションで置き換えて、調節することが可能である。それにより、どの塩基及びどの位置でも同じ変異の頻度で推定することができる。
ｃのスケールは、進化距離を推定するために、平均配列ｐからの各サンプルの距離を用いて調節された。その対応する進化距離ｄ＝−３／４ｌｎ（１−４／３×置き換え率ｐ）として算出された。その後、マトリクスＣの列は、それぞれｃ_a＝ｃ×進化距離ｄ／置き換え率ｐとして調節された。

（ＰＣＡ処理）
上述の実施の形態に記載したのと同様に、各サンプルの塩基配列の数値化を行い、マトリクスＸを作成した。これを、Ｒ言語のｓｖｄ（）により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。

（隣接結合法）
ライオンの距離行列は、マルチプルアラインメント上の通常の進化距離ｄのマトリクス上で推測され、置き換え率は、Ｋ８０モデルにより調整された。
人間のサンプルについては、Ｅは方法の比較のために使用された。
距離行列はａｐｅパッケージの隣接結合機能によって処理された。

〔結果と議論〕
（データの表現）
図３Ａ〜図４Ｂを参照して、実施例１の絶滅危惧種のアジアライオン（ライオン）及び対応する部位のヒトのサンプルの主要組織適合性タンパク質（ＭＨＣ）の塩基配列を分析した結果について説明する。
図３Ａは、ライオンについて、本実施例のＰＣＡ処理を行った主成分１軸（ＰＣ１）と主成分２軸（ＰＣ２）をスケーリングしたｓＰＣ_s１及びｓＰＣ_s２の散布図である。図３Ａによれば、少なくとも３つの別個のグループがライオンのサンプル中にあることは明白だった。また、グループの分離は、各主成分軸への寄与に影響した。ここで、より寄与率の低い主成分軸では、これらのグループを分離するさらなる他の基準があるに違いないと期待することができる。
図３Ｂは、ライオンのｓＰＣ_n１及びｓＰＣ_n２として示す各塩基の固有ベクトルを示すグラフである。ライオンの３つのグループの分離は、塩基のＰＣであるＰＣｎにおいて明白である。このグラフでは、各主成分について、特定の位置に特定の塩基があったことを示し、それがどの程度ＰＣ中のサンプルのスコアに寄与するかを示す。また、ライオンの３つのグループ中の差異は人間のサンプル中の変化と同じくらい大きいが、グループ内の差異は非常に小さかった。つまり、これらライオンの塩基は、明確に変異が少なかった。これは、ある塩基、モチーフが、特定のライオンのグループに特異的なことを示す。つまり、ライオンにおける変化がより少数のパターンであることを示唆していた。また、多くの塩基が互いと関連していた。また、グループ内では、サンプル中の差異は全く制限されており、それらは、絶滅に近づいた際に形成されたボトルネックであることを示す。

図３Ｃは、ヒトのＰＣＡ処理を行ったｓＰＣ_s１とｓＰＣ_s２の散布図である。ヒトのサンプルは――ライオンの小集団があきらかに３つに分断されたのとは対照的に――より広く分散した。ライオンの３つのグループの差はヒトの散らばりと比較して大変大きなものであり、又は、異なる種であると考えて良い大きさであると思われる。しかし、ライオンのそれぞれのグループ内のばらつきは、ヒトのばらつきと比べると、ずっと小さかった。
図３Ｄは、ヒトについての各軸の各塩基のｓＰＣ_nを示すグラフである。ヒトのサンプルにおいては任意の位置の任意の塩基は、様々な値を示した。これは、ヒトでは、特定な塩基だけがあるグループを特徴付けないことを示している。

（サンプルの解像度）
次に、各サンプルの解像度について説明する。塩基配列マトリクスへのアプローチはよりよい解像度を示した。
図４Ａは、比較例であり、従来の距離行列でライオンのＰＣＡ処理を行ってスケーリングしたｓＰＣ_s１及びｓＰＣ_s２の散布図である。以下、図３Ａに比べると、より少ない次元数の行列を用いるために複数の次元を圧縮してみることになるので、グループのセパレーションが悪い。従来の距離行列によるＰＣＡでは、分析されたマトリクスは、距離の情報を所有するが、塩基の位置及び種類の情報を欠くためである。
図４Ｂも、同様の比較例であり、従来の距離行列でヒトのＰＣＡ処理を行ったｓＰＣ_s１とｓＰＣ_s２の散布図である。図３Ｃと同様にばらついているものの、寄与率は低くなる（図示せず）。
図４Ａ及び図４Ｂによると、より少数の軸に、データにおける変化をまとめているものと考えられる。しかしながら、これは、データをまとめることが、本来は見分けられていたはずの違いを混合していることを意味する。そのため、サンプルの解像度は悪くなる。
すなわち、ＰＣＡは一定方向からマトリクスを観察する方法である。従来の距離行列によるＰＣＡ処理は、この行列をつくる時点で情報が失われるため、本来のデータの備える方向の多くが無視されると考えられる。ここで、距離行列を観察する主な目的は最初の２つの軸の内のほとんどの差異を要約することである。
これに対して、上述の図３Ａ〜図３Ｄに示したように、本実施例の方式を用いることで、実際に、サンプルのＰＣは、それぞれの順位でよりよくサンプルを分けることができた。すなわち、本実施例の方式は、より少ない軸でデータを要約するのではなく、従来法よりもむしろ多くの軸を用いて、よりデータを精密に分類する能力を有している。

（外れ値に対する応答）
次に、図５Ａ及び図５Ｂにより、外れ値に対する応答について説明する。
図５Ａは、外れ値を含むヒトのサンプルを用いて本実施形態のＰＣＡ処理を行った例についてのｓＰＣ_s１とｓＰＣ_s６による散布図である。
実際のところ、塩基・マトリクスのＰＣＡでは、ｓＰＣ_s１及びｓＰＣ_s２の両方にはサンプルが外れ値として現われない。これは、方向の情報により、本実施形態のＰＣＡ処理は、ロバストになるためであった。このため、ＰＣの全体形状は、図３Ｂに示すところのサンプルなしで計算されたものと、ほとんど同一だった。また、塩基の位置を用いることで、サンプル中に特定の方向を与えた。しかし、大きさは主な要素ではなかった。ある特定の塩基又はアミノ酸にある外れ値は、ある特定の順位である軸にしか影響しないためである。しかし、本実施例の手法のロバストな特徴は、こうした変異を無視しなかった。この場合であればＰＣ６がそれを記録するためであった。つまり、図５Ａに示すように、外れ値はｓＰＣ_s６に現われた。また、塩基の寄与が塩基用のｓＰＣ_n６に現われた。

一方、図５Ｂは、比較例として従来の距離行列により、同様のサンプルによるＰＣＡ処理を行ったｓＰＣ_s１とｓＰＣ_s２の散布図である。
このように、従来の距離行列によるＰＣＡ処理は、外れ値に敏感である。ヒトのサンプル（Ｍ３１１８３）は、サンプル中にユニークないくつかのモチーフを含んでいる。これらの塩基のために、サンプルは、他のサンプルに対して距離が大きくなっていた。図５Ｂによると、ＰＣ１とＰＣ２の軸がこの外れ値によって主として決定されたので、このサンプルが他のサンプルに示された関係性を変更させて歪んでいるのが分かる。
なお、分類目的のために、既知のレファレンスから作られるトレーニング・データセットを用いることで、ノイズレベルを下げて、解像度を更に改善することが期待できる。もちろん、これは、サンプル中の可能性のある重大な差異を無視することになる可能性があるアプローチである。

（隣接結合法）
次に、本実施例のＰＣＡ処理による分類と、ＮＪ法とを比較した。
図６Ａは、本実施例の下水処理場の汚泥のリボソームＲＮＡについて、本実施例のＰＣＡ処理を行ったｓＰＣ_s１とｓＰＣ_s２の散布図である。図６Ｂは、このデータのｓＰＣ_n１とｓＰＣ_n２の固有ベクトルのグラフである。このように、塩基用のＰＣを、より低いＰＣの方に観察することによって、どの塩基がサンプルを分離するかを識別すること、又は、塩基の変化によって惹起された生物学的機能の変化を考慮して分離することが可能となる。これは系統樹を作る際に必須のステップである。本実施例の塩基のマトリクスＸを用いたＰＣＡ処理により、このプロセス用のツールを提供することが可能となる。
また、図６Ｃは、従来のＮＪ法による樹形図である。サンプル間の関係性を変更しないＰＣＡと対比すると、ＮＪ法のようなクラスタリング手法は、すべてのサンプル又は塩基を接続するための枝分れ鎖を作る。サンプルの関連性はチェーンの長さの合計で示される。また、図６Ｃのように、サンプルが束縛されるので、特にサンプル数が大きくなると、関連性の全体像を理解するのが難しくなりえるため、分離が上手くいかないことが分かる。

上述したように、本実施例のＰＣＡ処理は、塩基の任意の位置の変異の特定の方向を観察することができる。これは、進化には方向性がありえることを示唆し、これは、歴史的な時代と塩基とを比較する際に明白になる。

（ウイルスの塩基配列）
１９７７〜２００９年のヒトインフルエンザウイルスについて、当該年度でもっとも流行した株のヘマグルチニン（ｈｅｍａｇｇｌｕｔｉｎｉｎ、以下「ＨＡ」という。）遺伝子のアミノ酸配列が公開データベース（Ｓａｃｈｄｅｖ等、２００５年）から取得された。ＨＡ遺伝子は、膜上の糖蛋白で、シアル酸等のリガンドと結合することで、標的細胞にとりつく働きをする。また、宿主の免疫がターゲットにする分子の一つでもある。

（ＰＣＡ処理）
上述の実施の形態に記載したのと同様に、アミノ酸配列の数値化を行い、Ｒ言語のｓｖｄ（）により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。

〔結果と議論〕
図７〜図１１により、本実施例のＰＣＡ処理の結果について説明する。
図７は、インフルエンザウイルスのＨＡタンパクの３Ｄ（三次元）モデルである。図７によると、歴史のなかで変異しているアミノ酸は、たとえばＨＡタンパクの場合、そのタンパク質の表面を覆うように分布している。図７Ａの上のモデルはタンパク質をＸＹ方向に投射したもの、下のモデルはＸＺ方向に投射したもので、右側がウイルスの外側にむいて殻の表面に存在している。黒丸が１９７７〜２００８年の間に変異した残基である。以下、図中において、ＰＣ〜の添字の「ｐ」は、正の値であることを示す。
ここで、ウイルスの配列の変化予測を行う場合、ある年から翌年乃至数年間で、どの部位がどう変化するのかを予測する必要がある。
図８は、ある年に、前年とどこが違ったのかを観測した例を絵示すグラフである。すなわち、単に前年と比較しても、その法則性がなかなか見えてこないのが分かる。

図９は、本実施例のＰＣＡ処理の結果として、（ａ）は主成分１軸（ＰＣ１）、（ｂ）は主成分２軸（ＰＣ２）、（ｃ）は主成分３軸（ＰＣ３）における、サンプルの変化を示す固有ベクトルのグラフである。たとえば、ＰＣ１からＰＣ３に関して、サンプルの主成分はこのように年代とともに変化する。すなわち、この変化しているＰＣが、その年代に、その方向へと変わっているものと考えられる。また、これらの図からは、変化の周期性が、サインカーブによって容易に近似できることが明らかである。
図１０は、本実施例のＰＣＡ処理の結果として、（ａ）はｓＰＣ_n１、（ｂ）はｓＰＣ_n２、（ｃ）はｓＰＣ_n３における、アミノ酸の固有ベクトルを示すグラフである。これらのＰＣで実際に変化しているアミノ酸残基は、残基の主成分によって分かる。これらは、実際には、下記で示すような、特別な位置にある。
図１１Ａ〜図１１Ｆは、それぞれ、ｓＰＣ_n１〜ｓＰＣ_n６について、高い値をとったアミノ酸残基を示す３Ｄモデルである。これらアミノ酸残基を、黒丸で示している。

結果として、本実施例の主成分で観察すると、どの残基が変異するのかについての法則性が分かるようになる。
図１１Ａによると、ＰＣ１では右側のかたまりのなかで、やや下方に面した部位がよく変異している。図１１Ｂによれば、ＰＣ２では最も外側を向いた部分が変異していることがわかる。これら塩基は一度変化してからまた復帰する傾向をもつ。このため、図９（ｂ）のサンプルのＰＣ２は振動している。図１１Ｄ〜図１１Ｆの各ＰＣでもアミノ酸残基のどの箇所が変化しているのかが分かる。

このように、これら共通性のある塩基又はアミノ酸が似たタイミングで変化することがわかるので、それらがいつ変わったのかを参考にして、翌年に変化する確率を推定することができる。
たとえば、ＨＡタンパク質には複数の種類があり、そのなかで人間にはタイプ１、２、３、５が感染することが知られており、それぞれ立体構造はほぼ共通であるとみなすことができる。Ｈ３及びＨ１は１９７７年からずっと変化が観測されているので、それらデータから『塩基の位置と変異のしやすさ』を観察し、それを別の種類のＨＡタンパクへと外挿することが可能と考えられる。

（ウイルスの塩基配列）
上述のヒト及びヒト以外のインフルエンザウイルスの様々な株、アヒル（ｄｕｃｋ）、ブタ（ｓｗｉｎｅ）等のＨＡ遺伝子に加えて、１９７７年のＮ１Ｈ１型インフルエンザウイルスのロシア株を、公開データベース（Ｓａｃｈｄｅｖ等、２００５年）から取得した。

（ＰＣＡ処理）
上述の実施例２と同様に、ロシア株のＨＡ遺伝子を加えてＰＣＡ処理を行った。

〔結果と議論〕
図１２及び図１３により、本実施例の特定の年代の特定株のウイルスを他の多数の株と比較してＰＣＡ処理した結果について説明する。このようなＰＣＡ処理を行うと、その株に特徴的なＰＣが発見できる。
図１２は、これは１９７７年だけのロシア型の株と、データベースにあった別の株について解析した結果を示す。すなわち、本実施例では、特定の種類のウイルスとして、Ｎ１Ｈ１型インフルエンザウイルスのロシア株を他の多数の株と比較した。すると、ロシア株は年々変化するものの、特徴的なｓＰＣ_sが見つかった。図１２で示す例では、ｓＰＣ_s６がその特徴的なＰＣにあたっていた。なお、本実施例では、図１１ＦとはＰＣＡ処理したサンプルが異なるため、結果もまた異なっている。
具体的に、図１２は、インフルエンザウイルスの様々な株のＨＡ遺伝子と共に、ロシア株１９７７年のＨＡ遺伝子のアミノ酸配列を主成分分析した結果のうち、ｓＰＣ_s６の結果を、年代と比べたものを示す。
図１２中で、Ｄで始まるものはｄｕｃｋの株であり、例えば、Ｄ３８は１９３８年のＮ１Ｈ１ウイルスを示す。同様に、Ｓ３０は、１９３０年のｓｗｉｎｅの株を示す。これらの他に、Ｈ２からＨ１０までのインフルエンザウイルスが、Ｎ（ノイラミニダーゼ）の種類とともに記されている。７７年のロシア型（７７）が特異な値を持つことが明確であった。

図１３は、本実施例の各株のＨＡタンパク質のＸ線回折像に対応する３Ｄモデルを示す。白丸は、図１２の条件でＰＣＡ処理をした際に、ｓＰＣ_n６において、特に、大きな値をとったアミノ酸である。黒丸は、ロシア型のインフルエンザウイルスが１９７７年から２００８年の間に変異したアミノ酸である。
また、この期間に変化がなかった（白丸だけの）アミノ酸の多くは、３Ｄモデルで閲覧させる際の、ＨＡタンパクがリガンドに結合する部位の近傍であった。この部位は、ヒトに感染するＨＡタンパクの機能に影響するため、あまり変異しないものと考えられる。
また、変化可能なアミノ酸の殆どは、２００８年までに使い尽くされていたものと考えられる。すなわち、ヒトにおいては、これらの変化したアミノ酸に対応する抗体を備えるようになり、流行しなくなったと推測される。このため、現在、流行するインフルエンザは、ロシア型がｓｗｉｎｅ型に置き換えられていると推測される。

また、同じ順位の塩基又はアミノ酸の主成分ｓＰＣ_n６は、ロシア型に特徴的な塩基又はアミノ酸配列であるものの、これらは同時に、経年変化で変わり得る配列でもあった。これらは、本来のタンパクの機能として必須なものではないので、他の株とは違うものになっていると考えられる。実際、１９７７年から２００８年までの間で、ロシア型のＨＡタンパク質は、約５００残基長のうち１４０残基ほどが変化していた。このうち１２６残基が、ｓＰＣ_s６で明らかに高い値、すなわちロバストに推測した標準偏差２つぶんより大きい値を示した１８７残基中に含まれていた。すなわち、上述の図１２の「７７」において変異する配列は、あまり機能に直に関係していない飾りのような、抗原認識において目立つ部位になっていると考えられ、経年変化（ドリフト）は、この中でほとんど起きると考えられる。ここから、ある株のなかで変化しうる残基がどれなのか、その株と、既存のデータベースとを調べることで推定できる。
また、同時に変化する塩基又はアミノ酸残基は、他の株でもその傾向が高いことが期待される。それらの塩基又はアミノ酸残基は、同時に変わらないと機能に影響する可能性が高いためである。そのような組み合わせを把握しつつ、まだ変化していないが変化可能な塩基を調べることによって、周期性が見い出せない場合でも、次に変化すると推測される塩基又はアミノ酸残基を絞り込んでいくことができる。このため、配列の進化の予測を容易にすることができる。

なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。

本発明の生物配列分析方法は、従来よりも精度の高い生物由来の配列を分析する手法を提供し、これを分析装置に適用可能であり、産業上に利用することができる。

１生物配列分析装置
１０制御部
１１記憶部
１２表示部
１３入力部
１４Ｉ／Ｆ部
１００配列数値化部
１１０主成分分析部
２００配列情報

Claims

生物由来の配列を分析する生物配列分析方法であって、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、
前記マトリクスを主成分分析する
ことを特徴とする生物配列分析方法。
前記配列は、塩基配列又はアミノ酸配列であり、
個々の前記配列の得点を示す主成分と、前記得点が前記配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行う
ことを特徴とする請求項１に記載の生物配列分析方法。
請求項１又は２に記載の生物配列分析方法により、
複数の前記配列の変化を示す主成分により同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、前記配列の進化を予測する
ことを特徴とする進化予測方法。
生物由来の配列を分析する生物配列分析装置により実行される生物配列分析プログラムであって、
前記生物配列分析装置に、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成させ、
前記マトリクスを主成分分析させる
ことを特徴とする生物配列分析プログラム。
生物由来の配列を分析する生物配列分析装置であって、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部と、
前記配列数値化部により作成された前記マトリクスを主成分分析する主成分分析部とを備える
ことを特徴とする生物配列分析装置。