JP2018147202A - 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 - Google Patents
生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 Download PDFInfo
- Publication number
- JP2018147202A JP2018147202A JP2017041230A JP2017041230A JP2018147202A JP 2018147202 A JP2018147202 A JP 2018147202A JP 2017041230 A JP2017041230 A JP 2017041230A JP 2017041230 A JP2017041230 A JP 2017041230A JP 2018147202 A JP2018147202 A JP 2018147202A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- matrix
- base
- amino acid
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【課題】分類性能が高い生物配列分析方法を提供する。
【解決手段】
複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。この上で、マトリクスを主成分分析する。また、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの位置の各位置の塩基又はアミノ酸であるかを示す主成分とにより分析を行う。そして、複数の配列の変化を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測することも可能である。
【選択図】図2
【解決手段】
複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。この上で、マトリクスを主成分分析する。また、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの位置の各位置の塩基又はアミノ酸であるかを示す主成分とにより分析を行う。そして、複数の配列の変化を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測することも可能である。
【選択図】図2
Description
本発明は、特に生物由来の配列を統計的に分析する生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置に関する。
塩基配列又はアミノ酸配列のような生物由来の配列の情報は、生物を特定したり、分類したりするのに重要である。たとえば、DNAの塩基配列は個体に特異的なので、塩基配列の情報は、個体分類や関係推定に理想的に用いられる。
サンプル同士の関係を理解するために、複数の配列間の相同性を距離としてとらえ、これら複数の配列の総当り距離を距離行列に変換して比較する方法が当業者に知られている。また、様々な配列間の距離の定義や計算方法が考案されている。
このうち、総当り距離の距離行列による比較として、例えば、UPGMA法、NJ法(neighbor−joining method、隣接結合法)等を含む各種階層的クラスタリング、k−means法等の非階層的クラスタリングで分類する方式が知られている。
サンプル同士の関係を理解するために、複数の配列間の相同性を距離としてとらえ、これら複数の配列の総当り距離を距離行列に変換して比較する方法が当業者に知られている。また、様々な配列間の距離の定義や計算方法が考案されている。
このうち、総当り距離の距離行列による比較として、例えば、UPGMA法、NJ法(neighbor−joining method、隣接結合法)等を含む各種階層的クラスタリング、k−means法等の非階層的クラスタリングで分類する方式が知られている。
また、非特許文献1を参照すると、複数の配列の総当たり距離の距離行列について、主成分分析(Principal Component Analysis、以下、「PCA」という。)を行い、複数の配列を分類する方法が記載されている(以下、従来技術という。)。
なお、特許文献1を参照すると、従来の解析装置を用いてデータ行列から主成分を算出する主成分解析方法が記載されている。
George M他著、「Bergey's Manual of Systematic Bacteriology Vol5 The revised road map to the manual」、米国、、Springer、2005年、p.159−187
しかしながら、塩基配列やアミノ酸配列は、多数の塩基やアミノ酸が並んだ多変量定性データであるため、従来技術のように、配列全体の類似度を基にした総当たり距離の距離行列を用いるだけでは解析が難しく、分類等の精度を高めることができなかった。
距離は、配列間の関係をただひとつの値へと要約したものであり、配列のどの部分がどのように違っているかという情報が失われているからであった。
距離は、配列間の関係をただひとつの値へと要約したものであり、配列のどの部分がどのように違っているかという情報が失われているからであった。
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
本発明の生物配列分析方法は、生物由来の配列を分析する生物配列分析方法であって、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、前記マトリクスを主成分分析することを特徴とする。
本発明の生物配列分析方法は、前記配列は、塩基配列又はアミノ酸配列であり、個々の前記配列の得点を示す主成分と、前記得点が前記配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
本発明の進化予測方法は、前記生物配列分析方法により、複数の前記配列の変化を示す主成分により同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、前記配列の進化を予測することを特徴とする。
本発明の生物配列分析プログラムは、生物由来の配列を分析する生物配列分析装置により実行される生物配列分析プログラムであって、前記生物配列分析装置に、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成させ、前記マトリクスを主成分分析させることを特徴とする。
本発明の生物配列分析装置は、生物由来の配列を分析する生物配列分析装置であって、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部と、前記配列数値化部により作成された前記マトリクスを主成分分析する主成分分析部とを備えることを特徴とする。
本発明の生物配列分析方法は、前記配列は、塩基配列又はアミノ酸配列であり、個々の前記配列の得点を示す主成分と、前記得点が前記配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
本発明の進化予測方法は、前記生物配列分析方法により、複数の前記配列の変化を示す主成分により同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、前記配列の進化を予測することを特徴とする。
本発明の生物配列分析プログラムは、生物由来の配列を分析する生物配列分析装置により実行される生物配列分析プログラムであって、前記生物配列分析装置に、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成させ、前記マトリクスを主成分分析させることを特徴とする。
本発明の生物配列分析装置は、生物由来の配列を分析する生物配列分析装置であって、複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部と、前記配列数値化部により作成された前記マトリクスを主成分分析する主成分分析部とを備えることを特徴とする。
本発明によれば、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、このマトリクスを主成分分析することで、従来よりも分類等の精度を高めた生物配列分析方法を提供することができる。
<実施の形態>
〔生物配列分析装置1の制御構成〕
まず、図1を参照して、本発明の実施の形態に係る生物配列分析装置1の制御構成について説明する。
生物配列分析装置1は、生物由来の塩基配列やアミノ酸配列等の配列を分析する生物配列分析装置である。
生物配列分析装置1は、例えば、PC/AT互換機や汎用機等から構成される。また、生物配列分析装置1は、例えば、Linux(登録商標)、Windows(登録商標)等のOSがインストールされており、R言語等を用いた統計解析プログラムが実行可能である。
また、生物配列分析装置1は、主に、制御部10、記憶部11、表示部12、入力部13、及びI/F部14を含んでいる。
〔生物配列分析装置1の制御構成〕
まず、図1を参照して、本発明の実施の形態に係る生物配列分析装置1の制御構成について説明する。
生物配列分析装置1は、生物由来の塩基配列やアミノ酸配列等の配列を分析する生物配列分析装置である。
生物配列分析装置1は、例えば、PC/AT互換機や汎用機等から構成される。また、生物配列分析装置1は、例えば、Linux(登録商標)、Windows(登録商標)等のOSがインストールされており、R言語等を用いた統計解析プログラムが実行可能である。
また、生物配列分析装置1は、主に、制御部10、記憶部11、表示部12、入力部13、及びI/F部14を含んでいる。
制御部10は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の制御演算手段である。
記憶部11は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Draive)、その他フラッシュメモリ、光学記録媒体等の一時的でない記録媒体である。
表示部12は、液晶ディスプレイや有機ELディスプレイ等の表示手段である。
入力部13は、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力手段である。
I/F部14は、1000Base−T等のLANボード、無線LANボード、シリアル、パラレル、USB(Universal Serial Bus)等のインターフェイスである。
また、I/F部14は、外部のネットワークや他の装置(図示せず)等と接続するためのインターフェイス等を提供する。
また、I/F部14は、外部のネットワークや他の装置(図示せず)等と接続するためのインターフェイス等を提供する。
また、制御部10は、配列数値化部100及び主成分分析部110を備えている。
配列数値化部100は、複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。このマトリクスの詳細については、後述する。
主成分分析部110は、配列数値化部100により作成されたマトリクスを主成分分析する。この際、例えば、特異値分解により主成分分析を行うことが可能である。詳細については、後述する。
また、主成分分析部110は、複数の配列の得点を示す主成分と、得点が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行う。
さらに、主成分分析部110は、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。
また、主成分分析部110は、複数の配列の得点を示す主成分と、得点が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行う。
さらに、主成分分析部110は、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。
また、記憶部11は、配列情報200を格納している。
配列情報200は、生物由来の塩基配列又はアミノ酸配列である配列を複数含んでいる。また、配列情報200は、配列数値化部100により、これらの複数の配列から作成されたマトリクスを含んでいる。
また、配列情報200は、後述するように、主成分分析部110により分析された主成分等のデータについても含んでいてもよい。
配列情報200は、生物由来の塩基配列又はアミノ酸配列である配列を複数含んでいる。また、配列情報200は、配列数値化部100により、これらの複数の配列から作成されたマトリクスを含んでいる。
また、配列情報200は、後述するように、主成分分析部110により分析された主成分等のデータについても含んでいてもよい。
また、記憶部11は、本発明の実施の形態に係る生物配列分析方法及び進化予測方法を実現するための生物配列分析プログラムを格納している。この記憶部11の生物配列分析プログラムは、制御部10により、ハードウェア資源を用いて実行/処理することができる。
なお、このプログラム及びデータは、別途記録媒体に記録され、生物配列分析装置1にインストール可能に構成されていてもよい。また、インターネット等からダウンロードしてインストールすることも可能である。
また、生物配列分析プログラムは、R言語やS言語等の統計解析用のプログラミング言語を用いて作成されていてもよい。以下、本実施形態の生物配列分析プログラムは、R言語で作成されている例について説明する。
なお、このプログラム及びデータは、別途記録媒体に記録され、生物配列分析装置1にインストール可能に構成されていてもよい。また、インターネット等からダウンロードしてインストールすることも可能である。
また、生物配列分析プログラムは、R言語やS言語等の統計解析用のプログラミング言語を用いて作成されていてもよい。以下、本実施形態の生物配列分析プログラムは、R言語で作成されている例について説明する。
また、生物配列分析装置1は、主に記憶部11に記憶された各種プログラムを用いて制御部10が実行することで、本発明の実施の形態に係る生物配列分析方法を、ハードウェア資源を用いて実現することができる。
なお、生物配列分析装置1は、印刷を行うプリンターやMFP等を備えていてもよい。また、生物配列分析装置1は、表示部12と入力部13とを備えず、外部のPC等の端末から操作されるサーバーのような構成であってもよい。
なお、生物配列分析装置1は、印刷を行うプリンターやMFP等を備えていてもよい。また、生物配列分析装置1は、表示部12と入力部13とを備えず、外部のPC等の端末から操作されるサーバーのような構成であってもよい。
〔生物配列分析装置1による生物配列分析進化予測処理〕
次に、図2を参照して、本発明の実施の形態に係る生物配列分析装置1による生物配列分析進化予測処理の説明を行う。
本実施形態の生物配列分析進化予測処理は、まず、複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。また、マトリクスを主成分分析する。また、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。
本実施形態の生物配列分析進化予測処理は、主に制御部10が、記憶部11に記憶されたプログラムを、各部と協働し、ハードウェア資源を用いて実行する。
以下で、図2のフローチャートを参照して、生物配列分析進化予測処理の詳細をステップ毎に説明する。
次に、図2を参照して、本発明の実施の形態に係る生物配列分析装置1による生物配列分析進化予測処理の説明を行う。
本実施形態の生物配列分析進化予測処理は、まず、複数の配列を、当該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する。また、マトリクスを主成分分析する。また、複数の配列の得点を示す主成分により周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測する。
本実施形態の生物配列分析進化予測処理は、主に制御部10が、記憶部11に記憶されたプログラムを、各部と協働し、ハードウェア資源を用いて実行する。
以下で、図2のフローチャートを参照して、生物配列分析進化予測処理の詳細をステップ毎に説明する。
(ステップS101)
まず、配列数値化部100が、配列数値化処理を行う。
配列数値化部100は、配列情報200の複数の配列を用いて、各配列の各要素の種類と位置とを保持して数値化した二次元のマトリクス(行列)を作成する。この各要素は、例えば、塩基又はアミノ酸である。すなわち、配列数値化部100は、塩基配列又はアミノ酸配列を、含まれる各塩基又はアミノ酸の情報を保持したままのマトリクスに変換する。
具体的には、配列数値化部100は、例えば、塩基配列の場合、一つの配列について、配列の全体の長さlの塩基配列の5倍、すなわち、5lの長さのベクトルの領域を確保する。この上で、配列上のA、T、G、Cの各塩基、及びギャップ(−)について、順に、それぞれ、その位置に当該種類の塩基又はギャップ存在する場合は「1」、存在しない場合は「0」とした二値のベクトルに変換し、数値化する。また、配列数値化部100は、各配列についてこのように二値のベクトルに変換したものを、列としてそれぞれ接続し、マトリクスXとして並べる。
更に具体的には、たとえば、「TAGC」及び「GAGC」の2つの配列(サンプル)を含むマトリクスXの例を、下記の式(1)に示す:
まず、配列数値化部100が、配列数値化処理を行う。
配列数値化部100は、配列情報200の複数の配列を用いて、各配列の各要素の種類と位置とを保持して数値化した二次元のマトリクス(行列)を作成する。この各要素は、例えば、塩基又はアミノ酸である。すなわち、配列数値化部100は、塩基配列又はアミノ酸配列を、含まれる各塩基又はアミノ酸の情報を保持したままのマトリクスに変換する。
具体的には、配列数値化部100は、例えば、塩基配列の場合、一つの配列について、配列の全体の長さlの塩基配列の5倍、すなわち、5lの長さのベクトルの領域を確保する。この上で、配列上のA、T、G、Cの各塩基、及びギャップ(−)について、順に、それぞれ、その位置に当該種類の塩基又はギャップ存在する場合は「1」、存在しない場合は「0」とした二値のベクトルに変換し、数値化する。また、配列数値化部100は、各配列についてこのように二値のベクトルに変換したものを、列としてそれぞれ接続し、マトリクスXとして並べる。
更に具体的には、たとえば、「TAGC」及び「GAGC」の2つの配列(サンプル)を含むマトリクスXの例を、下記の式(1)に示す:
すなわち、配列数値化部100は、左から右の桁についての各塩基の位置(ポジション)について、塩基配列の場合、ATGCと「−」なので、「A」、「T」、「G」、「C」の各塩基、又は、ギャップが存在していれば「1」、存在していなければ「0」として配列化する。
マトリクスXは、塩基配列の情報をすべて持ったマトリクスであり、完全に相互に変換可能である。すべての塩基の位置は、A、T、G、C、及びギャップの5つの列で表記されていて、その自由度は列をあわせて1である。またこの列の組は、互いに独立である。このため、実施例1で説明するように、これを本実施形態の主成分分析処理を実行する場合、列の組で考える距離はユークリッド距離になる。
マトリクスXは、塩基配列の情報をすべて持ったマトリクスであり、完全に相互に変換可能である。すべての塩基の位置は、A、T、G、C、及びギャップの5つの列で表記されていて、その自由度は列をあわせて1である。またこの列の組は、互いに独立である。このため、実施例1で説明するように、これを本実施形態の主成分分析処理を実行する場合、列の組で考える距離はユークリッド距離になる。
別の具体例で説明すると、例えば、R言語でこのマトリクスを用意する場合、配列数値化部100は、塩基長が10であれば、まず、各配列について、10*5=50の長さのベクトルを予約する。すなわち、配列数値化部100は、「A……AT……TG……GC……C−……−」という各塩基に対応した位置の予約を行う。配列数値化部100は、このベクトルにについて、該当する配列のそれぞれの位置で、実際に「A」であったところだけに「1」を、それ以外の箇所を「0」に設定する。すなわち、配列数値化部100は、ベクトルを「000010000……0001……」のように設定する。
なお、配列がATGC以外の塩基、通常の20種類以外のアミノ酸を含む場合には、それに対応する列を加えてもよい。
また、配列数値化部100は、アミノ酸配列の場合、アミノ酸は合計20種類あるので、それとギャップ「−」を加えて21種類の位置について、同様に「1」「0」で表現する。
なお、配列がATGC以外の塩基、通常の20種類以外のアミノ酸を含む場合には、それに対応する列を加えてもよい。
また、配列数値化部100は、アミノ酸配列の場合、アミノ酸は合計20種類あるので、それとギャップ「−」を加えて21種類の位置について、同様に「1」「0」で表現する。
配列数値化部100は、これら各配列に対応したベクトルを、配列の数だけ順に重ねてマトリクスXとする。
(ステップS102)
次に、主成分分析部110が、主成分分析(PCA)処理を行う。
主成分分析部110は、PCA処理として、上述のマトリクスXを回転させる。
主成分分析部110は、この際、データ同士の差を効率よく抽出するために、回転の中心を平均配列におくことが好適である。
次に、主成分分析部110が、主成分分析(PCA)処理を行う。
主成分分析部110は、PCA処理として、上述のマトリクスXを回転させる。
主成分分析部110は、この際、データ同士の差を効率よく抽出するために、回転の中心を平均配列におくことが好適である。
主成分分析部110は、例えば、中心として、上述の平均配列を、各カラムの平均のベクトルとして得る。すなわち、平均配列はマトリクスの行の平均として見いだされる。
α=(0.0 1.0.0 0.0 0.0 0.5 0.0 0.0 0.0 0.5 0.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0) …… 式(2)
また、主成分分析部110は、マトリクスXを任意の列で、c=x−αのように中心化したものを、マトリクスCとして算出する。マトリクスCは、各位置及び塩基において、平均配列からの各サンプルの差異を示す。
なお、本実施形態においては、主成分分析部110は、Cの各行をスケールしなくてもよい。これは、配列の変化には、おそらく進化的にみて異なるウェイトがあるためである。すなわち、ある位置の塩基はホットスポットで、ある位置の塩基はコンサーバティヴであるためである。このため、主成分分析部110は、ウェイト中の塩基が異なってもよいので、各位置中の平均ウェイトは、スケールしなくてもよい。また、コドンの最初と三番目は、アミノ酸の変異につながったり、そうでなかったりするためである。すなわち、例えば、コドンの冗長性等の理由により、コドンの3つめの塩基は、最初の塩基よりウェイトが軽くなるためである。
また、何か別の中心を定める場合には、任意に中心設定することが可能である。この中心からの距離が大きい配列ほど、大きなモーメントが得られる。
α=(0.0 1.0.0 0.0 0.0 0.5 0.0 0.0 0.0 0.5 0.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0) …… 式(2)
また、主成分分析部110は、マトリクスXを任意の列で、c=x−αのように中心化したものを、マトリクスCとして算出する。マトリクスCは、各位置及び塩基において、平均配列からの各サンプルの差異を示す。
なお、本実施形態においては、主成分分析部110は、Cの各行をスケールしなくてもよい。これは、配列の変化には、おそらく進化的にみて異なるウェイトがあるためである。すなわち、ある位置の塩基はホットスポットで、ある位置の塩基はコンサーバティヴであるためである。このため、主成分分析部110は、ウェイト中の塩基が異なってもよいので、各位置中の平均ウェイトは、スケールしなくてもよい。また、コドンの最初と三番目は、アミノ酸の変異につながったり、そうでなかったりするためである。すなわち、例えば、コドンの冗長性等の理由により、コドンの3つめの塩基は、最初の塩基よりウェイトが軽くなるためである。
また、何か別の中心を定める場合には、任意に中心設定することが可能である。この中心からの距離が大きい配列ほど、大きなモーメントが得られる。
主成分分析部110は、中心として設定された塩基配列マトリクスC又はCαを、C=UΣV*として特異値分解する。これにより、2つのユニタリー行列U及びVが取得される。また、長方形の対角行列Σは、特異値を示す。
主成分分析部110は、算出された主成分(PC)について、PCs=UΣ=CVを、各配列(サンプル)の得点を推測する主成分(以下、「サンプルの主成分」という。)として取得する。また、主成分分析部110は、主成分PCn=VΣ=CUを、配列の各塩基又はアミノ酸用の寄与を推測する主成分(以下、「塩基の主成分」又は「アミノ酸の主成分」という。)として取得する。なお、それらの推定は、各要素の関係性を変更せず、Cを回転させたものであるという特徴がある。
その後、主成分分析部110は、PCsについては、sPCs=PCs/sqr(L)としてスケール変換する。ここで、sqr()は、平方根を示す。また、Lは、ひとつのサンプルがもつ塩基又はアミノ酸配列の長さである。ここで、sqr(L)で除するのは、配列長が異なる解析間でも、値の大きさが比較できるようにするためのスケール調整である。
また、主成分分析部110は、塩基の主成分であるPCnについては、sPCn=PCn/sqr(m)として、スケール変換する。ここで、mは、特異値分解でユニタリー行列を求める際に使用したサンプル数である。
主成分分析部110は、算出された主成分(PC)について、PCs=UΣ=CVを、各配列(サンプル)の得点を推測する主成分(以下、「サンプルの主成分」という。)として取得する。また、主成分分析部110は、主成分PCn=VΣ=CUを、配列の各塩基又はアミノ酸用の寄与を推測する主成分(以下、「塩基の主成分」又は「アミノ酸の主成分」という。)として取得する。なお、それらの推定は、各要素の関係性を変更せず、Cを回転させたものであるという特徴がある。
その後、主成分分析部110は、PCsについては、sPCs=PCs/sqr(L)としてスケール変換する。ここで、sqr()は、平方根を示す。また、Lは、ひとつのサンプルがもつ塩基又はアミノ酸配列の長さである。ここで、sqr(L)で除するのは、配列長が異なる解析間でも、値の大きさが比較できるようにするためのスケール調整である。
また、主成分分析部110は、塩基の主成分であるPCnについては、sPCn=PCn/sqr(m)として、スケール変換する。ここで、mは、特異値分解でユニタリー行列を求める際に使用したサンプル数である。
従来のPCA分析では、サンプル間の距離を示す、置き換え率pか進化距離dからなる距離行列を用いていた。この行列は、配列のどの部分のどんな塩基又はアミノ酸が、その距離に関わっているかの情報を持たない。このため、この行列は、サンプル数×サンプル数の正方行列になる。
これに対して、本実施形態では、処理する行列がすべての情報を保持していて、サンプル数×(塩基又はアミノ酸長)の大きさであり、しかも距離ではなく定性的な情報である。このように、情報が失われていないため、より詳細な知見を得ることができる。
これに対して、本実施形態では、処理する行列がすべての情報を保持していて、サンプル数×(塩基又はアミノ酸長)の大きさであり、しかも距離ではなく定性的な情報である。このように、情報が失われていないため、より詳細な知見を得ることができる。
(ステップS103)
次に、主成分分析部110が、配列進化予測処理を行う。
主成分分析部110は、上述の主成分分析処理において算出されたサンプルの主成分sPCsについて、各配列の固有ベクトルをグラフ上に描画する。また、主成分分析部110は、サンプルが得られた時期と、それらサンプルの得点とを比較して、得点が、どの時期にまとまって(同調的に)変化しているか、又は周期的に変化しているか否かを判断する。まとまって変化した得点は、強い蓋然性をもって、ある組み合わせの塩基又はアミノ酸が、一定の方向へと変化していたことを示唆する。周期性が認められた場合も同様である。それらアミノ酸又は塩基は、同じ順位の主成分sPCnの内、絶対値の大きな値を取得することで容易に判別可能である。主成分分析部110は、その主成分の塩基又はアミノ酸が同調的に変化していると判断された場合、そのタイミングで変化する塩基又はアミノ酸を算出する。主成分分析部110は、この塩基又はアミノ酸をグラフや3Dモデル等で図示して、表示部12に表示してもよい。なお、上述の周期性の判断は、各種統計検定を用いて判断してもよく、又は、主成分の寄与率が高い順のグラフを描画して、目視でユーザーに判断させてもよい。
以上により、本発明の実施の形態に係る生物配列分析進化予測処理を終了する。
次に、主成分分析部110が、配列進化予測処理を行う。
主成分分析部110は、上述の主成分分析処理において算出されたサンプルの主成分sPCsについて、各配列の固有ベクトルをグラフ上に描画する。また、主成分分析部110は、サンプルが得られた時期と、それらサンプルの得点とを比較して、得点が、どの時期にまとまって(同調的に)変化しているか、又は周期的に変化しているか否かを判断する。まとまって変化した得点は、強い蓋然性をもって、ある組み合わせの塩基又はアミノ酸が、一定の方向へと変化していたことを示唆する。周期性が認められた場合も同様である。それらアミノ酸又は塩基は、同じ順位の主成分sPCnの内、絶対値の大きな値を取得することで容易に判別可能である。主成分分析部110は、その主成分の塩基又はアミノ酸が同調的に変化していると判断された場合、そのタイミングで変化する塩基又はアミノ酸を算出する。主成分分析部110は、この塩基又はアミノ酸をグラフや3Dモデル等で図示して、表示部12に表示してもよい。なお、上述の周期性の判断は、各種統計検定を用いて判断してもよく、又は、主成分の寄与率が高い順のグラフを描画して、目視でユーザーに判断させてもよい。
以上により、本発明の実施の形態に係る生物配列分析進化予測処理を終了する。
以上のように構成することで、以下のような効果を得ることができる。
従来、系統学で行うような生物の分類では、生物由来の配列としてDNAの塩基配列やアミノ酸の配列の総当たり距離である「距離行列」を用いた分析が広く行われてきた。しかしながら、距離行列は配列自身に含まれる情報が削除されているため、単純な分析では、配列に含まれる「方向性」を十分解析できなかった。
これに対して、本発明の実施の形態に係る生物配列分析方法は、生物由来の配列を分析する生物配列分析方法であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、マトリクスを主成分分析することを特徴とする。
また、本発明の実施の形態に係る生物配列分析装置1は、生物由来の配列を分析する生物配列分析装置であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部100と、配列数値化部100により作成されたマトリクスを主成分分析する主成分分析部110とを備えることを特徴とする。
このように構成することで、配列の方向性を用いて従来よりも精度高く分類することが可能となる。
従来、系統学で行うような生物の分類では、生物由来の配列としてDNAの塩基配列やアミノ酸の配列の総当たり距離である「距離行列」を用いた分析が広く行われてきた。しかしながら、距離行列は配列自身に含まれる情報が削除されているため、単純な分析では、配列に含まれる「方向性」を十分解析できなかった。
これに対して、本発明の実施の形態に係る生物配列分析方法は、生物由来の配列を分析する生物配列分析方法であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、マトリクスを主成分分析することを特徴とする。
また、本発明の実施の形態に係る生物配列分析装置1は、生物由来の配列を分析する生物配列分析装置であって、複数の配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部100と、配列数値化部100により作成されたマトリクスを主成分分析する主成分分析部110とを備えることを特徴とする。
このように構成することで、配列の方向性を用いて従来よりも精度高く分類することが可能となる。
ここで、塩基配列又はアミノ酸配列のマトリクスは、各塩基又はアミノ酸の位置についての独立した次元を持っている多変数のデータと認めることができる。つまり、塩基又は又はアミノ酸は変数である。この意味で、サンプル関連性の評価は本質的に多変量解析の問題として扱うことが考えられる。したがって、塩基又はアミノ酸とサンプルの情報とは一体として扱われるべきであり、塩基又はアミノ酸の変化は方向を持つと考えられる。しかし、これは、配列間の相同性の距離の観察によっては、見いだすことができなかった。
これに対して、本発明の実施の形態に係る生物配列分析方法は、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
このように構成し、塩基配列又はアミノ酸配列マトリクスの分析を行うと、サンプルと塩基の間のコネクションの一致を表示することが可能である。すなわち、PCAは、マトリクスを回転させることによって、対角線の軸のセットによってマトリクスの方向を調節する。これにより、サンプル用と塩基用の評価用の軸を一度に示すことが可能となる。結果として、補足的に、どの塩基かモチーフがサンプルのどの又はどのようなグループに特有であるかを知ることができる。
また、主成分の軸は回転したマトリクスから投影された差異を示し、他の方向を無視する。したがって、少数の軸のセットにおいてマトリクスの特性を要約することができる。これにより、本実施形態の生物配列分析方法は、塩基又はアミノ酸へのサンプルの関連を観察するための実践的なツールとして提供することができる。さらに、本実施形態の生物配列分析方法を系統学的な目的に適用することで、サンプルの分類方法を改善することができる。
これに対して、本発明の実施の形態に係る生物配列分析方法は、配列は、塩基配列又はアミノ酸配列であり、複数の配列の変化を示す主成分と、変化が配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行うことを特徴とする。
このように構成し、塩基配列又はアミノ酸配列マトリクスの分析を行うと、サンプルと塩基の間のコネクションの一致を表示することが可能である。すなわち、PCAは、マトリクスを回転させることによって、対角線の軸のセットによってマトリクスの方向を調節する。これにより、サンプル用と塩基用の評価用の軸を一度に示すことが可能となる。結果として、補足的に、どの塩基かモチーフがサンプルのどの又はどのようなグループに特有であるかを知ることができる。
また、主成分の軸は回転したマトリクスから投影された差異を示し、他の方向を無視する。したがって、少数の軸のセットにおいてマトリクスの特性を要約することができる。これにより、本実施形態の生物配列分析方法は、塩基又はアミノ酸へのサンプルの関連を観察するための実践的なツールとして提供することができる。さらに、本実施形態の生物配列分析方法を系統学的な目的に適用することで、サンプルの分類方法を改善することができる。
また、インフルエンザやHIV等のウイルスは、ゲノムの変異速度が速く、これが宿主の免疫記憶を免れる主因になっている。このため、ウイルスのワクチンを製造することが重要であるものの、上述のようにゲノムが変化するため、これに対応したものを製造しないと、効果的なワクチンとならなかった。たとえば、インフルエンザウイルスの流行予測は、専門家による総合的な判断で行われ、ワクチンは過去のウイルス株によって作成されるものの、的中率は低く、効果が高くないという評価もあった。インフルエンザウイルスは、過去と全く同じ型が出現することは考えにくいためである。また、HIVは、変化しにくいアミノ酸配列に対応するワクチンの作成が試みられているものの、効果的なものは得られていなかった。
このため、ウイルスの塩基配列が、どのように変異していくのかを適切に予測することが求められていた。ところが、塩基配列やアミノ酸配列は定性的なデータであるために、従来は、定量的な数値解析の応用が遅れがちであった。
このため、ウイルスの塩基配列が、どのように変異していくのかを適切に予測することが求められていた。ところが、塩基配列やアミノ酸配列は定性的なデータであるために、従来は、定量的な数値解析の応用が遅れがちであった。
これに対して、本発明の実施の形態に係る進化予測方法は、上述の生物配列分析方法により、複数の配列の変化を示す主成分により、同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、配列の進化を予測することを特徴とする。
このように構成し、塩基配列又はアミノ酸配列の塩基又はアミノ酸の配列上の情報を保ったまま直接主成分分析で解析することで、サンプルと配列の主成分を得ると、配列の主成分はいくつかの独立した変化を呈す。これらはそれぞれが異なる周期で振動するため、それぞれの振動を外挿し、結果を合算することで進化を予測できる。また、その振動の際に変化がなかった又は少ない箇所の塩基又はアミノ酸については、配列の構造上保存される可能性が高いため、創薬のターゲット等として用いることが可能である。
また、本実施形態の進化予測方法により、下記の実施例2で示したようにインフルエンザウイルスの塩基の変化を解析すると、従来の型のアミノ酸を混ぜ合わせた新しい型が出現することを予測可能になる。すなわち、従来の配列全体の距離ではなく、定性的なデータ自体を解析することで、インフルエンザウイルスの進化への予測が可能となる。
このようにして予測された塩基配列やアミノ酸配列から抗原を迅速に合成することで、より効果的なワクチンを製造することが可能である。
このように構成し、塩基配列又はアミノ酸配列の塩基又はアミノ酸の配列上の情報を保ったまま直接主成分分析で解析することで、サンプルと配列の主成分を得ると、配列の主成分はいくつかの独立した変化を呈す。これらはそれぞれが異なる周期で振動するため、それぞれの振動を外挿し、結果を合算することで進化を予測できる。また、その振動の際に変化がなかった又は少ない箇所の塩基又はアミノ酸については、配列の構造上保存される可能性が高いため、創薬のターゲット等として用いることが可能である。
また、本実施形態の進化予測方法により、下記の実施例2で示したようにインフルエンザウイルスの塩基の変化を解析すると、従来の型のアミノ酸を混ぜ合わせた新しい型が出現することを予測可能になる。すなわち、従来の配列全体の距離ではなく、定性的なデータ自体を解析することで、インフルエンザウイルスの進化への予測が可能となる。
このようにして予測された塩基配列やアミノ酸配列から抗原を迅速に合成することで、より効果的なワクチンを製造することが可能である。
また、リバースジェネティクスを使ってゲノムの変位を予測する手法も考えられる。この手法により、まったく新しい感染可能なウイルスを作成可能であるが、その株が本当に出現するのか、出現するとしていつになるのかは原理的にわからない。
また、リバースジェネティクスでは、培養細胞で増殖しにくい株は得ることができず、この段階で選択圧が生じていた。すなわち、毒性の強いウイルスについて無毒株が得られないのは、むしろありふれた現象であるためである。このため、進化を予測できるような偏りのないライブラリーは作成困難であった。
これに対して、本発明の実施の形態に係る進化予測方法は、過去のデータから、今後どのように変異していくのかを予測することで、より出現すると考えられるウイルスの抗原を作成できる。また、いつ頃にその抗原をもつウイルスが出現するのか予測することも可能となる。
また、リバースジェネティクスでは、培養細胞で増殖しにくい株は得ることができず、この段階で選択圧が生じていた。すなわち、毒性の強いウイルスについて無毒株が得られないのは、むしろありふれた現象であるためである。このため、進化を予測できるような偏りのないライブラリーは作成困難であった。
これに対して、本発明の実施の形態に係る進化予測方法は、過去のデータから、今後どのように変異していくのかを予測することで、より出現すると考えられるウイルスの抗原を作成できる。また、いつ頃にその抗原をもつウイルスが出現するのか予測することも可能となる。
次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。
〔方法〕
(塩基配列)
自然保護区でのみ飼育されている92頭のアジアライオンのMHC1の情報が、公開データベース(Sachdev等、2005年)から取得された。
ヒトの対応する部位の配列サンプルが、塩基配列の相同性によって検索され見つかった場合に取得された。
ヒトのデータベースは、ヒト種であることに起因したバイアスを持つため、登録者の重複を回避し、217サンプル中の92個を選択した。また、サンプルのうちの1つ、M31183のアクセッションIDは他のものと非常に異なったため、これは余分な外れ値として使用された。
下水処理場のバクテリア16SリボソームDNAの塩基配列は、本発明者らの大学の学生トレーニング・コース中に取得された。これらの環境上のDNAは、リンカイ汚水処理プラント秋田で取得された活性汚泥から分離され、PCR(ポリメラーゼ連鎖反応)によって増幅され、大腸菌ベクターにクローニングされた。単一コロニーの塩基配列は秋田県立大学のバイオテクノロジー・センターで決定された。
塩基配列のグループは、それぞれ、当業者に知られたClustalWプログラム(ラーキン等、2007年)により整列された。
(塩基配列)
自然保護区でのみ飼育されている92頭のアジアライオンのMHC1の情報が、公開データベース(Sachdev等、2005年)から取得された。
ヒトの対応する部位の配列サンプルが、塩基配列の相同性によって検索され見つかった場合に取得された。
ヒトのデータベースは、ヒト種であることに起因したバイアスを持つため、登録者の重複を回避し、217サンプル中の92個を選択した。また、サンプルのうちの1つ、M31183のアクセッションIDは他のものと非常に異なったため、これは余分な外れ値として使用された。
下水処理場のバクテリア16SリボソームDNAの塩基配列は、本発明者らの大学の学生トレーニング・コース中に取得された。これらの環境上のDNAは、リンカイ汚水処理プラント秋田で取得された活性汚泥から分離され、PCR(ポリメラーゼ連鎖反応)によって増幅され、大腸菌ベクターにクローニングされた。単一コロニーの塩基配列は秋田県立大学のバイオテクノロジー・センターで決定された。
塩基配列のグループは、それぞれ、当業者に知られたClustalWプログラム(ラーキン等、2007年)により整列された。
(距離)
各塩基の独立性を考慮し、要素の距離は、直角に交差されるように扱われた。したがって、配列中の距離は、距離e1,2=sqr((Σ(x1−x2)2)/2L)の平均ユークリッド長さで推定された。
この平均ユークリッド長さの距離においては、x1とx2はベクトルx1及びベクトルx2の任意の組み合わせの要素で、Lは、塩基の長さである。
ベクトルxは、常に二値のベクトルであるので、この距離eは、通常の塩基の置き換え率p=Σ|x1−x2|/2Lの平方根と推定可能である。
各塩基の独立性を考慮し、要素の距離は、直角に交差されるように扱われた。したがって、配列中の距離は、距離e1,2=sqr((Σ(x1−x2)2)/2L)の平均ユークリッド長さで推定された。
この平均ユークリッド長さの距離においては、x1とx2はベクトルx1及びベクトルx2の任意の組み合わせの要素で、Lは、塩基の長さである。
ベクトルxは、常に二値のベクトルであるので、この距離eは、通常の塩基の置き換え率p=Σ|x1−x2|/2Lの平方根と推定可能である。
(マルコフ連鎖モデルによる調整)
オプションとして、マトリクスCは、同様の割合で、又はマルコフ連鎖モデル(JC69)によるバック・サブスティチューションで置き換えて、調節することが可能である。それにより、どの塩基及びどの位置でも同じ変異の頻度で推定することができる。
cのスケールは、進化距離を推定するために、平均配列pからの各サンプルの距離を用いて調節された。その対応する進化距離d=−3/4 ln(1−4/3×置き換え率p)として算出された。その後、マトリクスCの列は、それぞれca=c×進化距離d/置き換え率pとして調節された。
オプションとして、マトリクスCは、同様の割合で、又はマルコフ連鎖モデル(JC69)によるバック・サブスティチューションで置き換えて、調節することが可能である。それにより、どの塩基及びどの位置でも同じ変異の頻度で推定することができる。
cのスケールは、進化距離を推定するために、平均配列pからの各サンプルの距離を用いて調節された。その対応する進化距離d=−3/4 ln(1−4/3×置き換え率p)として算出された。その後、マトリクスCの列は、それぞれca=c×進化距離d/置き換え率pとして調節された。
(PCA処理)
上述の実施の形態に記載したのと同様に、各サンプルの塩基配列の数値化を行い、マトリクスXを作成した。これを、R言語のsvd()により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。
上述の実施の形態に記載したのと同様に、各サンプルの塩基配列の数値化を行い、マトリクスXを作成した。これを、R言語のsvd()により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。
(隣接結合法)
ライオンの距離行列は、マルチプルアラインメント上の通常の進化距離dのマトリクス上で推測され、置き換え率は、K80モデルにより調整された。
人間のサンプルについては、Eは方法の比較のために使用された。
距離行列はapeパッケージの隣接結合機能によって処理された。
ライオンの距離行列は、マルチプルアラインメント上の通常の進化距離dのマトリクス上で推測され、置き換え率は、K80モデルにより調整された。
人間のサンプルについては、Eは方法の比較のために使用された。
距離行列はapeパッケージの隣接結合機能によって処理された。
〔結果と議論〕
(データの表現)
図3A〜図4Bを参照して、実施例1の絶滅危惧種のアジアライオン(ライオン)及び対応する部位のヒトのサンプルの主要組織適合性タンパク質(MHC)の塩基配列を分析した結果について説明する。
図3Aは、ライオンについて、本実施例のPCA処理を行った主成分1軸(PC1)と主成分2軸(PC2)をスケーリングしたsPCs1及びsPCs2の散布図である。図3Aによれば、少なくとも3つの別個のグループがライオンのサンプル中にあることは明白だった。また、グループの分離は、各主成分軸への寄与に影響した。ここで、より寄与率の低い主成分軸では、これらのグループを分離するさらなる他の基準があるに違いないと期待することができる。
図3Bは、ライオンのsPCn1及びsPCn2として示す各塩基の固有ベクトルを示すグラフである。ライオンの3つのグループの分離は、塩基のPCであるPCnにおいて明白である。このグラフでは、各主成分について、特定の位置に特定の塩基があったことを示し、それがどの程度PC中のサンプルのスコアに寄与するかを示す。また、ライオンの3つのグループ中の差異は人間のサンプル中の変化と同じくらい大きいが、グループ内の差異は非常に小さかった。つまり、これらライオンの塩基は、明確に変異が少なかった。これは、ある塩基、モチーフが、特定のライオンのグループに特異的なことを示す。つまり、ライオンにおける変化がより少数のパターンであることを示唆していた。また、多くの塩基が互いと関連していた。また、グループ内では、サンプル中の差異は全く制限されており、それらは、絶滅に近づいた際に形成されたボトルネックであることを示す。
(データの表現)
図3A〜図4Bを参照して、実施例1の絶滅危惧種のアジアライオン(ライオン)及び対応する部位のヒトのサンプルの主要組織適合性タンパク質(MHC)の塩基配列を分析した結果について説明する。
図3Aは、ライオンについて、本実施例のPCA処理を行った主成分1軸(PC1)と主成分2軸(PC2)をスケーリングしたsPCs1及びsPCs2の散布図である。図3Aによれば、少なくとも3つの別個のグループがライオンのサンプル中にあることは明白だった。また、グループの分離は、各主成分軸への寄与に影響した。ここで、より寄与率の低い主成分軸では、これらのグループを分離するさらなる他の基準があるに違いないと期待することができる。
図3Bは、ライオンのsPCn1及びsPCn2として示す各塩基の固有ベクトルを示すグラフである。ライオンの3つのグループの分離は、塩基のPCであるPCnにおいて明白である。このグラフでは、各主成分について、特定の位置に特定の塩基があったことを示し、それがどの程度PC中のサンプルのスコアに寄与するかを示す。また、ライオンの3つのグループ中の差異は人間のサンプル中の変化と同じくらい大きいが、グループ内の差異は非常に小さかった。つまり、これらライオンの塩基は、明確に変異が少なかった。これは、ある塩基、モチーフが、特定のライオンのグループに特異的なことを示す。つまり、ライオンにおける変化がより少数のパターンであることを示唆していた。また、多くの塩基が互いと関連していた。また、グループ内では、サンプル中の差異は全く制限されており、それらは、絶滅に近づいた際に形成されたボトルネックであることを示す。
図3Cは、ヒトのPCA処理を行ったsPCs1とsPCs2の散布図である。ヒトのサンプルは――ライオンの小集団があきらかに3つに分断されたのとは対照的に――より広く分散した。ライオンの3つのグループの差はヒトの散らばりと比較して大変大きなものであり、又は、異なる種であると考えて良い大きさであると思われる。しかし、ライオンのそれぞれのグループ内のばらつきは、ヒトのばらつきと比べると、ずっと小さかった。
図3Dは、ヒトについての各軸の各塩基のsPCnを示すグラフである。ヒトのサンプルにおいては任意の位置の任意の塩基は、様々な値を示した。これは、ヒトでは、特定な塩基だけがあるグループを特徴付けないことを示している。
図3Dは、ヒトについての各軸の各塩基のsPCnを示すグラフである。ヒトのサンプルにおいては任意の位置の任意の塩基は、様々な値を示した。これは、ヒトでは、特定な塩基だけがあるグループを特徴付けないことを示している。
(サンプルの解像度)
次に、各サンプルの解像度について説明する。塩基配列マトリクスへのアプローチはよりよい解像度を示した。
図4Aは、比較例であり、従来の距離行列でライオンのPCA処理を行ってスケーリングしたsPCs1及びsPCs2の散布図である。以下、図3Aに比べると、より少ない次元数の行列を用いるために複数の次元を圧縮してみることになるので、グループのセパレーションが悪い。従来の距離行列によるPCAでは、分析されたマトリクスは、距離の情報を所有するが、塩基の位置及び種類の情報を欠くためである。
図4Bも、同様の比較例であり、従来の距離行列でヒトのPCA処理を行ったsPCs1とsPCs2の散布図である。図3Cと同様にばらついているものの、寄与率は低くなる(図示せず)。
図4A及び図4Bによると、より少数の軸に、データにおける変化をまとめているものと考えられる。しかしながら、これは、データをまとめることが、本来は見分けられていたはずの違いを混合していることを意味する。そのため、サンプルの解像度は悪くなる。
すなわち、PCAは一定方向からマトリクスを観察する方法である。従来の距離行列によるPCA処理は、この行列をつくる時点で情報が失われるため、本来のデータの備える方向の多くが無視されると考えられる。ここで、距離行列を観察する主な目的は最初の2つの軸の内のほとんどの差異を要約することである。
これに対して、上述の図3A〜図3Dに示したように、本実施例の方式を用いることで、実際に、サンプルのPCは、それぞれの順位でよりよくサンプルを分けることができた。すなわち、本実施例の方式は、より少ない軸でデータを要約するのではなく、従来法よりもむしろ多くの軸を用いて、よりデータを精密に分類する能力を有している。
次に、各サンプルの解像度について説明する。塩基配列マトリクスへのアプローチはよりよい解像度を示した。
図4Aは、比較例であり、従来の距離行列でライオンのPCA処理を行ってスケーリングしたsPCs1及びsPCs2の散布図である。以下、図3Aに比べると、より少ない次元数の行列を用いるために複数の次元を圧縮してみることになるので、グループのセパレーションが悪い。従来の距離行列によるPCAでは、分析されたマトリクスは、距離の情報を所有するが、塩基の位置及び種類の情報を欠くためである。
図4Bも、同様の比較例であり、従来の距離行列でヒトのPCA処理を行ったsPCs1とsPCs2の散布図である。図3Cと同様にばらついているものの、寄与率は低くなる(図示せず)。
図4A及び図4Bによると、より少数の軸に、データにおける変化をまとめているものと考えられる。しかしながら、これは、データをまとめることが、本来は見分けられていたはずの違いを混合していることを意味する。そのため、サンプルの解像度は悪くなる。
すなわち、PCAは一定方向からマトリクスを観察する方法である。従来の距離行列によるPCA処理は、この行列をつくる時点で情報が失われるため、本来のデータの備える方向の多くが無視されると考えられる。ここで、距離行列を観察する主な目的は最初の2つの軸の内のほとんどの差異を要約することである。
これに対して、上述の図3A〜図3Dに示したように、本実施例の方式を用いることで、実際に、サンプルのPCは、それぞれの順位でよりよくサンプルを分けることができた。すなわち、本実施例の方式は、より少ない軸でデータを要約するのではなく、従来法よりもむしろ多くの軸を用いて、よりデータを精密に分類する能力を有している。
(外れ値に対する応答)
次に、図5A及び図5Bにより、外れ値に対する応答について説明する。
図5Aは、外れ値を含むヒトのサンプルを用いて本実施形態のPCA処理を行った例についてのsPCs1とsPCs6による散布図である。
実際のところ、塩基・マトリクスのPCAでは、sPCs1及びsPCs2の両方にはサンプルが外れ値として現われない。これは、方向の情報により、本実施形態のPCA処理は、ロバストになるためであった。このため、PCの全体形状は、図3Bに示すところのサンプルなしで計算されたものと、ほとんど同一だった。また、塩基の位置を用いることで、サンプル中に特定の方向を与えた。しかし、大きさは主な要素ではなかった。ある特定の塩基又はアミノ酸にある外れ値は、ある特定の順位である軸にしか影響しないためである。しかし、本実施例の手法のロバストな特徴は、こうした変異を無視しなかった。この場合であればPC6がそれを記録するためであった。つまり、図5Aに示すように、外れ値はsPCs6に現われた。また、塩基の寄与が塩基用のsPCn6に現われた。
次に、図5A及び図5Bにより、外れ値に対する応答について説明する。
図5Aは、外れ値を含むヒトのサンプルを用いて本実施形態のPCA処理を行った例についてのsPCs1とsPCs6による散布図である。
実際のところ、塩基・マトリクスのPCAでは、sPCs1及びsPCs2の両方にはサンプルが外れ値として現われない。これは、方向の情報により、本実施形態のPCA処理は、ロバストになるためであった。このため、PCの全体形状は、図3Bに示すところのサンプルなしで計算されたものと、ほとんど同一だった。また、塩基の位置を用いることで、サンプル中に特定の方向を与えた。しかし、大きさは主な要素ではなかった。ある特定の塩基又はアミノ酸にある外れ値は、ある特定の順位である軸にしか影響しないためである。しかし、本実施例の手法のロバストな特徴は、こうした変異を無視しなかった。この場合であればPC6がそれを記録するためであった。つまり、図5Aに示すように、外れ値はsPCs6に現われた。また、塩基の寄与が塩基用のsPCn6に現われた。
一方、図5Bは、比較例として従来の距離行列により、同様のサンプルによるPCA処理を行ったsPCs1とsPCs2の散布図である。
このように、従来の距離行列によるPCA処理は、外れ値に敏感である。ヒトのサンプル(M31183)は、サンプル中にユニークないくつかのモチーフを含んでいる。これらの塩基のために、サンプルは、他のサンプルに対して距離が大きくなっていた。図5Bによると、PC1とPC2の軸がこの外れ値によって主として決定されたので、このサンプルが他のサンプルに示された関係性を変更させて歪んでいるのが分かる。
なお、分類目的のために、既知のレファレンスから作られるトレーニング・データセットを用いることで、ノイズレベルを下げて、解像度を更に改善することが期待できる。もちろん、これは、サンプル中の可能性のある重大な差異を無視することになる可能性があるアプローチである。
このように、従来の距離行列によるPCA処理は、外れ値に敏感である。ヒトのサンプル(M31183)は、サンプル中にユニークないくつかのモチーフを含んでいる。これらの塩基のために、サンプルは、他のサンプルに対して距離が大きくなっていた。図5Bによると、PC1とPC2の軸がこの外れ値によって主として決定されたので、このサンプルが他のサンプルに示された関係性を変更させて歪んでいるのが分かる。
なお、分類目的のために、既知のレファレンスから作られるトレーニング・データセットを用いることで、ノイズレベルを下げて、解像度を更に改善することが期待できる。もちろん、これは、サンプル中の可能性のある重大な差異を無視することになる可能性があるアプローチである。
(隣接結合法)
次に、本実施例のPCA処理による分類と、NJ法とを比較した。
図6Aは、本実施例の下水処理場の汚泥のリボソームRNAについて、本実施例のPCA処理を行ったsPCs1とsPCs2の散布図である。図6Bは、このデータのsPCn1とsPCn2の固有ベクトルのグラフである。このように、塩基用のPCを、より低いPCの方に観察することによって、どの塩基がサンプルを分離するかを識別すること、又は、塩基の変化によって惹起された生物学的機能の変化を考慮して分離することが可能となる。これは系統樹を作る際に必須のステップである。本実施例の塩基のマトリクスXを用いたPCA処理により、このプロセス用のツールを提供することが可能となる。
また、図6Cは、従来のNJ法による樹形図である。サンプル間の関係性を変更しないPCAと対比すると、NJ法のようなクラスタリング手法は、すべてのサンプル又は塩基を接続するための枝分れ鎖を作る。サンプルの関連性はチェーンの長さの合計で示される。また、図6Cのように、サンプルが束縛されるので、特にサンプル数が大きくなると、関連性の全体像を理解するのが難しくなりえるため、分離が上手くいかないことが分かる。
次に、本実施例のPCA処理による分類と、NJ法とを比較した。
図6Aは、本実施例の下水処理場の汚泥のリボソームRNAについて、本実施例のPCA処理を行ったsPCs1とsPCs2の散布図である。図6Bは、このデータのsPCn1とsPCn2の固有ベクトルのグラフである。このように、塩基用のPCを、より低いPCの方に観察することによって、どの塩基がサンプルを分離するかを識別すること、又は、塩基の変化によって惹起された生物学的機能の変化を考慮して分離することが可能となる。これは系統樹を作る際に必須のステップである。本実施例の塩基のマトリクスXを用いたPCA処理により、このプロセス用のツールを提供することが可能となる。
また、図6Cは、従来のNJ法による樹形図である。サンプル間の関係性を変更しないPCAと対比すると、NJ法のようなクラスタリング手法は、すべてのサンプル又は塩基を接続するための枝分れ鎖を作る。サンプルの関連性はチェーンの長さの合計で示される。また、図6Cのように、サンプルが束縛されるので、特にサンプル数が大きくなると、関連性の全体像を理解するのが難しくなりえるため、分離が上手くいかないことが分かる。
上述したように、本実施例のPCA処理は、塩基の任意の位置の変異の特定の方向を観察することができる。これは、進化には方向性がありえることを示唆し、これは、歴史的な時代と塩基とを比較する際に明白になる。
(ウイルスの塩基配列)
1977〜2009年のヒトインフルエンザウイルスについて、当該年度でもっとも流行した株のヘマグルチニン(hemagglutinin、以下「HA」という。)遺伝子のアミノ酸配列が公開データベース(Sachdev等、2005年)から取得された。HA遺伝子は、膜上の糖蛋白で、シアル酸等のリガンドと結合することで、標的細胞にとりつく働きをする。また、宿主の免疫がターゲットにする分子の一つでもある。
1977〜2009年のヒトインフルエンザウイルスについて、当該年度でもっとも流行した株のヘマグルチニン(hemagglutinin、以下「HA」という。)遺伝子のアミノ酸配列が公開データベース(Sachdev等、2005年)から取得された。HA遺伝子は、膜上の糖蛋白で、シアル酸等のリガンドと結合することで、標的細胞にとりつく働きをする。また、宿主の免疫がターゲットにする分子の一つでもある。
(PCA処理)
上述の実施の形態に記載したのと同様に、アミノ酸配列の数値化を行い、R言語のsvd()により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。
上述の実施の形態に記載したのと同様に、アミノ酸配列の数値化を行い、R言語のsvd()により、特異値分解を行って、主成分分析を行った。各主成分と、寄与率とが算出された。
〔結果と議論〕
図7〜図11により、本実施例のPCA処理の結果について説明する。
図7は、インフルエンザウイルスのHAタンパクの3D(三次元)モデルである。図7によると、歴史のなかで変異しているアミノ酸は、たとえばHAタンパクの場合、そのタンパク質の表面を覆うように分布している。図7Aの上のモデルはタンパク質をXY方向に投射したもの、下のモデルはXZ方向に投射したもので、右側がウイルスの外側にむいて殻の表面に存在している。黒丸が1977〜2008年の間に変異した残基である。以下、図中において、PC〜の添字の「p」は、正の値であることを示す。
ここで、ウイルスの配列の変化予測を行う場合、ある年から翌年乃至数年間で、どの部位がどう変化するのかを予測する必要がある。
図8は、ある年に、前年とどこが違ったのかを観測した例を絵示すグラフである。すなわち、単に前年と比較しても、その法則性がなかなか見えてこないのが分かる。
図7〜図11により、本実施例のPCA処理の結果について説明する。
図7は、インフルエンザウイルスのHAタンパクの3D(三次元)モデルである。図7によると、歴史のなかで変異しているアミノ酸は、たとえばHAタンパクの場合、そのタンパク質の表面を覆うように分布している。図7Aの上のモデルはタンパク質をXY方向に投射したもの、下のモデルはXZ方向に投射したもので、右側がウイルスの外側にむいて殻の表面に存在している。黒丸が1977〜2008年の間に変異した残基である。以下、図中において、PC〜の添字の「p」は、正の値であることを示す。
ここで、ウイルスの配列の変化予測を行う場合、ある年から翌年乃至数年間で、どの部位がどう変化するのかを予測する必要がある。
図8は、ある年に、前年とどこが違ったのかを観測した例を絵示すグラフである。すなわち、単に前年と比較しても、その法則性がなかなか見えてこないのが分かる。
図9は、本実施例のPCA処理の結果として、(a)は主成分1軸(PC1)、(b)は主成分2軸(PC2)、(c)は主成分3軸(PC3)における、サンプルの変化を示す固有ベクトルのグラフである。たとえば、PC1からPC3に関して、サンプルの主成分はこのように年代とともに変化する。すなわち、この変化しているPCが、その年代に、その方向へと変わっているものと考えられる。また、これらの図からは、変化の周期性が、サインカーブによって容易に近似できることが明らかである。
図10は、本実施例のPCA処理の結果として、(a)はsPCn1、(b)はsPCn2、(c)はsPCn3における、アミノ酸の固有ベクトルを示すグラフである。これらのPCで実際に変化しているアミノ酸残基は、残基の主成分によって分かる。これらは、実際には、下記で示すような、特別な位置にある。
図11A〜図11Fは、それぞれ、sPCn1〜sPCn6について、高い値をとったアミノ酸残基を示す3Dモデルである。これらアミノ酸残基を、黒丸で示している。
図10は、本実施例のPCA処理の結果として、(a)はsPCn1、(b)はsPCn2、(c)はsPCn3における、アミノ酸の固有ベクトルを示すグラフである。これらのPCで実際に変化しているアミノ酸残基は、残基の主成分によって分かる。これらは、実際には、下記で示すような、特別な位置にある。
図11A〜図11Fは、それぞれ、sPCn1〜sPCn6について、高い値をとったアミノ酸残基を示す3Dモデルである。これらアミノ酸残基を、黒丸で示している。
結果として、本実施例の主成分で観察すると、どの残基が変異するのかについての法則性が分かるようになる。
図11Aによると、PC1では右側のかたまりのなかで、やや下方に面した部位がよく変異している。図11Bによれば、PC2では最も外側を向いた部分が変異していることがわかる。これら塩基は一度変化してからまた復帰する傾向をもつ。このため、図9(b)のサンプルのPC2は振動している。図11D〜図11Fの各PCでもアミノ酸残基のどの箇所が変化しているのかが分かる。
図11Aによると、PC1では右側のかたまりのなかで、やや下方に面した部位がよく変異している。図11Bによれば、PC2では最も外側を向いた部分が変異していることがわかる。これら塩基は一度変化してからまた復帰する傾向をもつ。このため、図9(b)のサンプルのPC2は振動している。図11D〜図11Fの各PCでもアミノ酸残基のどの箇所が変化しているのかが分かる。
このように、これら共通性のある塩基又はアミノ酸が似たタイミングで変化することがわかるので、それらがいつ変わったのかを参考にして、翌年に変化する確率を推定することができる。
たとえば、HAタンパク質には複数の種類があり、そのなかで人間にはタイプ1、2、3、5が感染することが知られており、それぞれ立体構造はほぼ共通であるとみなすことができる。H3及びH1は1977年からずっと変化が観測されているので、それらデータから『塩基の位置と変異のしやすさ』を観察し、それを別の種類のHAタンパクへと外挿することが可能と考えられる。
たとえば、HAタンパク質には複数の種類があり、そのなかで人間にはタイプ1、2、3、5が感染することが知られており、それぞれ立体構造はほぼ共通であるとみなすことができる。H3及びH1は1977年からずっと変化が観測されているので、それらデータから『塩基の位置と変異のしやすさ』を観察し、それを別の種類のHAタンパクへと外挿することが可能と考えられる。
(ウイルスの塩基配列)
上述のヒト及びヒト以外のインフルエンザウイルスの様々な株、アヒル(duck)、ブタ(swine)等のHA遺伝子に加えて、1977年のN1H1型インフルエンザウイルスのロシア株を、公開データベース(Sachdev等、2005年)から取得した。
上述のヒト及びヒト以外のインフルエンザウイルスの様々な株、アヒル(duck)、ブタ(swine)等のHA遺伝子に加えて、1977年のN1H1型インフルエンザウイルスのロシア株を、公開データベース(Sachdev等、2005年)から取得した。
(PCA処理)
上述の実施例2と同様に、ロシア株のHA遺伝子を加えてPCA処理を行った。
上述の実施例2と同様に、ロシア株のHA遺伝子を加えてPCA処理を行った。
〔結果と議論〕
図12及び図13により、本実施例の特定の年代の特定株のウイルスを他の多数の株と比較してPCA処理した結果について説明する。このようなPCA処理を行うと、その株に特徴的なPCが発見できる。
図12は、これは1977年だけのロシア型の株と、データベースにあった別の株について解析した結果を示す。すなわち、本実施例では、特定の種類のウイルスとして、N1H1型インフルエンザウイルスのロシア株を他の多数の株と比較した。すると、ロシア株は年々変化するものの、特徴的なsPCsが見つかった。図12で示す例では、sPCs6がその特徴的なPCにあたっていた。なお、本実施例では、図11FとはPCA処理したサンプルが異なるため、結果もまた異なっている。
具体的に、図12は、インフルエンザウイルスの様々な株のHA遺伝子と共に、ロシア株1977年のHA遺伝子のアミノ酸配列を主成分分析した結果のうち、sPCs6の結果を、年代と比べたものを示す。
図12中で、Dで始まるものはduckの株であり、例えば、D38は1938年のN1H1ウイルスを示す。同様に、S30は、1930年のswineの株を示す。これらの他に、H2からH10までのインフルエンザウイルスが、N(ノイラミニダーゼ)の種類とともに記されている。77年のロシア型(77)が特異な値を持つことが明確であった。
図12及び図13により、本実施例の特定の年代の特定株のウイルスを他の多数の株と比較してPCA処理した結果について説明する。このようなPCA処理を行うと、その株に特徴的なPCが発見できる。
図12は、これは1977年だけのロシア型の株と、データベースにあった別の株について解析した結果を示す。すなわち、本実施例では、特定の種類のウイルスとして、N1H1型インフルエンザウイルスのロシア株を他の多数の株と比較した。すると、ロシア株は年々変化するものの、特徴的なsPCsが見つかった。図12で示す例では、sPCs6がその特徴的なPCにあたっていた。なお、本実施例では、図11FとはPCA処理したサンプルが異なるため、結果もまた異なっている。
具体的に、図12は、インフルエンザウイルスの様々な株のHA遺伝子と共に、ロシア株1977年のHA遺伝子のアミノ酸配列を主成分分析した結果のうち、sPCs6の結果を、年代と比べたものを示す。
図12中で、Dで始まるものはduckの株であり、例えば、D38は1938年のN1H1ウイルスを示す。同様に、S30は、1930年のswineの株を示す。これらの他に、H2からH10までのインフルエンザウイルスが、N(ノイラミニダーゼ)の種類とともに記されている。77年のロシア型(77)が特異な値を持つことが明確であった。
図13は、本実施例の各株のHAタンパク質のX線回折像に対応する3Dモデルを示す。白丸は、図12の条件でPCA処理をした際に、sPCn6において、特に、大きな値をとったアミノ酸である。黒丸は、ロシア型のインフルエンザウイルスが1977年から2008年の間に変異したアミノ酸である。
また、この期間に変化がなかった(白丸だけの)アミノ酸の多くは、3Dモデルで閲覧させる際の、HAタンパクがリガンドに結合する部位の近傍であった。この部位は、ヒトに感染するHAタンパクの機能に影響するため、あまり変異しないものと考えられる。
また、変化可能なアミノ酸の殆どは、2008年までに使い尽くされていたものと考えられる。すなわち、ヒトにおいては、これらの変化したアミノ酸に対応する抗体を備えるようになり、流行しなくなったと推測される。このため、現在、流行するインフルエンザは、ロシア型がswine型に置き換えられていると推測される。
また、この期間に変化がなかった(白丸だけの)アミノ酸の多くは、3Dモデルで閲覧させる際の、HAタンパクがリガンドに結合する部位の近傍であった。この部位は、ヒトに感染するHAタンパクの機能に影響するため、あまり変異しないものと考えられる。
また、変化可能なアミノ酸の殆どは、2008年までに使い尽くされていたものと考えられる。すなわち、ヒトにおいては、これらの変化したアミノ酸に対応する抗体を備えるようになり、流行しなくなったと推測される。このため、現在、流行するインフルエンザは、ロシア型がswine型に置き換えられていると推測される。
また、同じ順位の塩基又はアミノ酸の主成分sPCn6は、ロシア型に特徴的な塩基又はアミノ酸配列であるものの、これらは同時に、経年変化で変わり得る配列でもあった。これらは、本来のタンパクの機能として必須なものではないので、他の株とは違うものになっていると考えられる。実際、1977年から2008年までの間で、ロシア型のHAタンパク質は、約500残基長のうち140残基ほどが変化していた。このうち126残基が、sPCs6で明らかに高い値、すなわちロバストに推測した標準偏差2つぶんより大きい値を示した187残基中に含まれていた。すなわち、上述の図12の「77」において変異する配列は、あまり機能に直に関係していない飾りのような、抗原認識において目立つ部位になっていると考えられ、経年変化(ドリフト)は、この中でほとんど起きると考えられる。ここから、ある株のなかで変化しうる残基がどれなのか、その株と、既存のデータベースとを調べることで推定できる。
また、同時に変化する塩基又はアミノ酸残基は、他の株でもその傾向が高いことが期待される。それらの塩基又はアミノ酸残基は、同時に変わらないと機能に影響する可能性が高いためである。そのような組み合わせを把握しつつ、まだ変化していないが変化可能な塩基を調べることによって、周期性が見い出せない場合でも、次に変化すると推測される塩基又はアミノ酸残基を絞り込んでいくことができる。このため、配列の進化の予測を容易にすることができる。
また、同時に変化する塩基又はアミノ酸残基は、他の株でもその傾向が高いことが期待される。それらの塩基又はアミノ酸残基は、同時に変わらないと機能に影響する可能性が高いためである。そのような組み合わせを把握しつつ、まだ変化していないが変化可能な塩基を調べることによって、周期性が見い出せない場合でも、次に変化すると推測される塩基又はアミノ酸残基を絞り込んでいくことができる。このため、配列の進化の予測を容易にすることができる。
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
本発明の生物配列分析方法は、従来よりも精度の高い生物由来の配列を分析する手法を提供し、これを分析装置に適用可能であり、産業上に利用することができる。
1 生物配列分析装置
10 制御部
11 記憶部
12 表示部
13 入力部
14 I/F部
100 配列数値化部
110 主成分分析部
200 配列情報
10 制御部
11 記憶部
12 表示部
13 入力部
14 I/F部
100 配列数値化部
110 主成分分析部
200 配列情報
Claims (5)
- 生物由来の配列を分析する生物配列分析方法であって、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成し、
前記マトリクスを主成分分析する
ことを特徴とする生物配列分析方法。 - 前記配列は、塩基配列又はアミノ酸配列であり、
個々の前記配列の得点を示す主成分と、前記得点が前記配列のどの塩基又はアミノ酸の寄与によるものかを示す主成分とにより分析を行う
ことを特徴とする請求項1に記載の生物配列分析方法。 - 請求項1又は2に記載の生物配列分析方法により、
複数の前記配列の変化を示す主成分により同調的又は周期的な変化が検出された塩基又はアミノ酸の位置により、前記配列の進化を予測する
ことを特徴とする進化予測方法。 - 生物由来の配列を分析する生物配列分析装置により実行される生物配列分析プログラムであって、
前記生物配列分析装置に、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成させ、
前記マトリクスを主成分分析させる
ことを特徴とする生物配列分析プログラム。 - 生物由来の配列を分析する生物配列分析装置であって、
複数の前記配列を、該配列の各要素の種類と位置とを保持して数値化したマトリクスを作成する配列数値化部と、
前記配列数値化部により作成された前記マトリクスを主成分分析する主成分分析部とを備える
ことを特徴とする生物配列分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017041230A JP2018147202A (ja) | 2017-03-06 | 2017-03-06 | 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017041230A JP2018147202A (ja) | 2017-03-06 | 2017-03-06 | 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018147202A true JP2018147202A (ja) | 2018-09-20 |
Family
ID=63591300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017041230A Pending JP2018147202A (ja) | 2017-03-06 | 2017-03-06 | 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018147202A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024010081A1 (ja) * | 2022-07-08 | 2024-01-11 | 国立大学法人熊本大学 | 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム |
-
2017
- 2017-03-06 JP JP2017041230A patent/JP2018147202A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024010081A1 (ja) * | 2022-07-08 | 2024-01-11 | 国立大学法人熊本大学 | 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210280268A1 (en) | Protein structure prediction system | |
Batovska et al. | Metagenomic arbovirus detection using MinION nanopore sequencing | |
Cheng et al. | Machine learning methods for protein structure prediction | |
Landan et al. | Local reliability measures from sets of co-optimal multiple sequence alignments | |
Robertson et al. | An all‐atom, distance‐dependent scoring function for the prediction of protein–DNA interactions from structure | |
Gupta et al. | Identification of immunogenic consensus T-cell epitopes in globally distributed influenza-A H1N1 neuraminidase | |
Woolthuis et al. | Long-term adaptation of the influenza A virus by escaping cytotoxic T-cell recognition | |
Akya et al. | Identification of HLA-I restricted epitopes in six vaccine candidates of Leishmania tropica using immunoinformatics and molecular dynamics simulation approaches | |
Pan et al. | Predicting protein–RNA interaction amino acids using random forest based on submodularity subset selection | |
Reid et al. | Variable structure motifs for transcription factor binding sites | |
Huang et al. | Simultaneously identify three different attributes of proteins by fusing their three different modes of Chou's pseudo amino acid compositions | |
Dlamini et al. | Classification of COVID-19 and other pathogenic sequences: a dinucleotide frequency and machine learning approach | |
JP2018147202A (ja) | 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置 | |
Wei et al. | Exploring local discriminative information from evolutionary profiles for cytokine–receptor interaction prediction | |
Yan | Bioinformatics databases and tools in virology research: an overview | |
US20230178174A1 (en) | Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine | |
Bell et al. | In silico identification of functional protein interfaces | |
Kolinski et al. | Protein folding: flexible lattice models | |
Chen et al. | Homology-free prediction of functional class of proteins and peptides by support vector machines | |
Sato et al. | Prediction of protein-protein interactions from phylogenetic trees using partial correlation coefficient | |
Bockhorst et al. | Discovering patterns in biological sequences by optimal segmentation | |
Si et al. | TIM-Finder: A new method for identifying TIM-barrel proteins | |
Udaka et al. | Prediction of MHC class I binding peptides by a query learning algorithm based on hidden Markov models | |
US20030101003A1 (en) | Methods for representing sequence-dependent contextual information present in polymer sequences and uses thereof | |
Sahoo et al. | An Enhanced Web-based Tools for Multiple Sequence Alignment: A Comparative Approach |