JP2008533619A

JP2008533619A - 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム

Info

Publication number: JP2008533619A
Application number: JP2008502113A
Authority: JP
Inventors: エムクラークジェフリー
Original assignee: BioInformatica LLC
Current assignee: BioInformatica LLC
Priority date: 2005-03-18
Filing date: 2006-03-20
Publication date: 2008-08-21
Also published as: US20130297640A1; WO2006102128A3; US20100094889A1; WO2006102128A2; KR20070115964A; US20080040048A1; US20060223095A1; US7734427B2; US8483971B2; CN101142479A; US20070129900A1; US7263444B2; EP2031533A1; EP1859268A4; US7805254B2; EP1859268A2; AU2006227410A1; CA2601890A1

Abstract

生物学的配列の非バイナリ比較を実施するためのシステムおよび方法は、ＶａＳＳＡ−Ｉと呼ばれるスタンドアロンモジュールにおいて用いられる非バイナリ計算値である新たな測定値Ｃω_０を含む。この測定値は、配列およびそれらの間の比較に関して、従来のバイオインフォマティクス技術で収集するよりも相当多い情報を獲得する。

Description

本明細書は、２００５年３月１８日に出願された米国暫定特許第６０／６６２，９４３号からの優先権を主張する。当該暫定特許明細書の全文は参照文献として援用する。

本発明は、全般的にはバイオインフォマティクスに、より具体的には遺伝子配列間の類似性及び相違性の程度を判定する方法に関する。

異なる種のゲノム全体のＤＮＡ配列は迅速な速さで判定されている。これらの遺伝子構造の多様性と機能を理解することは、バイオインフォマティクス業界の責務である。また、一部のゲノムデータの完成版は、そこにおいてデータを取得できなかったギャップを含んでいる。これらの多様なゲノム配列データの原案は、その相対的順番と方向の判定が困難なデータ断片を含むこともある。このような不完全なデータを扱うことで、特に２つ或いはそれ以上のゲノムを比較する場合に、統合的システムツールへの新たな需要がもたらされる。バイオインフォマティクス業界は、ギャップをより効率よく扱えるようになる必要がある。

従来の手法では、ゲノム間の比較の取扱いは大きな問題であった。非常に類似した配列では、最適配列を算出するいわゆる「どん欲な」アラインメントが存在する。これらのアルゴリズムではアラインメントにおいてギャップを許容し、かつ非常に効率的であるが、非常に単純なアラインメントスコアリングスキームでのみ十分に機能する。より高いスコア（単独ゲノムの長い部分に関して複数のゲノムを比較する）については、これらの貪欲な方法はダイナミックプログラミングに対して効力が低下する。

従来の３つ或いはそれ以上の配列についてのアラインメント法は、単独のアミノ酸をコードする３個の核酸塩基群である推定コドンに基づくタンパク質配列の比較にほぼ完全に適合化されている。これは数種類の類似した種に由来するゲノム配列について存在する例が少ないという事実によると思われる。また、配列の比較及び相同性分析もバイナリベースで実施される。これはコンピュータリソースを温存するが、生化学的情報を無視する。

従来の配列アラインメント類似性及びゲノム配列比較ツールの欠点を克服する改善ソリューションに対するニーズが存在する。

配列分析を目的としたシステムは、第１のヌクレオチド配列と第２のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール、ファイル管理モジュール、及びプロットモジュールを含む。

１つの実施態様では、システムはさらにレポートモジュール、ユーザーオプションモジュールおよび／あるいはユーザーヘルプモジュールも含む。

他の実施形態では、ファイル管理モジュールは少なくとも１つの配列ファイルを読み込むよう適合化された配列読み込みモジュール、配列ファイルをメモリからフラッシュするよう適合化されたアクティブ配列フラッシュモジュール、および読み込まれた配列ファイルをメモリよりフラッシュするよう適合化された読み込み配列フラッシュモジュールを含む。

他の実施形態においては、配列読み込みモジュールは配列を読み込む際にサマリレポートノートブックページを作成（generate）して表示するよう適合化された読み込み配列ディスプレイモジュールであって、サマリレポートノートブックページが配列ファイル名および配列番号を表示するよう適合化されている読み込み配列ディスプレイモジュールを含む。

他の実施形態においては、レポートモジュールは配列サマリ、各読み込み配列の内容のリスト、および／あるいは各読み込み配列の統計情報を作成して表示するよう適合化される。

他の実施形態においては、分析モジュールはターゲット配列をベース配列にアラインメントしてアラインメントレポートを表示するよう適合化された配列アラインメントモジュール、配列についてのω_０スコアを算出してω_０スコアを表示するよう適合化したω_０モジュール、ベース配列中に複数発生したターゲット配列の位置を特定して複数の発生を表示するよう適合化したクエリ反復モジュール、反復ヌクレオチドが２度現れた場合を判定するよう適合化されたクエリオメガ反復モジュール、ベース配列中の各ヌクレオチドの位置についての勾配（slope）を算出して勾配レポートを表示するよう適合化した勾配算出モジュール、およびターゲット配列をベース配列と比較して類似性レポートを表示するよう適合化された配列比較モジュールを含む。

他の実施形態においては、プロットモジュールはベース配列およびターゲット配列について係数をアラインメントしながらプロットするよう適合化したスペクトルアレイモジュール、ベース配列およびターゲット配列について単鎖をプロットするよう適合化した単鎖モジュール、ベース配列中の各ヌクレオチドの位置についての勾配を算出してプロットを表示するよう適合化された勾配モジュール、およびベース配列についてω_Ｎを算出しω_Ｎのプロットを表示するよう適合化されたω_Ｎモジュールを含む。

本発明の他の態様は配列分析方法に関する。方法は、配列ファイルの読み取り、前記ファイルからのターゲットおよびベース配列の選択、ターゲット配列とベース配列の非バイナリ比較であって非バイナリ比較が比較値を作成する非バイナリ比較の実施、および比較値に基づくターゲット配列とベース配列の類似性の判定の手順を含む。

他の実施形態においては、方法はさらにアラインメントした配列の配列ファイルへの書き込みおよびアラインメント百分率の算出の段階も含む。

他の実施形態においては、方法は二次元スペクトルアレイプロットあるいは二次元単鎖プロットのうち少なくとも一方を作成する段階をさらに含む。

他の実施形態においては、非バイナリ比較を実施する段階は２つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表の使用を含む。

本発明の前述のおよび他の特性および長所は、参照番号が全般的に同一、機能的に類似、および／または構造的に類似した要素を示すような付属の図面に例示されるような、以下の本発明の好ましい実施形態のより具体的な記載より明らかになるであろう。

本発明の実施形態は、非連続的トポロジー空間にまたがる配列構造の挙動を分析および決定するための統合的システムを提供する。当該技術は、とりわけ正規化、圧縮技術、構造分類およびトポロジー共役法を含む新規改善測定法を提供する。これらの分析法の組み合わせは生物学、化学、および数的管理特性を作成するコンピュータ数学技術、および／あるいはゲノムデータの構造挙動パターンを考慮に入れる。

本発明は幅広いバイオインフォマティクスアプリケーションを用いることができる。本発明の統合的システムおよび方法はほとんどあらゆる長さのヌクレオチド配列（例：５０塩基から２００万塩基）に関する単配列プロットおよび他のデータを提供する。本発明の統合的システムおよび方法は、処理手順の効率が高いために多数の比較データを提供することができる。例えば、システムは５００塩基の５００配列を極めて速い速度で処理することが証明されている。１０００、１０，０００、１００，０００、１，０００，０００あるいはそれ以上の配列の比較は本発明の範囲内である。

本発明のシステムは、０％（一致なし）から１００％（完全一致）の相同範囲内で有意味な比較情報を作成する非バイナリ法を用いる。本発明の非バイナリ法は、典型的なバイナリ比較よりも識別力が高く、かつバイナリ比較では識別不可能であると思われる配列の相違度を分解することができる。

本発明のシステムおよび方法は、あらゆる長さの挿入および欠失が存在するにもかかわらず配列比較に有効である。アラインメントモジュールは意味のある比較を可能にする大域的および局所的最適化を提供する。単鎖プロットおよび比較は、カオス配列あるいはオメガ反復を有するコード（分解可能）領域および非コード（分解不可能）領域において作成することができる。

以下に続く記述においてはＤＮＡ塩基（Ａ、Ｔ、ＧおよびＣ）を用いる。しかし、本発明のシステムおよび方法はＤＮＡのみならずＲＮＡ（チミンがウラシルに置換される）、ＬＮＡ、ＰＮＡおよび他の合成ヌクレオチド変異体に適用できることを理解しなければならない。

図面に示す表示はヌクレオチド配列のみを図示することが多い。明らかとなるように、コード領域については、当業者に周知の従来技術を用いてコドンに対応するアミノ酸配列も表示される。

本発明の方法は、ゲノム情報の分析、検索および表示に関する。本発明のシステムおよび方法は、ゲノム、プロテオーム、および医学データの収集、記憶、分析および検索、データマイニングおよびデータの視覚化および表示、配列アラインメントおよびパターン認識、および構造予測のためのツールを提供する。例えば、本発明のシステムおよび方法は予測的生化学モデル、シリコンアレイ、ディストリビューテッドコンピューティング、診断および治療計画の設計を目的として使用することができる。

本発明のシステムは１つあるいはそれ以上のモジュールより構成される。本発明のモジュールおよびシステムは、スタンドアローンコンピュータを操作する個人により、あるいは数人が操作するディストリビューテッドコンピューティング「システム」の一部として実践することができる。本発明は、ハードウェア、ソフトウェア、サブシステム、サブシステムのコンポーネント、およびシステムを用いて作成、編集あるいは配列されたデータ構造などのシステムの多様な側面も包含する。さらに、本発明は関係するデータを収集、作成および表示するための方法および装置および関係する分析機器、さらに機器を操作および使用する方法を包含する。本発明のシステムおよび方法を用いた、配列分析ツールへの登録権の販売などのビジネスメソッドも意図している。

以下にさらに詳述する実施形態の実践は、特に指示しない限り、従来技術の範囲内の従来の微生物学、分子生物学および免疫学の方法を採用する。このような技術は文献において完全に説明される。本明細書に引用する全ての出版物、特許および特許明細書は、上記のものであれ下記のものであれ、その全文を参照文献として本明細書に援用する。

（定義）
本発明の記載においては、以下の用語を採用し、以下に示すように定義することを意図する。

「ＶａＳＳＡ」はバリエーションシークエンスソフトウェアアプリケーションを指す。

「コンピュータ」は構造化された入力を受け付け、指示された規則に従って構造化された入力を処理し、かつ処理の結果を出力として作成することのできるあらゆる装置を示す。コンピュータは、例えばデータを受け付け、記憶した１つあるいはそれ以上のソフトウェアプログラムに従ってデータを処理し、結果を作成し、かつ典型的に入力、出力、記憶、演算、論理および制御ユニットを含むあらゆる装置を含むことができる。コンピュータの例は、コンピュータ、一般的な用途のコンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、インタラクティブテレビ、ウェブアプライアンス、インターネットにアクセスするテレコミュニケーションデバイス、コンピュータとインタラクティブテレビのハイブリッド複合機器、ポータブルコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、および例えばプログラマブルゲートアレイ（ＰＧＡ）あるいはプログラムドデジタルシグナルプロセッサ（ＤＳＰ）などのコンピュータおよび／あるいはソフトウェアをエミュレートするためのアプリケーション別ハードウェアを含む。コンピュータは固定型でもポータブルでもよい。コンピュータは単独のプロセッサを有することも、平行してかつ／あるいは平行せずに制御できる複数のプロセッサを有することもある。コンピュータは、コンピュータ間で情報を送信あるいは受信するためにネットワークを通じて互いに接続された２つあるいはそれ以上のコンピュータを指すこともある。このようなコンピュータの例は、ネットワークで連結されたコンピュータを通じて情報を処理するためのディストリビューテッドコンピュータシステムを含む。

「マシンがアクセスできるメディア」は、コンピュータがアクセスできるデータを記憶するために用いるあらゆる記憶デバイスを指す。コンピュータで読み取り可能なメディアの例は：磁気ハードディスク、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭおよびＤＶＤなどの光学ディスク、磁気テープ、メモリチップ、および電子メールの送信および受信やネットワークへのアクセスに用いるものなどのコンピュータ読み取り可能電子データを運ぶために用いる搬送波を含む。

「ソフトウェア」はコンピュータを制御するための指示された規則を指す。ソフトウェアの例は、ソフトウェア、コードセグメント、命令、ソフトウェアプログラム、コンピュータプログラム、およびプログラム論理を含む。

「コンピュータシステム」はコンピュータを有するシステムであって、コンピュータがコンピュータを制御するためのソフトウェアを組み込むコンピュータが読み取り可能なメディアを含むシステムを指す。

「情報記憶デバイス」は情報を記憶するために用いる製品を指す。情報記憶デバイスは、例えば紙形態や電子形態などの多様な形態を有する。紙形態では、情報記憶デバイスは情報を印刷した紙を含む。電子形態では、情報記憶デバイスはソフトウェア、例えばデータとして情報を記憶するコンピュータが読み取り可能なメディアを含む。

以下の用語は、遺伝学およびバイオインフォマティクスの標準用語集には見られない。

「列」は文字の配列である。配列は、ｎ個で一組のオブジェクト（文字列）として知られるｎ×１行列と見なすこともある。例えばＤＮＡ、ＲＮＡあるいは合成あるいは他の変異体などのヌクレオチド配列の場合、各ヌクレオチド要素は非連続的セットである列内で固有の位置を有する。

例：ＡＧＣＡＡＴＡＴＡＧＧＡは長さ１２の文字の列である。

列Ｓの「サブ配列」は、Ｓ内で連続する必要はないがＳに示されているその順列を保持しているＳの文字配列を意味する。

例：ＡＣＧはＡＣＴＣＧＴのサブ配列である。

「ｆ（ｎ）＝Ｏ（ｇ（ｎ））」：ｆ（ｎ）およびｇ（ｎ）を関数とする。このとき全ての十分に大きいｎについて｜ｆ（ｎ）｜≦ｃｇ（ｎ）となるような定数ｃが存在するときかつするときのみｆ（ｎ）＝０（ｇ（ｎ））である。

「Ｓ_４」は４つのヌクレオチドＡ、Ｃ、ＧおよびＴで設定されたＤＮＡ配列である。

式中ｋ＝１（１シフトを示す）でありかつＬは右から左への移動を示す。従ってσ_ＬはＳ_４で定義される連続ＤＮＡ値の関数である。マップを視覚化する１つの方法は、単純に配列の第１エントリを「忘れ」、焦点を他の全てのエントリを右に（即ち上記の配列の下線を引いた部分）合わせることである。このＤＮＡ連続性の直感的概念は、Ｓ_４におけるＤＮＡサブ配列のあらゆる位置の近傍にある小領域上での上述の漸近的な言語的変動がその位置からの変動がわずかに過ぎないと述べることにより説明することができる。この変動は、近傍部分のサイズを増加あるいは減少させることにより所望するとおりに短くすることも長くすることもできる。

σ_ｔ，Ｒはｔ単位で左にシフトし、右から読み取る上述のもののアナログマップである。これらのマップの連続性によりマップを統合することができる。

配列の前方および後方軌道：サブ配列ｚの前方軌道は点ｚ、σ_Ｌ（Ｚ）、σ^２ _Ｌ（ｚ）、σ^３ _Ｌ（ｚ）・・・の集合であり、Ｏ^＋（ｚ）で示される。サブ配列ｚの後方軌道は点ｚ、σ_Ｌ（Ｚ）、σ^２ _Ｌ（ｚ）、σ^３ _Ｌ（ｚ）・・・の集合であり、Ｏ⁻（ｚ）で示される。

固定および周期サブ配列：ＤＮＡサブ配列ｓは、σ_Ｌ（ｓ）＝ｓである場合は固定サブ配列σ_Ｌである。ＤＮＡサブ配列ｓは、σ^ｎ _Ｌ（ｓ）＝ｓである場合は周期ｎの周期サブ配列である。最少の正のｎはｓの一次周期と呼ばれる。周期的点の全反復群は周期的軌道を形成する。

最終周期：ｓが周期的でなくともｉ≧ｍとなる毎にσ^ｎ＋ｉ _Ｌ＝σ^ｉ（ｓ）となるようなｍ＞０が存在する場合、ＤＮＡサブ配列ｓは最終的に周期ｎで周期的となる。即ち、σ^ｉ _Ｌ（ｓ）はｔ≧ｍについて周期的である。

前方漸近性：ｓを周期ｎで周期的なＤＮＡサブ配列とする。以下の場合、サブ配列ｘは前方漸近性である。

Ｓ^Ｓ（ｓ）で示される安定群ｓは、ｓに対して前方漸近性である全てのサブ配列から構成される。

「アライナ」はマルチ配列アラインメント分析のバージョンである。

「オメガコンパレータ」は、ω_０値に基づく単独および複数の配列ベース検索である。

「スペクトルアレイ」は、最適な言語的挙動を探索することを可能とするω_０値に関してその特異構造を作成する複数の構造をとる全てのヌクレオチドを比較する一連の計算である。

「ＤＮＡω_０遺伝子コードビューワ」は、ω_０値による遺伝子コードのより精密な分類である。

「安定分析プロファイラ」は、ターゲットサブ配列に対して前方漸近性である全てのサブ配列を定義する技術である。

「不安定分析プロファイラ」は、ターゲットサブ配列に対して後方漸近性である全てのサブ配列を定義する技術である。

カオス：（１）σ_Ｌ（ｚ）がターゲットサブ配列について鋭敏な依存性を有し、（２）σ_Ｌ（ｚ）がトポロジー的に遷移的であり、かつ（３）周期的サブ配列が列あるいはデータセットについて高密度である場合、σ_Ｌ（ｚ）はカオスであると言われる。

「シンボリックＤＮＡ軌道」は、インタラクティブなプロセスにおけるある配列中のターゲットサブ配列の非対称的シンボリック挙動である。

「分析的ＤＮＡ軌道」は、ある配列中のターゲットサブ配列の非対称的言語的挙動である。

「ＤＮＡ近似分析」は、複雑度の低いサブ配列に対して正確な構造的挙動をもたらす一連の技術である。

「カオス領域分類」は、サブ配列ターゲットを（１）初期条件に鋭敏に依存するターゲット、（２）トポロジー的に遷移的なターゲットおよび（３）ＤＮＡ配列密度の高い周期的サブ配列の３カテゴリーに独自に分類する技術である。

「ＤＮＡ派生」は、ＤＮＡ配列内であるヌクレオチドから次のヌクレオチドへの変化を定性的に観察することを可能とする測定値である。

「ＤＮＡ分岐」は、各パラメータの元でのサブ配列の変化を観察する技術である。

「ＤＮＡトポロジー共役」は、σ_Ｌ（ｚ）の各マッピングが完全に等しい場合を示す技術である。

「信頼性スコア」は、配列ファミリーをターゲット配列に最も近いものから異なるものに分類する指標である。オメガ類似性スコアあるいはω_０値は以下のように定義される。

本発明の実施形態は以下で詳細に議論する。具体的典型的実施形態を議論する際は、これは例示的目的のみのために行われることを理解しなければならない。

当該技術分野の当業者は、本発明の趣旨および範囲を離れることなく、他のコンポーネントおよび設定を用いることができることを理解するであろう。

図1は典型的実施形態である。本発明の方法１００は、配列ファイルを読み込み（１０１）、ファイルよりターゲット配列およびベース配列を選択し（１０３）、非バイナリ比較を用いてターゲット配列とベース配列を比較（１０５）および類似性スコアを作成し（１０７）、さらにファイルにアラインメント配列を書き込む（１０９）段階を含む。方法１００は、比較の視覚的表示を作成し（１１１）、アラインメント百分率を算出、および／あるいは二次元単鎖プロットあるいはスペクトルアレイプロット（１１３）、複鎖レポート（１１５）あるいは他のプロット（１１７）をさらに含んでも良い。

配列ファイルは、１つあるいはそれ以上の遺伝子配列を含むマシン読み込みファイルであっても良い。ＤＮＡ配列には多様な許容できるフォーマットがある。ＥＭＢＬフォーマットが許容できる。このフォーマットの配列ファイルは数種類の配列を含むことがある。１つの配列エントリは識別子行（「ＩＤ」）により開始し、さらにアノテーション行が続く。配列の開始部分は「ＳＱ」で始まる行でマークし、また配列終了部をスラッシュ２本（「／／」）でマークすることもある。ＦＡＳＴＡフォーマットも許容できる。ＦＡＳＴＡフォーマットされた配列は１行記述で開始し、配列データの行がこれに続く。記述行は、第１列が大なり（＞）記号でなければならない。ＧＣＧ、ＧｅｎＢａｎｋおよびＩＧなどの他の多くの書式も許容できる。

配列データは、例えばＡＳＣＩＩなどのテキスト形式であっても、あるいは本発明の方法を実行するコンピュータが読み込める他の形式であっても良い。配列ファイルの読み込みは、配列の直接タイピング、ディスクからの読み込み、あるいはＥｎｔｒｅｚなどの周知のインターフェースを用いたパブリックドメインへのアクセスが含まれる。ファイルは保存あるいは分析あるいは「転送時」分析する。ユーザーは単独のファイルあるいは複数のファイル、あるいはデータベース全体、あるいは単独あるいは複数のファイル、あるいはデータベース全体中のあらゆる長さのあらゆるサブ配列の読み込みを選択することができる。

ターゲットはあらゆる長さのサブ配列である。ユーザーは構造的挙動の観察を可能とするデータベース、あるいはファイルで分析を実施することを選択することができる。ターゲットは互いに２段階で識別される。第１の生物学的連関はサブ配列ターゲットを構成するアルファベットである。第２の連関はオメガゼロ生物学連関である。

１つの実施形態では、スペクトルアレイプロットの段階はω_Ｎの算出、ラジアル比較、アラインメント係数の抽出、およびアラインメント係数のプロットの段階を含む。

１つの実施形態では、スペクトルアレイプロットの段階はさらにベースあるいはターゲットの一方を逆転およびモードを逆転させる段階をさらに含む。

他の実施形態においては、非バイナリ比較を実施する段階は２つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表を用いることを含む。

他の実施形態では、本発明の方法は第１のヌクレオチドと第２のヌクレオチドの分子構造を比較し、前記比較に基づき第１の非バイナリ類似性スコアを決定し、各ヌクレオチドについて類似性スコアと共にルックアップ表を読み込み、かつルックアップ表を使用してヌクレオチドのターゲット配列（ｔ）とヌクレオチドのベース配列を比較する第２の非バイナリ同等性スコアを算出する段階を含む。

図４６は本発明の非バイナリ配列比較システム１０の例示的実施形態を図示する。システム１０は、第１のヌクレオチド配列と第２のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール２００、ファイル管理モジュール３００、プロットモジュール４００、および任意のレポートモジュール５００、ユーザーオプションモジュール６００、および／あるいはユーザーヘルプモジュール７００を含む。

本発明の非バイナリ配列比較システム１０のファイル管理モジュール３００は配列ファイルを管理する。１つの実施形態では、ファイル管理モジュール３００は少なくとも１つの配列ファイルを読み込むよう適合化された配列読み込みモジュール３１０、配列ファイルをメモリからフラッシュするよう適合化されたフラッシュアクティブ配列モジュール３２０、および読み込まれた配列ファイルをメモリよりフラッシュするよう適合された読み込み配列フラッシュモジュール３３０を含む。他の実施形態では、配列読み込みモジュール３１０は配列を読み込む際にサマリレポートノートブックページを作成および表示するよう適応化された読み込み配列ディスプレイモジュール３１２をさらに含む。サマリレポートノートブックページは配列ファイル名および配列番号を表示するよう適合化される。

他の実施形態においては、非バイナリ比較システム１０のプロットモジュール４００は、ベース配列およびターゲット配列についてアラインメント係数をプロットするよう適合化されたスペクトル配列モジュール４１０、ベース配列およびターゲット配列について単鎖をプロットするよう適合化された単鎖モジュール４２０、ベース配列中の各ヌクレオチドの位置を算出しかつ勾配のプロットを表示するよう適合化された勾配モジュール４３０、およびベース配列についてのω_Ｎを算出しω_Ｎのプロットを表示するよう適合化されたω_Ｎモジュール４４０を含む。好ましい実施形態においては、スペクトル配列モジュール４１０はラジアル比較およびアラインメント係数の抽出のためにω_Ｎ値を算出するようさらに適合化される。他の好ましい実施形態においては、単鎖モジュール４２０はベース配列およびターゲット配列についてω_Ｎ値を算出するようさらに適合化される。

他の実施形態においては、本発明の非バイナリ配列比較システム１０のレポートモジュール５００は、配列サマリ、読み込んだ各配列の内容のリスト、および／あるいは読み込んだ各配列に関する統計情報を作成しかつ表示するよう適合化される。

他の実施形態においては、非バイナリ配列比較システム１０の分析モジュール２００は、ターゲット配列をベース配列にアラインメントしてアラインメントレポートを表示するよう適合化した配列アラインメントモジュール２０１、配列についてのω_０スコアを算出してω_０スコアを表示するよう適合化したω_０モジュール、ベース配列中に複数発生したターゲット配列の位置を特定し、複数の発生を表示するよう適合化したクエリ反復モジュール２０５、反復ヌクレオチドが重複する場合を判定するよう適合化されたクエリオメガ反復モジュール２０７、ベース配列中の各ヌクレオチド位置について勾配を算出して勾配レポートを表示するよう適合化した勾配算出モジュール２０９、およびターゲット配列をベース配列と比較しかつ類似性レポートを表示するよう適合化した配列比較モジュール２１１を含む。

好ましい実施形態においては、アラインメント配列モジュール２０１はさらに前記ベース配列を逆転し、モードを逆転し、ベースおよびターゲットを最短の長さにアラインメントし、アラインメント百分率を算出し、および／あるいはオメガ類似性スコアを算出する作業を実施するよう適合化される。

他の好ましい実施形態においては、配列比較モジュール２１１は、ベース配列を逆転し、ターゲット配列を逆転し、モードを逆転し、各ベースおよびターゲット配列についてω_Ｎ値を算出し、ベースおよびターゲット配列をバイナリに変換し、ベース配列とターゲット配列の距離を算出し、かつ距離が結合を上回るか否か判定する作業を実施するようさらに適合化される。

図２はＶａＳＳＡアーキテクチャのＤＮＡ分析部分の好ましいモジュール分解のレイアウトを図示する。分解したモジュールは以下で詳細に論じる。サブモジュールは図３５から４５にフローチャート形態で図示する。

（ＶａＳＳＡアーキテクチャのモジュール分解）
ＤＮＡ分析モジュール群２００
ＳＳＤＡ（単鎖ＤＮＡ分析）モジュール群２１０
ＭＳＤＡ（複鎖ＤＮＡ分析）モジュール群２４０
−−−−−
ＳＳＤＡ（単鎖ＤＮＡ分析）（図２）
ＤＮＡ近似モジュール２１２
カオス領域分類モジュール２１４
ＤＮＡ派生モジュール２１６
ＤＮＡ分岐モジュール２１８
ＤＮＡ軌道モジュール２２０
分析挙動プロファイラモジュール２２２
ＤＮＡトポロジー共役モジュール２２４
構造安定領域モジュール２２６
分解不可能領域モジュール２２８
ＤＮＡ複雑度ベースモジュール２３０
ＤＮＡアライナモジュール２３２
−−−−−
ＭＳＤＡ（複鎖ＤＮＡ分析）（図２）
ＤＮＡ近似モジュール２４２
カオス領域分類モジュール２４４
ＤＮＡ派生モジュール２４６
ＤＮＡ分岐モジュール２４８
ＤＮＡ軌道モジュール２５０
分析挙動プロファイラモジュール２５２
ＤＮＡトポロジー共役モジュール２５４
構造安定領域モジュール２５６
分解不可能領域モジュール２５８
ＤＮＡ複雑度ベースモジュール２６０
ＤＮＡアライナモジュール２６２
−−−−−
ＤＮＡトポロジー共役モジュール２２４および２５４（図３５）
ａ分析挙動プロファイラモジュール３５０１
ｂ．分析マッパモジュール（分析マッピングの作成）３５０３
ｅ．共役比較モジュール３５０５
ｄ．第１反復分析モジュール３５０７
ｅ．フェーズポートレートジェネレータモジュール３５１１
−−−−−
ＤＮＡ近似モジュール２１２および２４２（図３６）
ａ．正則形式ジェネレータモジュール３６０１
ｂ．近似コンストラクタモジュール３６０３
ｃ．Ｐ＆Ｑ係数算出モジュール３６０５
ｄ．ＪＣ−ＤＮＡ曲線ジェネレータモジュール３６０７
ｅ．低複雑度ジェネレータモジュール３６０９
ｆ．ターゲット分類モジュール３６１１
ｇ．シンボリックＤＮＡ軌道モジュール（ＳＳＤＡおよびＭＳＤＡの子モジュールでもある）３６１３
ｈ．分析ＤＮＡ軌道モジュール（ＳＳＡおよびＭＳＤＡの子モジュールでもある）３６１５
−−−−−
ＤＮＡ軌道２２０および２５０（分析ＤＮＡ軌道モジュール、図３７）
シンボリックＤＮＡ軌道モジュール３７０１
ａ．シンボリックフロージェネレータモジュール３７０３
ｂ．行差分ジェネレータモジュール３７０５
ｃ．軌道ジェネレータモジュール３７０７
−−−−−
分析ＤＮＡ軌道モジュール３７０９
ａ．前方分析プロファイラモジュール３７１１
ｂ．後方分析プロファイラモジュール３７１３
ｃ．ＤＮＡアトラクタジェネレータモジュール３７１５
ｄ．ＤＮＡリペラジェネレータモジュール３７１７
−−−−−
カオス領域分類モジュール２１４および２４４（図３８）
カオス領域セパレータ３８０１
ａ．ＤＮＡ感受性ジェネレータモジュール３８０３
ｂ．ＤＮＡ転送性ジェネレータモジュール３８０５
ｃ．高密度周期配列ジェネレータモジュール３８０７
−−−−−
ＤＮＡ分岐モジュール２１８および２４８（図３９）
スプリッタセパレータ３９０１
ａ．ＤＮＡ遷移性スプリッタプロファイラモジュール３９０３
ｂ．ＤＮＡ高密度スプリッタプロファイラモジュール３９０５
−−−−−
ＤＮＡ派生モジュール２１６および２４６（図４０）
派生ジェネレータモジュール４００１
単調ジェネレータモジュール４００３
ａ．陽性測定（positive measure）モジュール４００５
ｂ．陰性測定（negative measure）モジュール４００７
−−−−−
分析挙動プロファイラモジュール２２２および２５２（図４１）
ＤＮＡ近似モジュール４１０１
カオス領域モジュール４１０３
ＤＮＡ派生モジュール４１０５
ＤＮＡ分岐モジュール４１０７
ＤＮＡ軌道モジュール４１０９
分析挙動プロファイラモジュール４１１１
ＤＮＡトポロジー共役モジュール４１１３
構造安定領域モジュール４１１５
分解不可能領域モジュール４１１７
ＤＮＡ複雑性ベースモジュール４１１９
ＤＮＡアライナモジュール４１２１
代数構造ジェネレータモジュール４１２３
ａ．グループジェネレータモジュール４１２５
ｂ．セミグループジェネレータモジュール４１２７
ｃ．リングジェネレータモジュール４１２９
ｄ．分析セットジェネレータモジュール４１３１
準同型（homomorphism）ジェネレータモジュール４１３３
同型（isomorphism）ジェネレータモジュール４１３５
−−−−−
構造安定領域モジュール２２６および２５６（図４２）
反復ジェネレータモジュール４２０１
前方漸近性モジュール４２０３
安定性プロファイラモジュール４２０５
−−−−−
分解不可能領域モジュール２２８および２５８（図４３）
ＤＮＡ軌道分析モジュール４３０１
非反復ジェネレータモジュール４３０３
分解不可能プロファイラモジュール４３０５
−−−−−
ＤＮＡ複雑度ベースモジュール２３０および２６０（図４４）
反復ジェネレータモジュール４４０１
ユニバーサルＤＮＡベースジェネレータモジュール４４０３
高密度ジェネレータモジュール４４０５
−−−−−
ＤＮＡアライナモジュール２３２および２６２（図４５）
シンボリックアライナモジュール４５０１
ａ．単鎖ジェネレータモジュール４５０３
ｂ．複−単鎖ジェネレータモジュール４５０５
オメガ比較アライナモジュール４５０７
ａ．オメガ単鎖ジェネレータモジュール４５０９
ｂ．複−単鎖ジェネレータモジュール４５１１

（ＶａＳＳＡのメインモジュールの説明）
（ＤＮＡ近似モジュール２１２あるいは２４２）
このモジュールはＶａＳＳＡ中にある多項型構築を低下させる。それは全ての係数ｆが演算に必要であることを示す。また、近接値は複雑度の低いサブ配列の言語構造挙動の視覚化に用いることができるデータを作成する。この手順は生物学的情報を全く失うことなく実施される。近接が迅速でより正確な分析および計算を提供する順位は低く、より正確な分析及び計算がオリジナルの関数へのより良好なフィッティングをもたらす。

（カオス領域分類モジュール２１４あるいは２４４）
このモジュールは、非予測性、規則性要素およびより小さなサブ配列に分解できない要素の３つの成分を有する。

（ＤＮＡ派生モジュール２１６あるいは２４６）
このモジュールは、ＤＮＡ列を左から右に読み取るおよび／あるいは右から左に読み取るにつれて内容における単調変化が観察できる環境を作り出す。ＤＮＡ派生が陽性の場合、転送される情報は増加する。ＤＮＡ派生が陰性の場合、転送される情報は減少する。ＤＮＡ派生が０の場合、転送される情報は一定である。

（ＤＮＡ分岐モジュール２１８あるいは２４８）
このモジュールは、ＤＮＡマップがパラメータ変更を受けるに従ってＤＮＡの変化を分析するものである。これらの変更はＤＮＡの周期的サブ配列と関係することが多いが、他の変化とも関係する。

（ＤＮＡ軌道モジュール２２０あるいは２５０）
ＤＮＡ配列の分析の性質が数学的であっても、このモジュールは「サブ配列はどこに行きまたそこにたどり着いてから何をするのか？」という幾分非数学的な疑問に答える環境を作り出す。このモジュールは、ＤＮＡ配列は非連続的群であると仮定してあるサブ配列を他の配列に適用する幾何学的プロセスを意味する。

（分析挙動プロファイラモジュール２２２あるいは２５２）
このモジュールはその全ての子モジュールを考慮に入れるので、生物学的内容を失わない代数的関数法によりそれらを連結する。そして、子モジュールからのダイナミックな情報を代数学的に同等なクラスに細分化して情報をさらに精緻なものにする。

（ＤＮＡトポロジー共役モジュール２２４あるいは２５４）
このモジュールはデータセットとデータセット、ＤＮＡサブ配列とＤＮＡサブ配列、および複数のＤＮＡ配列とＤＮＡ配列を関連付ける。配列を完全に等しいものと等しくないものに分類する環境を作り出す。

（構造安定領域モジュール２２６あるいは２５６）
このモジュールは全ての軌道の理解、および周期的、最終的に周期的漸近性、等の軌道群を特定することに関する。所与のデータセットを理解する定性的および／あるいは幾何学的技術の実施。

（分解不可能領域モジュール２２８あるいは２５８）
このモジュールは全ての非軌道の理解、および非周期的、最終的に周期的漸近性、等の非軌道群を特定することに関する。所与のデータセットを理解する定性的および／あるいは幾何学的技術の実施。

（ＤＮＡ複雑度ベースモジュール２３０あるいは２６０）
このモジュールは、非周期的サブ配列が他の配列に任意に近づく様態を観察することのできる普遍的ＤＮＡ群を作成する。当該モジュールは、言語的挙動が言語的密度の高い軌道を作り出す多くの位置で一致する環境を作り出す。これらの軌道はトポロジー的に遷移的と呼ばれる。

（ＤＮＡアライナモジュール２３２あるいは２６２）
このモジュールは配列アラインメントを分析するツールキットのシステムのＶａＳＳＡバージョンである。さらに、モジュールはシンボリックＤＮＡ軌道などの追加的生物学的情報モジュールによって拡張される。

図３〜図２９はＶａＳＳＡ実行中のＶａＳＳＡによるグラフィカルユーザーインターフェース（ＧＵＩ）の典型的実施形態を図示する。

アラインメントされた配列は配列ファイルに上書きされるか、あるいは別のファイルに書き込まれる。そしてアラインメントされた２つの配列の百分率を示すアラインメント百分率を算出することもできる。

オメガ類似性スコア（ω_０である）も算出することができる。ω_０の代数的構造は以下のように定義される。

このオメガ類似性スコア、あるいはω_０値は２本のヌクレオチド列ｓとｔの非バイナリ比較である。これは前述の方程式のＳ_ｉ／ｔ_ｉをＳ_ｉ／Ｓ_ｉ＋１に置換することによって容易に単鎖分析用に変更することができる。

オメガ類似性スコアは数種類の方法で算出することができる。Ｓ_ｉ／ｔ_ｉ比較の値はＤＮＡヌクレオチドの化学構造の類似性に基づく。ＤＮＡにはアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびチミン（Ｔ）の４種類の塩基があると思われる。ＲＮＡでは、チミンはウラシル（Ｕ）に置換される。これらの塩基の構造は図３３に示す。プリン、アデニンおよびグアニンは二環構造を有し、またピリミジン、シトシン、チミンおよびウラシルは単環構造を有する。数値は多様な塩基環の構造の差異を表す。プリン塩基構造には、大きな六員環と小さな五員環と見なすことのできる２つの環がある。ピリミジン構造は１つの環のみを有する。数値はプリン／プリン、ピリミジン／ピリミジン、プリン／ピリミジンおよびピリミジン／プリンの４カテゴリーに分けることができる。

ＤＮＡ配列を比較する従来の方法は、塩基配列をバイナリ法で比較、即ち塩基が同一であるか異なるか単純に評価することにより実施する。１つの態様においては、本発明は塩基が異なることを考慮に入れるだけでなく、相違度も測定するＤＮＡ比較法である。従って、本発明はＤＮＡ配列を比較する非バイナリ法を含む。

第１の実施形態においては、主として立体化学的考察が考慮される。この実施形態においては、塩基が同一の場合は数値０を割り当て、プリン／プリン、ピリミジン／ピリミジン配列であって、塩基は異なるが環のサイズが変わらない場合は１を割り当て、塩基環のサイズが変化するプリン／ピリミジンおよびピリミジン／プリンには２を割り当てる。従って、ω_０は塩基の同一性の相違だけでなく、プリン類とピリミジン類の化学構造の相違度も反映する。

第１の実施形態は表１に例示される。

本発明の第２の実施形態は、さらに分子構造の各部分において塩基ｔ_ｉにない塩基ｓ_ｉの要素の数を考慮する。プリン／プリン値は大きな環と小さな環を共に比較する。これは、分子配列が最も類似し、また両方のプリン分子がサイズおよびその化学的要素の配列について同様にふるまう場合である。本明細書でω_０と表示する数値は、１つの実施形態では第１の配列中にあって第２の配列にない原子の数を計算することにより算出される。例えば、第１の配列ｓが位置ｉにグアニン（「Ｇ」）ヌクレオチドを有し第２の配列ｔが対応する位置にアデニン（「Ａ」）を有する場合、位置ｉ（本明細書ではＳ_ｉ／ｔ_ｉを指す）におけるω_０値はｓ_ｉにあってｔ_ｉになくかつ／あるいはｔ_ｉの他の位置にある原子の数を判定することにより算出される。ここで図３３を参照すると、グアニン分子においては、酸素原子（１）、大きな環と結合した水素原子（２）およびＮＨ_２基の原子（３，４，５）、および小さな環の二重結合の炭素原子の対側に結合した水素（６）および炭素（７）原子は、アデニン分子中に存在しないか、あるいは異なる位置にある。したがって、Ｓ_ｉ／ｔ_ｉ＝７である（式中ｓ_ｉ＝Ｇかつｔ_ｉ＝Ａ）。そのためω_０はプリン類の化学構造の相違度および類似度を反映する。これらの相違性および類似性はヌクレオチド配列のコードおよび非コード領域において生物学的意味を持つ。ω_０の算出は、他の実施形態における各化学要素についての結合レベルにおいてより正確な情報により変更することもできる。

オメガ値の算出においては、ω値が０に等しい場合は、化学的に完全に同一である。オメガ値が０に等しくない場合、オメガ値は異なる化学要素の数を表す番号を示す。４つのヌクレオチドについての完全な分析は以下の表２に示す。ピリミジン／ピリミジン分析におけるｓ_ｉ／ｔ_ｉ値は、単環のみを考慮する場合を除き、プリン／プリン値と類似した方法で実施される。プリン／ピリミジンあるいはピリミジン／プリン値においては、プリンの大きな環をピリミジン環と比較するが、プリンの大きな環は逆時計回り、ピリミジン環は時計回り（あるいはその逆）として比較を実施した。分子の構造を図３３に示す。しかし、ヌクレオチド要素構造は二環対単環などについて実施するので測定値は変化しない。

この第２の発明の実施形態を用いて、表２に示すようにｓ_ｉ／ｔ_ｉ値を決定するための数列を作成することができる。

図３４Ａ〜３４Ｃはオメガ数の結果および関与する化学要素のいくつかの例を示す。図はＡ／ＧがＡ／ＣおよびＡ／Ｔよりも類似し、Ｇ／ＡがＧ／ＣおよびＧ／Ｔに類似…する理由を図示する。ω値が同一のＧ／ＡおよびＧ／Ｔ数を作成しても、関与する化学要素は異なる。表の要素の重複は、関与する要素を示す図によって解明される。これらの類似性あるいは相違性の現実的な有意性は、本配列アラインメント検索における従来の生物学的重要度の完全性を損なうことなく、配列群がどの程度類似あるいは相違しているかを記述できるようになる。他の相違行列は他の塩基間の化学的比較に基づいて用いることができる。

本開示の観点より、当業者はＲＮＡおよびタンパク質についての対応する表を構築することができるであろう。

一つの実施形態においては、２つの代替的配列ｔおよびｒ：
ｔ＝ＡＡＧＣＣ
ｒ＝ＡＡＧＡＣ
を天然配列ｓと比較する。
ｓ＝ＡＴＡＧＣ

ｒおよびｔはｓに対して３塩基異なることが確認される。しかし、ｒおよびｓは同一でないので、考慮すべき問題は「ｒとｔのいずれがよりｓに類似しているか」である。

従来の手法を用いて、ｔおよびrをそれぞれｓと比較するために量Ｓ（ｓ，ｔ）およびＳ（ｓ，ｒ）を定義することができる。Ｓ（ｘ_ｉ，ｙ_ｊ）＝ｓ（ｘ_ｉ，ｙ_ｊ）＝｛＋１，ｘ_ｉ＝ｙ_ｊ，−μ，ｘ_ｉ≠ｙ_ｊ，および以下の式（式中μは定数）である共通ＢＬＡＳＴシステムを用いるとき、ｓとｔについての類似性スコアは
Ｓ（ｓ，ｔ）＝２−３μ
Ｓ（ｓ，ｒ）＝２−３μ
となる。

見かけ上の差は認められなかった。

上述の本発明の第１の実施形態を表１と共に用いると、ω_０（ｓ、r）およびω_０（ｓ、ｔ）値は以下の通りに定義される。
ω_０（ｓ，ｒ）＝（０＋２＋１＋１＋０）＝４
ω_０（ｓ，ｔ）＝（０＋２＋１＋２＋０）＝５
したがって我々は差があると見る。

上述の本発明の第２の実施形態を用いて、以下の式（１）を用いてω_０（ｓ、ｒ）およびω_０（ｓ、ｔ）値を算出する（式中Ｎは比較する２つの配列のうち短い方の長さをあらわす）：

この場合以下の通りに算出される。

セグメントｒはｔよりもｓに類似している。

第２の実施形態の整数が重複しているため、例えばＡ／Ｃに対するＡ／Ｇの値が同一である配列が発見される可能性もあるが、計算の関与する化学を検討すると非常に異なっている。これは分子が多様なコミュニケーションを行うために同じ情報を伝達しない様態を示す。

ゲノム全体の配列については、正規化法を用いて以下の式２に示す。したがって、ヌクレオチドの各位置のＤＮＡ配列は列内の特異的位置を表す。短鎖では、相違度を測定するために分母を用いる。長鎖については、分母の対数的増大を排除する方程式（２）と共に以下に論じる正規化技術を用いる。これによりＶａＳＳＡはその独自のアドレスについて各位置をプロットすることができる。これらの固有の位置についてのこのオメガ値は各ヌクレオチドについて固有の構造挙動、およびこれが存在する鎖に関してこれをプロファイリングする方法を作成する。

（コンピュータプログラム製品）
典型的な実施形態においては、本発明の方法は、例えばコンピュータなどのマシンに読み取られるときマシンに上述の方法を実施させる、マシン読み取りメディア上で具現化されることもある。さらに、本発明のこの実施形態は，ユーザーが遺伝物質の配列を比較し、さらに配列および比較結果を分析することを可能とするグラフィカルユーザインターフェース（ＧＵＩ）を提供することもある。

例えば図３に見られるように、ＧＵＩはファイル管理、レポーティング、分析、プロッティング、ユーザーオプションの設定、およびユーザーヘルプのモジュールを提供することもある。

図４に示すように、ファイル管理モジュール３００は、１つあるいはそれ以上の配列ファイルを読み込むファイル読み込みモジュールをさらに含むことがある。ファイルは単独の配列を含むこともあれば複数の配列を含むこともある。これらの配列はディスク、ＣＤなどから読み込むことができる。これらの配列は保存しなくともよく、受信時に「転送時」分析することも可能である。配列ファイルはＦＡＳＴＡフォーマットされることもあれば、他のフォーマットでフォーマットされることもある。読み込みの際は、各配列は独自の参照番号に割り当てられ、全ての文字が有効であることをチェックすることもある。

ファイル管理モジュール３００は、メモリからアクティブ配列を削除あるいは「フラッシュ」することのできるアクティブ配列フラッシュモジュールを含むこともある。フラッシュされるとき配列の参照番号は保持される。ファイル管理モジュール３００は読み込まれた配列をメモリよりフラッシュするモジュールを含むこともある。アクティブ配列とは、分析が実施されている間、読み込まれた配列がメモリにもある配列でありながら現時点でこれに対して分析が実施されていない配列である。

配列を読み込むモジュールは、配列を読み込む際にサマリレポートノートブックページを作成および表示する、読み込み配列を表示するモジュールを含むこともある。図５に示すように、サマリレポートノートブックページイル名および配列番号を表示することもある。

レポートモジュール５００は固有の参照番号、配列ヘッダ、および配列の長さを含む全ての読み込み配列の配列サマリ（図６）、ＦＡＳＴＡフォーマットの固有の参照番号および配列内容を含む各読み込み配列の内容のリスト（図７）、および／あるいは固有の参照番号、配列ヘッダ、および各標準配列文字を含む各読み込み配列についての統計情報（図８）を作成および表示する。配列文字が認識されない場合、レポートモジュールはエラー信号を作成して各読み込み配列についての統計情報の「エラー」カラム（図８）にリストアップする。

分析モジュール２００は数多くのサブモジュールを含む。例えば、配列アラインメントサブモジュールはターゲット配列をベース配列に対してアラインメントし、アラインメントレポートを表示する（図９）。配列アラインメントモジュールは塩基配列を逆転し、モードを逆転し、ベースおよびターゲットを最短の長さにアラインメントし、アラインメント百分率を算出するか、あるいはオメガ類似性スコアを算出した（図１０）。オメガ類似性スコアはターゲットがベースに類似しているか否か、およびどの程度類似しているか判定するために用いることもある。オメガ類似性スコア値が1/２”未満の場合（式中ｎはｓおよびｔの２配列のうち最長の長さである）、２配列は同様であるということができる。オメガ類似性スコア値が１/２”を上回る場合、配列は類似していないといわれる。

ＶａＳＳＡ分析のメニューオプションのタスクは以下のものを含むが、これに限定されない。

（１．ベース逆転）
ＶａＳＳＡ分析メニューの下にベース逆転オプションがある。ベース逆転の１つの機能はユーザーが配列の切替えを可能とすることである。例えば配列が５’から３’方向である場合、その後ベース逆転機能で３’から５’方向に切り替える（しかし相補鎖方向ではない）。

（２．モード（mod）逆転）
モード逆転オプション機能は、モジュール計算の逆転を可能にすることである。「モード計算を逆転させること」はｓ_ｉ／ｔ_ｉからｔ_ｉ／ｓ_ｉに変更することを意味する。ω_０は定義上対象な操作でないためこれは重要である。

（３．ベースおよびターゲット配列の最短鎖長へのアラインメント）
ベースおよびターゲット配列は長さが異なるかあるいは同一である２配列の列である。列の長さが異なる場合、分析の第一の部分はアラインメントして最短配列の末端で停止することである。同じ長さである場合、配列分析は各列の末端まで実施する。

（４．アルファ数値アラインメント百分率およびオメガ類似性スコア）
アルファ数値アラインメントは、ヌクレオチド総数に対するアラインメントしたヌクレオチドの総数である百分率をもたらすアラインメントである。図１３に示すように、オメガサブゼロ（ω_０）モジュールは配列についてω_０を算出し、ω_０スコアを表示する。１塩基を選択することも全ての読み込み配列を選択することもできる。レポートは参照番号、長さあるいはオメガスコアでソートすることができる（図１４）。ベース配列およびモードはそれぞれ逆転することができる。

ω_０値は、ベース配列およびターゲット配列について単鎖モジュールにより算出することもできる。方程式６の簡略化バージョンである以下の単鎖方程式（２）を検討すること（方程式の複鎖形は以下で論じる）。

式中
ｚ_１は単鎖を表す。即ち、ｚ_１＝ｓ_ｏｓ_１…ｓ_ｋ…である（式中各ｓ_ｋはＡ、Ｇ、ＣあるいはＴである）。

Ｚ_１ ^λ１はλ_ｉ番目の位置およびλ_ｉ＋１番目の位置にあるヌクレオチドに対応する（式中ｉはｌ＝１、２、３…と設定されたインデックス中の１つの番号である）。

ｉ番目の位置およびｉ＋１番目の位置で係数ｃ_λｉ＝Ｓ_ｉ／Ｓ_ｉ＋１λである（式中ｉはｌ＝１、２、３…と設定されたインデックス中の１つの番号である）。

したがって、典型的な４つのヌクレオチド鎖ｚ_１＝ＡＣＧＴ、Ｃ_１（ｚ_１）は係数群［ｃ_０、ｃ_１、ｃ_２］である（式中各係数は鎖中の位置ｉについてＺ_１ ^λｉ／Ｚ_１ ^λｉ＋１を決定することにより算出され（終末位置を除く）、この場合は［Ａ／Ｃ，Ｃ／Ｇ，Ｇ／Ｔ］＝［６，７，８］に等しい）。これらの係数は鎖中の位置（言い換えれば数値ｌ）がｘ軸上に表示され、対応する係数がｙ軸上に表示される鎖ｚ_ｌについて単鎖プロットを形成するために用いることができる（２鎖についての単鎖プロットの例を図２７に示す）。

クエリ反復モジュールはベース配列中の複数のユーザー指定ターゲット配列の発生の位置を特定し、複数の発生を表示することができる。ターゲット配列の複数の発生を本明細書で反復と呼ぶ。ＶａＳＳＡには反復とオメガ反復の２種類の反復がある。反復はシンボルにシフト機能を用いるのみであり、またオメガ反復はオメガ類似性値にシフト機能を用いる。図１１に示すように、ユーザーは検索するベース配列および検索対象のターゲット配列を選択することができる。ユーザーは閾値を指定して検索範囲を広げたり絞り込んだりすることもできる。ベースあるいはターゲット配列も逆転することができる。次に、ユーザーが閾値を指定してターゲットあるいはサブターゲットが出現する位置を特定する場合、クエリ反復モジュールでサブターゲットを作成することができる。１つの実施形態では、ターゲットがＡＧＣＴである場合、クエリ反復モジュールはＡＧＣおよびＧＣＴサブターゲットを作成することができる。図１２に示すように、反復ターゲットおよびサブターゲットはＧＵＩウインドウページのトップメニューで反復ターゲットおよびサブターゲットを検出する回数と共に認識される。ターゲット配列の発生はハットマーク１２０１によって識別され、サブターゲット配列の発生は星印１２０２で識別される。

図１５および１６に示すように、クエリオメガ反復モジュールはクエリ反復モジュールに関して先に述べたものを全て獲得する。しかし、さらに列のセグメント内の反復ヌクレオチドがその列の他のセグメントに多様に（少なくともω値に関して）コミュニケートできる方法も拾い上げる。したがって、クエリオメガ反復は反復が２倍になる場合および反復がない場合を拾い上げることができる。

図１７および１８に示すように、勾配算出モジュールはベース配列における各ヌクレオチドの位置について勾配を算出し、勾配レポートを表示することもある。典型的な実施形態においては、勾配は以下の式（３）を用いて算出することもある。

式中ｋはＤＮＡ配列におけるヌクレオチドの固有の位置を表す。ω_ｋ＝Ｓ_ｋ／Ｓ_ｋ＋１であり、ω_ｋは一連のω_０のうちｋ番目である。式は二次元プロフィールの凹んだ部分に関する情報を作成するのに用いることもある。Ω_ｋが正の場合、転送される情報は増加し、二重鎖を連結する結合は延長する（したがって短いものよりも弱くなる傾向にある）。Ω_ｋが負の場合、転送される情報は減少し、二重鎖を連結する結合は短縮する（かつ強くなる傾向にある）。したがって、正および負のプロットはある配列におけるある位置から次の位置への情報の流れのプロフィールである。勾配グラフは情報フローの変化のプロットである。配列内の情報の変化が同じである部分（符号チャートでは０）および異なる部分を示す。情報が全く同じであるが方向が違う部分も示す。グラフ（その例を図３０に示す）を作成するために、ヌクレオチドの位置を勾配値に対してプロットする。したがって、方程式３はＶａＳＳＡにおいて符号チャートおよび勾配プロットが作成するものである。いずれの例でも、鎖中のヌクレオチド特異位置はX軸に対応し、Ω_ｋ値はｙ軸に相当する。

１つの実施形態においては、ＡＧＣ配列においてＡからＧへの変化は以下のように算出される。Ａは位置ｋ−１にあり、Ｇはｋ、Ｃはｋ＋１にある。したがって表２の値に基づくＯｍｅｇａ（ｋ）はＧ／Ｃ−Ａ／Ｇ＝１０−６＝４である。従ってＡからＧへの変化は正であり、勾配レポートでは「＋」で表すこともある。

図１９および２０に示すように、配列比較サブモジュールはターゲット配列とベース配列を比較して類似性レポートを表示することもある。配列比較サブモジュールは、ベース配列を逆転し、ターゲット配列を逆転し、モードを逆転し、各ベースおよびターゲット配列についてω_Ｎ値を算出し、ベースおよびターゲット配列をバイナリに変換し、ベース配列とターゲット配列の距離を算出し、かつ距離が結合を上回るか否か判定することもある。

図２１〜２５に示すように、プロットモジュールは数多くのプロッティングサブモジュールを含む。例えばスペクトルアレイサブモジュールはベース配列およびターゲット配列に対するアラインメント係数をプロットすることもある。スペクトル配列サブモジュールはラジアル比較についてのω_ｎ値を算出し、アラインメント係数を抽出することもある。ラジアル比較においては、スペクトルアレイサブモジュールは以下の式（４）及び（５）を用いることもある。

この式はマルチ配列についてのものである。１に関して複数の合計に用いられる概念である固有のスペクトル分析の作成を許容する。これらは、その位置に対してω_０に関して作成した各配列において作成した係数である。各配列位置のヌクレオチドはＺ_１ ^λｉＺ_２ ^λ２ｉ…Ｚ_１ｎ ^λｎｉと表示される。

方程式４および５の形成はＶａＳＳＡにおけるプロットの作成を許容する。式の係数構造は図２５に示す三角形構造で捕捉することができる。スペクトル項増はＤＮＡ鎖においてスペースを挿入あるいは欠失することなく最適化を確認することができる三角形である。図２４は式を用いる際に係数がどのように作成されるかを２つの鎖について示す。単鎖プロットは同じ構造を有するが数値は異なる。非バイナリ法であるため、プロットが等しい部分と異なる部分を正確に確認することができる。周期性がある場合も正確に確認することができる。関数は分析的であるので、ヌクレオチドの位置の特異性に影響することなくシフトを公式化することもできる。実施形態の１つを図２７に示す。ＶａＳＳＡにおけるスペクトルアレイプロットは図２５の三角形構造の中心から右下の係数を用いる。このプロットの例が図２２である。そこでのグラフはゼロであるのでダイレクトアラインメントを有する場所の情報を有する。また一定の高さの棘もある。同様の情報は単鎖プロットとして確認することができる。しかし相違度は棘の高さについて視覚化することができる。三角形内のポインタにより最適化を実施する他の手段である完全フェーズポートレートを実施することができる。

図２６〜２８に示すように、単鎖サブモジュールはベース配列とターゲット配列についての単鎖をプロットすることもある。単鎖サブモジュールはベース配列とターゲット配列の比較についてのω_ｎ値を算出することもある。単鎖サブモジュールは方程式（４）を用いて以下の式（６）が方程式（５）の簡略化版であるプロットを算出することもある。

しかしこの方程式は単鎖をプロファイルすることを可能とする。

図２９〜３０に示すように、勾配モジュールはベース配列における各ヌクレオチドの位置について勾配を算出し、勾配レポートを表示することもある。ω_ｎモジュールはベース配列についてω_ｎを算出してω_ｎプロットを表示することがある。ω_ｎモジュールは方程式（６）を用いることもある。

勾配プロット作成は図３０のプロットを作成すると思われる。勾配プロットは情報フローの単調性のグラフである。このプロットによりユーザーは単鎖プロット上に局所的および大域的最大値および最少値を決定することができる。またユーザーは単鎖プロットの局所領域および大域領域においてくぼみを判定することもできる。

本発明の多様な実施形態が上に述べられているが、例示の手段としてのみ提示されているのであって限定ではないことを理解しなければならない。従って、本発明の幅と範囲は上記の典型的実施形態のいずれによっても限定されるべきではなく、その代わり前記の請求項およびこれに等しいものに従って定義されるべきである。

本発明による例示的な方法のフローチャートを図示する。本発明によるＤＮＡ分析モジュールのサブモジュールの典型的実施形態を図示する。バリエーションシークエンスソフトウェアアプリケーション（これ以降「ＶａＳＳＡ」と表記）のＧＵＩメインウィンドウの典型的実施形態を図示する。ＶａＳＳＡのファイルメニューウインドウの典型的実施形態を図示する。ＶａＳＳＡのノートブックビューワウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列サマリレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列ビューレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列ビューステータスウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列アラインメントメニューウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列アラインメントレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡのクエリレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡのクエリ反復ウインドウの典型的実施形態を図示する。ＶａＳＳＡのオメガサブゼロウインドウの典型的実施形態を図示する。ＶａＳＳＡのオメガサブゼロレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡのクエリオメガ反復メニューウインドウの典型的実施形態を図示する。ＶａＳＳＡのクエリオメガ反復レポートの典型的実施形態を図示する。ＶａＳＳＡの勾配算出ウインドウの典型的実施形態を図示する。ＶａＳＳＡの勾配算出レポートの典型的実施形態を図示する。ＶａＳＳＡの配列比較ウインドウの典型的実施形態を図示する。ＶａＳＳＡの配列比較レポートウインドウの典型的実施形態を図示する。ＶａＳＳＡのスペクトルアレイウインドウの典型的実施形態を図示する。ＶａＳＳＡのスペクトルアレイプロットウインドウの例示的実施形態を図示する。スペクトルアレイ式の図を示す。スペクトルアレイ式の例をスキームズ図で示す。スペクトルアレイ三角形構造の図を示す。ＶａＳＳＡの単鎖ウインドウの典型的実施形態を図示する。ＶａＳＳＡの単鎖プロットレポートウインドウを、２つの３６０塩基配列（上）およびその配列の２５０から２９５領域（下）を単塩基分解により比較して図示する。単鎖配列間の比較を示すＶａＳＳＡの単鎖プロットレポートウインドウの典型的実施形態を図示する。ＶａＳＳＡの勾配プロットウインドウの典型的実施形態を図示する。単配列の勾配プロットを図示する。ＶａＳＳＡのオメガサブＮウインドウの典型的実施形態を図示する。ＶａＳＳＡのオメガサブＮプロットウインドウの典型的実施形態を図示する。グアニン、シトシン、アデニン、チミンの４塩基およびＲＮＡにおいてチミンの代わりとなるウラシルの化学構造を図示する。Ａ／Ｇ比較と関係する各要素の図を示す。Ｇ／Ａ比較と関係する各要素の図を示す。Ａ／Ｃ比較と関係する各要素の図を示す。本発明によるＤＮＡトポロジー共役モジュールの典型的実施形態を示す。本発明によるＤＮＡ近似モジュールの典型的実施形態を示す。本発明によるＤＮＡ軌道モジュールの典型的実施形態を示す。本発明によるカオス領域分類モジュールの典型的実施形態を示す。本発明によるＤＮＡ分岐モジュールの典型的実施形態を示す。本発明によるＤＮＡ派生モジュールの典型的実施形態を示す。本発明によるＤＮＡ分析挙動プロファイラモジュールの典型的実施形態を示す。本発明による構造安定領域モジュールの典型的実施形態を示す。本発明による分解不可能領域モジュールの典型的実施形態を示す。本発明によるＤＮＡ複雑度ベースモジュールの典型的実施形態を示す。本発明によるＤＮＡアライナモジュールの典型的実施形態を示す。本発明による非バイナリ配列比較システムの典型的実施形態を示す。

Claims

配列分析を目的とするシステムであって、
第１のヌクレオチド配列と第２のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール、および
類似性スコアの出力を目的とした分析モジュールと通信する出力を含む前記システム。
請求項１に記載のシステムであって、前記類似性スコアが各塩基対の類似性スコアの組み合わせに基づいているシステム。
請求項２に記載のシステムであって、前記の塩基対についての類似性スコアが塩基対の化学構造の類似性に依存するシステム。
請求項３に記載のシステムであって、塩基対についての前記類似性スコアが前記塩基対の前記ヌクレオチドが一致する場合は第１の数値、前記塩基対の前記ヌクレオチドが一致しないが同じ構造を有する場合は第２の数値であり、かつ前記の第１、第２および第３の数値が異なるシステム。
請求項３に記載のシステムであって、塩基対についての前記類似性スコアが塩基対の相対的位置に基づいて決定されるシステム。
請求項３に記載のシステムであって、塩基対についての前記類似性スコアが前記第１の配列の前記ヌクレオチド中の前記第２の配列の前記ヌクレオチドに存在しない前記第１の配列の前記ヌクレオチド中の要素の数に基づいているシステム。
請求項１に記載のシステムであって、レポートモジュール、ファイル管理モジュール、およびプロットモジュールをさらに含むシステム。
請求項７に記載のシステムであって、ユーザーオプションモジュールあるいはユーザーヘルプモジュールあるいはその両者を含むシステム。
請求項１に記載のシステムであって、前記ファイル管理モジュールが
少なくとも１つの配列ファイルを読み込むよう適合化された配列読み込みモジュール、
メモリから配列ファイルをフラッシュするよう適合化されたアクティブ配列フラッシュモジュール、および
読み込んだ配列ファイルを前記メモリからフラッシュするよう適合化された読み込み配列フラッシュモジュールを含むシステム。
請求項９に記載のシステムであって、前記配列読み込みモジュールが、
配列を読み込む際にサマリレポートノートブックページを作成して表示するよう適合化された読み込み配列ディスプレイモジュールであって、前記サマリレポートノートブックページが配列ファイル名および配列番号を表示するよう適合化された読み込み配列ディスプレイモジュールを含むシステム。
請求項１に記載のシステムであって、前記レポートモジュールが、
配列サマリ、各読み込みファイルの内容のリスト、あるいは各読み込み配列に関する統計情報のうち少なくとも１つを作成および表示するよう適合化されるシステム。
請求項１に記載のシステムであって、前記分析モジュールが、
ターゲット配列をベース配列にアラインメントしかつアラインメントレポートを表示するよう適合化された配列アラインメントモジュール、
配列についてω_０スコアを算出し前記ω_０スコアを表示するよう適合化されたω_０モジュール、
前記ベース配列中の複数の前記ターゲット配列の発生の位置を特定し、前記複数の発生を表示するよう適合化されたクエリ反復モジュール、
反復ヌクレオチドが重複する場合を判定するよう適合化されたクエリオメガ反復モジュール、
前記ベース配列における各ヌクレオチドの位置について勾配を算出しかつ勾配レポートを表示するよう適合化された勾配算出モジュール、および
前記ターゲット配列を前記ベース配列と比較しかつ類似性レポートを表示するよう適合化された配列比較モジュールを含むシステム。
請求項１２に記載のシステムであって、前記配列アラインメントモジュールが、前記ベース配列の逆転、モードの逆転、前記ベースおよび前記ターゲットの最短鎖長へのアラインメント、アラインメント百分率の算出、あるいはオメガ類似性スコアの算出のうち少なくとも１つを実行するようさらに適合化されるシステム。
請求項１２に記載のシステムであって、前記配列比較モジュールが、
前記ベース配列の逆転、
前記ターゲット配列の逆転、
モードの逆転、および
前記ベースおよび前記ターゲット配列のそれぞれについてのω_０値の算出のうち少なくとも１つを実行するようさらに適合化されたシステム。
請求項１に記載のシステムであって、前記プロットモジュールが、
ベース配列およびターゲット配列に対するアラインメント係数をプロットするよう適合化されたスペクトルアレイモジュール、
前記ベース配列および前記ターゲット配列に対する単鎖をプロットするよう適合化された単鎖モジュール、
前記ベース配列における各ヌクレオチドの位置について勾配を算出しかつ前記勾配のプロットを表示するよう適合化された勾配モジュール、および
前記ベース配列についてω_Ｎを算出しかつ前記ω_Ｎを表示するよう適合化されたてω_Ｎモジュールを含むシステム。
請求項１５に記載のシステムであって、前記スペクトルアレイモジュールが、
ラジアル比較についてのω_Ｎ値を算出し、かつ
アラインメント係数を抽出するようさらに適合化されたシステム。
請求項１５に記載のシステムであって、前記単鎖モジュールが前記ベース配列および前記ターゲット配列についてω_Ｎ値を算出するようさらに適合化されたシステム。
請求項１に記載のシステムであって、前記分析モジュールが単鎖ＤＮＡ分析モジュールおよび複鎖ＤＮＡ分析モジュールを含むシステム。
請求項１８に記載のシステムであって、前記単鎖ＤＮＡ分析モジュールおよび前記複鎖ＤＮＡ分析モジュールが、ＤＮＡ近似モジュール、カオス領域分類モジュール、ＤＮＡ派生モジュール、ＤＮＡ分岐モジュール、ＤＮＡ軌道モジュール、分析挙動プロファイラモジュール、ＤＮＡトポロジー共役モジュール、構造安定領域モジュール、分解不可能領域モジュール、ＤＮＡ複雑度ベースモジュール、およびＤＮＡアライナモジュールからなる群から選択される少なくとも１つのモジュールを含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡ近似モジュールが正則形態ジェネレータモジュール、近似コンストラクタモジュール、Ｐ＆Ｑ係数算出モジュール、ＪＣ−ＤＮＡ曲線ジェネレータモジュール、低複雑度ジェネレータモジュール、ターゲット分類モジュール、シンボリックＤＮＡ軌道モジュール、およびＤＮＡ軌道分析モジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記カオス領域分類モジュールが、ＤＮＡ感受性ジェネレータモジュール、ＤＮＡ転送性ジェネレータモジュール、および高密度周期配列ジェネレータモジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡ派生モジュールが派生ジェネレータモジュールおよび単調ジェネレータモジュールからなる群から選択される少なくとも１つのモジュールをさらに含み、かつ前記単調ジェネレータモジュールが陽性測定モジュールおよび陰性測定モジュールを含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡ分岐モジュールがＤＮＡ転送性スプリッタプロファイラモジュールおよびＤＮＡ高密度スプリッタプロファイラモジュールからなる群より選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡ軌道モジュールがシンボリックＤＮＡ軌道モジュールおよびＤＮＡ軌道分析モジュールからなる群より選択される少なくとも１つのモジュールをさらに含むシステム。
請求項２４に記載のシステムであって、前記シンボリックＤＮＡ軌道モジュールが、シンボリックフロージェネレータモジュール、行差分ジェネレータモジュール、および軌道ジェネレータモジュールを含み、かつ前記ＤＮＡ軌道分析モジュールが前方分析プロファイラモジュール、後方分析プロファイラモジュール、ＤＮＡアトラクタジェネレータモジュール、およびＤＮＡリペラジェネレータモジュールを含むシステム。
請求項１９に記載のシステムであって、前記分析挙動プロファイラモジュールがさらに、代数構造ジェネレータモジュール、準同型ジェネレータモジュール、および同型ジェネレータモジュールからなる群より選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡトポロジー共役モジュールが、分析プロファイラモジュール、分析マッパモジュール、共役比較モジュール、第１反復分析モジュール、およびフェーズポートレートジェネレータモジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記構造安定領域モジュールが、反復ジェネレータモジュール、前方漸近性モジュール、および安定性プロファイラモジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記分解不可能領域モジュールが、ＤＮＡ軌道分析モジュール、非反復ジェネレータモジュール、および分解不可能プロファイラモジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡ複雑度ベースモジュールが、反復ジェネレータモジュール、ユニバーサルＤＮＡベースジェネレータモジュール、および高密度ジェネレータモジュールからなる群から選択される少なくとも１つのモジュールをさらに含むシステム。
請求項１９に記載のシステムであって、前記ＤＮＡアライナモジュールがシンボリックアライナモジュールおよびオメガ比較アライナモジュールからなる群より選択される少なくとも１つのモジュールをさらに含むシステム。
配列分析を目的とした方法であって、
配列ファイルの読み取り、
前記ファイルからのターゲット配列およびベース配列の選択、
前記ターゲットおよびベース配列の各塩基対間での非バイナリ比較の実施であって、前記非バイナリ比較が各塩基対について比較値を作成する非バイナリ比較の実施、および
前記比較値に基づく前記ターゲットおよび前記ベース配列の間の類似性の判定を含む方法。
請求項３２に記載の方法であって、
前記ファイルへのアラインメントされた配列の書き込み、および
アラインメント百分率の算出をさらに含む方法。
請求項３２に記載の方法であって、二次元スペクトルアレイプロットあるいは二次元単鎖プロットのうち少なくとも一方の作成をさらに含む方法。
請求項３４に記載の方法であって、前記スペクトルアレイプロットの作成が
ω_Ｎの算出、
ラジアル比較の実施、
アラインメント係数の抽出、および
前記アラインメント係数のプロッティングを含む方法。
請求項３５に記載の方法であって、前記ベースあるいは前記ターゲットのうち一方の逆転および計算の逆転をさらに含む方法。
請求項３２に記載の方法であって、前期非バイナリ比較の実施が２つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表の使用を含む方法。
請求項３２に記載の方法であって、前記類似性が以下の式で決定される方法。