上記した技術の第一の問題についての原因は、プローブ毎、アレイ毎および作成ロット毎の基板または基質に固定されるプローブ分子数およびプローブ配列の誤差や、ハイブリダイゼーション毎の物理化学的条件の誤差等が重なり合うためと考えられる。プローブ毎及びアレイ毎の固定分子数の誤差は、基板または基質にプローブDNAを固定する際、固定用の機器や酵素や化学反応の固定効率がプローブ毎及びアレイ毎に異なり、結果としてプローブ間及びアレイ間でスポット毎に固定されるスポットの分子数が異なることに起因すると考えられる。
また、ハイブリダイゼーション毎の誤差は、ハイブリダイゼーションとこれに続くDNAマイクロアレイの洗浄において、温度・pH・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲットDNA濃度・プローブおよび/またはターゲットの核酸が2本鎖か1本鎖か、などの物理化学的条件のすべてをハイブリダイゼーション毎に厳密に再現することが困難なため、ハイブリダイゼーション毎にいずれかの条件が異なることに起因すると考えられる。
これら全ての条件を毎回の実験で常に厳密に同一にすることは非常に困難なため、DNAマイクロアレイを用いた類似塩基配列の頻度解析結果の再現性は100%にはならないと考えられる。現実には、当該技術により解析を行う場合には、複数回の実験結果の平均値などの近似値を用いて解析を行わざるを得ない。
後述する本願発明に係る第一の実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行う。そのため、上記のハイブリダイゼーションにおける物理化学的条件の入り込む余地は無く、誤差等は発生しない。したがって、第一の問題を解決できる。
上記した技術の第二の問題についての原因は、DNAマイクロアレイの実験では、プローブにハイブリダイズしたターゲットの核酸の量は測定できるが、ターゲットの核酸の塩基配列情報は得られない点にある。
したがって、興味ある実験結果を得られたプローブ配列をピックアップし、それをもとに、ターゲットからそのプローブ塩基配列と類似度の高い塩基配列を持つ核酸を新たに回収し直して塩基配列を決定し、更に解析を進めるという手間がかかる。
後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に行う。そのため、上記のハイブリダイゼーションにおける結果の詳細は明確で、不明確となることはない。したがって、第二の問題を解決できる。
上記した技術の第三の問題については、完全に同一のターゲットは存在しないために、再度同一のターゲットを得ることはできず、1回に作成するDNAマイクロアレイの数は有限であるため、それらを使い尽くした後には、異なる再度DNAマイクロアレイを作成する必要がある。この作業は手間や費用がかかると同時に、作成ロット間の誤差を生じるという上述した第一の問題点を生む原因ともなる。
後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行うため、ターゲットそのものの保存は問われない。または、同一のターゲットの塩基配列を複製・再現することは比較的容易である。したがって、第三の問題を解決できる。
以下に、本発明に係る第一の実施形態について図1〜図25を用いて説明する。
図1は、本発明の第一の実施形態の例である核酸情報処理装置100を用いた核酸情報の処理の概要を示す図である。具体的には、図1は、デジタルDNAチップ(デジタルデータによるDNAマイクロアレイ)での類似塩基配列の頻度解析および核酸情報の比較の流れを表す図である。
インポートデータ1には、シークエンサーから出力されたターゲットのフラグメント塩基配列情報であるシークエンス・データおよびDNAチップを用いた実験で得られたDNAチップ実験データがインポートされている。核酸情報処理装置100の処理機能2は、インポートしたシークエンス・データおよびDNAチップ実験データならびにこれらを用いて行う下記のような様々な解析結果を格納しておくデータベース3を利用して処理を行う。
処理機能2は、解析の流れに沿って、シークエンス・データをクラスタリング処理する機能と、クラスタリングされたデータに基づいてプローブの塩基配列リストを作成し、それらの仮想的な平面上配置の設定も含むデジタルDNAチップを設計するデジタルDNAチップ設計機能と、シークエンサーから出力されたターゲットのフラグメント塩基配列情報を取り込み、プローブの塩基配列リストとの類似度およびその頻度を解析する仮想ハイブリダイゼーション機能と、仮想ハイブリダイゼーションの結果同士、またはインポートしたDNAチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とDNAチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較する機能と、を備える。
また、処理機能2は、上記機能による様々な解析結果をアウトプットして、コンピュータ画面に表示する機能をも備える。アウトプットするデータは、アウトプット・データ4に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等と、である。
図2は、核酸情報処理方法のハイブリダイゼーション処理の概要を示す図である。具体的には、図2では、DNAマイクロアレイによる解析13と、デジタルDNAチップによる解析14とについて、準備作業10と、類似塩基配列の頻度解析11と、得られる結果12と、により整理している。
DNAマイクロアレイによる解析では、ターゲットの準備作業10として、材料採取、DNA抽出およびDNA増幅を行う。また、プローブの準備作業として、プローブ配列リストを作成してプローブDNAを作成し、DNAマイクロアレイを作成する。そして、類似塩基配列の頻度解析11において、ターゲットのDNAとDNAマイクロアレイとのいわゆるハイブリダイゼーションを行う。
当該ハイブリダイゼーションでは、DNAマイクロアレイに設けられた一本鎖の塩基配列と相補的なターゲットの一本鎖の塩基配列とが水素結合により相補鎖を形成する性質を利用する。なお、相補鎖に限らず、DNAマイクロアレイに設けられた塩基配列と同一の塩基配列を有するターゲットの一本鎖についても、陽性の反応として取得する。得られる結果12として、プローブごとのクラスター・メンバー数が挙げられる。
デジタルDNAチップによる解析14では、ターゲットの準備作業10として、材料採取、DNA抽出およびターゲットフラグメント群作成を行う。ターゲットフラグメントは、塩基配列について、シークエンサーにより塩基の配列データを特定することで特定される。また、プローブの準備作業としては、プローブ群を作成する。プローブ群の作成では、過去に作成したターゲットフラグメント群のデータを再構成するものであってもよいし、既存のゲノムデータベース等のデータ、例えばGenomics & Genetics At The Sanger Institute(http://www.sanger.ac.uk/genetics/)の様々なデータベースのデータ、VAMPS(Visualization and Analysis of Microbial Population Structures)のデータベースのデータ(http://vamps.mbl.edu/)等の公開データベースや未公開で各研究機関等が独自に運営しているデータベース等を利用してもよい。そして、類似塩基配列の頻度解析11において、ターゲットフラグメントの塩基配列データとプローブ群の塩基配列データとの一対一照合を行う仮想ハイブリダイゼーションを行う。
仮想ハイブリダイゼーションでは、塩基の相補性を利用して、ターゲットフラグメントの塩基配列ごとにプローブ群の塩基配列を相補的に、および相補的にではなくプローブ群の塩基配列との類似性に基づいてマッチング処理し、対応する組み合わせを特定する。得られる結果12として、プローブごとのクラスター・メンバー数と、ターゲットの全核酸フラグメントの塩基配列情報と、が挙げられる。また、プローブ群として用いた塩基配列情報は逸失せず、再度の利用が可能である。
図3は、DNAマイクロアレイを用いた類似度の頻度解析の流れにおける、ハイブリダイゼーション処理の概要を示す図である。
一般的に、ハイブリダイゼーション処理では、標識したターゲット核酸溶液21とDNAマイクロアレイ22を用いて、各々のプローブとターゲットの核酸分子同士の相補性の程度に基づくハイブリダイゼーション実験を行う。この際、DNAマイクロアレイを用いたハイブリダイゼーション実験では、ハイブリダイゼーションとこれに続くDNAマイクロアレイの洗浄ステップにおける実験単位ごとの物理化学的条件(温度・pH・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲット核酸濃度・プローブおよび/またはターゲットの核酸が2本鎖か1本鎖か、など)により、相補性の閾値を規定する。
ハイブリダイゼーション実験を行うと、例えばハイブリダイゼーション後のDNAマイクロアレイ23のような反応結果が得られる。そのDNAマイクロアレイの一部分24を拡大してみると、DNAマイクロアレイの一部分のハイブリダイゼーション結果の拡大図25に示すように、DNAマイクロアレイの基板26のプローブスポット領域27にプローブDNAフラグメント28が固定されている。そして、上述の物理化学的条件で規定された相補性の閾値よりもプローブDNAフラグメントとターゲット核酸フラグメントとの相補性が高い場合にプローブDNAフラグメントとターゲット核酸フラグメントとが二重鎖を形成する。この作用により、ハイブリダイズした標識したターゲット核酸フラグメント29の分子数の多寡に従ってスポット毎に標識シグナルの強弱が異なる、という物理化学的結果が得られる。
DNAマイクロアレイを用いたハイブリダイゼーションでは、通常、数時間から一晩程度のハイブリダイゼーションの後に洗浄作業を行うため、ほぼ1日を必要とする。DNAマイクロアレイによる解析では、プローブ31ごとに二重鎖を形成したターゲットフラグメント数の概数(シグナル強度32で表される情報)の情報30が得られる。
図4は、デジタルDNAチップを用いた類似度の頻度解析の流れにおける、仮想ハイブリダイゼーション処理の概要を示す図である。
仮想ハイブリダイゼーション処理では、ターゲットに含まれる全てのフラグメントID42で特定される塩基配列43を一つあるいは複数含む核酸フラグメント・リスト41と、プローブID45で特定される塩基配列46を一つあるいは複数含むプローブ塩基配列リスト44の全プローブの塩基配列情報とを核酸情報処理装置100上において1対1で1塩基ごとに照合するマッチング処理47を行う。この際、ターゲットとプローブのフラグメント内の1塩基ペア毎の一致又は不一致、および相補鎖を形成すべき組合せか否かをプローブのフラグメント全域にわたって判定し、プローブのフラグメント内での一致条件の数字(総一致率、最長連続一致塩基数、最長連続一致率、など)により、類似度の閾値を規定する。
マッチング処理47を行って、プローブの塩基配列とターゲット核酸の塩基配列を上述の手法により1:1で照合して算出した類似度の値が、上述のように数字で規定した類似度の閾値より高い値を示したターゲット核酸の塩基配列について、核酸情報処理装置100は、プローブID51により代表される塩基配列が類似したフラグメントの集合であるクラスターを特定し、仮想ハイブリダイゼーション結果表50の中のクラスター・メンバーとして追加する追加処理48を行う。具体的には、核酸情報処理装置100は、クラスター・メンバー数52をインクリメントし、クラスター・メンバーのフラグメントID53としてターゲットのフラグメントID42を追加し、クラスター・メンバーの塩基配列54としてターゲットの塩基配列43を追加する。
なお、算出した類似度の値が類似度の閾値より低い値を示したターゲット核酸の塩基配列については、核酸情報処理装置100は、仮想ハイブリダイゼーション結果表50の照合相手のプローブの塩基配列のクラスターには加えず、照合相手の変更55(異なるプローブIDの塩基を照合相手とする)を行い、照合するプローブの塩基配列を変えてマッチング処理47を再度行う。核酸情報処理装置100は、すべてのプローブの塩基配列とのマッチング処理47を終えてもいずれのプローブの塩基配列のクラスター・メンバーにもならなかったターゲット核酸の塩基配列は、仮想ハイブリダイゼーション結果表50には入れず、反応陰性のグループとする。
こうして、核酸情報処理装置100は、いずれかのプローブの塩基配列のクラスターまたは反応陰性のグループへと照合対象のターゲット核酸の塩基配列の帰属先を決め終えたら、照合ペアの変更56を行って、照合するターゲット核酸の塩基配列とプローブの塩基配列のペアを新たに選択し、マッチング処理47等の処理を行う。ターゲット核酸のすべての塩基配列について、上記の操作を繰り返し終えると、核酸情報処理装置100は、仮想ハイブリダイゼーション結果表50の各々のプローブID51ごとに、クラスターに入れられたターゲット核酸の塩基配列の個数を集計して、クラスター・メンバー数として算出する。
デジタルDNAチップを用いた仮想ハイブリダイゼーションでは、核酸情報処理装置の演算性能等に大きく左右されるにしても、長くても数時間以内に終了することが十分に考えられる。したがって、処理時間はデジタルDNAチップを用いることで短縮できる可能性が高い。
上記のような類似塩基配列の頻度解析を行い、最終結果として得られる情報は、デジタルDNAチップを用いた解析では、プローブごとにその塩基配列と所定の類似度を持つターゲットフラグメントのクラスターに属するフラグメント数、およびターゲット準備段階で得られたターゲットの全フラグメントの全塩基配列情報である。
図5は、核酸情報処理装置100の機能ブロック図を示す図である。核酸情報処理装置100は、制御部110と、記憶部130と、出力表示部140と、入力受付部150と、通信処理部160と、を備える。制御部110は、入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120と、を備える。
入力処理部111は、通信処理部160を介して、図示しないクライアント端末(例えば、Webブラウザを搭載したパーソナルコンピュータ)から送信された入力情報を受け付ける。なお、これに限られず、入力処理部111は、後述する入力装置101を介して入力情報を受け付けるものであってもよい。
出力処理部112は、通信処理部160を介して、クライアント端末に対して、出力情報を送信する。出力情報は、図1に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等である。なお、出力処理部112は、後述する出力装置106を介して出力情報を出力するものであってもよい。
プローブ生成部113は、塩基配列データを用いて、デジタルDNAチップに相当するプローブ情報を生成する。具体的には、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブIDを割り当て、当該プローブIDが属するプローブセットIDを割り当て、DNAマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を順に割り当てる。そして、プローブ生成部113は、その塩基配列データの鎖長(塩基数)と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部132に格納する。なお、プローブ生成部113は、例えば、FASTAやBLAST(Basic Local Alignment Search Tool)等の既存のソフトウェアパッケージで用いられる所定のデータ形式で提供される塩基配列データを、所定のデータ形式に変換を行うものであってもよい。なお、FASTAとは、バイオインフォマティクスで塩基配列クエリあるいはタンパク質のアミノ酸配列クエリを用いて塩基配列データベースあるいはアミノ酸データベースを検索し類似度を判定することが可能なソフトウェアである。当該FASTAでは、塩基配列の情報をプレーンテキストで記録するFASTAフォーマットという記述様式により塩基配列を記述する。本実施形態においては、BLASTとは、バイオインフォマティクスでDNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアライメントを行うためのアルゴリズムをいう。また、一般的な称呼に合わせて、そのアルゴリズムを実装したプログラムもBLASTと呼ぶ。BLASTは、例えば、未知の塩基配列を用いて、ゲノムのシーケンスデータベースに対して検索を行うと、類似度の高いシーケンス群と、その類似度と、一致率と、一致部分の開始位置/終了位置およびターゲット塩基配列上の一致部分の開始位置/終了位置を抽出することができる。
ターゲットフラグメント生成部114は、シークエンサー等により読み取ったターゲットを構成する一連の塩基配列の情報を、当該塩基配列を他の塩基配列から識別するフラグメントIDと対応付けて、後述するターゲットフラグメント記憶部131に格納する。具体的には、シークエンサーから出力される塩基配列データごとに一意の識別番号等を割り当ててターゲットフラグメント記憶部131に格納する。
ハイブリダイゼーション部115は、仮想ハイブリダイゼーションを行う。具体的には、ハイブリダイゼーション部115は、ターゲットフラグメント記憶部131に格納されたターゲットフラグメントの塩基配列と、プローブ記憶部132に格納されたプローブの塩基配列と、の類似度が閾値以上となる組み合わせについて特定し、プローブIDごとに類似度が所定の閾値以上となるターゲットフラグメントの数および完全ハイブリ特定部116により特定した完全ハイブリの数を計数する。なお、本実施形態における類似度とは、一般的な概念であり、類似率、アライメント率等により測定される。
完全ハイブリ特定部116は、類似度の解析を行った結果にもとづいて、一致部分データを抽出して連結させ、プローブ塩基配列の開始位置から終了位置までの全ての塩基配列と所定以上の値の類似度を持つ塩基配列を特定する。具体的には、完全ハイブリ特定部116は、類似度記憶部133から、プローブ塩基配列との類似率が所定以上となるターゲットフラグメントの塩基配列を含む、部分的に一致するターゲットフラグメントの塩基配列を一致部分データとして抽出し、一致の開始位置および終了位置に基づいて順に連結させ、プローブ塩基配列の終了位置まで連結可能であれば、連結させた一致部分データの配列を完全ハイブリとして特定する。
なお、完全ハイブリ特定部116は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合には、当該一致部分データを完全ハイブリとして特定する。
また、完全ハイブリ特定部116は、このような処理に限らず、例えばプローブの開始終了端から中央へ向かって部分的に一致する一致部分データを連結させて行き、一致部分データが隙間無く連結される場合には、当該連結された一致部分データの組を完全ハイブリとして特定するようにしてもよい。
すなわち、完全ハイブリ特定部116は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合、または、プローブの塩基配列に仮想ハイブリしたターゲットフラグメント中の複数の核酸フラグメントの当該プローブの塩基配列との類似部分を隙間なく繋ぎ合わせると当該プローブの塩基配列との類似部分の全体が当該プローブ塩基配列の全てを含む場合、には、当該一致部分データを完全ハイブリとして特定するといえる。
フラグメント比較部117は、異なる2つのターゲットフラグメントセットの比較を行うターゲット比較処理を行う。例えば、フラグメント比較部117は、同一のプローブセットを用いた仮想ハイブリダイゼーションがなされた異なる2つのターゲットフラグメント群、例えば同一海域で異なる時期に採取された海水から抽出したターゲットフラグメント、についての結果情報について、同一のプローブに対するクラスター・メンバー数の相違を特定し、出力する。
クラスター制御部118は、ターゲットフラグメントを所定の数以下のクラスター群に分類するクラスタリング処理を行う。クラスター制御部118は、クラスターに分類する対象となるターゲットフラグメント群内で、ターゲットフラグメント同士の類似度に応じてグルーピングを行い、クラスターを形成する。具体的には、クラスター制御部118は、受け付けたクラスター上限数以下となるまで徐々に類似度の閾値を下げてグループを形成し、上限数以下となった場合にクラスター群への分類を終える。なお、クラスター制御部118は、類似度の閾値を徐々に下げて所定の値(例えば、1.0E+01)に達した場合には、当該値以下には閾値を下げずに固定して、それ以降は代表配列同士の類似度が閾値以上であればクラスターを併合する。
類似度解析部119は、2つの塩基配列データの類似度を特定する。具体的には、類似度解析部119は、塩基の相補性に応じて、2つの塩基配列データの類似率、アライメント率、類似部分の開始位置と終了位置を特定する。すなわち、原理的には、片方の塩基配列データの塩基と対応する相補的な塩基が他方の塩基配列データに含まれる場合には、それらの塩基に隣接する塩基についても相補的に対応するか否かを判定する。これを対応しない塩基が出現するまで繰り返し、また、異なる塩基の対についても同様に対応を判定し、対応する部分を類似部分として特定する。なお、類似部分の開始位置と終了位置の距離が長い組合せが、当該塩基配列データの類似するデータとなる。なお、類似度解析部119は、塩基の相補的な対応を判定するだけでなく、塩基の同一性についても判定し、類似度を判定する。つまり、類似度解析部119は、片方の塩基配列データ(例えば、ターゲット)に含まれる一連の塩基配列が、他方の塩基配列データ(例えば、プローブ)に含まれる一連の塩基配列と所定以上の類似度を有する場合に、当該片方の一連の塩基配列を当該他方の塩基配列データとの類似部分とするといえる。この類似度の特定には、既存のBLAST等のアルゴリズムを利用することが考えられる。
クラスター分類部120は、ターゲットフラグメントを類似度に応じて複数のクラスターに分類する。具体的には、クラスター分類部120は、ターゲットフラグメントから一つのフラグメントにより代表されるクラスターを一つ設け、その他のフラグメントが当該クラスターの代表フラグメントと所定以上の類似度を備えるか否かを判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。所定以上の類似度を備えない場合には、クラスター分類部120は、他のクラスターがあればそのクラスターの代表フラグメントとの類似度を判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。他のクラスターのいずれとも所定以上の類似度を備えないフラグメントについては、クラスター分類部120は、当該フラグメントを代表フラグメントとする新たなクラスターを設ける。
記憶部130は、ターゲットフラグメント記憶部131と、プローブ記憶部132と、類似度記憶部133と、ハイブリ結果記憶部134と、クラスター記憶部135と、を格納する。また、記憶部130は、核酸情報処理装置100に固定的に設置される記憶装置等であってもよいし、独立したストレージ装置等であってもよい。
ターゲットフラグメント記憶部131は、図6に示すように、フラグメントを識別する情報を含むフラグメントID1311と、フラグメントID1311で特定されるフラグメントの塩基配列の情報である塩基配列情報1312と、を含む。
プローブ記憶部132は、図7に示すように、プローブが属するプローブセット(デジタルDNAチップ)を識別する情報を含むプローブセットID1321と、プローブの塩基配列を識別する情報を含むプローブID1322と、プローブID1322で特定される塩基配列の塩基数である鎖長1323と、プローブIDで特定されるプローブの塩基配列の情報である塩基配列情報1324と、プローブIDで特定されるプローブの塩基配列が、プローブセットID1321で特定されるデジタルDNAチップ上の概略の配置位置を特定するブロック位置1325と、ブロック内の詳細な配置位置を特定するスポット位置1326と、を含む。
類似度記憶部133は、図8に示すように、類似度を解析する対象の一つであるフラグメントの塩基配列を識別する情報を含むフラグメントID1331と、類似度を解析する対象の相手方であるプローブの塩基配列を識別する情報を含むプローブID1332と、フラグメントID1331で識別されるフラグメントの塩基配列と、プローブID1332で識別されるプローブの塩基配列と、の類似率1333と、アライメント率1334と、フラグメントの塩基配列上の類似部分の開始位置であるフラグメント上の開始位置1335と、フラグメントの塩基配列上の類似部分の終了位置であるフラグメント上の終了位置1336と、プローブの塩基配列上の類似部分の開始位置であるプローブ上の開始位置1337と、プローブの塩基配列上の類似部分の終了位置であるプローブ上の終了位置1338と、を含む。
ハイブリ結果記憶部134は、図9に示すように、仮想ハイブリダイゼーションの結果の情報を格納する記憶部であり、プローブの塩基配列を識別する情報を含むプローブID1341ごとに、類似度が所定の閾値以上であるフラグメントの数で示される頻度1342を対応付けて格納する。
クラスター記憶部135は、図10に示すように、クラスタリング処理により分類されたターゲットフラグメントの群を識別する情報を含むクラスターID1351ごとに、クラスターを代表するフラグメントと識別する情報を含む代表フラグメントID1352と、代表フラグメントの塩基配列の情報である代表フラグメント塩基配列情報1353と、を格納する。また、クラスター記憶部135は、クラスターID1351ごとに、当該クラスターに所属するフラグメントを識別する情報を含むフラグメントID1354と、当該フラグメントの塩基配列の情報である塩基配列情報1355と、を格納する。
出力表示部140は、核酸情報処理装置100のGUIあるいはCUI等の各種情報を出力する。入力受付部150は、GUIあるいはCUIの操作情報の入力を受け付ける。
通信処理部160は、図示しないネットワーク等を介して他の機器に接続し、接続した他の機器から送信された情報の受信を行い、接続した他の機器に対して情報の送信を行う。
図11は、本実施形態における核酸情報処理装置100のハードウェア構成を示す図である。
本実施形態においては、核酸情報処理装置100は、例えば、専用のハードウェア装置である。しかし、これに限られず、汎用性の高いPC(パーソナルコンピュータ)や、ワークステーション、サーバ装置、各種携帯電話端末、PDA(Personal Digital Assistant)などの計算機であってもよい。
核酸情報処理装置100は、入力装置101と、外部記憶装置102と、演算装置103と、主記憶装置104と、通信装置105と、出力装置106と、それぞれの装置を互いに接続するバス107と、を有する。
入力装置101は、例えばキーボードやマウス、あるいはタッチペン、その他ポインティングデバイスなどの入力を受け付ける装置である。
外部記憶装置102は、例えばハードディスク装置やフラッシュメモリなどの不揮発性記憶装置である。
演算装置103は、例えばCPU(Central Processing Unit)などの演算装置である。
主記憶装置104は、例えばRAM(Random Access Memory)などのメモリ装置である。
通信装置105は、アンテナを介して無線通信を行う無線通信装置、又はネットワークケーブルを介して有線通信を行う有線の通信装置である。
出力装置106は、例えばディスプレイなどの、表示を行う装置である。
核酸情報処理装置100の記憶部130は、主記憶装置104または外部記憶装置102により実現される。
また、核酸情報処理装置100の入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120とは、核酸情報処理装置100の演算装置103に処理を行わせるプログラムによって実現される。
このプログラムは、主記憶装置104または外部記憶装置102内に記憶され、実行にあたって主記憶装置104上にロードされ、演算装置103により実行される。
また、核酸情報処理装置100の出力表示部140は、核酸情報処理装置100の出力装置106によって実現される。
また、核酸情報処理装置100の入力受付部150は、核酸情報処理装置100の入力装置101によって実現される。
また、核酸情報処理装置100の通信部160は、核酸情報処理装置100の通信装置105によって実現される。
以上が、核酸情報処理装置100のハードウェア構成である。なお、核酸情報処理装置100のハードウェア構成および処理部等の構成は、上記の例に限られず、例えば代替可能な異なる部品等による異なる構成を備えるものであってもよい。
例えば、核酸情報処理装置100の入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120とは、核酸情報処理装置100の構成を理解容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。核酸情報処理装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、核酸情報処理装置100の各機能部は、ハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
[動作の説明]次に、本実施形態における核酸情報処理装置100が実施するクラスタリング処理のフローについて、図12、13に基づき説明する。図12および図13は、クラスタリング処理を示すフロー図である。なお、クラスタリング処理は、図示しないPC等のクライアント端末から、Webブラウザ等を介したクラスタリング処理の実行依頼を、ネットワークを介して受け付けると、開始される。
まず、クラスター制御部118は、クラスターの設定値(類似度閾値とクラスター上限数)の入力画面を構成する。そして、出力処理部112は、実行依頼の要求元へ構成した画面を送信する(ステップS001)。具体的には、クラスター制御部118は、類似度閾値としてE−valueおよび配列長、およびクラスター上限数の入力画面を構成し、出力処理部112は、実行依頼の要求元へ構成した画面を送信する。
入力処理部111は、類似度閾値と、クラスター上限数と、についての入力を受け付ける(ステップS002)。具体的には、入力処理部111は、クライアント端末のWebブラウザからパラメーターとして送信されたE−valueおよび配列長、およびクラスター上限数を受け付ける。
クラスター制御部118は、入力処理部111等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ全てを、BLASTソフトウェアにて取り扱い可能な形式のデータへ変換する(ステップS003)。具体的には、クラスター制御部118は、入力処理部111等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ(例えば、FASTAソフトウェアにて処理可能な形式)の全てを、BLASTソフトウェアにて処理可能な形式のデータへ変換する。
そして、クラスター分類部120は、クラスターに所属しないターゲットフラグメントを選択する(ステップS004)。具体的には、クラスター分類部120は、FASTAソフトウェアにて処理可能なデータ形式のターゲットフラグメント群から、いずれのクラスターにも所属せず、クラスターの分類処理を受けていないターゲットフラグメントを一つ選択する。
次に、クラスター分類部120は、未選択の既存のクラスターがあるか否か判定する(ステップS005)。具体的には、クラスター分類部120は、クラスタリング処理により形成された既存のクラスターのうち、未選択のクラスターが残っているか否かを判定する。
未選択の既存のクラスターがある場合(ステップS005にて「Yes」の場合)には、クラスター分類部120は、当該未選択の既存のクラスターを特定して、そのクラスターの代表配列を選択状態にする(ステップS006)。
そして、類似度解析部119は、選択状態にした代表配列と、選択したターゲットフラグメントとの類似度を特定する(ステップS007)。具体的には、類似度解析部119は、BLASTソフトウェアと同様に、両配列の類似度(類似率、アライメント率、ターゲットフラグメント上の類似部分の開始位置と終了位置およびプローブ塩基配列上の類似部分の開始位置と終了位置)を特定し、類似度記憶部133に格納する。なお、当該処理において、類似度解析部119は、ステップS002にて受け付けた類似度閾値を用いて類似度を特定する。
そして、クラスター分類部120は、特定した類似度は類似度閾値以上であったか否かを判定する(ステップS008)。具体的には、クラスター分類部120は、ステップS007で特定した、選択状態にした代表配列と選択したターゲットフラグメントとの類似度が、ステップS002で受け付けた類似度閾値以上であるか否かを判定する。
類似度閾値以上でない場合(ステップS008で「No」の場合)には、クラスター分類部120は、他のクラスターの代表フラグメントとの類似度を特定するために、制御をステップS005に戻す。
類似度閾値以上である場合(ステップS008で「Yes」の場合)には、クラスター分類部120は、ターゲットフラグメントおよびその同属クラスター内のフラグメントを選択した代表配列が属するクラスターに所属させる(ステップS009)。より具体的には、クラスター分類部120は、類似度を比較したターゲットフラグメントが所属していたクラスターがある場合には、当該クラスターに所属するフラグメントの全てとともに、ターゲットフラグメントを、類似度を比較した代表配列に代表される既存クラスターに所属させる。その際、所属先が変わったターゲットフラグメントについては、クラスター分類部120は、当該ターゲットフラグメントが属していたクラスターから、当該ターゲットフラグメントを削除する。
そして、クラスター分類部120は、クラスター記憶部135にクラスター情報を格納する(ステップS010)。具体的には、クラスター分類部120は、ステップS009で所属させたフラグメントのすべてについて、クラスター記憶部135のフラグメントID1354および塩基配列情報1355に情報を格納する。なお、新たに所属させたフラグメントがない場合には、クラスター分類部120は、クラスター記憶部135に情報を格納する必要がないため、特に処理を行わない。
そして、クラスター分類部120は、未所属のターゲットフラグメントが残っているか否かを判定する(ステップS011)。具体的には、クラスター分類部120は、ターゲットフラグメント群に、いずれのクラスターにも所属していないターゲットフラグメントが残っているか否かを判定する。
未所属のターゲットフラグメントが残っている場合(ステップS011にて「Yes」の場合)には、クラスター分類部120は、ステップS004へ制御を戻す。
未所属のターゲットフラグメントが残っていない場合(ステップS011にて「No」の場合)には、クラスター制御部118は、後述するステップS013へ処理を進める。
上述したステップS005の判定において、未選択の既存のクラスターがない場合(ステップS005にて「No」の場合)には、クラスター分類部120は、ターゲットフラグメントを代表配列とするクラスターを新設する(ステップS012)。具体的には、クラスター分類部120は、ターゲットフラグメントについて代表フラグメント1352および代表フラグメント塩基配列情報1353に情報を格納する。
そして、クラスター制御部118は、クラスター数がクラスター上限数よりも多いか否かを判定する(ステップS013)。具体的には、クラスター制御部118は、クラスター記憶部135に格納されているクラスターID1351の数を計数し、ステップS002で入力を受け付けたクラスター上限数と比較する。クラスター数がクラスター上限数以下である場合(ステップS013にて「No」の場合)には、クラスター制御部118は、クラスタリング処理を終了させる。
クラスター数がクラスター上限数よりも多い場合(ステップS013にて「Yes」の場合)、クラスター制御部118は、各クラスターの代表配列を集めてターゲットフラグメントを作成する(ステップS014)。
そして、クラスター制御部118は、類似度の閾値であるE−Valueを1.0E+10倍に設定して(ステップS015)、制御をステップS003に戻す。このようにすることで、類似度を緩めてクラスター代表配列同士の類似度を判定し、クラスターを上限数以下に抑えるために統合することができる。なお、E−Valueを1.0E+10倍に設定すると、E−Valueが予め定めた値である1.0E+01を超える場合には、クラスター制御部118は、E−Valueを1.0E+01に設定し、制御をステップS003に戻す。
以上が、クラスタリング処理のフローである。クラスタリング処理によると、核酸情報処理装置100は、指定された類似度閾値およびクラスター上限数に基づいてターゲットフラグメントをクラスタリングすることができる。つまり、ターゲットの類似度が所定以上となるようにターゲットを区分することができるといえる。本実施形態のクラスタリング処理により得られるクラスターは、代表配列同士のホモロジー間隔が一定以上離れる。この場合において、多種の生物体等が含まれるターゲットを対象としてクラスターに区分すると、大数の法則により、ホモロジー間隔がほぼ一定となるクラスター群が得られるといえる。これは、構成される塩基配列等が未知の生物体等を含むターゲットを対象として、塩基配列の構成の経時変化の傾向をつかむための実験等を行う場合等、類似度が一定のプローブを作成したい場合等に有効である。
次に、本実施形態における核酸情報処理装置100が実施する仮想ハイブリダイゼーション処理のフローについて、図14に基づき説明する。図14は、仮想ハイブリダイゼーション処理を示すフロー図である。なお、仮想ハイブリダイゼーション処理は、図示しないPC等のクライアント端末から、Webブラウザ等を介した仮想ハイブリダイゼーション処理の実行依頼を、ネットワークを介して受け付けると、開始される。
まず、プローブ生成部113は、既存のデジタルDNAチップ情報をプローブ配列としてBLASTデータへ変換する(ステップS101)。具体的には、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブIDを割り当て、当該プローブIDが属するプローブセットIDを割り当て、DNAマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を割り当てる。そして、プローブ生成部113は、その塩基配列データの鎖長(塩基数)と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部132に格納する。そして、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データを、BLASTソフトウェアパッケージで用いられる所定のデータ形式に変換する。
そして、入力処理部111は、類似度閾値(E−Valueおよび配列長)の入力を受け付ける(ステップS102)。具体的には、出力処理部112が所定の類似度閾値の入力画面をクライアント端末に送信して表示させ、入力された類似度閾値の値を入力処理部111が受け付ける。
そして、ハイブリダイゼーション部115は、予めターゲットフラグメント生成部114がターゲットフラグメント記憶部131に格納した情報に基づいて、フラグメント配列ごとにプローブ配列(例えば、クラスターごとの代表配列)との類似度を解析する(ステップS103)。具体的には、ハイブリダイゼーション部115が、ターゲットフラグメントの塩基配列とプローブの塩基配列とのすべての組み合わせを対象として、類似度解析部119に処理を委譲して類似度およびターゲットフラグメントの塩基配列上およびプローブの塩基配列上の類似部分の開始位置および終了位置をそれぞれ特定する。
そして、ハイブリダイゼーション部115は、類似度を解析した結果を、類似度記憶部133に格納する(ステップS104)。
ハイブリダイゼーション部115は、類似度解析結果から、類似度閾値以上の類似度を持つフラグメント数をプローブごとに計数し、ハイブリ結果記憶部134に格納する(ステップS105)。
以上が、仮想ハイブリダイゼーション処理のフローである。仮想ハイブリダイゼーション処理によると、核酸情報処理装置100は、指定された類似度閾値以上の類似度を備えるターゲットフラグメントの数を、プローブ塩基配列ごとに計数することができる。すなわち、プローブ塩基配列がクラスターの代表配列である場合には、ターゲット内に含まれる塩基配列について、クラスターごとの頻度を特定することができるといえる。また、仮想ハイブリダイゼーション処理により、核酸情報処理装置100は、全てのターゲットとプローブの組み合わせについて類似の度合いとその部位を特定することができる。なお、上記処理のステップS105において、ハイブリダイゼーション部115は、後述する完全ハイブリ特定処理により完全ハイブリであると判定された一連の塩基配列をプローブごとに計数し、ハイブリ結果記憶部134に格納するようにしてもよい。これにより、フラグメントがプローブ配列よりも細片化している場合であっても、適切な頻度を得ることができるといえる。
次に、本実施形態における核酸情報処理装置100が実施する完全ハイブリ特定処理のフローについて、図15に基づき説明する。図15は、完全ハイブリ特定処理を示すフロー図である。なお、完全ハイブリ特定処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないPC等のクライアント端末から、Webブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。
まず、完全ハイブリ特定部116は、類似度記憶部133から、一致部分データを抽出する(ステップS201)。一致部分データには、完全一致部分データが含まれる。なお、本実施形態において、一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が所定以上の値を示す類似部分(すなわちプローブ配列と所定の類似性を示す類似部分)を有するターゲットフラグメントの塩基配列データである。また、完全一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が完全一致を示す類似部分のみを備えるターゲットフラグメントの塩基配列データである。
完全ハイブリ特定部116は、抽出した一致部分データのうち、プローブ上の開始位置の昇順に未処理の一件を抽出し、クエリとする(ステップS202)。具体的には、完全ハイブリ特定部116は、ステップS201で抽出した一致部分データを、プローブ上の開始位置1337の昇順にソートし、ソートされた先頭の一致部分データと類似部分の開始位置がプローブ上の開始位置1337と同一の一致部分データのうち未処理の一件を対象にクエリとして抽出を試みる。なお、その際、完全ハイブリ特定部116は、さらに、一致部分データの類似部分の終了位置(すなわち、フラグメント上の終了位置1336)が、一致部分データの終了位置(すなわち、フラグメントの最後尾の位置)と一致するターゲットフラグメントのみ(すなわち、完全一致部分データを含む)を抽出する対象とする。
完全ハイブリ特定部116は、クエリが抽出できたか否かを判定する(ステップS203)。抽出できなかった場合(ステップS203にて「No」である場合)には、完全ハイブリ特定部116は、完全ハイブリ特定処理を終了させる。
クエリが抽出できた場合(ステップS203にて「Yes」の場合)には、完全ハイブリ特定部116は、当該クエリの塩基配列の類似部分の終了位置(フラグメント上の終了位置1336)が、一致したプローブの終了位置(プローブ上の終了位置1338)であるか否かを判定する(ステップS204)。
プローブの終了位置である場合(ステップS204にて「Yes」の場合)には、完全ハイブリ特定部116は、探索した一連のクエリを完全ハイブリとして記憶部130の所定の領域に格納する(ステップS205)。そして、完全ハイブリ特定部116は、制御をステップS202に戻す。
プローブの終了位置でない場合(ステップS204にて「No」の場合)には、完全ハイブリ特定部116は、クエリの一致部分データの類似部分の終了位置(すなわち、フラグメント上の開始位置1336)が、一致部分データの終了位置(すなわち、フラグメントの最後尾の位置)であるか否かを判定し(ステップS206)、一致部分データの終了位置ではない場合には、ステップS206により探索した一致部分データとは別の一致部分データをクエリとして選びなおし(ステップS207)、制御をステップS204に戻す。一致部分データの終了位置である場合には、完全ハイブリ特定部116は、クエリの終了位置の次の位置を開始位置とする一致部分データを探索する(ステップS208)。なお、その際、完全ハイブリ特定部116は、さらに、一致部分データの類似部分の開始位置(すなわち、フラグメント上の開始位置1335)が、一致部分データの開始位置(すなわち、フラグメントの先頭の位置)であるターゲットフラグメントのみ(すなわち、完全一致部分データを含む)を抽出する対象とする。
そして、完全ハイブリ特定部116は、探索の結果ヒットした一致部分データがあるか否かを判定する(ステップS209)。ヒットした一致部分データが無い場合(ステップS209にて「No」の場合)には、完全ハイブリ特定部116は、制御をステップS202に戻す。
ヒットした一致部分データがある場合(ステップS209にて「Yes」の場合)には、完全ハイブリ特定部116は、ヒットした一致部分データをクエリとして一件抽出する(ステップS210)。そして、完全ハイブリ特定部116は、制御をステップS204に戻す。
以上が、完全ハイブリ特定処理のフローである。完全ハイブリ特定処理によると、核酸情報処理装置100は、一致部分データ(類似部分がフラグメント長全域にわたる完全一致部分フラグメントを含む)を1つまたは複数組み合わせると、プローブの開始位置から終了位置までの全ての塩基配列に対して所定以上の値の類似度を有する塩基配列を特定することができる。すなわち、ターゲットフラグメントの塩基鎖長が短くても、仮想ハイブリダイゼーションの精度を一定程度維持することができる。また、完全ハイブリ特定処理では、上記に限らず、例えばプローブ上の類似部分の一部について重複する類似部分を有するターゲットフラグメント同士を複数組み合わせるとプローブと完全に一致する塩基配列を完全ハイブリとして特定するようにしてもよい。このようにすることで、類似部分の一部が重複する(つまり、オーバーラップ部分のある)複数のターゲットフラグメントによる完全ハイブリを許容することができる。
この点について、図26を用いて説明する。図26は、本実施形態における仮想ハイブリダイゼーション処理におけるターゲットの計数方法を示す図である。
本実施形態においては、ターゲットの計数方法として3種類を想定している。一つ目は、上記したように、ターゲットフラグメント単位での計数方法501である。これは、ハイブリダイゼーションしたターゲットフラグメント単位に計数する方法、すなわち類似部分を含むターゲットフラグメントの数を単純に計数する方法である。二つ目は、上記したように、直線連結単位での計数方法502である。これは、ターゲットフラグメントの類似部分が隙間無く連結される複数のターゲットフラグメントの組の数を計数する方法である。例えば、3つのターゲットフラグメントの類似部分を隙間無く連結すると、プローブと類似する場合には、当該3つのターゲットフラグメントの組を計数する方法である。三つ目は、上記したように、連結単位での計数方法503である。これは、複数のターゲットフラグメントの類似部分の一部同士を連結される複数のターゲットフラグメントの組の数を計数する方法である。これは、直線連結単位での計数方法502とは異なり、ターゲットフラグメントの連結の際に、類似部分が一部オーバーラップする組であっても計数する方法である。すなわち、直線連結単位での計数方法502について、多少の誤差を許容する計数方法といえる。
次に、本実施形態における核酸情報処理装置100が実施するターゲット比較処理のフローについて、図16に基づき説明する。図16は、ターゲット比較処理を示すフロー図である。なお、ターゲット比較処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないPC等のクライアント端末から、Webブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。
まず、入力処理部111は、同一プローブセットを用いた2つの仮想ハイブリダイゼーション結果の指定を受け付ける(ステップS301)。具体的には、入力処理部111は、同一プローブセットを用いた2つの仮想ハイブリダイゼーション結果、すなわち同一のプローブ群に対して仮想ハイブリダイゼーションを施した異なるターゲットフラグメント群のハイブリ結果記憶部134の指定を受け付ける。
フラグメント比較部117は、受け付けた仮想ハイブリダイゼーション結果情報を抽出する(ステップS302)。具体的には、フラグメント比較部117は、受け付けた2つのハイブリ結果記憶部134の情報をそれぞれ読み出す。
そして、フラグメント比較部117は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分を特定する(ステップS303)。具体的には、フラグメント比較部117は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方から他方を減算して差を求める。
フラグメント比較部117は、同一プローブごとに、仮想ハイブリダイゼーション結果の比を特定する(ステップS304)。具体的には、フラグメント比較部117は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方の他方に対する比を求める。
出力処理部112は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分と比を出力する(ステップS305)。具体的には、出力処理部112は、共通のプローブについて、ステップS304およびステップS305で求めたクラスター・メンバー数の差と、比と、を出力する。
また、出力処理部112は、同一プローブごとに、仮想ハイブリダイゼーション結果について、比の順に整列させて出力する(ステップS306)。具体的には、出力処理部112は、共通のプローブについて、クラスター・メンバー数の比の降順に整列させて、出力する。なお、当然ながら、出力処理部112は、クラスター・メンバー数の比の昇順に整列させて、出力するようにしてもよい。
以上が、ターゲット比較処理のフローである。ターゲット比較処理によると、2つのターゲット間の成分の比較を容易に行うことができる。なお、ターゲット比較処理においては、仮想ハイブリダイゼーションの結果同士、またはインポートしたDNAチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とDNAチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較することができる。なお、上記のとおり、仮想ハイブリダイゼーション処理による結果は、プローブ毎のフラグメント数という数値データで情報を得るものであり、DNAチップ実験データによる結果は、蛍光色素の蛍光強度の相対値を得るものであるため、両者を単純に比較することは難しい。そのため、ターゲット比較処理において、フラグメント比較部117は、仮想ハイブリダイゼーションの結果については、フラグメントの全体数に対するプローブ毎の計数値の割合を求め、DNAチップ実験データによる結果については、チップ全体の蛍光強度に対するプローブ毎の蛍光強度の割合を求めて、両者を比較するようにしてもよい。
以上、本願発明に係る第一の実施形態について説明した。本願発明に係る第一の実施形態によると、プローブ塩基配列とターゲット塩基配列とを仮想的にハイブリダイズすることができる。また、ターゲット塩基配列からクラスタリング処理によりクラスターを構成し、クラスターに基づいてプローブ塩基配列を作成することもできる。また、同一のプローブに対するハイブリダイゼーションの結果同士を比較して、その差を示すことができる。例えば、同一海域で異なる時期に採取された海水から抽出したターゲットフラグメントについて、同一のプローブに対するクラスター・メンバー数の変化を出力することができる。これは、同一海域に含まれる核酸塩基配列の構成の経時変化を顕著に示すことができるため、例えば特定の成分の変化の統計をとり、所定の異常(赤潮等)発生の兆候等を予測することに活用可能と考えられる。
本願発明に係る第一の実施形態によると、解析対象の全ての核酸の塩基配列を決定し、これを用いて該材料に含まれる核酸塩基配列の種類と頻度の解析をすべてコンピュータ上での情報解析として行うことで、DNAマイクロアレイを用いた実験による類似塩基配列の頻度解析を行った場合と異なり、次なる解析時に再度ターゲットフラグメントの塩基配列情報を得る必要はなくなる。
また、塩基配列決定の過程で実験誤差が生じる可能性は残るが、決定された塩基配列情報にもとづく類似塩基配列の頻度解析は誤差がないため、仮想ハイブリダイゼーションにより得られる類似塩基配列の頻度解析により得られる結果は、同一のプローブ塩基配列のリストとターゲットフラグメントの塩基配列のセットとの組合せを用いる限り、100%の再現性を持つ精度の高いデータが得られる。
また、DNAマイクロアレイを用いた実験による類似塩基配列の頻度解析においては、プローブDNAのGC含有率や配列特性は個々に異なるため、実際のハイブリダイゼーションにおける類似度の程度は同一マイクロアレイ内でもプローブ毎に異なっており、その違いを補正することは非常に困難である。しかし、仮想ハイブリダイゼーションをすべてコンピュータ上で情報解析のみで行うことにより、上記のように、プローブ塩基配列とターゲットの核酸フラグメントの塩基配列との類似度の程度を、プローブ塩基配列全体に対するターゲットフラグメントの塩基配列の一致率及び/またはプローブ塩基配列に対するターゲットフラグメントの塩基配列の一致塩基配列の長さを任意の確定した数値で規定することが出来る。
また、単数または複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせによって、プローブ塩基配列の全体に渡って所定以上の類似度を持つ結果が得られたときのみ完全な仮想的ハイブリダイゼーションが得られたとして陽性とし、その頻度を解析することで、プローブ塩基配列に対する類似度の程度を高めて解析することができる。
このうち、特に、プローブ塩基配列の全体に渡って類似度を持つような複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせが可能かどうかという解析は、情報処理量が多く複雑なため、従来は実験として行えなかったが、これを容易に行うことができる。例えば特定の遺伝子や領域の全体に渡って一定以上の類似度をもつようなターゲットに含まれる核酸の種類や頻度の解析を行う場合に、このような解析手法は非常に有効である。
また、DNAマイクロアレイを用いた実験ではターゲットフラグメントの塩基配列は不明であるが、デジタルDNAチップによる解析では準備作業の段階で全ターゲットフラグメントの全塩基配列を決定するため、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを何度でも作成することができる。したがって、それらを用いれば、常に100%の再現性を持つ新たなプローブ配列のリストに対する仮想ハイブリダイゼーションを何度でも行うことができる。このことは、DNAマイクロアレイを用いた実験では実験毎にターゲットの核酸を消費するため、新たなプローブ塩基配列を持つDNAマイクロアレイを用いる実験を行える回数に制限があることに対して、非常に大きな利点である。
また、基準とする核酸フラグメントに対する所定以上の類似度の有無を1フラグメントずつ順番に解析してクラスタリングを行い、所定以上の類似度がある場合にはクラスターを特定するため、ターゲットに含まれる全ての核酸フラグメントの塩基配列同士の所定以上の類似度の有無を総当りで判定するよりも、クラスタリングのために類似度の有無を判定する作業の回数をはるかに減らすことが出来るため、クラスタリングに要する時間を短くし、クラスタリングに要するコンピュータ容量を小さくすることが出来る。
また、クラスターの分類を行う場合、クラスター数の上限の数は、ターゲットに含まれるフラグメント数を最大値として任意に決めることが出来る。この上限値の決め方により、クラスターの大きさを加減することが出来る。この結果、たとえばメタゲノム解析にこのクラスター分類方法を用いる際に、クラスター数の上限を決めて分類を行うことにより、クラスターの分類レベルを、種の分類程度に相当する大きさのクラスター、属の分類程度に相当する大きさのクラスター、科の分類程度に相当する大きさのクラスターなどのように加減することが可能となり、解析対象の分類結果の概要がわかりやすくなる。
また、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを作成すれば、容量の小さなコンピュータで、迅速に、新たなプローブ塩基配列のリストが作成できる。
また、上記したように、同一のプローブ塩基配列のリストを用いて複数のターゲットに含まれる核酸の種類と頻度をそれぞれ仮想ハイブリダイゼーションにより解析し、該複数ターゲット間でプローブ毎のクラスター・メンバー数を比較し、ターゲット間でクラスター・メンバー数の異なるクラスターを抽出すれば、仮想ハイブリダイゼーションによる解析全ての情報がターゲット間の核酸の種類と頻度の違いを再現性100%で解析することが出来る。これは、DNAマイクロアレイを用いた実験による解析では、ハイブリダイゼーションの結果もそれに由来する複数ターゲット間の比較データも再現性を100%にすることはできないという欠点を補うことになる。
また、仮想ハイブリダイゼーションにより複数ターゲットに含まれる核酸の種類と頻度を比較解析する手法を、時系列的に採取されたターゲットの解析に用いれば、100%の再現性をもってプローブごとのクラスター・メンバー数の変化を捉えることができるため、そのような変化の現状把握や今後の動向予測の精度を、DNAマイクロアレイによる解析よりも高めることができる。
また、デジタルDNAチップを用いた解析は、個々の生物個体、部位、組織、細胞のいずれかまたはそれらの組合せの解析にも用いることが出来る。さらに、デジタルDNAチップのは、ターゲットに含まれる全ての核酸フラグメントの塩基配列のリストをすべてのターゲットについて作成してあるため、統合が容易である。そのため、複数の細胞の解析結果を統合して新たに組織や部位としての解析をし直すことなど、解析結果の統合により新たなステップでのデジタルDNAチップ解析を行うことが可能である。
また、デジタルDNAチップによる解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物のいずれの解析にも用いることが出来る。この場合にも、比較解析の結果は再現性が100%である。
また、デジタルDNAチップの解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料を含んだ液体、固体または気体のいずれの解析にも用いることが出来る。例えば特定海域の海水中に棲息する微生物集団の構造解析やその変化の解析などが、これにあてはまる。この場合にも、比較解析の結果は再現性が100%である。
以上、本発明の実施の形態について、実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々の変更が可能である。
例えば、上記実施形態においては、類似度解析処理をBLASTソフトウェア等の既存技術により実施するものとしているが、これに限られない。例えば、類似度解析を行うことができる他のアルゴリズムを用いて類似度の解析を実施するようにしてもよい。そのようにすることで、より柔軟な解析を行うことができる。また、上記実施形態においては、類似度の解析結果や仮想ハイブリダイゼーション処理の結果は主にデータベース等に格納されるが、クラスタリング処理や仮想ハイブリダイゼーション処理の進度に応じて、逐次画面上に経過や結果を表示するようにしてもよい。そのようにすることで、処理の進度を目視できるようになり、処理の終了までに必要な時間の予測等が行いやすくなる。
また例えば、上記実施形態においては、核酸情報処理装置100は、専用のハードウェアを有する装置であるが、これに限られず、例えば遺伝子情報を読み取るシークエンサーに実装されるものであってもよい。このようにすることで、ハードウェア装備を簡便化することができる。
なお、上記実施形態における核酸情報処理装置100は、装置として取引対象とするだけでなく、機器の動作を実現するプログラム部品単位で取引対象とすることも可能である。
以下に、本発明にかかる実施例について具体的に説明する。ただし、本発明はこの実施例に限定されるものではない。
本実施例では、海水中の微生物DNAの塩基配列をDNAシークエンサーにより決定し、その情報を用いてクラスタリングによりプローブ塩基配列のリストを作成し、DNAシークエンサーにより決定した海水中の微生物DNAの全ての塩基配列とこのプローブ塩基配列のリストとの仮想ハイブリダイゼーションを行って解析した。さらに、2組の海水中の微生物DNAのターゲットフラグメント群をそれぞれ「Y022L08_C10000_chip」と名づけたデジタルDNAチップに仮想ハイブリダイゼーションさせた結果の比較も行った。
まず、特定海域の海水中に存在する微生物すべてのDNAの塩基配列からターゲット塩基配列のデータを得る作業を行った。横浜市金沢区福浦付近の海岸で採取し、ガラス繊維濾紙(Whatman社製、結合剤フリー、ポアサイズ0.7μm)で濾過した約21リットルの海水から、Water DNA Isolation Kit(MO BIO Laboratories社製、UltraClean with 0.22μm Water Filterキット)を用いて、20μgのゲノムDNAを抽出した。
このゲノムDNA溶液を、マイクロコンYM−100(ミリポア社製)を用いて約3倍に濃縮し、Ribonuclease (DNase free) Solution(ニッポンジーン社製)を用いて、最終濃度10μg/mlにて室温で1時間、RNA消化を行った。
次に、Phenol/Chloroform/Isoamyl alcohol (25:24:1、ニッポンジーン社製)をゲノムDNA溶液に等量加えて室温で5分間ゆっくり混合後、微量高速遠心機にて20,400gで20℃、5分間遠心して溶液層を分離し、水層溶液を回収する操作を2回行った。この水層溶液にクロロホルム(和光純薬工業社製、試薬特級)を等量加え室温で5分間ゆっくり混合した後、微量高速遠心機にて20,400gで20℃、5分間遠心して溶液層を分離し、水層溶液を回収する操作を2回行った。
この水層溶液に3M Sodium Acetate(ニッポンジーン社製)を最終濃度0.2Mとなるように加え混合し、更にエタノール(和光純薬工業社製、試薬特級、99.5%)を水層溶液の2倍量を加えて、−20℃で2時間エタノール沈殿を行った。これを微量高速遠心機にて20,400gで4℃、20分間遠心してゲノムDNAを回収し、エタノール(和光純薬工業社製、試薬特級、99.5%)をニッポンジーン社製Distilled Water(Deionized, Sterile)で最終濃度70%に希釈した溶液500μlで洗浄し、乾燥させた。
得られたゲノムDNAをTE(ニッポンジーン社製、pH8.0) 100μlに溶解し、5μgのゲノムDNAを得た。このうち500ngを用い、ロシュ・ダイアグノスティックス株式会社のシークエンサーGS FLXチタニウム用のマニュアルに従って塩基配列決定用ターゲットを準備し、GS FLXチタニウムを用いて、このターゲットに含まれる全てのDNAフラグメントの塩基配列を決定した。塩基配列はシークエンサーのサンプル解析全面を2区画に区切って、それぞれに得られた結果を1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaと名付けた。これらを合わせたものがGS FLXチタニウムを用いた一回分の最大限のシークエンス結果である。
この結果、ロシュ・ダイアグノスティックス株式会社の推奨する塩基配列の品質を満たす塩基配列として、1.GAC.454Reads.fnaで、661,821フラグメント分293,720,669塩基の塩基配列データ、および2.GAC.454Reads.fnaで、619,241フラグメント分261,548,803塩基の塩基配列データ、合わせて総フラグメント数1,281,062個、総塩基数555,269,472塩基分の塩基配列が得られた。
このデータを、デジタルDNAチップを用いた核酸情報処理装置100で解析するため、核酸情報処理装置100にインポートし、まず仮想ハイブリダイゼーションのためのプローブ塩基配列のリストを作成するために、全データのうちから1フラグメントの塩基数データが100塩基以上のデータのみを用いて、BLAST方式でクラスタリング処理を行い、プローブ生成処理を行った。この方法でプローブ塩基配列のセットを作成することができるのは、ターゲットに含まれる全ての核酸の塩基配列データが存在するためであり、これがデジタルDNAチップによる解析方法の大きな利点である。
クラスタリングの途中経過のアウトプットを、図17〜図20に例示した。まず、1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaを合わせて551,980,508塩基・1,235,592フラグメント分の塩基配列を、クラスター数10,000個を目標にクラスタリングして、図17に示す表200の結果を得た。
表200は、ターゲットフラグメント群201、項目202、データ203の表示大項目を備え、核酸フラグメント数211、総塩基数212、核酸フラグメント鎖長最短213、核酸フラグメント鎖長最長214、核酸フラグメント鎖長平均215、クラスタリング条件としての手法216、ターゲットクラスター数217、反復クラスタリング回数218、類似度の閾値とクラスター数の推移219〜221、クラスター・ファイル名222、クラスター数223、代表配列鎖長最短224、代表配列鎖長最長225、代表配列鎖長平均226、等が表示されるよう構成されている。各表示項目は、クラスター制御部118が所定の値を取得し、出力処理部112にて表示させる。
本実施例においては、E−valueの閾値をまず1.0E−30に設定してBLAST方式でクラスタリングを行い、得られたクラスター数は482,014であった。そこで、E−valueの閾値を1.0E−20にあげて、クラスター代表配列のクラスタリングを行った。その結果得られたクラスター数は445,858であった。これは、目標上限の10,000よりも多いため、その後、E−valueの閾値を、1.0E−10、1.0E+00、さらに、1.0E+01まで下げてクラスタリングを繰り返した。しかし、得られたクラスター数は、29,463であり、目標の上限以下とはならなかった。そこでさらに、E−valueの値を1.0E+01に固定して、得られたクラスターが10,000以下になるまで、クラスタリングを繰り返した。のべ6回のクラスタリングにより、クラスター数8,224を得て、このクラスタリング結果のクラスターセットを「Y022L08_C10000」と名付けた。
このクラスターセットに含まれるクラスターは、図18に示すクラスター名252ごとの概要を一覧表示した表250で示されている。表250には、クラスターID251ごとにクラスター名252、代表配列鎖長253、クラスター配列数254が含まれる。したがって、代表塩基配列鎖長253や各クラスターに属するフラグメントの数(クラスター配列数254の欄の数値であり、結合フラグメント数に当たる)を一覧できる。なお、本実施例では、クラスター数が多いため、図18では表250の一部だけを表示した。
次に、上記のクラスターセット「Y022L08_C10000」の代表塩基配列すべてを仮想ハイブリダイゼーション用のプローブ塩基配列のセットとして、「Y022L08_C10000_chip」と名付けたデジタルDNAチップのファイルに登録し、二次元の仮想プローブの配置を決定した。この結果であるプローブ塩基配列仮想配置リスト260を図19に示す。プローブ塩基配列仮想配置リスト260は、プローブ記憶部132の内容と略同様の情報を備える。
プローブ塩基配列仮想配置リスト260は、平板のDNAチップ基板上に、「Y022L08_C10000_chip」のプローブ塩基配列を仮想的に長方形状に配置した位置を仮想的に示している。すなわち、8,224種のプローブ塩基配列の位置を、まず24行4列のブロックに分け、さらにブロック内の位置を8行12列に分けて、特定したものである。なお、本実施例では、プローブ塩基配列の数が多いため、図19では表の一部だけを表示した。
仮想的に二次元配置された各々のプローブの塩基配列の詳細な情報は、図20に例示したような、プローブごとの詳細情報270で表示される。詳細情報270には、プローブを特定するプローブID271ごとに、当該プローブの名称であるプローブ名272、当該プローブが属するクラスターの塩基配列数であるクラスター配列数273、当該プローブの配列鎖長である代表配列鎖長274、当該プローブの塩基配列である代表塩基配列275、が含まれる。
次に、核酸情報処理装置100に格納されているターゲットフラグメントである塩基配列データセットの中から、1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaの2つのファイルを選択し、これら両方を合わせたデータセットと「Y022L08_C10000_chip」との仮想ハイブリダイゼーションを、E−valueの閾値を1.0Eに設定して行った。
得られた仮想ハイブリダイゼーションの結果のファイルを「Y022L08_C10000_chip_vs_454海水データ」と名付け、2通りの形式で表示したのが、図21および図22である。「Y022L08_C10000_chip_vs_454海水データ」をプローブ毎の結合フラグメント数の表として表示したのが、図21の仮想ハイブリダイゼーション結果表280である。仮想ハイブリダイゼーション結果表280には、仮想ハイブリダイゼーションファイル名281と、プローブID282と、プローブ名283と、デジタルDNAチップ上のプローブの位置を特定するためのブロック284とブロック内の位置を特定するためのスポット285と、プローブに類似するフラグメントの数である結合フラグメント数286と、が含まれる。本実施例では、プローブ塩基配列の数が多いため、表の一部だけを表示した。
また、この結果を、DNAマイクロアレイの画像イメージに合わせて擬似的に画像表示したのが、図22の「仮想ハイブリダイゼーション・イメージ」のイメージ300である。イメージ300においては、プローブ配列リスト「Y022L08_C10000_chip」中の各プローブを、プローブIDの番号の若いプローブ塩基配列から順に、図22の上方から下方に向かって表示している。色が明るいスポットほど、その位置に仮想的に配置したプローブ塩基配列に仮想的にハイブリダイゼーションするターゲット核酸フラグメントの数が多いことを示している。仮想ハイブリダイゼーションしたターゲットフラグメントの数が最多のプローブには、10,326のターゲット核酸フラグメントが仮想ハイブリされた。
本実施例では、仮想ハイブリダイゼーションにおけるターゲット核酸フラグメントとプローブ塩基配列の1:1の類似度の解析は、総当りで行い、ターゲットフラグメントの長さがプローブ鎖長以上で、プローブ全域にわたって塩基配列が完全一致しているプローブを特定するごとに、該プローブは仮想ハイブリダイゼーションしたものとして計数した。したがって、ターゲット核酸フラグメント内の異なる部位のそれぞれが、それぞれ異なるプローブと仮想ハイブリダイゼーションされたとして、複数回計数されている。
本実施例において、核酸情報処理装置100にインポートした海水中の微生物の塩基配列データを用いて、クラスタリングにより「Y022L08_C10000_chip」というプローブ塩基配列のリストを作成するのに要した時間は、CPUとしてXeon X5520 Quad Core 2.26GHzを2基搭載し、RAMメモリを8GB備えるという性能のコンピュータ5台からなるグリッドコンピュータを用いて約30時間であり、また、「Y022L08_C10000_chip」と1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaの2つのファイルを結合したファイルとの仮想ハイブリダイゼーションに要した時間は、同じコンピュータで合計約30分であった。
DNAチップを用いた実験では、プローブ塩基配列のリスト作成の後にリストに従ってすべてのプローブDNAを化学合成し、それらをDNAチップ基板または其質に場所を決めて固定するという作業が必要であり、これらの作業には通常数日が必要である。これに対し、本実施例の仮想ハイブリダイゼーションでは、プローブ塩基配列のリストを作成しただけで、そのデータをそのまま仮想ハイブリダイゼーションに用いることが出来、DNAチップ作成に要する手間と時間は不要である。また、DNAチップを用いた実験によるハイブリダイゼーションは通常一晩程度かかるのに比較すると、コンピュータを用いた情報処理による仮想ハイブリダイゼーションにかかる時間はわずか30分程度であった。
次に、1.GAC.454Reads.fnaと2.GAC.454Reads.fnaの2つのターゲットフラグメント群をそれぞれプローブ群「Y022L08_C10000_chip」に仮想ハイブリダイゼーションして得られた結果のファイル海水20101217_454ファイル1と海水20101217_454ファイル2について、同一のプローブに仮想ハイブリダイゼーションしたそれぞれのターゲットフラグメント数を、図23の概要表400のように比較表示した。概要表400には、項目401と、ファイル番号402と、仮想ハイブリファイル名403と、ファイル作成元データ404と、頻度比較プローブ数405と、が含まれる。この比較解析にかかる時間は、わずか10分であった。
この結果を、海水20101217_454ファイル1の仮想ハイブリダイゼーションフラグメント数の多いプローブ順に並べなおして結果表示画面410にしたものが図24に示されている。結果表示画面410には、プローブID411、ブロック412、スポット413、プローブと類似する仮想ハイブリダイゼーションフラグメント数414、ファイル間頻度差415、ファイル間頻度比416が含まれる。ここで、ファイル間頻度比416は、海水20101217_454ファイル1と海水20101217_454ファイル2の2つのデータ間の補正のため、2つのデータファイルのプローブごとの仮想ハイブリダイゼーションフラグメント数414を正規化した後に相対値を求め、プローブ毎の相対値同士の比率を求めたものである。なお、本実施例は、プローブ塩基配列の数が多いため、図24では、画面の一部だけを表示した。結果表示画面410では、図24の右端から二つ目の欄(ファイル間頻度差415)に示したような、2つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の差であるファイル間頻度差、および、右端の欄(ファイル間頻度比416)に示したような、2つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の比であるファイル間頻度比(ここでは小数点第2位を四捨五入した数値を表示)が表示された。
結果表示画面410において、頻度差の大きい順にデータを整列しなおせば、2つの仮想ハイブリダイゼーション結果で存在数の差の大きいプローブフラグメントを検出できる。また、図25の結果表示画面420ように、ファイル間頻度比の大きい順にデータを整列・表示しなおせば、2つの仮想ハイブリダイゼーション結果で存在数の比の大きなプローブフラグメントを検出できる。結果表示画面420では、結果を見やすくするための昇順番号421が追加され表全体の途中部分を表示していること以外は、図24の結果表示画面410と基本的に同様である。なお、本実施例ではプローブ塩基配列の数が多いため、図25では、結果表示画面420の途中の一部だけを表示した。
比較ファイルとして、例えば、A地点のある日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果と、同じA地点の別の日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果とを選択すれば、A地点の時間的推移に伴って大きく存在量やその比が変化したプローブフラグメントの塩基配列を抽出することが出来るといえる。また、異なる地点で得られたターゲットフラグメント同士を比較すれば、地点により存在量が大きく異なるプローブフラグメントの塩基配列を抽出することも出来るといえる。なお、仮想ハイブリダイゼーションフラグメント数をその頻度差や頻度比で複数のターゲットフラグメント間の比較を行う場合、たとえば単位体積あたりの海水からのDNA抽出量の比率などもパラメーターとして数値を補正すれば、より正確な比較をすることができると考えられる。
以上のように、本発明に係る実施形態に従って作成したデジタルDNAチップを用いた核酸情報処理装置100によって塩基配列情報をコンピュータ上で解析することにより、時間と労力を大幅に節約して、類似塩基配列の頻度解析を行うことが出来た。