JP2012146067A

JP2012146067A - 核酸情報処理装置およびその処理方法

Info

Publication number: JP2012146067A
Application number: JP2011003106A
Authority: JP
Inventors: Naganori Nasu; 永典奈須; Atsumi Tsujimoto; 敦美辻本; Takehiro Yamakawa; 武廣山川; Hiroaki Ono; 浩明小野
Original assignee: Japan Software Management Co Ltd; Bioinformatics Institute for Global Good Inc
Current assignee: Japan Software Management Co Ltd; Bioinformatics Institute for Global Good Inc
Priority date: 2011-01-11
Filing date: 2011-01-11
Publication date: 2012-08-02
Also published as: CN103339632B; US20140019062A1; WO2012096016A1; EP2665009A1; CN103339632A; EP2665009A4

Abstract

【課題】ＤＮＡマイクロアレイに相当する使用有効期限のないプローブセットを用いて容易にハイブリダイゼーション結果を得る装置を提供する。
【解決手段】インポートデータ１には、シークエンサーから出力されたターゲットのフラグメント塩基配列情報であるシークエンス・データおよびＤＮＡチップを用いた実験で得られたＤＮＡチップ実験データがインポートされ、処理機能２は、インポートしたシークエンス・データおよびＤＮＡチップ実験データならびにこれらを用いて行う様々な解析結果を格納しておくデータベース３を利用し、シークエンス・データをクラスタリング処理する機能、クラスタリングされたデータに基づいてデジタルＤＮＡチップを設計するデジタルＤＮＡチップ設計機能、プローブの塩基配列リストとの類似度およびその頻度を解析する仮想ハイブリダイゼーション機能、複数の類似塩基配列の頻度解析結果を比較する機能と、を備える。
【選択図】図１

Description

本発明は、核酸情報の処理を行う技術に関する。

生物集団、個体、生体組織、細胞等の生物系の中には膨大な数と種類の遺伝子が存在し、それらの産物が相互に影響しあって、存在を保っている。従来、個々の遺伝子の有無や変動は、サザンブロッティングやノザンブロッティングに代表されるように、1つの実験で1つの遺伝子を調べる実験手法を用いて個々に解析されていたが、ＤＮＡ（Deoxyribo Nucleic Acid）マイクロアレイ（本出願においては、便宜的にＤＮＡチップと同義として扱う）の出現に伴い、多くの遺伝情報の有無や発現量を一回の物理的・生理的実験により横断的・網羅的に捉えることが可能となった。一方、これに先駆けて始まっていたゲノムプロジェクトの進行に伴って、ＤＮＡ塩基配列決定技術についても、同時並行で解析可能なＤＮＡフラグメントの数が桁違いに増加した次世代シークエンサーと呼ばれる機器群が実用化されている。当該機器群により、１回の次世代シークエンサーの稼動により解析可能なＤＮＡのフラグメント数および塩基数は、飛躍的に増加した。このような技術は、特許文献１に記載されている。

特開２０１０−１９３８３２号公報

しかし、上記したＤＮＡマイクロアレイは、上述のように非常に有用な実験ツールであるが、３つの問題があると考えられる。一点目は、ＤＮＡマイクロアレイを用いた類似配列の頻度解析の結果は、再現性が１００％とならず、精度が高いとはいえない点である。二点目は、ＤＮＡマイクロアレイを用いた実験では、プローブ分子にハイブリダイズしたターゲット分子の量は測定できるが、ターゲット分子の塩基配列情報は得られない点である。個々のプローブ塩基にハイブリダイズしたのが、ターゲット分子の塩基配列のどの部分であるのか、ハイブリダイズした部分の塩基配列はプローブ分子の塩基配列と１００％一致するのか、ミスマッチがあるのか、ミスマッチがあるとすればどこなのか、等の詳細な情報は、ＤＮＡマイクロアレイによるハイブリダイゼーション実験のみでは得られない。三点目は、ＤＮＡマイクロアレイ実験に用いたＤＮＡマイクロアレイ及びターゲットの核酸は、同じ状態での再使用が出来ない点である。

本発明は、このような従来技術に鑑み、ＤＮＡマイクロアレイに相当する使用有効期限のないプローブセットを用いて容易にハイブリダイゼーション結果を得ることを目的とする。

例えば、本願発明に係る核酸情報処理装置は、複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、類似度の閾値を特定する情報を受け付ける閾値受付手段と、前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション手段と、特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数手段と、を備えることを特徴とする。

また例えば、核酸情報処理装置による核酸情報処理の方法であって、前記核酸情報処理装置は、複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、処理部と、を備え、前記処理部は、類似度の閾値を特定する情報を受け付ける閾値受付ステップと、前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション実施ステップと、特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数ステップと、を実施することを特徴とする。

本発明を適用することで、ＤＮＡマイクロアレイに相当する使用有効期限のないプローブセットを用いて容易にハイブリダイゼーション結果を得ることが可能となる。

本実施形態の核酸情報処理方法の概要を示す図である。本実施形態における核酸情報処理方法のハイブリダイゼーション処理の概要を示す図である。本実施形態におけるハイブリダイゼーション処理の概要を示す図である。本実施形態における核酸情報処理方法の仮想ハイブリダイゼーション処理の概要を示す図である。本実施形態における核酸情報処理装置の機能ブロック図である。ターゲットフラグメント記憶部のデータ構造を示す図である。プローブ記憶部のデータ構造を示す図である。類似度記憶部のデータ構造を示す図である。ハイブリ結果記憶部のデータ構造を示す図である。クラスター記憶部のデータ構造を示す図である。本実施形態の核酸情報処理装置のハードウェア構成を示す図である。クラスタリング処理の処理フローを示す図である。クラスタリング処理の処理フローを示す図である。仮想ハイブリダイゼーション処理の処理フローを示す図である。完全ハイブリ特定処理の処理フローを示す図である。ターゲット比較処理の処理フローを示す図である。クラスタリング処理画面の例を示す図である。クラスタリング処理結果画面の例を示す図である。クラスタリング処理結果画面の例を示す図である。クラスタリング処理結果画面の例を示す図である。仮想ハイブリダイゼーション処理結果画面の例を示す図である。仮想ハイブリダイゼーション処理結果画面の例を示す図である。ターゲット比較処理の概要を示す図である。ターゲット比較処理の処理結果画面の例を示す図である。ターゲット比較処理の処理結果画面の例を示す図である。仮想ハイブリダイゼーション処理におけるターゲットの計数方法を示す図である。

上記した技術の第一の問題についての原因は、プローブ毎、アレイ毎および作成ロット毎の基板または基質に固定されるプローブ分子数およびプローブ配列の誤差や、ハイブリダイゼーション毎の物理化学的条件の誤差等が重なり合うためと考えられる。プローブ毎及びアレイ毎の固定分子数の誤差は、基板または基質にプローブＤＮＡを固定する際、固定用の機器や酵素や化学反応の固定効率がプローブ毎及びアレイ毎に異なり、結果としてプローブ間及びアレイ間でスポット毎に固定されるスポットの分子数が異なることに起因すると考えられる。

また、ハイブリダイゼーション毎の誤差は、ハイブリダイゼーションとこれに続くＤＮＡマイクロアレイの洗浄において、温度・ｐＨ・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲットＤＮＡ濃度・プローブおよび／またはターゲットの核酸が２本鎖か1本鎖か、などの物理化学的条件のすべてをハイブリダイゼーション毎に厳密に再現することが困難なため、ハイブリダイゼーション毎にいずれかの条件が異なることに起因すると考えられる。

これら全ての条件を毎回の実験で常に厳密に同一にすることは非常に困難なため、ＤＮＡマイクロアレイを用いた類似塩基配列の頻度解析結果の再現性は１００％にはならないと考えられる。現実には、当該技術により解析を行う場合には、複数回の実験結果の平均値などの近似値を用いて解析を行わざるを得ない。

後述する本願発明に係る第一の実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行う。そのため、上記のハイブリダイゼーションにおける物理化学的条件の入り込む余地は無く、誤差等は発生しない。したがって、第一の問題を解決できる。

上記した技術の第二の問題についての原因は、ＤＮＡマイクロアレイの実験では、プローブにハイブリダイズしたターゲットの核酸の量は測定できるが、ターゲットの核酸の塩基配列情報は得られない点にある。

したがって、興味ある実験結果を得られたプローブ配列をピックアップし、それをもとに、ターゲットからそのプローブ塩基配列と類似度の高い塩基配列を持つ核酸を新たに回収し直して塩基配列を決定し、更に解析を進めるという手間がかかる。

後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に行う。そのため、上記のハイブリダイゼーションにおける結果の詳細は明確で、不明確となることはない。したがって、第二の問題を解決できる。

上記した技術の第三の問題については、完全に同一のターゲットは存在しないために、再度同一のターゲットを得ることはできず、１回に作成するＤＮＡマイクロアレイの数は有限であるため、それらを使い尽くした後には、異なる再度ＤＮＡマイクロアレイを作成する必要がある。この作業は手間や費用がかかると同時に、作成ロット間の誤差を生じるという上述した第一の問題点を生む原因ともなる。

後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行うため、ターゲットそのものの保存は問われない。または、同一のターゲットの塩基配列を複製・再現することは比較的容易である。したがって、第三の問題を解決できる。

以下に、本発明に係る第一の実施形態について図１〜図２５を用いて説明する。

図１は、本発明の第一の実施形態の例である核酸情報処理装置１００を用いた核酸情報の処理の概要を示す図である。具体的には、図１は、デジタルＤＮＡチップ（デジタルデータによるＤＮＡマイクロアレイ）での類似塩基配列の頻度解析および核酸情報の比較の流れを表す図である。

インポートデータ１には、シークエンサーから出力されたターゲットのフラグメント塩基配列情報であるシークエンス・データおよびＤＮＡチップを用いた実験で得られたＤＮＡチップ実験データがインポートされている。核酸情報処理装置１００の処理機能２は、インポートしたシークエンス・データおよびＤＮＡチップ実験データならびにこれらを用いて行う下記のような様々な解析結果を格納しておくデータベース３を利用して処理を行う。

処理機能２は、解析の流れに沿って、シークエンス・データをクラスタリング処理する機能と、クラスタリングされたデータに基づいてプローブの塩基配列リストを作成し、それらの仮想的な平面上配置の設定も含むデジタルＤＮＡチップを設計するデジタルＤＮＡチップ設計機能と、シークエンサーから出力されたターゲットのフラグメント塩基配列情報を取り込み、プローブの塩基配列リストとの類似度およびその頻度を解析する仮想ハイブリダイゼーション機能と、仮想ハイブリダイゼーションの結果同士、またはインポートしたＤＮＡチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とＤＮＡチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較する機能と、を備える。

また、処理機能２は、上記機能による様々な解析結果をアウトプットして、コンピュータ画面に表示する機能をも備える。アウトプットするデータは、アウトプット・データ４に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等と、である。

図２は、核酸情報処理方法のハイブリダイゼーション処理の概要を示す図である。具体的には、図２では、ＤＮＡマイクロアレイによる解析１３と、デジタルＤＮＡチップによる解析１４とについて、準備作業１０と、類似塩基配列の頻度解析１１と、得られる結果１２と、により整理している。

ＤＮＡマイクロアレイによる解析では、ターゲットの準備作業１０として、材料採取、ＤＮＡ抽出およびＤＮＡ増幅を行う。また、プローブの準備作業として、プローブ配列リストを作成してプローブＤＮＡを作成し、ＤＮＡマイクロアレイを作成する。そして、類似塩基配列の頻度解析１１において、ターゲットのＤＮＡとＤＮＡマイクロアレイとのいわゆるハイブリダイゼーションを行う。

当該ハイブリダイゼーションでは、ＤＮＡマイクロアレイに設けられた一本鎖の塩基配列と相補的なターゲットの一本鎖の塩基配列とが水素結合により相補鎖を形成する性質を利用する。なお、相補鎖に限らず、ＤＮＡマイクロアレイに設けられた塩基配列と同一の塩基配列を有するターゲットの一本鎖についても、陽性の反応として取得する。得られる結果１２として、プローブごとのクラスター・メンバー数が挙げられる。

デジタルＤＮＡチップによる解析１４では、ターゲットの準備作業１０として、材料採取、ＤＮＡ抽出およびターゲットフラグメント群作成を行う。ターゲットフラグメントは、塩基配列について、シークエンサーにより塩基の配列データを特定することで特定される。また、プローブの準備作業としては、プローブ群を作成する。プローブ群の作成では、過去に作成したターゲットフラグメント群のデータを再構成するものであってもよいし、既存のゲノムデータベース等のデータ、例えばＧｅｎｏｍｉｃｓ＆ＧｅｎｅｔｉｃｓＡｔＴｈｅＳａｎｇｅｒＩｎｓｔｉｔｕｔｅ（ｈｔｔｐ：／／ｗｗｗ．ｓａｎｇeｒ．ａｃ．ｕｋ／ｇeｎeｔｉｃｓ／）の様々なデータベースのデータ、ＶＡＭＰＳ（ＶｉｓｕａｌｉｚａｔｉｏｎａｎｄＡｎａｌｙｓｉｓｏｆＭｉｃｒｏｂｉａｌＰｏｐｕｌａｔｉｏｎＳｔｒｕｃｔｕｒｅｓ）のデータベースのデータ（ｈｔｔｐ：／／ｖａｍｐｓ.ｍｂｌ.eｄu／）等の公開データベースや未公開で各研究機関等が独自に運営しているデータベース等を利用してもよい。そして、類似塩基配列の頻度解析１１において、ターゲットフラグメントの塩基配列データとプローブ群の塩基配列データとの一対一照合を行う仮想ハイブリダイゼーションを行う。

仮想ハイブリダイゼーションでは、塩基の相補性を利用して、ターゲットフラグメントの塩基配列ごとにプローブ群の塩基配列を相補的に、および相補的にではなくプローブ群の塩基配列との類似性に基づいてマッチング処理し、対応する組み合わせを特定する。得られる結果１２として、プローブごとのクラスター・メンバー数と、ターゲットの全核酸フラグメントの塩基配列情報と、が挙げられる。また、プローブ群として用いた塩基配列情報は逸失せず、再度の利用が可能である。

図３は、ＤＮＡマイクロアレイを用いた類似度の頻度解析の流れにおける、ハイブリダイゼーション処理の概要を示す図である。

一般的に、ハイブリダイゼーション処理では、標識したターゲット核酸溶液２１とＤＮＡマイクロアレイ２２を用いて、各々のプローブとターゲットの核酸分子同士の相補性の程度に基づくハイブリダイゼーション実験を行う。この際、ＤＮＡマイクロアレイを用いたハイブリダイゼーション実験では、ハイブリダイゼーションとこれに続くＤＮＡマイクロアレイの洗浄ステップにおける実験単位ごとの物理化学的条件（温度・ｐＨ・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲット核酸濃度・プローブおよび／またはターゲットの核酸が２本鎖か1本鎖か、など）により、相補性の閾値を規定する。

ハイブリダイゼーション実験を行うと、例えばハイブリダイゼーション後のＤＮＡマイクロアレイ２３のような反応結果が得られる。そのＤＮＡマイクロアレイの一部分２４を拡大してみると、ＤＮＡマイクロアレイの一部分のハイブリダイゼーション結果の拡大図２５に示すように、ＤＮＡマイクロアレイの基板２６のプローブスポット領域２７にプローブＤＮＡフラグメント２８が固定されている。そして、上述の物理化学的条件で規定された相補性の閾値よりもプローブＤＮＡフラグメントとターゲット核酸フラグメントとの相補性が高い場合にプローブＤＮＡフラグメントとターゲット核酸フラグメントとが二重鎖を形成する。この作用により、ハイブリダイズした標識したターゲット核酸フラグメント２９の分子数の多寡に従ってスポット毎に標識シグナルの強弱が異なる、という物理化学的結果が得られる。

ＤＮＡマイクロアレイを用いたハイブリダイゼーションでは、通常、数時間から一晩程度のハイブリダイゼーションの後に洗浄作業を行うため、ほぼ1日を必要とする。ＤＮＡマイクロアレイによる解析では、プローブ３１ごとに二重鎖を形成したターゲットフラグメント数の概数（シグナル強度３２で表される情報）の情報３０が得られる。

図４は、デジタルＤＮＡチップを用いた類似度の頻度解析の流れにおける、仮想ハイブリダイゼーション処理の概要を示す図である。

仮想ハイブリダイゼーション処理では、ターゲットに含まれる全てのフラグメントＩＤ４２で特定される塩基配列４３を一つあるいは複数含む核酸フラグメント・リスト４１と、プローブＩＤ４５で特定される塩基配列４６を一つあるいは複数含むプローブ塩基配列リスト４４の全プローブの塩基配列情報とを核酸情報処理装置１００上において１対１で１塩基ごとに照合するマッチング処理４７を行う。この際、ターゲットとプローブのフラグメント内の１塩基ペア毎の一致又は不一致、および相補鎖を形成すべき組合せか否かをプローブのフラグメント全域にわたって判定し、プローブのフラグメント内での一致条件の数字（総一致率、最長連続一致塩基数、最長連続一致率、など）により、類似度の閾値を規定する。

マッチング処理４７を行って、プローブの塩基配列とターゲット核酸の塩基配列を上述の手法により１：１で照合して算出した類似度の値が、上述のように数字で規定した類似度の閾値より高い値を示したターゲット核酸の塩基配列について、核酸情報処理装置１００は、プローブＩＤ５１により代表される塩基配列が類似したフラグメントの集合であるクラスターを特定し、仮想ハイブリダイゼーション結果表５０の中のクラスター・メンバーとして追加する追加処理４８を行う。具体的には、核酸情報処理装置１００は、クラスター・メンバー数５２をインクリメントし、クラスター・メンバーのフラグメントＩＤ５３としてターゲットのフラグメントＩＤ４２を追加し、クラスター・メンバーの塩基配列５４としてターゲットの塩基配列４３を追加する。

なお、算出した類似度の値が類似度の閾値より低い値を示したターゲット核酸の塩基配列については、核酸情報処理装置１００は、仮想ハイブリダイゼーション結果表５０の照合相手のプローブの塩基配列のクラスターには加えず、照合相手の変更５５（異なるプローブＩＤの塩基を照合相手とする）を行い、照合するプローブの塩基配列を変えてマッチング処理４７を再度行う。核酸情報処理装置１００は、すべてのプローブの塩基配列とのマッチング処理４７を終えてもいずれのプローブの塩基配列のクラスター・メンバーにもならなかったターゲット核酸の塩基配列は、仮想ハイブリダイゼーション結果表５０には入れず、反応陰性のグループとする。

こうして、核酸情報処理装置１００は、いずれかのプローブの塩基配列のクラスターまたは反応陰性のグループへと照合対象のターゲット核酸の塩基配列の帰属先を決め終えたら、照合ペアの変更５６を行って、照合するターゲット核酸の塩基配列とプローブの塩基配列のペアを新たに選択し、マッチング処理４７等の処理を行う。ターゲット核酸のすべての塩基配列について、上記の操作を繰り返し終えると、核酸情報処理装置１００は、仮想ハイブリダイゼーション結果表５０の各々のプローブＩＤ５１ごとに、クラスターに入れられたターゲット核酸の塩基配列の個数を集計して、クラスター・メンバー数として算出する。

デジタルＤＮＡチップを用いた仮想ハイブリダイゼーションでは、核酸情報処理装置の演算性能等に大きく左右されるにしても、長くても数時間以内に終了することが十分に考えられる。したがって、処理時間はデジタルＤＮＡチップを用いることで短縮できる可能性が高い。

上記のような類似塩基配列の頻度解析を行い、最終結果として得られる情報は、デジタルＤＮＡチップを用いた解析では、プローブごとにその塩基配列と所定の類似度を持つターゲットフラグメントのクラスターに属するフラグメント数、およびターゲット準備段階で得られたターゲットの全フラグメントの全塩基配列情報である。

図５は、核酸情報処理装置１００の機能ブロック図を示す図である。核酸情報処理装置１００は、制御部１１０と、記憶部１３０と、出力表示部１４０と、入力受付部１５０と、通信処理部１６０と、を備える。制御部１１０は、入力処理部１１１と、出力処理部１１２と、プローブ生成部１１３と、ターゲットフラグメント生成部１１４と、ハイブリダイゼーション部１１５と、完全ハイブリ特定部１１６と、フラグメント比較部１１７と、クラスター制御部１１８と、類似度解析部１１９と、クラスター分類部１２０と、を備える。

入力処理部１１１は、通信処理部１６０を介して、図示しないクライアント端末（例えば、Ｗｅｂブラウザを搭載したパーソナルコンピュータ）から送信された入力情報を受け付ける。なお、これに限られず、入力処理部１１１は、後述する入力装置１０１を介して入力情報を受け付けるものであってもよい。

出力処理部１１２は、通信処理部１６０を介して、クライアント端末に対して、出力情報を送信する。出力情報は、図１に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等である。なお、出力処理部１１２は、後述する出力装置１０６を介して出力情報を出力するものであってもよい。

プローブ生成部１１３は、塩基配列データを用いて、デジタルＤＮＡチップに相当するプローブ情報を生成する。具体的には、プローブ生成部１１３は、既存のデジタルＤＮＡチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブＩＤを割り当て、当該プローブＩＤが属するプローブセットＩＤを割り当て、ＤＮＡマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を順に割り当てる。そして、プローブ生成部１１３は、その塩基配列データの鎖長（塩基数）と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部１３２に格納する。なお、プローブ生成部１１３は、例えば、ＦＡＳＴＡやＢＬＡＳＴ（ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ）等の既存のソフトウェアパッケージで用いられる所定のデータ形式で提供される塩基配列データを、所定のデータ形式に変換を行うものであってもよい。なお、ＦＡＳＴＡとは、バイオインフォマティクスで塩基配列クエリあるいはタンパク質のアミノ酸配列クエリを用いて塩基配列データベースあるいはアミノ酸データベースを検索し類似度を判定することが可能なソフトウェアである。当該ＦＡＳＴＡでは、塩基配列の情報をプレーンテキストで記録するＦＡＳＴＡフォーマットという記述様式により塩基配列を記述する。本実施形態においては、ＢＬＡＳＴとは、バイオインフォマティクスでＤＮＡの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアライメントを行うためのアルゴリズムをいう。また、一般的な称呼に合わせて、そのアルゴリズムを実装したプログラムもＢＬＡＳＴと呼ぶ。ＢＬＡＳＴは、例えば、未知の塩基配列を用いて、ゲノムのシーケンスデータベースに対して検索を行うと、類似度の高いシーケンス群と、その類似度と、一致率と、一致部分の開始位置／終了位置およびターゲット塩基配列上の一致部分の開始位置／終了位置を抽出することができる。

ターゲットフラグメント生成部１１４は、シークエンサー等により読み取ったターゲットを構成する一連の塩基配列の情報を、当該塩基配列を他の塩基配列から識別するフラグメントＩＤと対応付けて、後述するターゲットフラグメント記憶部１３１に格納する。具体的には、シークエンサーから出力される塩基配列データごとに一意の識別番号等を割り当ててターゲットフラグメント記憶部１３１に格納する。

ハイブリダイゼーション部１１５は、仮想ハイブリダイゼーションを行う。具体的には、ハイブリダイゼーション部１１５は、ターゲットフラグメント記憶部１３１に格納されたターゲットフラグメントの塩基配列と、プローブ記憶部１３２に格納されたプローブの塩基配列と、の類似度が閾値以上となる組み合わせについて特定し、プローブＩＤごとに類似度が所定の閾値以上となるターゲットフラグメントの数および完全ハイブリ特定部１１６により特定した完全ハイブリの数を計数する。なお、本実施形態における類似度とは、一般的な概念であり、類似率、アライメント率等により測定される。

完全ハイブリ特定部１１６は、類似度の解析を行った結果にもとづいて、一致部分データを抽出して連結させ、プローブ塩基配列の開始位置から終了位置までの全ての塩基配列と所定以上の値の類似度を持つ塩基配列を特定する。具体的には、完全ハイブリ特定部１１６は、類似度記憶部１３３から、プローブ塩基配列との類似率が所定以上となるターゲットフラグメントの塩基配列を含む、部分的に一致するターゲットフラグメントの塩基配列を一致部分データとして抽出し、一致の開始位置および終了位置に基づいて順に連結させ、プローブ塩基配列の終了位置まで連結可能であれば、連結させた一致部分データの配列を完全ハイブリとして特定する。

なお、完全ハイブリ特定部１１６は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合には、当該一致部分データを完全ハイブリとして特定する。

また、完全ハイブリ特定部１１６は、このような処理に限らず、例えばプローブの開始終了端から中央へ向かって部分的に一致する一致部分データを連結させて行き、一致部分データが隙間無く連結される場合には、当該連結された一致部分データの組を完全ハイブリとして特定するようにしてもよい。

すなわち、完全ハイブリ特定部１１６は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合、または、プローブの塩基配列に仮想ハイブリしたターゲットフラグメント中の複数の核酸フラグメントの当該プローブの塩基配列との類似部分を隙間なく繋ぎ合わせると当該プローブの塩基配列との類似部分の全体が当該プローブ塩基配列の全てを含む場合、には、当該一致部分データを完全ハイブリとして特定するといえる。

フラグメント比較部１１７は、異なる２つのターゲットフラグメントセットの比較を行うターゲット比較処理を行う。例えば、フラグメント比較部１１７は、同一のプローブセットを用いた仮想ハイブリダイゼーションがなされた異なる２つのターゲットフラグメント群、例えば同一海域で異なる時期に採取された海水から抽出したターゲットフラグメント、についての結果情報について、同一のプローブに対するクラスター・メンバー数の相違を特定し、出力する。

クラスター制御部１１８は、ターゲットフラグメントを所定の数以下のクラスター群に分類するクラスタリング処理を行う。クラスター制御部１１８は、クラスターに分類する対象となるターゲットフラグメント群内で、ターゲットフラグメント同士の類似度に応じてグルーピングを行い、クラスターを形成する。具体的には、クラスター制御部１１８は、受け付けたクラスター上限数以下となるまで徐々に類似度の閾値を下げてグループを形成し、上限数以下となった場合にクラスター群への分類を終える。なお、クラスター制御部１１８は、類似度の閾値を徐々に下げて所定の値（例えば、１．０Ｅ＋０１）に達した場合には、当該値以下には閾値を下げずに固定して、それ以降は代表配列同士の類似度が閾値以上であればクラスターを併合する。

類似度解析部１１９は、２つの塩基配列データの類似度を特定する。具体的には、類似度解析部１１９は、塩基の相補性に応じて、２つの塩基配列データの類似率、アライメント率、類似部分の開始位置と終了位置を特定する。すなわち、原理的には、片方の塩基配列データの塩基と対応する相補的な塩基が他方の塩基配列データに含まれる場合には、それらの塩基に隣接する塩基についても相補的に対応するか否かを判定する。これを対応しない塩基が出現するまで繰り返し、また、異なる塩基の対についても同様に対応を判定し、対応する部分を類似部分として特定する。なお、類似部分の開始位置と終了位置の距離が長い組合せが、当該塩基配列データの類似するデータとなる。なお、類似度解析部１１９は、塩基の相補的な対応を判定するだけでなく、塩基の同一性についても判定し、類似度を判定する。つまり、類似度解析部１１９は、片方の塩基配列データ（例えば、ターゲット）に含まれる一連の塩基配列が、他方の塩基配列データ（例えば、プローブ）に含まれる一連の塩基配列と所定以上の類似度を有する場合に、当該片方の一連の塩基配列を当該他方の塩基配列データとの類似部分とするといえる。この類似度の特定には、既存のＢＬＡＳＴ等のアルゴリズムを利用することが考えられる。

クラスター分類部１２０は、ターゲットフラグメントを類似度に応じて複数のクラスターに分類する。具体的には、クラスター分類部１２０は、ターゲットフラグメントから一つのフラグメントにより代表されるクラスターを一つ設け、その他のフラグメントが当該クラスターの代表フラグメントと所定以上の類似度を備えるか否かを判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。所定以上の類似度を備えない場合には、クラスター分類部１２０は、他のクラスターがあればそのクラスターの代表フラグメントとの類似度を判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。他のクラスターのいずれとも所定以上の類似度を備えないフラグメントについては、クラスター分類部１２０は、当該フラグメントを代表フラグメントとする新たなクラスターを設ける。

記憶部１３０は、ターゲットフラグメント記憶部１３１と、プローブ記憶部１３２と、類似度記憶部１３３と、ハイブリ結果記憶部１３４と、クラスター記憶部１３５と、を格納する。また、記憶部１３０は、核酸情報処理装置１００に固定的に設置される記憶装置等であってもよいし、独立したストレージ装置等であってもよい。

ターゲットフラグメント記憶部１３１は、図６に示すように、フラグメントを識別する情報を含むフラグメントＩＤ１３１１と、フラグメントＩＤ１３１１で特定されるフラグメントの塩基配列の情報である塩基配列情報１３１２と、を含む。

プローブ記憶部１３２は、図７に示すように、プローブが属するプローブセット（デジタルＤＮＡチップ）を識別する情報を含むプローブセットＩＤ１３２１と、プローブの塩基配列を識別する情報を含むプローブＩＤ１３２２と、プローブＩＤ１３２２で特定される塩基配列の塩基数である鎖長１３２３と、プローブＩＤで特定されるプローブの塩基配列の情報である塩基配列情報１３２４と、プローブＩＤで特定されるプローブの塩基配列が、プローブセットＩＤ１３２１で特定されるデジタルＤＮＡチップ上の概略の配置位置を特定するブロック位置１３２５と、ブロック内の詳細な配置位置を特定するスポット位置１３２６と、を含む。

類似度記憶部１３３は、図８に示すように、類似度を解析する対象の一つであるフラグメントの塩基配列を識別する情報を含むフラグメントＩＤ１３３１と、類似度を解析する対象の相手方であるプローブの塩基配列を識別する情報を含むプローブＩＤ１３３２と、フラグメントＩＤ１３３１で識別されるフラグメントの塩基配列と、プローブＩＤ１３３２で識別されるプローブの塩基配列と、の類似率１３３３と、アライメント率１３３４と、フラグメントの塩基配列上の類似部分の開始位置であるフラグメント上の開始位置１３３５と、フラグメントの塩基配列上の類似部分の終了位置であるフラグメント上の終了位置１３３６と、プローブの塩基配列上の類似部分の開始位置であるプローブ上の開始位置１３３７と、プローブの塩基配列上の類似部分の終了位置であるプローブ上の終了位置１３３８と、を含む。

ハイブリ結果記憶部１３４は、図９に示すように、仮想ハイブリダイゼーションの結果の情報を格納する記憶部であり、プローブの塩基配列を識別する情報を含むプローブＩＤ１３４１ごとに、類似度が所定の閾値以上であるフラグメントの数で示される頻度１３４２を対応付けて格納する。

クラスター記憶部１３５は、図１０に示すように、クラスタリング処理により分類されたターゲットフラグメントの群を識別する情報を含むクラスターＩＤ１３５１ごとに、クラスターを代表するフラグメントと識別する情報を含む代表フラグメントＩＤ１３５２と、代表フラグメントの塩基配列の情報である代表フラグメント塩基配列情報１３５３と、を格納する。また、クラスター記憶部１３５は、クラスターＩＤ１３５１ごとに、当該クラスターに所属するフラグメントを識別する情報を含むフラグメントＩＤ１３５４と、当該フラグメントの塩基配列の情報である塩基配列情報１３５５と、を格納する。

出力表示部１４０は、核酸情報処理装置１００のＧＵＩあるいはＣＵＩ等の各種情報を出力する。入力受付部１５０は、ＧＵＩあるいはＣＵＩの操作情報の入力を受け付ける。

通信処理部１６０は、図示しないネットワーク等を介して他の機器に接続し、接続した他の機器から送信された情報の受信を行い、接続した他の機器に対して情報の送信を行う。

図１１は、本実施形態における核酸情報処理装置１００のハードウェア構成を示す図である。

本実施形態においては、核酸情報処理装置１００は、例えば、専用のハードウェア装置である。しかし、これに限られず、汎用性の高いＰＣ（パーソナルコンピュータ）や、ワークステーション、サーバ装置、各種携帯電話端末、ＰＤＡ（Personal Digital Assistant）などの計算機であってもよい。

核酸情報処理装置１００は、入力装置１０１と、外部記憶装置１０２と、演算装置１０３と、主記憶装置１０４と、通信装置１０５と、出力装置１０６と、それぞれの装置を互いに接続するバス１０７と、を有する。

入力装置１０１は、例えばキーボードやマウス、あるいはタッチペン、その他ポインティングデバイスなどの入力を受け付ける装置である。

外部記憶装置１０２は、例えばハードディスク装置やフラッシュメモリなどの不揮発性記憶装置である。

演算装置１０３は、例えばＣＰＵ（Central Processing Unit）などの演算装置である。

主記憶装置１０４は、例えばＲＡＭ（Random Access Memory）などのメモリ装置である。

通信装置１０５は、アンテナを介して無線通信を行う無線通信装置、又はネットワークケーブルを介して有線通信を行う有線の通信装置である。

出力装置１０６は、例えばディスプレイなどの、表示を行う装置である。

核酸情報処理装置１００の記憶部１３０は、主記憶装置１０４または外部記憶装置１０２により実現される。

また、核酸情報処理装置１００の入力処理部１１１と、出力処理部１１２と、プローブ生成部１１３と、ターゲットフラグメント生成部１１４と、ハイブリダイゼーション部１１５と、完全ハイブリ特定部１１６と、フラグメント比較部１１７と、クラスター制御部１１８と、類似度解析部１１９と、クラスター分類部１２０とは、核酸情報処理装置１００の演算装置１０３に処理を行わせるプログラムによって実現される。

このプログラムは、主記憶装置１０４または外部記憶装置１０２内に記憶され、実行にあたって主記憶装置１０４上にロードされ、演算装置１０３により実行される。

また、核酸情報処理装置１００の出力表示部１４０は、核酸情報処理装置１００の出力装置１０６によって実現される。

また、核酸情報処理装置１００の入力受付部１５０は、核酸情報処理装置１００の入力装置１０１によって実現される。

また、核酸情報処理装置１００の通信部１６０は、核酸情報処理装置１００の通信装置１０５によって実現される。

以上が、核酸情報処理装置１００のハードウェア構成である。なお、核酸情報処理装置１００のハードウェア構成および処理部等の構成は、上記の例に限られず、例えば代替可能な異なる部品等による異なる構成を備えるものであってもよい。

例えば、核酸情報処理装置１００の入力処理部１１１と、出力処理部１１２と、プローブ生成部１１３と、ターゲットフラグメント生成部１１４と、ハイブリダイゼーション部１１５と、完全ハイブリ特定部１１６と、フラグメント比較部１１７と、クラスター制御部１１８と、類似度解析部１１９と、クラスター分類部１２０とは、核酸情報処理装置１００の構成を理解容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。核酸情報処理装置１００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、核酸情報処理装置１００の各機能部は、ハードウェア（ＡＳＩＣ、ＧＰＵなど）により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

[動作の説明]次に、本実施形態における核酸情報処理装置１００が実施するクラスタリング処理のフローについて、図１２、１３に基づき説明する。図１２および図１３は、クラスタリング処理を示すフロー図である。なお、クラスタリング処理は、図示しないＰＣ等のクライアント端末から、Ｗｅｂブラウザ等を介したクラスタリング処理の実行依頼を、ネットワークを介して受け付けると、開始される。

まず、クラスター制御部１１８は、クラスターの設定値（類似度閾値とクラスター上限数）の入力画面を構成する。そして、出力処理部１１２は、実行依頼の要求元へ構成した画面を送信する（ステップＳ００１）。具体的には、クラスター制御部１１８は、類似度閾値としてＥ−ｖａｌｕｅおよび配列長、およびクラスター上限数の入力画面を構成し、出力処理部１１２は、実行依頼の要求元へ構成した画面を送信する。

入力処理部１１１は、類似度閾値と、クラスター上限数と、についての入力を受け付ける（ステップＳ００２）。具体的には、入力処理部１１１は、クライアント端末のＷｅｂブラウザからパラメーターとして送信されたＥ−ｖａｌｕｅおよび配列長、およびクラスター上限数を受け付ける。

クラスター制御部１１８は、入力処理部１１１等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ全てを、ＢＬＡＳＴソフトウェアにて取り扱い可能な形式のデータへ変換する（ステップＳ００３）。具体的には、クラスター制御部１１８は、入力処理部１１１等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ（例えば、ＦＡＳＴＡソフトウェアにて処理可能な形式）の全てを、ＢＬＡＳＴソフトウェアにて処理可能な形式のデータへ変換する。

そして、クラスター分類部１２０は、クラスターに所属しないターゲットフラグメントを選択する（ステップＳ００４）。具体的には、クラスター分類部１２０は、ＦＡＳＴＡソフトウェアにて処理可能なデータ形式のターゲットフラグメント群から、いずれのクラスターにも所属せず、クラスターの分類処理を受けていないターゲットフラグメントを一つ選択する。

次に、クラスター分類部１２０は、未選択の既存のクラスターがあるか否か判定する（ステップＳ００５）。具体的には、クラスター分類部１２０は、クラスタリング処理により形成された既存のクラスターのうち、未選択のクラスターが残っているか否かを判定する。

未選択の既存のクラスターがある場合（ステップＳ００５にて「Ｙｅｓ」の場合）には、クラスター分類部１２０は、当該未選択の既存のクラスターを特定して、そのクラスターの代表配列を選択状態にする（ステップＳ００６）。

そして、類似度解析部１１９は、選択状態にした代表配列と、選択したターゲットフラグメントとの類似度を特定する（ステップＳ００７）。具体的には、類似度解析部１１９は、ＢＬＡＳＴソフトウェアと同様に、両配列の類似度（類似率、アライメント率、ターゲットフラグメント上の類似部分の開始位置と終了位置およびプローブ塩基配列上の類似部分の開始位置と終了位置）を特定し、類似度記憶部１３３に格納する。なお、当該処理において、類似度解析部１１９は、ステップＳ００２にて受け付けた類似度閾値を用いて類似度を特定する。

そして、クラスター分類部１２０は、特定した類似度は類似度閾値以上であったか否かを判定する（ステップＳ００８）。具体的には、クラスター分類部１２０は、ステップＳ００７で特定した、選択状態にした代表配列と選択したターゲットフラグメントとの類似度が、ステップＳ００２で受け付けた類似度閾値以上であるか否かを判定する。

類似度閾値以上でない場合（ステップＳ００８で「Ｎｏ」の場合）には、クラスター分類部１２０は、他のクラスターの代表フラグメントとの類似度を特定するために、制御をステップＳ００５に戻す。

類似度閾値以上である場合（ステップＳ００８で「Ｙｅｓ」の場合）には、クラスター分類部１２０は、ターゲットフラグメントおよびその同属クラスター内のフラグメントを選択した代表配列が属するクラスターに所属させる（ステップＳ００９）。より具体的には、クラスター分類部１２０は、類似度を比較したターゲットフラグメントが所属していたクラスターがある場合には、当該クラスターに所属するフラグメントの全てとともに、ターゲットフラグメントを、類似度を比較した代表配列に代表される既存クラスターに所属させる。その際、所属先が変わったターゲットフラグメントについては、クラスター分類部１２０は、当該ターゲットフラグメントが属していたクラスターから、当該ターゲットフラグメントを削除する。

そして、クラスター分類部１２０は、クラスター記憶部１３５にクラスター情報を格納する（ステップＳ０１０）。具体的には、クラスター分類部１２０は、ステップＳ００９で所属させたフラグメントのすべてについて、クラスター記憶部１３５のフラグメントＩＤ１３５４および塩基配列情報１３５５に情報を格納する。なお、新たに所属させたフラグメントがない場合には、クラスター分類部１２０は、クラスター記憶部１３５に情報を格納する必要がないため、特に処理を行わない。

そして、クラスター分類部１２０は、未所属のターゲットフラグメントが残っているか否かを判定する（ステップＳ０１１）。具体的には、クラスター分類部１２０は、ターゲットフラグメント群に、いずれのクラスターにも所属していないターゲットフラグメントが残っているか否かを判定する。

未所属のターゲットフラグメントが残っている場合（ステップＳ０１１にて「Ｙｅｓ」の場合）には、クラスター分類部１２０は、ステップＳ００４へ制御を戻す。

未所属のターゲットフラグメントが残っていない場合（ステップＳ０１１にて「Ｎｏ」の場合）には、クラスター制御部１１８は、後述するステップＳ０１３へ処理を進める。

上述したステップＳ００５の判定において、未選択の既存のクラスターがない場合（ステップＳ００５にて「Ｎｏ」の場合）には、クラスター分類部１２０は、ターゲットフラグメントを代表配列とするクラスターを新設する（ステップＳ０１２）。具体的には、クラスター分類部１２０は、ターゲットフラグメントについて代表フラグメント１３５２および代表フラグメント塩基配列情報１３５３に情報を格納する。

そして、クラスター制御部１１８は、クラスター数がクラスター上限数よりも多いか否かを判定する（ステップＳ０１３）。具体的には、クラスター制御部１１８は、クラスター記憶部１３５に格納されているクラスターＩＤ１３５１の数を計数し、ステップＳ００２で入力を受け付けたクラスター上限数と比較する。クラスター数がクラスター上限数以下である場合（ステップＳ０１３にて「Ｎｏ」の場合）には、クラスター制御部１１８は、クラスタリング処理を終了させる。

クラスター数がクラスター上限数よりも多い場合（ステップＳ０１３にて「Ｙｅｓ」の場合）、クラスター制御部１１８は、各クラスターの代表配列を集めてターゲットフラグメントを作成する（ステップＳ０１４）。

そして、クラスター制御部１１８は、類似度の閾値であるＥ−Ｖａｌｕｅを１．０Ｅ＋１０倍に設定して（ステップＳ０１５）、制御をステップＳ００３に戻す。このようにすることで、類似度を緩めてクラスター代表配列同士の類似度を判定し、クラスターを上限数以下に抑えるために統合することができる。なお、Ｅ−Ｖａｌｕｅを１．０Ｅ＋１０倍に設定すると、Ｅ−Ｖａｌｕｅが予め定めた値である１．０Ｅ＋０１を超える場合には、クラスター制御部１１８は、Ｅ−Ｖａｌｕｅを１．０Ｅ＋０１に設定し、制御をステップＳ００３に戻す。

以上が、クラスタリング処理のフローである。クラスタリング処理によると、核酸情報処理装置１００は、指定された類似度閾値およびクラスター上限数に基づいてターゲットフラグメントをクラスタリングすることができる。つまり、ターゲットの類似度が所定以上となるようにターゲットを区分することができるといえる。本実施形態のクラスタリング処理により得られるクラスターは、代表配列同士のホモロジー間隔が一定以上離れる。この場合において、多種の生物体等が含まれるターゲットを対象としてクラスターに区分すると、大数の法則により、ホモロジー間隔がほぼ一定となるクラスター群が得られるといえる。これは、構成される塩基配列等が未知の生物体等を含むターゲットを対象として、塩基配列の構成の経時変化の傾向をつかむための実験等を行う場合等、類似度が一定のプローブを作成したい場合等に有効である。

次に、本実施形態における核酸情報処理装置１００が実施する仮想ハイブリダイゼーション処理のフローについて、図１４に基づき説明する。図１４は、仮想ハイブリダイゼーション処理を示すフロー図である。なお、仮想ハイブリダイゼーション処理は、図示しないＰＣ等のクライアント端末から、Ｗｅｂブラウザ等を介した仮想ハイブリダイゼーション処理の実行依頼を、ネットワークを介して受け付けると、開始される。

まず、プローブ生成部１１３は、既存のデジタルＤＮＡチップ情報をプローブ配列としてＢＬＡＳＴデータへ変換する（ステップＳ１０１）。具体的には、プローブ生成部１１３は、既存のデジタルＤＮＡチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブＩＤを割り当て、当該プローブＩＤが属するプローブセットＩＤを割り当て、ＤＮＡマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を割り当てる。そして、プローブ生成部１１３は、その塩基配列データの鎖長（塩基数）と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部１３２に格納する。そして、プローブ生成部１１３は、既存のデジタルＤＮＡチップの情報や、その他のプローブとして用いる塩基配列データを、ＢＬＡＳＴソフトウェアパッケージで用いられる所定のデータ形式に変換する。

そして、入力処理部１１１は、類似度閾値（Ｅ−Ｖａｌｕｅおよび配列長）の入力を受け付ける（ステップＳ１０２）。具体的には、出力処理部１１２が所定の類似度閾値の入力画面をクライアント端末に送信して表示させ、入力された類似度閾値の値を入力処理部１１１が受け付ける。

そして、ハイブリダイゼーション部１１５は、予めターゲットフラグメント生成部１１４がターゲットフラグメント記憶部１３１に格納した情報に基づいて、フラグメント配列ごとにプローブ配列（例えば、クラスターごとの代表配列）との類似度を解析する（ステップＳ１０３）。具体的には、ハイブリダイゼーション部１１５が、ターゲットフラグメントの塩基配列とプローブの塩基配列とのすべての組み合わせを対象として、類似度解析部１１９に処理を委譲して類似度およびターゲットフラグメントの塩基配列上およびプローブの塩基配列上の類似部分の開始位置および終了位置をそれぞれ特定する。

そして、ハイブリダイゼーション部１１５は、類似度を解析した結果を、類似度記憶部１３３に格納する（ステップＳ１０４）。

ハイブリダイゼーション部１１５は、類似度解析結果から、類似度閾値以上の類似度を持つフラグメント数をプローブごとに計数し、ハイブリ結果記憶部１３４に格納する（ステップＳ１０５）。

以上が、仮想ハイブリダイゼーション処理のフローである。仮想ハイブリダイゼーション処理によると、核酸情報処理装置１００は、指定された類似度閾値以上の類似度を備えるターゲットフラグメントの数を、プローブ塩基配列ごとに計数することができる。すなわち、プローブ塩基配列がクラスターの代表配列である場合には、ターゲット内に含まれる塩基配列について、クラスターごとの頻度を特定することができるといえる。また、仮想ハイブリダイゼーション処理により、核酸情報処理装置１００は、全てのターゲットとプローブの組み合わせについて類似の度合いとその部位を特定することができる。なお、上記処理のステップＳ１０５において、ハイブリダイゼーション部１１５は、後述する完全ハイブリ特定処理により完全ハイブリであると判定された一連の塩基配列をプローブごとに計数し、ハイブリ結果記憶部１３４に格納するようにしてもよい。これにより、フラグメントがプローブ配列よりも細片化している場合であっても、適切な頻度を得ることができるといえる。

次に、本実施形態における核酸情報処理装置１００が実施する完全ハイブリ特定処理のフローについて、図１５に基づき説明する。図１５は、完全ハイブリ特定処理を示すフロー図である。なお、完全ハイブリ特定処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないＰＣ等のクライアント端末から、Ｗｅｂブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。

まず、完全ハイブリ特定部１１６は、類似度記憶部１３３から、一致部分データを抽出する（ステップＳ２０１）。一致部分データには、完全一致部分データが含まれる。なお、本実施形態において、一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が所定以上の値を示す類似部分（すなわちプローブ配列と所定の類似性を示す類似部分）を有するターゲットフラグメントの塩基配列データである。また、完全一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が完全一致を示す類似部分のみを備えるターゲットフラグメントの塩基配列データである。

完全ハイブリ特定部１１６は、抽出した一致部分データのうち、プローブ上の開始位置の昇順に未処理の一件を抽出し、クエリとする（ステップＳ２０２）。具体的には、完全ハイブリ特定部１１６は、ステップＳ２０１で抽出した一致部分データを、プローブ上の開始位置１３３７の昇順にソートし、ソートされた先頭の一致部分データと類似部分の開始位置がプローブ上の開始位置１３３７と同一の一致部分データのうち未処理の一件を対象にクエリとして抽出を試みる。なお、その際、完全ハイブリ特定部１１６は、さらに、一致部分データの類似部分の終了位置（すなわち、フラグメント上の終了位置１３３６）が、一致部分データの終了位置（すなわち、フラグメントの最後尾の位置）と一致するターゲットフラグメントのみ（すなわち、完全一致部分データを含む）を抽出する対象とする。

完全ハイブリ特定部１１６は、クエリが抽出できたか否かを判定する（ステップＳ２０３）。抽出できなかった場合（ステップＳ２０３にて「Ｎｏ」である場合）には、完全ハイブリ特定部１１６は、完全ハイブリ特定処理を終了させる。

クエリが抽出できた場合（ステップＳ２０３にて「Ｙｅｓ」の場合）には、完全ハイブリ特定部１１６は、当該クエリの塩基配列の類似部分の終了位置（フラグメント上の終了位置１３３６）が、一致したプローブの終了位置（プローブ上の終了位置１３３８）であるか否かを判定する（ステップＳ２０４）。

プローブの終了位置である場合（ステップＳ２０４にて「Ｙｅｓ」の場合）には、完全ハイブリ特定部１１６は、探索した一連のクエリを完全ハイブリとして記憶部１３０の所定の領域に格納する（ステップＳ２０５）。そして、完全ハイブリ特定部１１６は、制御をステップＳ２０２に戻す。

プローブの終了位置でない場合（ステップＳ２０４にて「Ｎｏ」の場合）には、完全ハイブリ特定部１１６は、クエリの一致部分データの類似部分の終了位置（すなわち、フラグメント上の開始位置１３３６）が、一致部分データの終了位置（すなわち、フラグメントの最後尾の位置）であるか否かを判定し（ステップＳ２０６）、一致部分データの終了位置ではない場合には、ステップＳ２０６により探索した一致部分データとは別の一致部分データをクエリとして選びなおし（ステップＳ２０７）、制御をステップＳ２０４に戻す。一致部分データの終了位置である場合には、完全ハイブリ特定部１１６は、クエリの終了位置の次の位置を開始位置とする一致部分データを探索する（ステップＳ２０８）。なお、その際、完全ハイブリ特定部１１６は、さらに、一致部分データの類似部分の開始位置（すなわち、フラグメント上の開始位置１３３５）が、一致部分データの開始位置（すなわち、フラグメントの先頭の位置）であるターゲットフラグメントのみ（すなわち、完全一致部分データを含む）を抽出する対象とする。

そして、完全ハイブリ特定部１１６は、探索の結果ヒットした一致部分データがあるか否かを判定する（ステップＳ２０９）。ヒットした一致部分データが無い場合（ステップＳ２０９にて「Ｎｏ」の場合）には、完全ハイブリ特定部１１６は、制御をステップＳ２０２に戻す。

ヒットした一致部分データがある場合（ステップＳ２０９にて「Ｙｅｓ」の場合）には、完全ハイブリ特定部１１６は、ヒットした一致部分データをクエリとして一件抽出する（ステップＳ２１０）。そして、完全ハイブリ特定部１１６は、制御をステップＳ２０４に戻す。

以上が、完全ハイブリ特定処理のフローである。完全ハイブリ特定処理によると、核酸情報処理装置１００は、一致部分データ（類似部分がフラグメント長全域にわたる完全一致部分フラグメントを含む）を１つまたは複数組み合わせると、プローブの開始位置から終了位置までの全ての塩基配列に対して所定以上の値の類似度を有する塩基配列を特定することができる。すなわち、ターゲットフラグメントの塩基鎖長が短くても、仮想ハイブリダイゼーションの精度を一定程度維持することができる。また、完全ハイブリ特定処理では、上記に限らず、例えばプローブ上の類似部分の一部について重複する類似部分を有するターゲットフラグメント同士を複数組み合わせるとプローブと完全に一致する塩基配列を完全ハイブリとして特定するようにしてもよい。このようにすることで、類似部分の一部が重複する（つまり、オーバーラップ部分のある）複数のターゲットフラグメントによる完全ハイブリを許容することができる。

この点について、図２６を用いて説明する。図２６は、本実施形態における仮想ハイブリダイゼーション処理におけるターゲットの計数方法を示す図である。

本実施形態においては、ターゲットの計数方法として３種類を想定している。一つ目は、上記したように、ターゲットフラグメント単位での計数方法５０１である。これは、ハイブリダイゼーションしたターゲットフラグメント単位に計数する方法、すなわち類似部分を含むターゲットフラグメントの数を単純に計数する方法である。二つ目は、上記したように、直線連結単位での計数方法５０２である。これは、ターゲットフラグメントの類似部分が隙間無く連結される複数のターゲットフラグメントの組の数を計数する方法である。例えば、３つのターゲットフラグメントの類似部分を隙間無く連結すると、プローブと類似する場合には、当該３つのターゲットフラグメントの組を計数する方法である。三つ目は、上記したように、連結単位での計数方法５０３である。これは、複数のターゲットフラグメントの類似部分の一部同士を連結される複数のターゲットフラグメントの組の数を計数する方法である。これは、直線連結単位での計数方法５０２とは異なり、ターゲットフラグメントの連結の際に、類似部分が一部オーバーラップする組であっても計数する方法である。すなわち、直線連結単位での計数方法５０２について、多少の誤差を許容する計数方法といえる。

次に、本実施形態における核酸情報処理装置１００が実施するターゲット比較処理のフローについて、図１６に基づき説明する。図１６は、ターゲット比較処理を示すフロー図である。なお、ターゲット比較処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないＰＣ等のクライアント端末から、Ｗｅｂブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。

まず、入力処理部１１１は、同一プローブセットを用いた２つの仮想ハイブリダイゼーション結果の指定を受け付ける（ステップＳ３０１）。具体的には、入力処理部１１１は、同一プローブセットを用いた２つの仮想ハイブリダイゼーション結果、すなわち同一のプローブ群に対して仮想ハイブリダイゼーションを施した異なるターゲットフラグメント群のハイブリ結果記憶部１３４の指定を受け付ける。

フラグメント比較部１１７は、受け付けた仮想ハイブリダイゼーション結果情報を抽出する（ステップＳ３０２）。具体的には、フラグメント比較部１１７は、受け付けた２つのハイブリ結果記憶部１３４の情報をそれぞれ読み出す。

そして、フラグメント比較部１１７は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分を特定する（ステップＳ３０３）。具体的には、フラグメント比較部１１７は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方から他方を減算して差を求める。

フラグメント比較部１１７は、同一プローブごとに、仮想ハイブリダイゼーション結果の比を特定する（ステップＳ３０４）。具体的には、フラグメント比較部１１７は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方の他方に対する比を求める。

出力処理部１１２は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分と比を出力する（ステップＳ３０５）。具体的には、出力処理部１１２は、共通のプローブについて、ステップＳ３０４およびステップＳ３０５で求めたクラスター・メンバー数の差と、比と、を出力する。

また、出力処理部１１２は、同一プローブごとに、仮想ハイブリダイゼーション結果について、比の順に整列させて出力する（ステップＳ３０６）。具体的には、出力処理部１１２は、共通のプローブについて、クラスター・メンバー数の比の降順に整列させて、出力する。なお、当然ながら、出力処理部１１２は、クラスター・メンバー数の比の昇順に整列させて、出力するようにしてもよい。

以上が、ターゲット比較処理のフローである。ターゲット比較処理によると、２つのターゲット間の成分の比較を容易に行うことができる。なお、ターゲット比較処理においては、仮想ハイブリダイゼーションの結果同士、またはインポートしたＤＮＡチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とＤＮＡチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較することができる。なお、上記のとおり、仮想ハイブリダイゼーション処理による結果は、プローブ毎のフラグメント数という数値データで情報を得るものであり、ＤＮＡチップ実験データによる結果は、蛍光色素の蛍光強度の相対値を得るものであるため、両者を単純に比較することは難しい。そのため、ターゲット比較処理において、フラグメント比較部１１７は、仮想ハイブリダイゼーションの結果については、フラグメントの全体数に対するプローブ毎の計数値の割合を求め、ＤＮＡチップ実験データによる結果については、チップ全体の蛍光強度に対するプローブ毎の蛍光強度の割合を求めて、両者を比較するようにしてもよい。

以上、本願発明に係る第一の実施形態について説明した。本願発明に係る第一の実施形態によると、プローブ塩基配列とターゲット塩基配列とを仮想的にハイブリダイズすることができる。また、ターゲット塩基配列からクラスタリング処理によりクラスターを構成し、クラスターに基づいてプローブ塩基配列を作成することもできる。また、同一のプローブに対するハイブリダイゼーションの結果同士を比較して、その差を示すことができる。例えば、同一海域で異なる時期に採取された海水から抽出したターゲットフラグメントについて、同一のプローブに対するクラスター・メンバー数の変化を出力することができる。これは、同一海域に含まれる核酸塩基配列の構成の経時変化を顕著に示すことができるため、例えば特定の成分の変化の統計をとり、所定の異常（赤潮等）発生の兆候等を予測することに活用可能と考えられる。

本願発明に係る第一の実施形態によると、解析対象の全ての核酸の塩基配列を決定し、これを用いて該材料に含まれる核酸塩基配列の種類と頻度の解析をすべてコンピュータ上での情報解析として行うことで、ＤＮＡマイクロアレイを用いた実験による類似塩基配列の頻度解析を行った場合と異なり、次なる解析時に再度ターゲットフラグメントの塩基配列情報を得る必要はなくなる。

また、塩基配列決定の過程で実験誤差が生じる可能性は残るが、決定された塩基配列情報にもとづく類似塩基配列の頻度解析は誤差がないため、仮想ハイブリダイゼーションにより得られる類似塩基配列の頻度解析により得られる結果は、同一のプローブ塩基配列のリストとターゲットフラグメントの塩基配列のセットとの組合せを用いる限り、１００％の再現性を持つ精度の高いデータが得られる。

また、ＤＮＡマイクロアレイを用いた実験による類似塩基配列の頻度解析においては、プローブＤＮＡのＧＣ含有率や配列特性は個々に異なるため、実際のハイブリダイゼーションにおける類似度の程度は同一マイクロアレイ内でもプローブ毎に異なっており、その違いを補正することは非常に困難である。しかし、仮想ハイブリダイゼーションをすべてコンピュータ上で情報解析のみで行うことにより、上記のように、プローブ塩基配列とターゲットの核酸フラグメントの塩基配列との類似度の程度を、プローブ塩基配列全体に対するターゲットフラグメントの塩基配列の一致率及び／またはプローブ塩基配列に対するターゲットフラグメントの塩基配列の一致塩基配列の長さを任意の確定した数値で規定することが出来る。

また、単数または複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせによって、プローブ塩基配列の全体に渡って所定以上の類似度を持つ結果が得られたときのみ完全な仮想的ハイブリダイゼーションが得られたとして陽性とし、その頻度を解析することで、プローブ塩基配列に対する類似度の程度を高めて解析することができる。

このうち、特に、プローブ塩基配列の全体に渡って類似度を持つような複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせが可能かどうかという解析は、情報処理量が多く複雑なため、従来は実験として行えなかったが、これを容易に行うことができる。例えば特定の遺伝子や領域の全体に渡って一定以上の類似度をもつようなターゲットに含まれる核酸の種類や頻度の解析を行う場合に、このような解析手法は非常に有効である。

また、ＤＮＡマイクロアレイを用いた実験ではターゲットフラグメントの塩基配列は不明であるが、デジタルＤＮＡチップによる解析では準備作業の段階で全ターゲットフラグメントの全塩基配列を決定するため、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを何度でも作成することができる。したがって、それらを用いれば、常に１００％の再現性を持つ新たなプローブ配列のリストに対する仮想ハイブリダイゼーションを何度でも行うことができる。このことは、ＤＮＡマイクロアレイを用いた実験では実験毎にターゲットの核酸を消費するため、新たなプローブ塩基配列を持つＤＮＡマイクロアレイを用いる実験を行える回数に制限があることに対して、非常に大きな利点である。

また、基準とする核酸フラグメントに対する所定以上の類似度の有無を１フラグメントずつ順番に解析してクラスタリングを行い、所定以上の類似度がある場合にはクラスターを特定するため、ターゲットに含まれる全ての核酸フラグメントの塩基配列同士の所定以上の類似度の有無を総当りで判定するよりも、クラスタリングのために類似度の有無を判定する作業の回数をはるかに減らすことが出来るため、クラスタリングに要する時間を短くし、クラスタリングに要するコンピュータ容量を小さくすることが出来る。

また、クラスターの分類を行う場合、クラスター数の上限の数は、ターゲットに含まれるフラグメント数を最大値として任意に決めることが出来る。この上限値の決め方により、クラスターの大きさを加減することが出来る。この結果、たとえばメタゲノム解析にこのクラスター分類方法を用いる際に、クラスター数の上限を決めて分類を行うことにより、クラスターの分類レベルを、種の分類程度に相当する大きさのクラスター、属の分類程度に相当する大きさのクラスター、科の分類程度に相当する大きさのクラスターなどのように加減することが可能となり、解析対象の分類結果の概要がわかりやすくなる。

また、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを作成すれば、容量の小さなコンピュータで、迅速に、新たなプローブ塩基配列のリストが作成できる。

また、上記したように、同一のプローブ塩基配列のリストを用いて複数のターゲットに含まれる核酸の種類と頻度をそれぞれ仮想ハイブリダイゼーションにより解析し、該複数ターゲット間でプローブ毎のクラスター・メンバー数を比較し、ターゲット間でクラスター・メンバー数の異なるクラスターを抽出すれば、仮想ハイブリダイゼーションによる解析全ての情報がターゲット間の核酸の種類と頻度の違いを再現性１００％で解析することが出来る。これは、ＤＮＡマイクロアレイを用いた実験による解析では、ハイブリダイゼーションの結果もそれに由来する複数ターゲット間の比較データも再現性を１００％にすることはできないという欠点を補うことになる。

また、仮想ハイブリダイゼーションにより複数ターゲットに含まれる核酸の種類と頻度を比較解析する手法を、時系列的に採取されたターゲットの解析に用いれば、１００％の再現性をもってプローブごとのクラスター・メンバー数の変化を捉えることができるため、そのような変化の現状把握や今後の動向予測の精度を、ＤＮＡマイクロアレイによる解析よりも高めることができる。

また、デジタルＤＮＡチップを用いた解析は、個々の生物個体、部位、組織、細胞のいずれかまたはそれらの組合せの解析にも用いることが出来る。さらに、デジタルＤＮＡチップのは、ターゲットに含まれる全ての核酸フラグメントの塩基配列のリストをすべてのターゲットについて作成してあるため、統合が容易である。そのため、複数の細胞の解析結果を統合して新たに組織や部位としての解析をし直すことなど、解析結果の統合により新たなステップでのデジタルＤＮＡチップ解析を行うことが可能である。

また、デジタルＤＮＡチップによる解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物のいずれの解析にも用いることが出来る。この場合にも、比較解析の結果は再現性が１００％である。

また、デジタルＤＮＡチップの解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料を含んだ液体、固体または気体のいずれの解析にも用いることが出来る。例えば特定海域の海水中に棲息する微生物集団の構造解析やその変化の解析などが、これにあてはまる。この場合にも、比較解析の結果は再現性が１００％である。

以上、本発明の実施の形態について、実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々の変更が可能である。

例えば、上記実施形態においては、類似度解析処理をＢＬＡＳＴソフトウェア等の既存技術により実施するものとしているが、これに限られない。例えば、類似度解析を行うことができる他のアルゴリズムを用いて類似度の解析を実施するようにしてもよい。そのようにすることで、より柔軟な解析を行うことができる。また、上記実施形態においては、類似度の解析結果や仮想ハイブリダイゼーション処理の結果は主にデータベース等に格納されるが、クラスタリング処理や仮想ハイブリダイゼーション処理の進度に応じて、逐次画面上に経過や結果を表示するようにしてもよい。そのようにすることで、処理の進度を目視できるようになり、処理の終了までに必要な時間の予測等が行いやすくなる。

また例えば、上記実施形態においては、核酸情報処理装置１００は、専用のハードウェアを有する装置であるが、これに限られず、例えば遺伝子情報を読み取るシークエンサーに実装されるものであってもよい。このようにすることで、ハードウェア装備を簡便化することができる。

なお、上記実施形態における核酸情報処理装置１００は、装置として取引対象とするだけでなく、機器の動作を実現するプログラム部品単位で取引対象とすることも可能である。

以下に、本発明にかかる実施例について具体的に説明する。ただし、本発明はこの実施例に限定されるものではない。

本実施例では、海水中の微生物ＤＮＡの塩基配列をＤＮＡシークエンサーにより決定し、その情報を用いてクラスタリングによりプローブ塩基配列のリストを作成し、ＤＮＡシークエンサーにより決定した海水中の微生物ＤＮＡの全ての塩基配列とこのプローブ塩基配列のリストとの仮想ハイブリダイゼーションを行って解析した。さらに、２組の海水中の微生物ＤＮＡのターゲットフラグメント群をそれぞれ「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」と名づけたデジタルＤＮＡチップに仮想ハイブリダイゼーションさせた結果の比較も行った。

まず、特定海域の海水中に存在する微生物すべてのＤＮＡの塩基配列からターゲット塩基配列のデータを得る作業を行った。横浜市金沢区福浦付近の海岸で採取し、ガラス繊維濾紙（Ｗｈａｔｍａｎ社製、結合剤フリー、ポアサイズ０．７μｍ）で濾過した約２１リットルの海水から、ＷａｔｅｒＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（ＭＯＢＩＯＬａｂｏｒａｔｏｒｉｅｓ社製、ＵｌｔｒａＣｌｅａｎｗｉｔｈ０．２２μｍＷａｔｅｒＦｉｌｔｅｒキット）を用いて、２０μｇのゲノムＤＮＡを抽出した。

このゲノムＤＮＡ溶液を、マイクロコンＹＭ−１００（ミリポア社製）を用いて約３倍に濃縮し、Ｒｉｂｏｎｕｃｌｅａｓｅ（ＤＮａｓｅｆｒｅｅ）Ｓｏｌｕｔｉｏｎ（ニッポンジーン社製）を用いて、最終濃度１０μｇ／ｍｌにて室温で１時間、ＲＮＡ消化を行った。

次に、Ｐｈｅｎｏｌ／Ｃｈｌｏｒｏｆｏｒｍ／Ｉｓｏａｍｙｌａｌｃｏｈｏｌ（２５：２４：１、ニッポンジーン社製)をゲノムＤＮＡ溶液に等量加えて室温で５分間ゆっくり混合後、微量高速遠心機にて２０，４００ｇで２０℃、５分間遠心して溶液層を分離し、水層溶液を回収する操作を２回行った。この水層溶液にクロロホルム（和光純薬工業社製、試薬特級）を等量加え室温で５分間ゆっくり混合した後、微量高速遠心機にて２０，４００ｇで２０℃、５分間遠心して溶液層を分離し、水層溶液を回収する操作を２回行った。

この水層溶液に３ＭＳｏｄｉｕｍＡｃｅｔａｔｅ（ニッポンジーン社製）を最終濃度０．２Ｍとなるように加え混合し、更にエタノール（和光純薬工業社製、試薬特級、９９．５％）を水層溶液の２倍量を加えて、−２０℃で２時間エタノール沈殿を行った。これを微量高速遠心機にて２０，４００ｇで４℃、２０分間遠心してゲノムＤＮＡを回収し、エタノール（和光純薬工業社製、試薬特級、９９．５％）をニッポンジーン社製ＤｉｓｔｉｌｌｅｄＷａｔｅｒ（Ｄｅｉｏｎｉｚｅｄ，Ｓｔｅｒｉｌｅ）で最終濃度７０％に希釈した溶液５００μｌで洗浄し、乾燥させた。

得られたゲノムＤＮＡをＴＥ(ニッポンジーン社製、ｐＨ８.０) １００μｌに溶解し、５μｇのゲノムＤＮＡを得た。このうち５００ｎｇを用い、ロシュ・ダイアグノスティックス株式会社のシークエンサーＧＳＦＬＸチタニウム用のマニュアルに従って塩基配列決定用ターゲットを準備し、ＧＳＦＬＸチタニウムを用いて、このターゲットに含まれる全てのＤＮＡフラグメントの塩基配列を決定した。塩基配列はシークエンサーのサンプル解析全面を２区画に区切って、それぞれに得られた結果を１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａおよび２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａと名付けた。これらを合わせたものがＧＳＦＬＸチタニウムを用いた一回分の最大限のシークエンス結果である。

この結果、ロシュ・ダイアグノスティックス株式会社の推奨する塩基配列の品質を満たす塩基配列として、１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａで、６６１，８２１フラグメント分２９３，７２０，６６９塩基の塩基配列データ、および２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａで、６１９，２４１フラグメント分２６１，５４８，８０３塩基の塩基配列データ、合わせて総フラグメント数１，２８１，０６２個、総塩基数５５５，２６９，４７２塩基分の塩基配列が得られた。

このデータを、デジタルＤＮＡチップを用いた核酸情報処理装置１００で解析するため、核酸情報処理装置１００にインポートし、まず仮想ハイブリダイゼーションのためのプローブ塩基配列のリストを作成するために、全データのうちから１フラグメントの塩基数データが１００塩基以上のデータのみを用いて、ＢＬＡＳＴ方式でクラスタリング処理を行い、プローブ生成処理を行った。この方法でプローブ塩基配列のセットを作成することができるのは、ターゲットに含まれる全ての核酸の塩基配列データが存在するためであり、これがデジタルＤＮＡチップによる解析方法の大きな利点である。

クラスタリングの途中経過のアウトプットを、図１７〜図２０に例示した。まず、１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａおよび２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａを合わせて５５１，９８０，５０８塩基・１，２３５，５９２フラグメント分の塩基配列を、クラスター数１０，０００個を目標にクラスタリングして、図１７に示す表２００の結果を得た。

表２００は、ターゲットフラグメント群２０１、項目２０２、データ２０３の表示大項目を備え、核酸フラグメント数２１１、総塩基数２１２、核酸フラグメント鎖長最短２１３、核酸フラグメント鎖長最長２１４、核酸フラグメント鎖長平均２１５、クラスタリング条件としての手法２１６、ターゲットクラスター数２１７、反復クラスタリング回数２１８、類似度の閾値とクラスター数の推移２１９〜２２１、クラスター・ファイル名２２２、クラスター数２２３、代表配列鎖長最短２２４、代表配列鎖長最長２２５、代表配列鎖長平均２２６、等が表示されるよう構成されている。各表示項目は、クラスター制御部１１８が所定の値を取得し、出力処理部１１２にて表示させる。

本実施例においては、Ｅ−ｖａｌｕｅの閾値をまず１．０Ｅ−３０に設定してＢＬＡＳＴ方式でクラスタリングを行い、得られたクラスター数は４８２，０１４であった。そこで、Ｅ−ｖａｌｕｅの閾値を１．０Ｅ−２０にあげて、クラスター代表配列のクラスタリングを行った。その結果得られたクラスター数は４４５,８５８であった。これは、目標上限の１０,０００よりも多いため、その後、Ｅ−ｖａｌｕｅの閾値を、１．０Ｅ−１０、１．０Ｅ＋００、さらに、１．０Ｅ＋０１まで下げてクラスタリングを繰り返した。しかし、得られたクラスター数は、２９,４６３であり、目標の上限以下とはならなかった。そこでさらに、Ｅ−ｖａｌｕｅの値を１．０Ｅ＋０１に固定して、得られたクラスターが１０，０００以下になるまで、クラスタリングを繰り返した。のべ６回のクラスタリングにより、クラスター数８，２２４を得て、このクラスタリング結果のクラスターセットを「Ｙ０２２Ｌ０８＿Ｃ１００００」と名付けた。

このクラスターセットに含まれるクラスターは、図１８に示すクラスター名２５２ごとの概要を一覧表示した表２５０で示されている。表２５０には、クラスターＩＤ２５１ごとにクラスター名２５２、代表配列鎖長２５３、クラスター配列数２５４が含まれる。したがって、代表塩基配列鎖長２５３や各クラスターに属するフラグメントの数（クラスター配列数２５４の欄の数値であり、結合フラグメント数に当たる）を一覧できる。なお、本実施例では、クラスター数が多いため、図１８では表２５０の一部だけを表示した。

次に、上記のクラスターセット「Ｙ０２２Ｌ０８＿Ｃ１００００」の代表塩基配列すべてを仮想ハイブリダイゼーション用のプローブ塩基配列のセットとして、「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」と名付けたデジタルＤＮＡチップのファイルに登録し、二次元の仮想プローブの配置を決定した。この結果であるプローブ塩基配列仮想配置リスト２６０を図１９に示す。プローブ塩基配列仮想配置リスト２６０は、プローブ記憶部１３２の内容と略同様の情報を備える。

プローブ塩基配列仮想配置リスト２６０は、平板のＤＮＡチップ基板上に、「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」のプローブ塩基配列を仮想的に長方形状に配置した位置を仮想的に示している。すなわち、８，２２４種のプローブ塩基配列の位置を、まず２４行４列のブロックに分け、さらにブロック内の位置を８行１２列に分けて、特定したものである。なお、本実施例では、プローブ塩基配列の数が多いため、図１９では表の一部だけを表示した。

仮想的に二次元配置された各々のプローブの塩基配列の詳細な情報は、図２０に例示したような、プローブごとの詳細情報２７０で表示される。詳細情報２７０には、プローブを特定するプローブＩＤ２７１ごとに、当該プローブの名称であるプローブ名２７２、当該プローブが属するクラスターの塩基配列数であるクラスター配列数２７３、当該プローブの配列鎖長である代表配列鎖長２７４、当該プローブの塩基配列である代表塩基配列２７５、が含まれる。

次に、核酸情報処理装置１００に格納されているターゲットフラグメントである塩基配列データセットの中から、１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａおよび２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａの２つのファイルを選択し、これら両方を合わせたデータセットと「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」との仮想ハイブリダイゼーションを、Ｅ−ｖａｌｕｅの閾値を１．０Ｅに設定して行った。

得られた仮想ハイブリダイゼーションの結果のファイルを「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ＿ｖｓ＿４５４海水データ」と名付け、２通りの形式で表示したのが、図２１および図２２である。「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ＿ｖｓ＿４５４海水データ」をプローブ毎の結合フラグメント数の表として表示したのが、図２１の仮想ハイブリダイゼーション結果表２８０である。仮想ハイブリダイゼーション結果表２８０には、仮想ハイブリダイゼーションファイル名２８１と、プローブＩＤ２８２と、プローブ名２８３と、デジタルＤＮＡチップ上のプローブの位置を特定するためのブロック２８４とブロック内の位置を特定するためのスポット２８５と、プローブに類似するフラグメントの数である結合フラグメント数２８６と、が含まれる。本実施例では、プローブ塩基配列の数が多いため、表の一部だけを表示した。

また、この結果を、ＤＮＡマイクロアレイの画像イメージに合わせて擬似的に画像表示したのが、図２２の「仮想ハイブリダイゼーション・イメージ」のイメージ３００である。イメージ３００においては、プローブ配列リスト「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」中の各プローブを、プローブＩＤの番号の若いプローブ塩基配列から順に、図２２の上方から下方に向かって表示している。色が明るいスポットほど、その位置に仮想的に配置したプローブ塩基配列に仮想的にハイブリダイゼーションするターゲット核酸フラグメントの数が多いことを示している。仮想ハイブリダイゼーションしたターゲットフラグメントの数が最多のプローブには、１０,３２６のターゲット核酸フラグメントが仮想ハイブリされた。

本実施例では、仮想ハイブリダイゼーションにおけるターゲット核酸フラグメントとプローブ塩基配列の１：１の類似度の解析は、総当りで行い、ターゲットフラグメントの長さがプローブ鎖長以上で、プローブ全域にわたって塩基配列が完全一致しているプローブを特定するごとに、該プローブは仮想ハイブリダイゼーションしたものとして計数した。したがって、ターゲット核酸フラグメント内の異なる部位のそれぞれが、それぞれ異なるプローブと仮想ハイブリダイゼーションされたとして、複数回計数されている。

本実施例において、核酸情報処理装置１００にインポートした海水中の微生物の塩基配列データを用いて、クラスタリングにより「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」というプローブ塩基配列のリストを作成するのに要した時間は、ＣＰＵとしてＸｅｏｎＸ５５２０ＱｕａｄＣｏｒｅ２．２６ＧＨｚを２基搭載し、ＲＡＭメモリを８ＧＢ備えるという性能のコンピュータ５台からなるグリッドコンピュータを用いて約３０時間であり、また、「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」と１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａおよび２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａの２つのファイルを結合したファイルとの仮想ハイブリダイゼーションに要した時間は、同じコンピュータで合計約３０分であった。

ＤＮＡチップを用いた実験では、プローブ塩基配列のリスト作成の後にリストに従ってすべてのプローブＤＮＡを化学合成し、それらをＤＮＡチップ基板または其質に場所を決めて固定するという作業が必要であり、これらの作業には通常数日が必要である。これに対し、本実施例の仮想ハイブリダイゼーションでは、プローブ塩基配列のリストを作成しただけで、そのデータをそのまま仮想ハイブリダイゼーションに用いることが出来、ＤＮＡチップ作成に要する手間と時間は不要である。また、ＤＮＡチップを用いた実験によるハイブリダイゼーションは通常一晩程度かかるのに比較すると、コンピュータを用いた情報処理による仮想ハイブリダイゼーションにかかる時間はわずか３０分程度であった。

次に、１．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａと２．ＧＡＣ．４５４Ｒｅａｄｓ．ｆｎａの２つのターゲットフラグメント群をそれぞれプローブ群「Ｙ０２２Ｌ０８＿Ｃ１００００＿ｃｈｉｐ」に仮想ハイブリダイゼーションして得られた結果のファイル海水２０１０１２１７＿４５４ファイル１と海水２０１０１２１７＿４５４ファイル２について、同一のプローブに仮想ハイブリダイゼーションしたそれぞれのターゲットフラグメント数を、図２３の概要表４００のように比較表示した。概要表４００には、項目４０１と、ファイル番号４０２と、仮想ハイブリファイル名４０３と、ファイル作成元データ４０４と、頻度比較プローブ数４０５と、が含まれる。この比較解析にかかる時間は、わずか１０分であった。

この結果を、海水２０１０１２１７＿４５４ファイル１の仮想ハイブリダイゼーションフラグメント数の多いプローブ順に並べなおして結果表示画面４１０にしたものが図２４に示されている。結果表示画面４１０には、プローブＩＤ４１１、ブロック４１２、スポット４１３、プローブと類似する仮想ハイブリダイゼーションフラグメント数４１４、ファイル間頻度差４１５、ファイル間頻度比４１６が含まれる。ここで、ファイル間頻度比４１６は、海水２０１０１２１７＿４５４ファイル１と海水２０１０１２１７＿４５４ファイル２の２つのデータ間の補正のため、２つのデータファイルのプローブごとの仮想ハイブリダイゼーションフラグメント数４１４を正規化した後に相対値を求め、プローブ毎の相対値同士の比率を求めたものである。なお、本実施例は、プローブ塩基配列の数が多いため、図２４では、画面の一部だけを表示した。結果表示画面４１０では、図２４の右端から二つ目の欄（ファイル間頻度差４１５）に示したような、２つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の差であるファイル間頻度差、および、右端の欄（ファイル間頻度比４１６）に示したような、２つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の比であるファイル間頻度比（ここでは小数点第２位を四捨五入した数値を表示）が表示された。

結果表示画面４１０において、頻度差の大きい順にデータを整列しなおせば、２つの仮想ハイブリダイゼーション結果で存在数の差の大きいプローブフラグメントを検出できる。また、図２５の結果表示画面４２０ように、ファイル間頻度比の大きい順にデータを整列・表示しなおせば、２つの仮想ハイブリダイゼーション結果で存在数の比の大きなプローブフラグメントを検出できる。結果表示画面４２０では、結果を見やすくするための昇順番号４２１が追加され表全体の途中部分を表示していること以外は、図２４の結果表示画面４１０と基本的に同様である。なお、本実施例ではプローブ塩基配列の数が多いため、図２５では、結果表示画面４２０の途中の一部だけを表示した。

比較ファイルとして、例えば、Ａ地点のある日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果と、同じＡ地点の別の日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果とを選択すれば、Ａ地点の時間的推移に伴って大きく存在量やその比が変化したプローブフラグメントの塩基配列を抽出することが出来るといえる。また、異なる地点で得られたターゲットフラグメント同士を比較すれば、地点により存在量が大きく異なるプローブフラグメントの塩基配列を抽出することも出来るといえる。なお、仮想ハイブリダイゼーションフラグメント数をその頻度差や頻度比で複数のターゲットフラグメント間の比較を行う場合、たとえば単位体積あたりの海水からのＤＮＡ抽出量の比率などもパラメーターとして数値を補正すれば、より正確な比較をすることができると考えられる。

以上のように、本発明に係る実施形態に従って作成したデジタルＤＮＡチップを用いた核酸情報処理装置１００によって塩基配列情報をコンピュータ上で解析することにより、時間と労力を大幅に節約して、類似塩基配列の頻度解析を行うことが出来た。

１・・・インポートデータ、２・・・処理機能、３・・・データベース、４・・・アウトプットデータ、１００・・・核酸情報処理装置、１０１・・・入力装置、１０２・・・外部記憶装置、１０３・・・演算装置、１０４・・・主記憶装置、１０５・・・通信装置、１０６・・・出力装置、１０７・・・バス、１１０・・・制御部、１３０・・・記憶部、１４０・・・出力表示部、１５０・・・入力受付部、１６０・・・通信処理部

Claims

複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、
類似度の閾値を特定する情報を受け付ける閾値受付手段と、
前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション手段と、
特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数手段と、
を備えることを特徴とする核酸情報処理装置。
請求項１に記載の核酸情報処理装置であって、
前記ハイブリダイゼーション手段は、前記ターゲットの塩基配列に含まれる一連の塩基配列が、前記プローブの塩基配列に含まれる一連の塩基配列と対応する場合に、当該ターゲットの一連の塩基配列部分を前記プローブとの類似部分とする、
ことを特徴とする核酸情報処理装置。
請求項１または２に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
ａ）前記類似度が前記閾値以上であって、前記いずれかのプローブの塩基配列との類似部分が、当該プローブの開始位置から終了位置までの部分に該当する前記ターゲットの数と、
ｂ）前記類似度が前記閾値以上となる２つ以上の前記ターゲットの類似部分を連結させると、前記プローブの塩基配列と対応する塩基配列となる結合ターゲットの組の数と、
を前記プローブごとに計数し、前記記憶部に記憶する、
ことを特徴とする核酸情報処理装置。
請求項３に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、前記結合ターゲットに関し、
当該連結の先端となるターゲットは、ターゲットの類似部分の終了位置が当該ターゲットの終了位置であり、
当該連結の後端となるターゲットは、ターゲットの類似部分の開始位置が当該ターゲットの開始位置であり、
前記連結の先端となるターゲットと、後端となるターゲットと、の間に連結されるターゲットは、ターゲットの類似部分の開始位置および終了位置が当該ターゲットの開始位置および終了位置である、
ことを満たすターゲットをそれぞれ特定して連結させ、前記結合ターゲットの組として特定する、
ことを特徴とする核酸情報処理装置。
請求項３に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
前記類似度が閾値以上となるターゲットのうち、当該ターゲットの塩基配列の開始位置から終了位置までの部分が類似部分となる前記ターゲットについて、類似部分の終了位置の次の位置が開始位置となるターゲットを複数連結させ、
前記ターゲットの類似部分の開始位置が前記プローブの開始位置である類似部分を有するターゲットを当該連結の先端とし、
前記ターゲットの類似部分の終了位置が前記プローブの終了位置である類似部分を有するターゲットを当該連結の後端とする
結合ターゲットの組の数を前記プローブごとに計数する、
ことを特徴とする核酸情報処理装置。
請求項４または５に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
前記連結の処理においては、連結されるターゲットの類似部分が重複するものであっても連結する、
ことを特徴とする核酸情報処理装置。
請求項１〜６のいずれか一項に記載の核酸情報処理装置であって、さらに、
異なる２つの前記第一の塩基配列情報についての同一の前記第二の塩基配列情報とのハイブリダイゼーションの結果得られた異なる２つの結果情報の指定を受け付ける結果指定受付手段と、
前記指定された２つの結果情報に含まれる同一のプローブについての前記ターゲットの数の差異を出力する出力手段と、
を備えることを特徴とする核酸情報処理装置。
請求項７に記載の核酸情報処理装置であって、
前記異なる２つの前記第一の塩基配列情報の一方は、他方とは異なる時点で取得された所定の対象から得られた塩基配列情報である、
ことを特徴とする核酸情報処理装置。
請求項８に記載の核酸情報処理装置であって、
前記所定の対象は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料の混合物である、
ことを特徴とする核酸情報処理装置。
請求項８または９に記載の核酸情報処理装置であって、
前記所定の対象は、所定の地理的位置において採取された対象である、
ことを特徴とする核酸情報処理装置。
核酸情報処理装置による核酸情報処理方法であって、
前記核酸情報処理装置は、
複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、処理部と、を備え、
前記処理部は、
類似度の閾値を特定する情報を受け付ける閾値受付ステップと、
前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション実施ステップと、
特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数ステップと、
を実施することを特徴とする核酸情報処理方法。
請求項１１に記載の核酸情報処理方法であって、
前記ハイブリダイゼーション実施ステップでは、前記ターゲットの塩基配列に含まれる一連の塩基配列が、前記プローブの塩基配列に含まれる一連の塩基配列と対応する場合に、当該ターゲットの塩基配列部分を前記プローブとの類似部分とする、
ことを特徴とする核酸情報処理方法。
請求項１１または１２に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
ａ）前記類似度が前記閾値以上であって、前記いずれかのプローブの塩基配列との類似部分が、当該プローブの開始位置から終了位置までの部分に該当する前記ターゲットの数と、
ｂ）前記類似度が前記閾値以上となる２つ以上の前記ターゲットの類似部分を連結させると、前記プローブの塩基配列と対応する塩基配列となる結合ターゲットの組の数と、
を前記プローブごとに計数し、前記記憶部に記憶する、
ことを特徴とする核酸情報処理方法。
請求項１３に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、前記結合ターゲットに関し、
当該連結の先端となるターゲットは、ターゲットの類似部分の終了位置が当該ターゲットの終了位置であり、
当該連結の後端となるターゲットは、ターゲットの類似部分の開始位置が当該ターゲットの開始位置であり、
前記連結の先端となるターゲットと、後端となるターゲットと、の間に連結されるターゲットは、ターゲットの類似部分の開始位置および終了位置が当該ターゲットの開始位置および終了位置である、
ことを満たすターゲットをそれぞれ特定して連結させ、前記結合ターゲットの組として特定する、
ことを特徴とする核酸情報処理方法。
請求項１３に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
前記類似度が閾値以上となるターゲットのうち、当該ターゲットの塩基配列の開始位置から終了位置までの部分が類似部分となる前記ターゲットについて、類似部分の終了位置の次の位置が開始位置となるターゲットを複数連結させ、
前記ターゲットの類似部分の開始位置が前記プローブの開始位置である類似部分を有するターゲットを当該連結の先端とし、
前記ターゲットの類似部分の終了位置が前記プローブの終了位置である類似部分を有するターゲットを当該連結の後端とする
結合ターゲットの組の数を前記プローブごとに計数する、
ことを特徴とする核酸情報処理方法。
請求項１４または１５に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
前記連結の処理においては、連結されるターゲットの類似部分が重複するものであっても連結する、
ことを特徴とする核酸情報処理方法。
請求項１１〜１６のいずれか一項に記載の核酸情報処理方法であって、さらに、
異なる２つの前記第一の塩基配列情報についての同一の前記第二の塩基配列情報とのハイブリダイゼーションの結果得られた異なる２つの結果情報の指定を受け付ける結果指定受付ステップと、
前記指定された２つの結果情報に含まれる同一のプローブについての前記ターゲットの数の差異を出力する出力ステップと、
を実施することを特徴とする核酸情報処理方法。
請求項１７に記載の核酸情報処理方法であって、
前記異なる２つの前記第一の塩基配列情報の一方は、他方とは異なる時点で取得された所定の対象から得られた塩基配列情報である、
ことを特徴とする核酸情報処理方法。
請求項１８に記載の核酸情報処理方法であって、
前記所定の対象は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料の混合物である、
ことを特徴とする核酸情報処理方法。
請求項１８または１９に記載の核酸情報処理方法であって、
前記所定の対象は、所定の地理的位置において採取された対象である、
ことを特徴とする核酸情報処理方法。