JP2006252541A

JP2006252541A - アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体

Info

Publication number: JP2006252541A
Application number: JP2006034448A
Authority: JP
Inventors: Akinobu Fukuzaki; 昭伸福崎; Fumikazu Konishi; 史一小西
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2005-02-10
Filing date: 2006-02-10
Publication date: 2006-09-21

Abstract

【課題】アノテーション作業を効率よく行うことができるようにした極めて有用な手法を提供する。
【解決手段】ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにした。
【選択図】図２

Description

本発明は、アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関し、さらに詳細には、ゲノム情報に基づいた各種の研究に必須なゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関する。

従来より、ゲノム研究の分野においてはアノテーションシステムが導入されているが、一般にゲノム研究の分野において従来より知られたアノテーションシステムとは、遺伝子を表現するＤＮＡ配列上に、タンパク質の合成や翻訳機能などの生物の構造や生命活動に関係する部分の配列（以下、単に「部分配列」と適宜に称する。）を指定して、具体的な機能をあらわす名称や、合成されるタンパク質の性質、関連する酵素あるいは関連する代謝系などのバイオ研究にかかわる様々な付加情報（以下、単に「付加情報」と適宜に称する。）をアノテーション情報としてシステムに付加的に書き込んで蓄積をはかり、アノテーション情報をゲノムに関するより高度な知見を得るために活用することができるようにするというシステムである。

ここで、アノテーションシステムは、一般的には、ＤＮＡ配列上から各部分配列を選択するインターフェースと、指定された部分配列に付されたバイオ情報を閲覧するインターフェースと、その部分配列に対する上記したような付加情報たるアノテーション情報を入力するインターフェースとを有して構成されている。

次に、上記した従来のアノテーションシステムを用いたアノテーション作業について説明すると、一般的に、アノテーション作業には２つのフェーズが設けられている。以下、これら２つのフェーズについて説明する。

まず、１つめのフェーズは、対象となる部分配列群を既知のバイオ情報ＤＢ（データベース）と照らし合わせて同一のもの、あるいは類似しているものを選び出し、その情報を部分配列のバイオ情報としてアノテーションする自動アノテーションである。この自動アノテーションにおいては、２つめのフェーズで用いるアノテーションシステムは用いられることはない。

なお、この自動アノテーションには、通常、既知の知見より得られたアルゴリズムに基づいて部分配列の位置を予測したり、部分配列の属性を予測したりするアノテーションも含まれている。

次に、２つめのフェーズは、上記した１つめのフェーズたる自動アノテーションで得られたバイオ情報をアノテーションシステムに投入し、研究者が１つ１つの部分配列への付加情報をアノテーション情報としてアノテーションを行う手動アノテーションである。

つまり、従来のアノテーション作業においては、上記した１つめのフェーズで得られたバイオ情報を、アノテーションシステムにより２つめのフェーズで運用するというスタイルをとっていることが多い。

ここで、図１には、上記した従来のアノテーションシステムを用いたアノテーション作業の処理の一例を示すフローチャートが示されており、以下、この図１を参照しながら、従来のアノテーションシステムを用いたアノテーション作業の処理を詳細に説明する。

この図１に示すフローチャートにおいては、端子Ａより前段に位置するステップＳ１０２乃至ステップＳ１１２が自動アノテーションによるアノテーション作業の処理フローを示し、端子Ａより後段に位置するステップＳ１１４乃至ステップＳ１２２が手動アノテーションによるアノテーション作業の処理フローを示している。

ステップＳ１０２乃至ステップＳ１１２の自動アノテーションの処理フローにおいては、ユーザーによる手入力のプロセスは無く、コンピューターシステムを用いて自動的に実行される。

即ち、ＤＮＡの部分配列群がアノテーションシステムに与えられると（ステップＳ１０２）、与えられたＤＮＡの部分配列群を一つずつ順番に重複しないように取り出す（ステップＳ１０４）。

次に、ステップＳ１０４でＤＮＡの部分配列群を取り出せたか否かの判断処理を行い（ステップＳ１０６）、ステップＳ１０６の判断処理においてステップＳ１０４でＤＮＡの部分配列群を取り出せたと判断された場合には、既知のバイオ情報データベース（既知ＤＢ）２００を用いてホモロジー検索を行う（ステップＳ１０８）。

そして、ステップＳ１０８のホモロジー検索の結果からホモロジーが有った否かの判断処理を行い（ステップＳ１１０）、ステップＳ１１０の判断処理においてホモロジーが有ったと判断された場合には、その情報を既知情報としてバイオ情報データベース２００に登録してから（ステップＳ１１２）、ステップＳ１０４の処理へ戻る。一方、ステップＳ１１０の判断処理においてホモロジーが有ったとは判断されなかった場合には、そのままステップＳ１０４の処理へ戻る。

そして、上記したステップＳ１０４乃至ステップＳ１１２の処理を繰り返し、ステップＳ１０２で与えられた全てのＤＮＡの部分配列群に対してステップＳ１０４乃至ステップＳ１１２の処理を終了すると、ステップＳ１０６の判断処理においてステップＳ１０２でＤＮＡの部分配列群の取り出しが終了したと判断され、自動アノテーションによるアノテーション作業の処理を終了して端子Ａに至る。

次に、端子Ａより後段に位置するステップＳ１１４乃至ステップＳ１２２の手動アノテーションによるアノテーション作業の処理を行うことになるが、この手動アノテーションにおいては、ＤＮＡ配列（ゲノム配列）上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列群を表示させる部分配列選択画面でユーザーに部分配列を選択させ、バイオ情報とアノテーション情報とがともに表示される画面（バイオ情報表示アノテーション入力画面）でアノテーション情報を入力させるものである。

より詳細には、ＤＮＡ配列（ゲノム配列）上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列群を表示させる部分配列選択画面を表示し（ステップＳ１１４）、この部分配列選択画面上においてユーザーに部分配列を選択させる（ステップＳ１１６）。

次に、バイオ情報表示アノテーション入力画面を表示させて（ステップＳ１１８）、ステップＳ１１６で選択した部分配列に関するアノテーション情報を入力する（ステップＳ１２０）。

そして、ステップＳ１２０で入力したアノテーション情報をアノテーション情報データベースに登録してから（ステップＳ１２２）、ステップＳ１１４の処理へ戻り、自動アノテーションにより処理された各部分配列に対してステップＳ１１４乃至ステップＳ１２２の処理を繰り返し行う。

即ち、従来のアノテーションシステムにおいては、バイオ情報とアノテーション情報とが統合して表示されるビューワー（バイオ情報表示アノテーション入力画面）上において、バイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であった。

しかしながら、上記した従来のアノテーションシステムにおいては、以下に述べるような種々の問題点が指摘されていた。

即ち、実際のゲノム研究者によるアノテーションでは、大量の部分配列を多人数で分担するうえ、既知のバイオ情報データベースは頻繁に更新され、また、実験データが次々と生成され、かつ、アノテーションしなくてはならない情報が多様なため、以下の問題点１〜５が発生していた。

問題点１：一つ一つ部分配列を選択し、一般的なインターフェースでアノテーションをしていると、アノテーション本来の作業手順を一般的なインターフェース上での操作に変換しながら進めるため、作業効率がよくない。

問題点２：部分配列の担当を決めて複数の研究者が分担してアノテーションする場合に、その部分配列と担当者とのセットを別途管理して、部分配列と担当者とのセットを参照しながら部分配列の選択やアノテーションを行うため、作業効率がよくないとともにミスも生じやすくなる。

問題点３：様々な情報のアノテーションに対応するため、表示される情報が多くなりユーザーに負担がかかる。

問題点４：既知のバイオ情報データベースに変更があった場合に、過去に実行したアノテーションの手順をユーザー自身が思い出しながら一つ一つ再現しなければならず効率がよくない。

問題点５：アノテーション作業の意図をインターフェース上の手続きに変換するのは、個々のユーザーにまかされているため、アノテーションの基準が不安定になりやすく、また、基準の管理がし難い。

上記した問題点１〜５を鑑みて、さらにプロジェクトレベルでアノテーション作業を検討すると、以下のような問題点６〜７が顕在化する。

問題点６：対象生物が広がり、同じ生物でも異なる株が増えるなど、アノテーションしなくてはならない部分配列の数は増大するばかりであるが、応用分野で必要とされるバイオ情報も詳細さが求められており、アノテーション作業の負担は高まる一方であるのに、作業効率がよくなくてはそもそも情報の構築作業が全体の研究に対して間に合わない。

問題点７：アノテーション作業に最適化されていない冗長性のあるアノテーションシステムを通してアノテーションをおこなうと、アノテーションの精度や方向性、記述にばらつきが発生し、全体のアノテーションの品質が低下してしまい使いものにならなくなる。
ＩｎｆｅｒｒｉｎｇｈｉｇｈｅｒｆｕｎｃｔｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｆｏｒＲＩＫＥＮｍｏｕｓｅｆｕｌｌ−ｌｅｎｇｔｈｃＤＮＡｃｌｏｎｅｓｗｉｔｈＦＡＣＴＳ．Ｎａｇａｓｈｉｍａ，Ｔ．，Ｓｉｌｖａ，Ｄ．，Ｓｏｃｈａ，Ｌ．，ＰｅｔｒｏｖｓｋｙＮ．，Ｓｕｚｕｋｉ，Ｈ．，Ｓａｉｔｏ，Ｒ．，Ｋａｓｕｋａｗａ，Ｔ．，Ｋｕｒｏｃｈｋｉｎ，ＩＶ．，Ｋｏｎａｇａｙａ，Ａ．，ａｎｄＳｃｈｏｎｂａｃｈ，Ｃ．ＧｅｎｏｍｅＲｅｓ．１３（６ｂ）ｐｐ．１５２０−１５３３，２００３ＧｅｎｏｍｅＧａｍｂｅｒ株式会社ザナジェンｈｔｔｐ：／／ｗｗｗ．ｘａｎａｇｅｎ．ｃｏｍ／ＤａｗｎＣｏｔｔｅｒ，ＰｕｒｎｉｍａＧｕｄａ，ＥｏｉｎＦａｈｙ，ａｎｄＳｈａｎｋａｒＳｕｂｒａｍａｎｉａｍＭｉｔｏＰｒｏｔｅｏｍｅ：ｍｉｔｏｃｈｏｎｄｒｉａｌｐｒｏｔｅｉｎｓｅｑｕｅｎｃｅｄａｔａｂａｓｅａｎｄａｎｎｏｔａｔｉｏｎｓｙｓｔｅｍＮｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００４３２：Ｄ４６３−Ｄ４６７ＣｈｕｎｙａＬｉｕ，ＴｏｍＩ．Ｂｏｎｎｅｒ，ＴｕＮｇｕｙｅｎ，ＪｅｎｎｉｆｅｒＬ．Ｌｙｏｎｓ，ＳｕｓａｎＬ．Ｃｈｒｉｓｔｉａｎ，ａｎｄＥｌｌｉｏｔＳ．ＧｅｒｓｈｏｎＤＮａｎｎｏｔａｔｏｒ：ａｎｎｏｔａｔｉｏｎｓｏｆｔｗａｒｅｔｏｏｌｋｉｔｆｏｒｒｅｇｉｏｎａｌｇｅｎｏｍｉｃｓｅｑｕｅｎｃｅｓＮｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００３３１：３７２９−３７３５ＡｇｎｅｓＨｏｔｚ−Ｗａｇｅｎｂｌａｔｔ，ＴｈｏｍａｓＨａｎｋｅｌｎ，ＰｅｔｅｒＥｒｎｓｔ，Ｋａｒｌ−ＨｅｉｎｚＧｌａｔｔｉｎｇ，ＥｒｗｉｎＲ．Ｓｃｈｍｉｄｔ，ａｎｄＳａｎｄｏｒＳｕｈａｉＥＳＴＡｎｎｏｔａｔｏｒ：ａｔｏｏｌｆｏｒｈｉｇｈｔｈｒｏｕｇｈｔｐｕｔＥＳＴａｎｎｏｔａｔｉｏｎＮｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００３３１：３７１６−３７１９

本発明は、従来の技術に対する上記したような種々の問題点ならびに要望に鑑みてなされたものであり、その目的とするところは、従来のアノテーションシステムでは統合されたビューワー上で豊富なバイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であったのに対して、本発明では実際に行われているアノテーション作業の多様性と求められている作業効率の高さに注目し、研究者たちが実際に行うアノテーション作業に適したアノテーションシステムを提供するために新しいアノテーションシステムの構成と手続きを開発したものであり、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供しようとするものである。

上記目的を達成するために、本発明のうち請求項１に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにしたものである。

また、本発明のうち請求項２に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーションシステムにおいて、アノテーション作業の種類に応じた処理を行うためにそれぞれ構築されたアノテーション情報付加処理手段と、上記アノテーション情報付加処理手段にそれぞれ対応して、上記アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択手段と、上記アノテーション情報付加処理手段がそれぞれ共有する情報を共通に管理する共有情報管理手段とを有するようにしたものである。

従って、本発明のうち請求項１または２に記載の発明によれば、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理手段を用いて、アノテーション情報を付加する対象として選択された部分配列毎に所望のアノテーション作業によりアノテーション情報を付加すること処理を行うことができるようになるため、当該選択された部分配列に対して効率よくアノテーション作業を行うことができるようになる。

また、本発明のうち請求項３に記載の発明は、本発明のうち請求項１に記載の発明をコンピューターに実行させるためのプログラム。

また、本発明のうち請求項４に記載の発明は、本発明のうち請求項２に記載の発明としてコンピューターを機能させるためのプログラムである。

また、本発明のうち請求項５に記載の発明は、本発明のうち請求項３または４のいずれか１項に記載のプログラムを記録したコンピューター読み取り可能な記録媒体である。

本発明は、研究者たちが実際に行うアノテーション作業に適していて、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供することができるという優れた効果を奏する。

以下、添付の図面を参照しながら、本発明によるアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体の実施の形態の一例を詳細に説明するものとする。

図２には、本発明の実施の形態の一例によるアノテーションシステムの概念構成説明図が示されている。

この本発明によるアノテーションシステムは、コンピュータータシステムにより構築されており、ワークフロー（Ｗｏｒｋｆｌｏｗ）の考え方を導入して、研究者が行いたいアノテーション作業、即ち、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理システムを構築して、アノテーション情報を付加する対象として選択された部分配列毎に、所望のアノテーション情報付加処理システムを選択的に切り換えて用いるようにしてアノテーション作業を行うことができるようにしたものである。

ここで、このアノテーションシステムにおける個々のアノテーション情報付加処理システム１０は、ユーザーにおけるアノテーション作業の作業毎の異なる意図を示す意図情報１２のうちの表示すべきアノテーション情報のセット・表示方法（以下、単に「表示アノテーション情報セット・表示方法」と適宜に称する。）１２ａ、入力させるアノテーション情報のセット・表示方法（以下、単に「入力させるアノテーション情報のセット・表示方法」と適宜に称する。）１２ｂおよび所望のアノテーション作業を構成する要素手順（以下、単に「アノテーション作業構成要素手順」と適宜に称する。）１２ｃに基づいて構築されている。なお、図２においては、図示を簡略化するためにアノテーション情報付加処理システム１０は一つしか図示していないが、アノテーション情報付加処理システム１０は意図情報１２に応じて２以上の所望の数だけ設定されるものである。

アノテーション情報付加処理システム１０は、より詳細には、意図情報１２のうちの表示アノテーション情報セット・表示方法１２ａおよび入力アノテーション情報セット・表示方法１２ｂに基づいて構築された最適化したインターフェース（以下、単に「最適化インターフェース」と適宜に称する。）１４と、意図情報１２のうちのアノテーション作業構成要素手順１２ｃに基づいて構築された要素手順（Ｃｏｍｐｏｎｅｎｔ：コンポーネント）群１６と、意図情報１２のうちのアノテーション作業構成要素手順１２ｃに基づいて構築されて要素手順群１６を構成する各要素手順の順序を示す要素手順の順序（ＣｏｍｐｏｎｅｎｔＬｉｓｔ：コンポーネントリスト）（以下、単に「要素手順順序」と適宜に称する。）１８とを有して構成されている。

また、要素手順群１６は、要素手順として、最適化インターフェース１４によってそれぞれ操作される部分配列を選択するタイプの手順（以下、単に「部分配列選択タイプ手順」と適宜に称する。）１６ａと、部分配列に関するバイオ情報を表示するタイプの手順（以下、単に「部分配列バイオ情報表示タイプ手順」と適宜に称する。）１６ｂおよび部分配列にアノテーション情報を付加するタイプの手順（以下、単に「部分配列アノテーション情報付加タイプ手順」と適宜に称する。）１６ｃを有して構成されている。即ち、要素手順群１６は、部分配列選択タイプ手順１６ａの要素手順と、部分配列バイオ情報表示タイプ手順１６ｂの要素手順と、部分配列アノテーション情報付加タイプ手順１６ｃの要素手順を備えている。

さらに、このアノテーションシステムでは、意図情報１２のうちのアノテーション作業の対象となる部分配列のセット（以下、単に「対象部分配列セット」と適宜に称する。）１２ｄに基づいて、アノテーション情報付加処理システム１０によりアノテーション情報を付加する対象となる複数の部分配列（Ｒｅｇｉｏｎ）よりなる部分配列群２０が設けられている。なお、図２においては、図示を簡略化するために部分配列群２０には３つの部分配列しか図示していないが、部分配列群２０には意図情報１２に応じて多数の部分配列が設定されるものである。

また、このアノテーションシステムにおいては、最適化インターフェース１４を用いて選択されて現在処理対象とされている要素手順を示すＣｕｒｒｅｎｔＣｏｍｐｏｎｅｎｔ２２が設けられているとともに、最適化インターフェース１４を用いて選択されて現在処理対象とされている部分配列を示すＣｕｒｒｅｎｔＲｅｇｉｏｎ２４が設けられている。

また、このアノテーションシステムにおいては、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム共有ライブラリ２６によりアノテーションシステム全体で共有するようになされている。

換言すれば、本発明によるアノテーションシステムは、一つ一つのアノテーション作業に対応した個別のアノテーションシステムとして最適化されたアノテーション情報付加処理システム１０をそれぞれ構築し、こうしてアノテーション作業毎に最適化されて構築されたアノテーション情報付加処理システム１０を、アノテーション作業を行う対象である部分配列に対してアノテーション作業毎に選択的に切り換えて使用することができるようにする一方で、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム全体で共有して管理するようにしてなるものである。

ここで、要素手順順序１８の詳細について説明すると、図３に示すように、要素手順順序１８には、要素手順の順番（以下、単に「要素手順順番」と適宜に称する。）１８ａと、要素手順群のネクスト(ｎｅｘｔ）アクション（以下、単に「要素手順群ネクストアクション」と適宜に称する。）１８ｂとが設定されている。なお、要素手順群ネクストアクション１８ｂとは、要素手順群中のネクストボタンをユーザーがクリックしたときの処理を規定するものである。

また、要素手順群１８を構成する各要素手順は、図４に示すように、サブコンポーネント（ＳｕｂＣｏｍｐｏｎｅｎｔ）群、モデル（Ｍｏｄｅｌ）層、ビュー（Ｖｉｅｗ）層およびコントロール（Ｃｏｎｔｒｏｌ）層を持ち、１つの手順を実現するものである。

即ち、ビュー層が画面に表示されるインターフェースを制御し、モデル層がこの要素手順で処理されるべき一切のデータ処理と取得を制御し、コントロール層がユーザーの入力などによって発生したイベントを処理するものである。

なお、サブコンポーネント群には複数のサブコンポーネントが設定されており、モデル層には要素手順のモデル処理（ＣｏｍｐｏｎｅｎｔのＭｏｄｅｌ処理）およびサブコンポーネント群のモデル処理（ＳｕｂＣｏｍｐｏｎｅｎｔ群のＭｏｄｅｌ処理）が規定され、ビュー層には要素手順のビュー処理（ＣｏｍｐｏｎｅｎｔのＶｉｅｗ処理）およびサブコンポーネント群のビュー処理（ＳｕｂＣｏｍｐｏｎｅｎｔ群のＶｉｅｗ処理）が規定され、コントロール層には要素手順のコントロール処理（ＣｏｍｐｏｎｅｎｔのＣｏｎｔｒｏｌ処理）およびサブコンポーネント群のコントロール処理（ＳｕｂＣｏｍｐｏｎｅｎｔ群のＣｏｎｔｒｏｌ処理）が規定されている。

なお、図５に示すように、サブコンポーネントも要素手順（コンポーネント）と同様な構成を備えており、モデル（Ｍｏｄｅｌ）層、ビュー（Ｖｉｅｗ）層およびコントロール（Ｃｏｎｔｒｏｌ）層を持ち、モデル層にはサブコンポーネントのモデル処理（ＳｕｂＣｏｍｐｏｎｅｎｔのＭｏｄｅｌ処理）が規定され、ビュー層にはサブコンポーネントのビュー処理（ＳｕｂＣｏｍｐｏｎｅｎｔのＶｉｅｗ処理）が規定され、コントロール層にはサブコンポーネントのコントロール処理（ＳｕｂＣｏｍｐｏｎｅｎｔのＣｏｎｔｒｏｌ処理）が規定されている。即ち、サブコンポーネントも、モデル層、ビュー層およびコントロール層を持ち、それぞれを制御するようになっている。

また、要素手順のコントロール層にはネクストボタンが含まれており、アノテーションシステムの要素手順順序１８で規定されているネクストアクションを実行するようになっている。ネクストアクションの種類としては、ＣｕｒｒｅｎｔＲｅｇｉｏｎをＲｅｇｉｏｎＬｉｓｔの先頭にする処理と、ＣｕｒｒｅｎｔＲｅｇｉｏｎをＲｅｇｉｏｎＬｉｓｔの次にする処理と、次のＣｏｍｐｏｎｅｎｔへ移動する処理と、ＲｅｇｉｏｎＬｉｓｔの最後まで現在処理中のＣｏｍｐｏｎｅｎｔでループする処理と、ＲｅｇｉｏｎＬｉｓｔの最後まで設定のＣｏｍｐｏｎｅｎｔでループする処理とが規定されている。

このネクストアクションの動作によって、それぞれの手順が一連の手順としてつながり、効率的なアノテーション作業を実現することができる。

以上の構成において、上記した本発明によるアノテーションシステムにおいては、図７に示すように、意図情報１２に基づいてアノテーション情報付加処理システム１０を構築するとともに部分配列群１８を設定して、アノテーション作業を行うことになる。

即ち、所望のアノテーション作業を行うための要素手順群１６を選択し、部分配列選択タイプ手順１６ａにより、部分配列群１８からアノテーション作業を行う対象の部分配列を選択する。

次に、部分配列バイオ情報表示タイプ手順１６ｂにより、選択した部分配列に関するバイオ情報を取得して最適化インターフェース１４に表示する。

それから、ユーザーは、最適化インターフェース１４に表示されたバイオ情報を参照しながら、最適化インターフェース１４を用いて部分配列アノテーション情報付加タイプ手順１６ｃにより選択した部分配列に関するアノテーション情報を入力し、選択した部分配列に対するアノテーション情報を更新する。

こうして更新されたアノテーション情報は、アノテーション情報データベース（図示せず。）に登録されて、その後の利用にふされることになる。

従って、この本発明によるアノテーションシステムによれば、研究者たちが実際に行うアノテーション作業に適したアノテーション情報付加処理システム１０を構築することができ、アノテーション作業を効率よく行うことができるようになる。

より詳細には、ユーザーによるアノテーション作業は、最適化インターフェース１４を介して行われ、ワークフロー呼び出しの処理と要素手順間のループ（Ｃｏｍｐｏｎｅｎｔ間のループ）の処理とにより構成されている。

そして、ワークフロー呼び出しの処理においては、アノテーション作業の選択処理と、ＲｅｇｉｏｎＬｉｓｔの初期化処理と、ＣｕｒｒｅｎｔＣｏｍｐｏｎｅｎｔの初期化処理と、ＣｕｒｒｅｎｔＲｅｇｉｏｎの初期化処理とが行われる。

また、要素手順間のループの処理においては、ＣｏｍｐｏｎｅｎｔＬｉｓｔ、ＣｕｒｒｅｎｔＣｏｍｐｏｎｅｎｔを参照し、該当するＣｏｍｐｏｎｅｎｔを取得する処理が行われる。

モデル層によりデータを取得して、ビュー層によりＣｏｍｐｏｎｅｎｔを表示する処理とＳｕｂＣｏｍｐｏｎｅｎｔ群を表示する処理とが行われる。

また、コントロール層によりイベント処理が行われて、当該イベント処理に応じてモデル層によりデータ処理が行われる。具体的には、一般的なイベント処理としてネクストボタンクリックの処理が行われると、ＣｏｍｐｏｎｅｎｔＬｉｓｔからネクストアクションを実行する。また、部分配列選択時イベント処理としてＲｅｇｉｏｎＬｉｓｔに追加するイベントがあると、ＲｅｇｉｏｎＬｉｓｔへの追加が行われ、また、部分配列選択時イベント処理としてＲｅｇｉｏｎＬｉｓｔから削除するイベントがあると、ＲｅｇｉｏｎＬｉｓｔからの削除が行われる。さらに、アノテーション時イベントとしてアノテーション情報更新イベントがあると、アノテーション情報の更新が行われる。

ここで、従来のアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図８のフローチャートに示し、また、ワークフローを導入した本発明によるアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図９のフローチャートに示して、両者を比較検討すると、図８に示す従来のアノテーションシステムを用いた手動アノテーション作業では、作業の様々な箇所で効率を悪くさせる無駄や品質を低下させるミスを誘発させる要素が含まれている。

一方、図９に示す本発明によるアノテーションシステムにおいては、ワークフローによってアノテーション作業ごとに最適化したアノテーション情報付加処理システムを構築することで、アノテーション作業の効率と品質とを高く維持することができる。

［技術分野］
本発明は、アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関し、さらに詳細には、ゲノム情報に基づいた各種の研究に必須なゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関する。

［背景技術］
従来より、ゲノム研究の分野においては、遺伝子を表現するＤＮＡ配列上に、タンパク質の合成や翻訳機能などの生物の構造や生命活動に関係する部分の配列（以下、単に「部分配列」と適宜に称する。）を指定して、具体的な機能をあらわす名称や、合成されるタンパク質の性質、関連する酵素あるいは関連する代謝系などのバイオ研究にかかわる様々な情報（以下、単に「バイオ情報」と適宜に称する。）を部分配列に対応させてデータベース化するアノテーションシステムが導入されている。部分配列とバイオ情報とを対応させた情報であるアノテーション情報の蓄積をはかり、アノテーション情報をゲノムに関するより高度な知見を得るために活用する。

ここで、アノテーションシステムは、一般的には、ＤＮＡ配列上から各部分配列を選択するインターフェースと、指定された部分配列に付されたバイオ情報を閲覧するインターフェースと、その部分配列に対応させたバイオ情報をアノテーション情報として入力するインターフェースとにより構成されている。

まず、１つめのフェーズは、対象となる部分配列を既知のバイオ情報ＤＢ（データベース）と照らし合わせて同一のもの、あるいは類似しているものを選び出し、その情報を当該部分配列のバイオ情報としてアノテーションする自動アノテーションである。この自動アノテーションにおいては、２つめのフェーズで用いるアノテーションシステムは用いられることはない。

次に、２つめのフェーズは、上記した１つめのフェーズたる自動アノテーションで得られたバイオ情報をアノテーションシステムに投入し、それぞれの部分配列に対して使用者がバイオ情報入力して、アノテーション情報を更新する手動アノテーションである。

つまり、従来のアノテーション作業においては、上記した１つめのフェーズで得られたバイオ情報が、アノテーションシステムにより２つめのフェーズで運用されるというスタイルをとっていることが多い。

ステップＳ１０２乃至ステップＳ１１２の自動アノテーションの処理フローにおいては、使用者による手入力のプロセスは無く、コンピューターシステムを用いて自動的に実行される。

ある生物種についてのゲノムの配列を解読すると、解読したゲノムの配列上に遺伝子の候補を見いだすことができる。このそれぞれの遺伝子の候補に対応する配列を部分配列とし、この部分配列の集合をＤＮＡの部分配列群とする。そして、このＤＮＡの部分配列群をアノテーションシステムに与える（ステップＳ１０２）。

次に、与えられたＤＮＡの部分配列群から部分配列を一つずつ順番にに取り出す（ステップＳ１０４）。

次に、ステップＳ１０４でＤＮＡの部分配列群を構成するそれぞれの部分配列を取り出せたか否かの判断処理を行う（ステップＳ１０６）。例えば、ステップＳ１０４において部分配列を取り出した後、次に取り出す部分配列が存在するか否かを確認し、次に取り出す部分配列が存在しない場合には、ＤＮＡの部分配列群からすべての部分配列を取り出したと判断し、次に取り出す部分配列が存在する場合には、ＤＮＡの部分配列群からすべての部分配列を取り出せていないと判断する。ステップＳ１０６の判断処理においてステップＳ１０４でＤＮＡの部分配列群を構成するそれぞれの部分配列を取り出せたと判断された場合には、既知のバイオ情報データベース（既知ＤＢ）２００を用いてホモロジー検索を行う（ステップＳ１０８）。

そして、ステップＳ１０８のホモロジー検索の結果からホモロジーが有ったか否かの判断処理を行い（ステップＳ１１０）、ステップＳ１１０の判断処理においてホモロジーが有ったと判断された場合には、その情報を既知情報としてバイオ情報データベース２００に登録してから（ステップＳ１１２）、ステップＳ１０４の処理へ戻る。一方、ステップＳ１１０の判断処理においてホモロジーが有ったとは判断されなかった場合には、そのままステップＳ１０４の処理へ戻る。

そして、上記したステップＳ１０４乃至ステップＳ１１２の処理を繰り返し、ステップＳ１０２で与えられたＤＮＡの部分配列群を構成するすべての部分配列に対してステップＳ１０４乃至ステップＳ１１２の処理を終了すると、ステップＳ１０６の判断処理においてステップＳ１０２でＤＮＡの部分配列群を構成するすべての部分配列の取り出しが終了したと判断され、自動アノテーションによるアノテーション作業の処理を終了して端子Ａに至る。

次に、端子Ａより後段に位置するステップＳ１１４乃至ステップＳ１２２の手動アノテーションによるアノテーション作業の処理を行う。この手動アノテーションにおいては、部分配列選択画面や群バイオ情報とアノテーション情報とがともに表示される画面（バイオ情報表示アノテーション入力画面）によりアノテーション情報を入力させるものである。

なお、部分配列選択画面は、ＤＮＡ配列（ゲノム配列）上でマップされた部分配列と、キーワードサーチなどで候補となる部分配列とのうち少なくとも一つを表示することができる。使用者は入力装置からＤＮＡ配列（ゲノム配列）上でマップされた部分配列またはキーワードサーチなどで候補となる部分配列、もしくはＤＮＡ配列（ゲノム配列）上でマップされた部分配列およびキーワードサーチなどで候補となる部分配列とを部分配列選択画面に表示することを選択することができる。

より詳細には、ＤＮＡ配列（ゲノム配列）上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列を表示させる部分配列選択画面を表示し（ステップＳ１１４）、この部分配列選択画面上において使用者に部分配列を選択させる（ステップＳ１１６）。

次に、バイオ情報表示アノテーション入力画面を表示させて（ステップＳ１１８）、ステップＳ１１６で選択した部分配列に関するバイオ情報をアノテーション情報として入力する（ステップＳ１２０）。

問題点３：様々な情報のアノテーションに対応するため、表示される情報が多くなり使用者に負担がかかる。

問題点４：既知のバイオ情報データベースに変更があった場合に、過去に実行したアノテーションの手順を使用者自身が思い出しながら一つ一つ再現しなければならず効率がよくない。

問題点５：アノテーション作業の意図をインターフェース上の手続きに変換するのは、個々の使用者にまかされているため、アノテーションの基準が不安定になりやすく、また、基準の管理がし難い。なお、上記したアノテーション作業の意図とは、どのようなアノテーション作業を行うかを示すものであり、例えば、当該アノテーション作業を管理する管理者の意志を反映するものである。

問題点７：アノテーション作業に最適化されていない冗長性のあるアノテーションシステムを通してアノテーションをおこなうと、アノテーションの精度や方向性、記述にばらつきが発生し、全体のアノテーションの品質が低下してしまい使いものにならなくなる。

［非特許文献１］
ＩｎｆｅｒｒｉｎｇｈｉｇｈｅｒｆｕｎｃｔｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｆｏｒＲＩＫＥＮｍｏｕｓｅｆｕｌｌ−ｌｅｎｇｔｈｃＤＮＡｃｌｏｎｅｓｗｉｔｈＦＡＣＴＳ．Ｎａｇａｓｈｉｍａ，Ｔ．，Ｓｉｌｖａ，Ｄ．，Ｓｏｃｈａ，Ｌ．，ＰｅｔｒｏｖｓｋｙＮ．，Ｓｕｚｕｋｉ，Ｈ．，Ｓａｉｔｏ，Ｒ．，Ｋａｓｕｋａｗａ，Ｔ．，Ｋｕｒｏｃｈｋｉｎ，ＩＶ．，Ｋｏｎａｇａｙａ，Ａ．，ａｎｄＳｃｈｏｎｂａｃｈ，Ｃ．ＧｅｎｏｍｅＲｅｓ．１３（６ｂ）ｐｐ．１５２０−１５３３，２００３
［非特許文献２］
ＧｅｎｏｍｅＧａｍｂｅｒ株式会社ザナジェンｈｔｔｐ：／／ｗｗｗ．ｘａｎａｇｅｎ．ｃｏｍ／
［非特許文献３］
ＤａｗｎＣｏｔｔｅｒ，ＰｕｒｎｉｍａＧｕｄａ，ＥｏｉｎＦａｈｙ，ａｎｄＳｈａｎｋａｒＳｕｂｒａｍａｎｉａｍ
ＭｉｔｏＰｒｏｔｅｏｍｅ：ｍｉｔｏｃｈｏｎｄｒｉａｌｐｒｏｔｅｉｎｓｅｑｕｅｎｃｅｄａｔａｂａｓｅａｎｄａｎｎｏｔａｔｉｏｎｓｙｓｔｅｍ
Ｎｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００４３２：Ｄ４６３−Ｄ４６７
［非特許文献４］
ＣｈｕｎｙａＬｉｕ，ＴｏｍＩ．Ｂｏｎｎｅｒ，ＴｕＮｇｕｙｅｎ，ＪｅｎｎｉｆｅｒＬ．Ｌｙｏｎｓ，ＳｕｓａｎＬ．Ｃｈｒｉｓｔｉａｎ，ａｎｄＥｌｌｉｏｔＳ．Ｇｅｒｓｈｏｎ
ＤＮａｎｎｏｔａｔｏｒ：ａｎｎｏｔａｔｉｏｎｓｏｆｔｗａｒｅｔｏｏｌｋｉｔｆｏｒｒｅｇｉｏｎａｌｇｅｎｏｍｉｃｓｅｑｕｅｎｃｅｓ
Ｎｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００３３１：３７２９−３７３５
［非特許文献５］
ＡｇｎｅｓＨｏｔｚ−Ｗａｇｅｎｂｌａｔｔ，ＴｈｏｍａｓＨａｎｋｅｌｎ，ＰｅｔｅｒＥｒｎｓｔ，Ｋａｒｌ−ＨｅｉｎｚＧｌａｔｔｉｎｇ，ＥｒｗｉｎＲ．Ｓｃｈｍｉｄｔ，ａｎｄＳａｎｄｏｒＳｕｈａｉ
ＥＳＴＡｎｎｏｔａｔｏｒ：ａｔｏｏｌｆｏｒｈｉｇｈｔｈｒｏｕｇｈｔｐｕｔＥＳＴａｎｎｏｔａｔｉｏｎ
Ｎｕｃｌ．Ａｃｉｄ．Ｒｅｓ．２００３３１：３７１６−３７１９
［発明の開示］
［発明が解決しようとする課題］
本発明は、従来の技術に対する上記したような種々の問題点ならびに要望に鑑みてなされたものであり、その目的とするところは、従来のアノテーションシステムでは統合されたビューワー上で豊富なバイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であったのに対して、本発明では実際に行われているアノテーション作業の多様性と求められている作業効率の高さに注目し、研究者たちが実際に行うアノテーション作業に適したアノテーションシステムを提供するために新しいアノテーションシステムの構成と手続きを開発したものであり、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供しようとするものである。

［課題を解決するための手段］
上記目的を達成するために、本発明のうち請求項１に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにしたものである。

［発明の効果］
本発明は、研究者たちが実際に行うアノテーション作業に適していて、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供することができるという優れた効果を奏する。

［発明を実施するための最良の形態］
以下、添付の図面を参照しながら、本発明によるアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体の実施の形態の一例を詳細に説明するものとする。

この本発明によるアノテーションシステムは、例えば、全体の動作を制御するための中央処理装置（ＣＰＵ）、ＣＰＵの動作のためのプログラムなどを格納したり各種のデータを記憶したりする記憶装置、キーボードやマウスなどのポインティングデバイスよりなる入力装置およびＣＰＵの処理結果などを表示する表示装置などを備えたコンピューターシステムにより構築されている。ワークフロー（Ｗｏｒｋｆｌｏｗ）の考え方を導入して、使用者が行いたいアノテーション作業、即ち、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理システム１０を構築して、バイオ情報を付加する対象として選択された部分配列毎に、所望のアノテーション情報付加処理システム１０を選択的に切り換えてアノテーション作業を行うことができるようにしたものである。

ここで、このアノテーションシステムにおける個々のアノテーション情報付加処理システム１０は、使用者におけるアノテーション作業の作業毎の異なる意図を示す意図情報１２に基づいて構築される。アノテーション作業の作業毎の異なる意図とは、アノテーション作業毎にどのようなアノテーションを行うかを示すものであり、例えば、当該アノテーション作業を管理する管理者の意志を反映するものである。従って、意図情報は、例えば、アノテーション作業を管理する管理者などにより決定される。意図情報１２には、表示装置に表示すべきアノテーション情報の組（セット）とその表示方法を示す「表示すべきアノテーション情報のセット・表示方法」（以下、単に「表示アノテーション情報セット・表示方法」と適宜に称する。）１２ａ、入力装置を用いて使用者に入力させるアノテーション情報の組（セット）とその表示方法を示す「入力させるアノテーション情報のセット・表示方法」（以下、単に「入力させるアノテーション情報のセット・表示方法」と適宜に称する。）１２ｂおよび所望のアノテーション作業を構成する要素手順（Ｃｏｍｐｏｎｅｎｔ：コンポーネント）（以下、単に「アノテーション作業構成要素手順」と適宜に称する。なお、要素手順とは、アノテーション作業の行うために構築すべき処理内容を示すものである。要素手順としては、例えば、「遺伝子名検索処理」や「ホモロジー検索処理」などがある。）１２ｃなどを含むものである。なお、図２においては、図示を簡略化するためにアノテーション情報付加処理システム１０は一つしか図示していないが、アノテーション情報付加処理システム１０は意図情報１２に応じて２以上の所望の数だけ設定されるものである。

アノテーション情報付加処理システム１０は、使用者が行いたいとするアノテーション作業の意図たる意図情報１２に基づくアノテーション作業を行うためのシステムである。例えば、使用者が核酸やアミノ酸に関連した部分配列に対してアノテーション作業を行いたい場合には、核酸やアミノ酸に関連した部分配列に対して効率よくアノテーション作業を行うことができるようなアノテーション情報付加処理システム１０を構築することができる。なお、アノテーション情報付加処理システム１０は、意図情報１２に合わせて事前に用意されていてもよく、事前に用意されたアノテーション情報付加処理システム１０を使用者がアノテーション作業の意図に基づいて選択してもよいし、使用者がアノテーション作業の意図情報１２を入力装置から入力することにより、中央処理装置が入力された情報に基づいてアノテーション情報付加処理システム１０を構築してもよい。

ここで、意図情報１２とは、アノテーション作業毎にどのようなアノテーションを行うかを表すものであり、例えば、「表示すべきアノテーション情報のセット・表示法」１２ａ、「入力されるアノテーション情報のセット・表示方法」１２ｂ、「所望のアノテーション作業を構成する要素手順」１２ｃおよび「アノテーション作業の対象となる部分配列のセット」１２ｄとを含むものである。

「表示すべきアノテーション情報のセット・表示方法」１２ａは、使用者がアノテーション作業のときに表示装置に表示させたいアノテーション情報のセットや表示方法を選択することにより、使用者の意図に沿ったアノテーション情報を使用者の意図に沿った方法により表示装置に表示させるものである。具体的には、使用者が入力装置から表示させたいアノテーション情報のセットや表示方法を入力し、中央処理装置が入力されたアノテーション情報のセットを選択して入力された表示方法にしたがって選択されたアノテーション情報のセットを表示装置に表示させる。

「入力されるアノテーション情報のセット・表示方法」１２ｂは、使用者が入力装置から入力したいアノテーション情報のセットと入力されたアノテーション情報を表示装置に表示させたい方法を選択することにより、使用者の意図に沿ったアノテーション情報のセットを入力し、入力されたアノテーション情報を使用者の意図に沿った方法により表示装置に表示させるものである。具体的には、使用者が入力装置から入力したいアノテーション情報のセットや表示方法を入力し、中央処理装置は使用者が入力するアノテーション情報のセットを入力された表示方法にしたがって表示装置に表示させる。

「所望のアノテーション作業を構成する要素手順」１２ｃは、アノテーション作業を行うための要素手順において、使用者が行いたい要素の内容および順番を選択することにより、使用者の意図に沿った要素の内容および順番によりアノテーション作業を進めることができるようにするものである。例えば、要素の内容には、「遺伝子名検索処理」や「ホモロジー検索処理」などがあり、アノテーション作業の中で使用者が行いたい要素を選択し、使用者が行いたいように要素の順番を指定することができる。

「アノテーション作業の対象となる部分配列のセット」１２ｄは、使用者がアノテーション作業において、バイオ情報を関連づける対象としたい部分配列を選択することにより、使用者の意図に沿った部分配列を選択的に設定するものである。例えば、使用者が核酸またはアミノ酸に関連した部分配列に対してアノテーション作業を行いたい場合には、使用者がその旨を入力装置から入力して、中央処理装置が入力された情報に基づいて核酸またはアミノ酸に関連した部分配列を検索して、検索した部分配列をアノテーション作業の対象とする部分配列として設定する。これにより、使用者はアノテーション作業を行いたい部分配列に対してのみアノテーション作業を行うことができるため、アノテーション作業を行う部分配列とアノテーション作業を行わない部分配列とを選別する必要がなくなり、アノテーション作業の効率を格段と高めることができる。

アノテーション情報付加処理システム１０は、より詳細には、意図情報１２のうちの表示アノテーション情報セット・表示方法１２ａおよび入力アノテーション情報セット・表示方法１２ｂに基づいて構築された最適化したインターフェース（以下、単に「最適化インターフェース」と適宜に称する。このインターフェースには、表示装置における入力画面や入力装置などが含まれる。）１４と、意図情報１２のうちのアノテーション作業構成要素手順１２ｃに基づいて構築された要素手順群１６と、意図情報１２のうちのアノテーション作業構成要素手順１２ｃに基づいて構築されて要素手順群１６を構成する各要素手順の順序、即ち、処理の順番を示す要素手順の順序（ＣｏｍｐｏｎｅｎｔＬｉｓｔ：コンポーネントリスト）（以下、単に「要素手順順序」と適宜に称する。）１８とを有している。

また、要素手順群１６は、要素手順として、最適化インターフェース１４によってそれぞれ操作される部分配列を選択するタイプ（このタイプとは、部分配列を選択する際にどのような基準で選択するかを示すものである。）の手順（以下、単に「部分配列選択タイプ手順」と適宜に称する。）１６ａと、部分配列に関するバイオ情報を表示するタイプ（このタイプとは、バイオ情報を表示する際にどのような形式で表示するかを示すものである。）の手順（以下、単に「部分配列バイオ情報表示タイプ手順」と適宜に称する。）１６ｂおよび部分配列にアノテーション情報を付加するタイプ（このタイプとは、どのようなバイオ情報をアノテーション情報として付加するかを示すものである。）の手順（以下、単に「部分配列アノテーション情報付加タイプ手順」と適宜に称する。）１６ｃを有して構成されている。即ち、要素手順群１６は、部分配列選択タイプ手順１６ａの要素手順と、部分配列バイオ情報表示タイプ手順１６ｂの要素手順と、部分配列アノテーション情報付加タイプ手順１６ｃの要素手順を備えている。

さらに、このアノテーションシステムでは、意図情報１２のうちで、アノテーション作業の対象とすべき部分配列の組を示す「アノテーション作業の対象となる部分配列のセット」（以下、単に「対象部分配列セット」と適宜に称する。）１２ｄに基づいて、アノテーション情報付加処理システム１０によりアノテーション情報を付加する対象となる複数の部分配列（Ｒｅｇｉｏｎ）よりなる部分配列群２０が設定される。なお、図２においては、図示を簡略化するために部分配列群２０には３つの部分配列しか図示していないが、部分配列群２０には意図情報１２に応じて多数の部分配列が設定されるものである。

ここで、最適化インターフェース１４は、操作を目的としたインターフェースと表示を目的とインターフェースとを一つの画面に表示するものである。これにより、使用者は一つの画面においてアノテーション対象となる部分配列を表示させ、表示された部分配列に対してバイオ情報を入力することができ、アノテーション作業を効率よく行うことができる。

また、ＣｕｒｒｅｎｔＣｏｍｐｏｎｅｎｔ２２は、最適化インターフェース１４に表示させる要素手順を決定する。具体的には、それぞれの部分配列に対して要素手順１６に含まれる要素手順を要素手順順序１８に従って最適化インターフェース１４に表示させる。

ＣｕｒｒｅｎｔＲｅｇｉｏｎ２４は、最適化インターフェース１４に表示させる部分配列を決定する。具体的には、部分配列群２０に設定された部分配列を順番に最適化インターフェース１４に表示させる。使用者は最適化インターフェース１４に表示された部分配列に対してバイオ情報を入力することになる。

また、このアノテーションシステムにおいては、アノテーションシステム全体で共有することができるデータベース、ユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム共有ライブラリ２６によりアノテーションシステム全体で共有するようになされている。

換言すれば、本発明によるアノテーションシステムは、一つ一つのアノテーション作業に対応した個別のアノテーションシステムとして最適化されたアノテーション情報付加処理システム１０をそれぞれ構築または選択し、こうしてアノテーション作業毎に最適化されて構築されたアノテーション情報付加処理システム１０を、アノテーション作業を行う対象である部分配列に対してアノテーション作業毎に選択的に切り換えて使用することができるようにする一方で、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム全体で共有して管理するようにしてなるものである。

ここで、要素手順順序１８の詳細について説明すると、図３に示すように、要素手順順序１８には、要素手順の順番（以下、単に「要素手順順番」と適宜に称する。）１８ａと、要素手順群のネクスト(ｎｅｘｔ）アクション（以下、単に「要素手順群ネクストアクション」と適宜に称する。）１８ｂとが設定されている。なお、要素手順群ネクストアクション１８ｂとは、要素手順を示す表示装置の画面中において要素手順群中のネクストボタンとして指定された領域を使用者が入力装置のマウスでクリックしたときの処理を規定するものである。

また、要素手順群１６を構成する各要素手順は、図４に示すように、サブコンポーネント（ＳｕｂＣｏｍｐｏｎｅｎｔ）群、モデル（Ｍｏｄｅｌ）層、ビュー（Ｖｉｅｗ）層およびコントロール（Ｃｏｎｔｒｏｌ）層を持ち、１つの手順を実現するものである。

即ち、ビュー層が表示装置の画面に表示されるインターフェースを制御し、モデル層がこの要素手順で処理されるべき一切のデータ処理とデータの取得を制御し、コントロール層が使用者による入力装置を用いた指示の入力などによって発生したイベントを処理するものである。

また、要素手順のコントロール層には上記したネクストボタンが含まれており、アノテーションシステムの要素手順順序１８で規定されているネクストアクションを実行するようになっている。ネクストアクションの種類としては、ＣｕｒｒｅｎｔＲｅｇｉｏｎをＲｅｇｉｏｎＬｉｓｔの先頭にする処理と、ＣｕｒｒｅｎｔＲｅｇｉｏｎをＲｅｇｉｏｎＬｉｓｔの次にする処理と、次のＣｏｍｐｏｎｅｎｔへ移動する処理と、ＲｅｇｉｏｎＬｉｓｔの最後まで現在処理中のＣｏｍｐｏｎｅｎｔでループする処理と、ＲｅｇｉｏｎＬｉｓｔの最後まで設定のＣｏｍｐｏｎｅｎｔでループする処理とが規定されている。

以上の構成において、上記した本発明によるアノテーションシステムにおいては、図７に示すように、意図情報１２に基づいてアノテーション情報付加処理システム１０を構築するとともに部分配列群２０を設定して、アノテーション作業を行うことになる。

即ち、使用者は入力装置により、意図情報１２に基づいて設定された所望のアノテーション作業を行うための要素手順群１６を選択するとともに、意図情報１２に基づいて設定された部分配列群２０から部分配列選択タイプ手順１６ａによりアノテーション作業を行う対象の部分配列を選択する。

次に、アノテーション情報付加処理システム１０は、部分配列バイオ情報表示タイプ手順１６ｂにより、選択した部分配列に関するバイオ情報を取得して最適化インターフェース１４に表示する。

それから、使用者は、最適化インターフェース１４に表示されたバイオ情報を参照しながら、最適化インターフェース１４を用いて部分配列アノテーション情報付加タイプ手順１６ｃにより選択した部分配列に関するバイオ情報を入力し、選択した部分配列に対するアノテーション情報を更新する。

こうして更新されたアノテーション情報は、アノテーション情報データベース（図示せず。）に登録されて、その後の利用に付されることになる。

従って、この本発明によるアノテーションシステムによれば、使用者たちが実際に行うアノテーション作業に適したアノテーション情報付加処理システム１０を構築することができ、アノテーション作業を効率よく行うことができるようになる。

より詳細には、使用者によるアノテーション作業は、最適化インターフェース１４を介して行われ、ワークフロー呼び出しの処理と要素手順間のループ（Ｃｏｍｐｏｎｅｎｔ間のループ）の処理とにより構成されている。

次に、図１０乃至図１７を参照しながら、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を説明する。

なお、以下の動作例においては、ＴｈｅｒｍｕｓＴｈｅｒｍｏｐｈｉｌｕｓＨＢ８のゲノム配列から予測されたＯＲＦを対象にアノテーションを行う場合を示してる。

まず、このアノテーション作業のプロジェクトを管理する管理者（プロジェクトのリーダー等）の意図を示す意図情報１２に基づいて、アノテーション情報のフォーマットやそれを判別するために必要な情報の準備がおこなわれて、ワークフローとしてアノテーション情報付加処理システム１０が構築され、または、使用者が意図情報１２に基づいて事前に用意されたアノテーション情報付加処理システム１０を選択する。

実際のアノテーション作業を行う使用者（プロジェクトに参加している研究員等であり、管理者の指示を受けて実際のアノテーション作業を行う者である。）は、意図情報１２に基づき最適化インターフェース１４として設定された表示装置のメニュー画面（図１０参照）において、これから実行するアノテーションで必要とされるアノテーション情報付加処理システム１０を選択して実行する。この図１０に示すメニュー画面の例においては、６つのアノテーション情報付加処理システム１０、即ち、Ｆｕｎｃｔｉｏｎｎａｍｅａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ａ参照）、ＧＯＴｅｒｍａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｂ参照）、ＰＤＢａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｃ参照）、ＴＴｉｄａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｄ参照）、ｇｅｎｅｎａｍｅａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｅ参照）およびＥＣｎｕｍｂｅｒａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｆ参照）が、アノテーション作業の意図としての意図情報１２に基づきアノテーション情報付加処理システム１０として設定されている。

この動作例においては、実際のアノテーションを任せられた使用者は、メニュー画面（図１０参照）上において、適切なアノテーションを行うためにこれからアノテーション情報として付加するバイオ情報（この動作例においては、ｇｅｎｅ名である。）用に用意されたｇｅｎｅｎａｍｅａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｅ参照）を入力装置によりクリックして作業を開始する。

上記したｇｅｎｅｎａｍｅａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗは、これからアノテーション作業を行う対象であるＯＲＦを選択するところからはじまる。この動作例では、ＡＴＰｂｉｎｄに関連するＯＲＦの遺伝子名アノテーションを行うものとする。

この動作例においては、ＲｅｖＨｏｍｏｌｏｇサーチではＢＬＡＳＴでサーチされた結果のエントリーに対して検索を行い対象となるＯＲＦを選別することができる。キーワードにＡＴＰｂｉｎｄと入力し、ｐｅｒｃｅｎｔｉｄｅｎｔｉｔｙを８０％以上、Ｓｃｏｒｅを２０以上と設定してＳｅａｒｃｈを入力装置によりクリックする（図１１参照）。そうすると、２７件の結果がでたので、これらのなかからアノテーション作業の対象に含めるＯＲＦを選択する。なお、ひとつひとつ選ぶのが面倒なときは、ａｄｄａｌｌｒｅｇｉｏｎｓを入力装置によりクリックすることで全てのＯＲＦを対象にすることができる。この動作例においてはａｄｄａｌｌｒｅｇｉｏｎｓをクリックした場合を示すものであるが、２７件中には重複したＯＲＦが検出されているので、実際には１５個のＯＲＦが選択されることになり、このＯＲＦの選択が部分配列群２０の設定に該当する（図１２参照）。

次に、ネクストボタン（符号ｇ参照）を入力装置によりクリックすると、アノテーション作業が開始される。なお、アノテーション定法付加処理システム１０全体を通して、次のステップに進むためには、各画面に表示されているネクストボタンをクリックすればよい。

要素手順順序１８が管理者の意図を示す意図情報１２に基づいて設定されているため、使用者はその順序を意識すること無く作業を進めることができる。この動作例では、まず、ｇｅｎｅ名を付加するためにＢＬＡＳＴの結果を参照することになる。Ｈｏｍｏｌｏｇｓ（符号ｈ参照）というタブを入力装置によりクリックすると、機械的に事前に処理されたホモログ検索結果を閲覧することができる（図１３参照）。なお、このアノテーションシステムにおいては、管理者による意図として事前に準備された情報が格納されているものとする。

上記のようにして、使用者は、自身の判定方法に基づいて表示させる情報を選別することにより、自分自身の意図をアノテーション付加処理システム１０に与えることができる。

ここで、この動作例においては、部分配列群２０における３つ目のＯＲＦで、ｇｅｎｅ名が付加されている非常に近い種のタンパク質配列に高いホモロジーを見つけることができたものとする。私用車は、図１４に示す画面中のホモロジー結果の部分を入力装置でクリックすると、アライメントの詳細や該当エントリーの内容を確認することができ、その確認の結果、ｐｉｌＦというｇｅｎｅ名が妥当と判断したものとする。

使用者が、ｇｅｎｅ名を入力してａｄｄボタン（符号ｉ参照）をクリックすると、新しいアノテーションを登録することができる。なお、一つのＯＲＦに複数のｇｅｎｅ名を入れることも可能であるが、ｇｅｎｅ名という情報のフォーマットは管理者の意図によって決められている。使用者はそのフォーマットに従って入力するように最適化インターフェース１４ができあがっているため、間違った形式での入力を防ぐことができるとともに、効率的に作業に取り組むことができる（図１４参照）。

そして、必要なアノテーションが済んだ場合にはネクストボタン（符号ｊ）を入力装置によりクリックして、次の画面へ進めばよい。

ここで、部分配列群２０の全てのＯＲＦへのアノテーション作業が完了すると、最後にレポート画面（図１５参照）になる。このレポート画面においては、今回の作業で実行されたアノテーションを一覧表形式で確認することができる。

一方、管理者が用意した別の意図を示す意図情報１２基づくＰＤＢａｎｎｏｔａｔｉｏｎｗｏｒｋｆｌｏｗ（符号ｃ参照）を実行した場合には、図１６に示す画面上に表示されているように、ＰＤＢエントリーの特性に合わせたアノテーション情報入力画面が表示される。この図１６に示す画面例では、１ＣＳＰというタンパク名が登録されている。

上記のようにして使用者によって入力されたアノテーション情報は、リアルタイムにアノテーション共有ライブラリ２６のデータベースに反映され、アノテーションシステムのメニュー画面（図１０参照）からアクセスすることのできるＯＲＦ／Ｇｅｎｏｍｅｖｉｅｗ画面（図１７参照）によって確認することができる。この図１７に示す画面では、上記したＰＤＢエントリーが追加されたＯＲＦのアノテーションヒストリーが表示されており、いつだれがアノテーションしたのかが確認できるようになされている。

本発明は、ゲノム研究の分野において利用することができるものである。

図１は、従来のアノテーションシステムを用いたアノテーション作業の処理の一例を示すフローチャートである。図２は、本発明の実施の形態の一例によるアノテーションシステムの概念構成説明図である。図３は、要素手順の順序（ＣｏｍｐｏｎｅｎｔＬｉｓｔ）の詳細を示す説明図である。図４は、要素手順（Ｃｏｍｐｏｎｅｎｔ）の詳細を示す説明図である。図５は、サブコンポーネント（ＳｕｂＣｏｍｐｏｎｅｎｔ）の詳細を示す説明図である。図６は、ネクストアクションの種類のの詳細を示す説明図である。図７は、本発明によるアノテーションシステムにおけるアノテーション作業の処理内容を示す説明図である。図８は、従来のアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を示すフローチャートである。図９は、ワークフローを導入した本発明によるアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を示すフローチャートである。図１０は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１１は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１２は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１３は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１４は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１５は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１６は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。図１７は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。

符号の説明

１０アノテーション情報付加処理システム
１２意図情報
１２ａ表示すべきアノテーション情報のセット・表示方法
１２ｂ入力させるアノテーション情報のセット・表示方法
１２ｃ所望のアノテーション作業を構成する要素手順
１２ｄアノテーション作業の対象となる部分配列のセット
１４最適化したインターフェース
１６要素手順（Ｃｏｍｐｏｎｅｎｔ：コンポーネント）群
１６ａ部分配列を選択するタイプの手順
１６ｂ部分配列に関するバイオ情報を表示するタイプの手順
１６ｃ部分配列にアノテーション情報を付加するタイプの手順
１８要素手順の順序（ＣｏｍｐｏｎｅｎｔＬｉｓｔ）
１８ａ要素手順の順番
１８ｂ要素手順群のネクストアクション
２０部分配列群（ＲｅｇｉｏｎＬｉｓｔ）
２２ＣｕｒｒｅｎｔＣｏｍｐｏｎｅｎｔ
２４ＣｕｒｒｅｎｔＲｅｇｉｏｎ
２６アノテーションシステム共用ライブラリ
２００バイオ情報データベース（既知ＤＢ）

Claims

ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、
アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、
前記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、
前記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する前記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程と
を有することを特徴とするアノテーション方法。
ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーションシステムにおいて、
アノテーション作業の種類に応じた処理を行うためにそれぞれ構築されたアノテーション情報付加処理手段と、
前記アノテーション情報付加処理手段にそれぞれ対応して、前記アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択手段と、
前記アノテーション情報付加処理手段がそれぞれ共有する情報を共通に管理する共有情報管理手段と
を有することを特徴とするアノテーションシステム。
請求項１に記載のアノテーション方法をコンピューターに実行させるためのプログラム。
請求項２に記載のデータのアノテーションシステムとしてコンピューターを機能させるためのプログラム。
請求項３または４のいずれか１項に記載のプログラムを記録したコンピューター読み取り可能な記録媒体。