JP2006252541A - アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体 - Google Patents

アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2006252541A
JP2006252541A JP2006034448A JP2006034448A JP2006252541A JP 2006252541 A JP2006252541 A JP 2006252541A JP 2006034448 A JP2006034448 A JP 2006034448A JP 2006034448 A JP2006034448 A JP 2006034448A JP 2006252541 A JP2006252541 A JP 2006252541A
Authority
JP
Japan
Prior art keywords
annotation
information
partial sequence
work
annotation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006034448A
Other languages
English (en)
Inventor
Akinobu Fukuzaki
昭伸 福崎
Fumikazu Konishi
史一 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2006034448A priority Critical patent/JP2006252541A/ja
Publication of JP2006252541A publication Critical patent/JP2006252541A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】アノテーション作業を効率よく行うことができるようにした極めて有用な手法を提供する。
【解決手段】ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにした。
【選択図】 図2

Description

本発明は、アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関し、さらに詳細には、ゲノム情報に基づいた各種の研究に必須なゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関する。
従来より、ゲノム研究の分野においてはアノテーションシステムが導入されているが、一般にゲノム研究の分野において従来より知られたアノテーションシステムとは、遺伝子を表現するDNA配列上に、タンパク質の合成や翻訳機能などの生物の構造や生命活動に関係する部分の配列(以下、単に「部分配列」と適宜に称する。)を指定して、具体的な機能をあらわす名称や、合成されるタンパク質の性質、関連する酵素あるいは関連する代謝系などのバイオ研究にかかわる様々な付加情報(以下、単に「付加情報」と適宜に称する。)をアノテーション情報としてシステムに付加的に書き込んで蓄積をはかり、アノテーション情報をゲノムに関するより高度な知見を得るために活用することができるようにするというシステムである。
ここで、アノテーションシステムは、一般的には、DNA配列上から各部分配列を選択するインターフェースと、指定された部分配列に付されたバイオ情報を閲覧するインターフェースと、その部分配列に対する上記したような付加情報たるアノテーション情報を入力するインターフェースとを有して構成されている。

次に、上記した従来のアノテーションシステムを用いたアノテーション作業について説明すると、一般的に、アノテーション作業には2つのフェーズが設けられている。以下、これら2つのフェーズについて説明する。
まず、1つめのフェーズは、対象となる部分配列群を既知のバイオ情報DB(データベース)と照らし合わせて同一のもの、あるいは類似しているものを選び出し、その情報を部分配列のバイオ情報としてアノテーションする自動アノテーションである。この自動アノテーションにおいては、2つめのフェーズで用いるアノテーションシステムは用いられることはない。
なお、この自動アノテーションには、通常、既知の知見より得られたアルゴリズムに基づいて部分配列の位置を予測したり、部分配列の属性を予測したりするアノテーションも含まれている。
次に、2つめのフェーズは、上記した1つめのフェーズたる自動アノテーションで得られたバイオ情報をアノテーションシステムに投入し、研究者が1つ1つの部分配列への付加情報をアノテーション情報としてアノテーションを行う手動アノテーションである。
つまり、従来のアノテーション作業においては、上記した1つめのフェーズで得られたバイオ情報を、アノテーションシステムにより2つめのフェーズで運用するというスタイルをとっていることが多い。

ここで、図1には、上記した従来のアノテーションシステムを用いたアノテーション作業の処理の一例を示すフローチャートが示されており、以下、この図1を参照しながら、従来のアノテーションシステムを用いたアノテーション作業の処理を詳細に説明する。
この図1に示すフローチャートにおいては、端子Aより前段に位置するステップS102乃至ステップS112が自動アノテーションによるアノテーション作業の処理フローを示し、端子Aより後段に位置するステップS114乃至ステップS122が手動アノテーションによるアノテーション作業の処理フローを示している。
ステップS102乃至ステップS112の自動アノテーションの処理フローにおいては、ユーザーによる手入力のプロセスは無く、コンピューターシステムを用いて自動的に実行される。
即ち、DNAの部分配列群がアノテーションシステムに与えられると(ステップS102)、与えられたDNAの部分配列群を一つずつ順番に重複しないように取り出す(ステップS104)。
次に、ステップS104でDNAの部分配列群を取り出せたか否かの判断処理を行い(ステップS106)、ステップS106の判断処理においてステップS104でDNAの部分配列群を取り出せたと判断された場合には、既知のバイオ情報データベース(既知DB)200を用いてホモロジー検索を行う(ステップS108)。
そして、ステップS108のホモロジー検索の結果からホモロジーが有った否かの判断処理を行い(ステップS110)、ステップS110の判断処理においてホモロジーが有ったと判断された場合には、その情報を既知情報としてバイオ情報データベース200に登録してから(ステップS112)、ステップS104の処理へ戻る。一方、ステップS110の判断処理においてホモロジーが有ったとは判断されなかった場合には、そのままステップS104の処理へ戻る。
そして、上記したステップS104乃至ステップS112の処理を繰り返し、ステップS102で与えられた全てのDNAの部分配列群に対してステップS104乃至ステップS112の処理を終了すると、ステップS106の判断処理においてステップS102でDNAの部分配列群の取り出しが終了したと判断され、自動アノテーションによるアノテーション作業の処理を終了して端子Aに至る。

次に、端子Aより後段に位置するステップS114乃至ステップS122の手動アノテーションによるアノテーション作業の処理を行うことになるが、この手動アノテーションにおいては、DNA配列(ゲノム配列)上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列群を表示させる部分配列選択画面でユーザーに部分配列を選択させ、バイオ情報とアノテーション情報とがともに表示される画面(バイオ情報表示アノテーション入力画面)でアノテーション情報を入力させるものである。
より詳細には、DNA配列(ゲノム配列)上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列群を表示させる部分配列選択画面を表示し(ステップS114)、この部分配列選択画面上においてユーザーに部分配列を選択させる(ステップS116)。
次に、バイオ情報表示アノテーション入力画面を表示させて(ステップS118)、ステップS116で選択した部分配列に関するアノテーション情報を入力する(ステップS120)。
そして、ステップS120で入力したアノテーション情報をアノテーション情報データベースに登録してから(ステップS122)、ステップS114の処理へ戻り、自動アノテーションにより処理された各部分配列に対してステップS114乃至ステップS122の処理を繰り返し行う。
即ち、従来のアノテーションシステムにおいては、バイオ情報とアノテーション情報とが統合して表示されるビューワー(バイオ情報表示アノテーション入力画面)上において、バイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であった。

しかしながら、上記した従来のアノテーションシステムにおいては、以下に述べるような種々の問題点が指摘されていた。
即ち、実際のゲノム研究者によるアノテーションでは、大量の部分配列を多人数で分担するうえ、既知のバイオ情報データベースは頻繁に更新され、また、実験データが次々と生成され、かつ、アノテーションしなくてはならない情報が多様なため、以下の問題点1〜5が発生していた。
問題点1:一つ一つ部分配列を選択し、一般的なインターフェースでアノテーションをしていると、アノテーション本来の作業手順を一般的なインターフェース上での操作に変換しながら進めるため、作業効率がよくない。
問題点2:部分配列の担当を決めて複数の研究者が分担してアノテーションする場合に、その部分配列と担当者とのセットを別途管理して、部分配列と担当者とのセットを参照しながら部分配列の選択やアノテーションを行うため、作業効率がよくないとともにミスも生じやすくなる。
問題点3:様々な情報のアノテーションに対応するため、表示される情報が多くなりユーザーに負担がかかる。
問題点4:既知のバイオ情報データベースに変更があった場合に、過去に実行したアノテーションの手順をユーザー自身が思い出しながら一つ一つ再現しなければならず効率がよくない。
問題点5:アノテーション作業の意図をインターフェース上の手続きに変換するのは、個々のユーザーにまかされているため、アノテーションの基準が不安定になりやすく、また、基準の管理がし難い。

上記した問題点1〜5を鑑みて、さらにプロジェクトレベルでアノテーション作業を検討すると、以下のような問題点6〜7が顕在化する。
問題点6:対象生物が広がり、同じ生物でも異なる株が増えるなど、アノテーションしなくてはならない部分配列の数は増大するばかりであるが、応用分野で必要とされるバイオ情報も詳細さが求められており、アノテーション作業の負担は高まる一方であるのに、作業効率がよくなくてはそもそも情報の構築作業が全体の研究に対して間に合わない。
問題点7:アノテーション作業に最適化されていない冗長性のあるアノテーションシステムを通してアノテーションをおこなうと、アノテーションの精度や方向性、記述にばらつきが発生し、全体のアノテーションの品質が低下してしまい使いものにならなくなる。
Inferring higher functional information for RIKEN mouse full−length cDNA clones with FACTS. Nagashima,T., Silva,D., Socha,L., PetrovskyN., Suzuki,H., Saito,R., Kasukawa,T., Kurochkin,IV., Konagaya,A., and Schonbach,C. Genome Res. 13(6b)pp.1520−1533, 2003 Genome Gamber 株式会社ザナジェン http://www.xanagen.com/ Dawn Cotter, Purnima Guda, Eoin Fahy, and Shankar Subramaniam MitoProteome: mitochondrial protein sequence database and annotation system Nucl.Acid.Res.2004 32:D463−D467 Chunya Liu, Tom I.Bonner, Tu Nguyen, Jennifer L.Lyons, Susan L.Christian, and Elliot S.Gershon DNannotator: annotation software tool kit for regional genomic sequences Nucl.Acid.Res.2003 31:3729−3735 Agnes Hotz−Wagenblatt, Thomas Hankeln, Peter Ernst, Karl−Heinz Glatting, Erwin R.Schmidt, and Sandor Suhai ESTAnnotator: a tool for high throughtput EST annotation Nucl.Acid.Res.2003 31:3716−3719
本発明は、従来の技術に対する上記したような種々の問題点ならびに要望に鑑みてなされたものであり、その目的とするところは、従来のアノテーションシステムでは統合されたビューワー上で豊富なバイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であったのに対して、本発明では実際に行われているアノテーション作業の多様性と求められている作業効率の高さに注目し、研究者たちが実際に行うアノテーション作業に適したアノテーションシステムを提供するために新しいアノテーションシステムの構成と手続きを開発したものであり、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供しようとするものである。
上記目的を達成するために、本発明のうち請求項1に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにしたものである。
また、本発明のうち請求項2に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーションシステムにおいて、アノテーション作業の種類に応じた処理を行うためにそれぞれ構築されたアノテーション情報付加処理手段と、上記アノテーション情報付加処理手段にそれぞれ対応して、上記アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択手段と、上記アノテーション情報付加処理手段がそれぞれ共有する情報を共通に管理する共有情報管理手段とを有するようにしたものである。
従って、本発明のうち請求項1または2に記載の発明によれば、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理手段を用いて、アノテーション情報を付加する対象として選択された部分配列毎に所望のアノテーション作業によりアノテーション情報を付加すること処理を行うことができるようになるため、当該選択された部分配列に対して効率よくアノテーション作業を行うことができるようになる。
また、本発明のうち請求項3に記載の発明は、本発明のうち請求項1に記載の発明をコンピューターに実行させるためのプログラム。
また、本発明のうち請求項4に記載の発明は、本発明のうち請求項2に記載の発明としてコンピューターを機能させるためのプログラムである。
また、本発明のうち請求項5に記載の発明は、本発明のうち請求項3または4のいずれか1項に記載のプログラムを記録したコンピューター読み取り可能な記録媒体である。
本発明は、研究者たちが実際に行うアノテーション作業に適していて、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供することができるという優れた効果を奏する。
以下、添付の図面を参照しながら、本発明によるアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体の実施の形態の一例を詳細に説明するものとする。

図2には、本発明の実施の形態の一例によるアノテーションシステムの概念構成説明図が示されている。
この本発明によるアノテーションシステムは、コンピュータータシステムにより構築されており、ワークフロー(Workflow)の考え方を導入して、研究者が行いたいアノテーション作業、即ち、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理システムを構築して、アノテーション情報を付加する対象として選択された部分配列毎に、所望のアノテーション情報付加処理システムを選択的に切り換えて用いるようにしてアノテーション作業を行うことができるようにしたものである。
ここで、このアノテーションシステムにおける個々のアノテーション情報付加処理システム10は、ユーザーにおけるアノテーション作業の作業毎の異なる意図を示す意図情報12のうちの表示すべきアノテーション情報のセット・表示方法(以下、単に「表示アノテーション情報セット・表示方法」と適宜に称する。)12a、入力させるアノテーション情報のセット・表示方法(以下、単に「入力させるアノテーション情報のセット・表示方法」と適宜に称する。)12bおよび所望のアノテーション作業を構成する要素手順(以下、単に「アノテーション作業構成要素手順」と適宜に称する。)12cに基づいて構築されている。なお、図2においては、図示を簡略化するためにアノテーション情報付加処理システム10は一つしか図示していないが、アノテーション情報付加処理システム10は意図情報12に応じて2以上の所望の数だけ設定されるものである。
アノテーション情報付加処理システム10は、より詳細には、意図情報12のうちの表示アノテーション情報セット・表示方法12aおよび入力アノテーション情報セット・表示方法12bに基づいて構築された最適化したインターフェース(以下、単に「最適化インターフェース」と適宜に称する。)14と、意図情報12のうちのアノテーション作業構成要素手順12cに基づいて構築された要素手順(Component:コンポーネント)群16と、意図情報12のうちのアノテーション作業構成要素手順12cに基づいて構築されて要素手順群16を構成する各要素手順の順序を示す要素手順の順序(Component List:コンポーネントリスト)(以下、単に「要素手順順序」と適宜に称する。)18とを有して構成されている。
また、要素手順群16は、要素手順として、最適化インターフェース14によってそれぞれ操作される部分配列を選択するタイプの手順(以下、単に「部分配列選択タイプ手順」と適宜に称する。)16aと、部分配列に関するバイオ情報を表示するタイプの手順(以下、単に「部分配列バイオ情報表示タイプ手順」と適宜に称する。)16bおよび部分配列にアノテーション情報を付加するタイプの手順(以下、単に「部分配列アノテーション情報付加タイプ手順」と適宜に称する。)16cを有して構成されている。即ち、要素手順群16は、部分配列選択タイプ手順16aの要素手順と、部分配列バイオ情報表示タイプ手順16bの要素手順と、部分配列アノテーション情報付加タイプ手順16cの要素手順を備えている。
さらに、このアノテーションシステムでは、意図情報12のうちのアノテーション作業の対象となる部分配列のセット(以下、単に「対象部分配列セット」と適宜に称する。)12dに基づいて、アノテーション情報付加処理システム10によりアノテーション情報を付加する対象となる複数の部分配列(Region)よりなる部分配列群20が設けられている。なお、図2においては、図示を簡略化するために部分配列群20には3つの部分配列しか図示していないが、部分配列群20には意図情報12に応じて多数の部分配列が設定されるものである。
また、このアノテーションシステムにおいては、最適化インターフェース14を用いて選択されて現在処理対象とされている要素手順を示すCurrent Component22が設けられているとともに、最適化インターフェース14を用いて選択されて現在処理対象とされている部分配列を示すCurrent Region24が設けられている。
また、このアノテーションシステムにおいては、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム共有ライブラリ26によりアノテーションシステム全体で共有するようになされている。
換言すれば、本発明によるアノテーションシステムは、一つ一つのアノテーション作業に対応した個別のアノテーションシステムとして最適化されたアノテーション情報付加処理システム10をそれぞれ構築し、こうしてアノテーション作業毎に最適化されて構築されたアノテーション情報付加処理システム10を、アノテーション作業を行う対象である部分配列に対してアノテーション作業毎に選択的に切り換えて使用することができるようにする一方で、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム全体で共有して管理するようにしてなるものである。

ここで、要素手順順序18の詳細について説明すると、図3に示すように、要素手順順序18には、要素手順の順番(以下、単に「要素手順順番」と適宜に称する。)18aと、要素手順群のネクスト(next)アクション(以下、単に「要素手順群ネクストアクション」と適宜に称する。)18bとが設定されている。なお、要素手順群ネクストアクション18bとは、要素手順群中のネクストボタンをユーザーがクリックしたときの処理を規定するものである。

また、要素手順群18を構成する各要素手順は、図4に示すように、サブコンポーネント(SubComponent)群、モデル(Model)層、ビュー(View)層およびコントロール(Control)層を持ち、1つの手順を実現するものである。
即ち、ビュー層が画面に表示されるインターフェースを制御し、モデル層がこの要素手順で処理されるべき一切のデータ処理と取得を制御し、コントロール層がユーザーの入力などによって発生したイベントを処理するものである。
なお、サブコンポーネント群には複数のサブコンポーネントが設定されており、モデル層には要素手順のモデル処理(ComponentのModel処理)およびサブコンポーネント群のモデル処理(SubComponent群のModel処理)が規定され、ビュー層には要素手順のビュー処理(ComponentのView処理)およびサブコンポーネント群のビュー処理(SubComponent群のView処理)が規定され、コントロール層には要素手順のコントロール処理(ComponentのControl処理)およびサブコンポーネント群のコントロール処理(SubComponent群のControl処理)が規定されている。
なお、図5に示すように、サブコンポーネントも要素手順(コンポーネント)と同様な構成を備えており、モデル(Model)層、ビュー(View)層およびコントロール(Control)層を持ち、モデル層にはサブコンポーネントのモデル処理(SubComponentのModel処理)が規定され、ビュー層にはサブコンポーネントのビュー処理(SubComponentのView処理)が規定され、コントロール層にはサブコンポーネントのコントロール処理(SubComponentのControl処理)が規定されている。即ち、サブコンポーネントも、モデル層、ビュー層およびコントロール層を持ち、それぞれを制御するようになっている。
また、要素手順のコントロール層にはネクストボタンが含まれており、アノテーションシステムの要素手順順序18で規定されているネクストアクションを実行するようになっている。ネクストアクションの種類としては、Current RegionをRegion Listの先頭にする処理と、Current RegionをRegion Listの次にする処理と、次のComponentへ移動する処理と、Region Listの最後まで現在処理中のComponentでループする処理と、Region Listの最後まで設定のComponentでループする処理とが規定されている。
このネクストアクションの動作によって、それぞれの手順が一連の手順としてつながり、効率的なアノテーション作業を実現することができる。

以上の構成において、上記した本発明によるアノテーションシステムにおいては、図7に示すように、意図情報12に基づいてアノテーション情報付加処理システム10を構築するとともに部分配列群18を設定して、アノテーション作業を行うことになる。
即ち、所望のアノテーション作業を行うための要素手順群16を選択し、部分配列選択タイプ手順16aにより、部分配列群18からアノテーション作業を行う対象の部分配列を選択する。
次に、部分配列バイオ情報表示タイプ手順16bにより、選択した部分配列に関するバイオ情報を取得して最適化インターフェース14に表示する。
それから、ユーザーは、最適化インターフェース14に表示されたバイオ情報を参照しながら、最適化インターフェース14を用いて部分配列アノテーション情報付加タイプ手順16cにより選択した部分配列に関するアノテーション情報を入力し、選択した部分配列に対するアノテーション情報を更新する。
こうして更新されたアノテーション情報は、アノテーション情報データベース(図示せず。)に登録されて、その後の利用にふされることになる。
従って、この本発明によるアノテーションシステムによれば、研究者たちが実際に行うアノテーション作業に適したアノテーション情報付加処理システム10を構築することができ、アノテーション作業を効率よく行うことができるようになる。
より詳細には、ユーザーによるアノテーション作業は、最適化インターフェース14を介して行われ、ワークフロー呼び出しの処理と要素手順間のループ(Component間のループ)の処理とにより構成されている。
そして、ワークフロー呼び出しの処理においては、アノテーション作業の選択処理と、Region Listの初期化処理と、Current Componentの初期化処理と、Current Regionの初期化処理とが行われる。
また、要素手順間のループの処理においては、Component List、Current Componentを参照し、該当するComponentを取得する処理が行われる。
モデル層によりデータを取得して、ビュー層によりComponentを表示する処理とSubComponent群を表示する処理とが行われる。
また、コントロール層によりイベント処理が行われて、当該イベント処理に応じてモデル層によりデータ処理が行われる。具体的には、一般的なイベント処理としてネクストボタンクリックの処理が行われると、Component Listからネクストアクションを実行する。また、部分配列選択時イベント処理としてRegion Listに追加するイベントがあると、Region Listへの追加が行われ、また、部分配列選択時イベント処理としてRegion Listから削除するイベントがあると、Region Listからの削除が行われる。さらに、アノテーション時イベントとしてアノテーション情報更新イベントがあると、アノテーション情報の更新が行われる。

ここで、従来のアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図8のフローチャートに示し、また、ワークフローを導入した本発明によるアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図9のフローチャートに示して、両者を比較検討すると、図8に示す従来のアノテーションシステムを用いた手動アノテーション作業では、作業の様々な箇所で効率を悪くさせる無駄や品質を低下させるミスを誘発させる要素が含まれている。
一方、図9に示す本発明によるアノテーションシステムにおいては、ワークフローによってアノテーション作業ごとに最適化したアノテーション情報付加処理システムを構築することで、アノテーション作業の効率と品質とを高く維持することができる。

[技術分野]
本発明は、アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関し、さらに詳細には、ゲノム情報に基づいた各種の研究に必須なゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体に関する。
[背景技術]
従来より、ゲノム研究の分野においては、遺伝子を表現するDNA配列上に、タンパク質の合成や翻訳機能などの生物の構造や生命活動に関係する部分の配列(以下、単に「部分配列」と適宜に称する。)を指定して、具体的な機能をあらわす名称や、合成されるタンパク質の性質、関連する酵素あるいは関連する代謝系などのバイオ研究にかかわる様々な情報(以下、単に「バイオ情報」と適宜に称する。)を部分配列に対応させてデータベース化するアノテーションシステムが導入されている。部分配列とバイオ情報とを対応させた情報であるアノテーション情報の蓄積をはかり、アノテーション情報をゲノムに関するより高度な知見を得るために活用する。
ここで、アノテーションシステムは、一般的には、DNA配列上から各部分配列を選択するインターフェースと、指定された部分配列に付されたバイオ情報を閲覧するインターフェースと、その部分配列に対応させたバイオ情報をアノテーション情報として入力するインターフェースとにより構成されている。

次に、上記した従来のアノテーションシステムを用いたアノテーション作業について説明すると、一般的に、アノテーション作業には2つのフェーズが設けられている。以下、これら2つのフェーズについて説明する。
まず、1つめのフェーズは、対象となる部分配列を既知のバイオ情報DB(データベース)と照らし合わせて同一のもの、あるいは類似しているものを選び出し、その情報を当該部分配列のバイオ情報としてアノテーションする自動アノテーションである。この自動アノテーションにおいては、2つめのフェーズで用いるアノテーションシステムは用いられることはない。
なお、この自動アノテーションには、通常、既知の知見より得られたアルゴリズムに基づいて部分配列の位置を予測したり、部分配列の属性を予測したりするアノテーションも含まれている。
次に、2つめのフェーズは、上記した1つめのフェーズたる自動アノテーションで得られたバイオ情報をアノテーションシステムに投入し、それぞれの部分配列に対して使用者がバイオ情報入力して、アノテーション情報を更新する手動アノテーションである。
つまり、従来のアノテーション作業においては、上記した1つめのフェーズで得られたバイオ情報が、アノテーションシステムにより2つめのフェーズで運用されるというスタイルをとっていることが多い。

ここで、図1には、上記した従来のアノテーションシステムを用いたアノテーション作業の処理の一例を示すフローチャートが示されており、以下、この図1を参照しながら、従来のアノテーションシステムを用いたアノテーション作業の処理を詳細に説明する。
この図1に示すフローチャートにおいては、端子Aより前段に位置するステップS102乃至ステップS112が自動アノテーションによるアノテーション作業の処理フローを示し、端子Aより後段に位置するステップS114乃至ステップS122が手動アノテーションによるアノテーション作業の処理フローを示している。
ステップS102乃至ステップS112の自動アノテーションの処理フローにおいては、使用者による手入力のプロセスは無く、コンピューターシステムを用いて自動的に実行される。
ある生物種についてのゲノムの配列を解読すると、解読したゲノムの配列上に遺伝子の候補を見いだすことができる。このそれぞれの遺伝子の候補に対応する配列を部分配列とし、この部分配列の集合をDNAの部分配列群とする。そして、このDNAの部分配列群をアノテーションシステムに与える(ステップS102)。
次に、与えられたDNAの部分配列群から部分配列を一つずつ順番にに取り出す(ステップS104)。
次に、ステップS104でDNAの部分配列群を構成するそれぞれの部分配列を取り出せたか否かの判断処理を行う(ステップS106)。例えば、ステップS104において部分配列を取り出した後、次に取り出す部分配列が存在するか否かを確認し、次に取り出す部分配列が存在しない場合には、DNAの部分配列群からすべての部分配列を取り出したと判断し、次に取り出す部分配列が存在する場合には、DNAの部分配列群からすべての部分配列を取り出せていないと判断する。ステップS106の判断処理においてステップS104でDNAの部分配列群を構成するそれぞれの部分配列を取り出せたと判断された場合には、既知のバイオ情報データベース(既知DB)200を用いてホモロジー検索を行う(ステップS108)。
そして、ステップS108のホモロジー検索の結果からホモロジーが有ったか否かの判断処理を行い(ステップS110)、ステップS110の判断処理においてホモロジーが有ったと判断された場合には、その情報を既知情報としてバイオ情報データベース200に登録してから(ステップS112)、ステップS104の処理へ戻る。一方、ステップS110の判断処理においてホモロジーが有ったとは判断されなかった場合には、そのままステップS104の処理へ戻る。
そして、上記したステップS104乃至ステップS112の処理を繰り返し、ステップS102で与えられたDNAの部分配列群を構成するすべての部分配列に対してステップS104乃至ステップS112の処理を終了すると、ステップS106の判断処理においてステップS102でDNAの部分配列群を構成するすべての部分配列の取り出しが終了したと判断され、自動アノテーションによるアノテーション作業の処理を終了して端子Aに至る。

次に、端子Aより後段に位置するステップS114乃至ステップS122の手動アノテーションによるアノテーション作業の処理を行う。この手動アノテーションにおいては、部分配列選択画面や群バイオ情報とアノテーション情報とがともに表示される画面(バイオ情報表示アノテーション入力画面)によりアノテーション情報を入力させるものである。
なお、部分配列選択画面は、DNA配列(ゲノム配列)上でマップされた部分配列と、キーワードサーチなどで候補となる部分配列とのうち少なくとも一つを表示することができる。使用者は入力装置からDNA配列(ゲノム配列)上でマップされた部分配列またはキーワードサーチなどで候補となる部分配列、もしくはDNA配列(ゲノム配列)上でマップされた部分配列およびキーワードサーチなどで候補となる部分配列とを部分配列選択画面に表示することを選択することができる。
より詳細には、DNA配列(ゲノム配列)上に部分配列がマップされ表示されている部分配列選択画面やキーワードサーチなどで候補となる部分配列を表示させる部分配列選択画面を表示し(ステップS114)、この部分配列選択画面上において使用者に部分配列を選択させる(ステップS116)。
次に、バイオ情報表示アノテーション入力画面を表示させて(ステップS118)、ステップS116で選択した部分配列に関するバイオ情報をアノテーション情報として入力する(ステップS120)。
そして、ステップS120で入力したアノテーション情報をアノテーション情報データベースに登録してから(ステップS122)、ステップS114の処理へ戻り、自動アノテーションにより処理された各部分配列に対してステップS114乃至ステップS122の処理を繰り返し行う。
即ち、従来のアノテーションシステムにおいては、バイオ情報とアノテーション情報とが統合して表示されるビューワー(バイオ情報表示アノテーション入力画面)上において、バイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であった。

しかしながら、上記した従来のアノテーションシステムにおいては、以下に述べるような種々の問題点が指摘されていた。
即ち、実際のゲノム研究者によるアノテーションでは、大量の部分配列を多人数で分担するうえ、既知のバイオ情報データベースは頻繁に更新され、また、実験データが次々と生成され、かつ、アノテーションしなくてはならない情報が多様なため、以下の問題点1〜5が発生していた。
問題点1:一つ一つ部分配列を選択し、一般的なインターフェースでアノテーションをしていると、アノテーション本来の作業手順を一般的なインターフェース上での操作に変換しながら進めるため、作業効率がよくない。
問題点2:部分配列の担当を決めて複数の研究者が分担してアノテーションする場合に、その部分配列と担当者とのセットを別途管理して、部分配列と担当者とのセットを参照しながら部分配列の選択やアノテーションを行うため、作業効率がよくないとともにミスも生じやすくなる。
問題点3:様々な情報のアノテーションに対応するため、表示される情報が多くなり使用者に負担がかかる。
問題点4:既知のバイオ情報データベースに変更があった場合に、過去に実行したアノテーションの手順を使用者自身が思い出しながら一つ一つ再現しなければならず効率がよくない。
問題点5:アノテーション作業の意図をインターフェース上の手続きに変換するのは、個々の使用者にまかされているため、アノテーションの基準が不安定になりやすく、また、基準の管理がし難い。なお、上記したアノテーション作業の意図とは、どのようなアノテーション作業を行うかを示すものであり、例えば、当該アノテーション作業を管理する管理者の意志を反映するものである。

上記した問題点1〜5を鑑みて、さらにプロジェクトレベルでアノテーション作業を検討すると、以下のような問題点6〜7が顕在化する。
問題点6:対象生物が広がり、同じ生物でも異なる株が増えるなど、アノテーションしなくてはならない部分配列の数は増大するばかりであるが、応用分野で必要とされるバイオ情報も詳細さが求められており、アノテーション作業の負担は高まる一方であるのに、作業効率がよくなくてはそもそも情報の構築作業が全体の研究に対して間に合わない。
問題点7:アノテーション作業に最適化されていない冗長性のあるアノテーションシステムを通してアノテーションをおこなうと、アノテーションの精度や方向性、記述にばらつきが発生し、全体のアノテーションの品質が低下してしまい使いものにならなくなる。
[非特許文献1]
Inferring higher functional information for RIKEN mouse full−length cDNA clones with FACTS. Nagashima,T., Silva,D., Socha,L., PetrovskyN., Suzuki,H., Saito,R., Kasukawa,T., Kurochkin,IV., Konagaya,A., and Schonbach,C. Genome Res. 13(6b)pp.1520−1533, 2003
[非特許文献2]
Genome Gamber 株式会社ザナジェン http://www.xanagen.com/
[非特許文献3]
Dawn Cotter, Purnima Guda, Eoin Fahy, and Shankar Subramaniam
MitoProteome: mitochondrial protein sequence database and annotation system
Nucl.Acid.Res.2004 32:D463−D467
[非特許文献4]
Chunya Liu, Tom I.Bonner, Tu Nguyen, Jennifer L.Lyons, Susan L.Christian, and Elliot S.Gershon
DNannotator: annotation software tool kit for regional genomic sequences
Nucl.Acid.Res.2003 31:3729−3735
[非特許文献5]
Agnes Hotz−Wagenblatt, Thomas Hankeln, Peter Ernst, Karl−Heinz Glatting, Erwin R.Schmidt, and Sandor Suhai
ESTAnnotator: a tool for high throughtput EST annotation
Nucl.Acid.Res.2003 31:3716−3719
[発明の開示]
[発明が解決しようとする課題]
本発明は、従来の技術に対する上記したような種々の問題点ならびに要望に鑑みてなされたものであり、その目的とするところは、従来のアノテーションシステムでは統合されたビューワー上で豊富なバイオ情報を提供するとともにアノテーション情報を入力させる方式が一般的であったのに対して、本発明では実際に行われているアノテーション作業の多様性と求められている作業効率の高さに注目し、研究者たちが実際に行うアノテーション作業に適したアノテーションシステムを提供するために新しいアノテーションシステムの構成と手続きを開発したものであり、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供しようとするものである。
[課題を解決するための手段]
上記目的を達成するために、本発明のうち請求項1に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、上記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、上記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する上記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程とを有するようにしたものである。
また、本発明のうち請求項2に記載の発明は、ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーションシステムにおいて、アノテーション作業の種類に応じた処理を行うためにそれぞれ構築されたアノテーション情報付加処理手段と、上記アノテーション情報付加処理手段にそれぞれ対応して、上記アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択手段と、上記アノテーション情報付加処理手段がそれぞれ共有する情報を共通に管理する共有情報管理手段とを有するようにしたものである。
従って、本発明のうち請求項1または2に記載の発明によれば、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理手段を用いて、アノテーション情報を付加する対象として選択された部分配列毎に所望のアノテーション作業によりアノテーション情報を付加すること処理を行うことができるようになるため、当該選択された部分配列に対して効率よくアノテーション作業を行うことができるようになる。
また、本発明のうち請求項3に記載の発明は、本発明のうち請求項1に記載の発明をコンピューターに実行させるためのプログラム。
また、本発明のうち請求項4に記載の発明は、本発明のうち請求項2に記載の発明としてコンピューターを機能させるためのプログラムである。
また、本発明のうち請求項5に記載の発明は、本発明のうち請求項3または4のいずれか1項に記載のプログラムを記録したコンピューター読み取り可能な記録媒体である。
[発明の効果]
本発明は、研究者たちが実際に行うアノテーション作業に適していて、アノテーション作業を効率よく行うことができるようにした極めて有用なアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体を提供することができるという優れた効果を奏する。
[発明を実施するための最良の形態]
以下、添付の図面を参照しながら、本発明によるアノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体の実施の形態の一例を詳細に説明するものとする。

図2には、本発明の実施の形態の一例によるアノテーションシステムの概念構成説明図が示されている。
この本発明によるアノテーションシステムは、例えば、全体の動作を制御するための中央処理装置(CPU)、CPUの動作のためのプログラムなどを格納したり各種のデータを記憶したりする記憶装置、キーボードやマウスなどのポインティングデバイスよりなる入力装置およびCPUの処理結果などを表示する表示装置などを備えたコンピューターシステムにより構築されている。ワークフロー(Workflow)の考え方を導入して、使用者が行いたいアノテーション作業、即ち、所望のアノテーション作業の種類に応じて最適化されたアノテーション情報付加処理システム10を構築して、バイオ情報を付加する対象として選択された部分配列毎に、所望のアノテーション情報付加処理システム10を選択的に切り換えてアノテーション作業を行うことができるようにしたものである。
ここで、このアノテーションシステムにおける個々のアノテーション情報付加処理システム10は、使用者におけるアノテーション作業の作業毎の異なる意図を示す意図情報12に基づいて構築される。アノテーション作業の作業毎の異なる意図とは、アノテーション作業毎にどのようなアノテーションを行うかを示すものであり、例えば、当該アノテーション作業を管理する管理者の意志を反映するものである。従って、意図情報は、例えば、アノテーション作業を管理する管理者などにより決定される。意図情報12には、表示装置に表示すべきアノテーション情報の組(セット)とその表示方法を示す「表示すべきアノテーション情報のセット・表示方法」(以下、単に「表示アノテーション情報セット・表示方法」と適宜に称する。)12a、入力装置を用いて使用者に入力させるアノテーション情報の組(セット)とその表示方法を示す「入力させるアノテーション情報のセット・表示方法」(以下、単に「入力させるアノテーション情報のセット・表示方法」と適宜に称する。)12bおよび所望のアノテーション作業を構成する要素手順(Component:コンポーネント)(以下、単に「アノテーション作業構成要素手順」と適宜に称する。なお、要素手順とは、アノテーション作業の行うために構築すべき処理内容を示すものである。要素手順としては、例えば、「遺伝子名検索処理」や「ホモロジー検索処理」などがある。)12cなどを含むものである。なお、図2においては、図示を簡略化するためにアノテーション情報付加処理システム10は一つしか図示していないが、アノテーション情報付加処理システム10は意図情報12に応じて2以上の所望の数だけ設定されるものである。
アノテーション情報付加処理システム10は、使用者が行いたいとするアノテーション作業の意図たる意図情報12に基づくアノテーション作業を行うためのシステムである。例えば、使用者が核酸やアミノ酸に関連した部分配列に対してアノテーション作業を行いたい場合には、核酸やアミノ酸に関連した部分配列に対して効率よくアノテーション作業を行うことができるようなアノテーション情報付加処理システム10を構築することができる。なお、アノテーション情報付加処理システム10は、意図情報12に合わせて事前に用意されていてもよく、事前に用意されたアノテーション情報付加処理システム10を使用者がアノテーション作業の意図に基づいて選択してもよいし、使用者がアノテーション作業の意図情報12を入力装置から入力することにより、中央処理装置が入力された情報に基づいてアノテーション情報付加処理システム10を構築してもよい。
ここで、意図情報12とは、アノテーション作業毎にどのようなアノテーションを行うかを表すものであり、例えば、「表示すべきアノテーション情報のセット・表示法」12a、「入力されるアノテーション情報のセット・表示方法」12b、「所望のアノテーション作業を構成する要素手順」12cおよび「アノテーション作業の対象となる部分配列のセット」12dとを含むものである。
「表示すべきアノテーション情報のセット・表示方法」12aは、使用者がアノテーション作業のときに表示装置に表示させたいアノテーション情報のセットや表示方法を選択することにより、使用者の意図に沿ったアノテーション情報を使用者の意図に沿った方法により表示装置に表示させるものである。具体的には、使用者が入力装置から表示させたいアノテーション情報のセットや表示方法を入力し、中央処理装置が入力されたアノテーション情報のセットを選択して入力された表示方法にしたがって選択されたアノテーション情報のセットを表示装置に表示させる。
「入力されるアノテーション情報のセット・表示方法」12bは、使用者が入力装置から入力したいアノテーション情報のセットと入力されたアノテーション情報を表示装置に表示させたい方法を選択することにより、使用者の意図に沿ったアノテーション情報のセットを入力し、入力されたアノテーション情報を使用者の意図に沿った方法により表示装置に表示させるものである。具体的には、使用者が入力装置から入力したいアノテーション情報のセットや表示方法を入力し、中央処理装置は使用者が入力するアノテーション情報のセットを入力された表示方法にしたがって表示装置に表示させる。
「所望のアノテーション作業を構成する要素手順」12cは、アノテーション作業を行うための要素手順において、使用者が行いたい要素の内容および順番を選択することにより、使用者の意図に沿った要素の内容および順番によりアノテーション作業を進めることができるようにするものである。例えば、要素の内容には、「遺伝子名検索処理」や「ホモロジー検索処理」などがあり、アノテーション作業の中で使用者が行いたい要素を選択し、使用者が行いたいように要素の順番を指定することができる。
「アノテーション作業の対象となる部分配列のセット」12dは、使用者がアノテーション作業において、バイオ情報を関連づける対象としたい部分配列を選択することにより、使用者の意図に沿った部分配列を選択的に設定するものである。例えば、使用者が核酸またはアミノ酸に関連した部分配列に対してアノテーション作業を行いたい場合には、使用者がその旨を入力装置から入力して、中央処理装置が入力された情報に基づいて核酸またはアミノ酸に関連した部分配列を検索して、検索した部分配列をアノテーション作業の対象とする部分配列として設定する。これにより、使用者はアノテーション作業を行いたい部分配列に対してのみアノテーション作業を行うことができるため、アノテーション作業を行う部分配列とアノテーション作業を行わない部分配列とを選別する必要がなくなり、アノテーション作業の効率を格段と高めることができる。

アノテーション情報付加処理システム10は、より詳細には、意図情報12のうちの表示アノテーション情報セット・表示方法12aおよび入力アノテーション情報セット・表示方法12bに基づいて構築された最適化したインターフェース(以下、単に「最適化インターフェース」と適宜に称する。このインターフェースには、表示装置における入力画面や入力装置などが含まれる。)14と、意図情報12のうちのアノテーション作業構成要素手順12cに基づいて構築された要素手順群16と、意図情報12のうちのアノテーション作業構成要素手順12cに基づいて構築されて要素手順群16を構成する各要素手順の順序、即ち、処理の順番を示す要素手順の順序(Component List:コンポーネントリスト)(以下、単に「要素手順順序」と適宜に称する。)18とを有している。
また、要素手順群16は、要素手順として、最適化インターフェース14によってそれぞれ操作される部分配列を選択するタイプ(このタイプとは、部分配列を選択する際にどのような基準で選択するかを示すものである。)の手順(以下、単に「部分配列選択タイプ手順」と適宜に称する。)16aと、部分配列に関するバイオ情報を表示するタイプ(このタイプとは、バイオ情報を表示する際にどのような形式で表示するかを示すものである。)の手順(以下、単に「部分配列バイオ情報表示タイプ手順」と適宜に称する。)16bおよび部分配列にアノテーション情報を付加するタイプ(このタイプとは、どのようなバイオ情報をアノテーション情報として付加するかを示すものである。)の手順(以下、単に「部分配列アノテーション情報付加タイプ手順」と適宜に称する。)16cを有して構成されている。即ち、要素手順群16は、部分配列選択タイプ手順16aの要素手順と、部分配列バイオ情報表示タイプ手順16bの要素手順と、部分配列アノテーション情報付加タイプ手順16cの要素手順を備えている。
さらに、このアノテーションシステムでは、意図情報12のうちで、アノテーション作業の対象とすべき部分配列の組を示す「アノテーション作業の対象となる部分配列のセット」(以下、単に「対象部分配列セット」と適宜に称する。)12dに基づいて、アノテーション情報付加処理システム10によりアノテーション情報を付加する対象となる複数の部分配列(Region)よりなる部分配列群20が設定される。なお、図2においては、図示を簡略化するために部分配列群20には3つの部分配列しか図示していないが、部分配列群20には意図情報12に応じて多数の部分配列が設定されるものである。

ここで、最適化インターフェース14は、操作を目的としたインターフェースと表示を目的とインターフェースとを一つの画面に表示するものである。これにより、使用者は一つの画面においてアノテーション対象となる部分配列を表示させ、表示された部分配列に対してバイオ情報を入力することができ、アノテーション作業を効率よく行うことができる。
また、Current Component 22は、最適化インターフェース14に表示させる要素手順を決定する。具体的には、それぞれの部分配列に対して要素手順16に含まれる要素手順を要素手順順序18に従って最適化インターフェース14に表示させる。
Current Region 24は、最適化インターフェース14に表示させる部分配列を決定する。具体的には、部分配列群20に設定された部分配列を順番に最適化インターフェース14に表示させる。使用者は最適化インターフェース14に表示された部分配列に対してバイオ情報を入力することになる。

また、このアノテーションシステムにおいては、アノテーションシステム全体で共有することができるデータベース、ユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム共有ライブラリ26によりアノテーションシステム全体で共有するようになされている。
換言すれば、本発明によるアノテーションシステムは、一つ一つのアノテーション作業に対応した個別のアノテーションシステムとして最適化されたアノテーション情報付加処理システム10をそれぞれ構築または選択し、こうしてアノテーション作業毎に最適化されて構築されたアノテーション情報付加処理システム10を、アノテーション作業を行う対象である部分配列に対してアノテーション作業毎に選択的に切り換えて使用することができるようにする一方で、アノテーションシステム全体で共有することができるユーザーアカウント管理、配列情報、バイオ情報あるいは共通のサブルーチンなどは、アノテーションシステム全体で共有して管理するようにしてなるものである。

ここで、要素手順順序18の詳細について説明すると、図3に示すように、要素手順順序18には、要素手順の順番(以下、単に「要素手順順番」と適宜に称する。)18aと、要素手順群のネクスト(next)アクション(以下、単に「要素手順群ネクストアクション」と適宜に称する。)18bとが設定されている。なお、要素手順群ネクストアクション18bとは、要素手順を示す表示装置の画面中において要素手順群中のネクストボタンとして指定された領域を使用者が入力装置のマウスでクリックしたときの処理を規定するものである。

また、要素手順群16を構成する各要素手順は、図4に示すように、サブコンポーネント(SubComponent)群、モデル(Model)層、ビュー(View)層およびコントロール(Control)層を持ち、1つの手順を実現するものである。
即ち、ビュー層が表示装置の画面に表示されるインターフェースを制御し、モデル層がこの要素手順で処理されるべき一切のデータ処理とデータの取得を制御し、コントロール層が使用者による入力装置を用いた指示の入力などによって発生したイベントを処理するものである。
なお、サブコンポーネント群には複数のサブコンポーネントが設定されており、モデル層には要素手順のモデル処理(ComponentのModel処理)およびサブコンポーネント群のモデル処理(SubComponent群のModel処理)が規定され、ビュー層には要素手順のビュー処理(ComponentのView処理)およびサブコンポーネント群のビュー処理(SubComponent群のView処理)が規定され、コントロール層には要素手順のコントロール処理(ComponentのControl処理)およびサブコンポーネント群のコントロール処理(SubComponent群のControl処理)が規定されている。
なお、図5に示すように、サブコンポーネントも要素手順(コンポーネント)と同様な構成を備えており、モデル(Model)層、ビュー(View)層およびコントロール(Control)層を持ち、モデル層にはサブコンポーネントのモデル処理(SubComponentのModel処理)が規定され、ビュー層にはサブコンポーネントのビュー処理(SubComponentのView処理)が規定され、コントロール層にはサブコンポーネントのコントロール処理(SubComponentのControl処理)が規定されている。即ち、サブコンポーネントも、モデル層、ビュー層およびコントロール層を持ち、それぞれを制御するようになっている。
また、要素手順のコントロール層には上記したネクストボタンが含まれており、アノテーションシステムの要素手順順序18で規定されているネクストアクションを実行するようになっている。ネクストアクションの種類としては、Current RegionをRegion Listの先頭にする処理と、Current RegionをRegion Listの次にする処理と、次のComponentへ移動する処理と、Region Listの最後まで現在処理中のComponentでループする処理と、Region Listの最後まで設定のComponentでループする処理とが規定されている。
このネクストアクションの動作によって、それぞれの手順が一連の手順としてつながり、効率的なアノテーション作業を実現することができる。

以上の構成において、上記した本発明によるアノテーションシステムにおいては、図7に示すように、意図情報12に基づいてアノテーション情報付加処理システム10を構築するとともに部分配列群20を設定して、アノテーション作業を行うことになる。
即ち、使用者は入力装置により、意図情報12に基づいて設定された所望のアノテーション作業を行うための要素手順群16を選択するとともに、意図情報12に基づいて設定された部分配列群20から部分配列選択タイプ手順16aによりアノテーション作業を行う対象の部分配列を選択する。
次に、アノテーション情報付加処理システム10は、部分配列バイオ情報表示タイプ手順16bにより、選択した部分配列に関するバイオ情報を取得して最適化インターフェース14に表示する。
それから、使用者は、最適化インターフェース14に表示されたバイオ情報を参照しながら、最適化インターフェース14を用いて部分配列アノテーション情報付加タイプ手順16cにより選択した部分配列に関するバイオ情報を入力し、選択した部分配列に対するアノテーション情報を更新する。
こうして更新されたアノテーション情報は、アノテーション情報データベース(図示せず。)に登録されて、その後の利用に付されることになる。
従って、この本発明によるアノテーションシステムによれば、使用者たちが実際に行うアノテーション作業に適したアノテーション情報付加処理システム10を構築することができ、アノテーション作業を効率よく行うことができるようになる。
より詳細には、使用者によるアノテーション作業は、最適化インターフェース14を介して行われ、ワークフロー呼び出しの処理と要素手順間のループ(Component間のループ)の処理とにより構成されている。
そして、ワークフロー呼び出しの処理においては、アノテーション作業の選択処理と、Region Listの初期化処理と、Current Componentの初期化処理と、Current Regionの初期化処理とが行われる。
また、要素手順間のループの処理においては、Component List、Current Componentを参照し、該当するComponentを取得する処理が行われる。
モデル層によりデータを取得して、ビュー層によりComponentを表示する処理とSubComponent群を表示する処理とが行われる。
また、コントロール層によりイベント処理が行われて、当該イベント処理に応じてモデル層によりデータ処理が行われる。具体的には、一般的なイベント処理としてネクストボタンクリックの処理が行われると、Component Listからネクストアクションを実行する。また、部分配列選択時イベント処理としてRegion Listに追加するイベントがあると、Region Listへの追加が行われ、また、部分配列選択時イベント処理としてRegion Listから削除するイベントがあると、Region Listからの削除が行われる。さらに、アノテーション時イベントとしてアノテーション情報更新イベントがあると、アノテーション情報の更新が行われる。

ここで、従来のアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図8のフローチャートに示し、また、ワークフローを導入した本発明によるアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を図9のフローチャートに示して、両者を比較検討すると、図8に示す従来のアノテーションシステムを用いた手動アノテーション作業では、作業の様々な箇所で効率を悪くさせる無駄や品質を低下させるミスを誘発させる要素が含まれている。
一方、図9に示す本発明によるアノテーションシステムにおいては、ワークフローによってアノテーション作業ごとに最適化したアノテーション情報付加処理システムを構築することで、アノテーション作業の効率と品質とを高く維持することができる。
次に、図10乃至図17を参照しながら、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を説明する。
なお、以下の動作例においては、Thermus Thermophilus HB8のゲノム配列から予測されたORFを対象にアノテーションを行う場合を示してる。
まず、このアノテーション作業のプロジェクトを管理する管理者(プロジェクトのリーダー等)の意図を示す意図情報12に基づいて、アノテーション情報のフォーマットやそれを判別するために必要な情報の準備がおこなわれて、ワークフローとしてアノテーション情報付加処理システム10が構築され、または、使用者が意図情報12に基づいて事前に用意されたアノテーション情報付加処理システム10を選択する。
実際のアノテーション作業を行う使用者(プロジェクトに参加している研究員等であり、管理者の指示を受けて実際のアノテーション作業を行う者である。)は、意図情報12に基づき最適化インターフェース14として設定された表示装置のメニュー画面(図10参照)において、これから実行するアノテーションで必要とされるアノテーション情報付加処理システム10を選択して実行する。この図10に示すメニュー画面の例においては、6つのアノテーション情報付加処理システム10、即ち、Function name annotation workflow(符号a参照)、GO Term annotation workflow(符号b参照)、PDB annotation workflow(符号c参照)、TTid annotation workflow(符号d参照)、gene name annotation workflow(符号e参照)およびEC number annotation workflow(符号f参照)が、アノテーション作業の意図としての意図情報12に基づきアノテーション情報付加処理システム10として設定されている。
この動作例においては、実際のアノテーションを任せられた使用者は、メニュー画面(図10参照)上において、適切なアノテーションを行うためにこれからアノテーション情報として付加するバイオ情報(この動作例においては、gene名である。)用に用意されたgene name annotation workflow(符号e参照)を入力装置によりクリックして作業を開始する。
上記したgene name annotation workflowは、これからアノテーション作業を行う対象であるORFを選択するところからはじまる。この動作例では、ATP bindに関連するORFの遺伝子名アノテーションを行うものとする。
この動作例においては、RevHomologサーチではBLASTでサーチされた結果のエントリーに対して検索を行い対象となるORFを選別することができる。キーワードにATP bindと入力し、percent identityを80%以上、Scoreを20以上と設定してSearchを入力装置によりクリックする(図11参照)。 そうすると、27件の結果がでたので、これらのなかからアノテーション作業の対象に含めるORFを選択する。なお、ひとつひとつ選ぶのが面倒なときは、add all regionsを入力装置によりクリックすることで全てのORFを対象にすることができる。この動作例においてはadd all regionsをクリックした場合を示すものであるが、27件中には重複したORFが検出されているので、実際には15個のORFが選択されることになり、このORFの選択が部分配列群20の設定に該当する(図12参照)。
次に、ネクストボタン(符号g参照)を入力装置によりクリックすると、アノテーション作業が開始される。なお、アノテーション定法付加処理システム10全体を通して、次のステップに進むためには、各画面に表示されているネクストボタンをクリックすればよい。
要素手順順序18が管理者の意図を示す意図情報12に基づいて設定されているため、使用者はその順序を意識すること無く作業を進めることができる。この動作例では、まず、gene名を付加するためにBLASTの結果を参照することになる。Homologs(符号h参照)というタブを入力装置によりクリックすると、機械的に事前に処理されたホモログ検索結果を閲覧することができる(図13参照)。なお、このアノテーションシステムにおいては、管理者による意図として事前に準備された情報が格納されているものとする。
上記のようにして、使用者は、自身の判定方法に基づいて表示させる情報を選別することにより、自分自身の意図をアノテーション付加処理システム10に与えることができる。
ここで、この動作例においては、部分配列群20における3つ目のORFで、gene名が付加されている非常に近い種のタンパク質配列に高いホモロジーを見つけることができたものとする。私用車は、図14に示す画面中のホモロジー結果の部分を入力装置でクリックすると、アライメントの詳細や該当エントリーの内容を確認することができ、その確認の結果、pilFというgene名が妥当と判断したものとする。
使用者が、gene名を入力してaddボタン(符号i参照)をクリックすると、新しいアノテーションを登録することができる。なお、一つのORFに複数のgene名を入れることも可能であるが、gene名という情報のフォーマットは管理者の意図によって決められている。使用者はそのフォーマットに従って入力するように最適化インターフェース14ができあがっているため、間違った形式での入力を防ぐことができるとともに、効率的に作業に取り組むことができる(図14参照)。
そして、必要なアノテーションが済んだ場合にはネクストボタン(符号j)を入力装置によりクリックして、次の画面へ進めばよい。
ここで、部分配列群20の全てのORFへのアノテーション作業が完了すると、最後にレポート画面(図15参照)になる。このレポート画面においては、今回の作業で実行されたアノテーションを一覧表形式で確認することができる。
一方、管理者が用意した別の意図を示す意図情報12基づくPDB annotation workflow(符号c参照)を実行した場合には、図16に示す画面上に表示されているように、PDBエントリーの特性に合わせたアノテーション情報入力画面が表示される。この図16に示す画面例では、1CSPというタンパク名が登録されている。
上記のようにして使用者によって入力されたアノテーション情報は、リアルタイムにアノテーション共有ライブラリ26のデータベースに反映され、アノテーションシステムのメニュー画面(図10参照)からアクセスすることのできるORF/Genome view画面(図17参照)によって確認することができる。この図17に示す画面では、上記したPDBエントリーが追加されたORFのアノテーションヒストリーが表示されており、いつだれがアノテーションしたのかが確認できるようになされている。
本発明は、ゲノム研究の分野において利用することができるものである。
図1は、従来のアノテーションシステムを用いたアノテーション作業の処理の一例を示すフローチャートである。 図2は、本発明の実施の形態の一例によるアノテーションシステムの概念構成説明図である。 図3は、要素手順の順序(Component List)の詳細を示す説明図である。 図4は、要素手順(Component)の詳細を示す説明図である。 図5は、サブコンポーネント(SubComponent)の詳細を示す説明図である。 図6は、ネクストアクションの種類のの詳細を示す説明図である。 図7は、本発明によるアノテーションシステムにおけるアノテーション作業の処理内容を示す説明図である。 図8は、従来のアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を示すフローチャートである。 図9は、ワークフローを導入した本発明によるアノテーションシステムを使用した場合の手動アノテーション作業の処理手順を示すフローチャートである。 図10は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図11は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図12は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図13は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図14は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図15は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図16は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。 図17は、本発明によるアノテーションシステムにおけるアノテーション作業の動作例を示す表示装置の画面表示例である。
符号の説明
10 アノテーション情報付加処理システム
12 意図情報
12a 表示すべきアノテーション情報のセット・表示方法
12b 入力させるアノテーション情報のセット・表示方法
12c 所望のアノテーション作業を構成する要素手順
12d アノテーション作業の対象となる部分配列のセット
14 最適化したインターフェース
16 要素手順(Component:コンポーネント)群
16a 部分配列を選択するタイプの手順
16b 部分配列に関するバイオ情報を表示するタイプの手順
16c 部分配列にアノテーション情報を付加するタイプの手順
18 要素手順の順序(Component List)
18a 要素手順の順番
18b 要素手順群のネクストアクション
20 部分配列群(Region List)
22 Current Component
24 Current Region
26 アノテーションシステム共用ライブラリ
200 バイオ情報データベース(既知DB)

Claims (5)

  1. ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーション方法において、
    アノテーション作業の種類に応じた処理を行うためのアノテーション情報付加処理手段をそれぞれ構築するアノテーション情報付加処理手段構築工程と、
    前記アノテーション情報付加処理手段構築工程により構築されたアノテーション情報付加処理手段にそれぞれ対応して、該アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択工程と、
    前記部分配列選択工程により選択された部分配列毎に、該部分配列と対応する前記アノテーション情報付加処理手段により該部分配列毎にアノテーション情報を付加するアノテーション情報付加工程と
    を有することを特徴とするアノテーション方法。
  2. ゲノム配列に対するアノテーション情報の構築を支援するためのアノテーションシステムにおいて、
    アノテーション作業の種類に応じた処理を行うためにそれぞれ構築されたアノテーション情報付加処理手段と、
    前記アノテーション情報付加処理手段にそれぞれ対応して、前記アノテーション情報付加処理手段によりアノテーション情報を付加する対象となる部分配列を選択する部分配列選択手段と、
    前記アノテーション情報付加処理手段がそれぞれ共有する情報を共通に管理する共有情報管理手段と
    を有することを特徴とするアノテーションシステム。
  3. 請求項1に記載のアノテーション方法をコンピューターに実行させるためのプログラム。
  4. 請求項2に記載のデータのアノテーションシステムとしてコンピューターを機能させるためのプログラム。
  5. 請求項3または4のいずれか1項に記載のプログラムを記録したコンピューター読み取り可能な記録媒体。
JP2006034448A 2005-02-10 2006-02-10 アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体 Pending JP2006252541A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006034448A JP2006252541A (ja) 2005-02-10 2006-02-10 アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005034776 2005-02-10
JP2006034448A JP2006252541A (ja) 2005-02-10 2006-02-10 アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2006252541A true JP2006252541A (ja) 2006-09-21

Family

ID=37092902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006034448A Pending JP2006252541A (ja) 2005-02-10 2006-02-10 アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2006252541A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012094149A (ja) * 2010-10-28 2012-05-17 Samsung Sds Co Ltd 協業基盤の塩基配列データの管理、表示およびアップデート方法
JP2015509623A (ja) * 2012-02-08 2015-03-30 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ分析
US11062800B2 (en) 2018-11-09 2021-07-13 Lunit Inc. Method for managing annotation job, apparatus and system supporting the same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012094149A (ja) * 2010-10-28 2012-05-17 Samsung Sds Co Ltd 協業基盤の塩基配列データの管理、表示およびアップデート方法
JP2015509623A (ja) * 2012-02-08 2015-03-30 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ分析
US11062800B2 (en) 2018-11-09 2021-07-13 Lunit Inc. Method for managing annotation job, apparatus and system supporting the same
US11335455B2 (en) 2018-11-09 2022-05-17 Lunit Inc. Method for managing annotation job, apparatus and system supporting the same

Similar Documents

Publication Publication Date Title
Gordon Viewing and editing assembled sequences using Consed
Stelzer et al. The GeneCards suite: from gene data mining to disease genome sequence analyses
Dogan et al. SplicePort—an interactive splice-site analysis tool
Ludwig et al. ARB: a software environment for sequence data
Sinha et al. YMF: a program for discovery of novel transcription factor binding sites by statistical overrepresentation
Cantarel et al. MAKER: an easy-to-use annotation pipeline designed for emerging model organism genomes
US6847897B1 (en) Method and system for analyzing biological response signal data
Bejerano et al. Computational screening of conserved genomic DNA in search of functional noncoding elements
Foissac et al. EUGENE'HOM: A generic similarity-based gene finder using multiple homologous sequences
JP4839087B2 (ja) ワークフロー管理システム
JPH1139292A (ja) 文書管理方法、文書検索方法、及び文書検索装置
KR100650203B1 (ko) 유전체 서열 분석 및 데이터 관리 시스템 및 그 방법
JP2006252541A (ja) アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体
Misra et al. Using Apollo to browse and edit genome annotations
Vincent et al. QTLViewer: an interactive webtool for genetic analysis in the Collaborative Cross and Diversity Outbred mouse populations
Sternberg et al. WormBase 2024: status and transitioning to Alliance infrastructure
Hsu et al. MAGIIC-PRO: detecting functional signatures by efficient discovery of long patterns in protein sequences
Lee et al. GenSAS—An online integrated genome sequence annotation pipeline
Meldal et al. Searching and extracting data from the EMBL-EBI complex portal
Hu et al. SeqVISTA: a new module of integrated computational tools for studying transcriptional regulation
Mangan et al. The UCSC genome browser: what every molecular biologist should know
JP2009205207A (ja) タグ情報に基づく情報分類表示システム
Montgomery et al. PolyPhred Analysis Software for Mutation Detection from Fluorescence‐Based Sequence Data
JP7089086B2 (ja) 生体到達可能予測ツール
US20050064484A1 (en) Method for design support of functional nucleic acids