JP2009110506A

JP2009110506A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2009110506A
Application number: JP2008237138A
Authority: JP
Inventors: Koichi Inoue; 浩一井上
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2007-10-11
Filing date: 2008-09-16
Publication date: 2009-05-21

Abstract

【課題】オリジナル文書が削除されても、文書に対し付与されたコメントが保存でき、コメントと評価対象の文書内容との関係を示すことで、コメントの利用性を高める。
【解決手段】クライアントコンピュータからのリクエストを受け、サーバから取得した処理対象の文書から文書解析部２３０で文書要素が切り出され、切り出された文書要素にクライアントの注釈（コメント）が付与される。文書要素は、画像表現形式の文書から意味のある部分要素として、例えば、文章の行、段落で区切られる領域、図表、写真の領域、区切り線などによって分けられた領域等で定義される。この文書要素をコメントを文書要素ＤＢとＤＢに格納して、オリジナル文書の蓄積部とは別に管理する。
【選択図】図３

Description

本発明は、文書を複数のユーザが共同して閲覧し、また文書へコメント等を付ける作業に利用できるように、当該文書を画像表現要素で切り出し、管理をするための処理を行う情報処理装置及び同処理に用いる情報処理プログラムに関する。

文書を複数人が共同で利用する形態としては、以前から多くの方法が用いられている。電子メールを用いて文書を関係者に配信する方法、ファイルサーバ上に置いたファイルを共同で利用する方法などが一般的な方法である。また、Lotus Notes（登録商標）などのグループウェア上に置かれた文書データを共同利用することも広く行われている。

共同利用のひとつの目的に、文書の回覧がある。作成した文書を一定の関係者に回覧し、内容に対する意見や修正点をもらい、必要に応じて作成者が修正して最終的な文書として確定するといった作業である。このような用途においても電子メールによる送信は広く行われるが、個別に書き換えられた文書が送信され、作成者はそれらを順に見ながら変更点をみて手元の文書に反映させるという作業が必要である。

より効率的な文書回覧のために、グループウェアやウェブサーバ上に文書を置き、それを指し示すポインタを関係者に送って、サーバ上の文書を直接編集してもらうという方法がとられることも多くなった。

しかし、この方法による場合、サーバ上の同一の文書を同時に編集するため、競合の問題が起きやすい。また、同時に編集や注釈付けが行われるため、文書全体を見なければ変更点をチェックすることができないという問題が生じる。

また、文書の共同利用では、他人の作成した文書を閲覧することや再利用することがしばしば行われる。例えば、最近、ソーシャルブックマークと呼ばれる情報共有の形態も利用されるようになってきた。

ブックマークは、従来、ウェブブラウザで閲覧したウェブページのURL（Uniform Resource Locator）を利用者が個別のコンピュータに格納しておき、次に必要となった時に呼び出して見られるようにしたものである。従来のブックマークでは、情報はディレクトリに似たツリー構造で格納することが多かった。

このようなブックマークを、多人数でネットワーク上の一つの場所に格納するようにしたのがソーシャルブックマークである。

ソーシャルブックマークでは一般的に、各自がタグと呼ばれる短いテキストやコメントを付与し、付与されたタグを利用して、
・特定のタグが関連づけられたURL群
・あるURLに関連づけて、タグ群やコメントを付与したユーザ
・あるURLをブックマークしているユーザというように複数の観点から情報へのアクセスができるようになっている。

上記ソーシャルブックマークに類する構成を記載したものとして、例えば、下記特許文献１の文書管理装置を挙げることができる。

特許文献１には、一次情報として管理されている文書に対し付与したコメントや評価情報を二次情報として当該文書に関連付けて蓄積し、管理することが記されている。管理された二次情報は、一次情報へのアクセスに応じて文書を表示する際に、文書にコメントや評価情報が付与されていれば、その存在を示すこと、或いは付与された評価情報に拠り、重要度が高いと評価された文書を抽出するといったことに、この情報を利用することで、一次情報としての文書を管理できるようにしてその利便性を高めている。
特許第３７００７３３号公報

上記のように、ソーシャルブックマークは、文書に対する評価、意見、修正、注釈といったコメント等の情報（以下、これらの総称を「コメント」という）によって文書を管理する、という新たな機能を提供するが、次に示すような状況において起きる問題点、即ち、
・コメントは、URLの示すリソース（文書）全体に対して付与されており、当該コメントを付与した利用者が当該文書のどの文書要素に着目したかが示されない場合が普通であり、文書に付与されたコメントがどの文書要素に対するものかを把握することができず、情報の利用性が不十分となる場合があった、
・ブックマークの対象となる文書が削除されることがあり、このように文書が削除されると、文書に関連付けて保管されているブックマークが無効になり、文書に対し付与したコメントが保存されず削除されていた、といった点への対応策が提案されていないのが現状で、情報の保存や共有を行う上で不具合が生じる可能性は、否めない。

本発明は、文書を複数のユーザが共同して閲覧し、また文書に対しコメントを付与する作業に利用できるように文書を管理するための処理における上記した従来技術の問題に鑑みてなされたもので、その目的は、オリジナルの文書が削除されても、文書に対し付与したコメントが保存できるようにし、また、当該コメントの付与対象となった文書要素との関係を示すことで、コメントの利用性を高めることにある。

請求項１の発明は、文書を当該文書の文書要素ごとに文書要素記憶手段に格納する文書要素格納手段と、前記文書要素に対するコメントをコメント格納手段に入力するコメント入力手段と、前記コメント入力手段によって入力された前記文書要素に対するコメントを、当該コメントが、前記文書要素を有する文書及び前記文書要素に関するコメントであることを識別し得る形態でコメント記憶手段に格納するコメント格納手段とを有する情報処理装置である。

請求項２の発明は、抽出要求に応じ、前記文書要素記憶手段又は前記コメント記憶手段から文書要素又はコメントを抽出する情報抽出手段を有する請求項１に記載の情報処理装置である。

請求項３の発明は、前記情報抽出手段は、文書要素を指定したコメントの一括抽出要求に応じ、当該指定に係る文書要素に関するコメントを一括して前記コメント記憶手段から抽出する請求項１又は２に記載の情報処理装置である。

請求項４の発明は、前記情報抽出手段は、コメントが入力された文書要素の抽出要求に応じ、コメントをコメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項１乃至３のうちの何れか一項に記載の情報処理装置である。

請求項５の発明は、前記情報抽出手段は、キーワードを指定した文書要素の抽出要求に応じ、当該キーワードを含むコメントを前記コメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項１乃至３のうちの何れか一項に記載の情報処理装置である。

請求項６の発明は、文書を解析して当該文書から文書要素を切り出す文書解析手段を有し、前記文書要素格納手段は、前記文書解析手段により切り出された文書要素を前記文書要素記憶手段に格納する請求項１乃至５のうちの何れか一項に記載の情報処理装置である。

請求項７の発明は、情報処理を行うためのコンピュータを、文書を当該文書の文書要素ごとに文書要素記憶手段に格納する文書要素格納手段と、前記文書要素に対するコメントをコメント格納手段に入力するコメント入力手段と、前記コメント入力手段によって入力された前記文書要素に対するコメントを、当該コメントが、前記文書要素を有する文書及び前記文書要素に関するコメントであることを識別し得る形態でコメント記憶手段に格納するコメント格納手段として機能させるための情報処理プログラムである。

請求項８の発明は、前記コンピュータを、更に、抽出要求に応じ、前記文書要素記憶手段又は前記コメント記憶手段から文書要素又はコメントを抽出する情報抽出手段として機能させるための請求項７に記載の情報処理プログラムである。

請求項９の発明は、前記情報抽出手段は、文書要素を指定したコメントの一括抽出要求に応じ、当該指定に係る文書要素に関するコメントを一括して前記コメント記憶手段から抽出する請求項７又は８に記載の情報処理プログラムである。

請求項１０の発明は、前記情報抽出手段は、コメントが入力された文書要素の抽出要求に応じ、コメントをコメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項７乃至９のうちの何れか一項に記載の情報処理プログラムである。

請求項１１の発明は、前記情報抽出手段は、キーワードを指定した文書要素の抽出要求に応じ、当該キーワードを含むコメントを前記コメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項７乃至９のうちの何れか一項に記載の情報処理プログラムである。

請求項１２の発明は、前記コンピュータを、更に、文書を解析して当該文書から文書要素を切り出す文書解析手段として機能させるための情報処理プログラムであって、前記文書要素格納手段は、前記文書解析手段により切り出された文書要素を前記文書要素記憶手段に格納する請求項７乃至１１のうちの何れか一項に記載の情報処理プログラムである。

本発明によると、文書を画像表現要素といった文書要素で切り出し、切り出した文書要素ごとにコメントを付与することができ、それを文書要素とともに表示できるように、関連する情報を管理し、処理することで、複数のユーザによって１つの文書を共有する場合に、どの文書要素に着目してコメントが付与されたかを明確に示すことができ、コメントの利用性を高めることができる。また、文書要素及び文書要素に関連付けたコメントを独自に格納することで、オリジナルの文書データの削除による影響を受けることが避けられ、情報の消失を防止することができる。

以下、本発明の画像処理装置に係る実施形態を示す。

この実施形態の画像処理装置は、複数のユーザが共同して閲覧する文書から文書要素として、画像表現要素を切り出し、また文書から切り出した文書要素にコメント（本実施形態では注釈）を付与し、文書要素及び文書要素に関連付けた注釈を独自に格納、管理するための処理を行う。なお文書要素に関連付けて付与するコメントは注釈に限られず、上記の如く、文書要素に対する評価、意見、修正等、様々な内容のものにすることができる。

この処理で注釈の管理に用いる"文書要素"は、従来技術において、評価情報が、リソース（文書）全体に対して付与されており、利用者がどの部分に着目したかが示されないために、利用性が不十分となるといった問題を解決するために導入されたもので、文書を要素分解し、分解した文書要素の単位で注釈を付与できるようにすることを狙いとする。

この文書要素は、注釈の付与単位としてユーザが参照するものであり、ユーザとのインターフェースを考慮すると、文書をディスプレイに画面表示したとき、或いは、印刷出力したときに、当該要素部分が指示できる要素、（図１（Ａ）の要素ａ１、ａ２、ａ３、ｂ１、ｂ２及びｂ４、参照）であることが望ましい。

従って、図１の（Ａ）の文書例に示すように、文書ａ或いは文書ｂをページ画像として表現したときに、文書要素は、文書の画面構成から意味のある部分要素として切り出される。例えば、
・連なった複数行の文章で文書が構成される場合には、行、段落（図１（Ａ）の要素ａ１、ａ２、ａ３、ｂ１、ｂ２及びｂ４、参照）
・図表、写真の領域（図１（Ａ）の要素ｂ３、参照）
・区切り線などによって分けられた領域に含まれる文章等
を対象として切り出すことが適当である。このような画像表現要素に着目した解析方法による１つの利点は、文書の電子フォーマットによらない解析方法を採用することができる点にある。

このようにして文書要素は、文書を画像表現したときの画面上の領域を特定して定義され、各々に識別子（以下ＩＤと称する）を付けて管理される。

例えば、文書要素のＩＤは、図１の（Ｂ）のテーブルに示すように、文書ａの文書要素に連続番号で、ａ１、ａ２、ａ３のＩＤが付与されて管理される。なお、図１の（Ｂ）のテーブルには、文書要素ａ１、ａ２、ａ３に対応して、後述する注釈に関するデータが関連付けられている。

上記の画像表現要素に着目した方法に従って、文書要素が処理対象の文書から切り出され、切り出された文書要素に注釈が付与され、当該文書及び注釈の管理に用いられる。

この管理を行う際、この実施形態の画像処理装置では、文書要素に付与された注釈に対し、両者を関連付けて独自に格納、管理する方法が採られる。この管理方法は、従来技術において、ブックマークの対象となる文書が削除されると、文書に関連付けて保管されているブックマークが無効になり、文書に対し付与した注釈が保存されない、といった問題を解決するために採用されたもので、オリジナル文書データが削除されても、その影響を受けることなく、文書要素に付与された注釈を保存できるようにすることを狙いとする。

この実施形態では、文書要素のデータベース（以下、「ＤＢ」という）と注釈のＤＢを、オリジナル文書のＤＢとは別に設け、これらのＤＢで文書要素及び文書要素に関連付けた注釈を管理する。

この実施形態の画像処理装置は、処理の対象となる文書が、コンピュータ内蔵の記憶部に格納されている場合に、当該コンピュータのシステムをこの画像処理機能の実現手段とすることで構成することができるが、以下に示す実施形態では、ネットワーク上に画像処理装置をクライアントサーバシステムとして構成する例を示す。

図２は、ネットワーク上に構成した本実施形態の画像処理装置の１例を示す概略図である。以下、図２を参照して本実施形態の画像処理装置を説明する。

図２において、イントラネットとインターネットとをゲートウェイを通じて接続することにより構成されるネットワークのイントラネット上にクライアントコンピュータ１００と、文書を保管する文書管理サーバ（w1）３００とを接続し、インターネット上に文書を保管する文書管理サーバ（w2）４００を接続することで、既知のクライアントサーバネットワークを構成する。

また、当該イントラネットには文書要素管理サーバ（s1）２００が接続され、このサーバが、文書要素に関連付けた注釈を格納、管理するための画像処理機能を有する。なお、クライアントコンピュータ１００は、当該コンピュータにおいてウェブブラウザが動作し、例えば、文書要素管理サーバ（s1）２００の操作画面を呼び出すことができる。

次に、文書要素管理サーバ（s1）２００の構成及び動作を詳述する。

文書要素管理サーバ（s1）２００は、クライアントコンピュータ１００からのリクエストに応じて、指定された文書から文書要素を切り出し、切り出された文書要素への注釈の付与処理を実行し、当該文書の文書要素及び付与された注釈をそれぞれのＤＢで管理し、また、これらのＤＢで管理する文書要素及び注釈を、クライアントコンピュータ１００からのリクエストに応じて抽出し、供給する、という処理を実行するための機能部を構成要素として有する。

図３は、文書要素管理サーバ（s1）２００に構成する文書注釈管理システム２１０の概要を示すブロック図である。

文書注釈管理システム２１０は、図３に示すように、HTTP（Hyper Text Transfer Protocol）クライアント部２２０、HTTPサーバ部２５０、文書解析部２３０、オリジナルデータ蓄積部２２５、文書要素ＤＢ部２３５、文書注釈ＤＢ部２４５及びデータ（文書要素・注釈）抽出部２４０を有する。

HTTPクライアント部２２０は、クライアントコンピュータ１００からのリクエストにより、指定されたURLの文書データを保管する文書管理サーバ（w1）３００或いは文書管理サーバ（w2）４００から文書データを読み込む。この文書注釈管理システム２１０では、読み込んだ文書データはオリジナル文書データとして扱われる。当該読み込まれたオリジナル文書データはHTTPクライアント部２２０内のオリジナルデータ取得部２２２により取得され、当該文書データはオリジナルデータ取得部２２２から、後述するオリジナルデータ蓄積部２２５に渡され、その管理下に置かれ、また、当該取得されたオリジナル文書データは後述する文書解析部２３０の処理に委ねられる。

HTTPサーバ部２５０は、内部にクライアントコンピュータ１００からのリクエストを処理するリクエスト処理部２５４と文書表示部２５２とを有する。この文書注釈管理システムの動作として、リクエスト処理部２５４は、クライアントコンピュータ１００から上記ウェブブラウザの操作を通してリクエストを受け付け、また、文書表示部２５２は、リクエストに応じ、必要な文書、文書要素、注釈及び操作のためのコンポーネントをブラウザ上に表示するためのデータを出力する。

オリジナルデータ蓄積部２２５は、HTTPクライアント部２２０が取得したオリジナル文書データ、並びに、後述する文書解析部２３０の文書画像作成部２３２が作成した文書画像を管理する。

文書要素ＤＢ部２３５は、後述する文書解析部２３０が切り出した文書要素に識別子としてのＩＤを付けて格納し、管理する。

文書注釈ＤＢ部２４５は、文書要素に付与された注釈を文書要素のＩＤに対応づけて格納し、管理する。注釈は、クライアントコンピュータ１００から上記ウェブブラウザの操作を通して、ユーザによってクライアントコンピュータ１００に入力されたデータ、或いはこの文書注釈管理システムが自動的に付与するデータであってもよい。なお、注釈のデータは、テキストや画像等の画像表現が可能なデータであることが望ましい。

文書解析部２３０は、オリジナルデータ蓄積部２２５に格納された文書を解析し、文書から文書要素を切り出すために、文書画像作成部２３２と文書要素切出部２３４とを有する。

文書画像作成部２３２は、文書が画像ではない場合に、当該文書をディスプレイ表示や印刷出力に用いることができる形態、即ち、後段で行う領域分割が可能な画像表現形式のデータに作り変える。こうした画像（表現形式の）データに変換する処理は、文書をその対応するアプリケーションに読み込んでアプリケーション固有の機能によって画像として取り出すことや、印刷結果を画像として取り出すことによって得られる。例えば、オープンソースのウェブブラウザである、Mozilla Foundation社のFireFox（登録商標）バージョン2.0では、canvasのサポートによって、表示中のページのスナップショットを持つ画像を作成することができる。また、アプリケーションからPostScript（登録商標）形式で出力できる場合には、PDFから各ページの画像データを生成できるツールを用いて印刷画像を得ることができる。このようなツールとしてはオープンソースのPostScriptおよびPDF処理系であるGhostScriptを用いることもできる。

また、文書要素切出部２３４は、画像表現形式の文書から文書要素を切り出す。文書要素を切り出すために文書画像を文書要素に分割する領域分割技術としては、従来から多くの手法が提案されており、そのうちのいずれかをここで用いることができる。例えば、デジタル画像で表現された文書から、図・写真領域と文字領域とを識別し、文字領域に対しては、ＯＣＲ（Optical Character Reader）処理が可能な文字行を認識する等の領域分割の処理技術（例えば、特開２００１−２９７３０３号公報、参照）を利用できる。

なお、この実施形態では、文書を構成する文書要素それぞれを識別し、注釈を付与することを可能としているが、特定の種別に分類された文書要素に限って注釈の対象としてもよい。例えば、文章の段落や図表、写真などは注釈付与の対象とするが、領域を区切るセパレータとなっている横線等は注釈付与の対象とはしない、といった方法を採用してもよい。

このようにして切り出された文書要素の情報には、画像表現形式の文書において各文書要素が占める領域の位置情報及び当該要素の画像データが含まれ、また、文書要素が文字情報を含む場合にはそれも含まれ、これらの情報は文書要素ＤＢ部２３５で管理される。

また、この実施形態では、文書要素ＤＢ部２３５に格納された文書要素の情報は、クライアントコンピュータ１００からのリクエストに応じて、文書要素の単位で抽出される。また、後述する登録処理（図４）では、指定された文書から切り出された各文書要素には注釈が付与され、付与された注釈は、当該文書要素と関連づけて、文書注釈ＤＢ部２４５で管理される。

従って、各文書要素にはＩＤが与えられ、文書要素ＤＢ部２３５の管理下におかれる。その結果例えば、下記（例２）のように、URLを用いて文書要素を特定することができる。なお、この実施形態では、HTTPクライアント部２２０が取得したオリジナル文書についても、オリジナルデータ蓄積部２２５で保管されるので、下記（例１）のようにＩＤが与えられる。
（例１）識別番号12345の文書： http://s1.example.com/docs/12345
（例２）識別番号12345の文書に属する、先頭から２０番目の文書要素：
http://s1.example.com/docs/12345/20
図３のデータ抽出部２４０は、HTTPサーバ部２５０が受け付けたクライアントコンピュータ１００からのリクエストに従い、当該リクエストにおいて指示された条件に応じ、文書注釈ＤＢ部２４５及び文書要素ＤＢ部２３５にそれぞれ格納された注釈及び文書要素を抽出してHTTPサーバ部２５０内の文書表示部２５２に渡す。

また、クライアントコンピュータ１００からのリクエストは、後述する注釈取得処理（図５）等に示すように、その際の抽出条件が、上記ウェブブラウザの操作を通して設定できる。

この抽出条件として、例えば次に示す（１）〜（３）の設定方法を採用可能である。

（１）一つの文書要素に付与された注釈の抽出
例えば、図１（Ａ）の文書の例の場合、文書ａが文書要素ａ１、ａ２、ａ３、三つの文書要素に分割されており、同図（Ｂ）に示すように、それぞれ、要素ａ１に対し０個、要素ａ２に対し３個、要素ａ３に対し４個の注釈が付与されている。ここで、一つの文書要素である要素ａ２のみを抽出条件として設定すると、要素ａ２に付与された３個の注釈を抽出できる。この抽出条件を用いることで、特定の文書要素に関する注釈だけを抽出するができ、この要素に絞った注釈の集約等が容易に行える。図７Ａは上記一つの文書要素に付与された注釈の抽出する際の処理の流れを示す。

図７Ａ中、ステップＳ３０１で、一つの文書要素に付与された注釈を取得するリクエストがクライアントコンピュータ１００からHTTPサーバ部２５０のリクエスト処理部２５４を介して送信された際、文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０は、ステップＳ３０２で、文書注釈ＤＢ部２４５から、上記文書要素に付与された注釈を抽出する。次に文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０は、ステップＳ３０３で、上記文書要素に付与された注釈をすべて抽出したか否か判定する。判定の結果、上記文書要素に付与された注釈を既にすべてを抽出していた場合（ＹＥＳ），上記抽出した注釈のすべてをHTTPサーバ部２５０のリクエスト処理部２５４を介してクライアントコンピュータ１００へ送信する。他方ステップＳ３０４の判定の結果、未だ上記文書要素に付与された注釈のすべてを抽出してはいなかった場合（ＮＯ）、ステップＳ３０３の判定がＹＥＳとなるまで上記ステップＳ３０２を繰り返す。

（２）注釈の付与された文書要素のみの抽出
例えば、図１（Ａ）の文書ｂを対象とし、この抽出条件を与えると、要素ｂ１に２個、要素ｂ２に０個、要素ｂ３に０個、要素ｂ４に１個の注釈が付与されているので、注釈のついた要素ｂ１及び要素ｂ４に付与された注釈だけを抽出できる。この抽出条件を用いることで、レビューなどにおいて修正点を瞬時に把握することができる。図７Ｂは上記注釈の付与された文書要素のみの抽出を行う場合の処理の流れを示す。

図７Ｂ中、ステップＳ３１１で、注釈の付与された文書要素のみを取得するリクエストがクライアントコンピュータ１００からHTTPサーバ部２５０のリクエスト処理部２５４を介して送信された際、文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０は、ステップＳ３１２で、文書注釈ＤＢ部２４５から注釈を抽出するとともに、当該注釈が付与された文書要素を特定する。文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０はステップＳ３１３で、当該特定された文書要素を文書要素ＤＢ部２３５から抽出する。次に文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０は、ステップＳ３１４で、文書注釈ＤＢ部２４５に格納されたすべての注釈を処理済みか否か判定する。判定の結果、既に文書注釈ＤＢ部２４５に格納されたすべての注釈を処理済みであった場合（ＹＥＳ），前記抽出した注釈とともに、前記抽出した文書要素をすべてクライアントコンピュータ１００へHTTPサーバ部２５０のリクエスト処理部２５４を介して送信する（ステップＳ３１５）。他方ステップＳ３１４の判定の結果、未だ文書注釈ＤＢ部２４５に格納されたすべての注釈を処理済みではなかった場合（ＮＯ）、ステップＳ３１４の判定がＹＥＳとなるまで上記ステップＳ３１２，Ｓ３１３を繰り返す。

（３）特定のキーワードを含む注釈の抽出
例えば、図１（Ａ）の文書ａ及び文書ｂを対象とし、この抽出条件を与えると、要素ａ２には３個、要素ａ３には４個、要素ｂ１には２個、要素ｂ４には１個の注釈が付与されているので、これらの要素に付与された注釈からキーワードを含むものだけを抽出できる。この抽出条件を用いることで、注釈の利用における利便性が向上する。また、ソーシャルブックマークのタギング（Tagging）のように、ユーザが独自の観点で集めた文書要素の集合を定義することができる。図７Ｃは上記特定のキーワードを含む注釈の抽出を行う場合の処理の流れを示す。

図７Ｃ中、ステップＳ３２１で、特定のキーワードを含む注釈を取得するリクエストがクライアントコンピュータ１００からHTTPサーバ部２５０のリクエスト処理部２５４を介して送信された際、文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０は、ステップＳ３２２で、文書注釈ＤＢ部２４５から前記キーワードを含む注釈を抽出するとともに、当該注釈が付与された文書要素を特定する。文書要素管理サーバ（ｓ１）２００のデータ抽出部２４０はステップＳ３２３で、当該特定された文書要素を文書要素ＤＢ部２３５から抽出する。次に文書要素管理サーバ（ｓ１）２００は、ステップＳ３２４で、文書注釈ＤＢ部２４５に格納された注釈のうち、前記キーワードを含む注釈をすべて処理済みか否か判定する。判定の結果、既に前記キーワードを含む注釈をすべて処理済みであった場合（ＹＥＳ），前記抽出した注釈とともに、前記抽出した文書要素をすべてクライアントコンピュータ１００へHTTPサーバ部２５０のリクエスト処理部２５４を介して送信する（ステップＳ３２５）。他方ステップＳ３２４の判定の結果、未だ前記キーワードを含む注釈をすべて処理済みではなかった場合（ＮＯ）、ステップＳ３２４の判定がＹＥＳとなるまで上記ステップＳ３２２，Ｓ３２３を繰り返す。

上記（１）〜（３）の抽出条件に応じた抽出処理を行うために、データ抽出部２４０は、図１（Ｂ）に示す如くの、文書要素と注釈数とを関連付けたテーブルを用意することで、効率的な処理が可能となる。

次に、上記文書注釈管理システム２１０（図３）の動作として、文書管理サーバ（w1）３００或いは文書管理サーバ（w2）４００に保管された文書を処理の対象として、このシステム内の各ＤＢに登録する処理を図４の処理フローを参照して、説明する。

ユーザは、先ず文書を閲覧するためにクライアントコンピュータ１００のディスプレイに文書管理サーバ（w1）３００或いは文書管理サーバ（w2）４００に保管された文書の閲覧用画面を呼び出し、閲覧する文書を指示し、指示に従って送信されてくる文書を閲覧する（ステップＳ１０１）。

次に、ユーザは、当該文書を、文書要素管理サーバ（s1）２００の文書注釈管理システム２１０に登録するために、ブックマークレットを起動し、当該文書の登録リクエストを発行する（ステップＳ１０２）。

ブックマークレット（bookmarklet）とは、スクリプト言語で書かれた小さなプログラムで、ウェブブラウザの状態によって適切な処理を行う。この実施形態では、登録用ブックマークレットが、下記（URLの例）に示すようなURLを呼び出すリクエストを発行して、文書要素管理サーバ（s1）２００の登録画面をクライアントコンピュータ１００のブラウザ上に表示する。

（URLの例）http://s1.example.com/api/register?url=http://w1.example.com/doc/my/review/132
なお、上記URLにおいて、s1は文書要素管理サーバ（s1）であり、w1は文書管理サーバ（w1）である。

文書注釈管理システム２１０のリクエスト処理部２５４は、上記した文書の登録リクエストを受けて、上記（URLの例）に示す'url='パラメータで指定された文書を文書管理サーバ（w1）３００或いは文書管理サーバ（w2）４００から読み取るようにHTTPクライアント部２２０に指示し、HTTPクライアント部２２０は、この指示に従い処理対象の文書を読取る（ステップＳ１０３）。このとき、読取った文書は、オリジナルデータ蓄積部２２５に格納される。

次に、HTTPクライアント部２２０が読み取った文書は、文書解析部２３０に渡され、文書解析部２３０は当該文書から文書要素を切り出す（ステップＳ１０４）。このとき、HTTPクライアント部２２０から渡された文書が画像表現形式の文書画像ではない場合には、文書画像作成部２３２が当該文書を、ページ数分の文書画像へと作り変える。このようにして用意された文書画像は、領域分割による解析を経、分割結果として得られる文書要素が、文書要素切出部２３４によって切り出される。

また、文書解析部２３０は、切り出した文書要素にＩＤとしての通し番号を付けて、文書要素ＤＢ部２３５のテーブル（図８（Ａ）とともに後述）に格納する（ステップＳ１０５）。

この後、HTTPサーバ２５０のリクエスト処理部２５４は当該デーブルを参照し、当該文書の登録リクエストを発行したクライアントコンピュータ１００のウェブブラウザに対し、文書要素の一覧を提示するHTML（Hyper Text Markup Language）を送信する（ステップＳ１０６）。

当該送信されたHTMLでクライアントコンピュータ１００上に提示された文書要素の一覧を見て、ユーザは、注釈をつけたい文書要素があれば、当該文書要素の一覧からその文書要素を選択して、注釈を書き込み、「登録」のボタンを押し、実行を指示する（ステップＳ１０７）。

当該登録の実行指示に伴って、クライアントコンピュータ１００から送信されてくる注釈が付与された文書要素のＩＤ及び注釈を受け、文書注釈管理システム２１０のHTTPクライアント部２２０は、当該文書要素の全てを文書要素ＤＢ部２３５に登録する。また文書注釈管理システム２１０のHTTPクライアント部２２０は、当該注釈を、対応する文書要素にＩＤとして付けられた通し番号に関連づけ、文書注釈ＤＢ部２４５に登録する（ステップＳ１０８）。

このようにして文書注釈の登録がすむと、この処理フローは終了する。

次に、上記のようにして文書要素ＤＢ部２３５、文書注釈ＤＢ部２４５等のＤＢに登録された文書要素、注釈等のデータをクライアントコンピュータ１００からのリクエストに応じて抽出し、送信する文書注釈管理システム２１０（図３）の処理について説明する。

このようにして文書や文書要素に対して付与された注釈の抽出は、この実施形態では、それぞれに対応したURLに対する GET リクエストにより行われる。

例えば、"文書ID：12345、文書要素番号：20"の文書要素に付与された注釈は、下記（URLの例）に示すようなURLを呼び出すリクエストによって取得される。なお、下記の例では、注釈をコメント（comments）として扱っている。

（URLの例）
http://s1.example.com/comments/docs/12345/20
上記リクエストに対するレスポンスは、例えば下記（XMLの例）に示すようなXML（eXtensible Markup Language）として返される。

（XMLの例）
<?xml version="1.0" encoding="utf-8"?＞
<commentList about="http://s1.example.com/docs/12345/20"＞
<comment＞コメント1</comment＞
<comment＞コメント2</comment＞
</commentList＞
これを受信したクライアントコンピュータ１００のウェブブラウザは、ECMA（European Computer Manufacturers Association）ScriptやXSLT（XML Stylesheet Language Transformations）を利用して、当該XMLを、画面上に表示可能な形式に変換する。

また、"文書ID：12345"の文書に付与されたすべての注釈は、下記（URLの例）に示すようなURLを呼び出すリクエストによって取得され得る。

（URLの例）
http://s1.example.com/comments/docs/12345
このリクエストに対するレスポンスは、下記（XMLの例）に示すようなXMLとして返され得る。

（XMLの例）
<?xml version="1.0" encoding="utf-8"?＞
<commentList about="http://s1.example.com/docs/12345"＞
<comment about="http://s1.example.com/docs/12345/20"＞コメント1</comment＞
<comment about="http://s1.example.com/docs/12345/20"＞コメント2</comment＞
</commentList＞
また、下記（URLの例）に示すようなURLを呼び出すリクエストが送られると、注釈に文字列「WORD」（すなわち上記「キーワード」）が含まれる文書要素だけが抽出されて出力される。

（URLの例）
http://s1.example.com/comments/docs?query=WORD
文書注釈管理システム２１０（図３）の動作としてクライアントのリクエストに応じて行われる、文書要素、注釈等のデータ抽出、送信処理について、図５の処理フローを参照して、説明する。

文書注釈管理システム２１０は、先ず、ユーザがクライアントコンピュータ１００のウェブブラウザを通して発行する、文書要素、注釈等の取得リクエストを受取る（ステップＳ２０１）。なお、このリクエストは、上記で例示したようなGETリクエストとして、文書や文書要素それぞれに対応したURLを指定して発行される。

次いで、HTTPサーバ２５０のリクエスト処理部２５４は、GETリクエストとして受け取ったURLから、要求対象が文書全体であるか、文書要素を指定しているかを判定する（ステップＳ２０２）。

この判定の結果、要求に文書要素が指定されている場合（ステップＳ２０２−指定あり）、データ抽出部２４０は、指定された文書要素のＩＤに対応して、当該ＩＤに関連付けて格納されている注釈を文書注釈ＤＢ部２４５から検索し、当該注釈のデータを抽出する（ステップＳ２０４）。

他方、判定の結果、要求対象が文書全体である場合（ステップＳ２０２−文書全体）、データ抽出部２４０は、文書から文書要素を切り出したときに、切り出した文書要素にＩＤとして付けた通し番号の順に文書要素を指定し（ステップＳ２０３）、当該ＩＤに関連付けて格納されている注釈を文書注釈ＤＢ部２４５から抽出する（ステップＳ２０４）。ステップＳ２０４で指定した文書要素の注釈を抽出した後、要求対象に未処理の文書要素があるか否かをチェックし（ステップＳ２０５）、未処理の文書要素があれば（ステップＳ２０５-YES）、ステップＳ２０３の文書要素の指定に戻り、文書全体の文書要素の抽出が完了するまで、ステップＳ２０３〜Ｓ２０５の処理を繰返す。

指定された文書要素の抽出が完了したことが確認できたところで（ステップＳ２０５-NO）、HTTPサーバ２５０のリクエスト処理部２５４は、抽出された文書要素、注釈等のデータをリクエストに対するレスポンスとして、上記で例示したようなXML形式にフォーマットし、クライアントコンピュータ１００に送信し（ステップＳ２０６）、この処理フローを終了する。

次に、文書注釈管理システム２１０（図３）へ送られた、文書要素、注釈等の取得リクエストに応じてクライアントに提示する文書、文書要素、注釈を表示する方法に関する実施形態について説明する。

この実施形態の文書注釈管理システム２１０では、ユーザは、注釈等のデータを抽出するリクエストを発行する際、クライアントコンピュータ１００のウェブブラウザを通して、注釈等のデータを抽出する文書要素等を指定して抽出条件の入力操作を行い、また、リクエストに対するレスポンスとして得られた抽出結果をウェブブラウザの画面表示を通して知る、という動作を行う。

このように、クライアントコンピュータ１００のウェブブラウザを介して文書注釈管理システム２１０の動作条件を指示できるので、入出力操作用の画面を構成するコンポーネントを出力するHTTPサーバ２５０の文書表示部２５２に、抽出結果の提示方法を指示ための画面を用意することで、文書、文書要素、注釈を表示する方法をユーザの操作で選ぶことができる。

文書表示部２５２は、データ抽出部２４０により文書要素、注釈等の取得リクエストに応じて該当する文書要素、注釈等の抽出がなされた後、当該文書要素、注釈等をユーザに提示する入力画面として、先ず、抽出された文書要素と文書要素に付与された注釈を一覧形式で表示する。具体的な手順としては、最初の段階では文書要素だけを一覧形式で表示し、文書要素に付与された注釈数を、各文書要素との対応が分かるように傍らに表示する。このように提示された画面に対し、ユーザがポインティングデバイスで特定の注釈数の表示領域を指し示し、クリックすると、当該文書要素に付与された注釈がポップアップして表示されるようにすると、抽出された文書要素や注釈が多くても、表示をシンプルにすることができる。

また、この外に、ユーザがポインティングデバイスで特定の文書要素の表示領域を指し示し、クリックすると、当該文書要素を含む文書全体が表示される画面への切替えがなされるようにする。なお、クリックした文書要素に相当する文書中の領域を点線で示すことにより、全体との関係を容易に認識できるようになる。このように、文書要素から文書全体へ切替えて見る、という見方をユーザに提供することで、ユーザは文書要素と注釈のみのシンプルな表示形態から、重要度に応じて周囲の文書を見ることができる形態へと移行させるが可能となり、自然な閲覧ができる。

処理対象の文書の文書要素及び注釈を登録する処理フロー（図４）及び登録した文書要素及び注釈を抽出する処理のフロー（図５）を実行する文書注釈管理システム２１０は、上記実施形態に示したように、クライアントサーバネットワーク上の文書要素管理サーバ（ｓ１）２００（図２）として構成することができるが、クライアントサーバネットワークではなく、単一のコンピュータの１要素として、内部文書を対象にシステムを構成する形態でも実現できる。

いずれの構成によって実現するにしても、この文書注釈管理システム２１０は、図６に示すような汎用のコンピュータをハードウェアとして用いることによって構築することができる。

図６に示すコンピュータとしては、演算処理を実行して各部を統括制御するＣＰＵ２１及びＲＡＭ２２とＲＯＭ２３の各メモリを基本的要素としてコンピュータの主体部が構成され、この主体部に、ハードディスク（ＨＤＤ）２５、表示装置２７及び入力装置２８がバス２４で接続された構成とされる。

文書注釈管理システム２１０を構築するためのプログラムやデータ等をＲＯＭ２３或いはＨＤＤ２５にインストールしておくことで、ＣＰＵ２１は、実行時にＲＯＭ２３或いはＨＤＤ２５の記録媒体に記録したプログラムをＲＡＭ２２に読み込み、当該プログラムを駆動することによって、コンピュータを上記実施形態に示した画像処理装置として機能させることができる。

図８（Ａ）は、文書要素記憶手段としての文書要素管理テーブルの実例を示す。この文書要素管理テーブルは図３中、文書要素ＤＢ部２３５に格納される。図８（Ｂ）は、コメント記憶手段としての注釈管理テーブルの実例を示す。この注釈管理テーブルは図３中、文書注釈ＤＢ部２４５に格納される。

図８（Ａ）中、document_idの項目として、各文書に個別に付与された文書IDが格納される。

またelement_idの項目として、文書要素に個別に付与された文書要素ID（すなわち上記文書要素のＩＤ、以下同様）が格納される。この例の場合、上記の如く、特定の文書の中での通し番号が文書要素に個別に付与されたIDとされる。

またdata_pathの項目として、文書要素の画像を格納するファイルシステム上のパス名が格納される。当該パスは、システムで設定する所定のトップディレクトリからの相対パスとされる。ここで当該文書要素の画像も文書要素ＤＢ部２３５に格納される。

次に上記の如く、URLから文書要素を取り出す処理の流れについて詳細に説明する。

図２に示される文書要素管理サーバ（ｓ１）２００に対するクライアントコンピュータ１００からのHTTPアクセスから文書要素がクライアントコンピュータ１００に返却されるまでの流れは以下の通りである。
・クライアントコンピュータ１００から例えば以下のURLへのGETアクセスが行われる。

（ＵＲＬの例）
http://s1.example.com/12345/13
・文書要素管理サーバ（ｓ１）２００は当該URLに応じ、当該URLの特定部分、すなわち後半の部分を参照することで、上記文書ID'12345'と、文書要素ID'13'とを取り出す。
・次に文書要素管理サーバ（ｓ１）２００は、上記文書要素管理テーブルを参照し、当該文書要素管理テーブル中、以下の条件を満たす行を選択する。

document_id=12345 AND element_id = 13
そして文書要素管理サーバ（ｓ１）２００は、文書要素管理テーブル中の上記選択された行のdata_pathの項目を参照することで、前記URLで指定された文書要素が格納されたファイルシステム上のパス名を取り出す。以下にその際に使用される命令の記述例を示す。

（命令の記述例）
SELECT data_path FROM 文書要素管理テーブル
WHERE document_id = 12345
AND element_id = 13;
・上記取り出されたパス名であるdata_path値(例えば$data_pathとする)と、システム固有のデータ保存ディレクトリパス(例えばDATA_DIRとする)とから、目的とする文書要素の画像の格納位置を特定する。以下に上記目的とする文書要素の画像の格納位置を特定する情報の記述方法の例を示す。

（格納位置を特定する情報の記述方法の例）
DATA_DIR + "/" + $data_path
上記記述方法に沿った、当該目的とする文書要素の画像の格納位置を特定する情報の実際の記述は、例えば以下のようなものである。

（格納位置を特定する情報の記述例）
C:/data/12345/13.png
・文書要素管理サーバ（ｓ１）２００は上記目的とする文書要素の画像の格納位置を特定する情報の記述にしたがい、該当する文書要素の画像のデータにアクセスし、当該文書要素の画像の内容をHTTPレスポンスとしてクライアントコンピュータ１００に送信する。

次に特定の文書に付与された注釈の取得方法について詳細に説明する。

ここでは一例として、以下のURLで識別される特定の文書に対し付与されているすべての注釈を取り出す処理の流れを説明する。

（URLの例）
http://s1.example.com/docs/12345
・クライアントコンピュータ１００から上記URLの指定を受け、文書要素管理サーバ（ｓ１）２００は上記注釈管理テーブルを参照し、当該注釈管理テーブル中、URL項目が上記URLで始まる行を選択する。以下に注釈管理テーブル中、URL項目が上記URLで始まる行を選択するための命令の記述例を示す。

（命令の記述例）
SELECT url,comment FROM 注釈管理テーブル
WHERE url LIKE 'http://s1.example.com/docs/12345/%';
・文書要素管理サーバ（ｓ１）２００は前記選択した行のcomment項目の内容、すなわち注釈の内容をHTTPレスポンスとしてクライアントコンピュータ１００に送信する。

文書要素の概念を説明する文書例（Ａ）及び文書要素と注釈を関係付けたテーブル（Ｂ）を示す図である。ネットワーク上に構成した実施形態に係る画像処理装置の１例を示す概略図である。文書要素管理サーバに構成する文書注釈管理システムの１例を示すブロック図である。処理対象の文書を文書注釈管理システム（図３）内のＤＢに登録する処理のフローチャートである。文書注釈管理システム（図３）内のＤＢに登録した文書要素及び注釈を抽出する処理のフローチャートである。文書注釈管理システムを構築することができるコンピュータの構成を示す図である。文書注釈管理システム（図３）内のＤＢから、１つの文書要素に付与された注釈を抽出する処理のフローチャートである。文書注釈管理システム（図３）内のＤＢから、注釈の付与された文書要素のみを抽出する処理のフローチャートである。文書注釈管理システム（図３）内のＤＢから、特定のキーワードを含む注釈を抽出する処理のフローチャートである。図３に示される文書要素ＤＢ部に格納される文書要素管理テーブル（文書要素記憶手段）（Ａ）および文書注釈ＤＢ部に格納される注釈管理テーブル（コメント記憶手段）（Ｂ）のそれぞれの実例について説明するための図である。

符号の説明

１００・・クライアントコンピュータ、
２００・・文書要素管理サーバ（s1）、
２１０・・文書注釈管理システム、
２３０・・文書解析部、
２３５・・文書要素データベース部、
２４０・・データ（文書要素・注釈）抽出部、
２４５・・文書注釈データベース部、
３００・・文書管理サーバ（w1）、
４００・・文書管理サーバ（w2）。

Claims

文書を当該文書の文書要素ごとに文書要素記憶手段に格納する文書要素格納手段と、
前記文書要素に対するコメントをコメント格納手段に入力するコメント入力手段と、
前記コメント入力手段によって入力された前記文書要素に対するコメントを、当該コメントが、前記文書要素を有する文書及び前記文書要素に関するコメントであることを識別し得る形態でコメント記憶手段に格納するコメント格納手段とを有する情報処理装置。
抽出要求に応じ、前記文書要素記憶手段又は前記コメント記憶手段から文書要素又はコメントを抽出する情報抽出手段を有する請求項１に記載の情報処理装置。
前記情報抽出手段は、文書要素を指定したコメントの一括抽出要求に応じ、当該指定に係る文書要素に関するコメントを一括して前記コメント記憶手段から抽出する請求項１又は２に記載の情報処理装置。
前記情報抽出手段は、コメントが入力された文書要素の抽出要求に応じ、コメントをコメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項１乃至３のうちの何れか一項に記載の情報処理装置。
前記情報抽出手段は、キーワードを指定した文書要素の抽出要求に応じ、当該キーワードを含むコメントを前記コメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項１乃至３のうちの何れか一項に記載の情報処理装置。
文書を解析して当該文書から文書要素を切り出す文書解析手段を有し、
前記文書要素格納手段は、前記文書解析手段により切り出された文書要素を前記文書要素記憶手段に格納する請求項１乃至５のうちの何れか一項に記載の情報処理装置。
情報処理を行うためのコンピュータを、
文書を当該文書の文書要素ごとに文書要素記憶手段に格納する文書要素格納手段と、
前記文書要素に対するコメントをコメント格納手段に入力するコメント入力手段と、
前記コメント入力手段によって入力された前記文書要素に対するコメントを、当該コメントが、前記文書要素を有する文書及び前記文書要素に関するコメントであることを識別し得る形態でコメント記憶手段に格納するコメント格納手段として機能させるための情報処理プログラム。
前記コンピュータを、更に、抽出要求に応じ、前記文書要素記憶手段又は前記コメント記憶手段から文書要素又はコメントを抽出する情報抽出手段として機能させるための請求項７に記載の情報処理プログラム。
前記情報抽出手段は、文書要素を指定したコメントの一括抽出要求に応じ、当該指定に係る文書要素に関するコメントを一括して前記コメント記憶手段から抽出する請求項７又は８に記載の情報処理プログラム。
前記情報抽出手段は、コメントが入力された文書要素の抽出要求に応じ、コメントをコメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項７乃至９のうちの何れか一項に記載の情報処理プログラム。
前記情報抽出手段は、キーワードを指定した文書要素の抽出要求に応じ、当該キーワードを含むコメントを前記コメント記憶手段から抽出するとともに、当該コメントが入力された文書要素を文書要素記憶手段から抽出する請求項７乃至９のうちの何れか一項に記載の情報処理プログラム。
前記コンピュータを、更に、文書を解析して当該文書から文書要素を切り出す文書解析手段として機能させるための情報処理プログラムであって、
前記文書要素格納手段は、前記文書解析手段により切り出された文書要素を前記文書要素記憶手段に格納する請求項７乃至１１のうちの何れか一項に記載の情報処理プログラム。