JP2009271779A

JP2009271779A - 画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体

Info

Publication number: JP2009271779A
Application number: JP2008122561A
Authority: JP
Inventors: Yoichi Kashibuchi; 洋一橿渕; Hiroshi Kaburagi; 浩蕪木; Tsutomu Sakagami; 努坂上; Takeshi Namigata; 健波潟; Manabu Takebayashi; 学竹林; Reiji Misawa; 玲司三沢; Osamu Iinuma; 修飯沼; Naoki Ito; 直樹伊藤; Junya Arakawa; 純也荒川; Shinji Sano; 真治佐野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-05-08
Filing date: 2008-05-08
Publication date: 2009-11-19
Anticipated expiration: 2028-05-08
Also published as: JP5188260B2; US20100070854A1; US8181108B2

Abstract

【課題】原稿のオブジェクト分離を行い、メタデータを付与するシステムにおいて、適切なメタデータがつかない、あるいは、メタデータを追加で増やしたい場合に、直感的な操作によってメタデータを編集できる方法を提供する。
【解決手段】入力手段により得られた原稿を複数のオブジェクトに分離し、メタデータを付与する画像処理装置において、オブジェクトのメタデータを編集するためのユーザーインターフェースを備え、第１と第２のオブジェクトを選択した後、第１のオブジェクトと第２のオブジェクトの夫々のメタデータの内容に基づいて、メタデータの修整方法を切り替える。
【選択図】図２８

Description

本発明は、例えば、複合複写装置等の画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体に関する。

近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。このペーパーレス化を実現する従来技術として、次のような文書管理システムや画像通信システムなどを挙げることができる。文書管理システムでは、まず、バインダー等で蓄積された紙文書をスキャナで読み取る。その読み取った画像を、例えば、ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ（以下、ＰＤＦ）に変換して、画像記憶装置に蓄積して管理することが行われる。画像通信システムでは、ＰＤＦ等に変換したデータを遠隔地に送信することが行われる（特許文献１）。

一方、電子化された情報として保存した文書を有効に活用するために、保存した大量の情報の中から必要な情報を検索する技術が重要となってきている。例えば、図，表，写真等の画像および文字列が混在した文書中の画像を検索するための方法が提案されている（特許文献２）。特許文献２に開示の技術では、文書中の画像およびその画像について記述した文字列を抽出し、かつ、それらを関連づけて格納している。そして、検索の際には、ユーザーにより指定された任意の検索語に基づいて、格納済みの文字列を検索して、該当する文字列に関連づけられた画像を出力することができるものとなっている。

さらに、画像に対する注釈情報の付与を容易に行なう方法が提案されている（特許文献３）。これは、画像（例えば、人物画像）と、各々がメタデータ（例えば、人名のメタデータ）と関連している複数のアイコンとを表示し、画像にアイコンをドラッグ＆ドロップすることで、画像に対してアイコンと関連するメタデータを注釈としてつける方法である。

特開２００１−３５８８５７号公報特願平９−１８１６１０号公報特開２００２−０５５７４８号公報

しかしながら、特許文献２に示されるように、文書中の文字列を検索のためのメタデータとして画像に付与する方法では、適切なメタデータがつかない場合がある。さらには、適切なメタデータがついていたとしても、追加、削除など、メタデータの編集を行いたい場合がある。

このような時、ユーザーは、画像とメタデータが表示されているメタデータ編集画面を見ながら、キーボード入力より、所望のメタデータに編集することが一般的であるが、編集しようとするメタデータの数が多いと、ユーザーの負担になるという課題がある。

また、特許文献３の、画像にアイコンをドラッグ＆ドロップして、この画像に対してアイコンと関連するメタデータを注釈としてつける方法では、注釈のつき方が常に一方向で、固定であるため、ユーザーの操作を制限してしまうという課題があった。

即ち、画像に対してアイコンという画像をドラッグ＆ドロップする方法しかないため、逆に、アイコンに対して画像をドラッグ＆ドロップして注釈をつけることはできなかった。

また、別の課題として、写真画像に対して文字画像を、文字画像に対して写真画像を、文字画像に対して文字画像をドラッグ＆ドロップして注釈をつけることもできなかった。
さらに、この方法では、写真画像に対して写真画像、写真画像に対して文字画像、文字画像に対して写真画像、文字画像に対して文字画像をドラッグ＆ドロップした時の注釈の付き方を各々変更させることができない。そのため、注釈の付き方がユーザーにとって直感的に理解しづらいという課題があった。

上記課題を解決するために本発明の画像処理装置は、イメージデータを入力する入力手段と、イメージデータを複数のオブジェクトに分割するためのオブジェクト分割手段と、該オブジェクト分割手段により得られた各オブジェクトへメタデータを付与するメタデータ付与手段と、ユーザーの選択指示に基づいてメタデータの編集対象となる第１のオブジェクトと第２のオブジェクトとを選択する選択手段と、該選択手段で選択された前記第１のオブジェクトと第２のオブジェクトそれぞれのメタデータを解析するメタデータ解析手段と、該メタデータ解析手段の解析結果に基づいて、前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータの更新手順を決定する決定手段と、前記決定手段により決定した更新手順で前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータとの少なくともいずれかを更新する更新手段とを備えることを特徴とする。

本発明によれば、メタデータの編集が容易であり、ユーザーにとって直感的に理解がしやすく、かつ後で再利用・検索がしやすいメタデータの付与が可能となる。

例えば、写真画像に対して写真画像のメタデータを付与することができるだけでなく、写真画像に対して文字画像のメタデータを、また文字画像に対して写真画像のメタデータを、また文字画像に対して文字画像のメタデータを付与することが可能である。

さらに、写真画像に対して写真画像を、写真画像に対して文字画像を、文字画像に対して写真画像を、文字画像に対して文字画像を関連付けした時のメタデータの付き方を各々変更することが可能である。これにより、写真画像に対して、写真画像を関連付けする場合、前者の写真画像に後者の写真画像のリンク先をメタデータとして追加しておき、前者の写真画像を検索した場合、容易に後者の写真画像を辿ることができる。

さらに、文字画像に対して、文字画像を関連付けする場合、キャプション文字数の少ない方の文字画像に対して、キャプション文字数の多い方の文字画像のメタデータを付与することで、ユーザーが直感的に利用しやすくなる。

また、写真画像に対して、写真画像を関連付けした場合に、ユーザーに応じて処理を切り替え、同一ユーザーならば前者の写真画像に後者の写真画像のリンク先を付加させ、異なるユーザーならば後者の写真画像を付加させる。これによって、後日、後者の写真画像のメタデータが別のユーザーによって不測のものに書き換えられたとしても、前者の写真画像の検索性を損なわないという利点がある。

［実施形態１］
次に本発明に係る画像処理方法の第１の実施形態を図面に基づいて説明する。

本実施形態１では、関連付けされた第１と第２のオブジェクトの属性に基づいて、メタデータのマージ方法を切り替える方法について説明する。

本実施形態で参照する図面は以下のとおりである。

図１は、本発明を適用できる画像処理システムを示すブロック図であり、図２は、図１におけるＭＦＰを示すブロック図、また図３は本実施形態１で説明する第１のデータ処理フローである。また図７は、ベクトル化処理の中で実施するオブジェクト分割処理で領域分割情報した結果の一例を表し、図８は、オブジェクト分割したときの各属性のブロック情報および入力ファイル情報を表す。図９は、再利用可能なデータへの変換で重要なベクトル化処理のフロー図である。図１０は、ベクトル化の処理における角抽出の処理を示す図であり、図１１は、ベクトル化の処理における輪郭線まとめの処理を示す図である。図１２は、図９で生成されたベクトルデータのグループ化の処理を示すフローチャートであり、図１３は、図１２の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。また図１４は、本実施形態１に係るベクトル化処理結果のデータを示すマップであり、図１５は、アプリデータ変換の処理を示すフローチャートである。図１６は、図１５の文書構造ツリー生成の処理を示すフローチャートであり、図１７は、文書構造ツリー生成処理の対象となる文書を示す図である。図１８は、図１６の処理によって生成される文書構造ツリーを示す図であり、図１９は、本実施形態１で説明するＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ（以下、ＳＶＧ）形式の一例である。

［画像処理システム］
はじめに、本実施形態で使用可能画像処理システムについて図１を用いて説明する。

図１において、本実施形態における画像処理システムは、オフィス１０とオフィス２０とをインターネット１０４で接続した環境において使用される。

オフィス１０内に構築されたＬＡＮ１０７には、記録装置としてのマルチファンクション複合機（以下、ＭＦＰ）１００が接続されている。また、ＭＦＰ１００を制御するマネージメントＰＣ１０１、ローカルＰＣ１０２、文書管理サーバ１０６、文書管理サーバ１０６のためのデータベース１０５が接続されている。

オフィス２０内にはＬＡＮ１０８が構築され、ＬＡＮ１０８には文書管理サーバ１０６、および文書管理サーバ１０６のためのデータベース１０５が接続されている。

ＬＡＮ１０７、１０８にはプロキシサーバ１０３が接続され、ＬＡＮ１０７、１０８はプロキシサーバ１０３を介してインターネットに接続される。

ＭＦＰ１００は、原稿から読み取った入力画像に対する画像処理の一部を担当し、処理結果としての画像データはＬＡＮ１０９を通じてマネージメントＰＣ１０１に入力する機能がある。加えて、ローカルＰＣ１０２、もしくは不図示の汎用ＰＣから送信されるＰａｇｅＤｉｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ（以下、ＰＤＬ）言語を解釈して、プリンタとして作用する。さらには、原稿から読み取った画像をローカルＰＣ１０２もしくは、不図示の汎用ＰＣに送信する機能をもつ。マネージメントＰＣ１０１は、画像記憶手段、画像処理手段、表示手段、入力手段等を含む通常のコンピュータであり、機能的にはこれら構成要素の一部がＭＦＰ１００と一体化して、画像処理システムの構成要素となっている。なお、本実施形態では、マネージメントＰＣを介してデータベース１０５において、下記に記載する登録処理などが実行されるものとするが、マネージメントＰＣで行われる処理をＭＦＰで実行するようにしても構わない。

さらにＭＦＰ１００は、ＬＡＮ１０９によってマネージメントＰＣ１０１に直接接続されている。

［ＭＦＰ］
図２において、ＭＦＰ１００は、図示しないＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ（以下、ＡＤＦ）を有する画像読み取り部１１０を備える。画像読み取り部１１０は束状の或いは１枚の原稿の画像を光源で照射し、反射画像をレンズで固体撮像素子上に結像する。固体撮像素子は所定解像度（例えば６００ｄｐｉ）および所定輝度レベル（例えば８ビット）の画像読み取り信号を生成し、画像読み取り信号からラスターデータよりなる画像データが構成される。

ＭＦＰ１００は、記憶装置（以下、ＢＯＸ）１１１および記録装置１１２を有し、通常の複写機能を実行する際には、イメージデータをデータ処理装置１１５によって、複写用の画像処理をして記録信号に変換する。複数枚複写の場合には、１頁分の記録信号を一旦ＢＯＸ１１１に記憶保持した後、記録装置１１２に順次出力して、記録紙上に記録画像を形成する。

ＭＦＰ１００は、ＬＡＮ１０７との接続のためのネットワークＩ／Ｆ１１４を有し、ローカルＰＣ１０２、もしくは他の汎用ＰＣ（不図示）からドライバーを利用して出力するＰＤＬ言語によるＰＤＬデータを、記録装置１１２によって記録し得る。ローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータは、ＬＡＮ１０７からネットワークＩ／Ｆ１１４を経てデータ処理装置１１５に入力される。その後、ＰＤＬの言語を解釈・処理することで記録可能な記録信号に変換された後、ＭＦＰ１００において、記録紙上に記録画像として記録される。

ＢＯＸ１１１は、画像読み取り部１１０からのデータやローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータをレンダリングしたデータを保存できる機能を有している。

ＭＦＰ１００は、ＭＦＰ１００に設けられたキー操作部（入力装置１１３）、あるいはマネージメントＰＣ１０１の入力装置（キーボード、ポインティングデバイス等）を通じて操作される。これらの操作のために、データ処理装置１１５は内部の制御部（図示せず。）によって所定の制御を実行する。

ＭＦＰ１００は表示装置１１６を有し、操作入力の状態と、処理すべきイメージデータとを、表示装置１１６によって表示し得る。

ＢＯＸ１１１はＩ／Ｆ１１７を介して、マネージメントＰＣ１０１から直接制御し得る。ＬＡＮ１０９は、ＭＦＰ１００とマネージメントＰＣ１０１との間のデータの授受、制御信号授受に用いられる。

［データ処理装置１１５の詳細］
次に、図２のデータ処理装置１１５の詳細について、図４１を用いて説明する。

尚、図４１の１１０〜１１６については、図２の説明において前述しているため説明を一部省略する。

データ処理装置１１５は、ＣＰＵ、メモリ等で構成される制御ユニットであり、画像情報やデバイス情報の入出力を行うコントローラである。ここで、ＣＰＵ１２０はシステム全体を制御するコントローラである。ＲＡＭ１２３はＣＰＵ１２０が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ１２２はブートＲＯＭであり、システムのブートプログラムが格納されている。

操作部Ｉ／Ｆ１２１は操作部１３３とのインターフェース部で、操作部１３３に表示するための画像データを操作部１３３に対して出力する。また、操作部１３３から本画像処理装置の使用者が入力した情報を、ＣＰＵ１２０に伝える役割をする。以上のデバイスがシステムバス１２４上に配置される。イメージバスインターフェース（ＩｍａｇｅＢｕｓＩ／Ｆ）１２５はシステムバス１２４と画像データを高速で転送する画像バス１２６とを接続し、データ構造を変換するバスブリッジである。

画像バス１２６は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス１２６上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）１２７はＰＤＬコードを解析し、ビットマップイメージに展開する。デバイスＩ／Ｆ部１２８は、信号線１３１を介して画像入出力デバイスである画像読み取り部１１０、信号線１３２を介して記録装置１１２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。

スキャナ画像処理部１２９は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部１３０は、記録装置１１２に出力すべきプリント出力画像データに対して、記録装置１１２に応じた補正、解像度変換等を行う。

オブジェクト分割部１３４は、後述するオブジェクト毎の保存において、後述するオブジェクト分割を行う。オブジェクト別画像処理部１３５は、前記オブジェクト分割部１３４で分割したオブジェクトの属性に応じた画像処理を適用的に切り替えて実施する。処理の詳細は後述する。メタデータ付与部１３６は、前記オブジェクト別画像処理部１３５で画像処理が行われたオブジェクトに対し、後述するメタデータの付与を行う。

選択部１３７は、後述するメタデータの編集処理において、操作部１３３でユーザーにより選択指示された編集対象となる後述の送オブジェクトと受オブジェクトとを選択する。前記選択部１３７で選択されたオブジェクトは、メタデータ解析部１３８においてメタデータの解析を行い、メタデータ更新手順決定部１３９においてメタデータの更新手順を決定し、メタデータ更新部１４０においてメタデータの編集を行う。

［オブジェクト毎の保存］
次に、図３を用いて、図４１に示すオブジェクト分割部１３４、オブジェクト別画像処理部１３５、メタデータ付与部１３６で行われるオブジェクト毎の保存について詳細に説明する。

図３は、ＭＦＰ１００のビットマップ画像データをオブジェクト毎に保存するためのフローチャートである。

ＭＦＰ１００において、前記ビットマップ画像データは、画像読み取り部１１０により取得される。または、ローカルＰＣ１０２上において、アプリケーションソフトで作成されたドキュメントをＭＦＰ１００内部でレンダリングして生成される。

まず、ステップＳ３０１において、オブジェクト分割が行われる。ここでオブジェクト分割後のオブジェクトの種類は、文字、写真、グラフィック（図面、線画、表）、背景、であるものとする。分割された各々のオブジェクトは、ビットマップデータのままで、ステップＳ３０２において、オブジェクトの種類（文字、写真、グラフィック、背景）を判定する。写真の場合、ステップＳ３０３において、ビットマップのままＪＰＥＧ圧縮される。また、背景の場合も同様に、ステップＳ３０３において、ビットマップのままＪＰＥＧ圧縮される。

次に、オブジェクト判定の結果が、グラフィックの場合、ステップＳ３０４において、ベクトル化処理され、パス化されたデータに変換される。最後に、オブジェクト判定の結果が、文字の場合も、ステップＳ３０４において、グラフィックと同様にベクトル化処理され、パス化されたデータに変換される。

更に、文字の場合には、ステップＳ３０８において、ベクトル化処理またはＯＣＲ処理が施される。このベクトル化処理はＳ３０４で用いられたものと同じものである。ＯＣＲ処理が施されたデータに関しては文字コード化されたデータに変換される。全てのオブジェクトデータと、文字コード化されたデータが一つのファイルとしてまとめられる。

次に、ステップＳ３０５において、各オブジェクトに対して、最適なメタデータが付与される。メタデータが付与された各々のオブジェクトは、ステップＳ３０６において、ＭＦＰ１００に内蔵されているＢＯＸに保存される。保存されたデータは、ステップＳ３０７において、ＵＩ画面に表示される。

［ビットマップ画像データの作成］
ここで、図３のＳ３０１にてオブジェクト分割されるイメージデータの入力方法について述べる。
以下のように２つのケースがあるビットマップ画像データ作成について図５、６を用いて説明する。
（ａ）ＭＦＰ１００の画像読み取り部入力の場合
ＭＦＰ１００の画像読み取り部を使用した場合には、図５のステップＳ５０１において、画像を読み込む。読み込まれた画像は、既にビットマップ画像データである。そのビットマップ画像データをステップＳ５０２において、スキャナに依存する画像処理を行う。スキャナに依存する画像処理とは、例えば、色処理やフィルタ処理を指す。
（ｂ）ＰＣ１０２上のアプリケーションソフトを使用した場合
ＰＣ１０２上のアプリケーションソフトを使用して作成したアプリデータは、図６のステップＳ６０１において、ＰＣ１０２上にあるプリントドライバを介して、プリントデータに変換され、ＭＦＰ１００に送信される。ここで言うプリントデータとは、ＰＤＬデータを意味し、例えば、ＬＩＰＳ、Ｐｏｓｔｓｃｒｉｐｔ等によるものを指す。

次にステップＳ６０２において、ＭＦＰ１００内部に存在するインタープリタを介して、ディスプレイリストが生成される。そのディスプレイリストをステップ６０３において、レンダリングすることにより、ビットマップ画像データが生成される。

上記２つの例により生成されたビットマップ画像データは、前述のステップ３０１において、オブジェクト分割される。

〔メタデータ付け（ステップＳ３０５）〕
ここでは前述のステップＳ３０５におけるメタデータ付けの詳細を、図４を用いて説明する。

図４は、ステップＳ３０５のメタデータ付けに関するフローチャートである。

まず、ステップＳ４０１において、そのオブジェクトの周囲で一番近くに存在する文字オブジェクトを選択する。

次に、ステップＳ４０２において、選択された文字オブジェクトに対して、ステップ４０２において、形態素解析を行う。その形態素解析結果により抽出された単語をメタデータとして、ステップ４０３において、各オブジェクトに付加する。なお、メタデータの作成には、形態素解析だけではなく、画像特徴量抽出、構文解析等により、作成できることは言うまでもない。

［ベクトル化されたデータの詳細］
ここでは図３のベクトル化処理Ｓ３０４でベクトル化されたデータの具体例として、ベクトル化されたデータのフォーマットの一例を図１９に示す。なお、本実施形態では、ＳＶＧ形式で表記しているが、これに限定されるものではない。

図１９では説明のため、オブジェクトの表記を枠で囲っている。枠：１９０１はイメージ属性を示し、そこには、イメージオブジェクトの領域を示す領域情報とこのイメージオブジェクトのビットマップ情報が示されている。枠：１９０２はテキストオブジェクトの情報が示され、枠：１９０３では、枠：１９０２で示した内容をベクターオブジェクトとして表現している。続く、枠：１９０４は、表オブジェクトなどのラインアートを表す。

［オブジェクト分割ステップ］
次に、前述のステップＳ３０１におけるオブジェクト分割の詳細について説明する。

ステップＳ３０１（オブジェクト分割ステップ）においては、図７右半部の画像７０２に示すように、入力画像を属性ごとに矩形ブロックに分割する。前述のように、矩形ブロックの属性としては、文字、写真、グラフィック（図面、線画、表など）がある。

オブジェクト分割ステップにおいては、まず、ＲＡＭ（不図示）に格納されたイメージデータを白黒に２値化し、黒画素輪郭で囲まれる画素塊を抽出する。

さらに、このように抽出された黒画素塊の大きさを評価し、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡を行う。白画素塊に対する大きさ評価、内部黒画素塊の追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡を行う。画素塊の大きさは、例えば画素塊の面積によって評価される。

このようにして得られた画素塊に外接する矩形ブロックを生成し、矩形ブロックの大きさ、形状に基づき属性を判定する。

例えば、縦横比が１に近く、大きさが一定の範囲の矩形ブロックは文字領域矩形ブロックの可能性がある文字相当ブロックとする。近接する文字相当ブロックが規則正しく整列しているときに、これら文字相当ブロックを纏めた新たな矩形ブロックを生成し、新たな矩形ブロックを文字領域矩形ブロックとする。

また扁平な画素塊を、もしくは一定大きさ以上でかつ四角形の白画素塊を整列よく内包する黒画素塊をグラフィック領域矩形ブロック、それ以外の不定形の画素塊を写真領域矩形ブロックとする。

オブジェクト分割ステップでは、このようにして生成された矩形ブロックのそれぞれについて、図８に示すような、属性等のブロック情報および入力ファイル情報を生成する。

図８において、ブロック情報には各ブロックの属性、位置の座標Ｘ、座標Ｙ、幅Ｗ、高さＨ、ＯＣＲ情報が含まれる。属性は１〜３の数値で与えられ、１は文字領域矩形ブロック、２は写真領域矩形ブロック、３はグラフィック領域矩形ブロックを示す。座標Ｘ、座標Ｙは入力画像における各矩形ブロックの始点のＸ、Ｙ座標（左上角の座標）である。幅Ｗ、高さＨは矩形ブロックのＸ座標方向の幅、Ｙ座標方向の高さである。ＯＣＲ情報は入力画像におけるポインタ情報の有無を示す。さらに入力ファイル情報として矩形ブロックの個数を示すブロック総数Ｎが含まれる。

これらの矩形ブロックごとのブロック情報は、特定領域でのベクトル化に利用される。またブロック情報によって、特定領域とその他の領域を合成する際の相対位置関係を特定でき、入力画像のレイアウトを損なわずにベクトル化領域とラスターデータ領域を合成することが可能となる。

［ベクトル化ステップ］
次いで、前述のステップＳ３０４におけるベクトル化処理の詳細について、図９を用いて説明する。このステップＳ３０４（ベクトル化ステップ）の処理は、具体的には図９の各ステップによって実行される。

ステップＳ９０１：特定領域が文字領域矩形ブロックであるか否か判断し、文字領域矩形ブロックであればステップＳ９０２以下のステップに進み、周知のパターンマッチングの一手法を用いて認識を行い、対応する文字コードを得る。特定領域が文字領域矩形ブロックでないときは、ステップＳ９１２に移行する。

ステップＳ９０２：特定領域に対し横書き、縦書きの判定（組み方向判定）をおこなうために、特定領域内で画素値に対する水平・垂直の射影を取る。

ステップＳ９０３：ステップＳ９０２で求めた射影の分散を評価する。水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判断する。

ステップＳ９０４：ステップＳ９０３の評価結果に基づき、組み方向を判定し、行の切り出しを行い、その後切出した行からさらに文字を切り出して文字画像を得る。

文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、切り出された行に対する垂直方向の射影から、文字を切り出す。縦書きの文字領域に対しては、水平と垂直について逆の処理を行う。行、文字切り出しに際して、文字のサイズも検出し得る。

ステップＳ９０５：ステップＳ９０４で切り出された各文字について、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルを生成する。この観測特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴ベクトルとする方法がある。

ステップＳ９０６：ステップＳ９０５で得られた観測特徴ベクトルと、あらかじめフォントの種類ごとに求められている辞書特徴ベクトルとを比較し、観測特徴ベクトルと辞書特徴ベクトルとの距離を算出する。

ステップＳ９０７：ステップＳ９０６で算出された各特徴ベクトル間の距離を評価し、最も距離の近いフォントの種類を認識結果とする。

ステップＳ９０８：ステップＳ９０７における距離評価において、最短距離が所定値よりも大きいか否か、類似度を判断する。類似度が所定値以上の場合は、辞書特徴ベクトルにおいて、形状が類似する他の文字に誤認識している可能性が高い。そこで類似度が所定値以上の場合は、ステップＳ９０７の認識結果を採用せず、ステップＳ９１１に進む。類似度が所定値より低い（小さい）ときは、ステップＳ９０７の認識結果を採用し、ステップ９０９に進む。

ステップＳ９０９（フォント認識ステップ）：文字認識の際に用いる、フォントの種類数分の辞書特徴ベクトルを、文字形状種すなわちフォント種に対して複数用意しておく。パターンマッチングの際に、文字コードとともに前記辞書特徴ベクトルのフォント種を出力することで、文字フォントを認識し得る。

ステップＳ９１０：文字認識およびフォント認識よって得られた文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、各文字をベクトルデータに変換する。なお、入力画像がカラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録する。

ステップＳ９１１：文字を一般的なグラフィックと同様に扱い、この文字をアウトライン化する。すなわち誤認識を起こす可能性の高い文字については、イメージデータに可視的に忠実なアウトラインのベクトルデータを生成する。

ステップＳ９１２：特定領域が文字領域矩形ブロックでないときは、画像の輪郭に基づいてベクトル化の処理を実行する。

以上の処理により、文字領域矩形ブロックに属するイメージ情報をほぼ形状、大きさ、色が忠実なベクトルデータに変換出来る。

［グラフィック領域のベクトル化］
ステップＳ３０２にて、文字領域矩形ブロック以外の領域、すなわちグラフィック領域矩形ブロックと判断されたときは、特定領域内で抽出された黒画素の塊の輪郭をベクトルデータに変換する。

文字領域以外の領域のベクトル化においては、まず線画等を直線および／または曲線の組み合わせとして表現するために、曲線を複数の区間（画素列）に区切る「角」を検出する。角とは曲率が極大となる点であり、例えば図１０に示す曲線上の画素Ｐｉが角か否かの判断は以下のように行う。

すなわち、Ｐｉを起点とし、曲線に沿ってＰｉから両方向に所定画素（ここではｋ個とする）ずつ離れた画素Ｐｉ−ｋ、Ｐｉ＋ｋを線分Ｌで結ぶ。画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の距離をｄ１、線分Ｌと画素Ｐｉとの距離をｄ２、曲線の画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の弧の長さをＡとする。ｄ２が極大となるとき、あるいは比（ｄ１／Ａ）が閾値以下となるときに画素Ｐｉを角と判断する。

角によって分割された画素列を、直線あるいは曲線で近似する。直線への近似は最小二乗法等により実行し、曲線への近似は３次スプライン関数などを用いる。画素列を分割する角の画素は近似直線あるいは近似直線における、始端または終端となる。

さらにベクトル化された輪郭内に白画素塊の内輪郭が存在するか否かを判断し、内輪郭が存在するときはその輪郭をベクトル化し、内輪郭の内輪郭というように、再帰的に反転画素の内輪郭をベクトル化する。

以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。元原稿がカラーの場合は、カラー画像から図形の色を抽出して抽出した色情報をベクトルデータとともに記録する。

図１１に示すように、ある注目区間で外輪郭ＰＲｊと、内輪郭ＰＲｊ＋１あるいは別の外輪郭が近接している場合、２個あるいは複数の輪郭線をひとまとめにし、太さを持った線として表現することができる。例えば、輪郭ＰＲｊ＋１の各画素Ｐｉから輪郭ＰＲｊ上で最短距離となる画素Ｑｉまでの距離ＰＱｉを算出し、ＰＱｉのばらつきがわずかである場合には、注目区間を画素Ｐｉ、Ｑｉの中点Ｍｉの点列に沿った直線または曲線で近似し得る。近似直線、近似曲線の太さは、例えば距離ＰＱｉの平均値とする。

線や線の集合体である表罫線は、太さを持つ線の集合とすることにより、効率よくベクトル表現することができる。

輪郭まとめの処理の後、全体の処理を終了する。

なお写真領域矩形ブロックについては、ベクトル化せず、イメージデータのままとする。

［図形認識］
以上のように線図形等のアウトラインをベクトル化した後、ベクトル化された区分線を図形オブジェクトごとにグループ化する。

以下に説明する図１２の各ステップは、ベクトルデータを図形オブジェクトごとにグループ化する処理を示す。

ステップＳ１２０１：まず各ベクトルデータの始点、終点を算出する。

ステップＳ１２０２（図形要素検出）：ステップＳ１２０１で求められた始点、終点情報を用いて、図形要素を検出する。図形要素とは、区分線が構成している閉図形であり、検出に際しては、始点、終端となっている共通の角の画素においてベクトルを連結する。すなわち、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用する。

ステップＳ１２０３：次に図形要素内に存在する他の図形要素、もしくは区分線をグループ化し、一つの図形オブジェクトとする。また、図形要素内に他の図形要素、区分線が存在しない場合は図形要素を図形オブジェクトとする。

［図形要素の検出］
上記ステップＳ１２０２（図形要素検出）の処理は、具体的には図１３の各ステップによって実行される。

ステップＳ１３０１：まず、ベクトルデータより両端に連結していない不要なベクトルを除去し、閉図形を構成するベクトルを抽出する。

ステップＳ１３０２：次に閉図形を構成するベクトルについて、いずれかのベクトルの端点（始点または終点）を開始点とし、一定方向、例えば時計回りに、順にベクトルを探索する。すなわち、他端点において他のベクトルの端点を探索し、所定距離内の最近接端点を連結ベクトルの端点とする。閉図形を構成するベクトルを１まわりして開始点に戻ったとき、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する。また、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらにまだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。

ステップＳ１３０３：最後に、ステップＳ１３０１で除去された不要ベクトルのうち、ステップＳ１３０２で閉図形としてグループ化されたベクトルに端点が近接しているベクトルを検出し、一つの図形要素としてグループ化する。

以上の処理によって図形ブロックを、再利用可能な個別の図形オブジェクトとして扱うことが可能になる。

［ＢＯＸ保存処理］
次いで、前述したステップＳ３０６のＢＯＸ保存の詳細について説明する。

図３のオブジェクト分割ステップ（ステップＳ３０１）の後、ベクトル化（ステップＳ３０４）した結果のデータを用いて、ＢＯＸ保存データへの変換処理が実行される。本実施形態では、ステップＳ３０４のベクトル化処理結果は図１４に示す中間データの形式、いわゆるドキュメント・アナリシス・アウトプット・フォーマット（以下、ＤＡＯＦ）と呼ばれる形式で保存されている。

図１４において、ＤＡＯＦは、ヘッダ１４０１、レイアウト記述データ部１４０２、文字認識記述データ部１４０３、表記述データ部１４０４、画像記述データ部１４０５よりなる。

ヘッダ１４０１には、処理対象の入力画像に関する情報が保持される。

レイアウト記述データ部１４０２には、入力画像中の矩形ブロックの属性である文字、線画、図面、表、写真等の情報と、これら属性が認識された各矩形ブロックの位置情報が保持される。

文字認識記述データ部１４０３には、文字領域矩形ブロックのうち、文字認識して得られる文字認識結果が保持される。

表記述データ部１４０４には、表の属性を持つグラフィック領域矩形ブロックの表構造の詳細が格納される。

画像記述データ部１４０５には、グラフィック領域矩形ブロックにおけるイメージデータが、入力画像データから切り出して保持される。

ベクトル化処理を指示された特定領域においては、ベクトル化処理により得られたブロックに対して、画像記述データ部１４０５には、そのブロックの内部構造や、画像の形状や文字コード等を表すデータの集合が保持される。

一方、ベクトル化処理の対象ではない、特定領域以外の矩形ブロックでは、入力画像データそのものが保持される。

ここで、ＢＯＸ保存データへの変換処理について図１５〜１８を用いて説明する。

ＢＯＸ保存データへの変換処理は図１５に示す各ステップにより実行される。

ステップＳ１５０１（図１５）：ＤＡＯＦ形式のデータを入力する。

ステップＳ１５０２：アプリデータの元となる文書構造ツリー生成を行う。

ステップＳ１５０３：文書構造ツリーを元に、ＤＡＯＦ内の実データを取得し、実際のアプリデータを生成する。

このステップＳ１５０２の文書構造ツリー生成処理は、図１６の各ステップにより実行される。図１６の処理における全体制御の基本ルールとして、処理の流れはミクロブロック（単一矩形ブロック）からマクロブロック（矩形ブロックの集合体）へ移行する。以後「矩形ブロック」は、ミクロブロックおよびマクロブロック両者を意味するものとする。

ステップＳ１６０１（図１６）：矩形ブロック単位で、縦方向の関連性に基づいて、矩形ブロックを再グループ化する。図１６の処理は繰り返し実行されることがあるが、処理開始直後はミクロブロック単位での判定となる。

ここで、関連性とは、距離が近い、ブロック幅（横方向の場合は高さ）がほぼ同一であることなどの特徴によって定義される。また、距離、幅、高さなどの情報はＤＡＯＦを参照し、抽出する。

一例として示す図１７のイメージデータでは、最上部で、矩形ブロックＴ１、Ｔ２が横方向に並列されている。矩形ブロックＴ１、Ｔ２の下には横方向セパレータＳ１が存在し、横方向セパレータＳ１の下に矩形ブロックＴ３、Ｔ４、Ｔ５、Ｔ６、Ｔ７が存在する。

矩形ブロックＴ３、Ｔ４、Ｔ５は、横方向セパレータＳ１下側の領域における左半部において上から下に、縦方向に配列され、矩形ブロックＴ６、Ｔ７は、横方向セパレータＳ１下側の領域における右半部において上下に配列されている。

このようなイメージデータに対し、ステップＳ１６０１の縦方向の関連性に基づくグルーピングの処理を実行する。これによって、矩形ブロックＴ３、Ｔ４、Ｔ５が１個のグループ（矩形ブロック）Ｖ１にまとめられ、矩形ブロックＴ６、Ｔ７が１個のグループ（矩形ブロック）Ｖ２にまとめられる。グループＶ１、Ｖ２は同一階層となる。

ステップＳ１６０２：縦方向のセパレータの有無をチェックする。セパレータは、ＤＡＯＦ中でライン属性を持つオブジェクトであり、アプリケーションソフトウエア中で明示的にブロックを分割する機能をもつ。セパレータを検出すると、処理対象の階層において、入力画像の領域を、セパレータを境界として左右に分割する。図１７の例では縦方向のセパレータは存在しない。

ステップＳ１６０３：縦方向のグループ高さの合計が入力画像の高さに等しくなったか否か判断する。すなわち縦方向（例えば上から下へ。）に処理対象の領域を移動しながら、横方向のグルーピングを行うとき、入力画像全体の処理が終了したときには、グループ高さ合計が入力画像高さになることを利用し、処理の終了判断を行う。グルーピングが終了したときはそのまま処理終了し、グルーピングが終了していなかったときはステップＳ１６０４に進む。

ステップＳ１６０４：横方向の関連位に基づくグルーピングの処理を実行する。これによって、矩形ブロックＴ１、Ｔ２が１個のグループ（矩形ブロック）Ｈ１にまとめられ、矩形ブロックＶ１、Ｖ２が１個のグループ（矩形ブロック）Ｈ２にまとめられる。グループＨ１、Ｈ２は同一階層となる。ここでも、処理開始直後はミクロブロック単位での判定となる。

ステップＳ１６０５：横方向のセパレータの有無をチェックする。セパレータを検出すると、処理対象の階層において、入力画像の領域を、セパレータを境界として上下に分割する。図１７では横方向のセパレータＳ１が存在する。

以上の処理結果は図１８に示すツリーとして登録される。

図１８において、入力画像Ｖ０は、最上位階層にグループＨ１、Ｈ２、セパレータＳ１を有し、グループＨ１には第２階層の矩形ブロックＴ１、Ｔ２が属する。グループＨ２には、第２階層のグループＶ１、Ｖ２が属し、グループＶ１には、第３階層の矩形ブロックＴ３、Ｔ４、Ｔ５が属し、グループＶ２には、第３階層の矩形ブロックＴ６、Ｔ７が属する。

ステップＳ１６０６：横方向のグループ長合計が入力画像の幅に等しくなったか否か判断する。これによって横方向のグルーピングに関する終了判断を行う。横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成の処理を終了する。横方向のグループ長がページ幅となっていないときは、ステップＳ１６０１に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。

［表示方法］
次に、図３のＳ３０７に示したＵＩに表示に関して、図２０〜２４を用いて詳細な説明を行う。

図２０にユーザーインターフェースの一例を示す。このユーザーインターフェースは、ＭＦＰ１００が有する表示装置１１６の例である。しかしながら、ユーザーインターフェースはこれに限るものではなく、マネージメントＰＣ１０１、または、ネットワークで接続されたローカルＰＣ１０２が有するアプリケーションを用いて表示するＲｅｍｏｔｅＵＩのような表示装置によるものでもよい。

図２０において、２００１にはＢＯＸ内に保存されているデータが表示されている。２００２に示すように一つ一つの文章には名前がついており、入力された時間などの情報も表示される。オブジェクト分割表示を行う場合には、２００１で原稿を選択して、オブジェクト表示ボタン２００３を押すことで表示が変わる。これに関しては、後述する。また、２００１で原稿を選択して、ページ表示ボタン２００４を押すことでも表示が変わる。これに関しても後述する。

図２１にユーザーインターフェースの他の例を示す。図２１の２１０１は、前述のステップＳ３０６でＢＯＸ保存されたデータの内容を表示する。このユーザーインターフェースでは、ラスタ画像を縮小した画像を表示することや、前述したＳＶＧを使って表示をさせることも可能である。つまり、前述してきたデータを基にページ全体を表示していれば良い。

２１０２は、ＭＦＰの機能を選択するためのタブで、このタブの押下により、コピーや送信、リモート操作、ブラウザー、ＢＯＸといったＭＦＰが持っている機能を選択できるものである。これ以外の機能に対しても同様の表示を行うことが出来ることは示すまでもない。

２１０３は、原稿モードを選択するためのリスト表示であり、原稿を読み取る場合の原稿モードを選択することが出来る。これは原稿タイプによって、画像処理を切り替えるために選択をするものでここに示した以外のモードも同様に表示選択をすることが出来る。２１０４には、原稿読み取りのスタートのボタンを２１０４に示している。このボタンの押下により、スキャナが動作して、画像を読み込むことになる。この例では、読込みスタートを画面内に設けているが、別途設けたスタートボタンによって読み込みを開始してもよい。

図２２に示すユーザーインターフェースの例は、オブジェクト分割した結果が分かるように、各オブジェクトに枠を表示させるようにしたものである。２２０１のボタンを押すことにより、ページ表示画面２２０２に対してそれぞれオブジェクトの枠が表示される。枠には色付けをすることにより、オブジェクトの違いを分かるように表示することや、線の太さ、あるいは、点線、破線の違いなどにより、オブジェクトの違いを分かるように表示を行う。ここでオブジェクトの種類としては、前述したように文字、図面、線画、表、写真等である。

２２０３は検索を行うための文字を入力するのに用いる表示である。ここに文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索を行う。そして検索されたオブジェクトあるいはページを表示する。

図２３は、２３０２のオブジェクト表示を押すことによりページ内のオブジェクトが表示される例である。２３０１に示すように、ページという概念ではなく、一つ一つのオブジェクトが部品として表示が行われる。また、２３０４のページ表示を押すことで１ページの画像として見えるように切替表示も行える。

さらに、２３０３は検索を行うための文字を入力するのに用いる表示である。ここに文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索を行う。また検索されたオブジェクトあるいはページを表示する。

図２４は、オブジェクトのメタデータを表示した画面の例である。ある一つのオブジェクトを選択するとそのオブジェクトの画像２４０３と前述したメタデータ２４０２が表示される。メタデータは、オブジェクトの情報として、エリアＩＤ、幅、高さ、属性、ユーザー情報、ＭＦＰの設置場所の情報、入力した時間、キャプションなどの情報を表示する。ここで、この例では、写真属性のオブジェクトであり、オブジェクトの近くにあった文字オブジェクトのＯＣＲ情報から形態素解析を用いて名詞のみを取り出して表示を行っている、それが図示したＴＥＸＴという文字列にあたる。

また、メタデータに対しては、２４０４に示す各ボタンにより編集や追加、削除を行うことを可能としている。さらに、２４０５は検索を行うための文字を入力するのに用いる表示である。ここに文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索を行う。また検索されたオブジェクトあるいはページを表示する。

［メタデータの編集］
次に、前記図４１で示した選択部１３７、メタデータ解析部１３８、メタデータ更新手順決定部１３９、メタデータ更新部１４０で行うメタデータの編集について、図２５〜３４を用いて以下に詳細に説明する。

図２５は、本実施形態におけるキーボード入力を必要としない、メタデータの編集画面の例である。前述した図２１〜２３の何れの画面においても、メタデータの編集は可能であるが、ユーザーが理解しやすい画面としては、オブジェクト分割した結果を分かるように各オブジェクトに枠を表示させている図２２が望ましい。そのため、図２５は、図２２と同じ構成でオブジェクトに枠を表示させている。

ユーザーはこの画面上で、１つのオブジェクトをタッチペン、または、マウスを用いて選択し、選択したオブジェクトを他のオブジェクトにドラッグアンドドロップすることで、メタデータの編集を行う。

図２６は、図２５の２５０１の画面の拡大図である。まず、図２７の２７０１〜２７０６を用いて２６０１〜２６０６のオブジェクトのメタデータの説明を行う。

図２７の２７０１〜２７０６は、２６０１〜２６０６のオブジェクトの各々のメタデータのデータ形式を示す図である。ここで、メタデータのデータ形式は、前述したＳＶＧのデータ形式、または、ＸＭＬのデータ形式のように「タグ」を用いるマークアップ言語が一般的であるため、本実施形態においても、メタデータのデータ形式をマークアップ言語で示している。これらのメタデータのデータ形式は、図２４を用いて前述したように、表示用のデータ形式に変換して画面で表示することが可能である。

以下、メタデータのデータ形式に関する説明を、図２７の２７０１を用いて説明する。

＜ｉｄ＞１＜／ｉｄ＞は、オブジェクト２６０１のエリアＩＤを示すデータであり、図２４に示されるエリアＩＤを表示するためのデータである。

＜ａｔｔｒｉｂｕｔｅ＞写真＜／ａｔｔｒｉｂｕｔｅ＞は、オブジェクト２６０１の属性を示すデータであり、オブジェクト２６０１は、写真属性であることを示している。その他、文字や写真やグラフィック等の属性があり、これらは、前述したステップＳ３０１にて決定される。

＜ｗｉｄｔｈ＞Ｗ１＜／ｗｉｄｔｈ＞は、オブジェクト２６０１の幅を示すデータであり、図２４に示される幅を表示するためのデータである。

＜ｈｅｉｇｈｔ＞Ｈ１＜／ｈｅｉｇｈｔ＞は、オブジェクト２６０１の高さを示すデータであり、図２４に示される高さを表示するためのデータである。

＜ｊｏｂ＞ＰＤＬ＜／ｊｏｂ＞は、オブジェクト２６０１のジョブ種であり、前述したようにビットマップデータの生成において、ＭＦＰ１００の画像読み取り部入力の場合は、ジョブ種はＳＣＡＮとなる。また、ＰＣ１０２上のアプリケーションソフトを使用した場合は、ジョブ種はＰＤＬとなる。

＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞は、オブジェクト２６０１のユーザー情報を示すデータであり、図２４に示されるユーザーを表示するためのデータである。

＜ｐｌａｃｅ＞Ｆ社Ｇ階＜／ｐｌａｃｅ＞は、ＭＦＰの設置場所の情報を示すデータであり、図２４に示される場所を表示するためのデータである。

＜ｔｉｍｅ＞２００７／０３／１９１７：０９＜／ｔｉｍｅ＞は、入力した時間を示すデータであり、図２４に示される時間を表示するためのデータである。

＜ｃａｐｔｉｏｎ＞一眼レフカメラ＜／ｃａｐｔｉｏｎ＞は、オブジェクト２６０１のキャプションを示すデータであり、図２４に示されるキャプションを表示するためのデータである。

ここで、図２８を用いて、ユーザーが図２５の画面上で、１つのオブジェクトを選択し、さらに、該オブジェクトを他のオブジェクトにドラッグアンドドロップしたときの各々のオブジェクトのメタデータの付き方に関して説明する。

ここで、前述した選択部１３７において、操作部１３３でユーザーが最初に選択したオブジェクトを送オブジェクトとし、ドラッグアンドドロップされた他のオブジェクトを受オブジェクトとして選択する。

また、以下では、送オブジェクトを受オブジェクトにドラッグアンドドロップを行う場合について説明する。しかしながら、図２９に示すように最初に選択されたオブジェクトを２９０１で示すように（１）の番号を付けて表示し、次に選択されたオブジェクトを２９０２で示すように（２）の番号を付けて表示してもよい。そのようにして、送オブジェクトを（１）、受オブジェクトを（２）とし、互いの関係が明示的に表示できるようなユーザーインターフェース（オブジェクト関連付け手段）であれば、ドラッグアンドドロップに限るものではない。

まず、ユーザーが、２６０３のオブジェクトを２６０１のオブジェクトへドラッグアンドドロップした場合について説明を行う。この場合、前述したように、２６０３は、送オブジェクト、２６０１は、受オブジェクトとなる。

まず、ステップＳ２８０１にて、送オブジェクトとして、２６０３を選択する。

次に、ステップＳ２８０２にて、ステップＳ２８０１において選択された送オブジェクトのメタデータ解析を行う。このメタデータ解析により、２７０３のメタデータのデータ形式が参照され、２６０３は、＜ａｔｔｒｉｂｕｔｅ＞文字＜／ａｔｔｒｉｂｕｔｅ＞の属性をもっていることがわかる。

次に、ステップＳ２８０３にて、送オブジェクトの属性を判別する。ここで、送オブジェクトの属性は、文字であるためステップＳ２８０４へ進む。

次に、ステップＳ２８０４にて、受オブジェクトとして、２６０１が選択される。正確には、２６０３のオブジェクトを２６０１のオブジェクトへドラッグアンドドロップしているため、２６０１が受オブジェクトとなる。

次に、ステップＳ２８０５にて、受オブジェクトのメタデータ解析を行う。このメタデータ解析により、２７０１のメタデータのデータ形式が参照され、２６０１は、＜ａｔｔｒｉｂｕｔｅ＞写真＜／ａｔｔｒｉｂｕｔｅ＞の属性をもっていることがわかる。

次に、ステップＳ２８０６にて、受オブジェクトの属性を判別する。ここで、受オブジェクトの属性は、写真であるためステップＳ２８０８へ進む。

次に、ステップＳ２８０８にて、受メタデータマージ処理を行う。ここでは、送オブジェクトとして、文字属性のオブジェクト２６０３が選択され、受オブジェクトとして、写真属性のオブジェクト２６０１が選択されているため、２６０１のメタデータ２７０１のみを図３０の３００１のように更新する。ここで、２７０１と比較して、３００１は、２７０３の＜ｃａｐｔｉｏｎ＞豊かな階調性と高彩度な色再現性。高画質へのこだわりに応えます。＜／ｃａｐｔｉｏｎ＞部分のメタデータが追記されていることがわかる。

次に、ユーザーが、２６０１のオブジェクトを２６０３のオブジェクトへドラッグアンドドロップした場合について説明を行う。この場合、前述したように、２６０１は、送オブジェクト、２６０３は、受オブジェクトとなる。送オブジェクトの属性は、写真であり受オブジェクトの属性は、文字であるため、前述した処理を経て、ステップＳ２８１２に進む。

ステップＳ２８１２にて、送メタデータマージ処理を行う。ここでは、送オブジェクトとして、写真属性のオブジェクト２６０１が選択され、受オブジェクトとして、文字属性のオブジェクト２６０３が選択されているため、２６０１のメタデータ２７０１のみを図３０の３００１のように更新する。

このように、メタデータの編集を行う際に、文字のオブジェクトを写真のオブジェクトへドラッグアンドドロップした場合と、写真のオブジェクトを文字のオブジェクトへドラッグアンドドロップした場合で、同様のメタデータ編集結果を得ることが可能である。

次に、ユーザーが、２６０３のオブジェクトを２６０２のオブジェクトへドラッグアンドドロップした場合について説明を行う。この場合、前述したように、２６０３は、送オブジェクト、２６０２は、受オブジェクトとなる。送オブジェクトの属性は文字であり、受オブジェクトの属性も文字であるため、前述した処理を経て、ステップＳ２８０７に進む。

次いで、ステップＳ２８０７にて、後述する文字用マージ処理を行う。ここでは、文字用マージ処理によって、２６０２のメタデータ２７０２が図３１の３１０１のように更新される。

図３２は、送オブジェクト、受オブジェクト共に属性が文字だった場合に行われる、前述の文字用マージ処理のフローチャートである。前述の送オブジェクトが２６０３であり、受けオブジェクトが２６０２であった場合を例にとって以下に文字用マージ処理の詳細を説明する。

まず、ステップＳ３２０１にて、送オブジェクトとして２６０３が、受オブジェクトとして２６０２が選択されているため、送オブジェクト２６０３のメタデータ２７０３と、受オブジェクト２６０２のメタデータ２７０２のメタデータ文字数解析を行う。このメタデータ文字数解析により、メタデータ２７０３のキャプションに含まれる文字数を送文字数として、メタデータ２７０２に含まれる文字数を受文字数として、それぞれ取得する。具体的には、メタデータ２７０３のキャプション＜ｃａｐｔｉｏｎ＞豊かな階調性と高彩度な色再現性。高画質へのこだわりに応えます。＜／ｃａｐｔｉｏｎ＞から、送文字数が３１であるとわかる。さらに、メタデータ２７０２のキャプション＜ｃａｐｔｉｏｎ＞一眼レフカメラ＜／ｃａｐｔｉｏｎ＞から、送文字数が７であるとわかる。

次に、ステップ３２０２にて、前述の送文字数と受文字数の大小比較を行う。送文字数は３１、受文字数は７であるからステップＳ３２０５に進む。

次に、ステップＳ３２０５にて、受オブジェクト２６０２のメタデータ２７０２を、図３１のメタデータ３１０１のように更新する。

次に、送オブジェクトが文字の属性であるオブジェクト２６０６、受オブジェクトが文字の属性であるオブジェクト２６０４である場合を例に、前述の文字用マージ処理の動作をさらに説明する。

この場合、前述したようにステップＳ３２０１にて、送オブジェクト２６０６のメタデータ２７０６と受オブジェクト２６０４のメタデータ２７０４とから送文字数と受文字数をそれぞれ取得する。メタデータ２７０６のキャプションは＜ｃａｐｔｉｏｎ＞コンパクトカメラ＜／ｃａｐｔｉｏｎ＞であるから、送文字数は８となる。また、メタデータ２７０４のキャプションは＜ｃａｐｔｉｏｎ＞優れた携帯性と高画質の両立を実現。小さくても実力派です。＜／ｃａｐｔｉｏｎ＞であるから、受文字数は２８となる。

次に、ステップＳ３２０２にて、送文字数と受文字数との大小比較を行う。送文字数は８、受文字数は２８であるからステップＳ３２０３へ進む。

次に、ステップ３２０３にて、送文字数と予め設定する文字数閾値との比較を行う。本実施形態では、一例として文字数閾値を１０とする。送文字数は８であり、文字数閾値よりも小さいため、ステップＳ３２０４へ進む。このとき、送文字数が文字数閾値以上の場合にはステップＳ３２０５へと進むことになる。

次に、ステップＳ３２０４にて、送オブジェクト２６０６のメタデータ２７０６を、図３３のメタデータ３３０１のように更新する。

このように、文字と文字のオブジェクトでメタデータの編集を行う場合に、送オブジェクトであっても文字数の大小から判定を行いメタデータの編集を行うことで、再利用の可能性が高い、少ない文字数の文字オブジェクトを優先して編集することが可能となる。

次に、ユーザーが、２６０１のオブジェクトを２６０５のオブジェクトへドラッグアンドドロップした場合について説明を行う。

この場合、前述したように、２６０１は、送オブジェクト、２６０５は、受オブジェクトとなる。送オブジェクトの属性は写真であり、受オブジェクトの属性も写真であるため、前述した処理を経て、ステップＳ２８１３に進む。ステップＳ２８１３にて、後述する受メタデータリンク処理を行う。ここでは、受メタデータリンク処理によって、２６０５のメタデータ２７０５が図３４の３４０１のように更新される。

ここで、上記受メタデータリンク処理について説明する。

ステップＳ２８１３の受メタデータリンク処理は、受オブジェクトに送オブジェクトのメタデータをリンク情報として保持させるものである。前述のメタデータ３４０１に示すように、＜ｌｉｎｋ＞ＡＤＤＲＥＳＳ１＜／ｌｉｎｋ＞として送オブジェクト２６０１へのリンク情報を示すアドレスが保持される。ＡＤＤＲＥＳＳ１は、オブジェクト２６０１のメタデータ２７０１を示し、ＭＦＰ１００内のＢＯＸ１１１に保存されたオブジェクト２６０１のメタデータ２７０１を示すディレクトリ及びファイル名で構成される。また、ＭＦＰ１００外、例えばデータベース１０５に保存されているオブジェクトをリンクさせる場合には、データベース１０５のネットワーク上の位置を示すＩＰアドレスなどを含んでも良い。

このように、写真と写真のオブジェクト同士でメタデータの編集を行う場合に、リンク情報としてメタデータの関連付けを行えば、リンクした送オブジェクトのメタデータが編集された場合においても、ユーザーが意識することなく最新の状態を保つことができる。さらに、前述の検索手段を用いて検索を行った場合において、メタデータ内にリンク情報を含んでいれば、リンクされた写真オブジェクトのメタデータを検索に用いることはもちろん、リンクされたオブジェクトの写真画像をも容易に閲覧することが出来る。また、受オブジェクトに送オブジェクトのメタデータをリンク情報として保持させる、送メタデータリンク処理を行っても良い。

以上説明したように、本実施形態の画像処理方法はメタデータの編集が容易であり、ユーザーにとって直感的に理解がしやすく、かつ後で検索がしやすいメタデータの付与が可能となる。

［実施形態２］
次に本発明に係る画像処理方法の第２の実施形態を図面に基づいて説明する。

本実施形態２では、関連付けされた第１と第２のオブジェクトのユーザー情報に基づいて、メタデータのマージ方法を切り替える方法について説明する。

図３５、および図３６は、本実施形態２におけるキーボード入力を必要としない、メタデータの編集画面の例である。なお、本実施形態は、前述した実施形態１と同じ構成を有し、その構成についての説明は省略する。

［メタデータの編集］
本実施形態２では、前述の実施形態１と同様に、図２１〜２３の何れの画面においても、本実施形態で説明するメタデータの編集は可能である。しかしながら、ユーザーが理解しやすい画面としては、オブジェクト分割した結果を分かるように各オブジェクトに枠を表示させている図２２が望ましいため、図３５は、図２２と同じ構成でオブジェクトに枠を表示させている。

ユーザーはこの画面上で、１つのオブジェクトをタッチペン、または、マウスを用いて選択し、選択したオブジェクトを他のオブジェクトにドラッグアンドドロップすることで、メタデータの編集を行う。さらに、図３５において、３５０１のボタンを押すことで図３６の視覚的なメタデータ編集画面が可能な画面へと移動することができる。

図３６は図３５と同様に、ユーザーがタッチペン、または、マウスを用いてドラッグアンドドロップすることでメタデータの編集を行うことができる。３６０１は、後述する３６０２の検索方法にて検索されたページ、あるいはオブジェクトを表示する画面である。前述の３６０２は、検索を行うための文字を入力するのに用いる表示である。ここに文字列を入力して検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索方法を用いることで、オブジェクトあるいはページの検索を行う。また、３６０３のボタンを押すことで図３５の編集画面へと戻ることも可能である。

図３７は、図３６の３６０１の画面の拡大図であり、図３８は、図３７のオブジェクト３７０１、３７０２、３７０３それぞれのメタデータ３８０１、３８０２、３８０３である。オブジェクト３６０１〜３６０３は、メタデータ３７０１〜３７０３の＜ｕｓｅｒ＞ＵＳＥＲ２＜／ｕｓｅｒ＞から、オブジェクト２６０１〜２６０６とは異なるユーザーが作成したことがわかる。

次に、本実施形態における、第１のオブジェクトを第２のオブジェクトへドラッグアンドドロップした場合の動作を、図２８と図３９を用いて以下に説明する。

本実施形態では、写真属性のオブジェクト同士のドラッグアンドドロップ動作においてのみ実施形態１と異なるため、この動作以外の詳細な説明は省略する。

まず、ユーザーが、２６０１のオブジェクトを２６０５のオブジェクトへドラッグアンドドロップした場合について説明を行う。この場合、前述したように、２６０１は、送オブジェクト、２６０５は、受オブジェクトとなる。送オブジェクトの属性は写真であり、受オブジェクトの属性も写真であるため、実施形態１で述べた処理を経て、ステップＳ２８１３に進む。ステップＳ２８１３にて、図３９の受メタデータリンク処理に進む。

次に、図３９のステップＳ３９０１にて、送オブジェクト２６０１のメタデータ２７０１からユーザー情報を送ユーザーとして、受オブジェクト２６０５のメタデータ２７０５からユーザー情報を受ユーザーとして取得する。ここでは、メタデータ２７０１のユーザー情報は＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞であるから、送ユーザーはＵＳＥＲ１となり、メタデータ２７０５のユーザー情報は＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞であるから、受ユーザーはＵＳＥＲ１となる。

次に、ステップＳ３９０２にて、送ユーザーと受ユーザーが同一かを判断する。送ユーザー、受ユーザー共にＵＳＥＲ１であるから、ステップＳ３９０３に進む。

次に、ステップＳ３９０３にて、受オブジェクトに送オブジェクトのメタデータをリンク情報として保持させ、メタデータ２６０５は、図３４の３４０１のように更新される。具体的には、メタデータ３４０１に示すように、＜ｌｉｎｋ＞ＡＤＤＲＥＳＳ１＜／ｌｉｎｋ＞として送オブジェクト２６０１へのリンク情報を示すアドレスが保持される。ＡＤＤＲＥＳＳ１は、オブジェクト２６０１のメタデータ２７０１を示し、ＭＦＰ１００内のＢＯＸ１１１に保存されたオブジェクト２６０１のメタデータ２７０１を示すディレクトリ及びファイル名で構成される。また、ＭＦＰ１００外、例えばデータベース１０５に保存されているオブジェクトをリンクさせる場合には、データベース１０５のネットワーク上の位置を示すＩＰアドレスなどを含んでも良い。

次に、ユーザーが、３７０２のオブジェクトを２６０１のオブジェクトへドラッグアンドドロップした場合について説明を行う。この場合、３７０２は、送オブジェクト、２６０１は、受オブジェクトとなる。送オブジェクトの属性は写真であり、受オブジェクトの属性も写真であるため、前述した処理を経て、ステップ２８１３に進む。ステップ２８１３にて、図３９の受メタデータリンク処理に進む。

次に、図３９のステップＳ３９０１にて、送オブジェクト３７０２のメタデータ３８０２からユーザー情報を送ユーザーとして、受オブジェクト２６０１のメタデータ２７０１からユーザー情報を受ユーザーとして取得する。ここでは、メタデータ３８０２のユーザー情報は＜ｕｓｅｒ＞ＵＳＥＲ２＜／ｕｓｅｒ＞であるから、送ユーザーはＵＳＥＲ２となり、メタデータ２７０１のユーザー情報は＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞であるから、受ユーザーはＵＳＥＲ１となる。

次に、ステップＳ３９０２にて、送ユーザーと受ユーザーが同一かを判断する。送ユーザーはＵＳＥＲ２、受ユーザーはＵＳＥＲ１であるから、ステップＳ３９０４に進む。

次に、ステップＳ３９０４にて、受オブジェクトに送オブジェクトのメタデータをマージする。すなわち、２６０１のメタデータ２７０１は、図４０の４００１のように更新される。ここで、２７０１と比較して、４００１には、３８０２の＜ｃａｐｔｉｏｎ＞デジタル一眼レフカメラ＜／ｃａｐｔｉｏｎ＞部分のメタデータが追記されていることがわかる。

このように、第１のユーザーが、写真と写真のオブジェクト同士でメタデータの編集を行う場合に、第２のユーザーによって作成された可能性のあるオブジェクトについては、リンク情報としてメタデータの関連付けを行うことをさける。すなわち、後に第２のユーザーよってメタデータが改変されても、オブジェクトのユーザーを判定して編集動作を切り替えることによって、第１のユーザーがメタデータの編集を行った時の情報を保つことが可能となる。

以上説明したように、本実施形態の画像処理方法はメタデータの編集が容易であり、ユーザーにとって直感的に理解がしやすく、かつ後で再利用・検索がしやすいメタデータの付与が可能となる。

［実施形態３］
前述した実施形態１では、関連付けされた第１と第２のオブジェクトの属性に基づいて、メタデータのマージ方法を切り替える方法について説明した。また、上記実施形態２では、関連付けされた第１と第２のオブジェクトのユーザー情報に基づいて、メタデータのマージ方法を切り替える方法について説明した。しかしながら、切り替えの起点となるメタデータは、オブジェクトの属性やユーザー情報に限るものではない。エリアＩＤ、オブジェクトの幅、オブジェクトの高さ、オブジェクトのジョブ種、オブジェクトのセキュリティレベル、場所、時間、キャプション等、メタデータとして付与されるその他の情報をマージ方法の切り替えの起点としてもよい。

また、マージ方法の切り替えの起点を単一に設けることに限るものではない。オブジェクトの属性とユーザー情報を複合的にマージ方法の切り替えの起点とし、オブジェクトの属性とユーザー情報に基づいて、メタデータのマージ方法を切り替えるようにしてもよい。

尚、マージ方法についても、実施形態１、２で前述したものに限るものではない。メタデータの編集が容易であり、ユーザーにとって直感的に理解がしやすく、かつ後で再利用・検索がしやすいマージ方法であれば、ユーザーがマージ方法を個別にカスタマイズできることは言うまでもない。

［実施形態４］
本発明は、複数の機器（例えばホストコンピュータ、インターフェース機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、上述した実施形態で示したフローチャートの手順を実現するプログラムコードを記憶した記憶媒体から、システムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）がそのプログラムコードを読出し実行することによっても達成される。
この場合、記憶媒体から読み出されたプログラムコード自体が、コンピュータに、上述した実施形態の機能を実現させることになる。そのため、このプログラムコード及びプログラムコードを記憶／記録したコンピュータ読み取り可能な記憶媒体も本発明の一つを構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、前述した実施形態の機能は、コンピュータが、読み出したプログラムを実行することによって実現される。また、このプログラムの実行とは、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行う場合も含まれる。

さらに、前述した実施形態の機能は、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットによっても実現することもできる。この場合、まず、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。こうした機能拡張ボードや機能拡張ユニットによる処理によっても前述した実施形態の機能が実現される。

本発明を適用できる画像処理システムを示すブロック図である。図１におけるＭＦＰを示すブロック図である。実施形態１で説明する第１のデータ処理フローである。実施形態１で説明するメタ情報を付加する処理フローである。実施形態１で説明するスキャナからの読み込みを示すフローである。実施形態１で説明するＰＣからのデータをビットマップにするフローである。オブジェクト分割した結果の一例を示す図である。オブジェクト分割情報したときの各属性のブロック情報および入力ファイル情報を示す図である。実施形態１で説明するベクトル化処理のフロー図である。ベクトル化の処理における角抽出の処理を示す図である。ベクトル化の処理における輪郭線まとめの処理を示す図である。図９で生成されたベクトルデータのグループ化の処理を示すフローチャートである。図１２の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。実施形態１におけるベクトル化処理結果のデータを示すマップである。アプリデータ変換の処理を示すフローチャートである。図１５の文書構造ツリー生成の処理を示すフローチャートである。文書構造ツリー生成処理の対象となる文書を示す図である。図１６の処理によって生成される文書構造ツリーを示す図である。実施形態１で用いられるＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）形式の一例を示す図である。実施形態１で説明する図３のステップＳ３０７のＵＩ表示の例を示した図である。実施形態１で説明する図３のステップＳ３０７のＵＩ表示のページ表示の例を示した図である。実施形態１で説明する図３のステップＳ３０７のＵＩ表示のオブジェクト属性表示の例を示した図である。実施形態１で説明する図３のステップＳ３０７のＵＩ表示のオブジェクト分割された一つのオブジェクトが表示される例を示した図である。実施形態１で説明する図３のステップＳ３０７のＵＩ表示のオブジェクトとメタ情報を表示される例を示した図である。実施形態１で説明するメタデータ編集のＵＩ画面の第１の例を示した図である。実施形態１で説明するメタデータ編集のＵＩ画面の拡大図を示した図である。実施形態１で説明するメタデータのデータ形式を示した図である。実施形態１で説明するメタデータ編集のフローチャートを示した図である。実施形態１で説明するメタデータ編集のＵＩ画面の第２の例を示した図である。実施形態１で説明する編集後のメタデータのデータ形式の例を示した図である。実施形態１で説明する編集後のメタデータのデータ形式の例を示した図である。実施形態１で説明する文字用メタデータ編集のフローチャートを示した図である。実施形態１で説明する編集後のメタデータのデータ形式の例を示した図である。実施形態１で説明する編集後のメタデータのデータ形式の例を示した図である。実施形態２で説明するメタデータ編集のＵＩ画面の第１の例を示した図である。実施形態２で説明するメタデータ編集のＵＩ画面の第１の例を示した図である。実施形態２で説明するメタデータ編集のＵＩ画面の拡大図を示した図である。実施形態２で説明するメタデータのデータ形式を示した図である。実施形態２で説明するメタデータ編集のフローチャートを示した図である。実施形態２で説明する編集後のメタデータのデータ形式の例を示した図である。実施形態１で説明するデータ処理装置１１５の詳細を示すブロック図である。

符号の説明

１００ＭＦＰ
１０１マネージメントＰＣ
１０２ローカルＰＣ
１０３プロキシサーバ（ｐｒｏｘｙサーバ）
１０４インターネット
１０５データベース
１０６文書管理サーバ
１０７，１０８，１０９ＬＡＮ
１１０画像読み取り部
１１１記憶装置
１１２記録装置
１１３入力装置
１１４ネットワークＩ／Ｆ
１１５データ処理装置
１１６表示装置
１１７Ｉ／Ｆ
１２０ＣＰＵ
１２１操作部Ｉ／Ｆ
１２２ＲＯＭ
１２３ＲＡＭ
１２４システムバス
１２５イメージバスインターフェース（ＩｍａｇｅＢｕｓＩ／Ｆ）
１２６画像バス
１２７ＲＩＰ
１２８デバイスＩ／Ｆ
１２９スキャナ画像処理部
１３０プリンタ画像処理部
１３３操作部
１３４オブジェクト分割部
１３５オブジェクト別画像処理部
１３６メタデータ付与部
１３７選択部
１３８メタデータ解析部
１３９メタデータ更新手順決定部
１４０メタデータ更新部

Claims

イメージデータを入力する入力手段と、
前記イメージデータを複数のオブジェクトに分割するためのオブジェクト分割手段と、
該オブジェクト分割手段により得られた各オブジェクトへメタデータを付与するメタデータ付与手段と、
ユーザーの選択指示に基づいてメタデータの編集対象となる第１のオブジェクトと第２のオブジェクトとを選択する選択手段と、
該選択手段で選択された前記第１のオブジェクトと第２のオブジェクトそれぞれのメタデータを解析するメタデータ解析手段と、
該メタデータ解析手段の解析結果に基づいて、前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータの更新手順を決定する決定手段と、
前記決定手段により決定した更新手順で前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータとの少なくともいずれかを更新する更新手段とを備えることを特徴とする画像処理装置。
前記選択手段により選択された前記第１のオブジェクトと第２のオブジェクトとを関連付けるオブジェクト関連付け手段を更に有することを特徴とする請求項１に記載の画像処理装置。
前記オブジェクト関連付け手段は、前記第１のオブジェクトを前記第２のオブジェクトにドラッグアンドドロップする手段であることを特徴とする請求項２に記載の画像処理装置。
前記オブジェクト分割手段は、前記イメージデータを、文字、写真、グラフィック（図面、線画、表）、背景の属性に分割することを特徴とする請求項１に記載の画像処理装置。
前記メタデータ付与手段は、前記オブジェクト分割手段により、分割された各々のオブジェクトに対して、オブジェクトのエリアＩＤ、オブジェクトの属性、オブジェクトの幅、オブジェクトの高さ、オブジェクトのジョブ種、ユーザー情報、場所、時間、キャプションを示すメタデータを付与することを特徴とする請求項１に記載の画像処理装置。
前記キャプションは、オブジェクトの属性が写真、グラフィックであるオブジェクトの場合は、該オブジェクトの周囲で最も近くに存在するオブジェクトの文字認識結果となり、オブジェクトの属性が文字であるオブジェクトの場合は、該オブジェクトの文字認識結果となることを特徴とする請求項４に記載の画像処理装置。
前記メタデータ解析手段は、前記第１のオブジェクトと第２のオブジェクトのメタデータを解析し、前記メタデータ付与手段により付与されたメタデータの内、対象となるメタデータの情報を出力する手段であることを特徴とする請求項１に記載の画像処理装置。
前記更新手段は、前記決定手段により決定した更新手順で、前記第１のオブジェクトに対し、または第２のオブジェクトに対し、または第１、第２のオブジェクトを共に、そのメタデータを更新することを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、
前記第１のオブジェクトの属性が文字であり、前記第２のオブジェクトの属性が写真、またはグラフィック（図面、線画、表）である場合、前記第１のオブジェクトのキャプションを前記第２のオブジェクトのキャプションへ追加し、
前記第１のオブジェクトの属性が文字であり、前記第２のオブジェクトの属性が文字である場合、前記第１のオブジェクトと前記第２のオブジェクトのキャプションの文字数の大小比較を行い、該大小比較の結果、少ない文字数を有するオブジェクトに、多い文字数を有するオブジェクトのキャプションを追加し、
前記第１のオブジェクトの属性が写真、またはグラフィック（図面、線画、表）であり、前記第２のオブジェクトの属性が写真、またはグラフィック（図面、線画、表）である場合、前記第１のオブジェクトのリンク情報を示すアドレスを前記第２のオブジェクトのメタデータへ追加し、
前記第１と第２のオブジェクトの属性に基づいて、前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータの更新手順を決定することを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、
前記第１のオブジェクトのユーザー情報と、前記第２のオブジェクトのユーザー情報が同じである場合、第１のオブジェクトのリンク情報を示すアドレスを第２のオブジェクトのメタデータへ追加し、
前記第１のオブジェクトのユーザー情報と、前記第２のオブジェクトのユーザー情報が異なる場合、前記第１のオブジェクトのメタデータを前記第２のオブジェクトのメタデータへ追加し、
前記第１と第２のオブジェクトのユーザー情報に基づいて、前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータの更新手順を決定することを特徴とする請求項１に記載の画像処理装置。
画像処理装置により実行される画像処理方法であって、
イメージデータを入力する入力ステップ、
前記イメージデータを複数のオブジェクトに分割するためのオブジェクト分割ステップと、
該オブジェクト分割ステップにより得られた各オブジェクトへメタデータを付与するメタデータ付与ステップと、
ユーザーの選択指示に基づいてメタデータの編集対象となる第１のオブジェクトと第２のオブジェクトとを選択する選択ステップと、
該選択ステップで選択された前記第１のオブジェクトと第２のオブジェクトそれぞれのメタデータを解析するメタデータ解析ステップと、
該メタデータ解析ステップによる解析結果に基づいて、前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータの更新手順を決定する決定ステップと、
前記決定ステップにより決定した更新手順で前記第１のオブジェクトのメタデータと前記第２のオブジェクトのメタデータとの少なくともいずれかを更新する更新ステップとを含むことを特徴とする画像処理方法。
請求項１１に記載の方法をコンピュータに実行させるためのプログラム。
請求項１２に記載のプログラムを記憶させたコンピュータ読み取り可能な記憶媒体。