JP2009211554A

JP2009211554A - 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体

Info

Publication number: JP2009211554A
Application number: JP2008055451A
Authority: JP
Inventors: Yoichi Kashibuchi; 洋一橿渕; Hiroshi Kaburagi; 浩蕪木; Tsutomu Sakagami; 努坂上; Takeshi Namigata; 健波潟; Manabu Takebayashi; 学竹林; Reiji Misawa; 玲司三沢; Osamu Iinuma; 修飯沼; Naoki Ito; 直樹伊藤; Junya Arakawa; 純也荒川; Shinji Sano; 真治佐野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-03-05
Filing date: 2008-03-05
Publication date: 2009-09-17

Abstract

【課題】本発明の課題は、画像データに付帯する情報を生成、管理する画像処理装置を提供することである。
【解決手段】上記課題を解決するために、本発明に係る画像処理装置は、入力された画像を複数の領域に分割し、前記分割された領域にメタデータを付加して、オブジェクトとして記憶装置に保存する。そのメタデータを付加する際、前記分割された領域に対して前記画像から第１のメタデータを取得し、また、前記分割された領域に類似する類似画像を検索する。そして、第１のメタデータと前記検索した類似画像に付加されている第２のメタデータとを比較することにより、前記第１のメタデータの確からしさを判定し、確からしいと判定された場合の第１のメタデータを当該領域のメタデータとして付加する。
【選択図】図４

Description

本発明は、オフィス文書などからなる画像データを検索する技術に係わり、画像データに付帯する情報を生成、管理する画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体に関する。

近年の複写機は、内部画像処理のデジタル化によって、目覚しいスピードで多機能化が進んでいる。基本的な機能としては、原稿を複写するコピー機能、ホストコンピュータで作成した文書のプリントが可能なＰＤＬ機能がある。さらに、ネットワークを介して原稿を電子文書として複写機外部に送るＳＥＮＤ（送信）機能、作成された画像を複写機内部に保存および再利用可能とするＢＯＸ機能、保存された原稿画像を再利用する編集機能がある。

一方で、画像の品質に対する要求も高い。原稿の高い再現性を求めるあまり、複写機内部の画像処理解像度は、６００ｄｐｉから１２００ｄｐｉ、２４００ｄｐｉへ、信号のビット数は８ｂｉｔから１０ｂｉｔ、１２ｂｉｔへと増加の一途を辿っている。膨れ上がった情報量を持つ内部処理用のビットマップ画像データに耐えるだけのメモリやストレージの追加、高性能なＣＰＵへの置き換えなどによって、機器や開発のコストの増加が無視できない状況になっている。

このような状況において、読み取った原稿を領域分割し、原稿に含まれる各領域を適応的に処理する技術が提案されている。例えば、各領域を文字、グラフィック、写真といった属性に分け、文字、グラフィックに関してはベクトル化を行ってベクトルデータに、写真に関してはＪＰＥＧに変換する。こうして作成した文書を、編集機能やＳＥＮＤ機能を利用するといった技術があった（例えば、特許文献１参照。）。これによれば、ベクトルデータを用いることで低コスト、高画質を両立し、操作性や利便性の高い編集機能や、ＳＥＮＤ機能を実現することができる。

さらに、複写機などによる近年の電子文書の普及により、電子文書を有効活用したいという要求が高まり、保存、蓄積した電子文書を効率的に再利用するためのシステムが望まれている。

電子文書として保存する際、原稿画像の論理構造を解析し、文書内に含まれる画像情報の各領域に対して検索のためのメタデータを自動で付与するといった提案がなされている（例えば、特許文献２参照）。これによれば、こうして保存された電子文書は、高い精度で検索用のメタデータを自動で抽出できるため利便性が高く、検索性の向上も期待できるため効率的な電子文書の再利用が可能となる。

特開２００５−１５９５１７号公報特開２００６−２２１５６９号公報

ところが、上記の方法ではページ内の文書構造に関連性が無いなど、文書のレイアウトによっては適切にメタデータを抽出できない可能性がある。また、抽出されたメタデータの確からしさを判定する複合的な手段も無いため、適切でないメタデータが抽出されても、そのまま画像情報に付加して登録されてしまう。有効なメタデータを付加しなければ検索性が低下するため、防止策としてはユーザーが全てのメタデータを確認することが考えられるが、極めて非効率であり現実的ではないという問題点があった。

上記課題を解決するために、本発明に係る画像処理装置は、入力された画像を複数の領域に分割する分割手段と、前記分割手段によって分割された領域にメタデータを付加する付加手段と、前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段とを備え、前記付加手段は、前記分割された領域に対して前記画像から第１のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第１のメタデータと前記検索手段で検索した類似画像に付加されている第２のメタデータとを比較することにより、前記第１のメタデータの確からしさを判定する判定手段とを有し、前記判定手段で確からしいと判定された場合の第１のメタデータを当該領域のメタデータとして付加することを特徴とする。

本発明によれば、原稿の文書画像から自動的に抽出されたメタデータの確からしさを判定するため、確かでない場合にメタデータの確認や修正を漏れなく行い、検索性の低下を防ぐことができる。また、全ての原稿を確認する必要がないため、ユーザーの利便性を向上させることができる。

さらに、本発明によれば、メタデータが確かでない場合には、メタデータを自動で付け替えることが可能となるため、ユーザーが意識することなく確かなメタデータを付加した文書を作成することができる。

＜第１の実施形態＞
次に本発明に係る第１の実施形態を図面に基づいて説明する。

図１は、本発明に係る画像処理装置を示すブロック図を示す。図２は、図１におけるＭＦＰを示すブロック図を示す。図３は、第１の実施形態で説明する第１のデータ処理フローである。図７は、ベクトル化処理の中で実施するオブジェクト分割処理で領域分割情報した結果の一例を示す。図８は、オブジェクト分割したときの各属性のブロック情報および入力ファイル情報を示す。図９は、再利用可能なデータへの変換で重要なベクトル化処理のフロー図である。図１０は、ベクトル化の処理における角抽出の処理を示す図である。図１１は、ベクトル化の処理における輪郭線まとめの処理を示す図である。図１２は、図９で生成されたベクトルデータのグループ化の処理を示すフローチャートである。図１３は、図１２の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。図１４は、本実施形態に係るベクトル化処理結果のデータを示すマップである。図１５は、アプリデータ変換の処理を示すフローチャートである。図１６は、図１５の文書構造ツリー生成の処理を示すフローチャートである。図１７は、文書構造ツリー生成処理の対象となる文書を示す図である。図１８は、図１６の処理によって生成される文書構造ツリーを示す図である。図１９は、本実施形態で説明するＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ（ＳＶＧ））形式の一例を示す。

[画像処理装置]
図１に示されているように、本発明に係る画像処理装置は、オフィス１０とオフィス２０とをインターネット１０４で接続した環境において使用される。

オフィス１０内に構築されたＬＡＮ１０７には、以下のものが接続されている。すなわち、記録装置としてのマルチファンクション複合機（ＭＦＰ）１００、ＭＦＰ１００を制御するマネージメントＰＣ１０１、ローカルＰＣ１０２、文書管理サーバ１０６、文書管理サーバ１０６のためのデータベース１０５が接続されている。

オフィス２０内にはＬＡＮ１０８が構築され、ＬＡＮ１０８には文書管理サーバ１０６、および文書管理サーバ１０６のためのデータベース１０５が接続されている。

ＬＡＮ１０７、１０８にはプロキシサーバ１０３が接続され、ＬＡＮ１０７、１０８はプロキシサーバ１０３を介してインターネットに接続される。

ＭＦＰ１００は原稿から読み取った入力画像に対する画像処理の一部を担当し、処理結果としての画像データをＬＡＮ１０９からマネージメントＰＣ１０１に入力する機能がある。加えて、ローカルＰＣ１０２、もしくは不図示の汎用ＰＣから送信されるＰａｇｅＤｉｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ（ＰＤＬ）言語を解釈して、プリンタとして作用する。さらには、原稿から読み取った画像をローカルＰＣ１０２もしくは、不図示の汎用ＰＣに送信する機能をもつ。マネージメントＰＣ１０１は、画像記憶手段、画像処理手段、表示手段、入力手段等を含む通常のコンピュータであり、機能的にはこれら構成要素の一部がＭＦＰ１００と一体化して、画像処理装置の構成要素となっている。なお、本実施形態では、マネージメントＰＣを介してデータベース１０５において、下記に記載する登録処理などが実行されるものとするが、マネージメントＰＣで行われる処理をＭＦＰで実行するようにしても良い。

さらに、ＭＦＰ１００は、ＬＡＮ１０９によってマネージメントＰＣ１０１に直接接続されている。

[ＭＦＰ]
図２において、ＭＦＰ１００は、不図示の自動ドキュメントフィーダ（ＡＤＦ）を有する画像読み取り部１１０を備え、画像読み取り部１１０は束状の或いは１枚の原稿の画像を光源で照射し、反射画像をレンズで固体撮像素子上に結像する。固体撮像素子は、所定解像度（例えば６００ｄｐｉ）および所定輝度レベル（例えば８ビット）の画像読み取り信号を生成し、画像読み取り信号からラスターデータよりなる画像データが構成される。

ＭＦＰ１００は、記憶装置（ＢＯＸ）１１１および記録装置１１２を有し、通常の複写機能を実行する際には、イメージデータをデータ処理装置１１５によって、複写のために画像処理して記録信号に変換する。複数枚複写の場合には、１頁分の記録信号を一旦、ＢＯＸ１１１に記憶保持した後、記録装置１１２に順次出力して、記録紙上に記録画像を形成する。

ＭＦＰ１００は、ＬＡＮ１０７との接続のためのネットワークＩ／Ｆ１１４を有し、ローカルＰＣ１０２、もしくは他の汎用ＰＣ（不図示）からドライバーを利用して出力するＰＤＬ言語を、記録装置１１２によって記録し得る。ローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータは、ＬＡＮ１０７からネットワークＩ／Ｆ１１４を経てデータ処理装置１１５に入力される。そこで言語を解釈および処理することで記録可能な記録信号に変換された後、ＭＦＰ１００において、記録紙上に記録画像として記録される。

ＢＯＸ１１１は、画像読み取り部１１０からのデータやローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータをレンダリングしたデータを保存できる機能を有している。

ＭＦＰ１００は、ＭＦＰ１００に設けられたキー操作部（入力装置１１３）、あるいはマネージメントＰＣ１０１の入力装置（キーボード、ポインティングデバイス等）を通じて操作される。これらの操作のために、データ処理装置１１５は内部の制御部（図示せず。）によって所定の制御を実行する。

ＭＦＰ１００は表示装置１１６を有し、操作入力の状態と、処理すべきイメージデータとを、表示装置１１６によって表示し得る。

ＢＯＸ１１１はネットワークＩ／Ｆ１１７を介して、マネージメントＰＣ１０１から直接制御し得る。ＬＡＮ１０９は、ＭＦＰ１００とマネージメントＰＣ１０１との間のデータの授受、制御信号授受に用いられる。

〔オブジェクト毎の保存〕
図３は、ビットマップ画像データをオブジェクト毎に保存するためのフローチャートを示す。図３に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

ここで、ビットマップ画像データは、ＭＦＰ１００の画像読み取り部１１０により取得されても良い。また、ビットマップ画像データは、アプリケーションソフトで作成されたドキュメントをＭＦＰ１００内部でレンダリングして生成されても良い。

まず、ステップＳ３０１において、入力された画像に対してオブジェクト分割処理（領域分割処理／領域抽出処理とも言う）が行われる。本実施形態においては、オブジェクト分割により抽出されたオブジェクトの種類（属性）は、文字、写真（背景）、グラフィック（図面、線画、表）のいずれかに分類されるものとする。分割された各々のオブジェクトは、ビットマップ画像データのままで、ステップＳ３０２において、オブジェクトの種類（文字、写真（背景）、グラフィック（図面、線画、表））が判定される。各オブジェクト（領域）に対して、当該判定された種類に応じた処理が行われる。オブジェクトの種類が写真の場合、ステップＳ３０３において、当該写真オブジェクト（領域）のビットマップ画像データはＪＰＥＧ圧縮される。また、オブジェクトの種類が背景の場合も同様に、ステップＳ３０３において、当該背景オブジェクトのビットマップ画像データはＪＰＥＧ圧縮される。次に、オブジェクトの種類が、グラフィックの場合、ステップＳ３０４において、当該グラフィックオブジェクトはベクトル化処理され、パス化されたデータに変換される。最後に、オブジェクトの種類が、文字の場合も、ステップＳ３０４において、グラフィックと同様にベクトル化処理され、パス化されたデータに変換される。更に、オブジェクトの種類が文字の場合には、ステップＳ３０８において、ＯＣＲ処理が施され、文字コード化されたデータも生成される。全てのオブジェクトデータと、文字コード化されたデータが一つのファイルとしてまとめられる。次に、ステップＳ３０５において、各オブジェクトに対して、最適なメタデータが付与される。メタデータ付与処理の詳細については後述する。メタデータが付与された各々のオブジェクトは、ステップＳ３０６において、ＭＦＰ１００に内蔵されているＢＯＸに保存される。保存されたデータは、ステップＳ３０７において、ＵＩ画面に表示される。また、各オブジェクトは最適なメタデータが付与されて保存されているので、キーワード等を用いて検索することで、ユーザー所望のオブジェクトを取得することができる。

〔入力される処理対象ビットマップ画像データ〕
＜ＭＦＰ１００の画像読み取り部からの入力の場合＞
ＭＦＰ１００の画像読み取り部を使用した場合には、図５のステップＳ５０１において、画像が読み込まれる。ステップＳ５０１において、読み込まれた画像は、既にビットマップ画像データである。次に、ステップＳ５０２において、ビットマップ画像データに対してスキャナに依存する画像処理が行われる。スキャナに依存する画像処理とは、例えば、色処理やフィルタ処理を指す。なお、図５に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

＜ローカルＰＣ１０２上のアプリケーションソフトからの入力の場合＞
ローカルＰＣ１０２上のアプリケーションソフトを使用して作成したアプリデータは、図６のステップＳ６０１において、ローカルＰＣ１０２上にあるプリントドライバを介して、プリントデータに変換され、ＭＦＰ１００に送信される。ここで、プリントデータとは、ＰＤＬを意味し、例えば、ＬＩＰＳ、Ｐｏｓｔｓｃｒｉｐｔ等を指す。次に、ステップＳ６０２において、ＭＦＰ１００内部に存在するインタープリタを介して、ディスプレイリストが生成される。次に、ステップＳ６０３において、ディスプレイリストがレンダリングされることにより、ビットマップ画像データが生成される。なお、図６に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

ステップＳ３０１において、図５または図６で得たビットマップ画像データが、オブジェクト分割される。

〔メタデータ付け（ステップＳ３０５）〕
ステップＳ３０５のメタデータ付けに関するフローチャートを図４に示す。図４に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

まず、ステップＳ４０１において、メタデータ付与対象のオブジェクト（写真やグラフィックなど）の周囲で一番近くに存在する文字オブジェクト（複数の文字画像を含む文字領域）が選択される。次に、ステップＳ４０２において、選択された文字オブジェクトに対して、Ｓ３０８のＯＣＲ結果の文字コード群を用いて形態素解析が行われる。本実施形態では、形態素解析結果として得られた単語を、該オブジェクトのメタデータとして、自動的に付与するか、ユーザーに確認させてから付与するかを以下で判定する。

次に、ステップＳ４０３において、メタデータ付与対象のオブジェクトのビットマップ画像データを用いた類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、ＭＦＰ１００に内蔵されたＢＯＸ、およびデータベース１０５に既に保存されている文書、および、それに含まれるオブジェクトである。オブジェクトの詳細については後述する。

前述の既に保存されている文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーまたは装置によってオブジェクト毎に適切な内容が確認および付加されているものとする。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。

本発明における類似画像検索手法は、比較アルゴリズムの種類に影響される訳ではないので、任意の比較アルゴリズムを採用することができる。例えば、画像内の個々の画素について、その画素の濃淡を、ある閾値より高いか低いかで二値化して二値画像を生成し、生成された検索対象の二値画像と、オブジェクトのビットマップ画像データを二値化した二値画像とを比較する。それらの一致する画素数をカウントすることで、類似度が算出される。あるいは、画像全体の明暗を表現したヒストグラムを利用する手法や、画像の周波数成分に着目して輪郭抽出を行う手法を採用して、類似度が算出されてもよい。さらに、色情報、被写体の形状または傾きなどの情報を比較して、類似度が算出されてもよい。もちろん、これらの類似度算出方法は単なる例示であり、本発明は他の類似度の算出方法を採用できることは言うまでもない。また、類似画像検索において、後述するメタデータのユーザー情報や、日時などによって、予め検索対象の絞り込みを行っても良い。

次に、ステップＳ４０４において、ステップＳ４０３で算出された類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップＳ４０５へ処理が進む。また、類似度が閾値以下だった場合には、ステップＳ４０８へ処理が進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理が行われてもよい。

次に、ステップＳ４０５において、後述するメタデータの確からしさの判定が行われる。次に、ステップＳ４０６において、ステップＳ４０５の判定結果でメタデータが確からしいと判定された場合、ステップＳ４０７において、ステップＳ４０２で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップＳ４０６において、ステップＳ４０５の判定結果でメタデータが確かでないと判定された場合には、ステップＳ４０８に処理が進む。ステップＳ４０８では、メタデータの確認および修正を行うか否かをユーザーに示した上で、確認および修正を行うのであればステップＳ４０９において後述するＵＩによるメタデータの編集と付加が行われる。また、ステップＳ４０８において、メタデータの確認および修正を行わない場合には、ステップＳ４０７において、ステップＳ４０２で形態素解析結果により抽出された単語がメタデータとして各オブジェクトに付加される。

また、メタデータは、形態素解析だけではなく、画像特徴量抽出、構文解析等により作成できることは言うまでもない。

[登録の詳細設定]
図３のベクトル化処理ステップＳ３０４でベクトル化されたデータのフォーマットの一例を図１９に示す。本実施形態では、ＳＶＧ形式で表記しているが、これに限定されるものではない。

図１９では説明のため、オブジェクトの表記を枠で囲われている。枠１９０１は、イメージ属性を示し、そこには、イメージオブジェクトの領域の示す領域情報とビットマップ画像データの情報が示されている。枠１９０２は、テキストオブジェクトの情報が、枠１９０３では、枠１９０２で示した内容をベクターオブジェクトとして表現されている。続く、枠１９０４は、表オブジェクトなどのラインアートを表す。

[オブジェクト分割処理（領域分割処理）]
ステップＳ３０１（オブジェクト分割ステップ）においては、図７右半部の画像７０２に示されているように、入力画像を属性ごとに矩形ブロックに分割される。前述のように、矩形ブロックの属性としては、文字、写真、グラフィック（図面、線画、表など）がある。なお、オブジェクト分割処理（領域分割処理）は公知の技術を利用することが可能であり、以下ではその一例について説明する。

オブジェクト分割ステップにおいては、まず、ＲＡＭ（不図示）に格納されたイメージデータが白黒に２値化され、黒画素輪郭で囲まれる画素塊が抽出される。

さらに、このように抽出された黒画素塊の大きさが評価され、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡が行われる。白画素塊に対する大きさ評価、内部黒画素塊の追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡が行われる。

画素塊の大きさは、例えば、画素塊の面積によって評価される。

このようにして得られた画素塊に外接する矩形ブロックが生成され、矩形ブロックの大きさ、形状に基づき属性が判定される。

例えば、縦横比が１に近く、大きさが一定の範囲の矩形ブロックが、文字領域矩形ブロックの可能性がある文字相当ブロックとされる。また、近接する文字相当ブロックが規則正しく整列しているときに、これら文字相当ブロックを纏めた新たな矩形ブロックが生成され、新たな矩形ブロックを文字領域矩形ブロックとされる。

また、扁平な画素塊、もしくは、一定大きさ以上でかつ四角形の白画素塊を整列よく内包する黒画素塊がグラフィック領域矩形ブロック、それ以外の不定形の画素塊が写真領域矩形ブロックとされる。

オブジェクト分割ステップでは、このようにして生成された矩形ブロックのそれぞれについて、図８に示される、属性等のブロック情報および入力ファイル情報が生成される。

図８において、ブロック情報には各ブロックの属性、位置の座標Ｘ、座標Ｙ、幅Ｗ、高さＨ、ＯＣＲ情報が含まれる。属性は、１〜３の数値で与えられ、１は文字領域矩形ブロック、２は写真領域矩形ブロック、３はグラフィック領域矩形ブロックを示す。座標Ｘ、座標Ｙは入力画像における各矩形ブロックの始点のＸ、Ｙ座標（左上角の座標）である。幅Ｗ、高さＨは矩形ブロックのＸ座標方向の幅、Ｙ座標方向の高さである。ＯＣＲ情報は、入力画像におけるポインタ情報の有無を示す。

さらに、入力ファイル情報として矩形ブロックの個数を示すブロック総数Ｎが含まれる。

これらの矩形ブロックごとのブロック情報は、特定領域でのベクトル化に利用される。また、ブロック情報によって、特定領域とその他の領域を合成する際の相対位置関係を特定でき、入力画像のレイアウトを損なわずにベクトル化領域とラスターデータ領域を合成することが可能となる。

[ベクトル化ステップ]
ステップＳ３０４（ベクトル化ステップ）は、図９に示されている各ステップによって実行される。図９に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

まず、ステップＳ９０１において、特定領域が文字領域矩形ブロックであるか否か判定される。ステップＳ９０１において、特定領域が文字領域矩形ブロックであると判定された場合には、ステップＳ９０２以下のステップに進み、パターンマッチングの一手法を用いて認識が行われ、対応する文字コードが得られる。ステップＳ９０１において、特定領域が文字領域矩形ブロックでないと判定されたときは、ステップＳ９１２に処理が移行する。

ステップＳ９０２では、特定領域に対し横書き、縦書きの判定（組み方向判定）をおこなうために、特定領域内で画素値に対する水平および垂直の射影が取られる。

ステップＳ９０３では、ステップＳ９０２で取られた射影の分散が評価される。水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定される。

ステップＳ９０４では、ステップＳ９０３の評価結果に基づき、組み方向が判定され、行の切り出しが行われ、その後文字を切り出して文字画像が得られる。

文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、切り出された行に対する垂直方向の射影から、文字を切り出す。縦書きの文字領域に対しては、水平と垂直について逆の処理が行われる。行、文字切り出しに際して、文字のサイズも検出される。

ステップＳ９０５では、ステップＳ９０４で切り出された各文字について、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルが生成される。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴ベクトルとする方法がある。

ステップＳ９０６では、ステップＳ９０５で得られた観測特徴ベクトルと、あらかじめフォントの種類ごとに求められている辞書特徴ベクトルとを比較し、観測特徴ベクトルと辞書特徴ベクトルとの距離が算出される。

ステップＳ９０７では、ステップＳ９０６で算出された距離が評価され、最も距離の近いフォントの種類が認識結果とされる。

ステップＳ９０８では、ステップＳ９０７における距離評価において、最短距離が所定値よりも大きいか否か、類似度が判定される。類似度が所定値以上の場合は、辞書特徴ベクトルにおいて、形状が類似する他の文字に誤認識している可能性が高い。そこで、ステップＳ９０８において、類似度が所定値以上であると判定された場合は、ステップＳ９０７の認識結果を採用せず、ステップＳ９１１に処理が進む。ステップＳ９０８において、類似度が所定値より低い（小さい）と判定された場合には、ステップＳ９０７の認識結果を採用し、ステップＳ９０９に処理が進む。

ステップＳ９０９（フォント認識ステップ）では、文字認識の際に用いる、フォントの種類数分の辞書特徴ベクトルが、文字形状種すなわちフォント種に対して複数用意される。辞書特徴ベクトルが、パターンマッチングの際に、文字コードとともにフォント種を出力することで、文字フォントが認識される。

ステップＳ９１０では、文字認識およびフォント認識よって得られた文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、各文字がベクトルデータに変換される。なお、入力画像がカラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録される。

ステップＳ９１１では、文字を一般的なグラフィックと同様に扱われ、該文字がアウトライン化される。すなわち、誤認識を起こす可能性の高い文字については、可視的にイメージデータに忠実なアウトラインのベクトルデータが生成される。

ステップＳ９１２では、特定領域が文字領域矩形ブロックでないときは、画像の輪郭に基づいてベクトル化の処理が実行される。

以上の処理により、文字領域矩形ブロックに属するイメージ情報をほぼ形状、大きさ、色が忠実なベクトルデータに変換される。

[グラフィック領域のベクトル化]
ステップＳ３０１の文字領域矩形ブロック以外の領域、すなわちグラフィック領域矩形ブロックと判定されたときは、特定領域内で抽出された黒画素塊の輪郭がベクトルデータに変換される。

文字領域以外の領域のベクトル化においては、まず線画等を直線および／または曲線の組み合わせとして表現するために、曲線を複数の区間（画素列）に区切る「角」が検出される。角とは曲率が極大となる点であり、図１０の曲線上の画素Ｐｉが角か否かの判定は以下のように行われる。

すなわち、Ｐｉを起点とし、曲線に沿ってＰｉから両方向に所定画素（ｋ個とする。）ずつ離れた画素Ｐｉ−ｋ、Ｐｉ＋ｋを線分Ｌで結ばれる。画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の距離をｄ１、線分Ｌと画素Ｐｉとの距離をｄ２、曲線の画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の弧の長さをＡとする。このとき、ｄ２が極大となるとき、あるいは比（ｄ１／Ａ）が閾値以下となるときに画素Ｐｉが角と判定される。

角によって分割された画素列は、直線あるいは曲線で近似される。直線への近似は最小二乗法等により実行され、曲線への近似は３次スプライン関数などが用いられる。画素列を分割する角の画素は近似直線あるいは近似直線における、始端または終端となる。

さらにベクトル化された輪郭内に白画素塊の内輪郭が存在するか否かが判定され、内輪郭が存在するときはその輪郭がベクトル化され、内輪郭の内輪郭というように、再帰的に反転画素の内輪郭がベクトル化される。

以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。元原稿がカラーの場合は、カラー画像から図形の色が抽出されてベクトルデータとともに記録される。

図１１に示されているように、ある注目区間で外輪郭ＰＲｊと、内輪郭ＰＲｊ＋１あるいは別の外輪郭が近接している場合、２個あるいは複数の輪郭線をひとまとめにし、太さを持った線として表現することができる。例えば、輪郭ＰＲｊ＋１の各画素Ｐｉから輪郭ＰＲｊ上で最短距離となる画素Ｑｉまでの距離ＰｉＱｉが算出され、ＰＱｉのばらつきがわずかである場合には、注目区間が、画素Ｐｉ、Ｑｉの中点Ｍｉの点列に沿った直線または曲線で近似される。近似直線、近似曲線の太さは、例えば、距離ＰｉＱｉの平均値とする。

線や線の集合体である表罫線は、太さを持つ線の集合とすることにより、効率よくベクトル表現される。

輪郭まとめの処理の後、全体の処理が終了する。

なお、写真領域矩形ブロックについては、ベクトル化されず、イメージデータのままである。

[図形認識]
以上の線図形等のアウトラインをベクトル化した後、ベクトル化された区分線が図形オブジェクトごとにグループ化される。

図１２の各ステップは、ベクトルデータを図形オブジェクトごとにグループ化する処理を示す。図１２に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

まず、ステップＳ１２０１では、各ベクトルデータの始点、終点が算出される。

次に、ステップＳ１２０２（図形要素検出）では、ステップＳ１２０１で求められた始点、終点情報を用いて、図形要素が検出される。図形要素とは、区分線が構成している閉図形であり、検出に際しては、始点、終端となっている共通の角の画素においてベクトルを連結する。すなわち、ステップＳ１２０２では、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理が、応用される。

次に、ステップＳ１２０３では、図形要素内に存在する他の図形要素、もしくは区分線がグループ化され、一つの図形オブジェクトとされる。また、図形要素内に他の図形要素、区分線が存在しない場合は、図形要素が図形オブジェクトとされる。

[図形要素の検出]
ステップＳ１２０２（図形要素検出）の処理は、図１３の各ステップによって実行される。図１３に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

ステップＳ１３０１では、まず、ベクトルデータより両端に連結していない不要なベクトルが除去され、閉図形を構成するベクトルが抽出される。

次に、ステップＳ１３０２では、閉図形を構成するベクトルについて、いずれかのベクトルの端点（始点または終点）を開始点とし、一定方向、例えば時計回りに、順にベクトルが探索される。すなわち、他端点において他のベクトルの端点が探索され、所定距離内の最近接端点が連結ベクトルの端点とされる。閉図形を構成するベクトルを１まわりして開始点に戻ったとき、通過したベクトルが、全て一つの図形要素を構成する閉図形としてグループ化される。また、閉図形内部にある閉図形構成ベクトルも全てグループ化される。さらに、まだグループ化されていないベクトルの始点を開始点とし、同様の処理が繰り返される。

最後に、ステップＳ１３０３では、ステップＳ１３０１で除去された不要ベクトルのうち、ステップＳ１３０２で閉図形としてグループ化されたベクトルに端点が近接しているベクトルが検出され、一つの図形要素としてグループ化される。

以上の処理によって図形ブロックを、再利用可能な個別の図形オブジェクトとして扱う事が可能になる。

[ＢＯＸ保存処理]
図３のオブジェクト分割ステップ（ステップＳ３０１）の後、ベクトル化（ステップＳ３０４）した結果のデータを用いて、ＢＯＸ保存データへの変換処理が実行される。ステップＳ３０４のベクトル化処理結果は、図１４に示されている中間データの形式、いわゆるドキュメント・アナリシス・アウトプット・フォーマット（以下、ＤＡＯＦ）と呼ばれる形式で保存されている。

図１４において、ＤＡＯＦは、ヘッダ１４０１、レイアウト記述データ部１４０２、文字認識記述データ部１４０３、表記述データ部１４０４、画像記述データ部１４０５を含む。

ヘッダ１４０１には、処理対象の入力画像に関する情報が保持される。

レイアウト記述データ部１４０２には、入力画像中の矩形ブロックの属性である文字、写真、グラフィック（図面、線画、表）、背景の情報と、これら属性が認識された各矩形ブロックの位置情報が保持される。

文字認識記述データ部１４０３には、文字領域矩形ブロックのうち、文字認識して得られる文字認識結果が保持される。

表記述データ部１４０４には、表の属性を持つグラフィック領域矩形ブロックの表構造の詳細が格納される。

画像記述データ部１４０５には、グラフィック領域矩形ブロックにおけるイメージデータが、入力画像データから切り出して保持される。

ベクトル化処理を指示された特定領域においては、ブロックに対しては、画像記述データ部１４０５には、ベクトル化処理により得られたブロックの内部構造や、画像の形状や文字コード等あらわすデータの集合が保持される。

一方、ベクトル化処理の対象ではない、特定領域以外の矩形ブロックでは、入力画像データそのものが保持される。

ＢＯＸ保存データへの変換処理は図１５の各ステップにより実行される。図１５に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

ステップＳ１５０１では、ＤＡＯＦ形式のデータが入力される。

ステップＳ１５０２では、アプリデータの元となる文書構造ツリー生成が行われる。

ステップＳ１５０３では、文書構造ツリーを元に、ＤＡＯＦ内の実データが取得され、実際のアプリデータが生成される。

ステップＳ１５０３の文書構造ツリー生成処理は図１６の各ステップにより実行される。図１６に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

図１６の処理における全体制御の基本ルールとして、処理の流れはミクロブロック（単一矩形ブロック）からマクロブロック（矩形ブロックの集合体）へ移行する。以後「矩形ブロック」は、ミクロブロックおよびマクロブロック両者を意味するものとする。

ステップＳ１６０１では、矩形ブロック単位で、縦方向の関連性に基づいて、矩形ブロックが再グループ化される。図１６の処理は繰り返し実行されることがあるが、処理開始直後はミクロブロック単位での判定となる。

ここで、関連性とは、距離が近い、ブロック幅（横方向の場合は高さ）がほぼ同一であることなどの特徴によって定義される。また、距離、幅、高さなどの情報は、ＤＡＯＦを参照して、抽出される。

図１７のイメージデータでは、最上部で、矩形ブロックＴ１、Ｔ２が横方向に並列されている。矩形ブロックＴ１、Ｔ２の下には横方向セパレータＳ１が存在し、横方向セパレータＳ１の下に矩形ブロックＴ３、Ｔ４、Ｔ５、Ｔ６、Ｔ７が存在する。

矩形ブロックＴ３、Ｔ４、Ｔ５は、横方向セパレータＳ１下側の領域における左半部において上から下に、縦方向に配列され、矩形ブロックＴ６、Ｔ７は、横方向セパレータＳ１下側の領域における右半部において上下に配列されている。

そして、ステップＳ１６０１の縦方向の関連性に基づくグルーピングの処理が実行される。これによって、矩形ブロックＴ３、Ｔ４、Ｔ５が１個のグループ（矩形ブロック）Ｖ１にまとめられ、矩形ブロックＴ６、Ｔ７が１個のグループ（矩形ブロック）Ｖ２にまとめられる。グループＶ１、Ｖ２は同一階層となる。

ステップＳ１６０２では、縦方向のセパレータの有無がチェックされる。セパレータは、ＤＡＯＦ中でライン属性を持つオブジェクトであり、アプリケーションソフトウエア中で明示的にブロックを分割する機能をもつ。セパレータが検出されると、処理対象の階層において、入力画像の領域が、セパレータを境界として左右に分割される。図１７では縦方向のセパレータは存在しない。

ステップＳ１６０３では、縦方向のグループ高さの合計が入力画像の高さに等しくなったか否かが判定される。すなわち、縦方向（例えば上から下へ。）に処理対象の領域を移動しながら、横方向のグルーピングを行うとき、入力画像全体の処理が終了したときには、グループ高さ合計が入力画像高さになることを利用し、処理の終了判定が行われる。グルーピングが終了したときはそのまま処理終了し、グルーピングが終了していなかったときはステップＳ１６０４に処理が進む。

ステップＳ１６０４では、横方向の関連位に基づくグルーピングの処理が実行される。これによって、矩形ブロックＴ１、Ｔ２が１個のグループ（矩形ブロック）Ｈ１にまとめられ、矩形ブロックＶ１、Ｖ２が１個のグループ（矩形ブロック）Ｈ２にまとめられる。グループＨ１、Ｈ２は、同一階層となる。ここでも、処理開始直後はミクロブロック単位での判定となる。

ステップＳ１６０５では、横方向のセパレータの有無がチェックされる。セパレータが検出されると、処理対象の階層において、入力画像の領域が、セパレータを境界として上下に分割される。図１７では横方向のセパレータＳ１が存在する。

以上の処理結果は、図１８のツリーとして登録される。

図１８において、入力画像Ｖ０は、最上位階層にグループＨ１、Ｈ２、セパレータＳ１を有し、グループＨ１には第２階層の矩形ブロックＴ１、Ｔ２が属する。

グループＨ２には、第２階層のグループＶ１、Ｖ２が属し、グループＶ１には、第３階層の矩形ブロックＴ３、Ｔ４、Ｔ５が属し、グループＶ２には、第３階層の矩形ブロックＴ６、Ｔ７が属する。

ステップＳ１６０６では、横方向のグループ長合計が入力画像の幅に等しくなったか否かが判定される。これによって横方向のグルーピングに関する終了判定が行われる。横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成の処理が終了する。横方向のグループ長がページ幅となっていないときは、ステップＳ１６０１に処理が戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返される。

[表示方法]
以下で、図３のステップＳ３０７で用いられるＵＩ（ユーザインタフェース）の表示に関して詳細な説明を行う。

まず、図２０に示されているＵＩにおいて、一覧２００１は、ＢＯＸ内に保存されているデータの一覧を示している。また、表示２００２は、ＢＯＸ内に保存されている文章の名前、および入力された時間についての情報を表示している。オブジェクト分割表示を行う場合には、一覧２００１で原稿を選択して、オブジェクト表示ボタン２００３を押すことで表示が変わるが、これに関しては、後述する。また、一覧２００１で原稿を選択して、ページ表示ボタン２００４を押すことで表示が変わるが、これに関しても後述する。

図２１は、他のＵＩの例を示している。図２１に示されているＵＩの表示２１０１は、保存されたデータを表示する。表示２１０１は、ラスタ画像を縮小した画像を表示することや、前述したＳＶＧを使って、画像を表示をさせる事もできる。つまり、前述してきたデータを基にページ全体を表示していれば良い。

図２１においてタブ２１０２は、機能のタブであり、コピーや送信、リモート操作、ブラウザー、ＢＯＸといったＭＦＰが持っている機能を選択できるものである。コピーや送信、リモート操作、ブラウザー、ＢＯＸといった機能以外の機能に対しても同様に、タブ２１０２により表示を行うことができる。

図２１においてメニュー２１０３により、原稿を読み取る場合の原稿モードが選択される。メニュー２１０３は、読み取られる原稿タイプによって、画像処理を切り替えるために選択をするものである。図２１のメニュー２１０３に示されている文字、写真、地図、印刷写真、および印刷紙写真以外のモードも、メニュー２１０３により表示選択をする事ができる。

図２１においてボタン２１０４は、原稿を読み取りのスタートを指示するボタンである。ボタン２１０４が押されることにより、スキャナが動作して、画像が読み込まれる。図２１に示されているＵＩの例では、読込みスタートためのボタン２１０４がＵＩの画面内に設けられているが、別途スタートボタンを押すことによって読み込みが開始されてもよい。

図２２に示されているＵＩでは、表示２２０２において、オブジェクト分割した結果を分かるように各オブジェクトに枠が表示されている。

図２２に示されているＵＩでは、ボタン２２０１が押されると、表示２２０２において、各オブジェクトの枠が表示される。枠には色付けをすることにより、オブジェクトの違いを分かるように表示することや、線の太さ、あるいは、点線、破線の違いなどにより、オブジェクトの違いを分かるように表示が行われる。

ここで、オブジェクトの種類としては、前述したように文字、写真（背景）、グラフィック（図面、線画、表）である。

表示２２０３は検索を行うための文字（キーワード）を入力する入力欄である。ここに文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索が行われる。また、検索されたオブジェクトあるいはページが表示される。

図２３に示されているＵＩでは、オブジェクト表示ボタン２３０２を押すことによりページ内のオブジェクトが表示されるものである。

図２３に示されているＵＩでは、表示２３０１において、ページという概念ではなく、一つ一つのオブジェクトが部品として表示が行われる。

また、ページ表示ボタン２３０４を押すことで１ページの画像として見えるように切替表示が行われる。

さらに、表示２３０３は、検索を行うための文字を入力する表示である。表示２３０３に文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索を行う。また検索されたオブジェクトあるいはページが表示される。

図２４は、オブジェクトのメタデータを表示する画面の例を示している。図２４に示されているＵＩでは、ある一つのオブジェクトが選択されると、そのオブジェクトの画像２４０３と前述したメタデータ２４０２が、表示２４０１に表示される。ここで、メタデータ２４０２は、エリアの情報、幅、高さ、ユーザー情報、ＭＦＰの設置場所の情報、入力した時間などの情報を表示する。ここで、この例では、属性がグラフィックのオブジェクトである。そして、オブジェクトの近くにあった属性が文字の文字オブジェクトのＯＣＲ情報から形態素解析を用いて名詞のみを取り出して表示が行われている。図２４に示されている例では、文字オブジェクトは、ＴＥＸＴという文字列である。

また、メタデータに対しては、ボタン２４０４により、編集や追加、削除を行うことができる。

さらに、表示２４０５は、検索を行うための文字を入力する表示である。表示２４０５に文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索が行われる。また、検索されたオブジェクトあるいはページが表示される。

[メタデータのデータ形式]
次に、図２５と図２６を用いて、本実施形態の画像処理を施した文書に含まれるオブジェクトのメタデータのデータ形式を説明する。

図２５は、既に本実施形態の画像処理装置によってオブジェクト単位に分割、一連の処理がなされ、ＭＦＰ１００内のＢＯＸに保存された文書の一例である。図２６は、ＭＦＰ１００内のＢＯＸに保存された文書に含まれるオブジェクトのメタデータの一例である。

図２５の文書２５０１は、前述のようにオブジェクト単位に分割、オブジェクト毎にメタデータが付加された文書である。ここでは説明のため、オブジェクトを破線で囲んで示されている。

図２５のオブジェクト２５０２は、文書２５０１に含まれる属性が写真の写真オブジェクトである。オブジェクト２５０２は、メタデータを図２６の２６０１に示す形式で保持し、これらのメタデータのデータ形式は、図２４で前述したように表示用のデータ形式に変換して、画面で表示することが可能である。

以下、メタデータのデータ形式に関する説明を、図２６に示されているデータ構造２６０１を用いて説明する。

データ構造２６０１において、＜ｉｄ＞１＜／ｉｄ＞は、オブジェクト２５０２のエリアＩＤを示すデータであり、図２４のエリアＩＤを表示するためのデータである。

データ構造２６０１において、＜ａｔｔｒｉｂｕｔｅ＞写真＜／ａｔｔｒｉｂｕｔｅ＞は、オブジェクト２５０２の属性を示すデータであり、オブジェクト２５０２は、写真属性であることを示している。その他、文字や写真やグラフィック等の属性があり、これらは、前述したステップＳ３０１にて決定される。

データ構造２６０１において、＜ｗｉｄｔｈ＞Ｗ１＜／ｗｉｄｔｈ＞は、オブジェクト２５０２の幅を示すデータであり、図２４の幅を表示するためのデータである。

データ構造２６０１において、＜ｈｅｉｇｈｔ＞Ｈ１＜／ｈｅｉｇｈｔ＞は、オブジェクト２５０２の高さを示すデータであり、図２４の高さを表示するためのデータである。

データ構造２６０１において、＜ｊｏｂ＞ＰＤＬ＜／ｊｏｐ＞は、オブジェクト２５０２のジョブの種類であり、前述したようにビットマップ画像データの生成において、ＭＦＰ１００の画像読み取り部入力の場合は、ジョブの種類は、ＳＣＡＮとなる。また、ＰＣ１０２上のアプリケーションソフトを使用した場合は、ジョブの種類は、ＰＤＬとなる。

データ構造２６０１において、＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞は、オブジェクト２５０２のユーザー情報を示すデータであり、図２４のユーザーを表示するためのデータである。

データ構造２６０１において、＜ｐｌａｃｅ＞Ｆ社Ｇ階＜／ｐｌａｃｅ＞は、ＭＦＰ１００の設置場所の情報を示すデータであり、図２４の場所を表示するためのデータである。

データ構造２６０１において、＜ｔｉｍｅ＞２００７／０３／１９＜／ｔｉｍｅ＞は、入力した時間を示すデータであり、図２４の時間を表示するためのデータである。

データ構造２６０１において、＜ｃａｐｔｉｏｎ＞自然＜／ｃａｐｔｉｏｎ＞は、オブジェクト２５０２のキャプションを示すデータであり、図２４のキャプションを表示するためのデータである。

[メタデータの確からしさ判定]
ステップＳ３０５のメタデータ付けにおいて行う、ステップＳ４０５のメタデータの確からしさ判定について、図２５〜図２９を用いて詳細に説明する。ここでは、入力された画像から抽出された第１のメタデータ候補（ステップＳ４０２の形態素解析で得られたデータ）と、類似画像に付加されている第２のメタデータとの比較が行われることになる。

図２７は、ＭＦＰ１００に入力され、保存処理においてオブジェクト分割された文書の一例である。

図２８は、ステップＳ４０５のメタデータの確からしさ判定における処理の詳細を示すフローチャートである。図２９は、後述する反意語検索に用いる反意語辞書の一例である。図２８に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

図２７の文書２７０１は、図３のフローチャートに示すＳ３０１〜Ｓ３０４とＳ３０８の一連の処理によって、各オブジェクトは属性に応じたオブジェクトの分割処理がなされている。ここでは説明のため、各オブジェクトを破線で囲み示した。オブジェクト２７０２は、写真属性と判定され分割処理されたオブジェクトであり、オブジェクト２７０３は、文字属性と判定され分割処理されたオブジェクトの一例である。

ここでは、オブジェクト２７０２を例にとってメタデータの確からしさ判定を説明する。まず、図４のステップＳ４０１において、オブジェクト２７０２に対して、文字属性のオブジェクト２７０３が選択されている。また、ステップＳ４０２において、形態素解析が行われ、その結果、オブジェクト２７０３から、「森林」「減少」「環境破壊」「人工」「閉鎖的」などが得られている。また、ステップＳ４０３において、ＭＦＰ１００内のＢＯＸやデータベース１０５を上述の方法で類似画像検索し、文書２５０１のオブジェクト２５０２が検出されている。また、ステップＳ４０４において、類似度と予め定めた閾値との比較により、類似度が閾値よりも大きいと判定されている。

ステップＳ４０５では、まず、図２８のステップＳ２８０１において、ステップＳ４０３で検出された類似画像のオブジェクト２５０２のメタデータ２６０１から、キャプションが取り出される。メタデータ２６０１のキャプションには、「自然」、「緑」、「公園」、「開放的」、「自由」、「スポーツ」が保持されている。

次に、ステップＳ２８０２において、ステップＳ４０２の形態素解析で得たキーワードの反意語が検索される。その上で、反意語がヒットした場合は、その反意語を用いて、類似画像のオブジェクト２５０２のメタデータ２６０１からキャプションを対象に検索が行われる。図２９の反意語辞書２９０１には、キャプションの語句と、それに対する反意語がリストで保存されている。

例えば、ステップＳ４０２の形態素解析で得たメタデータ候補の単語には、「人工」という語句が含まれており、「人工」という語句を反意語辞書２９０１から検索した場合、ＩＮＤＥＸ０６３の「自然」がヒットする。さらに、ここでヒットした「自然」をキーワードにして、メタデータ２６０１のキャプションが検索されると、メタデータ２６０１が「自然」のキーワードを持っているため、反意語数のカウンタがインクリメントされる。

このようにして、反意語の総数をカウントして、次のステップＳ２８０３において、予め定めた閾値との比較が行われる。閾値よりもカウントが小さい場合には、次のステップＳ２８０４に進み、確かであると判定される。また、カウントが閾値以上であれば、次のステップＳ２８０５に進み、確かでないと判定される。なお、この閾値を０とすれば、一つでも類似画像のオブジェクトに反意語が含まれているとき、ステップＳ２８０５に進んで確かでないと判定される。また、より大きな値とすれば、ステップＳ２８０４に進んで確かであると判定されやすく、後述するメタデータの確認や修正といった操作を減らすことができるので、ユーザーへの負担を減らすことができる。

なお、閾値は、類似画像のオブジェクトの類似度によって動的に変更されても良い。例えば、類似度が高い場合には、閾値を低い値に設定し、また、類似度が低い場合には、閾値を高い値に設定すれば、誤って類似すると判定された画像など、誤差による影響を減らすことができる。また、閾値との比較する値は、反意語の含むカウントとしているが、例えば、オブジェクトが持つメタデータのキャプション全体に対する反意語の割合を用いても良い。

また、本実施形態では、確からしさの判定基準として反意語を用いているが、これに限るものではなく、例えばユーザーの基準によって相反すると判定された語句を紐付けたような辞書を作成して用いても良い。また、上記の確からしさの判定基準は、反意語のような語句の意味が相反する場合に限定するものではなく、例えば類義語のように、意味が類似した語句を紐付けたような辞書を用いても良い。その場合、図２８のステップＳ２８０２で用いる辞書は、反意語辞書ではなく類義語辞書となり、ステップＳ２８０３の閾値処理では、閾値よりカウントが大きい場合に、確からしいと判定してステップＳ２７０４に進む。カウントが、閾値以下であれば、次ステップＳ２８０５に進み、確かでないと判定される。

＜第２の実施形態＞
次に、本発明に係る第２の実施形態を図面に基づいて説明する。

なお、本実施形態は、後述するメタデータ付け以外、第１の実施形態と同じ構成を有するため、その構成についての説明は省略する。

〔メタデータ付け（ステップＳ３０５）〕
図２５〜図２７と、図３０、図３１を用いて、第２の実施形態のメタデータ付けを以下に説明する。

図３０は、第２の実施形態におけるステップＳ３０５のメタデータ付けにおける処理を詳細に表わすフローチャートである。図３０に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

図３１は、第２の実施形態におけるメタデータの一例である。

まず、図３０のステップＳ４０１において、メタデータ付与対象オブジェクトの周囲で一番近くに存在する文字オブジェクトが選択される。次に、ステップＳ４０２において、選択された文字オブジェクトに対して、形態素解析が行われる。次に、ステップＳ４０３において、ステップＳ３０１でオブジェクト分割されたビットマップ画像データを用いて類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、ＭＦＰ１００に内蔵されたＢＯＸ、およびデータベース１０５に既に保存されている文書、および、それに含まれるオブジェクトである。前述の文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーによってオブジェクト毎に適切な内容が確認および付加されている。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。

次に、ステップＳ４０４において、ステップＳ４０３で算出された類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップＳ４０５へ進む。また、類似度が閾値以下だった場合には、ステップＳ４０７へ進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理が行われてもよい。

次に、ステップＳ４０５において、メタデータの確からしさの判定が行われる。次に、ステップＳ４０６において、メタデータが確からしいと判定された場合、ステップＳ４０７において、ステップＳ４０２で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップＳ４０６において、メタデータが確かでないと判定された場合には、ステップＳ３００１に処理が進む。ステップＳ３００１では、ステップＳ４０３で検出された類似画像のオブジェクトが持つメタデータのキャプション情報が付加される。

すなわち、図２７の文書２７０１が分割処理されたオブジェクト２７０２は、ステップＳ４０３の類似画像検索によって、文書２５０１のオブジェクト２５０２が検出される。ステップＳ４０５において、オブジェクト２７０２は確かでないと判定される。次に、ステップＳ３００１において、図３１の３１０１に示すように、類似画像オブジェクトのメタデータ２６０１のキャプション情報が付加される。

本実施形態では、ステップＳ４０５の確からしさ判定において、確からしさの判定基準に、意味の相反する語句を紐付けたような辞書を用いている。しかし、例えば類義語のように、意味の類似した語句を紐付けたような辞書を用いることもできるのは言うまでもない。

＜第３の実施形態＞
次に本発明に係る第３の実施形態を図面に基づいて説明する。

〔メタデータ付け（ステップＳ３０５）〕
図２５〜図２７と、図３２、図３３を用いて、第３の実施形態のメタデータ付けを以下で説明する。

図３２は、第３の実施形態におけるステップＳ３０５のメタデータ付けにおける処理を詳細に表わすフローチャートである。図３２に示されている全ての処理は、本実施形態に係る画像処理装置のＣＰＵによって実行される。

図３３は、第３の実施形態におけるメタデータの一例である。

まず、図３２のステップＳ４０１において、メタデータ付与対象オブジェクトの周囲で一番近くに存在する文字オブジェクトが選択される。次に、ステップＳ４０２において、選択された文字オブジェクトに対して、形態素解析が行われる。次に、ステップＳ４０３において、ステップＳ３０１でオブジェクト分割されたビットマップ画像データを用いて類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、ＭＦＰ１００に内蔵されたＢＯＸ、およびデータベース１０５に既に保存されている文書、および、それに含まれるオブジェクトである。前述の文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーによってオブジェクト毎に適切な内容が確認および付加されている。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。

次に、ステップＳ４０４において、ステップＳ４０３で算出した類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップＳ４０５へ処理が進む。また、類似度が閾値以下だった場合には、ステップＳ４０７へ処理が進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理を行ってもよい。

次に、ステップＳ４０５において、メタデータの確からしさの判定が行われる。次に、ステップＳ４０６において、メタデータが確からしいと判定された場合、ステップＳ４０７において、ステップＳ４０２で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップＳ４０６において、メタデータが確かでないと判定された場合には、ステップＳ３２０１に処理が進む。ステップＳ３２０１では、ステップＳ４０２で形態素解析結果により抽出された単語のうち、反意語と判定された単語が、ステップＳ４０３で検出された類似画像のオブジェクトに含まれている反意語で上書きされた（置き換えられた）後、付加される。すなわち、メタデータ候補として抽出された単語のうち、確からしくないと判定された単語を、類似画像が備える単語で置き換えた後に、メタデータとして付加する。

すなわち、図２７の文書２７０１が分割処理されたオブジェクト２７０２は、図３２のステップＳ４０２において、オブジェクト２７０３からキャプション「森林」、「減少」、「環境破壊」、「人工」、「閉鎖的」などを保持している。ステップＳ４０３の類似画像検索において、文書２５０１のオブジェクト２５０２が検出される。ステップＳ４０５において、「人工」、「閉鎖的」が反意語であると判定され、オブジェクト２７０２は確かでないと判定される。次に、ステップＳ３２０１において、図３３の３３０１に示すように、類似画像オブジェクトのメタデータ２６０１のキャプション情報から反意語であったもの（「自然」、「開放的」）を用いて上書きされた後に、メタデータとして付加される。

本実施形態では、ステップＳ４０５の確からしさ判定において、確からしさの判定基準に、意味の相反する語句を紐付けたような辞書が用いられている。しかし、例えば、類義語のように、意味の類似した語句を紐付けたような辞書を用いることもできるのは言うまでもない。その場合には、ステップＳ３２０１において、ステップＳ４０２で形態素解析により抽出した語句に加えて、ステップＳ４０３で検出された類似画像のオブジェクトが持つメタデータのキャプション情報を追加して付加する。このとき、ステップＳ４０２で形態素解析により抽出した語句と同じものが、ステップＳ４０３で検出された類似画像のオブジェクトが持つメタデータのキャプション情報にあれば、重複しないように除いて、追加される。

＜第４の実施形態＞
本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、以下のようにしても達成される。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した、コンピュータ読取り可能な記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコード（コンピュータプログラム）を読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスクを用いることができる。また、プログラムコードを供給するための記憶媒体としては、例えば、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＣＤ―ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカードも用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、以下のように処理が行なわれる。すなわち、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部または全部が行われ、その処理によって前述した実施形態の機能が実現される。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された拡張機能ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、以下の処理が行なわれる。すなわち、そのプログラムコードに指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。

本発明に係る画像処理装置を示すブロック図である。図１におけるＭＦＰを示すブロック図である。第１の実施形態で説明する第１のデータ処理フローを示す図である。第１の実施形態で説明するメタ情報を付加する処理フローを示す図である。第１の実施形態で説明するスキャナからの読み込みを示す処理フローを示す図である。第１の実施形態で説明するＰＣからのデータをビットマップ画像データにする処理フローを示す図である。オブジェクト分割した結果の一例を示す図である。オブジェクト分割情報したときの各属性のブロック情報および入力ファイル情報を示す図である。第１の実施形態に係るベクトル化処理のフロー図である。ベクトル化の処理における角抽出の処理を示す図である。ベクトル化の処理における輪郭線まとめの処理を示す図である。図９で生成されたベクトルデータのグループ化の処理を示すフローチャートである。図１２の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。第１の実施形態に係るベクトル化処理結果のデータを示す図である。アプリデータ変換の処理を示すフローチャートを示す図である。図１５の文書構造ツリー生成の処理を示すフローチャートを示す図である。文書構造ツリー生成処理の対象となる文書を示す図である。図１６の処理によって生成される文書構造ツリーを示す図である。ＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）形式の一例を示す図である。図３のステップＳ３０７のＵＩの例を示す図である。図３のステップＳ３０７のＵＩのページ表示の例を示す図である。図３のステップＳ３０７のＵＩのオブジェクト属性表示の例を示す図である。図３のステップＳ３０７のＵＩのオブジェクト分割された一つのオブジェクトが表示される例を示す図である。図３のステップＳ３０７のＵＩのオブジェクトとメタ情報を表示される例を示す図である。文書の一例を示す図である。メタデータのデータ形式を示す図である。文書の一例を示す図である。確からしさ判定処理のフローを示す図である。辞書の一例を示す図である。メタ情報を付加する処理フローを示す図である。メタデータの一例を示す図である。メタ情報を付加する処理フローを示す図である。メタデータの一例を示す図である。

符号の説明

１０オフィス
２０オフィス
１００ＭＦＰ
１０１マネージメントＰＣ
１０２ローカルＰＣ
１０３プロキシサーバ
１０４インターネット
１０５データベース
１０６文書管理サーバ
１０７ＬＡＮ
１０８ＬＡＮ
１１０画像読み取り部
１１１記憶装置（ＢＯＸ）
１１２記録装置
１１３入力装置
１１４ネットワークＩ／Ｆ
１１５データ処理装置
１１６表示装置

Claims

入力された画像を複数の領域に分割する分割手段と、
前記分割手段によって分割された領域にメタデータを付加する付加手段と、
前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段とを備え、
前記付加手段は、前記分割された領域に対して前記画像から第１のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第１のメタデータと前記検索手段で検索した類似画像に付加されている第２のメタデータとを比較することにより、前記第１のメタデータの確からしさを判定する判定手段とを有し、前記判定手段で確からしいと判定された場合の第１のメタデータを当該領域のメタデータとして付加することを特徴とする画像処理装置。
前記付加手段は、前記判定手段で確からしくないと判定された場合、ユーザーに当該領域に付加すべきメタデータの確認および修正を行わせることを特徴とする請求項１に記載の画像処理装置。
前記付加手段は、前記判定手段で確からしくないと判定された場合、前記類似画像のメタデータを前記分割された領域のメタデータとして付加することを特徴とする請求項１に記載の画像処理装置。
前記付加手段は、前記判定手段で確からしくないと判定された場合、前記第１のメタデータのうち、確からしくないと判定された一部のメタデータを、前記類似画像のメタデータで置き換えて、前記分割された領域のメタデータとして付加することを特徴とする請求項１に記載の画像処理装置。
前記付加手段は、前記第１のメタデータと前記第２のメタデータとの比較において、意味の相反する語句の有無を用いることを特徴とする請求項１乃至４のいずれかに記載の画像処理装置。
前記付加手段は、前記第１のメタデータと前記第２のメタデータとの比較において、意味の類似する語句の有無を用いることを特徴とする請求項１乃至４のいずれかに記載の画像処理装置。
入力された画像を複数の領域に分割する分割ステップと、
前記分割ステップで分割された領域にメタデータを付加する付加ステップと、
前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存ステップとを備え、
前記付加ステップでは、前記分割された領域に対して前記画像から第１のメタデータを取得する取得ステップと、前記分割された領域に類似する類似画像を検索する検索ステップと、前記取得ステップで取得した第１のメタデータと前記検索ステップで検索した類似画像に付加されている第２のメタデータとを比較することにより、前記第１のメタデータの確からしさを判定する判定ステップとを有し、前記判定ステップで確からしいと判定された場合の第１のメタデータを当該領域のメタデータとして付加することを特徴とする画像処理方法。
コンピュータを、
入力された画像を複数の領域に分割する分割手段、
前記分割手段によって分割された領域にメタデータを付加する付加手段、
前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段、として機能させるためのコンピュータプログラムであって、
前記付加手段は、前記分割された領域に対して前記画像から第１のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第１のメタデータと前記検索手段で検索した類似画像に付加されている第２のメタデータとを比較することにより、前記第１のメタデータの確からしさを判定する判定手段と、を含み、前記判定手段で確からしいと判定された場合の第１のメタデータを当該領域のメタデータとして付加することを特徴とする、コンピュータプログラム。
請求項８に記載のコンピュータプログラムを記憶した、コンピュータ読取り可能な記憶媒体。