JP2009211554A - 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体 - Google Patents

画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体 Download PDF

Info

Publication number
JP2009211554A
JP2009211554A JP2008055451A JP2008055451A JP2009211554A JP 2009211554 A JP2009211554 A JP 2009211554A JP 2008055451 A JP2008055451 A JP 2008055451A JP 2008055451 A JP2008055451 A JP 2008055451A JP 2009211554 A JP2009211554 A JP 2009211554A
Authority
JP
Japan
Prior art keywords
metadata
image
area
data
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008055451A
Other languages
English (en)
Inventor
Yoichi Kashibuchi
洋一 橿渕
Hiroshi Kaburagi
浩 蕪木
Tsutomu Sakagami
努 坂上
Takeshi Namigata
健 波潟
Manabu Takebayashi
学 竹林
Reiji Misawa
玲司 三沢
Osamu Iinuma
修 飯沼
Naoki Ito
直樹 伊藤
Junya Arakawa
純也 荒川
Shinji Sano
真治 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008055451A priority Critical patent/JP2009211554A/ja
Publication of JP2009211554A publication Critical patent/JP2009211554A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本発明の課題は、画像データに付帯する情報を生成、管理する画像処理装置を提供することである。
【解決手段】上記課題を解決するために、本発明に係る画像処理装置は、入力された画像を複数の領域に分割し、前記分割された領域にメタデータを付加して、オブジェクトとして記憶装置に保存する。そのメタデータを付加する際、前記分割された領域に対して前記画像から第1のメタデータを取得し、また、前記分割された領域に類似する類似画像を検索する。そして、第1のメタデータと前記検索した類似画像に付加されている第2のメタデータとを比較することにより、前記第1のメタデータの確からしさを判定し、確からしいと判定された場合の第1のメタデータを当該領域のメタデータとして付加する。
【選択図】図4

Description

本発明は、オフィス文書などからなる画像データを検索する技術に係わり、画像データに付帯する情報を生成、管理する画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体に関する。
近年の複写機は、内部画像処理のデジタル化によって、目覚しいスピードで多機能化が進んでいる。基本的な機能としては、原稿を複写するコピー機能、ホストコンピュータで作成した文書のプリントが可能なPDL機能がある。さらに、ネットワークを介して原稿を電子文書として複写機外部に送るSEND(送信)機能、作成された画像を複写機内部に保存および再利用可能とするBOX機能、保存された原稿画像を再利用する編集機能がある。
一方で、画像の品質に対する要求も高い。原稿の高い再現性を求めるあまり、複写機内部の画像処理解像度は、600dpiから1200dpi、2400dpiへ、信号のビット数は8bitから10bit、12bitへと増加の一途を辿っている。膨れ上がった情報量を持つ内部処理用のビットマップ画像データに耐えるだけのメモリやストレージの追加、高性能なCPUへの置き換えなどによって、機器や開発のコストの増加が無視できない状況になっている。
このような状況において、読み取った原稿を領域分割し、原稿に含まれる各領域を適応的に処理する技術が提案されている。例えば、各領域を文字、グラフィック、写真といった属性に分け、文字、グラフィックに関してはベクトル化を行ってベクトルデータに、写真に関してはJPEGに変換する。こうして作成した文書を、編集機能やSEND機能を利用するといった技術があった(例えば、特許文献1参照。)。これによれば、ベクトルデータを用いることで低コスト、高画質を両立し、操作性や利便性の高い編集機能や、SEND機能を実現することができる。
さらに、複写機などによる近年の電子文書の普及により、電子文書を有効活用したいという要求が高まり、保存、蓄積した電子文書を効率的に再利用するためのシステムが望まれている。
電子文書として保存する際、原稿画像の論理構造を解析し、文書内に含まれる画像情報の各領域に対して検索のためのメタデータを自動で付与するといった提案がなされている(例えば、特許文献2参照)。これによれば、こうして保存された電子文書は、高い精度で検索用のメタデータを自動で抽出できるため利便性が高く、検索性の向上も期待できるため効率的な電子文書の再利用が可能となる。
特開2005−159517号公報 特開2006−221569号公報
ところが、上記の方法ではページ内の文書構造に関連性が無いなど、文書のレイアウトによっては適切にメタデータを抽出できない可能性がある。また、抽出されたメタデータの確からしさを判定する複合的な手段も無いため、適切でないメタデータが抽出されても、そのまま画像情報に付加して登録されてしまう。有効なメタデータを付加しなければ検索性が低下するため、防止策としてはユーザーが全てのメタデータを確認することが考えられるが、極めて非効率であり現実的ではないという問題点があった。
上記課題を解決するために、本発明に係る画像処理装置は、入力された画像を複数の領域に分割する分割手段と、前記分割手段によって分割された領域にメタデータを付加する付加手段と、前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段とを備え、前記付加手段は、前記分割された領域に対して前記画像から第1のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第1のメタデータと前記検索手段で検索した類似画像に付加されている第2のメタデータとを比較することにより、前記第1のメタデータの確からしさを判定する判定手段とを有し、前記判定手段で確からしいと判定された場合の第1のメタデータを当該領域のメタデータとして付加することを特徴とする。
本発明によれば、原稿の文書画像から自動的に抽出されたメタデータの確からしさを判定するため、確かでない場合にメタデータの確認や修正を漏れなく行い、検索性の低下を防ぐことができる。また、全ての原稿を確認する必要がないため、ユーザーの利便性を向上させることができる。
さらに、本発明によれば、メタデータが確かでない場合には、メタデータを自動で付け替えることが可能となるため、ユーザーが意識することなく確かなメタデータを付加した文書を作成することができる。
<第1の実施形態>
次に本発明に係る第1の実施形態を図面に基づいて説明する。
図1は、本発明に係る画像処理装置を示すブロック図を示す。図2は、図1におけるMFPを示すブロック図を示す。図3は、第1の実施形態で説明する第1のデータ処理フローである。図7は、ベクトル化処理の中で実施するオブジェクト分割処理で領域分割情報した結果の一例を示す。図8は、オブジェクト分割したときの各属性のブロック情報および入力ファイル情報を示す。図9は、再利用可能なデータへの変換で重要なベクトル化処理のフロー図である。図10は、ベクトル化の処理における角抽出の処理を示す図である。図11は、ベクトル化の処理における輪郭線まとめの処理を示す図である。図12は、図9で生成されたベクトルデータのグループ化の処理を示すフローチャートである。図13は、図12の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。図14は、本実施形態に係るベクトル化処理結果のデータを示すマップである。図15は、アプリデータ変換の処理を示すフローチャートである。図16は、図15の文書構造ツリー生成の処理を示すフローチャートである。図17は、文書構造ツリー生成処理の対象となる文書を示す図である。図18は、図16の処理によって生成される文書構造ツリーを示す図である。図19は、本実施形態で説明するScalable Vector Graphics(SVG))形式の一例を示す。
[画像処理装置]
図1に示されているように、本発明に係る画像処理装置は、オフィス10とオフィス20とをインターネット104で接続した環境において使用される。
オフィス10内に構築されたLAN107には、以下のものが接続されている。すなわち、記録装置としてのマルチファンクション複合機(MFP)100、MFP100を制御するマネージメントPC101、ローカルPC102、文書管理サーバ106、文書管理サーバ106のためのデータベース105が接続されている。
オフィス20内にはLAN108が構築され、LAN108には文書管理サーバ106、および文書管理サーバ106のためのデータベース105が接続されている。
LAN107、108にはプロキシサーバ103が接続され、LAN107、108はプロキシサーバ103を介してインターネットに接続される。
MFP100は原稿から読み取った入力画像に対する画像処理の一部を担当し、処理結果としての画像データをLAN109からマネージメントPC101に入力する機能がある。加えて、ローカルPC102、もしくは不図示の汎用PCから送信されるPage Discription Language(PDL)言語を解釈して、プリンタとして作用する。さらには、原稿から読み取った画像をローカルPC102もしくは、不図示の汎用PCに送信する機能をもつ。マネージメントPC101は、画像記憶手段、画像処理手段、表示手段、入力手段等を含む通常のコンピュータであり、機能的にはこれら構成要素の一部がMFP100と一体化して、画像処理装置の構成要素となっている。なお、本実施形態では、マネージメントPCを介してデータベース105において、下記に記載する登録処理などが実行されるものとするが、マネージメントPCで行われる処理をMFPで実行するようにしても良い。
さらに、MFP100は、LAN109によってマネージメントPC101に直接接続されている。
[MFP]
図2において、MFP100は、不図示の自動ドキュメントフィーダ(ADF)を有する画像読み取り部110を備え、画像読み取り部110は束状の或いは1枚の原稿の画像を光源で照射し、反射画像をレンズで固体撮像素子上に結像する。固体撮像素子は、所定解像度(例えば600dpi)および所定輝度レベル(例えば8ビット)の画像読み取り信号を生成し、画像読み取り信号からラスターデータよりなる画像データが構成される。
MFP100は、記憶装置(BOX)111および記録装置112を有し、通常の複写機能を実行する際には、イメージデータをデータ処理装置115によって、複写のために画像処理して記録信号に変換する。複数枚複写の場合には、1頁分の記録信号を一旦、BOX111に記憶保持した後、記録装置112に順次出力して、記録紙上に記録画像を形成する。
MFP100は、LAN107との接続のためのネットワークI/F114を有し、ローカルPC102、もしくは他の汎用PC(不図示)からドライバーを利用して出力するPDL言語を、記録装置112によって記録し得る。ローカルPC102からドライバーを経由して出力されるPDLデータは、LAN107からネットワークI/F114を経てデータ処理装置115に入力される。そこで言語を解釈および処理することで記録可能な記録信号に変換された後、MFP100において、記録紙上に記録画像として記録される。
BOX111は、画像読み取り部110からのデータやローカルPC102からドライバーを経由して出力されるPDLデータをレンダリングしたデータを保存できる機能を有している。
MFP100は、MFP100に設けられたキー操作部(入力装置113)、あるいはマネージメントPC101の入力装置(キーボード、ポインティングデバイス等)を通じて操作される。これらの操作のために、データ処理装置115は内部の制御部(図示せず。)によって所定の制御を実行する。
MFP100は表示装置116を有し、操作入力の状態と、処理すべきイメージデータとを、表示装置116によって表示し得る。
BOX111はネットワークI/F117を介して、マネージメントPC101から直接制御し得る。LAN109は、MFP100とマネージメントPC101との間のデータの授受、制御信号授受に用いられる。
〔オブジェクト毎の保存〕
図3は、ビットマップ画像データをオブジェクト毎に保存するためのフローチャートを示す。図3に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
ここで、ビットマップ画像データは、MFP100の画像読み取り部110により取得されても良い。また、ビットマップ画像データは、アプリケーションソフトで作成されたドキュメントをMFP100内部でレンダリングして生成されても良い。
まず、ステップS301において、入力された画像に対してオブジェクト分割処理(領域分割処理/領域抽出処理とも言う)が行われる。本実施形態においては、オブジェクト分割により抽出されたオブジェクトの種類(属性)は、文字、写真(背景)、グラフィック(図面、線画、表)のいずれかに分類されるものとする。分割された各々のオブジェクトは、ビットマップ画像データのままで、ステップS302において、オブジェクトの種類(文字、写真(背景)、グラフィック(図面、線画、表))が判定される。各オブジェクト(領域)に対して、当該判定された種類に応じた処理が行われる。オブジェクトの種類が写真の場合、ステップS303において、当該写真オブジェクト(領域)のビットマップ画像データはJPEG圧縮される。また、オブジェクトの種類が背景の場合も同様に、ステップS303において、当該背景オブジェクトのビットマップ画像データはJPEG圧縮される。次に、オブジェクトの種類が、グラフィックの場合、ステップS304において、当該グラフィックオブジェクトはベクトル化処理され、パス化されたデータに変換される。最後に、オブジェクトの種類が、文字の場合も、ステップS304において、グラフィックと同様にベクトル化処理され、パス化されたデータに変換される。更に、オブジェクトの種類が文字の場合には、ステップS308において、OCR処理が施され、文字コード化されたデータも生成される。全てのオブジェクトデータと、文字コード化されたデータが一つのファイルとしてまとめられる。次に、ステップS305において、各オブジェクトに対して、最適なメタデータが付与される。メタデータ付与処理の詳細については後述する。メタデータが付与された各々のオブジェクトは、ステップS306において、MFP100に内蔵されているBOXに保存される。保存されたデータは、ステップS307において、UI画面に表示される。また、各オブジェクトは最適なメタデータが付与されて保存されているので、キーワード等を用いて検索することで、ユーザー所望のオブジェクトを取得することができる。
〔入力される処理対象ビットマップ画像データ〕
<MFP100の画像読み取り部からの入力の場合>
MFP100の画像読み取り部を使用した場合には、図5のステップS501において、画像が読み込まれる。ステップS501において、読み込まれた画像は、既にビットマップ画像データである。次に、ステップS502において、ビットマップ画像データに対してスキャナに依存する画像処理が行われる。スキャナに依存する画像処理とは、例えば、色処理やフィルタ処理を指す。なお、図5に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
<ローカルPC102上のアプリケーションソフトからの入力の場合>
ローカルPC102上のアプリケーションソフトを使用して作成したアプリデータは、図6のステップS601において、ローカルPC102上にあるプリントドライバを介して、プリントデータに変換され、MFP100に送信される。ここで、プリントデータとは、PDLを意味し、例えば、LIPS、Postscript等を指す。次に、ステップS602において、MFP100内部に存在するインタープリタを介して、ディスプレイリストが生成される。次に、ステップS603において、ディスプレイリストがレンダリングされることにより、ビットマップ画像データが生成される。なお、図6に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
ステップS301において、図5または図6で得たビットマップ画像データが、オブジェクト分割される。
〔メタデータ付け(ステップS305)〕
ステップS305のメタデータ付けに関するフローチャートを図4に示す。図4に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
まず、ステップS401において、メタデータ付与対象のオブジェクト(写真やグラフィックなど)の周囲で一番近くに存在する文字オブジェクト(複数の文字画像を含む文字領域)が選択される。次に、ステップS402において、選択された文字オブジェクトに対して、S308のOCR結果の文字コード群を用いて形態素解析が行われる。本実施形態では、形態素解析結果として得られた単語を、該オブジェクトのメタデータとして、自動的に付与するか、ユーザーに確認させてから付与するかを以下で判定する。
次に、ステップS403において、メタデータ付与対象のオブジェクトのビットマップ画像データを用いた類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、MFP100に内蔵されたBOX、およびデータベース105に既に保存されている文書、および、それに含まれるオブジェクトである。オブジェクトの詳細については後述する。
前述の既に保存されている文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーまたは装置によってオブジェクト毎に適切な内容が確認および付加されているものとする。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。
本発明における類似画像検索手法は、比較アルゴリズムの種類に影響される訳ではないので、任意の比較アルゴリズムを採用することができる。例えば、画像内の個々の画素について、その画素の濃淡を、ある閾値より高いか低いかで二値化して二値画像を生成し、生成された検索対象の二値画像と、オブジェクトのビットマップ画像データを二値化した二値画像とを比較する。それらの一致する画素数をカウントすることで、類似度が算出される。あるいは、画像全体の明暗を表現したヒストグラムを利用する手法や、画像の周波数成分に着目して輪郭抽出を行う手法を採用して、類似度が算出されてもよい。さらに、色情報、被写体の形状または傾きなどの情報を比較して、類似度が算出されてもよい。もちろん、これらの類似度算出方法は単なる例示であり、本発明は他の類似度の算出方法を採用できることは言うまでもない。また、類似画像検索において、後述するメタデータのユーザー情報や、日時などによって、予め検索対象の絞り込みを行っても良い。
次に、ステップS404において、ステップS403で算出された類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップS405へ処理が進む。また、類似度が閾値以下だった場合には、ステップS408へ処理が進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理が行われてもよい。
次に、ステップS405において、後述するメタデータの確からしさの判定が行われる。次に、ステップS406において、ステップS405の判定結果でメタデータが確からしいと判定された場合、ステップS407において、ステップS402で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップS406において、ステップS405の判定結果でメタデータが確かでないと判定された場合には、ステップS408に処理が進む。ステップS408では、メタデータの確認および修正を行うか否かをユーザーに示した上で、確認および修正を行うのであればステップS409において後述するUIによるメタデータの編集と付加が行われる。また、ステップS408において、メタデータの確認および修正を行わない場合には、ステップS407において、ステップS402で形態素解析結果により抽出された単語がメタデータとして各オブジェクトに付加される。
また、メタデータは、形態素解析だけではなく、画像特徴量抽出、構文解析等により作成できることは言うまでもない。
[登録の詳細設定]
図3のベクトル化処理ステップS304でベクトル化されたデータのフォーマットの一例を図19に示す。本実施形態では、SVG形式で表記しているが、これに限定されるものではない。
図19では説明のため、オブジェクトの表記を枠で囲われている。枠1901は、イメージ属性を示し、そこには、イメージオブジェクトの領域の示す領域情報とビットマップ画像データの情報が示されている。枠1902は、テキストオブジェクトの情報が、枠1903では、枠1902で示した内容をベクターオブジェクトとして表現されている。続く、枠1904は、表オブジェクトなどのラインアートを表す。
[オブジェクト分割処理(領域分割処理)]
ステップS301(オブジェクト分割ステップ)においては、図7右半部の画像702に示されているように、入力画像を属性ごとに矩形ブロックに分割される。前述のように、矩形ブロックの属性としては、文字、写真、グラフィック(図面、線画、表など)がある。なお、オブジェクト分割処理(領域分割処理)は公知の技術を利用することが可能であり、以下ではその一例について説明する。
オブジェクト分割ステップにおいては、まず、RAM(不図示)に格納されたイメージデータが白黒に2値化され、黒画素輪郭で囲まれる画素塊が抽出される。
さらに、このように抽出された黒画素塊の大きさが評価され、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡が行われる。白画素塊に対する大きさ評価、内部黒画素塊の追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡が行われる。
画素塊の大きさは、例えば、画素塊の面積によって評価される。
このようにして得られた画素塊に外接する矩形ブロックが生成され、矩形ブロックの大きさ、形状に基づき属性が判定される。
例えば、縦横比が1に近く、大きさが一定の範囲の矩形ブロックが、文字領域矩形ブロックの可能性がある文字相当ブロックとされる。また、近接する文字相当ブロックが規則正しく整列しているときに、これら文字相当ブロックを纏めた新たな矩形ブロックが生成され、新たな矩形ブロックを文字領域矩形ブロックとされる。
また、扁平な画素塊、もしくは、一定大きさ以上でかつ四角形の白画素塊を整列よく内包する黒画素塊がグラフィック領域矩形ブロック、それ以外の不定形の画素塊が写真領域矩形ブロックとされる。
オブジェクト分割ステップでは、このようにして生成された矩形ブロックのそれぞれについて、図8に示される、属性等のブロック情報および入力ファイル情報が生成される。
図8において、ブロック情報には各ブロックの属性、位置の座標X、座標Y、幅W、高さH、OCR情報が含まれる。属性は、1〜3の数値で与えられ、1は文字領域矩形ブロック、2は写真領域矩形ブロック、3はグラフィック領域矩形ブロックを示す。座標X、座標Yは入力画像における各矩形ブロックの始点のX、Y座標(左上角の座標)である。幅W、高さHは矩形ブロックのX座標方向の幅、Y座標方向の高さである。OCR情報は、入力画像におけるポインタ情報の有無を示す。
さらに、入力ファイル情報として矩形ブロックの個数を示すブロック総数Nが含まれる。
これらの矩形ブロックごとのブロック情報は、特定領域でのベクトル化に利用される。また、ブロック情報によって、特定領域とその他の領域を合成する際の相対位置関係を特定でき、入力画像のレイアウトを損なわずにベクトル化領域とラスターデータ領域を合成することが可能となる。
[ベクトル化ステップ]
ステップS304(ベクトル化ステップ)は、図9に示されている各ステップによって実行される。図9に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
まず、ステップS901において、特定領域が文字領域矩形ブロックであるか否か判定される。ステップS901において、特定領域が文字領域矩形ブロックであると判定された場合には、ステップS902以下のステップに進み、パターンマッチングの一手法を用いて認識が行われ、対応する文字コードが得られる。ステップS901において、特定領域が文字領域矩形ブロックでないと判定されたときは、ステップS912に処理が移行する。
ステップS902では、特定領域に対し横書き、縦書きの判定(組み方向判定)をおこなうために、特定領域内で画素値に対する水平および垂直の射影が取られる。
ステップS903では、ステップS902で取られた射影の分散が評価される。水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定される。
ステップS904では、ステップS903の評価結果に基づき、組み方向が判定され、行の切り出しが行われ、その後文字を切り出して文字画像が得られる。
文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、切り出された行に対する垂直方向の射影から、文字を切り出す。縦書きの文字領域に対しては、水平と垂直について逆の処理が行われる。行、文字切り出しに際して、文字のサイズも検出される。
ステップS905では、ステップS904で切り出された各文字について、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルが生成される。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴ベクトルとする方法がある。
ステップS906では、ステップS905で得られた観測特徴ベクトルと、あらかじめフォントの種類ごとに求められている辞書特徴ベクトルとを比較し、観測特徴ベクトルと辞書特徴ベクトルとの距離が算出される。
ステップS907では、ステップS906で算出された距離が評価され、最も距離の近いフォントの種類が認識結果とされる。
ステップS908では、ステップS907における距離評価において、最短距離が所定値よりも大きいか否か、類似度が判定される。類似度が所定値以上の場合は、辞書特徴ベクトルにおいて、形状が類似する他の文字に誤認識している可能性が高い。そこで、ステップS908において、類似度が所定値以上であると判定された場合は、ステップS907の認識結果を採用せず、ステップS911に処理が進む。ステップS908において、類似度が所定値より低い(小さい)と判定された場合には、ステップS907の認識結果を採用し、ステップS909に処理が進む。
ステップS909(フォント認識ステップ)では、文字認識の際に用いる、フォントの種類数分の辞書特徴ベクトルが、文字形状種すなわちフォント種に対して複数用意される。辞書特徴ベクトルが、パターンマッチングの際に、文字コードとともにフォント種を出力することで、文字フォントが認識される。
ステップS910では、文字認識およびフォント認識よって得られた文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、各文字がベクトルデータに変換される。なお、入力画像がカラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録される。
ステップS911では、文字を一般的なグラフィックと同様に扱われ、該文字がアウトライン化される。すなわち、誤認識を起こす可能性の高い文字については、可視的にイメージデータに忠実なアウトラインのベクトルデータが生成される。
ステップS912では、特定領域が文字領域矩形ブロックでないときは、画像の輪郭に基づいてベクトル化の処理が実行される。
以上の処理により、文字領域矩形ブロックに属するイメージ情報をほぼ形状、大きさ、色が忠実なベクトルデータに変換される。
[グラフィック領域のベクトル化]
ステップS301の文字領域矩形ブロック以外の領域、すなわちグラフィック領域矩形ブロックと判定されたときは、特定領域内で抽出された黒画素塊の輪郭がベクトルデータに変換される。
文字領域以外の領域のベクトル化においては、まず線画等を直線および/または曲線の組み合わせとして表現するために、曲線を複数の区間(画素列)に区切る「角」が検出される。角とは曲率が極大となる点であり、図10の曲線上の画素Piが角か否かの判定は以下のように行われる。
すなわち、Piを起点とし、曲線に沿ってPiから両方向に所定画素(k個とする。)ずつ離れた画素Pi−k、Pi+kを線分Lで結ばれる。画素Pi−k、P i+k間の距離をd1、線分Lと画素Piとの距離をd2、曲線の画素Pi−k 、Pi+k間の弧の長さをAとする。このとき、d2が極大となるとき、あるいは比( d1/A)が閾値以下となるときに画素Piが角と判定される。
角によって分割された画素列は、直線あるいは曲線で近似される。直線への近似は最小二乗法等により実行され、曲線への近似は3次スプライン関数などが用いられる。画素列を分割する角の画素は近似直線あるいは近似直線における、始端または終端となる。
さらにベクトル化された輪郭内に白画素塊の内輪郭が存在するか否かが判定され、内輪郭が存在するときはその輪郭がベクトル化され、内輪郭の内輪郭というように、再帰的に反転画素の内輪郭がベクトル化される。
以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。元原稿がカラーの場合は、カラー画像から図形の色が抽出されてベクトルデータとともに記録される。
図11に示されているように、ある注目区間で外輪郭PRjと、内輪郭PRj+1あるいは別の外輪郭が近接している場合、2個あるいは複数の輪郭線をひとまとめにし、太さを持った線として表現することができる。例えば、輪郭PRj+1の各画素Piから輪郭PRj上で最短距離となる画素Qiまでの距離PiQiが算出され、PQiのばらつきがわずかである場合には、注目区間が、画素Pi、Qiの中点Miの点列に沿った直線または曲線で近似される。近似直線、近似曲線の太さは、例えば、距離PiQiの平均値とする。
線や線の集合体である表罫線は、太さを持つ線の集合とすることにより、効率よくベクトル表現される。
輪郭まとめの処理の後、全体の処理が終了する。
なお、写真領域矩形ブロックについては、ベクトル化されず、イメージデータのままである。
[図形認識]
以上の線図形等のアウトラインをベクトル化した後、ベクトル化された区分線が図形オブジェクトごとにグループ化される。
図12の各ステップは、ベクトルデータを図形オブジェクトごとにグループ化する処理を示す。図12に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
まず、ステップS1201では、各ベクトルデータの始点、終点が算出される。
次に、ステップS1202(図形要素検出)では、ステップS1201で求められた始点、終点情報を用いて、図形要素が検出される。図形要素とは、区分線が構成している閉図形であり、検出に際しては、始点、終端となっている共通の角の画素においてベクトルを連結する。すなわち、ステップS1202では、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理が、応用される。
次に、ステップS1203では、図形要素内に存在する他の図形要素、もしくは区分線がグループ化され、一つの図形オブジェクトとされる。また、図形要素内に他の図形要素、区分線が存在しない場合は、図形要素が図形オブジェクトとされる。
[図形要素の検出]
ステップS1202(図形要素検出)の処理は、図13の各ステップによって実行される。図13に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
ステップS1301では、まず、ベクトルデータより両端に連結していない不要なベクトルが除去され、閉図形を構成するベクトルが抽出される。
次に、ステップS1302では、閉図形を構成するベクトルについて、いずれかのベクトルの端点(始点または終点)を開始点とし、一定方向、例えば時計回りに、順にベクトルが探索される。すなわち、他端点において他のベクトルの端点が探索され、所定距離内の最近接端点が連結ベクトルの端点とされる。閉図形を構成するベクトルを1まわりして開始点に戻ったとき、通過したベクトルが、全て一つの図形要素を構成する閉図形としてグループ化される。また、閉図形内部にある閉図形構成ベクトルも全てグループ化される。さらに、まだグループ化されていないベクトルの始点を開始点とし、同様の処理が繰り返される。
最後に、ステップS1303では、ステップS1301で除去された不要ベクトルのうち、ステップS1302で閉図形としてグループ化されたベクトルに端点が近接しているベクトルが検出され、一つの図形要素としてグループ化される。
以上の処理によって図形ブロックを、再利用可能な個別の図形オブジェクトとして扱う事が可能になる。
[BOX保存処理]
図3のオブジェクト分割ステップ(ステップS301)の後、ベクトル化(ステップS304)した結果のデータを用いて、BOX保存データへの変換処理が実行される。ステップS304のベクトル化処理結果は、図14に示されている中間データの形式、いわゆるドキュメント・アナリシス・アウトプット・フォーマット(以下、DAOF)と呼ばれる形式で保存されている。
図14において、DAOFは、ヘッダ1401、レイアウト記述データ部1402、文字認識記述データ部1403、表記述データ部1404、画像記述データ部1405を含む。
ヘッダ1401には、処理対象の入力画像に関する情報が保持される。
レイアウト記述データ部1402には、入力画像中の矩形ブロックの属性である文字、写真、グラフィック(図面、線画、表)、背景の情報と、これら属性が認識された各矩形ブロックの位置情報が保持される。
文字認識記述データ部1403には、文字領域矩形ブロックのうち、文字認識して得られる文字認識結果が保持される。
表記述データ部1404には、表の属性を持つグラフィック領域矩形ブロックの表構造の詳細が格納される。
画像記述データ部1405には、グラフィック領域矩形ブロックにおけるイメージデータが、入力画像データから切り出して保持される。
ベクトル化処理を指示された特定領域においては、ブロックに対しては、画像記述データ部1405には、ベクトル化処理により得られたブロックの内部構造や、画像の形状や文字コード等あらわすデータの集合が保持される。
一方、ベクトル化処理の対象ではない、特定領域以外の矩形ブロックでは、入力画像データそのものが保持される。
BOX保存データへの変換処理は図15の各ステップにより実行される。図15に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
ステップS1501では、DAOF形式のデータが入力される。
ステップS1502では、アプリデータの元となる文書構造ツリー生成が行われる。
ステップS1503では、文書構造ツリーを元に、DAOF内の実データが取得され、実際のアプリデータが生成される。
ステップS1503の文書構造ツリー生成処理は図16の各ステップにより実行される。図16に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
図16の処理における全体制御の基本ルールとして、処理の流れはミクロブロック(単一矩形ブロック)からマクロブロック(矩形ブロックの集合体)へ移行する。以後「矩形ブロック」は、ミクロブロックおよびマクロブロック両者を意味するものとする。
ステップS1601では、矩形ブロック単位で、縦方向の関連性に基づいて、矩形ブロックが再グループ化される。図16の処理は繰り返し実行されることがあるが、処理開始直後はミクロブロック単位での判定となる。
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどの特徴によって定義される。また、距離、幅、高さなどの情報は、DAOFを参照して、抽出される。
図17のイメージデータでは、最上部で、矩形ブロックT1、T2が横方向に並列されている。矩形ブロックT1、T2の下には横方向セパレータS1が存在し、横方向セパレータS1の下に矩形ブロックT3、T4、T5、T6、T7が存在する。
矩形ブロックT3、T4、T5は、横方向セパレータS1下側の領域における左半部において上から下に、縦方向に配列され、矩形ブロックT6、T7は、横方向セパレータS1下側の領域における右半部において上下に配列されている。
そして、ステップS1601の縦方向の関連性に基づくグルーピングの処理が実行される。これによって、矩形ブロックT3、T4、T5が1個のグループ(矩形ブロック)V1にまとめられ、矩形ブロックT6、T7が1個のグループ(矩形ブロック)V2にまとめられる。グループV1、V2は同一階層となる。
ステップS1602では、縦方向のセパレータの有無がチェックされる。セパレータは、DAOF中でライン属性を持つオブジェクトであり、アプリケーションソフトウエア中で明示的にブロックを分割する機能をもつ。セパレータが検出されると、処理対象の階層において、入力画像の領域が、セパレータを境界として左右に分割される。図17では縦方向のセパレータは存在しない。
ステップS1603では、縦方向のグループ高さの合計が入力画像の高さに等しくなったか否かが判定される。すなわち、縦方向(例えば上から下へ。)に処理対象の領域を移動しながら、横方向のグルーピングを行うとき、入力画像全体の処理が終了したときには、グループ高さ合計が入力画像高さになることを利用し、処理の終了判定が行われる。グルーピングが終了したときはそのまま処理終了し、グルーピングが終了していなかったときはステップS1604に処理が進む。
ステップS1604では、横方向の関連位に基づくグルーピングの処理が実行される。これによって、矩形ブロックT1、T2が1個のグループ(矩形ブロック)H 1にまとめられ、矩形ブロックV1、V2が1個のグループ(矩形ブロック)H 2にまとめられる。グループH1、H2は、同一階層となる。ここでも、処理開始直後はミクロブロック単位での判定となる。
ステップS1605では、横方向のセパレータの有無がチェックされる。セパレータが検出されると、処理対象の階層において、入力画像の領域が、セパレータを境界として上下に分割される。図17では横方向のセパレータS1が存在する。
以上の処理結果は、図18のツリーとして登録される。
図18において、入力画像V0は、最上位階層にグループH1、H2、セパレータS1を有し、グループH1には第2階層の矩形ブロックT1、T2が属する。
グループH2には、第2階層のグループV1、V2が属し、グループV1には、第3階層の矩形ブロックT3、T4、T5が属し、グループV2には、第3階層の矩形ブロックT6、T7が属する。
ステップS1606では、横方向のグループ長合計が入力画像の幅に等しくなったか否かが判定される。これによって横方向のグルーピングに関する終了判定が行われる。横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成の処理が終了する。横方向のグループ長がページ幅となっていないときは、ステップS1601に処理が戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返される。
[表示方法]
以下で、図3のステップS307で用いられるUI(ユーザインタフェース)の表示に関して詳細な説明を行う。
まず、図20に示されているUIにおいて、一覧2001は、BOX内に保存されているデータの一覧を示している。また、表示2002は、BOX内に保存されている文章の名前、および入力された時間についての情報を表示している。オブジェクト分割表示を行う場合には、一覧2001で原稿を選択して、オブジェクト表示ボタン2003を押すことで表示が変わるが、これに関しては、後述する。また、一覧2001で原稿を選択して、ページ表示ボタン2004を押すことで表示が変わるが、これに関しても後述する。
図21は、他のUIの例を示している。図21に示されているUIの表示2101は、保存されたデータを表示する。表示2101は、ラスタ画像を縮小した画像を表示することや、前述したSVGを使って、画像を表示をさせる事もできる。つまり、前述してきたデータを基にページ全体を表示していれば良い。
図21においてタブ2102は、機能のタブであり、コピーや送信、リモート操作、ブラウザー、BOXといったMFPが持っている機能を選択できるものである。コピーや送信、リモート操作、ブラウザー、BOXといった機能以外の機能に対しても同様に、タブ2102により表示を行うことができる。
図21においてメニュー2103により、原稿を読み取る場合の原稿モードが選択される。メニュー2103は、読み取られる原稿タイプによって、画像処理を切り替えるために選択をするものである。図21のメニュー2103に示されている文字、写真、地図、印刷写真、および印刷紙写真以外のモードも、メニュー2103により表示選択をする事ができる。
図21においてボタン2104は、原稿を読み取りのスタートを指示するボタンである。ボタン2104が押されることにより、スキャナが動作して、画像が読み込まれる。図21に示されているUIの例では、読込みスタートためのボタン2104がUIの画面内に設けられているが、別途スタートボタンを押すことによって読み込みが開始されてもよい。
図22に示されているUIでは、表示2202において、オブジェクト分割した結果を分かるように各オブジェクトに枠が表示されている。
図22に示されているUIでは、ボタン2201が押されると、表示2202において、各オブジェクトの枠が表示される。枠には色付けをすることにより、オブジェクトの違いを分かるように表示することや、線の太さ、あるいは、点線、破線の違いなどにより、オブジェクトの違いを分かるように表示が行われる。
ここで、オブジェクトの種類としては、前述したように文字、写真(背景)、グラフィック(図面、線画、表)である。
表示2203は検索を行うための文字(キーワード)を入力する入力欄である。ここに文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索が行われる。また、検索されたオブジェクトあるいはページが表示される。
図23に示されているUIでは、オブジェクト表示ボタン2302を押すことによりページ内のオブジェクトが表示されるものである。
図23に示されているUIでは、表示2301において、ページという概念ではなく、一つ一つのオブジェクトが部品として表示が行われる。
また、ページ表示ボタン2304を押すことで1ページの画像として見えるように切替表示が行われる。
さらに、表示2303は、検索を行うための文字を入力する表示である。表示2303に文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索を行う。また検索されたオブジェクトあるいはページが表示される。
図24は、オブジェクトのメタデータを表示する画面の例を示している。図24に示されているUIでは、ある一つのオブジェクトが選択されると、そのオブジェクトの画像2403と前述したメタデータ2402が、表示2401に表示される。ここで、メタデータ2402は、エリアの情報、幅、高さ、ユーザー情報、MFPの設置場所の情報、入力した時間などの情報を表示する。ここで、この例では、属性がグラフィックのオブジェクトである。そして、オブジェクトの近くにあった属性が文字の文字オブジェクトのOCR情報から形態素解析を用いて名詞のみを取り出して表示が行われている。図24に示されている例では、文字オブジェクトは、TEXTという文字列である。
また、メタデータに対しては、ボタン2404により、編集や追加、削除を行うことができる。
さらに、表示2405は、検索を行うための文字を入力する表示である。表示2405に文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索が行われる。また、検索されたオブジェクトあるいはページが表示される。
[メタデータのデータ形式]
次に、図25と図26を用いて、本実施形態の画像処理を施した文書に含まれるオブジェクトのメタデータのデータ形式を説明する。
図25は、既に本実施形態の画像処理装置によってオブジェクト単位に分割、一連の処理がなされ、MFP100内のBOXに保存された文書の一例である。図26は、MFP100内のBOXに保存された文書に含まれるオブジェクトのメタデータの一例である。
図25の文書2501は、前述のようにオブジェクト単位に分割、オブジェクト毎にメタデータが付加された文書である。ここでは説明のため、オブジェクトを破線で囲んで示されている。
図25のオブジェクト2502は、文書2501に含まれる属性が写真の写真オブジェクトである。オブジェクト2502は、メタデータを図26の2601に示す形式で保持し、これらのメタデータのデータ形式は、図24で前述したように表示用のデータ形式に変換して、画面で表示することが可能である。
以下、メタデータのデータ形式に関する説明を、図26に示されているデータ構造2601を用いて説明する。
データ構造2601において、<id>1</id>は、オブジェクト2502のエリアIDを示すデータであり、図24のエリアIDを表示するためのデータである。
データ構造2601において、<attribute>写真</attribute>は、オブジェクト2502の属性を示すデータであり、オブジェクト2502は、写真属性であることを示している。その他、文字や写真やグラフィック等の属性があり、これらは、前述したステップS301にて決定される。
データ構造2601において、<width>W1</width>は、オブジェクト2502の幅を示すデータであり、図24の幅を表示するためのデータである。
データ構造2601において、<height>H1</height>は、オブジェクト2502の高さを示すデータであり、図24の高さを表示するためのデータである。
データ構造2601において、<job>PDL</jop>は、オブジェクト2502のジョブの種類であり、前述したようにビットマップ画像データの生成において、MFP100の画像読み取り部入力の場合は、ジョブの種類は、SCANとなる。また、PC102上のアプリケーションソフトを使用した場合は、ジョブの種類は、PDLとなる。
データ構造2601において、<user>USER1</user>は、オブジェクト2502のユーザー情報を示すデータであり、図24のユーザーを表示するためのデータである。
データ構造2601において、<place>F社G階</place>は、MFP100の設置場所の情報を示すデータであり、図24の場所を表示するためのデータである。
データ構造2601において、<time>2007/03/19</time>は、入力した時間を示すデータであり、図24の時間を表示するためのデータである。
データ構造2601において、<caption>自然</caption>は、オブジェクト2502のキャプションを示すデータであり、図24のキャプションを表示するためのデータである。
[メタデータの確からしさ判定]
ステップS305のメタデータ付けにおいて行う、ステップS405のメタデータの確からしさ判定について、図25〜図29を用いて詳細に説明する。ここでは、入力された画像から抽出された第1のメタデータ候補(ステップS402の形態素解析で得られたデータ)と、類似画像に付加されている第2のメタデータとの比較が行われることになる。
図27は、MFP100に入力され、保存処理においてオブジェクト分割された文書の一例である。
図28は、ステップS405のメタデータの確からしさ判定における処理の詳細を示すフローチャートである。図29は、後述する反意語検索に用いる反意語辞書の一例である。図28に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
図27の文書2701は、図3のフローチャートに示すS301〜S304とS308の一連の処理によって、各オブジェクトは属性に応じたオブジェクトの分割処理がなされている。ここでは説明のため、各オブジェクトを破線で囲み示した。オブジェクト2702は、写真属性と判定され分割処理されたオブジェクトであり、オブジェクト2703は、文字属性と判定され分割処理されたオブジェクトの一例である。
ここでは、オブジェクト2702を例にとってメタデータの確からしさ判定を説明する。まず、図4のステップS401において、オブジェクト2702に対して、文字属性のオブジェクト2703が選択されている。また、ステップS402において、形態素解析が行われ、その結果、オブジェクト2703から、「森林」「減少」「環境破壊」「人工」「閉鎖的」などが得られている。また、ステップS403において、MFP100内のBOXやデータベース105を上述の方法で類似画像検索し、文書2501のオブジェクト2502が検出されている。また、ステップS404において、類似度と予め定めた閾値との比較により、類似度が閾値よりも大きいと判定されている。
ステップS405では、まず、図28のステップS2801において、ステップS403で検出された類似画像のオブジェクト2502のメタデータ2601から、キャプションが取り出される。メタデータ2601のキャプションには、「自然」、「緑」、「公園」、「開放的」、「自由」、「スポーツ」が保持されている。
次に、ステップS2802において、ステップS402の形態素解析で得たキーワードの反意語が検索される。その上で、反意語がヒットした場合は、その反意語を用いて、類似画像のオブジェクト2502のメタデータ2601からキャプションを対象に検索が行われる。図29の反意語辞書2901には、キャプションの語句と、それに対する反意語がリストで保存されている。
例えば、ステップS402の形態素解析で得たメタデータ候補の単語には、「人工」という語句が含まれており、「人工」という語句を反意語辞書2901から検索した場合、INDEX063の「自然」がヒットする。さらに、ここでヒットした「自然」をキーワードにして、メタデータ2601のキャプションが検索されると、メタデータ2601が「自然」のキーワードを持っているため、反意語数のカウンタがインクリメントされる。
このようにして、反意語の総数をカウントして、次のステップS2803において、予め定めた閾値との比較が行われる。閾値よりもカウントが小さい場合には、次のステップS2804に進み、確かであると判定される。また、カウントが閾値以上であれば、次のステップS2805に進み、確かでないと判定される。なお、この閾値を0とすれば、一つでも類似画像のオブジェクトに反意語が含まれているとき、ステップS2805に進んで確かでないと判定される。また、より大きな値とすれば、ステップS2804に進んで確かであると判定されやすく、後述するメタデータの確認や修正といった操作を減らすことができるので、ユーザーへの負担を減らすことができる。
なお、閾値は、類似画像のオブジェクトの類似度によって動的に変更されても良い。例えば、類似度が高い場合には、閾値を低い値に設定し、また、類似度が低い場合には、閾値を高い値に設定すれば、誤って類似すると判定された画像など、誤差による影響を減らすことができる。また、閾値との比較する値は、反意語の含むカウントとしているが、例えば、オブジェクトが持つメタデータのキャプション全体に対する反意語の割合を用いても良い。
また、本実施形態では、確からしさの判定基準として反意語を用いているが、これに限るものではなく、例えばユーザーの基準によって相反すると判定された語句を紐付けたような辞書を作成して用いても良い。また、上記の確からしさの判定基準は、反意語のような語句の意味が相反する場合に限定するものではなく、例えば類義語のように、意味が類似した語句を紐付けたような辞書を用いても良い。その場合、図28のステップS2802で用いる辞書は、反意語辞書ではなく類義語辞書となり、ステップS2803の閾値処理では、閾値よりカウントが大きい場合に、確からしいと判定してステップS2704に進む。カウントが、閾値以下であれば、次ステップS2805に進み、確かでないと判定される。
<第2の実施形態>
次に、本発明に係る第2の実施形態を図面に基づいて説明する。
なお、本実施形態は、後述するメタデータ付け以外、第1の実施形態と同じ構成を有するため、その構成についての説明は省略する。
〔メタデータ付け(ステップS305)〕
図25〜図27と、図30、図31を用いて、第2の実施形態のメタデータ付けを以下に説明する。
図30は、第2の実施形態におけるステップS305のメタデータ付けにおける処理を詳細に表わすフローチャートである。図30に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
図31は、第2の実施形態におけるメタデータの一例である。
まず、図30のステップS401において、メタデータ付与対象オブジェクトの周囲で一番近くに存在する文字オブジェクトが選択される。次に、ステップS402において、選択された文字オブジェクトに対して、形態素解析が行われる。次に、ステップS403において、ステップS301でオブジェクト分割されたビットマップ画像データを用いて類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、MFP100に内蔵されたBOX、およびデータベース105に既に保存されている文書、および、それに含まれるオブジェクトである。前述の文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーによってオブジェクト毎に適切な内容が確認および付加されている。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。
次に、ステップS404において、ステップS403で算出された類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップS405へ進む。また、類似度が閾値以下だった場合には、ステップS407へ進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理が行われてもよい。
次に、ステップS405において、メタデータの確からしさの判定が行われる。次に、ステップS406において、メタデータが確からしいと判定された場合、ステップS407において、ステップS402で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップS406において、メタデータが確かでないと判定された場合には、ステップS3001に処理が進む。ステップS3001では、ステップS403で検出された類似画像のオブジェクトが持つメタデータのキャプション情報が付加される。
すなわち、図27の文書2701が分割処理されたオブジェクト2702は、ステップS403の類似画像検索によって、文書2501のオブジェクト2502が検出される。ステップS405において、オブジェクト2702は確かでないと判定される。次に、ステップS3001において、図31の3101に示すように、類似画像オブジェクトのメタデータ2601のキャプション情報が付加される。
本実施形態では、ステップS405の確からしさ判定において、確からしさの判定基準に、意味の相反する語句を紐付けたような辞書を用いている。しかし、例えば類義語のように、意味の類似した語句を紐付けたような辞書を用いることもできるのは言うまでもない。
<第3の実施形態>
次に本発明に係る第3の実施形態を図面に基づいて説明する。
なお、本実施形態は、後述するメタデータ付け以外、第1の実施形態と同じ構成を有するため、その構成についての説明は省略する。
〔メタデータ付け(ステップS305)〕
図25〜図27と、図32、図33を用いて、第3の実施形態のメタデータ付けを以下で説明する。
図32は、第3の実施形態におけるステップS305のメタデータ付けにおける処理を詳細に表わすフローチャートである。図32に示されている全ての処理は、本実施形態に係る画像処理装置のCPUによって実行される。
図33は、第3の実施形態におけるメタデータの一例である。
まず、図32のステップS401において、メタデータ付与対象オブジェクトの周囲で一番近くに存在する文字オブジェクトが選択される。次に、ステップS402において、選択された文字オブジェクトに対して、形態素解析が行われる。次に、ステップS403において、ステップS301でオブジェクト分割されたビットマップ画像データを用いて類似画像検索が行われ、最も類似度の高い類似画像のオブジェクトが検出される。検索対象は、MFP100に内蔵されたBOX、およびデータベース105に既に保存されている文書、および、それに含まれるオブジェクトである。前述の文書は、本画像処理装置などでオブジェクト分割やメタデータの付加がなされた上で保存されているのは言うまでもない。また、これら既に保存されている文書のメタデータにおいては、ユーザーによってオブジェクト毎に適切な内容が確認および付加されている。類似画像検索手法および類似度の算出方法としては、所定の比較アルゴリズムが用いられる。オブジェクトは属性によってはベクトル化され、ビットマップ画像データを持たない場合もあるが、その場合はベクトル情報をビットマップ画像データにレンダリングしてから比較アルゴリズムが適用される。
次に、ステップS404において、ステップS403で算出した類似度と予め定めた閾値との比較が行われる。閾値より類似度が大きかった場合はステップS405へ処理が進む。また、類似度が閾値以下だった場合には、ステップS407へ処理が進む。なお、本実施形態では類似度が最も高いオブジェクトについてだけ処理が行われるが、それに限るものではなく、例えば、一定値以上のオブジェクト複数を対象に以下の処理を行ってもよい。
次に、ステップS405において、メタデータの確からしさの判定が行われる。次に、ステップS406において、メタデータが確からしいと判定された場合、ステップS407において、ステップS402で形態素解析結果により抽出された単語がメタデータとしてオブジェクトに付加される。また、ステップS406において、メタデータが確かでないと判定された場合には、ステップS3201に処理が進む。ステップS3201では、ステップS402で形態素解析結果により抽出された単語のうち、反意語と判定された単語が、ステップS403で検出された類似画像のオブジェクトに含まれている反意語で上書きされた(置き換えられた)後、付加される。すなわち、メタデータ候補として抽出された単語のうち、確からしくないと判定された単語を、類似画像が備える単語で置き換えた後に、メタデータとして付加する。
すなわち、図27の文書2701が分割処理されたオブジェクト2702は、図32のステップS402において、オブジェクト2703からキャプション「森林」、「減少」、「環境破壊」、「人工」、「閉鎖的」などを保持している。ステップS403の類似画像検索において、文書2501のオブジェクト2502が検出される。ステップS405において、「人工」、「閉鎖的」が反意語であると判定され、オブジェクト2702は確かでないと判定される。次に、ステップS3201において、図33の3301に示すように、類似画像オブジェクトのメタデータ2601のキャプション情報から反意語であったもの(「自然」、「開放的」)を用いて上書きされた後に、メタデータとして付加される。
本実施形態では、ステップS405の確からしさ判定において、確からしさの判定基準に、意味の相反する語句を紐付けたような辞書が用いられている。しかし、例えば、類義語のように、意味の類似した語句を紐付けたような辞書を用いることもできるのは言うまでもない。その場合には、ステップS3201において、ステップS402で形態素解析により抽出した語句に加えて、ステップS403で検出された類似画像のオブジェクトが持つメタデータのキャプション情報を追加して付加する。このとき、ステップS402で形態素解析により抽出した語句と同じものが、ステップS403で検出された類似画像のオブジェクトが持つメタデータのキャプション情報にあれば、重複しないように除いて、追加される。
<第4の実施形態>
本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、以下のようにしても達成される。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した、コンピュータ読取り可能な記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコード(コンピュータプログラム)を読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスクを用いることができる。また、プログラムコードを供給するための記憶媒体としては、例えば、DVD−ROM、DVD−R、CD―ROM、CD−R、磁気テープ、不揮発性のメモリカードも用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、以下のように処理が行なわれる。すなわち、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部が行われ、その処理によって前述した実施形態の機能が実現される。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された拡張機能ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、以下の処理が行なわれる。すなわち、そのプログラムコードに指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。
本発明に係る画像処理装置を示すブロック図である。 図1におけるMFPを示すブロック図である。 第1の実施形態で説明する第1のデータ処理フローを示す図である。 第1の実施形態で説明するメタ情報を付加する処理フローを示す図である。 第1の実施形態で説明するスキャナからの読み込みを示す処理フローを示す図である。 第1の実施形態で説明するPCからのデータをビットマップ画像データにする処理フローを示す図である。 オブジェクト分割した結果の一例を示す図である。 オブジェクト分割情報したときの各属性のブロック情報および入力ファイル情報を示す図である。 第1の実施形態に係るベクトル化処理のフロー図である。 ベクトル化の処理における角抽出の処理を示す図である。 ベクトル化の処理における輪郭線まとめの処理を示す図である。 図9で生成されたベクトルデータのグループ化の処理を示すフローチャートである。 図12の処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。 第1の実施形態に係るベクトル化処理結果のデータを示す図である。 アプリデータ変換の処理を示すフローチャートを示す図である。 図15の文書構造ツリー生成の処理を示すフローチャートを示す図である。 文書構造ツリー生成処理の対象となる文書を示す図である。 図16の処理によって生成される文書構造ツリーを示す図である。 SVG(Scalable Vector Graphics)形式の一例を示す図である。 図3のステップS307のUIの例を示す図である。 図3のステップS307のUIのページ表示の例を示す図である。 図3のステップS307のUIのオブジェクト属性表示の例を示す図である。 図3のステップS307のUIのオブジェクト分割された一つのオブジェクトが表示される例を示す図である。 図3のステップS307のUIのオブジェクトとメタ情報を表示される例を示す図である。 文書の一例を示す図である。 メタデータのデータ形式を示す図である。 文書の一例を示す図である。 確からしさ判定処理のフローを示す図である。 辞書の一例を示す図である。 メタ情報を付加する処理フローを示す図である。 メタデータの一例を示す図である。 メタ情報を付加する処理フローを示す図である。 メタデータの一例を示す図である。
符号の説明
10 オフィス
20 オフィス
100 MFP
101 マネージメントPC
102 ローカルPC
103 プロキシサーバ
104 インターネット
105 データベース
106 文書管理サーバ
107 LAN
108 LAN
110 画像読み取り部
111 記憶装置(BOX)
112 記録装置
113 入力装置
114 ネットワークI/F
115 データ処理装置
116 表示装置

Claims (9)

  1. 入力された画像を複数の領域に分割する分割手段と、
    前記分割手段によって分割された領域にメタデータを付加する付加手段と、
    前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段とを備え、
    前記付加手段は、前記分割された領域に対して前記画像から第1のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第1のメタデータと前記検索手段で検索した類似画像に付加されている第2のメタデータとを比較することにより、前記第1のメタデータの確からしさを判定する判定手段とを有し、前記判定手段で確からしいと判定された場合の第1のメタデータを当該領域のメタデータとして付加することを特徴とする画像処理装置。
  2. 前記付加手段は、前記判定手段で確からしくないと判定された場合、ユーザーに当該領域に付加すべきメタデータの確認および修正を行わせることを特徴とする請求項1に記載の画像処理装置。
  3. 前記付加手段は、前記判定手段で確からしくないと判定された場合、前記類似画像のメタデータを前記分割された領域のメタデータとして付加することを特徴とする請求項1に記載の画像処理装置。
  4. 前記付加手段は、前記判定手段で確からしくないと判定された場合、前記第1のメタデータのうち、確からしくないと判定された一部のメタデータを、前記類似画像のメタデータで置き換えて、前記分割された領域のメタデータとして付加することを特徴とする請求項1に記載の画像処理装置。
  5. 前記付加手段は、前記第1のメタデータと前記第2のメタデータとの比較において、意味の相反する語句の有無を用いることを特徴とする請求項1乃至4のいずれかに記載の画像処理装置。
  6. 前記付加手段は、前記第1のメタデータと前記第2のメタデータとの比較において、意味の類似する語句の有無を用いることを特徴とする請求項1乃至4のいずれかに記載の画像処理装置。
  7. 入力された画像を複数の領域に分割する分割ステップと、
    前記分割ステップで分割された領域にメタデータを付加する付加ステップと、
    前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存ステップとを備え、
    前記付加ステップでは、前記分割された領域に対して前記画像から第1のメタデータを取得する取得ステップと、前記分割された領域に類似する類似画像を検索する検索ステップと、前記取得ステップで取得した第1のメタデータと前記検索ステップで検索した類似画像に付加されている第2のメタデータとを比較することにより、前記第1のメタデータの確からしさを判定する判定ステップとを有し、前記判定ステップで確からしいと判定された場合の第1のメタデータを当該領域のメタデータとして付加することを特徴とする画像処理方法。
  8. コンピュータを、
    入力された画像を複数の領域に分割する分割手段、
    前記分割手段によって分割された領域にメタデータを付加する付加手段、
    前記メタデータを付加した各領域を、オブジェクトとして記憶装置に保存する保存手段、として機能させるためのコンピュータプログラムであって、
    前記付加手段は、前記分割された領域に対して前記画像から第1のメタデータを取得する取得手段と、前記分割された領域に類似する類似画像を検索する検索手段と、前記取得手段で取得した第1のメタデータと前記検索手段で検索した類似画像に付加されている第2のメタデータとを比較することにより、前記第1のメタデータの確からしさを判定する判定手段と、を含み、前記判定手段で確からしいと判定された場合の第1のメタデータを当該領域のメタデータとして付加することを特徴とする、コンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムを記憶した、コンピュータ読取り可能な記憶媒体。
JP2008055451A 2008-03-05 2008-03-05 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体 Pending JP2009211554A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008055451A JP2009211554A (ja) 2008-03-05 2008-03-05 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008055451A JP2009211554A (ja) 2008-03-05 2008-03-05 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体

Publications (1)

Publication Number Publication Date
JP2009211554A true JP2009211554A (ja) 2009-09-17

Family

ID=41184614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008055451A Pending JP2009211554A (ja) 2008-03-05 2008-03-05 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体

Country Status (1)

Country Link
JP (1) JP2009211554A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081549A (ja) * 2009-10-06 2011-04-21 Canon Inc メタデータ付与方法及びメタデータ付与装置
GB2478845A (en) * 2010-03-16 2011-09-21 Canon Kk Avoiding Confusion Arising from Similar Anchor Expressions
JP2014534499A (ja) * 2011-10-04 2014-12-18 トムソン ライセンシングThomson Licensing 画像の収集の自動管理の方法及びこれに対応する装置
JPWO2017221857A1 (ja) * 2016-06-21 2019-04-11 日本電気株式会社 類似演算装置、方法および記憶媒体
JP2019134325A (ja) * 2018-01-31 2019-08-08 富士通株式会社 記憶制御プログラム、抽出プログラム、記憶制御方法、抽出方法、記憶制御装置および抽出装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081549A (ja) * 2009-10-06 2011-04-21 Canon Inc メタデータ付与方法及びメタデータ付与装置
GB2478845A (en) * 2010-03-16 2011-09-21 Canon Kk Avoiding Confusion Arising from Similar Anchor Expressions
JP2011192145A (ja) * 2010-03-16 2011-09-29 Canon Inc 画像処理装置、画像処理方法及びプログラム
US8355578B2 (en) 2010-03-16 2013-01-15 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
GB2478845B (en) * 2010-03-16 2013-08-14 Canon Kk Image processing apparatus, image processing method, and storage medium
JP2014534499A (ja) * 2011-10-04 2014-12-18 トムソン ライセンシングThomson Licensing 画像の収集の自動管理の方法及びこれに対応する装置
JPWO2017221857A1 (ja) * 2016-06-21 2019-04-11 日本電気株式会社 類似演算装置、方法および記憶媒体
JP7099316B2 (ja) 2016-06-21 2022-07-12 日本電気株式会社 類似度演算装置、方法、およびプログラム
JP2019134325A (ja) * 2018-01-31 2019-08-08 富士通株式会社 記憶制御プログラム、抽出プログラム、記憶制御方法、抽出方法、記憶制御装置および抽出装置

Similar Documents

Publication Publication Date Title
JP5111268B2 (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP3796500B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4251629B2 (ja) 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP4181892B2 (ja) 画像処理方法
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4502385B2 (ja) 画像処理装置およびその制御方法
JP4510535B2 (ja) 画像処理装置及びその制御方法、プログラム
JP5063422B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
JP2006085298A (ja) 画像処理装置、画像処理方法
JP3862694B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2005352696A (ja) 画像処理装置及びその制御方法、プログラム
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP4261988B2 (ja) 画像処理装置及び方法
JP2009211554A (ja) 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体
JP5188260B2 (ja) 画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体
US20090037384A1 (en) Image processing apparatus, image processing method and storage medium that stores program thereof
JP2009193254A (ja) 画像処理システム
JP2004348467A (ja) 画像検索装置及びその制御方法、プログラム
JP4185858B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2010073165A (ja) 情報処理装置、その制御方法、及びコンピュータプログラム
JP2005149210A (ja) 画像処理装置及びその制御方法、プログラム
JP4323856B2 (ja) 画像処理方法
JP2006134042A (ja) 画像処理システム
JP2009303149A (ja) 画像処理装置、画像処理方法及びコンピュータ制御プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101106