JP2006166207A - 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム - Google Patents
情報処理装置及び情報処理方法ならびに記憶媒体、プログラム Download PDFInfo
- Publication number
- JP2006166207A JP2006166207A JP2004356648A JP2004356648A JP2006166207A JP 2006166207 A JP2006166207 A JP 2006166207A JP 2004356648 A JP2004356648 A JP 2004356648A JP 2004356648 A JP2004356648 A JP 2004356648A JP 2006166207 A JP2006166207 A JP 2006166207A
- Authority
- JP
- Japan
- Prior art keywords
- information
- pointer information
- image
- block
- pointer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 複数種のポインタ情報の付加方法が混在する環境で、無理なく所望の付加方法でポインタ情報を付加することを可能にする。
【解決手段】 入力される文書画像に画像データを検索するためのポインタ情報を付加する情報処理方法であって、
ポインタ情報の種別の優先度を入力し(ステップS2001)、入力されたポインタ情報の種別で、文書画像に付加することが可能かを判定し(ステップS2003)、ポインタの種別の優先度と、判定結果に応じて、文書画像にポインタ情報を付加する(ステップS2008、ステップS2009)。
【選択図】 図20
【解決手段】 入力される文書画像に画像データを検索するためのポインタ情報を付加する情報処理方法であって、
ポインタ情報の種別の優先度を入力し(ステップS2001)、入力されたポインタ情報の種別で、文書画像に付加することが可能かを判定し(ステップS2003)、ポインタの種別の優先度と、判定結果に応じて、文書画像にポインタ情報を付加する(ステップS2008、ステップS2009)。
【選択図】 図20
Description
本発明は、文書画像に画像データを検索するためのポインタ情報を付加する技術に関するものである。
近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。このような中、バインダー等で蓄積された紙文書や配付資料等をスキャナで読み取り、オリジナルの電子文書を検索する装置が提案されている(特許文献1参照)。このようなシステムでは、2次元コードや電子透かしを用いてオリジナル文書へのポインタ情報を埋め込んでおき、オリジナル文書と1対1に関連付ける方法も併用されることが考えられる。記憶部その際、ポインタ情報が埋め込まれている紙文書と、埋め込まれていない紙文書双方が入力されても、適切に処理を行う。
特許第3017851号公報
上記従来技術で述べたような検索装置では、紙文書の美観を保つ観点から、電子透かしをポインタ情報として全ての紙文書に埋め込まれていることが望ましい。しかし、システムの性格上、ポインタ情報なしとポインタ情報ありの紙文書があり、ポインタの種類も2次元コード・電子透かしと様々である。この混在状態から、上記の理想的な状態に無理なく移行する方法は今まで提案されていなかった。
本発明は上記課題に鑑みてなされたものであり、複数種のポインタ情報の付加方法が混在する環境で、無理なく所望の付加方法でポインタ情報を付加することを可能にする。
上記の課題を解決するために、本発明の情報処理装置は、入力される文書画像に画像データを検索するためのポインタ情報を付加する情報処理装置であって、ポインタ情報の種別の優先度を入力する入力手段と、前記ポインタ情報の種別で、前記文書画像に付加することが可能かを判定する判定手段と、前記ポインタの種別の優先度と、前記判定手段の判定結果に応じて、前記文書画像にポインタ情報を付加する付加手段を有することを特徴とする。
以上説明したように本発明によれば、複数種のポインタ情報の付加方法が混在する環境で、無理なく所望の付加方法でポインタ情報を付加することを可能となる。
以下、図面を参照しながら、各実施の形態を詳細に説明していく。
(第1の実施形態)
本発明の第1の実施形態について説明する。図1は本発明にかかる情報処理方法を実現する画像処理システムの構成を示す図である。同図に示すように、本実施形態では、オフィス10とオフィス20とがインターネット104で接続された環境において本発明にかかる情報処理方法を実現する画像処理システムが構築されているものとする。
本発明の第1の実施形態について説明する。図1は本発明にかかる情報処理方法を実現する画像処理システムの構成を示す図である。同図に示すように、本実施形態では、オフィス10とオフィス20とがインターネット104で接続された環境において本発明にかかる情報処理方法を実現する画像処理システムが構築されているものとする。
オフィス10内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC(外部記憶手段を備える)102、文書管理サーバ106−1及びそのデータベース105−1、プロキシサーバ103−1がそれぞれ接続されている。同様にオフィス20内に構築されたLAN108には、文書管理サーバ106−2及びそのデータベース105−2がそれぞれ接続されている。また、オフィス10内のLAN107とオフィス20内のLAN108とはプロキシサーバ103−1、103−2を介してインターネット104に接続されている。
かかる構成を備える画像処理システムにおいて、検索対象となる登録画像の格納場所は特に限定されないものとする。MFP100内の記憶部(後述)に格納されていても、マネージメントPC101内のハードディスク(不図示)に格納されていても、また、文書管理サーバ106−1のデータベース(105−1)に格納されていてもよい。ただし、当該格納された登録画像を検索できるように格納場所はLAN107または108を介して外部からアクセス可能な状態になっているものとする。
また、本発明にかかる情報処理方法(検索機能)は、図1に示す画像処理システム内の任意の装置上で実現可能であるものとする。例えば、MFP100内のデータ処理部(後述)が当該検索機能を備えていても、マネージメントPC101が検索機能を備えていても、また、文書管理サーバ106−1が検索機能を備えていてもよい。
MFP100は、紙文書の画像読み取り処理と読み取った画像信号に対する画像処理の一部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力される。マネージメントPCは通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有するが、その一部がMFP100に一体化して構成されている。
図2はMFP100の構成図である。図2においてオートドキュメントフィーダー(以降、ADFと記す)を含む画像読み取り部200は束状の或いは1枚の紙文書(原稿)を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスター状の画像信号を600DPIの密度のイメージ情報として得る。通常の複写処理の場合はこの画像信号をデータ処理部205で記録信号に変換し、複数枚の複写の場合には記録部202に一ページ分の記録データを一旦記憶保持した後、記録部202に順次出力して紙上に画像を形成する。
また、クライアントPC102から送信されるプリントデータはLAN107及びネットワークIF204を経てデータ処理部205で記録可能なラスターデータに変換した後、記録部202により紙上に記録画像を形成する。MFP100への操作者の指示は、MFP100に装備されたキー操作部(入力部203)またはマネージメントPC101のキーボード及びマウスを介して行われ、これら一連の動作はデータ処理部205内の図示しない制御部で制御される。
一方、操作入力の状態表示及び処理中の画像データの表示は表示部206で行われる。なお、記憶部201はマネージメントPC101からも制御され、これらMFP100とマネージメントPC101とのデータの授受及び制御はネットワークIF207および直結したLAN109を介して行われる。
[文書検索システム処理概要]
次に、図1に示す画像処理システムにおける、本発明の前提となる情報処理方法による処理を含む画像処理の全体概要について、図3および図4を用いて説明する。
次に、図1に示す画像処理システムにおける、本発明の前提となる情報処理方法による処理を含む画像処理の全体概要について、図3および図4を用いて説明する。
なお、説明を簡単にするために、以降では、登録画像を備えるデータベースはマネージメントPC内のハードディスク(不図示)において構築されているものとし、また、本発明にかかる情報処理方法はマネージメントPC101およびMFP100が一体となって動作することで実現されるものとする。
(検索用インデックス生成)
図3は、ファイル検索用インデックス生成処理の流れを示すフローチャートである。まず、原本としてインデックス生成対象文書を入力する(ステップS301)。この原本は、印刷物を画像読み取り部200から入力し、それをビットマップ化したもの(ビットマップ画像)でも良いし、文書編集アプリケーションプログラムを利用して作成された電子データでもよいし、また、クライアントPC102のハードディスクやCDドライブ、DVDドライブ、FDDドライブなどの記憶媒体に格納されたアプリケーションプログラム固有の形式による電子データでもよい。
図3は、ファイル検索用インデックス生成処理の流れを示すフローチャートである。まず、原本としてインデックス生成対象文書を入力する(ステップS301)。この原本は、印刷物を画像読み取り部200から入力し、それをビットマップ化したもの(ビットマップ画像)でも良いし、文書編集アプリケーションプログラムを利用して作成された電子データでもよいし、また、クライアントPC102のハードディスクやCDドライブ、DVDドライブ、FDDドライブなどの記憶媒体に格納されたアプリケーションプログラム固有の形式による電子データでもよい。
ビットマップ画像ではないアプリケーションデータの場合(ステップS302で「No」の場合)、ステップS303に分岐し、マネージメントPC101のCPUでラスタライジングを行う。ラスタライジングとは、アプリケーションデータを解析し、画像データを生成する処理のことであり、一般に印刷イメージの生成の際に広く行われる処理である。
次に、ブロックセレクション(領域分割処理)を行う(ステップS304)。ステップS304においては、文字/線画部分とハーフトーンの画像部分とに領域を分離し、文字部分は更に段落で塊としてまとまっているブロック毎に、あるいは、線で構成された表ないし図形ごとに分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、いわゆるブロック毎に独立したオブジェクトに分割する。さらに文字ブロックについては、OCR処理を行う(ステップS305)。
次に、入力画像中に付加情報として記録された2次元コード、或いはURLに該当するオブジェクトを検出し、URLについてはOCRで文字認識することで、2次元コードについては該マークを解読することで、それぞれ該原稿のオリジナル電子ファイルが格納されている記憶部内のポインタ情報を付加する(ステップS306)。なお、ポインタ情報を付加する手段としては、他に文字と文字の間隔に情報を埋め込む方法やハーフトーンの画像に埋め込む方法等、直接可視化されない、いわゆる電子透かしによる方法等であってもよい。
次に、画像部分として分割されたオブジェクトから画像検索用インデックスを生成する(ステップS307)。ここでは、画像検索に必要な画像の特徴量、例えば平均色を記録する。
次に、文字部分として分割されたオブジェクトから概念検索用インデックスを生成する(ステップS308)。後述する概念検索では、入力された文章の意味や文脈を解析し、その内容に関連する文書をピックアップする。このため、通常の検索と異なり、明確なキーワードが分からない場合でも文書を検索することができるようになる。概念検索インデックス作成処理に使う文字は、原本がビットマップデータの場合はステップS305で文字認識したものを、アプリケーションデータの場合は、アプリケーションに格納されている文字をそれぞれ入力とする。
次に、全文検索用インデックスを生成する(ステップS309)。全文検索用インデックス作成処理に使う文字は、上記概念検索インデックス作成処理において用いられるのと同様の文字である。次に、ステップS310では、各カテゴリの特徴(単語の出現頻度等)を学習し、分類用特徴ベクトルを生成する。
そして、作成したインデックス情報を格納する(ステップS311)。格納先は、図1においてオフィス10或いは20のLAN107、108に接続された文書管理サーバ106−1、106−2内のデータベース105−1、105−2内、或いはMFP100自体が有する記憶部201等であってもよいが、本実施形態では、マネージメントPC101内のハードディスクに格納することとする。
(類似原本検索および登録)
次に図4を用いて類似原本検索処理および登録処理について説明する。はじめに、図2のMFP100の画像読み取り部200を動作させ1枚の原稿をラスター状に走査し、600DPI−24ビットの画像信号を得る。そして、該画像信号に対してデータ処理部205にて前処理を施し、記憶部201に1ページ分の画像データとして保存する(ステップS401)。もしくは、アプリケーションデータとして蓄積されたオリジナル電子ファイルをラスタライジングして600DPI−24ビットの画像信号を得て、該画像信号に対してデータ処理部205にて前処理を施し記憶部201に1ページ分の画像データとして保存する(ステップS401)。
次に図4を用いて類似原本検索処理および登録処理について説明する。はじめに、図2のMFP100の画像読み取り部200を動作させ1枚の原稿をラスター状に走査し、600DPI−24ビットの画像信号を得る。そして、該画像信号に対してデータ処理部205にて前処理を施し、記憶部201に1ページ分の画像データとして保存する(ステップS401)。もしくは、アプリケーションデータとして蓄積されたオリジナル電子ファイルをラスタライジングして600DPI−24ビットの画像信号を得て、該画像信号に対してデータ処理部205にて前処理を施し記憶部201に1ページ分の画像データとして保存する(ステップS401)。
マネージメントPC101のCPUは該格納された画像信号を、文字/線画部分とハーフトーンの画像部分とに領域分離し、文字/線画部分については更に段落で塊としてまとまっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、ブロック毎に独立したオブジェクトに分割する(ステップS402)。
文字ブロックについては、OCR処理を行う(ステップS403)。このとき入力画像中に付加情報として記録された2次元コード、或いはURLに該当するオブジェクトを検出し、URLについてはOCRで文字認識することで、2次元コードについては、該マークを解読することで、それぞれ該原稿のオリジナル電子ファイルが格納されている記憶部内のポインタ情報を検出する(ステップS404)。なお、ポインタ情報を付加する手段としては、他に文字と文字の間隔に情報を埋め込む方法やハーフトーンの画像に埋め込む方法等、直接可視化されない、いわゆる電子透かしによる方法であってもよい。
ポインタ情報が検出された場合(ステップS405の「YES」の場合)、ステップS418に分岐し、ポインタで示されたアドレスからオリジナル電子ファイルを検索する。本実施形態ではオリジナル電子ファイルはマネージメントPC101内のハードディスクに格納されており、ステップS404で得られたアドレス情報に従って当該ハードディスク内が検索される。なお、オリジナル電子ファイルの格納場所はこれに限られるものではなく、図1においてクライアントPC102内のハードディスク内、或いはオフィス10或いは20のLAN107、108に接続された文書管理サーバ106−1、106−2内のデータベース105−1、105−2内、或いはMFP100自体が有する記憶部201のいずれであってもよい。ステップS418でオリジナル電子ファイルが見つからなかった場合、見つかったがPDFあるいはtiffに代表されるいわゆるイメージファイルであった場合、或いはポインタ情報自体が存在しなかった場合(ステップS405で「NO」の場合)はステップS406に分岐する。
ステップS406では、データベース上のオリジナル電子ファイルを検索するため、先ず、ステップS403でOCRされた文字ブロックに対して、単語に分割し、重要語抽出を行う。重要語抽出とは、文字部分を解析し、単語の出現頻度等から重要語として決定した単語を、定められた個数だけ抽出する機能である。この重要語を全文検索の検索キーとして入力する。また、文字ブロックから文を抽出し、文章中の先頭文は文書全体の説明にあたる等の性質を利用して要約生成を行う。生成された要約文は概念検索の検索キーとして入力する。さらに画像ブロックに対してはイメージデータとして個別の画像ファイルとして画像検索を行う。次にデータベース上の各オリジナル電子ファイルと類似度を調べ、オリジナル電子ファイルを検索する。本発明は、オブジェクト毎に類似度を求め、オブジェクト毎の類似度をそのオブジェクトのファイル内占有率に応じてファイル全体の類似度へ反映させることを特徴とするものである。つまり、ファイル内で占めている割合の大きいオブジェクトの類似度が、ファイル全体の類似度へより大きく反映されることで、いかなるフォーマットのファイルにも適応的に対応することを可能にする。また、全ての領域に対し類似度を算出できるため、部分一致した文書を見つけ出すことも可能である。
ステップS406における検索処理の結果、類似度の高いオリジナル電子ファイルが見つかった場合、サムネイル等を表示(ステップS407)し、複数のオリジナル電子ファイルの中から操作者の選択が必要なら操作者の入力操作よってオリジナル電子ファイルの特定を行う。
候補が1ファイルの場合、自動的にステップS408からステップS413に分岐し、格納アドレスを通知する。ステップS406の検索処理でオリジナル電子ファイルが見つからなかった場合、或いは、見つかったがPDFあるいはtiffに代表されるいわゆるイメージファイルであった場合には、ステップS408からステップS409に分岐する。
ステップS409では、イメージからベクトルデータへの変換処理を行う。具体的には、ステップS403でOCR処理された文字ブロックに対して、更に文字のサイズ、スタイル、字体を認識し、原稿を走査して得られた文字を可視的に忠実なフォントデータに変換する。また、線で構成される表、図形ブロックに対してはアウトライン化し、表など図形形状が認識できるものは、その形状を認識する。さらに、画像ブロックに対してはイメージデータとして個別のJPEGファイルとして処理する。これらのベクトル化処理は各オブジェクト毎に行い、更に各オブジェクトのレイアウト情報を保存して、例えば、rtf形式に変換する。
続いて、ステップS410で分類支援機能を起動する。分類支援機能とは、文書を格納する際、どのカテゴリーに分類するかを支援する機能である。この機能によって、使用者の文書登録に関わる作業量を大幅に軽減することができる。文書の文字部分から分類用特徴ベクトルを生成し、インデックスに格納されている特徴ベクトルとの類似度判定によって、上位カテゴリから順番に表示する。使用者は文書の登録先として表示されたカテゴリから選ぶこともできるし、表示されなかったカテゴリ、あるいは新規カテゴリを作成して、電子ファイルとして変換されたデータをマネージメントPC101内のハードディスクに格納する(ステップS411)。
ステップS409においてベクトル化した入力画像は、以降同様の検索処理を行う際に直接オリジナル電子ファイルとして検索出来るように、ステップS412において先に述べたインデックス生成処理を行い、インデックス情報を生成して検索用インデックスファイルに追加する。更に、ステップS414で、操作者が行いたい処理が「記録」であると判断されれば、ステップS415に分岐し、ポインタ情報をイメージデータとしてファイルに付加する。検索処理でオリジナル電子ファイルが特定できた場合も、同様に以降からは直接オリジナル電子ファイルを特定する為にステップS405からステップS418に分岐し、格納アドレスを操作者に通知すると共に、紙に記録する場合は、同様にポインタ情報を電子ファイルに付加する。なお、ステップS418でポインタ情報からオリジナル電子ファイルが特定できた場合、検索処理でオリジナル電子ファイルが特定出来た場合、ベクトル化により電子ファイルに変換した場合には、ステップS413において、該オリジナル電子ファイルの格納アドレスを操作者に通知する。
このようにして得られた電子ファイル自体を用いて、例えば文書の加工、蓄積、伝送、記録をステップS416で行うことが可能になる。これらの処理はイメージデータを用いる場合に比べて、情報量が削減され、蓄積効率が高まり、伝送時間が短縮され、又記録表示する際には高品位なデータとして非常に優位となる。
以下、各処理ブロックについて詳細に説明する。先ずステップS402に示すブロックセレクション処理について説明する。
[ブロックセレクション処理]
ステップS402のブロックセレクション処理を図5を用いて説明する。図5(A)はステップS401で読み取った一頁のイメージデータの一例であり、図5(B)は当該イメージデータを各オブジェクト毎の塊として認識し、該ブロック各々について文字/図画/写真/線/表等の属性を判定し、異なる属性を持つ領域に分割した様子を示したものである。
ステップS402のブロックセレクション処理を図5を用いて説明する。図5(A)はステップS401で読み取った一頁のイメージデータの一例であり、図5(B)は当該イメージデータを各オブジェクト毎の塊として認識し、該ブロック各々について文字/図画/写真/線/表等の属性を判定し、異なる属性を持つ領域に分割した様子を示したものである。
ブロックセレクション処理の実施例を以下に説明する。先ず、入力画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化されうる部分を文字領域(TEXT)、扁平な画素塊を線領域(LINE)、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域(TABLE)、不定形の画素塊が散在している領域を写真領域(PHOTO)、それ以外の任意形状の画素塊を図画領域(PICTURE)、などとする。
ブロックセレクション処理で得られた各ブロックに対するブロック情報は以降に説明するベクトル化、或いは検索処理の為の情報として用いる。
[ポインタ情報の検出]
次に、オリジナル電子ファイルの格納位置をイメージ情報から抽出する為のポインタ情報検出処理(ステップS404)について説明する。
次に、オリジナル電子ファイルの格納位置をイメージ情報から抽出する為のポインタ情報検出処理(ステップS404)について説明する。
図6は入力画像中に付加された2次元コード(QRコードシンボル)を復号して、データ文字列を出力する過程を示すフローチャートである。2次元コードが付加された原稿の一例を図7に示す。
まず、データ処理部205内のページメモリに格納された原稿701を表すイメージ画像をCPU(不図示)で走査して、先に説明したブロックセレクション処理の結果から所定の2次元コードシンボル703の位置を検出する(ステップS600)。QRコードの位置検出パターンは、シンボルの4隅のうち3隅に配置される同一の位置検出要素パターンから構成される。
次に、位置検出パターンに隣接する形式情報を復元し、シンボルに適用されている誤り訂正レベルおよびマスクパターンを得る(ステップS601)。
シンボルの型番を決定した(ステップS602)後、形式情報で得られたマスクパターンを使って符号化領域ビットパターンをXOR演算することによってマスク処理を解除する(ステップS603)。
尚、モデルに対応する配置規則に従い、シンボルキャラクタを読み取り、メッセージのデータ及び誤り訂正コード語を復元する(ステップS604)。
復元されたコード上に、誤りがあるかどうかの検出を行い(ステップS605)、誤りが検出された場合には、ステップS606に分岐し、これを訂正する。
誤り訂正されたデータのモード指示子および文字数指示子に基づいて、データコード語をセグメントに分割する(ステップS607)。
最後に、仕様モードに基づいてデータ文字を復号し、結果を出力する(ステップS608)。
尚、2次元コード内に組み込まれたデータは、対応するオリジナル電子ファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で、或いは、対応するオリジナル電子ファイルへのURLで構成される。
本実施形態ではポインタ情報が2次元コードにより付与された原稿701について説明したが、直接文字列でポインタ情報が記録される場合は所定のルールに従った文字列のブロックを先のブロックセレクション処理で検出し、該ポインタ情報を示す文字列の各文字を文字認識することで、直接、オリジナル電子ファイルのアドレス情報を得ることが可能である。
又、図7の原稿701の文字ブロック702、或いは703の文字列に対して隣接する文字と文字の間隔等に視認し難い程度の変調を加え、該文字間隔に情報を埋め込むことでもポインタ情報を付与できる。所謂透かし情報は、後述する文字認識処理を行う際に各文字の間隔を検出すれば、ポインタ情報が得られる。又、自然画705の中に電子透かしとしてポインタ情報を付加することも可能である。
[ポインタ情報によるオリジナル電子ファイル検索]
次に、図4のステップS405およびステップS418に示す、ポインタ情報からのオリジナル電子ファイルの検索処理について図8のフローチャートを使用して説明する。
次に、図4のステップS405およびステップS418に示す、ポインタ情報からのオリジナル電子ファイルの検索処理について図8のフローチャートを使用して説明する。
まず、ポインタ情報に含まれるアドレスに基づいて、ファイルサーバを特定する(ステップS800)。なお、本実施形態においては、ファイルサーバとはマネージメントPC101内のハードディスクを指すが、オリジナル電子ファイルの格納先がクライアントPC102や、文書管理サーバ106−1、106−2内のデータベース105−1、105−2や、MFP100内の記憶部201であった場合には、それらを指す。また、アドレスとはURLや、サーバ名とファイル名からなるパス情報である。
ファイルサーバが特定できたら、ファイルサーバに対してアドレスを転送する(ステップS801)。ファイルサーバは、アドレスを受信すると、該当するオリジナル電子ファイルを検索する(ステップS802)。オリジナル電子ファイルが存在しない場合(ステップS803で「NO」の場合)には、MFP100に対してその旨通知する。
オリジナル電子ファイルが存在した場合(ステップS803で「YES」の場合)には、図4で説明したように、オリジナル電子ファイルのアドレスを通知(ステップS413)すると共に、使用者の希望する処理が画像ファイルデータの取得であれば、MFP100に対してオリジナル電子ファイルを転送する(ステップS808)。
[OCR処理]
次にステップS403におけるOCR処理(文字認識処理)について説明する。
次にステップS403におけるOCR処理(文字認識処理)について説明する。
文字認識部では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
ブロックセレクション処理(ステップS402)で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きの判定をおこない、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことでおこなう。縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、この時文字のサイズが検出できる。
[ファイル検索]
次に、図4のステップS406に示すファイル検索処理の詳細について図10を用いて説明する。
次に、図4のステップS406に示すファイル検索処理の詳細について図10を用いて説明する。
ファイル検索は、前述したブロックセレクション処理(ステップS402)により分割された各ブロック情報を利用して行う。具合的には、各ブロックの属性とファイル中のブロック座標情報との比較、すなわちレイアウトによる比較と、ファイル内の各ブロックの属性により異なる比較方法が適用されるブロック毎の内部情報比較とを複合した複合検索を用いる。
図10は、図4のステップS406でブロックセレクション処理された入力ファイルを、既に格納されているオリジナル電子ファイルの検索用インデックスと順次比較し、一致するオリジナル電子ファイルを検索するフローチャートである。まず、データベースよりオリジナル電子ファイルへアクセスする(ステップS1001)。入力ファイルの各ブロックとオリジナル電子ファイルの各ブロックとを比較し、入力ファイルのブロック毎にオリジナル電子ファイルのブロックとの類似率を求める(ステップS1002)。
ここで、図5、図9、図11及び図12を用いてステップS1002のブロック比較について詳説する。図5を入力ファイルとし、図9にオリジナル電子ファイルの例を示す。図9のオリジナル電子ファイルは、ブロックB’1〜B’9に分割されかつそれぞれがベクトル化処理されている。図11は、入力ファイル中の一つのブロックをオリジナル電子ファイルと比較し、類似率を算出するフローチャートである。ブロック毎に類似率を算出する際、まず入力ファイルの該ブロックとレイアウト上一致すると推定されるオリジナル電子ファイルの対象ブロックを選出する。この処理においては、入力ファイルの複数のブロックに対し、オリジナル電子ファイルの対象ブロックが重複されて選出されてもよい。次に該ブロックと対象ブロックとのレイアウト情報の類似率を求める。ブロックの位置、サイズ、属性を比較し(ステップS1102、1103、1104)、その誤差からレイアウトの類似率を求める。次にブロック内部の比較を行うが、ブロック内部を比較する際は同じ属性として比較するため、属性が異なる場合は片方のブロックを一致する属性へ再ベクトル化するなどの前処理を行う。前処理により同じ属性として扱われる入力ファイルのブロックとオリジナル電子ファイルの対象ブロックについて、ブロックの内部比較を行う(ステップS1105)。ブロック内部比較では、ブロックの属性に最適な比較手法をとるため、属性によりその比較手法は異なる。図12はブロックごとの比較方法を記述したフローチャートである。例えば、前述したブロックセレクション処理により、ブロックはテキスト、写真、表、線画などの属性に分割される。処理するブロックが写真画像ブロックの場合(ステップS1201の「YES」の場合)、画像より抽出される特徴ベクトルに基づいて特徴空間上の誤差より類似率が算出される(ステップS1202)。ここでいう特徴ベクトルとは、色ヒストグラムや色モーメントのような色に関する特徴量、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、フーリエ記述子等の形状特徴量など複数挙げられ、このような複数の特徴量のうち最適な組み合わせを用いる。検索結果(類似率順に並んだ候補リスト)は、所定の記憶部、例えばマネージメントPC101の記憶部に記憶される(ステップS1203)。
テキストブロックの場合(ステップS1204の「YES」の場合)は、OCR処理により文字コードが判別されているため、ステップS1205では要約文生成を行い、概念検索を行う。ステップS1206では、検索結果を記憶部に記憶する。続いてステップS1207において重要語抽出を行い、全文検索を行う。検索結果を記憶部に記憶する(ステップS1208)。
以上より、ブロック位置、サイズ、属性、ブロック内部の類似率を算出し、各類似率を合計することで入力ファイルの該ブロックに対しその類似率を算出することが可能であり、該ブロック類似率を記録する。入力ファイルのブロック全てについて、一連の処理を繰り返す。求められたブロック類似率は、全て統合することで、入力ファイルの類似率を求める(ステップS1003)。
次に、統合処理(ステップS1003)について説明する。図5の入力ファイルのブロックに対し、ブロック毎の類似率がn1、n2、・・・と算出されたとする。このときファイル全体の総合類似率Nは、以下の式で表現される。
N=w1×n1+w2×n2+・・・+γ ・・・(1)
N=w1×n1+w2×n2+・・・+γ ・・・(1)
ここで、w1、w2、・・・は、各ブロックの類似率を評価する重み係数である。γは補正項であり、例えば、図9のオリジナル電子ファイルの入力ファイルに対する対象ブロックとして選出されなかったブロックの評価値などとする。重み係数w1、w2・・・は、ブロックのファイル内占有率により求める。例えばブロック1のサイズをS1とすると、ブロック1の占有率w1は、
w1=S1/(全ブロックのサイズの和) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ファイル内で大きな領域を占めるブロックの類似率がよりファイル全体の類似率に反映されるようになる。
w1=S1/(全ブロックのサイズの和) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ファイル内で大きな領域を占めるブロックの類似率がよりファイル全体の類似率に反映されるようになる。
以上、検索の結果、類似率が閾値Thより高い場合には、候補として保存され(ステップS1005)、オリジナル電子ファイルをサムネイル等で表示する(ステップS407)。複数の中から操作者の選択が必要なら操作者の入力操作によってオリジナル電子ファイルの特定を行う。
[アプリデータへの変換処理]
ところで、一頁分のイメージデータをブロックセレクション処理(ステップS402)し、ベクトル化処理(ステップS408)した結果は図13に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
ところで、一頁分のイメージデータをブロックセレクション処理(ステップS402)し、ベクトル化処理(ステップS408)した結果は図13に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
図13はDAOFのデータ構造を示す図である。図13において、1301はHeaderであり、処理対象の入力ファイルに関する情報が保持される。レイアウト記述データ部1302では、入力ファイル中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、EPICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。文字認識記述データ部1303では、TEXT、TITLE、CAPTION等のTEXTブロックを文字認識して得られる文字認識結果を保持する。表記述データ部1304では、TABLEブロックの構造の詳細を格納する。画像記述データ部1305は、PICTUREやLINEART等のブロックのイメージデータを入力ファイルから切り出して保持する。
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクトを再利用することは出来ない。そこで、次に、このDAOFからアプリデータに変換する処理(ステップS409)について詳説する。
図14は、アプリデータに変換する処理(ステップS409)の詳細な流れを示すフローチャートである。
ステップS1400では、DAOFデータの入力を行う。ステップS1401では、アプリデータの元となる文書構造ツリー生成を行う。ステップS1402では、文書構造ツリーを元に、DAOF内の実データを流し込み、実際のアプリデータを生成する。
図15は、文書構造ツリー生成処理(ステップS1401)の詳細フローを示す図であり、図16は、文書構造ツリーの説明図である。全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行する。
以後ブロックとは、ミクロブロック及びマクロブロック全体を指す。ステップS1501では、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後はミクロブロック単位での判定となる。
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどで定義することができる。
また、距離、幅、高さなどの情報はDAOFを参照し、抽出する。図16(A)は実際のページ構成、(B)はその文書構造ツリーである。ステップS1501の処理の結果、T3、T4、T5が一つのグループV1、T6、T7が一つのグループV2が同じ階層のグループとしてまず生成される。
ステップS1502では、縦方向のセパレータの有無をチェックする。セパレータは、例えば物理的にはDAOF中でライン属性を持つオブジェクトである。また論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
ステップS1504では、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。ここで、縦方向のグループ長がページ高さとなっている場合は、文書構造ツリー生成は終了する。
図16の場合は、セパレータもなく、グループ高さはページ高さではないので、ステップS1504に進む。ステップS1504では、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。なお、関連性及びその判定情報の定義は、縦方向の場合と同じである。
図16の場合は、T1、T2でH1が、V1、V2でH2が、それぞれV1、V2の1つ上の同じ階層のグループとして生成される。
ステップS1505では、横方向セパレータの有無をチェックする。図16では、S1があるので、これをツリーに登録し、H1、S1、H2という階層が生成される。
ステップS1506では、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。ここで、横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成は終了する。そうでない場合は、ステップS1501に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。
図16の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。文書構造ツリーが完成した後、その情報を元にステップS1402においてアプリデータの生成を行う。
図16の場合は、具体的には、以下のようになる。すなわち、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力する。
H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3、T4、T5の順にその内部情報を出力、その後カラムを変え、V2のT6、T7の内部情報を出力する。以上によりアプリデータへの変換処理が行える。
[ポインタ情報の付加(2次元コード)]
次に、ステップS307およびステップS415に示す、ポインタ情報付加処理について説明する。処理すべき文書が検索処理で特定された場合、あるいはベクトル化によってオリジナル電子ファイルが再生できた場合であって、該文書を記録処理する場合においては、紙への記録の際にポインタ情報を付与することで、この文書を用いて再度各種処理を行う際に簡単にオリジナル電子ファイルを取得することができるようになる。
次に、ステップS307およびステップS415に示す、ポインタ情報付加処理について説明する。処理すべき文書が検索処理で特定された場合、あるいはベクトル化によってオリジナル電子ファイルが再生できた場合であって、該文書を記録処理する場合においては、紙への記録の際にポインタ情報を付与することで、この文書を用いて再度各種処理を行う際に簡単にオリジナル電子ファイルを取得することができるようになる。
図17はポインタ情報としてのデータ文字列を2次元コード(QRコードシンボル:JIS X0510)701にて符号化して画像中に付加する過程を示すフローチャートである。
2次元コード内に組み込むデータは、対応するオリジナル電子ファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するオリジナル電子ファイルへのURLや、対応するオリジナル電子ファイルの格納されているデータベース内あるいはMFP100自体が有する記憶部内で管理されるファイルID等で構成される。
まず、符号化する種々の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する(ステップS1700)。
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する(ステップS1701)。
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップS1702)。
ステップS1702で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語および必要に応じて剰余コード語を後続する(ステップS1703)。
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する(ステップS1704)。
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップS1704で得られたモジュールにXOR演算により変換する(ステップS1705)。
最後に、ステップS1705で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する(ステップS1706)。
上述した、アドレス情報の組み込まれた2次元コードは、例えば、クライアントPC102からオリジナル電子ファイルをプリントデータとして送信し、記録部202により紙上に記録画像として形成する場合に、データ処理部205内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。ここで画像形成された紙を配布されたユーザは、画像読み取り部200で読み取ることにより、前述したステップS404にてポインタ情報からオリジナル電子ファイルの格納場所を検出することができる。
尚、同様の目的で付加情報を付与する手段は、本実施形態で説明した2次元コードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる各方法が適用できる。
[電子透かしによるポインタ情報埋め込み・検出]
電子透かしを用いてポインタ情報を埋め込む場合、文書中の文章部分の文字間隔に埋め込む場合と、画像に埋め込む場合がある。
電子透かしを用いてポインタ情報を埋め込む場合、文書中の文章部分の文字間隔に埋め込む場合と、画像に埋め込む場合がある。
[文字間隔に埋め込む方法の例]
文字間の空白長を操作する方法を図18と図19を用いて説明する。図18は、透かし情報の埋め込み前の文書画像の一部を示す図である。図19は、図18の文書画像の一部に対して透かし情報を埋め込んだ後の文書画像の一部を示す図である。図18に示される各文字間の空白長P0、S0、P1、S1は、透かし情報が埋め込まれると、図19に示される各文字間の空白長P0’、S0’、P1’、S1’になる。図18及び図19では、文字が5文字、文字間の空白が4つある。本実施形態では、1ビットに対して2つの空白長を割り当てることから、4つの空白によって2ビットの情報を埋め込むことが可能である。例えば、P>Sが「1」を表し、P<Sが「0」を表すとする。そこで、図18においてP0とS0との間の「子」という文字を左に、P1とS1との間の「か」という文字を右にシフトした場合、埋め込み後の文書画像の一部である図19では、P0’<S0’、P1’<S1となり、01というビット列が埋め込まれたことになる。
文字間の空白長を操作する方法を図18と図19を用いて説明する。図18は、透かし情報の埋め込み前の文書画像の一部を示す図である。図19は、図18の文書画像の一部に対して透かし情報を埋め込んだ後の文書画像の一部を示す図である。図18に示される各文字間の空白長P0、S0、P1、S1は、透かし情報が埋め込まれると、図19に示される各文字間の空白長P0’、S0’、P1’、S1’になる。図18及び図19では、文字が5文字、文字間の空白が4つある。本実施形態では、1ビットに対して2つの空白長を割り当てることから、4つの空白によって2ビットの情報を埋め込むことが可能である。例えば、P>Sが「1」を表し、P<Sが「0」を表すとする。そこで、図18においてP0とS0との間の「子」という文字を左に、P1とS1との間の「か」という文字を右にシフトした場合、埋め込み後の文書画像の一部である図19では、P0’<S0’、P1’<S1となり、01というビット列が埋め込まれたことになる。
[画像に埋め込む方法の例]
以降の説明では、説明を簡単にするために、画像データはモノクロの多値画像を表現しているものとするが、本発明はこのような場合には限定されない。例えばカラー画像データ等の複数の色成分からなる画像データに対して電子透かしを埋め込むならば、その複数の色成分である例えばRGB成分、或いは輝度、色差成分の夫々を上記モノクロの多値画像として扱う様にし、各成分に対して電子透かしを埋め込めばよい。この場合には、モノクロ多値画像へ電子透かしを埋め込む場合と比較して、約3倍のデータ量を埋め込むことが可能となる。あるバイナリデータ列を付加情報Infとする。付加情報Infは、「0」または「1」の何れかを表すビットの数個の組み合わせによって構成される情報である。次に、付加情報Infから、電子透かしwを生成する。最も単純な電子透かしw生成方法は、ラスタースキャン順にスキャンして、付加情報Infを画像データIの位置に対応付けて、「0」の場合は−1、「1」の場合は+1を割り当てることによって実現できる。電子透かし埋め込み部画像データI及び電子透かしwが入力され、画像データIに電子透かしwが埋め込まれ、電子透かしwが埋め込まれた画像データI’が出力される。例えば、
I’i,j=Ii,j(1+awi,j) (1)
という式に従って、電子透かしの埋め込み処理が実行される。ここで、I’i,jは電子透かしが埋め込まれた画像データ、Ii,jは電子透かしが埋め込まれる前の画像データ、wi,jは電子透かし、i及びjは夫々I、I’及びwのx座標及びy座標を表すパラメータ、aは電子透かしの強度を設定するパラメータである。
以降の説明では、説明を簡単にするために、画像データはモノクロの多値画像を表現しているものとするが、本発明はこのような場合には限定されない。例えばカラー画像データ等の複数の色成分からなる画像データに対して電子透かしを埋め込むならば、その複数の色成分である例えばRGB成分、或いは輝度、色差成分の夫々を上記モノクロの多値画像として扱う様にし、各成分に対して電子透かしを埋め込めばよい。この場合には、モノクロ多値画像へ電子透かしを埋め込む場合と比較して、約3倍のデータ量を埋め込むことが可能となる。あるバイナリデータ列を付加情報Infとする。付加情報Infは、「0」または「1」の何れかを表すビットの数個の組み合わせによって構成される情報である。次に、付加情報Infから、電子透かしwを生成する。最も単純な電子透かしw生成方法は、ラスタースキャン順にスキャンして、付加情報Infを画像データIの位置に対応付けて、「0」の場合は−1、「1」の場合は+1を割り当てることによって実現できる。電子透かし埋め込み部画像データI及び電子透かしwが入力され、画像データIに電子透かしwが埋め込まれ、電子透かしwが埋め込まれた画像データI’が出力される。例えば、
I’i,j=Ii,j(1+awi,j) (1)
という式に従って、電子透かしの埋め込み処理が実行される。ここで、I’i,jは電子透かしが埋め込まれた画像データ、Ii,jは電子透かしが埋め込まれる前の画像データ、wi,jは電子透かし、i及びjは夫々I、I’及びwのx座標及びy座標を表すパラメータ、aは電子透かしの強度を設定するパラメータである。
例えば、aを「0.01」とすると、原画像の要素値の1%程度が変更されることを意味する。aの値を大きく設定することによって耐性の強い電子透かしを埋め込むことが可能であるが、画質劣化が大きくなる。一方で、aの値を小さく設定することによって電子透かしの耐性は弱くなるが、画質劣化は小さくすることが可能である。
[ポインタ情報の変換]
ここで、図20を用いて、ポインタ情報の付加及び変換の処理手順について述べる。図20の処理は、データ処理部205で行う。
ここで、図20を用いて、ポインタ情報の付加及び変換の処理手順について述べる。図20の処理は、データ処理部205で行う。
まず、ここで使用するポインタ情報の種別を、QRコード、文字(URL)、文字間隔電子透かし、画像電子透かしの4つとする。これらのポインタ情報は、QRコードは、文書中に所定の余白(=MQR)があれば埋め込めるとし、文字(URL)は、文書中に所定の余白(=MURL)があれば埋め込めるとする。また、文字間隔電子透かしは、ある一定の文字数(=NC)があれば埋め込めるとし、画像電子透かしは、ある一定面積(=Amin)以上の静止画があれば埋め込めるとする。
また、あらかじめ、付加するポインタ情報の種別に関する優先度を定めておく。ここでは、例えば、優先度1:画像電子透かし、優先度2:文字間隔電子透かし、優先度3:QRコード、優先度4:文字(URL)とする。この優先度を優先度情報として、記憶部201に記憶させておく。
[フローチャート]
図20は、ポインタ情報付加処理ステップS306(事前の登録時)およびステップS415(検索時)におけるポインタ情報付加処理に相当する。
図20は、ポインタ情報付加処理ステップS306(事前の登録時)およびステップS415(検索時)におけるポインタ情報付加処理に相当する。
まず、優先度情報を記憶部201から読み込む(ステップS2001)。そして、ブロック情報を解析し(ステップS2002)、優先度情報に記憶されているポインタ情報の種別ごとに、そのポインタ情報が埋め込めるかどうかを判定する(ステップS2003)。ここでの判定方法は、それぞれのポインタ情報の種別ごとに、上記に述べた、所定の余白,文字数,画像の面積が存在するかどうかを判定する。
ステップS2003で得られた判定結果を記憶する(ステップS2004)。
次に、ポインタ情報が既に付加されているかを判定する(ステップS2005)。もしYesなら、既に付加されているポインタ情報の種別が、優先度情報の優先度最高にあるポインタの種別かを判定し(ステップS2006)、もしYesなら処理を終了する。もしステップS2006の判定結果がNoなら、埋め込み可能なポインタ情報のうち、最高優先度のポインタ情報の優先度と付加されていたポインタ情報の優先度を比較し(ステップS2007)、もし埋め込み可能なポインタ情報の方が優先度が高ければ、同一情報を所定の埋め込み方法で付加しなおす(ステップS2008)。ステップS2007の判定結果がNoなら、処理を終了する。
また、ステップS2005の判定結果がNoであれば、埋め込み可能なポインタ情報のうち、優先度最大のものを埋め込む(ステップS2009)。
以上の手順によって、使用者が設定した優先度にしたがってポインタ情報を付加することが可能になり、無理なく使用者が最新・最良の手段でポインタ情報を付加することを可能にする。例えば、以前はURLでしかポインタ情報を付加していなかった紙文書も、QRコード・電子透かしでポインタ情報を付加しなおすことができる。また、埋め込み可能かどうかも判定するので、紙文書に適したポインタ情報の種別を考慮して付加することができる。
また、上記例では、付加されるポインタ情報は1つであるとしたが、複数種類のポインタ情報を一つの紙文書に付加してくことも可能である。その場合、この混在環境において常に最新・最良の手段でポインタ情報を付加するためには上記の優先度情報だけはなく、情報の最大種別を設定しておき、この最大種別の範囲でポインタ情報の付加を行えばよい。
(他の実施形態)
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
Claims (7)
- 入力される文書画像に画像データを検索するためのポインタ情報を付加する情報処理装置であって、
ポインタ情報の種別の優先度を入力する入力手段と、
前記ポインタ情報の種別で、前記文書画像に付加することが可能かを判定する判定手段と、
前記ポインタの種別の優先度と、前記判定手段の判定結果に応じて、前記文書画像にポインタ情報を付加する付加手段を有することを特徴とする情報処理装置。 - 前記ポインタ情報の種別は、2次元コード、URLの印字、文書電子透かし、画像電子透かしの少なくとも何れかであることを特徴とする請求項1に記載の情報処理装置。
- 前記付加手段は、前記判定結果で付加可能な種別のうち、前記入力された優先度が最も高い種別で、ポインタ情報を付加することを特徴とする請求項1又は2に記載の情報処理装置。
- 前記入力される文書画像に、既にポインタ情報が付加されているかを判定する手段を特徴とする請求項1〜3の何れか1項に記載の情報処理装置。
- 入力される文書画像に画像データを検索するためのポインタ情報を付加する情報処理方法であって、
ポインタ情報の種別の優先度を入力する入力工程と、
前記ポインタ情報の種別で、前記文書画像に付加することが可能かを判定する判定工程と、
前記ポインタの種別の優先度と、前記判定工程の判定結果に応じて、前記文書画像にポインタ情報を付加する付加工程を有することを特徴とする情報処理方法。 - 請求項1〜4の何れか1項に記載の情報処理装置の機能をコンピュータに実現させるためのプログラム。
- 請求項6に記載のプログラムを格納し、コンピュータが読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004356648A JP2006166207A (ja) | 2004-12-09 | 2004-12-09 | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004356648A JP2006166207A (ja) | 2004-12-09 | 2004-12-09 | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006166207A true JP2006166207A (ja) | 2006-06-22 |
Family
ID=36667683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004356648A Withdrawn JP2006166207A (ja) | 2004-12-09 | 2004-12-09 | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006166207A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008035488A (ja) * | 2006-07-06 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP2013143110A (ja) * | 2012-01-12 | 2013-07-22 | Konica Minolta Inc | 画像形成装置及び同装置における文書データのプレビュー表示方法 |
-
2004
- 2004-12-09 JP JP2004356648A patent/JP2006166207A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008035488A (ja) * | 2006-07-06 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP4663682B2 (ja) * | 2006-07-06 | 2011-04-06 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
US8345980B2 (en) | 2006-07-06 | 2013-01-01 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and computer-readable storage medium to determine whether a manuscript is an original by using paper fingerprint information |
JP2013143110A (ja) * | 2012-01-12 | 2013-07-22 | Konica Minolta Inc | 画像形成装置及び同装置における文書データのプレビュー表示方法 |
US8839104B2 (en) | 2012-01-12 | 2014-09-16 | Konica Minolta Business Technologies, Inc. | Adjusting an image using a print preview of the image on an image forming apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7593961B2 (en) | Information processing apparatus for retrieving image data similar to an entered image | |
US7681121B2 (en) | Image processing apparatus, control method therefor, and program | |
US7391917B2 (en) | Image processing method | |
JP4266784B2 (ja) | 画像処理システム及び画像処理方法 | |
US7542605B2 (en) | Image processing apparatus, control method therefor, and program | |
US8520006B2 (en) | Image processing apparatus and method, and program | |
JP4393161B2 (ja) | 画像処理装置及び画像処理方法 | |
JP2004265384A (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP2004334339A (ja) | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム | |
JP3862694B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP4227432B2 (ja) | 画像処理方法 | |
JP4338189B2 (ja) | 画像処理システム及び画像処理方法 | |
CN100501728C (zh) | 图像处理方法、系统、程序、程序存储介质以及信息处理设备 | |
JP4185858B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP2005149097A (ja) | 画像処理システム及び画像処理方法 | |
JP4310176B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2006166207A (ja) | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム | |
JP2006134042A (ja) | 画像処理システム | |
JP2005136729A (ja) | 画像処理装置、画像処理方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 | |
JP2005208872A (ja) | 画像処理システム | |
JP2006146486A (ja) | 画像処理装置 | |
JP2008084127A (ja) | 画像形成装置 | |
JP2006195886A (ja) | 画像処理システム | |
JP2005165674A (ja) | 画像処理装置、画像処理方法、及びコンピュータプログラム | |
JP2006148663A (ja) | 画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080304 |