JP4455357B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP4455357B2
JP4455357B2 JP2005021824A JP2005021824A JP4455357B2 JP 4455357 B2 JP4455357 B2 JP 4455357B2 JP 2005021824 A JP2005021824 A JP 2005021824A JP 2005021824 A JP2005021824 A JP 2005021824A JP 4455357 B2 JP4455357 B2 JP 4455357B2
Authority
JP
Japan
Prior art keywords
index
image data
information
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005021824A
Other languages
English (en)
Other versions
JP2006209542A (ja
JP2006209542A5 (ja
Inventor
啓 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005021824A priority Critical patent/JP4455357B2/ja
Priority to US11/275,674 priority patent/US7930292B2/en
Publication of JP2006209542A publication Critical patent/JP2006209542A/ja
Publication of JP2006209542A5 publication Critical patent/JP2006209542A5/ja
Application granted granted Critical
Publication of JP4455357B2 publication Critical patent/JP4455357B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/915Image

Description

本発明は、文書データにインデックス情報を関連付けて管理する情報処理装置及びその制御方法に関するものである。
昨今、企業内に存在する様々な文書(紙文書、FAX、e−mail、Webページなど)をデジタル化し、有効に利用、検索できるようにコンピュータ上のライブラリに統合し、保管する文書管理が求められている。このような文書管理システムにおいては、例えば、所定の文書フォームで形成された紙文書をスキャナで読み取り、イメージデータとして文書サーバに保存するとともに、当該イメージデータから例えば会社名や住所といったテキストデータによるインデックス情報を抽出し、これをイメージデータと関連付けて保存する。例えば、インデックスと共に関連するイメージデータの存在場所を示す情報(URLなど)を持たせる。このようにして、インデックスから容易に所望の文書(画像)を検索することを可能としている。また、特許文献1では、テキストとイメージが混在するような文書等において、イメージよりキーワードを抽出する構成が記載されている。特許文献1では、イメージを文字認識し、自然言語処理により得られた単語とキーワード表との対比によりキーワードを選択している。
特開平6−223113号公報
しかしながら、上記文書管理システムにおいては、イメージデータ内の情報とインデックス項目をどのように関連付けて作成するかが課題となる。イメージデータからインデックスを抽出する一方法として、イメージデータのどの領域を文字認識してどのインデックス項目に関連付けるかをユーザが予め設定しておき、紙文書のスキャン時に、予め設定された領域について文字認識を行い、得られたテキスト情報をインデックス情報として記憶することが提案されている。しかしながら、この方法では、スキャンする文書のフォームに応じて、「どの領域をどのインデックス項目のデータとして文字認識するか」ということ(ここでは、インデックス抽出情報と称する)を予め設定しておかなければならない。このような設定作業の必要性から、文書管理システムへの文書登録作業が煩雑なものとなっている。
また、予め複数種類の文書フォームについて上記インデックス抽出情報を登録しておき、読み取る文書に応じてユーザが所望の設定を選択するように構成することも考えられる。しかしながら、読み取る文書が多数あり、複数種類のフォームが混在している場合は、フォームが切り替わるたびに設定の選択を行なう必要が生じてしまい、やはり文書登録作業が煩雑になる。また、インデックス抽出情報が設定されていない新たな文書フォームが出現すると、その都度文書管理システムにおいてインデックス抽出情報の設定、登録をしなければならない。
本発明は上記の課題に鑑みてなされたものであり、文書管理システムへの文書画像の登録作業を簡易化することを目的とする。
上記の目的を達成するための本発明の一態様による情報処理装置は以下の構成を備える。すなわち、
文書画像データを入力する情報処理装置であって、
メモリに格納された前記文書画像データを解析して、当該文書画像データが示す文書画像を複数の領域に分割する分割手段と、
前記複数の領域のうち、文書画像を解析して文字データを抽出する文字認識処理を実行すべき領域の指定をユーザから受け付ける指定手段と、
前記指定された領域から前記文字認識処理によって得られる文字データと関連付けられるべきインデックス項目設定をユーザから受け付ける設定手段と、
前記指定された領域を示す情報と前記設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から前記文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を生成する生成手段と、
前記生成手段で生成されたインデックス抽出情報前記文書画像データに対応するフォーム画像データとを合成することにより、合成画像データを生成しメモリに格納する合成手段とを備え
前記合成手段は、前記合成画像データが印刷されて前記合成画像データの印刷画像が読み取られた場合に前記インデックス抽出情報が前記印刷画像から抽出されるように、前記合成画像データを生成する。
また、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
文書を光学的に読み取って得られた文書画像データより、予め定められた形態で記録されている情報を解析して、ユーザにより指定された領域を示す情報と該領域に対してユーザにより設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を抽出する解析手段と、
前記解析手段で抽出した前記インデックス抽出情報によってされる領域の画像を前記文書画像データより抽出し、抽出した画像について文字認識処理を実行する認識手段と、
前記文字認識処理によって得られた文字データを前記インデックス抽出情報によって示されるインデックス項目に対するインデックス情報として、該インデックス情報と前記文書画像データを登録する登録手段とを備える。
なお、好ましくは、上記所定の形態で記録されている情報は、パターンイメージとして文書画像に記録されているが、パターンイメージとしては、2次元バーコードのような可視画像のみならず、電子透かしとして埋め込まれたものも含み得る。
本発明によれば、文書管理システムへの文書画像の登録作業を簡易化される。
以下、添付の図面を参照して本発明の好適な実施形態について説明する。
図1は、実施形態による文書管理システムの全体の構成を説明するブロック図である。文書管理システムは、文書管理クライアント100と、文書管理サーバ110と、インデックスサーバ120とデジタル複合機130とを含み、これらはネットワーク140で接続されている。なお、文書管理クライアント100、文書管理サーバ110と、インデックスサーバ120を構成するコンピュータとしては、パーソナルコンピュータ等を利用することが可能である。
文書管理クライアント100は、文書管理サーバ110で管理される文書の検索を要求し、検索された文書を表示したり、インデックスサーバ120で管理されるインデックスの参照などを行う。文書管理クライアント100は、ユーザインタフェース(UI)部101、クライアント処理部102及びネットワークI/F103とを備えている。UI部101は、文書の登録、検索、表示、インデックスの参照など、文書管理クライアント100の各機能に係るオペレータからの指示を受け付けるとともに、その処理結果などの各種情報をオペレータに提供する。UI部101は、例えばCRT、液晶等に代表される表示装置や、キーボードやポインティングデバイスなどの入力装置を有する。クライアント処理部102は、CPUやメモリなどから構成され、文書の登録、検索、表示、インデックスの参照など、文書管理クライアント100の各機能の処理を行う。クライアント処理部102は、文書管理サーバ110に対する処理が発生した場合には、ネットワークI/F103を介して文書管理サーバ110やインデックス管理サーバ120に各種要求コマンドを送信し、その応答を受信する。
文書管理サーバ110は、文書管理クライアント100やデジタル複合機130によって取り込まれた画像データや文書データを管理するサーバである。文書管理サーバ101は、ネットワークI/F111、属性管理サーバ部112、及びボリュームサーバ部115を有する。属性管理サーバ部112、ボリュームサーバ部115は、本実施形態のように1つのコンピュータで構成されてもかまわないし、ネットワーク140で接続される別々のコンピュータで構成されてもかまわない。ネットワークI/F111は、ネットワーク140に接続し、TCP/IPなどのネットワークプロトコルの処理を行う。
属性管理サーバ部112は、画像データや文書データを階層化されたフォルダに格納されている文書として管理できるように、フォルダ、文書、ページの包含関係とこれらの属性などを管理する。属性管理サーバ部112は、属性管理サーバ処理部113と属性記憶部114とを有する。属性管理サーバ処理部113は、CPUやメモリなどから構成され、クライアント処理部102からネットワークI/F111を介して要求コマンドを受信し、受信した要求コマンドに従って属性記憶部114に対して更新や検索などの処理を行い、その処理結果をクライアント処理部102に送信する。属性記憶部114は、フォルダ属性、文書属性、ページ属性などを記憶するものであり、通常、ハードディスク等で構成される。
ボリュームサーバ部115は、属性管理サーバ部112で管理されるページに対応する文書データや画像データなどの実データを蓄積し、管理する。ボリュームサーバ部115は、ボリュームサーバ処理部116とボリューム記憶部117とを有する。ボリュームサーバ処理部116は、CPUやメモリなどから構成され、クライアント処理部102からネットワークI/F111を介して要求コマンドを受信し、受信した要求コマンドに応じてボリューム記憶部117に対して更新やデータ取得などの処理を行い、その処理結果をクライアント処理部102に送信する。ボリューム記憶部117は、文書データや画像データを記憶するものであり、通常、ハードディスクなどで構成される。
インデックス管理サーバ120は、文書管理サーバ110に格納された画像データや文書データを検索するためのキーワードとなるインデックスを管理する。インデックス管理サーバ120は、ネットワークI/F121と、インデックスサーバ部122から構成される。なお、インデックスサーバ部122は、本実施形態のように1つのコンピュータで独立して構成されてもかまわないし、属性管理サーバ部112、ボリュームサーバ部115とともに同一のコンピュータで構成されてもかまわない。ネットワークI/F121は、ネットワーク140に接続し、TCP/IPなどのネットワークプロトコルの処理を行う。
インデックスサーバ部122は、文書を検索する際のキーワードとなるインデックスを属性管理サーバ部112で管理される文書情報に対応付けて管理する。インデックスサーバ部122はインデックスサーバ処理部123と、インデックス記憶部124とを有する。インデックスサーバ処理部123は、CPUやメモリなどから構成され、クライアント処理部102からネットワークI/F121を介して要求コマンドを受信し、受信した要求コマンドに応じてインデックス記憶部124に対して更新やデータ取得などの処理を行い、その処理結果をクライアント処理部102に送信する。インデックス記憶部124は、インデックスデータを記憶するものであり、ハードディスクなどで構成される。
デジタル複合機130は、コピー、スキャナ、プリンタ、FAXなどの複合機能をもつ画像形成装置である。デジタル複合機130は、図示のように、画像入力デバイスであるスキャナ部131、画像出力デバイスであるプリンタ部132、コントローラユニット133、ユーザインタフェースである操作部134を有する。スキャナ部131、プリンタ部132、操作部134は、それぞれコントローラユニット133に接続され、コントローラユニット133は、ネットワーク(LAN)140、ネットワーク(WAN)150に接続されている。本実施形態では、WAN150として公衆回線を用いている。
コントローラユニット133は、操作部134からの入力情報に基づきスキャン・ジョブなどの処理を行うとともに、機器の状態やジョブの状態などの情報を操作部134に提供する。
図2は、図1に示した文書管理クライアント100と文書管理サーバ110とインデックス管理サーバ120の機能構成を示すブロック図である。なお、図2において図1と同じ構成には同一の符号を付してある。
文書管理クライアント100のクライアント処理部102は、クライアントアプリケーション部200、画像処理部201、画像解析部202、キャビネット文書管理部203、データベース通信部204、ボリューム通信部205、インデックス通信部206を備える。
クライアントアプリケーション部200は、UI部101からの指示に従い、文書管理クライアント100の各機能の処理を行うとともに、UI部101の表示画面の制御を行う。また、属性管理サーバ部112、ボリュームサーバ部115、インデックスサーバ部122に対する処理が発生した場合、クライアントアプリケーション部200は、その要求をキャビネット文書管理部203に供給し、その要求に対する処理結果をキャビネット文書管理部203から受け取る。画像処理部201は、クライアントアプリケーション部200、キャビネット文書管理部203からの要求に従い、画像の伸長、圧縮、色空間変換、下地とばし、拡大/縮小、回転、合成、2次元バーコード作成などの画像処理を行う。画像解析部202は、クライアントアプリケーション部200、キャビネット文書管理部203からの要求に従い、画像の解析、領域分割、文字認識などの処理を行う。
キャビネット文書管理部203は、属性管理サーバ部112とボリュームサーバ部115とインデックスサーバ部122に対する要求を、キャビネット、フォルダ、文書、ページからなるオブジェクト・モデルで行えるようにする。すなわち、キャビネット文書管理部203は、フォルダ属性、文書属性、ページ属性に対する参照、更新などの処理が発生した場合には、その要求をデータベース通信部204に供給し、その処理結果をデータベース通信部203から受け取る。また、画像データや文書データに対する登録、削除、取得などの処理が発生した場合には、その要求をボリューム通信部205に供給し、その処理結果をボリューム通信部205から受け取る。更に、インデックスに対する参照、更新などの処理が発生した場合には、その要求をインデックス通信部206に供給し、その処理結果をインデックス通信部206から受け取る。
データベース通信部204は、TCP/IPプロトコル上に定義されるSQL(Structured Query Language)プロトコルにより、属性管理サーバ112に対する要求コマンドをネットワークI/F103を介してデータベース通信部207に送信し、その応答コマンドをデータベース通信部207から受信する。ボリューム通信部205は、RPC(Remote Procedure Call)により、ボリュームサーバ部115に対する要求コマンドをネットワークI/F103を介してボリューム通信部209に送信し、その応答コマンドをボリューム通信部209から受信する。インデックス通信部206は、TCP/IPプロトコル上に定義されるSQL(Structured Query Language)プロトコルにより、インデックスサーバ部122に対する要求コマンドをネットワークI/F103を介してインデックス通信部211に送信し、その応答コマンドをデータベース通信部211から受信する。
文書管理サーバ110の属性管理サーバ処理部112は、データベース通信部207、データベース処理部208を有する。データベース通信部207は、TCP/IPプロトコル上に定義されるSQL(Structured Query Language)プロトコルにより、属性管理サーバ部112に対する要求コマンドをデータベース通信部204からネットワークI/F111を介して受信すると、その受信した要求をデータベース処理部208に供給し、対応する処理結果を応答コマンドとしてデータベース通信部204に送信する。データベース処理部208は、フォルダ、文書、ページの包含関係とこれらの属性を管理するためのRDBMS(Relational Database Management System)で、データベース通信部207より供給されたコマンドに応じてデータベース・ファイルを格納する属性記憶部114に対して更新や検索などの処理を行う。
図3は属性記憶部114におけるテーブル定義例である。図3に示されるフォルダ管理テーブル300、文書管理テーブル301、ページ管理テーブル302の各テーブルは、データベース処理部208が、フォルダ、文書、ページの包含関係とこれらの属性を管理するのに用いられる。
フォルダ管理テーブル300において、「フォルダID」は当該フォルダを識別するためのIDである。「親フォルダID」は当該フォルダの親のフォルダを識別するためのIDである。「フォルダ名」は当該フォルダに付与された名称である。「作成日時」は当該フォルダの作成日時を示す。フォルダが新規に作成される毎に、フォルダ管理テーブル300に当該新規フォルダに関して上記内容が登録されることになる。
また、文書管理テーブル301において、「文書ID」は文書を識別するためのIDである。「親フォルダID」は当該文書が所属しているフォルダを識別するためのIDである。「文書名」は当該文書に付与された名称を示す。「サイズ」は当該文書が有するサイズ(例えば、バイト数)である。「ページ数」は当該文書のページ数を示す。「文書タイプ」は、当該文書が画像データの集まりであるイメージ文書なのか、及びどのアプリケーションによって作成された文書データなのかを示す。「作成日時」は当該文書の作成日時を示す。文書が新規に登録されると、当該新規文書について上記内容が文書管理テーブル301に登録される。
更に、ページ管理テーブル302において、「ページID」はページを識別するためのIDである。「親文書ID」は当該ページを有する文書を識別するためのIDである。「ページ番号」は当該ページの番号を示す。「タイプ」は当該ページのページデータのファイル・フォーマットを示す。「用紙サイズ」は当該ページが画像データの場合に、その用紙サイズを示す。「ファイルサイズ」は当該ページのファイルのサイズを示す。「ボリュームID」は、ボリュームサーバ部115で管理される画像データ、文書データを識別するためのIDである。新規文書の登録時には、当該新規文書の各ページについて上記内容がページ管理テーブル302に登録されることになる。
再び図2において、文書管理サーバ110のボリュームサーバ処理部116は、ボリューム通信部209、ボリューム処理部210を有する。ボリューム通信部209は、RPC(Remote Procedure Call)により、ボリュームサーバ部115に対する要求コマンドをボリューム通信部205からネットワークI/F111を介して受信すると、その要求をボリューム処理部210に供給し、その処理結果を応答コマンドとしてボリューム通信部205に送信する。ボリューム処理部210は、ボリューム通信部209から供給されたコマンドに応じて、ボリュームファイルを記憶するボリューム記憶部117に対して更新やデータ取得などの処理を行う。
図4は、ボリューム記憶部117に格納されるファイルのデータ構成例を示す図である。ボリューム記憶部117には、画像データや文書データの実体を含むボリューム記憶ファイル401と、これを管理するボリューム管理ファイル400とが格納される。
ボリューム管理ファイル400において、「ボリュームID」は、実体データを識別するためのIDである。「ボリュームファイル名」は当該データが記憶されているボリューム記憶ファイルを識別するためのファイル名である。「オフセット」は、ボリューム記憶ファイル中の当該データの記憶開始位置を示すオフセット値である。「サイズ」は当該データのサイズ(例えば、バイト数)である。また、ボリューム記憶ファイル401には、実際の画像データ、文書データが連続して記憶されている。このように文書の実データは一つのファイルとしてボリューム記憶部117に記憶され、文書内の各ページを単位としてボリュームIDが付与され、図4に示す形態で保存されることになる。
再び図2において、インデックス管理サーバ120のインデックスサーバ処理部123は、インデックス通信部211、インデックス処理部212を有する。インデックス通信部211は、TCP/IPプロトコル上に定義されるSQL(Structured Query Language)プロトコルにより、インデックスサーバ部122に対する要求コマンドをインデックス通信部206からネットワークI/F121を介して受信すると、その要求をインデックス処理部212に供給し、その処理結果を応答コマンドとしてインデックス通信部206に送信する。インデックス処理部212は、供給されたコマンドに応じて、インデックスファイルを格納するインデックス記憶部124に対して更新やデータ取得などの処理を行う。
図5は、インデックス記憶部124に記憶されるテーブルの定義例を示す図である。インデックス記憶部124には、インデックス処理部212がインデックスデータを管理するためのインデックステーブル500と、インデックスデータテーブル501が格納されている。
インデックステーブル500において、「インデックスID」は、インデックス項目を識別するIDである。「インデックス名」は、当該インデックス項目の名称である。「タイプ」は、当該インデックス項目のデータが数値なのか文字列なのかを示す。インデックスデータテーブル501において、「データID」は当該インデックスデータを識別するためのIDである。「インデックスID」はインデックス項目名を識別するためのIDである。「インデックスデータ」当該インデックスのデータである。「文書ID」は、当該インデックスデータを関連付けている文書のIDである。インデックスデータテーブルは各データタイプ毎に存在する。
図6は、図1に示したデジタル複合機の構成を示すブロック図であり、図1と同じ構成には同一の符号を付してある。コントローラユニット133は、画像入力デバイスであるスキャナ部131や画像出力デバイスであるプリンタ部132と接続し、一方ではネットワーク(LAN)140や公衆回線(WAN)150と接続することで、画像情報やデバイス情報の入出力を行う為のコントローラである。
コントローラユニット133において、CPU600は当該デジタル複合機の全体を制御するコントローラである。RAM601は、CPU500が動作するためのシステムワークメモリである。また、RAM601は、入力された画像データを一時記憶するための画像メモリ(バッファメモリ)としても用いられる。ROM602は、ブートROMであり、システムのブートプログラムが格納されている。ハードディスクドライブ(HDD)603は、システムソフトウェア、画像データ等を格納する。
操作部I/F604は、操作部134とのインターフェース部であり、操作部134に表示する画像データを操作部134に対して出力する。また、操作部I/F604は、操作部134からオペレータが入力した情報を、CPU600に伝える役割をする。ネットワーク部(Network)605は、ネットワーク(LAN)140に接続し、情報の入出力を行う。606はモデム(MODEM)で、公衆回線(WAN)150に接続し、画像情報の入出力を行う。以上のデバイスがシステムバス607に接続されている。
イメージバス(Image Bus)I/F608は、システムバス607と画像バス609を接続し、データ構造を変換するバスブリッジである。画像バス609は、画像データを高速で転送するバスであり、PCIバスまたはIEEE1394で構成される。画像バス609上には以下のデバイスが配置される。
ラスタイメージプロセッサ(RIP)610は、PDLコードをビットマップイメージに展開する。デバイスI/F部611は、画像入出力デバイスであるスキャナ部131,プリンタ部132とコントローラユニット133を画像入力部インタフェース612,印刷部インタフェース613を介して接続する。スキャナ画像処理部614は、入力画像データに対し補正,加工,編集を行う。また、スキャナ画像処理部614は、入力された画像がカラー原稿か白黒原稿かを画像の彩度信号から判断しその結果を保持する機能を有する。プリンタ画像処理部615は、出力画像データに対し補正,加工,編集を行う。
画像回転部616は、スキャナ画像処理部514と連携して、スキャナ部131からの画像読み込みと同時に画像を回転してメモリ(例えばRAM601)に格納したり、メモリに格納されている画像を回転してメモリに格納しなおしたり、もしくはメモリに格納されている画像をプリンタ画像処理部515と連携して回転しながら印字出力することができる。画像圧縮部617は、多値画像データにはJPEG、2値画像画像データにはJBIG、MMR、MR、MHの圧縮伸長処理を行う。解像度変換部618は、メモリに格納されている画像を解像度変換処理して、メモリに格納する。色空間変換部619は、マトリクス演算により、たとえばメモリに格納されているYUV画像をLab画像に変換し、メモリに格納する。階調変換部620は、メモリに格納されている例えば8bit,256階調の画像を誤差拡散処理などの手法により1bit,2階調に変換し、メモリに格納する。画像回転部616、画像圧縮部617、解像度変換部618、色空間変換部619、階調変換部620は、それぞれ連結して動作することが可能で、例えばメモリ上の画像を画像回転,解像度変換する場合は、両処理をメモリを介することなしに行うことができる。
図7は、図1に示したデジタル複合機のコントローラユニット133における、システムソフトウェアの機能構成を示すブロック図である。ユーザインタフェース(UI)部700はオペレータからの入力情報をアプリケーション部701に供給するとともに、その処理結果をアプリケーション部701から受け取り、操作部134に表示する画面を生成する。アプリケーション部701は、UI部700からの要求に従った処理の実行を制御する。例えば、スキャンが要求された場合には、ジョブコントロールドメイン部702に指定されたスキャン設定とともにスキャン・ジョブを投入し、機器の状態やジョブの状態などの情報をジョブコントロールドメイン部702から受け取る。ジョブコントロールドメイン部702は、スキャン・ジョブ、コピー・ジョブ、プリント・ジョブ、FAXジョブなどの、複数のジョブの処理を司るもので、例えば、スキャン・ジョブが投入された場合は、指定されたスキャン設定に基づきスキャナ部131を動作させ、原稿を読み込み画像データを生成し、保存する。ネットワークI/F部703は、ネットワーク140に接続し、TCP/IPなどのネットワークプロトコルの処理を行う。
以上のような構成を備えた文書管理システムにおいて、登録対象の文書が新たに読み込まれると、当該文書より必要なインデックス情報が抽出され、図5のインデックスデータテーブル501に登録される。本実施形態では、文書画像のどの領域をどのインデックス項目のデータとして文字認識するかという情報を、2次元バーコードにより当該文書に記録しておく。このような2次元バーコード付の文書フォームを利用することにより、文書の登録時には、この2次元バーコードを解析し、文書画像中の指示された領域について文字認識を行い、指定されたインデックス項目のデータとして抽出することができる。
まず、文書管理クライアント100における上記2次元バーコードの作成動作について、図8のフローチャートを用いて説明する。
まず、オペレータが文書管理クライアント100により、文書管理サーバ110に保存されている文書画像から元となるフォームデータ画像を選択する。あるいは、デジタル複合機130からのスキャンにより元となるフォームデータ画像を取り込んでもよい。そして、2次元バーコード付きフォームデータの作成が指示されると、本処理が開始される(ステップS800)。
フォームデータ画像は、例えば図9に示すような定型のフォーマットを持つ画像である。選択されたフォームデータ画像は画像解析部202に転送される。画像解析部202は、転送されたフォームデータ画像について、ブロック選択技術により領域分割を行なう(ステップS801)。なお、このような領域分割処理に適用可能な技術としては、特開平6−68301に開示されている方法を用いることができる。このような領域分割によれば、取得された領域の数、各領域の属性、各領域の画像上の位置、大きさなどをレイアウト解析データとして得ることができる。この解析データを元に、クライアントアプリケーション部200はUI部101に領域分割されたフォームデータ画像を表示する。図10は、図9に示す文書画像を領域分割した結果を示す概念図である。
ステップS801による領域分割処理の結果、分割された領域が存在するか判別し(ステップS802)、領域が存在する場合は、任意の領域に対してインデックス抽出情報を設定するべくステップS803以降へ処理を進める。すなわち、図10に示すように分割された領域が存在する場合は、インデックスとして使用するかどうかオペレータの判断を受け付ける動作状態となる。この場合、UI部101は、図13に示すようなユーザインターフェースを文書管理クライアント100の表示機に提示する。一方、領域が存在しない場合は、ステップS802より本処理を終了する。
図13に示すユーザインターフェースは、ユーザが任意に選択した領域に対してインデックス項目を割り当てたり、文字認識処理のための補助情報を設定するのに使用される。なお、本例では、ポインティングデバイスによるポインタ1300の操作とクリック操作との組み合わせによりインデックス抽出情報の設定を行なう。
インデックス抽出情報を設定する場合、図13の表示画面において、フォームデータ画像1301に示された領域分割結果のうちの所望の領域にポインタ1300を移動し、クリックする。この操作により、当該領域がインデックス情報の設定対象として選択される。領域が選択されると、UI部101によって、当該選択された領域の領域情報(領域の画像上の位置、大きさなどの解析データ)が取得される(ステップS804)。
なお、ここでは、更に当該選択された領域のインデックス項目や文字認識補助情報が設定取得される。ポインタ1300によって領域が選択されると、メニュー1302が出現し、インデックス項目や文字認識補助情報の設定が行なえるようになる。インデックス項目としては「会社名」や「住所」等が用意されており、オペレータは所望のインデックス項目名を選択することができる。なお、インデックス項目はオペレータが任意に追加登録することも可能である。文字認識補助情報とは、その領域で認識する文字の情報であり、例えば文字の種類(手書き、活字、サインなど)、文字の方向(縦書き、横書きなど)、言語(日本語、英語など)である。図13ではメニュー1302から「文字認識補助情報」が選択された場合に提示される設定ウインドウ1303が示されている。
以上のようなユーザインターフェースにより、選択した領域に対する設定を完了し、設定ボタン1304がクリックされると、当該選択された領域に関するインデックス抽出情報がメモリに記録される。すなわち、レイアウト解析データから得られる当該領域の座標及び大きさをメモリに記憶し(ステップS805)、オペレータにより設定されたインデックス項目をメモリに記憶し(ステップS806)、オペレータにより設定された文字認識補助情報をメモリに記憶し(ステップS807)、ステップS803の処理に戻る。
なお、上記のインデックス抽出情報はフォーム情報としてフォーム記述言語により記憶される。フォーム記述言語はXML(eXtensible Markup Language)の定義に従い記述されるものである。図11は記憶されるフォーム情報を示す概念図である。記述1101は領域の位置及び大きさを示しており、記述1102はインデックス項目(名)を示しており、記述1103は文字認識補助情報を示している。図11の例では、領域の位置(座標)は(50,50)、領域のサイズは100×300となっている。なお、領域の位置は、例えば文書の左上を(0,0)とし、X方向、Y方向(下方向を正とする)のピクセル数で表している。領域のサイズもX方向、Y方向のピクセル数で表すものとする。また、例えばインデックス項目は「会社名(Company Name)であり、文字の種類は活字(1)、言語は英語(3)、文字の方向は横書き(2)を示しているとする。また、図11において、〈ZONE_1〉と〈/ZONE_1〉ではさまれた情報(領域の位置情報1101、インデックス項目1102、文字認識補助情報1103を含む)をインデックス情報と称する。
ステップS803の処理において、インデックス抽出情報をこれ以上設定しない場合、すなわち完了ボタン1305がクリックされてインデックスを設定する領域がこれ以上存在しない旨の指示がなされた場合は、ステップS808へ進む。ステップS808では、フォーム記述言語により記憶されたフォーム情報が存在するか判定する。フォーム情報が存在すると判定された場合、画像処理部201は、そのフォーム情報を表す2次元バーコード画像データを生成する(ステップS809)。この2次元バーコード画像データは、画像処理部201により、図12に示すように、データ未入力のフォーム画像に合成されて(ステップS810)、文書管理サーバ110に保存される。或いは、ネットワーク140を経由して、デジタル複合機130に送信され、印刷されることにより、紙のフォームデータとして扱うことも可能である。なお、バーコードを合成する位置は、図13のようなユーザインターフェースによるユーザの指定に基づいて決定しても良いし、図10の領域分割の結果を用いてフォーム画像中の余白を自動的に認識することにより決定しても良い。
なお、本実施形態においては、オペレータの指示により、任意の領域に対してインデックス抽出情報の設定処理を行っているが、領域分割処理を行った結果として得られた全ての領域に対してチェック処理を行うように構成することも可能である。また、本実施形態においては、領域分割処理により分割された領域をインデックス抽出領域としているが、オペレータの指示により、領域を任意に指定する形態とすることも可能である。更に、インデックス抽出情報を2次元バーコードにより表したが、これに限られるものではなく、インデックス抽出情報を認識できるものであれば他の形態のパターン、記録方法を用いてもよい。例えば、
(i)1次元バーコード、
(ii)バーコードに変換せず、文字列のまま合成する、
(iii)電子透かしとしてフォーム画像に埋め込む、
(iv)或いは、(フォームを印刷する用紙に読み書き可能なRF-IDが埋め込まれているものを用いることを前提として)インデックス抽出情報をフォーム画像の属性情報として記憶しておき、フォームを印刷するときにインデックス抽出位置情報を用紙に埋め込まれたRF-IDに書き込む、といった方法が考えられる。
上記処理により、作成できるインデックス付きフォームデータ用紙を用いれば、本情報処理装置への文書保存の際に、文書画像画像データからインデックスの抽出処理が容易に行えるようになる。この場合、文書画像そのものにインデックス抽出情報を示す2次元バーコードが記録されているので、複数種類の文書フォームの文書が混在していても、インデックス抽出情報の切り替え等を行なうことなく、文書登録を行なえる。
次に、本実施形態の文書管理クライアント100による文書登録処理について説明する。特に、上記のようにして生成された2次元バーコード付きのフォームデータ用紙を用いて作成された文書からインデックスを抽出する処理について説明する。図14は文書管理クライアント100における文書登録処理を説明するフローチャートである。以下、図に従い説明する。
まずオペレータにより、2次元バーコードが付与された文書画像を原稿積載台に載せ、スキャンが指示されると処理が開始する(ステップS1300)。この原稿スキャンには、例えばデジタル複合機130のスキャナ部131を用いることができる。スキャンが実行されると(ステップS1301)、読み込んだ文書の画像データが画像解析部202に転送される。ここで転送された画像データから2次元バーコードが存在するか否か判定する(ステップS1302)。2次元バーコードが存在しないと判定された場合は、ステップS1313へ進み、図3、図4により説明した形態で当該画像データを文書管理サーバ110により保存する。
読み込んだ文書の画像データに2次元バーコードイメージが存在する場合は、ステップS1302からステップS1303へ進み、2次元バーコードの解析処理を行う(ステップS1303)。この解析処理の結果、フォーム記述言語で記述されているフォーム情報が記憶されているか否か判定する(ステップS1304)。フォーム情報が存在しない場合は、画像データ上に更に他の2次元バーコードイメージが存在するか否かを判定する(ステップS1305)。存在する場合は、ステップS1303に戻り、当該2次元バーコードについて解析処理を行なう。ステップS1305で未確認の2次元バーコードが存在しないと判定された場合は、当該画像データ中にフォーム情報を表す2次元バーコードは存在しないので、ステップS1313に処理を進め、図3、図4により説明した形態で当該画像データを文書管理サーバ110により保存する。なお、読み取り画像中からバーコードの有無や位置を判定することや、バーコード部分を抽出して解析することに関しては、周知の技術を適用できる。
ステップS1304でフォーム情報を記述した2次元バーコードが存在すると判定された場合は、当該2次元バーコードからフォーム情報を展開し、ステップS1306以降へ処理を進める。まず、展開されたフォーム情報から、未処理のインデックス情報を取得する(ステップS1306)。取得したインデックス情報よりインデックス項目(図11の1102)を抽出し、そのインデックス項目が既にインデックス管理サーバに登録されているか否かを判定する(ステップS1307)。未登録のインデックス項目(新規インデックス項目)の場合は、そのインデックス項目を図5のインデックステーブル500に追加する(ステップS1308)。次いで、上記取得したインデックス情報から領域の位置及びサイズを示す情報(図11の1101)を抽出し、画像データからこの情報によって指定される領域の画像データを抽出する(ステップS1309)。また、同様に展開されたフォーム情報から、文字認識補助情報(図11の1103)を抽出し、抽出した領域画像データに対して、文字認識補助情報によって指定されたモードで文字認識処理を行う(ステップS1310)。例えば複数種類の文字認識処理を用意しておき、文字認識補助情報に基づいて適切な文字認識処理を選択して文字認識を行なうようにしてもよいし、文字認識補助情報に基づいて認識辞書を切り替えるようにしてもよい。
文字認識処理によって得られたテキストデータをインデックスデータとして、関連付けるべきインデックス項目のインデックスIDとともにインデックスデータテーブル501に追加する(ステップS1311)。なお、この新規に追加されるインデックスデータには、これを特定するデータIDが付与され、インデックスデータテーブル501に記録される。
次に、展開されたフォーム情報に次の(未処理の)インデックス情報が存在するか否かを判定する(ステップS1312)。未処理のインデックス情報が存在する場合は、ステップS1306に処理を戻し、上記の処理を繰り返す。未処理のインデックス情報が存在しない場合、つまり、全てのインデックスデータについて抽出処理を完了した場合は、ステップS1313に進み、図4、図5に示した形態で当該文書を登録する。
ステップS1313では、当該画像データをボリュームサーバ部115に、画像データの様々な文書属性を属性管理サーバ部112に記憶する。そして、ステップS1314において、その文書IDとインデックスデータの関連付けを行って(即ち、インデックスデータテーブル501において上記処理により新たに追加されたインデックスデータの文書IDの欄に、当該文書IDを登録する)、処理を終了する(ステップS1315)。
なお、ステップS1302或いはステップS1305によりフォーム情報が存在しないと判定され、インデックス情報の抽出が行なわれていない場合は、ステップS1314の処理はスキップされることになる。また、ステップS1302、或いはS1305においてフォーム情報が存在しないと判定された場合には、手動でインデックス情報を抽出するように動作させてもよい。この場合、例えば、上述した領域分割を実行して図13に類似のユーザインターフェースを提示し、領域とインデックス項目を指示させることにより、インデックス情報を抽出させ、インデックスデータテーブル501に登録するよう構成することができるであろう。
以上説明したように、本実施形態の文書管理システムによれば、帳票などの画像データにフォーム情報、およびインデックスを抽出するための情報を2次元バーコードとして付加し、画像データに合成している。そして、このような合成画像データを用いて紙などの媒体に出力された帳票を光学的に読み取って文書管理システムに記憶、管理させる際には、イメージデータからインデックス情報を自動的に抽出し、記憶することが可能となる。従って、イメージデータ内の情報とインデックス項目をどのように紐付けて作成するかをユーザが予め設定することが不要となり、効率的な登録操作ができ、操作性が著しく向上する
また、上記実施形態によれば、2次元バーコードには、インデックスデータ自体が記録されるのではなく、インデックス情報の抽出の仕方が記録されている。このため、スキャンする原稿の内容が後から変更されたような場合にも、当該原稿を読み取って登録するだけ(例えば、文書IDを指定して更新後の原稿画像を登録すればよい)でインデックスデータの更新を行なうことができる。すなわち、柔軟且つ容易にインデックスデータの更新を行なうことができる。さらに上記実施形態によれば、2次元バーコード内に記憶されたインデックス抽出方法に従い、指定領域に対するインデックス抽出を行うが、これらの指定領域の各々に対して例えば文字種や言語、文字方向などの文字認識のための補助情報を登録している。このため、各指定領域に関して最も適した文字認識モードで文字認識処理を行うことができ、インデックスデータ抽出の精度が向上する。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
実施形態における文書管理システムの全体構成を示すブロック図である。 本装置の文書管理クライアントと文書管理サーバとインデックス管理サーバの機能構成を示すブロック図である。 文書管理サーバの属性記憶部におけるテーブル定義例を示す図である。 文書管理サーバのボリューム記憶部におけるデータ構成例を示す図である。 インデックス管理サーバのインデックス記憶部におけるテーブル定義例を示す図である。 実施形態の文書管理システムにおけるデジタル複合機の構成を示すブロック図である。 デジタル複合機のシステムソフトウェアの機能構成を示すブロック図である。 文書管理クライアントにおける、2次元バーコード付きフォームデータの作成処理を説明するフローチャートである。 定型フォーマットの画像例を示す図である。 領域分割した文書画像例を示す図である。 2次元バーコードの記憶するフォーム情報例を示す図である。 2次元バーコード付き定型フォーマット画像例を示す図である。 文書管理クライアントによる2次元バーコード付きフォームデータの作成処理時のユーザインターフェース例を示す図である。 文書管理クライアントによる文書登録処理を説明するフローチャートである。

Claims (12)

  1. 文書画像データを入力する情報処理装置であって、
    メモリに格納された前記文書画像データを解析して、当該文書画像データが示す文書画像を複数の領域に分割する分割手段と、
    前記複数の領域のうち、文書画像を解析して文字データを抽出する文字認識処理を実行すべき領域の指定をユーザから受け付ける指定手段と、
    前記指定された領域から前記文字認識処理によって得られる文字データと関連付けられるべきインデックス項目設定をユーザから受け付ける設定手段と、
    前記指定された領域を示す情報と前記設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から前記文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を生成する生成手段と、
    前記生成手段で生成されたインデックス抽出情報前記文書画像データに対応するフォーム画像データとを合成することにより、合成画像データを生成しメモリに格納する合成手段とを備え
    前記合成手段は、前記合成画像データが印刷されて前記合成画像データの印刷画像が読み取られた場合に前記インデックス抽出情報が前記印刷画像から抽出されるように、前記合成画像データを生成することを特徴とする情報処理装置。
  2. 前記生成手段は、前記インデックス抽出情報を示すパターンイメージの画像データを生成し、
    前記合成手段は、前記生成手段で生成された画像データと前記フォーム画像データとを合成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記指定された領域を示す情報は、前記文書画像データが示す文書画像中の領域の位置座標と大きさを含むことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記設定手段は、更に文字認識処理のための補助的な情報の設定受け付け可能であり、
    前記インデックス抽出情報は前記補助的な情報を更に含むことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  5. 文書を光学的に読み取って得られた文書画像データより、予め定められた形態で記録されている情報を解析して、ユーザにより指定された領域を示す情報と該領域に対してユーザにより設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を抽出する解析手段と、
    前記解析手段で抽出した前記インデックス抽出情報によってされる領域の画像を前記文書画像データより抽出し、抽出した画像について文字認識処理を実行する認識手段と、
    前記文字認識処理によって得られた文字データを前記インデックス抽出情報によって示されるインデックス項目に対するインデックス情報として、該インデックス情報と前記文書画像データを登録する登録手段とを備えることを特徴とする情報処理装置。
  6. 前記解析手段は、文書を光学的に読み取って得られた文書画像データより予め定められた形態のパターンイメージを取得し、該パターンイメージを解析して前記インデックス抽出情報を抽出することを特徴とする請求項に記載の情報処理装置。
  7. 前記インデックス抽出情報は更に文字認識処理に関する補助情報を含み、
    前記認識手段は、前記補助情報に基づいて、使用する文字認識処理を切り替えることを特徴とする請求項に記載の情報処理装置。
  8. 入力された文書画像データを解析して、当該文書画像データが示す文書画像を複数の領域に分割する分割手段と、
    前記複数の領域のうち、文書画像を解析して文字データを抽出する文字認識処理を実行すべき領域の指定をユーザから受け付けるためのユーザインターフェースを提示する提示手段と、
    前記提示手段により提示されたユーザインターフェースを介して指定された領域から前記文字認識処理によって得られる文字データと関連付けられるべきインデックス項目の設定をユーザから受け付けるためのユーザインターフェースを提示する設定手段と、
    前記指定された領域を示す情報と前記設定手段により提示されたユーザインターフェースを介して設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から前記文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を生成する生成手段と、
    前記生成手段により生成されたインデックス抽出情報と前記文書画像データに対応するフォーム画像データとを合成することにより、合成画像データを生成する合成手段とを備え、
    前記合成手段は、前記合成画像データが印刷されて前記合成画像データの印刷画像が読み取られた場合に前記インデックス抽出情報が前記印刷画像から抽出されるように、前記合成画像データを生成することを特徴とする情報処理装置。
  9. 情報処理装置による情報処理方法であって、
    分割手段が、入力された文書画像データを解析して、当該文書画像データが示す文書画像を複数の領域に分割する分割工程と、
    提示手段が、前記複数の領域のうち、文書画像を解析して文字データを抽出する文字認識処理を実行すべき領域の指定をユーザから受け付けるためのユーザインターフェースを提示する提示工程と、
    設定手段が、前記提示工程で提示されたユーザインターフェースを介して指定された領域から前記文字認識処理によって得られる文字データと関連付けられるべきインデックス項目の設定をユーザから受け付ける設定工程と、
    生成手段が、前記指定された領域を示す情報と前記設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から前記文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を生成する生成工程と、
    合成手段が、前記生成工程で生成されたインデックス抽出情報前記文書画像データに対応するフォーム画像データとを合成することにより、合成画像データを生成する合成工程とを有し、
    前記合成工程では、前記合成画像データが印刷されて前記合成画像データの印刷画像が読み取られた場合に前記インデックス抽出情報が前記印刷画像から抽出されるように、前記合成画像データを生成することを特徴とする情報処理方法。
  10. 情報処理装置による情報処理方法であって、
    解析手段が、入力された文書画像データより、予め定められた形態で記録されている情報を解析して、ユーザにより指定された領域を示す情報と該領域に対してユーザにより設定されたインデックス項目を示す情報とを含み、かつ前記指定された領域から文字認識処理によって得られる文字データと前記設定されたインデックス項目とが関連付けられるべきことを示すインデックス抽出情報を抽出する解析工程と、
    認識手段が、前記解析工程で抽出した前記インデックス抽出情報によってされる領域の画像を前記文書画像データより抽出し、抽出した画像について文字認識処理を実行する認識工程と、
    登録手段が、前記文字認識処理によって得られた文字データを前記インデックス抽出情報によって示されるインデックス項目に対するインデックス情報として、該インデックス情報と前記文書画像データを登録する登録工程とを有することを特徴とする情報処理方法。
  11. 請求項9または10に記載の情報処理方法をコンピュータに実行させるためのプログラム。
  12. 請求項9または10に記載の情報処理方法をコンピュータに実行させるためのプログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2005021824A 2005-01-28 2005-01-28 情報処理装置及び情報処理方法 Expired - Fee Related JP4455357B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005021824A JP4455357B2 (ja) 2005-01-28 2005-01-28 情報処理装置及び情報処理方法
US11/275,674 US7930292B2 (en) 2005-01-28 2006-01-24 Information processing apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005021824A JP4455357B2 (ja) 2005-01-28 2005-01-28 情報処理装置及び情報処理方法

Publications (3)

Publication Number Publication Date
JP2006209542A JP2006209542A (ja) 2006-08-10
JP2006209542A5 JP2006209542A5 (ja) 2007-02-08
JP4455357B2 true JP4455357B2 (ja) 2010-04-21

Family

ID=36757910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005021824A Expired - Fee Related JP4455357B2 (ja) 2005-01-28 2005-01-28 情報処理装置及び情報処理方法

Country Status (2)

Country Link
US (1) US7930292B2 (ja)
JP (1) JP4455357B2 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8184155B2 (en) 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8144921B2 (en) 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US9495385B2 (en) 2004-10-01 2016-11-15 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8086038B2 (en) 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8195659B2 (en) 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP4856467B2 (ja) * 2006-05-01 2012-01-18 株式会社日立製作所 ストレージ資源管理システム、ストレージ資源管理方法および管理計算機
US8073263B2 (en) * 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8396909B1 (en) * 2007-04-12 2013-03-12 United Services Automobile Association (Usaa) Electronic file management hierarchical structure
US8375072B1 (en) * 2007-04-12 2013-02-12 United Services Automobile Association (Usaa) Electronic file management hierarchical structure
US9760839B1 (en) 2007-07-25 2017-09-12 United Services Automobile Association (Usaa) Electronic recording statement management
JP5159345B2 (ja) * 2007-09-03 2013-03-06 キヤノン株式会社 埋め込み方式のコードを扱う装置、方法、プログラム
US8144988B2 (en) * 2007-09-06 2012-03-27 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8194982B2 (en) * 2007-09-18 2012-06-05 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP5064994B2 (ja) * 2007-12-20 2012-10-31 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
JP2009218793A (ja) * 2008-03-10 2009-09-24 Seiko Epson Corp 画像処理装置
JP5111242B2 (ja) * 2008-06-04 2013-01-09 キヤノン株式会社 画像処理装置及び方法
CN102257522B (zh) * 2008-12-17 2015-06-03 汤姆森特许公司 数据管理装置、数据管理方法及数据管理程序
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US9013750B2 (en) * 2009-06-25 2015-04-21 Canon Kabushiki Kaisha Image processing for processing image data in correspondence with each pixel of an image
US8976411B2 (en) 2009-07-01 2015-03-10 Canon Kabushiki Kaisha Image processing in correspondence with each pixel of an image
US8934134B2 (en) * 2009-07-02 2015-01-13 Canon Kabushiki Kaisha Image processing based on pixel and attribute values
US9635218B2 (en) 2009-07-03 2017-04-25 Canon Kabushiki Kaisha Image processing based on a pixel value in image data
JP2011123598A (ja) * 2009-12-09 2011-06-23 Canon Inc 原稿判別装置、原稿判別方法及びプログラム
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
JP2014112302A (ja) * 2012-12-05 2014-06-19 Ricoh Co Ltd 所定領域管理システム、通信方法、及びプログラム
JP2015143972A (ja) * 2013-12-27 2015-08-06 株式会社リコー 情報処理システム、機器、情報処理装置、情報処理方法、プログラム、及び記録媒体
JP6705620B2 (ja) * 2014-10-10 2020-06-03 コニカミノルタ株式会社 履歴生成装置、履歴生成方法及びプログラム
JP6736306B2 (ja) * 2016-02-19 2020-08-05 キヤノン株式会社 印刷システム、画像形成装置、印刷システムの制御方法、画像形成装置の制御方法、及びプログラム
JP2017175524A (ja) * 2016-03-25 2017-09-28 株式会社日立ドキュメントソリューションズ 文書管理システムおよびイメージデータ管理方法
CN106021215A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种财税数据的自动抽取方法及系统
JP6852544B2 (ja) * 2017-04-26 2021-03-31 ブラザー工業株式会社 プログラム、情報処理装置、及びシステム
JP7292988B2 (ja) 2019-06-17 2023-06-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US11556502B2 (en) * 2020-02-28 2023-01-17 Ricoh Company, Ltd. Intelligent routing based on the data extraction from the document
EP3933678A1 (en) 2020-06-30 2022-01-05 Ricoh Company, Ltd. Information processing system, data output system, image processing method, and carrier means
JP7124859B2 (ja) * 2020-06-30 2022-08-24 株式会社リコー データ出力システム、情報処理システム、データ出力方法、プログラム
US20220405499A1 (en) * 2021-06-18 2022-12-22 Jpmorgan Chase Bank, N.A. Method and system for extracting information from a document

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216932A (ja) 1992-02-03 1993-08-27 Hitachi Ltd 情報管理システム
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5416849A (en) * 1992-10-21 1995-05-16 International Business Machines Corporation Data processing system and method for field extraction of scanned images of document forms
JPH06223113A (ja) 1993-01-22 1994-08-12 Toshiba Corp 電子ファイリング装置
US5889896A (en) * 1994-02-09 1999-03-30 Meshinsky; John System for performing multiple processes on images of scanned documents
US6216142B1 (en) * 1997-06-03 2001-04-10 Fuji Photo Film Co., Ltd. Desk top publishing method of laying parts on leaf pattern and method of displaying leaf pattern
GB2364513B (en) * 1998-12-23 2003-04-09 Kent Ridge Digital Labs Method and apparatus for protecting the legitimacy of an article
JP2000215210A (ja) 1999-01-21 2000-08-04 Yoshiro Mizuno 2次元バ―コ―ドシステム
US6470336B1 (en) * 1999-08-25 2002-10-22 Matsushita Electric Industrial Co., Ltd. Document image search device and recording medium having document search program stored thereon
JP2001084254A (ja) 1999-09-10 2001-03-30 Toshiba Corp 電子ファイリングシステムおよびファイリング方法
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
JP3694888B2 (ja) * 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US20010037297A1 (en) * 2000-03-09 2001-11-01 Mcnair Edward Parry Bill paying with the aid of a scanner
US20030195896A1 (en) * 2002-04-15 2003-10-16 Suda Aruna Rohra Method and apparatus for managing imported or exported data
JP4241053B2 (ja) * 2003-01-14 2009-03-18 株式会社日立製作所 コミュニケーションシステムおよびその端末装置
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7729990B2 (en) * 2003-05-28 2010-06-01 Stephen Michael Marceau Check image access system
KR100533671B1 (ko) * 2003-06-05 2005-12-05 삼성전자주식회사 효율적인 멀티미디어 컨텐츠 관리 장치 및 방법
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
WO2005057362A2 (en) * 2003-12-08 2005-06-23 Notable Solutions, Inc. Systems and methods for data interchange among autonomous processing entities
US7363294B2 (en) * 2003-12-19 2008-04-22 Fuji Xerox Co., Ltd. Indexing for contextual revisitation and digest generation
JP4335726B2 (ja) * 2004-03-30 2009-09-30 富士通株式会社 画面に表示されたデータを介して異なるアプリケーションで連携を行う方法およびプログラム
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
JP2006011550A (ja) * 2004-06-22 2006-01-12 Sony Corp 協調フィルタリングによる情報伝送システム、これに用いる情報処理装置及び情報処理装置に用いるプログラム
US20060036649A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
JP4081056B2 (ja) * 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP4895347B2 (ja) 2004-12-02 2012-03-14 キヤノン株式会社 文書管理システム及びその制御方法
JP2006301975A (ja) 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム

Also Published As

Publication number Publication date
US7930292B2 (en) 2011-04-19
JP2006209542A (ja) 2006-08-10
US20060173904A1 (en) 2006-08-03

Similar Documents

Publication Publication Date Title
JP4455357B2 (ja) 情報処理装置及び情報処理方法
US8326090B2 (en) Search apparatus and search method
JP4890212B2 (ja) スキャン画像管理装置
JP4533027B2 (ja) 印刷装置、及び、印刷装置の制御方法
JP4405793B2 (ja) 文書管理システム及びその制御方法並びに記録媒体
JP4623469B2 (ja) プリントサーバおよびプリントシステムおよびプリント方法およびプログラムおよび記録媒体
JP5660100B2 (ja) 文書管理サーバ、文書管理サーバの制御方法、およびそのプログラム、文書管理システム、文書管理システムの制御方法、およびそのプログラム
JP5061151B2 (ja) オブジェクト取得装置、オブジェクト管理システム、オブジェクト管理方法
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
JP4095458B2 (ja) 文書管理装置、文書管理装置の制御方法、記憶媒体、プログラム
US20090225365A1 (en) Information processing apparatus, image processing apparatus, method for controlling information processing apparatus, method for controlling image processing apparatus, and program
JP2001337994A (ja) サムネイル表示システムと方法およびその処理プログラムを記録した記録媒体
JP5747344B2 (ja) 文書管理システム、文書管理サーバ及びその制御方法、プログラム
JP2006331274A (ja) ネットワーク文書管理システム、及びその制御方法、並びに記憶媒体
JP2004214991A (ja) 文書画像データ管理システム、文書画像データ管理プログラム、文書画像データ管理装置及び文書画像データ管理方法
JP2006229305A (ja) ネットワーク文書管理システム
JP7154982B2 (ja) 情報処理装置、制御方法、及びプログラム
JPH10240724A (ja) 文書管理装置及びシステム及び方法
JP2009093627A (ja) 文書画像データ提供システム、文書画像データ提供装置、情報処理装置、文書画像データ提供方法、情報処理方法、文書画像データ提供プログラム、情報処理プログラム
JP2003308325A (ja) データ登録装置、データ登録方法、データ登録プログラムおよび記録媒体
JP2010092141A (ja) 画像処理システム、画像読取装置、画像処理装置および画像処理プログラム
JP2006203317A (ja) 文書管理システム、及びその制御方法、並びに記憶媒体
JP5057480B2 (ja) 画像形成装置、画像形成方法、プログラム、プログラムを記憶した記憶媒体
JP2019091378A (ja) 情報処理装置、制御方法、及びプログラム
JP2017059008A (ja) 書込画像記録装置、書込画像記録方法、およびコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees