JP2007041709A

JP2007041709A - 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体

Info

Publication number: JP2007041709A
Application number: JP2005223187A
Authority: JP
Inventors: Tomoshi Yoshida; 知史吉田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-08-01
Filing date: 2005-08-01
Publication date: 2007-02-15

Abstract

【課題】文書蓄積に適したカラー画像に対してＯＣＲ処理をすると認識精度が悪くなることがあった。また、異なる処理を行わせるために、その都度、ユーザがスキャン条件を設定し直して読取り処理を行わせるのは、ユーザの大きな負荷になってしまっていた。
【解決手段】本発明では、文書を読み取って得た生の画像データから、当該文書の種類を保存するのに適した第１の画像データ（Ｓ８）と、当該文書を文字認識するのに適した第２の画像データ（Ｓ９）とを生成するように構成した。また、２次元バーコードなどの識別子に応じて、文書の種類に対応する画像データを生成できるようにした（Ｓ６，Ｓ７）。
【選択図】図４

Description

本発明は、帳票等の原稿を電子データとして蓄積・保管する技術に関するものである。

これまで紙として保管することが義務づけられた請求書、領収書等の帳票原稿を、法令等によって電子化して保存・保管することが可能になってきている。従って、今後、紙文書から電子化文書への変換時の真正性（紙文書からスキャンされた文書で、画像情報に改竄等がないこと示す）を画像情報で視覚的に表現し、人的に目視で確認するため、カラー画像による電子化文書保存が今後必須要件となりうる。

一方、保管されている電子化データの検索、閲覧を可能とするために、インデックス情報を生成し、そのインデックスと関連付けて当該電子データを保管・保存することが必要になる。インデックス情報を生成する方法としては、その読取った原稿画像をＯＣＲ処理して抽出することが知られている（特許文献１）。

また、原稿を電子データとして保存する場合、その原稿が推奨する読取りモード（読取り解像度や、階調数等）で読取り、電子化することが望ましい（特許文献２）。これには、この読取りモードの設定手法の一つとして、例えば、原稿に記載されたバーコードとマーク欄のマークとに基づいて、スキャナの読取モードを選択すること（読み取り解像度の選択や、両面／片面の選択など）が記載されている。
特開平０８−２０２７３１号公報特開平０５−３２８０６５号公報

前述したように、紙文書から電子化文書への変換時の真正性が確認できるような画像を生成する際は、修正液や消しゴム等で修正した形跡などを残し、その形跡の有無をユーザが判別しやすい画像を生成することが望まれる。そのためには、スキャナのセンサで読み取った信号（生データ）に対して、ノイズ除去などを行わないようにして、原稿に忠実なカラー画像（修正痕の有無を判別しやすいカラー画像）を生成することが望まれる。また、原稿の種類によっては、色を濃い目に調整したカラー画像を生成することが望まれることがある（例えば、薄い色の背景を見やすくするような場合など）。しかしながら、このようにして生成されたカラー画像を２値化してＯＣＲ処理した場合、該２値化して得た画像には結果的にノイズが多くなってしまうので、ノイズの影響を受けるなどして認識精度が悪くなってしまう。

本発明はかかる問題点に鑑みなされたものであり、原稿の読み取りから保存までの処理を自動化し、また、原稿読み取りに係る設定作業等のユーザ負担を軽減させる技術を提供しようとするものである。

また、本発明では、文書保存に適したカラー画像（修正痕等を判別しやすいカラー画像）を２値化するのではなく、スキャナで読み取った信号（生データ）から直接、ＯＣＲ処理に適した２値画像を生成する。

かかる課題を解決するため、例えば、本発明の文書処理システムは以下の構成を備える。すなわち、
文書を読み取る読取手段と、
前記読取手段で文書を読み取って得た生の画像データから、当該文書の種類を保存するのに適した第１の画像データと、当該文書を文字認識するのに適した第２の画像データとを生成する生成手段とを有する。

本発明によれば、スキャナ等で読み取った生の画像データから直接、文書蓄積に適した画像データと、文字認識に適した画像データとを生成できるようにしたので、文字認識精度があがるとともに、電子文書法等に適応した画像データも作成することができる。

また、本発明によれば、蓄積対象となる原稿の種類に応じた原稿読み取りモードを設定操作をしなくても、一度のスキャン操作で複数種類の読み取りモードで読取った画像を生成することが可能となり、操作環境を簡略化させ、一連の処理をスムーズに実行できる。

以下、添付図面に従って本発明に係る実施形態を詳細に説明する。

図１は実施形態におけるシステム構成図である。図中、１は原稿を読取るスキャナ装置であり、２はスキャナ装置１を接続し、スキャナ装置１のドライバ、原稿画像の登録に関するアプリケーションプログラムがインストールされた文書入力装置である。３は大容量の記憶装置を有し、電子化された文書を保存し、ネットワークからの要求に応じて検索処理する文書管理サーバである。４は文書管理サーバ３に対する検索要求を行ない、その検索結果を表示出力する文書検索端末装置である。

なお、文書入力装置２、文書管理サーバ３、及び、文書検索端末装置４は、ハードウェア的にはパーソナルコンピュータ（ＰＣ）で構築されているものとする。ただし、文書入力装置２については、以下に説明する機能を実現できれば良く、例えばスキャナを搭載した複合機でもって構成しても構わない。

図２は文書入力装置２がＰＣで構成されている場合のブロック構成図である。図中、１０１は装置全体の制御を司るＣＰＵであり、１０２はＢＩＯＳやブートプログラムを格納しているＲＯＭである。１０３はＣＰＵ１０１のワークエリアとして使用されるＲＡＭである。ＣＰＵ１０１は、ＯＳやスキャナドライバ、ネットワークドライバ、実施形態における文書入力アプリケーションプログラム等の各種ソフトウェアを、このＲＡＭ１０３にロードし、実行することで、文書入力装置として機能することになる。１０４はハードディスク装置（ＨＤＤ）であり、ＯＳや各種ソフトウェア（実施形態における文書入力アプリケーションを含む）や、フォーム辞書（詳細後述）が格納されている。

１０５はキーボード（ＫＢ）やマウス等のポインティングデバイス（ＰＤ）であり、ユーザインターフェースの一部として機能する。１０６は表示制御部であり、ＣＰＵ１０１の制御下で、内蔵のビデオメモリ（不図示）への描画処理、及び、ビデオメモリからイメージデータを読出し、映像信号として出力する。１０７は表示制御部１０６からの映像信号を入力し、表示する表示装置であって、一般にはＣＲＴ、液晶表示器である。１０８はスキャナ１と通信するためのスキャナインターフェース（Ｉ／Ｆ）であり、一般的には、ＳＣＳＩインターフェース、ＵＳＢインターフェース等である。１０９はネットワークとの通信を行うネットワークＩ／Ｆである。

上記構成において、本文書入力装置２に電源を投入すると、ＣＰＵ１０１はＲＯＭ１０２のブートプログラムを実行し、ＨＤＤ１０４からＯＳをＲＡＭ１０３にロードする。そして、実施形態における文書入力アプリケーションを、ＨＤＤ１０４からＲＡＭ１０３にロードし実行することで、本装置が本文書入力装置２として機能することになる。

なお、文書検索端末装置４における検索は、通常の文書検索と実質的に同じであるので、その説明は省略する。

図３は実施形態における文書入力装置２を中心とする、原稿画像の入力から文書管理サーバ４への登録に係るデータの流れを示している。また、図４は文書入力装置２上で実行する文書入力アプリケーションとスキャナ装置とによってなされる処理手順を示すフローチャートである。以下、図３を参照にしながら、図４のフローチャートの処理を説明する。

操作者は原稿をスキャナ装置１にセットし、本文書入力アプリケーションを起動する。そして、操作者が文書入力の開始指示をポインティングデバイス等で指示すると、ステップＳ１にて帳票読み取りモードをスキャナ装置１にセットする。この帳票読み取りモードとは、実施形態における文書管理サーバに登録する全帳票の種類における、それぞれの推奨解像度の最大解像度であり、多値カラー画像として読取るものである。例えば、扱う帳票の種類が３種類存在し、それぞれの読取り解像度が３００ｄｐｉ、４００ｄｐｉ、６００ｄｐｉであった場合には、６００ｄｐｉで読取るようにする。この帳票読み取りモードにおける解像度は、本アプリケーションの設定画面で設定・登録するものとする。以下の説明での帳票読み取りモードでの読取り解像度は６００ｄｐｉとして説明を続ける。

次いで、ステップＳ２に進んで、スキャン開始コマンドを、スキャナ装置１に発行し、原稿画像の読み取りを開始させる。この結果、スキャナ装置１からは設定した条件に従って原稿画像データ（画像処理を行っていない生データ）が転送されてくるので、ステップＳ３でそれを受信し、ＲＡＭ１０３に一時的に格納する。

次いで、ステップＳ４に進んで、ＲＡＭ１０３に格納された原稿画像データから、２次元バーコードが抽出できたか否か（２次元バーコードがあるか否か）を判定する。画像から２次元バーコードを抽出する処理は、既に多くの技術が知られているので、その詳細な説明は省略する。また本実施形態では２次元バーコードを用いることとしたが、その他の識別子であっても構わない。

２次元バーコードが存在しないと判定した場合には、ステップＳ５で文書管理サーバ３に登録すべき原稿ではないとして、エラー表示し、本処理を終える。

一方、２次元バーコードが存在すると判定した場合には、ステップＳ６において、その２次元バーコードを解析し、それに格納された情報を抽出する。実施形態では、２次元バーコードには、帳票の種類を識別するためのフォームＩＤ情報、帳票を読取る際のスキャナモード情報（解像度、モノクロ／カラー、多値／２値、濃度調整など）、登録する際のフォーマット情報（構造化文書にするか否かを示す情報）が含まれているものとする。なお、スキャナモード情報は、例えば、各帳票に対応する電子文書法などの法律に適用したモードである。

ステップＳ７では、解析した結果からスキャナモード情報を取得し、ステップＳ８にて、ＲＡＭ１０３に一時的に格納された原稿画像データから、取得したスキャナモードで読取ったのと同じ条件の画像を生成し、それをＨＤＤ１０４に格納する。例えば、２次元バーコードを解析して得られたスキャナモードが「３００ｄｐｉ、多値カラー画像、背景のノイズ除去無し」を示す場合には、ＲＡＭに格納された生の画像データを間引き処理し、背景に存在するノイズの除去は行わずに生成する。

なお、スキャナモードに従って生成した画像データをＨＤＤ１０４に格納するとしたが、ＲＡＭ１０３が十分な容量があれば、格納先はＲＡＭ１０３でも構わない。

次いで、ステップＳ９に進み、先のステップＳ３の処理で格納した生のカラー画像データからＯＣＲ処理に適した画像を生成する。ＯＣＲ処理用の画像データとしては、例えば、３００ｄｐｉ、モノクロ２値、背景ノイズ除去有り、程度で十分であるが、背景画像がノイズにならないように且つ文字画像が鮮明になるように画像処置を適用する。このＯＣＲ処理用の画像データについても、文書入力アプリケーションにおける環境設定にて設定登録しておくものとする。ただし、ＯＣＲ用の解像度は、帳票読み取りモードにおける解像度より高くはできない。また、余り解像度を高くすると、ＯＣＲ処理にかかる時間が増えてしまい、効率が良いとは言えない。例えば、上述したように３００ｄｐｉで十分であろう。

次に、ステップＳ１０において、２次元バーコードから抽出したフォーマット情報に基づき、原稿画像を構造化文書（例えばＸＭＬ文書）にするか否かを判断する。

構造化文書にしないと判断した場合には、ステップＳ１１に進み、２次元バーコードからフォームＩＤ（帳票を特定する情報）を抽出する。そして、ステップＳ１２にて、そのフォームＩＤをキーにして、ＨＤＤ１０４に予め格納されたフォーム辞書を検索する。このフォーム辞書は、フォームＩＤと、そのフォーム上のＯＣＲ処理するべき矩形領域（座標位置情報と水平、垂直方向のサイズ）が格納されている。また、１つのフォームに対する矩形領域は１つとは限らず、複数存在し得る。この結果、注目原稿中のＯＣＲすべきエリアが決定できる。次にステップＳ１３において、先のステップＳ９で生成したＯＣＲ用の画像中から該当する各エリア内の文字認識を行ない、各エリア毎の文字認識して得られた文字列（文字コード群）を抽出する。

次いで、ステップＳ１４において、ＯＣＲ処理して得られた各エリアの文字列（インデックス情報となる）、ステップＳ８で保存したスキャナモード用の画像データ、及び、登録要求コマンドを文書管理サーバ３に送信し、登録させる。各エリア内の文字列は、各エリアに対応するインデックス情報（属性情報）として登録されることになる。

一方、ステップＳ１０にて、構造化文書とすることを決定した場合には、ステップＳ１５に進む。ステップＳ１５では、先のステップＳ９で生成されたＯＣＲ用画像の全域についてＯＣＲ処理を行う。

次にステップＳ１６にて、ステップＳ８で一時保存した、スキャナモード用のカラー画像からイメージ部分を抽出し、またイメージ部とテキスト部との構造を解析して、構造化文書を作成する。構造化文書は、イメージ部とテキスト部とで構成され、そのイメージ部には、スキャナモード用のカラー画像から抽出したイメージを挿入する。

次いで、ステップＳ１７にて、ステップＳ１６で作成した構造化文書のテキスト部に、先のステップＳ１５で得られた全文ＯＣＲによるテキストデータを挿入する。

この結果、画像データ、及び、その全文ＯＣＲして得られたテキストで構成される１つの構造化文書が出来上る。従って、別途インデックスを文書管理サーバ３に保存しなくても、構造化文書のテキスト部を参照することで、文書検索端末装置４から検索が可能になる。

ステップＳ１８では、上記のようにして作成された構造化文書ファイルを、登録要求コマンドと共に、文書管理サーバ３に送信し、登録を行わせる。

以上説明したように本実施形態によれば、原稿（帳票）の種類に限らず、１回の原稿読み取りでもって、しかも、その読取に際しては格別な知識がなくても、その原稿の意図したスキャナモードの画像データを文書管理サーバ３に登録することが可能になる。また、検索する際に用いるキーワードとなるテキストについては、ＯＣＲ処理に適した画像を内部的に生成した上でＯＣＲ処理を行うので、十分な認識精度で、且つ、効率良くＯＣＲ処理が行える。また、所定の帳票の場合には、全文が検索対象として登録されるので、様々なキーワードでもって検索することが可能となり、ＯＣＲ処理による誤認識の影響も少なくできる。

なお、実施形態では、図１の構成のように、文書入力装置２とスキャナ１がケーブル接続された形態で説明した。しかしながら、本発明はこの構成に限るものではなく、文書入力装置とスキャナとが一体型の装置（例えばコピーなどが可能な複合機など）において実現するようにしても構わない。

また、上述した実施形態では、スキャナから送信されてきた生の画像データから、電子文書法などの法律の条件を満たすようにして文書保存に適したカラー画像と、ＯＣＲに適した画像とを、文書入力装置において生成することとした。しかしながら、これに限るものではなく、スキャナ装置において、２次元バーコードを解析して、文書保存に適したカラー画像とＯＣＲに適した画像とを生成した後、各画像を文書入力装置に送信するようにしてもよい。

また、文書入力装置、文書管理サーバ、文書検索端末装置は、同一の情報処理装置で実現しても構わない。

また、実施形態の主要部分は上記の通り文書入力装置にあり、文書入力アプリケーションプログラムによるものであることも説明した。すなわち、本発明は、コンピュータプログラムでもって実現できるものである。また、通常、アプリケーションプログラムでＣＤ−ＲＯＭ等のコンピュータ可読記憶媒体に格納されていて、その記憶媒体をコンピュータにセットして、システムにコピーもしくはインストールすることで実行可能になる。従って、かかるコンピュータ可読記憶媒体も本発明の範疇に入るのは明らかである。

実施形態におけるシステム構成図である。実施形態における文書入力装置のブロック構成図である。実施形態における文書入力装置を中心とする処理の概要を示す図である。実施形態における文書入力装置の処理手順を示すフローチャートである。

Claims

文書を読み取る読取手段と、
前記読取手段で文書を読み取って得た生の画像データから、当該文書の種類を保存するのに適した第１の画像データと、当該文書を文字認識するのに適した第２の画像データとを生成する生成手段と、
を有することを特徴とする文書処理システム。
前記生成手段は、前記文書の画像データに含まれる識別子に基づいて、前記文書の種類に対応する前記第１の画像データを生成することを特徴とする請求項１に記載の文書処理システム。
前記生成手段で生成された第２の画像データを用いて、文字認識処理を実行する文字認識手段と、
前記第１の画像データと前記文字認識処理手段による文字認識結果とに基づいて、当該文書の電子データを蓄積手段に保存するように制御する保存手段と、
を備えることを特徴とする請求項１または２のいずれかに記載の文書処理システム。
前記読取手段を備える読取り装置と、
前記生成手段と前記文字認識手段と前記保存手段とを備える文書処理装置とによって構成されることを特徴とする請求項３に記載の文書処理システム。
前記読取手段と前記生成手段とを備える読取り装置と、
前記文字認識手段と前記保存手段とを備える文書処理装置とによって構成されることを特徴とする請求項３に記載の文書処理システム。
前記保存手段は、前記第１の画像データと前記文字認識処理手段による文字認識結果とに基づいて、当該文書の構造化電子データを生成して前記蓄積手段に保存するように制御することを特徴とする請求項３に記載の文書処理システム。
前記保存手段は、前記文字認識処理手段による文字認識結果を属性情報として、前記第１の画像データとともに前記蓄積手段に保存するように制御することを特徴とする請求項３に記載の文書処理システム。
文書を読み取る読取手段を有する文書処理システムを制御するための制御方法であって、
前記読取手段で文書を読み取って得た生の画像データから、当該文書の種類を保存するのに適した第１の画像データと、当該文書を文字認識するのに適した第２の画像データとを生成する生成工程を有することを特徴とする文書処理システムの制御方法。
文書を読み取る読取手段を有する文書処理システムを制御するためのコンピュータ実行可能なコンピュータプログラムであって、
前記読取手段で文書を読み取って得た生の画像データから、当該文書の種類を保存するのに適した第１の画像データと、当該文書を文字認識するのに適した第２の画像データとを生成する生成工程をコンピュータに実行させるためのプログラムコードを含むことを特徴とするコンピュータプログラム。
請求項９に記載のコンピュータプログラムを格納したことを特徴とするコンピュータ可読記憶媒体。
原稿をカラー画像として読取る読取り手段を備え、当該読取り手段で読取った原稿画像を所定の蓄積装置に蓄積する文書処理装置であって、
蓄積すべき原稿の種類毎の読取りモードを包含する読み取りモードを設定し、前記読取り手段で原稿を読取る読取り制御手段と、
該読取り制御手段で読取って得られたカラー原稿画像データ中の２次元バーコードを解析する解析手段と、
該解析手段の解析結果から、原稿の読み取りモード情報を抽出する読取りモード抽出手段と、
該読取りモード抽出手段で抽出された読取りモード情報に対応する画像データを、前記読取り制御手段で読取った原稿画像データから生成する画像生成手段と、
該画像生成手段で生成された画像データを前記蓄積装置に保存する保存手段と
を備えることを特徴とする文書処理装置。
更に、前記読取り制御手段で得られたカラー原稿画像データから、所定解像度のモノクロ２値画像を生成する２値画像生成手段と、
該２値画像生成手段で生成された２値画像データに対して文字認識を行う文字認識手段とを備え、
前記保存手段は、前記文字認識手段で認識された文字列を、前記画像生成手段で生成された画像データと対応づけて保存することを特徴とする請求項１１に記載の文書処理装置。
更に、原稿の種類毎に、文字認識すべき領域情報を記憶する記憶手段と、
前記解析手段の解析結果から、構造化文書として登録するか否かを示す情報を抽出する登録様式情報抽出手段と、
前記解析手段の解析結果から、原稿の種類を特定する情報を抽出する原稿種類情報抽出手段とを備え、
前記文字認識手段は、
前記登録様式情報抽出手段により構造化文書として登録する情報が抽出された場合、前記２値画像生成手段で生成された２値画像全域について文字認識し、
非構造化文書を示す情報が抽出された場合には、原稿種類情報抽出手段で得られた原稿種別情報で示される文字認識すべき領域情報を前記記憶手段から取得し、取得した領域情報内について文字認識する
ことを特徴とする請求項１２に記載の文書処理装置。
前記蓄積手段は、ネットワーク上の文書画像を蓄積管理するサーバであることを特徴とする請求項１１に記載の文書処理装置。
原稿をカラー画像として読取る読取り手段を備え、当該読取り手段で読取った原稿画像を所定の蓄積装置に蓄積する文書処理装置の制御方法であって、
蓄積すべき原稿の種類毎の読取りモードを包含する読み取りモードを設定し、前記読取り手段で原稿を読取る読取り制御工程と、
該読取り制御工程で読取って得られたカラー原稿画像データ中の２次元バーコードを解析する解析工程と、
該解析工程の解析結果から、原稿の読み取りモード情報を抽出する読取りモード抽出工程と、
該読取りモード抽出工程で抽出された読取りモード情報に対応する画像データを、前記読取り制御工程で読取った原稿画像データから生成する画像生成工程と、
該画像生成工程で生成された画像データを前記蓄積装置に保存する保存工程と
を備えることを特徴とする文書処理装置の制御方法。
原稿をカラー画像として読取る読取り手段を備え、当該読取り手段で読取った原稿画像を所定の蓄積装置に蓄積する文書処理装置として機能させるためのコンピュータプログラムであって、
蓄積すべき原稿の種類毎の読取りモードを包含する読み取りモードを設定し、前記読取り手段で原稿を読取る読取り制御手段と、
該読取り制御手段で読取って得られたカラー原稿画像データ中の２次元バーコードを解析する解析手段と、
該解析手段の解析結果から、原稿の読み取りモード情報を抽出する読取りモード抽出手段と、
該読取りモード抽出手段で抽出された読取りモード情報に対応する画像データを、前記読取り制御手段で読取った原稿画像データから生成する画像生成手段と、
該画像生成手段で生成された画像データを前記蓄積装置に保存する保存手段
として機能させるためのプログラムコードを含むことを特徴とするコンピュータプログラム。
請求項１６に記載のコンピュータプログラムを格納したことを特徴とするコンピュータ可読記憶媒体。
スキャナ装置と、文書画像蓄積サーバと、前記スキャナ装置で読取った原稿画像を前記文書画像蓄積サーバに送信する文書入力装置とで構成される文書処理システムであって、
蓄積すべき原稿の種類毎の読取りモードを包含する読み取りモードを設定し、前記スキャナ装置を制御し、原稿を読取る読取り制御手段と、
該読取り制御手段で読取って得られたカラー原稿画像データ中の２次元バーコードを解析する解析手段と、
該解析手段の解析結果から、原稿の読み取りモード情報を抽出する読取りモード抽出手段と、
該読取りモード抽出手段で抽出された読取りモード情報に対応する画像データを、前記読取り制御手段で読取った原稿画像データから生成する画像生成手段と、
該画像生成手段で生成された画像データを、前記文書画像蓄積サーバに蓄積させるために送信する送信手段と
を備えることを特徴とする文書処理システム。