JP2006172083A

JP2006172083A - 文書登録システム

Info

Publication number: JP2006172083A
Application number: JP2004362916A
Authority: JP
Inventors: Tomoshi Yoshida; 知史吉田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-12-15
Filing date: 2004-12-15
Publication date: 2006-06-29

Abstract

【課題】インデックスデータの作成をなるべく自動で行なうとともに、インデックスデータの精度を上げるようにする。
【解決手段】本発明は、入力された原稿画像を文字認識し、当該認識結果情報をインデックスデータとして登録する文書登録システムで、前記認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックし、前記認識結果が言語ＤＢに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する。
【選択図】図１０

Description

本発明は、スキャナなどから読み取った画像から、自動でインデックスデータを作成することが可能な文書登録システムに関するものである。

従来の文書管理では、原稿からエリアを切り出し、切り出した部分に対してＯＣＲ処理を行い、インデックスデータとして使用する技術が提案されていた。
特開平０８−３０５７３１号公報

ＯＣＲ処理を行った結果に対して、言語ＤＢを参照し、インデックスデータとして妥当かどうかを判断することが考えられる。しかしながら、言語ＤＢのデータを参照する場合、そのＯＣＲ結果が正しいものであるという前提があり、ＯＣＲ結果が一般的な言語でなかった場合には言語ＤＢの参照結果は偽であり、その時点で、オペレータの手動操作による補正操作が必要とされる。

一般に、ＯＣＲ処理についての実際を考察した場合、画像上の文字列に対し１００％認識が行われることは実際にはまず有得ず、認識率は、画像の状態、画像上の文字情報部の文字形状等に左右される。画像に対して、任意のエリアを切り出し、エリアＯＣＲを実施する場合でも、ＯＣＲ結果の内容が、単語や名詞、固有名詞といった文章よりも小さい単位の語句であることが多いので、それを前提に言語ＤＢによる確認技術が考えられるが、文字認識での認識率の根本的な原因は一般のＯＣＲ処理と同様であるため、エリアＯＣＲ処理を実装し、インデックスデータを自動作成する文書登録システムにおいては、むしろ、始めからＯＣＲ処理が誤認識をおこなった場合の処理フローを考慮し、実装されなければ、実用的なシステムとは言えない。

また、文書登録システムでインデックス作成を操作するオペレータは、大量の文書のインデックスデータについて、入力（作成）、補正、確認の工程を行わなければならないため、その工程を少しでも省略することが、作業コスト、システムの運用コスト、また文書登録システムの操作性といった面で常に課題である。しかしながら、上記のように、ＯＣＲの実際を考慮していない場合では、やはり、インデックスデータの補正処理の工程を省略することはできないため、作業コスト、システムのランニングコスト、また文書管理システムの操作性は特に向上されないといった具体的な効率面での課題があった。

上記課題を解決するために、本発明の文書登録システムは、入力された原稿画像を文字認識する文字認識手段と、前記文字認識手段で得た認識結果情報をインデックスデータとして登録する登録手段とを有する文書登録システムであって、前記文字認識手段で得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第１チェック手段と、前記第１チェック手段で前記認識結果が言語ＤＢに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第２チェック手段とを有することを特徴とする。

本発明によれば、ＯＣＲ処理において誤認識が発生した場合でも、知識ＤＢ手段を検索し、検索結果データを取得することで、ＯＣＲ処理が正常認識した場合や、オペレータによってＯＣＲ結果を補正した場合と同様のインデックスデータ作成が自動で行われるといった効果がある。また、作成したインデックスデータの精度が上がるという効果がある。

以下、図面を用いて本発明の実施例について説明する。

図１は、本提案による文書登録システムを導入したネットワークシステム構成図を示す。

ここでは、ネットワーク上に次のリソースを配置されている。
ユーザ端末（１００、１０１、１０２）、ファクス受信、スキャナ機能を有するデバイス（１１０）、本発明による文書登録システム（１２０）、ファイルサーバ（１３０）、文書管理システム（１４０）
各ユーザは、ファイルサーバ、文書管理システムを用いて、各種文書の共有を図っている。文書の種類としては、一般的な文書作成アプリケーションによって作成される文書、スキャナで読みこまれた文書、ファクス受信された文書等各種混在している。

ファイルサーバ１３０では、一時的に使用される文書を中心に管理され、文書管理システム１４０では、長期に渡り保存が必要な文書を中心に管理され、必要な時に所定の文書を検索できるようになっている。

ここで、文書登録システム１２０は、デバイスサイドで生成される文書（ファックス受信文書、スキャナ読取文書等）、ファイルサーバで管理された文書を、所定のルールで自動的に文書管理サーバに登録する機能、文書取得時、文書解析時に得られる情報をもとに、検索情報として有効な情報を属性情報、検索情報として文書管理システムに登録する機能等をもたせることで、文書管理業務を支援するシステムとなっている。

また、手動で、各種属性情報を付加して文書管理システムに文書を登録させる機能、すでに文書管理システムに登録された文書の属性情報等を再編集できる機能等を提供している。

図２は、文書登録システム１２０におけるシステムブロックを示した図である。

＜文書入力処理＞
まず、文書入力処理部について説明する。

１１０はファクス受信、スキャナ機能を有するデバイスであり、デバイス制御部２１０により文書データ等のハンドリングがなされる。

デバイス制御部２１０においては、デバイス側から文書データを吸い上げたり、デバイス側から送信される文書データを受け取ったりする処理がなされる。

１３０はファイルサーバ等における文書が格納されたフォルダであり、フォルダ制御部２１２により文書データ等のハンドリングがなされる。

フォルダ制御部２１２においては、所定のフォルダを例えば定期的に監視し、文書の取得処理等を行なっている。

２０１は本システムにおける操作部となっており、各種システムの設定、操作を行なえるようになっているが、さらに、文書データをインポートする形態で、２１４ファイル制御部において、入力処理させることができるようになっている。

２２０は入力制御部であり、前記各種形態に対応した文書入力処理制御部を、同等のインターフェースによって制御できるようになっている。

＜システム内部処理＞
次に、システム内に配置される各種処理部について説明する。

２２１は、ジョブ制御部であり、後述するジョブの処理を行う。

２２２は、文書データ処理部であり、画像フォーマット変換処理等を行う。

２２３は、インデクス処理部であり、後述するインデクス処理に関する制御を行う。

２２４は、データ管理部であり、後述するテンプレート、ワークシート、ジョブ等に関するデータを２５０のデータエリアに保存、管理する。

２２５は、ＯＣＲ制御部であり、２５１に示す辞書データを用いて文字認識の精度を向上させている。また、本発明の特徴である言語ＤＢ、および知識ＤＢも機能的にはＯＣＲ制御部関連なので、便宜上の機能ブロックとして２５１に包括している。

２２６は、フォーム解析部であり、２５２に示すフォームデータを管理、運用することで、各種フォーム、例えば帳票ファーマットの違い等を自動的に識別できるようになっている。

２４０は、メール処理部であり、主に、自動的に文書登録処理を行う際に、あらかじめ登録されたあて先にその結果を通知するために使用される。

＜文書管理システムアクセス＞
続いて、文書管理システムとのインターフェース部について説明する。

２２７は、文書管理システム制御部であり、文書管理システム１４０の種類に応じて提供されるアクセス制御部２３０を介して、文書、属性登録なり、すでに登録された文書属性なりの処理を行う。

２５３では、文書管理システムにアクセスするにあたって必要なアクセスデータを管理し、
２５４では、文書管理システムへ登録するデータを一時的に保存するデータエリアであり、文書登録時に、所定の画像変換等の文書データ処理が必要な場合、このエリアをバッファとして管理運用される。

図３は、本システムを運用する際の、基本操作フローを示す図である。

＜基本的処理＞
まず、手動で文書を取得と、インデックス（属性情報）入力を行ない、それらを文書管理システムに登録する基本的な流れを説明する。

Ｓ１００で、後述するテンプレートの作成、登録を行う。
このテンプレートにおいて、文書登録対象となる文書管理システムのアクセス情報、管理されるスキーマ情報が管理される。

Ｓ１０１で、作成されたテンプレートを元に、後述するワークシート作成、登録を行う。

このワークシートにおいて、実際に属性登録を行うフィールド等を設定する。また、本システムにおいては、取得した文書の管理、文書に対して付加する属性情等は、このワークシートを管理テーブルとして一連の処理が実行、管理されるようになっている。

Ｓ１０２で、作成されたワークシートを表示させる。

Ｓ１０３で、文書入力が実行されると、Ｓ１０４で、ワークシート上にその情報が登録管理され、Ｓ１０５で、必要なインデクス（属性）情報の入力、管理を行う。

Ｓ１０６で、更に文書入力を行う必要がある場合は、Ｓ１０３に処理を遷移させ、所定の文書を取得したならば、Ｓ１０７で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。

＜ワークシート選択による処理＞
すでに、ワークシートが登録されている場合、
Ｓ１１０で、所定のワークシートを選択し、前述のＳ１０２の処理へ遷移する。

＜入力ボタンを用いた処理＞
すでに、入力起動ボタン設定がなされている場合は、Ｓ１２０で、その入力ボタンを押下することにより、Ｓ１２１で、設定された条件に応じた文書取得処理が行なわれ、Ｓ１２２で、各文書に応じて必要なインデックス入力をまとめで行うことにより、Ｓ１２３で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。

＜ジョブ実行処理＞
すでに、ジョブが登録されている場合は、
Ｓ１３０で、登録されているジョブを選択し、
Ｓ１３１で、所定のジョブを実行させることができるようになっている。

図４は、テンプレート作成処理フローを示す。

Ｓ２００で、まず運用する文書管理システムへ接続させる。

Ｓ２０１で、文書を格納させるフォルダ等に設定されているスキーマ情報（検索用インデックスとして運用可能な情報）等を取得する。

Ｓ２０２で、文書管理システムへの接続情報なり、スキーマ情報を一括管理するテンプレートとして、識別情報（テンプレート名）を付加して保存する。

図５は、ワークシート作成処理フローを示す。

ここでは、先に作成されたテンプレートに対して、実際の運用を行うためのワークシートの作成、登録を行う。

Ｓ３００で、まず運用対象の文書管理システム情報が管理されたテンプレートを選択する。

Ｓ３０１で、テンプレートにて管理された元のスキーマ情報に対して、運用上必要のないものがあれば、そのフィールド選択等の編集を行なえるようになっている。

Ｓ３０２で、その編集作業を行なえるようになっているが、場合によっては、領域（フィールド）の拡張を指示できる。

Ｓ３０３で、所定の設定等を確認して内部的にワークシート作成処理を行い、Ｓ３０４で、識別情報（ワークシート名）を付加して保存する。

図６は、フォーム登録処理フローを示す。所定のフォームのタイプを解析するために、基準となるフォームデータをここで登録処理する。

Ｓ４００で、フォーム解析時の、基準となるイメージを取得する。

Ｓ４０１で、各種フォームを管理するフォーム管理シート上に、先に入手したイメージデータを登録させ、その管理下におく。

Ｓ４０２で、実際のフォーム解析処理をするフォーム解析部２２６にデータを渡し、所定の解析処理を行い、必要なデータをフォームデータとして２５２で管理する。

Ｓ４０３で、新規追加されたフォームデータを識別情報（フォーム登録名）を付加して保存する。

図７は、エリア登録処理フローを示す。ここでは、画像データ上に所定のエリアを指定し、その内部を文字認識なりバーコード認識なりさせる設定フローを示している。

Ｓ５００では、まず基準となるフォームを選択する。Ｓ５０１では、解析対象とする領域指定を行い、Ｓ５０２では、そのエリアの解析モードを指定する。ここでの解析モードは、基本的には、より認識率を向上させるための詳細な条件を設定する。英文、和文の指定、バーコード認識等の解析エンジンの指定等も合わせてここで、エリア毎に指定可能になっている。

Ｓ５０３では、他のエリア指定が必要ならば、Ｓ５０１に遷移させる。Ｓ５０４では、ここで設定されたデータを、フォーム登録データに対する付加情報として登録させている。

図８は、入力起動ボタン設定処理フローを示す。入力起動ボタンは、各種データソースからの入力処理を、ボタン押下により一括処理させるためのものであり、ここでは、その動作設定処理について示している。

Ｓ６００では、まずワークシートを選択する。Ｓ６０１では、入力ソースを選択する。Ｓ６０２は、スキャナ入力の場合である。このときは、Ｓ６０３で、スキャナに対する各種読取モードを設定する。

Ｓ６０４は、フォルダ入力の場合である。このときは、Ｓ６０５で、フォルダに対するアクセス権設定なり、フォルダに対するアクセス条件（ポーリング間隔等）の設定をする。

Ｓ６１０では、設定された条件を登録する。設定条件に応じて、ボタン名等を変えることにより、複数のボタンを使い分けて運用することができるようになっている。

図９は、入力起動ボタン処理フローを示す。ここでは、設定された入力起動ボタンを押下時の、処理フローについて示している。

Ｓ７００では、まず設定モードを確認する。Ｓ７１０は、スキャナ設定された場合の処理であり、Ｓ７１１で所定の条件に従ったスキャンを行い、Ｓ７１２でワークシートへの文書保存までを行っている。

Ｓ７２０は、フォルダ入力設定された場合の処理であり、Ｓ７３１で所定の条件に従ったフォルダの内容のチェックを行い、その結果、Ｓ７２３で文書の存在が確認された場合は、Ｓ７２３で文書取得を行い、Ｓ７２４でワークシートへ文書保存する。

Ｓ７２５は、定期的にフォルダ入力の確認を行う設定時の処理であり、中止が指示された場合は、処理を中断し、そうでなければ、再度Ｓ７２１に遷移し、定期的に指定フォルダの内容を確認処理する。

図１０は、インデキシング処理フローを示す。ここでは、インデックス処理全般に渡る処理フローと本発明の特徴である言語ＤＢや知識ＤＢへの検索処理の流れについて示している。

Ｓ８００では、自動処理か否かで処理を分岐している。自動処理の場合は、Ｓ８１５へ処理を遷移させ、そうでない場合は、順次ワークシート、フォームの選択をする。

Ｓ８０１では、まずワークシートの選択を行う。Ｓ８０２では、そのまま手動でインデックス情報を入力する場合、Ｓ８０３で手動でのインデックス入力をし、Ｓ８０４でまだ処理すべき文書があればＳ８００に戻り、なければ処理を終了する。

Ｓ８１０では、自動フォーム検出機能を利用するか否かで処理が分岐され、Ｓ８１１でフォーム検出処理を行った結果、所定のフォームが検出された場合はＳ８１２からＳ８２０に処理を遷移させ、自動フォーム検出機能を利用しない場合、フォーム検出できなかった場合は、Ｓ８１３において、手動で所定のフォームを選択する
Ｓ８２０では、まず解析対象のエリアの有無を確認する。Ｓ８２１では、当該文書におけるすべての設定されたエリアの処理が終了していれば、Ｓ８０４に遷移し、次文書の処理に移行する。

Ｓ８２２では、画像補正処理を行う。この画像補正処理は、原稿サイズ変倍、エリア位置、傾き補正、自動方向検知回転、黒斜行補正である。それぞれ、原稿に応じて処理を行われる。

Ｓ８２３では、所定の設定に準拠したエリア解析する。エリア解析とは、エリア情報に従い画像からエリアを切り出し、切り出し画像に対しＯＣＲ文字認識を行うものである。あらかじめ設定されたエリアついては、Ｓ２２２で能動的にエリア位置補正が行われ、調整されている。ここまでの処理の流れが、本発明の請求するエリアＯＣＲ方法にあたる。

Ｓ８２４では、エリア解析の結果、言い換えればエリアＯＣＲ方法を実施した結果を言語ＤＢに参照検索を行う。

Ｓ８２５では、言語ＤＢを参照検索した結果を判断する、Ｓ８２３でのエリアＯＣＲ結果が言語ＤＢにある言葉だった場合、処理はＳ８３１へ進み、Ｓ８２３でのＯＣＲ結果が言語ＤＢにない場合には、処理はＳ８２６へ進む。

Ｓ８２６では、Ｓ８２３でのエリアＯＣＲ結果を知識ＤＢから検索する。検索対象となるのは、知識ＤＢに登録された検索データの内容である。

Ｓ８２７では、Ｓ８２３でのエリアＯＣＲ結果が知識ＤＢから検索できたかどうか判断を行う。検索できた場合には処理は、Ｓ８３０へ進む。この際、検索された知識ＤＢの検索データの関連付けされた検索結果データがインデックスデータとして採用される。ここまでの流れを図１２に示す知識ＤＢ概念図のステップで説明すると、まず、１２０１が文書登録システムに入力されたイメージ（画像）の画像補正後のイメージデータであることを示す。イメージ上の出身地の内容となる“仙台”がエリア登録されていて、このエリアが切り出され１２０２のような画像として取り出される。この１２０２のエリア画像に大してエリア解析、つまりエリアＯＣＲ処理が行われ、エリアＯＣＲ結果が取得される。図１２の例では、１２０３をＯＣＲ処理した結果として１２０３“イ山台が取得された。（この場合、ＯＣＲ結果が“仙台”であった場合、つまりＯＣＲ結果が正しく言語ＤＢから参照できる結果だった場合、処理はＳ８３１に進むことは既に説明済みである。）この１２０３に対し言語ＤＢを参照するが、“イ山台”（カタカナ“イ”と“山”“台”で構成される言葉）は一般的な言葉ではないので、処理はＳ８２６へと進み次に知識ＤＢの検索データが参照されることになる。知識ＤＢの検索データを検索した結果“イ山台”が存在したので、その“イ山台”に関連する検索結果データ“仙台”がインデックスデータとしてワークシートの所定のセルに適用される。

Ｓ８２７の処理で、エリアＯＣＲ結果が知識ＤＢから検索できなかった場合、処理はＳ８２８へ進む。

Ｓ８２８では、インデックスの補正画面において正しいインデックスデータが手動で入力される。次に、Ｓ８２９では、Ｓ８２８で手動入力されたインデックスデータを検索結果データとしエリアＯＣＲ結果を検索データとして知識ＤＢが更新される。

このＳ８２８からＳ８２９への処理の流れと概念を図１３にまとめている。図１３では１３０１を入力したイメージの画像補正後のイメージデータとし、出身地の内容に当たる部分がエリアとして指定されている。このエリアを切り出したものが１３０２であり、１３０２に対してエリア解析、つまり、エリアＯＣＲ処理が行われる。１３０４ではそのエリアＯＣＲの結果が“π表”であったことを示す。次にこの１３０４をもって言語ＤＢを参照する。“π表”は一般的な言葉ではないため、言語ＤＢ参照結果は得られず、ついに１３０６の知識ＤＢが参照される。

１３０６の時点の知識ＤＢには、検索データとして“π表”はまだ登録されていないので、次に、文書登録システムは１３０７のインデックス補正画面を表示し、手動入力によって正しいインデックスデータに補正を行う。それがＳ８２８の処理である。次に１３０７インデックス補正画面で入力された“西表”をインデックスデータとして採用し、さらにＳ８２９の処理として“西表”を検索結果データとし、それに関連する検索データとして“π表”がそれぞれ知識ＤＢに登録される。この一連の処理によって知識ＤＢには内容が蓄積されていく。

Ｓ８２９で新しいデータを知識ＤＢに登録する際、既に検索結果データが存在する場合には、ＯＣＲ結果をその検索データ群に追加することで、効率的に知識ＤＢを構成することができる。図１２、および図１３に示す知識ＤＢはあくまでも概念であり、コンピュータシステム上のファイルで構成されても良いし、メモリの記憶され使用されるレコード形式でも構わないことは言うまでもない。

Ｓ８３０では、処理がＳ８２７から遷移してきた場合には、知識ＤＢから取得した検索結果データとインデックスデータとし、処理がＳ８２９から遷移してきた場合にはＳ８２８で手動入力された文字列をインデックスデータとして採用し、Ｓ８２５から処理が遷移してきた場合にが、言語ＤＢで確認された、Ｓ８２３のエリア解析結果、つまりエリアＯＣＲの結果がインデックスデータとして採用される。

次に、Ｓ８３１で、インデックスデータが保存され、処理はＳ８２０へ戻り、次のエリアに対してこれまで説明してきた処理が繰り返し実行される。

Ｓ８１５は、自動インデクス処理の前処理である。ワークシート自体はあらかじめ設定されていることを前提としているが、フォーム自体もあらかじめ設定されている場合は、そのままＳ８１６でＯＫとなり、Ｓ８２０に処理が遷移される。フォームを自動選択させる設定になっている場合は、この前処理において、各種画像処理を経てフォーム検出処理をする。所定のフォームが検出された場合は、Ｓ８１６でＯＫとなり、Ｓ８２０に処理が遷移されるが、検出されなかった場合は、Ｓ８１７の後処理に遷移し、処理ができなかった文書として、ワークシート上に当該文書が管理されて、次文書の処理として、Ｓ８０４に処理が遷移される。

図１１は、リリース（データ登録）処理フローを示す。ここでは、文書情報等を、文書管理システムへのデータ登録処理について示している。

Ｓ９００では、自動リリースか否かで処理を分岐している。Ｓ９０１は、自動リリースの場合の処理であり、まず所定の設定情報を取得し、Ｓ９０２で所定の文書管理システムの格納フォルダへ接続処理を行い、Ｓ９２０に処理を遷移させる。

Ｓ９１０は、自動リリースでない場合の処理であり、まずワークシート上に管理されている文書から、登録対象の文書の選択、登録後の文書の扱い（削除するか否か、等）を設定できるようになっている。

Ｓ９１１では、設定された文書管理システムへログイン処理し、文書を格納するフォルダを指定する。

Ｓ９１２では、文書登録時のオプション設定ができるようになっており、文書登録処理に関する実行ログをとる指定をしたり、文書登録時の文書フォーマットの変換設定をしたりできるようになっている。

Ｓ９２０は、文書管理システムへ登録する文書情報等を一旦内部の出力用データエリア２５４に保存する処理であり、Ｓ９３０は、フォーマット変換、もしくは、イメージデータのＯＣＲ解析結果を付加する処理等が指示された場合の処理であり、設定条件に従って、Ｓ９３１で所定の画像処理等を行う。

Ｓ９４０で、準備された文書データ等を、所定の文書管理システムのフォルダへ登録処理を行い、Ｓ９５０において、文書登録後の文書削除指示がなされていた場合、Ｓ９５１においてその処理を行い、全体の処理を終了する。

以上説明したように、本発明による文書管理システムでは、本発明では、ＯＣＲ処理において誤認識が発生した場合でも、知識ＤＢ手段を検索し、検索結果データを取得することで、ＯＣＲ処理が正常認識した場合や、オペレータによってＯＣＲ結果を補正した場合と同様のインデックスデータ作成が自動で行われるため、一度はＯＣＲ認識によって誤認識をおこなったデータについては、再度、誤認識した場合でも知識ＤＢから正しいインデックスデータを取得することが可能となるため、インデックス作成の主な工程の一つであるインデックスデータの補正工程を省略でき、オペレータの作業工数削減によって作業コストを圧縮し、またシステム運用にかかるランニングコストを削減し、また、インデックスデータの補正工程が自動化されることから、文書管理システムの操作性も向上するといった効果がある。

（その他の実施例）
なお、上述したような本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、コンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

システム構成図システムブロック図基本操作フロー図テンプレート作成処理フロー図ワークシート作成処理フロー図フォーム登録処理フロー図エリア登録処理フロー図入力起動ボタン設定処理フロー図入力起動ボタン処理フロー図インデクシング処理フロー図リリース処理フロー図知識ＤＢの概念図知識ＤＢ登録の概念図

Claims

入力された原稿画像を文字認識する文字認識手段と、
前記文字認識手段で得た認識結果情報をインデックスデータとして登録する登録手段とを有する文書登録システムであって、
前記文字認識手段で得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第１チェック手段と、
前記第１チェック手段で前記認識結果が言語ＤＢに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第２チェック手段と
を有することを特徴とする文書登録システム。
前記第２チェック手段は、前記知識データベースを検索して検索結果を取得できなかった場合、オペレータのインデックス入力操作により前記認識結果を補正して前記インデックスデータを作成する作成手段を更に含むことを特徴とする請求項１に記載の文書登録システム。
前記知識データベースは、検索データと検索結果データとで構成され、
前記補正前の認識結果と前記作成手段で作成されたインデックスデータとを対応付けて、前記知識データベースの検索データと検索結果データとして登録することにより、前記知識データベースを更新する更新手段を更に含むことを特徴とする請求項２に記載の文書登録システム。
前記文字認識手段は、原稿サイズ変倍、エリア位置、傾き補正、自動方向検知回転、黒斜行補正のうちの少なくともいずれかの画像処理を行ったうえで、エリアを抽出して、文字認識処理を行なうことを特徴とする請求項２に記載の文書登録システム。
入力された原稿画像を文字認識する文字認識ステップと、
前記文字認識ステップで得た認識結果情報をインデックスデータとして登録する登録ステップと、
前記文字認識ステップで得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第１チェックステップと、
前記第１チェックステップで前記認識結果が言語ＤＢに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第２チェックステップと
を有することを特徴とする文書登録方法。
入力された原稿画像を文字認識する文字認識ステップと、
前記文字認識ステップで得た認識結果情報をインデックスデータとして登録する登録ステップと、
前記文字認識ステップで得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第１チェックステップと、
前記第１チェックステップで前記認識結果が言語ＤＢに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第２チェックステップとの各ステップをコンピュータに実行させるためのプログラムコードを含むことを特徴とするコンピュータプログラム。
請求項６に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。