JP2006172083A - 文書登録システム - Google Patents

文書登録システム Download PDF

Info

Publication number
JP2006172083A
JP2006172083A JP2004362916A JP2004362916A JP2006172083A JP 2006172083 A JP2006172083 A JP 2006172083A JP 2004362916 A JP2004362916 A JP 2004362916A JP 2004362916 A JP2004362916 A JP 2004362916A JP 2006172083 A JP2006172083 A JP 2006172083A
Authority
JP
Japan
Prior art keywords
document
data
result
recognition
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004362916A
Other languages
English (en)
Inventor
Tomoshi Yoshida
知史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004362916A priority Critical patent/JP2006172083A/ja
Publication of JP2006172083A publication Critical patent/JP2006172083A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 インデックスデータの作成をなるべく自動で行なうとともに、インデックスデータの精度を上げるようにする。
【解決手段】 本発明は、入力された原稿画像を文字認識し、当該認識結果情報をインデックスデータとして登録する文書登録システムで、前記認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックし、前記認識結果が言語DBに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する。
【選択図】 図10

Description

本発明は、スキャナなどから読み取った画像から、自動でインデックスデータを作成することが可能な文書登録システムに関するものである。
従来の文書管理では、原稿からエリアを切り出し、切り出した部分に対してOCR処理を行い、インデックスデータとして使用する技術が提案されていた。
特開平08−305731号公報
OCR処理を行った結果に対して、言語DBを参照し、インデックスデータとして妥当かどうかを判断することが考えられる。しかしながら、言語DBのデータを参照する場合、そのOCR結果が正しいものであるという前提があり、OCR結果が一般的な言語でなかった場合には言語DBの参照結果は偽であり、その時点で、オペレータの手動操作による補正操作が必要とされる。
一般に、OCR処理についての実際を考察した場合、画像上の文字列に対し100%認識が行われることは実際にはまず有得ず、認識率は、画像の状態、画像上の文字情報部の文字形状等に左右される。画像に対して、任意のエリアを切り出し、エリアOCRを実施する場合でも、OCR結果の内容が、単語や名詞、固有名詞といった文章よりも小さい単位の語句であることが多いので、それを前提に言語DBによる確認技術が考えられるが、文字認識での認識率の根本的な原因は一般のOCR処理と同様であるため、エリアOCR処理を実装し、インデックスデータを自動作成する文書登録システムにおいては、むしろ、始めからOCR処理が誤認識をおこなった場合の処理フローを考慮し、実装されなければ、実用的なシステムとは言えない。
また、文書登録システムでインデックス作成を操作するオペレータは、大量の文書のインデックスデータについて、入力(作成)、補正、確認の工程を行わなければならないため、その工程を少しでも省略することが、作業コスト、システムの運用コスト、また文書登録システムの操作性といった面で常に課題である。しかしながら、上記のように、OCRの実際を考慮していない場合では、やはり、インデックスデータの補正処理の工程を省略することはできないため、作業コスト、システムのランニングコスト、また文書管理システムの操作性は特に向上されないといった具体的な効率面での課題があった。
上記課題を解決するために、本発明の文書登録システムは、入力された原稿画像を文字認識する文字認識手段と、前記文字認識手段で得た認識結果情報をインデックスデータとして登録する登録手段とを有する文書登録システムであって、前記文字認識手段で得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第1チェック手段と、前記第1チェック手段で前記認識結果が言語DBに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第2チェック手段とを有することを特徴とする。
本発明によれば、OCR処理において誤認識が発生した場合でも、知識DB手段を検索し、検索結果データを取得することで、OCR処理が正常認識した場合や、オペレータによってOCR結果を補正した場合と同様のインデックスデータ作成が自動で行われるといった効果がある。また、作成したインデックスデータの精度が上がるという効果がある。
以下、図面を用いて本発明の実施例について説明する。
図1は、本提案による文書登録システムを導入したネットワークシステム構成図を示す。
ここでは、ネットワーク上に次のリソースを配置されている。
ユーザ端末(100、101、102)、ファクス受信、スキャナ機能を有するデバイス(110)、本発明による文書登録システム(120)、ファイルサーバ(130)、文書管理システム(140)
各ユーザは、ファイルサーバ、文書管理システムを用いて、各種文書の共有を図っている。文書の種類としては、一般的な文書作成アプリケーションによって作成される文書、スキャナで読みこまれた文書、ファクス受信された文書等各種混在している。
ファイルサーバ130では、一時的に使用される文書を中心に管理され、文書管理システム140では、長期に渡り保存が必要な文書を中心に管理され、必要な時に所定の文書を検索できるようになっている。
ここで、文書登録システム120は、デバイスサイドで生成される文書(ファックス受信文書、スキャナ読取文書等)、ファイルサーバで管理された文書を、所定のルールで自動的に文書管理サーバに登録する機能、文書取得時、文書解析時に得られる情報をもとに、検索情報として有効な情報を属性情報、検索情報として文書管理システムに登録する機能等をもたせることで、文書管理業務を支援するシステムとなっている。
また、手動で、各種属性情報を付加して文書管理システムに文書を登録させる機能、すでに文書管理システムに登録された文書の属性情報等を再編集できる機能等を提供している。
図2は、文書登録システム120におけるシステムブロックを示した図である。
<文書入力処理>
まず、文書入力処理部について説明する。
110はファクス受信、スキャナ機能を有するデバイスであり、デバイス制御部210により文書データ等のハンドリングがなされる。
デバイス制御部210においては、デバイス側から文書データを吸い上げたり、デバイス側から送信される文書データを受け取ったりする処理がなされる。
130はファイルサーバ等における文書が格納されたフォルダであり、フォルダ制御部212により文書データ等のハンドリングがなされる。
フォルダ制御部212においては、所定のフォルダを例えば定期的に監視し、文書の取得処理等を行なっている。
201は本システムにおける操作部となっており、各種システムの設定、操作を行なえるようになっているが、さらに、文書データをインポートする形態で、214ファイル制御部において、入力処理させることができるようになっている。
220は入力制御部であり、前記各種形態に対応した文書入力処理制御部を、同等のインターフェースによって制御できるようになっている。
<システム内部処理>
次に、システム内に配置される各種処理部について説明する。
221は、ジョブ制御部であり、後述するジョブの処理を行う。
222は、文書データ処理部であり、画像フォーマット変換処理等を行う。
223は、インデクス処理部であり、後述するインデクス処理に関する制御を行う。
224は、データ管理部であり、後述するテンプレート、ワークシート、ジョブ等に関するデータを250のデータエリアに保存、管理する。
225は、OCR制御部であり、251に示す辞書データを用いて文字認識の精度を向上させている。また、本発明の特徴である言語DB、および知識DBも機能的にはOCR制御部関連なので、便宜上の機能ブロックとして251に包括している。
226は、フォーム解析部であり、252に示すフォームデータを管理、運用することで、各種フォーム、例えば帳票ファーマットの違い等を自動的に識別できるようになっている。
240は、メール処理部であり、主に、自動的に文書登録処理を行う際に、あらかじめ登録されたあて先にその結果を通知するために使用される。
<文書管理システムアクセス>
続いて、文書管理システムとのインターフェース部について説明する。
227は、文書管理システム制御部であり、文書管理システム140の種類に応じて提供されるアクセス制御部230を介して、文書、属性登録なり、すでに登録された文書属性なりの処理を行う。
253では、文書管理システムにアクセスするにあたって必要なアクセスデータを管理し、
254では、文書管理システムへ登録するデータを一時的に保存するデータエリアであり、文書登録時に、所定の画像変換等の文書データ処理が必要な場合、このエリアをバッファとして管理運用される。
図3は、本システムを運用する際の、基本操作フローを示す図である。
<基本的処理>
まず、手動で文書を取得と、インデックス(属性情報)入力を行ない、それらを文書管理システムに登録する基本的な流れを説明する。
S100で、後述するテンプレートの作成、登録を行う。
このテンプレートにおいて、文書登録対象となる文書管理システムのアクセス情報、管理されるスキーマ情報が管理される。
S101で、作成されたテンプレートを元に、後述するワークシート作成、登録を行う。
このワークシートにおいて、実際に属性登録を行うフィールド等を設定する。また、本システムにおいては、取得した文書の管理、文書に対して付加する属性情等は、このワークシートを管理テーブルとして一連の処理が実行、管理されるようになっている。
S102で、作成されたワークシートを表示させる。
S103で、文書入力が実行されると、S104で、ワークシート上にその情報が登録管理され、S105で、必要なインデクス(属性)情報の入力、管理を行う。
S106で、更に文書入力を行う必要がある場合は、S103に処理を遷移させ、所定の文書を取得したならば、S107で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。
<ワークシート選択による処理>
すでに、ワークシートが登録されている場合、
S110で、所定のワークシートを選択し、前述のS102の処理へ遷移する。
<入力ボタンを用いた処理>
すでに、入力起動ボタン設定がなされている場合は、S120で、その入力ボタンを押下することにより、S121で、設定された条件に応じた文書取得処理が行なわれ、S122で、各文書に応じて必要なインデックス入力をまとめで行うことにより、S123で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。
<ジョブ実行処理>
すでに、ジョブが登録されている場合は、
S130で、登録されているジョブを選択し、
S131で、所定のジョブを実行させることができるようになっている。
図4は、テンプレート作成処理フローを示す。
S200で、まず運用する文書管理システムへ接続させる。
S201で、文書を格納させるフォルダ等に設定されているスキーマ情報(検索用インデックスとして運用可能な情報)等を取得する。
S202で、文書管理システムへの接続情報なり、スキーマ情報を一括管理するテンプレートとして、識別情報(テンプレート名)を付加して保存する。
図5は、ワークシート作成処理フローを示す。
ここでは、先に作成されたテンプレートに対して、実際の運用を行うためのワークシートの作成、登録を行う。
S300で、まず運用対象の文書管理システム情報が管理されたテンプレートを選択する。
S301で、テンプレートにて管理された元のスキーマ情報に対して、運用上必要のないものがあれば、そのフィールド選択等の編集を行なえるようになっている。
S302で、その編集作業を行なえるようになっているが、場合によっては、領域(フィールド)の拡張を指示できる。
S303で、所定の設定等を確認して内部的にワークシート作成処理を行い、S304で、識別情報(ワークシート名)を付加して保存する。
図6は、フォーム登録処理フローを示す。所定のフォームのタイプを解析するために、基準となるフォームデータをここで登録処理する。
S400で、フォーム解析時の、基準となるイメージを取得する。
S401で、各種フォームを管理するフォーム管理シート上に、先に入手したイメージデータを登録させ、その管理下におく。
S402で、実際のフォーム解析処理をするフォーム解析部226にデータを渡し、所定の解析処理を行い、必要なデータをフォームデータとして252で管理する。
S403で、新規追加されたフォームデータを識別情報(フォーム登録名)を付加して保存する。
図7は、エリア登録処理フローを示す。ここでは、画像データ上に所定のエリアを指定し、その内部を文字認識なりバーコード認識なりさせる設定フローを示している。
S500では、まず基準となるフォームを選択する。S501では、解析対象とする領域指定を行い、S502では、そのエリアの解析モードを指定する。ここでの解析モードは、基本的には、より認識率を向上させるための詳細な条件を設定する。英文、和文の指定、バーコード認識等の解析エンジンの指定等も合わせてここで、エリア毎に指定可能になっている。
S503では、他のエリア指定が必要ならば、S501に遷移させる。S504では、ここで設定されたデータを、フォーム登録データに対する付加情報として登録させている。
図8は、入力起動ボタン設定処理フローを示す。入力起動ボタンは、各種データソースからの入力処理を、ボタン押下により一括処理させるためのものであり、ここでは、その動作設定処理について示している。
S600では、まずワークシートを選択する。S601では、入力ソースを選択する。S602は、スキャナ入力の場合である。このときは、S603で、スキャナに対する各種読取モードを設定する。
S604は、フォルダ入力の場合である。このときは、S605で、フォルダに対するアクセス権設定なり、フォルダに対するアクセス条件(ポーリング間隔等)の設定をする。
S610では、設定された条件を登録する。設定条件に応じて、ボタン名等を変えることにより、複数のボタンを使い分けて運用することができるようになっている。
図9は、入力起動ボタン処理フローを示す。ここでは、設定された入力起動ボタンを押下時の、処理フローについて示している。
S700では、まず設定モードを確認する。S710は、スキャナ設定された場合の処理であり、S711で所定の条件に従ったスキャンを行い、S712でワークシートへの文書保存までを行っている。
S720は、フォルダ入力設定された場合の処理であり、S731で所定の条件に従ったフォルダの内容のチェックを行い、その結果、S723で文書の存在が確認された場合は、S723で文書取得を行い、S724でワークシートへ文書保存する。
S725は、定期的にフォルダ入力の確認を行う設定時の処理であり、中止が指示された場合は、処理を中断し、そうでなければ、再度S721に遷移し、定期的に指定フォルダの内容を確認処理する。
図10は、インデキシング処理フローを示す。ここでは、インデックス処理全般に渡る処理フローと本発明の特徴である言語DBや知識DBへの検索処理の流れについて示している。
S800では、自動処理か否かで処理を分岐している。自動処理の場合は、S815へ処理を遷移させ、そうでない場合は、順次ワークシート、フォームの選択をする。
S801では、まずワークシートの選択を行う。S802では、そのまま手動でインデックス情報を入力する場合、S803で手動でのインデックス入力をし、S804でまだ処理すべき文書があればS800に戻り、なければ処理を終了する。
S810では、自動フォーム検出機能を利用するか否かで処理が分岐され、S811でフォーム検出処理を行った結果、所定のフォームが検出された場合はS812からS820に処理を遷移させ、自動フォーム検出機能を利用しない場合、フォーム検出できなかった場合は、S813において、手動で所定のフォームを選択する
S820では、まず解析対象のエリアの有無を確認する。S821では、当該文書におけるすべての設定されたエリアの処理が終了していれば、S804に遷移し、次文書の処理に移行する。
S822では、画像補正処理を行う。この画像補正処理は、原稿サイズ変倍、エリア位置、傾き補正、自動方向検知回転、黒斜行補正である。それぞれ、原稿に応じて処理を行われる。
S823では、所定の設定に準拠したエリア解析する。エリア解析とは、エリア情報に従い画像からエリアを切り出し、切り出し画像に対しOCR文字認識を行うものである。あらかじめ設定されたエリアついては、S222で能動的にエリア位置補正が行われ、調整されている。ここまでの処理の流れが、本発明の請求するエリアOCR方法にあたる。
S824では、エリア解析の結果、言い換えればエリアOCR方法を実施した結果を言語DBに参照検索を行う。
S825では、言語DBを参照検索した結果を判断する、S823でのエリアOCR結果が言語DBにある言葉だった場合、処理はS831へ進み、S823でのOCR結果が言語DBにない場合には、処理はS826へ進む。
S826では、S823でのエリアOCR結果を知識DBから検索する。検索対象となるのは、知識DBに登録された検索データの内容である。
S827では、S823でのエリアOCR結果が知識DBから検索できたかどうか判断を行う。検索できた場合には処理は、S830へ進む。この際、検索された知識DBの検索データの関連付けされた検索結果データがインデックスデータとして採用される。ここまでの流れを図12に示す知識DB概念図のステップで説明すると、まず、1201が文書登録システムに入力されたイメージ(画像)の画像補正後のイメージデータであることを示す。イメージ上の出身地の内容となる“仙台”がエリア登録されていて、このエリアが切り出され1202のような画像として取り出される。この1202のエリア画像に大してエリア解析、つまりエリアOCR処理が行われ、エリアOCR結果が取得される。図12の例では、1203をOCR処理した結果として1203“イ山台が取得された。(この場合、OCR結果が“仙台”であった場合、つまりOCR結果が正しく言語DBから参照できる結果だった場合、処理はS831に進むことは既に説明済みである。)この1203に対し言語DBを参照するが、“イ山台”(カタカナ“イ”と“山”“台”で構成される言葉)は一般的な言葉ではないので、処理はS826へと進み次に知識DBの検索データが参照されることになる。知識DBの検索データを検索した結果“イ山台”が存在したので、その“イ山台”に関連する検索結果データ“仙台”がインデックスデータとしてワークシートの所定のセルに適用される。
S827の処理で、エリアOCR結果が知識DBから検索できなかった場合、処理はS828へ進む。
S828では、インデックスの補正画面において正しいインデックスデータが手動で入力される。次に、S829では、S828で手動入力されたインデックスデータを検索結果データとしエリアOCR結果を検索データとして知識DBが更新される。
このS828からS829への処理の流れと概念を図13にまとめている。図13では1301を入力したイメージの画像補正後のイメージデータとし、出身地の内容に当たる部分がエリアとして指定されている。このエリアを切り出したものが1302であり、1302に対してエリア解析、つまり、エリアOCR処理が行われる。1304ではそのエリアOCRの結果が“π表”であったことを示す。次にこの1304をもって言語DBを参照する。“π表”は一般的な言葉ではないため、言語DB参照結果は得られず、ついに1306の知識DBが参照される。
1306の時点の知識DBには、検索データとして“π表”はまだ登録されていないので、次に、文書登録システムは1307のインデックス補正画面を表示し、手動入力によって正しいインデックスデータに補正を行う。それがS828の処理である。次に1307インデックス補正画面で入力された“西表”をインデックスデータとして採用し、さらにS829の処理として“西表”を検索結果データとし、それに関連する検索データとして“π表”がそれぞれ知識DBに登録される。この一連の処理によって知識DBには内容が蓄積されていく。
S829で新しいデータを知識DBに登録する際、既に検索結果データが存在する場合には、OCR結果をその検索データ群に追加することで、効率的に知識DBを構成することができる。図12、および図13に示す知識DBはあくまでも概念であり、コンピュータシステム上のファイルで構成されても良いし、メモリの記憶され使用されるレコード形式でも構わないことは言うまでもない。
S830では、処理がS827から遷移してきた場合には、知識DBから取得した検索結果データとインデックスデータとし、処理がS829から遷移してきた場合にはS828で手動入力された文字列をインデックスデータとして採用し、S825から処理が遷移してきた場合にが、言語DBで確認された、S823のエリア解析結果、つまりエリアOCRの結果がインデックスデータとして採用される。
次に、S831で、インデックスデータが保存され、処理はS820へ戻り、次のエリアに対してこれまで説明してきた処理が繰り返し実行される。
S815は、自動インデクス処理の前処理である。ワークシート自体はあらかじめ設定されていることを前提としているが、フォーム自体もあらかじめ設定されている場合は、そのままS816でOKとなり、S820に処理が遷移される。フォームを自動選択させる設定になっている場合は、この前処理において、各種画像処理を経てフォーム検出処理をする。所定のフォームが検出された場合は、S816でOKとなり、S820に処理が遷移されるが、検出されなかった場合は、S817の後処理に遷移し、処理ができなかった文書として、ワークシート上に当該文書が管理されて、次文書の処理として、S804に処理が遷移される。
図11は、リリース(データ登録)処理フローを示す。ここでは、文書情報等を、文書管理システムへのデータ登録処理について示している。
S900では、自動リリースか否かで処理を分岐している。S901は、自動リリースの場合の処理であり、まず所定の設定情報を取得し、S902で所定の文書管理システムの格納フォルダへ接続処理を行い、S920に処理を遷移させる。
S910は、自動リリースでない場合の処理であり、まずワークシート上に管理されている文書から、登録対象の文書の選択、登録後の文書の扱い(削除するか否か、等)を設定できるようになっている。
S911では、設定された文書管理システムへログイン処理し、文書を格納するフォルダを指定する。
S912では、文書登録時のオプション設定ができるようになっており、文書登録処理に関する実行ログをとる指定をしたり、文書登録時の文書フォーマットの変換設定をしたりできるようになっている。
S920は、文書管理システムへ登録する文書情報等を一旦内部の出力用データエリア254に保存する処理であり、S930は、フォーマット変換、もしくは、イメージデータのOCR解析結果を付加する処理等が指示された場合の処理であり、設定条件に従って、S931で所定の画像処理等を行う。
S940で、準備された文書データ等を、所定の文書管理システムのフォルダへ登録処理を行い、S950において、文書登録後の文書削除指示がなされていた場合、S951においてその処理を行い、全体の処理を終了する。
以上説明したように、本発明による文書管理システムでは、本発明では、OCR処理において誤認識が発生した場合でも、知識DB手段を検索し、検索結果データを取得することで、OCR処理が正常認識した場合や、オペレータによってOCR結果を補正した場合と同様のインデックスデータ作成が自動で行われるため、一度はOCR認識によって誤認識をおこなったデータについては、再度、誤認識した場合でも知識DBから正しいインデックスデータを取得することが可能となるため、インデックス作成の主な工程の一つであるインデックスデータの補正工程を省略でき、オペレータの作業工数削減によって作業コストを圧縮し、またシステム運用にかかるランニングコストを削減し、また、インデックスデータの補正工程が自動化されることから、文書管理システムの操作性も向上するといった効果がある。
(その他の実施例)
なお、上述したような本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、コンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
システム構成図 システムブロック図 基本操作フロー図 テンプレート作成処理フロー図 ワークシート作成処理フロー図 フォーム登録処理フロー図 エリア登録処理フロー図 入力起動ボタン設定処理フロー図 入力起動ボタン処理フロー図 インデクシング処理フロー図 リリース処理フロー図 知識DBの概念図 知識DB登録の概念図

Claims (7)

  1. 入力された原稿画像を文字認識する文字認識手段と、
    前記文字認識手段で得た認識結果情報をインデックスデータとして登録する登録手段とを有する文書登録システムであって、
    前記文字認識手段で得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第1チェック手段と、
    前記第1チェック手段で前記認識結果が言語DBに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第2チェック手段と
    を有することを特徴とする文書登録システム。
  2. 前記第2チェック手段は、前記知識データベースを検索して検索結果を取得できなかった場合、オペレータのインデックス入力操作により前記認識結果を補正して前記インデックスデータを作成する作成手段を更に含むことを特徴とする請求項1に記載の文書登録システム。
  3. 前記知識データベースは、検索データと検索結果データとで構成され、
    前記補正前の認識結果と前記作成手段で作成されたインデックスデータとを対応付けて、前記知識データベースの検索データと検索結果データとして登録することにより、前記知識データベースを更新する更新手段を更に含むことを特徴とする請求項2に記載の文書登録システム。
  4. 前記文字認識手段は、原稿サイズ変倍、エリア位置、傾き補正、自動方向検知回転、黒斜行補正のうちの少なくともいずれかの画像処理を行ったうえで、エリアを抽出して、文字認識処理を行なうことを特徴とする請求項2に記載の文書登録システム。
  5. 入力された原稿画像を文字認識する文字認識ステップと、
    前記文字認識ステップで得た認識結果情報をインデックスデータとして登録する登録ステップと、
    前記文字認識ステップで得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第1チェックステップと、
    前記第1チェックステップで前記認識結果が言語DBに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第2チェックステップと
    を有することを特徴とする文書登録方法。
  6. 入力された原稿画像を文字認識する文字認識ステップと、
    前記文字認識ステップで得た認識結果情報をインデックスデータとして登録する登録ステップと、
    前記文字認識ステップで得た認識結果について、一般的な言葉かどうか言語データベースを参照して当該認識結果の妥当性をチェックする第1チェックステップと、
    前記第1チェックステップで前記認識結果が言語DBに登録されていないと判断した場合、知識データベースを検索して、検索結果を取得できた場合、当該検索結果をインデックスデータとして採用する第2チェックステップとの各ステップをコンピュータに実行させるためのプログラムコードを含むことを特徴とするコンピュータプログラム。
  7. 請求項6に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。
JP2004362916A 2004-12-15 2004-12-15 文書登録システム Withdrawn JP2006172083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004362916A JP2006172083A (ja) 2004-12-15 2004-12-15 文書登録システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004362916A JP2006172083A (ja) 2004-12-15 2004-12-15 文書登録システム

Publications (1)

Publication Number Publication Date
JP2006172083A true JP2006172083A (ja) 2006-06-29

Family

ID=36672778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004362916A Withdrawn JP2006172083A (ja) 2004-12-15 2004-12-15 文書登録システム

Country Status (1)

Country Link
JP (1) JP2006172083A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020869A (ja) * 2007-06-11 2009-01-29 Brother Ind Ltd 登録用アプリケーションソフトウェア
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法
US8219898B2 (en) 2007-06-11 2012-07-10 Brother Kogyo Kabushiki Kaisha Document registration system, information processing apparatus, and computer usable medium therefor
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020869A (ja) * 2007-06-11 2009-01-29 Brother Ind Ltd 登録用アプリケーションソフトウェア
US8219898B2 (en) 2007-06-11 2012-07-10 Brother Kogyo Kabushiki Kaisha Document registration system, information processing apparatus, and computer usable medium therefor
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
JP5173594B2 (ja) 管理装置、画像形成装置及びそれらの処理方法
US8209621B2 (en) Image processing system, image processing apparatus and information processing apparatus
JP2010044544A (ja) 画像処理装置、情報処理装置、情報処理方法、及びプログラム
US8250103B2 (en) Image log management device, image log management method, image log management program
JP2009152848A (ja) 画像処理装置、及びその制御方法、プログラム、記憶媒体
US20080024834A1 (en) Information registration apparatus for registering information onto registering destination on network and method thereof
JP4293959B2 (ja) 画像処理装置、プログラム及び記録媒体
US9041951B2 (en) Program creation apparatus and computer-readable non-transitory storage medium with program creating program stored thereon
US8055998B2 (en) Processing instructions in a changed document object
JP2010108376A (ja) 通信装置、画像処理装置、画像処理システム、それらの制御方法、プログラム、記憶媒体
JP2006126941A (ja) 画像処理装置、画像処理方法、画像処理制御プログラム、及び記憶媒体
JP2006172083A (ja) 文書登録システム
JP6003263B2 (ja) 議事録作成支援装置、議事録作成支援システム、議事録作成支援方法、及びプログラム
KR102013620B1 (ko) 웹 기반 문서의 템플릿을 변경하는 웹 기반 문서 편집 서버 및 이의 동작 방법
JP2006099442A (ja) 情報処理装置、履歴ファイル作成方法、及びプログラム
JP2005011260A (ja) 文書管理装置、文書管理システム及び文書管理用プログラム
JP2006313489A (ja) 文書登録装置及びその制御方法、並びに制御プログラム
JP2008077499A (ja) オンライン印刷システム
JP2010039542A (ja) 業務情報管理システム
JP2006190080A (ja) 文書登録システム、文書登録方法、コンピュータプログラム
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
CN114968345A (zh) 代码处理方法、系统、计算设备及存储介质
JP2006302212A (ja) データベースへのデータ登録プログラム
JP2021064123A (ja) データ入力支援システム、データ入力支援方法、及びプログラム
JP5720350B2 (ja) 情報処理装置、情報処理プログラム、及び情報処理システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304