JP2006190080A - 文書登録システム、文書登録方法、コンピュータプログラム - Google Patents

文書登録システム、文書登録方法、コンピュータプログラム Download PDF

Info

Publication number
JP2006190080A
JP2006190080A JP2005001458A JP2005001458A JP2006190080A JP 2006190080 A JP2006190080 A JP 2006190080A JP 2005001458 A JP2005001458 A JP 2005001458A JP 2005001458 A JP2005001458 A JP 2005001458A JP 2006190080 A JP2006190080 A JP 2006190080A
Authority
JP
Japan
Prior art keywords
index
document
data
index data
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005001458A
Other languages
English (en)
Inventor
Noriko Matsuzawa
紀子 松澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005001458A priority Critical patent/JP2006190080A/ja
Publication of JP2006190080A publication Critical patent/JP2006190080A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 文書管理システムにおいて、画像に対して文字認識等を行い取得したインデックスの訂正を容易に行ない、正確なインデックスデータとする。
【解決手段】 本発明は、画像データ上の文字部に基づいて、インデックスデータを作成し、当該作成されたインデックスデータを、音声で順次読み上げることにより確認を行ない、前記チェック手段によるチェックに応じて、誤っていると判断されたインデックスデータの訂正処理を実行する。
【選択図】 図1

Description

本発明は、スキャナ等から取り込んだ文書画像データの文字部を文字認識処理によってテキストデータ化し、それを該文書画像データのインデックスデータとして登録する文書登録システムに関連する。
従来、文書登録システムにおいて、画像から文字認識処理(OCR処理)により文字情報を抽出してインデックスを作成するものが存在する(特許文献1)。
特開平09−016619号公報
しかしながら、OCR処理がすべて成功するとは限らないので、正しいインデックスを登録するためには、ユーザーが画像データとインデックスをひとつひとつ見て確認し、誤認識されていた場合は、キーボード入力等により訂正を行なう必要がある。その際、インデックスと画像データが連携して表示されていないため、不便であった。
上記課題を解決するために、本発明の文書管理システムは、画像データ上の文字部に基づいて、インデックスデータを作成するインデックス作成手段と、前記作成されたインデックスデータを、音声で順次読み上げることにより確認を行なうチェック手段と、前記チェック手段によるチェックに応じて、誤っていると判断されたインデックスデータの訂正処理を実行する訂正手段と、を有することを特徴とする。
本発明によれば、OCR処理により作成されたインデックスデータを順番に読み上げ、読み上げたインデックスデータに記号が含まれていた場合は、自動で訂正を行なうので、インデックスの確認、訂正作業の効率が上がる。また、読み上げるインデックスデータと同時にその画像データも順次更新して表示することで、更なる確認作業の効率向上・操作性向上が望める。更に、本発明では、OCR処理が誤認識をする場合、記号や半角文字等を認識結果とすることがあることを鑑みてインデックス訂正処理を行なう。したがって、本発明によれば、より正確なインデックスデータを作成できる。
(実施例1)
以下、図面を用いて本発明の実施例について説明する。
図1は、インデックスの確認処理フローを示す。ここでは、画像を取り込んだ際に作成されたインデックスの確認方法の流れを示す。
S1360では、図14に示すインデキシング処理を行なう。
S1361では、インデックスの確認を終了するか否かで分岐し、終了しない場合はS1362へ移行し、確認を終了する場合は処理を終了する。S1362では、図3に示すインデックスの読み上げ方法の指定処理を行なう。
S1363では、画像取り込み時にOCR処理により作成された次のインデックスの情報を取得し、S1364で、そのインデックスの含まれる画像部分を表示し、S1365で、そのインデックスを音声合成することにより読み上げる。S1364〜S1365では、インデックスの読み上げと同時に対応する画像部分の表示が行なわれることになる。なお、画像表示する際にインデックスの表示も行なうようにしてもよい。
S1366では、S1365で読み上げたインデックスのチェックを行なう。ここでは、ユーザーが読み上げられたインデックスをチェックするとともに、該インデックス中に記号が含まれているかどうか装置により確認を行なう。誤認識が含まれていないと判断した場合は、そのままS1361へ移行し、誤認識が含まれていると判断した場合(ユーザーが誤認識であると指示した場合、もしくは記号が含まれていると判断した場合)は、S1368に移行し、図4に示す訂正処理を行なった後、S1361へ移行する。
図2は、インデックスの登録処理フローを示す。ここでは、作成されたインデックスが未登録であった場合の新規登録の流れを示す。
S1370では、インデキシング処理により得られた文字列と、データベースに記憶されている文字列との比較検索を行なう。
S1371では、S1370の結果により分岐し、一致する文字列がデータベースに存在した場合には、新規登録せずに処理を終了する。一致する文字列がデータベースに存在しなかった場合、S1372へ移行する。
S1372で、キーボード入力により、インデックスを正しい文字列に修正し、S1373で、再びデータベースを参照し、今回は修正された文字列と正しい文字列との比較検索を行なう。一致する文字列がデータベースにあればS1375へ移行し、なければS1376へ移行する。
S1375では、修正された登録済みの正しい文字列に対応する、新規の誤認識パターンとして、修正前のインデックス文字列をデータベースに登録する。
S1376では、新規の正しい文字列として修正された文字列をデータベースに登録し、それに対応する新規の誤認識パターンとして修正される前のインデックスデータ文字列をデータベースに登録する。
なお、S1375とS1376の新規登録方法については、図23、24にそれぞれイメージ図を示す。
図3は、インデックスの読み上げ方法指定処理フローを示す。ここでは、インデックスを読み上げる方法を指定する。
S1380では、まず、1つのインデックスを複数の文書に対して順に読み上げるか(インデックス順)、それとも、複数のインデックスを1つの文書に対して読み上げるか(文書順)、を選択する。
なお、図25にこの処理のイメージを示す。この例で言うと、上図のインデックス順ではまず“あ”が読まれ、続いて“い”、“う”が読まれる。下図の文書順では、“い”、“お”、“く”の順に読まれる。
S1381では、読み上げる対象とするインデックスを1つ、または、複数指定する。
S1382では、読み上げる対象とする文書を1つ、または、複数指定する。
S1383で、確認をしてOKであれば、この処理を終了する。
図4は、インデックスの訂正処理フローを示す。ここでは、画像を取り込んだ際に作成されたインデックスが誤認識されていて、読み上げることが出来なかった際の訂正の流れを示す。
S1390では、読み上げることが出来ないインデックスをデータベースに登録された誤認識文字列と比較検索し、一致する文字列がなければS1392へ移行し、一致する文字列があれば、S1394へ移行する。
S1392では、正しいインデックスとしての文字列をキーボードより入力し、S1393で、図2に示すデータベースへのインデックスの新規登録処理を行なう。
S1394では、S1390での読み上げることが出来ないインデックス文字列に対応する、正しい文字列をデータベースから得て、それをインデックスとして自動で置き換える。S1395では、キーボード入力、または、置き換えられたインデックスを読み上げる。
S1396では、インデックスの訂正が正しく行なわれたかどうかの確認をし、S1397で、インデックスを保存する。
図5は、本提案による文書登録システムを導入したネットワークシステム構成図を示す。ここでは、ネットワーク上に次のリソースを配置されている。ユーザー端末(100、101、102)、ファクス受信、スキャナ機能を有するデバイス(110)、本発明による文書登録システム(120)、ファイルサーバ(130)、文書管理システム(140)。
各ユーザーは、ファイルサーバ、文書管理システムを用いて、各種文書の共有を図っている。文書の種類としては、一般的な文書作成アプリケーションによって作成される文書、スキャナで読みこまれた文書、ファクス受信された文書等各種混在している。
ファイルサーバ130では、一時的に使用される文書を中心に管理され、文書管理システム140では、長期に渡り保存が必要な文書を中心に管理され、必要な時に所定の文書を検索できるようになっている。
ここで、文書登録システム120は、デバイスサイドで生成される文書(ファックス受信文書、スキャナ読取文書等)、ファイルサーバで管理された文書を、所定のルールで自動的に文書管理サーバに登録する機能、文書取得時、文書解析時に得られる情報をもとに、検索情報として有効な情報を属性情報、検索情報として文書管理システムに登録する機能等をもたせることで、文書管理業務を支援するシステムとなっている。
また、手動で、各種属性情報を付加して文書管理システムに文書を登録させる機能、すでに文書管理システムに登録された文書の属性情報等を再編集できる機能等を提供している。
図6は、文書登録システム120におけるシステムブロックを示した図である。
<文書入力処理>
まず、文書入力処理部について説明する。
110はファクス受信、スキャナ機能を有するデバイスであり、デバイス制御部210により文書データ等のハンドリングがなされる。
デバイス制御部210においては、デバイス側から文書データを吸い上げたり、デバイス側から送信される文書データを受け取ったりする処理がなされる。
130はファイルサーバ等における文書が格納されたフォルダであり、フォルダ制御部212により文書データ等のハンドリングがなされる。
フォルダ制御部212においては、所定のフォルダを例えば定期的に監視し、文書の取得処理等を行なっている。
201は本システムにおける操作部となっており、各種システムの設定、操作を行なえるようになっているが、さらに、文書データをインポートする形態で、214ファイル制御部において、入力処理させることができるようになっている。
220は入力制御部であり、前記各種形態に対応した文書入力処理制御部を、同等のインターフェースによって制御できるようになっている。
<システム内部処理>
次に、システム内に配置される各種処理部について説明する。
221は、ジョブ制御部であり、後述するジョブの処理を行なう。
222は、文書データ処理部であり、画像フォーマット変換処理等を行なう。
223は、インデクス処理部であり、後述するインデクス処理に関する制御を行なう。
224は、データ管理部であり、後述するテンプレート、ワークシート、ジョブ等に関するデータを250のデータエリアに保存、管理する。
225は、OCR制御部であり、251に示す辞書データを用いて文字認識の精度を向上させている。
226は、フォーム解析部であり、252に示すフォームデータを管理、運用することで、各種フォーム、例えば帳票ファーマットの違い等を自動的に識別できるようになっている。
240は、メール処理部であり、主に、自動的に文書登録処理を行う際に、あらかじめ登録されたあて先にその結果を通知するために使用される。
<文書管理システムアクセス>
続いて、文書管理システムとのインターフェース部について説明する。
227は、文書管理システム制御部であり、文書管理システム140の種類に応じて提供されるアクセス制御部230を介して、文書、属性登録なり、すでに登録された文書属性なりの処理を行なう。
253では、文書管理システムにアクセスするにあたって必要なアクセスデータを管理し、254では、文書管理システムへ登録するデータを一時的に保存するデータエリアであり、文書登録時に、所定の画像変換等の文書データ処理が必要な場合、このエリアをバッファとして管理運用される。
図7は、本システムを運用する際の、基本操作フローを示す図である。
<基本的処理>
まず、手動で文書を取得と、インデックス(属性情報)入力を行ない、それらを文書管理システムに登録する基本的な流れを説明する。
S100で、後述するテンプレートの作成、登録を行なう。このテンプレートにおいて、文書登録対象となる文書管理システムのアクセス情報、管理されるスキーマ情報が管理される。
S101で、作成されたテンプレートを元に、後述するワークシート作成、登録を行なう。このワークシートにおいて、実際に属性登録を行なうフィールド等を設定する。また、本システムにおいては、取得した文書の管理、文書に対して付加する属性情等は、このワークシートを管理テーブルとして一連の処理が実行、管理されるようになっている。
S102で、作成されたワークシートを表示させる。
S103で、文書入力が実行されると、S104で、ワークシート上にその情報が登録管理され、S105で、必要なインデクス(属性)情報の入力、管理を行なう。
S106で、更に文書入力を行なう必要がある場合は、S103に処理を遷移させ、所定の文書を取得したならば、S107で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。
<ワークシート選択による処理>
すでに、ワークシートが登録されている場合、S110で、所定のワークシートを選択し、前述のS102の処理へ遷移する。
<入力ボタンを用いた処理>
すでに、入力起動ボタン設定がなされている場合は、S120で、その入力ボタンを押下することにより、S121で、設定された条件に応じた文書取得処理が行なわれ、S122で、各文書に応じて必要なインデックス入力をまとめで行なうことにより、S123で、一連の処理で取得、設定したデータを、文書管理システムへ登録処理する。
<ジョブ実行処理>
すでに、ジョブが登録されている場合は、S130で、登録されているジョブを選択し、S131で、所定のジョブを実行させることができるようになっている。
図8は、テンプレート作成処理フローを示す。
S200で、まず運用する文書管理システムへ接続させる。S201で、文書を格納させるフォルダ等に設定されているスキーマ情報(検索用インデックスとして運用可能な情報)等を取得する。S202で、文書管理システムへの接続情報なり、スキーマ情報を一括管理するテンプレートとして、識別情報(テンプレート名)を付加して保存する。
図9は、ワークシート作成処理フローを示す。ここでは、先に作成されたテンプレートに対して、実際の運用を行なうためのワークシートの作成、登録を行なう。
S300で、まず運用対象の文書管理システム情報が管理されたテンプレートを選択する。
S301で、テンプレートにて管理された元のスキーマ情報に対して、運用上必要のないものがあれば、そのフィールド選択等の編集を行なえるようになっている。
S302で、その編集作業を行なえるようになっているが、場合によっては、領域(フィールド)の拡張を指示できる。
S303で、所定の設定等を確認して内部的にワークシート作成処理を行ない、S304で、識別情報(ワークシート名)を付加して保存する。
図10は、フォーム登録処理フローを示す。所定のフォームのタイプを解析するために、基準となるフォームデータをここで登録処理する。
S400で、フォーム解析時の、基準となるイメージを取得する。
S401で、各種フォームを管理するフォーム管理シート上に、先に入手したイメージデータを登録させ、その管理下におく。
S402で、実際のフォーム解析処理をするフォーム解析部226にデータを渡し、所定の解析処理を行ない、必要なデータをフォームデータとして252で管理する。
S403で、新規追加されたフォームデータを識別情報(フォーム登録名)を付加して保存する。
図11は、エリア登録処理フローを示す。ここでは、画像データ上に所定のエリアを指定し、その内部を文字認識なりバーコード認識なりさせる設定フローを示している。S500では、まず基準となるフォームを選択する。
S501では、インデックス作成の際、ブロックセレクションにより得られるすべてのエリアを解析対象とするかを指定する。
S502では、ブロックセレクションによって得られたエリアに付加される番号の指定によって解析対象とするエリアを選択するかを指定し、Yesの場合はS503でその番号を指定する。
S504は、S502でNoを選択したときの処理で、エリア指定を行なう。ここでは、文字領域ごとにOCR処理を行なうために、文字情報上に所定のエリアを指定する。
S505では、登録されたエリアを含むものが複数存在した場合、そのすべてのエリアを解析対象とするか、登録されたエリアを一番多く含むものだけを解析対象とするかを設定する。
S506では、そのエリアの解析モードを指定する。ここでの解析モードは、基本的には、より認識率を向上させるための詳細な条件を設定する。英文、和文の指定、バーコード認識等の解析エンジンの指定等も合わせてここで、エリア毎に指定可能になっている。
S507では、他のエリア指定が必要ならば、S501に遷移させる。S508では、ここで設定されたデータを、フォーム登録データに対する付加情報として登録させている。
図12は、入力起動ボタン設定処理フローを示す。入力起動ボタンは、各種データソースからの入力処理を、ボタン押下により一括処理させるためのものであり、ここでは、その動作設定処理について示している。
S600では、まずワークシートを選択する。S601では、入力ソースを選択する。
S602は、スキャナ入力の場合である。このときは、S603で、スキャナに対する各種読取モードを設定する。
S604は、フォルダ入力の場合である。このときは、S605で、フォルダに対するアクセス権設定なり、フォルダに対するアクセス条件(ポーリング間隔等)の設定をする。
S610では、設定された条件を登録する。設定条件に応じて、ボタン名等を変えることにより、複数のボタンを使い分けて運用することができるようになっている。
図13は、入力起動ボタン処理フローを示す。ここでは、設定された入力起動ボタンを押下時の、処理フローについて示している。
S700では、まず設定モードを確認する。S710は、スキャナ設定された場合の処理であり、S711で所定の条件に従ったスキャンを行ない、S712でワークシートへの文書保存までを行っている。
S720は、フォルダ入力設定された場合の処理であり、S731で所定の条件に従ったフォルダの内容のチェックを行ない、その結果、S723で文書の存在が確認された場合は、S723で文書取得を行ない、S724でワークシートへ文書保存する。
S725は、定期的にフォルダ入力の確認を行なう設定時の処理であり、中止が指示された場合は、処理を中断し、そうでなければ、再度S721に遷移し、定期的に指定フォルダの内容を確認処理する。
図14は、インデクシング処理フローを示す。ここでは、インデクス処理全般に渡る処理フローについて示している。
S800では、自動処理か否かで処理を分岐している。自動処理の場合は、S815へ処理を遷移させ、そうでない場合は、順次ワークシート、フォームの選択をする。
S801では、まずワークシートの選択を行なう。S802では、そのまま手動でインデックス情報を入力する場合、S803で手動でのインデックス入力をし、S804でまだ処理すべき文書があればS800に戻り、なければ処理を終了する。
S810では、自動フォーム検出機能を利用するか否かで処理が分岐され、S811でフォーム検出処理を行った結果、所定のフォームが検出された場合はS812からS820に処理を遷移させ、自動フォーム検出機能を利用しない場合、フォーム検出できなかった場合は、S813において、手動で所定のフォームを選択する。
S820では、まず当該文書の解析対象エリアの有無を確認する。
S821では、当該文書におけるすべての設定されたエリアの処理が終了していれば、S804に遷移し、次文書の処理に移行する。
S822では、エリア登録での設定に従って3通りの方法のいずれかで自動でエリア選択する。その方法とは、全エリア選択の設定の場合、ブロックセレクションにより得られるすべてのエリアを選択する。また、エリア番号は指定されている場合は、ブロックセレクションによって割り振られる番号が登録された番号と一致するエリアのみを選択する。また、エリア登録でエリア指定がされている場合は、画像データ上でのブロックセレクションにより得られた各エリアに対し、その登録されたエリアと比較検索し、未処理のエリアを選択する。
S823では、所定の設定に準拠したエリア解析をする。
S824では、その結果により処理が分岐する。異常終了した場合は、S825で、まず自動処理モードかを判断して、自動処理モードでなければS826で手動入力させ、自動処理モードの場合は、暫定処理を行なう。S827での暫定処理としてはNGマークをつけたり、デフォルトとして規定した値を設定したりすることができるようになっている。
S830では、エリア処理した結果を一旦保存し、S820へ処理を遷移させることで、一連の処理を継続処理させるようになっている。
S815は、自動インデクス処理の前処理である。ワークシート自体はあらかじめ設定されていることを前提としているが、フォーム自体もあらかじめ設定されている場合は、そのままS816でOKとなり、S820に処理が遷移される。フォームを自動選択させる設定になっている場合は、この前処理においてフォーム検出処理をする。所定のフォームが検出された場合は、S816でOKとなり、S820に処理が遷移されるが、検出されなかった場合は、S817の後処理に遷移し、処理ができなかった文書として、ワークシート上に当該文書が管理されて、次文書の処理として、S804に処理が遷移される。
図15は、リリース(データ登録)処理フローを示す。ここでは、文書情報等を、文書管理システムへのデータ登録処理について示している。
S900では、自動リリースか否かで処理を分岐している。S901は、自動リリースの場合の処理であり、まず所定の設定情報を取得し、S902で所定の文書管理システムの格納フォルダへ接続処理を行ない、S920に処理を遷移させる。
S910は、自動リリースでない場合の処理であり、まずワークシート上に管理されている文書から、登録対象の文書の選択、登録後の文書の扱い(削除するか否か、等)を設定できるようになっている。
S911では、設定された文書管理システムへログイン処理し、文書を格納するフォルダを指定する。
S912では、文書登録時のオプション設定ができるようになっており、文書登録処理に関する実行ログをとる指定をしたり、文書登録時の文書フォーマットの変換設定をしたりできるようになっている。
S920は、文書管理システムへ登録する文書情報等を一旦内部の出力用データエリア254に保存する処理であり、S930は、フォーマット変換、もしくは、イメージデータのOCR解析結果を付加する処理等が指示された場合の処理であり、設定条件に従って、S931で所定の画像処理等を行なう。
S940で、準備された文書データ等を、所定の文書管理システムのフォルダへ登録処理を行ない、S950において、文書登録後の文書削除指示がなされていた場合、S951においてその処理を行ない、全体の処理を終了する。
図16は、ジョブ作成処理フローを示す。ここでは、各種処理を一括処理するためのジョブの設定を行なう手順を示している。
S1000は、自動文書取得ジョブ設定の場合であり、S1001において、使用するワークシートの設定、ならびにスキャナなり、フォルダからの文書取得のために必要な設定を行なう。
S1010は、自動インデクスジョブ設定の場合であり、S1011において、ワークシート、フォーム等、インデクス処理を自動的に処理するに必要な項目を設定する。
S1020は、自動リリース(文書登録)ジョブ設定の場合であり、S1021において、処理の対象となるワークシート、文書登録先(フォルダ)、文書の扱い等、自動リリース処理するに必要な情報を設定する。
S1030では、前記設定情報を、識別情報(ジョブ名)を付加して保存する。なお、ジョブとしては、前記各種ジョブを複数組み合わせた形態で定義、実行できるようになっている。
図17は、ジョブ実行処理フローを示す。ここでは、作成されたジョブの実行のあり方を示している。
S1100では、まずジョブを選択する。
S1101では、そのジョブを起動する。
S1100は、自動文書取得ジョブが設定されている場合の処理であり、S1111で設定に従った文書取得処理を行い、S1112で、読み取った文書をワークシート上に管理、保存する。
S1120は、インデックスジョブが設定されている場合の処理であり、S1121において、設定された条件に従って自動インデクス処理をする。
S1130は、自動リリース(文書登録)ジョブが設定されている場合の処理であり、S1131において設定された条件に従って自動リリース処理をする。
文書取得から、文書登録までをジョブに設定することで、一連の処理を一括処理させることが可能になっている。
図18は、拡張されたデバイス制御部のブロック図を示す。本システムにおいては、デバイス側から文書を取得する方式として、各種形態に柔軟に対応できるようになっている。
デバイス制御部A(210)は、デバイス側にアクセスして、文書を取得する形態に対応させている。この制御部を用いて、同等のアクセス方式に対応した複数デバイス(110,111)から文書データを取得できるようになっている。
デバイス制御部B(211)は、デバイス側からのアクセスにより、文書を取得する形態に対応させている。この場合も、同等のアクセス方式に対応した、任意のデバイス(112,113)から、文書を取得できるようになっている。
また、この形態の場合、独自にデータフォルダ300を設けて、複数のデバイスからの同時の文書転送処理に対応している。更には、このデータフォルダを、階層を有するフォルダとして構成することを可能として、デバイス側からフォルダパスを指定しての文書転送処理も可能としている。
なお、この場合のアクセスプロトコルとして、汎用的なファイル転送プロトコルを採用することにより、デバイス側の対応を容易にし、一般のコンピュータからも文書転送させることも可能になる。
更には、それぞれの場合において、独自の手順により、文書データ以外にも、当該文書データに関連した付加(属性)情報(例えば、各文書のオーナー情報、ファクス受信文書なら送信元情報等)を取得し、そのデータをシステム内で運用できる手段も用意している。
なお、独自の手順によらずとも取得可能な接続デバイスに関する情報も、複数のデバイスを入力デバイスとするとき、文書に対する付加情報として利用できるようになっている。
入力制御部220においては、各デバイス制御部から取得された文書データ等のデータを、統一的にハンドリングできるようになっている。
図19は、拡張された文書管理システム制御部のブロック図を示す。本システムにおいては、市場に存在する各種文書管理システムに対して、デバイス等から取得される文書データ、ならびにその付加情報を登録できるようなシステムを柔軟に構成できるようになっている。
ここでは、文書管理システムA(140)に対しては、アクセス制御部A(230)、文書管理システムB(141)に対しては、アクセス制御部B(231)を提供し、それぞれの文書管理システムに対応した例を示している。
文書管理システムの種類によって、そのアクセス手段なり、扱える文書のファイル形式が異なっているのが一般的である。
ここでは、各文書管理システムをアクセス、運用するにあたって必要な情報を、253において管理データとして管理し、システム内データとして運用されるようになっている。
図20は、リリース処理部詳細フローを示す。ここでは、文書管理システムへの文書データ等の登録(リリース)処理に関して補足する。
S1200は、リリース処理を開始するにあたっての初期設定処理であり、終了通知の要否の確認、終了通知先の情報取得処理等を行なう。
S1210は、データ登録すべきデータの有無の確認処理であり、無ければS1220へ処理を遷移する。
S1211は、文書管理システムへのデータ登録処理であり、S1212では、その結果に応じて、OKならばS1210へ、NGならばS1213へ処理を遷移させる。
S1213は、文書管理システムへのデータ登録がエラーした場合の処理であり、ここでは登録エラー文書として所定のワークシート上に文書等のデータを再登録し、追って手動による再登録処理ができるようになっている。
S1220では、終了通知の要否を判断し、必要なければ処理を終了する。
S1221では、データ登録処理の結果を確認し、エラーがなければあらかじめ登録された登録通知者あて先へ、メールにて新規に文書登録された旨通知処理を行ない、エラーが発生した場合は、あらかじめ登録されたエラー通知者あて先へ、エラー情報を通知処理されるようになっている。
図21は、自動文書処理フローを示す。ここでは、デバイス等から送られてくる文書データを、自動的に文書登録までの処理をさせるフローに関して説明する。
S1300では、後述する自動文書処理フローを実行するにあたって、事前に必要となる各種設定をし、この自動文書処理ルーチンの起動を行なう。
ここで行なう設定項目には、文書入力処理に関する設定、フォーム登録処理用に運用されるフォルダ、運用される属性の設定、ならびに各属性に対応した処理を行なうためのワークシートの設定、自動インデクスを行なうために運用されるフォームの設定等がある。
なお、運用される属性の例としては、以下のものがある。デバイスの種類、フォルダパス(ファイルサーバ130、デバイス制御部用データフォルダ300)、文書のオーナー情報、FAX受信文書における送信元情報、所定のエリア解析結果、など。
S1301では、文書入力の確認を行なっている。ここでは、デバイスからデバイス制御部経由で入力される文書データ、デバイス等からフォルダ制御部経由で入力される文書データを統一的に扱えるようになっている。
S1302では、入力が確認された文書が、どのルートで入ってきたかをまず確認し、S1310で、フォーム登録用フォルダからの文書と確認されれば、S1311で、自動的にフォーム登録用処理部を起動し、フォーム登録処理ができるようになっている。
S1320では、各種属性情報の解析をし、得られた属性情報に対応した処理が定義されているか否かを確認する。
属性情報としては、入力制御部220の処理で、すでに得られる情報と、この段階で自動インデクス処理に相当する処理を呼んで、フォーム解析してターゲットとする所定のエリアから得られる情報がある。
S1321では、もし対応する処理が検出されなかった場合に、S1323で当該文書一時保存処理し、追って手動で処理できるようになっている。
この後は、S1324で、自動リリース処理に必要な情報を設定し、S1330で、必要に応じて自動インデクス処理を行い、S1340で、自動リリース処理を行ない、S1350で、自動文書処理の終了要求がなされていれば処理を終了させ、そうでなければ、S1301に戻り、処理を継続する。
図22は、本提案によるインデックス自動訂正のイメージ図を示す。ここでは、図23に示すS1383での処理の説明で、画像を取り込む際にOCR処理によって作成された誤認識されたインデックスが、インデックスデータベースにすでに登録されていたことを前提とする。
仮に、画像を取り込む際にOCR処理によって作成されたインデックスが“あい**お”であったとすると、インデックスデータベースに登録された誤認識パターンの中から“あい**お”と一致する文字列を検索し、発見できたならばそれに対応する正しい文字列“あいうえお”を自動的に正しいインデックスとする。
図23は、本提案による誤認識文字列の新規登録イメージ図を示す。ここでは、図22に示すS1375での処理の説明で、画像を取り込む際にOCR処理により作成されたインデックスをデータベースの誤認識文字列から検索したが、見つからなかったので、自動訂正は行なわれずにキーボード入力によりインデックスの訂正が行なわれたということが前提である。
これは、キーボード入力により得られた文字列をデータベースの正しい文字列から検索した結果、すでに登録されていた場合で、その登録されていた正しい文字列に対する、誤認識文字列の新しいパターンとして新規登録する。
図24は、本提案による正しい文字列と誤認識文字列の新規登録イメージ図を示す。ここでは、図22に示すS1376での処理の説明で、OCR処理により作成されたインデックスをデータベースの誤認識文字列から検索したが、見つからなかったので、自動訂正は行なわれずにキーボード入力によりインデックスの訂正が行なわれたということが前提である。
これは、キーボード入力により得られた文字列をデータベースの正しい文字列から検索した結果、まだ登録されていなかった場合で、キーボード入力による訂正後の文字列を正しい文字列として、OCR処理によって作成された訂正前の文字列をそれに対する誤認識文字列のパターンとして、それぞれ新規登録する。
本発明によれば、OCR処理により作成されたインデックスデータを順番に読み上げ、読み上げたインデックスデータに記号が含まれていた場合は、自動で訂正を行なうので、インデックスの確認、訂正作業の効率が上がる。また、読み上げるインデックスデータと同時にその画像データも順次更新して表示することで、更なる確認作業の効率向上・操作性向上が望める。更に、本発明では、OCR処理が誤認識をする場合、記号や半角文字等を認識結果とすることがあることを鑑みてインデックス訂正処理を行なう。したがって、本発明によれば、より正確なインデックスデータを作成できる。
(その他の実施例)
なお、上述したような本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、コンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザーに対してダウンロードさせるサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザーに配布し、所定の条件をクリアしたユーザーに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
インデックスの確認処理フロー図 インデックスの登録処理フロー図 インデックスの読み上げ方法指定処理フロー図 インデックスの訂正処理フロー図 システム構成図 システムブロック図 基本操作フロー図 テンプレート作成処理フロー図 ワークシート作成処理フロー図 フォーム登録処理フロー図 エリア登録処理フロー図 入力起動ボタン設定処理フロー図 入力起動ボタン処理フロー図 インデキシング処理フロー図 リリース処理フロー図 ジョブ作成処理フロー図 ジョブ実行処理フロー図 拡張されたデバイス制御部のブロック図 拡張された文書管理システム制御部のブロック図 リリース処理部詳細フロー図 自動文書処理フロー図 インデックスの自動訂正イメージ図 誤認識文字列の新規登録イメージ図 正しい文字列と誤認識文字列の新規登録イメージ図 読み上げる基準の指定のイメージ図

Claims (12)

  1. 画像データ上の文字部に基づいて、インデックスデータを作成するインデックス作成手段と、
    前記作成されたインデックスデータを、音声で順次読み上げることにより確認を行なうチェック手段と、
    前記チェック手段によるチェックに応じて、誤っていると判断されたインデックスデータの訂正処理を実行する訂正手段と、
    を有することを特徴とする文書管理システム。
  2. 前記チェック手段では、前記作成されたインデックスデータに記号が含まれているかどうか判断することを特徴とする請求項1に記載の文書管理システム。
  3. 前記訂正手段では、予め登録されている登録インデックスに基づいて、訂正処理を行うことを特徴とする請求項1に記載の文書管理システム。
  4. 前記訂正手段で訂正されたインデックスのパターンを学習する学習手段を更に有することを特徴とする請求項1に記載の文書管理システム。
  5. 前記チェック手段は、インデックスデータを読み上げる方法を指定する指定手段を含み、
    前記指定手段により指定された方法に従って、インデックスデータを、順次読み上げていくことを特徴とする請求項1に記載の文書管理システム。
  6. 前記インデックス作成手段は、前記画像データ上の文字部を文字認識処理することにより、前記インデックスデータを作成することを特徴とする請求項1に記載の文書管理システム。
  7. 前記チェック手段は、インデックスデータを読み上げる音声にあわせて、当該インデックスデータの元の画像データを表示することを特徴とする請求項1に記載の文書管理システム。
  8. 前記学習手段は、正しい文字列に対して、誤認識された複数のインデックスパターンを対応付けて学習することが可能であることを特徴とする請求項4に記載の文書管理システム。
  9. 前記訂正手段は、前記作成されたインデックスデータの文字列を、登録されたインデックスのパターンから検索し、誤認識されたパターンとして登録されていれば、それに対応する正しい文字列をインデックスとして自動で置き換えることを特徴とする請求項1に記載の文書管理システム。
  10. 画像データ上の文字部に基づいて、インデックスデータを作成するインデックス作成ステップと、
    前記作成されたインデックスデータを、音声で順次読み上げることにより確認を行なうチェックステップと、
    前記チェックステップによるチェックに応じて、誤っていると判断されたインデックスデータの訂正処理を実行する訂正ステップと、
    を有することを特徴とする文書管理方法。
  11. 画像データ上の文字部に基づいて、インデックスデータを作成するインデックス作成ステップと、
    前記作成されたインデックスデータを、音声で順次読み上げることにより確認を行なうチェックステップと、
    前記チェックステップによるチェックに応じて、誤っていると判断されたインデックスデータの訂正処理を実行する訂正ステップと、
    の各ステップをコンピュータに実行させるためのプログラムコードを含むことを特徴とするコンピュータプログラム。
  12. 請求項11に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。
JP2005001458A 2005-01-06 2005-01-06 文書登録システム、文書登録方法、コンピュータプログラム Withdrawn JP2006190080A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005001458A JP2006190080A (ja) 2005-01-06 2005-01-06 文書登録システム、文書登録方法、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005001458A JP2006190080A (ja) 2005-01-06 2005-01-06 文書登録システム、文書登録方法、コンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006190080A true JP2006190080A (ja) 2006-07-20

Family

ID=36797225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005001458A Withdrawn JP2006190080A (ja) 2005-01-06 2005-01-06 文書登録システム、文書登録方法、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006190080A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248480A (ja) * 2010-05-24 2011-12-08 Pfu Ltd 帳票作成装置、帳票作成プログラム、および帳票作成方法
US11205942B2 (en) 2017-03-22 2021-12-21 Mitsubishi Electric Corporation Motor including a balance weight and compressor provided with the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248480A (ja) * 2010-05-24 2011-12-08 Pfu Ltd 帳票作成装置、帳票作成プログラム、および帳票作成方法
US9047265B2 (en) 2010-05-24 2015-06-02 Pfu Limited Device, method, and computer readable medium for creating forms
US11205942B2 (en) 2017-03-22 2021-12-21 Mitsubishi Electric Corporation Motor including a balance weight and compressor provided with the same

Similar Documents

Publication Publication Date Title
JP5173594B2 (ja) 管理装置、画像形成装置及びそれらの処理方法
JP5407209B2 (ja) 文書管理装置、文書管理プログラム、及び文書管理システム
US8014039B2 (en) Document management system, a document management method, and a document management program
JP2010044544A (ja) 画像処理装置、情報処理装置、情報処理方法、及びプログラム
JP5146479B2 (ja) 文書管理装置、文書管理方法、文書管理プログラム
US8356279B2 (en) Program-generating device and method, program for implementing the program-generating method, and storage medium
JP2009253771A (ja) 出力装置とその制御方法
JPWO2009104268A1 (ja) パッチ候補選択装置、パッチ候補選択プログラムおよびパッチ候補選択方法
JP4261783B2 (ja) 文書登録システム、方法、プログラム及び記憶媒体
JP2003162436A (ja) 文書登録システム、方法、プログラム及び記憶媒体
US7752603B2 (en) Systems and methods for data interchange among autonomous processing entities
JP4305510B2 (ja) 情報処理システム、情報処理装置及びプログラム
JP2007048009A (ja) 作業支援システム、そのデータベースサーバ、作成管理装置、プログラム
JP4948641B1 (ja) 情報処理装置、送信先指定方法、およびそのプログラム
JP4293959B2 (ja) 画像処理装置、プログラム及び記録媒体
JP2006313489A (ja) 文書登録装置及びその制御方法、並びに制御プログラム
JP2006126941A (ja) 画像処理装置、画像処理方法、画像処理制御プログラム、及び記憶媒体
JP2006190080A (ja) 文書登録システム、文書登録方法、コンピュータプログラム
JP2006172083A (ja) 文書登録システム
JP2007208664A (ja) 文書記憶システム及び記憶装置
JP2006190081A (ja) 文書登録システム、文書登録方法、コンピュータプログラム
JP2008176710A (ja) 文書管理システム、文書管理装置および文書管理プログラム
JP2015187848A (ja) 文書管理システム、画像処理装置、情報処理装置、文書管理方法およびプログラム
JP2006172084A (ja) 文書管理システム、文書管理方法、及びプログラム
JP2006171938A (ja) 文書登録システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080401