JP2004280274A - 情報読み取り装置、方法およびプログラム - Google Patents

情報読み取り装置、方法およびプログラム Download PDF

Info

Publication number
JP2004280274A
JP2004280274A JP2003068366A JP2003068366A JP2004280274A JP 2004280274 A JP2004280274 A JP 2004280274A JP 2003068366 A JP2003068366 A JP 2003068366A JP 2003068366 A JP2003068366 A JP 2003068366A JP 2004280274 A JP2004280274 A JP 2004280274A
Authority
JP
Japan
Prior art keywords
document
reading
information
discharging
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003068366A
Other languages
English (en)
Inventor
Norihiro Shoda
教浩 庄田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003068366A priority Critical patent/JP2004280274A/ja
Publication of JP2004280274A publication Critical patent/JP2004280274A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】OCR処理を行う必要がある書類と必要のない書類が混在した書類であっても、すべて読み取り装置に掛けることで、自動的にOCR処理が必要ない書類を除いてOCR処理を行い、当初の書類の順番通りに排出することができる情報読み取り装置、方法およびプログラムを提供する。
【解決手段】判別手段14bによって読み取りを行う書類が識別情報を備えているかどうかを判別し、識別情報を備えていると判別した場合には、読み取り手段14cによって書類の読み取りが行われ、書類が排出手段13に排出され、一方、識別情報を備えていないと判別された場合には、書類の読み取りが行われずに排出手段13に書類が排出される。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、書類に書き込まれた情報を読み取り、前記情報のデータ化する技術に係り、特に、データ化が必要な書類と不必要な書類とが混在した場合に用いられる情報読み取り装置、方法およびプログラムに関する。
【0002】
【従来の技術】
従来、書類をデータ化する場合には、例えば、テキスト文書が含まれている書類をOCR(Optical Character Recognition)を行いテキスト化する際、これらの書類に添付資料としてテキスト化が必要ない書類が混在している場合がある。この場合には、テキスト化が必要ない添付資料である書類を手作業で仕分けを行い、テキスト化を行う書類だけを取りだした後、OCR処理を行う。OCR処理を行った後に、OCR処理が行われた書類と、OCR処理が行われなかった添付資料等の書類とを手作業で当初の書類の順番通りに並び替えて整える、いわゆる編てつという作業を行う。
【0003】
また前述のOCR処理を行う場合には、OCR処理を行う書類にID等の識別情報が付与されており、この識別情報を読み取ることで、書類の紙面内の内OCR処理を行う範囲を特定している。または、識別情報として書類の紙面の罫線等のレイアウトを読み取り、これらのレイアウト情報と予め記憶してあるレイアウト情報とを比較し、OCR処理を行う範囲を特定している。(例えば、特許文献1参照)。
【0004】
【特許文献1】
特開平7−160799号公報
【0005】
【発明が解決しようとする課題】
ところが、このような構成では、OCR処理の前にOCR処理を行う書類と行わない書類とを手作業で仕分けすることが必要となる。さらに、OCR処理を行った後にも、手作業でOCR処理を行った書類と行わなかった書類とに対して編てつ作業を行う必要がある。
【0006】
この発明は上記事情に着目してなされたもので、その目的とするところは、OCR処理を行う必要がある書類と必要のない書類が混在した書類であっても、すべて読み取り装置に掛けることで、自動的にOCR処理が必要ない書類を除いてOCR処理を行い、当初の書類の順番通りに排出することができる情報読み取り装置、方法およびプログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明はかかる課題を解決するものであり、請求項1の発明に係る情報読み取り装置は、取り込んだ書類を排出する排出部を備え、前記書類に書き込まれた情報を読み取り、前記情報のデータ化を行い、前記排出部に排出する情報読み取り装置であって、前記書類が読み取りを行うか否かを判別する識別情報を備えているか否かを判別する判別手段と、前記判別手段によって識別情報を備えていると判別された場合には、前記書類に書き込まれた情報の読み取りを行い、データ化を行う読み取り手段と、前記読み取り手段によって読み取られた書類を前記排出部から排出させる第1の排出手段と、前記判別手段によって識別情報を備えていないと判別された場合には、前記書類の読み取りを行わずに前記排出部から排出させる第2の排出手段とを備えたことを特徴とする。
【0008】
したがって請求項1の発明は、まず、読み取りを行う書類が識別情報を備えているかどうかが判別される。そして、識別情報を備えていると判別された場合には、書類の読み取りが行われ、書類が排出部に排出される。一方、識別情報を備えていないと判別された場合には、書類の読み取りが行われずに排出部に書類が排出される。このため、読み取り処理を行う書類と行わない書類とが混在した書類であっても、手作業で読み取り処理を行う書類だけを分けておく必要がない。
【0009】
また、請求項2の発明に係る情報読み取り装置は、前記排出部は、前記判別手段によって判別された順に書類を排出するようにしたことを特徴とする。
【0010】
したがって請求項2の発明は、第1の排出手段および第2の排出手段は、同時には行われず、第1の排出手段の終了後に第1または第2の排出手段が行われる、または第2の排出手段の終了後に第1または第2の排出手段が行われる。このため、当初の書類の順番の通りに読み取りが行われ、排出されるので、読み取り後の編てつ作業が不要となる。
【0011】
また、請求項3の発明に係る情報読み取り装置は、前記判別手段によって識別情報を備えていないと判別された場合には、読み取りを行うかどうかの指示cを促す表示をすることを特徴とする。
【0012】
したがって請求項3の発明は、読み取りを行う書類が識別情報を備えていないと判別された場合には、読み取りを行うかどうかの指示を促す表示が行われる。このため、書類の識別情報が判別できずにOCR処理が行われなかった場合でも、再度、OCR処理を行うかどうかの確認を促すことで必要なOCR処理を行うことが出来る。また、OCR処理の読み取り率が低い可能性がある書類などは、手動で入力する方がよい場合等には、無駄なOCR処理を削減することができる。さらに、排出手段を正常終了の排出手段と分けて設けることで、正常終了した書類だけを容易に入手することができる。
【0013】
また本発明の請求項4は請求項1の方法のカテゴリに該当する請求項であり、請求項1と同様の効果を奏する。
【0014】
また本発明の請求項5は、請求項2のプログラムのカテゴリに該当する請求項であり、請求項1と同様の効果を奏する。
【0015】
【発明の実施の形態】
(第1の実施形態)
図1は、この発明に係わる書類読み取り排出方法を適用した情報読み取り装置の一実施形態であるスキャナ装置の構成を示すブロック図である。
【0016】
スキャナ装置10は、少なくとも書類の読み取りや認識排出等の制御を行うためのCPU等で構成される制御手段11と、読み取るための書類を挿入する挿入手段12と、読み取った書類を排出する排出手段13と、制御ソフトウエア14a等の各種ソフトウエアまたは読み取った情報を記憶する記憶装置14とから構成されている。また、制御ソフトウエア14aは、挿入された書類の読み取り領域を指定する指定情報等に対応する識別情報を備えているかどうかを判別する判別手段14bと、書類が備えている識別情報に対応する読み取り領域指定情報を予め記憶している領域指定情報記憶領域14dと、判別手段14bによって書類が識別情報を備えていると判別した場合に、識別情報に対応する読み取り領域指定情報を領域指定情報記憶領域14dから読み出し、読み出された領域指定情報に基づいて書類の指定領域の情報を読み取る読み取り手段14cとを少なくとも有している。
【0017】
なお、識別情報とは、書類の隅などに記載されているID情報(例えば、ID:123等の英数字)、または罫線等で構成された書類のフォーマット(書式)情報である。これらの識別情報、例えば、ID情報であれば、ID:123を判別手段14bが判別すると、このID:123に対応した読み取り領域指定情報が領域指定情報記憶領域14dから読み出され、この読み取り領域指定情報に基づいて、例えば、書類の所定の罫線の枠内の領域がOCR処理にて読み取られる。一方、識別情報がフォーマット(書式)情報である場合は、読み取った書類の罫線等のフォーマット情報に一致した読み取り領域指定情報が領域指定情報記憶領域14dから読み出され、この読み取り領域指定情報に基づいて、例えば、書類の所定の罫線の枠内の領域がOCR処理にて読み取られる。
【0018】
また、排出手段13を当該スキャナ装置10に2つ設け、この内1つを通常の書類の排出用とし、もう1つを全く読み取り不可能であった書類等を排出する専用の排出手段とするなど、排出手段13を2つ以上設けてもよい。また、書類とは、一般的な紙の書類に限らず、OHP等のフィルムシート等、スキャナで読み取り可能なものであればよい。
【0019】
次に、図2は、この発明に係わる書類読み取り排出プログラムを適用した情報読み取り装置の動作の一実施形態を示すフローチャートである。
【0020】
書類読み取り排出プログラムである制御ソフトウエア14aは、ステップS1で、挿入手段12から制御手段11によって読み取られた書類が識別情報を備えているかどうかを判別手段14bで判別する。ステップS1で、制御ソフトウエア14aは、読み取られた書類が識別情報を備えていないと判別した場合は、添付資料等のOCR処理が必要でない書類等であり、ステップS4で、排出手段13に書類を排出する。一方、ステップS1で、制御ソフトウエア14aは、読み取られた書類が識別情報を備えていると判別した場合は、ステップS2で、制御ソフトウエア14aの読み取り手段14cは、書類の読み取り処理であるOCR処理を行う。このとき、制御ソフトウエア14aの読み取り手段14cは、判別した識別情報に基づいて、識別情報に対応する読み取り領域指定情報を領域指定情報記憶領域14dから読み出し、この読み取り領域指定情報に基づいて、例えば、書類の所定の罫線の枠内の領域のOCR処理を行う。そして、制御ソフトウエア14aは、ステップS3で、OCR処理を行った書類に読み取り済みであることを示す番号(例えば、シリアルな通し番号)を打刻して、ステップS4で、排出手段13に排出する。
【0021】
また、本実施の形態に記載した方法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピーディスク、ハ一ドディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含むものである。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。
【0022】
なお、一連の処理は、書類の1枚1枚に対してシリアルに行われるため、OCR処理を行った書類と、行わなかった添付資料等の書類とは、スキャナ装置10に挿入される前と同じ順番で排出手段13に排出されるため、従来のように編てつ作業を行う必要がない。
【0023】
(第2の実施形態)
図3は、この発明に係わる書類読み取り排出プログラムを適用した情報読み取り装置の動作の一実施形態を示すフローチャートである。第1の実施形態との相違点は、スキャナ装置に挿入された書類が識別情報を備えていなかった場合に、そのまま排出手段に排出せずに、OCR処理を行うべきか否かの選択を促す表示をする点である。また、第1の実施形態と同じ構成箇所は、同じ符号で表し、詳しい説明は前述に譲る。
【0024】
第2の実施形態に係る情報読み取り装置であるスキャナ装置10は、第1の実施形態の排出手段13と異なり、第1の排出手段13aと第2の排出手段13bとの2つとなっている。また、ユーザに各種の情報を表示するための表示手段15をさらに備えている。
【0025】
次に、図4は、この発明に係わる書類読み取り排出プログラムを適用した情報読み取り装置の動作の一実施形態を示すフローチャートである。
【0026】
書類読み取り排出プログラムである制御ソフトウエア14aは、ステップS10で、挿入手段12から制御手段11によって読み取られた書類が識別情報を備えているかどうかを判別手段14bで判別する。ステップS10で、制御ソフトウエア14aは、読み取られた書類が識別情報を備えていないと判別した場合は、添付資料等のOCR処理が必要でない書類等である可能性が高いが、さらにステップS14で、表示手段15に対して、OCR処理が必要かどうかの選択表示を行う。ステップS14で、OCR処理が必要であると選択された場合(例えば、ID情報等が汚れて判別できなかった場合)には、ステップS11で、制御ソフトウエア14aの読み取り手段14cは、書類の読み取り処理であるOCR処理を行う。このとき、制御ソフトウエア14aの読み取り手段14cは、判別した識別情報に基づいて、識別情報に対応する読み取り領域指定情報を領域指定情報記憶領域14dから読み出し、この読み取り領域指定情報に基づいて、例えば、書類の所定の罫線の枠内の領域のOCR処理を行う。そして、制御ソフトウエア14aは、ステップS12で、OCR処理を行った書類に読み取り済みであることを示す番号を打刻して、ステップS13で、第1の排出手段13aに排出する。また、ステップS10で、制御ソフトウエア14aは、読み取られた書類が識別情報を備えていると判別した場合は、ステップS11に遷移し、以降ステップS12、ステップS13と上述した処理を行う。
【0027】
ステップS14で、OCR処理が必要でないと選択された場合には、OCR処理の読み取り率が低い可能性があると判断されたり、書類が折れ曲がっていたり、読み取りが不可能な場合等であり、この場合には、制御ソフトウエア14aはステップS15で、第1の排出手段13aとは別の第2の排出手段13bに排出する。
【0028】
以上のような構成により、第1の実施形態の効果に加えて、書類の識別情報が判別できずにOCR処理が行われなかった場合でも、再度、OCR処理を行うかどうかの確認を促すことで必要なOCR処理を行うことが出来る。また、OCR処理の読み取り率が低い可能性がある書類などは、手動で入力する方がよい場合等には、無駄なOCR処理を削減することができる。さらに、排出手段を正常終了の排出手段と分けて設けることで、正常終了した書類だけを容易に入手することができる。
【0029】
【発明の効果】
以上詳述したようにこの発明によれば、OCR処理を行う必要がある書類と必要のない書類が混在した書類であっても、すべて読み取り装置に掛けることで、自動的にOCR処理が必要ない書類を除いてOCR処理を行い、当初の書類の順番通りに排出することができる。
【図面の簡単な説明】
【図1】この発明の第1の実施形態に係わる書類読み取り排出方法を適用した情報読み取り装置の一実施形態であるスキャナ装置の構成を示すブロック図。
【図2】この発明の第1の実施形態に係わる書類読み取り排出プログラムを適用した情報読み取り装置の動作の一実施形態を示すフローチャート。
【図3】この発明の第2の実施形態に係わる書類読み取り排出方法を適用した情報読み取り装置の一実施形態であるスキャナ装置の構成を示すブロック図。
【図4】この発明の第2の実施形態に係わる書類読み取り排出プログラムを適用した情報読み取り装置の動作の一実施形態を示すフローチャート。
【符号の説明】
10…スキャナ装置、11…制御手段、12…挿入手段、13…排出手段、13a…第1の排出手段、13b…第2の排出手段、14a…制御ソフトウエア、14…記憶装置、14b…判別手段、14d…領域指定情報記憶領域、14c…取り手段、15…表示手段

Claims (5)

  1. 取り込んだ書類を排出する排出部を備え、前記書類に書き込まれた情報を読み取り、前記情報のデータ化を行い、前記排出部に排出する情報読み取り装置であって、
    前記書類が読み取りを行うか否かを判別する識別情報を備えているか否かを判別する判別手段と、
    前記判別手段によって識別情報を備えていると判別された場合には、前記書類に書き込まれた情報の読み取りを行い、データ化を行う読み取り手段と、
    前記読み取り手段によって読み取られた書類を前記排出部から排出させる第1の排出手段と、
    前記判別手段によって識別情報を備えていないと判別された場合には、前記書類の読み取りを行わずに当該書類を前記排出部から排出させる第2の排出手段と、
    を備えたことを特徴とする情報読み取り装置。
  2. 前記排出部は、前記判別手段によって判別された順に書類を排出するようにしたことを特徴とする請求項1に記載の情報読み取り装置。
  3. 前記判別手段によって識別情報を備えていないと判別された場合には、書類に書き込まれた情報の読み取りを行うかどうかの指示を促す表示手段を備えることを特徴とする請求項1または2に記載の情報読み取り装置。
  4. 前記書類に書き込まれた情報を読み取り、前記情報のデータ化を行い、前記排出部に排出する情報読み取り装置を用いた書類読み取り排出方法であって、
    前記書類が読み取りを行うか否かを判別する識別情報を備えているか否かを判別する判別ステップと、
    前記判別ステップによって識別情報を備えていると判別された場合には、前記書類に書き込まれた情報の読み取りを行い、データ化を行う読み取りステップと、
    前記読み取りステップによって読み取られた書類を排出部から排出させる第1の排出ステップと、
    前記判別ステップによって識別情報を備えていないと判別された場合には、前記書類に書き込まれた情報の読み取りを行わずに当該書類を前記排出部に排出する第2の排出ステップと、
    を有することを特徴とする書類読み取り排出方法。
  5. 書類に書き込まれた情報を読み取り、前記情報のデータ化を行い、排出部に排出する情報読み取り装置で用いられるプログラムあって、
    前記書類が読み取りを行うか否かを判別する識別情報を備えているか否かを判別する判別手順、
    前記判別手順によって識別情報を備えていると判別された場合には、前記書類に書き込まれた情報の読み取りを行う読み取り手順、
    前記読み取り手順によって読み取られた書類を前記排出部から排出させる第1の排出手順、
    前記判別手順によって識別情報を備えていないと判別された場合には、前記書類に書き込まれた情報の読み取りを行わずに当該書類を前記排出部に排出する第2の排出手順、
    をコンピュータに実行させるためのプログラム。
JP2003068366A 2003-03-13 2003-03-13 情報読み取り装置、方法およびプログラム Pending JP2004280274A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003068366A JP2004280274A (ja) 2003-03-13 2003-03-13 情報読み取り装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003068366A JP2004280274A (ja) 2003-03-13 2003-03-13 情報読み取り装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2004280274A true JP2004280274A (ja) 2004-10-07

Family

ID=33285723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003068366A Pending JP2004280274A (ja) 2003-03-13 2003-03-13 情報読み取り装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2004280274A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026077A (ja) * 2007-07-19 2009-02-05 Canon Inc 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体
JP2018506087A (ja) * 2015-02-04 2018-03-01 バットボックス・リミテッドVatbox, Ltd. 複数の文書を盛り込んだ画像から文書画像を抽出するためのシステムおよび方法
US10509811B2 (en) 2015-11-29 2019-12-17 Vatbox, Ltd. System and method for improved analysis of travel-indicating unstructured electronic documents
US10558880B2 (en) 2015-11-29 2020-02-11 Vatbox, Ltd. System and method for finding evidencing electronic documents based on unstructured data
US11138372B2 (en) 2015-11-29 2021-10-05 Vatbox, Ltd. System and method for reporting based on electronic documents

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026077A (ja) * 2007-07-19 2009-02-05 Canon Inc 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体
JP2018506087A (ja) * 2015-02-04 2018-03-01 バットボックス・リミテッドVatbox, Ltd. 複数の文書を盛り込んだ画像から文書画像を抽出するためのシステムおよび方法
US10621676B2 (en) 2015-02-04 2020-04-14 Vatbox, Ltd. System and methods for extracting document images from images featuring multiple documents
US10509811B2 (en) 2015-11-29 2019-12-17 Vatbox, Ltd. System and method for improved analysis of travel-indicating unstructured electronic documents
US10558880B2 (en) 2015-11-29 2020-02-11 Vatbox, Ltd. System and method for finding evidencing electronic documents based on unstructured data
US11138372B2 (en) 2015-11-29 2021-10-05 Vatbox, Ltd. System and method for reporting based on electronic documents

Similar Documents

Publication Publication Date Title
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JPH03161873A (ja) データベース構築機能を有する電子フアイリング装置
JP2006224665A (ja) 印刷装置
JP2006301695A (ja) 文書処理装置およびプログラム
JP2004280274A (ja) 情報読み取り装置、方法およびプログラム
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
US8749854B2 (en) Image processing apparatus, method for performing image processing and computer readable medium
US8743391B2 (en) Image processing apparatus, image processing method, and computer program product
JP2004157588A (ja) 画像処理装置
JP2001005831A (ja) ファイリング方法及びそれを格納した記録媒体
JP2005208934A (ja) 文書配信処理装置及び文書配信処理プログラム
JP2004164376A (ja) 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム
JP4645349B2 (ja) 情報処理装置およびプログラム
JP2000099504A (ja) 文字処理装置および記録媒体
JP2008244612A (ja) 画像処理装置及び方法
JP3886133B2 (ja) 情報処理装置及び方法、並びにプログラム
JP2008066819A (ja) 画像形成装置
JPH07152856A (ja) 光学的文字読取装置
JP2017195499A (ja) 画像蓄積装置及び画像蓄積プログラム
JP4857198B2 (ja) 画像処理装置
US20100134849A1 (en) Image processing apparatus, image processing method and computer readable medium
JP2001270163A (ja) 画像形成装置および画像データの出力方法
JP2020127121A (ja) 情報処理装置
JPH1055405A (ja) 住所録読み取り装置及び住所録読み取り方法
JP2019003269A (ja) 情報処理装置及び情報処理プログラム