JP2019168747A - 文書読取装置及びプログラム - Google Patents

文書読取装置及びプログラム Download PDF

Info

Publication number
JP2019168747A
JP2019168747A JP2018053866A JP2018053866A JP2019168747A JP 2019168747 A JP2019168747 A JP 2019168747A JP 2018053866 A JP2018053866 A JP 2018053866A JP 2018053866 A JP2018053866 A JP 2018053866A JP 2019168747 A JP2019168747 A JP 2019168747A
Authority
JP
Japan
Prior art keywords
document
reading
reading position
ocr
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018053866A
Other languages
English (en)
Other versions
JP7059734B2 (ja
Inventor
茜 阿部
Akane Abe
茜 阿部
和宏 大谷
Kazuhiro Otani
和宏 大谷
岡田 茂
Shigeru Okada
茂 岡田
邦彦 小林
Kunihiko Kobayashi
邦彦 小林
清水 淳一
Junichi Shimizu
淳一 清水
山口 聡之
Satoyuki Yamaguchi
聡之 山口
真太郎 安達
Shintaro Adachi
真太郎 安達
慎也 中村
Shinya Nakamura
慎也 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018053866A priority Critical patent/JP7059734B2/ja
Publication of JP2019168747A publication Critical patent/JP2019168747A/ja
Application granted granted Critical
Publication of JP7059734B2 publication Critical patent/JP7059734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】利用者が、読み取るべき2以上の同一または類似する形式の文書の全てに対して読取位置をマーキングする手間を省く。【解決手段】文書読取装置としての画像処理装置は、スキャナモジュール、制御部124及び記憶部123を備える。制御部124は、読取位置21が設定されている第1文書20を読み取り、読取位置情報として記憶装置123に記憶する。第1文書20と同一または類似形式であって、読取位置21が設定されていない第2文書22を読み取る際の読取位置を、記憶装置123に記憶された読取位置情報を用いて特定する。【選択図】図2

Description

本発明は、文書読取装置及びプログラムに関する。
特許文献1には、文字認識を行う端末と中央制御装置間で通信を行う通信システムにおいて、処理効率を向上する通信システムが記載されている。移動端末は、スキャナで読み取られた原稿の種類を示す原稿IDを含む画像データに対し、制御信号に基づいて文字認識部で文字認識を行い、原稿IDを原稿ID認識部で認識する。中央制御装置へ文字認識結果及び原稿ID認識結果を文字認識結果・原稿ID送信部で送信し、中央制御装置より画像信号の制御信号を閾値・位置情報受信部で受信する。中央制御装置は、移動端末より文字認識結果及び原稿ID認識結果を文字認識結果・原稿ID受信部で受信し、画像信号の制御信号を移動端末へ閾値・位置情報送信部で送信する。原稿ID認識結果に基づいて、画像信号の制御信号を閾値制御部で制御する。
特許文献2には、登録シートから文書属性を判断できるようにし、ユーザの作業の負担を軽減する文書管理システムが記載されている。文書管理サーバに記録されている文書属性に応じた文書保存先情報を記載した登録シートを印刷し、その登録シートを含む紙書類をスキャンすることで電子化されたイメージ文書を作成する。次にこのイメージ文書から登録シートを抽出した上で、OCR(Optical Character Recognition)処理を行い、この結果を用いて文書属性の判定処理をする。さらに、この文書属性に対応してイメージ文書をページ毎に体裁を整えるための整理処理、および、イメージ文書を分割し、文書管理サーバの所定の場所に記録する。
特開平11−184966号公報 特開2008−165386号公報
文書に対してOCR処理を実行する際に、文書の特定領域だけにOCR処理を実行して文字情報を抽出する所謂ゾーンOCRは、比較的大量の文書を処理する場合等に有効であるが、他方で、読み取るべき2以上の同一または類似形式の文書の全てに対して読取位置を設定するのは利用者にとって煩雑となる。
本発明は、かかる課題を解決することを目的とする。
請求項1に記載の発明は、文書読取部と、読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、前記第1文書と同一または類似形式 であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部とを備える文書読取装置である。
請求項2に記載の発明は、前記読取位置情報は、前記第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報を含む請求項1に記載の文書読取装置である。
請求項3に記載の発明は、前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含む請求項1に記載の文書読取装置である。
請求項4に記載の発明は、前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む請求項3に記載の文書読取装置である。
請求項5に記載の発明は、前記特定位置は、特定属性の位置である請求項3に記載の文書読取装置である。
請求項6に記載の発明は、前記記憶部は、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて前記文書読取部で読み取り、読取位置情報として記憶する請求項1に記載の文書読取装置である。
請求項7に記載の発明は、前記複数枚は、表面と裏面である請求項6に記載の文書読取装置である。
請求項8に記載の発明は、前記複数枚は、1組の帳票を構成する請求項6に記載の文書読取装置である。
請求項9に記載の発明は、前記複数枚からなる組は、前記読取位置が互いに異なる請求項6に記載の文書読取装置である。
請求項10に記載の発明は、前記第1文書における前記読取位置の設定は、マーキングによる請求項1に記載の文書読取装置である。
請求項11に記載の発明は、前記マーキングは、特定色による囲み、特定色による塗りつぶし、チェックマークの追加、無色透明による囲み、無色透明による塗りつぶしの少なくともいずれかである請求項10に記載の文書読取装置である。
請求項12に記載の発明は、前記第1文書の画像を表示する表示部と、前記第1文書の画像に対してマーキングする操作部とをさらに備える請求項10に記載の文書読取装置である。
請求項13に記載の発明は、前記第1文書は、前記第2文書に対する1または複数のヘッダシートである請求項1に記載の文書読取装置である。
請求項14に記載の発明は、前記ヘッダシートの枚数は、利用者により設定される請求項13に記載の文書読取装置である。
請求項15に記載の発明は、前記ヘッダシートの枚数は、前記文書読取部で判定される請求項13に記載の文書読取装置である。
請求項16に記載の発明は、コンピュータに、読取位置が設定されている第1文書を読み取るステップと、前記読取位置についての読取位置情報を生成するステップと、前記読取位置情報を記憶部に記憶するステップと、前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップを実行させるプログラムである。
請求項1〜16に記載の発明によれば、読み取るべき2以上の同一または類似する形式の文書の全てに対して読取位置を設定する手間が省かれる。
請求項2に記載の発明によれば、さらに、第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報が利用され得る。
請求項3〜5に記載の発明によれば、さらに、第1文書における特定位置に対する相対的位置の情報が利用され得る。
請求項6〜9に記載の発明によれば、さらに、第2文書が複数枚からなる組を構成する場合に対応し得る。
請求項10〜12に記載の発明によれば、さらに、第1文書における読取位置がマーキングにより設定され得る。
請求項13〜15に記載の発明によれば、さらに、第1文書が1または複数のヘッダシートで構成され得る。
実施形態1のシステム構成図である。 実施形態1の機能ブロック図である。 ゾーンOCRの説明図である。 実施形態1の処理を示す説明図(その1)である。 実施形態1の処理を示す説明図(その2)である。 実施形態1の処理を示す説明図(その3)である。 実施形態1の処理を示す説明図(その4)である。 実施形態1の処理フローチャートである。 実施形態1の他の処理フローチャートである。 実施形態2の処理を示す説明図(その1)である。 実施形態2の処理を示す説明図(その2)である。 実施形態2の処理フローチャートである。 実施形態3の処理を示す説明図(その1)である。 実施形態3の処理を示す説明図(その2)である。 変形例の読取位置説明図である。
以下、図面に基づき本発明の実施形態について、文書読取装置として画像処理装置を例にとり説明する。
<実施形態1>
図1は、本実施形態における画像処理装置を含むシステムの構成ブロック図である。システムは、端末装置10及び画像処理装置12を備える。端末装置10と画像処理装置12は、通信回線14を介して接続され、通信回線14は、例えばLAN(ローカルエリアネットワーク)等のデータ通信ネットワークである。通信回線14は、有線、無線のいずれでもよい。
端末装置10は、PCやスマートフォン等であり、利用者の指示に従い、文書の印刷命令を含む印刷ジョブ等を送信する。
画像処理装置12は、例えば複数の機能を実現する複合機であり、ROM121、RAM122、記憶装置123、1つ又は複数のプロセッサで構成される制御部124、入出力インターフェイス(I/F)125、操作部126、及び画像形成部127を備える。
1又は複数のプロセッサで構成される制御部124は、ROM121や記憶装置123に記憶された処理プログラムに従い、端末装置10から入出力I/F125を介して印刷ジョブ命令等を受け付け、PDLデータを解釈して中間データを生成し、生成した中間データからさらに描画データ(ラスターデータ)を生成する。また、制御部124は、操作部126から受け付けたコピー(Copy)、スキャン(Scan)、ファックス(Fax)、メール(mail)等の各種アプリケーションの命令を実行する。
画像形成部127は、文書読取部としてのスキャナモジュール128を備え、文書を読み取って電子データに変換する。また、画像形成部127は、スキャナモジュール128以外にもプリントモジュール、ファックスモジュール、メールモジュール、用紙給紙モジュール、原稿給紙モジュール、及び画像処理アクセラレータを備える。
プリントモジュールは、画像を用紙に出力する機能を有するモジュールである。例えば、公知のインクジェット方式の構成を備え、描画データを用紙に印刷する。ノズル等から液体あるいは溶融固体インクを吐出し、紙、フィルム等に記録を行う。インクを吐出する方法には、静電誘引力を利用してインクを吐出させるドロップオンデマンド方式(圧力パルス方式)、高熱により気泡を形成・成長させることで生じる圧力を利用してインクを吐出させる熱インクジェット方式等がある。記録ヘッドは、例えば、シアンインクを吐出するヘッド、マゼンタインクを吐出するヘッド、イエローインクを吐出するヘッド、ブラックインクを吐出するヘッドを備え、各ヘッドが用紙の幅と少なくとも同等の幅を有するラインヘッドが用いられる。記録ヘッドにより各色のインク滴を中間転写体に吐出して記録し、その後に用紙に転写して印刷する。
ファックスモジュールは、モデムやファックス用画像処理モジュールを備え、ファックス機能を実行するモジュールである。
メールモジュールは、電子メール機能を実行するモジュールである。
用紙給紙モジュールは、用紙トレイからプリントモジュールに用紙を搬送するモジュールである。
原稿給紙モジュールは、原稿トレイからファックスモジュールに用紙を搬送するモジュールである。
画像処理アクセラレータは、スキャナモジュール等と連動して圧縮/伸長処理を行うモジュールである。この画像処理アクセラレータは必須ではなく、付加的モジュールとしてもよい。
操作部126は、タッチパネルを含み、制御部124からの制御指令に応じて画像処理装置12が備える各種機能(コピー、スキャン、ファックス、メール、OCR等)に対応するアプリケーションアイコンを表示する。例えば、コピー機能に対応するコピーアイコン、ファックスに対応するファックスアイコン、文書をスキャンしてメール送信する機能に対応するスキャンtoメールアイコン等である。利用者は、操作部126をタッチ操作することで、アプリケーション毎に固有の設定情報を設定できる。
記憶装置123は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等で構成され、処理プログラムや文書データを記憶する。また、本実施形態では、特に、特定文書(第1文書)に含まれる読取位置情報を記憶する。
画像処理装置12は、これら以外にも、用紙のパンチやソート等を行うフィニッシャ、USB、ICカードリーダ等から構成され利用者の認証を行う認証部、課金部、人感センサや顔カメラ等を備えてもよい。また、画像処理装置12は、通信回線14を介してインターネット及び外部サーバ(ネットワークサーバ)に接続されてもよく、イーサネット(登録商標)やWiFiを備えてもよい。インターネットを介して外部サーバに接続する際には、認証プロセスが必要となるが、画像処理装置12は当該認証プロセスを実行するためのアプリケーションを備えていてもよい。
次に、文書読取装置としての画像処理装置12の文書読取機能(スキャン機能)について説明する。
図2は、制御部124の機能ブロック図を示す。制御部124は、スキャナモジュール128の動作を制御して、フィーダにセットされた1または複数の文書を取り込み、電子データに変換する。そして、利用者から操作部126を介してOCRの実行が指示された場合に、当該電子データを対象としてOCRを実行し、その結果を出力する。OCR処理は公知の手法が用いられ得る。一般に、OCR処理は、正規化処理、特徴抽出処理、マッチング処理、知識処理から構成される。正規化処理では、OCR対象の1つの文字を一定の大きさに変換する。特徴抽出処理では、正規化された文字を上下、左右、斜め方向の4つの成分に分解し、4つの成分を例えば7×7画素程度まで圧縮したものを個々の文字の特徴として抽出する。マッチング処理では、抽出された特徴と予め記憶された標準パターンと比較して照合する。知識処理では、認識すべき言語、例えば日本語の単語情報や構文情報を使用し、マッチング処理で得られた候補文字に対して予め登録してある単語辞書と照合することで誤読部分を訂正する。
制御部124は、機能ブロックとして、読取位置検出部124aと、読取位置特定部124bと、OCR実行部124cを備える。
読取位置検出部124aは、第1文書20を読み取って得られた電子データから、第1文書20に含まれる読取位置21を検出することで、読取位置を検出する。読取位置21は、予め第1文書20に対するマーキングで設定されており、例えば特定色マーカによる塗りつぶしや囲み等で設定される。読取位置検出部124aは、第1文書20における読取位置21の読取位置を検出すると、検出した読取位置の情報(読取位置情報)を記憶装置123に記憶する。
読取位置特定部124bは、第1文書20と同一または類似形式の第2文書22に対してOCRを実行する場合の読取位置、すなわちOCR対象位置を特定する。具体的には、読取位置特定部124bは、記憶装置123に記憶された、第1文書20から検出された読取位置情報を読み出し、第2文書22に対する読取位置として特定し、OCR実行部124cに出力する。
OCR実行部124cは、第2文書22に対してOCRを実行する際に、読取位置特定部124bで特定された読取位置を対象としたOCR、すなわちゾーンOCRを実行し、その結果を出力する。第2文書22は、第1文書20と同一または類似形式を有するが、「同一形式」とは、第1文書20に含まれる項目と同一項目が同一位置に存在することを意味し、「類似形式」とは、第1文書20に含まれる項目と同一項目があるもののその位置が異なることを意味する。
図3は、従来のゾーンOCR処理を模式的に示す。第2文書22がゾーンOCR処理の対象とすると、利用者は、予め第2文書22を構成する全てのページに対して読取位置22をマーカ等で設定する。例えば、あるページの上部にある「No.1234」の領域をマーカで囲み、別のページの上部にある「NO.5678」の領域をマーカで囲み、さらに別のページの上部にある「NO.9990」の領域をマーカで囲む等である。そして、制御部124は、第2文書22を読み取って読取位置23を検出し、この読取位置23においてOCRを実行してその結果を「NO.1234」、「No.5678」、「No.9999」等と出力する。
このように、第2文書22の全てのページに対して読取位置をマーカ等で設定するのは煩雑であり、特に第2文書22が比較的大量のページから構成される場合にはその手間は膨大となり得る。また、文書の全てのページに対して読取位置をマーカ等で設定すると、文書自体がマーカで汚れてしまう。
これに対し、本実施形態では、第2文書22と同一または類似する形式の第1文書20に対して読取位置をマーカ等で設定しておけば、その読取位置は記憶装置123に記憶され、第2文書22の読取位置として利用されるので、利用者は、第1文書20に対してのみ読取位置を設定するだけでよく、第2文書22に対して読取位置をマーカ等で設定する必要がない。また、マーカによる汚れも抑制され得る。
本実施形態の処理を具体的に説明する。
図4は、第1文書20及び第2文書22を具体的に示す。第1文書20及び第2文書22は、ともに同一形式の帳票(請求書)であり、「請求書」の見出しに加え、「会社名」、「金額」、「請求日」の各項目が記載されている。第1文書20及び第2文書22の各項目名、及びその位置は同一である。第1文書20は、請求書の帳票の1ページ目に相当し、第2文書22は、請求書の帳票の2ページ目以降(2ページ目からMページ目まで)に相当する。画像処理装置12のスキャナモジュール128は、1ページ目としての第1文書20と、2ページ目以降の第2文書22を読取対象とする。
1ページ目としての第1文書20の「会社名」、「金額」、「請求日」の各項目の領域は、特定色のマーカにより囲まれ、あるいは塗りつぶされることで読取位置21が設定される。2ページ目以降としての第2文書22には、読取位置21は設定されない。
図5は、1ページ目としての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。読取位置21は、第1文書20の中で一定数の文字が含まれる領域であり、第1文書20の一定位置、例えば左上を原点(0,0)としたときの読取位置21の基準位置(例えば左上)の二次元座標(X、Y)と、領域の範囲(サイズ)を示す幅及び高さで規定され得る。第1文書20に読取位置21が3箇所設定されている場合には、箇所毎にその読取位置が検出され、読取位置情報が生成される。読取位置情報は、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出された読取位置21の読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
図6は、2ページ目以降としての第2文書22を読み取って電子データに変換し、電子データを対象としてゾーンOCRを実行する様子を示す。記憶装置123には、第1文書20に関連付けて読取位置21の読取位置情報が記憶されているので、制御部124は、これらの読取位置情報を記憶装置123から読み出し、当該読取位置情報で特定される読取位置においてゾーンOCRを実行する。従って、2ページ目の請求書でも、1ページ目の請求書に設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、2ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。
同様に、3ページ目の請求書でも、1ページ目の請求書に設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、3ページ目のOCR実行結果として、「会社名」の項目から「株式会社○○」が文字列として抽出され、「金額」の項目から「¥10,800」が文字列として抽出され、「請求日」の項目から「2017/××/×」が文字列として抽出される。
なお、1ページ目は第1文書20として機能するものの、同時に請求書の帳票として第2文書22としても機能する場合には、読取位置21を検出して読取位置情報を記憶装置123に記憶するとともに、記憶した読取位置情報を用いて1ページ目についてもゾーンOCRを実行してその結果を出力してもよい。
図4では、請求書の帳票の1ページ目を第1文書20とし、2ページ目以降を第2文書22としているが、帳票にヘッダシートを付加し、ヘッダシートを第1文書20とし、1ページ目からMページ目の帳票自体を第2文書22としてもよい。
図7は、この場合の処理を模式的に示す。
ヘッダシートとしての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。第1文書20に読取位置21が3箇所設定されている場合には、箇所毎にその読取位置が検出され読取位置情報が生成される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
その後、1ページ目以降としての第2文書22を読み取って電子データに変換し、電子データを対象としてゾーンOCRを実行する様子を示す。記憶装置123には、第1文書20に関連付けて読取位置情報が記憶されているので、制御部124は、これらの読取位置情報を記憶装置123から読み出し、当該読取位置情報で特定される読取位置においてゾーンOCRを実行する。従って、1ページ目の請求書でも、ヘッダシートに設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、1ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。2ページ目〜Mページ目についても同様である。
図8は、本実施形態の処理フローチャートを示す。第1文書20としてヘッダシートを用いる場合の処理である。
まず、利用者は、操作部126を操作して、ヘッダシートの枚数を入力する(S101)。なお、デフォルト枚数を1とし、ヘッダシートの枚数が1枚の場合には入力を省略してもよい。
次に、制御部124は、ヘッダシートをスキャナモジュール128で読み取り、OCR対象領域としての読取位置21を検知する(S102)。読取位置21が特定色のマーカで設定されている場合、当該特定色を検知する。OCR対象領域の検知は、当該ヘッダシートについてOCR対象領域が検知されるまで繰り返し実行され(S103)、当該ヘッダシートにおける全てのOCR対象領域が読取位置21として検知される。
全てのOCR対象領域が検知された後、検知されたOCR対象領域を読取位置情報として記憶装置123に記憶することでOCR対象領域リストを更新する(S104)。例えば、既述したように、読取位置21として3箇所存在すれば、当該ヘッダシートに関連付けて、
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
次に、当該ヘッダシートが、S101で入力された枚数の最終ヘッダシートであるか否かを判定する(S105)。最終ヘッダシートでなければ(S105でNO)、次のヘッダシートに対してS102以降の処理が繰り返し実行され、ヘッダシートに関連付けてOCR対象領域リストが作成され記憶装置123に記憶される。
全てのヘッダシートに対してOCR対象領域リストが記憶装置123に記憶されると(S105でYES)、最終ヘッダシートの次の頁をOCR対象ページに設定する(S106)。
次に、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分のOCR対象領域群を読み出して取得し(S107)、このOCR対象領域群を用いてOCR対象ページに対してゾーンOCR処理を実行する(S108)。ゾーンOCR処理を実行して文字列を抽出すると、抽出した文字列を記憶装置123に記憶する(S109)。なお、記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。
次に、同一ページの最終領域か否かを判定し(S110)、最終領域でなければゾーンOCR処理を繰り返す。これにより、OCR対象領域が3箇所あればこれら3箇所の全てにおいてゾーンOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S111)。
図8の処理では、利用者が操作部126を操作してヘッダシートの枚数を入力しているが、制御部124がヘッダシートの枚数を検出してもよい。
図9は、この場合の処理フローチャートを示す。
まず、制御部124は、入力された文書に対してOCR対象領域を検知する(S201)。なお、図8に示すような、利用者が操作部126を操作してヘッダシートの枚数を入力する処理はない。
次に、OCR対象領域が検知されたか否かを判定し(S202)、検知された場合には(S202でYES)、検知されたOCR対象領域を記憶装置123に記憶することでOCR対象領域リストを更新する(S203)。例えば、既述したように、読取位置21として3箇所存在すれば、当該ヘッダシートに関連付けて、
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
次に、当該ページが最終ページであるか否かを判定する(S204)。最終ページでなければ(S204でNO)、次のページに対してS201以降の処理が繰り返し実行され、OCR対象領域、すなわち読取位置21が設定された全てのページについてOCR対象領域リストが作成され記憶装置123に記憶される。
OCR対象領域、すなわち読取位置21が設定された全てのページについて処理が完了すると、もはやOCR対象領域が検知されなくなる(S202)。このページから第2文書22が始まることになるので、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分のOCR対象領域群を読み出して取得し(S205)、このOCR対象領域群を用いてOCR対象ページに対してゾーンOCR処理を実行する(S206)。ゾーンOCR処理を実行して文字列を抽出すると、抽出した文字列を記憶装置123に記憶する(S207)。記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。
次に、同一ページの最終領域か否かを判定し(S208)、最終領域でなければゾーンOCR処理を繰り返す。これにより、OCR対象領域が3箇所あればこれら3箇所の全てにおいてゾーンOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S209、S210)。
<実施形態2>
実施形態1では、第1文書20と第2文書22が同一形式の場合について説明したが、本実施形態では第1文書20と第2文書22が類似形式の場合、すなわち項目は共通するがその位置は異なる場合について説明する。
図10は、本実施形態における第1文書20及び第2文書22を示す。第1文書20と第2文書22は、互いに異なる種類の帳票である。第1文書20には、項目として「お客様番号」、「有効期限」が含まれる。第2文書22にも、項目として「お客様番号」、「有効期限」が含まれるが、その位置は第1文書20と異なる。第1文書20の「お客様番号」及び「有効期限」はともに上部に位置しているが、第2文書22の一つは「お客様番号」が上部に位置しているものの「有効期限」は下部に位置し、第2文書22の他の一つは「お客様番号」が中央部に位置して「有効期限」は下部に位置している。
このように位置が異なる場合、項目の属性とその値に着目し、属性とその値を組として読取位置情報とする。例えば、第1文書20において、
「お客様番号 01234」
との項目がある場合、属性は「お客様番号」でその値は「01234」であり、値は属性の右側に位置している。そこで、属性とその値の相対的位置関係に着目し、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
等により読取位置情報を生成する。値の幅及び高さにより、値が記載されている領域のサイズが特定される。
ここで、値の属性との位置関係については、右側、左側、上側、下側、右下側等と規定され得るが、属性の基準位置からの相対的位置座標、例えば(10,10)等で規定してもよい。右側、下側等は、位置座標の一つの表現といえる。
図11は、第1文書20に設定された読取位置21を具体的に示す。制御部124は、特定色のマーカ等で設定された読取位置21を検出し、属性、その値の属性との位置関係、値の幅、値の高さを検出する。すなわち、「お客様番号 01234」の項目について設定された読取位置21に関して、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
と検出する。また、「有効期限 2018/3/10」の項目について設定された読取位置21に関して、有効期限の値が有効期限の下側に位置していることから
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
と検出する。制御部124は、検出した属性とその値の組データを、読取位置情報として記憶装置123に記憶する。
なお、実施形態1では、読取位置21は第1文書20内における2次元座標(X,Y)及び領域サイズで規定されているが、実施形態2では,読取位置21は第1文書20内における属性とその値の相対的位置関係で規定されているので、第2文書22において対応する属性を検出するために、まず第2文書22のページ全体を対象としてOCRを実行する。
図12は、本実施形態の処理フローチャートを示す。
まず、利用者は、操作部126を操作して、ヘッダシートの枚数を入力する(S301)。なお、デフォルト枚数を1とし、ヘッダシートの枚数が1枚の場合には入力を省略してもよい。
次に、制御部124は、ヘッダシートをスキャナモジュール128で読み取り、OCR対象領域としての読取位置21を検知する(S302)。読取位置21が特定色のマーカで設定されている場合、当該特定色を検知する。OCR対象領域の検知は、当該ヘッダシートについてOCR対象領域が検知されるまで繰り返し実行され(S303)、当該ヘッダシートにおける全てのOCR対象領域が読取位置21として検知される。
全てのOCR対象領域が検知された後、検知されたOCR対象領域を記憶装置123に記憶することでOCR対象領域リストを更新する(S304)。例えば、既述したように、読取位置21として2箇所存在すれば、当該ヘッダシートに関連付けて、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
のリストが作成されて記憶装置123に記憶される。
次に、当該ヘッダシートが、S101で入力された枚数の最終ヘッダシートであるか否かを判定する(S305)。最終ヘッダシートでなければ(S305でNO)、次のヘッダシートに対してS302以降の処理が繰り返し実行され、ヘッダシートに関連付けてOCR対象領域リストが作成され記憶装置123に記憶される。
全てのヘッダシートに対してOCR対象領域リストが記憶装置123に記憶されると(S305でYES)、最終ヘッダシートの次の頁をOCR対象ページに設定する(S306)。
次に、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分の属性と値の組を読み出して取得する(S307)。そして、OCR対象ページ全体に対してOCRを実行し、読み出した属性と一致する領域を検出し、さらに検出した属性の値の文字列を抽出する(S308)。例えば、読み出した属性と値が、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
であれば、制御部124は、OCR対象ページの全体に対してOCRを実行し、文字列「お客様番号」を抽出する。そして、抽出した「お客様番号」を基準として、その右側に位置する幅100、高さ20の領域のOCR処理結果から文字列を抽出することで属性の値、例えば「01234」等を取得する。属性はページ全体のOCR処理結果から抽出されるが、当該属性の値は、属性との相対的位置関係から規定される特定領域に対するゾーンOCRで取得される。OCR処理を実行して属性とその値を抽出すると、抽出した属性とその値を記憶装置123に記憶する(S309)。なお、記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。
次に、同一ページの最終領域か否かを判定し(S310)、最終領域でなければ処理を繰り返す。これにより、OCR対象領域が2箇所あればこれら2箇所の全てにおいてOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S311)。
本実施形態では、属性とその値の相対的位置関係が同一であれば、たとえ属性自体の位置が文書毎に変化していても対応し得る。
なお、本実施形態において、読取位置21のデータとして属性とその値の相対的位置関係に許容範囲を設定しておくことで、文書毎に属性自体の位置が変化するのみならず属性とその値の相対的位置関係が変化している場合にも対応し得る。例えば、読取位置情報として
属性:「お客様番号」
値の属性との位置関係:右側または下側
値の幅:100
値の高さ:20
とする等である。この場合、S308では、検出された属性の右側、及び下側のゾーンOCR処理を実行して値の文字列を抽出する。
<実施形態3>
実施形態1,2では、第2文書22が1ページ単位の帳票の場合について説明したが、第2文書22が複数ページで1組の帳票の場合もあり得る。あるいは、第2文書22が表と裏の両面文書の場合もあり得る。
このような場合、第1文書20についても第2文書22のページ構成に対応させて複数ページを1組とする、あるいは表と裏の両面を1組とすればよい。
図13は、本実施形態における第1文書20及び第2文書22を具体的に示す。第1文書20及び第2文書22は、ともに同一形式の帳票(契約書)であり、表面及び裏面を1組として構成される。表面には「契約書」の見出しに加え、「会社名」、「担当者」の各項目が記載され、裏面には「契約日」の項目が記載されている。第1文書20及び第2文書22の各項目名、及びその位置は同一である。第1文書20は、契約書の帳票の1ページ目の表面20a及び裏面20bに相当し、第2文書22は、契約書の帳票の2ページ目以降(2ページ目からMページ目まで)の表面22a及び裏面22bに相当する。画像処理装置12のスキャナモジュール128は、1ページ目としての第1文書20の表面20a及び裏面20bと、2ページ目以降の第2文書22の表面22a及び裏面22bを読取対象とする。
1ページ目としての第1文書20の表面20aの「会社名」、「担当者」、及び裏面20bの「契約日」の各項目の領域は、特定色のマーカにより囲まれ、あるいは塗りつぶされることで読取位置21が設定される。2ページ目以降としての第2文書22には、読取位置21は設定されない。
図14は、1ページ目としての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。読取位置情報は、第1文書20の一定位置、例えば左上を原点(0,0)としたときの読取領域の左上の二次元座標(X、Y)と、読取領域のサイズを示す幅及び高さで規定され得る。第1文書20の表面20aに読取位置21が3箇所設定され、裏面20bに1箇所設定されている場合には、箇所毎にその読取位置情報が生成される。
表面20a:
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
裏面20b:
(X、Y、幅、高さ)
=(15,100,140,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
なお、本実施形態では、読取位置情報を実施形態1と同様に第1文書20の一定位置を原点(0,0)としたときの読取領域の左上の二次元座標(X、Y)と、読取領域のサイズを示す幅及び高さで規定しているが、実施形態2と同様に属性とその値の相対的位置関係と、値領域のサイズを示す幅及び高さで規定してもよい。例えば、
表面20a:
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
裏面20b:
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
等である。
以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、種々の変形が可能である。以下、変形例について説明する。
<変形例1>
実施形態では、第1文書20の中の属性とその値の組に着目して読取位置情報を生成し記憶装置123に記憶しているが、属性としては「お客様番号」や「有効期限」等の特定文字列の他に、特定色や特定形状としてもよい。
<変形例2>
実施形態では、第1文書20に対するマーキングとして、特定色のマーカによる囲みや塗りつぶし、チェックマークの追加等を例示したが、これ以外にも、無色透明による塗りつぶしや囲みによるマーキングでもよく、制御部124は、第1文書20に対してブラックライトを照射することで第1文書20の無色透明マーキングを検出して読取位置情報を生成してもよい。特定色のマーカによる囲みでは、表を構成する特定色の罫線と区別すべく、当該罫線色以外の色とするのが望ましい。
また、第1文書20に対するマーキングとしては、1種類のみならず、複数種類が混在していてもよい。例えば、特定色のマーカによる囲みと塗りつぶしの組合せ、特定色マーカによる囲みとチェックマークの組合せ等である。
図15は、複数種類が混在するマーキングの例を示す。第1文書20の読取位置21は、特定色(例えば黄色や赤)マーカによる囲み、塗りつぶし、及びチェックマークにより設定され得る。
さらに、第1文書20に対するマーキングは、利用者が第1文書20に対して直接行ってもよいが、第1文書20をスキャナモジュール128で電子データに変換して得られた電子画像を操作部126に表示し、利用者が操作部126を操作することで行ってもよい。
<変形例3>
実施形態1では、図5に示すように読取位置情報として位置座標、幅、高さを規定し、実施形態2では、図11に示すように読取位置情報として属性、属性との相対的位置関係、幅、高さを規定しているが、これらを組み合わせてもよい。すなわち、ある読取位置21については図5に示す形式とし、別の読取位置21については図11に示す形式とする等である。
<変形例4>
実施形態では、第1文書20の読取位置21を検出して生成された読取位置情報を用いて、第2文書22の読取位置を特定しているが、読取位置の特定には、厳密に一致する位置の他、許容範囲内にある最近位置も含まれ得る。従って、第2文書22において読取位置情報で特定される位置に文字列が存在しない場合(例えばチェックマークの場合)には、読取位置情報で特定される位置に最も近い文字列をOCRの対象とすればよい。
<変形例5>
実施形態1では、第2文書22のページ毎にゾーンOCRを実行してOCR結果を出力しているが、第2文書22が同一形式の場合には、第2文書22の全てのページについて読取位置情報で特定される読取位置を一括して読み取り、その後にページ毎にOCRを実行してその結果を出力してもよい。
10 端末装置、12 画像処理装置、14 通信回線、20 第1文書、22 第2文書、123 記憶装置、124 制御部、128 スキャナモジュール。

Claims (16)

  1. 文書読取部と、
    読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、
    前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、
    を備える文書読取装置。
  2. 前記読取位置情報は、前記第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報を含む
    請求項1に記載の文書読取装置。
  3. 前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含む
    請求項1に記載の文書読取装置。
  4. 前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む
    請求項3に記載の文書読取装置。
  5. 前記特定位置は、特定属性の位置である
    請求項3に記載の文書読取装置。
  6. 前記記憶部は、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて前記文書読取部で読み取り、読取位置情報として記憶する
    請求項1に記載の文書読取装置。
  7. 前記複数枚は表面と裏面である
    請求項6に記載の文書読取装置。
  8. 前記複数枚は、1組の帳票を構成する
    請求項6に記載の文書読取装置。
  9. 前記複数枚からなる組は、前記読取位置が互いに異なる
    請求項6に記載の文書読取装置。
  10. 前記第1文書における前記読取位置の設定は、マーキングによる
    請求項1に記載の文書読取装置。
  11. 前記マーキングは、特定色による囲み、特定色による塗りつぶし、チェックマークの追加、無色透明による囲み、無色透明による塗りつぶしの少なくともいずれかである
    請求項10に記載の文書読取装置。
  12. 前記第1文書の画像を表示する表示部と、
    前記第1文書の画像に対してマーキングする操作部と、
    をさらに備える請求項10に記載の文書読取装置。
  13. 前記第1文書は、前記第2文書に対する1または複数のヘッダシートである
    請求項1に記載の文書読取装置。
  14. 前記ヘッダシートの枚数は、利用者により設定される
    請求項13に記載の文書読取装置。
  15. 前記ヘッダシートの枚数は、前記文書読取部で判定される
    請求項13に記載の文書読取装置。
  16. コンピュータに、
    読取位置が設定されている第1文書を読み取るステップと、
    前記読取位置についての読取位置情報を生成するステップと、
    前記読取位置情報を記憶部に記憶するステップと、
    前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップ
    を実行させるプログラム。
JP2018053866A 2018-03-22 2018-03-22 文書読取装置及びプログラム Active JP7059734B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018053866A JP7059734B2 (ja) 2018-03-22 2018-03-22 文書読取装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018053866A JP7059734B2 (ja) 2018-03-22 2018-03-22 文書読取装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019168747A true JP2019168747A (ja) 2019-10-03
JP7059734B2 JP7059734B2 (ja) 2022-04-26

Family

ID=68107458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018053866A Active JP7059734B2 (ja) 2018-03-22 2018-03-22 文書読取装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7059734B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402070A (zh) * 2023-05-31 2023-07-07 中电长城(长沙)信息技术有限公司 一种用于多证件的sp服务实现方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237840A (ja) * 2010-04-30 2011-11-24 Murata Mach Ltd 文書処理装置
JP2015159456A (ja) * 2014-02-25 2015-09-03 富士ゼロックス株式会社 画像処理装置、画像処理システム及び画像処理プログラム
JP2016200967A (ja) * 2015-04-09 2016-12-01 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2017058732A (ja) * 2015-09-14 2017-03-23 富士ゼロックス株式会社 情報処理装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237840A (ja) * 2010-04-30 2011-11-24 Murata Mach Ltd 文書処理装置
JP2015159456A (ja) * 2014-02-25 2015-09-03 富士ゼロックス株式会社 画像処理装置、画像処理システム及び画像処理プログラム
JP2016200967A (ja) * 2015-04-09 2016-12-01 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2017058732A (ja) * 2015-09-14 2017-03-23 富士ゼロックス株式会社 情報処理装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402070A (zh) * 2023-05-31 2023-07-07 中电长城(长沙)信息技术有限公司 一种用于多证件的sp服务实现方法及系统
CN116402070B (zh) * 2023-05-31 2023-08-08 中电长城(长沙)信息技术有限公司 一种用于多证件的sp服务实现方法及系统

Also Published As

Publication number Publication date
JP7059734B2 (ja) 2022-04-26

Similar Documents

Publication Publication Date Title
US8610929B2 (en) Image processing apparatus, control method therefor, and program
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US10270934B2 (en) Image processing apparatus and image forming apparatus
JP2010211466A (ja) 画像処理装置および画像処理方法及びプログラム
JP2009104590A (ja) 印刷装置及び印刷システム
US8891113B2 (en) Image forming apparatus, data processing program, data processing method, and electronic pen
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
CN111385424A (zh) 图像处理系统和图像处理方法
CN101951452A (zh) 印刷状态设定设备、方法、系统及存储介质
JP2010211465A (ja) 画像処理装置および画像処理方法及びプログラム
JP7059734B2 (ja) 文書読取装置及びプログラム
US20210287187A1 (en) Image processing apparatus and non-transitory computer readable medium storing program
US10452903B2 (en) Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device
JP5143059B2 (ja) 画像処理装置及びその制御方法並びにプログラム
CN102737372A (zh) 校对装置、校对方法和记录介质
US20110157659A1 (en) Information processing apparatus, method for controlling the information processing apparatus, and storage medium
US20200202123A1 (en) Information processing device and information processing method
JP5900597B2 (ja) 帳票サーバ装置、帳票情報処理システム、帳票情報処理方法およびプログラム
WO2022097408A1 (ja) 画像処理装置及び画像形成装置
JP5884853B2 (ja) 帳票情報処理システム、帳票情報処理方法および帳票情報処理プログラム
JP5906608B2 (ja) 情報処理装置及びプログラム
JP5672837B2 (ja) 帳票サーバ装置、帳票情報処理システム、帳票情報処理方法およびプログラム
US11962734B2 (en) Image processing apparatus comprising image reader for reading document according to scan setup data, image processing program storing medium, and image processing system
JP6281739B2 (ja) 処理装置及びプログラム
JP5532733B2 (ja) 帳票情報処理システム、帳票情報処理方法および帳票情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R150 Certificate of patent or registration of utility model

Ref document number: 7059734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150