JP2023027838A

JP2023027838A - 文書処理装置、文書処理方法及びプログラム

Info

Publication number: JP2023027838A
Application number: JP2021133147A
Authority: JP
Inventors: 恵三浦; Megumi Miura
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-03-03

Abstract

【課題】定型文書を文字認識処理する場合に、予め定義された定型領域とは異なる領域にメモ書き等の注釈が記載された場合でも、その注釈の見逃しを防止しつつ、処理に要する時間を極力短縮できる文書処理装置、文書処理方法及びプログラムを提供する。【解決手段】画像読み取り装置、サーバ及び端末装置が、ネットワークを介して相互に通信可能に接続する文書処理システムにおいて、文書処理装置であるサーバの制御部２４は、定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出するオブジェクト検出部２４２ａと、オブジェクト検出部２４２ａにより、オブジェクトが検出された場合、注釈が記載された注釈領域を特定する注釈領域特定部２４２ｃと、注釈領域特定部２４２ｃで特定された注釈領域から注釈を抽出する定型領域外認識部２４２と、を備える。【選択図】図３

Description

この発明は、帳票等の文書の文字認識処理が可能な文書処理装置、文書処理方法及びプログラムに関する。

近年、画像データ内の手書きや印字された文字を認識し、文字データに変換する文字認識処理（以下の説明ではOCR(Optical Character Recognition)処理ともいう）と呼ばれる技術が普及している。OCR処理では非定型文書と定型文書どちらにも対応しており、それぞれ処理に特徴がある。

報告書やマニュアルのようなレイアウトに規則性がない非定型文書では、レイアウトが決まっていないため、全体にOCR処理をかけることになる。文章量が多いデータに関しては文書内で検索ができるため有用である。

一方、定型文書は予めレイアウトが決まっているため、予め定義された定型領域に対してのみOCR処理を実行することができる。このため、処理速度が速く、帳票、申込書、注文書等の同じ形式の文書が大量に存在する時は効率よく実行できる。

一般的なOCR処理の手順としては、以下のようになる。
（１）データの読み取り（スキャン）・・・紙媒体のデータをパーソナルコンピュータやスキャナ等を用いて取り込み、画像データへと変換する。
（２）レイアウト解析・・・文書によってレイアウトが変化していくため、文書の文字領域や、罫線や画像領域がどこに存在するかを解析し、分割する。文章構成から、どの文章のかたまりから認識するかの順番を決定する。
（３）行の切り出し・・・レイアウト解析で検出した文字領域を１行ずつ分解する。
（４）文字の切り出し・・・切り出した１行をさらに１文字単位へと分解していく。
（５）文字認識・・・文字の特徴値を検出し、あらかじめ登録されている辞書の中かから、類似しているものを候補としてあげる。候補の中から、前後の文字とつなげて日本語として正しいものになるか自然言語の知識をもとに特定する。

定型文書においては、毎回同じ形式のデータが入力されることと、あらかじめ読み取りたい箇所を定型領域として定義しておくことで、レイアウト解析の工程が省略される。

ところで、定型文書の予め設定された定型領域外の領域に、メモ書き等の注釈が付加される場合がある。このような定型領域外の注釈を、定型領域とともに精度よく認識する技術として、特許文献１には、文書に記入された文字の認識結果を表示する確認画面に、予め認識対象として定義された定型領域の外の領域から抽出された画像領域を表示する制御を行う表示制御部、を備えた情報処理装置が提案されている。

この情報処理装置では、定型領域外の注釈を抽出するために、帳票画像のイメージデータからレイアウト解析を行い、定義データから、定型領域内の認識結果として文字列を取得する。その後、定型領域外の不特定の事項を抽出し、ユーザが見落とすことを防ぐものとなされている。

特開２０２０－１６０６２９号公報

しかし、定型文書だけの読み取りであれば、本来、レイアウト解析することなく設定された定型領域の座標から文字認識を開始すれば良かったが、特許文献１では、定型領域外の注釈を抽出するために、定型領域外の全ての領域についてレイアウト解析を行う必要があった。このため、特許文献１では、定型領域外の全ての領域にレイアウト解析をかけてしまうことで、定型文書におけるOCR処理のレイアウト解析にかかる時間が不要という利点が減殺されるという課題がある。

この発明は、このような技術的背景に鑑みてなされたものであって、定型文書を文字認識処理する場合に、予め定義された定型領域とは異なる領域にメモ書き等の注釈が記載された場合でも、その注釈の見逃しを防止しつつ、処理に要する時間を極力短縮できる文書処理装置、文書処理方法及びプログラムを提供することを目的とする。

上記目的は以下の手段によって達成される。
（１）予め定義された定型領域に対して文字認識処理を実行する文書処理装置であって、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出手段と、
前記検出手段により、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定手段と、
前記特定手段で特定された注釈領域から注釈を抽出する抽出手段と、
を備えたことを特徴とする文書処理装置。
（２）前記抽出手段は、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項１に記載の文書処理装置。
（３）前記抽出手段は画像として注釈を抽出する前項１に記載の文書処理装置。
（４）前記近傍領域にオブジェクトが存在しない場合、前記検出手段は、前記所定量を拡大してオブジェクトを検出する前項１～３のいずれかに記載の文書処理装置。
（５）前記検出手段は、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定手段は指示線の終端近傍において注釈領域を特定する前項１～４のいずれかに記載の文書処理装置。
（６）前記検出手段は、前記指示線の終端が矢印であっても、指示線の終端と判断する前項５に記載の文書処理装置。
（７）前記抽出手段により抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項１～６のいずれかに記載の文書処理装置。
（８）前記特定手段により特定される注釈領域は予め設定された領域である前項１～７のいずれかに記載の文書処理装置。
（９）前記検出手段は前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定手段は前記検出手段の検出結果に基づいて、注釈領域を特定する前項１～７のいずれかに記載の文書処理装置。
（１０）前記注釈は手書き文字及び／または印字文字である前項１～９のいずれかに記載の文書処理装置。
（１１）前記近傍領域におけるオブジェクトの検出処理を、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項１～１０のいずれかに記載の文書処理装置。
（１２）予め定義された定型領域に対して文字認識処理を実行する文書処理装置が、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出ステップと、
前記検出ステップにより、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定ステップと、
前記特定ステップで特定された注釈領域から注釈を抽出する抽出ステップと、
を実行することを特徴とする文書処理方法。
（１３）前記抽出ステップでは、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項１２に記載の文書処理方法。
（１４）前記抽出ステップでは画像として注釈を抽出する前項１２に記載の文書処理方法。
（１５）前記定型領域の所定量の近傍領域に前記オブジェクトが存在しない場合、前記検出ステップでは、前記所定量を拡大してオブジェクトを検出する前項１２～１４のいずれかに記載の文書処理方法。
（１６）前記検出ステップでは、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定ステップでは指示線の終端近傍において注釈領域を特定する前項１２～１５のいずれかに記載の文書処理方法。
（１７）前記抽出ステップにより抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項１２～１６のいずれかに記載の文書処理方法。
（１８）前記特定ステップにより特定される注釈領域は予め設定されている前項１２～１７のいずれかに記載の文書処理方法。
（１９）前記検出ステップでは前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定ステップでは前記検出ステップの検出結果に基づいて、注釈領域を特定する前項１２～１７のいずれかに記載の文書処理方法。
（２０）前記近傍領域におけるオブジェクトの検出ステップを、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項１２～１９のいずれかに記載の文書処理方法。
（２１）前項１２～２０のいずれかに記載の文書処理方法をコンピュータに実行させるためのプログラム。

前項（１）及び（１２）に記載の発明によれば、予め定義された定型領域に対して文字認識処理が実行される。一方、近傍領域において注釈の存在を示すオブジェクトが検出される。オブジェクトが検出された場合、注釈が記載された注釈領域が特定され、特定された注釈領域から注釈が抽出される。つまり、注釈を抽出するための処理は定型領域の所定量の近傍領域に対して行われ、定型領域外の全ての領域に対して行う必要はなくなるから、その分処理に要する時間を短縮することができる。しかも、注釈は定型領域の近傍に記載されたり、定型領域から引き出された指示線の終端付近に記載されることが多いことから、定型領域の所定量の近傍領域においてオブジェクトを検出することで、効率よくオブジェクトの検出ひいては注釈の抽出を行うことができ、注釈の見逃しを防止することができる。

前項（２）及び（１３）に記載の発明によれば、注釈を文字として抽出できる。

前項（３）及び（１４）に記載の発明によれば、注釈を画像として抽出できる。

前項（４）及び（１５）に記載の発明によれば、近傍領域にオブジェクトが存在しない場合、所定量を拡大してオブジェクトが検出されるから、確実にオブジェクトを検出して注釈を抽出することができる。

前項（５）及び（１６）に記載の発明によれば、近傍領域にオブジェクトの一つとしての指示線が検出された場合、指示線の延びる方向に所定量を拡大して、指示線の終端が検出され、指示線の終端近傍において注釈領域が特定されるから、注釈の位置が定型領域から離れていても、指示線をたどることで注釈を抽出することができる。

前項（６）に記載の発明によれば、指示線の終端が矢印であっても、指示線の終端を判断できる。

前項（７）及び（１７）に記載の発明によれば、抽出された注釈を、定型領域内の最も関連する項目と関連付けて、表示等を行うことができる。

前項（８）及び（１８）に記載の発明によれば、特定される注釈領域は予め設定されているから、注釈領域の特定処理を簡素化できる。

前項（９）及び（１９）に記載の発明によれば、オブジェクトが検出された場合、拡大した検出領域の全てにオブジェクトが検出されなくなるまで、検出領域の拡大と検出を繰り返して注釈領域が特定されるから、注釈領域を確実に特定することができる。

前項（１０）に記載の発明によれば、注釈は手書き文字、印字文字のどちらであっても、抽出することができる。

前項（１１）及び（２０）に記載の発明によれば、近傍領域におけるオブジェクトの検出処理を、定型領域に対する文字認識処理よりも先に行った結果、近傍領域に指示線が検出されかつ指示線が定型領域に進入していることが検出された場合、定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われるから、定型領域に対する文字認識処理を支持線が存在しない通常の状態で行うことができる。

前項（２１）に記載の発明によれば、前項項１２～２０のいずれかに記載の文書処理方法をコンピュータに実行させることができる。

この発明の一実施形態に係る文書処理装置が用いられた文書処理システムの構成を示すブロック図である。サーバの構成を示すブロック図である。サーバの制御部の機能構成を示すブロック図である。この実施形態で用いられる定型文書の例として注文書である帳票を示す図である。この発明の一実施形態に係る文書処理を説明するためのフローチャートである。（Ａ）は、この発明の実施形態での定型領域外における注釈の抽出範囲を示す図、（Ｂ）は従来例での範囲を示す図である。（Ａ）～（Ｃ）は注釈領域の特定処理の説明図である。（Ａ）、（Ｂ）は注釈領域の別の特定処理の説明図である。注釈領域のさらに別の特定処理の説明図である。図９の特定処理の続きを説明するための図である。文字認識処理結果の表示例を示す図である。文字認識処理結果の他の表示例を示す図である。この発明の他の実施形態に係る文書処理を説明するためのフローチャートである。この発明のさらに他の実施形態に係る文書処理を説明するためのフローチャートである。

以下、この発明の実施形態を図面に基づいて説明する。

図１は、この発明の一実施形態に係る文書処理装置が用いられた文書処理システムの構成を示すブロック図である。

この文書処理システムは、画像読み取り装置１と、文書処理装置としてのサーバ２と、端末装置３を備えている。

画像読み取り装置１は、定型及び非定型の各種文書を読み取る装置であり、複合機、ハンディスキャナ、カメラ機能が搭載されたスマートフォンやパーソナルコンピュータ（PC）等が挙げられる。画像読み取り装置１は、文書を読み取って電子データである画像データに変換し、サーバ２に送信する。

文書処理装置であるサーバ２は、文書を読み取った画像読み取り装置１から送信された電子データ化された画像データを受信し、文字変換処理（OCR処理）を実行するものであり、PC等によって構成されている。端末装置３は、サーバ２によるOCR処理結果を表示し、ユーザが結果を確認するためのものであり、PCやスマートフォン等によって構成される。

なお、画像読み取り装置１、サーバ２、端末装置３は、それぞれ本実施形態のように独立した構成とし、ネットワーク４を介して相互に通信可能に接続されても良い。あるいは、何れか２つあるいは３つ全てが１つの装置として構成されていても良い。相互接続のためのネットワーク４としては、インターネット、WAN（Wide Area Network）、LAN（Local Area Network）等が挙げられる。

図２はサーバ２の構成を示すブロック図である。サーバ２は表示部２１と、記憶部２２と、通信部２３と、制御部２４と、操作部２５を備えている。

表示部２１はユーザの操作に対する結果を表示する。OCR処理結果を表示しても良い。

記憶部２２は例えばハードディスク装置（HDD）やSSD（Solid State Drive）が用いられる。記憶部２２には、制御プログラムや定型領域の定義データ、画像読み取り装置１によって読み取られた文書の画像データが格納されている。

通信部２３は画像読み取り装置１や端末装置３とそれぞれ相互に通信を行うための通信手段である。

制御部２４はCPU２４ａとRAM２４ｂとROM２４ｃ等を備え、各部とバス２６を介して接続される。CPU２４ａはROM２４ｂや記憶部２２から制御プログラムを読み出してRAM２４ｃに展開し実行することで全体制御を行う。

操作部２５は例えばマウスやキーボードなどで構成され、OCR処理等に対するユーザの入力を受け付ける。OCR処理の結果表示をサーバ２の表示部２１で行う場合は、ユーザによる結果表示に対する操作部の入力も受け付ける。

図３は、サーバ２の制御部２４の機能構成を示すブロック図である。制御部２４の機能は、前述したように、CPU２４ａが制御プログラムに従って動作することにより実現される。

制御部２４は、定型領域認識部２４１と、定型領域外認識部２４２と、認識結果出力部２４３を備えている。

定型領域認識部２４１は、定型文書の読み取りデータのうち、定型領域定義データ３０１で定義されたOCR処理を実行すべき定型領域に対して、OCR処理を実施する。定型領域定義データ３０１はサーバ２内の記憶部２２に保存されているが、サーバ２以外の外部装置に保存されていても良い。

定型領域外認識部２４２は、定型領域外の領域の内、注釈を抽出すべき領域として予め設定された、定型領域の所定量の近傍領域（単に近傍領域ともいう）に対して、注釈の抽出処理やOCR処理等を実施する。この定型領域外認識部２４２は、オブジェクト検出部２４２ａと、注釈領域特定部２４２ｃと、文字認識部２４２ｂを備えている。

オブジェクト検出部２４２ａは、近傍領域内におけるオブジェクトを検出する。オブジェクトとは注釈の存在を示すものであり、例えば、注釈の少なくとも文字の一部や指示線等を挙げることができる。

注釈領域特定部２４２ｃは、注釈が存在する領域つまり注釈領域を特定する。特定の仕方については後述する。

文字認識部２４２ｂは特定した注釈領域に対してOCR処理を実施し、注釈を文字として抽出する。なお、OCR処理による文字の抽出ではなく、特定した注釈領域を画像として抽出しても良い。

認識結果出力部２４３は、定型領域のOCR処理結果及び近傍領域の注釈抽出処理結果を端末装置３等に出力する。サーバ自身の表示部２１に出力し表示しても良い。また、処理結果は、サーバ２内の記憶部２２に保持されても良いし、外部の端末装置３等の記憶部に保持されてもよい。

図４に、この実施形態で用いられる定型文書の例として注文書である帳票５を示す。帳票５には、注文者情報と注文商品の情報がそれぞれ印字されている。その他に、補足情報として注釈が記載されている。この実施形態では、注釈として「4/1から変更」という注釈５１，「コピー用紙200枚に変更」という注釈５２、「チェック済」という注釈５３が例示されている。注釈は印字であっても手書き文字であっても良い。

「4/1から変更」という注釈５１は、定型領域における電子メールアドレスの外側に記載されている。「コピー用紙200枚変更」という注釈５２は、定型領域内の対応する項目の記載である「コピー用紙500枚」から引き出された指示線１０の終端近傍に記載されている。指示線１０は終端が矢印であっても良い。「チェック済」という注釈５３は、左上の余白部分に記載されている。
［実施例１］
図４に示した帳票５に対しサーバ２によって実行される文書処理を、図５のフローチャートを参照して説明する。なお、図５及びそれ以降のフローチャートに示される処理は、サーバ２の制御部２４のCPU２４ａがROM２４ｂや記憶部２２に格納された制御プログラムに従って動作することにより実行される。

サーバ２は画像読み取り装置１で読み取られた帳票５の電子データ（帳票データ）を受信し、保持している。

ステップＳ０１では、定義データに従って帳票データの定型領域内をOCR処理する。図６（Ａ）に示すように、帳票５のグレーゾーンで囲まれた内部の領域が定型領域６である。定義データには、定型領域６内の複数の項目の情報と読み取り位置が含まれており、OCR処理を読み取り位置から開始し、「注文者」「担当」「商品番号」「商品名」といった複数の項目と、対応した文字列を取得する。

定型領域６を読み取った後、ステップＳ０２で近傍領域に対してオブジェクトの検出を行う。図６（Ａ）に示すグレーゾーンの部分が近傍領域７である。グレーゾーンは説明の都合上図示したものであり、帳票５に実際に表示されているわけではない。近傍領域７は定型領域６から例えば周囲５０ピクセルもしくは３センチ等と予め設定されている。具体的な数値は任意で決めてもよい。なお、比較のために図６（Ｂ）に示した従来例では、定型領域６外の全ての領域７１に対して注釈の抽出処理を実施していた。

ステップＳ０３では、近傍領域７にオブジェクトの一つである文字を検出したかどうかを判定する。文字を検出しない場合（ステップＳ０３でＮＯ）、ステップＳ０５で、オブジェクトの一つである指示線１０を検出したかどうかを判定する。指示線１０を検出しなければ（ステップＳ０５でＮＯ）、ステップＳ０６で、近傍領域７を規定する所定量のしきい値に達したかどうかを調べ、達していなければ（ステップＳ０６でＮＯ）、ステップＳ０７で検出領域を拡大したのち、ステップＳ０２に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。

ステップＳ０３で、文字を検出していれば（ステップＳ０３でＹＥＳ）、近傍領域７外にわたって注釈が記載されている場合があるため、ステップＳ０４で文字が記載されている注釈領域の特定を行う。注釈領域の特定処理については後述する。そして、特定した注釈領域から注釈を抽出したのち、ステップＳ０６に進む。注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。

一方、ステップＳ０５で、指示線１０を検出した場合は（ステップＳ０５でＹＥＳ）、指示線１０の終端付近に注釈が記載されている場合が多いことから、ステップＳ０８で指示線を終端までたどったのち、ステップＳ０４で、注釈が記載されている注釈領域の特定を行う。指示線１０を検出した場合の注釈領域の特定処理についても後述する。そして、特定した注釈領域から注釈を抽出したのち、ステップＳ０６に進む。この場合も、注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。

ステップＳ０６においてしきい値に達した場合は（ステップＳ０６でＹＥＳ）、検出処理を終了する。そして、ステップＳ０９で、定型領域６のOCR処理結果と近傍領域７における注釈の抽出結果を、自身の表示部２１や端末装置３等に出力して、処理を終了する。近傍領域７にオブジェクトを検出しなかった場合は、定型領域６のOCR処理結果のみを出力する。

なお、しきい値に達してもオブジェクトを検出できなかった場合、しきい値を超えて近傍領域７の所定量を増加させ、オブジェクトの検出処理を再度行っても良い。

次に、ステップＳ０４の注釈領域の特定処理について説明する。

近傍領域７内でオブジェクトである文字が抽出された場合、近傍領域７外にわたって注釈が記載されている場合があるため、注釈領域の特定を行う。

まず、近傍領域７でオブジェクトが検出された領域を注目領域とし、注目領域の座標から周囲のピクセルに対して検出領域を拡大する。例えば、図７（Ａ）に示すように、最初にオブジェクトが検出された太枠で示すピクセルを注目領域８とし、同図（Ｂ）に示すように、注目領域８の周囲のピクセルに対してオブジェクトの検出を行う。オブジェクトが検出されたピクセルについては、そのピクセルを注目領域８として、その周囲のピクセルに対してオブジェクトの検出を行う。

こうして、検出領域の拡大とオブジェクトの検出を、検出領域の全てにオブジェクトが検出されなくなるまで繰り返す。オブジェクトが検出されなくなった時点で、図７（Ｃ）に網点で示すように、拡大した一連の領域を注釈領域９として特定し、この特定した注釈領域９に対して注釈の抽出処理を行う。このような注釈領域の特定処理を行うことで、精度良く注釈領域９を特定することができる。

また、注釈領域９の別の特定処理として、文字が検出された位置を基点に、予め設定された一定の大きさ・方向に沿って矩形を切り出し、この切り出した矩形を注釈領域９と特定し、この特定した注釈領域９に対して注釈の抽出処理を行っても良い。

例えば図８（Ａ）に○印で示すように、近傍領域７で注釈５１の文字の一部が検出された場合、同図（Ｂ）に示すように、その位置から左右方向に長い矩形を切り出して注釈領域９として特定し、この特定した注釈領域９に対して注釈の抽出処理を行っても良い。この特定処理では、オブジェクトの検出処理を周囲のピクセルに拡張して行う必要はないから、処理が簡素になる。

次に、オブジェクトとして指示線１０を検出した場合の注釈領域９の特定処理について説明する。

指示線１０が検出された場合、文字の場合と同様に検出された領域を注目領域８とし、注目領域８の座標から周囲のピクセルに対して図９のように検出領域を拡大する。図９において網点部分が拡大された検出領域である。線分の検出にはハフ変換、矢印の検出は特徴量のパターンマッチング技術などが用いられる。指示線１０が検出されなくなった領域を指示線１０の終端１１とし、その近辺に注釈が記載されていると判断して、文字の検出を行う。

具体的には、図１０に示すように、指示線１０の終端１１を基点に、周囲方向へ検出領域を拡大して文字を検出していく。図１０では、拡大した検出領域を網点で示している。検出領域の全てに文字が検出されなくなるまで検出と検出領域の拡大を繰り返す。文字の場合と同様に、文字が検出されなくなった時点で、拡大した一連の領域を注釈領域９として特定し、この特定した注釈領域９に対して注釈の抽出処理を行う。

また、文字の場合と同様に、指示線１０の終端１１を基点に予め設定された一定の大きさ・方向に沿って矩形を切り出し、この切り出した矩形を注釈領域９と特定し、この特定した注釈領域９に対して注釈の抽出処理を行っても良い。

定型領域６内の文字認識結果や、近傍領域７で抽出された注釈等の情報は、記憶部２２に格納され、ユーザーはこの格納された情報を表示部２１や端末装置３で確認することができる。この場合、図１１に示すように、注釈は個々の画像として表示させても良いし、図１２に示すように、注釈を含んだ文書全体の画像を表示させても良いし、文字情報として表示させても良い。

処理結果確認のための表示画面では、基本的に注釈は定型領域６内の関係する項目の近くに記載するか、記載できなければ指示線１０を引いて別の場所に記載する場合が多いと考えられる。このため、抽出した注釈は、結果確認の際にどの項目と関連があるのかを視認しやすくするために、定型領域６内の項目と関連付けておき、表示させる際に、関連付けられた項目と注釈とを対応させて表示させるのが良い。

一例として、「4/1から変更」という注釈５１の認識結果だけを表示させても、何に対する変更か分からないため、図１２のように、定型領域６内の項目と注釈５１を対応付けて表示させることで、ユーザーは変更内容を容易に理解できる。図１２では、電子メールアドレスの項目５５の直近位置に「4/1から変更」という注釈５１が表示されており、電子メールアドレスが４月１日から変更されることが容易に理解できるようになっている。

次に、この発明の他の実施形態を、図１３のフローチャートを用いて説明する。

この実施形態では、最初に定型領域６内のOCR処理を実行したが、定型領域６内に注釈の指示線１０が混入していると、文字認識精度の低下につながるおそれがある。このため、近傍領域７に対する処理を先に実行し、指示線１０が検出された場合は、定型領域６内に対して指示線の検出を行い、定型領域６内で指示線１０が検出された場合、定型領域６内の指示線１０の除去を行ってから、定型領域６内のOCR処理を開始する。

ステップＳ１１で近傍領域７に対してオブジェクトの検出を行う。ステップＳ１２では、近傍領域７にオブジェクトの一つである文字を抽出したかどうかを判定する。文字を抽出しない場合（ステップＳ１２でＮＯ）、ステップＳ１４で、オブジェクトの一つである指示線１０を検出したかどうかを判定する。指示線１０を検出しなければ（ステップＳ１４でＮＯ）、ステップＳ１５で、近傍領域７を規定する所定量のしきい値に達したかどうかを調べ、達していなければ（ステップＳ１５でＮＯ）、ステップＳ１６で検出領域を拡大したのち、ステップＳ１１に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。

ステップＳ１２で、文字を検出していれば（ステップＳ１２でＹＥＳ）、ステップＳ１３で、注釈が記載されている注釈領域９の特定を行う。そして、特定した注釈領域９から注釈を抽出したのち、ステップＳ１５に進む。注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域９の画像としての抽出でも良い。

一方、ステップＳ１４で、指示線１０を検出した場合は（ステップＳ１４でＹＥＳ）、ステップＳ１７で、指示線１０をたどることで指示線１０が定型領域６内に入っているかどうかを調べる。指示線１０が定型領域６内に入っていれば（ステップＳ１７でＹＥＳ）、ステップＳ１８で定型領域６内の指示線１０を除去した後、ステップＳ１９に進む。指示線１０が定型領域６内に入っていない場合は（ステップＳ１７でＮＯ）、そのままステップＳ１９に進む。

ステップＳ１９では、指示線１０を終端までたどったのち、ステップＳ１３で、注釈が記載されている注釈領域９の特定を行い、特定した注釈領域９から注釈を抽出する。その後、ステップＳ１５に進む。この場合も、注釈の抽出は、注釈領域９に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。

ステップＳ１５において、しきい値に達した場合は（ステップＳ１５でＹＥＳ）、オブジェクトの検出処理を終了し、ステップＳ２０で、定型領域６内に対してOCR処理を実施する。そして、ステップＳ２１で、定型領域６のOCR処理結果と近傍領域７における注釈の抽出結果を、自身の表示部２１や端末装置３等に出力して、処理を終了する。近傍領域７にオブジェクトを検出しなかった場合は、定型領域６のOCR処理結果を出力する。

このように、この実施形態では、指示線１０が定型領域６内に入っている場合は、定型領域６内の指示線１０を除去した状態で定型領域６内のOCR処理を行うことで、文字認識精度の低下を防止することができる。

この発明のさらに他の実施形態を、図１４に示すフローチャートで説明する。この実施形態では、近傍領域７にオブジェクトを検出したときは、定型領域６外の全てに対してOCR処理または画像抽出処理を実施する構成となっている。

ステップＳ３１では、定義データに従って帳票データの定型領域６内をOCR処理する。

次に、ステップＳ３２で近傍領域７に対してオブジェクトの検出を行ったのち、ステップＳ３３で、近傍領域７にオブジェクトの一つである文字を抽出したかどうかを判定する。文字を抽出しない場合（ステップＳ３３でＮＯ）、ステップＳ３６で、オブジェクトの一つである指示線１０を検出したかどうかを判定する。指示線１０を検出しなければ（ステップＳ３６でＮＯ）、ステップＳ３７で、近傍領域を規定する所定量のしきい値に達したかどうかを調べ、達していなければ（ステップＳ３７でＮＯ）、ステップＳ３８で検出領域を拡大したのち、ステップＳ３２に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。

ステップＳ３３で、文字を検出していれば（ステップＳ３３でＹＥＳ）、ステップＳ３４に進む。ステップＳ３６で指示線１０を検出した場合も（ステップＳ３６でＹＥＳ）、ステップＳ３４に進む。

ステップＳ３４では、定型領域６外の全てに対して注釈抽出を行ったのち、ステップＳ３５で、定型領域６のOCR処理結果と定型領域外の注釈の抽出結果を、自身の表示部２１や端末装置３等に出力して、処理を終了する。

ステップＳ３７において、しきい値に達した場合は（ステップＳ３７でＹＥＳ）、近傍領域７のオブジェクトの検出処理を終了し、ステップＳ３９で定型領域６のOCR処理結果を出力する。

このように、この実施形態では、近傍領域７にオブジェクトが検出された場合には、定型領域６外の全てに対して注釈抽出が実施される。

以上説明したように、本実施形態では、予め定義された定型領域６に対してOCR処理が実行される。一方、近傍領域７において注釈の存在を示すオブジェクトである文字の一部や指示線１０が検出される。オブジェクトが検出された場合、注釈５１～５３が記載された注釈領域９が特定され、特定された注釈領域９から注釈が抽出される。つまり、注釈５１～５３を抽出するための処理は近傍領域７に対して行われ、定型領域６外の全ての領域に対して行う必要はなくなるから、その分処理に要する時間を短縮することができる。しかも、注釈５１～５３は定型領域６の近傍に記載されたり、定型領域６から引き出された指示線１０の終端付近に記載されることが多いことから、近傍領域７においてオブジェクトを検出することで、効率よくオブジェクトの検出ひいては注釈５１～５３の抽出を行うことができ、注釈の見逃しを防止することができる。

１画像読み取り装置
２サーバ
３端末装置
４ネットワーク
５帳票
６定型領域
７近傍領域
８注目領域
９注釈領域
１０支持線
１１支持線の終端
１１受光部
２１表示部
２２記憶部
２３通信部
２４制御部
２４ａ CPU
２４ｂ ROM
２４ｃ RAM
５１～５３注釈
５５項目
２４１定型領域認識部
２４２定型領域外認識部
２４２ａオブジェクト検出部
２４２ｂ文字認識部
２４２ｃ注釈領域特定部
２４３認識結果出力部

Claims

予め定義された定型領域に対して文字認識処理を実行する文書処理装置であって、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出手段と、
前記検出手段により、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定手段と、
前記特定手段で特定された注釈領域から注釈を抽出する抽出手段と、
を備えたことを特徴とする文書処理装置。
前記抽出手段は、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する請求項１に記載の文書処理装置。
前記抽出手段は画像として注釈を抽出する請求項１に記載の文書処理装置。
前記近傍領域にオブジェクトが存在しない場合、前記検出手段は、前記所定量を拡大してオブジェクトを検出する請求項１～３のいずれかに記載の文書処理装置。
前記検出手段は、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定手段は指示線の終端近傍において注釈領域を特定する請求項１～４のいずれかに記載の文書処理装置。
前記検出手段は、前記指示線の終端が矢印であっても、指示線の終端と判断する請求項５に記載の文書処理装置。
前記抽出手段により抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる請求項１～６のいずれかに記載の文書処理装置。
前記特定手段により特定される注釈領域は予め設定された領域である請求項１～７のいずれかに記載の文書処理装置。
前記検出手段は前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定手段は前記検出手段の検出結果に基づいて、注釈領域を特定する請求項１～７のいずれかに記載の文書処理装置。
前記注釈は手書き文字及び／または印字文字である請求項１～９のいずれかに記載の文書処理装置。
前記近傍領域におけるオブジェクトの検出処理を、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる請求項１～１０のいずれかに記載の文書処理装置。
予め定義された定型領域に対して文字認識処理を実行する文書処理装置が、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出ステップと、
前記検出ステップにより、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定ステップと、
前記特定ステップで特定された注釈領域から注釈を抽出する抽出ステップと、
を実行することを特徴とする文書処理方法。
前記抽出ステップでは、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する請求項１２に記載の文書処理方法。
前記抽出ステップでは画像として注釈を抽出する請求項１２に記載の文書処理方法。
前記定型領域の所定量の近傍領域に前記オブジェクトが存在しない場合、前記検出ステップでは、前記所定量を拡大してオブジェクトを検出する請求項１２～１４のいずれかに記載の文書処理方法。
前記検出ステップでは、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定ステップでは指示線の終端近傍において注釈領域を特定する請求項１２～１５のいずれかに記載の文書処理方法。
前記抽出ステップにより抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる請求項１２～１６のいずれかに記載の文書処理方法。
前記特定ステップにより特定される注釈領域は予め設定されている請求項１２～１７のいずれかに記載の文書処理方法。
前記検出ステップでは前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定ステップでは前記検出ステップの検出結果に基づいて、注釈領域を特定する請求項１２～１７のいずれかに記載の文書処理方法。
前記近傍領域におけるオブジェクトの検出ステップを、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる請求項１２～１９のいずれかに記載の文書処理方法。
請求項１２～２０のいずれかに記載の文書処理方法をコンピュータに実行させるためのプログラム。