JP2023027838A - 文書処理装置、文書処理方法及びプログラム - Google Patents
文書処理装置、文書処理方法及びプログラム Download PDFInfo
- Publication number
- JP2023027838A JP2023027838A JP2021133147A JP2021133147A JP2023027838A JP 2023027838 A JP2023027838 A JP 2023027838A JP 2021133147 A JP2021133147 A JP 2021133147A JP 2021133147 A JP2021133147 A JP 2021133147A JP 2023027838 A JP2023027838 A JP 2023027838A
- Authority
- JP
- Japan
- Prior art keywords
- area
- annotation
- document processing
- detection
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004904 shortening Methods 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】定型文書を文字認識処理する場合に、予め定義された定型領域とは異なる領域にメモ書き等の注釈が記載された場合でも、その注釈の見逃しを防止しつつ、処理に要する時間を極力短縮できる文書処理装置、文書処理方法及びプログラムを提供する。【解決手段】画像読み取り装置、サーバ及び端末装置が、ネットワークを介して相互に通信可能に接続する文書処理システムにおいて、文書処理装置であるサーバの制御部24は、定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出するオブジェクト検出部242aと、オブジェクト検出部242aにより、オブジェクトが検出された場合、注釈が記載された注釈領域を特定する注釈領域特定部242cと、注釈領域特定部242cで特定された注釈領域から注釈を抽出する定型領域外認識部242と、を備える。【選択図】図3
Description
この発明は、帳票等の文書の文字認識処理が可能な文書処理装置、文書処理方法及びプログラムに関する。
近年、画像データ内の手書きや印字された文字を認識し、文字データに変換する文字認識処理(以下の説明ではOCR(Optical Character Recognition)処理ともいう)と呼ばれる技術が普及している。OCR処理では非定型文書と定型文書どちらにも対応しており、それぞれ処理に特徴がある。
報告書やマニュアルのようなレイアウトに規則性がない非定型文書では、レイアウトが決まっていないため、全体にOCR処理をかけることになる。文章量が多いデータに関しては文書内で検索ができるため有用である。
一方、定型文書は予めレイアウトが決まっているため、予め定義された定型領域に対してのみOCR処理を実行することができる。このため、処理速度が速く、帳票、申込書、注文書等の同じ形式の文書が大量に存在する時は効率よく実行できる。
一般的なOCR処理の手順としては、以下のようになる。
(1)データの読み取り(スキャン)・・・紙媒体のデータをパーソナルコンピュータやスキャナ等を用いて取り込み、画像データへと変換する。
(2)レイアウト解析・・・文書によってレイアウトが変化していくため、文書の文字領域や、罫線や画像領域がどこに存在するかを解析し、分割する。文章構成から、どの文章のかたまりから認識するかの順番を決定する。
(3)行の切り出し・・・レイアウト解析で検出した文字領域を1行ずつ分解する。
(4)文字の切り出し・・・切り出した1行をさらに1文字単位へと分解していく。
(5)文字認識・・・文字の特徴値を検出し、あらかじめ登録されている辞書の中かから、類似しているものを候補としてあげる。候補の中から、前後の文字とつなげて日本語として正しいものになるか自然言語の知識をもとに特定する。
(1)データの読み取り(スキャン)・・・紙媒体のデータをパーソナルコンピュータやスキャナ等を用いて取り込み、画像データへと変換する。
(2)レイアウト解析・・・文書によってレイアウトが変化していくため、文書の文字領域や、罫線や画像領域がどこに存在するかを解析し、分割する。文章構成から、どの文章のかたまりから認識するかの順番を決定する。
(3)行の切り出し・・・レイアウト解析で検出した文字領域を1行ずつ分解する。
(4)文字の切り出し・・・切り出した1行をさらに1文字単位へと分解していく。
(5)文字認識・・・文字の特徴値を検出し、あらかじめ登録されている辞書の中かから、類似しているものを候補としてあげる。候補の中から、前後の文字とつなげて日本語として正しいものになるか自然言語の知識をもとに特定する。
定型文書においては、毎回同じ形式のデータが入力されることと、あらかじめ読み取りたい箇所を定型領域として定義しておくことで、レイアウト解析の工程が省略される。
ところで、定型文書の予め設定された定型領域外の領域に、メモ書き等の注釈が付加される場合がある。このような定型領域外の注釈を、定型領域とともに精度よく認識する技術として、特許文献1には、文書に記入された文字の認識結果を表示する確認画面に、予め認識対象として定義された定型領域の外の領域から抽出された画像領域を表示する制御を行う表示制御部、を備えた情報処理装置が提案されている。
この情報処理装置では、定型領域外の注釈を抽出するために、帳票画像のイメージデータからレイアウト解析を行い、定義データから、定型領域内の認識結果として文字列を取得する。その後、定型領域外の不特定の事項を抽出し、ユーザが見落とすことを防ぐものとなされている。
しかし、定型文書だけの読み取りであれば、本来、レイアウト解析することなく設定された定型領域の座標から文字認識を開始すれば良かったが、特許文献1では、定型領域外の注釈を抽出するために、定型領域外の全ての領域についてレイアウト解析を行う必要があった。このため、特許文献1では、定型領域外の全ての領域にレイアウト解析をかけてしまうことで、定型文書におけるOCR処理のレイアウト解析にかかる時間が不要という利点が減殺されるという課題がある。
この発明は、このような技術的背景に鑑みてなされたものであって、定型文書を文字認識処理する場合に、予め定義された定型領域とは異なる領域にメモ書き等の注釈が記載された場合でも、その注釈の見逃しを防止しつつ、処理に要する時間を極力短縮できる文書処理装置、文書処理方法及びプログラムを提供することを目的とする。
上記目的は以下の手段によって達成される。
(1)予め定義された定型領域に対して文字認識処理を実行する文書処理装置であって、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出手段と、
前記検出手段により、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定手段と、
前記特定手段で特定された注釈領域から注釈を抽出する抽出手段と、
を備えたことを特徴とする文書処理装置。
(2)前記抽出手段は、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項1に記載の文書処理装置。
(3)前記抽出手段は画像として注釈を抽出する前項1に記載の文書処理装置。
(4)前記近傍領域にオブジェクトが存在しない場合、前記検出手段は、前記所定量を拡大してオブジェクトを検出する前項1~3のいずれかに記載の文書処理装置。
(5)前記検出手段は、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定手段は指示線の終端近傍において注釈領域を特定する前項1~4のいずれかに記載の文書処理装置。
(6)前記検出手段は、前記指示線の終端が矢印であっても、指示線の終端と判断する前項5に記載の文書処理装置。
(7)前記抽出手段により抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項1~6のいずれかに記載の文書処理装置。
(8)前記特定手段により特定される注釈領域は予め設定された領域である前項1~7のいずれかに記載の文書処理装置。
(9)前記検出手段は前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定手段は前記検出手段の検出結果に基づいて、注釈領域を特定する前項1~7のいずれかに記載の文書処理装置。
(10)前記注釈は手書き文字及び/または印字文字である前項1~9のいずれかに記載の文書処理装置。
(11)前記近傍領域におけるオブジェクトの検出処理を、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項1~10のいずれかに記載の文書処理装置。
(12)予め定義された定型領域に対して文字認識処理を実行する文書処理装置が、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出ステップと、
前記検出ステップにより、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定ステップと、
前記特定ステップで特定された注釈領域から注釈を抽出する抽出ステップと、
を実行することを特徴とする文書処理方法。
(13)前記抽出ステップでは、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項12に記載の文書処理方法。
(14)前記抽出ステップでは画像として注釈を抽出する前項12に記載の文書処理方法。
(15)前記定型領域の所定量の近傍領域に前記オブジェクトが存在しない場合、前記検出ステップでは、前記所定量を拡大してオブジェクトを検出する前項12~14のいずれかに記載の文書処理方法。
(16)前記検出ステップでは、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定ステップでは指示線の終端近傍において注釈領域を特定する前項12~15のいずれかに記載の文書処理方法。
(17)前記抽出ステップにより抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項12~16のいずれかに記載の文書処理方法。
(18)前記特定ステップにより特定される注釈領域は予め設定されている前項12~17のいずれかに記載の文書処理方法。
(19)前記検出ステップでは前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定ステップでは前記検出ステップの検出結果に基づいて、注釈領域を特定する前項12~17のいずれかに記載の文書処理方法。
(20)前記近傍領域におけるオブジェクトの検出ステップを、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項12~19のいずれかに記載の文書処理方法。
(21)前項12~20のいずれかに記載の文書処理方法をコンピュータに実行させるためのプログラム。
(1)予め定義された定型領域に対して文字認識処理を実行する文書処理装置であって、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出手段と、
前記検出手段により、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定手段と、
前記特定手段で特定された注釈領域から注釈を抽出する抽出手段と、
を備えたことを特徴とする文書処理装置。
(2)前記抽出手段は、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項1に記載の文書処理装置。
(3)前記抽出手段は画像として注釈を抽出する前項1に記載の文書処理装置。
(4)前記近傍領域にオブジェクトが存在しない場合、前記検出手段は、前記所定量を拡大してオブジェクトを検出する前項1~3のいずれかに記載の文書処理装置。
(5)前記検出手段は、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定手段は指示線の終端近傍において注釈領域を特定する前項1~4のいずれかに記載の文書処理装置。
(6)前記検出手段は、前記指示線の終端が矢印であっても、指示線の終端と判断する前項5に記載の文書処理装置。
(7)前記抽出手段により抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項1~6のいずれかに記載の文書処理装置。
(8)前記特定手段により特定される注釈領域は予め設定された領域である前項1~7のいずれかに記載の文書処理装置。
(9)前記検出手段は前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定手段は前記検出手段の検出結果に基づいて、注釈領域を特定する前項1~7のいずれかに記載の文書処理装置。
(10)前記注釈は手書き文字及び/または印字文字である前項1~9のいずれかに記載の文書処理装置。
(11)前記近傍領域におけるオブジェクトの検出処理を、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項1~10のいずれかに記載の文書処理装置。
(12)予め定義された定型領域に対して文字認識処理を実行する文書処理装置が、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出ステップと、
前記検出ステップにより、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定ステップと、
前記特定ステップで特定された注釈領域から注釈を抽出する抽出ステップと、
を実行することを特徴とする文書処理方法。
(13)前記抽出ステップでは、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する前項12に記載の文書処理方法。
(14)前記抽出ステップでは画像として注釈を抽出する前項12に記載の文書処理方法。
(15)前記定型領域の所定量の近傍領域に前記オブジェクトが存在しない場合、前記検出ステップでは、前記所定量を拡大してオブジェクトを検出する前項12~14のいずれかに記載の文書処理方法。
(16)前記検出ステップでは、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定ステップでは指示線の終端近傍において注釈領域を特定する前項12~15のいずれかに記載の文書処理方法。
(17)前記抽出ステップにより抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる前項12~16のいずれかに記載の文書処理方法。
(18)前記特定ステップにより特定される注釈領域は予め設定されている前項12~17のいずれかに記載の文書処理方法。
(19)前記検出ステップでは前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定ステップでは前記検出ステップの検出結果に基づいて、注釈領域を特定する前項12~17のいずれかに記載の文書処理方法。
(20)前記近傍領域におけるオブジェクトの検出ステップを、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる前項12~19のいずれかに記載の文書処理方法。
(21)前項12~20のいずれかに記載の文書処理方法をコンピュータに実行させるためのプログラム。
前項(1)及び(12)に記載の発明によれば、予め定義された定型領域に対して文字認識処理が実行される。一方、近傍領域において注釈の存在を示すオブジェクトが検出される。オブジェクトが検出された場合、注釈が記載された注釈領域が特定され、特定された注釈領域から注釈が抽出される。つまり、注釈を抽出するための処理は定型領域の所定量の近傍領域に対して行われ、定型領域外の全ての領域に対して行う必要はなくなるから、その分処理に要する時間を短縮することができる。しかも、注釈は定型領域の近傍に記載されたり、定型領域から引き出された指示線の終端付近に記載されることが多いことから、定型領域の所定量の近傍領域においてオブジェクトを検出することで、効率よくオブジェクトの検出ひいては注釈の抽出を行うことができ、注釈の見逃しを防止することができる。
前項(2)及び(13)に記載の発明によれば、注釈を文字として抽出できる。
前項(3)及び(14)に記載の発明によれば、注釈を画像として抽出できる。
前項(4)及び(15)に記載の発明によれば、近傍領域にオブジェクトが存在しない場合、所定量を拡大してオブジェクトが検出されるから、確実にオブジェクトを検出して注釈を抽出することができる。
前項(5)及び(16)に記載の発明によれば、近傍領域にオブジェクトの一つとしての指示線が検出された場合、指示線の延びる方向に所定量を拡大して、指示線の終端が検出され、指示線の終端近傍において注釈領域が特定されるから、注釈の位置が定型領域から離れていても、指示線をたどることで注釈を抽出することができる。
前項(6)に記載の発明によれば、指示線の終端が矢印であっても、指示線の終端を判断できる。
前項(7)及び(17)に記載の発明によれば、抽出された注釈を、定型領域内の最も関連する項目と関連付けて、表示等を行うことができる。
前項(8)及び(18)に記載の発明によれば、特定される注釈領域は予め設定されているから、注釈領域の特定処理を簡素化できる。
前項(9)及び(19)に記載の発明によれば、オブジェクトが検出された場合、拡大した検出領域の全てにオブジェクトが検出されなくなるまで、検出領域の拡大と検出を繰り返して注釈領域が特定されるから、注釈領域を確実に特定することができる。
前項(10)に記載の発明によれば、注釈は手書き文字、印字文字のどちらであっても、抽出することができる。
前項(11)及び(20)に記載の発明によれば、近傍領域におけるオブジェクトの検出処理を、定型領域に対する文字認識処理よりも先に行った結果、近傍領域に指示線が検出されかつ指示線が定型領域に進入していることが検出された場合、定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われるから、定型領域に対する文字認識処理を支持線が存在しない通常の状態で行うことができる。
前項(21)に記載の発明によれば、前項項12~20のいずれかに記載の文書処理方法をコンピュータに実行させることができる。
以下、この発明の実施形態を図面に基づいて説明する。
図1は、この発明の一実施形態に係る文書処理装置が用いられた文書処理システムの構成を示すブロック図である。
この文書処理システムは、画像読み取り装置1と、文書処理装置としてのサーバ2と、端末装置3を備えている。
画像読み取り装置1は、定型及び非定型の各種文書を読み取る装置であり、複合機、ハンディスキャナ、カメラ機能が搭載されたスマートフォンやパーソナルコンピュータ(PC)等が挙げられる。画像読み取り装置1は、文書を読み取って電子データである画像データに変換し、サーバ2に送信する。
文書処理装置であるサーバ2は、文書を読み取った画像読み取り装置1から送信された電子データ化された画像データを受信し、文字変換処理(OCR処理)を実行するものであり、PC等によって構成されている。端末装置3は、サーバ2によるOCR処理結果を表示し、ユーザが結果を確認するためのものであり、PCやスマートフォン等によって構成される。
なお、画像読み取り装置1、サーバ2、端末装置3は、それぞれ本実施形態のように独立した構成とし、ネットワーク4を介して相互に通信可能に接続されても良い。あるいは、何れか2つあるいは3つ全てが1つの装置として構成されていても良い。相互接続のためのネットワーク4としては、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)等が挙げられる。
図2はサーバ2の構成を示すブロック図である。サーバ2は表示部21と、記憶部22と、通信部23と、制御部24と、操作部25を備えている。
表示部21はユーザの操作に対する結果を表示する。OCR処理結果を表示しても良い。
記憶部22は例えばハードディスク装置(HDD)やSSD(Solid State Drive)が用いられる。記憶部22には、制御プログラムや定型領域の定義データ、画像読み取り装置1によって読み取られた文書の画像データが格納されている。
通信部23は画像読み取り装置1や端末装置3とそれぞれ相互に通信を行うための通信手段である。
制御部24はCPU24aとRAM24bとROM24c等を備え、各部とバス26を介して接続される。CPU24aはROM24bや記憶部22から制御プログラムを読み出してRAM24cに展開し実行することで全体制御を行う。
操作部25は例えばマウスやキーボードなどで構成され、OCR処理等に対するユーザの入力を受け付ける。OCR処理の結果表示をサーバ2の表示部21で行う場合は、ユーザによる結果表示に対する操作部の入力も受け付ける。
図3は、サーバ2の制御部24の機能構成を示すブロック図である。制御部24の機能は、前述したように、CPU24aが制御プログラムに従って動作することにより実現される。
制御部24は、定型領域認識部241と、定型領域外認識部242と、認識結果出力部243を備えている。
定型領域認識部241は、定型文書の読み取りデータのうち、定型領域定義データ301で定義されたOCR処理を実行すべき定型領域に対して、OCR処理を実施する。定型領域定義データ301はサーバ2内の記憶部22に保存されているが、サーバ2以外の外部装置に保存されていても良い。
定型領域外認識部242は、定型領域外の領域の内、注釈を抽出すべき領域として予め設定された、定型領域の所定量の近傍領域(単に近傍領域ともいう)に対して、注釈の抽出処理やOCR処理等を実施する。この定型領域外認識部242は、オブジェクト検出部242aと、注釈領域特定部242cと、文字認識部242bを備えている。
オブジェクト検出部242aは、近傍領域内におけるオブジェクトを検出する。オブジェクトとは注釈の存在を示すものであり、例えば、注釈の少なくとも文字の一部や指示線等を挙げることができる。
注釈領域特定部242cは、注釈が存在する領域つまり注釈領域を特定する。特定の仕方については後述する。
文字認識部242bは特定した注釈領域に対してOCR処理を実施し、注釈を文字として抽出する。なお、OCR処理による文字の抽出ではなく、特定した注釈領域を画像として抽出しても良い。
認識結果出力部243は、定型領域のOCR処理結果及び近傍領域の注釈抽出処理結果を端末装置3等に出力する。サーバ自身の表示部21に出力し表示しても良い。また、処理結果は、サーバ2内の記憶部22に保持されても良いし、外部の端末装置3等の記憶部に保持されてもよい。
図4に、この実施形態で用いられる定型文書の例として注文書である帳票5を示す。帳票5には、注文者情報と注文商品の情報がそれぞれ印字されている。その他に、補足情報として注釈が記載されている。この実施形態では、注釈として「4/1から変更」という注釈51,「コピー用紙200枚に変更」という注釈52、「チェック済」という注釈53が例示されている。注釈は印字であっても手書き文字であっても良い。
「4/1から変更」という注釈51は、定型領域における電子メールアドレスの外側に記載されている。「コピー用紙200枚変更」という注釈52は、定型領域内の対応する項目の記載である「コピー用紙500枚」から引き出された指示線10の終端近傍に記載されている。指示線10は終端が矢印であっても良い。「チェック済」という注釈53は、左上の余白部分に記載されている。
[実施例1]
図4に示した帳票5に対しサーバ2によって実行される文書処理を、図5のフローチャートを参照して説明する。なお、図5及びそれ以降のフローチャートに示される処理は、サーバ2の制御部24のCPU24aがROM24bや記憶部22に格納された制御プログラムに従って動作することにより実行される。
[実施例1]
図4に示した帳票5に対しサーバ2によって実行される文書処理を、図5のフローチャートを参照して説明する。なお、図5及びそれ以降のフローチャートに示される処理は、サーバ2の制御部24のCPU24aがROM24bや記憶部22に格納された制御プログラムに従って動作することにより実行される。
サーバ2は画像読み取り装置1で読み取られた帳票5の電子データ(帳票データ)を受信し、保持している。
ステップS01では、定義データに従って帳票データの定型領域内をOCR処理する。図6(A)に示すように、帳票5のグレーゾーンで囲まれた内部の領域が定型領域6である。定義データには、定型領域6内の複数の項目の情報と読み取り位置が含まれており、OCR処理を読み取り位置から開始し、「注文者」「担当」「商品番号」「商品名」といった複数の項目と、対応した文字列を取得する。
定型領域6を読み取った後、ステップS02で近傍領域に対してオブジェクトの検出を行う。図6(A)に示すグレーゾーンの部分が近傍領域7である。グレーゾーンは説明の都合上図示したものであり、帳票5に実際に表示されているわけではない。近傍領域7は定型領域6から例えば周囲50ピクセルもしくは3センチ等と予め設定されている。具体的な数値は任意で決めてもよい。なお、比較のために図6(B)に示した従来例では、定型領域6外の全ての領域71に対して注釈の抽出処理を実施していた。
ステップS03では、近傍領域7にオブジェクトの一つである文字を検出したかどうかを判定する。文字を検出しない場合(ステップS03でNO)、ステップS05で、オブジェクトの一つである指示線10を検出したかどうかを判定する。指示線10を検出しなければ(ステップS05でNO)、ステップS06で、近傍領域7を規定する所定量のしきい値に達したかどうかを調べ、達していなければ(ステップS06でNO)、ステップS07で検出領域を拡大したのち、ステップS02に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。
ステップS03で、文字を検出していれば(ステップS03でYES)、近傍領域7外にわたって注釈が記載されている場合があるため、ステップS04で文字が記載されている注釈領域の特定を行う。注釈領域の特定処理については後述する。そして、特定した注釈領域から注釈を抽出したのち、ステップS06に進む。注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。
一方、ステップS05で、指示線10を検出した場合は(ステップS05でYES)、指示線10の終端付近に注釈が記載されている場合が多いことから、ステップS08で指示線を終端までたどったのち、ステップS04で、注釈が記載されている注釈領域の特定を行う。指示線10を検出した場合の注釈領域の特定処理についても後述する。そして、特定した注釈領域から注釈を抽出したのち、ステップS06に進む。この場合も、注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。
ステップS06においてしきい値に達した場合は(ステップS06でYES)、検出処理を終了する。そして、ステップS09で、定型領域6のOCR処理結果と近傍領域7における注釈の抽出結果を、自身の表示部21や端末装置3等に出力して、処理を終了する。近傍領域7にオブジェクトを検出しなかった場合は、定型領域6のOCR処理結果のみを出力する。
なお、しきい値に達してもオブジェクトを検出できなかった場合、しきい値を超えて近傍領域7の所定量を増加させ、オブジェクトの検出処理を再度行っても良い。
次に、ステップS04の注釈領域の特定処理について説明する。
近傍領域7内でオブジェクトである文字が抽出された場合、近傍領域7外にわたって注釈が記載されている場合があるため、注釈領域の特定を行う。
まず、近傍領域7でオブジェクトが検出された領域を注目領域とし、注目領域の座標から周囲のピクセルに対して検出領域を拡大する。例えば、図7(A)に示すように、最初にオブジェクトが検出された太枠で示すピクセルを注目領域8とし、同図(B)に示すように、注目領域8の周囲のピクセルに対してオブジェクトの検出を行う。オブジェクトが検出されたピクセルについては、そのピクセルを注目領域8として、その周囲のピクセルに対してオブジェクトの検出を行う。
こうして、検出領域の拡大とオブジェクトの検出を、検出領域の全てにオブジェクトが検出されなくなるまで繰り返す。オブジェクトが検出されなくなった時点で、図7(C)に網点で示すように、拡大した一連の領域を注釈領域9として特定し、この特定した注釈領域9に対して注釈の抽出処理を行う。このような注釈領域の特定処理を行うことで、精度良く注釈領域9を特定することができる。
また、注釈領域9の別の特定処理として、文字が検出された位置を基点に、予め設定された一定の大きさ・方向に沿って矩形を切り出し、この切り出した矩形を注釈領域9と特定し、この特定した注釈領域9に対して注釈の抽出処理を行っても良い。
例えば図8(A)に○印で示すように、近傍領域7で注釈51の文字の一部が検出された場合、同図(B)に示すように、その位置から左右方向に長い矩形を切り出して注釈領域9として特定し、この特定した注釈領域9に対して注釈の抽出処理を行っても良い。この特定処理では、オブジェクトの検出処理を周囲のピクセルに拡張して行う必要はないから、処理が簡素になる。
次に、オブジェクトとして指示線10を検出した場合の注釈領域9の特定処理について説明する。
指示線10が検出された場合、文字の場合と同様に検出された領域を注目領域8とし、注目領域8の座標から周囲のピクセルに対して図9のように検出領域を拡大する。図9において網点部分が拡大された検出領域である。線分の検出にはハフ変換、矢印の検出は特徴量のパターンマッチング技術などが用いられる。指示線10が検出されなくなった領域を指示線10の終端11とし、その近辺に注釈が記載されていると判断して、文字の検出を行う。
具体的には、図10に示すように、指示線10の終端11を基点に、周囲方向へ検出領域を拡大して文字を検出していく。図10では、拡大した検出領域を網点で示している。検出領域の全てに文字が検出されなくなるまで検出と検出領域の拡大を繰り返す。文字の場合と同様に、文字が検出されなくなった時点で、拡大した一連の領域を注釈領域9として特定し、この特定した注釈領域9に対して注釈の抽出処理を行う。
また、文字の場合と同様に、指示線10の終端11を基点に予め設定された一定の大きさ・方向に沿って矩形を切り出し、この切り出した矩形を注釈領域9と特定し、この特定した注釈領域9に対して注釈の抽出処理を行っても良い。
定型領域6内の文字認識結果や、近傍領域7で抽出された注釈等の情報は、記憶部22に格納され、ユーザーはこの格納された情報を表示部21や端末装置3で確認することができる。この場合、図11に示すように、注釈は個々の画像として表示させても良いし、図12に示すように、注釈を含んだ文書全体の画像を表示させても良いし、文字情報として表示させても良い。
処理結果確認のための表示画面では、基本的に注釈は定型領域6内の関係する項目の近くに記載するか、記載できなければ指示線10を引いて別の場所に記載する場合が多いと考えられる。このため、抽出した注釈は、結果確認の際にどの項目と関連があるのかを視認しやすくするために、定型領域6内の項目と関連付けておき、表示させる際に、関連付けられた項目と注釈とを対応させて表示させるのが良い。
一例として、「4/1から変更」という注釈51の認識結果だけを表示させても、何に対する変更か分からないため、図12のように、定型領域6内の項目と注釈51を対応付けて表示させることで、ユーザーは変更内容を容易に理解できる。図12では、電子メールアドレスの項目55の直近位置に「4/1から変更」という注釈51が表示されており、電子メールアドレスが4月1日から変更されることが容易に理解できるようになっている。
次に、この発明の他の実施形態を、図13のフローチャートを用いて説明する。
この実施形態では、最初に定型領域6内のOCR処理を実行したが、定型領域6内に注釈の指示線10が混入していると、文字認識精度の低下につながるおそれがある。このため、近傍領域7に対する処理を先に実行し、指示線10が検出された場合は、定型領域6内に対して指示線の検出を行い、定型領域6内で指示線10が検出された場合、定型領域6内の指示線10の除去を行ってから、定型領域6内のOCR処理を開始する。
ステップS11で近傍領域7に対してオブジェクトの検出を行う。ステップS12では、近傍領域7にオブジェクトの一つである文字を抽出したかどうかを判定する。文字を抽出しない場合(ステップS12でNO)、ステップS14で、オブジェクトの一つである指示線10を検出したかどうかを判定する。指示線10を検出しなければ(ステップS14でNO)、ステップS15で、近傍領域7を規定する所定量のしきい値に達したかどうかを調べ、達していなければ(ステップS15でNO)、ステップS16で検出領域を拡大したのち、ステップS11に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。
ステップS12で、文字を検出していれば(ステップS12でYES)、ステップS13で、注釈が記載されている注釈領域9の特定を行う。そして、特定した注釈領域9から注釈を抽出したのち、ステップS15に進む。注釈の抽出は、注釈領域に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域9の画像としての抽出でも良い。
一方、ステップS14で、指示線10を検出した場合は(ステップS14でYES)、ステップS17で、指示線10をたどることで指示線10が定型領域6内に入っているかどうかを調べる。指示線10が定型領域6内に入っていれば(ステップS17でYES)、ステップS18で定型領域6内の指示線10を除去した後、ステップS19に進む。指示線10が定型領域6内に入っていない場合は(ステップS17でNO)、そのままステップS19に進む。
ステップS19では、指示線10を終端までたどったのち、ステップS13で、注釈が記載されている注釈領域9の特定を行い、特定した注釈領域9から注釈を抽出する。その後、ステップS15に進む。この場合も、注釈の抽出は、注釈領域9に対してOCR処理を実施することによる文字情報の抽出でも良いし、注釈領域の画像としての抽出でも良い。
ステップS15において、しきい値に達した場合は(ステップS15でYES)、オブジェクトの検出処理を終了し、ステップS20で、定型領域6内に対してOCR処理を実施する。そして、ステップS21で、定型領域6のOCR処理結果と近傍領域7における注釈の抽出結果を、自身の表示部21や端末装置3等に出力して、処理を終了する。近傍領域7にオブジェクトを検出しなかった場合は、定型領域6のOCR処理結果を出力する。
このように、この実施形態では、指示線10が定型領域6内に入っている場合は、定型領域6内の指示線10を除去した状態で定型領域6内のOCR処理を行うことで、文字認識精度の低下を防止することができる。
この発明のさらに他の実施形態を、図14に示すフローチャートで説明する。この実施形態では、近傍領域7にオブジェクトを検出したときは、定型領域6外の全てに対してOCR処理または画像抽出処理を実施する構成となっている。
ステップS31では、定義データに従って帳票データの定型領域6内をOCR処理する。
次に、ステップS32で近傍領域7に対してオブジェクトの検出を行ったのち、ステップS33で、近傍領域7にオブジェクトの一つである文字を抽出したかどうかを判定する。文字を抽出しない場合(ステップS33でNO)、ステップS36で、オブジェクトの一つである指示線10を検出したかどうかを判定する。指示線10を検出しなければ(ステップS36でNO)、ステップS37で、近傍領域を規定する所定量のしきい値に達したかどうかを調べ、達していなければ(ステップS37でNO)、ステップS38で検出領域を拡大したのち、ステップS32に戻り、しきい値に達するまで文字や指示線の検出判定を繰り返す。
ステップS33で、文字を検出していれば(ステップS33でYES)、ステップS34に進む。ステップS36で指示線10を検出した場合も(ステップS36でYES)、ステップS34に進む。
ステップS34では、定型領域6外の全てに対して注釈抽出を行ったのち、ステップS35で、定型領域6のOCR処理結果と定型領域外の注釈の抽出結果を、自身の表示部21や端末装置3等に出力して、処理を終了する。
ステップS37において、しきい値に達した場合は(ステップS37でYES)、近傍領域7のオブジェクトの検出処理を終了し、ステップS39で定型領域6のOCR処理結果を出力する。
このように、この実施形態では、近傍領域7にオブジェクトが検出された場合には、定型領域6外の全てに対して注釈抽出が実施される。
以上説明したように、本実施形態では、予め定義された定型領域6に対してOCR処理が実行される。一方、近傍領域7において注釈の存在を示すオブジェクトである文字の一部や指示線10が検出される。オブジェクトが検出された場合、注釈51~53が記載された注釈領域9が特定され、特定された注釈領域9から注釈が抽出される。つまり、注釈51~53を抽出するための処理は近傍領域7に対して行われ、定型領域6外の全ての領域に対して行う必要はなくなるから、その分処理に要する時間を短縮することができる。しかも、注釈51~53は定型領域6の近傍に記載されたり、定型領域6から引き出された指示線10の終端付近に記載されることが多いことから、近傍領域7においてオブジェクトを検出することで、効率よくオブジェクトの検出ひいては注釈51~53の抽出を行うことができ、注釈の見逃しを防止することができる。
1 画像読み取り装置
2 サーバ
3 端末装置
4 ネットワーク
5 帳票
6 定型領域
7 近傍領域
8 注目領域
9 注釈領域
10 支持線
11 支持線の終端
11 受光部
21 表示部
22 記憶部
23 通信部
24 制御部
24a CPU
24b ROM
24c RAM
51~53 注釈
55 項目
241 定型領域認識部
242 定型領域外認識部
242a オブジェクト検出部
242b 文字認識部
242c 注釈領域特定部
243 認識結果出力部
2 サーバ
3 端末装置
4 ネットワーク
5 帳票
6 定型領域
7 近傍領域
8 注目領域
9 注釈領域
10 支持線
11 支持線の終端
11 受光部
21 表示部
22 記憶部
23 通信部
24 制御部
24a CPU
24b ROM
24c RAM
51~53 注釈
55 項目
241 定型領域認識部
242 定型領域外認識部
242a オブジェクト検出部
242b 文字認識部
242c 注釈領域特定部
243 認識結果出力部
Claims (21)
- 予め定義された定型領域に対して文字認識処理を実行する文書処理装置であって、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出手段と、
前記検出手段により、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定手段と、
前記特定手段で特定された注釈領域から注釈を抽出する抽出手段と、
を備えたことを特徴とする文書処理装置。 - 前記抽出手段は、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する請求項1に記載の文書処理装置。
- 前記抽出手段は画像として注釈を抽出する請求項1に記載の文書処理装置。
- 前記近傍領域にオブジェクトが存在しない場合、前記検出手段は、前記所定量を拡大してオブジェクトを検出する請求項1~3のいずれかに記載の文書処理装置。
- 前記検出手段は、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定手段は指示線の終端近傍において注釈領域を特定する請求項1~4のいずれかに記載の文書処理装置。
- 前記検出手段は、前記指示線の終端が矢印であっても、指示線の終端と判断する請求項5に記載の文書処理装置。
- 前記抽出手段により抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる請求項1~6のいずれかに記載の文書処理装置。
- 前記特定手段により特定される注釈領域は予め設定された領域である請求項1~7のいずれかに記載の文書処理装置。
- 前記検出手段は前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定手段は前記検出手段の検出結果に基づいて、注釈領域を特定する請求項1~7のいずれかに記載の文書処理装置。 - 前記注釈は手書き文字及び/または印字文字である請求項1~9のいずれかに記載の文書処理装置。
- 前記近傍領域におけるオブジェクトの検出処理を、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる請求項1~10のいずれかに記載の文書処理装置。
- 予め定義された定型領域に対して文字認識処理を実行する文書処理装置が、
前記定型領域の所定量の近傍領域において、注釈の存在を示すオブジェクトを検出する検出ステップと、
前記検出ステップにより、前記オブジェクトが検出された場合、前記注釈が記載された注釈領域を特定する特定ステップと、
前記特定ステップで特定された注釈領域から注釈を抽出する抽出ステップと、
を実行することを特徴とする文書処理方法。 - 前記抽出ステップでは、特定された前記注釈領域に対して文字認識処理を実行することにより注釈を抽出する請求項12に記載の文書処理方法。
- 前記抽出ステップでは画像として注釈を抽出する請求項12に記載の文書処理方法。
- 前記定型領域の所定量の近傍領域に前記オブジェクトが存在しない場合、前記検出ステップでは、前記所定量を拡大してオブジェクトを検出する請求項12~14のいずれかに記載の文書処理方法。
- 前記検出ステップでは、前記近傍領域にオブジェクトの一つとしての指示線を検出した場合、指示線の延びる方向に前記所定量を拡大して、指示線の終端を検出し、前記特定ステップでは指示線の終端近傍において注釈領域を特定する請求項12~15のいずれかに記載の文書処理方法。
- 前記抽出ステップにより抽出された注釈は、前記定型領域内の最も関連する項目と関連付けられる請求項12~16のいずれかに記載の文書処理方法。
- 前記特定ステップにより特定される注釈領域は予め設定されている請求項12~17のいずれかに記載の文書処理方法。
- 前記検出ステップでは前記オブジェクトを検出した場合、オブジェクトを検出した領域を注目領域として、当該注目領域の周囲に検出領域を拡大してオブジェクトを検出するとともに、拡大した検出領域の全てにオブジェクトを検出しなくなるまで検出領域の拡大と検出を繰り返し、
前記特定ステップでは前記検出ステップの検出結果に基づいて、注釈領域を特定する請求項12~17のいずれかに記載の文書処理方法。 - 前記近傍領域におけるオブジェクトの検出ステップを、前記定型領域に対する文字認識処理よりも先に行った結果、前記近傍領域に指示線が検出されかつ指示線が前記定型領域に進入していることが検出された場合、前記定型領域に対する文字認識処理は、定型領域内の指示線を除去した状態で行われる請求項12~19のいずれかに記載の文書処理方法。
- 請求項12~20のいずれかに記載の文書処理方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021133147A JP2023027838A (ja) | 2021-08-18 | 2021-08-18 | 文書処理装置、文書処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021133147A JP2023027838A (ja) | 2021-08-18 | 2021-08-18 | 文書処理装置、文書処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023027838A true JP2023027838A (ja) | 2023-03-03 |
Family
ID=85331227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021133147A Pending JP2023027838A (ja) | 2021-08-18 | 2021-08-18 | 文書処理装置、文書処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023027838A (ja) |
-
2021
- 2021-08-18 JP JP2021133147A patent/JP2023027838A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
EP2162859B1 (en) | Image processing apparatus, image processing method, and computer program | |
CN101178725B (zh) | 用于信息检索的设备和方法 | |
KR101015663B1 (ko) | 문자인식장치에서의 문자인식방법 및 그 장치 | |
JP5042562B2 (ja) | 画像処理装置、手書き情報認識方法、手書き情報認識プログラム | |
US20060285748A1 (en) | Document processing device | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP2008145611A (ja) | 情報処理装置、プログラム | |
JP4232679B2 (ja) | 画像形成装置およびプログラム | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP2022092119A (ja) | 画像処理装置、画像処理方法およびプログラム | |
US20230077608A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2023027838A (ja) | 文書処理装置、文書処理方法及びプログラム | |
CN108875570B (zh) | 信息处理装置、存储介质和信息处理方法 | |
EP3522035A1 (en) | Image processing apparatus and image processing program | |
JP4194853B2 (ja) | 文書解析装置 | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
EP1061460A2 (en) | Partial image forming method and apparatus for filing documents | |
JP6601143B2 (ja) | 印刷装置 | |
JP2022151533A (ja) | 読取システム、読取プログラムおよび読取方法 | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
CN113111881A (zh) | 信息处理装置及记录媒体 | |
JP6960646B1 (ja) | 読取システム、読取プログラムおよび読取方法 | |
JP7497620B2 (ja) | 文書データ生成装置、画像形成装置、及び文書データ生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240711 |