JP2022011021A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2022011021A JP2022011021A JP2020111873A JP2020111873A JP2022011021A JP 2022011021 A JP2022011021 A JP 2022011021A JP 2020111873 A JP2020111873 A JP 2020111873A JP 2020111873 A JP2020111873 A JP 2020111873A JP 2022011021 A JP2022011021 A JP 2022011021A
- Authority
- JP
- Japan
- Prior art keywords
- handwritten
- area
- character recognition
- character
- handwriting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】手書き文字を含む、事前の帳票定義ができない非定型帳票から、高速かつ精度の高い文字認識処理を実現する。【解決手段】情報処理装置は、入力された画像のサイズから帳票タイプを分類する帳票タイプ分類部(202)と、画像から手書き画素と手書き以外の画素とを分離する手書き画素分離部(206)を有し、帳票タイプごとの手書き頻度を示す手書き頻度テーブル(210)を参照し、手書き画素分離部(206)、活字文字認識部(207)、および手書き文字認識部(208)を制御する制御部(204)を含む。【選択図】図2
Description
本発明は、画像から所定の文字が記載されている領域を特定し、情報を抽出する技術に関する。
文書画像から文字情報を認識した結果を画像のインデキシングに用いるシステムがある。インデキシングの方法には、文書画像のタイトルをその画像のファイル名にするなどがある。
また、文書画像に対して、画像中に記載されている名前や合計金額などが記載されている領域を特定し、文字認識をすることにより、特定された領域から情報を抽出するシステムもある。これらシステムにおいて、ユーザの要求によって文書画像から抽出したい文字情報が存在する位置は異なる。また、文書画像には活字文字のほかに、手書き文字も存在することがある。
特許文献1では、特徴データの1つとして、帳票サイズを取得する。次に特徴データに基づき帳票種別を判定し、帳票種別に対して適切な文字認識エンジン(手書き用文字認識エンジン含む)を選択する技術が開示されている。
特許文献2では、文書画像の画素特徴量から手書き画素と活字画素を分離する技術が開示されている。
"Recognizing Challenging Handwritten Annotations with Fully Convolutional Networks", https://arxiv.org/pdf/1804.00236.pdf
特許文献1では、事前に帳票のフォーマットのテンプレートを登録する必要があり、帳票サイズなどでその登録種類に振り分け、その登録内容に帳票全体又は帳票の領域毎に適用される文字認識エンジンが決められている。このため、フォーマットが固定されていないレシート、領収書などに対しては対応できない。
また、特許文献2では、画像全面に分離処理を実施し、分離した手書き画素と手書き以外の画素に対して、領域分割や文字認識の実行を想定している。実際にシステムに入力される文書においては、手書き文字が出現する頻度にばらつきがあるケースが多く、必要のない領域に対して手書き画素分離処理が実行され、処理時間のコストが高くなる。
以上の課題を解決するため、本発明は以下の構成を有する。
入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類部と、手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを備え、前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行し、前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行することを特徴とする情報処理装置。
本発明によれば、事前の帳票定義が設定できない非定型帳票に対し、手書き画素分離処理の実行を限定できるため、高速かつ精度の高い文字認識処理が実現できる。
以下、本発明を実施するための形態について図面を用いて説明する。
(第1の実施形態)
図1は、第1の実施形態に係る情報処理システムを示す図である。情報処理システムは、読み取り装置100と、情報処理装置110とを有している。
図1は、第1の実施形態に係る情報処理システムを示す図である。情報処理システムは、読み取り装置100と、情報処理装置110とを有している。
読み取り装置100は、スキャナ101と、読み取り装置側通信部102とを有している。スキャナ101は、文書の読み取りを行い、スキャンした文書画像を生成する。読み取り装置側通信部102は、ネットワークを介して外部装置と通信を行う。
情報処理装置110は、システム制御部111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、情報処理装置側通信部117とを有している。
システム制御部111は、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。
なお、後述する情報処理装置110の機能や処理は、システム制御部111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。
情報処理装置側通信部117は、ネットワークを介して外部装置との通信処理を行う。
表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、読み取り装置100のスキャナ101が帳票等の紙文書を読み取り、スキャンした文書画像を生成する。スキャンした文書画像は、読み取り装置側通信部102により情報処理装置110に送信される。情報処理装置110では、情報処理装置側通信部117がスキャンした文書画像を受信し、文書画像をHDD114などの記憶装置に記憶する。なお、表示部115と入力部116の一部機能が読み取り装置100にあってもよい。
図2は、第1の実施形態の情報処理装置110のシステム制御部111が制御する機能ブロック図の一例である。システム制御部111は、読み取り装置100でスキャンした文書画像を取り込む。システム制御部111は、画像取得部201と、取得した文書画像を分類する帳票タイプ分類部202と、取得した文書画像と帳票タイプとに基づいて文書処理を実行する制御部204とを有する。
スキャナ101はユーザによる指示に従い紙文書をスキャンし、読み取り装置側通信部102を介して、情報処理装置110に送信する。送信されたスキャンした文書画像は情報処理装置側通信部117において受信され、システム制御部111の画像取得部201により、HDD114などの記憶部に格納される。
図3は、情報処理システムへ入力される帳票の例である。図3(A)は、いわゆるレシートであって、レジスタ等の精算機から、ロール紙に印刷されて出力される帳票の例である。図3(B)は、一般的な領収書であって、いわゆる小切手帳サイズの帳票の例である。図3(C)は、会計システム等から発行され、A4サイズの紙に印刷された請求書の例である。図3(D)は、レシートと同様に、精算機からロール紙に印刷出力されたレシート領収書であって、宛名は空欄で、一部が手書きされる領収書の例である。これらは一般的なレシートや請求書であって、帳票のレイアウトは固定ではない。すなわち読み取り箇所の位置情報などをテンプレートとして事前に登録はできない。一方、レシートと一般的な領収書では用紙サイズが違い、この情報をもってある程度の帳票タイプを分類することは可能である。
また、図3(C)に示した請求書では、出金処理などの進捗状況を、請求書の紙面に直接手書きで書き込むケースもある。このようなケースでは手書きされた情報が書き込まれる位置も不定になる。
帳票タイプ分類部202は、画像取得部201で読み込んだ文書画像のサイズとテーブルI/O203を介して取得した手書き頻度テーブル210から、入力画像の帳票のタイプを分類する。
図4は、HDD114などの記憶部に格納された手書き頻度テーブル210の一例である。手書き頻度テーブル210は、用紙サイズ、すなわち入力画像の縦(高さh)/横(幅w)のピクセル値と、帳票タイプ、そしてその帳票に手書き文字領域が出現する頻度を高・低・なしの3段階で定義してある。
なお、用紙サイズはぶれが生じることもあるため、ここで定義した値に対し±αの許容値を設定してもよい。さらに、図3(A)に示したレシートは縦方向の高さが可変であるため、レシートとして定義する用紙サイズは、固定値として扱える横方向の幅の情報のみ保持していても構わない。同様に、図3(D)に示したレシート領収書は横方向の幅が不定で、縦方向の高さのみを保持している。
制御部204は、取得した文書画像と帳票タイプに基づいて、領域解析部205、手書き画素分離部206、活字文字認識部207、手書き文字認識部208、文字認識結果後処理部209を制御する。これらの詳細処理については、図5を用いて説明する。
図5は、本実施形態における文字認識処理を示すフローチャートの一例である。本フローチャートは、ROM112に格納されたプログラムに従って、情報処理装置110のシステム制御部111が実行することによって実現される。
ステップS501において、スキャナ101はユーザによる指示に従い紙文書をスキャンし、読み取り装置側通信部102を介して、情報処理装置110に送信する。送信されたスキャンした文書画像は、情報処理装置側通信部117において受信され、システム制御部111の画像所得部201により、HDD114などの記憶部に格納される。
ステップS502において、システム制御部111は、ステップS501で読み込んだ帳票画像から用紙サイズを取得する。次に、HDD114などの記憶部に格納された手書き頻度テーブルを、取得した用紙サイズと適合する帳票タイプの手書き頻度情報を取得し、結果をRAM113に格納する。
ステップS503において、システム制御部111は、RAM113を参照し、手書き頻度情報によって処理工程を切り替える。手書き頻度「低」ならば、ステップS504のmode1へ遷移し、手書き頻度「なし」すなわち手書き文字がない場合はステップS505のmode2へ遷移し、手書き頻度「高」ならばステップS506のmode3へ遷移する。
ステップS504,S505、S506のそれぞれの処理については、図6(A),(B)、図8を用いて詳細を説明する。それぞれのモードにおける文字認識処理を行って、図5に示したフローは終了する。
図6(A)は、図5のステップS504のmode1、すなわち手書き頻度が低い場合の詳細な文字認識処理を示すフローチャートである。
ステップS601において、システム制御部111は、制御部204の領域解析部205において、スキャンした文書画像に対して領域解析処理を行い、検出結果をRAM113に格納する。
領域解析処理は、スキャンした文書画像中から文字、絵や図、表、枠、線の領域を検出する。領域解析では公知の技術を用いる。当該技術の具体例としては、特許文献3に記載の処理などがある。特許文献3では文書画像中の画素塊、白画素塊の集合を抽出し、その形状、大きさ、集合状態等から、文字、絵や図、表、枠、線といった特徴的な領域を抽出している。
ステップS602において、システム制御部111は、RAM113を参照し、入力された文書画像で解析された領域が文字領域か否かを判定し、判定結果をRAM113に格納する。YES(文字領域)ならば、ステップS603へ、No(文字領域以外)ならばステップS605へ遷移する。
例えば、図7(A)は、図3(B)に示した一般的な領収書302に対し、ステップS602の処理を実行した結果を示す。文字領域として判定された領域が、矩形の細線で囲まれていることを示している。
ステップS603において、システム制御部111は、制御部204の活字文字認識部207において、ステップS602で設定した文字領域に従って活字文字認識を実行し、結果をRAM113やHDD114などの記憶部に格納する。
ステップS604において、システム制御部111は、記憶部を参照して、ステップS603で実行した文字認識の結果を取得する。次に、文字認識を実行したそれぞれの文字領域に対して、どれだけもっともらしいかを示す尤度を取得し、文字領域ごとの文字認識結果が信頼できるかを判定し、判定結果をRAM113に格納する。
なお、尤度は、認識した文字1文字ごとに付与されるが、本処理では、先に文字領域に含まれる文字の尤度の総計と、文字数で割った平均値とを算出する。尤度の平均値としきい値とを比較して、文字領域単位で尤度が高いか低いかの判定を行う。
例えば、図7(B)は、図7(A)の文字認識した結果に対して、ステップS604の処理を実行した結果を示す。矩形の細線で囲まれている文字領域のうち、尤度が高いと判定された領域のみが表示されている例を示している。
ステップS603が、活字を対象としたアルゴリズムを搭載した文字認識処理であるため、活字部分の文字認識結果の尤度は高くなる。一方、手書き文字が含まれる領域に対しては、活字と手書きでの文字の形状の違いなどが影響し、文字認識結果の尤度が低くなる傾向にある。
ステップS605において、システム制御部111は、制御部204の手書き画素分離部206において、RAM113を参照して、文字認識の尤度判定結果を取得する。次に、ステップS604にて尤度の平均値がしきい値より低く、尤度が低いと判定された文字領域に対し、手書き画素分離処理を実行し、分離結果をRAM113に格納する。図7(C)は、図7(A)の文字認識した結果に対して、ステップS605の処理を実行する領域、すなわち尤度が低いと判定された文字領域を示す。
手書き画素分離処理は、スキャンした画像に対して、手書き文字と想定される画素を分離する。手書き画素分離処理は、例えば、非特許文献1に記載の技術を用いる。非特許文献1では、完全畳み込みニューラルネットワークを用いて、手書き文字画素を検出している。
図7(D)は、ステップS605に入力される文字領域であって、尤度が低いと判定された文字領域の一例である。この文字領域に対して、手書き画素分離処理を行った結果を、図7(E)に示す。手書き文字として想定された画素を分離した部分が、”2019”、”11”、”5”として分離できているのが分かる。
ステップS606において、システム制御部111は、制御部204の手書き文字認識部208において、RAM113を参照して、手書き画素分離処理の分離結果を取得する。次に、分離した手書き画素に対し手書き文字認識を実行し、結果をRAM113やHDD114などの記憶部に格納する。
ステップS607において、システム制御部111は、制御部204の文字認識結果後処理部208において、記憶部を参照して、活字文字認識結果および手書き文字認識結果を取得し、両者を統合する。また、文字認識結果後処理においては、品名、住所などのマスターデータを用いた照合処理を行うなどを実行し、結果をRAM113やHDD114などの記憶部に格納する。
以上、図5のS504の手書き頻度が低い場合の詳細な処理を説明した。本フローチャートの特徴は、手書き分離処理を実行する領域を領域解析および活字文字認識の結果に基づいて、絞り込んで実行する点である。また、入力画像に実行領域を判定するため、レイアウトが定まらない帳票に対しても、柔軟な手書き文字認識の実行領域の選定が可能になり、高速かつ精度の高い文字認識結果の取得が可能になる。
図6(B)は、図5のステップS505のmode2、すなわち手書き頻度なしの場合の詳細な文字認識処理を示すフローチャートである。
処理ステップ番号が図6(A)と同一のステップは、実行する処理は同じとみなす。本フローチャートの特徴は、手書き頻度がなしの場合、すなわち手書き画素が含まれていない帳票に対しては、計算コストの高い手書き画素分離処理および手書き文字認識処理を実行しない点である。これにより、処理時間の短縮化が実現できる。
図8は、図5のステップS506のmode3、すなわち手書き頻度が高い場合の詳細な文字認識処理を示すフローチャートである。
処理ステップ番号が図6(A)、(B)と同一のステップは、実行する処理は同じとみなす。本フローチャートの特徴は、手書き頻度が高い場合は、最初に帳票画像全体に手書き画素分離処理を実施する(S605)。次に、手書き画素と手書き以外の画素それぞれを別レイアとして領域解析を行う。抽出した文字領域に対し、手書き画素から抽出した文字領域には手書き文字認識処理(S606)を実行し、手書き画素以外から抽出した文字領域には活字文字認識処理(S603)を実行している。これにより、手書き画素の出現が多い帳票に対し、精度よく文字認識を実行することができる。
(第2の実施形態)
第1の実施形態では、手書き頻度テーブルを先に設定し、参照するのみであった。一方、ユーザが入力する帳票によって、手書き文字が含まれる帳票の傾向がユーザごとに異なる可能性もある。このような場合は、ユーザの操作履歴から手書き文字頻度テーブルを更新してもよい。
第1の実施形態では、手書き頻度テーブルを先に設定し、参照するのみであった。一方、ユーザが入力する帳票によって、手書き文字が含まれる帳票の傾向がユーザごとに異なる可能性もある。このような場合は、ユーザの操作履歴から手書き文字頻度テーブルを更新してもよい。
具体的には、第1の実施形態が実行されたのち、システム制御部111は記憶部に格納した文字認識結果、すなわちステップS607の文字認識結果後処理の結果を取得し、表示部115に表示する。
ユーザは、表示部115を目視で確認する。この際、ユーザは、表示部から表示された帳票画像の文字領域が手書き文字の文字領域である場合、入力部116から手書き文字認識を指定する。指定情報を受け取ったシステム制御部111は、テーブルI/O203を介して、手書き頻度テーブル210の該当する手書き頻度情報を更新する。例えば、図9は、図4に示した手書き頻度テーブル210のレシート領収書について、手書き頻度が「なし」から「低」に更新された結果を示す。
以上により、ユーザの操作履歴に基づいて手書き文字頻度テーブルを更新できるので、ユーザが扱う帳票の傾向が手書き頻度テーブルに反映され、さらなる文字認識の精度向上が可能になる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給することができる。そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサーが、供給されたプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給することができる。そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサーが、供給されたプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
201 画像取得部
202 帳票タイプ分類部
203 テーブルI/O
204 制御部
210 手書き頻度テーブル
202 帳票タイプ分類部
203 テーブルI/O
204 制御部
210 手書き頻度テーブル
Claims (6)
- 入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類部と、
手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、
手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを備え、
前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行し、
前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行することを特徴とする情報処理装置。 - 前記取得した手書き頻度が低い場合は、前記文字領域に前記活字文字認識処理を実行した結果に基づいて、さらに手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行することを特徴とする請求項1に記載の情報処理装置。
- 前記活字文字認識処理を実行した前記文字領域の1文字ごとに付与される尤度の総計と、前記文字領域の文字数で割った平均値とを算出し、前記平均値がしきい値より低い場合に、前記手書き画素と前記手書き以外の画素とを分離することを特徴とする請求項2に記載の情報処理装置。
- ユーザからの文字領域の指定を受け付ける入力部をさらに備え、
前記指定された文字領域が、手書き文字領域であるとして前記手書き頻度テーブルが更新されることを特徴とする、請求項1、2または3に記載の情報処理装置。 - 手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを含む情報処理装置における情報処理方法であって、
入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類ステップと、
前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行するステップと、
前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行するステップと
を備えたことを特徴とする情報処理方法。 - コンピュータを、請求項1乃至4のいずれか1項に記載の情報処理装置の一手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020111873A JP2022011021A (ja) | 2020-06-29 | 2020-06-29 | 情報処理装置、情報処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020111873A JP2022011021A (ja) | 2020-06-29 | 2020-06-29 | 情報処理装置、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022011021A true JP2022011021A (ja) | 2022-01-17 |
Family
ID=80147959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020111873A Pending JP2022011021A (ja) | 2020-06-29 | 2020-06-29 | 情報処理装置、情報処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022011021A (ja) |
-
2020
- 2020-06-29 JP JP2020111873A patent/JP2022011021A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817559B2 (en) | Image processing apparatus with document similarity processing, and image processing method and storage medium therefor | |
US9179035B2 (en) | Method of editing static digital combined images comprising images of multiple objects | |
US8027539B2 (en) | Method and apparatus for determining an orientation of a document including Korean characters | |
EP2785033B1 (en) | Image inspection system and program | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
KR20170101125A (ko) | 정보 처리장치, 정보 처리방법, 및 기억매체 | |
US11881043B2 (en) | Image processing system, image processing method, and program | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2017120503A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
US20210209393A1 (en) | Image processing system, image processing method, and program | |
JP2007173912A (ja) | 印刷検査装置 | |
US10679091B2 (en) | Image box filtering for optical character recognition | |
US9110926B1 (en) | Skew detection for vertical text | |
US11436733B2 (en) | Image processing apparatus, image processing method and storage medium | |
JP2022162908A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
KR101903617B1 (ko) | 복수 개의 객체 이미지를 포함한 정적인 디지털 결합 이미지의 편집 방법 | |
JP2022011021A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US11380032B2 (en) | Image information processing apparatus, method and non-transitory computer readable medium storing program | |
US11328425B2 (en) | Image processing apparatus and non-transitory computer readable medium | |
JP6639257B2 (ja) | 情報処理装置及びその制御方法 | |
JP2021005315A (ja) | 情報処理装置、プログラム及び制御方法 | |
JP6459528B2 (ja) | 画像補正装置、画像補正システム、画像補正方法、及び画像補正プログラム | |
JP7570843B2 (ja) | 画像処理装置、画像形成システム、画像処理方法、およびプログラム | |
JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20220245957A1 (en) | Image processing apparatus, image processing method, and storage medium |