JP2022011021A

JP2022011021A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2022011021A
Application number: JP2020111873A
Authority: JP
Inventors: 妙子山▲崎▼; Taeko Yamazaki; 知俊金津; Tomotoshi Kanatsu
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-01-17

Abstract

【課題】手書き文字を含む、事前の帳票定義ができない非定型帳票から、高速かつ精度の高い文字認識処理を実現する。【解決手段】情報処理装置は、入力された画像のサイズから帳票タイプを分類する帳票タイプ分類部（２０２）と、画像から手書き画素と手書き以外の画素とを分離する手書き画素分離部（２０６）を有し、帳票タイプごとの手書き頻度を示す手書き頻度テーブル（２１０）を参照し、手書き画素分離部（２０６）、活字文字認識部（２０７）、および手書き文字認識部（２０８）を制御する制御部（２０４）を含む。【選択図】図２

Description

本発明は、画像から所定の文字が記載されている領域を特定し、情報を抽出する技術に関する。

文書画像から文字情報を認識した結果を画像のインデキシングに用いるシステムがある。インデキシングの方法には、文書画像のタイトルをその画像のファイル名にするなどがある。

また、文書画像に対して、画像中に記載されている名前や合計金額などが記載されている領域を特定し、文字認識をすることにより、特定された領域から情報を抽出するシステムもある。これらシステムにおいて、ユーザの要求によって文書画像から抽出したい文字情報が存在する位置は異なる。また、文書画像には活字文字のほかに、手書き文字も存在することがある。

特許文献１では、特徴データの１つとして、帳票サイズを取得する。次に特徴データに基づき帳票種別を判定し、帳票種別に対して適切な文字認識エンジン（手書き用文字認識エンジン含む）を選択する技術が開示されている。

特許文献２では、文書画像の画素特徴量から手書き画素と活字画素を分離する技術が開示されている。

特開２０１９－１６９０２６号公報特開２００８－０３３６０４号公報米国特許第５６８０４７８号

"Recognizing Challenging Handwritten Annotations with Fully Convolutional Networks"， https://arxiv．org/pdf/1804．00236．pdf

特許文献１では、事前に帳票のフォーマットのテンプレートを登録する必要があり、帳票サイズなどでその登録種類に振り分け、その登録内容に帳票全体又は帳票の領域毎に適用される文字認識エンジンが決められている。このため、フォーマットが固定されていないレシート、領収書などに対しては対応できない。

また、特許文献２では、画像全面に分離処理を実施し、分離した手書き画素と手書き以外の画素に対して、領域分割や文字認識の実行を想定している。実際にシステムに入力される文書においては、手書き文字が出現する頻度にばらつきがあるケースが多く、必要のない領域に対して手書き画素分離処理が実行され、処理時間のコストが高くなる。

以上の課題を解決するため、本発明は以下の構成を有する。

入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類部と、手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを備え、前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行し、前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行することを特徴とする情報処理装置。

本発明によれば、事前の帳票定義が設定できない非定型帳票に対し、手書き画素分離処理の実行を限定できるため、高速かつ精度の高い文字認識処理が実現できる。

第１の実施形態に係る情報処理システムを示す図である。第１の実施形態の情報処理装置のシステム制御部に係る機能ブロックを示す図である。本実施形態において想定される入力帳票の例を示す図である。第１の実施形態において用いる手書き頻度テーブルの一例を示す図である。第１の実施形態に係る文字認識処理を示すフローチャートである。第１の実施形態に係る詳細な文字認識処理を示すフローチャートである。文字認識および手書き画素分離の処理対象となる領域の一例を示す図である。第１の実施形態に係る詳細な文字認識処理を示すフローチャートである。第２の実施形態において用いる手書き頻度テーブルの一例を示す図である。

以下、本発明を実施するための形態について図面を用いて説明する。

（第１の実施形態）
図１は、第１の実施形態に係る情報処理システムを示す図である。情報処理システムは、読み取り装置１００と、情報処理装置１１０とを有している。

読み取り装置１００は、スキャナ１０１と、読み取り装置側通信部１０２とを有している。スキャナ１０１は、文書の読み取りを行い、スキャンした文書画像を生成する。読み取り装置側通信部１０２は、ネットワークを介して外部装置と通信を行う。

情報処理装置１１０は、システム制御部１１１と、ＲＯＭ１１２と、ＲＡＭ１１３と、ＨＤＤ１１４と、表示部１１５と、入力部１１６と、情報処理装置側通信部１１７とを有している。

システム制御部１１１は、ＲＯＭ１１２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１１３は、システム制御部１１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１１４は、各種データや各種プログラム等を記憶する。

なお、後述する情報処理装置１１０の機能や処理は、システム制御部１１１がＲＯＭ１１２又はＨＤＤ１１４に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。

情報処理装置側通信部１１７は、ネットワークを介して外部装置との通信処理を行う。

表示部１１５は、各種情報を表示する。入力部１１６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部１１５と入力部１１６は、タッチパネルのように一体に設けられてもよい。また、表示部１１５は、プロジェクタによる投影を行うものであってもよく、入力部１１６は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。

本実施形態においては、読み取り装置１００のスキャナ１０１が帳票等の紙文書を読み取り、スキャンした文書画像を生成する。スキャンした文書画像は、読み取り装置側通信部１０２により情報処理装置１１０に送信される。情報処理装置１１０では、情報処理装置側通信部１１７がスキャンした文書画像を受信し、文書画像をＨＤＤ１１４などの記憶装置に記憶する。なお、表示部１１５と入力部１１６の一部機能が読み取り装置１００にあってもよい。

図２は、第１の実施形態の情報処理装置１１０のシステム制御部１１１が制御する機能ブロック図の一例である。システム制御部１１１は、読み取り装置１００でスキャンした文書画像を取り込む。システム制御部１１１は、画像取得部２０１と、取得した文書画像を分類する帳票タイプ分類部２０２と、取得した文書画像と帳票タイプとに基づいて文書処理を実行する制御部２０４とを有する。

スキャナ１０１はユーザによる指示に従い紙文書をスキャンし、読み取り装置側通信部１０２を介して、情報処理装置１１０に送信する。送信されたスキャンした文書画像は情報処理装置側通信部１１７において受信され、システム制御部１１１の画像取得部２０１により、ＨＤＤ１１４などの記憶部に格納される。

図３は、情報処理システムへ入力される帳票の例である。図３（Ａ）は、いわゆるレシートであって、レジスタ等の精算機から、ロール紙に印刷されて出力される帳票の例である。図３（Ｂ）は、一般的な領収書であって、いわゆる小切手帳サイズの帳票の例である。図３（Ｃ）は、会計システム等から発行され、Ａ４サイズの紙に印刷された請求書の例である。図３（Ｄ）は、レシートと同様に、精算機からロール紙に印刷出力されたレシート領収書であって、宛名は空欄で、一部が手書きされる領収書の例である。これらは一般的なレシートや請求書であって、帳票のレイアウトは固定ではない。すなわち読み取り箇所の位置情報などをテンプレートとして事前に登録はできない。一方、レシートと一般的な領収書では用紙サイズが違い、この情報をもってある程度の帳票タイプを分類することは可能である。

また、図３（Ｃ）に示した請求書では、出金処理などの進捗状況を、請求書の紙面に直接手書きで書き込むケースもある。このようなケースでは手書きされた情報が書き込まれる位置も不定になる。

帳票タイプ分類部２０２は、画像取得部２０１で読み込んだ文書画像のサイズとテーブルＩ／Ｏ２０３を介して取得した手書き頻度テーブル２１０から、入力画像の帳票のタイプを分類する。

図４は、ＨＤＤ１１４などの記憶部に格納された手書き頻度テーブル２１０の一例である。手書き頻度テーブル２１０は、用紙サイズ、すなわち入力画像の縦（高さｈ）／横（幅ｗ）のピクセル値と、帳票タイプ、そしてその帳票に手書き文字領域が出現する頻度を高・低・なしの３段階で定義してある。

なお、用紙サイズはぶれが生じることもあるため、ここで定義した値に対し±αの許容値を設定してもよい。さらに、図３（Ａ）に示したレシートは縦方向の高さが可変であるため、レシートとして定義する用紙サイズは、固定値として扱える横方向の幅の情報のみ保持していても構わない。同様に、図３（Ｄ）に示したレシート領収書は横方向の幅が不定で、縦方向の高さのみを保持している。

制御部２０４は、取得した文書画像と帳票タイプに基づいて、領域解析部２０５、手書き画素分離部２０６、活字文字認識部２０７、手書き文字認識部２０８、文字認識結果後処理部２０９を制御する。これらの詳細処理については、図５を用いて説明する。

図５は、本実施形態における文字認識処理を示すフローチャートの一例である。本フローチャートは、ＲＯＭ１１２に格納されたプログラムに従って、情報処理装置１１０のシステム制御部１１１が実行することによって実現される。

ステップＳ５０１において、スキャナ１０１はユーザによる指示に従い紙文書をスキャンし、読み取り装置側通信部１０２を介して、情報処理装置１１０に送信する。送信されたスキャンした文書画像は、情報処理装置側通信部１１７において受信され、システム制御部１１１の画像所得部２０１により、ＨＤＤ１１４などの記憶部に格納される。

ステップＳ５０２において、システム制御部１１１は、ステップＳ５０１で読み込んだ帳票画像から用紙サイズを取得する。次に、ＨＤＤ１１４などの記憶部に格納された手書き頻度テーブルを、取得した用紙サイズと適合する帳票タイプの手書き頻度情報を取得し、結果をＲＡＭ１１３に格納する。

ステップＳ５０３において、システム制御部１１１は、ＲＡＭ１１３を参照し、手書き頻度情報によって処理工程を切り替える。手書き頻度「低」ならば、ステップＳ５０４のｍｏｄｅ１へ遷移し、手書き頻度「なし」すなわち手書き文字がない場合はステップＳ５０５のｍｏｄｅ２へ遷移し、手書き頻度「高」ならばステップＳ５０６のｍｏｄｅ３へ遷移する。

ステップＳ５０４，Ｓ５０５、Ｓ５０６のそれぞれの処理については、図６（Ａ），（Ｂ）、図８を用いて詳細を説明する。それぞれのモードにおける文字認識処理を行って、図５に示したフローは終了する。

図６（Ａ）は、図５のステップＳ５０４のｍｏｄｅ１、すなわち手書き頻度が低い場合の詳細な文字認識処理を示すフローチャートである。

ステップＳ６０１において、システム制御部１１１は、制御部２０４の領域解析部２０５において、スキャンした文書画像に対して領域解析処理を行い、検出結果をＲＡＭ１１３に格納する。

領域解析処理は、スキャンした文書画像中から文字、絵や図、表、枠、線の領域を検出する。領域解析では公知の技術を用いる。当該技術の具体例としては、特許文献３に記載の処理などがある。特許文献３では文書画像中の画素塊、白画素塊の集合を抽出し、その形状、大きさ、集合状態等から、文字、絵や図、表、枠、線といった特徴的な領域を抽出している。

ステップＳ６０２において、システム制御部１１１は、ＲＡＭ１１３を参照し、入力された文書画像で解析された領域が文字領域か否かを判定し、判定結果をＲＡＭ１１３に格納する。ＹＥＳ（文字領域）ならば、ステップＳ６０３へ、Ｎｏ（文字領域以外）ならばステップＳ６０５へ遷移する。

例えば、図７（Ａ）は、図３（Ｂ）に示した一般的な領収書３０２に対し、ステップＳ６０２の処理を実行した結果を示す。文字領域として判定された領域が、矩形の細線で囲まれていることを示している。

ステップＳ６０３において、システム制御部１１１は、制御部２０４の活字文字認識部２０７において、ステップＳ６０２で設定した文字領域に従って活字文字認識を実行し、結果をＲＡＭ１１３やＨＤＤ１１４などの記憶部に格納する。

ステップＳ６０４において、システム制御部１１１は、記憶部を参照して、ステップＳ６０３で実行した文字認識の結果を取得する。次に、文字認識を実行したそれぞれの文字領域に対して、どれだけもっともらしいかを示す尤度を取得し、文字領域ごとの文字認識結果が信頼できるかを判定し、判定結果をＲＡＭ１１３に格納する。

なお、尤度は、認識した文字１文字ごとに付与されるが、本処理では、先に文字領域に含まれる文字の尤度の総計と、文字数で割った平均値とを算出する。尤度の平均値としきい値とを比較して、文字領域単位で尤度が高いか低いかの判定を行う。

例えば、図７（Ｂ）は、図７（Ａ）の文字認識した結果に対して、ステップＳ６０４の処理を実行した結果を示す。矩形の細線で囲まれている文字領域のうち、尤度が高いと判定された領域のみが表示されている例を示している。

ステップＳ６０３が、活字を対象としたアルゴリズムを搭載した文字認識処理であるため、活字部分の文字認識結果の尤度は高くなる。一方、手書き文字が含まれる領域に対しては、活字と手書きでの文字の形状の違いなどが影響し、文字認識結果の尤度が低くなる傾向にある。

ステップＳ６０５において、システム制御部１１１は、制御部２０４の手書き画素分離部２０６において、ＲＡＭ１１３を参照して、文字認識の尤度判定結果を取得する。次に、ステップＳ６０４にて尤度の平均値がしきい値より低く、尤度が低いと判定された文字領域に対し、手書き画素分離処理を実行し、分離結果をＲＡＭ１１３に格納する。図７（Ｃ）は、図７（Ａ）の文字認識した結果に対して、ステップＳ６０５の処理を実行する領域、すなわち尤度が低いと判定された文字領域を示す。

手書き画素分離処理は、スキャンした画像に対して、手書き文字と想定される画素を分離する。手書き画素分離処理は、例えば、非特許文献１に記載の技術を用いる。非特許文献１では、完全畳み込みニューラルネットワークを用いて、手書き文字画素を検出している。

図７（Ｄ）は、ステップＳ６０５に入力される文字領域であって、尤度が低いと判定された文字領域の一例である。この文字領域に対して、手書き画素分離処理を行った結果を、図７（Ｅ）に示す。手書き文字として想定された画素を分離した部分が、”２０１９”、”１１”、”５”として分離できているのが分かる。

ステップＳ６０６において、システム制御部１１１は、制御部２０４の手書き文字認識部２０８において、ＲＡＭ１１３を参照して、手書き画素分離処理の分離結果を取得する。次に、分離した手書き画素に対し手書き文字認識を実行し、結果をＲＡＭ１１３やＨＤＤ１１４などの記憶部に格納する。

ステップＳ６０７において、システム制御部１１１は、制御部２０４の文字認識結果後処理部２０８において、記憶部を参照して、活字文字認識結果および手書き文字認識結果を取得し、両者を統合する。また、文字認識結果後処理においては、品名、住所などのマスターデータを用いた照合処理を行うなどを実行し、結果をＲＡＭ１１３やＨＤＤ１１４などの記憶部に格納する。

以上、図５のＳ５０４の手書き頻度が低い場合の詳細な処理を説明した。本フローチャートの特徴は、手書き分離処理を実行する領域を領域解析および活字文字認識の結果に基づいて、絞り込んで実行する点である。また、入力画像に実行領域を判定するため、レイアウトが定まらない帳票に対しても、柔軟な手書き文字認識の実行領域の選定が可能になり、高速かつ精度の高い文字認識結果の取得が可能になる。

図６（Ｂ）は、図５のステップＳ５０５のｍｏｄｅ２、すなわち手書き頻度なしの場合の詳細な文字認識処理を示すフローチャートである。

処理ステップ番号が図６（Ａ）と同一のステップは、実行する処理は同じとみなす。本フローチャートの特徴は、手書き頻度がなしの場合、すなわち手書き画素が含まれていない帳票に対しては、計算コストの高い手書き画素分離処理および手書き文字認識処理を実行しない点である。これにより、処理時間の短縮化が実現できる。

図８は、図５のステップＳ５０６のｍｏｄｅ３、すなわち手書き頻度が高い場合の詳細な文字認識処理を示すフローチャートである。

処理ステップ番号が図６（Ａ）、（Ｂ）と同一のステップは、実行する処理は同じとみなす。本フローチャートの特徴は、手書き頻度が高い場合は、最初に帳票画像全体に手書き画素分離処理を実施する（Ｓ６０５）。次に、手書き画素と手書き以外の画素それぞれを別レイアとして領域解析を行う。抽出した文字領域に対し、手書き画素から抽出した文字領域には手書き文字認識処理（Ｓ６０６）を実行し、手書き画素以外から抽出した文字領域には活字文字認識処理（Ｓ６０３）を実行している。これにより、手書き画素の出現が多い帳票に対し、精度よく文字認識を実行することができる。

（第２の実施形態）
第１の実施形態では、手書き頻度テーブルを先に設定し、参照するのみであった。一方、ユーザが入力する帳票によって、手書き文字が含まれる帳票の傾向がユーザごとに異なる可能性もある。このような場合は、ユーザの操作履歴から手書き文字頻度テーブルを更新してもよい。

具体的には、第１の実施形態が実行されたのち、システム制御部１１１は記憶部に格納した文字認識結果、すなわちステップＳ６０７の文字認識結果後処理の結果を取得し、表示部１１５に表示する。

ユーザは、表示部１１５を目視で確認する。この際、ユーザは、表示部から表示された帳票画像の文字領域が手書き文字の文字領域である場合、入力部１１６から手書き文字認識を指定する。指定情報を受け取ったシステム制御部１１１は、テーブルＩ／Ｏ２０３を介して、手書き頻度テーブル２１０の該当する手書き頻度情報を更新する。例えば、図９は、図４に示した手書き頻度テーブル２１０のレシート領収書について、手書き頻度が「なし」から「低」に更新された結果を示す。

以上により、ユーザの操作履歴に基づいて手書き文字頻度テーブルを更新できるので、ユーザが扱う帳票の傾向が手書き頻度テーブルに反映され、さらなる文字認識の精度向上が可能になる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給することができる。そのシステムまたは装置のコンピュータにおける１つ以上のプロセッサーが、供給されたプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

２０１画像取得部
２０２帳票タイプ分類部
２０３テーブルＩ／Ｏ
２０４制御部
２１０手書き頻度テーブル

Claims

入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類部と、
手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、
手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを備え、
前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行し、
前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行することを特徴とする情報処理装置。
前記取得した手書き頻度が低い場合は、前記文字領域に前記活字文字認識処理を実行した結果に基づいて、さらに手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行することを特徴とする請求項１に記載の情報処理装置。
前記活字文字認識処理を実行した前記文字領域の１文字ごとに付与される尤度の総計と、前記文字領域の文字数で割った平均値とを算出し、前記平均値がしきい値より低い場合に、前記手書き画素と前記手書き以外の画素とを分離することを特徴とする請求項２に記載の情報処理装置。
ユーザからの文字領域の指定を受け付ける入力部をさらに備え、
前記指定された文字領域が、手書き文字領域であるとして前記手書き頻度テーブルが更新されることを特徴とする、請求項１、２または３に記載の情報処理装置。
手書き画素の領域に手書き文字認識処理を実行する手書き文字認識部と、手書き画素以外の領域に活字文字認識処理を実行する活字文字認識部とを含む情報処理装置における情報処理方法であって、
入力された画像のサイズを取得し、帳票タイプごとの手書き頻度を示す手書き頻度テーブルを参照し、前記サイズと適合する帳票タイプの手書き頻度を取得する帳票タイプ分類ステップと、
前記取得した手書き頻度が高い場合は、手書き画素と手書き以外の画素とを分離し、前記手書き画素の領域に前記手書き文字認識処理を実行し、前記手書き画素以外の領域に前記活字文字認識処理を実行するステップと、
前記取得した手書き頻度が低い場合は、前記画像の領域解析を実行して文字領域を検出し、前記文字領域に活字文字認識処理を実行するステップと
を備えたことを特徴とする情報処理方法。
コンピュータを、請求項１乃至４のいずれか１項に記載の情報処理装置の一手段として機能させるためのプログラム。