JP2022010994A - データ入力支援装置、データ入力支援方法及びプログラム - Google Patents

データ入力支援装置、データ入力支援方法及びプログラム Download PDF

Info

Publication number
JP2022010994A
JP2022010994A JP2020111833A JP2020111833A JP2022010994A JP 2022010994 A JP2022010994 A JP 2022010994A JP 2020111833 A JP2020111833 A JP 2020111833A JP 2020111833 A JP2020111833 A JP 2020111833A JP 2022010994 A JP2022010994 A JP 2022010994A
Authority
JP
Japan
Prior art keywords
item
area
character string
character
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020111833A
Other languages
English (en)
Inventor
洋介 五十嵐
Yosuke Igarashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020111833A priority Critical patent/JP2022010994A/ja
Publication of JP2022010994A publication Critical patent/JP2022010994A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】項目領域の登録作業におけるユーザ操作の煩雑さを解消し、入力支援システムのユーザビリティを向上することを目的とする。【解決手段】本発明におけるデータ入力支援装置は、入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出手段と、前記抽出手段で特定された項目領域を文字認識して文字列を取得する文字認識手段と、前記画像の一部の領域を表示領域として入力する表示領域入力手段と、特定の項目種に対応する文字列を項目値として入力する項目値入力手段と、前記項目値をクエリとして、前記文字認識手段で取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索手段と、前記検索手段で取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習手段とを備えることを特徴とする。【選択図】図4

Description

本発明は、データ入力支援装置、支援方法及びプログラムに関する。
企業の会計業務に関する処理を提供するクラウドベースの会計サービスがある。会計サービスを利用して、請求書の管理、支払いを行うためには、紙の請求書から必要な情報を抽出して会計サービスに入力する必要がある。これらの入力作業を支援するために入力支援システムが存在する。入力支援システムは、スキャナで読み取った請求書の画像に対して文字認識を行い、会計サービスに登録するデータを抽出する。抽出された結果は、ユーザが確認・修正した後、会計サービスに登録される。このような入力支援システムでは、会計サービスに登録するデータ(項目値)を請求書から抽出するために、請求書毎にデータの記載領域(項目領域)を登録する必要がある。
特許文献1には、スキャナ機能で取得した画像の中の文字列領域を選択し、データの種類(項目種)と対応付ける所定の操作を行うことにより、項目種と項目領域を対応付けて登録する方法が記載されている。
特開2011-248669号公報
特許文献1では、ユーザは項目領域の登録作業を、項目領域の選択という明示的な操作で行う必要がある。しかしながら、データ入力業務を行うユーザが行う本来の作業は、項目値の入力作業であり、項目領域の選択は項目値の抽出支援のために必要な準備作業でしかない。そのため項目領域の入力は、入力業務において自然なユーザ操作ではなく、煩雑である。
本発明は、項目領域の登録作業におけるユーザ操作の煩雑さを解消し、入力支援システムのユーザビリティを向上することを目的とする。
本発明におけるデータ入力支援装置は、入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出手段と、前記抽出手段で特定された項目領域を文字認識して文字列を取得する文字認識手段と、前記画像の一部の領域を表示領域として入力する表示領域入力手段と、特定の項目種に対応する文字列を項目値として入力する項目値入力手段と、前記項目値をクエリとして、前記文字認識手段で取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索手段と、前記検索手段で取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習手段とを備えることを特徴とする。
本発明によれば、項目領域の登録作業におけるユーザ操作の煩雑さを解消し、入力支援システムのユーザビリティを向上することができる。
第1の実施形態に係るデータ入力支援装置のハードウェア構成を示す図である。 本実施形態のデータ入力支援装置の表示部および入力部を実現するUIを示す図である。 本実施形態のデータ入力支援装置を実現する手段のソフトウェア構成を示す図である。 第1の実施形態を実現するソフトウェアの処理フローを示す図である。 第1の実施形態において想定する帳票画像を示す図である。 入力された帳票画像を処理した結果である確認画面を示す図である。 項目領域の検索を説明する図である。 表示領域と項目種に基づく検索の優先度について説明する図である。 第1の実施形態の第2の変形例において想定する帳票画像を示す図である。 表示領域が移動範囲の境界にある場合の検索の優先度について説明する図である。 項目種の重複割り当てに対する警告表示について説明する図である。
以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。
本実施形態では、会計サービスにおいて用いられる帳票画像を対象として、項目値を抽出、修正、及び学習するデータ入力支援装置について説明する。
<第1の実施形態>
[ハードウェア構成]
図1は、第1の実施形態に係るデータ入力支援装置のハードウェア構成を示す図である。データ入力支援装置100は、システム制御部101と、ROM102と、RAM103と、HDD104と、表示部105と、入力部106と、スキャナ107とを有する。
システム制御部101は、ROM102に記憶された制御プログラムを読み出して各種処理を実行する。RAM103は、システム制御部101の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD104は、各種データや各種プログラム等を記憶する。なお、後述するデータ入力支援装置100の機能や処理は、システム制御部101がROM102またはHDD104に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。
表示部105は、各種情報を表示する。入力部106は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部105と入力部106は、タッチパネルのように一体に設けられてもよい。また、表示部105は、プロジェクタによる投影を行うものであってもよく、入力部106は、投影された画像に対する指先の位置をカメラで認識するものであってもよい。
スキャナ107は、紙面を読み取ってスキャン画像を生成する。なお、スキャナ107は、接触型スキャナに限らず、書画カメラやスマートフォンを非接触型スキャナとして用いてもよい。
本実施形態においては、スキャナ107が帳票等の紙文書を読み取って帳票画像を生成し、当該画像をHDD104などの記憶装置に記憶する。
[UI]
図2は、本実施形態におけるデータ入力支援装置100の表示部105及び入力部106を実現するUI(User Interface)を示す図である。操作パネル201は、表示部105を実現する。操作パネル201はタッチパネル202及びテンキー203を備える。タッチパネル202は、ログイン中のユーザID、メインメニューなどが表示される。
本実施形態において、UIは、処理対象の帳票画像或いは帳票画像から抽出した結果等をユーザに提供するための一手段であり、タッチパネル202上で提供される。UIの表示は、タッチパネルに限定されず、PCに接続されたディスプレイを用いて実行してもよい。
[ソフトウェア構成]
図3は、データ入力支援装置100を実現する手段のソフトウェア構成を示す構成図である。データ入力支援装置100は、各種のモジュール(301~311)から構成される。ソフトウェアを実現するプログラムは、ROM102またはHDD104に記憶される。
制御手段301は、プログラムを制御し、各種モジュールに対する指示、及び管理を行う。
表示手段302は、制御手段301からの指示に従い、データ入力支援装置100のソフトウェアをユーザが操作するためのUI、及び各種の処理結果を表示部105に提供する。
入力手段303は、ソフトウェアに対するユーザの操作を受け付ける。さらに入力手段303はサブモジュール(304~305)を有する。表示領域入力手段304は、ユーザの操作に基づき帳票画像中の任意の領域を表示領域として取得する。表示領域の画像は、表示手段302により表示部105に表示される。項目値入力手段305は、抽出対象項目の種類である項目種毎に、帳票画像内に記載される文字列をユーザ入力により取得し、項目値として記憶する。
記憶手段306は、プログラム、及びプログラムが管理するその他の情報をROM102またはHDD104に記憶する。
文字検出手段307は、帳票画像から帳票画像内に記載される文字列領域を検出する。
文字認識手段308は、帳票画像内の部分画像を文字認識することにより、部分画像内の文字列を特定する。本実施形態においては、文字検出手段307により得られる文字列領域内の画像を対象として文字認識する。また文字認識手段308は、出力可能な文字コード(字種)のセットが予め決められている。さらに、この文字コードのセットから一部の字種のみを出力する字種限定モードを備える。字種限定モードは誤認識を抑制する。例えば、所定の部分画像には大文字のアルファベットのみが出現することが既知の場合、大文字アルファベット(AからZまでの26文字)のみを出力するように字種限定モードを設定する。所定の部分画像を文字認識した結果が「A8C」だったとすると、字種限定モードの下では、「ABC」と文字認識させることができる。また文字認識手段308による文字認識結果には、文字毎に複数の候補文字を有することができる。例えば、「100」と記載された文字列領域を文字認識した結果、一文字目の第一候補が「1」(数字のイチ)、第二候補が「l」(小文字のエル)、二文字目の第一候補が「0」(数字のゼロ)、第二候補が「o」(小文字のオー)、となる場合がある。
検索手段309は、項目値入力手段305により得た項目値をクエリとして、文字認識手段308により得た文字列の集合から検索を行い、見つかった文字列の文字列領域を項目領域として取得する。
学習手段310は、学習対象の帳票画像から得られる全ての文字列領域と、項目種及び項目領域を記憶することで、抽出モデルを構築する。
抽出手段311は、学習済みの抽出モデルを用いて、以下のような手順により、抽出対象の帳票画像から項目種毎に項目領域を特定する。抽出手段311は、帳票画像から文字検出手段307により検出された文字列領域の抽出を行い、抽出された全文字列領域と、抽出モデルとして記憶されている学習済の帳票画像それぞれの全文字列領域とを比較する。この比較は、文字列領域の位置や大きさなどのレイアウトを比較する。抽出対象の帳票画像が学習済みの帳票画像のいずれかであれば、文字列領域の大部分の位置は重なり合うため、文字列領域同士の重なり量に基づき、抽出対象の帳票画像から学習済み帳票画像が推定できる。最後に、推定された学習済み帳票画像に対応付けて記憶されている項目領域の位置に基づいて、抽出対象の帳票画像の対応する位置にある文字列領域を取得することで、項目種毎の項目領域を特定する。
[処理フロー]
図4を参照して、本実施形態を実現するソフトウェアの処理フローについて説明する。
ステップS401で、制御手段301は、HDD104に記憶される帳票画像を取得する。
ステップS402で、文字検出手段307は、取得した帳票画像を対象に文字検出処理を行う。これにより、帳票画像中の各文字列領域が得られる。
ステップS403で、抽出手段311は、検出した文字列領域と学習済み帳票画像の文字列領域のレイアウトを比較することにより、学習済み帳票画像を推定できれば、この抽出モデルを用いて、各文字列領域から項目領域を特定する。帳票画像が学習済みであれば項目領域の特定が可能であり、未学習であれば項目領域は特定できない。また学習済みであっても、学習済みの項目領域の位置と、帳票画像内の文字列領域との位置が合わない場合、特定できない場合がある。
ステップS404で、制御手段301は、項目領域が特定できたか否かを判定する。項目領域が特定できた場合にはステップS405へ遷移し、項目領域を特定できなかった場合(すなわち学習済み帳票を特定できなかった場合)にはステップS408へ遷移する。
ステップS405で、文字認識手段308は、特定された項目領域の文字認識を行い、項目領域ごとに記載されている文字列を取得する。
ステップS406で、制御手段301は、取得した文字列から初期項目値の取得を行う。ステップS405において取得される文字列は、項目値のみを過分なく有する文字列ではない場合がある。例えば、項目種「請求金額」として文字列「合計 ¥100,000-」という不要な文字列が追加された文字列が取得される。そこで、この文字列と項目種毎に定められるデータ型とを比較し、データ型に適合する文字列を初期項目値として取得する。前述の例であれば、項目種「請求金額」のデータ型に合う文字列である「100,000」のみが初期項目値として取得される。データ型は、例えば、金額型として、数字、カンマ、ピリオドから構成される文字列、日付型として「YYYY年M月D日」や「YY/MM/DD」など、事前に定義可能な定型的な書式を登録しておく。なおステップS405で取得される文字列は、文字毎に候補文字を有するため、下位候補文字を含めてデータ型と一致すれば取得できる。下位候補文字を含めてもデータ型と一致しない場合には取得失敗とし、初期項目値は空、対応する項目領域は「なし」となる。
ステップS407で、表示手段302は、取得した初期項目値を表示する。なおステップS403で初期項目値が取得できなかった場合、或いはステップS406で文字認識結果とデータ型が一致せずに初期項目値が空となった場合には、初期項目値及び項目領域は表示しない。
ステップS408で、表示手段302は、帳票画像全体を表示する。この時点で、表示部105には、帳票の全体画像、及び抽出に成功した初期項目値が項目種毎に表示されている。ユーザは表示内容に基づき、後述のステップS409からS410において、全ての項目種について抽出結果と帳票画像に記載されている内容とを確認し、誤抽出や抽出漏れがある場合にはその修正を行う。
ステップS409で、表示領域入力手段304は、ユーザからの入力により、帳票画像に対する部分領域を表示領域として取得する。
ステップS410で、表示手段302は、ユーザが指定した表示領域の画像を表示する。
ステップS411で、項目値入力手段305は、項目種毎に項目値の入力を受け付ける。この時、ユーザは、ステップS409で指定した表示領域の画像に記載されている文字画像を確認しながら、項目値を入力することとなる。以降の処理では、ここで入力した項目値をクエリとして、対応する項目領域を取得する。
次に、ステップS412で、検索手段309は、表示領域中に内包されている文字列領域からいずれか一つを選択し取得する。ここで、選択は以下の基準に基づいて行う。まず、最も表示領域の中心に近い文字列領域を選択する。選択された文字列領域に対して、既に何れかの項目種が割り当てられている場合は、次に中心に近い文字列領域を選択する。すなわち、表示領域の中心に近い文字列領域であって、何れの項目種も割り当てられていない文字列領域を優先的に検索することになる。
また、クエリの文字列から項目領域のアスペクト比の下限を推定し、推定された値よりもアスペクト比が小さい場合にも、次の文字列領域を選択する。アスペクト比は、文字列が横書きであれば文字列領域の高さを1とした時の幅とし、縦書きであれば幅を1とした時の高さとする。例えば、クエリの文字列が横書きの「ABC」であった場合、大文字アルファベットの文字数は3文字である。大文字アルファベットの最小アスペクト比(高さを1とした時の幅)を0.5とすると、文字列領域のアスペクト比の閾値は0.5×3=1.5となる。よって対象の文字列領域のアスペクト比が1.5未満の場合は次の文字列領域を優先する。なお一文字当たりのアスペクト比は字種に関わらず一定の値としてもよい。
ステップS413で、検索手段309は、入力した項目値をクエリとして特定された項目領域である文字列領域が文字認識結果を有するか否かを確認する。本実施形態においては、検索対象の文字列領域がステップS405において文字認識済みである場合には、文字認識結果を有することとなる。ここで、検索対象の文字列領域が文字認識結果を有さない場合には、ステップS414に遷移し、有する場合にはステップS415へ遷移する。
ステップS414で、文字認識手段308は、ステップS412で選択された文字列領域を字種限定モードで文字認識する。ここでは、クエリが有する字種を設定して字種限定する。例えば、クエリの文字列が「100,000」の場合、クエリが有する字種として「0」、「1」、「,」のみを出力するように設定し文字認識を行う。
ステップS415で、検索手段309は、ステップS412で取得した文字列領域の有する文字列が、クエリの文字列を内包するか否かを判定する。例えば、クエリが「100,000」、対象文字列領域の文字列が「合計:100,000」であった場合には、内包判定は是となる。また対象文字列領域の文字列は、文字認識手段308による認識結果であるため、一文字毎に複数の候補文字を有する。そこで、下位候補文字を含めてクエリと一致する文字は、一致したと判定してもよい。ここで内包判定が是であった場合、ステップS416へ遷移する。非であった場合には、ステップS412へ遷移し、次の文字列領域を選択してステップS412からS415までの処理を繰り返す。なお説明のため、前述の例では対象文字列の領域の文字列として「合計:100,000」が取得されるとしたが、本実施形態においては字種限定モードにより文字認識がされる。そのため「合」、「計」、「:」の文字は文字認識結果として出力されず、各文字はクエリが有する「1」、「0」、「,」の何れかに置換されて出力される。
ステップS416で、検索手段309は、文字列領域と、クエリに対応する項目種を対応付けて記憶する。ここで記憶された文字列領域は、項目種に対応する項目領域であることを意味する。
ステップS417で、制御手段301は、全ての項目値の入力が終了したかを確認する。具体的には、ユーザによる全項目値の入力終了ボタンの選択を検知することにより実現する。入力が終了であればステップS418へ遷移し、そうでなければステップS411へ遷移し、他の項目値の入力を行う。
最後に、ステップS418で、学習手段310は、ステップS402で得られる各文字列領域、及び、ステップS416において記憶された項目種及び項目領域を学習し、抽出モデルを構築する。構築された抽出モデルは、他の帳票画像を処理するために、図4の処理フローが実行される際に、ステップS403において抽出手段311により読み込まれる。
[確認画面]
図4の処理フローについて、図5に示した帳票画像500を入力した場合の具体的な動作について説明する。図6は、帳票画像500を入力としてステップS401からS408までを処理した時点で、タッチパネル202に表示される確認画面600を示す図である。確認画面600は、ユーザに対して各処理結果を提示し、ユーザは、確認画面600において項目値が正しい領域から検出されているか、また正しい値が抽出されているかの確認を行い、誤りがあればその修正を行う。確認画面600は、俯瞰画像601、項目種テキスト602a~d、項目値入力領域603a~d、項目領域604a、c、項目画像605a、c、終了ボタン610から成る。
俯瞰画像601は、帳票画像500の全体或いは部分領域が切り出された画像である。俯瞰画像601には、項目領域604a及び604cがハイライト表示される。ユーザは、俯瞰画像601上でスワイプ操作やピンチイン・ピンチアウト操作を行うことにより、ステップS409からS410までの表示領域の変更、すなわち俯瞰画像の表示範囲や表示倍率の変更が可能である。
項目種テキスト602a~dは、本実施形態におけるデータ入力支援装置100が抽出対象とする項目種の名称を表示する。確認画面600では、項目種テキスト602aに「発行日」、項目種テキスト602bに「請求金額」、項目種テキスト602cに「電話番号」、項目種テキスト602dに「請求No.」が表示される。
項目値入力領域603a~dは、俯瞰画像601にハイライト表示された項目領域に対応する項目値が表示されるテキストエリアである。ステップS406において取得された初期項目値が項目値入力領域603a及び603cに表示される。空白となっている項目値入力領域603b及び603dは、初期項目値の抽出に失敗したことを表す。ステップS411における項目値の入力は、項目値入力領域603a~dに対して行われる。
項目領域604a及び604cは、初期項目値に対応する項目領域である。
項目画像605a及び605cは、俯瞰画像601にハイライト表示された項目領域を切り出して表示された画像である。
終了ボタン610は、確認画面600を終了するためのボタンである。確認画面600による項目値及び項目領域の確認及び修正が完了後、ユーザは該ボタンを押下し確認を終了する。
[項目値入力による項目領域の検索]
図7は、ステップS411からS416までの項目領域の検索を説明する図である。図7(a)では、俯瞰画像701に帳票画像500の全体が表示されており、項目種テキスト602bの「請求金額」に対応する項目値入力領域603bが選択された状態である。ここで、俯瞰画像701上でユーザが操作を行い表示領域が更新されたことにより、図7(b)に示す俯瞰画像702が表示されたものとする。さらに、図7(c)に示すように、項目値入力領域603bに「4,450」と項目値が入力された場合に、項目領域は次のように取得される。
まず、項目値「4,450」からアスペクト比の下限を求める。数字の最小アスペクト比を0.3、記号の最小アスペクト比を0.1に定めたとして、文字列領域のアスペクト比の下限は0.3×4+0.1×1=1.3である。
次に、俯瞰画像702に内包される文字列領域703、704a~g、705を取得する。文字列領域705のアスペクト比は前記アスペクト比の下限よりも小さいため、以降の計算では他の文字列領域よりも優先度が下げられる。
次に、各文字列領域について、俯瞰画像702の中心点からの距離が計算される。図7(c)においては、中心点は中線706及び中線707の交点である。計算された距離が最も小さい文字列領域を取得する。ここでは文字列領域703が選択される。選択された文字列領域703について、文字認識が既にされていればその結果を取得するが、文字列領域703は文字認識結果を有さないため文字認識が行われる。クエリは「4,450」であるため、「0」、「4」、「5」、「,」に字種限定モードにより文字認識処理が行われる。文字列領域703には、「¥4,450-」と記載されているが、字種が限定されたことにより、「44,4500」と字種が制限された文字認識結果が得られる。文字認識結果はクエリ文字列を内包するため、図7(d)に示すようにクエリ文字列に対応する項目領域708が取得され、さらにこの文字列領域が切り出された項目画像709が確認画面上に表示される。
[第1の実施形態の第1の変形例]
第1の実施形態において、ステップS412では表示領域の中心に近い文字列領域を優先的に検索対象とした。これはユーザが項目値を入力する際、着目する領域を表示領域の中心に配置して作業をすることが想定されるためである。しかしながら、画像全体を俯瞰しながら項目値の入力を行うことも想定されるため、帳票画像に対する表示領域の倍率に基づいて優先順位を変えてもよい。
第1の実施形態の第1の変形例では、表示領域の倍率が閾値以上の場合は表示領域の中心の文字列領域を優先し、閾値以下の場合は、項目種毎に定める優先順位で文字列領域を選択する。第1の変形例において、表示領域の倍率は[帳票画像の短辺長]/[表示領域の短辺長]として定義し、閾値は1.1とする。また項目種「請求No」については、画像の上部にある文字列領域から優先的に検索対象とする。
図8を参照して、表示領域と項目種に基づく検索の優先度について説明する。図8(a)では、俯瞰画像801に帳票画像500の全体が表示されている。項目種テキスト602dには「請求No」が、項目種に対応する項目値入力領域603dは空白の状態である。ここで図8(b)において、項目値入力領域603dに「C012-88-4321」と記入し、これをクエリとして検索を行うとする。ユーザ操作による表示領域の変更は無く、表示領域の倍率は[帳票画像の短辺長]/[表示領域の短辺長]=1.0であり、事前に定めた閾値1.1未満である。
そこで、文字列領域を画像の上部にある領域から順に選択する。まず、最も上部にある文字列領域803を選択する。しかしながら、文字列領域803は、既に項目種「発行日」が割り当てられた項目領域であるため、次の文字列領域802が選択される。選択された文字列領域に対して、クエリが有する字種に字種限定された文字認識が適用される。文字列領域802の文字認識結果は「C 8 4」として、文字列領域802はクエリを内包しないため、さらに文字列領域804が選択される。文字列領域804の字種限定モードによる文字認識結果が「C8480-C012-88-4321」であるとして、クエリが内包されるため、図8(c)に示すように項目領域805及び項目画像806が確認画面に表示される。
同様に、不図示の項目種「タイトル」であれば、文字列領域のサイズ(横書きであれば高さ、縦書きであれば幅)が大きい文字列領域を優先し、項目種「日付」であれば、帳票画像の上にある文字列領域を優先する。このように、表示領域の倍率が閾値未満の場合に、項目種毎に既定の優先度で検索を行うことができる。
[第1の実施形態の第2の変形例]
第1の実施形態において、S412では表示領域の中心に近い文字列領域を優先的に検索対象とした。また第1の実施形態の第1の変形例では、表示領域の倍率に基づき表示領域の中心を優先するか否かを判断した。しかしながら、表示領域の移動範囲の制限により、ユーザが中心に配置したい文字列が表示領域の中心に配置されない場合がある。
そこで第1の実施形態の第2の変形例では、表示領域の境界が移動可能な範囲の境界と重なる場合に、境界に近い文字列領域から優先的に検索する。第2の変形例において、表示領域の移動可能な範囲は帳票画像の範囲内とする。すなわち帳票画像の幅をWピクセル、高さをHピクセル、表示領域の幅をwピクセル、高さをhピクセルとし、帳票画像の左上を原点とした場合に、表示領域の左上座標(x,y)は(0,0)以上(W-w,H-h)以下とする。
図9及び図10を参照して、表示領域が移動範囲境界にある場合の検索の優先度について説明する。図9は、第2の変形例において想定する帳票画像900を入力画像として示す。
図10は、帳票画像900を対象として項目値を入力し、項目領域を検索する処理を説明する図である。ここでは項目種「価格」を入力対象として説明する。項目種は、請求書内の複数個所に記載があり、項目値入力領域も複数個所の入力に対応した構成となる。
図10(a)では、帳票画像900の領域を表す全体領域1001に対して、表示領域1002が表示領域入力手段304により設定され、表示領域1002が切り出された俯瞰画像1003が表示されている。項目種テキスト1004には、項目種の名称を表す文字列として「価格」が表示され、項目値を入力する領域は、項目値入力領域1005a及び項目値入力領域1005bの二個所が存在する。項目種「価格」は任意の個数を入力できるため、追加ボタン1006a及び追加ボタン1006bがある。追加ボタン1006aを押下すると項目値入力領域1005aと項目値入力領域1005bの間に新たな項目値入力領域が追加され、追加ボタン1006bを押下すると項目値入力領域1005bの次に項目値入力領域が追加される。
ここで表示領域1002に着目すると、右辺が全体領域1001と接している。すなわち表示領域1002の境界が+x方向の移動範囲の境界に重なる状態である。この場合、ユーザは、これ以上表示領域1002を+x方向に移動させることができず、本来、中心に配置したい文字列が表示領域の右側にあっても中心に配置することができない。そこで、表示領域1002の中心にある文字列領域を優先するのではなく、表示領域の移動範囲の境界と重なっている側、すなわち右辺側に近い文字列領域を優先的に選択する。
図10(a)においては、項目値入力領域1005aに入力された「4,450」をクエリとして、俯瞰画像1003の右辺に近く、右辺からの距離がほぼ同一であった場合には中線1007から近い文字列領域を優先して選択する。そのため、文字列領域1009、文字列領域1010、文字列領域1011の順に検索が行われ、文字列領域1011が項目領域として取得される。文字列領域1008は、文字列領域1011と同じ文字列が記載された領域であり、画像中心からの距離は文字列領域1011よりも近いが、右辺から遠いため項目領域としては抽出されない。
同様に、図10(b)に示すように項目値入力領域1005bに対して「2,300」と入力された場合、文字列領域1009が最初に検索対象となり、項目領域として抽出される。
さらに、図10(c)に示すように項目値入力領域1005cに「2,300」と入力された場合、まず右辺に近く中線1007に近い文字列領域1009が選択される。しかし既に項目値入力領域1005bに対応する項目領域として項目種が割り当てられているため、次の文字列領域が優先され、文字列領域1010が項目領域として抽出される。
[第1の実施形態の第3の変形例]
第1の実施形態及び上述した変形例では、一つの文字列領域に対して一つの項目種が割り当てられる例を説明した。しかしながら実際には、ユーザが項目値入力領域に入力する文字列によっては、一つの文字列領域に項目種が重複して割り当てられる場合がある。第3の変形例では、項目種が文字列領域に重複して割り当てられる場合の処理について、帳票画像900を入力とした例で説明する。
図11は、項目種の重複割り当てに対する警告表示を示し、帳票画像900に対して、項目種「価格」の項目値を入力する確認画面の例である。俯瞰画像1101には、項目値入力領域1102a~cと、それぞれに対応する項目領域1103a~cとが表示されている。ここで新たに項目値入力領域1102dに「2,300」が入力されると、項目種が割り当てられていない文字列領域1104、1105、1106が順次選択され検索されるが、いずれもクエリ「2,300」は含まない。そこで、既に項目種が割り当てられているために優先度が下げられた項目領域1103c、1103b、1103aが順次選択され、検索される。ここで、文字列領域1103cはクエリを包含するため、項目値入力領域1102dに対応する項目領域として割り当てられる。
しかし、既に項目値入力領域1102cに割り当てられているため、項目値入力領域に対する項目値警告1107、及び項目領域に対する項目領域警告1108を表示する。ユーザは、俯瞰画像を閲覧しながら項目値を入力していることが想定されるため、項目値入力領域1102dへの入力は誤りである可能性が高い。そこで、項目領域が重複して割り当てられる場合には、項目値入力領域、或いは項目領域、或いはその両方を強調表示することで、入力誤りの確認及び修正を促す。
[第1の実施形態の第4の変形例]
第1の実施形態では、帳票画像を対象画像とした。しかしながら、カメラにより撮影された看板画像やナンバープレート画像など、文字を含む画像であれば、本実施形態を適用可能であり、対象画像の種類は本発明を制限するものではない。
[第1の実施形態の第5の変形例]
第1の実施形態では、入力された1枚分の画像に対し項目領域の抽出を行い、項目領域の確認及び修正を行った後に学習して抽出モデルを更新し、次の画像に適用する処理フローを説明した。すなわち、画像を1枚ずつ逐次的に学習していくオンライン学習方式による抽出モデルの獲得である。これに対して、多数の画像のそれぞれに項目種及び項目領域を付与し、それらを一度に学習するバッチ学習方式で抽出モデルを獲得してもよい。この方式は、図4において、制御手段301がステップS418の前に「全ての画像の入力が終了したか?」を判定し、終了であればステップS418へ、未終了であればステップS401へ戻り次の画像を処理することで実現できる。
[第1の実施形態の第6の変形例]
第1の実施形態では、入力された帳票画像に対して、最初に文字検出を行うことにより文字列領域を抽出し、一つの文字列領域を選択してから文字認識、検索を行った。これに対して、ステップS402において、文字検出を行った後に、全ての文字列領域に対して字種限定をしないで文字認識を行い、その結果に対して文字列領域毎に検索を行ってもよい。この場合、各文字列領域は、文字認識結果を有するため、図4においては、ステップS413からS415に遷移する。すなわち、ステップS414における文字認識処理を行う必要はない。一方で、ステップS413における確認は行わず、ステップS414における、クエリが有する字種に字種限定した文字認識を重ねて行うことにより、文字認識の誤りが低減され、さらに文字認識精度が向上する。
また、ステップS413からS415に遷移して、字種限定なしで得た文字認識結果により検索を行う。このとき、表示領域から項目領域が抽出できなかった場合に、改めて字種限定をして文字認識を行うようにしてもよい。
以上のように、本実施形態はユーザが入力した項目値をクエリとして、表示領域に表示された画像を対象に文字列を検索することにより項目領域を取得する。これにより、ユーザは、データ(項目値)入力業務における項目値の修正という自然な操作のみで、項目領域の登録、学習を行うことができ、ユーザ操作の煩雑さを解消し、入力支援システムのユーザビリティが向上する。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給することができる。そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサーが、供給されたプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
301 制御手段
302 表示手段
303 入力手段
304 表示領域入力手段
305 項目値入力手段
306 記憶手段
307 文字検出手段
308 文字認識手段
309 検索手段
310 学習手段
311 抽出手段

Claims (14)

  1. 入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出手段と、
    前記抽出手段で特定された項目領域を文字認識して文字列を取得する文字認識手段と、
    前記画像の一部の領域を表示領域として入力する表示領域入力手段と、
    特定の項目種に対応する文字列を項目値として入力する項目値入力手段と、
    前記項目値をクエリとして、前記文字認識手段で取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索手段と、
    前記検索手段で取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習手段と
    を備えたことを特徴とするデータ入力支援装置。
  2. 前記検索手段は、前記表示領域の中心に近い文字列領域から優先的に検索することを特徴とする請求項1に記載のデータ入力支援装置。
  3. 前記検索手段は、前記画像に対する前記表示領域の倍率が閾値以上の場合に、前記表示領域の中心を優先的に検索し、閾値未満の場合はその他の優先順位で検索を行うことを特徴とする請求項2に記載のデータ入力支援装置。
  4. 前記検索手段は、検索対象の文字列領域が文字認識されていない場合に、前記文字認識手段により、該文字列領域を文字認識することを特徴とする請求項1乃至3のいずれか1項に記載のデータ入力支援装置。
  5. 前記文字認識手段は、前記クエリが有する字種のみを出力するように字種限定して文字認識を行うことを特徴とする請求項4に記載のデータ入力支援装置。
  6. 前記検索手段は、前記クエリの少なくとも文字数から文字列領域のアスペクト比の範囲を推定し、該範囲に含まれない文字列領域の優先度を下げて検索することを特徴とする請求項1乃至5のいずれか1項に記載のデータ入力支援装置。
  7. 前記検索手段は、何れの項目種も割り当てられていない文字列領域を優先的に検索することを特徴とする請求項1乃至6のいずれか1項に記載のデータ入力支援装置。
  8. 前記検索手段は、前記表示領域の境界が移動可能な範囲の境界と重なる場合に、該境界に近い文字列領域から優先的に検索することを特徴とする請求項1乃至7のいずれか1項に記載のデータ入力支援装置。
  9. 前記項目値を内包する文字列領域に対して他のクエリにより項目種が割り当てられている場合に、前記表示手段は、対応する各クエリの項目値入力領域または項目領域の少なくともいずれかを強調して表示することを特徴とする請求項1乃至8のいずれか1項に記載のデータ入力支援装置。
  10. 入力された画像内の文字列領域を検出する文字検出手段と、
    前記文字検出手段で検出された文字列領域を文字認識して文字列を取得する文字認識手段と、
    前記入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出手段と、
    前記画像の一部の領域を表示領域として入力する表示領域入力手段と、
    特定の項目種に対応する文字列を項目値として入力する項目値入力手段と、
    前記項目値をクエリとして、前記文字認識手段で取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索手段と、
    前記検索手段で取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習手段と
    を備えたことを特徴とするデータ入力支援装置。
  11. 前記検索手段は、前記特定の項目種に対応する項目領域を取得できない場合に、前記クエリが有する字種のみを出力するように字種限定して文字認識を行うことを特徴とする請求項10に記載のデータ入力支援装置。
  12. コンピュータを、請求項1から11のいずれか1項に記載のデータ入力支援装置の各手段として機能させるためのプログラム。
  13. 入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出ステップと、
    前記抽出ステップで特定された項目領域を文字認識して文字列を取得する文字認識ステップと、
    前記画像の一部の領域を表示領域として入力する表示領域入力ステップと、
    特定の項目種に対応する文字列を項目値として入力する項目値入力ステップと、
    前記項目値をクエリとして、前記文字認識ステップで取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索ステップと、
    前記検索ステップで取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習ステップと
    を備えたことを特徴とするデータ入力支援方法。
  14. 入力された画像内の文字列領域を検出する文字検出ステップと、
    前記文字検出ステップで検出された文字列領域を文字認識して文字列を取得する文字認識ステップと、
    前記入力された画像と抽出モデルとして記憶されている学習済の画像とを比較して、項目種毎に項目領域を特定する抽出ステップと、
    前記画像の一部の領域を表示領域として入力する表示領域入力ステップと、
    特定の項目種に対応する文字列を項目値として入力する項目値入力ステップと、
    前記項目値をクエリとして、前記文字認識ステップで取得された前記表示領域中の文字列を検索し、前記項目値を内包する文字列領域を前記特定の項目種に対応する項目領域として取得する検索ステップと、
    前記検索ステップで取得された項目領域および前記特定の項目種を学習し前記抽出モデルを構築する学習ステップと
    を備えたことを特徴とするデータ入力支援方法。
JP2020111833A 2020-06-29 2020-06-29 データ入力支援装置、データ入力支援方法及びプログラム Pending JP2022010994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020111833A JP2022010994A (ja) 2020-06-29 2020-06-29 データ入力支援装置、データ入力支援方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020111833A JP2022010994A (ja) 2020-06-29 2020-06-29 データ入力支援装置、データ入力支援方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022010994A true JP2022010994A (ja) 2022-01-17

Family

ID=80147926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020111833A Pending JP2022010994A (ja) 2020-06-29 2020-06-29 データ入力支援装置、データ入力支援方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2022010994A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7373820B1 (ja) * 2023-01-06 2023-11-06 株式会社Tokium プログラム、コンピュータ、情報処理システムおよび情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7373820B1 (ja) * 2023-01-06 2023-11-06 株式会社Tokium プログラム、コンピュータ、情報処理システムおよび情報処理方法

Similar Documents

Publication Publication Date Title
US11113464B2 (en) Synchronizing data-entry fields with corresponding image regions
US10437466B2 (en) Formula inputting method and apparatus
US20090226090A1 (en) Information processing system, information processing apparatus, information processing method, and storage medium
JP7338230B2 (ja) 情報処理装置、及び情報処理プログラム
JP2022010994A (ja) データ入力支援装置、データ入力支援方法及びプログラム
JP2006277001A (ja) 入力イメージ表示方法および入力イメージ表示プログラム
JP2022162908A (ja) 画像処理装置、画像処理方法、およびプログラム
JP5623574B2 (ja) 帳票識別装置および帳票識別方法
US11042695B2 (en) Information processing apparatus and non-transitory computer readable medium for generating input screen information
JP2021144469A (ja) データ入力支援システム、データ入力支援方法、及びプログラム
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2022011019A (ja) データ入力支援装置、データ入力支援方法及びプログラム
JP2022101136A (ja) 情報処理装置、情報処理方法およびプログラム
JP6569602B2 (ja) 印刷システム、および印刷装置
JPWO2016170690A1 (ja) 入力制御プログラム、入力制御装置、入力制御方法、文字修正プログラム、文字修正装置、及び文字修正方法
JP6657799B2 (ja) 図形処理装置、図形処理方法、および、図形処理プログラム
JP7458816B2 (ja) データ入力支援装置、データ入力支援方法、表示装置、及びプログラム
JPH08202856A (ja) 画像処理方法
JP7271889B2 (ja) 情報処理装置及びプログラム
CN112991829B (zh) 学习辅助装置、学习辅助方法以及记录介质
US10769357B1 (en) Minimizing eye strain and increasing targeting speed in manual indexing operations
JP3528088B2 (ja) キー入力補助方法及び装置
JPH07249098A (ja) 情報処理装置および情報処理方法
JPH08339419A (ja) フォーマット情報生成方法及びフォーマット情報生成装置
JP2001282429A (ja) 文字データ入力装置