JP2020046819A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020046819A
JP2020046819A JP2018173596A JP2018173596A JP2020046819A JP 2020046819 A JP2020046819 A JP 2020046819A JP 2018173596 A JP2018173596 A JP 2018173596A JP 2018173596 A JP2018173596 A JP 2018173596A JP 2020046819 A JP2020046819 A JP 2020046819A
Authority
JP
Japan
Prior art keywords
recognition result
image
document
entry
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018173596A
Other languages
English (en)
Other versions
JP7206729B2 (ja
Inventor
拓己 北村
Takumi Kitamura
拓己 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018173596A priority Critical patent/JP7206729B2/ja
Priority to US16/273,176 priority patent/US11042733B2/en
Priority to CN201910173146.9A priority patent/CN110909740A/zh
Publication of JP2020046819A publication Critical patent/JP2020046819A/ja
Application granted granted Critical
Publication of JP7206729B2 publication Critical patent/JP7206729B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】文字の認識結果に対して高い確信度が算出された場合であっても、当該認識結果の誤認識をユーザへ警告する。【解決手段】文書を表す第1画像に対する文字認識結果と、当該文字認識結果の確からしさを示す確信度が取得され、確信度が閾値以上であった場合に、当該文字認識結果が確定される。確信度が閾値以上であっても、第1画像に対する文字認識結果と当該文書の関連文書を表す第2画像に対する文字認識結果とが一致しない場合、第1画像に対する文字認識結果に対する警告が出力される。【選択図】図7

Description

本発明は、情報処理装置及びプログラムに関する。
文字認識処理が知られている。また、文字の認識結果に対する確信度が算出される場合がある。確信度は、認識対象の文字が正しいと確信される度合いであり、例えば、認識対象の文字と候補文字との類似度やその他の定義等が確信度として用いられる。一般的に、確信度が高いほど、認識結果が誤りである可能性が低くなると考えられている。
特許文献1には、文字認識対象を3種類のいずれかに分類し、その分類に応じて、文字認識結果の抽出、文字認識対象の人手入力、又は、複数人による文字認識対象の手入力のいずれかを実行する装置が記載されている。
特許文献2には、優先度の高い帳票画像の文字認識結果を修正画面に表示する装置が記載されている。
特開2016−212812号公報 特開2012−64195号公報
ところで、文字の認識結果に対する確信度が高い場合であっても、必ずしも当該認識結果が正しい文字を表しているとは限らない。例えば、文字認識処理に用いられる辞書や文字認識処理のアルゴリズムや確信度の演算アルゴリズム等に起因して、高い確信度が得られるにも関わらず、誤った文字を表す認識結果が得られることが考えられる。
本発明の目的は、文字の認識結果に対して高い確信度が算出された場合であっても、当該認識結果の誤認識をユーザへ警告することにある。
請求項1に記載の発明は、文書を表す第1画像に対する文字認識結果と、前記文字認識結果の確からしさを示す確信度を取得する取得手段と、前記確信度が閾値以上であった場合に、前記文字認識結果を確定させる確定手段と、前記確信度が前記閾値以上であっても、前記文字認識結果と前記文書の関連文書を表す第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する制御手段と、を有する情報処理装置である。
請求項2に記載の発明は、前記文書は、記入者によって手書きされた文字を含み、前記関連文書は、前記記入者に関連する文書である、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記文書及び前記関連文書は、前記記入者を識別するための文字列を含む、ことを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記関連文書は、前記文書に関連する文書である、ことを特徴とする請求項1に記載の情報処理装置である。
請求項5に記載の発明は、前記制御手段は、前記第1画像に対する文字認識結果と、前記第2画像に表されている活字に対する文字認識結果とに基づいて、前記警告の出力を制御する、ことを特徴とする請求項1から請求項4のいずれか一項に記載の情報処理装置である。
請求項6に記載の発明は、前記制御手段は、前記第1画像に対する文字認識結果と、複数の関連文書を表す複数の第2画像に対する文字認識結果とに基づいて、前記警告の出力を制御する、ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置である。
請求項7に記載の発明は、前記複数の関連文書は互いに異なる種類の文書である、ことを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記複数の関連文書の中で、前記第1画像に対する文字認識結果の訂正に用いられた関連文書を、次回の第1画像に対する文字認識結果との比較に用いられる文書として設定する設定手段を更に有する、ことを特徴とする請求項6又は請求項7に記載の情報処理装置である。
請求項9に記載の発明は、前記制御手段は、前記第1画像と前記第2画像とにおいて同一属性を有する文字に対する文字認識結果に基づいて前記警告の出力を制御する、ことを特徴とする請求項1から請求項8のいずれか一項に記載の情報処理装置である。
請求項10に記載の発明は、前記制御手段は、前記第1画像と前記第2画像が予め定められた属性を有する場合において、前記確信度が前記閾値以上であっても、前記第1画像に対する文字認識結果と前記第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する、ことを特徴とする請求項1から請求項9のいずれか一項に記載の情報処理装置である。
請求項11に記載の発明は、コンピュータを、文書を表す第1画像に対する文字認識結果と、前記文字認識結果の確からしさを示す確信度を取得する取得手段、前記確信度が閾値以上であった場合に、前記文字認識結果を確定させる確定手段、前記確信度が前記閾値以上であっても、前記文字認識結果と前記文書の関連文書を表す第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する制御手段、として機能させるプログラムである。
請求項1,2,3,4,11に記載の発明によれば、文字の認識結果に対して高い確信度が算出された場合であっても、当該認識結果の誤認識をユーザへ警告することができる。
請求項5に記載の発明によれば、手書きで記入された文字を比較対象として用いる場合と比較して、誤認識の判定の精度が高くなる。
請求項6,7に記載の発明によれば、1つの関連文書のみを用いる場合と比較して、誤認識の判定の精度が高くなる。
請求項8に記載の発明によれば、次回の比較処理においてユーザが関連文書を指定する手間が省ける。
請求項9,10に記載の発明によれば、文字認識結果の比較対象をユーザが指定する手間が省ける。
本実施形態に係る情報処理システムを示す図である。 本実施形態に係る画像処理装置を示す図である。 端末装置を示す図である。 画像処理装置の動作に関するフローチャートを示す図である。 帳票を示す図である。 関連文書を示す図である。 認識結果の表示例を示す図である。 関連文書情報の表示例を示す図である。 関連文書情報の表示例を示す図である。 確認画面を示す図である。 認識結果の表示例を示す図である。
図1を参照して、本発明の実施形態に係る情報処理システムについて説明する。図1は、本実施形態に係る情報処理システムの一例としての画像処理システムを示す。
画像処理システムは、一例として、情報処理装置の一例としての画像処理装置10と、1又は複数の端末装置12を含む。画像処理装置10と端末装置12は、例えば、インターネット又は他のネットワーク等の通信経路Nを介して互いに通信する機能を有する。なお、サーバ等の装置が画像処理システムに含まれてもよい。
画像処理装置10は、画像データに認識処理(文字認識処理や図形認識処理)を適用することで、当該画像データから文字や記号や図形等を認識する装置である。認識処理として、例えば、OCR(Optical Character Recognition)処理やOMR(Optical Mark Recognition)処理が実行される。
認識対象となる画像データは特に限定されるものではない。例えば、画像読取装置(例えばスキャナ)によって文書に対して画像読取処理が行われ、その画像読取処理によって生成された画像データが、認識対象の画像データとして用いられてもよいし、撮像装置(例えばカメラ)によって文書が撮像されることで生成された画像データが、認識対象の画像データとして用いられてもよい。もちろん、これら以外の方法によって生成された画像データが、認識対象の画像データとして用いられてもよい。
端末装置12は、例えば、PC(パーソナルコンピュータ)、タブレットPC、スマートフォン、携帯電話等である。例えば、画像データの認識結果を示す情報が画像処理装置10から端末装置12に送られて、その認識結果が端末装置12に表示される。
以下、図2を参照して画像処理装置10について詳しく説明する。図2は、画像処理装置10の構成を示す。
画像受付部14は、認識対象の画像データを受け付けて当該画像データを第1認識処理部16に出力するように構成されている。画像受付部14は、例えば、通信経路Nを介して外部装置から送られてきた画像データを受け付けてもよいし、画像読取装置や撮像装置から出力された画像データを受け付けてもよい。なお、画像読取装置や撮像装置は画像処理装置10に含まれてもよい。例えば、画像受付部14は、認識対象の画像データとして、文書を表す画像データ(以下、「文書画像データ」と称する)を受け付ける。
第1認識処理部16は、画像受付部14が受け付けた認識対象の文書画像データに対して認識処理(文字認識処理や図形認識処理)を適用することで、当該文書画像データから文字や記号や図形等を認識するように構成されている。例えば、第1認識処理部16は、文書画像データにおいて、情報(文字や記号や図形等)が記入されると想定される記入領域(例えば、文字が記入される記入欄やチェックボックス等)を特定し、その記入領域に記入されている情報(文字や記号や図形等)を認識する。第1認識処理部16は、文書画像データにおいて予め定められた領域(例えば、ユーザ(文書画像データを画像処理装置10に入力した画像入力者や、認識結果を確認及び訂正する訂正者等)によって指定された領域)を記入領域として認識してもよいし、予め定められた形状及び大きさを有する領域を記入領域として認識してもよい。例えば、記入領域内には記入者によって手書きで文字や記号や図形等が記入され、第1認識処理部16は、その記入領域内に手書きで記入された文字や記号や図形等を認識する。
また、第1認識処理部16は、文書画像データに対する認識の確信度を計算するように構成されている。確信度は、認識処理によって認識された文字や記号や図形等が正しいものであると確信される度合(認識結果の確からしさを示す度合)である。例えば、認識対象の画像から抽出された文字の特徴と、その文字の認識候補の標準特徴との距離の逆数が確信度として用いられる。確信度が大きいほど、抽出された文字の特徴と認識候補の標準特徴とが近いことを意味しており、認識結果が誤りである確率が低くなる。別の定義として、特徴間の類似度を確信度として用いてもよい。もちろん、これら以外の別の定義が用いられてもよい。
第1認識処理部16は、文書画像データにおける各記入領域に対する認識結果を示す情報と確信度を示す情報を、確信度判定部18と結果比較部22に出力する。
確信度判定部18は、記入領域毎に、確信度に基づいて、後述の関連文書との比較処理を実行するか否かを判定するように構成されている。確信度が確信度の閾値以上である場合、その確信度が得られた記入領域について、関連文書との比較処理が必要であると判定される。確信度が閾値未満である場合、その確信度が得られた記入領域について、関連文書との比較処理は不要であると判定される。なお、確信度の閾値は予め定められた値であり、画像入力者や訂正者等によって変更されてもよい。また、確信度判定部18は、認識結果に対する確信度が閾値以上である場合、当該認識結果を確定させる。なお、確信度判定部18は、確定手段の一例に相当する。
第2認識処理部20は、関連文書を表す関連文書画像データに対して認識処理(文字認識処理や図形認識処理)を適用することで、当該関連文書画像データから文字や記号や図形等を認識するように構成されている。例えば、第2認識処理部20は、関連文書画像データにおいて、情報(文字や記号や図形等)が記入や印字されると想定される記入領域(例えば、文字が記入や印字される記入欄やチェックボックス等)を特定し、その記入領域に記入や印字されている情報(文字や記号や図形等)を認識する。第2認識処理部20は、関連文書画像データにおいて予め定められた領域(例えば画像入力者や訂正者等によって指定された領域)を記入領域として認識してもよいし、予め定められた形状及び大きさを有する領域を記入領域として認識してもよい。また、第2認識処理部20は、関連文書画像データに対する認識の確信度を計算するように構成されている。
関連文書は、認識対象の文書画像データが表す認識対象の文書に関連する文書であって、認識対象の文書に記入されている文字や記号や図形等との比較対象となり得る文字や記号や図形等が記入や印字された文書である。例えば、認識対象の文書に記入されている文字等が指し示す情報が記入や印字されている別の文書が、関連文書として用いられる。関連文書に記載されている文字等は、手書きで記入された文字等であってもよいし、印字された文字(活字)等であってもよい。
具体的には、氏名が記入されると想定される文書が認識対象の文書である場合、その氏名が記入や印字されている別の文書が、関連文書として用いられる。例えば、記入者の氏名が記入されると想定される文書が認識対象の文書である場合、その記入者の氏名が記入や印字されている別の文書が、関連文書として用いられる。具体的には、その記入者を識別するための情報(例えば氏名等)が記入や印字された文書(例えば免許証や保険証やその他の公文書等)が、関連文書として用いられる。そのような文書は、記入者に関連する文書であるともいえる。
記入者以外の氏名が記入されると想定される文書が認識対象の文書である場合、その記入者以外の氏名が記入や印字されている別の文書が、関連文書として用いられる。例えば、その記入者以外の人物を識別するための情報(例えば氏名等)が記入や印字された文書(例えば免許証や保険証やその他の公文書等)が、関連文書として用いられる。住所や生年月日等についても同様である。
その他の情報(例えば病名や数字等)が記入されると想定される文書が認識対象の文書である場合、その他の情報(例えば病名や数字等)が記入や印字されている別の文書が、関連文書として用いられる。例えば、認識対象の文書がカルテである場合、そのカルテに記入されている病名等が記入や印字された別の文書が、関連文書として用いられる。また、マイナンバー等のように個人を特定するための情報が記載された文書が認識対象の文書として用いられる場合、そのような情報が記入や印字された別の文書が、関連文書として用いられる。
上記の関連文書は一例に過ぎず、認識対象の文書に記入されている文字等が指し示す情報が記入や印字されている別の文書であれば、関連文書として用いられてもよい。
なお、関連文書は、認識対象の文書と同様に、画像読取装置によって読み取られたり、撮像装置によって撮像されたりする。これにより、関連文書を表す関連文書画像データが生成され、その関連文書画像データが画像受付部14によって受け付けられて画像受付部14から第2認識処理部20に出力される。
第2認識処理部20は、関連文書画像データにおける各記入領域に対する認識結果を示す情報と確信度を示す情報を、結果比較部22に出力する。
結果比較部22は、第1認識処理部16の出力結果と第2認識処理部20の出力結果とを比較するように構成されている。両出力結果が一致しない場合、結果比較部22は、その比較結果を示す情報を確認訂正処理部24に出力する。両出力結果が一致する場合、結果比較部22は、認識結果を示す情報を出力部26に出力する。例えば、両出力結果が一致しない場合、第1認識処理部16による認識結果に対する警告が表示される。両出力結果が一致する場合、そのような警告は表示されない。
詳しく説明すると、結果比較部22は、認識対象の文書における記入領域(以下、便宜的に「第1記入領域」と称する)に対する認識結果と、関連文書において当該第1記入領域に対応する記入領域(以下、便宜的に「第2記入領域」と称する)に対する認識結果とを比較する。第2記入領域は、第1記入領域に対する認識結果と比較される認識結果が得られる記入領域である。例えば、第1記入領域が、氏名が記入される領域である場合、第2記入領域は、その氏名が記入や印字されている領域である。第1記入領域と第2記入領域は予め定められて、予め互いに対応付けられている。例えば、ユーザ(画像入力者や訂正者等)によって、第1記入領域と第2記入領域とが定められ、第1記入領域と第2記入領域とが互いに対応付けられる。第1記入領域毎に第2記入領域が定められる。
例えば、第1記入領域に対する認識結果の確信度が確信度の閾値以上である場合に、結果比較部22は、第1記入領域に対する認識結果と第2記入領域に対する認識結果とを比較する。なお、結果比較部22は、取得手段の一例として機能する。
また、1つの認識対象の文書に対して複数の関連文書が設定されてもよい。この場合、結果比較部22は、当該1つの文書に対する認識結果と、各関連文書に対する認識結果とを比較する。
また、第1記入領域に複数の第2記入領域が対応付けられてもよい。各第2記入領域は、それぞれ同じ関連文書(例えば関連文書A)内の記入領域であってもよいし、それぞれ異なる関連文書(例えば関連文書A,B)内の記入領域であってもよい。この場合、結果比較部22は、第1記入領域に対する認識結果と、複数の第2記入領域のそれぞれに対する認識結果とを比較する。例えば、認識結果が第1記入領域に対する認識結果と一致する第2記入領域の数や割合が、予め定められた閾値未満となった場合、第1記入領域に対する認識結果に対する警告が表示され、その数や割合が閾値以上になった場合、警告は表示されない。閾値は、画像入力者や訂正者等によって変更されてもよい。また、第1記入領域に対する認識結果が、すべての第2記入領域に対する認識結果と一致した場合に、警告は表示されず、第1記入領域に対する認識結果が、少なくとも1つの第2記入領域に対する認識結果と一致しない場合に、警告が表示されてもよい。
また、各第2記入領域に優先度が設定されてもよい。例えば、手書きではなく印字された文字(活字)が形成されている第2記入領域の優先度を、文字等が手書きで記入されている第2記入領域の優先度よりも高くしてもよい。第1記入領域に対する認識結果が、優先度が閾値以上となる第2記入領域に対する認識結果と一致した場合、警告は表示されず、それ以外の場合は警告が表示されてもよい。
また、第1記入領域毎に異なる関連文書における第2記入領域が対応付けられてもよい。つまり、ある第1記入領域には関連文書Aにおける第2記入領域が対応付けられ、別の第1記入領域には別の関連文書Bにおける第2記入領域が対応付けられてもよい。
確認訂正処理部24は、第1認識処理部16による認識結果の訂正を行うように構成されている。例えば、確認訂正処理部24は、訂正者から訂正指示を受けると、その訂正指示に従って認識結果を訂正する。その訂正指示は、例えば端末装置12を用いて与えられる。
出力部26は、認識対象の文書画像データの出力や認識結果を示す情報の出力等を行うように構成されている。出力部26は、例えば、訂正された認識結果を示す情報や、訂正されずに確認済みの認識結果を示す情報を出力する。例えば、これらの情報は、画像処理装置10から端末装置12に出力されて端末装置12に表示されてもよいし、端末装置12やサーバ等に出力されて端末装置12やサーバ等に格納されてもよい。
また、出力部26は、第1記入領域に対する認識結果の確信度が閾値以上であっても、第1記入領域に対する認識結果と第2記入領域に対する認識結果とが一致しない場合、第1記入領域に対する警告を示す情報(警告情報)を出力するように構成されている。例えば、警告情報は、画像処理装置10から端末装置12に送信されて、端末装置12のUI部30に表示される。なお、出力部26は、制御手段の一例として機能する。
以下、図3を参照して端末装置12について詳しく説明する。図3は、端末装置12の構成を示す。
通信部28は通信インターフェースであり、情報を他の装置に送信する機能、及び、他の装置から送信されてきた情報を受信する機能を有する。通信部28は、無線通信機能を有していてもよいし、有線通信機能を有していてもよい。
UI部30はユーザインターフェースであり、表示部と操作部とを含む。表示部は、液晶ディスプレイやELディスプレイ等の表示装置である。操作部は、キーボード等の入力装置である。また、表示部と操作部とを兼ね備えたユーザインターフェース(例えばタッチパネル等)が、UI部30として用いられてもよい。また、UI部30は、音を発生させるスピーカ等の音声発生部や、音声の入力を受けるマイク等の音声入力部等を含んでもよい。
例えば、認識対象の文書画像データや認識結果を示す情報等が、UI部30の表示部に表示される。また、訂正者等のユーザは、UI部30を操作することで、認識結果の訂正指示を与えてもよい。
記憶部32は、各種の情報(データやプログラム等)を格納する1又は複数の格納領域であり、1又は複数の記憶装置(例えばハードディスクドライブやメモリ等)によって構成される。
制御部34は、端末装置12の各部の動作を制御するように構成されている。例えば、制御部34は、通信部28による通信の制御、UI部30(表示部)への各種情報の表示制御、UI部30(操作部)を介して入力された情報の受付制御、等を行う。具体的には、制御部34は、認識対象の文書画像データや認識結果を示す情報等をUI部30の表示部に表示させる。
なお、図1に示す例では、画像処理装置10と端末装置12とが別々のハードウェアとして構成されているが、画像処理装置10に端末装置12が組み込まれてもよい。つまり、画像処理装置10は、端末装置12が有する構成(例えばUI部30等)を有していてもよい。この場合、認識対象の文書画像データや認識結果を示す情報等は、画像処理装置10に設けられた表示部に表示されてもよい。また、訂正者は画像処理装置10に設けられたUI部を操作することで認識結果を訂正してもよい。
以下、図4を参照して画像処理装置10の動作について説明する。図4は、当該動作に関するフローチャートを示す。
まず、認識対象の文書画像データと関連文書画像データが画像処理装置10に入力され、画像受付部14は、文書画像データと関連文書画像データを受け付ける(ステップS01)。なお、関連文書画像データは、予め画像処理装置10に入力されていてもよい。また、第1記入領域と第2記入領域とが予め定められている。
次に、第1認識処理部16は、認識対象の文書画像データにおいて記入領域(第1記入領域)を特定し、その記入領域内に記入されている文字や記号や図形等を認識する(ステップS02)。例えば、第1記入領域は、画像入力者や訂正者等によって予め指定される。
また、第1認識処理部16は、各認識結果についての確信度を計算する(ステップS03)。
確信度が閾値以上である場合(ステップS04,Yes)、関連文書との比較処理が実行される(ステップS05)。例えば、確信度が閾値以上となる認識結果について関連文書との比較処理が実行される。
この場合、第2認識処理部20は、関連文書画像データにおいて、確信度が閾値以上となる認識結果が得られた第1記入領域に対応付けられている第2記入領域を特定し、その第2記入領域内に記入や印字されている文字や記号や図形等を認識する。結果比較部22は、第1記入領域に対する認識結果と第2記入領域に対する認識結果とを比較する。例えば、第2記入領域は、画像入力者や訂正者等によって予め指定され、第1記入領域に予め対応付けられる。
第1記入領域に対する認識結果と第2記入領域に対する認識結果とが一致する場合(ステップS06,Yes)、第1記入領域に対する認識結果に対する確認訂正は行われず、出力部26は、第1記入領域に対する認識結果を示す情報を出力する(ステップS07)。
第1記入領域に対する認識結果と第2記入領域に対する認識結果とが一致しない場合(ステップS06,No)、確認訂正が行われる(ステップS08)。例えば、出力部26は、第1記入領域に対する認識結果を示す情報と第2記入領域に対する認識結果を示す情報を端末装置12に送信する。端末装置12の制御部34は、これらの情報をUI部30に表示させる。また、出力部26は、両認識結果が一致していない旨を示す情報(警告情報)を端末装置12に送信する。端末装置12の制御部34は、その警告情報をUI部30に表示させる。そして、訂正者が端末装置12を操作して訂正指示を与えた場合、確認訂正処理部24は、その訂正指示に従って、第1記入領域に対する認識結果を訂正する。
確信度が閾値未満である場合(ステップS04,No)、関連文書との比較処理は行われず、確認訂正が行われる(ステップS08)。
ステップS03からステップS08までの処理は、個々の第1記入領域に対する認識結果毎に行われる。
以下、具体例を挙げて画像処理装置10の動作について更に詳しく説明する。以下では、「画像データ」を「画像」と称し、「文書画像データ」を「文書画像」と称し、「関連文書画像データ」を「関連文書画像」と称することとする。
図5を参照して、認識対象の文書画像について説明する。ここでは、一例として、帳票を表す文書画像が認識対象の画像として用いられる。図5は、その帳票の一例を示す。帳票36は、ある手続きを行うための文書である。
帳票36には、記入者によって手書きで情報(文字や記号や図形等)が記入される記入欄が形成(例えば印刷)されている。例えば、児童1の氏名が記入される氏名記入欄38、児童1の続柄が記入される続柄記入欄40、及び、児童1の生年月日が記入される生年月日記入欄42が、帳票36に予め形成されている。児童2に関しても同様に、氏名記入欄44、続柄記入欄46、及び、生年月日記入欄48が、帳票36に予め形成されている。これらの記入欄が、第1記入領域の一例に相当する。
図5に示す例では、児童1,2について、記入者による手書きによって、氏名記入欄、続柄記入欄及び生年月日記入欄のそれぞれに、児童の氏名を表す文字列、続柄を表す文字列及び生年月日を表す文字列が記入されている。
例えば、帳票36が画像読取装置(例えばスキャナ)によって読み取られることで、帳票36を表す文書画像(以下、「帳票画像」と称する)が生成される。帳票36が撮像装置(例えばカメラ)によって撮像されることで帳票画像が生成されてもよい。
帳票画像が画像処理装置10に入力されて画像受付部14によって受け付けられて、認識処理が行われる。
第1認識処理部16は、例えば、帳票画像に表されている各記入欄(第1記入領域)に文字認識処理を適用することで、各記入欄内に記入されている文字を認識し、各チェックボックス(第1記入領域)に図形認識処理を適用することで、各チェックボックス内に記入されている図形(チェックマーク)を認識する。例えば、氏名記入欄38,44、続柄記入欄40,46及び生年月日記入欄42,48や各チェックボックス等が、認識対象の第1記入領域として画像入力者や訂正者等によって指定されており、第1認識処理部16は、このようにして指定された各記入欄や各チェックボックスを対象として認識処理を実行する。
もちろん、第1認識処理部16は、上記以外の認識技術として公知の認識技術を用いることで、文字や図形等を認識してもよい。例えば、第1認識処理部16は、帳票画像において矩形状の領域(直線状の枠線で囲まれた長方形や正方形の領域等)を記入欄又はチェックボックスとして認識し、その記入欄又はチェックボックスに記入されている文字や図形を認識してもよい。氏名記入欄38等は矩形状の領域を有し、第1認識処理部16は、氏名記入欄38内に記入されている文字を認識する。その他の記入欄についても同様である。もちろん、第1認識処理部16は、矩形状以外の形状を有する領域(例えば円形状や楕円形状等の形状を有する領域や括弧で囲まれた領域等)を記入領域として認識し、その領域内に記入されている文字や図形等を認識してもよい。また、帳票画像上における各記入欄や各チェックボックスの位置(座標)が予め定められていてもよい。この場合、第1認識処理部16は、各記入欄や各チェックボックスの座標に基づいて帳票画像上の各記入欄や各チェックボックスの位置を特定し、各記入欄内や各チェックボックス内に記入された文字や図形等を認識する。
以下、図6を参照して関連文書について説明する。図6は、関連文書の一例を示す。関連文書50は、帳票36の氏名記入欄38に氏名が記入されている人物「富士みなと」に関する文書である。関連文書50には、例えば、氏名記入欄52、生年月日記入欄54及び住所記入欄56等が形成(例えば印字)されている。氏名記入欄52には、当該人物の氏名が印字されており、生年月日記入欄54には当該人物の生年月日が印字されており、住所記入欄56には当該人物の住所が印字されている。関連文書50においては、氏名や生年月日や住所等が手書きではなく印字(印刷)されている。関連文書50は、例えば、当該人物を証明するための文書(例えば、免許証、保険証、会員証、社員証、住民票、その他の公文書等)である。
関連文書50には、帳票36中の氏名記入欄38に記入されている氏名に相当する氏名が印字されているので、関連文書50は、その氏名記入欄38に対する認識結果と比較するための文書として用いられる。同様に、関連文書50には、帳票36中の生年月日記入欄42に記入されている生年月日に相当する生年月日が印字されているので、関連文書50は、その生年月日記入欄42に対する認識結果と比較するための文書として用いられる。
例えば、帳票36中の氏名記入欄38が第1記入領域として予め定められ、関連文書50中の氏名記入欄52が、その氏名記入欄38に対する第2記入領域として予め定められる。そして、氏名記入欄38と氏名記入欄52とが予め互いに対応付けられる。
同様に、帳票36中の生年月日記入欄42が第1記入領域として予め定められ、関連文書50中の生年月日記入欄54が第2記入領域として予め定められる。そして、生年月日記入欄42と生年月日記入欄54とが予め互いに対応付けられる。
例えば、画像入力者や訂正者等によって第1記入領域と第2記入領域が予め定められ、第1記入領域と第2記入領域とが予め互いに対応付けられる。各記入領域同士の対応付けを示す情報は、例えば、認識対象の文書画像と関連文書画像に紐付けられる。その紐付け処理は、例えば画像受付部14によって行われてもよいし、端末装置12によって行われてもよい。例えば、認識対象の文書画像と関連文書画像が端末装置12のUI部30に表示される。画像入力者や訂正者等は、端末装置12を操作することで、認識対象の文書画像中の第1記入領域と関連文書画像中の第2記入領域を指定し、第1記入領域と第2記入領域とを対応付ける。その対応付けを示す情報は、認識対象の文書画像と関連文書画像に紐付けられる。
第2認識処理部20は、例えば、関連文書画像に表されている各記入欄(第2記入領域)に文字認識処理を適用することで、各記入欄内に印字されている文字を認識し、各チェックボックス(第2記入領域)に図形認識処理を適用することで、各チェックボックスに印字されている図形(チェックマーク)を認識する。例えば、氏名記入欄52、生年月日記入欄54及び住所記入欄56等が、認識対象の第2記入領域として画像入力者や訂正者等によって指定されており、第2認識処理部20は、このようにして指定された各記入欄等を対象として認識処理を実行する。
結果比較部22は、第1認識処理部16によって認識された第1記入領域に対する認識結果の確信度が確信度の閾値以上となる場合、第1記入領域に対する認識結果と、第2認識処理部20によって認識された第2記入領域に対する認識結果とを比較し、両認識結果が互いに一致するか否かを判断する。例えば、第1記入領域としての氏名記入欄38(帳票36に形成された氏名記入欄)と、第2記入領域としての氏名記入欄52(関連文書50に形成された氏名記入欄)とが互いに対応付けられている場合において、氏名記入欄38に対する認識結果の確信度が閾値以上となる場合、結果比較部22は、氏名記入欄38に対する認識結果と氏名記入欄52に対する認識結果とを比較する。また、帳票36内の生年月日記入欄42と関連文書50内の生年月日記入欄54とが互いに対応付けられている場合において、生年月日記入欄42に対する認識結果の確信度が閾値以上となる場合、結果比較部22は、生年月日記入欄42に対する認識結果と生年月日記入欄54に対する認識結果とを比較する。他の記入欄についても同様である。
また、第1記入領域に対して複数の第2記入領域が対応付けられて、当該第1記入領域に対する認識結果と、当該複数の第2記入領域のそれぞれに対する認識結果とが比較されてもよい。例えば、第1記入領域としての氏名記入欄38に、関連文書50中の第2記入領域としての氏名記入欄52と、別の関連文書(例えば関連文書B)中の第2記入領域としての氏名記入欄(以下、「氏名記入欄B」と称する)とが対応付けられてもよい。この場合、結果比較部22は、氏名記入欄38に対する認識結果と、氏名記入欄52に対する認識結果とを比較し、更に、氏名記入欄38に対する認識結果と、氏名記入欄Bに対する認識結果とを比較する。他の記入欄についても同様である。
また、第1記入領域毎に異なる関連文書における第2記入領域が対応付けられてもよい。例えば、第1記入領域としての氏名記入欄38に、関連文書50中の第2記入領域としての氏名記入欄52が対応付けられ、第1記入領域としての続柄記入欄40に、別の関連文書(例えば関連文書B)中の第2記入領域としての続柄記入欄(以下、「続柄記入欄B」と称する)が対応付けられてもよい。この場合、結果比較部22は、氏名記入欄38に対する認識結果と関連文書50中の氏名記入欄52とを比較し、続柄記入欄40に対する認識結果と関連文書B中の続柄記入欄Bとを比較する。
上記のようにして認識処理が行われると、その認識結果が端末装置12に表示される。以下、図7を参照して認識結果の表示例について説明する。図7は、認識結果が表示される画面の一例を示す。
画面58には認識結果が表示される。例えば、出力部26が、帳票画像、帳票画像に対する認識結果、及び、第1記入領域に対する認識結果と第2記入領域に対する認識結果との比較結果等に基づいて、画面58の情報を生成する。画面58の情報は、画像処理装置10から端末装置12に送信される。端末装置12の制御部34は、画面58をUI部30に表示させる。
図7に示す例では、画面58には、帳票36を表す帳票画像60と、認識結果の表示欄62とが表示される。表示欄62には、帳票画像60において認識処理の対象となった画像(例えばスキャンによって生成されたスキャン画像)と、その画像に対する認識処理の結果を示す情報とが表示される。つまり、第1記入領域を表す画像と、その第1記入領域に対する認識結果が、表示欄62に表示される。また、第1記入領域に対する認識結果と第2記入領域に対する認識結果との比較結果を示す情報が、表示欄62に表示される。
画像64は、氏名記入欄38(第1記入領域の一例)を表す画像であって、氏名記入欄38に手書きで記入された文字列そのものを表す画像である。認識結果66は、氏名記入欄38に対して文字認識処理を適用することで認識された結果である。ここでは、認識結果66として文字列(例えば文字列「富土みなと」)が表示されている。
画像68は、続柄記入欄40(第1記入領域の一例)を表す画像であって、続柄記入欄40に手書きで記入された文字列そのものを表す画像である。認識結果70は、続柄記入欄40に対して文字認識処理を適用することで認識された結果である。ここでは、認識結果70として文字(例えば文字「子」)が表示されている。
画像72は、生年月日記入欄42(第1記入領域の一例)を表す画像であって、生年月日記入欄42に手書きで記入された文字列そのものを表す画像である。認識結果74は、生年月日記入欄42に対して文字認識処理を適用することで認識された結果である。ここでは、認識結果74として文字列(例えば文字列「2010年6月26日」)が表示されている。
その他の記入欄やチェックボックス等についても同様に、画像と認識結果が表示される。
また、確信度を表す情報が、項目(記入欄やチェックボックス)毎に表示されている。例えば、確信度を表す情報が、各項目の枠の色として表現されている。項目枠76は、児童氏名1の認識結果が表示される領域の枠であり、その項目枠76内には、画像64と認識結果66が表示されている。項目枠78は、児童続柄1の認識結果が表示される領域の枠であり、その項目枠78内には、画像68と認識結果70が表示されている。項目枠80は、児童生年月日1の認識結果が表示される領域の枠であり、その項目枠80内には、画像72と認識結果74が表示されている。
確信度に応じた色が予め定められており、各項目枠は、その項目に対する認識結果の確信度に応じた色で表現される。例えば、確信度が80%以上であれば、項目枠の色は緑色であり、確信度が50%以上、80未満であれば、項目枠の色は黄色であり、確信度が50%未満であれば、項目枠の色は赤色である。これらの数値及び確信度の範囲は一例に過ぎない。
例えば、氏名記入欄38、続柄記入欄40及び生年月日記入欄42のそれぞれに対する認識結果の確信度が80%以上となっており、項目枠76,78,80のそれぞれは緑色で表現されている。
なお、確信度は色によって表現されずに、又は、色によって表現されつつ、数値として表示されてもよい。
また、第1記入領域に対する認識結果の確信度が閾値以上となる場合において、第1記入領域に対する認識結果が第2記入領域に対する認識結果と一致していない場合、両認識結果が一致していない旨を示す情報(警告情報)が、当該第1記入領域を表す画像及び認識結果に紐付けて表示欄62に表示される。
図7に示す例では、帳票36中の氏名記入欄38に対する認識結果と、関連文書中の第2記入領域に対する認識結果(例えば関連文書50中の氏名記入欄52に対する認識結果)とが一致しておらず、両認識結果が一致していない旨を示す警告情報が、警告マーク82として項目枠76内に表示されている。例えば、氏名記入欄38からは文字列「富土みなと」が認識されており、その認識結果の確信度は閾値以上となっている。一方で、氏名記入欄52からは文字列「富士みなと」が認識されている。つまり、氏名記入欄38からは文字「土」が認識されているのに対して、氏名記入欄52からは文字「士」が認識されており、両認識結果が一致していない。この場合、警告マーク82が表示される。つまり、確信度が閾値以上となっている場合であっても、警告マーク82が表示される。
このように、第1記入領域に対する認識結果の確信度が閾値以上となっている場合であっても、第1記入領域に対する認識結果と、その第1記入領域に対応する第2記入領域に対する認識結果とが一致しない場合、その第1記入領域について警告マークが表示される。こうすることで、文字の認識結果に対して高い確信度(閾値以上の確信度)が算出された場合であっても、当該認識結果の誤認識がユーザ(例えば訂正者等)へ警告される。認識結果の確信度が高い場合であっても、その認識結果は必ずしも正しい文字等を表しているとは限らない。例えば、記入者の癖等が原因となって、確信度は高いが正しい文字等を表していない認識結果が得られる場合もある。このような場合であっても、認識結果の誤認識がユーザへ警告される。また、第2記入領域に記入されている文字が手書きではなく印字された活字である場合には、第2記入領域に対する認識の精度が、手書きの文字に対する認識の精度よりも高くなるため、誤認識に対する警告の精度が高くなる。
氏名記入欄38に複数の第2記入領域が対応付けられている場合において、認識結果が氏名記入欄38に対する認識結果と一致する第2記入領域の数や割合が閾値未満となった場合に、警告マーク82が表示され、その数や割合が閾値以上となった場合、警告マーク82が表示されなくてもよい。また、氏名記入欄38に対する認識結果が、すべての第2記入領域に対する認識結果との間で一致した場合に、警告マーク82は表示されず、氏名記入欄38に対する認識結果が、少なくとも1つの第2記入領域に対する認識結果との間で一致しない場合に、警告マーク82が表示されてもよい。
具体例を挙げて説明する。例えば、氏名記入欄38に、関連文書50中の氏名記入欄52と、別の関連文書B中の氏名記入欄Bとが対応付けられている場合において、氏名記入欄38に対する認識結果と、氏名記入欄52,Bのそれぞれに対する認識結果とが一致する場合、警告マーク82は表示されない。氏名記入欄38に対する認識結果と、氏名記入欄52,Bのいずれか一方の認識結果又は両方の認識結果とが一致しない場合、警告マーク82が表示される。
氏名記入欄38に、同一の関連文書中の複数の第2記入領域が対応付けられてもよい。この場合も、上記の処理と同様に、氏名記入欄38に対する認識結果と、各第2記入領域に対する認識結果とが比較され、その比較結果に応じて警告マークが表示される。
このように、第1記入領域に複数の第2記入領域を対応付けて比較処理を行うことで、第1記入領域に1つの第2記入領域のみを対応付けて比較処理を行う場合と比較して、第1記入領域に対する認識結果の誤認識の判定の精度が高くなる。
なお、複数の関連文書が用いられる場合、各関連文書は互いに異なる種類の文書であってもよい。例えば、ある関連文書が、私的団体が発行している会員証であり、別の関連文書が、公的機関が発行している証明書等であってもよい。
帳票36中の第1記入領域としての続柄記入欄40には、例えば別の関連文書(例えば関連文書C)中の第2記入領域(例えば続柄記入欄)が対応付けられている。続柄記入欄40に対する認識結果と第2記入領域に対する認識結果とが一致しているため、続柄記入欄40に対する認識結果については、警告マークは表示されない。
また、帳票36中の第1記入領域についての生年月日記入欄42には、関連文書50中の生年月日記入欄54が対応付けられており、それらの記入欄に対する認識結果が互いに一致している。それ故、生年月日記入欄42に対する認識結果については、警告マークは表示されない。
訂正者は、端末装置12のUI部30を操作することで、画面58上で認識結果を訂正することができる。例えば、訂正者は、認識結果としての文字列を訂正してもよいし、チェックマークの有無を訂正してもよい。訂正者によって訂正指示が与えられると、その訂正指示を示す情報が、端末装置12から画像処理装置10に送信され、確認訂正処理部24は、その訂正指示に従って認識結果を訂正する。
また、訂正者が画面58上で警告マークを指定した場合(例えば警告マークをクリックした場合)、出力部26は、その警告マークが紐付く第1記入領域に対応付けられている関連文書中の第2記入領域に対する認識結果を示す情報を、関連文書情報として端末装置12のUI部30に表示させる。第1記入領域に複数の第2記入領域が対応付けられている場合、各記入領域に対する認識結果を示す情報が表示される。
例えば、警告マーク82がユーザによって指定された場合、第1記入領域としての氏名記入欄38に対応付けられている第2記入領域に対する認識結果を示す情報が、UI部30に表示される。
以下、図8を参照して、第2記入領域に対する認識結果の表示例について説明する。図8は、その表示例を示す。警告マーク82がユーザによって指定された場合、表示ウィンドウ84がUI部30に表示される。表示ウィンドウ84の情報は画像処理装置10から端末装置12に送信されて、表示ウィンドウ84が端末装置12のUI部30に表示される。画面58がUI部30に表示されている状態で、表示ウィンドウ84がポップアップ形式で表示されてもよい。
表示ウィンドウ84内には、例えば、第1記入領域としての氏名記入欄38を表す画像64と、関連文書情報86とが表示されている。関連文書情報86として、氏名記入欄38に対応付けられている第2記入領域を表す画像と、その第2記入領域に対する認識結果とが表示されている。図8に示す例では、氏名記入欄38に複数の第2記入領域が対応付けられており、各第2記入領域を表す画像と認識結果が表示されている。具体的には、第2記入領域情報88,90が関連文書情報86に含まれる情報として表示されている。第2記入領域情報88は、氏名記入欄38に対応付けられた第2記入領域としての氏名記入欄(以下、便宜的に「氏名記入欄A」と称する)を表す画像92と、氏名記入欄Aに対する認識結果94とを含む。また、第2記入領域情報90は、氏名記入欄38に対応付けられた第2記入領域としての氏名記入欄(以下、便宜的に「氏名記入欄B」と称する)を表す画像96と、氏名記入欄Bに対する認識結果98とを含む。氏名記入欄A,Bは、同一の関連文書に形成された第2記入領域であってもよいし、それぞれ別々の関連文書に形成された第2記入領域であってもよい。画像92,96は、関連文書を画像読取装置によって読み取ることで生成された画像から切り取られた画像や、関連文書を撮像装置によって撮像することで生成された画像から切り取られた画像である。
氏名記入欄Aに対する認識結果94は、文字列「富士みなと」を示しており、氏名記入欄Bに対する認識結果98は、文字列「冨土みなと」を示している。氏名記入欄38に対する認識結果(文字列「富土みなと」)は、認識結果94,98と一致しない。それ故、氏名記入欄38に対する認識結果について警告マーク82が表示されている。
なお、図8に示す例では、第1記入領域に複数の第2記入領域が対応付けられているため、複数の第2記入領域情報が一覧表示されているが、第1記入領域に1つの第2記入領域が対応付けられている場合には、その第2記入領域に関する情報が表示される。
訂正者は、関連文書情報86を利用して第1記入領域としての氏名記入欄38に対する認識結果を訂正してもよい。具体的には、訂正者が表示ウィンドウ84上で、第2記入領域情報88,90の中から第2記入領域情報を選択した場合、確認訂正処理部24は、氏名記入欄38に対する認識結果を、その選択された第2記入領域情報に含まれる認識結果に訂正する。例えば図9に示すように、訂正者が第2記入領域情報88を選択して訂正の適用を指示した場合(例えば「適用ボタン」をクリックした場合)、その訂正を示す情報が端末装置12から画像処理装置10に送信され、確認訂正処理部24は、氏名記入欄38に対する認識結果を、第2記入領域情報88に含まれる認識結果94に訂正する。認識結果94は文字列「富士みなと」を示しているため、氏名記入欄38に対する認識結果(文字列「富土みなと」)が、文字列「富士みなと」に訂正される。つまり、文字「土」が文字「士」に訂正される。
なお、結果比較部22は、訂正者によって選択された第2記入領域情報88が示す第2記入領域(氏名記入欄A)を、氏名記入欄38に対する次回以降の比較対象の第2記入領域として設定してもよい。図10は、その設定画面の一例を示す。上記のように、第2記入領域情報88がユーザによって選択されて訂正の適用指示が与えられた場合(例えば「適用ボタン」がクリックされた場合)、出力部26は、設定画面100の情報を端末装置12に送信し、端末装置12の制御部34は、設定画面100を端末装置12のUI部30に表示させる。設定画面100には、訂正対象の項目(児童氏名1)を示す情報が表示されている。訂正者が設定画面100上にて、児童氏名1に関する第2記入領域として氏名記入欄Aを用いることを指示した場合(例えば「はいボタン」をクリックした場合)、結果比較部22は、氏名記入欄Aを、氏名記入欄38に対する次回以降の比較対象の第2記入領域として定める。例えば、氏名記入欄38と氏名記入欄Aとの対応付けを示す情報が、画像処理装置10に設けられている記憶装置に記憶される。次回以降の比較処理においては、結果比較部22は、氏名記入欄38に対する認識結果と氏名記入欄Aに対する認識結果とを比較する。そして、その比較結果に応じて警告マークが表示される。つまり、氏名記入欄Aに対する認識結果が正解データとして用いられ、その正解データと氏名記入欄38に対する認識結果とが比較される。また、確認訂正処理部24は、次回以降の処理において、氏名記入欄38に対する認識結果と氏名記入欄Aに対する認識結果(正解データ)とが一致しない場合、氏名記入欄38に対する認識結果を正解データに訂正してもよい。
上記のように正解データを設定して自動的に比較処理や訂正処理を行うことで、訂正者が正解データを選択する手間が省ける。
氏名記入欄Aを含む関連文書は、次回以降の比較処理に用いられる関連文書として設定されてもよい。この場合、結果比較部22は、認識対象の文書に対する認識結果と、氏名記入欄Aを含む関連文書に対する認識結果とを比較する。
上記のように、訂正者によって第2記入領域情報88が選択されて、氏名記入欄38に対する認識結果が認識結果94に訂正された場合、出力部26は、その訂正が反映された認識結果を示す情報を画面58に表示させる。図11は、その表示例を示す。符号102で示すように、図7に示されている認識結果66が示す文字列「富土みなと」が、氏名記入欄Aに対する認識結果94が示す文字列「富士みなと」に訂正されている。つまり、訂正前の文字「土」が文字「士」に訂正されている。
また、訂正後においては警告マーク82は表示されず、確認マーク(チェックマーク)104が、警告マーク82に代えて項目枠76内に表示される。
第1記入領域に対する認識結果の確信度が閾値以上となる場合に結果比較部22による比較処理の対象となる項目が予め定められ、結果比較部22は、予め定められた項目に対する文字認識結果同士を比較してもよい。例えば、比較処理の対象となる属性(カテゴリ)が画像入力者や訂正者等によって予め指定され、結果比較部22は、その属性を有する項目に対する文字認識結果同士を比較する。属性(カテゴリ)は、例えば、「氏名」、「住所」、「生年月日」、「電話番号」、「ID」等である。もちろん、これら以外の属性が用いられてもよい。結果比較部22は、認識対象の文書画像と関連文書画像とにおいて同一の属性(予め定められた属性)を有する文字(同一のカテゴリに属する文字)に対する文字認識結果同士を比較する。
第1認識処理部16は、認識対象の文書画像において予め定められた属性を有する文字列を検索し、当該文字列に対して文字認識処理を適用することで当該文字列を認識する。例えば、属性「氏名」が指定された場合、第1認識処理部16は、文書画像において、「氏名」、「名前」、「おなまえ」、「Name」等のように属性「氏名」を表現する文字列を検索し、その文字列に紐付く第1記入領域(例えばその文字列の近くに配置されている第1記入領域)を、属性「名前」を有する第1記入領域として認識する。そして、第1認識処理部16は、その第1記入領域に対して文字認識処理を適用することで、その第1記入領域に記入されている文字列を、属性「名前」を有する文字列として認識する。
また、第2認識処理部20は、関連文書において予め定められた属性を有する文字列を検索し、当該文字列に対して文字認識処理を適用することで当該文字列を検索する。例えば、属性「氏名」が指定された場合、第2認識処理部20は、関連文書において、「氏名」、「名前」、「おなまえ」、「Name」等のように属性「氏名」を表現する文字列を検索し、その文字列に紐付く第2記入領域(例えばその文字列の近くに配置されている第2記入領域)を、属性「名前」を有する第2記入領域として認識する。そして、第2認識処理部20は、その第2記入領域に対して文字認識処理を適用することで、その第2記入領域に記入や印字されている文字列を、属性「名前」を有する文字列として認識する。
結果比較部22は、認識対象の文書画像中の属性「名前」を有する文字列に対する認識結果(第1認識処理部16による認識処理の結果)の確信度が閾値以上となる場合、認識対象の文書画像中の属性「名前」を有する文字列に対する認識結果と、関連文書中の属性「名前」を有する文字列に対する認識結果(第2認識処理部20による認識処理の結果)とを比較する。上述した実施形態と同様に、両認識結果が一致しない場合、属性「名前」を有する項目について警告マークが表示され、両認識結果が一致する場合、その警告マークは表示されない。
指定された属性を有する文字列が自動的に検索されて認識結果が比較されるので、画像入力者や訂正者等は、認識対象の文書画像と関連文書画像とにおいてマニュアル操作で比較対象となる記入領域を指定せずに済む。また、認識対象の文書や関連文書のフォーマット等が変更された場合であっても、指定された属性を有する文字列が自動的に検索されて認識結果が比較されるので、マニュアル操作で認識対象の記入領域を再設定せずに済む。
上記の画像処理装置10及び端末装置12のそれぞれは、一例としてハードウェアとソフトウェアとの協働により実現される。具体的には、画像処理装置10及び端末装置12のそれぞれは、図示しないCPU等の1又は複数のプロセッサを備えている。当該1又は複数のプロセッサが、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、画像処理装置10及び端末装置12のそれぞれの各部の機能が実現される。上記プログラムは、CD又はDVD等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、記憶装置に記憶される。別の例として、画像処理装置10及び端末装置12のそれぞれの各部は、例えばプロセッサ、電子回路又はASIC(Application Specific Integrated Circuit)等のハードウェア資源により実現されてもよい。その実現においてメモリ等のデバイスが利用されてもよい。更に別の例として、画像処理装置10及び端末装置12のそれぞれの各部は、DSP(Digital Signal Processor)又はFPGA(Field Programmable Gate Array)等によって実現されてもよい。
10 画像処理装置、12 端末装置、14 画像受付部、16 第1認識処理部、18 確信度判定部、20 第2認識処理部、22 結果比較部、24 確認訂正処理部、26 出力部。

Claims (11)

  1. 文書を表す第1画像に対する文字認識結果と、前記文字認識結果の確からしさを示す確信度を取得する取得手段と、
    前記確信度が閾値以上であった場合に、前記文字認識結果を確定させる確定手段と、
    前記確信度が前記閾値以上であっても、前記文字認識結果と前記文書の関連文書を表す第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する制御手段と、
    を有する情報処理装置。
  2. 前記文書は、記入者によって手書きされた文字を含み、
    前記関連文書は、前記記入者に関連する文書である、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記文書及び前記関連文書は、前記記入者を識別するための文字列を含む、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記関連文書は、前記文書に関連する文書である、
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記制御手段は、前記第1画像に対する文字認識結果と、前記第2画像に表されている活字に対する文字認識結果とに基づいて、前記警告の出力を制御する、
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の情報処理装置。
  6. 前記制御手段は、前記第1画像に対する文字認識結果と、複数の関連文書を表す複数の第2画像に対する文字認識結果とに基づいて、前記警告の出力を制御する、
    ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置。
  7. 前記複数の関連文書は互いに異なる種類の文書である、
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記複数の関連文書の中で、前記第1画像に対する文字認識結果の訂正に用いられた関連文書を、次回の第1画像に対する文字認識結果との比較に用いられる文書として設定する設定手段を更に有する、
    ことを特徴とする請求項6又は請求項7に記載の情報処理装置。
  9. 前記制御手段は、前記第1画像と前記第2画像とにおいて同一属性を有する文字に対する文字認識結果に基づいて前記警告の出力を制御する、
    ことを特徴とする請求項1から請求項8のいずれか一項に記載の情報処理装置。
  10. 前記制御手段は、前記第1画像と前記第2画像が予め定められた属性を有する場合において、前記確信度が前記閾値以上であっても、前記第1画像に対する文字認識結果と前記第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する、
    ことを特徴とする請求項1から請求項9のいずれか一項に記載の情報処理装置。
  11. コンピュータを、
    文書を表す第1画像に対する文字認識結果と、前記文字認識結果の確からしさを示す確信度を取得する取得手段、
    前記確信度が閾値以上であった場合に、前記文字認識結果を確定させる確定手段、
    前記確信度が前記閾値以上であっても、前記文字認識結果と前記文書の関連文書を表す第2画像に対する文字認識結果とが一致しない場合、前記第1画像に対する文字認識結果に対する警告の出力を制御する制御手段、
    として機能させるプログラム。
JP2018173596A 2018-09-18 2018-09-18 情報処理装置及びプログラム Active JP7206729B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018173596A JP7206729B2 (ja) 2018-09-18 2018-09-18 情報処理装置及びプログラム
US16/273,176 US11042733B2 (en) 2018-09-18 2019-02-12 Information processing apparatus for text recognition, non-transitory computer readable medium for text recognition process and information processing method for text recognition
CN201910173146.9A CN110909740A (zh) 2018-09-18 2019-03-07 信息处理装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018173596A JP7206729B2 (ja) 2018-09-18 2018-09-18 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020046819A true JP2020046819A (ja) 2020-03-26
JP7206729B2 JP7206729B2 (ja) 2023-01-18

Family

ID=69773675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018173596A Active JP7206729B2 (ja) 2018-09-18 2018-09-18 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11042733B2 (ja)
JP (1) JP7206729B2 (ja)
CN (1) CN110909740A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11647139B2 (en) 2020-12-23 2023-05-09 Canon Kabushiki Kaisha Image processing apparatus, image processing system, control method thereof, and storage medium
JP7487991B1 (ja) 2023-09-12 2024-05-21 株式会社オプトエレクトロニクス 文字列読取方法、文字列読取装置及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154667A (ja) * 2019-03-20 2020-09-24 株式会社Pfu 情報処理装置、方法及びプログラム
US11900644B2 (en) * 2019-10-31 2024-02-13 Rakuten Group, Inc. Document image analysis apparatus, document image analysis method and program thereof
JP2022020227A (ja) * 2020-07-20 2022-02-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2022116983A (ja) * 2021-01-29 2022-08-10 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009200794A (ja) * 2008-02-21 2009-09-03 Fuji Xerox Co Ltd 文書の改竄検出プログラム及び改竄検出装置
JP2012064195A (ja) * 2010-08-16 2012-03-29 Canon Software Inc 情報処理装置、情報処理方法、プログラム及び記録媒体。
JP2014081714A (ja) * 2012-10-15 2014-05-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162603A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
JP4783441B2 (ja) * 2009-02-09 2011-09-28 シャープ株式会社 画像処理装置及びスキャナ装置
US9922247B2 (en) * 2013-12-18 2018-03-20 Abbyy Development Llc Comparing documents using a trusted source
CN105045771B (zh) * 2014-04-25 2017-12-26 京瓷办公信息系统株式会社 文档管理装置以及文档管理方法
JP6575132B2 (ja) 2015-05-14 2019-09-18 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009200794A (ja) * 2008-02-21 2009-09-03 Fuji Xerox Co Ltd 文書の改竄検出プログラム及び改竄検出装置
JP2012064195A (ja) * 2010-08-16 2012-03-29 Canon Software Inc 情報処理装置、情報処理方法、プログラム及び記録媒体。
JP2014081714A (ja) * 2012-10-15 2014-05-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11647139B2 (en) 2020-12-23 2023-05-09 Canon Kabushiki Kaisha Image processing apparatus, image processing system, control method thereof, and storage medium
JP7487991B1 (ja) 2023-09-12 2024-05-21 株式会社オプトエレクトロニクス 文字列読取方法、文字列読取装置及びプログラム
JP7497106B1 (ja) 2023-09-12 2024-06-10 株式会社オプトエレクトロニクス 文字列読取方法、文字列読取装置及びプログラム

Also Published As

Publication number Publication date
US11042733B2 (en) 2021-06-22
JP7206729B2 (ja) 2023-01-18
US20200089945A1 (en) 2020-03-19
CN110909740A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
JP7206729B2 (ja) 情報処理装置及びプログラム
US12019675B2 (en) Recognizing text in image data
JP6208383B2 (ja) プレビューモードにおける画像キャプチャリングパラメータ調整
US10902283B2 (en) Method and device for determining handwriting similarity
JP2016167273A (ja) オブジェクトにおけるテキスト情報を認識するための方法およびシステム
CN110869944B (zh) 使用移动设备读取测试卡
US8655107B2 (en) Signal processing apparatus, signal processing method, computer-readable medium and computer data signal
JP6365024B2 (ja) サービス提供装置、方法、及びプログラム
US11989209B2 (en) Electronic device, and computer-readable storage medium
JP6734445B2 (ja) データ入力装置、データ入力方法及びデータ入力プログラム
CN111062377B (zh) 一种题号检测方法、系统、存储介质及电子设备
JP2016015019A (ja) サービス提供装置、方法、及びプログラム
JP7247496B2 (ja) 情報処理装置及びプログラム
JP6553217B1 (ja) データ入力装置、データ入力プログラム及びデータ入力システム
US10867168B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム
JP2020046857A (ja) 情報処理装置及びプログラム
JP7316479B1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP7342518B2 (ja) 画像処理装置及び画像処理プログラム
WO2021120420A1 (zh) 阅读辅助方法、装置及电子设备
JP6549209B2 (ja) データ入力装置及びデータ入力プログラム
CN118138870A (zh) 图像识别操作方法,装置,电子设备及存储介质
JP2019219662A (ja) データ入力装置、データ入力方法及びデータ入力プログラム
CN117953520A (zh) 表格检测方法、装置、电子设备、存储介质及芯片
JP2023094133A (ja) 画像処理システム、画像処理方法、画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7206729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150