JP2018128996A - 情報処理装置、制御方法、およびプログラム - Google Patents

情報処理装置、制御方法、およびプログラム Download PDF

Info

Publication number
JP2018128996A
JP2018128996A JP2017023558A JP2017023558A JP2018128996A JP 2018128996 A JP2018128996 A JP 2018128996A JP 2017023558 A JP2017023558 A JP 2017023558A JP 2017023558 A JP2017023558 A JP 2017023558A JP 2018128996 A JP2018128996 A JP 2018128996A
Authority
JP
Japan
Prior art keywords
keyword
area
value corresponding
rule
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017023558A
Other languages
English (en)
Other versions
JP2018128996A5 (ja
JP6878034B2 (ja
Inventor
妙子 山▲崎▼
Taeko Yamazaki
妙子 山▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017023558A priority Critical patent/JP6878034B2/ja
Priority to US15/877,062 priority patent/US10885325B2/en
Publication of JP2018128996A publication Critical patent/JP2018128996A/ja
Publication of JP2018128996A5 publication Critical patent/JP2018128996A5/ja
Application granted granted Critical
Publication of JP6878034B2 publication Critical patent/JP6878034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】フォーマットが未知の画像から、効率よく高速に文字認識処理による情報の抽出を行う情報処理装置を提供する。【解決手段】情報処理装置200は、画像を領域解析することにより領域を抽出し、特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得し、ルールを用いてキーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定し、決定された順番に従い、キーワードを含む領域または当該キーワードに対応するバリューを含む領域を抽出された領域の中から特定し、特定された領域に対して文字認識処理を行う。その後、決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する。【選択図】図6

Description

本発明は、情報処理装置、制御方法、およびプログラムに関する。
スキャンされた帳票画像に対して、画像中に含まれる名前や合計金額などの情報が記載されている領域を特定し、特定した領域に対して文字認識処理を実行することで情報を抽出するシステムがある。当該システムは、名前や合計金額などの抽出したい情報が記載されている領域の位置が固定の帳票を処理する場合、画像における座標をもとに文字認識処理を実行する領域を決定する。しかし、名前や合計金額などの抽出したい情報が記載されている領域の位置が固定でない非定型の帳票(フォーマットが未知の帳票)を処理する場合、上述の方法では情報を抽出することができない。
特許文献1は、帳票の表領域において、最上段、最下段、最左列に位置する文字列のみを項目名領域検出処理の対象とする帳票認識装置を開示している。また、特許文献2は、英数字を中心とする特定文字のみを認識する特定文字認識処理と、該特定文字認識処理の結果、再認識を要すると判別した再認識対象に対して、全ての文字を認識する全文字認識処理とを実行する文字認識装置を開示している。
特開2009−93305号公報 特開2010−217996号公報
しかしながら、特許文献1では、罫線で囲まれた表領域を項目名領域検出処理の対象としており、表以外の領域や、文字列を含む枠の縦または横方向の整列性がない領域には適用できない。特許文献2では、特定文字認識処理は、画像全体に対して行われ、さらに特定文字認識処理の結果、再認識を要すると判別された対象に対しては、二度の文字認識処理を実行する必要があるため、処理に時間がかかってしまう。
本発明は、どの位置にどのような情報が記載されているかのフォーマットが未知の画像から、効率よく高速に文字認識処理による情報の抽出を行う情報処理装置を提供することを目的とする。
本発明の一実施形態の情報処理装置は、画像に対して領域解析処理を実行することにより領域を抽出する抽出手段と、特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する取得手段と、前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する決定手段と、前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する特定手段と、前記特定された領域に対して文字認識処理を行う文字認識手段と、を備え、前記特定手段は、前記決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する。
本発明の情報処理装置によれば、フォーマットが未知の画像から効率よく高速に文字認識処理による情報の抽出を可能とする。
複写機の構成を示す図である。 情報処理装置の構成を示す図である。 スキャン画像の一例を示す図である。 キーワードとバリューの条件を入力する画面の一例を示す図である。 ルールテーブルのデータ構造を示す図である。 スキャン画像から情報を抽出する処理を示すフローチャートである。 領域解析処理を行った結果の一例を示す図である。 領域情報テーブルデータ構造を示す図である。 情報を抽出する領域を推定する順番を決定する処理を示す図である。 図9の処理が終了した時点でのルールテーブルを示す図である。 文字認識処理の結果を保存した状態の領域情報テーブルを示す図である。 文字認識処理の結果を保存した状態の領域情報テーブルを示す図である。 スキャン画像の一例を示す図である。 キーワードとバリューの条件を入力する画面の一例を示す図である。
以下、本発明を実施するための形態について図面などを参照して説明する。
(第1実施形態)
図1は、本実施形態における複写機100の構成を示す図である。
複写機100は、スキャナ101、送受信部102、およびプリンタ103を有する。
図2は、本実施形態における情報処理装置200の構成を示す図である。
情報処理装置200は、送受信部201、保存部202、制御部203、表示部204、受付部205、ルール登録部206、および情報抽出部207を有する。また、情報処理装置200は、不図示のCPUとROMとRAMとを内部に有する。CPUは、ROMから情報処理装置200のプログラムをロードし、一次保存領域としてRAMを利用して情報処理装置200のプログラムを実行する。以上の動作により、図2に示す各部の処理が実行される。
なお、受付部205は、キーボードとマウスとを含む形態が一般的であるが、この形態に限られない。また、受付部205と表示部204は一体であってもよい。その場合、受付部205と表示部204をまとめてタッチパネルと呼ぶ。また、表示部204は、プロジェクタにより画像を投影する形態であってもよく、受付部205は、当該投影された画像に対する指先の位置をカメラで認識する形態であってもよい。
図3は、スキャナで文書をスキャンして得られるスキャン画像の一例である。
本実施形態では、非定型帳票のスキャン画像を一例として説明するが、これに限られものではなく、帳票以外のどのような文書のスキャン画像であっても本発明は適用可能である。また、スキャン画像ではなく、例えばカメラで撮影した画像に対しても本発明は適用可能である。
非定型帳票とは、帳票中に含まれる情報が記載されている位置が固定でない帳票のことである。言い換えると、非定型帳票とは、どの位置にどのような情報が記載されているかのフォーマットが未知の帳票のことである。例えば、図3に示す帳票301と帳票302とでは、名前を示す情報、すなわち「帳票太郎」という文字列が記載されている位置が異なる。
非定型帳票に対して、例えば、名前を示す情報を抽出する場合、「名前」や「氏名」といったキーワードとなる文字列を含む領域を特定する。そして、当該文字列に対して所定方向の位置にある領域に名前を示す情報が記載されているとして、当該所定方向の位置にある領域に対して文字認識処理を実行することが考えられる。しかし、この場合、帳票全体に対して文字認識処理を実行し、その結果を用いて名前を示す情報が記載されている領域を特定するため、処理に時間がかかってしまう。
これに対して、本実施形態では、キーワードとバリューの条件に基づいて、キーワードまたはバリューを含む領域のうち特定しやすい方の領域を決定してから当該領域に対して文字認識処理を行い、情報を抽出する。キーワードとバリューの条件は、ユーザが受付部205を介して入力し、ルール登録部206に保存される。詳細は、図4を用いて説明する。
本実施形態では、抽出したい情報の項目名、すなわち目印となる文字列をキーワードと呼び、当該抽出したい情報をバリューと呼ぶ。例えば、図3に示す帳票301や帳票302において、名前を示す情報(バリュー)である「帳票太郎」に対して、「名前」や「氏名」が、当該バリューの項目名であって目印となる文字列(キーワード)である。また、帳票において、キーワードが記載されている領域をキーワード領域、バリューが記載されている領域をバリュー領域と呼ぶ。
図4は、ユーザがキーワードとバリューの条件を入力する際に使用するユーザインタフェースの一例を示す図である。
図4に示すユーザインタフェースは、ルール登録部206が表示部204を介して表示する。ユーザは、図4に示すユーザインタフェースに、抽出する情報のキーワードとなる文字列と、抽出する情報すなわちバリューの条件を入力する。
キーワードには、帳票における表記揺れを考慮して複数の単語を登録できる。例えば、図4に示す例では、キーワードが取り得る値として、「氏名」、「名前」、および「患者名」が登録されている。すなわち、抽出したい情報は、「氏名」、「名前」、および「患者名」のいずれかに対応する情報(バリュー)である。バリューの条件には、キーワードに対応するバリューが記載されている位置、およびバリューが取り得る値を登録する。
例えば、図4に示す例では、バリューは、キーワードの「右」に「30」ピクセルに配置されていることが設定されている。さらに、図4に示す例では、バリューの条件として、字種が日本語であり、文字列長が不定であることが設定されている。字種とは、漢字、カナ、数字、アルファベット、記号、などの文字種のことである。なお、図4に示した、情報抽出のためのキーワードとバリューの条件は一例であり、これに限られるものではない。ルール登録部206は、ユーザが入力したキーワードとバリューの条件をルールテーブルとして保存部202に保存する。
図5は、ルール登録部206がルールテーブルとして保存部202に保存したデータの模式図である。
本実施形態では、帳票から情報を抽出する際の条件をルールと呼び、ルールを複数組定義したデータをルールテーブルと呼ぶ。ルール1は、図4に示したユーザインタフェースに入力されたキーワードとバリューの条件を保存したルールである。
ルール2は、キーワードが「伝票番号」、「番号」、「帳票番号」、「Number」または「File id」のいずれかであり、キーワードに対して右に15ピクセルの位置に存在する領域をバリューが記載されている領域とすることを設定したルールである。また、ルール2では、バリューが0〜9の数字、「¥」、「円」、または「.」の文字から構成され、文字列長が10文字以下であることが設定されている。
次に、本実施形態で行う処理を説明する。複写機100のスキャナ101が文書をスキャンすると、スキャン画像が生成される。生成されたスキャン画像を送受信部102が情報処理装置200に送信する。すると、情報処理装置200の送受信部201がこれを受信し、保存部202にそのスキャン画像を保存する。
図6は、スキャン画像に対して情報処理装置200が情報を抽出する処理を示すフローチャートである。
ステップS601で、情報処理装置200が有する情報抽出部207は、保存部202に保存されたスキャン画像を取得する。ステップS602で、情報抽出部207は、取得したスキャン画像に対して領域解析処理を行う。領域解析処理では、スキャン画像を解析することにより、文字列や、画像、グラフィックなどの属性毎の領域を判定する。本実施形態では、各領域は矩形の領域として判定されるものとする。
図7は、図3に示した帳票301に対して領域解析処理を行った結果を可視化した図である。
矩形領域の属性は、文字列、画像、グラフィック等である。本実施形態では、領域解析処理の結果、属性が文字列であると特定された領域を利用して情報の抽出を行う。領域解析処理は、既知の手法を用いればよい。情報抽出部207は、領域解析処理を行った結果を領域情報テーブルとして保存部202に保存する。
図8は、情報抽出部207が領域情報テーブルとして保存部202に保存したデータの模式図である。
領域情報テーブルは、スキャン画像上の矩形領域を一意に識別するIDと、矩形領域のスキャン画像における座標情報である左上座標、幅、および高さと、当該矩形領域に対して文字認識処理を実行した結果とを保存する。座標の値は、スキャン画像の左上を原点とし、横方向をX軸、縦方向をY軸とした場合のピクセル値である。
図7に示した領域解析処理の結果抽出された領域のIDと図8に示した矩形領域のIDとは対応している。ステップS602の時点では、まだ文字認識処理が実行されていないため、領域情報テーブルの文字認識結果は空である。後述するステップS607で文字認識処理が実行されると、その結果が領域情報テーブルの文字認識結果の該当する領域の欄に書き込まれる。
図6の説明に戻る。ステップS603で、情報抽出部207は、ルール登録部206が保存部202に保存したルールテーブルを取得する。ステップS604で、情報抽出部207は、情報を抽出する領域を推定する順番を決定する。言い換えると、情報抽出部207は、ルールテーブルに含まれるルールのうち、どのルールをどの順番で用いて抽出したい情報が記載されている領域を推定するかを判定する。
具体的には、ルールテーブルに含まれるルールのうち、どのルールを用いて領域を推定するか、および1つのルールにおいて、キーワードかバリューのどちらの条件を先に用いて領域を推定するかを判定する。
例えば、キーワードが記載されている領域よりも表記揺れが少なく文字列長が固定のバリューが記載されている領域の方が領域を推定しやすいため、精度よく高速に情報を抽出できる。このように、1つのルールにおいて、キーワードとバリューの取り得る値に基づいて、キーワードかバリューのどちらの条件を先に用いるかの順番を決定する。
また、例えば、字種が限定できる領域から文字認識処理を実行することで、精度よく高速に情報を抽出できる。このように、ルールテーブルに複数のルールが含まれる場合、キーワードとバリューの取り得る値に基づいて、どのルールから用いるかの順番を決定する。ステップS604の処理の詳細は、図9を用いて説明する。
図9は、ステップS604の処理の詳細を説明するためのフローチャートである。
ステップS901で、情報抽出部207は、ステップS603で取得したルールテーブルからルールを1つ選択する。ステップS902で、情報抽出部207は、選択したルールにおいてバリューの文字列長が固定であると設定されているかを判定する。バリューの文字列長が固定であると設定されている場合、処理はステップS904に進む。
ステップS904で、情報抽出部207は、ルールテーブルに含まれるルールのうち選択したルールを用いる優先順位を「高」に設定する。また、情報抽出部207は、当該選択したルールにおいて、バリューの条件を用いてバリューが記載されている領域を推定すると設定する。一方、ステップS902において、バリューの文字列長が固定であると設定されていない場合、処理はステップS903に進む。
ステップS903で、情報抽出部207は、選択したルールにおいてバリューの字種が限定されているかを判定する。すなわち、情報抽出部207は、選択したルールにおいてバリューの文字列が特定の字種のみで構成されているかを判定する。なお、ステップS901の後で、ステップS902を実行せずにステップS903に進んでもよい。同様に、ステップS902の後で、ステップS903を実行せずにステップS906に進んでもよい。
すなわち、領域を推定する順番を決定する際に、本実施形態では領域の推定しやすさをバリューの文字列が固定長か、およびバリューの字種が限定されているかにより判定しているが、これに限られるものではない。領域の推定しやすさは、キーワードまたはバリューの取り得る値に基づき判定され、どのような判定基準を用いてもよい。
バリューの字種が限定されている場合、処理はステップS905に進む。ステップS905で、情報抽出部207は、ルールテーブルに含まれるルールのうち選択したルールを用いる優先順位を「中」に設定し、当該選択したルールにおいて、バリューの条件を用いてバリューが記載されている領域を推定すると設定する。
一方、ステップS903において、バリューの字種が限定されていない場合、処理はステップS906に進む。ステップS906で、情報抽出部207は、ルールテーブルに含まれるルールのうち選択したルールを用いる優先順位を「低」に設定し、当該選択したルールにおいて、キーワードの条件を用いてキーワードが記載されている領域を推定すると設定する。なお、本実施形態では、ルールテーブルにおいて、領域の推定に用いるルールの優先度を高い順に「高」、「中」、「低」の3つに設定しているが、これに限られるものではない。
ステップS907で、情報抽出部207は、ステップS603で取得したルールテーブルに含まれるすべてのルールに対してステップS901〜S906の処理を実行したかを判定する。すべてのルールに対して処理を実行した場合、図9の処理すなわちステップS604の処理を終了し、処理はステップS605に進む。一方、すべてのルールに対して処理を実行していない場合、処理はステップS901に戻る。
図10は、ステップS604の処理が終了した時点のルールテーブルを示す図である。
図5に示したルールテーブルに対して、「ルール内推定順」および「テーブル内推定順」の情報が追加されている。「テーブル内推定順」が、ルールテーブルに含まれるルールのうち、どのルールを用いて抽出したい情報が記載されている領域を推定するかを表す情報である。
また、「ルール内推定順」が、ルールテーブルに含まれる1つのルールにおいて、キーワードかバリューのどちらの条件を用いて抽出したい情報が記載されている領域を推定するかを表す情報である。「テーブル内推定順」が同位のルールが複数ある場合は、推定する領域に記載されている文字数が少ない方のルールを優先する。推定する領域に記載されている文字数とは、1つのルールにおいて、「ルール内推定順」列の値がキーワードの場合は、「キーワード」列に含まれる各キーワードの最大文字数を指す。
また、「ルール内推定順」列の値がバリューの場合は、「バリュー文字列長」列の値から最大文字数を決定する。例えば、「バリュー文字列長」列の値が「10桁以下」の場合、最大文字数は10桁である。また、例えば、「バリュー文字列長」列の値が不定の場合、最大文字数は不定であり、どのような値もとり得るため、推定する領域に記載されている文字数は大きくなり得る。このため、当該ルールの優先順位は下がる。
なお、「テーブル内推定順」が同位のルールが複数ある場合のルールの優先順位は、上述した、推定する領域に記載されている文字数に応じて決める方法に限られるものではない。例えば、推定する領域に記載されている文字の字種が限定されている方のルールを優先してもよい。また、例えば、1つのルールに登録されたキーワードの個数が少ない方のルールを優先してもよい。これは、キーワードの個数が少ない方が文字認識処理の結果と一致するかを判断する際に、より高速に判断することができるためである。
図6の説明に戻る。ステップS605で、情報抽出部207は、ステップS604で決定した、ルールテーブルに含まれるルールを用いる優先順位に従って、当該ルールにより推定される領域のサイズを推定する。すなわち、ステップS605以降の処理は、ルールを用いる優先順位が高いルールから順に、ルールテーブルに含まれるすべてのルールに対して繰り返し実行される。
領域のサイズを推定するには、あらかじめ定められた文字のサイズの最大値および最小値と、文字間のマージンの最大値および最小値とを用いる。例えば、文字のサイズの最大値が25ピクセルであり、最小値が16ピクセルであって、マージンの最大値が15ピクセルであり、最小値が0ピクセルであるとあらかじめ定めておく。このとき、推定する領域の文字数が7であった場合、当該領域のサイズの最小値は、高さが16ピクセルであり、幅が112ピクセルであると推定される。
詳細には、7文字を横に並べた場合に、高さは1文字分の最小値である16ピクセルであり、幅は7文字分の最小値にマージンの最小値を6個分足した値である16×7+0×6=112である。同様に、当該領域のサイズの最大値は、高さが25ピクセルであり、幅が25×7+15×6=265ピクセルであると推定される。
なお、本実施形態では、文字が横方向に並んでいるものとして領域のサイズを推定するが、文字が縦に並んでいる場合についても別途領域のサイズを推定してもよい。また、例えば、ルールテーブルにおいて、バリューの文字列長を全角と半角の文字ごとに保存し、領域のサイズを推定する際に全角と半角とを区別してサイズを推定してもよい。この場合、全角と半角の文字それぞれに対してサイズの最大値および最小値をあらかじめ設定しておけばよい。
ステップS606で、情報抽出部207は、推定した領域のサイズを満たす領域をステップS602の領域解析処理の結果の中から特定する。具体的には、領域情報テーブル(図8)に保存されている矩形領域の幅および高さが、ステップS605で推定した領域のサイズの範囲に含まれる矩形領域を特定する。
例えば、図10のルールテーブルのルール3を用いて領域を推定する場合、推定される領域のサイズの最大値は、高さ25ピクセルであり、幅が265ピクセルである。また、推定される領域のサイズの最小値は、高さが18ピクセルであり、幅が112ピクセルである。このとき、領域情報テーブルに保存されている矩形領域のうち、ID2、ID3、およびID13の矩形領域が最大値および最小値の範囲に含まれる領域として特定される。
ステップS607で、情報抽出部207は、ステップS606で特定した領域に対して文字認識処理を実行する。このとき、先に定義したルールに基づいて字種を限定した文字認識処理を実行する。例えば、図10のルールテーブルのルール3を用いて領域を推定する場合、字種を0〜9の数字、「−」(ハイフン)、またはアルファベットの「A」、「B」、または「C」に限定した文字認識処理が実行されるため、文字認識処理の出力結果も限定される。
図11は、ステップS607で文字認識処理が実行された結果を保存した状態の領域情報テーブルを示す図である。
詳細には、図11は、ステップS607でID2の矩形領域に対して文字認識処理が実行された後の領域情報テーブルを示している。図8に示した領域情報テーブルに対して、ID2の矩形領域の「文字認識結果」列に値が追加されている。すなわち、ID2の領域に対して文字認識処理を実行した結果、「1234−C56」が抽出されたことを示している。
図6の説明に戻る。ステップS608で、情報抽出部207は、ステップS607で情報を抽出した領域の対になる領域を特定し、当該対になる領域に対して文字認識処理を実行する。対になる領域とは、ステップS607で情報を抽出した領域がバリューを記載した領域であれば、キーワードを記載した領域のことである。また、ステップS607で情報を抽出した領域がキーワードを記載した領域であれば、バリューを記載した領域のことである。
例えば、図10のルールテーブルのルール3を用いて領域を推定する場合、ルール内推定順が「バリュー」であることから、ステップS607で情報を抽出した領域はバリューが記載された領域である。ここで、ルール3には、キーワードが記載された領域から見て右に20ピクセルの位置にバリューが記載された領域が存在すると設定されている。
そこで、ステップS608で特定される「対になる領域」は、ステップS607で情報を抽出したバリューが記載された領域から見て左に20ピクセルに存在する領域である。図7および図8から、当該対になる領域は、ID1の矩形領域であると特定されるため、情報抽出部207は、ID1の矩形領域に対して文字認識処理を実行する。
図12は、ステップS608で文字認識処理が実行された結果を保存した状態の領域情報テーブルを示す図である。
詳細には、図12は、ステップS608でID1の矩形領域に対して文字認識処理が実行された後の領域情報テーブルを示している。図11に示した領域情報テーブルに対して、ID1の矩形領域の「文字認識結果」列に値が追加されている。すなわち、ID2の領域の対となる領域がID1の領域であり、当該ID1の領域に対して文字認識処理を実行した結果、「伝票番号」が抽出されたことを示している。
図6の説明に戻る。ステップS609で、情報抽出部207は、文字認識処理の結果が、ルールテーブルの該当するルールのキーワードと一致するかを判断する。例えば、図10のルールテーブルのルール3を用いて領域を推定する場合、キーワードは、「伝票番号」、「番号」、「帳票番号」、「Number」、または「File id」である。情報抽出部207は、ステップS608の文字認識処理の結果がこれらキーワードのいずれかと一致するかを判断する。
なお、ステップS604において、先にキーワードが記載されている領域を推定すると決定された場合、ステップS608の対になる領域の文字認識処理は実行せずにステップS609に進んでもよい。そして、ステップS609において、キーワードが一致すると判断した場合にのみステップS608を実行すればよい。すなわち、ステップS606で特定した領域が、キーワードが記載された領域でなかった場合、対になる領域はバリューが記載された領域ではないため、ステップS608の文字認識処理は不必要であり、省略できる。
また、情報抽出部207が文字認識処理の結果として複数の候補を出力する場合は、出力された複数の候補すべてに対して、キーワードとの一致を判断してもよい。また、文字認識処理では、画像上のノイズ等に影響されて余分な文字を出力する場合や、文字を誤認識する場合がある。
そこで、文字認識処理の結果とルールテーブルの該当するルールのキーワードとの一致を判断する際に、文字認識処理の結果の文字列にキーワードの文字列の5割が含まれていた場合に一致すると判断する等、一致するか否かの条件を緩めてもよい。
ステップS609において、情報抽出部207が文字認識処理の結果が、ルールテーブルの該当するルールのキーワードと一致すると判断した場合、領域情報テーブルおよび当該領域情報テーブルに保存された文字認識処理の結果を保存部202に保存する。一方、ステップS609において、情報抽出部207が文字認識処理の結果が、ルールテーブルの該当するルールのキーワードと一致しないと判断した場合、処理はステップS606に戻る。
そして、情報抽出部207は、ステップS605で推定した領域のサイズを満たす領域を、既にステップS606〜S609の処理の対象となった領域を除外し、ステップS602の領域解析処理の結果の中から特定する。
以上のように、本実施形態によれば、情報を抽出するためのキーワードとバリューの条件のうち、情報が記載されている領域であると推定しやすい領域から順に文字認識処理を実行する。これにより、非定型の情報を含む画像から、画像全体に対して文字認識処理を実行してキーワードが記載された領域を特定し、後にバリューの情報を抽出するよりも効率よく高速に情報を抽出することが可能となる。
なお、本実施形態では、情報が記載されている領域であると推定しやすい領域は、情報を抽出するためのキーワードとバリューの条件(ルール)において、字種および文字列長の条件に応じて決定した。しかし、情報が記載されている領域であると推定しやすいか否かの判断基準はこれに限られるものではなく、例えば、バリューを正規表現で表記できるか等を判断基準としてもよい。
図13は、スキャナで文書をスキャンして得られるスキャン画像のその他の一例である。
図1に示したスキャナ画像は、日本語で記述された文書をスキャンした場合ついて説明したが、図13のように、本発明は、英語で記述された文書の画像であってもよい。文書画像1301および文書画像1302は、それぞれ英語で記述された同一の項目の情報を含む。
例えば、伝票番号を示す情報(バリュー)が、文書画像1301では「INVOICE#」というキーワードの右横にある領域に記載されている。一方、文書画像1302では「NUMBER#」というキーワードの右横にある領域に伝票番号を示す情報が記載されている。また、「INVOICE#」および「NUMBER#」が記載されている位置は、それぞれの文書において異なる。
このような非定型の文書に対しても、上述したようにキーワードとバリューの条件に基づき、バリューが記載されている領域を特定し、当該特定された領域に対して文字認識処理を行うことで抽出できる。キーワードやバリューの条件は、図4に示したユーザインタフェースを用いて設定すればよい。また、図14に示すような他のユーザインタフェースを用いることも可能である。
図14は、ユーザがキーワードとバリューの条件を入力する際に使用するユーザインタフェースのその他の一例である。
図4に示したユーザインタフェースと同様に、ルール登録部206が表示部204を介して図14のユーザインタフェースを表示する。
ユーザは、当該ユーザインタフェースに、抽出する情報のキーワードとなる文字列と、抽出する情報すなわちバリューの条件を入力する。図14では、伝票番号を抽出する場合のキーワードとバリューの条件が入力された例を示している。伝票番号を示すキーワードには複数の表現があり、一例として「INVOICE#」、「NUMBER#」、「No.」、および「NO.」が設定されていることがわかる。
また、伝票番号の値、すなわちバリューの文字列長は固定(9文字)であり、字種は0〜9の数字、A〜Fのアルファベットに限定されていることがわかる。したがって、この例では、伝票番号を抽出する場合、キーワードからではなくバリューが記載されている領域を推定することで、高速に情報を抽出することができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。
100 複写機
200 情報処理装置
203 制御部
206 ルール登録部
207 情報抽出部

Claims (10)

  1. 画像に対して領域解析処理を実行することにより領域を抽出する抽出手段と、
    特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する取得手段と、
    前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する決定手段と、
    前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する特定手段と、
    前記特定された領域に対して文字認識処理を行う文字認識手段と、を備え、
    前記特定手段は、前記決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する、
    ことを特徴とする情報処理装置。
  2. 前記ルールが、前記キーワードに対応するバリューが固定長の文字列であることを含む場合、前記決定手段は、前記抽出された領域の中から、前記キーワードを含む領域を特定するよりも先に当該キーワードに対応するバリューを含む領域を特定することを決定する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記ルールが、前記キーワードに対応するバリューが特定の字種であることを含む場合、前記決定手段は、前記抽出された領域の中から、前記キーワードを含む領域を特定するよりも先に当該キーワードに対応するバリューを含む領域を特定することを決定する、
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記ルールが、前記キーワードに対応するバリューが特定の字種であることを含む場合、前記文字認識手段は、当該特定の字種に限定した文字認識処理を行う、
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記特定手段は、前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のサイズを推定し、前記抽出された領域の中から当該サイズを有する領域を、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域として決定する、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記決定手段は、前記ルールが複数ある場合、ルールを用いる順番を、各ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する、
    ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記特定手段は、前記ルールが複数ある場合、1つのルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する際に、既に他のルールを用いて前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域であると特定された領域は、前記抽出された領域の中から除外する、
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記ルールは、前記キーワードを含む領域と当該キーワードに対応するバリューを含む領域との配置に関する情報を含み、
    前記特定手段は、前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のうち先に特定した領域と、前記配置に関する情報とを用いて、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のうち後で特定する領域を特定する、
    ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. コンピュータを請求項1乃至8のいずれか1項に記載の情報処理装置として機能させることを特徴とするプログラム。
  10. 画像に対して領域解析処理を実行することにより領域を抽出する工程と、
    特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する工程と、
    前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する工程と、
    前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する工程と、
    前記特定された領域に対して文字認識処理を行う工程と、を有し、
    前記特定する工程では、前記決定された順番に従い、先に特定された領域が前記キーワードを含む領域の場合、当該キーワードに対応するバリューを含む領域を、前記キーワードを含む領域に基づきさらに特定し、
    前記先に特定された領域が前記キーワードに対応するバリューを含む領域の場合、前記キーワードを含む領域を、前記キーワードに対応するバリューを含む領域に基づきさらに特定する、
    ことを特徴とする情報処理装置の制御方法。
JP2017023558A 2017-02-10 2017-02-10 情報処理装置、制御方法、およびプログラム Active JP6878034B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017023558A JP6878034B2 (ja) 2017-02-10 2017-02-10 情報処理装置、制御方法、およびプログラム
US15/877,062 US10885325B2 (en) 2017-02-10 2018-01-22 Information processing apparatus, control method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017023558A JP6878034B2 (ja) 2017-02-10 2017-02-10 情報処理装置、制御方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2018128996A true JP2018128996A (ja) 2018-08-16
JP2018128996A5 JP2018128996A5 (ja) 2020-03-19
JP6878034B2 JP6878034B2 (ja) 2021-05-26

Family

ID=63104657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017023558A Active JP6878034B2 (ja) 2017-02-10 2017-02-10 情報処理装置、制御方法、およびプログラム

Country Status (2)

Country Link
US (1) US10885325B2 (ja)
JP (1) JP6878034B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444751A (zh) * 2019-01-17 2020-07-24 富士施乐株式会社 信息处理装置、储存介质及信息处理方法
JP2020154962A (ja) * 2019-03-22 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020160649A (ja) * 2019-03-26 2020-10-01 株式会社日立情報通信エンジニアリング 画像処理装置、画像処理方法及び画像処理プログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021033325A (ja) * 2019-08-13 2021-03-01 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US11113558B2 (en) 2019-01-22 2021-09-07 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction
US11481447B2 (en) 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium
US11995908B2 (en) 2020-03-23 2024-05-28 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416674B2 (en) * 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium
WO2020254924A1 (en) * 2019-06-16 2020-12-24 Way2Vat Ltd. Systems and methods for document image analysis with cardinal graph convolutional networks

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129793A (ja) * 2006-11-20 2008-06-05 Canon Inc 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
JP2016051339A (ja) * 2014-08-29 2016-04-11 日立オムロンターミナルソリューションズ株式会社 帳票認識装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0407935B1 (en) * 1989-07-10 1999-10-06 Hitachi, Ltd. Document data processing apparatus using image data
JP2009093305A (ja) 2007-10-05 2009-04-30 Hitachi Computer Peripherals Co Ltd 帳票認識装置
JP2010217996A (ja) 2009-03-13 2010-09-30 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法
US8687890B2 (en) * 2011-09-23 2014-04-01 Ancestry.Com Operations Inc. System and method for capturing relevant information from a printed document

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129793A (ja) * 2006-11-20 2008-06-05 Canon Inc 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
JP2016051339A (ja) * 2014-08-29 2016-04-11 日立オムロンターミナルソリューションズ株式会社 帳票認識装置及び方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11006015B2 (en) 2019-01-17 2021-05-11 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium storing information processing program
JP2020115260A (ja) * 2019-01-17 2020-07-30 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
CN111444751B (zh) * 2019-01-17 2024-01-05 富士胶片商业创新有限公司 信息处理装置、储存介质及信息处理方法
JP7302175B2 (ja) 2019-01-17 2023-07-04 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN111444751A (zh) * 2019-01-17 2020-07-24 富士施乐株式会社 信息处理装置、储存介质及信息处理方法
US11113558B2 (en) 2019-01-22 2021-09-07 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction
JP7272037B2 (ja) 2019-03-22 2023-05-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2020154962A (ja) * 2019-03-22 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020160649A (ja) * 2019-03-26 2020-10-01 株式会社日立情報通信エンジニアリング 画像処理装置、画像処理方法及び画像処理プログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7275816B2 (ja) 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2021033325A (ja) * 2019-08-13 2021-03-01 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
JP7408313B2 (ja) 2019-08-13 2024-01-05 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
US11481447B2 (en) 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US11995908B2 (en) 2020-03-23 2024-05-28 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Also Published As

Publication number Publication date
US10885325B2 (en) 2021-01-05
US20180232573A1 (en) 2018-08-16
JP6878034B2 (ja) 2021-05-26

Similar Documents

Publication Publication Date Title
JP6878034B2 (ja) 情報処理装置、制御方法、およびプログラム
US10437466B2 (en) Formula inputting method and apparatus
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
US20210075919A1 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP7387363B2 (ja) データ入力支援装置、データ入力支援方法及びプログラム
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
KR101598789B1 (ko) 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP2020184275A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2020087112A (ja) 帳票処理装置および帳票処理方法
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
US11972208B2 (en) Information processing device and information processing method
US11006015B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JP6503850B2 (ja) 範囲指定プログラム、範囲指定方法および範囲指定装置
JP2020099031A (ja) 情報処理装置、及び情報処理方法
JP7292984B2 (ja) 行分割装置および方法、ならびにプログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210428

R151 Written notification of patent or utility model registration

Ref document number: 6878034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151