JP2022091608A

JP2022091608A - 情報処理装置、及び情報処理プログラム

Info

Publication number: JP2022091608A
Application number: JP2020204533A
Authority: JP
Inventors: 大祐辰巳; Daisuke Tatsumi; 学植田; Manabu Ueda; 茜阿部; Akane Abe; 惇安藤; Andojun
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-21
Also published as: US11699296B2; US20220180091A1

Abstract

【課題】本発明は、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。
【解決手段】プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。
【選択図】図２

Description

本発明は、情報処理装置、及び情報処理プログラムに関する。

特許文献１には、多種レイアウトが混在する帳票群を、帳票定義なしに、読取対象文字列の読み取りおよび当該文字列の属性の判定を行う帳票認識装置であって、前記帳票画像から文字列領域を検出する文字列検出部と、前記文字列領域の個々の文字を認識する文字列認識部と、帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、帳票画像内の文字列に対し、当該文字列が表記辞書に登録された単語や文字列の文法表記ルールに一致する確率を表す項目値尤度を計算する項目値尤度計算部と、帳票画像内の文字列ペアに対し、当該文字列ペアの文字列の枠または文字列矩形に基づいて、当該文字列ペアの配置関係が項目名－項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名－項目値としての尤もらしさを表す評価値を計算する項目名－項目値関係評価値計算部と、前記項目名－項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名－項目値関係の対応付けを決定する項目名－項目値関係決定部を有することを特徴とする技術が開示されている。

特許文献２には、帳票を処理する帳票処理装置のコンピュータを、画像読取装置で前記帳票を読み取らせて帳票画像を取得する画像読取手段、前記画像読取手段によって取得した帳票画像に文字認識処理を実行して文字列を認識する文字列認識手段、前記文字列認識手段によって認識された文字列のうち、同一行内に配置された文字列群から構成される同一行文字列群情報を取得する同一行文字列群情報取得手段、前記同一行文字列群情報取得手段によって取得された同一行文字列群情報毎に予め定められた特定文字列を含むか否かを判断する特定文字列判断手段、前記特定文字列判断手段によって前記特定文字列を含むと判断された同一行文字列群情報の近傍に、予め定められた特定画像が存在するか否かを判断する特定画像判断手段、前記特定画像判断手段によって前記特定画像が存在すると判断された場合、前記特定画像の前記近傍の同一行文字列群情報に含まれる項目文字列を前記帳票に記載された特定の内容項目として取得する内容項目取得手段、として機能させる技術が開示されている。

特許第５６２１１６９号公報特許第６６１６２６９号公報

書類等を読み取った画像に対して文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を実行することによって、画像に含まれている文字列を抽出する技術がある。文字認識処理によって画像から文字列を抽出する場合において、キーとして予め指定された文字列（以下、「キー文字列」という。）に対応するバリューとなる文字列（以下、「バリュー文字列」という。）を抽出するキーバリュー抽出を行うことがある。

文字認識処理によるキーバリュー抽出は、文字認識の実行結果に誤認識等が含まれ、実行結果からキー文字列が抽出できない場合、又はキー文字列が抽出できるものの、抽出したキー文字列の確信度が予め定められた基準よりも低い場合、当該キー文字列に対応するバリュー文字列が抽出できない。

本発明は、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。

第１の態様の情報処理装置は、プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。

第２の態様の情報処理装置は、第１の態様に係る情報処理装置において、プロセッサは、画像から文字列の画像を取得するための学習を行った学習モデルをさらに備え、学習モデルを用いて、対象画像からキー文字列に対応する画像を取得する。

第３の態様の情報処理装置は、第２の態様に係る情報処理装置において、プロセッサは、キー文字列に対応する画像を取得した対象画像を用いて、学習モデルを学習させる。

第４の態様の情報処理装置は、第１の態様から第３の態様の何れか１つの態様に係る情報処理装置において、キー文字列に対応する画像を取得した結果は、対象画像におけるキー文字列の位置を示す情報を含み、プロセッサは、キー文字列の位置を用いて、バリュー文字列を抽出する。

第５の態様の情報処理装置は、第４の態様に係る情報処理装置において、プロセッサは、キー文字列を基点としたバリュー文字列の位置を示す情報である位置情報をさらに取得し、キー文字列の位置を用いて、位置情報が示す対象画像上の位置におけるバリュー文字列を抽出する。

第６の態様の情報処理装置は、第１の態様から第５の態様の何れか１つの態様に係る情報処理装置において、プロセッサは、バリュー文字列に対する確からしさの度合を示す確信度をさらに導出し、確信度に応じて、抽出したバリュー文字列を出力する。

第７の態様の情報処理装置は、第６の態様に係る情報処理装置において、プロセッサは、予め記憶されたバリュー文字列を用いて、確信度を導出する。

第８の態様の情報処理プログラムは、コンピュータに、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。

第１の態様の情報処理装置、及び第８の態様の情報処理プログラムによれば、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる。

第２の態様の情報処理装置によれば、予め定められた画像を用いて、キー文字列に対応する画像を取得する場合と比較して、キー文字列に対応する画像を取得する精度がより向上する。

第３の態様の情報処理装置によれば、無作為に対象画像を学習させる場合と比較して、キー文字列に対応する画像を取得する精度がより向上する。

第４の態様の情報処理装置によれば、キー文字列の位置を基点として、キー文字列に対応するバリュー文字列を検索して抽出できる。

第５の態様の情報処理装置によれば、検索する方向が定められていない場合と比較して、バリュー文字列を抽出する精度がより向上する。

第６の態様の情報処理装置によれば、バリュー文字列が対象画像から正確に抽出できているか否かを判断できる。

第７の態様の情報処理装置によれば、文字列のパターンを用いて、バリュー文字列が正確に抽出できているか否かを判断する場合と比較して、対象画像から正確に抽出できているか否かをより精度よく判断できる。

本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。本実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。本実施形態に係る文字列の抽出を行う対象画像の一例を示す図である。本実施形態に係る位置情報データベースの一例を示す図である。本実施形態に係る抽出処理によるデータの流れの一例を示すデータフロー図である。本実施形態に係る文字列の訂正、及びキー文字列の指定の説明に供する確認訂正画面の一例を示す図である。本実施形態に係る文字列を抽出する抽出処理の流れの一例を示すフローチャート図である。

以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。

図１を参照して、情報処理装置１０の構成について説明する。図１は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示すブロック図である。一例として、本実施形態に係る情報処理装置１０は、パーソナルコンピュータ等の端末、又はサーバである形態について説明する。しかし、これに限定されない。情報処理装置１０は、画像形成装置等の他の装置に組み込まれていてもよい。

図１に示すように、本実施形態に係る情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ストレージ１４、入力部１５、モニタ１６、及び通信インターフェース（通信Ｉ／Ｆ）１７を含んで構成されている。ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、ストレージ１４、入力部１５、モニタ１６、及び通信Ｉ／Ｆ１７の各々は、バス１８により相互に接続されている。ここで、ＣＰＵ１１は、プロセッサの一例である。

ＣＰＵ１１は、情報処理装置１０の全体を統括し、制御する。ＲＯＭ１２は、本実施形態で用いる抽出処理プログラムを含む各種プログラム及びデータ等を記憶している。ＲＡＭ１３は、各種プログラムの実行時のワークエリアとして用いられるメモリである。ＣＰＵ１１は、ＲＯＭ１２に記憶されたプログラムをＲＡＭ１３に展開して実行することにより、文字列を抽出する処理を行う。ストレージ１４は、一例としてＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリ等である。なお、ストレージ１４には、抽出処理プログラム等を記憶してもよい。入力部１５は、文字の入力等を受け付けるマウス、及びキーボード等である。モニタ１６は、抽出した文字列等を表示する。通信Ｉ／Ｆ１７は、データの送受信を行う。

次に、図２を参照して、情報処理装置１０の機能構成について説明する。図２は、本実施形態に係る情報処理装置１０の機能的な構成の一例を示すブロック図である。

図２に示すように、情報処理装置１０は、取得部２１、認識部２２、検出部２３、抽出部２４、導出部２５、判定部２６、確認訂正部２７、出力部２８、記憶部２９、及び学習部３０を備えている。ＣＰＵ１１が情報処理プログラムを実行することで、取得部２１、認識部２２、検出部２３、抽出部２４、導出部２５、判定部２６、確認訂正部２７、出力部２８、記憶部２９、及び学習部３０として機能する。

取得部２１は、文字列を抽出する対象となる画像（以下、「対象画像」という。）３１を取得する。なお、本実施形態に係る対象画像３１は、図３に示すように、記載する項目、及び項目に対してユーザによって記載又は入力された文字列を含む書類の画像である形態について説明する。しかし、これに限定されない。対象画像３１は、罫線等で区切られた帳票又は伝票の画像であってもよいし、機械的に印字された領収書等であってもよいし、文字列が含まれている書類の画像であれば、如何なる画像であってもよい。

認識部２２は、文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｏｒＲｅｃｏｇｎｉｔｉｏｎ）処理を用いて、対象画像３１から書類に含まれている文字列、及び対象画像３１における文字列の位置（座標）等を取得し、認識結果として出力する。

検出部２３は、物体検知処理を用いて、対象画像３１から指定された文字列に対応する画像の領域の位置を検出する。具体的には、検出部２３は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）及びＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）等の指定された文字列を検出するための機械学習を行った学習モデルである。検出部２３は、対象画像３１から指定された文字列に対応する画像の領域を検出し、指定された文字列、及び対象画像３１における指定された文字列に対応する画像の領域の位置（座標）等を取得して、検出結果として出力する。

なお、本実施形態では、機械学習を用いた学習モデルによって、対象画像３１から指定された文字列に対応する画像の領域を検出する形態について説明した。しかし、これに限定されない。パターンマッチング処理を用いて、対象画像３１から指定された文字列に対応する画像の領域の位置を検出してもよい。例えば、指定された文字列に対応する各々の画像を予め記憶し、形状検出、及びテンプレートマッチング等のパターンマッチング処理によって、指定された文字列に対応する画像を用いて、対象画像３１から指定された文字列に対応する画像の領域を検出してもよい。

抽出部２４は、認識部２２によって実行された文字認識処理の結果、又は検出部２３によって実行された検出処理の結果を用いて、対象画像３１から文字列を抽出する。なお、本実施形態では、キーバリュー抽出を用いて、対象画像３１から文字列を抽出する形態について説明する。ここで、キーバリュー抽出とは、抽出の基点となる予め定められた文字列であるキーと、キーに対応する文字列であるバリューと、の組み合わせを抽出する処理である。

抽出部２４は、文字認識処理の結果、又は検出処理の結果から、指定されたキーとなる文字列（以下、「キー文字列」という。）を検索し、キー文字列の位置を取得する。抽出部２４は、取得した位置を用いて、キー文字列に対応するバリューとなる文字列（以下、「バリュー文字列」という。）を文字認識処理の結果から抽出する。具体的には、抽出部２４は、キー文字列の近傍に位置する文字列をバリュー文字列として抽出する。ここで、近傍に位置する文字列とは、例えば、キー文字列の位置から予め定められた距離に位置する文字列、又はキー文字列の位置から最も短い距離に位置する文字列である。例えば、図３に示す「氏名」がキー文字列として指定された場合、抽出部２４は、「富士太郎」をバリュー文字列として抽出する。

なお、本実施形態では、キー文字列の近傍に位置する文字列をバリュー文字列として抽出する形態について説明した。しかし、これに限定されない。キー文字列を基点として予め定められた方向に位置する文字列をバリュー文字列として抽出してもよい。例えば、後述する記憶部２９は、図４に示すように、キー名と、位置情報と、を関連付けて記憶する位置情報データベース（以下、「位置情報ＤＢ」という。）３２を記憶していてもよい。キー名は、対象画像３１における書類に記載されているキー文字列の名称であり、位置情報は、各々のキー文字列を基点として、対応するバリュー文字列が位置する方向を示す情報である。一例として図４に示す「申込日」の位置情報「Ｋ－右－Ｖ」は、対象画像３１において、キー文字列「申込日」の右側にバリュー文字列である「ＸＸ年ＸＸ月ＸＸ日」が位置することを表している。つまり、抽出部２４は、キー文字列の位置を基点にして、位置情報ＤＢ３２の位置情報が示す方向に位置する文字列をバリュー文字列として抽出してもよい。

導出部２５は、抽出部２４によって抽出されたキー文字列、及びバリュー文字列の確からしさを示す度合（以下、「確信度」という。）を導出する。例えば、後述する記憶部２９に予め記憶されたキー文字列、及びバリュー文字列から類似する文字列を参照して、対象画像３１から抽出したキー文字列、及びバリュー文字列の確信度を導出することが可能である。例えば、導出部２５は、抽出したキー文字列及びバリュー文字列と、記憶部２９に記憶されているキー文字列及びバリュー文字列と、のレーベンシュタイン距離を導出する。導出部２５は、最も小さいレーベンシュタイン距離に係るキー文字列及びバリュー文字列と、抽出したキー文字列及びバリュー文字列と、の類似の度合から確信度を導出する。ここで、レーベンシュタイン距離とは、任意の文字列を他の文字列に変更する際に、文字の入れ替え、追加、及び削除した回数を計数して導出される距離である。

判定部２６は、対象画像３１からキー文字列が抽出できたか否かを判定する。具体的には、判定部２６は、確信度が予め定められた閾値より小さい場合、又はキー文字列が抽出できていなかった場合、判定部２６は、対象画像３１からキー文字列が抽出できていないと判定する。

確認訂正部２７は、対象画像３１から抽出したキー文字列、バリュー文字列、及び対象画像３１におけるキー文字列の位置を表示して、キー文字列の位置の訂正を受け付ける。

出力部２８は、対象画像３１から抽出したキー文字列、及びバリュー文字列を出力する。

記憶部２９は、対象画像３１から抽出したキー文字列、及びバリュー文字列を記憶する。記憶部２９は、対象画像３１、及び対象画像３１におけるキー文字列の位置を関連付けて記憶する。また、記憶部２９は、上述したキー文字列に対応する画像、位置情報ＤＢ３２、及び過去に抽出されたキー文字列、及びバリュー文字列を記憶している。

学習部３０は、検出部２３に対して、対象画像３１を用いて、キー文字列、及びキー文字列の位置の学習を行う。なお、学習部３０は、対象画像３１、及びキー文字列を入力データとし、キー文字列の位置を教師データとして、検出部２３に学習させる。

次に、情報処理装置１０の作用について説明する前に、図５を参照して、本実施形態に係るキー文字列、及びバリュー文字列を抽出する手法について説明する。図５は、本実施形態に係るキー文字列、及びバリュー文字列を抽出する処理の流れの一例を示すデータフロー図である。

取得部２１は、対象画像３１を取得し、認識部２２に入力する。

認識部２２は、取得した対象画像３１に対して文字認識処理を実行し、対象画像３１に含まれている文字を認識した認識結果３３を出力する。ここで、認識結果３３には、対象画像３１から認識した文字列、及び対象画像における文字列の位置（座標）を含む。なお、本実施形態では、認識部２２において対象画像３１に含まれる文字列を認識する形態について説明したが、認識部２２において対象画像３１を解析して書類の種別を識別して、認識結果として出力してもよい。例えば、解析として、特定の文字列、及び罫線等の位置を認識し、予め記憶しておいた書類の特徴と比較して書類の種類を識別してもよいし、対象画像３１に含まれている書類を識別するための識別子を認識して、書類の種類を識別してもよい。書類の種類を識別させることによって、書類毎に書類に含まれるキー文字列が特定される。つまり、認識部２２は、書類の種類を識別して、抽出するキー文字列を特定してもよい。

抽出部２４は、認識部２２が出力した認識結果３３から予め定められたキー文字列を検索してキー文字列に係る位置を取得する。抽出部２４は、キー文字列の位置を用いて、対応するバリュー文字列を特定して、キー文字列、及びバリュー文字列を関連付けて、抽出結果として出力する。

導出部２５は、抽出部２４が出力した抽出結果３４を用いて、キー文字列、及びバリュー文字列に対する確信度を導出する。

判定部２６は、抽出部２４が出力した抽出結果３４、及び導出された確信度を用いて、キー文字列が抽出され、かつキー文字列の確信度が予め定められた閾値より大きいか否かの判定を行う。判定部２６は、キー文字列が抽出されていない場合、又はキー文字列の確信度が予め定められた閾値以下である場合、キー文字列が抽出できていないと判定して、検出部２３に対象画像３１からキー文字列を抽出する処理を実行する指示を出力する。

検出部２３は、判定部２６によってキー文字列が抽出できていないと判定された場合、抽出できていないキー文字列を指定して、機械学習を行った学習モデルを用いて対象画像３１からキー文字列に対応する画像の領域を検出する。検出部２３は、キー文字列に対応する画像の領域が検出できた場合、検出結果３５として、指定されたキー文字列、及びキー文字列に対応する画像の領域の位置を出力する。ここで、キー文字列に対応する画像の領域が検出できなかった場合、情報処理装置１０は、次のキー文字列の抽出を行ってもよいし、キー文字列が抽出できなかった旨、及びキー文字列に対応する画像の領域が検出できなかった旨を通知してもよい。

また、本実施形態に係る「キー文字列に対応する画像の領域を検出する」とは、キー文字列に相応する文字列が記載された画像の領域を検出することを示す。例えば、キー文字列が「住所」であった場合、検出部２３は、「住所」に相応する「おところ」、「居所」、及び「所在地」等の文字列が記載された画像の領域を対象画像３１から検出する。なお、本実施形態に係る検出部２３は、キー文字列に相応する文字列の画像の領域を検出する形態について説明した。しかし、これに限定されない。括弧書き、下線、及び囲み等が付された当該文字列の画像の領域を検出してもよいし、強調表示を行う網掛け、ハイライト、及び黒抜き等の加工がされている当該文字列の画像の領域を検出してもよい。また、検出器２３は、キー文字列に相応する当該文字列、又は括弧書き、下線、囲み、網掛け、ハイライト、及び黒抜き等が施された当該文字列の画像を学習して、キー文字列に対応する画像の領域を検出してもよい。

抽出部２４は、検出結果３５におけるキー文字列の位置を用いて、キー文字列に対応するバリュー文字列を特定して、キー文字列、及びバリュー文字列を関連付けて、抽出結果３４として出力する。

確認訂正部２７は、予め定められたキー文字列の抽出が終了した場合、対象画像３１、キー文字列、及びキー文字列の位置を表示して、ユーザによるキー文字列の位置の訂正を受け付ける。

一例として、図６に示すように、確認訂正部２７は、確認訂正画面４０を表示する。確認訂正画面４０は、指定文字列表示領域４１、及び対象画像表示領域４２を備えている。確認訂正部２７は、抽出部２４が抽出したキー文字列及びバリュー文字列を抽出文字列として指定文字列表示領域４１に表示し、認識結果３３及び検出結果３５から取得したキー文字列の位置を対象画像表示領域４２における対象画像３１にハイライトで表示する。

また、確認訂正画面４０は、指定文字列表示領域４１に表示されている抽出文字列が選択された後、対象画像表示領域４２における抽出文字列に対応する位置を指定されることによって、キー文字列、及び対象画像３１におけるキー文字列の位置の訂正を受け付ける。例えば、指定文字列表示領域４１において「申込日」が選択された後、対象画像表示領域４２において、ユーザによって指定された「申込日」が記載されている領域をハイライトすることによって、キー文字列、及びキー文字列の位置の対応が行われたことを示す。この際に、指定文字列表示領域４１の「申込日」における色彩欄、及び対象画像表示領域４２における「申込日」が記載された領域には、同一の色彩のハイライトが表示される。

確認訂正部２７は、対象画像３１、キー文字列、バリュー文字列、及び対象画像３１におけるキー文字列の位置を記憶部２９に入力し、キー文字列、バリュー文字列を出力部２８に入力する。

出力部２８は、確認訂正部２７から入力されたキー文字列、及びバリュー文字列を出力する。

記憶部２９は、確認訂正部２７から入力された対象画像３１、キー文字列、バリュー文字列、及びユーザに指定された対象画像３１におけるキー文字列の位置を記憶する。

学習部３０は、記憶部２９に記憶されている対象画像３１を用いて、キー文字列、及び対象画像３１におけるキー文字列の位置を検出部２３に学習させる。ここで、学習部３０は、抽出部２４によってキー文字列が抽出できなかった対象画像３１、及びキー文字列が抽出できたもののキー文字列に対する確信度が閾値より小さかった対象画像３１を検出部２３に学習させる。言い換えると、学習部３０は、検出部２３によって検出処理が実行された対象画像３１と、当該対象画像３１に係るキー文字列と、当該対象画像３１に係るキー文字列の位置と、を検出部２３に学習させる。これにより、文字認識処理の精度が低くなる対象画像３１を検出部２３に学習させることが可能である。なお、検出部２３の学習は、学習する対象画像３１を取得する度に実行してもよいし、対象画像３１が予め定められた数を超えた場合、又は予め定められた時刻となった場合、実行してもよい。

次に、図７を参照して、本実施形態に係る情報処理装置１０の作用について説明する。図７は、本実施形態に係る文字列を抽出する抽出処理の一例を示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から抽出処理プログラムを読み出し、実行することによって、図７に示す抽出処理プログラムが実行される。図７に示す抽出処理プログラムは、例えば、ユーザから対象画像３１、及び抽出処理を実行する指示が入力された場合、抽出処理プログラムが実行される。

ステップＳ１０１において、ＣＰＵ１１は、ユーザによって入力された対象画像３１を取得する。

ステップＳ１０２において、ＣＰＵ１１は、入力された対象画像３１に対して文字認識処理を実行して、文字列、及び文字列の位置を認識結果３３として出力する。

ステップＳ１０３において、ＣＰＵ１１は、抽出対象として、指定されたキー文字列を取得する。

ステップＳ１０４において、ＣＰＵ１１は、認識結果３３から指定されたキー文字列を検索して抽出し、抽出したキー文字列、及びキー文字列の位置を抽出結果３４として出力する。

ステップＳ１０５において、ＣＰＵ１１は、抽出結果３４を用いて、指定されたキー文字列が抽出できているか否かの判定を行う。キー文字列が抽出できている場合（ステップＳ１０５：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０６に移行する。一方、キー文字列が抽出できない場合（ステップＳ１０５：ＮＯ）、ＣＰＵ１１は、ステップＳ１０８に移行する。

ステップＳ１０６において、ＣＰＵ１１は、抽出結果３４を用いて、抽出したキー文字列の確信度を導出する。

ステップＳ１０７において、ＣＰＵ１１は、導出した確信度が予め定められた閾値より大きいか否かの判定を行う。導出した確信度が予め定められた閾値より大きい場合（ステップＳ１０７：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１１０に移行する。一方、導出した確信度が予め定められた閾値以下である場合（ステップＳ１０７：ＮＯ）、ＣＰＵ１１は、ステップＳ１０８に移行する。

ステップＳ１０８において、ＣＰＵ１１は、対象画像３１に対して、指定されたキー文字列に対応する画像の領域を検出する検出処理を実行して、キー文字列、及びキー文字列の位置を検出結果３５として出力する。

ステップＳ１０９において、ＣＰＵ１１は、キー文字列に対応する画像の領域が検出できているか否かの判定を行う。キー文字列に対応する画像の領域が抽出できている場合（ステップＳ１０９：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１１０に移行する。一方、キー文字列に対応する画像の領域が検出できていない場合（ステップＳ１０９：ＮＯ）、ＣＰＵ１１は、ステップＳ１１２に移行する。

ステップＳ１１０において、ＣＰＵ１１は、認識結果３３、又は検出結果３５に係るキー文字列の位置を用いて、認識結果３３からキー文字列に対応するバリュー文字列を抽出する。

ステップＳ１１１において、ＣＰＵ１１は、キー文字列、及びバリュー文字列を関連付けて、抽出結果３４に出力する。

ステップＳ１１２において、ＣＰＵ１１は、抽出対象である、指定されたキー文字列に対して、「検出不可」を設定する。

ステップＳ１１３において、ＣＰＵ１１は、次の抽出対象であるキー文字列が存在するか否かの判定を行う。次の抽出対象が存在する場合（ステップＳ１１３：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０３に移行する。一方、次の抽出対象が存在しない場合（ステップＳ１１３：ＮＯ）、ＣＰＵ１１は、ステップＳ１１４に移行する。

ステップＳ１１４において、ＣＰＵ１１は、確認訂正画面を表示して、ユーザによるキー文字列の位置の訂正を受け付ける。ここで、ＣＰＵ１１は、指定されたキー文字列に対して、「検出不可」が設定されている場合、対象画像３１から当該指定されたキー文字列の抽出、及びキー文字列に対応する画像の領域の検出ができなかった旨を確認訂正画面に表示して通知する。

ステップＳ１１５において、ＣＰＵ１１は、対象画像３１、キー文字列、バリュー文字列、及びキー文字列の位置を関連付けて記憶する。ここで、記憶された対象画像３１が、検出処理が実行された対象画像３１である場合、関連付けて記憶された対象画像３１、キー文字列、及び指定されたキー文字列の位置の学習を実行する。

ステップＳ１１６において、ＣＰＵ１１は、抽出結果３４を用いて、キー文字列、及びバリュー文字列を出力する。

以上説明したように、本実施形態によれば、文字認識処理によってキー文字列が抽出できない場合、又はキー文字列が抽出できたものの確信度が予め定められた閾値以下である場合、検出処理によって、指定されたキー文字列の検出が実行される。したがって、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列が検出され、キー文字列に対応するバリュー文字列が抽出される。

なお、本実施形態では、キー文字列として、書類に含まれる文字列を抽出して出力する形態について説明した。しかし、これに限定されない。キー文字列として、書類に含まれる文字列の属性を抽出してもよい。例えば、図３に示す書類において「申込日」を抽出した場合、「申込日」が属する属性である「年月日」をキー文字列として抽出し、バリュー文字列である「ＸＸ年ＸＸ月ＸＸ日」を関連付けて出力してもよい。また、属性「年月日」、キー文字列「申込日」、及びバリュー文字列「ＸＸ年ＸＸ月ＸＸ日」として、関連付けて出力してもよい。

また、本実施形態に係るキー文字列は、書類の種類からキー文字列を特定する形態について説明した。しかし、これに限定されない。ユーザからキー文字列を受け付けてもよい。また、本実施形態では、書類に含まれているキー文字列が指定され、抽出する形態について説明した。しかし、これに限定されない。属性が指定されてもよい。例えば、ユーザによって属性が指定され、指定された属性に属するキー文字列、及びバリュー文字列を抽出してもよい。

また、本実施形態では、抽出処理によって、指定されたキー文字列が抽出できなかった場合、検出処理を実行する形態について説明した。しかし、これに限定されない。検出処理によって、キー文字列が検出できなかった場合、抽出処理によってキー文字列を抽出してもよいし、学習モデルによる検出処理によって検出できなかった場合、さらにパターンマッチング処理による検出処理によってキー文字列を検出してもよい。

また、本実施形態では、検出処理によって、キー文字列を検出する形態について説明した。しかし、これに限定されない。バリュー文字列を検出してもよい。

また、本実施形態では、確認訂正画面４０において、キー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。抽出したキー文字列、及びバリュー文字列の訂正を受け付けてもよい。また、抽出したキー文字列、及びバリュー文字列の訂正を受け付ける場合、抽出したキー文字列、及びバリュー文字列を一律に表示して訂正を受け付けてもよい。また、キー文字列、又はバリュー文字列の確信度が予め定められた閾値より小さい場合、確信度が予め定められた閾値より小さいキー文字列及びバリュー文字列を表示してもよい。

また、本実施形態では、確認訂正画面４０において、認識結果３３及び検出結果３５から取得したキー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像３１におけるキー文字列の位置の指定を受け付けてもよい。

また、本実施形態では、確認訂正を行う際に、キー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像３１を情報処理装置１０に入力した際に、キー文字列の位置の指定を受け付けてもよいし、キー文字列、及びバリュー文字列を出力した後の任意の契機に、記憶部２９に記憶されている対象画像３１を表示して、キー文字列の位置の訂正を受け付けてもよい。

また、本実施形態では、確認訂正画面４０においてキー文字列、及びバリュー文字列の修正を受け付ける形態について説明した。しかし、これに限定されない。記憶部２９に記憶されているバリュー文字列を用いて、抽出したバリュー文字列を修正してもよい。また、記憶部２９は、複数のバリュー文字列を関連付けて記憶し、抽出したバリュー文字列に対応する他のバリュー文字列を記憶部２９から検索して提示してもよい。例えば、記憶部２９は、「氏名」のバリュー文字列と、「住所」のバリュー文字列と、を関連付けて、予め記憶する。「氏名」のバリュー文字列を抽出した場合、「氏名」のバリュー文字列に対応する「住所」のバリュー文字列を記憶部２９から取得して、修正候補として提示してもよい。

以上、各実施形態を用いて本発明について説明したが、本発明は各実施形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で各実施形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。

なお上記実施形態において、プロセッサとは広義的なプロセッサを指し、例えば汎用的なプロセッサ（例えば、ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や、専用のプロセッサ（例えば、ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

また、本実施形態では、情報処理プログラムがストレージ１４にインストールされている形態を説明したが、これに限定されるものではない。本実施形態に係る情報処理プログラムを、コンピュータ読取可能な記憶媒体に記録した形態で提供してもよい。例えば、本発明に係る情報処理プログラムを、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等の光ディスクに記録した形態で提供してもよい。本発明に係る情報処理プログラムを、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ及びメモリカード等の半導体メモリに記録した形態で提供してもよい。また、本実施形態に係る情報処理プログラムを、通信Ｉ／Ｆ１７に接続された通信回線を介して外部装置から取得するようにしてもよい。

１０情報処理装置
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４ストレージ
１５入力部
１６モニタ
１７通信インターフェース
１８バス
２１取得部
２２認識部
２３検出部
２４抽出部
２５導出部
２６判定部
２７確認訂正部
２８出力部
２９記憶部
３０学習部
３１対象画像
３２位置情報データベース
３３認識結果
３４抽出結果
３５検出結果
４０確認訂正画面
４１指定文字列表示領域
４２対象画像表示領域

Claims

プロセッサを有し、前記プロセッサは、
文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、前記対象画像から前記キー文字列に対応する画像を取得し、
前記キー文字列に対応する画像を取得した結果を用いて、前記文字認識の実行結果から、前記キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、
抽出した前記キー文字列、及び対応する前記バリュー文字列を出力する
情報処理装置。
前記プロセッサは、
画像から文字列の画像を取得するための学習を行った学習モデルをさらに備え、
前記学習モデルを用いて、前記対象画像から前記キー文字列に対応する画像を取得する
請求項１に記載の情報処理装置。
前記プロセッサは、
前記キー文字列に対応する画像を取得した前記対象画像を用いて、前記学習モデルを学習させる
請求項２に記載の情報処理装置。
前記キー文字列に対応する画像を取得した結果は、前記対象画像における前記キー文字列の位置を示す情報を含み、
前記プロセッサは、前記キー文字列の位置を用いて、前記バリュー文字列を抽出する
請求項１から請求項３の何れか１項に記載の情報処理装置。
前記プロセッサは、
前記キー文字列を基点とした前記バリュー文字列の位置を示す情報である位置情報をさらに取得し、
前記キー文字列の位置を用いて、前記位置情報が示す前記対象画像上の位置における前記バリュー文字列を抽出する
請求項４に記載の情報処理装置。
前記プロセッサは、
前記バリュー文字列に対する確からしさの度合を示す確信度をさらに導出し、
前記確信度に応じて、抽出した前記バリュー文字列を出力する
請求項１から請求項５の何れか１項に記載の情報処理装置。
前記プロセッサは、
予め記憶された前記バリュー文字列を用いて、前記確信度を導出する
請求項６に記載の情報処理装置。
コンピュータに、
文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、前記対象画像から前記キー文字列に対応する画像を取得し、
前記キー文字列に対応する画像を取得した結果を用いて、前記文字認識の実行結果から、前記キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、
抽出した前記キー文字列、及び対応する前記バリュー文字列を出力する
ことを実行させるための情報処理プログラム。