JP2023018251A

JP2023018251A - 画像認識システム、画像認識方法、および画像認識プログラム

Info

Publication number: JP2023018251A
Application number: JP2021122231A
Authority: JP
Inventors: 福光齊藤; Fukumitsu Saito
Original assignee: Net Smile Inc
Current assignee: Net Smile Inc
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-02-08

Abstract

【課題】対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列を検出する。【解決手段】対象画像取得部２１は、対象画像を取得する。テキストオブジェクト検出部２２は、その対象画像におけるテキストオブジェクトを検出する。文字認識処理部２３は、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する。位置スコア導出部２５は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第２のスコアを導出する。特定属性テキスト検出部２６は、少なくとも第１のスコアおよび第２のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する。【選択図】図１

Description

本発明は、画像認識システム、画像認識方法、および画像認識プログラムに関するものである。

ある帳票識別システムでは、帳票フォーマットテーブルが予めユーザーにより作成されており、帳票フォーマットテーブルには、ユーザーにより指定された文字認識対象領域の位置、サイズ、文字種などを示すフィールド情報が含まれている。そして、この帳票フォーマット（つまり、フィールド情報）に基づいて、帳票画像の画像データから、帳票内の文字情報（テキストデータ）が取得されている（例えば特許文献１参照）。

ある画像認識装置は、対象画像から部分画像を切り出して、部分画像における文字および数字を認識し、その文字および数字から所定の条件を満たす文字および数字を抽出する抽出処理を実行している（例えば特許文献２参照）。抽出処理において、その画像認識装置は、例えば、認識した文字が、予め設定されている所定の銀行名を含むか否かを判定し、その文字が所定の銀行名を含む場合、その文字とその文字から所定距離内の数字を、銀行名および口座番号の対として抽出している。

特開２０１６－４８４４４号公報特開２０２０－１７０２６４号公報

しかしながら、上述の帳票識別システムでは、帳票などの書類のレイアウト（各属性が記述されている位置の情報など）を指定するテンプレートデータを使用するため、レイアウトの異なる複数の書類を処理するためには、レイアウトごとにテンプレートデータを予め作成しておかなければならず、事前に煩雑な作業が要求される。また、レイアウトが未知である書類については、上述の技術では、ある属性について書類画像内の属性値を正確に検出することは困難である。

また、上述の画像認識装置では、テンプレートデータは不要であるが、抽出すべき文字列（上述の銀行名）を予め設定しておく必要があり、設定されていない文字列については抽出されない。したがって、記載される可能性のある文字列のバリエーションが大量に存在する場合には、当該画像認識装置で、特定属性の文字列を検出することは困難である。

本発明は、上記の問題に鑑みてなされたものであり、対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列を検出する画像認識システム、画像認識方法、および画像認識プログラムを得ることを目的とする。

本発明に係る画像認識システムは、対象画像を取得する対象画像取得部と、その対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部と、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第２のスコアを導出する位置スコア導出部と、少なくとも第１のスコアおよび第２のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する特定属性テキスト検出部とを備える。

本発明に係る画像認識方法は、対象画像を取得するステップと、その対象画像におけるテキストオブジェクトを検出するステップと、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成するステップと、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するステップと、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第２のスコアを導出するステップと、少なくとも第１のスコアおよび第２のスコアに基づいて特定属性に該当するテキストオブジェクトを検出するステップとを備える。

本発明に係る画像認識プログラムは、コンピューターを、上述の対象画像取得部、テキストオブジェクト検出部、文字認識処理部、エンティティ検出部、位置スコア導出部、および特定属性テキスト検出部として機能させる。

本発明によれば、対象画像において、物体上で記載位置が固定的に規定されていない特定属性の文字列を検出する画像認識システム、画像認識方法、および画像認識プログラムが得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係る画像認識システムの構成を示すブロック図である。図２は、特定属性のテキストが記載された物体の一例としての領収書の対象画像を示す図である。図３は、図２に示す領収書において検出されるテキストオブジェクトの例を示す図である。図４は、検出確率分布および位置スコアの導出の一例について説明する図である。図５は、図３に示すテキストオブジェクトの１つについての、複数の特定属性のそれぞれについてのスコアの例を説明する図である。

以下、図に基づいて本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係る画像認識システムの構成を示すブロック図である。図１に示す画像認識システム１は、１台の情報処理装置（パーソナルコンピューター、サーバなど）で構成されているが、後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するＧＰＵ（Graphics Processing Unit）が含まれていてもよい。

図１に示す画像認識システム１は、記憶装置１１、通信装置１２、および演算処理装置１３を備える。

記憶装置１１は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。

ここでは、記憶装置１１には、画像認識プログラム１１ａが格納されており、また、システム設定データ（後述の各処理部に使用されるニューラルネットワークなどの学習器の係数設定値など）が必要に応じて格納される。なお、画像認識プログラム１１ａは、ＣＤ（Compact Disk）などの可搬性のあるコンピューター読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置１１へ画像認識プログラム１１ａがインストールされる。また、画像認識プログラム１１ａは、１つのプログラムでも、複数のプログラムの集合体でもよい。

通信装置１２は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。

通信装置１２は、撮影装置２やストレージ３などとの間でデータ通信を行う。撮影装置２は、イメージセンサーおよびレンズなどの光学系を備え、所定の視野の撮影画像（画像データ）を生成し出力する。ストレージ３は、撮影装置２により生成された撮影画像（画像データ）などを記憶しているストレージデバイス（周辺機器）、サーバー（ネットワーク機器）などである。

演算処理装置１３は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを備えるコンピューターであって、プログラムを、ＲＯＭ、記憶装置１１などからＲＡＭにロードしＣＰＵで実行することで、各種処理部として動作する。

ここでは、画像認識プログラム１１ａを実行することで、演算処理装置１３は、対象画像取得部２１、テキストオブジェクト検出部２２、文字認識処理部２３、エンティティ検出部２４、位置スコア導出部２５、特定属性テキスト検出部２６、アノテーション処理部３１、および機械学習処理部３２として動作する。

対象画像取得部２１は、対象画像（ラスターイメージデータなどの画像データ）を取得する。具体的には、対象画像取得部２１は、撮影装置２により生成された撮影画像を取得し、その撮影画像を対象画像としたり、その撮影画像に、必要に応じて画像処理（回転、ズーミング、トリミングなど）を施して対象画像としたりする。例えば、対象画像取得部２１は、撮影画像における特定物体の画像部分が正立状態となるように、撮影画像を回転させたり、撮影画像における特定物体の画像部分が所定範囲のサイズを有するようにズーミングやトリミングを行ったりする。

テキストオブジェクト検出部２２は、取得された対象画像におけるテキストオブジェクトを検出する。

具体的には、テキストオブジェクト検出部２２は、テンプレートデータを使用せずに、対象画像（ラスターイメージ）に含まれているテキストオブジェクトを検出し、そのテキストオブジェクトの画像部分（ラスターイメージ）を抽出したり、そのテキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成する。

また、その際、テキストオブジェクト検出部２２は、（ａ）対象画像内の文字以外のオブジェクト（写真オブジェクト、図形オブジェクト、罫線オブジェクトなど）を除外して文字オブジェクトを検出し、（ｂ）各文字オブジェクトの位置に基づいて、「単語」単位、行単位、文単位などにグルーピングしてテキストオブジェクトを抽出する。

なお、テキストオブジェクト検出部２２は、既存の技術（例えば、領域分離処理や、機械学習されたディープニューラルネットワークなど）を使用して、対象画像内の文字オブジェクトを抽出する。

図２は、特定属性のテキストが記載された物体の一例としての領収書の対象画像を示す図である。図３は、図２に示す領収書において検出されるテキストオブジェクトの例を示す図である。例えば図２に示す対象画像において、図３に示すように、破線の矩形形状のバウンディングボックス内部の画像（つまり、部分画像）が、テキストオブジェクト（の画像）として検出される。

図１に戻り、文字認識処理部２３は、検出されたテキストオブジェクト（ラスターイメージ）に対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータ（文字列を構成する各文字の文字コードのセット）を生成する。なお、この文字認識処理には、既存の技術が利用される。

エンティティ検出部２４は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコア（以下、クラスタースコアという）を導出する。なお、特定属性は、１または複数の属性項目（つまり、対象画像から検出すべき属性項目）として予め設定されている。

この実施の形態では、エンティティ検出部２４は、機械学習済みの分類器を使用して、特定属性ごとの第１のスコアを導出する。具体的には、この分類器は、（ａ）テキストデータの特徴ベクトルを導出し、（ｂ）特定属性のテキストデータの特徴ベクトルに対応するクラスターの中心からテキストデータの特徴ベクトルまでの距離（ユークリッド距離、マハラノビス距離、コサイン距離など）に基づいて第１のスコアを導出する。そして、そのクラスターは、機械学習で事前に得られている。

例えば、この特徴ベクトルは、ＵＳＥ（Universal Sentence Encoder）、Ｗｏｒｄ２ｖｅｃ（Ｓｋｉｐ－Ｇｒａｍモデル）などの既存の手法を使用して導出される。また、例えば、このクラスター（つまり、ベースクラスター）は、ＦＡＩＳＳ（Facebook AI Similarity Search）ライブラリーなどの既存の手法を使用して多くのサンプルから予め導出される。

位置スコア導出部２５は、対象画像におけるテキストオブジェクトの位置に基づいて、特定属性ごとの第２のスコア（以下、位置スコアという）を導出する。

この実施の形態では、位置スコア導出部２５は、特定属性ごとの、各位置での特定属性のテキストの検出確率分布に基づいて、対象画像におけるテキストオブジェクトの位置に対応する検出確率を位置スコアとして特定する。

図４は、検出確率分布および位置スコアの導出の一例について説明する図である。例えば図４に示すようなヒートマップなどとして、検出確率分布は、対象画像の基準位置（四隅のいずれか、中心など）からの各相対位置の検出確率を示しており、テキストオブジェクト１０１の領域内の画素位置の検出確率が特定され、その領域内の画素位置の検出確率の平均値が位置スコアとして導出される。なお、検出確率分布は、例えば、後述のアノテーション処理部３１によって予め生成される。

なお、位置スコア導出部２５は、機械学習済みの学習器（畳み込みディープニューラルネットワークなど）を使用して、対象画像におけるテキストオブジェクトの位置に対応する検出確率を位置スコアとして特定するようにしてもよい。

図１に戻り、特定属性テキスト検出部２６は、少なくともクラスタースコアおよび位置スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。

具体的には、特定属性テキスト検出部２６は、少なくともクラスタースコアおよび位置スコアから複合スコアを導出し、その複合スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。

つまり、テキスト自体の特徴を示すクラスタースコアと、テキスト位置の特徴を示す位置スコアとが個別的に導出され、それらのスコアを考慮した複合スコアで、各テキストオブジェクトが評価され、特定属性に該当するテキストオブジェクトが検出される。

この実施の形態では、特定属性テキスト検出部２６は、各テキストオブジェクトについて、（ａ）各特定属性についてのクラスタースコアおよび位置スコアに加えて、追加スコアを導出し、（ｂ）各特定属性について、クラスタースコア、位置スコア、および追加スコアから、所定の計算式で複合スコアを導出し、（ｃ）複合スコアに基づいて、対象画像内のテキストオブジェクトから、特定属性に該当するテキストオブジェクトを検出する。

追加スコアには、テキストオブジェクトまたはテキストデータが所定の条件を満たすとき、その条件に対応する定数（正値または負値）がセットされる。

例えば、テキストデータにおいて、数字以外の同じ文字が所定個数以上連続している場合、追加スコアとして、その連続個数に応じた負値がセットされる。その際、連続個数が大きいほど、小さい負値（つまり、絶対値の大きい負値）がセットされる。つまり、同じ文字が所定個数以上連続する場合には、文字認識処理での誤認識またはテキストオブジェクト検出での誤検出である可能性があるため、このように、追加スコアによって、複合スコアが調整される。

ある特定属性についてテキストオブジェクトが検出されなかった場合、別の特定属性についての追加スコアに、所定の負値がセットされる。つまり、対となる２つの特定属性のうちの１つが検出されなかった場合、残りの１つの特定属性についても、存在しない可能性が高いため、このように、追加スコアによって、複合スコアが調整される。

例えば、対象画像において、ある特定属性についての複合スコアが最大であるテキストオブジェクトが、当該特定属性に該当するテキストオブジェクトとして検出される。あるいは、例えば、対象画像において、ある特定属性についての複合スコアが所定閾値を超えるテキストオブジェクトが、当該特定属性に該当するテキストオブジェクトとして検出される。

図５は、図３に示すテキストオブジェクトの１つについての、複数の特定属性のそれぞれについてのスコアの例を説明する図である。例えば図５に示すように、１つのテキストオブジェクト１０１について、特定属性として、「発行先の名前」、「発行先の住所」、「発行元の名前」、「発行元の住所」、および「金額」が設定されている場合、「発行先の名前」および「発行元の名前」に対応する「名前」（つまり、テキストのカテゴリー）について、クラスタースコアが導出され、「発行先の住所」および「発行元の住所」に対応する「住所」（つまり、テキストのカテゴリー）について、クラスタースコアが導出され、「金額」について、クラスタースコアが導出される。そして、「名前」のクラスタースコアが、「発行元の名前」のクラスタースコアおよび「発行先の名前」のクラスタースコアとして使用される。また、「住所」のクラスタースコアが、「発行元の住所」のクラスタースコアおよび「発行先の住所」のクラスタースコアとして使用される。

つまり、特定属性が、ある上位属性に属しテキスト位置で区別される場合（例えば、特定属性「発行元の名前」，「発行先の名前」が、上位属性「名前」に属しテキスト位置で区別される場合）、クラスタースコアについての属性としては、その上位属性が使用されるようにしてもよい。

また、「発行先の名前」、「発行先の住所」、「発行元の名前」、「発行元の住所」、および「金額」のそれぞれについて位置スコアが導出されるとともに、追加スコアが導出される。

また、例えば、特定属性テキスト検出部２６は、次の計算式で複合スコアを導出する。

Ｓｃｏｍｂ＝ｆ（Ｓｃｌｕｓｔｅｒ，Ｓｐｏｓ，Ｓａｄｄ）＝（Ｓｃｌｕｓｔｅｒ＋Ｓｐｏｓ＾（１／Ａ１））／Ａ２＋Ｓａｄｄ

ここで、Ｓｃｏｍｂは複合スコアであり、Ｓｃｌｕｓｔｅｒはクラスタースコアであり、Ｓｐｏｓは位置スコアであり、Ｓａｄｄは追加スコアである。なお、＾はべき乗を表し、Ａ１，Ａ２は、定数である。また、定数Ａ１は、特定属性に応じて個別的に設定される定数である。つまり、定数Ａ１は、特定属性ごとに異なる値としてもよい。

なお、ある特定属性について、対象画像内のテキストオブジェクトの複合スコアの最大値が所定閾値未満である場合には、その特定属性のテキストオブジェクトが、対象画像内に存在しないと判定されるようにしてもよい。

図１に戻り、アノテーション処理部３１は、（ａ）対象画像の多くのサンプルから得られるテキストオブジェクトに対して、上述の特定属性を関連付けるユーザー操作を図示せぬ入力装置（マウス、キーボード、タッチパネルなど）で検出し、各特定属性についての、上述の検出確率分布を導出し、その検出確率分布データを記憶装置１１などに記憶するとともに、（ｂ）そのテキストオブジェクトと上述の特定属性とを互いに関連付けて教師データとして記憶装置１１などに記憶する。

具体的には、サンプルにおいてユーザーにより指定されたテキストオブジェクト内の各画素位置について、アノテーションでユーザーに指定された特定属性の検出回数がカウントされ、各画素位置についての、その特定属性の検出回数をサンプル数で除算することで、検出確率が導出され、すべての画素位置についての検出確率のセットが検出確率分布データとして記憶される。

機械学習処理部３２は、アノテーション処理部３１により生成された教師データを使用して、エンティティ検出部２４における分類器などの学習器の機械学習を行う機械学習処理を実行する。なお、機械学習処理部３２は、その学習器に対応する既存の方法で機械学習を実行する。

なお、アノテーション処理部３１および機械学習処理部３２は、必須のものではなく、必要に応じて設ければよい。例えば、上述の学習器の機械学習が完了している場合には、アノテーション処理部３１および機械学習処理部３２は、当該システム１に設けられていなくてもよい。

次に、本実施の形態に係る画像認識システム１の動作について説明する。

（ａ）アノテーションおよび機械学習

本実施の形態に係る画像認識システム１には、アノテーション処理部３１および機械学習処理部３２が設けられており、本実施の形態に係る画像認識システム１にアノテーションおよび機械学習が行われるが、他の装置でアノテーションおよび機械学習が行われ、その結果が、当該画像認識システム１に実装されてもよい。

この実施の形態では、多数の対象画像のサンプルについて、上述のように、アノテーション処理部３１によって、上述の検出確率分布および教師データが生成される。そして、その教師データに基づいて、エンティティ検出部２４における学習器（分類器）の機械学習が実行される。なお、この機械学習は、分類器の種別に対応する既存の手法で行われる。また、位置スコア導出部２５が学習器を使用して位置スコアを導出する場合には、サンプルにおけるテキストオブジェクトの位置およびサイズを入力データとし位置スコアを出力データとした教師データが、アノテーション処理部３１によってユーザー操作に基づいて生成され、その教師データに基づいて、位置スコア導出部２５の学習器の機械学習が、その学習器の種別に対応する既存の手法で行われる。

（ｂ）対象画像における特定属性テキストの検出

まず、対象画像取得部２１が、撮影装置２などから撮影画像を取得し、その撮影画像に対応する対象画像を得る。

次に、テキストオブジェクト検出部２２は、取得された対象画像における１または複数のテキストオブジェクトを検出する。

そして、文字認識処理部２３は、検出されたテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成し、エンティティ検出部２４は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとのクラスタースコアを導出する。

また、位置スコア導出部２５は、対象画像におけるテキストオブジェクトの位置に基づいて、特定属性ごとの位置スコアを導出する。

そして、特定属性テキスト検出部２６は、上述のようにして、少なくともクラスタースコアおよび位置スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。

以上のように、上記実施の形態によれば、対象画像取得部２１は、対象画像を取得する。テキストオブジェクト検出部２２は、その対象画像におけるテキストオブジェクトを検出する。文字認識処理部２３は、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する。位置スコア導出部２５は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第２のスコアを導出する。特定属性テキスト検出部２６は、少なくとも第１のスコアおよび第２のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する。

これにより、記載位置が固定的に規定されておらずテンプレートデータを使用できない対象画像であっても、各特定属性のテキスト記載位置にある程度の傾向があれば、対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列（つまり、ユーザーが検出したい属性のテキスト）が検出される。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態において、クラスタースコアの導出および位置スコアの導出は、並列に実行してもよいし、１つずつ順番に実行するようにしてもよい。

また、上記実施の形態において、種々の店舗で発行されるレイアウトの一定しないレシートの画像が対象画像とされてもよい。また、名刺の画像が対象画像とされ、名前、役職、会社名、電話番号、電子メールアドレスなどが特定属性とされるようにしてもよい。また、封書や荷物といった配送物の宛名が記載された部分の画像が対象画像とされ、送り主名称、送り主住所、送り主郵便番号、宛先名称、宛先住所、宛先郵便番号などが特定属性とされるようにしてもよい。

本発明は、例えば、テンプレートを使用せずに通信書面上の特定属性のテキストを検出する画像認識装置などに適用可能である。

１画像認識システム
１１ａ画像認識プログラム
２１対象画像取得部
２２テキストオブジェクト検出部
２３文字認識処理部
２４エンティティ検出部
２５位置スコア導出部
２６特定属性テキスト検出部

Claims

対象画像を取得する対象画像取得部と、
前記対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部と、
前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、
前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するエンティティ検出部と、
前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第２のスコアを導出する位置スコア導出部と、
少なくとも前記第１のスコアおよび前記第２のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出する特定属性テキスト検出部と、
を備えることを特徴とする画像認識システム。
前記エンティティ検出部は、機械学習済みの分類器を使用して、前記特定属性ごとの前記第１のスコアを導出することを特徴とする請求項１記載の画像認識システム。
前記分類器は、（ａ）前記テキストデータの特徴ベクトルを導出し、（ｂ）前記特定属性のテキストデータの特徴ベクトルに対応するクラスターの中心から前記テキストデータの特徴ベクトルまでの距離に基づいて前記第１のスコアを導出し、
前記クラスターは、前記機械学習で得られていること、
を特徴とする請求項２記載の画像認識システム。
前記位置スコア導出部は、前記特定属性ごとの、各位置での前記特定属性のテキストの検出確率分布に基づいて、前記対象画像における前記テキストオブジェクトの位置に対応する検出確率を前記第２のスコアとして特定することを特徴とする請求項１から請求項３のうちのいずれか１項記載の画像認識システム。
前記位置スコア導出部は、機械学習済みの学習器を使用して、前記対象画像における前記テキストオブジェクトの位置に対応する検出確率を前記第２のスコアとして特定することを特徴とする請求項１から請求項３のうちのいずれか１項記載の画像認識システム。
対象画像を取得するステップと、
前記対象画像におけるテキストオブジェクトを検出するステップと、
前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成するステップと、
前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するステップと、
前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第２のスコアを導出するステップと、
少なくとも前記第１のスコアおよび前記第２のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出するステップと、
を備えることを特徴とする画像認識方法。
コンピューターを、
対象画像を取得する対象画像取得部、
前記対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部、
前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部、
前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第１のスコアを導出するエンティティ検出部、
前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第２のスコアを導出する位置スコア導出部、および
少なくとも前記第１のスコアおよび前記第２のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出する特定属性テキスト検出部
として機能させる画像認識プログラム。