JP2023018251A - 画像認識システム、画像認識方法、および画像認識プログラム - Google Patents

画像認識システム、画像認識方法、および画像認識プログラム Download PDF

Info

Publication number
JP2023018251A
JP2023018251A JP2021122231A JP2021122231A JP2023018251A JP 2023018251 A JP2023018251 A JP 2023018251A JP 2021122231 A JP2021122231 A JP 2021122231A JP 2021122231 A JP2021122231 A JP 2021122231A JP 2023018251 A JP2023018251 A JP 2023018251A
Authority
JP
Japan
Prior art keywords
score
text
target image
text object
specific attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021122231A
Other languages
English (en)
Inventor
福光 齊藤
Fukumitsu Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Net Smile Inc
Original Assignee
Net Smile Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Net Smile Inc filed Critical Net Smile Inc
Priority to JP2021122231A priority Critical patent/JP2023018251A/ja
Publication of JP2023018251A publication Critical patent/JP2023018251A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列を検出する。【解決手段】対象画像取得部21は、対象画像を取得する。テキストオブジェクト検出部22は、その対象画像におけるテキストオブジェクトを検出する。文字認識処理部23は、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する。位置スコア導出部25は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第2のスコアを導出する。特定属性テキスト検出部26は、少なくとも第1のスコアおよび第2のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する。【選択図】 図1

Description

本発明は、画像認識システム、画像認識方法、および画像認識プログラムに関するものである。
ある帳票識別システムでは、帳票フォーマットテーブルが予めユーザーにより作成されており、帳票フォーマットテーブルには、ユーザーにより指定された文字認識対象領域の位置、サイズ、文字種などを示すフィールド情報が含まれている。そして、この帳票フォーマット(つまり、フィールド情報)に基づいて、帳票画像の画像データから、帳票内の文字情報(テキストデータ)が取得されている(例えば特許文献1参照)。
ある画像認識装置は、対象画像から部分画像を切り出して、部分画像における文字および数字を認識し、 その文字および数字から所定の条件を満たす文字および数字を抽出する抽出処理を実行している(例えば特許文献2参照)。抽出処理において、その画像認識装置は、例えば、認識した文字が、予め設定されている所定の銀行名を含むか否かを判定し、その文字が所定の銀行名を含む場合、その文字とその文字から所定距離内の数字を、銀行名および口座番号の対として抽出している。
特開2016-48444号公報 特開2020-170264号公報
しかしながら、上述の帳票識別システムでは、帳票などの書類のレイアウト(各属性が記述されている位置の情報など)を指定するテンプレートデータを使用するため、レイアウトの異なる複数の書類を処理するためには、レイアウトごとにテンプレートデータを予め作成しておかなければならず、事前に煩雑な作業が要求される。また、レイアウトが未知である書類については、上述の技術では、ある属性について書類画像内の属性値を正確に検出することは困難である。
また、上述の画像認識装置では、テンプレートデータは不要であるが、抽出すべき文字列(上述の銀行名)を予め設定しておく必要があり、設定されていない文字列については抽出されない。したがって、記載される可能性のある文字列のバリエーションが大量に存在する場合には、当該画像認識装置で、特定属性の文字列を検出することは困難である。
本発明は、上記の問題に鑑みてなされたものであり、対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列を検出する画像認識システム、画像認識方法、および画像認識プログラムを得ることを目的とする。
本発明に係る画像認識システムは、対象画像を取得する対象画像取得部と、その対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部と、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第2のスコアを導出する位置スコア導出部と、少なくとも第1のスコアおよび第2のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する特定属性テキスト検出部とを備える。
本発明に係る画像認識方法は、対象画像を取得するステップと、その対象画像におけるテキストオブジェクトを検出するステップと、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成するステップと、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するステップと、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第2のスコアを導出するステップと、少なくとも第1のスコアおよび第2のスコアに基づいて特定属性に該当するテキストオブジェクトを検出するステップとを備える。
本発明に係る画像認識プログラムは、コンピューターを、上述の対象画像取得部、テキストオブジェクト検出部、文字認識処理部、エンティティ検出部、位置スコア導出部、および特定属性テキスト検出部として機能させる。
本発明によれば、対象画像において、物体上で記載位置が固定的に規定されていない特定属性の文字列を検出する画像認識システム、画像認識方法、および画像認識プログラムが得られる。
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
図1は、本発明の実施の形態に係る画像認識システムの構成を示すブロック図である。 図2は、特定属性のテキストが記載された物体の一例としての領収書の対象画像を示す図である。 図3は、図2に示す領収書において検出されるテキストオブジェクトの例を示す図である。 図4は、検出確率分布および位置スコアの導出の一例について説明する図である。 図5は、図3に示すテキストオブジェクトの1つについての、複数の特定属性のそれぞれについてのスコアの例を説明する図である。
以下、図に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態に係る画像認識システムの構成を示すブロック図である。図1に示す画像認識システム1は、1台の情報処理装置(パーソナルコンピューター、サーバなど)で構成されているが、後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するGPU(Graphics Processing Unit)が含まれていてもよい。
図1に示す画像認識システム1は、記憶装置11、通信装置12、および演算処理装置13を備える。
記憶装置11は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。
ここでは、記憶装置11には、画像認識プログラム11aが格納されており、また、システム設定データ(後述の各処理部に使用されるニューラルネットワークなどの学習器の係数設定値など)が必要に応じて格納される。なお、画像認識プログラム11aは、CD(Compact Disk)などの可搬性のあるコンピューター読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置11へ画像認識プログラム11aがインストールされる。また、画像認識プログラム11aは、1つのプログラムでも、複数のプログラムの集合体でもよい。
通信装置12は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。
通信装置12は、撮影装置2やストレージ3などとの間でデータ通信を行う。撮影装置2は、イメージセンサーおよびレンズなどの光学系を備え、所定の視野の撮影画像(画像データ)を生成し出力する。ストレージ3は、撮影装置2により生成された撮影画像(画像データ)などを記憶しているストレージデバイス(周辺機器)、サーバー(ネットワーク機器)などである。
演算処理装置13は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピューターであって、プログラムを、ROM、記憶装置11などからRAMにロードしCPUで実行することで、各種処理部として動作する。
ここでは、画像認識プログラム11aを実行することで、演算処理装置13は、対象画像取得部21、テキストオブジェクト検出部22、文字認識処理部23、エンティティ検出部24、位置スコア導出部25、特定属性テキスト検出部26、アノテーション処理部31、および機械学習処理部32として動作する。
対象画像取得部21は、対象画像(ラスターイメージデータなどの画像データ)を取得する。具体的には、対象画像取得部21は、撮影装置2により生成された撮影画像を取得し、その撮影画像を対象画像としたり、その撮影画像に、必要に応じて画像処理(回転、ズーミング、トリミングなど)を施して対象画像としたりする。例えば、対象画像取得部21は、撮影画像における特定物体の画像部分が正立状態となるように、撮影画像を回転させたり、撮影画像における特定物体の画像部分が所定範囲のサイズを有するようにズーミングやトリミングを行ったりする。
テキストオブジェクト検出部22は、取得された対象画像におけるテキストオブジェクトを検出する。
具体的には、テキストオブジェクト検出部22は、テンプレートデータを使用せずに、対象画像(ラスターイメージ)に含まれているテキストオブジェクトを検出し、そのテキストオブジェクトの画像部分(ラスターイメージ)を抽出したり、そのテキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成する。
また、その際、テキストオブジェクト検出部22は、(a)対象画像内の文字以外のオブジェクト(写真オブジェクト、図形オブジェクト、罫線オブジェクトなど)を除外して文字オブジェクトを検出し、(b)各文字オブジェクトの位置に基づいて、「単語」単位、行単位、文単位などにグルーピングしてテキストオブジェクトを抽出する。
なお、テキストオブジェクト検出部22は、既存の技術(例えば、領域分離処理や、機械学習されたディープニューラルネットワークなど)を使用して、対象画像内の文字オブジェクトを抽出する。
図2は、特定属性のテキストが記載された物体の一例としての領収書の対象画像を示す図である。図3は、図2に示す領収書において検出されるテキストオブジェクトの例を示す図である。例えば図2に示す対象画像において、図3に示すように、破線の矩形形状のバウンディングボックス内部の画像(つまり、部分画像)が、テキストオブジェクト(の画像)として検出される。
図1に戻り、文字認識処理部23は、検出されたテキストオブジェクト(ラスターイメージ)に対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータ(文字列を構成する各文字の文字コードのセット)を生成する。なお、この文字認識処理には、既存の技術が利用される。
エンティティ検出部24は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコア(以下、クラスタースコアという)を導出する。なお、特定属性は、1または複数の属性項目(つまり、対象画像から検出すべき属性項目)として予め設定されている。
この実施の形態では、エンティティ検出部24は、機械学習済みの分類器を使用して、特定属性ごとの第1のスコアを導出する。具体的には、この分類器は、(a)テキストデータの特徴ベクトルを導出し、(b)特定属性のテキストデータの特徴ベクトルに対応するクラスターの中心からテキストデータの特徴ベクトルまでの距離(ユークリッド距離、マハラノビス距離、コサイン距離など)に基づいて第1のスコアを導出する。そして、そのクラスターは、機械学習で事前に得られている。
例えば、この特徴ベクトルは、USE(Universal Sentence Encoder)、Word2vec(Skip-Gramモデル)などの既存の手法を使用して導出される。また、例えば、このクラスター(つまり、ベースクラスター)は、FAISS(Facebook AI Similarity Search)ライブラリーなどの既存の手法を使用して多くのサンプルから予め導出される。
位置スコア導出部25は、対象画像におけるテキストオブジェクトの位置に基づいて、特定属性ごとの第2のスコア(以下、位置スコアという)を導出する。
この実施の形態では、位置スコア導出部25は、特定属性ごとの、各位置での特定属性のテキストの検出確率分布に基づいて、対象画像におけるテキストオブジェクトの位置に対応する検出確率を位置スコアとして特定する。
図4は、検出確率分布および位置スコアの導出の一例について説明する図である。例えば図4に示すようなヒートマップなどとして、検出確率分布は、対象画像の基準位置(四隅のいずれか、中心など)からの各相対位置の検出確率を示しており、テキストオブジェクト101の領域内の画素位置の検出確率が特定され、その領域内の画素位置の検出確率の平均値が位置スコアとして導出される。なお、検出確率分布は、例えば、後述のアノテーション処理部31によって予め生成される。
なお、位置スコア導出部25は、機械学習済みの学習器(畳み込みディープニューラルネットワークなど)を使用して、対象画像におけるテキストオブジェクトの位置に対応する検出確率を位置スコアとして特定するようにしてもよい。
図1に戻り、特定属性テキスト検出部26は、少なくともクラスタースコアおよび位置スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。
具体的には、特定属性テキスト検出部26は、少なくともクラスタースコアおよび位置スコアから複合スコアを導出し、その複合スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。
つまり、テキスト自体の特徴を示すクラスタースコアと、テキスト位置の特徴を示す位置スコアとが個別的に導出され、それらのスコアを考慮した複合スコアで、各テキストオブジェクトが評価され、特定属性に該当するテキストオブジェクトが検出される。
この実施の形態では、特定属性テキスト検出部26は、各テキストオブジェクトについて、(a)各特定属性についてのクラスタースコアおよび位置スコアに加えて、追加スコアを導出し、(b)各特定属性について、クラスタースコア、位置スコア、および追加スコアから、所定の計算式で複合スコアを導出し、(c)複合スコアに基づいて、対象画像内のテキストオブジェクトから、特定属性に該当するテキストオブジェクトを検出する。
追加スコアには、テキストオブジェクトまたはテキストデータが所定の条件を満たすとき、その条件に対応する定数(正値または負値)がセットされる。
例えば、テキストデータにおいて、数字以外の同じ文字が所定個数以上連続している場合、追加スコアとして、その連続個数に応じた負値がセットされる。その際、連続個数が大きいほど、小さい負値(つまり、絶対値の大きい負値)がセットされる。つまり、同じ文字が所定個数以上連続する場合には、文字認識処理での誤認識またはテキストオブジェクト検出での誤検出である可能性があるため、このように、追加スコアによって、複合スコアが調整される。
ある特定属性についてテキストオブジェクトが検出されなかった場合、別の特定属性についての追加スコアに、所定の負値がセットされる。つまり、対となる2つの特定属性のうちの1つが検出されなかった場合、残りの1つの特定属性についても、存在しない可能性が高いため、このように、追加スコアによって、複合スコアが調整される。
例えば、対象画像において、ある特定属性についての複合スコアが最大であるテキストオブジェクトが、当該特定属性に該当するテキストオブジェクトとして検出される。あるいは、例えば、対象画像において、ある特定属性についての複合スコアが所定閾値を超えるテキストオブジェクトが、当該特定属性に該当するテキストオブジェクトとして検出される。
図5は、図3に示すテキストオブジェクトの1つについての、複数の特定属性のそれぞれについてのスコアの例を説明する図である。例えば図5に示すように、1つのテキストオブジェクト101について、特定属性として、「発行先の名前」、「発行先の住所」、「発行元の名前」、「発行元の住所」、および「金額」が設定されている場合、「発行先の名前」および「発行元の名前」に対応する「名前」(つまり、テキストのカテゴリー)について、クラスタースコアが導出され、「発行先の住所」および「発行元の住所」に対応する「住所」(つまり、テキストのカテゴリー)について、クラスタースコアが導出され、「金額」について、クラスタースコアが導出される。そして、「名前」のクラスタースコアが、「発行元の名前」のクラスタースコアおよび「発行先の名前」のクラスタースコアとして使用される。また、「住所」のクラスタースコアが、「発行元の住所」のクラスタースコアおよび「発行先の住所」のクラスタースコアとして使用される。
つまり、特定属性が、ある上位属性に属しテキスト位置で区別される場合(例えば、特定属性「発行元の名前」,「発行先の名前」が、上位属性「名前」に属しテキスト位置で区別される場合)、クラスタースコアについての属性としては、その上位属性が使用されるようにしてもよい。
また、「発行先の名前」、「発行先の住所」、「発行元の名前」、「発行元の住所」、および「金額」のそれぞれについて位置スコアが導出されるとともに、追加スコアが導出される。
また、例えば、特定属性テキスト検出部26は、次の計算式で複合スコアを導出する。
Scomb=f(Scluster,Spos,Sadd)=(Scluster+Spos^(1/A1))/A2+Sadd
ここで、Scombは複合スコアであり、Sclusterはクラスタースコアであり、Sposは位置スコアであり、Saddは追加スコアである。なお、^はべき乗を表し、A1,A2は、定数である。また、定数A1は、特定属性に応じて個別的に設定される定数である。つまり、定数A1は、特定属性ごとに異なる値としてもよい。
なお、ある特定属性について、対象画像内のテキストオブジェクトの複合スコアの最大値が所定閾値未満である場合には、その特定属性のテキストオブジェクトが、対象画像内に存在しないと判定されるようにしてもよい。
図1に戻り、アノテーション処理部31は、(a)対象画像の多くのサンプルから得られるテキストオブジェクトに対して、上述の特定属性を関連付けるユーザー操作を図示せぬ入力装置(マウス、キーボード、タッチパネルなど)で検出し、各特定属性についての、上述の検出確率分布を導出し、その検出確率分布データを記憶装置11などに記憶するとともに、(b)そのテキストオブジェクトと上述の特定属性とを互いに関連付けて教師データとして記憶装置11などに記憶する。
具体的には、サンプルにおいてユーザーにより指定されたテキストオブジェクト内の各画素位置について、アノテーションでユーザーに指定された特定属性の検出回数がカウントされ、各画素位置についての、その特定属性の検出回数をサンプル数で除算することで、検出確率が導出され、すべての画素位置についての検出確率のセットが検出確率分布データとして記憶される。
機械学習処理部32は、アノテーション処理部31により生成された教師データを使用して、エンティティ検出部24における分類器などの学習器の機械学習を行う機械学習処理を実行する。なお、機械学習処理部32は、その学習器に対応する既存の方法で機械学習を実行する。
なお、アノテーション処理部31および機械学習処理部32は、必須のものではなく、必要に応じて設ければよい。例えば、上述の学習器の機械学習が完了している場合には、アノテーション処理部31および機械学習処理部32は、当該システム1に設けられていなくてもよい。
次に、本実施の形態に係る画像認識システム1の動作について説明する。
(a)アノテーションおよび機械学習
本実施の形態に係る画像認識システム1には、アノテーション処理部31および機械学習処理部32が設けられており、本実施の形態に係る画像認識システム1にアノテーションおよび機械学習が行われるが、他の装置でアノテーションおよび機械学習が行われ、その結果が、当該画像認識システム1に実装されてもよい。
この実施の形態では、多数の対象画像のサンプルについて、上述のように、アノテーション処理部31によって、上述の検出確率分布および教師データが生成される。そして、その教師データに基づいて、エンティティ検出部24における学習器(分類器)の機械学習が実行される。なお、この機械学習は、分類器の種別に対応する既存の手法で行われる。また、位置スコア導出部25が学習器を使用して位置スコアを導出する場合には、サンプルにおけるテキストオブジェクトの位置およびサイズを入力データとし位置スコアを出力データとした教師データが、アノテーション処理部31によってユーザー操作に基づいて生成され、その教師データに基づいて、位置スコア導出部25の学習器の機械学習が、その学習器の種別に対応する既存の手法で行われる。
(b)対象画像における特定属性テキストの検出
まず、対象画像取得部21が、撮影装置2などから撮影画像を取得し、その撮影画像に対応する対象画像を得る。
次に、テキストオブジェクト検出部22は、取得された対象画像における1または複数のテキストオブジェクトを検出する。
そして、文字認識処理部23は、検出されたテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成し、エンティティ検出部24は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとのクラスタースコアを導出する。
また、位置スコア導出部25は、対象画像におけるテキストオブジェクトの位置に基づいて、特定属性ごとの位置スコアを導出する。
そして、特定属性テキスト検出部26は、上述のようにして、少なくともクラスタースコアおよび位置スコアに基づいて、特定属性に該当するテキストオブジェクトを検出する。
以上のように、上記実施の形態によれば、対象画像取得部21は、対象画像を取得する。テキストオブジェクト検出部22は、その対象画像におけるテキストオブジェクトを検出する。文字認識処理部23は、そのテキストオブジェクトに対する文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータを生成する。位置スコア導出部25は、そのテキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するエンティティ検出部と、その対象画像におけるそのテキストオブジェクトの位置に基づいて、特定属性ごとの第2のスコアを導出する。特定属性テキスト検出部26は、少なくとも第1のスコアおよび第2のスコアに基づいて特定属性に該当するテキストオブジェクトを検出する。
これにより、記載位置が固定的に規定されておらずテンプレートデータを使用できない対象画像であっても、各特定属性のテキスト記載位置にある程度の傾向があれば、対象画像において、物体上での記載位置が固定的に規定されていない特定属性の文字列(つまり、ユーザーが検出したい属性のテキスト)が検出される。
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
例えば、上記実施の形態において、クラスタースコアの導出および位置スコアの導出は、並列に実行してもよいし、1つずつ順番に実行するようにしてもよい。
また、上記実施の形態において、種々の店舗で発行されるレイアウトの一定しないレシートの画像が対象画像とされてもよい。また、名刺の画像が対象画像とされ、名前、役職、会社名、電話番号、電子メールアドレスなどが特定属性とされるようにしてもよい。また、封書や荷物といった配送物の宛名が記載された部分の画像が対象画像とされ、送り主名称、送り主住所、送り主郵便番号、宛先名称、宛先住所、宛先郵便番号などが特定属性とされるようにしてもよい。
本発明は、例えば、テンプレートを使用せずに通信書面上の特定属性のテキストを検出する画像認識装置などに適用可能である。
1 画像認識システム
11a 画像認識プログラム
21 対象画像取得部
22 テキストオブジェクト検出部
23 文字認識処理部
24 エンティティ検出部
25 位置スコア導出部
26 特定属性テキスト検出部

Claims (7)

  1. 対象画像を取得する対象画像取得部と、
    前記対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部と、
    前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、
    前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するエンティティ検出部と、
    前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第2のスコアを導出する位置スコア導出部と、
    少なくとも前記第1のスコアおよび前記第2のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出する特定属性テキスト検出部と、
    を備えることを特徴とする画像認識システム。
  2. 前記エンティティ検出部は、機械学習済みの分類器を使用して、前記特定属性ごとの前記第1のスコアを導出することを特徴とする請求項1記載の画像認識システム。
  3. 前記分類器は、(a)前記テキストデータの特徴ベクトルを導出し、(b)前記特定属性のテキストデータの特徴ベクトルに対応するクラスターの中心から前記テキストデータの特徴ベクトルまでの距離に基づいて前記第1のスコアを導出し、
    前記クラスターは、前記機械学習で得られていること、
    を特徴とする請求項2記載の画像認識システム。
  4. 前記位置スコア導出部は、前記特定属性ごとの、各位置での前記特定属性のテキストの検出確率分布に基づいて、前記対象画像における前記テキストオブジェクトの位置に対応する検出確率を前記第2のスコアとして特定することを特徴とする請求項1から請求項3のうちのいずれか1項記載の画像認識システム。
  5. 前記位置スコア導出部は、機械学習済みの学習器を使用して、前記対象画像における前記テキストオブジェクトの位置に対応する検出確率を前記第2のスコアとして特定することを特徴とする請求項1から請求項3のうちのいずれか1項記載の画像認識システム。
  6. 対象画像を取得するステップと、
    前記対象画像におけるテキストオブジェクトを検出するステップと、
    前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成するステップと、
    前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するステップと、
    前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第2のスコアを導出するステップと、
    少なくとも前記第1のスコアおよび前記第2のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出するステップと、
    を備えることを特徴とする画像認識方法。
  7. コンピューターを、
    対象画像を取得する対象画像取得部、
    前記対象画像におけるテキストオブジェクトを検出するテキストオブジェクト検出部、
    前記テキストオブジェクトに対する文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部、
    前記テキストデータに対するエンティティ検出処理を実行して、特定属性ごとの第1のスコアを導出するエンティティ検出部、
    前記対象画像における前記テキストオブジェクトの位置に基づいて、前記特定属性ごとの第2のスコアを導出する位置スコア導出部、および
    少なくとも前記第1のスコアおよび前記第2のスコアに基づいて前記特定属性に該当する前記テキストオブジェクトを検出する特定属性テキスト検出部
    として機能させる画像認識プログラム。
JP2021122231A 2021-07-27 2021-07-27 画像認識システム、画像認識方法、および画像認識プログラム Pending JP2023018251A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021122231A JP2023018251A (ja) 2021-07-27 2021-07-27 画像認識システム、画像認識方法、および画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021122231A JP2023018251A (ja) 2021-07-27 2021-07-27 画像認識システム、画像認識方法、および画像認識プログラム

Publications (1)

Publication Number Publication Date
JP2023018251A true JP2023018251A (ja) 2023-02-08

Family

ID=85158136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021122231A Pending JP2023018251A (ja) 2021-07-27 2021-07-27 画像認識システム、画像認識方法、および画像認識プログラム

Country Status (1)

Country Link
JP (1) JP2023018251A (ja)

Similar Documents

Publication Publication Date Title
US10853638B2 (en) System and method for extracting structured information from image documents
AU2020279921B2 (en) Representative document hierarchy generation
US7526128B2 (en) Line extraction in digital ink
Mathew et al. Multilingual OCR for Indic scripts
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
US20160092730A1 (en) Content-based document image classification
CN111680490A (zh) 一种跨模态的文档处理方法、装置及电子设备
US10769360B1 (en) Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
EP3942459A1 (en) Object detection and segmentation for inking applications
WO2023038722A1 (en) Entry detection and recognition for custom forms
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
US20220343663A1 (en) Methods and systems for performing on-device image to text conversion
JP2023018251A (ja) 画像認識システム、画像認識方法、および画像認識プログラム
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
US20230036812A1 (en) Text Line Detection
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
CN112287763A (zh) 图像处理方法、装置、设备及介质
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
US20230343123A1 (en) Using model uncertainty for contextual decision making in optical character recognition
JP2022178723A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240227