JP2022518889A

JP2022518889A - 画像処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2022518889A
Application number: JP2021538344A
Authority: JP
Inventors: ホンビンサン; シャオユユエ; チャンフイクアン; チェンハオリン; ウェイチャン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2020-02-28
Publication date: 2022-03-17
Anticipated expiration: 2040-02-28
Also published as: TW202125307A; JP7097513B2; TWI736230B; CN111191715A; WO2021128578A1; KR20210113192A

Abstract

本開示は、画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、前記画像における各目標領域間の相対位置特徴を決定することと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含む。

Description

優先権主張

本願は、２０１９年１２月２７日に中国国家知識産権局に提出された、出願番号が２０１９１１３８７８２７．１で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本願に組み込まれる。

本開示は、コンピュータ技術の分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。

画像における重要な文字情報の抽出は、オフィス自動化などの場面で非常に重要な役割を果たしており、例えば、画像における重要な文字情報を抽出することにより、レシート情報抽出、領収書情報抽出や身分情報抽出などの機能を実現することができる。

画像における文字を抽出する場合、その後に文字を容易に構造化し記憶したり、表示したりするために、認識された文字を異なるフィールドに対応させる。例えば、認識された文字が「１９．８８元」である場合、その後に「１９．８８元」をフィールド「総価」またはフィールド「単価」のいずれかのフィールドの値として容易に記憶するために、「１９．８８元」がフィールド「総価」に対応するか、それともフィールド「単価」に対応するかを決定する必要がある。

通常、画像における文字の配置規則に基づいて、テンプレートを予め定義し、テンプレートにおいてある位置の文字とフィールドとの対応関係を定義することにより、認識されたある位置の文字に対応するフィールドを決定することができる。例えば、画像の右下隅の文字に対応するフィールドを「総価」として予め定義することにより、認識された画像の右下隅での「１９．８８元」に対応するフィールドを「総価」として決定することができる。

本開示は、画像処理の発明を提供する。

本開示の一側面によれば、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、前記画像における各目標領域間の相対位置特徴を決定することと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含む画像処理方法が提供される。

本開示の実施例では、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。

可能な一実施形態では、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築することと、グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含む。

本開示の実施例では、構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。

グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノード（Ｎｏｄｅ）と、２つのノードを接続するエッジ（Ｅｄｇｅ）とからなり、エッジは、異なるノード間の関係を示すためのものである。したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。

可能な一実施形態では、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含む。

本開示の実施例では、プリセットカテゴリをプリセットフィールドの標識又はフィールド値として予め定義し、抽出された特徴に基づいて被抽出テキストを分類することにより、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを得ることができ、テキスト抽出時の正確性が向上される。

可能な一実施形態では、前記画像における各目標領域間の相対位置特徴を決定することは、画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定することと、前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることと、を含む。

可能な一実施形態では、前記相対位置パラメータは、第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離、前記第１の目標領域のアスペクト比、前記第２の目標領域のアスペクト比および前記第１の目標領域と前記第２の目標領域の相対寸法関係のうちの少なくとも１つを含む。

本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第１の目標領域のアスペクト比も、第１の目標領域と第２の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確にさせることができる。

可能な一実施形態では、前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることは、正弦・余弦変換行列によって前記相対位置パラメータをＤ（Ｄは、正の整数）次元の空間にマッピングし、Ｄ次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記Ｄ次元の特徴ベクトルを１次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることと、を含む。

本開示の実施例では、特徴化処理によって相対位置パラメータをグラフ畳み込みニューラルネットワークのエッジためのデータ形式に変換することができ、その後にグラフ畳み込みニューラルネットワークによって特徴抽出を行うことは容易になる。

可能な一実施形態では、各前記目標領域の目標特徴を決定することは、目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得ることと、目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含む。

本開示の実施例では、画像に撮影角度、光線や遮蔽などによる干渉がある場合、文字検出認識において、通常、多くの誤認識が生じ、すなわち、誤ったテキスト文字が認識されて、重要な情報の抽出正確性に影響を与えるおそれが考えられる。視覚情報を抽出し、視覚情報を加味して重要な情報抽出を行うことにより、重要な情報抽出に対するテキスト誤認識の影響が低減される。テキストが誤認識されても、視覚情報があまり変わらないので、両者の組み合わせにより重要な情報の抽出結果の正確性を向上させることができる。

可能な一実施形態では、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることと、を含む。

本開示の実施例では、視覚特徴と文字特徴に異なる重みを付与することにより、重要な情報の抽出結果の正確性を向上させることができる。

可能な一実施形態では、前記方法は、予め構築された分類ネットワークによって実現され、前記分類ネットワークのトレーニングステップは、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含む。

本開示の実施例では、サンプル画像にカテゴリ及び各カテゴリ間の対応関係がラベリングされることにより、分類ネットワークをより正確にトレーニングすることができる。また、トレーニングされた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。

可能な一実施形態では、前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも１つを含む。

本開示の一側面によれば、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュールと、前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュールと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュールと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュールと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュールと、を含む画像処理装置が提供される。

可能な一実施形態では、グラフ畳み込みモジュールは、各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築するための第１のグラフ畳み込みサブモジュールと、グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第２のグラフ畳み込みサブモジュールと、を含む。

グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノードと、２つのノードを接続するエッジとからなり、エッジは、異なるノード間の関係を示すためのものである。したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。

可能な一実施形態では、フィールド決定モジュールは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第１のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第１のフィールド決定サブモジュールと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第２のフィールド決定サブモジュールと、を含む。

本開示の実施例では、プリセットカテゴリをプリセットフィールドの標識又はフィールドとして予め定義し、抽出された特徴に基づいて被抽出テキストを分類することにより、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを得ることができ、テキスト抽出時の正確性が向上される。

可能な一実施形態では、相対位置特徴決定モジュールは、画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定するための第１の相対位置特徴決定サブモジュールと、前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得るための第２の相対位置特徴決定サブモジュールと、を含む。

本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第１の目標領域のアスペクト比も、第１の目標領域と第２の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確である。

可能な一実施形態では、第２の相対位置特徴決定サブモジュールは、正弦・余弦変換行列によって前記相対位置パラメータをＤ（Ｄは、正の整数）次元の空間にマッピングし、Ｄ次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記Ｄ次元の特徴ベクトルを１次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることとに用いられる。

可能な一実施形態では、目標特徴決定モジュールは、目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第１の目標特徴決定サブモジュールと、目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第２の目標特徴決定サブモジュールと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第３の目標特徴決定サブモジュールと、を含む。

可能な一実施形態では、第３の目標特徴決定サブモジュールは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることとに用いられる。

可能な一実施形態では、前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得るための第１のトレーニングモジュールと、前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第２のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第２のトレーニングモジュールと、前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第３のトレーニングモジュールと、を含む。

本開示の一側面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器が提供される。

本開示の一側面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。

本開示の一側面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において稼働すると、前記電子機器のプロセッサに、上記方法を実現するための命令を実行させるコンピュータプログラムが提供される。

なお、上記した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び側面は明瞭になる。

ここで、本明細書の一部として組み込まれる図面は、本開示に適する実施例を示し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係る画像処理方法のフローチャートを示す。本開示の実施例に係る連結グラフの構造模式図を示す。本開示の実施例に係る分類ネットワークの構造模式図を示す。本開示の実施例に係る画像処理装置のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。

以下、図面を参照しながら本開示の様々な例示的な実施例、特徴および側面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な側面を示したが、特に断らない限り、比例に従って図面を描く必要がない。

ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましいまたは優れるものであると理解すべきではない。

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

人工知能技術の発展に伴って、画像に基づく重要な情報抽出技術は大きく発展するようになった。重要な情報の抽出には、画像におけるテキストを認識し、また、その後に認識されたデータを構造化して記憶したり、表示したりすることを容易にするために、認識されたテキストの構造化情報を決定し、すなわち、認識されたテキストが構造化データのいずれのフィールドに対応するかを決定することができる。

重要な情報の抽出正確性を向上させるために、本開示の実施例では、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、グラフ畳み込みニューラルネットワークによって、画像における被抽出テキストに対応するフィールドを決定することができる画像処理方法を提供する。この方法は、固定テンプレートに依存せずに文字抽出を行うことができ、テンプレートに基づく文字情報抽出方法と比べて、適合テンプレートのない画像に対して文字情報を抽出する場合、正確性が高い。

本開示の実施例に係る画像処理方法は、画像における重要な情報の抽出に適用でき、レシート情報抽出、領収書情報抽出や身分情報抽出などの機能を実現でき、高い適用価値を有する。

図１は、本開示の実施例に係る画像処理方法のフローチャートを示す。図１に示すように、前記画像処理方法は、以下のステップを含む。

ステップＳ１１：画像を認識し、画像における複数の目標領域を決定する。

目標領域は、抽出テキストの存在領域である。

画像における被抽出テキストの分布は分散していることが多く、例えば、テキスト「総価」と「１９．８８元」との間に一定の間隔があるため、目標領域を決定する場合に、画像におけるテキストの分布関係に基づいて、テキスト間の間隔をもとに、画像を分割し、複数の目標領域を得ることができる。また、他の方法で目標領域を分割してもよい。具体的な分割方法は、本開示の具体的な適用場面に応じて決定でき、本開示において限定されない。

目標領域が決定された後、１つの単語を構成するテキスト、１つの文を構成するテキスト、または、ある意味を表すテキストの存在領域を１つの目標領域として決定することができる。例えば、被抽出テキスト「総価」の存在領域は１つの目標領域として、「１９．８８元」の存在領域は１つの目標領域として決定する。

本開示では、画像における目標領域を決定する具体的な方法について限定されない。

ステップＳ１２：画像における各目標領域間の相対位置特徴を決定する。

相対位置特徴は、各目標領域間の相対位置関係を表すことができる。具体的な相対位置特徴は、２つの目標領域の中心点に基づいて決定されてもよいし、２つの目標領域のある頂点に基づいて決定されてもよい。本開示では、これについて限定されない。また、本開示の相対位置特徴は、他のパラメータに基づいて決定されてもよい。詳細は、後述する可能な実施形態で説明するので、ここで詳細な説明を省略する。

ステップＳ１３：各目標領域の目標特徴を決定する。

目標特徴は、被抽出テキストの特徴を含む。被抽出テキストの特徴は、被抽出テキスト自体の特徴であり、被抽出テキスト全体の視覚特徴、及び被抽出テキストのテキスト文字の特徴を含んでもよいし、上記２つの特徴のうちの１つを含んでもよい。

ステップＳ１４：グラフ畳み込みニューラルネットワークによって相対位置特徴及び目標特徴に対して特徴抽出を行って、抽出された特徴を得る。

相対位置特徴及び目標特徴をグラフ畳み込みニューラルネットワークに入力し、特徴抽出を行って、抽出された特徴を得ることができる。

グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノード（Ｎｏｄｅ）と、２つのノードを接続するエッジ（Ｅｄｇｅ）とからなり、エッジは、異なるノード間の関係を示すためのものである。

したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。

ステップＳ１５：抽出された特徴に基づいて、被抽出テキストに対応するフィールドを決定する。

抽出された特徴に基づいて被抽出テキストに対応するフィールドを決定することは、具体的に、トレーニングされたネットワークによって実現することができる。当該ネットワークは、抽出された特徴に基づいて被抽出テキストを分類することができる。分類するカテゴリは、被抽出テキストに対応するフィールドを表すためのものである。抽出された特徴に基づいて被抽出テキストのカテゴリが決定されると、被抽出テキストに対応するフィールドが決定される。

ネットワークのトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。

本開示の実施例によれば、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。

可能な一実施形態では、画像における各目標領域間の相対位置特徴を決定することは、画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定することと、相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることと、を含む。

ここでの第１の目標領域と第２の目標領域は、画像における任意の２つの目標領域である。

画像における第１の目標領域と第２の目標領域の相対位置パラメータは、
第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離、
第１の目標領域のアスペクト比、
第２の目標領域のアスペクト比、
および第１の目標領域と第２の目標領域の相対寸法関係のうちの少なくとも１つを含む。

第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離は、第１の目標領域の基準点と第２の目標領域の基準点の横方向距離と縦方向距離であってもよい。目標領域の基準点は、目標領域の中心点であってもよいし、目標領域のある頂点であってもよい。本開示では、具体的な基準点の選択について限定されない。

相対位置特徴の決定プロセスをより明確に理解するために、以下、具体的な数式に基づいて相対位置特徴の決定プロセスを説明する。なお、本開示に記載の具体的な数式は、本開示の実施例の具体的な実施時の可能な実施形態であるが、本開示の実施例の技術的範囲への限定になるとは理解すべきではない。

被抽出テキストの存在する目標領域は矩形であることが多いため、被抽出テキストｔ_ｉは、ｔ_ｉ＝＜ｘ_ｉ，ｙ_ｉ，ｈ_ｉ，ｗ_ｉ，ｓ_ｉ＞として表すことができる。ここで、ｘ_ｉ，ｙ_ｉはそれぞれ、目標領域の基準点のプリセット座標系における横軸座標と縦軸座標を表し、ｈ_ｉ，ｗ_ｉはそれぞれ、目標領域の高さと幅を表し、ｓ_ｉは、被抽出テキストの文字を表す。

可能な一実施形態では、第２の目標領域に対する第１の目標領域の横方向距離Δｘ_ｉｊと縦方向距離Δｙ_ｉｊの式は以下のとおりである。

ここで、第１の目標領域は、被抽出テキストｔ_ｉの存在領域であり、第２の目標領域は、被抽出テキストｔ_ｊの存在領域である。

可能な一実施形態では、さらに、横方向距離Δｘ_ｉｊと縦方向距離Δｙ_ｉｊを正規化処理し、正規化された横方向距離と縦方向距離を得ることができる。具体的には、画像の寸法パラメータでΔｘ_ｉｊとΔｙ_ｉｊを正規化することができる。例えば、画像の幅Ｗで正規化する場合、得られる相対位置パラメータ

の式は以下のとおりである。

また、画像の高Ｈで正規化することもできる。ここで詳細な説明を省略する。

横方向距離Δｘ_ｉｊと縦方向距離Δｙ_ｉｊを正規化処理することにより、認識された画像の拡大又は縮小による最終結果への影響が低減され、重要な情報の抽出結果がより正確になる。

可能な一実施形態では、第１の目標領域のアスペクト比はｗ_ｉ／ｈ_ｉであり、第２の目標領域のアスペクト比はｗ_ｊ／ｈ_ｊである。

第１の目標領域と第２の目標領域の相対寸法関係は、第１の目標領域寸法と第２の目標領域寸法の相対大小関係を表すことができる。あるフィールドのテキストの寸法間に特定の関係があるため、相対位置特徴に第１の目標領域と第２の目標領域の相対寸法関係を加味することにより、重要な情報の抽出結果はより正確になる。

例えば、テキスト「住所」の寸法は短く、テキスト「××市××街道××路××号」の寸法は長いため、この２つの寸法の差は大きいが、テキスト「総価」とテキスト「１９．８８元」の寸法の差は小さい。したがって、目標領域の相対寸法関係は、テキストに対応するフィールドのカテゴリをある程度反映することができる。

可能な一実施形態では、相対寸法関係

の式は以下のとおりである。

可能な一実施形態では、上記式に記載の相対位置パラメータを統合し、統合された相対位置パラメータの式は以下のとおりである。

この実施形態では、相対位置パラメータには、正規化された横方向距離と縦方向距離も、第１の目標領域のアスペクト比も、第１の目標領域と第２の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確になる。

可能な一実施形態では、相対位置パラメータを得た後、相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることができる。

相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることは、正弦・余弦変換行列によって相対位置パラメータをＤ（Ｄは、正の整数）次元の空間にマッピングし、Ｄ次元の特徴ベクトルを得ることと、Ｄ次元の特徴ベクトルに予め設定された重み行列を乗じて、１次元の重み値を得ることと、予め設定された活性化関数によって重み値を処理し、相対位置特徴を得ることと、を含む。

ここでの正弦・余弦変換行列は、フーリエ正弦変換又は余弦変換時に使用される変換行列である。

ここでの予め設定された重み行列の具体値は、ネットワークトレーニングによって決定することができ、初期値は、ランダムに決定するなど、他の方法で決定することができる。ネットワークトレーニングにおいて、予め設定された重み行列を調整する。ネットワークのトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。

ここでの予め設定された活性化関数は、例えば、正規化線形関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ，ＲｅＬＵ）であってもよい。具体的な活性化関数は、本開示の実際の適用場面に応じて決定することができ、本開示において限定されない。

相対位置パラメータに対する特徴化処理のプロセスを容易に理解するために、以下、具体的な式で特徴化処理された相対位置特徴ｅ_ｉｊを説明する（詳細は式（６）を参照）。

Ｍは、正弦・余弦変換行列を表し、Ｍ（ｒ_ｉｊ）は、正弦・余弦変換行列Ｍによって前記相対位置パラメータｒ_ｉｊをＤ次元の空間にマッピングすることを表し、Ｗ_ｍは、予め設定された重み行列を表し、ＲｅＬＵは、正規化線形関数を表す。

上述したように、本開示の実施例に記載の目標特徴は、被抽出テキストの全体的な視覚特徴を含んでもよいし、被抽出テキストのテキスト文字の特徴を含んでもよい。

可能な一実施形態では、各目標領域の目標特徴を決定することは、目標領域の画素データを決定し、画素データに対して特徴抽出を行って、視覚特徴を得ることと、目標領域のテキスト文字を決定し、テキスト文字に対して特徴抽出を行って、テキスト文字特徴を得ることと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含む。

視覚特徴は、目標領域におけるテキストの全体的な視覚情報を反映することができる。視覚特徴を抽出する場合、具体的には関心領域アライメント（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔＡｌｉｇｎ、ＲｏＩＡｌｉｇｎ）方法によって抽出することができる。本開示では、視覚特徴を抽出する具体的な方法について限定されない。

目標領域のテキスト文字を決定する場合、文字認識技術によりテキスト文字を認識・抽出することができる。例えば、光学文字認識技術（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）を用いてテキスト文字に対して特徴抽出を行って、テキスト文字を得ることができる。本開示では、テキスト文字を抽出する具体的な方法について限定されない。

可能な一実施形態では、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることは、ワンホット（ｏｎｅ－ｈｏｔ）エンコーディングの方式によってテキスト文字を低次元特徴空間にマッピングすることと、双方向の長短期記憶ネットワーク（Ｂｉ－ＬＳＴＭ）によって低次元特徴空間におけるテキスト文字を処理し、テキストの特徴表現を得る（すなわち、被抽出テキストの文字特徴が得られる）ことと、を含む。

ワンホットエンコーディングにより、離散特徴の値がユークリッド空間の点に対応するように、離散特徴（テキスト文字）の値をユークリッド空間に拡張することができ、特徴間の計算がより合理的になる。

可能な一実施形態では、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合（例えば加算）して、目標領域の目標特徴を得ることと、を含む。

抽出結果に対する視覚特徴と文字特徴の影響は異なる可能性があるため、ここで視覚特徴と文字特徴に異なる重みを付与することにより、抽出結果の正確性を向上させる。ここでの重みは、ネットワークトレーニングによって最適化して得られてもよい。具体的なトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。

テキスト文字に対する特徴化処理のプロセスを容易に理解するために、以下、具体的な式で特徴化処理された文字特徴を説明する。

被抽出テキストについて、テキスト文字ｓ_ｉに対して特徴抽出を行って文字特徴ｔ_ｉを得るプロセスは、使用可能な式（７）として表すことができる。

Ｗ∈Ｒ^Ｃ×Ｄは、ワンホットエンコーディングの射影行列を表し、Ｂｉ－ＬＳＴＭは、ワンホットエンコーディングされたテキスト文字を双方向長短期記憶ネットワークによって処理することを表し、ｓ_ｉ ^ｊは、テキスト文字ｓ_ｉのｊ番目の文字を表す。

文字特徴ｔ_ｉに重みα_ｉを付与し、視覚特徴ｖ_ｉに重み（１－α_ｉ）を付与することにより、目標特徴ｎ_ｉが得られる（詳細は、式（８）及び（９）を参照）。

Ｗ_ｔ∈Ｒ^１×ＤｔとＷ_ｖ∈Ｒ^１×Ｄｖは、１次元射影行列であり、具体的にはネットワークトレーニングによって最適化して得られることができる。σは、活性化関数である。Ｕ_ｔ∈Ｒ^{Ｄｈ×Ｄｔ}とＵ_ｖ∈Ｒ^{Ｄｈ×Ｄｔ}は、射影パラメータであり、同様にネットワークトレーニングによって最適化して得られることができる。

目標特徴ｎ_ｉと相対位置特徴ｅ_ｉｊを得た後、グラフ畳み込みニューラルネットワークによって、相対位置特徴と目標特徴に対して特徴抽出を行うことができる。

可能な一実施形態では、グラフ畳み込みニューラルネットワークによって、相対位置特徴及び目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、各目標特徴をグラフのノードとし、各相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築することと、グラフ畳み込みニューラルネットワークによって、連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含む。

目標領域の相対位置特徴を、２つのノードを接続するエッジとして連結グラフを構築する場合、相対位置特徴をノード間の隣接行列のパラメータの一つとするが、隣接行列には、ノードの意味類似度などの他のパラメータがさらに含まれてもよい。本開示では、他のパラメータの具体的な設定について限定されない。

図２は、本開示に係る連結グラフの模式図である。この連結グラフでは、グラフのノードは、各目標特徴であり、２つのノードを接続するエッジは、目標領域の相対位置特徴である。

本開示の実施例で構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。

連結グラフが構築された後、グラフ畳み込みニューラルネットワークによって、連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることができる。任意のノードｉの特徴は、反復するたびに、ノードｉに接続された各ノードの隣接行列によって各ノードの特徴値を射影することにより更新される。複数回の反復後、各ノードの特徴値が反復回数の増加に伴って変化しなく、すなわち、ノードの特徴値が変わらない場合、収束条件を満たすと考えられる。収束条件を満たす連結グラフを抽出された特徴とすることができる。

理解を容易にするために、ｌ＋１回目の反復時のノードＮの特徴Ｎ^ｌ＋１の式は以下のとおりである。

Ｎ^ｌは、ｌ回目の反復時のノードＮの特徴であり、Ｗ^ｌは、変換行列であり、ネットワークトレーニングによって最適化して得られることができる。Ａ^ｌは、ノードの隣接行列であり、ノードｉとｊの隣接行列Ａ^ｌ _ｉｊの式は以下のとおりである。

（ｎ^ｌ _ｉ）^Ｔは、ｎ^ｌ _ｉの転置を表し、

正規化パラメータを表し、ネットワークトレーニングによって最適化して得られることができる。

可能な一実施形態では、抽出された特徴を得た後、抽出された特徴に基づいて、被抽出テキストに対応するフィールドを決定することは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含む。

認識されたテキストには、プリセットフィールドの標識を表すテキストがある場合があり、プリセットフィールドのフィールド値を表すテキストがある場合もある。プリセットフィールドの標識を表すテキストは、画像におけるフィールド値が該当するフィールドを示すためのテキストであり、フィールド値は、フィールドの具体値である。例えば、プリセットフィールド「総価」の場合、画像で認識されたテキスト「総価」、「総価格」や「ｓｕｂｔｏｔａｌ」などはすべて、プリセットフィールド「総価」の具体的な標識であり、認識されたテキスト「１９．８８元」や「＼：１９．８８」などはすべて、プリセットフィールドのフィールド値である。

したがって、プリセットフィールドについて、当該プリセットフィールドにそれぞれ対応する２つのカテゴリを設定することができる。この２つのカテゴリの一方は、プリセットフィールドの標識であるテキストを表すカテゴリであり、他方は、プリセットフィールドのフィールド値であるテキストを表すカテゴリである。複数の異なるプリセットフィールドがある場合、各プリセットフィールドのそれぞれに、２つのカテゴリを設定することができる。こうして、プリセットフィールドの標識であるテキストを表す複数のカテゴリ、及びプリセットフィールドのフィールド値であるテキストを表す複数のカテゴリがある。

例えば、商品の購入レシートを認識する場合、プリセットフィールドを「名称」、「住所」、「電話番号」、「日付」、「時間」、「商品カテゴリ」、「商品名」、「商品単価」、「単品総価」、「税金」、「合計総価」、「提示」との合計１２つのプリセットフィールドに設定することができ、各プリセットフィールドのプリセットフィールド標識及び各プリセットフィールドのフィールド値をそれぞれ示す２４つのカテゴリをプリセットすることができる。また、上記カテゴリに属しないテキストを区別して抽出するために、カテゴリ「その他」を設定することができる。すなわち、合計２５つのカテゴリが設定される。

上記に挙げた２５の具体的なプリセットカテゴリは以下のとおりである。

名称－標識；名称－フィールド値；住所－標識；住所－フィールド値；電話番号－標識；電話番号－フィールド値；日付－標識；日付－フィールド値；時間－標識；時間－フィールド値；商品カテゴリ－標識；商品カテゴリ－フィールド値；商品名－標識；商品名－フィールド値；商品単価－標識；商品単価－フィールド値；単品総価－標識；単品総価－フィールド値；税金－標識；税金－フィールド値；合計総価－標識；合計総価－フィールド値；提示－標識；提示－フィールド値；その他。

可能な一実施形態では、本開示の実施例に係る画像処理方法は、予め構築された分類ネットワークによって実現され、当該分類ネットワークのトレーニングステップは、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記対応関係及びラベリングされたカテゴリ間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含む。

この分類ネットワークは、本開示の画像処理技術を実現するために用いられてもよい。この分類ネットワークには、上述したグラフ畳み込みニューラルネットワークが含まれてもよい。また、本開示の各機能を実現するために、この分類ネットワークには、Ｂｉ－ＬＳＴＭネットワークなどの他のネットワークが含まれてもよい。本開示の分類ネットワークに含まれるネットワークは、本開示の実施例の具体的な適用場面に応じて決定することができ、本開示において限定されない。

図３は、本願に係る分類ネットワークの具体的な実現形態の構造模式図である。ネットワークには、目標特徴抽出モジュール、相対位置特徴抽出モジュール、畳み込みネットワーク特徴抽出モジュール及び分類モジュールが含まれる。目標特徴抽出モジュールにより被抽出テキストを含む画像の目標特徴を抽出し、相対位置特徴抽出モジュールにより画像の相対位置特徴を抽出する。目標特徴及び相対位置特徴を畳み込みネットワーク特徴抽出モジュールに入力し、反復更新を行って、反復更新された特徴を得る。その後、反復更新された特徴を分類モジュールにより分類し、ノードの予測カテゴリを得る。カテゴリは、被抽出テキストに対応するフィールドを表すため、抽出された特徴に基づいて被抽出テキストのカテゴリが決定されると、被抽出テキストに対応するフィールドが決定される。各モジュールの具体的な機能の実現について、本開示の関連説明を参照できるので、ここで詳細な説明を省略する。

上記トレーニングプロセスでは、ラベリングされたカテゴリは、上述したプリセットカテゴリであってもよく、ここで詳細な説明を省略する。

前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングする場合、ラベリングされたカテゴリに対する第１の予測カテゴリの損失に基づいて、分類ネットワークによるサンプル画像の予測カテゴリとラベリングされたカテゴリとの差が最小となるように、分類ネットワークのパラメータを調整することができる。

また、トレーニングにおいて、２つのテキストがそれぞれ同じプリセットフィールドの標識及びフィールド値に該当するかどうかを加味することにより、分類ネットワークの分類正確性にも寄与できる。説明の便宜上、ここで、それぞれ同じプリセットフィールドの標識とフィールド値に該当する２つのテキストをフィールドペアという。例えば：テキスト「総価」と「１９．８８元」は、フィールドペアとなる。

したがって、前記分類ネットワークをトレーニングする場合、分類ネットワークから第１の予測カテゴリ内の各カテゴリ間の対応関係も出力する。また、サンプル画像においてもテキスト間の対応関係がラベリングされている。これにより、分類ネットワークから出力された対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることができる。

トレーニングに使用される損失関数は、具体的に、クロスエントロピー損失関数（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ、ＣＥ）であってもよい。具体的な損失関数は実際の必要に応じて選択することができる。本開示では、これについて具体的に限定されない。

本開示の実施例によれば、トレーニングされた分類ネットワークは、文字の重要な情報の抽出場合に被抽出テキストに対応するフィールドを決定するために用いることができる（詳細は、本開示に係る実施例を参照）。トレーニングに被抽出テキスト間の対応関係が用いられるので、トレーニングして得られた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。

可能な一実施形態では、認識される画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも１つを含む。もちろん実際の適用では、本開示の実施例は、他の画像を認識することにも用いることができる。本開示では、これについて具体的に限定されない。

本開示の実施例によれば、テキスト抽出を行う場合、目標領域のテキスト文字特徴を利用するだけでなく、目標領域の視覚特徴も利用するため、テキスト文字の誤認識による最終分類への影響が低減され、テキスト抽出時の正確性が向上される。また、テキスト領域間の空間位置関係を確立することにより、予め設計されたテンプレートに依存することなく、見たことのないテンプレートを処理することができ、スケーラビリティが向上される。

可能な一実施形態では、前記画像処理方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ちの機器、計算装置、車載装置、ウエアラブル装置などの端末装置、又はサーバなどの電子機器により実行されてもよい。前記方法は、プロセッサによりメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことで実現されてもよいし、サーバにより実行されてもよい。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。

さらに、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る画像処理方法のいずれか１つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。

図４は、本開示の実施例に係る画像処理装置のブロック図を示す。図４に示すように、前記画像処理装置２０は、
画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュール２１と、
前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュール２２と、
各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュール２３と、
グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュール２４と、
抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュール２５と、を含む。

可能な一実施形態では、グラフ畳み込みモジュール２４は、
各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築するための第１のグラフ畳み込みサブモジュールと、
グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第２のグラフ畳み込みサブモジュールと、を含む。

可能な一実施形態では、フィールド決定モジュール２５は、
予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第１のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第１のフィールド決定サブモジュールと、
前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第２のフィールド決定サブモジュールと、を含む。

可能な一実施形態では、相対位置特徴決定モジュール２２は、
画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定するための第１の相対位置特徴決定サブモジュールと、
前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得るための第２の相対位置特徴決定サブモジュールと、を含む。

可能な一実施形態では、前記相対位置パラメータは、
第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離、
前記第１の目標領域のアスペクト比、
前記第２の目標領域のアスペクト比、
および前記第１の目標領域と前記第２の目標領域の相対寸法関係のうちの少なくとも１つを含む。

本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第１の目標領域のアスペクト比も、第１の目標領域と第２の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確になる。

可能な一実施形態では、目標特徴決定モジュール２３は、
目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第１の目標特徴決定サブモジュールと、
目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第２の目標特徴決定サブモジュールと、
抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第３の目標特徴決定サブモジュールと、を含む。

可能な一実施形態では、前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、
サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得るための第１のトレーニングモジュールと、
前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第２のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第２のトレーニングモジュールと、
前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第３のトレーニングモジュールと、を含む。

いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用できる。その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。

本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体がさらに提供される。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体であってもよいし、不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。

本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器がさらに提供される。

本開示の実施例では、コンピュータ読み取り可能なコードを含み、コンピュータ読み取り可能なコードが機器において稼働すると、機器のプロセッサは、上記いずれか１つの実施例に係る画像処理方法を実現するための命令を実行するコンピュータプログラム製品がさらに提供される。

本開示の実施例では、コンピュータ読み取り可能な命令を記憶するための別のコンピュータプログラム製品であって、命令が実行されると、上記いずれか１つの実施例に係る画像処理方法をコンピュータに実行させる別のコンピュータプログラム製品がさらに提供される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図５は、本開示の実施例に係る電子機器８００のブロック図を示す。例えば、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。

図５を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されると、上記方法を実行させることができる。

図６は、本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供されてもよい。図６を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されいるオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されると、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各側面を実現させるためのコンピュータ読み取り可能なプログラム命令を有しているコンピュータ読み取り可能な記憶媒体を含んでもよい。

コンピュータ読み取り可能な記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、該コンピュータ読み取り可能なプログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能な記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能なプログラム命令を実行することにより、本開示の各側面を実現するようにしてもよい。

ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現するように、装置を製造してもよい。これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読み取り可能な記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ読み取り可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施されるプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

このコンピュータプログラム製品は、ハードウェア、ソフトウェア、またはそれらの組み合わせによって具体的に実現することができる。選択可能な実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化される。別の選択可能な実施例では、コンピュータプログラム製品は、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として具現化される。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims

画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、
前記画像における各目標領域間の相対位置特徴を決定することと、
各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、
グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、
抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含むことを特徴とする画像処理方法。
グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、
各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築することと、
グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含むことを特徴とする請求項１に記載の方法。
抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することは、
予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、
前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含むことを特徴とする請求項２に記載の方法。
前記画像における各目標領域間の相対位置特徴を決定することは、
画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定することと、
前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることと、を含むことを特徴とする請求項１～３のいずれか１項に記載の方法。
前記相対位置パラメータは、
第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離、
前記第１の目標領域のアスペクト比、
前記第２の目標領域のアスペクト比、
および前記第１の目標領域と前記第２の目標領域の相対寸法関係のうちの少なくとも１つを含むことを特徴とする請求項４に記載の方法。
前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得ることは、
正弦・余弦変換行列によって前記相対位置パラメータをＤ（Ｄは、正の整数）次元の空間にマッピングし、Ｄ次元の特徴ベクトルを得ることと、
予め設定された重み行列によって前記Ｄ次元の特徴ベクトルを１次元の重み値に変換することと、
予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることと、を含むことを特徴とする請求項４又は５に記載の方法。
各前記目標領域の目標特徴を決定することは、
目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得ることと、
目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることと、
抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含むことを特徴とする請求項１～６のいずれか１項に記載の方法。
抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、
前記視覚特徴と文字特徴に異なる重みを付与することと、
重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることと、を含むことを特徴とする請求項７に記載の方法。
前記方法は、予め構築された分類ネットワークによって実現され、前記分類ネットワークのトレーニングステップは、
サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、
前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、
前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含むことを特徴とする請求項１～８のいずれか１項に記載の方法。
前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも１つを含むことを特徴とする請求項１～９のいずれか１項に記載の方法。
画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュールと、
前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュールと、
各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュールと、
グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュールと、
抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュールと、を含むことを特徴とする画像処理装置。
前記グラフ畳み込みモジュールは、
各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、２つのノードを接続するエッジとして、連結グラフを構築するための第１のグラフ畳み込みサブモジュールと、
グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第２のグラフ畳み込みサブモジュールと、を含むことを特徴とする請求項１１に記載の装置。
前記フィールド決定モジュールは、
予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第１のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第１のフィールド決定サブモジュールと、
前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第２のフィールド決定サブモジュールと、を含むことを特徴とする請求項１２に記載の装置。
相対位置特徴決定モジュールは、
画像における第１の目標領域と第２の目標領域の相対位置パラメータを決定するための第１の相対位置特徴決定サブモジュールと、
前記相対位置パラメータに対して特徴化処理を行って、第１の目標領域と第２の目標領域の相対位置特徴を得るための第２の相対位置特徴決定サブモジュールと、を含むことを特徴とする請求項１１～１３のいずれか１項に記載の装置。
前記相対位置パラメータは、
第２の目標領域に対する第１の目標領域の横方向距離と縦方向距離、
前記第１の目標領域のアスペクト比、
前記第２の目標領域のアスペクト比、
および前記第１の目標領域と前記第２の目標領域の相対寸法関係のうちの少なくとも１つを含むことを特徴とする請求項１４に記載の装置。
第２の相対位置特徴決定サブモジュールは、正弦・余弦変換行列によって前記相対位置パラメータをＤ（Ｄは、正の整数）次元の空間にマッピングし、Ｄ次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記Ｄ次元の特徴ベクトルを１次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることとに用いられることを特徴とする請求項１４又は１５に記載の装置。
目標特徴決定モジュールは、
目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第１の目標特徴決定サブモジュールと、
目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第２の目標特徴決定サブモジュールと、
抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第３の目標特徴決定サブモジュールと、を含むことを特徴とする請求項１１～１６のいずれか１項に記載の装置。
第３の目標特徴決定サブモジュールは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることとに用いられることを特徴とする請求項１７に記載の装置。
前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、
サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第１の予測カテゴリ及び前記第１の予測カテゴリ内の各カテゴリ間の対応関係を得るための第１のトレーニングモジュールと、
前記第１の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第２のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第２のトレーニングモジュールと、
前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第３のトレーニングモジュールと、を含むことを特徴とする請求項１１～１８のいずれか１項に記載の装置。
前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも１つを含むことを特徴とする請求項１１～１９のいずれか１項に記載の装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項１～１０のいずれか１項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項１～１０のいずれか１項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において稼働すると、前記電子機器のプロセッサに、請求項１～１０のいずれか１項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。