JP2022518889A - 画像処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

画像処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022518889A
JP2022518889A JP2021538344A JP2021538344A JP2022518889A JP 2022518889 A JP2022518889 A JP 2022518889A JP 2021538344 A JP2021538344 A JP 2021538344A JP 2021538344 A JP2021538344 A JP 2021538344A JP 2022518889 A JP2022518889 A JP 2022518889A
Authority
JP
Japan
Prior art keywords
feature
text
target
relative position
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021538344A
Other languages
English (en)
Other versions
JP7097513B2 (ja
Inventor
ホンビン サン
シャオユ ユエ
チャンフイ クアン
チェンハオ リン
ウェイ チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022518889A publication Critical patent/JP2022518889A/ja
Application granted granted Critical
Publication of JP7097513B2 publication Critical patent/JP7097513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、前記画像における各目標領域間の相対位置特徴を決定することと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含む。

Description

優先権主張
本願は、2019年12月27日に中国国家知識産権局に提出された、出願番号が201911387827.1で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本願に組み込まれる。
本開示は、コンピュータ技術の分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。
画像における重要な文字情報の抽出は、オフィス自動化などの場面で非常に重要な役割を果たしており、例えば、画像における重要な文字情報を抽出することにより、レシート情報抽出、領収書情報抽出や身分情報抽出などの機能を実現することができる。
画像における文字を抽出する場合、その後に文字を容易に構造化し記憶したり、表示したりするために、認識された文字を異なるフィールドに対応させる。例えば、認識された文字が「19.88元」である場合、その後に「19.88元」をフィールド「総価」またはフィールド「単価」のいずれかのフィールドの値として容易に記憶するために、「19.88元」がフィールド「総価」に対応するか、それともフィールド「単価」に対応するかを決定する必要がある。
通常、画像における文字の配置規則に基づいて、テンプレートを予め定義し、テンプレートにおいてある位置の文字とフィールドとの対応関係を定義することにより、認識されたある位置の文字に対応するフィールドを決定することができる。例えば、画像の右下隅の文字に対応するフィールドを「総価」として予め定義することにより、認識された画像の右下隅での「19.88元」に対応するフィールドを「総価」として決定することができる。
本開示は、画像処理の発明を提供する。
本開示の一側面によれば、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、前記画像における各目標領域間の相対位置特徴を決定することと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含む画像処理方法が提供される。
本開示の実施例では、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築することと、グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含む。
本開示の実施例では、構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。
グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノード(Node)と、2つのノードを接続するエッジ(Edge)とからなり、エッジは、異なるノード間の関係を示すためのものである。したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。
可能な一実施形態では、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含む。
本開示の実施例では、プリセットカテゴリをプリセットフィールドの標識又はフィールド値として予め定義し、抽出された特徴に基づいて被抽出テキストを分類することにより、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを得ることができ、テキスト抽出時の正確性が向上される。
可能な一実施形態では、前記画像における各目標領域間の相対位置特徴を決定することは、画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定することと、前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることと、を含む。
可能な一実施形態では、前記相対位置パラメータは、第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、前記第1の目標領域のアスペクト比、前記第2の目標領域のアスペクト比および前記第1の目標領域と前記第2の目標領域の相対寸法関係のうちの少なくとも1つを含む。
本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第1の目標領域のアスペクト比も、第1の目標領域と第2の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確にさせることができる。
可能な一実施形態では、前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることは、正弦・余弦変換行列によって前記相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記D次元の特徴ベクトルを1次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることと、を含む。
本開示の実施例では、特徴化処理によって相対位置パラメータをグラフ畳み込みニューラルネットワークのエッジためのデータ形式に変換することができ、その後にグラフ畳み込みニューラルネットワークによって特徴抽出を行うことは容易になる。
可能な一実施形態では、各前記目標領域の目標特徴を決定することは、目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得ることと、目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含む。
本開示の実施例では、画像に撮影角度、光線や遮蔽などによる干渉がある場合、文字検出認識において、通常、多くの誤認識が生じ、すなわち、誤ったテキスト文字が認識されて、重要な情報の抽出正確性に影響を与えるおそれが考えられる。視覚情報を抽出し、視覚情報を加味して重要な情報抽出を行うことにより、重要な情報抽出に対するテキスト誤認識の影響が低減される。テキストが誤認識されても、視覚情報があまり変わらないので、両者の組み合わせにより重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることと、を含む。
本開示の実施例では、視覚特徴と文字特徴に異なる重みを付与することにより、重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、前記方法は、予め構築された分類ネットワークによって実現され、前記分類ネットワークのトレーニングステップは、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含む。
本開示の実施例では、サンプル画像にカテゴリ及び各カテゴリ間の対応関係がラベリングされることにより、分類ネットワークをより正確にトレーニングすることができる。また、トレーニングされた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含む。
本開示の一側面によれば、画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュールと、前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュールと、各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュールと、グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュールと、抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュールと、を含む画像処理装置が提供される。
本開示の実施例では、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、グラフ畳み込みモジュールは、各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築するための第1のグラフ畳み込みサブモジュールと、グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第2のグラフ畳み込みサブモジュールと、を含む。
本開示の実施例では、構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。
グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノードと、2つのノードを接続するエッジとからなり、エッジは、異なるノード間の関係を示すためのものである。したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。
可能な一実施形態では、フィールド決定モジュールは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第1のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第1のフィールド決定サブモジュールと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第2のフィールド決定サブモジュールと、を含む。
本開示の実施例では、プリセットカテゴリをプリセットフィールドの標識又はフィールドとして予め定義し、抽出された特徴に基づいて被抽出テキストを分類することにより、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを得ることができ、テキスト抽出時の正確性が向上される。
可能な一実施形態では、相対位置特徴決定モジュールは、画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定するための第1の相対位置特徴決定サブモジュールと、前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得るための第2の相対位置特徴決定サブモジュールと、を含む。
可能な一実施形態では、前記相対位置パラメータは、第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、前記第1の目標領域のアスペクト比、前記第2の目標領域のアスペクト比および前記第1の目標領域と前記第2の目標領域の相対寸法関係のうちの少なくとも1つを含む。
本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第1の目標領域のアスペクト比も、第1の目標領域と第2の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確である。
可能な一実施形態では、第2の相対位置特徴決定サブモジュールは、正弦・余弦変換行列によって前記相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記D次元の特徴ベクトルを1次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることとに用いられる。
本開示の実施例では、特徴化処理によって相対位置パラメータをグラフ畳み込みニューラルネットワークのエッジためのデータ形式に変換することができ、その後にグラフ畳み込みニューラルネットワークによって特徴抽出を行うことは容易になる。
可能な一実施形態では、目標特徴決定モジュールは、目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第1の目標特徴決定サブモジュールと、目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第2の目標特徴決定サブモジュールと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第3の目標特徴決定サブモジュールと、を含む。
本開示の実施例では、画像に撮影角度、光線や遮蔽などによる干渉がある場合、文字検出認識において、通常、多くの誤認識が生じ、すなわち、誤ったテキスト文字が認識されて、重要な情報の抽出正確性に影響を与えるおそれが考えられる。視覚情報を抽出し、視覚情報を加味して重要な情報抽出を行うことにより、重要な情報抽出に対するテキスト誤認識の影響が低減される。テキストが誤認識されても、視覚情報があまり変わらないので、両者の組み合わせにより重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、第3の目標特徴決定サブモジュールは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることとに用いられる。
本開示の実施例では、視覚特徴と文字特徴に異なる重みを付与することにより、重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得るための第1のトレーニングモジュールと、前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第2のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第2のトレーニングモジュールと、前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第3のトレーニングモジュールと、を含む。
本開示の実施例では、サンプル画像にカテゴリ及び各カテゴリ間の対応関係がラベリングされることにより、分類ネットワークをより正確にトレーニングすることができる。また、トレーニングされた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含む。
本開示の一側面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器が提供される。
本開示の一側面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の一側面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において稼働すると、前記電子機器のプロセッサに、上記方法を実現するための命令を実行させるコンピュータプログラムが提供される。
本開示の実施例では、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
なお、上記した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び側面は明瞭になる。
ここで、本明細書の一部として組み込まれる図面は、本開示に適する実施例を示し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係る画像処理方法のフローチャートを示す。 本開示の実施例に係る連結グラフの構造模式図を示す。 本開示の実施例に係る分類ネットワークの構造模式図を示す。 本開示の実施例に係る画像処理装置のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。
以下、図面を参照しながら本開示の様々な例示的な実施例、特徴および側面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な側面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
人工知能技術の発展に伴って、画像に基づく重要な情報抽出技術は大きく発展するようになった。重要な情報の抽出には、画像におけるテキストを認識し、また、その後に認識されたデータを構造化して記憶したり、表示したりすることを容易にするために、認識されたテキストの構造化情報を決定し、すなわち、認識されたテキストが構造化データのいずれのフィールドに対応するかを決定することができる。
重要な情報の抽出正確性を向上させるために、本開示の実施例では、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、グラフ畳み込みニューラルネットワークによって、画像における被抽出テキストに対応するフィールドを決定することができる画像処理方法を提供する。この方法は、固定テンプレートに依存せずに文字抽出を行うことができ、テンプレートに基づく文字情報抽出方法と比べて、適合テンプレートのない画像に対して文字情報を抽出する場合、正確性が高い。
本開示の実施例に係る画像処理方法は、画像における重要な情報の抽出に適用でき、レシート情報抽出、領収書情報抽出や身分情報抽出などの機能を実現でき、高い適用価値を有する。
図1は、本開示の実施例に係る画像処理方法のフローチャートを示す。図1に示すように、前記画像処理方法は、以下のステップを含む。
ステップS11:画像を認識し、画像における複数の目標領域を決定する。
目標領域は、抽出テキストの存在領域である。
画像における被抽出テキストの分布は分散していることが多く、例えば、テキスト「総価」と「19.88元」との間に一定の間隔があるため、目標領域を決定する場合に、画像におけるテキストの分布関係に基づいて、テキスト間の間隔をもとに、画像を分割し、複数の目標領域を得ることができる。また、他の方法で目標領域を分割してもよい。具体的な分割方法は、本開示の具体的な適用場面に応じて決定でき、本開示において限定されない。
目標領域が決定された後、1つの単語を構成するテキスト、1つの文を構成するテキスト、または、ある意味を表すテキストの存在領域を1つの目標領域として決定することができる。例えば、被抽出テキスト「総価」の存在領域は1つの目標領域として、「19.88元」の存在領域は1つの目標領域として決定する。
本開示では、画像における目標領域を決定する具体的な方法について限定されない。
ステップS12:画像における各目標領域間の相対位置特徴を決定する。
相対位置特徴は、各目標領域間の相対位置関係を表すことができる。具体的な相対位置特徴は、2つの目標領域の中心点に基づいて決定されてもよいし、2つの目標領域のある頂点に基づいて決定されてもよい。本開示では、これについて限定されない。また、本開示の相対位置特徴は、他のパラメータに基づいて決定されてもよい。詳細は、後述する可能な実施形態で説明するので、ここで詳細な説明を省略する。
ステップS13:各目標領域の目標特徴を決定する。
目標特徴は、被抽出テキストの特徴を含む。被抽出テキストの特徴は、被抽出テキスト自体の特徴であり、被抽出テキスト全体の視覚特徴、及び被抽出テキストのテキスト文字の特徴を含んでもよいし、上記2つの特徴のうちの1つを含んでもよい。
ステップS14:グラフ畳み込みニューラルネットワークによって相対位置特徴及び目標特徴に対して特徴抽出を行って、抽出された特徴を得る。
相対位置特徴及び目標特徴をグラフ畳み込みニューラルネットワークに入力し、特徴抽出を行って、抽出された特徴を得ることができる。
グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノード(Node)と、2つのノードを接続するエッジ(Edge)とからなり、エッジは、異なるノード間の関係を示すためのものである。
したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。
ステップS15:抽出された特徴に基づいて、被抽出テキストに対応するフィールドを決定する。
抽出された特徴に基づいて被抽出テキストに対応するフィールドを決定することは、具体的に、トレーニングされたネットワークによって実現することができる。当該ネットワークは、抽出された特徴に基づいて被抽出テキストを分類することができる。分類するカテゴリは、被抽出テキストに対応するフィールドを表すためのものである。抽出された特徴に基づいて被抽出テキストのカテゴリが決定されると、被抽出テキストに対応するフィールドが決定される。
ネットワークのトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。
本開示の実施例によれば、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、画像における各目標領域間の相対位置特徴を決定することは、画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定することと、相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることと、を含む。
ここでの第1の目標領域と第2の目標領域は、画像における任意の2つの目標領域である。
画像における第1の目標領域と第2の目標領域の相対位置パラメータは、
第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、
第1の目標領域のアスペクト比、
第2の目標領域のアスペクト比、
および第1の目標領域と第2の目標領域の相対寸法関係のうちの少なくとも1つを含む。
第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離は、第1の目標領域の基準点と第2の目標領域の基準点の横方向距離と縦方向距離であってもよい。目標領域の基準点は、目標領域の中心点であってもよいし、目標領域のある頂点であってもよい。本開示では、具体的な基準点の選択について限定されない。
相対位置特徴の決定プロセスをより明確に理解するために、以下、具体的な数式に基づいて相対位置特徴の決定プロセスを説明する。なお、本開示に記載の具体的な数式は、本開示の実施例の具体的な実施時の可能な実施形態であるが、本開示の実施例の技術的範囲への限定になるとは理解すべきではない。
被抽出テキストの存在する目標領域は矩形であることが多いため、被抽出テキストtは、t=<x,y,h,w,s>として表すことができる。ここで、x,yはそれぞれ、目標領域の基準点のプリセット座標系における横軸座標と縦軸座標を表し、h,wはそれぞれ、目標領域の高さと幅を表し、sは、被抽出テキストの文字を表す。
可能な一実施形態では、第2の目標領域に対する第1の目標領域の横方向距離Δxijと縦方向距離Δyijの式は以下のとおりである。
Figure 2022518889000002
Figure 2022518889000003
ここで、第1の目標領域は、被抽出テキストtの存在領域であり、第2の目標領域は、被抽出テキストtの存在領域である。
可能な一実施形態では、さらに、横方向距離Δxijと縦方向距離Δyijを正規化処理し、正規化された横方向距離と縦方向距離を得ることができる。具体的には、画像の寸法パラメータでΔxijとΔyijを正規化することができる。例えば、画像の幅Wで正規化する場合、得られる相対位置パラメータ
Figure 2022518889000004
の式は以下のとおりである。
Figure 2022518889000005
また、画像の高Hで正規化することもできる。ここで詳細な説明を省略する。
横方向距離Δxijと縦方向距離Δyijを正規化処理することにより、認識された画像の拡大又は縮小による最終結果への影響が低減され、重要な情報の抽出結果がより正確になる。
可能な一実施形態では、第1の目標領域のアスペクト比はw/hであり、第2の目標領域のアスペクト比はw/hである。
第1の目標領域と第2の目標領域の相対寸法関係は、第1の目標領域寸法と第2の目標領域寸法の相対大小関係を表すことができる。あるフィールドのテキストの寸法間に特定の関係があるため、相対位置特徴に第1の目標領域と第2の目標領域の相対寸法関係を加味することにより、重要な情報の抽出結果はより正確になる。
例えば、テキスト「住所」の寸法は短く、テキスト「××市××街道××路××号」の寸法は長いため、この2つの寸法の差は大きいが、テキスト「総価」とテキスト「19.88元」の寸法の差は小さい。したがって、目標領域の相対寸法関係は、テキストに対応するフィールドのカテゴリをある程度反映することができる。
可能な一実施形態では、相対寸法関係
Figure 2022518889000006
の式は以下のとおりである。
Figure 2022518889000007
可能な一実施形態では、上記式に記載の相対位置パラメータを統合し、統合された相対位置パラメータの式は以下のとおりである。
Figure 2022518889000008
この実施形態では、相対位置パラメータには、正規化された横方向距離と縦方向距離も、第1の目標領域のアスペクト比も、第1の目標領域と第2の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確になる。
可能な一実施形態では、相対位置パラメータを得た後、相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることができる。
相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることは、正弦・余弦変換行列によって相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、D次元の特徴ベクトルに予め設定された重み行列を乗じて、1次元の重み値を得ることと、予め設定された活性化関数によって重み値を処理し、相対位置特徴を得ることと、を含む。
ここでの正弦・余弦変換行列は、フーリエ正弦変換又は余弦変換時に使用される変換行列である。
ここでの予め設定された重み行列の具体値は、ネットワークトレーニングによって決定することができ、初期値は、ランダムに決定するなど、他の方法で決定することができる。ネットワークトレーニングにおいて、予め設定された重み行列を調整する。ネットワークのトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。
ここでの予め設定された活性化関数は、例えば、正規化線形関数(Rectified Linear Unit,ReLU)であってもよい。具体的な活性化関数は、本開示の実際の適用場面に応じて決定することができ、本開示において限定されない。
相対位置パラメータに対する特徴化処理のプロセスを容易に理解するために、以下、具体的な式で特徴化処理された相対位置特徴eijを説明する(詳細は式(6)を参照)。
Figure 2022518889000009
Mは、正弦・余弦変換行列を表し、M(rij)は、正弦・余弦変換行列Mによって前記相対位置パラメータrijをD次元の空間にマッピングすることを表し、Wは、予め設定された重み行列を表し、ReLUは、正規化線形関数を表す。
本開示の実施例では、特徴化処理によって相対位置パラメータをグラフ畳み込みニューラルネットワークのエッジためのデータ形式に変換することができ、その後にグラフ畳み込みニューラルネットワークによって特徴抽出を行うことは容易になる。
上述したように、本開示の実施例に記載の目標特徴は、被抽出テキストの全体的な視覚特徴を含んでもよいし、被抽出テキストのテキスト文字の特徴を含んでもよい。
可能な一実施形態では、各目標領域の目標特徴を決定することは、目標領域の画素データを決定し、画素データに対して特徴抽出を行って、視覚特徴を得ることと、目標領域のテキスト文字を決定し、テキスト文字に対して特徴抽出を行って、テキスト文字特徴を得ることと、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含む。
視覚特徴は、目標領域におけるテキストの全体的な視覚情報を反映することができる。視覚特徴を抽出する場合、具体的には関心領域アライメント(Region of Interest Align、RoI Align)方法によって抽出することができる。本開示では、視覚特徴を抽出する具体的な方法について限定されない。
本開示の実施例では、画像に撮影角度、光線や遮蔽などによる干渉がある場合、文字検出認識において、通常、多くの誤認識が生じ、すなわち、誤ったテキスト文字が認識されて、重要な情報の抽出正確性に影響を与えるおそれが考えられる。視覚情報を抽出し、視覚情報を加味して重要な情報抽出を行うことにより、重要な情報抽出に対するテキスト誤認識の影響が低減される。テキストが誤認識されても、視覚情報があまり変わらないので、両者の組み合わせにより重要な情報の抽出結果の正確性を向上させることができる。
目標領域のテキスト文字を決定する場合、文字認識技術によりテキスト文字を認識・抽出することができる。例えば、光学文字認識技術(Optical Character Recognition、OCR)を用いてテキスト文字に対して特徴抽出を行って、テキスト文字を得ることができる。本開示では、テキスト文字を抽出する具体的な方法について限定されない。
可能な一実施形態では、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることは、ワンホット(one-hot)エンコーディングの方式によってテキスト文字を低次元特徴空間にマッピングすることと、双方向の長短期記憶ネットワーク(Bi-LSTM)によって低次元特徴空間におけるテキスト文字を処理し、テキストの特徴表現を得る(すなわち、被抽出テキストの文字特徴が得られる)ことと、を含む。
ワンホットエンコーディングにより、離散特徴の値がユークリッド空間の点に対応するように、離散特徴(テキスト文字)の値をユークリッド空間に拡張することができ、特徴間の計算がより合理的になる。
可能な一実施形態では、抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合(例えば加算)して、目標領域の目標特徴を得ることと、を含む。
抽出結果に対する視覚特徴と文字特徴の影響は異なる可能性があるため、ここで視覚特徴と文字特徴に異なる重みを付与することにより、抽出結果の正確性を向上させる。ここでの重みは、ネットワークトレーニングによって最適化して得られてもよい。具体的なトレーニングプロセスについては後述するため、ここで詳細な説明を省略する。
テキスト文字に対する特徴化処理のプロセスを容易に理解するために、以下、具体的な式で特徴化処理された文字特徴を説明する。
被抽出テキストについて、テキスト文字s に対して特徴抽出を行って文字特徴tを得るプロセスは、使用可能な式(7)として表すことができる。
Figure 2022518889000010
W∈RC×D は、ワンホットエンコーディングの射影行列を表し、Bi-LSTMは、ワンホットエンコーディングされたテキスト文字を双方向長短期記憶ネットワークによって処理することを表し、s は、テキスト文字sのj番目の文字を表す。
文字特徴tに重みαを付与し、視覚特徴vに重み(1-α)を付与することにより、目標特徴nが得られる(詳細は、式(8)及び(9)を参照)。
Figure 2022518889000011
Figure 2022518889000012
∈R1×DtとW∈R1×Dvは、1次元射影行列であり、具体的にはネットワークトレーニングによって最適化して得られることができる。σは、活性化関数である。U∈RDh×DtとU∈RDh×Dtは、射影パラメータであり、同様にネットワークトレーニングによって最適化して得られることができる。
目標特徴nと相対位置特徴eijを得た後、グラフ畳み込みニューラルネットワークによって、相対位置特徴と目標特徴に対して特徴抽出を行うことができる。
可能な一実施形態では、グラフ畳み込みニューラルネットワークによって、相対位置特徴及び目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、各目標特徴をグラフのノードとし、各相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築することと、グラフ畳み込みニューラルネットワークによって、連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含む。
目標領域の相対位置特徴を、2つのノードを接続するエッジとして連結グラフを構築する場合、相対位置特徴をノード間の隣接行列のパラメータの一つとするが、隣接行列には、ノードの意味類似度などの他のパラメータがさらに含まれてもよい。本開示では、他のパラメータの具体的な設定について限定されない。
図2は、本開示に係る連結グラフの模式図である。この連結グラフでは、グラフのノードは、各目標特徴であり、2つのノードを接続するエッジは、目標領域の相対位置特徴である。
本開示の実施例で構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。
連結グラフが構築された後、グラフ畳み込みニューラルネットワークによって、連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることができる。任意のノードiの特徴は、反復するたびに、ノードiに接続された各ノードの隣接行列によって各ノードの特徴値を射影することにより更新される。複数回の反復後、各ノードの特徴値が反復回数の増加に伴って変化しなく、すなわち、ノードの特徴値が変わらない場合、収束条件を満たすと考えられる。収束条件を満たす連結グラフを抽出された特徴とすることができる。
理解を容易にするために、l+1回目の反復時のノードNの特徴Nl+1の式は以下のとおりである。
Figure 2022518889000013
は、l回目の反復時のノードNの特徴であり、 Wは、変換行列であり、ネットワークトレーニングによって最適化して得られることができる。Aは、ノードの隣接行列であり、ノードiとjの隣接行列A ijの式は以下のとおりである。
Figure 2022518889000014
Figure 2022518889000015
(n は、n の転置を表し、
Figure 2022518889000016
正規化パラメータを表し、ネットワークトレーニングによって最適化して得られることができる。
可能な一実施形態では、抽出された特徴を得た後、抽出された特徴に基づいて、被抽出テキストに対応するフィールドを決定することは、予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含む。
認識されたテキストには、プリセットフィールドの標識を表すテキストがある場合があり、プリセットフィールドのフィールド値を表すテキストがある場合もある。プリセットフィールドの標識を表すテキストは、画像におけるフィールド値が該当するフィールドを示すためのテキストであり、フィールド値は、フィールドの具体値である。例えば、プリセットフィールド「総価」の場合、画像で認識されたテキスト「総価」、「総価格」や「sub total」などはすべて、プリセットフィールド「総価」の具体的な標識であり、認識されたテキスト「19.88元」や「\:19.88」などはすべて、プリセットフィールドのフィールド値である。
したがって、プリセットフィールドについて、当該プリセットフィールドにそれぞれ対応する2つのカテゴリを設定することができる。この2つのカテゴリの一方は、プリセットフィールドの標識であるテキストを表すカテゴリであり、他方は、プリセットフィールドのフィールド値であるテキストを表すカテゴリである。複数の異なるプリセットフィールドがある場合、各プリセットフィールドのそれぞれに、2つのカテゴリを設定することができる。こうして、プリセットフィールドの標識であるテキストを表す複数のカテゴリ、及びプリセットフィールドのフィールド値であるテキストを表す複数のカテゴリがある。
例えば、商品の購入レシートを認識する場合、プリセットフィールドを「名称」、「住所」、「電話番号」、「日付」、「時間」、「商品カテゴリ」、「商品名」、「商品単価」、「単品総価」、「税金」、「合計総価」、「提示」との合計12つのプリセットフィールドに設定することができ、各プリセットフィールドのプリセットフィールド標識及び各プリセットフィールドのフィールド値をそれぞれ示す24つのカテゴリをプリセットすることができる。また、上記カテゴリに属しないテキストを区別して抽出するために、カテゴリ「その他」を設定することができる。すなわち、合計25つのカテゴリが設定される。
上記に挙げた25の具体的なプリセットカテゴリは以下のとおりである。
名称-標識;名称-フィールド値;住所-標識;住所-フィールド値;電話番号-標識;電話番号-フィールド値;日付-標識;日付-フィールド値;時間-標識;時間-フィールド値;商品カテゴリ-標識;商品カテゴリ-フィールド値;商品名-標識;商品名-フィールド値;商品単価-標識;商品単価-フィールド値;単品総価-標識;単品総価-フィールド値;税金-標識;税金-フィールド値;合計総価-標識;合計総価-フィールド値;提示-標識;提示-フィールド値;その他。
可 能な一実施形態では、本開示の実施例に係る画像処理方法は、予め構築された分類ネットワークによって実現され、当該分類ネットワークのトレーニングステップは、サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、前記対応関係及びラベリングされたカテゴリ間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含む。
この分類ネットワークは、本開示の画像処理技術を実現するために用いられてもよい。この分類ネットワークには、上述したグラフ畳み込みニューラルネットワークが含まれてもよい。また、本開示の各機能を実現するために、この分類ネットワークには、Bi-LSTMネットワークなどの他のネットワークが含まれてもよい。本開示の分類ネットワークに含まれるネットワークは、本開示の実施例の具体的な適用場面に応じて決定することができ、本開示において限定されない。
図3は、本願に係る分類ネットワークの具体的な実現形態の構造模式図である。ネットワークには、目標特徴抽出モジュール、相対位置特徴抽出モジュール、畳み込みネットワーク特徴抽出モジュール及び分類モジュールが含まれる。目標特徴抽出モジュールにより被抽出テキストを含む画像の目標特徴を抽出し、相対位置特徴抽出モジュールにより画像の相対位置特徴を抽出する。目標特徴及び相対位置特徴を畳み込みネットワーク特徴抽出モジュールに入力し、反復更新を行って、反復更新された特徴を得る。その後、反復更新された特徴を分類モジュールにより分類し、ノードの予測カテゴリを得る。カテゴリは、被抽出テキストに対応するフィールドを表すため、抽出された特徴に基づいて被抽出テキストのカテゴリが決定されると、被抽出テキストに対応するフィールドが決定される。各モジュールの具体的な機能の実現について、本開示の関連説明を参照できるので、ここで詳細な説明を省略する。
上記トレーニングプロセスでは、ラベリングされたカテゴリは、上述したプリセットカテゴリであってもよく、ここで詳細な説明を省略する。
前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングする場合、ラベリングされたカテゴリに対する第1の予測カテゴリの損失に基づいて、分類ネットワークによるサンプル画像の予測カテゴリとラベリングされたカテゴリとの差が最小となるように、分類ネットワークのパラメータを調整することができる。
また、トレーニングにおいて、2つのテキストがそれぞれ同じプリセットフィールドの標識及びフィールド値に該当するかどうかを加味することにより、分類ネットワークの分類正確性にも寄与できる。説明の便宜上、ここで、それぞれ同じプリセットフィールドの標識とフィールド値に該当する2つのテキストをフィールドペアという。例えば:テキスト「総価」と「19.88元」は、フィールドペアとなる。
したがって、前記分類ネットワークをトレーニングする場合、分類ネットワークから第1の予測カテゴリ内の各カテゴリ間の対応関係も出力する。また、サンプル画像においてもテキスト間の対応関係がラベリングされている。これにより、分類ネットワークから出力された対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることができる。
トレーニングに使用される損失関数は、具体的に、クロスエントロピー損失関数(Cross Entropy Loss、CE)であってもよい。具体的な損失関数は実際の必要に応じて選択することができる。本開示では、これについて具体的に限定されない。
本開示の実施例によれば、トレーニングされた分類ネットワークは、文字の重要な情報の抽出場合に被抽出テキストに対応するフィールドを決定するために用いることができる(詳細は、本開示に係る実施例を参照)。トレーニングに被抽出テキスト間の対応関係が用いられるので、トレーニングして得られた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、認識される画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含む。もちろん実際の適用では、本開示の実施例は、他の画像を認識することにも用いることができる。本開示では、これについて具体的に限定されない。
本開示の実施例によれば、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
本開示の実施例によれば、テキスト抽出を行う場合、目標領域のテキスト文字特徴を利用するだけでなく、目標領域の視覚特徴も利用するため、テキスト文字の誤認識による最終分類への影響が低減され、テキスト抽出時の正確性が向上される。また、テキスト領域間の空間位置関係を確立することにより、予め設計されたテンプレートに依存することなく、見たことのないテンプレートを処理することができ、スケーラビリティが向上される。
可能な一実施形態では、前記画像処理方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置などの端末装置、又はサーバなどの電子機器により実行されてもよい。前記方法は、プロセッサによりメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことで実現されてもよいし、サーバにより実行されてもよい。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
さらに、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る画像処理方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
図4は、本開示の実施例に係る画像処理装置のブロック図を示す。図4に示すように、前記画像処理装置20は、
画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュール21と、
前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュール22と、
各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュール23と、
グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュール24と、
抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュール25と、を含む。
本開示の実施例では、グラフ畳み込みニューラルネットワークによって、各目標領域間の相対位置特徴及び被抽出テキストの特徴に基づいて、画像における被抽出テキストに対応するフィールドを決定することができる。固定テンプレートに依存せずにテキスト抽出を行うことが可能となり、テンプレートに基づくテキスト抽出方法と比べて、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、グラフ畳み込みモジュール24は、
各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築するための第1のグラフ畳み込みサブモジュールと、
グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第2のグラフ畳み込みサブモジュールと、を含む。
本開示の実施例では、構築された連結グラフには、画像における目標特徴だけでなく、画像における目標特徴間の相対位置特徴も含まれるので、画像における文字の特徴を全体的に表すことができ、重要な情報の抽出結果の正確性を向上させることができる。
グラフ畳み込みニューラルネットワークによって特徴を抽出する場合、画像を連結グラフで表して、特徴を抽出することができる。連結グラフは、複数のノード(Node)と、2つのノードを接続するエッジ(Edge)とからなり、エッジは、異なるノード間の関係を示すためのものである。したがって、グラフ畳み込みニューラルネットワークによって抽出された特徴は、各目標領域間の相対位置及び被抽出テキストの特徴を正確に表すことができ、その後のテキスト抽出時の正確性を向上させることができる。
可能な一実施形態では、フィールド決定モジュール25は、
予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第1のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第1のフィールド決定サブモジュールと、
前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第2のフィールド決定サブモジュールと、を含む。
本開示の実施例では、プリセットカテゴリをプリセットフィールドの標識又はフィールドとして予め定義し、抽出された特徴に基づいて被抽出テキストを分類することにより、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを得ることができ、テキスト抽出時の正確性が向上される。
可能な一実施形態では、相対位置特徴決定モジュール22は、
画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定するための第1の相対位置特徴決定サブモジュールと、
前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得るための第2の相対位置特徴決定サブモジュールと、を含む。
可能な一実施形態では、前記相対位置パラメータは、
第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、
前記第1の目標領域のアスペクト比、
前記第2の目標領域のアスペクト比、
および前記第1の目標領域と前記第2の目標領域の相対寸法関係のうちの少なくとも1つを含む。
本開示の実施例では、相対位置パラメータには、横方向距離と縦方向距離も、第1の目標領域のアスペクト比も、第1の目標領域と第2の目標領域の相対寸法関係も含まれるため、重要な情報の抽出結果はより正確になる。
可能な一実施形態では、第2の相対位置特徴決定サブモジュールは、正弦・余弦変換行列によって前記相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記D次元の特徴ベクトルを1次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることとに用いられる。
本開示の実施例では、特徴化処理によって相対位置パラメータをグラフ畳み込みニューラルネットワークのエッジためのデータ形式に変換することができ、その後にグラフ畳み込みニューラルネットワークによって特徴抽出を行うことは容易になる。
可能な一実施形態では、目標特徴決定モジュール23は、
目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第1の目標特徴決定サブモジュールと、
目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第2の目標特徴決定サブモジュールと、
抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第3の目標特徴決定サブモジュールと、を含む。
本開示の実施例では、画像に撮影角度、光線や遮蔽などによる干渉がある場合、文字検出認識において、通常、多くの誤認識が生じ、すなわち、誤ったテキスト文字が認識されて、重要な情報の抽出正確性に影響を与えるおそれが考えられる。視覚情報を抽出し、視覚情報を加味して重要な情報抽出を行うことにより、重要な情報抽出に対するテキスト誤認識の影響が低減される。テキストが誤認識されても、視覚情報があまり変わらないので、両者の組み合わせにより重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、第3の目標特徴決定サブモジュールは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることとに用いられる。
本開示の実施例では、視覚特徴と文字特徴に異なる重みを付与することにより、重要な情報の抽出結果の正確性を向上させることができる。
可能な一実施形態では、前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、
サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得るための第1のトレーニングモジュールと、
前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第2のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第2のトレーニングモジュールと、
前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第3のトレーニングモジュールと、を含む。
本開示の実施例では、サンプル画像にカテゴリ及び各カテゴリ間の対応関係がラベリングされることにより、分類ネットワークをより正確にトレーニングすることができる。また、トレーニングされた分類ネットワークは、適合テンプレートのない画像に対してテキスト抽出を行う場合、正確性が高い。
可能な一実施形態では、前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含む。
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用できる。その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体がさらに提供される。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体であってもよいし、不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器がさらに提供される。
本開示の実施例では、コンピュータ読み取り可能なコードを含み、コンピュータ読み取り可能なコードが機器において稼働すると、機器のプロセッサは、上記いずれか1つの実施例に係る画像処理方法を実現するための命令を実行するコンピュータプログラム製品がさらに提供される。
本開示の実施例では、コンピュータ読み取り可能な命令を記憶するための別のコンピュータプログラム製品であって、命令が実行されると、上記いずれか1つの実施例に係る画像処理方法をコンピュータに実行させる別のコンピュータプログラム製品がさらに提供される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図5は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
図6は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各側面を実現させるためのコンピュータ読み取り可能なプログラム命令を有しているコンピュータ読み取り可能な記憶媒体を含んでもよい。
コンピュータ読み取り可能な記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、該コンピュータ読み取り可能なプログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能な記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能なプログラム命令を実行することにより、本開示の各側面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現するように、装置を製造してもよい。これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読み取り可能な記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ読み取り可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施されるプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
このコンピュータプログラム製品は、ハードウェア、ソフトウェア、またはそれらの組み合わせによって具体的に実現することができる。選択可能な実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化される。別の選択可能な実施例では、コンピュータプログラム製品は、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として具現化される。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (23)

  1. 画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定することと、
    前記画像における各目標領域間の相対位置特徴を決定することと、
    各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定することと、
    グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることと、
    抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することと、を含むことを特徴とする画像処理方法。
  2. グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得ることは、
    各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築することと、
    グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とすることと、を含むことを特徴とする請求項1に記載の方法。
  3. 抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定することは、
    予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得ることであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、
    前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定することと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記画像における各目標領域間の相対位置特徴を決定することは、
    画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定することと、
    前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることと、を含むことを特徴とする請求項1~3のいずれか1項に記載の方法。
  5. 前記相対位置パラメータは、
    第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、
    前記第1の目標領域のアスペクト比、
    前記第2の目標領域のアスペクト比、
    および前記第1の目標領域と前記第2の目標領域の相対寸法関係のうちの少なくとも1つを含むことを特徴とする請求項4に記載の方法。
  6. 前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得ることは、
    正弦・余弦変換行列によって前記相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、
    予め設定された重み行列によって前記D次元の特徴ベクトルを1次元の重み値に変換することと、
    予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることと、を含むことを特徴とする請求項4又は5に記載の方法。
  7. 各前記目標領域の目標特徴を決定することは、
    目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得ることと、
    目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得ることと、
    抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することと、を含むことを特徴とする請求項1~6のいずれか1項に記載の方法。
  8. 抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定することは、
    前記視覚特徴と文字特徴に異なる重みを付与することと、
    重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることと、を含むことを特徴とする請求項7に記載の方法。
  9. 前記方法は、予め構築された分類ネットワークによって実現され、前記分類ネットワークのトレーニングステップは、
    サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得ることと、
    前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングすることであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含むことと、
    前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングすることと、を含むことを特徴とする請求項1~8のいずれか1項に記載の方法。
  10. 前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
  11. 画像を認識し、前記画像において被抽出テキストの存在領域である複数の目標領域を決定するための認識モジュールと、
    前記画像における各目標領域間の相対位置特徴を決定するための相対位置特徴決定モジュールと、
    各前記目標領域の、前記被抽出テキストの特徴を含む目標特徴を決定するための目標特徴決定モジュールと、
    グラフ畳み込みニューラルネットワークによって、前記相対位置特徴及び前記目標特徴に対して特徴抽出を行って、抽出された特徴を得るためのグラフ畳み込みモジュールと、
    抽出された特徴に基づいて、前記被抽出テキストに対応するフィールドを決定するためのフィールド決定モジュールと、を含むことを特徴とする画像処理装置。
  12. 前記グラフ畳み込みモジュールは、
    各前記目標特徴をグラフのノードとし、各前記相対位置特徴を、2つのノードを接続するエッジとして、連結グラフを構築するための第1のグラフ畳み込みサブモジュールと、
    グラフ畳み込みニューラルネットワークによって、前記連結グラフを反復更新し、収束条件を満たす反復更新後の連結グラフを抽出された特徴とするための第2のグラフ畳み込みサブモジュールと、を含むことを特徴とする請求項11に記載の装置。
  13. 前記フィールド決定モジュールは、
    予め定義された複数のプリセットカテゴリに基づいて、グラフ畳み込みニューラルネットワークから出力された連結グラフのノードを分類し、ノードのカテゴリを得るための第1のフィールド決定サブモジュールであって、前記プリセットカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第1のフィールド決定サブモジュールと、
    前記ノードのカテゴリに基づいて、プリセットフィールドの標識又はフィールド値に対応する被抽出テキストを決定するための第2のフィールド決定サブモジュールと、を含むことを特徴とする請求項12に記載の装置。
  14. 相対位置特徴決定モジュールは、
    画像における第1の目標領域と第2の目標領域の相対位置パラメータを決定するための第1の相対位置特徴決定サブモジュールと、
    前記相対位置パラメータに対して特徴化処理を行って、第1の目標領域と第2の目標領域の相対位置特徴を得るための第2の相対位置特徴決定サブモジュールと、を含むことを特徴とする請求項11~13のいずれか1項に記載の装置。
  15. 前記相対位置パラメータは、
    第2の目標領域に対する第1の目標領域の横方向距離と縦方向距離、
    前記第1の目標領域のアスペクト比、
    前記第2の目標領域のアスペクト比、
    および前記第1の目標領域と前記第2の目標領域の相対寸法関係のうちの少なくとも1つを含むことを特徴とする請求項14に記載の装置。
  16. 第2の相対位置特徴決定サブモジュールは、正弦・余弦変換行列によって前記相対位置パラメータをD(Dは、正の整数)次元の空間にマッピングし、D次元の特徴ベクトルを得ることと、予め設定された重み行列によって前記D次元の特徴ベクトルを1次元の重み値に変換することと、予め設定された活性化関数によって前記重み値を処理し、相対位置特徴を得ることとに用いられることを特徴とする請求項14又は15に記載の装置。
  17. 目標特徴決定モジュールは、
    目標領域の画素データを決定し、前記画素データに対して特徴抽出を行って、視覚特徴を得るための第1の目標特徴決定サブモジュールと、
    目標領域のテキスト文字を決定し、前記テキスト文字に対して特徴抽出を行って、文字特徴を得るための第2の目標特徴決定サブモジュールと、
    抽出された視覚特徴及び文字特徴に基づいて、目標領域の目標特徴を決定するための第3の目標特徴決定サブモジュールと、を含むことを特徴とする請求項11~16のいずれか1項に記載の装置。
  18. 第3の目標特徴決定サブモジュールは、前記視覚特徴と文字特徴に異なる重みを付与することと、重みが付与された前記視覚特徴と文字特徴を融合して、目標領域の目標特徴を得ることとに用いられることを特徴とする請求項17に記載の装置。
  19. 前記装置は、予め構築された分類ネットワークによって実現され、前記装置はさらに、
    サンプル画像を前記分類ネットワークに入力して処理し、サンプル画像における被抽出テキストの第1の予測カテゴリ及び前記第1の予測カテゴリ内の各カテゴリ間の対応関係を得るための第1のトレーニングモジュールと、
    前記第1の予測カテゴリ及び前記サンプル画像のラベリングされたカテゴリに基づいて、前記分類ネットワークをトレーニングするための第2のトレーニングモジュールであって、前記ラベリングされたカテゴリは、プリセットフィールドの標識であるテキストを表すカテゴリと、プリセットフィールドのフィールド値であるテキストを表すカテゴリとを含む第2のトレーニングモジュールと、
    前記対応関係及び被抽出テキスト間のラベリングされた対応関係に基づいて、前記分類ネットワークをトレーニングするための第3のトレーニングモジュールと、を含むことを特徴とする請求項11~18のいずれか1項に記載の装置。
  20. 前記画像は、レシート画像、領収書画像及び名刺画像のうちの少なくとも1つを含むことを特徴とする請求項11~19のいずれか1項に記載の装置。
  21. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリとを含み、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1~10のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
  22. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1~10のいずれか1項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
  23. コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において稼働すると、前記電子機器のプロセッサに、請求項1~10のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
JP2021538344A 2019-12-27 2020-02-28 画像処理方法及び装置、電子機器並びに記憶媒体 Active JP7097513B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911387827.1 2019-12-27
CN201911387827.1A CN111191715A (zh) 2019-12-27 2019-12-27 图像处理方法及装置、电子设备和存储介质
PCT/CN2020/077247 WO2021128578A1 (zh) 2019-12-27 2020-02-28 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022518889A true JP2022518889A (ja) 2022-03-17
JP7097513B2 JP7097513B2 (ja) 2022-07-07

Family

ID=70707802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021538344A Active JP7097513B2 (ja) 2019-12-27 2020-02-28 画像処理方法及び装置、電子機器並びに記憶媒体

Country Status (5)

Country Link
JP (1) JP7097513B2 (ja)
KR (1) KR20210113192A (ja)
CN (1) CN111191715A (ja)
TW (1) TWI736230B (ja)
WO (1) WO2021128578A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801099B (zh) * 2020-06-02 2024-05-24 腾讯科技(深圳)有限公司 一种图像处理方法、装置、终端设备及介质
CN111695517B (zh) * 2020-06-12 2023-08-18 北京百度网讯科技有限公司 图像的表格提取方法、装置、电子设备及存储介质
CN112069877B (zh) * 2020-07-21 2022-05-03 北京大学 一种基于边缘信息和注意力机制的人脸信息识别方法
CN112016438B (zh) * 2020-08-26 2021-08-10 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112784720A (zh) * 2021-01-13 2021-05-11 浙江诺诺网络科技有限公司 基于银行回单的关键信息提取方法、装置、设备及介质
CN113506322B (zh) * 2021-07-15 2024-04-12 清华大学 图像处理方法及装置、电子设备和存储介质
CN113688686B (zh) * 2021-07-26 2023-10-27 厦门大学 基于图卷积神经网络的虚拟现实视频质量评价方法
CN113592817A (zh) * 2021-07-30 2021-11-02 深圳市商汤科技有限公司 检测呼吸率的方法、装置、存储介质及电子设备
CN113705559B (zh) * 2021-08-31 2024-05-10 平安银行股份有限公司 基于人工智能的文字识别方法及装置、电子设备
CN113807369A (zh) * 2021-09-26 2021-12-17 北京市商汤科技开发有限公司 目标重识别方法及装置、电子设备和存储介质
CN114037985A (zh) * 2021-11-04 2022-02-11 北京有竹居网络技术有限公司 信息提取方法、装置、设备、介质及产品
KR102485944B1 (ko) 2021-11-19 2023-01-10 주식회사 스탠다임 트랜스포머 신경망에서의 그래프 인코딩 방법
CN114283403B (zh) * 2021-12-24 2024-01-16 北京有竹居网络技术有限公司 一种图像检测方法、装置、存储介质及设备
CN114724133B (zh) * 2022-04-18 2024-02-02 北京百度网讯科技有限公司 文字检测和模型训练方法、装置、设备及存储介质
CN114511864B (zh) * 2022-04-19 2023-01-13 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备
CN114863245B (zh) * 2022-05-26 2024-06-04 中国平安人寿保险股份有限公司 图像处理模型的训练方法和装置、电子设备及介质
CN116383428B (zh) * 2023-03-31 2024-04-05 北京百度网讯科技有限公司 一种图文编码器训练方法、图文匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132639A (ja) * 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
JP2019105915A (ja) * 2017-12-11 2019-06-27 富士通株式会社 生成プログラム、情報処理装置及び生成方法
JP2019109562A (ja) * 2017-12-15 2019-07-04 京セラドキュメントソリューションズ株式会社 フォーム種別学習システムおよび画像処理装置
JP2019191783A (ja) * 2018-04-20 2019-10-31 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756871B2 (en) * 2004-10-13 2010-07-13 Hewlett-Packard Development Company, L.P. Article extraction
CN101894123A (zh) * 2010-05-11 2010-11-24 清华大学 基于子图的链接相似度的快速近似计算系统和方法
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
CN105786980B (zh) * 2016-02-14 2019-12-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN109977723B (zh) * 2017-12-22 2021-10-22 苏宁云商集团股份有限公司 大票据图片文字识别方法
CN108549850B (zh) * 2018-03-27 2021-07-16 联想(北京)有限公司 一种图像识别方法及电子设备
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN108921166A (zh) * 2018-06-22 2018-11-30 深源恒际科技有限公司 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN110766014B (zh) * 2018-09-06 2020-05-29 邬国锐 票据信息定位方法、系统及计算机可读存储介质
CN109952742B (zh) * 2018-12-04 2022-02-22 区链通网络有限公司 图结构处理方法、系统、网络设备及存储介质
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN110276396B (zh) * 2019-06-21 2022-12-06 西安电子科技大学 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110598759A (zh) * 2019-08-23 2019-12-20 天津大学 一种基于多模态融合的生成对抗网络的零样本分类方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132639A (ja) * 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
JP2019105915A (ja) * 2017-12-11 2019-06-27 富士通株式会社 生成プログラム、情報処理装置及び生成方法
JP2019109562A (ja) * 2017-12-15 2019-07-04 京セラドキュメントソリューションズ株式会社 フォーム種別学習システムおよび画像処理装置
JP2019191783A (ja) * 2018-04-20 2019-10-31 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置

Also Published As

Publication number Publication date
TW202125307A (zh) 2021-07-01
JP7097513B2 (ja) 2022-07-07
TWI736230B (zh) 2021-08-11
CN111191715A (zh) 2020-05-22
WO2021128578A1 (zh) 2021-07-01
KR20210113192A (ko) 2021-09-15

Similar Documents

Publication Publication Date Title
JP7097513B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
KR102593020B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US20210232847A1 (en) Method and apparatus for recognizing text sequence, and storage medium
JP7089106B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラム
WO2021051857A1 (zh) 目标对象匹配方法及装置、电子设备和存储介质
WO2021008022A1 (zh) 图像处理方法及装置、电子设备和存储介质
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
CN111753822A (zh) 文本识别方法及装置、电子设备和存储介质
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
WO2021208667A1 (zh) 图像处理方法及装置、电子设备和存储介质
KR20200131305A (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN111581488A (zh) 一种数据处理方法及装置、电子设备和存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
KR102454515B1 (ko) 네트워크 최적화 방법 및 장치, 이미지 처리 방법 및 장치, 및 기억 매체
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN109522937B (zh) 图像处理方法及装置、电子设备和存储介质
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN113283343A (zh) 人群定位方法及装置、电子设备和存储介质
CN110070046B (zh) 人脸图像识别方法及装置、电子设备和存储介质
CN111178115A (zh) 对象识别网络的训练方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R150 Certificate of patent or registration of utility model

Ref document number: 7097513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150