JP2022161564A - テキスト画像の文字を認識する機械学習モデルを訓練するシステム - Google Patents

テキスト画像の文字を認識する機械学習モデルを訓練するシステム Download PDF

Info

Publication number
JP2022161564A
JP2022161564A JP2021066477A JP2021066477A JP2022161564A JP 2022161564 A JP2022161564 A JP 2022161564A JP 2021066477 A JP2021066477 A JP 2021066477A JP 2021066477 A JP2021066477 A JP 2021066477A JP 2022161564 A JP2022161564 A JP 2022161564A
Authority
JP
Japan
Prior art keywords
text
network
character
text image
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021066477A
Other languages
English (en)
Other versions
JP2022161564A5 (ja
Inventor
コンカ グエン
Congkha Nguyen
良介 大館
Ryosuke Odate
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021066477A priority Critical patent/JP2022161564A/ja
Priority to US17/714,322 priority patent/US20220327816A1/en
Publication of JP2022161564A publication Critical patent/JP2022161564A/ja
Publication of JP2022161564A5 publication Critical patent/JP2022161564A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】より少ない訓練データでテキスト画像認識モデルの認識精度を向上する。【解決手段】システムは、テキスト画像の文字を認識する機械学習モデルを格納する。テキスト画像の文字を認識する機械学習モデルは、テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、視覚的特徴量に基づき、テキスト画像のドメインを分類する、ドメイン適応ネットワークと、文字境界ボックス及び視覚的特徴量に基づき、テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含む。システムは、ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して文字セグメンテーションネットワークを逆伝搬する。システムは、テキスト認識ネットワークの訓練における勾配を、文字セグメンテーションネットワークを逆伝搬する。【選択図】図1

Description

本開示は、テキスト画像認識に関する。
近年、業務を効率化するために、テキスト画像認識システムを使用して様々な種類の文書を自動認識することが、小売、官公庁、教育、運輸、物流、ヘルスケアなど多くの分野で普及してきている。深層学習の大きな進歩により、テキスト画像認識技術は、徐々に向上し、非特許文献1に示すように、90%を超える認識率でシーンテキストデータを認識するなど、特定のデータについて成功を収めている。
基本的に、深層学習モデルの学習には、テキスト画像認識モデルと同様に、大量のラベルを有するデータが必要である。この点は、深層学習をベースとするシステムのボトルネックの1つである。そこで、少量の他の種類のテキストのラベル付き文書で訓練するだけでも、様々な種類の文書を認識できるロバストモデルが強くも求められている。
これは、各ドメインが文書の種類である、マルチドメイン適応と呼ばれるものである。これにより、訓練のためのラベル付けされたデータのコスト及びシステム拡張のためのコストを削減し、個別のクライアントの対応が可能となる。このようなテキスト画像認識モデルを構築するための多くの解決策が提案されており、例えば、データ拡張、転移学習、不変表現学習などを使用する。しかし、フォント、手書きスタイル、背景及び文字レイアウトなどのテストデータの多様性のため、上述のようなテキスト画像認識モデルの構築は、なお大きな挑戦である。
深層学習の急激な進歩と共に、畳み込みニューラルネットワーク(CNN)、長短期記憶(LSTM)、及びConnectionist Temporal Classification(CTC)に基づく手法が提案され、従来の手法よりも高い性能を達成している。これらは、複雑な背景及び手書きスタイルに対してロバストであり、従来手法のように訓練プロセスを小さな段階に分けることなく、エンド・ツー・エンドで訓練を行うことができる。
この手法の一つの問題は、出力ラベルを推定するとき、LSTMの時間ステップの特徴量の独立性を仮定することである。これは、モデルの精度を低下させるハードアライメント問題として知られている。最近、アテンション機構に基づく手法が、この問題を解決するために提案された。この方法において、モデルは、全結合層によって、出力シーケンスの欠く要素に対するコード化された視覚的特徴量の注目されている位置を学習する。
本来、このアテンション機構は、sequence-to-sequence翻訳のためのものであり、そこでは、出力シーケンスの1つの要素は、任意のコード化された視覚的特徴量にアライメントされ得る。この柔軟性のため、特に長文画像や長さが変化するコード化された視覚的特徴量及び出力シーケンスを認識するとき、出力シーケンスの文字を、非文字特徴量又は他の文字の特徴量に誤って位置合わせ(アライメント)することがあり得る。これは、アテンション機構における不整合問題として知られている。
関連技術について、非特許文献2は、テキスト画像認識のためのドメイン適応の方法を提案している。この方法は、上記アテンション機構に基づく。この方法のワークフローは以下の通りである。
ソースドメイン及びターゲットドメインのテキスト画像は、いくつかの畳み込み層に与えられて、特徴量が抽出される。ソースドメインは、テキストラベルが付属する画像を含み、ターゲットドメインは、テキストラベルが無い画像をテストする。アテンションユニットが使用され、出力シーケンスの各文字を、ソースドメインの画像のエンコードされた視覚的特徴量に位置合わせする。次に、デコーダが採用されて、エンコードされた視覚的特徴量を出力シーケンスにデコードする。上記ステップは、テキスト画像認識のためのものである。
テキスト画像認識モデルをターゲットドメインに汎化するためには、テキスト画像はしばしば複雑な背景や様々なスタイルの文字パターンを含むので、テキスト画像全体の特徴量よりも、文字レベルの特徴量を抽出することが必要である。アテンションユニットは、ソースドメイン及びターゲットドメインのテキスト画像の文字位置に注目し、注目位置において文字レベルの特徴量を抽出する。ソースドメインの画像及びターゲットドメインの画像の文字レベルの特徴空間は、距離関数によって整列される。特徴空間整列の訓練勾配は、共有された重みを有するアテンションユニットに、逆伝搬されるので、アテンションユニットをターゲットドメインに適応させる。
この手法の問題点として、アテンション機構は、文字レベルの特徴抽出において上手く機能することを、理想として前提としている。しかし、これは、上述のようなアテンション機構のズレの問題によって制限される。さらに、2つのドメインの文字レベル特徴空間の距離関数による整列は、効果的ではない場合がある。これは、各訓練反復において同時にモデルに与えられるソースドメインの画像及びターゲットドメインの画像のテキストコンテンツが、異なるためである。また、アテンションユニットの位置ずれ問題は、テキスト画像認識モデルの認識精度に影響を与える。
非特許文献2は、テキスト画像認識のドメイン適応の手法を提示している。アテンションユニットを利用して文字の位置に注目し、訓練ドメイン適応のために文字レベルの特徴量を抽出する。
位置ずれ問題のため、非特許文献2のアテンションユニットは、文字レベルの特徴量を上手く抽出できない。このアテンションユニットは、文字レベルの特徴量を抽出した後、距離関数を使用して、ソースドメイン及びターゲットドメインの文字レベル特徴量空間を整列させる。これは、ソースドメイン及びターゲットドメインのテキストイメージのコンテンツが異なるため、効果がない。
Chen, Xiaoxue, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang. "Text Recognition in the Wild: A Survey." arXiv preprint arXiv:2005.03492 (2020). Zhang, Yaping, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, and Heng Tao Shen. "Sequence-to-sequence domain adaptation network for robust text-image recognition." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2740-2749. 2019.
従来のアテンション機構に基づくテキスト画像認識方法における位置ずれ問題は、テキスト画像認識モデルの認識精度を低下させる。従って、より少ない訓練データでテキスト画像認識モデルの認識精度を向上する技術が望まれる。
本開示の一態様は、テキスト画像の文字を認識する機械学習モデルを訓練するシステムであって、1以上のプロセッサと、1以上の記憶装置と、を含み、前記1以上の記憶装置は、テキスト画像の文字を認識する機械学習モデルを格納し、前記テキスト画像の文字を認識する機械学習モデルは、テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、前記1以上のプロセッサは、前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、システム。
より少ない訓練データでテキスト画像認識モデルの認識精度を向上することができる。
本明細書の一実施形態に係る、マルチドメイン適応文字認識モデルの概要を示す。 入力データの例を示す。 本明細書の一実施形態にかかるテキスト画像認識システムのハードウェア構成例を示す。 本明細書の一実施形態の文字セグメンテーションネットワークの詳細構成を示すブロック図である。 本明細書の一実施形態のマルチドメイン適応ネットワークの詳細構成を示すブロック図である。 本明細書の一実施形態のテキスト認識ネットワークの詳細構成を示すブロック図である。 文字セグメンテーションネットワーク、マルチドメイン適応ネットワーク、及びテキスト認識ネットワークの結果を修正するための、修正GUIの例を示す。 入力訓練データ及びテスト出力のメタデータファイルの例を示す。
以下においては、便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上のプロセッサを含む。
プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
本明細書の一実施形態は、文字セグメンテーションネットワークを使用して、マルチドメイン適応の訓練のための文字レベルの特徴量を抽出する。いくつかの全結合層を含むドメイン識別器を使用して、ドメイン適応を促進する。ドメイン識別器は、訓練可能な層を含み、ハード距離関数と比較して、次の訓練反復のための文字レベルの特徴量を記憶できる。
本明細書の一実施形態は、文字セグメンテーション結果を使用して、特徴量抽出においてテキスト画像における注目位置を誘導する。これにより、位置ずれ問題が、マルチドメイン適応学習及びテキスト画像認識モデルの認識精度に影響を及ぼすことを防ぐことができる。マルチドメイン適応ネットワークと文字セグメンテーションを使用した手法により、モデルを様々な種類のテキスト画像に対して汎化し、高精度な文字認識を実現できる。
以下、本明細書の実施形態を、図面を参照しつつ説明する。図1は、本明細書の一実施形態に係る、マルチドメイン適応文字認識モデルの訓練の概要を示す。実線矢印は、層又はブロック間でフィードフォワードされる特徴量等のデータを示す。破線矢印は、勾配逆伝搬を示す。この点は他の図面において同様である。運用段階において、マルチドメイン適応文字認識モデルは、ラベル無しのテキスト画像から文字を抽出する。
マルチドメイン適応文字認識モデルは、文字セグメンテーションネットワーク104、マルチドメイン適応ネットワーク106、及びテキスト認識ネットワーク107の3つの構成要素を含む。各ネットワークの処理の詳細は、図4から図6を参照して後述される。
文字セグメンテーションネットワーク104は、マルチドメイン適応ネットワーク106及びテキスト認識ネットワーク107に共有されている。マルチドメイン適応文字認識モデルは、テキスト画像認識及びドメイン適応のための特徴量を学習するために、訓練の反復ごとに重みを調整する。
マルチドメイン適応ネットワーク106は、入力画像のドメインを識別するために学習する。マルチドメイン適応ネットワーク106は、学習の反復ごとに勾配を共有重み文字セグメンテーションネットワーク104に逆伝搬して、モデルが、様々な種類のテキスト画像を認識するために汎化されるようにする。
マルチドメイン適応ネットワーク106は、ドメイン分類結果の誤差(ドメイン分類誤差)が小さくなるように誤差逆伝搬により更新される。マルチドメイン適応ネットワーク106は、勾配反転層を含み、負の勾配(-gradient)が、文字セグメンテーションネットワーク104を逆伝搬される。これにより、文字セグメンテーションネットワーク104は、様々なドメインに普遍的な特徴を学習することができる。
テキスト認識ネットワーク107は、文字セグメンテーションネットワーク104により抽出された特徴量から入力画像を認識する。テキスト認識ネットワーク107は文字セグメンテーションネットワーク104による文字セグメンテーション結果を使用する。文字セグメンテーション結果は、テキスト認識ネットワーク107の注目位置を誘導する。これにより、ドメイン適応テキスト画像認識モデルの認識精度を向上させることができる。
テキスト認識ネットワーク107は、文字認識結果の誤差(文字認識誤差)が小さくなるように誤差逆伝搬により更新される。テキスト認識ネットワーク107からの誤差は、反転されることなく、文字セグメンテーションネットワーク104を逆伝搬される。これにより、文字セグメンテーションネットワーク104は、認識する文字の特徴を学習することができる。
反復して行われる訓練の各反復単位(訓練反復とも呼ぶ)のため、2種類のテキスト画像が、ドメイン適応テキスト画像認識モデルの入力層102に与えられる。1つの種類のテキスト画像は、ドメイン名のみがラベル付けされている。それらを半ラベル付きテキスト画像100と呼ぶ。他の種類のテキスト画像は、文字及びドメインのラベル付けがなされ、さらに、文字境界ボックスが示される。これらを、完全ラベル付きテキスト画像101と呼ぶ。
図2は、入力データの例を示す。図2は、各訓練反復において入力される2種類の入力データの例を示す。図2は、三つの半ラベル付きテキスト画像100と、一つの完全ラベル付きテキスト画像101を示す。
半ラベル付きテキスト画像100は、画像と画像に対して付与されたドメインラベルとで構成されている。図2において、三つの画像それぞれに、シーンテキスト、手書き及びレシートのドメインラベルが与えられている。
完全ラベル付きテキスト画像101は、画像、画像に対して付与されたドメインラベル及びテキストラベルで構成されている。図2に示す完全ラベル付きテキスト画像101は、新たに生成されたテキスト画像であることを示す分類(生成テキスト画像ドメインとも呼ぶ)と、「お菓子」のテキストラベルを有している。このような完全ラベル付きテキスト画像101は、利用可能なフォント及びテキストから生成できる。テキストラベル、ドメインラベル、及び文字境界ボックスを簡単に取得することができる。
図2の例において、一つの文字に対して一つの文字境界ボックスが割り当てられている。文字境界ボックスは単一の文字を囲むことで、文字認識精度を上げることができる。他の例において、一つの文字境界ボックスが複数の文字を囲んでもよい。
完全ラベル付きテキスト画像101と半ラベル付きテキスト画像100とは、異なる特徴量分布を有している。本明細書の一実施形態のマルチドメイン適応文字認識モデルは、一部のドメインの完全ラベル付きテキスト画像での訓練により、他のドメインの半ラベル付きテキスト画像を認識可能となる。
図2の例において、生成テキスト画像ドメインの完全ラベル付きテキスト画像で訓練されることで、マルチドメイン適応文字認識モデルは、手書きテキスト画像、シーンテキスト画像、レシートテキスト画像など、他のドメインの半ラベル付きテキスト画像を認識可能となる。
完全ラベル付きテキスト画像は、テキストラベル、ドメインラベル、及び文字境界ボックスが利用可能な、任意の種類のテキスト画像でよい。より多くのドメインの完全ラベル付きテキスト画像は、マルチドメイン適応文字認識モデルの認識精度を向上させる。半ラベル付き画像としては、例えば、テキストラベル及び文字境界ボックスなしで認識する必要がある全てのドメインのテキスト画像が用意される。訓練データが一部のドメインのテキスト画像で構成されてもよいが、より多くのドメインの訓練データはマルチドメイン適応文字認識モデルの認識精度を向上させる。
図3は、本明細書の一実施形態にかかるテキスト画像認識システムのハードウェア構成例を示す。図1を参照して説明したマルチドメインテキスト画像認識モデルは、テキスト画像認識システムに実装することができる。テキスト画像認識システムは、マルチドメインテキスト画像認識モデルにより入力されたテキスト画像の文字認識を実行するし、さらに、マルチドメインテキスト画像認識モデルの訓練(学習)を実行する。
テキスト画像認識システムは、例えば、計算機構成を有することができる。演算性能を有するプロセッサ301と、プロセッサ301が実行するプログラム及びデータを格納する揮発性一時記憶領域を与える主記憶装置であるDRAM302と、を含む。さらに、テキスト画像認識システムは、HDD(Hard Disk Drive)やフラッシュメモリなどを利用した永続的な情報記憶領域を与える補助記憶装置304を含む。DRAM302、補助記憶装置304及びこれらの組み合わせは、それぞれ記憶装置である。
テキスト画像認識システムは、さらに、他の装置とデータ通信をおこなう通信装置303と、ユーザからの操作を受け付ける入力装置305と、各プロセスでの出力結果をユーザに提示するモニタ306(出力装置の例)と、を含む。これら構成要素は、バスを介して通信可能である。テキスト画像認識システムの構成要素のそれぞれの数は任意であり、一部の構成要素、例えば、入力装置305及びモニタ306は省略されてもよい。
図1を参照して説明した構成要素は、例えば、命令コードを含むプログラムを実行するプロセッサ301により実装することができる。機能部を実現するためのプログラムは、例えば補助記憶装置304に格納される。プロセッサ301が実行するプログラム及び処理対象のデータは、補助記憶装置304からDRAM302にロードされる。システム内の機能は、プログラムに従って動作するプロセッサに代えて、特定の機能向けの回路により実装されてもよい。
テキスト画像認識システムは、図3に示すような物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上のプロセッサを含む。
プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを含むシステムが行う処理としてもよい。
プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
図4は、本明細書の一実施形態の文字セグメンテーションネットワーク104の詳細構成を示すブロック図である。完全ラベル付きテキスト画像と半ラベル付きテキスト画像の双方が、2つのサブネットワークを含む文字セグメンテーションネットワーク104に供給される。2つのサブネットワークは、特徴ピラミッドネットワーク(FPN)103と領域提案ネットワーク(RPN)105である。
入力画像の特徴量は、FPNの連結された4つの深層レベル400-403で抽出される。FPNの例は、逐次畳み込み層を含むVGGNetや、複数の残差ブロックからなるResNet、U-Net、又は任意のダウンサンプリング畳み込みニューラルネットワーク(CNN)を含む。VGGNet、ResNet、U-Netは、公知の技術であり詳細な説明を省略する。特徴量は、1つ以上の深層レベルで抽出することができる。深層レベルは、例えば、受容野や解像度が異なり得る。
各レベル400-403の特徴量は、2つの畳み込み層404、405に入力される。具体的には、レベル400-403の特徴量は畳み込み層1(404)に入力され、畳み込み層1(404)の出力が畳み込み層2(405)に入力される。
領域提案ネットワーク105は、各特徴レベル400-403の文字領域を評価し、全ての特徴レベルについて評価結果を結合し、重複する文字領域を破棄する。文字境界ボックスの損失は、完全ラベル付きテキスト画像について計算される。損失関数Lcは、L1損失関数である。文字セグメンテーション結果108は、修正GUI111によって、確認、修正及び保存することができる。修正された文字境界ボックスは、次の訓練反復に使用してもよい。この文字セグメンテーション処理は、インスタンスセグメンテーションとして知られている。他の例において、セマンティックセグメンテーションを使用してもよい。
図5は、本明細書の一実施形態のマルチドメイン適応ネットワーク106の詳細構成を示すブロック図である。図5は、マルチドメイン適応のための畳み込みニューラルネットワークの構造例を示す。領域提案ネットワーク105によって提案された半ラベル付きテキスト画像100及び完全ラベル付きテキスト画像101の文字パターンの境界ボックス108は、深層レベル400-403の特徴マップと照合され、文字レベル特徴量が取得される。マルチドメイン適応ネットワーク106には、深層レベル400-403の特徴マップと境界ボックス108が入力される。
文字レベル特徴量を抽出するために従来のアテンションユニットを使用することと比較して、文字セグメンテーションネットワーク104は、文字の位置を特定するためのアンカーボックスを決定する。これにより、効率的に、視覚的特徴量を文字位置に一意に合せることができる。一方、従来のアテンションユニットは、視覚的特徴量を文字位置に自由に合わせる。
文字レベル特徴量は、Region of Interest Align層500に渡される。RoI Align層500は、RoI Alignによって、特徴マップから文字境界ボックスに対応する特徴マップを抽出する層である。RoI Align層500は、双線形補間とmax/averageプーリングを使用することができる。RoI Align層500において、文字レベル特徴マップは、同じサイズに再スケーリングされる。そのサイズは、予め定義されている。特徴マップは、特徴結合層(Feature Concatenation Layer)501によって特定の軸に沿って結合される。これにより、高精度なドメイン分類が可能となる。
RoIAlign500は、Region of Interest pooling(RoI pooling)に置き換えることもできる。ただし、これはRoI alignよりも性能が低い。ドメイン識別ブロック502は、いくつかの全結合層とソフトマックス層とから構成することができる。訓練において、抽出された文字レベル特徴量を使用して、半ラベル付き画像及び完全ラベル付き画像を、対応するドメインに分類する。ドメイン識別の損失関数Ldは、多クラス交差エントロピ(categorical cross-entropy)関数である。
ドメイン識別ブロック502は、訓練において、ドメイン間の文字パターンの識別特徴を学習する。文字パターンの不変的特徴を学習できるように、訓練時に文字セグメンテーションネットワーク104の共有層に逆伝搬される勾配は、マイナスにされる。
他の例は、畳み込みブロック4(403)からの完全ラベル付きテキスト画像101と半ラベル付きテキスト画像100の特徴マップを、ドメイン識別ブロック502に直接入力してもよい。つまり、RoI Align層500及び特徴結合層501が省略されてもよい。ドメイン識別ブロック502は、それらを対応するドメインに分類する。この手法は、グローバル・マルチドメイン・アダプテーションと呼ぶことがある。
このように、文字レベルの特徴マップは、テキスト画像全体の特徴マップに置き換えることができる。文字セグメンテーションネットワーク104の特徴ピラミッドネットワーク103を用いて、テキスト画像全体の特徴量を抽出し、その特徴量を直接ドメイン識別ブロック502に入力する。この場合、マルチドメイン適応は、テキスト画像全体の特徴レベルでのマルチドメイン適応となる。
ハード距離関数を使用して、2つの領域の文字レベル特徴空間の分布を合わせる手法がある。しかし、この手法は効率的ではない。これは、2つの入力の文字内容が同一ではない場合があるからである。これに対して、学習可能なドメイン識別ブロック502は、更新されるパラメータ(重み)に特徴量を記憶することができるので、より柔軟で効果的である。ドメインラベル109は、修正GUI111によって、確認、修正及び保存することができる。修正されたドメインラベルは、次の訓練反復に使用されてもよい。
図6は、本明細書の一実施形態のテキスト認識ネットワーク107の詳細構成を示すブロック図である。テキスト画像認識のための複数の再帰型ニューラルネットワークの組み合わせが示されている。特徴ピラミッドネットワーク103の最も深いレベル403で抽出された完全ラベル付きテキスト画像101の特徴マップは、特徴エンコーダ(RNNエンコーダ)601によって順次コード化(エンコード)される。
本例において、RNNエンコーダ601は、双方向長短記憶(BLSTM)エンコーダ600を含む。BLSTMは、特徴量の空間的コンテキストを双方向に学習する。BLSTMの代わりに使用可能なRNNエンコーダの例は、Long Short-Term Memory Network(LSTM)、Gated Recurrent Units(GRU)などである。
隠れコード化特徴量h_tは、BLSTM演算子(BLSTM())で計算される。
H=BLSTM(V)
V={v_0、v_1、・・・v_N-1}は畳み込みブロック4(403)からの特徴マップである。
H={h_0、h_1、・・・h_N-1}は、コード化視覚的特徴量又はBLSTMエンコーダ600の隠れ状態である。NはVの幅である。特徴量コード化処理は、特徴ピラミッドネットワーク103とBLSTMエンコーダ600により実行される。これにより高精度な処理が可能となる。なお、BLSTMエンコーダ600を省略してもよい。
テキストラインの方向に沿って、文字セグメンテーションネットワーク104によって提案された、テキスト画像上の文字パターンの境界ボックスが、コード化視覚的特徴量と順次照合される。文字パターンα_uの再スケールされた境界ボックスをマスクとして、コード化視覚的特徴量に当てることで、コンテキストベクトルc_uが抽出される。コンテキストベクトルc_uは、コード化視覚的特徴量から抽出された文字認識のために参照するコード化特徴量(情報)を示す。
コンテキストベクトルc_uを生成するこの位置合わせ処理(Align())は、位置合わせ層602で行われる。
c_u=Align(α_u,H)
u∈Uは、文字セグメンテーションネットワーク104による文字境界ボックスの番号であり、Uは文字境界ボックスの総数である。
従来の方法では、出力シーケンスの各文字は、任意の視覚的特徴量に任意の順序で位置合わせされる。これに対して、文字のセグメンテーション結果を位置合わせに用いることで、コード化視覚的特徴量は、文字位置に限定され、位置合わせの順序が固定される。
次に、シーケンスデコーダ(RNNデコーダ)603は、GRUを使用して、コード化視覚的特徴量をテキストラベル110に変換する。GRUは、LSTMまたは他の任意のRNNで置き換えてもよい。時間ステップuにおけるGRUの隠れ状態s_uは、GRU演算子(GRU())により、以下のように与えられる。
s_u=GRU(s_u-1,y_u-1,c_u)
文字ラベルy_uの事後確率pは、以下のように、ソフトマックス関数fを適用することによって生成される。
p(y_u|y_(1:u-1),c_u)=f(s_u)
現在の時間ステップの隠れ状態s_uは、そのコンテキストベクトルc_uだけでなく、その前の隠れ状態s_u-1及び復号されたラベルy_u-1にも依存する。
テキスト認識ネットワーク107を訓練するための損失関数Lrは、多クラス交差エントロピ損失関数である。総訓練損失Lは、以下に示すように、パラメータα、β、γで重み付けしたLc、Ld、Lrの総和である。なお、重み付けパラメータの値に限定はない。
L=α*Lc+β*Ld+γ*Lr
テキストラベル110は、修正GUI111によって確認、修正、及び保存されてもよい。修正されたテキストラベルは、次の訓練反復に使用されてもよい。
図7は、文字セグメンテーションネットワーク104、マルチドメイン適応ネットワーク106、及びテキスト認識ネットワーク107の結果を修正するための、修正GUIの例を示す。修正GUIは、文字セグメンテーション、文字認識、そしてドメイン分類結果をチェック、修正及び保存するための使用することができる。
図7の例において、モニタ306に表示されている修正GUI111は、複数の制御ボタン700を含み、それらは、出力メタデータファイルを開く、文字境界ボックス、ドメインラベル、テキストラベルの編集情報を出力メタデータファイルに保存する、出力メタデータファイルを閉じるなどを実行するために使用される。
修正GUI111は、文字境界ボックスの編集、削除、追加などを行うための操作ウィンドウ701も含む。また、修正GUI111は、ドメインラベルやテキストラベルを編集するための、操作パネル702を含むことができる。
図8を参照して、メタデータファイルについて説明する。図8は、入力訓練データ及びテスト出力のメタデータファイルの例を示す。図8は、2種類のメタデータファイル800、801を表示している。
メタデータファイル800は、完全ラベル付きテキスト画像101の属性値を含み、例えば、ファイルパス、文字境界ボックス座標、テキストラベル、ドメインラベル等を含むことができる。メタデータファイル801は、半ラベル付きテキスト画像100の属性値を含み、例えば、ファイルパスやドメインラベルを含むことができる。修正された出力メタデータファイルは、次の訓練反復に使用されてもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100 半ラベル付きテキスト画像
101 完全ラベル付きテキスト画像
102 入力層
103 特徴ピラミッドネットワーク
104 文字セグメンテーションネットワーク
105 領域提案ネットワーク
105 モニタ
106 マルチドメイン適応ネットワーク
107 テキスト認識ネットワーク
108 境界ボックス
109 ドメインラベル
110 テキストラベル
111 修正GUI
301 プロセッサ
304 補助記憶装置
305 入力装置
306 モニタ
403-405 畳み込み層
500 Align層
501 特徴結合層
502 ドメイン識別ブロック
600 BLSTMエンコーダ
601 特徴エンコーダ
602 位置合わせ層
603 シーケンスデコーダ

Claims (8)

  1. テキスト画像の文字を認識する機械学習モデルを訓練するシステムであって、
    1以上のプロセッサと、
    1以上の記憶装置と、を含み、
    前記1以上の記憶装置は、テキスト画像の文字を認識する機械学習モデルを格納し、
    前記テキスト画像の文字を認識する機械学習モデルは、
    テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、
    前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、
    前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、
    前記1以上のプロセッサは、
    前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、
    前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、
    システム。
  2. 請求項1に記載のシステムであって、
    前記ドメイン適応ネットワークは、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、システム。
  3. 請求項1に記載のシステムであって、
    前記ドメイン適応ネットワークは、
    前記視覚的特徴量から前記文字境界ボックスに対応する特徴マップを抽出する層と、
    前記抽出された特徴マップを結合する結合層と、
    前記結合された特徴マップに基づき前記テキスト画像のドメインを識別するブロックと、を含む、システム。
  4. 請求項1に記載のシステムであって、
    前記テキスト認識ネットワークは、前記文字境界ボックスによって、出力する文字と視覚的特徴量とを位置合わせする、システム。
  5. 請求項1に記載のシステムであって、
    前記テキスト認識ネットワークは、
    前記視覚的特徴量をコード化するRNNエンコーダと、
    文字を出力するRNNデコーダと、
    前記RNNエンコーダと前記RNNデコーダとの間の位置合わせ層と、を含み、
    前記位置合わせ層は、前記RNNエンコーダからのコード化特徴量から、前記文字境界ボックスによって出力する文字に対応するコード化特徴量を抽出し、
    前記RNNデコーダは、前記抽出されたコード化特徴量から認識した文字を出力する、システム。
  6. 請求項1に記載のシステムであって、
    入力装置及びモニタをさらに含み、
    前記1以上のプロセッサは、
    前記文字セグメンテーションネットワーク、前記ドメイン適応ネットワーク及び前記テキスト認識ネットワークの少なくとも一つの出力を、前記モニタにおいて表示し、
    前記入力装置から入力された前記出力の修正を受け付ける、システム。
  7. システムが、テキスト画像の文字を認識する機械学習モデルを訓練する方法であって、
    システムは、テキスト画像の文字を認識する機械学習モデルを格納し、
    前記テキスト画像の文字を認識する機械学習モデルは、
    テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、
    前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、
    前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、
    前記方法は、
    前記システムが、前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、
    前記システムが、前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、方法。
  8. 請求項7に記載の方法であって、
    前記ドメイン適応ネットワークは、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、方法。
JP2021066477A 2021-04-09 2021-04-09 テキスト画像の文字を認識する機械学習モデルを訓練するシステム Pending JP2022161564A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021066477A JP2022161564A (ja) 2021-04-09 2021-04-09 テキスト画像の文字を認識する機械学習モデルを訓練するシステム
US17/714,322 US20220327816A1 (en) 2021-04-09 2022-04-06 System for training machine learning model which recognizes characters of text images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021066477A JP2022161564A (ja) 2021-04-09 2021-04-09 テキスト画像の文字を認識する機械学習モデルを訓練するシステム

Publications (2)

Publication Number Publication Date
JP2022161564A true JP2022161564A (ja) 2022-10-21
JP2022161564A5 JP2022161564A5 (ja) 2024-02-07

Family

ID=83510850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021066477A Pending JP2022161564A (ja) 2021-04-09 2021-04-09 テキスト画像の文字を認識する機械学習モデルを訓練するシステム

Country Status (2)

Country Link
US (1) US20220327816A1 (ja)
JP (1) JP2022161564A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116524521B (zh) * 2023-06-30 2023-09-15 武汉纺织大学 一种基于深度学习的英文字符识别方法和系统
CN117058468B (zh) * 2023-10-11 2023-12-19 青岛金诺德科技有限公司 用于新能源汽车锂电池回收的图像识别与分类系统
CN117315702B (zh) * 2023-11-28 2024-02-23 山东正云信息科技有限公司 基于集合预测的文本检测方法、系统及介质

Also Published As

Publication number Publication date
US20220327816A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
JP7193252B2 (ja) 画像の領域のキャプション付加
US20210027098A1 (en) Weakly Supervised Image Segmentation Via Curriculum Learning
JP2022161564A (ja) テキスト画像の文字を認識する機械学習モデルを訓練するシステム
CN112528780B (zh) 通过混合时域自适应的视频动作分割
Farag Recognition of traffic signs by convolutional neural nets for self-driving vehicles
US11526698B2 (en) Unified referring video object segmentation network
Huang et al. Efficient inference in occlusion-aware generative models of images
CN112232149A (zh) 一种文档多模信息和关系提取方法及系统
Ahmad et al. Offline Urdu Nastaleeq optical character recognition based on stacked denoising autoencoder
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
US20230153943A1 (en) Multi-scale distillation for low-resolution detection
Farag Traffic signs classification by deep learning for advanced driving assistance systems
CN117529755A (zh) 图像识别系统中的迁移学习
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
Zhong et al. Sgbanet: Semantic gan and balanced attention network for arbitrarily oriented scene text recognition
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
Noroozi et al. Seven: deep semi-supervised verification networks
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
Belharbi et al. Deep neural networks regularization for structured output prediction
Ambili et al. Siamese Neural Network Model for Recognizing Optically Processed Devanagari Hindi Script
Mehra et al. Leveraging gans to improve continuous path keyboard input models
Yamashita et al. Cost-alleviative learning for deep convolutional neural network-based facial part labeling
Nguyen et al. Space–time recurrent memory network
Bhatt et al. Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240130