JP2022161564A

JP2022161564A - テキスト画像の文字を認識する機械学習モデルを訓練するシステム

Info

Publication number: JP2022161564A
Application number: JP2021066477A
Authority: JP
Inventors: コンカグエン; Congkha Nguyen; 良介大館; Ryosuke Odate
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-10-21
Also published as: US20220327816A1

Abstract

【課題】より少ない訓練データでテキスト画像認識モデルの認識精度を向上する。【解決手段】システムは、テキスト画像の文字を認識する機械学習モデルを格納する。テキスト画像の文字を認識する機械学習モデルは、テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、視覚的特徴量に基づき、テキスト画像のドメインを分類する、ドメイン適応ネットワークと、文字境界ボックス及び視覚的特徴量に基づき、テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含む。システムは、ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して文字セグメンテーションネットワークを逆伝搬する。システムは、テキスト認識ネットワークの訓練における勾配を、文字セグメンテーションネットワークを逆伝搬する。【選択図】図１

Description

本開示は、テキスト画像認識に関する。

近年、業務を効率化するために、テキスト画像認識システムを使用して様々な種類の文書を自動認識することが、小売、官公庁、教育、運輸、物流、ヘルスケアなど多くの分野で普及してきている。深層学習の大きな進歩により、テキスト画像認識技術は、徐々に向上し、非特許文献１に示すように、９０％を超える認識率でシーンテキストデータを認識するなど、特定のデータについて成功を収めている。

基本的に、深層学習モデルの学習には、テキスト画像認識モデルと同様に、大量のラベルを有するデータが必要である。この点は、深層学習をベースとするシステムのボトルネックの1つである。そこで、少量の他の種類のテキストのラベル付き文書で訓練するだけでも、様々な種類の文書を認識できるロバストモデルが強くも求められている。

これは、各ドメインが文書の種類である、マルチドメイン適応と呼ばれるものである。これにより、訓練のためのラベル付けされたデータのコスト及びシステム拡張のためのコストを削減し、個別のクライアントの対応が可能となる。このようなテキスト画像認識モデルを構築するための多くの解決策が提案されており、例えば、データ拡張、転移学習、不変表現学習などを使用する。しかし、フォント、手書きスタイル、背景及び文字レイアウトなどのテストデータの多様性のため、上述のようなテキスト画像認識モデルの構築は、なお大きな挑戦である。

深層学習の急激な進歩と共に、畳み込みニューラルネットワーク（ＣＮＮ）、長短期記憶（ＬＳＴＭ）、及びＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）に基づく手法が提案され、従来の手法よりも高い性能を達成している。これらは、複雑な背景及び手書きスタイルに対してロバストであり、従来手法のように訓練プロセスを小さな段階に分けることなく、エンド・ツー・エンドで訓練を行うことができる。

この手法の一つの問題は、出力ラベルを推定するとき、ＬＳＴＭの時間ステップの特徴量の独立性を仮定することである。これは、モデルの精度を低下させるハードアライメント問題として知られている。最近、アテンション機構に基づく手法が、この問題を解決するために提案された。この方法において、モデルは、全結合層によって、出力シーケンスの欠く要素に対するコード化された視覚的特徴量の注目されている位置を学習する。

本来、このアテンション機構は、ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅ翻訳のためのものであり、そこでは、出力シーケンスの１つの要素は、任意のコード化された視覚的特徴量にアライメントされ得る。この柔軟性のため、特に長文画像や長さが変化するコード化された視覚的特徴量及び出力シーケンスを認識するとき、出力シーケンスの文字を、非文字特徴量又は他の文字の特徴量に誤って位置合わせ（アライメント）することがあり得る。これは、アテンション機構における不整合問題として知られている。

関連技術について、非特許文献２は、テキスト画像認識のためのドメイン適応の方法を提案している。この方法は、上記アテンション機構に基づく。この方法のワークフローは以下の通りである。

ソースドメイン及びターゲットドメインのテキスト画像は、いくつかの畳み込み層に与えられて、特徴量が抽出される。ソースドメインは、テキストラベルが付属する画像を含み、ターゲットドメインは、テキストラベルが無い画像をテストする。アテンションユニットが使用され、出力シーケンスの各文字を、ソースドメインの画像のエンコードされた視覚的特徴量に位置合わせする。次に、デコーダが採用されて、エンコードされた視覚的特徴量を出力シーケンスにデコードする。上記ステップは、テキスト画像認識のためのものである。

テキスト画像認識モデルをターゲットドメインに汎化するためには、テキスト画像はしばしば複雑な背景や様々なスタイルの文字パターンを含むので、テキスト画像全体の特徴量よりも、文字レベルの特徴量を抽出することが必要である。アテンションユニットは、ソースドメイン及びターゲットドメインのテキスト画像の文字位置に注目し、注目位置において文字レベルの特徴量を抽出する。ソースドメインの画像及びターゲットドメインの画像の文字レベルの特徴空間は、距離関数によって整列される。特徴空間整列の訓練勾配は、共有された重みを有するアテンションユニットに、逆伝搬されるので、アテンションユニットをターゲットドメインに適応させる。

この手法の問題点として、アテンション機構は、文字レベルの特徴抽出において上手く機能することを、理想として前提としている。しかし、これは、上述のようなアテンション機構のズレの問題によって制限される。さらに、２つのドメインの文字レベル特徴空間の距離関数による整列は、効果的ではない場合がある。これは、各訓練反復において同時にモデルに与えられるソースドメインの画像及びターゲットドメインの画像のテキストコンテンツが、異なるためである。また、アテンションユニットの位置ずれ問題は、テキスト画像認識モデルの認識精度に影響を与える。

非特許文献２は、テキスト画像認識のドメイン適応の手法を提示している。アテンションユニットを利用して文字の位置に注目し、訓練ドメイン適応のために文字レベルの特徴量を抽出する。

位置ずれ問題のため、非特許文献２のアテンションユニットは、文字レベルの特徴量を上手く抽出できない。このアテンションユニットは、文字レベルの特徴量を抽出した後、距離関数を使用して、ソースドメイン及びターゲットドメインの文字レベル特徴量空間を整列させる。これは、ソースドメイン及びターゲットドメインのテキストイメージのコンテンツが異なるため、効果がない。

Chen, Xiaoxue, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang. "Text Recognition in the Wild: A Survey." arXiv preprint arXiv:2005.03492 (2020). Zhang, Yaping, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, and Heng Tao Shen. "Sequence-to-sequence domain adaptation network for robust text-image recognition." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2740-2749. 2019.

従来のアテンション機構に基づくテキスト画像認識方法における位置ずれ問題は、テキスト画像認識モデルの認識精度を低下させる。従って、より少ない訓練データでテキスト画像認識モデルの認識精度を向上する技術が望まれる。

本開示の一態様は、テキスト画像の文字を認識する機械学習モデルを訓練するシステムであって、１以上のプロセッサと、１以上の記憶装置と、を含み、前記１以上の記憶装置は、テキスト画像の文字を認識する機械学習モデルを格納し、前記テキスト画像の文字を認識する機械学習モデルは、テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、前記１以上のプロセッサは、前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、システム。

より少ない訓練データでテキスト画像認識モデルの認識精度を向上することができる。

本明細書の一実施形態に係る、マルチドメイン適応文字認識モデルの概要を示す。入力データの例を示す。本明細書の一実施形態にかかるテキスト画像認識システムのハードウェア構成例を示す。本明細書の一実施形態の文字セグメンテーションネットワークの詳細構成を示すブロック図である。本明細書の一実施形態のマルチドメイン適応ネットワークの詳細構成を示すブロック図である。本明細書の一実施形態のテキスト認識ネットワークの詳細構成を示すブロック図である。文字セグメンテーションネットワーク、マルチドメイン適応ネットワーク、及びテキスト認識ネットワークの結果を修正するための、修正ＧＵＩの例を示す。入力訓練データ及びテスト出力のメタデータファイルの例を示す。

以下においては、便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

本システムは、物理的な計算機システム（一つ以上の物理的な計算機）でもよいし、クラウド基盤のような計算リソース群（複数の計算リソース）上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、１以上のインタフェース装置（例えば通信装置及び入出力装置を含む）、１以上の記憶装置（例えば、メモリ（主記憶）及び補助記憶装置を含む）、及び、１以上のプロセッサを含む。

プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体（例えば計算機読み取り可能な非一過性記憶媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

本明細書の一実施形態は、文字セグメンテーションネットワークを使用して、マルチドメイン適応の訓練のための文字レベルの特徴量を抽出する。いくつかの全結合層を含むドメイン識別器を使用して、ドメイン適応を促進する。ドメイン識別器は、訓練可能な層を含み、ハード距離関数と比較して、次の訓練反復のための文字レベルの特徴量を記憶できる。

本明細書の一実施形態は、文字セグメンテーション結果を使用して、特徴量抽出においてテキスト画像における注目位置を誘導する。これにより、位置ずれ問題が、マルチドメイン適応学習及びテキスト画像認識モデルの認識精度に影響を及ぼすことを防ぐことができる。マルチドメイン適応ネットワークと文字セグメンテーションを使用した手法により、モデルを様々な種類のテキスト画像に対して汎化し、高精度な文字認識を実現できる。

以下、本明細書の実施形態を、図面を参照しつつ説明する。図１は、本明細書の一実施形態に係る、マルチドメイン適応文字認識モデルの訓練の概要を示す。実線矢印は、層又はブロック間でフィードフォワードされる特徴量等のデータを示す。破線矢印は、勾配逆伝搬を示す。この点は他の図面において同様である。運用段階において、マルチドメイン適応文字認識モデルは、ラベル無しのテキスト画像から文字を抽出する。

マルチドメイン適応文字認識モデルは、文字セグメンテーションネットワーク１０４、マルチドメイン適応ネットワーク１０６、及びテキスト認識ネットワーク１０７の３つの構成要素を含む。各ネットワークの処理の詳細は、図４から図６を参照して後述される。

文字セグメンテーションネットワーク１０４は、マルチドメイン適応ネットワーク１０６及びテキスト認識ネットワーク１０７に共有されている。マルチドメイン適応文字認識モデルは、テキスト画像認識及びドメイン適応のための特徴量を学習するために、訓練の反復ごとに重みを調整する。

マルチドメイン適応ネットワーク１０６は、入力画像のドメインを識別するために学習する。マルチドメイン適応ネットワーク１０６は、学習の反復ごとに勾配を共有重み文字セグメンテーションネットワーク１０４に逆伝搬して、モデルが、様々な種類のテキスト画像を認識するために汎化されるようにする。

マルチドメイン適応ネットワーク１０６は、ドメイン分類結果の誤差（ドメイン分類誤差）が小さくなるように誤差逆伝搬により更新される。マルチドメイン適応ネットワーク１０６は、勾配反転層を含み、負の勾配（－ｇｒａｄｉｅｎｔ）が、文字セグメンテーションネットワーク１０４を逆伝搬される。これにより、文字セグメンテーションネットワーク１０４は、様々なドメインに普遍的な特徴を学習することができる。

テキスト認識ネットワーク１０７は、文字セグメンテーションネットワーク１０４により抽出された特徴量から入力画像を認識する。テキスト認識ネットワーク１０７は文字セグメンテーションネットワーク１０４による文字セグメンテーション結果を使用する。文字セグメンテーション結果は、テキスト認識ネットワーク１０７の注目位置を誘導する。これにより、ドメイン適応テキスト画像認識モデルの認識精度を向上させることができる。

テキスト認識ネットワーク１０７は、文字認識結果の誤差（文字認識誤差）が小さくなるように誤差逆伝搬により更新される。テキスト認識ネットワーク１０７からの誤差は、反転されることなく、文字セグメンテーションネットワーク１０４を逆伝搬される。これにより、文字セグメンテーションネットワーク１０４は、認識する文字の特徴を学習することができる。

反復して行われる訓練の各反復単位（訓練反復とも呼ぶ）のため、２種類のテキスト画像が、ドメイン適応テキスト画像認識モデルの入力層１０２に与えられる。１つの種類のテキスト画像は、ドメイン名のみがラベル付けされている。それらを半ラベル付きテキスト画像１００と呼ぶ。他の種類のテキスト画像は、文字及びドメインのラベル付けがなされ、さらに、文字境界ボックスが示される。これらを、完全ラベル付きテキスト画像１０１と呼ぶ。

図２は、入力データの例を示す。図２は、各訓練反復において入力される２種類の入力データの例を示す。図２は、三つの半ラベル付きテキスト画像１００と、一つの完全ラベル付きテキスト画像１０１を示す。

半ラベル付きテキスト画像１００は、画像と画像に対して付与されたドメインラベルとで構成されている。図２において、三つの画像それぞれに、シーンテキスト、手書き及びレシートのドメインラベルが与えられている。

完全ラベル付きテキスト画像１０１は、画像、画像に対して付与されたドメインラベル及びテキストラベルで構成されている。図２に示す完全ラベル付きテキスト画像１０１は、新たに生成されたテキスト画像であることを示す分類（生成テキスト画像ドメインとも呼ぶ）と、「お菓子」のテキストラベルを有している。このような完全ラベル付きテキスト画像１０１は、利用可能なフォント及びテキストから生成できる。テキストラベル、ドメインラベル、及び文字境界ボックスを簡単に取得することができる。

図２の例において、一つの文字に対して一つの文字境界ボックスが割り当てられている。文字境界ボックスは単一の文字を囲むことで、文字認識精度を上げることができる。他の例において、一つの文字境界ボックスが複数の文字を囲んでもよい。

完全ラベル付きテキスト画像１０１と半ラベル付きテキスト画像１００とは、異なる特徴量分布を有している。本明細書の一実施形態のマルチドメイン適応文字認識モデルは、一部のドメインの完全ラベル付きテキスト画像での訓練により、他のドメインの半ラベル付きテキスト画像を認識可能となる。

図２の例において、生成テキスト画像ドメインの完全ラベル付きテキスト画像で訓練されることで、マルチドメイン適応文字認識モデルは、手書きテキスト画像、シーンテキスト画像、レシートテキスト画像など、他のドメインの半ラベル付きテキスト画像を認識可能となる。

完全ラベル付きテキスト画像は、テキストラベル、ドメインラベル、及び文字境界ボックスが利用可能な、任意の種類のテキスト画像でよい。より多くのドメインの完全ラベル付きテキスト画像は、マルチドメイン適応文字認識モデルの認識精度を向上させる。半ラベル付き画像としては、例えば、テキストラベル及び文字境界ボックスなしで認識する必要がある全てのドメインのテキスト画像が用意される。訓練データが一部のドメインのテキスト画像で構成されてもよいが、より多くのドメインの訓練データはマルチドメイン適応文字認識モデルの認識精度を向上させる。

図３は、本明細書の一実施形態にかかるテキスト画像認識システムのハードウェア構成例を示す。図１を参照して説明したマルチドメインテキスト画像認識モデルは、テキスト画像認識システムに実装することができる。テキスト画像認識システムは、マルチドメインテキスト画像認識モデルにより入力されたテキスト画像の文字認識を実行するし、さらに、マルチドメインテキスト画像認識モデルの訓練（学習）を実行する。

テキスト画像認識システムは、例えば、計算機構成を有することができる。演算性能を有するプロセッサ３０１と、プロセッサ３０１が実行するプログラム及びデータを格納する揮発性一時記憶領域を与える主記憶装置であるＤＲＡＭ３０２と、を含む。さらに、テキスト画像認識システムは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリなどを利用した永続的な情報記憶領域を与える補助記憶装置３０４を含む。ＤＲＡＭ３０２、補助記憶装置３０４及びこれらの組み合わせは、それぞれ記憶装置である。

テキスト画像認識システムは、さらに、他の装置とデータ通信をおこなう通信装置３０３と、ユーザからの操作を受け付ける入力装置３０５と、各プロセスでの出力結果をユーザに提示するモニタ３０６（出力装置の例）と、を含む。これら構成要素は、バスを介して通信可能である。テキスト画像認識システムの構成要素のそれぞれの数は任意であり、一部の構成要素、例えば、入力装置３０５及びモニタ３０６は省略されてもよい。

図１を参照して説明した構成要素は、例えば、命令コードを含むプログラムを実行するプロセッサ３０１により実装することができる。機能部を実現するためのプログラムは、例えば補助記憶装置３０４に格納される。プロセッサ３０１が実行するプログラム及び処理対象のデータは、補助記憶装置３０４からＤＲＡＭ３０２にロードされる。システム内の機能は、プログラムに従って動作するプロセッサに代えて、特定の機能向けの回路により実装されてもよい。

テキスト画像認識システムは、図３に示すような物理的な計算機システム（一つ以上の物理的な計算機）でもよいし、クラウド基盤のような計算リソース群（複数の計算リソース）上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、１以上のインタフェース装置（例えば通信装置及び入出力装置を含む）、１以上の記憶装置（例えば、メモリ（主記憶）及び補助記憶装置を含む）、及び、１以上のプロセッサを含む。

プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを含むシステムが行う処理としてもよい。

プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体（例えば計算機読み取り可能な非一過性記憶媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

図４は、本明細書の一実施形態の文字セグメンテーションネットワーク１０４の詳細構成を示すブロック図である。完全ラベル付きテキスト画像と半ラベル付きテキスト画像の双方が、２つのサブネットワークを含む文字セグメンテーションネットワーク１０４に供給される。２つのサブネットワークは、特徴ピラミッドネットワーク（ＦＰＮ）１０３と領域提案ネットワーク（ＲＰＮ）１０５である。

入力画像の特徴量は、ＦＰＮの連結された４つの深層レベル４００－４０３で抽出される。ＦＰＮの例は、逐次畳み込み層を含むＶＧＧＮｅｔや、複数の残差ブロックからなるＲｅｓＮｅｔ、Ｕ－Ｎｅｔ、又は任意のダウンサンプリング畳み込みニューラルネットワーク（ＣＮＮ）を含む。ＶＧＧＮｅｔ、ＲｅｓＮｅｔ、Ｕ－Ｎｅｔは、公知の技術であり詳細な説明を省略する。特徴量は、１つ以上の深層レベルで抽出することができる。深層レベルは、例えば、受容野や解像度が異なり得る。

各レベル４００－４０３の特徴量は、２つの畳み込み層４０４、４０５に入力される。具体的には、レベル４００－４０３の特徴量は畳み込み層１（４０４）に入力され、畳み込み層１（４０４）の出力が畳み込み層２（４０５）に入力される。

領域提案ネットワーク１０５は、各特徴レベル４００－４０３の文字領域を評価し、全ての特徴レベルについて評価結果を結合し、重複する文字領域を破棄する。文字境界ボックスの損失は、完全ラベル付きテキスト画像について計算される。損失関数Ｌｃは、Ｌ１損失関数である。文字セグメンテーション結果１０８は、修正ＧＵＩ１１１によって、確認、修正及び保存することができる。修正された文字境界ボックスは、次の訓練反復に使用してもよい。この文字セグメンテーション処理は、インスタンスセグメンテーションとして知られている。他の例において、セマンティックセグメンテーションを使用してもよい。

図５は、本明細書の一実施形態のマルチドメイン適応ネットワーク１０６の詳細構成を示すブロック図である。図５は、マルチドメイン適応のための畳み込みニューラルネットワークの構造例を示す。領域提案ネットワーク１０５によって提案された半ラベル付きテキスト画像１００及び完全ラベル付きテキスト画像１０１の文字パターンの境界ボックス１０８は、深層レベル４００－４０３の特徴マップと照合され、文字レベル特徴量が取得される。マルチドメイン適応ネットワーク１０６には、深層レベル４００－４０３の特徴マップと境界ボックス１０８が入力される。

文字レベル特徴量を抽出するために従来のアテンションユニットを使用することと比較して、文字セグメンテーションネットワーク１０４は、文字の位置を特定するためのアンカーボックスを決定する。これにより、効率的に、視覚的特徴量を文字位置に一意に合せることができる。一方、従来のアテンションユニットは、視覚的特徴量を文字位置に自由に合わせる。

文字レベル特徴量は、ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔＡｌｉｇｎ層５００に渡される。ＲｏＩＡｌｉｇｎ層５００は、ＲｏＩＡｌｉｇｎによって、特徴マップから文字境界ボックスに対応する特徴マップを抽出する層である。ＲｏＩＡｌｉｇｎ層５００は、双線形補間とｍａｘ／ａｖｅｒａｇｅプーリングを使用することができる。ＲｏＩＡｌｉｇｎ層５００において、文字レベル特徴マップは、同じサイズに再スケーリングされる。そのサイズは、予め定義されている。特徴マップは、特徴結合層（ＦｅａｔｕｒｅＣｏｎｃａｔｅｎａｔｉｏｎＬａｙｅｒ）５０１によって特定の軸に沿って結合される。これにより、高精度なドメイン分類が可能となる。

ＲｏＩＡｌｉｇｎ５００は、ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔｐｏｏｌｉｎｇ（ＲｏＩｐｏｏｌｉｎｇ）に置き換えることもできる。ただし、これはＲｏＩａｌｉｇｎよりも性能が低い。ドメイン識別ブロック５０２は、いくつかの全結合層とソフトマックス層とから構成することができる。訓練において、抽出された文字レベル特徴量を使用して、半ラベル付き画像及び完全ラベル付き画像を、対応するドメインに分類する。ドメイン識別の損失関数Ｌｄは、多クラス交差エントロピ（ｃａｔｅｇｏｒｉｃａｌｃｒｏｓｓ－ｅｎｔｒｏｐｙ）関数である。

ドメイン識別ブロック５０２は、訓練において、ドメイン間の文字パターンの識別特徴を学習する。文字パターンの不変的特徴を学習できるように、訓練時に文字セグメンテーションネットワーク１０４の共有層に逆伝搬される勾配は、マイナスにされる。

他の例は、畳み込みブロック４（４０３）からの完全ラベル付きテキスト画像１０１と半ラベル付きテキスト画像１００の特徴マップを、ドメイン識別ブロック５０２に直接入力してもよい。つまり、ＲｏＩＡｌｉｇｎ層５００及び特徴結合層５０１が省略されてもよい。ドメイン識別ブロック５０２は、それらを対応するドメインに分類する。この手法は、グローバル・マルチドメイン・アダプテーションと呼ぶことがある。

このように、文字レベルの特徴マップは、テキスト画像全体の特徴マップに置き換えることができる。文字セグメンテーションネットワーク１０４の特徴ピラミッドネットワーク１０３を用いて、テキスト画像全体の特徴量を抽出し、その特徴量を直接ドメイン識別ブロック５０２に入力する。この場合、マルチドメイン適応は、テキスト画像全体の特徴レベルでのマルチドメイン適応となる。

ハード距離関数を使用して、２つの領域の文字レベル特徴空間の分布を合わせる手法がある。しかし、この手法は効率的ではない。これは、２つの入力の文字内容が同一ではない場合があるからである。これに対して、学習可能なドメイン識別ブロック５０２は、更新されるパラメータ（重み）に特徴量を記憶することができるので、より柔軟で効果的である。ドメインラベル１０９は、修正ＧＵＩ１１１によって、確認、修正及び保存することができる。修正されたドメインラベルは、次の訓練反復に使用されてもよい。

図６は、本明細書の一実施形態のテキスト認識ネットワーク１０７の詳細構成を示すブロック図である。テキスト画像認識のための複数の再帰型ニューラルネットワークの組み合わせが示されている。特徴ピラミッドネットワーク１０３の最も深いレベル４０３で抽出された完全ラベル付きテキスト画像１０１の特徴マップは、特徴エンコーダ（ＲＮＮエンコーダ）６０１によって順次コード化（エンコード）される。

本例において、ＲＮＮエンコーダ６０１は、双方向長短記憶（ＢＬＳＴＭ）エンコーダ６００を含む。ＢＬＳＴＭは、特徴量の空間的コンテキストを双方向に学習する。ＢＬＳＴＭの代わりに使用可能なＲＮＮエンコーダの例は、ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙＮｅｔｗｏｒｋ（ＬＳＴＭ）、ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔｓ（ＧＲＵ）などである。

隠れコード化特徴量ｈ＿ｔは、ＢＬＳＴＭ演算子（ＢＬＳＴＭ（））で計算される。
Ｈ＝ＢＬＳＴＭ（Ｖ）
Ｖ＝｛ｖ＿０、ｖ＿１、・・・ｖ＿Ｎ－１｝は畳み込みブロック４（４０３）からの特徴マップである。

Ｈ＝｛ｈ＿０、ｈ＿１、・・・ｈ＿Ｎ－１｝は、コード化視覚的特徴量又はＢＬＳＴＭエンコーダ６００の隠れ状態である。ＮはＶの幅である。特徴量コード化処理は、特徴ピラミッドネットワーク１０３とＢＬＳＴＭエンコーダ６００により実行される。これにより高精度な処理が可能となる。なお、ＢＬＳＴＭエンコーダ６００を省略してもよい。

テキストラインの方向に沿って、文字セグメンテーションネットワーク１０４によって提案された、テキスト画像上の文字パターンの境界ボックスが、コード化視覚的特徴量と順次照合される。文字パターンα＿ｕの再スケールされた境界ボックスをマスクとして、コード化視覚的特徴量に当てることで、コンテキストベクトルｃ＿ｕが抽出される。コンテキストベクトルｃ＿ｕは、コード化視覚的特徴量から抽出された文字認識のために参照するコード化特徴量（情報）を示す。

コンテキストベクトルｃ＿ｕを生成するこの位置合わせ処理（Ａｌｉｇｎ（））は、位置合わせ層６０２で行われる。
ｃ＿ｕ＝Ａｌｉｇｎ（α＿ｕ，Ｈ）
ｕ∈Ｕは、文字セグメンテーションネットワーク１０４による文字境界ボックスの番号であり、Ｕは文字境界ボックスの総数である。

従来の方法では、出力シーケンスの各文字は、任意の視覚的特徴量に任意の順序で位置合わせされる。これに対して、文字のセグメンテーション結果を位置合わせに用いることで、コード化視覚的特徴量は、文字位置に限定され、位置合わせの順序が固定される。

次に、シーケンスデコーダ（ＲＮＮデコーダ）６０３は、ＧＲＵを使用して、コード化視覚的特徴量をテキストラベル１１０に変換する。ＧＲＵは、ＬＳＴＭまたは他の任意のＲＮＮで置き換えてもよい。時間ステップｕにおけるＧＲＵの隠れ状態ｓ＿ｕは、ＧＲＵ演算子（ＧＲＵ（））により、以下のように与えられる。
ｓ＿ｕ＝ＧＲＵ（ｓ＿ｕ－１，ｙ＿ｕ－１，ｃ＿ｕ）

文字ラベルｙ＿ｕの事後確率ｐは、以下のように、ソフトマックス関数ｆを適用することによって生成される。
ｐ（ｙ＿ｕ｜ｙ＿（１:ｕ－１），ｃ＿ｕ）＝ｆ（ｓ＿ｕ）
現在の時間ステップの隠れ状態ｓ＿ｕは、そのコンテキストベクトルｃ＿ｕだけでなく、その前の隠れ状態ｓ＿ｕ－１及び復号されたラベルｙ＿ｕ－１にも依存する。

テキスト認識ネットワーク１０７を訓練するための損失関数Ｌｒは、多クラス交差エントロピ損失関数である。総訓練損失Ｌは、以下に示すように、パラメータα、β、γで重み付けしたＬｃ、Ｌｄ、Ｌｒの総和である。なお、重み付けパラメータの値に限定はない。
Ｌ＝α＊Ｌｃ＋β＊Ｌｄ＋γ＊Ｌｒ

テキストラベル１１０は、修正ＧＵＩ１１１によって確認、修正、及び保存されてもよい。修正されたテキストラベルは、次の訓練反復に使用されてもよい。

図７は、文字セグメンテーションネットワーク１０４、マルチドメイン適応ネットワーク１０６、及びテキスト認識ネットワーク１０７の結果を修正するための、修正ＧＵＩの例を示す。修正ＧＵＩは、文字セグメンテーション、文字認識、そしてドメイン分類結果をチェック、修正及び保存するための使用することができる。

図７の例において、モニタ３０６に表示されている修正ＧＵＩ１１１は、複数の制御ボタン７００を含み、それらは、出力メタデータファイルを開く、文字境界ボックス、ドメインラベル、テキストラベルの編集情報を出力メタデータファイルに保存する、出力メタデータファイルを閉じるなどを実行するために使用される。

修正ＧＵＩ１１１は、文字境界ボックスの編集、削除、追加などを行うための操作ウィンドウ７０１も含む。また、修正ＧＵＩ１１１は、ドメインラベルやテキストラベルを編集するための、操作パネル７０２を含むことができる。

図８を参照して、メタデータファイルについて説明する。図８は、入力訓練データ及びテスト出力のメタデータファイルの例を示す。図８は、２種類のメタデータファイル８００、８０１を表示している。

メタデータファイル８００は、完全ラベル付きテキスト画像１０１の属性値を含み、例えば、ファイルパス、文字境界ボックス座標、テキストラベル、ドメインラベル等を含むことができる。メタデータファイル８０１は、半ラベル付きテキスト画像１００の属性値を含み、例えば、ファイルパスやドメインラベルを含むことができる。修正された出力メタデータファイルは、次の訓練反復に使用されてもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１００半ラベル付きテキスト画像
１０１完全ラベル付きテキスト画像
１０２入力層
１０３特徴ピラミッドネットワーク
１０４文字セグメンテーションネットワーク
１０５領域提案ネットワーク
１０５モニタ
１０６マルチドメイン適応ネットワーク
１０７テキスト認識ネットワーク
１０８境界ボックス
１０９ドメインラベル
１１０テキストラベル
１１１修正ＧＵＩ
３０１プロセッサ
３０４補助記憶装置
３０５入力装置
３０６モニタ
４０３－４０５畳み込み層
５００Ａｌｉｇｎ層
５０１特徴結合層
５０２ドメイン識別ブロック
６００ＢＬＳＴＭエンコーダ
６０１特徴エンコーダ
６０２位置合わせ層
６０３シーケンスデコーダ

Claims

テキスト画像の文字を認識する機械学習モデルを訓練するシステムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、テキスト画像の文字を認識する機械学習モデルを格納し、
前記テキスト画像の文字を認識する機械学習モデルは、
テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、
前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、
前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、
前記１以上のプロセッサは、
前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、
前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、
システム。
請求項１に記載のシステムであって、
前記ドメイン適応ネットワークは、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、システム。
請求項１に記載のシステムであって、
前記ドメイン適応ネットワークは、
前記視覚的特徴量から前記文字境界ボックスに対応する特徴マップを抽出する層と、
前記抽出された特徴マップを結合する結合層と、
前記結合された特徴マップに基づき前記テキスト画像のドメインを識別するブロックと、を含む、システム。
請求項１に記載のシステムであって、
前記テキスト認識ネットワークは、前記文字境界ボックスによって、出力する文字と視覚的特徴量とを位置合わせする、システム。
請求項１に記載のシステムであって、
前記テキスト認識ネットワークは、
前記視覚的特徴量をコード化するＲＮＮエンコーダと、
文字を出力するＲＮＮデコーダと、
前記ＲＮＮエンコーダと前記ＲＮＮデコーダとの間の位置合わせ層と、を含み、
前記位置合わせ層は、前記ＲＮＮエンコーダからのコード化特徴量から、前記文字境界ボックスによって出力する文字に対応するコード化特徴量を抽出し、
前記ＲＮＮデコーダは、前記抽出されたコード化特徴量から認識した文字を出力する、システム。
請求項１に記載のシステムであって、
入力装置及びモニタをさらに含み、
前記１以上のプロセッサは、
前記文字セグメンテーションネットワーク、前記ドメイン適応ネットワーク及び前記テキスト認識ネットワークの少なくとも一つの出力を、前記モニタにおいて表示し、
前記入力装置から入力された前記出力の修正を受け付ける、システム。
システムが、テキスト画像の文字を認識する機械学習モデルを訓練する方法であって、
システムは、テキスト画像の文字を認識する機械学習モデルを格納し、
前記テキスト画像の文字を認識する機械学習モデルは、
テキスト画像から視覚的特徴量を抽出し、前記テキスト画像から文字境界ボックスを生成する、文字セグメンテーションネットワークと、
前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、ドメイン適応ネットワークと、
前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像内の文字を認識する、テキスト認識ネットワークと、を含み、
前記方法は、
前記システムが、前記ドメイン適応ネットワークの訓練における勾配を、負の勾配に反転して前記文字セグメンテーションネットワークを逆伝搬し、
前記システムが、前記テキスト認識ネットワークの訓練における勾配を、前記文字セグメンテーションネットワークを逆伝搬する、方法。
請求項７に記載の方法であって、
前記ドメイン適応ネットワークは、前記文字境界ボックス及び前記視覚的特徴量に基づき、前記テキスト画像のドメインを分類する、方法。