JP7373367B2

JP7373367B2 - 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム

Info

Publication number: JP7373367B2
Application number: JP2019209628A
Authority: JP
Inventors: 伶遠藤; 吉彦河合; 貴裕望月
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-11-02
Anticipated expiration: 2039-11-20
Also published as: JP2021082056A

Description

本発明は、画像内の文字領域を検出するための文字領域検出モデルを学習する文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出モデルを用いて画像内の文字領域を検出する文字領域検出装置およびそのプログラムに関する。

従来、画像内の文字領域を検出する手法として、文字に正対した形で撮影された画像から、文字領域を検出する手法が一般的であった（例えば、特許文献１参照）。
しかし、このような手法を用いた場合、撮影条件を限定しない情景画像内では、文字領域が矩形形状ではないため、文字領域を検出することは困難であった。
そこで、近年では、機械学習技術（ニューラルネットワーク）を利用して、情景画像内に映った文字領域を検出する手法が種々提案されている。

例えば、非特許文献１には、図１１に示すように、文字を含む画像Ｉを入力した際に、文字列の領域を示す領域座標Ｏを文字の領域（Ｒ１，Ｒ２，…）ごとに出力するように学習されたニューラルネットワークＮＮ１を用いて、文字領域を検出する手法が開示されている。この手法は、１文字以上の文字列の単位で文字領域を検出する。

また、例えば、非特許文献２には、図１２に示すように、文字を含む画像Ｉを入力した際に、１文字（単独文字）ごとの領域分布を示す文字マップＭ_１と、文字間の領域分布を示す文字間マップＭ_２とを出力するように学習されたニューラルネットワークＮＮ２を用いて、文字領域を検出する手法が開示されている。この手法は、ニューラルネットワークＮＮ２を用いて、画像Ｉから、文字マップＭ_１と文字間マップＭ_２と生成し、それらを重ね合わせたマップＭ_３を生成する。そして、この手法は、マップＭ_３の文字・文字間の重複した領域（Ｒ１，Ｒ２，…）の領域座標Ｏを文字領域として検出する。

特開２００３－２５６７７１号公報

Xiaobing Wang, Yingying Jiang, Zhenbo Luo, Cheng-Lin Liu, Hyunsoo Choi, Sungjin Kim, "Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation", In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.6449-6458, 2019. Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee, "Character Region Awareness for Text Detection" , In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.9365-9374, 2019.

非特許文献１に記載の手法（以下、従来手法１）では、画像内における検出対象の文字列が占める形状（アスペクト比）は文字数に応じて大きく変化する。そのため、従来手法１は、ニューラルネットワークの学習を十分に行うことが困難であり、例えば、顔認識等の領域形状が安定した物体の検出に比べ、高精度に文字列を検出することができないという問題がある。

これに対し、非特許文献２に記載の手法（以下、従来手法２）は、ニューラルネットを用いて単独文字と文字間とを検出するため、検出対象となる領域の形状が比較的安定しており、従来手法１よりは文字列の検出精度を上げることができる。
しかし、従来手法２は、単独文字と文字間との統合を、単純なルールベースのアルゴリズムで行うため、例えば、狭い範囲に複数の文字列が密集している場合に、それらを１つの文字列として検出する等、文字列の密集の度合いによっては、正しく文字列を検出することができないという問題がある。

本発明は、このような問題に鑑みてなされたものであり、画像内の文字領域を精度よく検出することが可能なモデルを学習する文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る文字領域検出モデル学習装置は、画像内の文字領域を検出するために用いるニューラルネットワークのモデルを学習する文字領域検出モデル学習装置であって、単独文字検出手段と、正解マップ生成手段と、単独文字誤差算出手段と、第１パラメータ更新手段と、ペア属性算出手段と、ペア属性誤差算出手段と、第２パラメータ更新手段と、を備える構成とした。

かかる構成において、文字領域検出モデル学習装置は、単独文字検出手段によって、単独文字検出モデルを用いて、学習用画像から文字マップおよび特徴マップを生成する。単独文字検出モデルは、画像の特徴を示す特徴マップを生成するニューラルネットワークと、特徴マップから画像に含まれる単独文字の領域分布を示す文字マップを生成するニューラルネットワークとを連結して構成することができる。
また、文字領域検出モデル学習装置は、正解マップ生成手段によって、学習用画像に含まれる単独文字の領域を示す正解データである領域座標から学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する。
そして、文字領域検出モデル学習装置は、単独文字誤差算出手段によって、文字マップと正解マップとの誤差を算出する。
そして、文字領域検出モデル学習装置は、第１パラメータ更新手段によって、単独文字誤差算出手段で算出された誤差を小さくする方向に単独文字検出モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字の位置を検出するための単独文字検出モデルを学習することができる。

また、文字領域検出モデル学習装置は、ペア属性算出手段によって、ペア属性推定モデルを用いて、文字マップで特定される単独文字のペアのペア属性を算出する。ペア属性推定モデルは、文字マップおよび特徴マップから単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出するニューラルネットワークで構成することができる。
そして、文字領域検出モデル学習装置は、ペア属性誤差算出手段によって、学習用画像に含まれる文字列の領域を示す正解データである領域座標から単独文字のペアについての正解の属性を求め、ペア属性算出手段で算出されたペア属性との誤差を算出する。
そして、文字領域検出モデル学習装置は、第２パラメータ更新手段によって、ペア属性誤差算出手段で算出される誤差を小さくする方向にペア属性推定モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字のペアが同じ文字列を構成する文字であるか否かを判定するためのペア属性推定モデルを学習することができる。
なお、文字領域検出モデル学習装置は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。

また、前記課題を解決するため、本発明に係る文字領域検出装置は、画像内の文字領域を検出する文字領域検出装置であって、単独文字検出手段と、ペア属性算出手段と、文字領域算出手段と、を備える構成とした。

かかる構成において、文字領域検出装置は、単独文字検出手段によって、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成する学習済のニューラルネットワークで構成された単独文字検出モデルを用いて、入力された画像から文字マップおよび特徴マップを生成する。
そして、文字領域検出装置は、ペア属性算出手段によって、文字マップおよび特徴マップから単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、文字マップで特定される単独文字のペアのペア属性を算出する。

そして、文字領域検出装置は、文字領域算出手段によって、ペア属性で同じ文字列に含まれる単独文字の領域を統合した文字領域を算出する。例えば、文字領域算出手段は、同じ文字列の単独文字の領域を含む外接矩形等によって文字領域を算出する。
これによって、文字領域検出装置は、画像内において、文字列として認識される文字領域を検出する。
なお、文字領域検出装置は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明は、ニューラルネットワークの学習によって、単独文字同士が同じ文字列に属するか否かを判定するため、従来のような単純なルールベースのアルゴリズムで文字列の判定を行う手法に比べて、柔軟に文字列の判定を行うことができる。
これによって、本発明は、従来の手法に比べて、画像から精度よく文字領域を検出することができる。

本発明の第１実施形態に係る文字領域検出モデル学習装置の構成を示すブロック図である。単独文字検出モデルのニューラルネットワークの構成例を示すネットワーク図である。正解マップ生成手段における正解マップを生成する手法を説明するための説明図である。ペア属性算出手段のグラフ構造生成手段におけるグラフ構造を生成する手法を説明するための説明図である。ペア属性算出手段のノード属性算出手段が算出する文字のペア属性を説明するための説明図である。ペア属性推定モデルのニューラルネットワークの構成例を示すネットワーク図である。特徴マップと文字位置の特徴量との関係を説明するための説明図である。本発明の第１実施形態に係る文字領域検出モデル学習装置の動作を示すフローチャートである。本発明の第２実施形態に係る文字領域検出装置の構成を示すブロック図である。本発明の第２実施形態に係る文字領域検出装置の動作を示すフローチャートである。従来の第１の文字領域検出手法の概要を示す概要図である。従来の第２の文字領域検出手法の概要を示す概要図である。

以下、本発明の実施形態について図面を参照して説明する。
〔文字領域検出モデル学習装置の構成〕
図１を参照して、本発明の第１実施形態に係る文字領域検出モデル学習装置１の構成について説明する。

文字領域検出モデル学習装置１は、画像内の文字領域を検出するために用いるニューラルネットワークのモデル（文字領域検出モデル）を学習するものである。
文字領域検出モデル学習装置１は、学習用画像Ｉ_Ｌと学習用正解データＤ_Ｌとを対とした学習データを用いて学習を行う。

学習用画像Ｉ_Ｌは、１文字以上の文字列を１ヶ所以上含んだ画像である。ここでは、学習用画像Ｉ_Ｌを、チャンネル数Ｃ、高さＨ画素、幅Ｗ画素（Ｃ×Ｈ×Ｗ）とする。例えば、学習用画像Ｉ_Ｌとして、ＲＧＢのカラー画像を用いた場合、チャンネル数は“３”である。

学習用正解データＤ_Ｌは、対となる学習用画像Ｉ_Ｌに含まれる単独文字領域座標データＤ１と、文字列領域座標データＤ２とで構成される。
単独文字領域座標データＤ１は、学習用画像Ｉ_Ｌ内の１文字（単独文字）ごとの領域座標Ｃ_１，Ｃ_２，…，Ｃ_ｍ（ｍは画像内に含まれる文字数）である。この単独文字の領域座標は、単独文字を囲む４角形の４頂点の座標で構成される。また、単独文字を囲む４角形は、矩形である必要はなく、台形、平行四辺形、不等辺四辺形等、文字の変形形状に応じた形状であればよい。

文字列領域座標データＤ２は、学習用画像Ｉ_Ｌ内の文字列ごとの領域座標Ｓ_１，Ｓ_２，…，Ｓ_ｎ（ｎは画像内に含まれる文字列数）である。この文字列の領域座標は、文字列を構成する単独文字を１文字以上囲む多角形の各頂点の座標で構成される。また、文字列を囲む多角形は、文字列を含めば、台形、平行四辺形、不等辺四辺形等、どのような形状でも構わないが、単独文字の内包を簡易に判定するため、矩形形状の４角形が好ましい。
なお、文字列は、１文字以上の文字のまとまりを示す。しかし、分かち書きで記述された英文の文章のように空白を挟んだ文章の場合、１つの文章を、空白で区切った複数の文字列とするか、空白を含んだ１つの文字列とするかは、文字領域をどの単位で検出したいかによって、予め定めておけばよい。例えば、「I have a dog.」を、「I」、「have」、「a」および「dog.」の４つの文字列とするか、「I have a dog.」の１つの文字列とするかは、いずれか一方に予め定めて学習データを生成しておく。

図１に示すように、文字領域検出モデル学習装置１は、単独文字検出手段１０と、正解マップ生成手段１１と、単独文字誤差算出手段１２と、パラメータ更新手段１３と、ペア属性算出手段１４と、ペア属性誤差算出手段１５と、パラメータ更新手段１６と、モデル記憶手段１７と、を備える。

単独文字検出手段１０は、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成するニューラルネットワークで構成された単独文字検出モデルＮ_１を用いて、学習用画像Ｉ_Ｌから文字マップおよび特徴マップを生成するものである。

単独文字検出モデルＮ_１は、画像に対して畳み込み演算を行うことで特徴量を生成する第１ネットワークと、特徴量に対して畳み込み演算を行い画像の大きさに対応した特徴マップを生成し、特徴マップに対して畳み込み演算を行うことで文字マップを生成する第２ネットワークとを連結したニューラルネットワークのモデルである。

ここで、図２を参照（適宜図１参照）して、単独文字検出モデルＮ_１の構成例について説明する。
図２に示すように、単独文字検出モデルＮ_１は、第１ネットワークＮ_１１と第２ネットワークＮ_１２とを連結したニューラルネットワークとして構成することができる。

第１ネットワークＮ_１１は、画像Ｉに対して複数の畳み込み層を介して特徴量ｆを抽出するコンボリューションニューラルネットワークである。この第１ネットワークＮ_１１は、例えば、ＶＧＧ（Visual Geometry Group）等の既存のネットワークを用いることができる。なお、第１ネットワークＮ_１１は、ＶＧＧ以外にも、ＲｅｓＮｅｔ（Residual Network）、Ｉｎｃｅｐｔｉｏｎ等、一般的な物体認識ネットワークの特徴抽出部分のネットワークを用いることができる。

第２ネットワークＮ_１２は、第１ネットワークＮ_１１で抽出される特徴量ｆに対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの特徴マップＭｆを生成するとともに、畳み込み層を介して特徴マップＭｆから１チャンネルの文字マップＭｃを生成するネットワークである。
この第２ネットワークＮ_１２は、特徴量ｆを拡大し、拡大した特徴量に同じ大きさの第１ネットワークＮ_１１で生成された中間特徴量を連結して畳み込みを行う処理を、特徴量が予め定めた大きさになるまで繰り返す。なお、畳み込みに際し、必ずしも中間特徴量を連結する必要はないが、特徴量の下層への畳み込みを行わないパスを設けることで、モデル学習時における勾配消失を防止することができるため好ましい。

特徴マップＭｆは、特徴量ｆを画像Ｉの画素に対応付けた情報である。特徴マップＭｆは、例えば、画像Ｉがチャンネル数“３”、高さＨ画素、幅Ｗ画素（３×Ｈ×Ｗ）で、特徴量ｆのチャンネル数が“１６”の場合、チャンネル数“１６”、高さＨ画素、幅Ｗ画素（１６×Ｈ×Ｗ）となる。

文字マップＭｃは、画像Ｉに含まれる単独文字の領域分布を示す情報である。文字マップＭｃのチャンネル数は“１”で、高さおよび幅は、特徴マップＭｆと同じＨ画素およびＷ画素（１×Ｈ×Ｗ）である。この文字マップＭｃが後記する正解マップ生成手段１１で生成される正解マップとなるように、単独文字検出モデルＮ_１が学習されることになる。
図１に戻って、文字領域検出モデル学習装置１の構成について説明を続ける。

単独文字検出手段１０は、生成した文字マップを単独文字誤差算出手段１２に出力する。また、単独文字検出手段１０は、生成した特徴マップおよび文字マップをペア属性算出手段１４に出力する。

正解マップ生成手段１１は、学習用正解データＤ_Ｌから、学習用画像Ｉ_Ｌに含まれる単独文字の領域分布を示す情報である正解マップを生成するものである。
ここでは、正解マップ生成手段１１は、単独文字の中心と単独文字以外の領域とで異なる値を割り当て、単独文字の中心から単独文字領域の縁に近づくほど、単独文字以外の領域の値に近づくように値を割り当てることで、正解マップを生成する。
例えば、正解マップ生成手段１１は、単独文字の中心の画素値を“１．０”（例えば、２５６階調における画素値“２５５”に相当）、単独文字以外の領域の画素値を“０．０”（例えば、２５６階調における画素値“０”に相当）とし、単独文字の中心から単独文字領域の縁に近づくほど“０．０”に近づくように値を割り当てる。

ここで、図３を参照（適宜図１参照）して、正解マップの生成手法について説明する。なお、図３では、説明を簡略化するため、１文字のみ記載された学習用画像Ｉ_Ｌを例として説明するが、複数文字が記載されている場合でも同様である。
図３に示すように、学習用画像Ｉ_Ｌに単独文字“Ａ”が存在し、学習用正解データＤ_Ｌの単独文字領域座標データＤ１の１つの単独文字の領域座標（例えば、Ｃ_１）として、４頂点Ｐ１，Ｐ２，Ｐ３，Ｐ４が設定されていたとする。
このとき、正解マップ生成手段１１は、二次元ガウス分布を適用した正方形画像（例えば、２５６×２５６画素）Ｇｄを生成する。ここでは、正方形画像Ｇｄの中心の画素値を“１．０”、画像端の画素値を“０．０”とする。

そして、正解マップ生成手段１１は、学習用画像Ｉ_Ｌと同じ大きさで全面に“０．０”の値を初期設定した正解マップＭｒの４頂点Ｐ１，Ｐ２，Ｐ３，Ｐ４と、正方形画像Ｇｄの４頂点とが一致するように、正方形画像Ｇｄを透視変換して、正解マップＭｒに上書きする。
これによって、正解マップ生成手段１１は、学習用正解データＤ_Ｌに含まれる単独文字の分布領域として、単独文字の中心位置と領域形状とを模式的に表した正解マップＭｒを生成することができる。
図１に戻って、文字領域検出モデル学習装置１の構成について説明を続ける。

単独文字誤差算出手段１２は、単独文字検出手段１０で生成された文字マップと、正解マップ生成手段１１で生成された正解マップとの誤差を算出するものである。
単独文字誤差算出手段１２における誤差計算には、例えば、平均二乗誤差（ＭＳＥ：Mean squared error）、バイナリ交差エントロピ（Binary cross-entropy）等、文字マップと正解マップとの各画素値の差が大きいほど、大きな値を誤差として算出する関数を用いることができる。
単独文字誤差算出手段１２は、算出した文字マップと正解マップとの誤差をパラメータ更新手段１３に出力する。

パラメータ更新手段（第１パラメータ更新手段）１３は、単独文字誤差算出手段１２で算出された誤差を小さくするように、単独文字検出モデルＮ_１のパラメータを更新するものである。
パラメータ更新手段１３におけるパラメータの更新には、例えば、確率的勾配降下法（ＳＧＤ：Stochastic Gradient Descent）、Ａｄａｍ（Adaptive moment estimation）等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段１３は、確率的勾配降下法等によって、モデル記憶手段１７に記憶されている単独文字検出モデルＮ_１のパラメータを更新する。

ペア属性算出手段１４は、ニューラルネットワークで構成されたペア属性推定モデルＮ_２を用いて、単独文字検出手段１０で検出された単独文字の各ペアが、同じ文字列に属する文字か否かを示すペア属性を算出するものである。
ペア属性算出手段１４は、グラフ構造生成手段１４０と、ノード属性算出手段１４１と、を備える。

グラフ構造生成手段１４０は、単独文字検出手段１０で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するものである。
グラフ構造生成手段１４０は、文字マップにおいて局所値（ここでは、局所最大値）を持つ画素の位置を単独文字の位置とし、グラフ構造を生成する。ただし、グラフ構造生成手段１４０は、局所最大値のうち、予め定めた閾値（例えば、０．５）を超える画素を単独文字の位置とすることが好ましい。そして、グラフ構造生成手段１４０は、単独文字の位置に対応付けて、固有のラベルを付与する。
なお、グラフ構造生成手段１４０において、検出された単独文字が１文字以下の場合、ペア属性算出手段１４は、ペア属性の算出を行わないこととする。

ここで、図４を参照（適宜図１参照）して、グラフ構造生成手段１４０が生成するグラフ構造の例について説明する。
図４に示すように、文字マップＭｃに４つの単独文字が存在しているものとする。なお、図４中、「ａ」，「ｂ」，「ｃ」，「ｄ」は、説明の都合上、単独文字の位置を識別するためのラベルとして記載したもので、実際に文字マップＭｃ上に記述されているものではない。

グラフ構造生成手段１４０は、単独文字のすべてのペアとなる「ａｂ」，「ａｃ」，「ａｄ」，「ｂａ」，「ｂｃ」，「ｂｄ」，「ｃａ」，「ｃｂ」，「ｃｄ」，「ｄａ」，「ｄｂ」，「ｄｃ」の１２個のペアをそれぞれノードＮとして設定する。

なお、グラフ構造生成手段１４０は、これらすべてのノードを必ずしもすべて使用する必要はない。例えば、グラフ構造生成手段１４０は、ノードに含まれる単独文字同士の距離（画像上の距離）が離れていると判断される場合、そのノードを除外することとしてもよい。
具体的には、グラフ構造生成手段１４０は、単独文字ごとに、当該単独文字を含むノードのペア間の距離が短い方から順に順位付けし、予め定めた数ｎ（例えば、ｎ＝５）を超えるノードを削除候補とする。そして、グラフ構造生成手段１４０は、ノードに含まれる両方の単独文字で、当該ノードが削除対象となったものを削除する。

例えば、図４において、単独文字「ｂ」に着目した場合、「ｂ」を含むノードは、ペア間の距離が「ａｂ」＝「ｂｄ」＜「ｂｃ」となる。ここで、予め定めた数ｎを“２”とした場合、グラフ構造生成手段１４０は、ノード「ｂｃ」を除外候補とする。同様に、単独文字「ｃ」に着目した場合、「ｃ」を含むノードは、ペア間の距離が「ａｃ」＝「ｃｄ」＜「ｂｃ」となり、ノード「ｂｃ」が除外候補となる。
このように、単独文字「ｂ」，「ｃ」について、両方ともノード「ｂｃ」が除外候補となったため、グラフ構造生成手段１４０は、ノード「ｂｃ」を除外する。
なお、単独文字のペアにおいて、いずれか一方が除外候補となった場合に、そのペアのノードを削除することとしてもよい。
あるいは、グラフ構造生成手段１４０は、ノードに含まれる単独文字のペア間の距離が予め定めた閾値を上回る場合に、そのノードを除外することとしてもよい。

また、グラフ構造生成手段１４０は、設定したそれぞれのノードＮにおいて、「ａｂ」，「ａｃ」のように、同じ単独文字（ここでは、「ａ」）のラベルを共通に含むノードＮ間にエッジＥを設定する。一方、グラフ構造生成手段１４０は、「ａｂ」，「ｃｄ」のように、同じ単独文字を含まないノードＮ間にはエッジＥを設定しないものとする。
これによって、グラフ構造生成手段１４０は、単独文字のペア（ラベル対）をノードＮ、ノードＮ同士で同一の単独文字を持つノード間をエッジＥで接続したグラフ構造Ｇを生成する。なお、図４のグラフ構造Ｇは、一部のノードおよびエッジを省略している。
図１に戻って、文字領域検出モデル学習装置１の構成について説明を続ける。

グラフ構造生成手段１４０は、生成したグラフ構造を単独文字の位置とともにノード属性算出手段１４１に出力する。

ノード属性算出手段１４１は、ニューラルネットワークで構成されたペア属性推定モデルＮ_２を用いて、グラフ構造生成手段１４０で生成されたグラフ構造と、特徴マップとに基づいて、単独文字同士のペア属性を算出するものである。
このノード属性算出手段１４１は、ペア属性推定モデルＮ_２を用いて、図５に示すように、グラフ構造ＧのノードＮごとに、ノード属性としてペア属性を算出する。
ペア属性（ノード属性）は、単独文字が同じ文字列に属するペアである属性（例えば、属性値“０”）と、異なる文字列に属するペアである属性（例えば、属性値“１”）の２種類である。なお、図５では、「ａ」および「ｂ」が同じ文字列に属し、「ｃ」および「ｄ」が同じ文字列に属している状態を示している。

ここで、図６を参照（適宜図１参照）して、ペア属性推定モデルＮ_２の構成例について説明する。
図６に示すように、ペア属性推定モデルＮ_２は、グラフコンボリューションネットワーク（ＧＣＮ：Graph Convolutional Networks）で構成される。なお、図６のペア属性推定モデルＮ_２は、図４に例示したグラフ構造Ｇの「ａｂ」のノードにエッジを接続するノードについて図示しているが、他のノードについても同様である。
ペア属性推定モデルＮ_２は、エッジＥで接続されたノードＮに対応する２つの単独文字の特徴量を、ノード特徴量として入力し、順次畳み込み演算を行うことで、ノードＮごとにペア属性を出力するネットワークである。

単独文字の特徴量は、図７に示すように、チャンネル数“Ｃ”、高さＨ画素、幅Ｗ画素（Ｃ×Ｈ×Ｗ）の特徴マップＭｆにおいて、単独文字の位置に対応する１チャンネルごとの値をチャンネル数分合算した数値列である。
例えば、図６において、ペア属性推定モデルＮ_２に入力する「ａｂ」のノードＮの場合、当該ノードに対応するノード特徴量は、「ａ」の特徴量ｆａと「ｂ」の特徴量ｆｂとを要素ごとに足し合わせた数値列とする。他のノードについても同様である。
ペア属性推定モデルＮ_２は、出力として、ノードＮごとに“０”～“１”の範囲の値となるペア属性を出力する。

図１に戻って、文字領域検出モデル学習装置１の構成について説明を続ける。
ノード属性算出手段１４１は、ペア属性推定モデルＮ_２を用いて算出したノード（ラベル対）ごとのペア属性を、２つの単独文字の位置とともに、ペア属性誤差算出手段１５に出力する。

ペア属性誤差算出手段１５は、学習用正解データＤ_Ｌに基づいて、ペア属性算出手段１４で算出されたペア属性の誤差を算出するものである。
ペア属性誤差算出手段１５は、学習用正解データＤ_Ｌの文字列領域座標データＤ２の領域座標Ｓ_１～Ｓ_ｎを参照し、ペア属性算出手段１４で算出されたペア属性に対応する２つ単独文字の位置が同じ領域に含まれるか否かを正解属性とし、ペア属性と正解属性との誤差を算出する。

正解属性は、ペア属性と同様に２種類とし、ペア属性に対応する２つ単独文字の位置が同じ領域に含まれる場合、正解属性の値を“０”、同じ領域に含まれない場合、正解属性の値を“１”とする。正解属性が“０”の場合、２つ単独文字は同じ文字列に含まれ、正解属性が“１”の場合、２つ単独文字は異なる文字列に含まれることになる。
ペア属性誤差算出手段１５における誤差計算には、交差エントロピ（Cross-entropy）等、算出したペア属性が正解属性と異なる場合に値が大きくなる関数を用いることができる。
ペア属性誤差算出手段１５は、算出したノードごとのペア属性と正解属性との誤差を、パラメータ更新手段１６に出力する。

パラメータ更新手段（第２パラメータ更新手段）１６は、ペア属性誤差算出手段１５で算出された２つの単独文字のペア属性と正解属性との誤差を小さくするように、単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２のパラメータを更新するものである。
パラメータ更新手段１６におけるパラメータの更新には、例えば、確率的勾配降下法（ＳＧＤ）、Ａｄａｍ等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段１６は、確率的勾配降下法等によって、モデル記憶手段１７に記憶されている単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２のパラメータを更新する。

なお、単独文字検出モデルＮ_１のパラメータは、パラメータ更新手段１３において更新されるため、必ずしもパラメータ更新手段１６において更新する必要はない。
しかし、パラメータ更新手段１６において、単独文字検出モデルＮ_１のパラメータを重畳して更新することで、文字列を精度よく検出するための単独文字の特徴を抽出することが可能になる。

モデル記憶手段１７は、画像内の文字領域を検出するためのニューラルネットワークで構成された文字領域検出モデルのパラメータを記憶するものである。このモデル記憶手段１７は、半導体メモリ等の一般的な記憶媒体で構成することができる。
文字領域検出モデルは、単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２で構成される。
単独文字検出モデルＮ_１のパラメータは、単独文字検出手段１０によって参照され、パラメータ更新手段１３およびパラメータ更新手段１６によって更新される。
ペア属性推定モデルＮ_２のパラメータは、ペア属性算出手段１４によって参照され、パラメータ更新手段１６によって更新される。

以上説明したように文字領域検出モデル学習装置１を構成することで、文字領域検出モデル学習装置１は、画像内の文字領域を検出するための文字領域検出モデル（単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２）を学習することができる。

このように、文字領域検出モデル学習装置１は、文字列の判定をニューラルネットワークで学習することで、複数の文字列が狭い範囲に密集している場合等、複雑な状態で画像内に文字列が存在している場合でも、精度よく文字列の領域を判定することが可能なモデルを学習することができる。
なお、文字領域検出モデル学習装置１は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。

〔文字領域検出モデル学習装置の動作〕
次に、図８を参照（構成については適宜図１参照）して、本発明の第１実施形態に係る文字領域検出モデル学習装置１の動作について説明する。
ステップＳ１０において、単独文字検出手段１０は、学習用画像Ｉ_Ｌを入力する。
ステップＳ１１において、単独文字検出手段１０は、モデル記憶手段１７に記憶されている単独文字検出モデルＮ_１を用いて、学習用画像Ｉ_Ｌに対応する画像特徴である特徴マップと、学習用画像Ｉ_Ｌに対応する単独文字の領域分布を示す文字マップとを生成する。
ステップＳ１２において、正解マップ生成手段１１は、学習用正解データＤ_Ｌから、学習用画像Ｉ_Ｌ内の単独文字ごとの正解の領域を示す正解マップを生成する。

ステップＳ１３において、単独文字誤差算出手段１２は、ステップＳ１１で生成された文字マップと、ステップＳ１２で生成された正解マップとの誤差を算出する。
ステップＳ１４において、パラメータ更新手段１３は、ステップＳ１３で算出された誤差を小さくするように、単独文字検出モデルＮ_１のパラメータを更新する。

ステップＳ１５において、ペア属性算出手段１４のグラフ構造生成手段１４０は、文字マップにおいて局所最大値を持つ画素の位置を単独文字の位置として検出する。
ステップＳ１６において、グラフ構造生成手段１４０は、単独文字の位置が２以上検出されたか否かを判定する。
ここで、単独文字の位置が２以上検出されなかった場合（ステップＳ１６でＮｏ）、ペア属性算出手段１４は、ペア属性の算出を行わずに、ステップＳ２２に動作を移す。
一方、単独文字の位置が２以上検出された場合（ステップＳ１６でＹｅｓ）、ステップＳ１７において、ペア属性算出手段１４のグラフ構造生成手段１４０は、ステップＳ１１で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成する。

ステップＳ１８において、ペア属性算出手段１４のノード属性算出手段１４１は、モデル記憶手段１７に記憶されているペア属性推定モデルＮ_２を用いて、ステップＳ１１で生成された特徴マップと、ステップＳ１７で生成されたグラフ構造とから、ノード属性として、単独文字同士のペア属性を算出する。
ステップＳ１９において、ペア属性誤差算出手段１５は、学習用正解データＤ_Ｌの文字列領域座標データＤ２の領域座標Ｓ_１～Ｓ_ｎを参照し、ステップＳ１８で算出されたペア属性に対応する２つ単独文字の位置が同じ領域に含まれるか否かの属性を、正解属性として生成する。

ステップＳ２０において、ペア属性誤差算出手段１５は、ステップＳ１９で生成された正解属性と、ステップＳ１８で算出されたペア属性との誤差を算出する。
ステップＳ２１において、パラメータ更新手段１６は、ステップＳ２０で算出された誤差を小さくするように、単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２のパラメータを更新する。

ステップＳ２２において、文字領域検出モデル学習装置１は、予め定めた学習の終了条件を満たしたか否かを判定する。ここで、学習の終了条件は、例えば、すべての学習データ（学習用画像Ｉ_Ｌ、学習用正解データＤ_Ｌ）による学習が終了した場合、パラメータ更新手段１３，１６におけるパラメータの更新が予め定めた閾値内に収束した場合等である。
ここで、まだ、終了条件に達していない場合（ステップＳ２２でＮｏ）、文字領域検出モデル学習装置１は、ステップＳ１０に戻って動作を継続する。
一方、終了条件に達した場合（ステップＳ２２でＹｅｓ）、文字領域検出モデル学習装置１は、動作を終了する。

〔文字領域検出装置の構成〕
次に、図９を参照して、本発明の第２実施形態に係る文字領域検出装置２の構成について説明する。

文字領域検出装置２は、文字領域検出モデル学習装置１（図１）で学習された文字領域検出モデル（単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２）を用いて、画像内の文字領域を検出するものである。
文字領域検出装置２は、単独文字検出手段１０Ｂと、ペア属性算出手段１４Ｂと、モデル記憶手段１７Ｂと、文字領域算出手段１８と、を備える。

単独文字検出手段１０Ｂは、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成するニューラルネットワークで構成された学習済の単独文字検出モデルＮ_１を用いて、画像Ｉから文字マップおよび特徴マップを生成するものである。
この単独文字検出手段１０Ｂは、入力する画像Ｉが文字領域を検出する対象の画像である点、文字マップの出力先が文字領域算出手段１８である点を除いて、文字領域検出モデル学習装置１（図１）の単独文字検出手段１０と同じ機能を有する。

ペア属性算出手段１４Ｂは、ニューラルネットワークで構成された学習済のペア属性推定モデルＮ_２を用いて、単独文字検出手段１０Ｂで検出された単独文字の各ペアが、同じ文字列に属する文字か否かを示すペア属性を算出するものである。
ペア属性算出手段１４Ｂは、グラフ構造生成手段１４０Ｂと、ノード属性算出手段１４１Ｂと、を備える。

グラフ構造生成手段１４０Ｂは、単独文字検出手段１０Ｂで生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するものである。
このグラフ構造生成手段１４０Ｂは、基本的に文字領域検出モデル学習装置１（図１）のグラフ構造生成手段１４０と同じ機能を有する。
ただし、グラフ構造生成手段１４０Ｂは、文字マップにおいて局所値（ここでは、局所最大値）を持つ画素の位置として、単独文字の位置が１つしか検出されなかった場合、グラフ構造の生成を行わず、文字領域算出手段１８に単独文字の位置のみを通知することとする。なお、単独文字の位置が１つも検出されなかった場合、図示を省略した表示装置にその旨を表示することとしてもよい。

ノード属性算出手段１４１Ｂは、ニューラルネットワークで構成された学習済のペア属性推定モデルＮ_２を用いて、グラフ構造生成手段１４０Ｂで生成されたグラフ構造と、特徴マップとに基づいて、単独文字同士のペア属性を算出するものである。
このノード属性算出手段１４１Ｂは、ペア属性の出力先が文字領域算出手段１８である点を除いて、文字領域検出モデル学習装置１（図１）のノード属性算出手段１４１と同じ機能を有する。

モデル記憶手段１７Ｂは、文字領域検出モデル学習装置１（図１）で学習された文字領域検出モデル（単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２）を記憶するものである。このモデル記憶手段１７Ｂは、半導体メモリ等の一般的な記憶媒体で構成することができる。

文字領域算出手段１８は、単独文字検出手段１０Ｂで生成された文字マップと、ペア属性算出手段１４Ｂで算出されたペア属性とに基づいて、同じ文字列に含まれる単独文字の領域を統合した文字領域を算出するものである。
文字領域算出手段１８は、単独文字領域検出手段１８０と、文字領域統合手段１８１と、を備える。

単独文字領域検出手段１８０は、単独文字の位置における単独文字の領域を検出するものである。ここでは、単独文字領域検出手段１８０は、ペア属性算出手段１４Ｂからペア属性とともに入力される単独文字の位置（ここでは、局所最大値の位置）における単独文字の領域を検出する。なお、単独文字領域検出手段１８０は、ペア属性算出手段１４Ｂから、単独文字の位置を１つだけ入力した場合、１つの単独文字の領域を検出する。

具体的には、単独文字領域検出手段１８０は、単独文字検出手段１０Ｂで生成された文字マップにおいて、単独文字の位置を既知の前景とし、ラベルを割り当てる。また、単独文字領域検出手段１８０は、単独文字以外の領域を示す値として設定されている画素値（ここでは、“０．０”）の領域を背景とする。そして、単独文字領域検出手段１８０は、前景および背景と設定した画素以外の画素が前景であるどの単独文字の領域に属するかを判定することで、単独文字の領域を検出する。

このように、前景と背景とを分割する手法は、一般的な領域分割手法を用いればよく、例えば、Ｗａｔｅｒｓｈｅｄ（分水嶺）アルゴリズムを用いることができる。Ｗａｔｅｒｓｈｅｄアルゴリズムは、画像の局所値（ここでは、局所最大値）に前景を設定し、画像の輝度勾配によって前景の輪郭を検出する手法である。
これによって、単独文字領域検出手段１８０は、単独文字ごとの領域を検出することができる。
単独文字領域検出手段１８０は、検出した単独文字ごとの領域を、単独文字を識別するラベルとともに、文字領域統合手段１８１に出力する。

文字領域統合手段１８１は、単独文字領域検出手段１８０で検出された単独文字の領域を、同じ文字列を構成する領域に統合するものである。
文字領域統合手段１８１は、ペア属性算出手段１４で算出されたペア属性に基づいて、同じ文字列に属する単独文字領域検出手段１８０で検出された単独文字の領域を統合する。
この文字領域統合手段１８１は、予め定めた閾値（例えば、０．５）よりも大きい値となるペア属性の単独文字を同じ文字列に属するものとする。

文字領域統合手段１８１は、統合した領域を、画像Ｉに含まれる文字領域として外部に出力する。なお、文字領域統合手段１８１は、単独文字が１つのみの場合、当該単独文字の領域を１文字の文字列とみなして文字領域を外部に出力する。
この文字領域統合手段１８１において、外部に出力する文字領域の出力形式は特に限定されるものではない。例えば、同じ文字列に含まれるすべての単独文字の領域に外接する外接矩形の４つの頂点の座標（合計８つの数値）、外接矩形の中心座標（あるいは左上座標）、幅および高さ（合計４つの数値）等である。なお、回転を含んで外接矩形を設定する場合であれば、外接矩形の中心座標（あるいは左上座標）、幅、高さおよび回転角（合計５つの数値）等である。
もちろん、出力形式は、外接矩形に限定されず、最小外接円や多角形ポリゴンであってもよい。

以上説明したように文字領域検出装置２を構成することで、文字領域検出装置２は、ニューラルネットワークである文字領域検出モデル（単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２）を用いて、画像内の文字領域を検出することができる。
これによって、文字領域検出装置２は、複数の文字列が狭い範囲に密集している場合等、複雑な状態で画像内に文字列が存在している場合でも、精度よく文字列の領域を検出することができる。
なお、文字領域検出装置２は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。

〔文字領域検出装置の動作〕
次に、図１０を参照（構成については適宜図９参照）して、本発明の第２実施形態に係る文字領域検出装置２の動作について説明する。なお、モデル記憶手段１７Ｂには、予め文字領域検出モデル学習装置１（図１）で学習された文字領域検出モデル（単独文字検出モデルＮ_１およびペア属性推定モデルＮ_２）が記憶されているものとする。

ステップＳ３０において、単独文字検出手段１０Ｂは、画像Ｉを入力する。
ステップＳ３１において、単独文字検出手段１０Ｂは、モデル記憶手段１７Ｂに記憶されている単独文字検出モデルＮ_１を用いて、画像Ｉに対応する画像特徴である特徴マップと、画像Ｉに対応する単独文字の領域分布を示す文字マップとを生成する。

ステップＳ３２において、ペア属性算出手段１４Ｂのグラフ構造生成手段１４０Ｂは、文字マップにおいて局所最大値を持つ画素の位置を単独文字の位置として検出する。
ステップＳ３３において、グラフ構造生成手段１４０Ｂは、単独文字の位置を検出したか否かを判定する。
ここで、単独文字の位置を検出できなかった場合（ステップＳ３３でＮｏ）、文字領域検出装置２は、動作を終了する。
一方、単独文字の位置を検出できた場合（ステップＳ３３でＹｅｓ）、ステップＳ３４において、グラフ構造生成手段１４０Ｂは、単独文字の位置が２以上検出されたか否かを判定する。
ここで、単独文字の位置が２以上検出されなかった場合（ステップＳ３４でＮｏ）、ペア属性算出手段１４は、ペア属性の算出を行わずに、ステップＳ３７に動作を移す。

一方、単独文字の位置が２以上検出された場合（ステップＳ３４でＹｅｓ）、ステップＳ３５において、ペア属性算出手段１４Ｂのグラフ構造生成手段１４０Ｂは、ステップＳ３１で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成する。
ステップＳ３６において、ペア属性算出手段１４Ｂのノード属性算出手段１４１Ｂは、モデル記憶手段１７Ｂに記憶されているペア属性推定モデルＮ_２を用いて、ステップＳ３１で生成された特徴マップと、ステップＳ３５で生成されたグラフ構造とから、ノード属性として、単独文字同士のペア属性を算出する。

ステップＳ３７において、文字領域算出手段１８の単独文字領域検出手段１８０は、Ｗａｔｅｒｓｈｅｄアルゴリズム等によって、文字マップにおいて、ステップＳ３２で検出された単独文字の位置における単独文字の領域を検出する。

ステップＳ３８において、文字領域算出手段１８の文字領域統合手段１８１は、ステップＳ３６で算出されたペア属性に基づいて、同じ文字列に属するステップＳ３７で検出された単独文字の領域を文字領域として統合する。なお、単独文字が１文字の場合、文字領域統合手段１８１は、単独文字が１文字の領域を文字列の文字領域とする。
ステップＳ３９において、文字領域統合手段１８１は、文字領域を所定の出力形式に変換して外部に出力する。
以上の動作によって、文字領域検出装置２は、画像内に存在する文字列の領域を検出することができる。

以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
〔変形例〕
ここでは、図２で説明した単独文字検出モデルＮ_１は、入力する画像Ｉの大きさ（Ｈ×Ｗと、出力する特徴マップＭｆおよび文字マップＭｃの大きさ（Ｈ×Ｗ）を、同じ大きさとした。しかし、この大きさは、高さＷと幅Ｗとの比が同じであれば、必ずしも同じ大きさである必要はない。

例えば、特徴マップＭｆおよび文字マップＭｃの大きさを、１／２（Ｈ／２×Ｗ／２）、１／４（Ｈ／４×Ｗ／４）等、予め定めた縮小比で縮小した大きさとしてもよい。
この場合、文字領域検出モデル学習装置１は、学習用正解データＤ_Ｌの単独文字領域座標データＤ１や、文字列領域座標データＤ２の領域座標の座標値を同じ縮小比で縮小して使用すればよい。
また、この場合、文字領域検出装置２は、文字領域算出手段１８において、出力する文字領域の座標を、縮小比の逆数で拡大すればよい。
これによって、文字領域検出モデル学習装置１および文字領域検出装置２における計算処理負荷を軽減させることができる。ただし、この場合、小さい文字列の検出精度を劣化させることになるため、処理負荷と精度とのトレードオフによって、特徴マップＭｆおよび文字マップＭｃの大きさを予め定めればよい。

また、ここでは、図６で説明したペア属性推定モデルＮ_２は、ノードの特徴量として、図７に示す特徴マップＭｆから生成される２つの単独文字の特徴量を合算したものを用いた。しかし、ノードの特徴量は、これに限定されるものではない。
例えば、単独文字の特徴量を合算したものではなく、連結したものを用いてもよい。その場合、「ａｂ」，「ｂａ」のようにノードを構成する単独文字が同じであっても、連結する順序が異なるものは異なるノードとして扱う方が望ましい。ただし、ノードの数が２倍になるため、メモリ消費量の観点から合算を使い、「ａｂ」，「ｂａ」を同一のノードとして扱うことが好ましい。

また、例えば、ノードの特徴量には、特徴マップＭｆから生成される特徴量に、さらに、ノードに属する単独文字のペア間の距離、角度特徴等の幾何学的特徴量を付加してもよい。
具体的には、ペアとなる２つの単独文字の位置座標をＰ_１＝（ｘ_１，ｘ_２）、Ｐ_２＝（ｘ_２，ｙ_２）とした場合、以下の式（１）に示すペア間の距離ｄを用いればよい。また、角度特徴として、以下の式（２）、式（３）に示す正弦値ｓｉｎθ、余弦値ｃｏｓθを用いればよい。

これによって、文字領域検出モデル学習装置１は、ペア属性推定モデルＮ_２をさらに精度よく学習することができる。また、文字領域検出装置２は、ペア属性推定モデルＮ_２を用いてさらに精度よく文字領域を検出することができる。

また、ここでは、ペア属性推定モデルＮ_２を、グラフコンボリューションネットワーク（ＧＣＮ）で構成した。
しかし、ペア属性推定モデルＮ_２は、例えば、線形結合構造で構成された他のニューラルネットワークで構成しても構わない。ただし、ペアの属性を検出する精度と、メモリの使用効率の観点から、ペア属性推定モデルＮ_２は、ＧＣＮで構成することが好ましい。

また、ここでは、ペア属性を、２つの単独文字が同じ文字列に含まれるか否かを示す属性としたが、さらに、他の属性を追加してもよい。
例えば、２つの単独文字が、「同じ文字列に含まれ、かつ、隣り合う文字であるか否か」、「同じ文字列に含まれ、かつ、一方の単独文字が文字列の先頭に位置するか否か」等の単独文字の位置に関する属性を追加してもよい。
この場合、文字領域検出装置２は、文字領域算出手段１８において、文字領域を出力する際に、単独文字の位置関係を属性として併せて出力すればよい。
この位置関係の属性は、文字領域内の文字認識を行う場合の有用な情報として活用することができる。

１文字領域検出モデル学習装置
１０単独文字検出手段
１１正解マップ生成手段
１２単独文字誤差算出手段
１３パラメータ更新手段（第１パラメータ更新手段）
１４ペア属性算出手段
１４０グラフ構造生成手段
１４１ノード属性算出手段
１５ペア属性誤差算出手段
１６パラメータ更新手段（第２パラメータ更新手段）
１７モデル記憶手段
２文字領域検出装置
１０Ｂ単独文字検出手段
１４Ｂペア属性算出手段
１４０Ｂグラフ構造生成手段
１４１Ｂノード属性算出手段
１７Ｂモデル記憶手段
１８文字領域算出手段
１８０単独文字領域検出手段
１８１文字領域統合手段
Ｎ_１単独文字検出モデル（文字領域検出モデル）
Ｎ_１１第１ネットワーク
Ｎ_２２第２ネットワーク
Ｎ_２ペア属性推定モデル（文字領域検出モデル）
Ｍｆ特徴マップ
Ｍｃ文字マップ

Claims

画像内の文字領域を検出するために用いるニューラルネットワークのモデルを学習する文字領域検出モデル学習装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する単独文字検出モデルを用いて、学習用画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記学習用画像に含まれる単独文字の領域を示す正解データである領域座標から前記学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する正解マップ生成手段と、
前記文字マップと前記正解マップとの誤差を算出する単独文字誤差算出手段と、
前記単独文字誤差算出手段で算出された誤差を小さくする方向に前記単独文字検出モデルのパラメータを更新する第１パラメータ更新手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出するペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記学習用画像に含まれる文字列の領域を示す正解データである領域座標から前記単独文字のペアについての正解の属性を求め、前記ペア属性との誤差を算出するペア属性誤差算出手段と、
前記ペア属性誤差算出手段で算出される誤差を小さくする方向に前記ペア属性推定モデルのパラメータを更新する第２パラメータ更新手段と、
を備えることを特徴とする文字領域検出モデル学習装置。
前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項１に記載の文字領域検出モデル学習装置。
前記第２パラメータ更新手段は、前記ペア属性推定モデルのパラメータとともに、前記単独文字検出モデルのパラメータを重畳して更新することを特徴とする請求項１または請求項２に記載の文字領域検出モデル学習装置。
前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第１ネットワークと、
前記第１ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを１チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第２ネットワークと、
を連結して構成していることを特徴とする請求項１から請求項３のいずれか一項に記載の文字領域検出モデル学習装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の文字領域検出モデル学習装置として機能させるための文字領域検出モデル学習プログラム。
画像内の文字領域を検出する文字領域検出装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する学習済のニューラルネットワークで構成された単独文字検出モデルを用いて、入力された画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記ペア属性で同じ文字列に含まれる単独文字の領域を統合した前記文字領域を算出する文字領域算出手段と、
を備えることを特徴とする文字領域検出装置。
前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項６に記載の文字領域検出装置。
前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第１ネットワークと、
前記第１ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを１チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第２ネットワークと、
を連結して構成していることを特徴とする請求項６または請求項７に記載の文字領域検出装置。
コンピュータを、請求項６から請求項８のいずれか一項に記載の文字領域検出装置として機能させるための文字領域検出プログラム。