JP7373367B2 - 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム - Google Patents
文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム Download PDFInfo
- Publication number
- JP7373367B2 JP7373367B2 JP2019209628A JP2019209628A JP7373367B2 JP 7373367 B2 JP7373367 B2 JP 7373367B2 JP 2019209628 A JP2019209628 A JP 2019209628A JP 2019209628 A JP2019209628 A JP 2019209628A JP 7373367 B2 JP7373367 B2 JP 7373367B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- map
- pair
- attribute
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 181
- 238000004364 calculation method Methods 0.000 claims description 82
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 22
- 238000002910 structure generation Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007717 exclusion Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 240000008415 Lactuca sativa Species 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000012045 salad Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Description
しかし、このような手法を用いた場合、撮影条件を限定しない情景画像内では、文字領域が矩形形状ではないため、文字領域を検出することは困難であった。
そこで、近年では、機械学習技術(ニューラルネットワーク)を利用して、情景画像内に映った文字領域を検出する手法が種々提案されている。
しかし、従来手法2は、単独文字と文字間との統合を、単純なルールベースのアルゴリズムで行うため、例えば、狭い範囲に複数の文字列が密集している場合に、それらを1つの文字列として検出する等、文字列の密集の度合いによっては、正しく文字列を検出することができないという問題がある。
また、文字領域検出モデル学習装置は、正解マップ生成手段によって、学習用画像に含まれる単独文字の領域を示す正解データである領域座標から学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する。
そして、文字領域検出モデル学習装置は、単独文字誤差算出手段によって、文字マップと正解マップとの誤差を算出する。
そして、文字領域検出モデル学習装置は、第1パラメータ更新手段によって、単独文字誤差算出手段で算出された誤差を小さくする方向に単独文字検出モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字の位置を検出するための単独文字検出モデルを学習することができる。
そして、文字領域検出モデル学習装置は、ペア属性誤差算出手段によって、学習用画像に含まれる文字列の領域を示す正解データである領域座標から単独文字のペアについての正解の属性を求め、ペア属性算出手段で算出されたペア属性との誤差を算出する。
そして、文字領域検出モデル学習装置は、第2パラメータ更新手段によって、ペア属性誤差算出手段で算出される誤差を小さくする方向にペア属性推定モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字のペアが同じ文字列を構成する文字であるか否かを判定するためのペア属性推定モデルを学習することができる。
なお、文字領域検出モデル学習装置は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。
そして、文字領域検出装置は、ペア属性算出手段によって、文字マップおよび特徴マップから単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、文字マップで特定される単独文字のペアのペア属性を算出する。
これによって、文字領域検出装置は、画像内において、文字列として認識される文字領域を検出する。
なお、文字領域検出装置は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。
本発明は、ニューラルネットワークの学習によって、単独文字同士が同じ文字列に属するか否かを判定するため、従来のような単純なルールベースのアルゴリズムで文字列の判定を行う手法に比べて、柔軟に文字列の判定を行うことができる。
これによって、本発明は、従来の手法に比べて、画像から精度よく文字領域を検出することができる。
〔文字領域検出モデル学習装置の構成〕
図1を参照して、本発明の第1実施形態に係る文字領域検出モデル学習装置1の構成について説明する。
文字領域検出モデル学習装置1は、学習用画像ILと学習用正解データDLとを対とした学習データを用いて学習を行う。
単独文字領域座標データD1は、学習用画像IL内の1文字(単独文字)ごとの領域座標C1,C2,…,Cm(mは画像内に含まれる文字数)である。この単独文字の領域座標は、単独文字を囲む4角形の4頂点の座標で構成される。また、単独文字を囲む4角形は、矩形である必要はなく、台形、平行四辺形、不等辺四辺形等、文字の変形形状に応じた形状であればよい。
なお、文字列は、1文字以上の文字のまとまりを示す。しかし、分かち書きで記述された英文の文章のように空白を挟んだ文章の場合、1つの文章を、空白で区切った複数の文字列とするか、空白を含んだ1つの文字列とするかは、文字領域をどの単位で検出したいかによって、予め定めておけばよい。例えば、「I have a dog.」を、「I」、「have」、「a」および「dog.」の4つの文字列とするか、「I have a dog.」の1つの文字列とするかは、いずれか一方に予め定めて学習データを生成しておく。
図2に示すように、単独文字検出モデルN1は、第1ネットワークN11と第2ネットワークN12とを連結したニューラルネットワークとして構成することができる。
この第2ネットワークN12は、特徴量fを拡大し、拡大した特徴量に同じ大きさの第1ネットワークN11で生成された中間特徴量を連結して畳み込みを行う処理を、特徴量が予め定めた大きさになるまで繰り返す。なお、畳み込みに際し、必ずしも中間特徴量を連結する必要はないが、特徴量の下層への畳み込みを行わないパスを設けることで、モデル学習時における勾配消失を防止することができるため好ましい。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
ここでは、正解マップ生成手段11は、単独文字の中心と単独文字以外の領域とで異なる値を割り当て、単独文字の中心から単独文字領域の縁に近づくほど、単独文字以外の領域の値に近づくように値を割り当てることで、正解マップを生成する。
例えば、正解マップ生成手段11は、単独文字の中心の画素値を“1.0”(例えば、256階調における画素値“255”に相当)、単独文字以外の領域の画素値を“0.0”(例えば、256階調における画素値“0”に相当)とし、単独文字の中心から単独文字領域の縁に近づくほど“0.0”に近づくように値を割り当てる。
図3に示すように、学習用画像ILに単独文字“A”が存在し、学習用正解データDLの単独文字領域座標データD1の1つの単独文字の領域座標(例えば、C1)として、4頂点P1,P2,P3,P4が設定されていたとする。
このとき、正解マップ生成手段11は、二次元ガウス分布を適用した正方形画像(例えば、256×256画素)Gdを生成する。ここでは、正方形画像Gdの中心の画素値を“1.0”、画像端の画素値を“0.0”とする。
これによって、正解マップ生成手段11は、学習用正解データDLに含まれる単独文字の分布領域として、単独文字の中心位置と領域形状とを模式的に表した正解マップMrを生成することができる。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
単独文字誤差算出手段12における誤差計算には、例えば、平均二乗誤差(MSE:Mean squared error)、バイナリ交差エントロピ(Binary cross-entropy)等、文字マップと正解マップとの各画素値の差が大きいほど、大きな値を誤差として算出する関数を用いることができる。
単独文字誤差算出手段12は、算出した文字マップと正解マップとの誤差をパラメータ更新手段13に出力する。
パラメータ更新手段13におけるパラメータの更新には、例えば、確率的勾配降下法(SGD:Stochastic Gradient Descent)、Adam(Adaptive moment estimation)等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段13は、確率的勾配降下法等によって、モデル記憶手段17に記憶されている単独文字検出モデルN1のパラメータを更新する。
ペア属性算出手段14は、グラフ構造生成手段140と、ノード属性算出手段141と、を備える。
グラフ構造生成手段140は、文字マップにおいて局所値(ここでは、局所最大値)を持つ画素の位置を単独文字の位置とし、グラフ構造を生成する。ただし、グラフ構造生成手段140は、局所最大値のうち、予め定めた閾値(例えば、0.5)を超える画素を単独文字の位置とすることが好ましい。そして、グラフ構造生成手段140は、単独文字の位置に対応付けて、固有のラベルを付与する。
なお、グラフ構造生成手段140において、検出された単独文字が1文字以下の場合、ペア属性算出手段14は、ペア属性の算出を行わないこととする。
図4に示すように、文字マップMcに4つの単独文字が存在しているものとする。なお、図4中、「a」,「b」,「c」,「d」は、説明の都合上、単独文字の位置を識別するためのラベルとして記載したもので、実際に文字マップMc上に記述されているものではない。
具体的には、グラフ構造生成手段140は、単独文字ごとに、当該単独文字を含むノードのペア間の距離が短い方から順に順位付けし、予め定めた数n(例えば、n=5)を超えるノードを削除候補とする。そして、グラフ構造生成手段140は、ノードに含まれる両方の単独文字で、当該ノードが削除対象となったものを削除する。
このように、単独文字「b」,「c」について、両方ともノード「bc」が除外候補となったため、グラフ構造生成手段140は、ノード「bc」を除外する。
なお、単独文字のペアにおいて、いずれか一方が除外候補となった場合に、そのペアのノードを削除することとしてもよい。
あるいは、グラフ構造生成手段140は、ノードに含まれる単独文字のペア間の距離が予め定めた閾値を上回る場合に、そのノードを除外することとしてもよい。
これによって、グラフ構造生成手段140は、単独文字のペア(ラベル対)をノードN、ノードN同士で同一の単独文字を持つノード間をエッジEで接続したグラフ構造Gを生成する。なお、図4のグラフ構造Gは、一部のノードおよびエッジを省略している。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
このノード属性算出手段141は、ペア属性推定モデルN2を用いて、図5に示すように、グラフ構造GのノードNごとに、ノード属性としてペア属性を算出する。
ペア属性(ノード属性)は、単独文字が同じ文字列に属するペアである属性(例えば、属性値“0”)と、異なる文字列に属するペアである属性(例えば、属性値“1”)の2種類である。なお、図5では、「a」および「b」が同じ文字列に属し、「c」および「d」が同じ文字列に属している状態を示している。
図6に示すように、ペア属性推定モデルN2は、グラフコンボリューションネットワーク(GCN:Graph Convolutional Networks)で構成される。なお、図6のペア属性推定モデルN2は、図4に例示したグラフ構造Gの「ab」のノードにエッジを接続するノードについて図示しているが、他のノードについても同様である。
ペア属性推定モデルN2は、エッジEで接続されたノードNに対応する2つの単独文字の特徴量を、ノード特徴量として入力し、順次畳み込み演算を行うことで、ノードNごとにペア属性を出力するネットワークである。
例えば、図6において、ペア属性推定モデルN2に入力する「ab」のノードNの場合、当該ノードに対応するノード特徴量は、「a」の特徴量faと「b」の特徴量fbとを要素ごとに足し合わせた数値列とする。他のノードについても同様である。
ペア属性推定モデルN2は、出力として、ノードNごとに“0”~“1”の範囲の値となるペア属性を出力する。
ノード属性算出手段141は、ペア属性推定モデルN2を用いて算出したノード(ラベル対)ごとのペア属性を、2つの単独文字の位置とともに、ペア属性誤差算出手段15に出力する。
ペア属性誤差算出手段15は、学習用正解データDLの文字列領域座標データD2の領域座標S1~Snを参照し、ペア属性算出手段14で算出されたペア属性に対応する2つ単独文字の位置が同じ領域に含まれるか否かを正解属性とし、ペア属性と正解属性との誤差を算出する。
ペア属性誤差算出手段15における誤差計算には、交差エントロピ(Cross-entropy)等、算出したペア属性が正解属性と異なる場合に値が大きくなる関数を用いることができる。
ペア属性誤差算出手段15は、算出したノードごとのペア属性と正解属性との誤差を、パラメータ更新手段16に出力する。
パラメータ更新手段16におけるパラメータの更新には、例えば、確率的勾配降下法(SGD)、Adam等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段16は、確率的勾配降下法等によって、モデル記憶手段17に記憶されている単独文字検出モデルN1およびペア属性推定モデルN2のパラメータを更新する。
しかし、パラメータ更新手段16において、単独文字検出モデルN1のパラメータを重畳して更新することで、文字列を精度よく検出するための単独文字の特徴を抽出することが可能になる。
文字領域検出モデルは、単独文字検出モデルN1およびペア属性推定モデルN2で構成される。
単独文字検出モデルN1のパラメータは、単独文字検出手段10によって参照され、パラメータ更新手段13およびパラメータ更新手段16によって更新される。
ペア属性推定モデルN2のパラメータは、ペア属性算出手段14によって参照され、パラメータ更新手段16によって更新される。
なお、文字領域検出モデル学習装置1は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。
次に、図8を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る文字領域検出モデル学習装置1の動作について説明する。
ステップS10において、単独文字検出手段10は、学習用画像ILを入力する。
ステップS11において、単独文字検出手段10は、モデル記憶手段17に記憶されている単独文字検出モデルN1を用いて、学習用画像ILに対応する画像特徴である特徴マップと、学習用画像ILに対応する単独文字の領域分布を示す文字マップとを生成する。
ステップS12において、正解マップ生成手段11は、学習用正解データDLから、学習用画像IL内の単独文字ごとの正解の領域を示す正解マップを生成する。
ステップS14において、パラメータ更新手段13は、ステップS13で算出された誤差を小さくするように、単独文字検出モデルN1のパラメータを更新する。
ステップS16において、グラフ構造生成手段140は、単独文字の位置が2以上検出されたか否かを判定する。
ここで、単独文字の位置が2以上検出されなかった場合(ステップS16でNo)、ペア属性算出手段14は、ペア属性の算出を行わずに、ステップS22に動作を移す。
一方、単独文字の位置が2以上検出された場合(ステップS16でYes)、ステップS17において、ペア属性算出手段14のグラフ構造生成手段140は、ステップS11で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成する。
ステップS19において、ペア属性誤差算出手段15は、学習用正解データDLの文字列領域座標データD2の領域座標S1~Snを参照し、ステップS18で算出されたペア属性に対応する2つ単独文字の位置が同じ領域に含まれるか否かの属性を、正解属性として生成する。
ステップS21において、パラメータ更新手段16は、ステップS20で算出された誤差を小さくするように、単独文字検出モデルN1およびペア属性推定モデルN2のパラメータを更新する。
ここで、まだ、終了条件に達していない場合(ステップS22でNo)、文字領域検出モデル学習装置1は、ステップS10に戻って動作を継続する。
一方、終了条件に達した場合(ステップS22でYes)、文字領域検出モデル学習装置1は、動作を終了する。
次に、図9を参照して、本発明の第2実施形態に係る文字領域検出装置2の構成について説明する。
文字領域検出装置2は、単独文字検出手段10Bと、ペア属性算出手段14Bと、モデル記憶手段17Bと、文字領域算出手段18と、を備える。
この単独文字検出手段10Bは、入力する画像Iが文字領域を検出する対象の画像である点、文字マップの出力先が文字領域算出手段18である点を除いて、文字領域検出モデル学習装置1(図1)の単独文字検出手段10と同じ機能を有する。
ペア属性算出手段14Bは、グラフ構造生成手段140Bと、ノード属性算出手段141Bと、を備える。
このグラフ構造生成手段140Bは、基本的に文字領域検出モデル学習装置1(図1)のグラフ構造生成手段140と同じ機能を有する。
ただし、グラフ構造生成手段140Bは、文字マップにおいて局所値(ここでは、局所最大値)を持つ画素の位置として、単独文字の位置が1つしか検出されなかった場合、グラフ構造の生成を行わず、文字領域算出手段18に単独文字の位置のみを通知することとする。なお、単独文字の位置が1つも検出されなかった場合、図示を省略した表示装置にその旨を表示することとしてもよい。
このノード属性算出手段141Bは、ペア属性の出力先が文字領域算出手段18である点を除いて、文字領域検出モデル学習装置1(図1)のノード属性算出手段141と同じ機能を有する。
文字領域算出手段18は、単独文字領域検出手段180と、文字領域統合手段181と、を備える。
これによって、単独文字領域検出手段180は、単独文字ごとの領域を検出することができる。
単独文字領域検出手段180は、検出した単独文字ごとの領域を、単独文字を識別するラベルとともに、文字領域統合手段181に出力する。
文字領域統合手段181は、ペア属性算出手段14で算出されたペア属性に基づいて、同じ文字列に属する単独文字領域検出手段180で検出された単独文字の領域を統合する。
この文字領域統合手段181は、予め定めた閾値(例えば、0.5)よりも大きい値となるペア属性の単独文字を同じ文字列に属するものとする。
この文字領域統合手段181において、外部に出力する文字領域の出力形式は特に限定されるものではない。例えば、同じ文字列に含まれるすべての単独文字の領域に外接する外接矩形の4つの頂点の座標(合計8つの数値)、外接矩形の中心座標(あるいは左上座標)、幅および高さ(合計4つの数値)等である。なお、回転を含んで外接矩形を設定する場合であれば、外接矩形の中心座標(あるいは左上座標)、幅、高さおよび回転角(合計5つの数値)等である。
もちろん、出力形式は、外接矩形に限定されず、最小外接円や多角形ポリゴンであってもよい。
これによって、文字領域検出装置2は、複数の文字列が狭い範囲に密集している場合等、複雑な状態で画像内に文字列が存在している場合でも、精度よく文字列の領域を検出することができる。
なお、文字領域検出装置2は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。
次に、図10を参照(構成については適宜図9参照)して、本発明の第2実施形態に係る文字領域検出装置2の動作について説明する。なお、モデル記憶手段17Bには、予め文字領域検出モデル学習装置1(図1)で学習された文字領域検出モデル(単独文字検出モデルN1およびペア属性推定モデルN2)が記憶されているものとする。
ステップS31において、単独文字検出手段10Bは、モデル記憶手段17Bに記憶されている単独文字検出モデルN1を用いて、画像Iに対応する画像特徴である特徴マップと、画像Iに対応する単独文字の領域分布を示す文字マップとを生成する。
ステップS33において、グラフ構造生成手段140Bは、単独文字の位置を検出したか否かを判定する。
ここで、単独文字の位置を検出できなかった場合(ステップS33でNo)、文字領域検出装置2は、動作を終了する。
一方、単独文字の位置を検出できた場合(ステップS33でYes)、ステップS34において、グラフ構造生成手段140Bは、単独文字の位置が2以上検出されたか否かを判定する。
ここで、単独文字の位置が2以上検出されなかった場合(ステップS34でNo)、ペア属性算出手段14は、ペア属性の算出を行わずに、ステップS37に動作を移す。
ステップS36において、ペア属性算出手段14Bのノード属性算出手段141Bは、モデル記憶手段17Bに記憶されているペア属性推定モデルN2を用いて、ステップS31で生成された特徴マップと、ステップS35で生成されたグラフ構造とから、ノード属性として、単独文字同士のペア属性を算出する。
ステップS39において、文字領域統合手段181は、文字領域を所定の出力形式に変換して外部に出力する。
以上の動作によって、文字領域検出装置2は、画像内に存在する文字列の領域を検出することができる。
〔変形例〕
ここでは、図2で説明した単独文字検出モデルN1は、入力する画像Iの大きさ(H×Wと、出力する特徴マップMfおよび文字マップMcの大きさ(H×W)を、同じ大きさとした。しかし、この大きさは、高さWと幅Wとの比が同じであれば、必ずしも同じ大きさである必要はない。
この場合、文字領域検出モデル学習装置1は、学習用正解データDLの単独文字領域座標データD1や、文字列領域座標データD2の領域座標の座標値を同じ縮小比で縮小して使用すればよい。
また、この場合、文字領域検出装置2は、文字領域算出手段18において、出力する文字領域の座標を、縮小比の逆数で拡大すればよい。
これによって、文字領域検出モデル学習装置1および文字領域検出装置2における計算処理負荷を軽減させることができる。ただし、この場合、小さい文字列の検出精度を劣化させることになるため、処理負荷と精度とのトレードオフによって、特徴マップMfおよび文字マップMcの大きさを予め定めればよい。
例えば、単独文字の特徴量を合算したものではなく、連結したものを用いてもよい。その場合、「ab」,「ba」のようにノードを構成する単独文字が同じであっても、連結する順序が異なるものは異なるノードとして扱う方が望ましい。ただし、ノードの数が2倍になるため、メモリ消費量の観点から合算を使い、「ab」,「ba」を同一のノードとして扱うことが好ましい。
具体的には、ペアとなる2つの単独文字の位置座標をP1=(x1,x2)、P2=(x2,y2)とした場合、以下の式(1)に示すペア間の距離dを用いればよい。また、角度特徴として、以下の式(2)、式(3)に示す正弦値sinθ、余弦値cosθを用いればよい。
しかし、ペア属性推定モデルN2は、例えば、線形結合構造で構成された他のニューラルネットワークで構成しても構わない。ただし、ペアの属性を検出する精度と、メモリの使用効率の観点から、ペア属性推定モデルN2は、GCNで構成することが好ましい。
例えば、2つの単独文字が、「同じ文字列に含まれ、かつ、隣り合う文字であるか否か」、「同じ文字列に含まれ、かつ、一方の単独文字が文字列の先頭に位置するか否か」等の単独文字の位置に関する属性を追加してもよい。
この場合、文字領域検出装置2は、文字領域算出手段18において、文字領域を出力する際に、単独文字の位置関係を属性として併せて出力すればよい。
この位置関係の属性は、文字領域内の文字認識を行う場合の有用な情報として活用することができる。
10 単独文字検出手段
11 正解マップ生成手段
12 単独文字誤差算出手段
13 パラメータ更新手段(第1パラメータ更新手段)
14 ペア属性算出手段
140 グラフ構造生成手段
141 ノード属性算出手段
15 ペア属性誤差算出手段
16 パラメータ更新手段(第2パラメータ更新手段)
17 モデル記憶手段
2 文字領域検出装置
10B 単独文字検出手段
14B ペア属性算出手段
140B グラフ構造生成手段
141B ノード属性算出手段
17B モデル記憶手段
18 文字領域算出手段
180 単独文字領域検出手段
181 文字領域統合手段
N1 単独文字検出モデル(文字領域検出モデル)
N11 第1ネットワーク
N22 第2ネットワーク
N2 ペア属性推定モデル(文字領域検出モデル)
Mf 特徴マップ
Mc 文字マップ
Claims (9)
- 画像内の文字領域を検出するために用いるニューラルネットワークのモデルを学習する文字領域検出モデル学習装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する単独文字検出モデルを用いて、学習用画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記学習用画像に含まれる単独文字の領域を示す正解データである領域座標から前記学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する正解マップ生成手段と、
前記文字マップと前記正解マップとの誤差を算出する単独文字誤差算出手段と、
前記単独文字誤差算出手段で算出された誤差を小さくする方向に前記単独文字検出モデルのパラメータを更新する第1パラメータ更新手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出するペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記学習用画像に含まれる文字列の領域を示す正解データである領域座標から前記単独文字のペアについての正解の属性を求め、前記ペア属性との誤差を算出するペア属性誤差算出手段と、
前記ペア属性誤差算出手段で算出される誤差を小さくする方向に前記ペア属性推定モデルのパラメータを更新する第2パラメータ更新手段と、
を備えることを特徴とする文字領域検出モデル学習装置。 - 前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項1に記載の文字領域検出モデル学習装置。 - 前記第2パラメータ更新手段は、前記ペア属性推定モデルのパラメータとともに、前記単独文字検出モデルのパラメータを重畳して更新することを特徴とする請求項1または請求項2に記載の文字領域検出モデル学習装置。
- 前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第1ネットワークと、
前記第1ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを1チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第2ネットワークと、
を連結して構成していることを特徴とする請求項1から請求項3のいずれか一項に記載の文字領域検出モデル学習装置。 - コンピュータを、請求項1から請求項4のいずれか一項に記載の文字領域検出モデル学習装置として機能させるための文字領域検出モデル学習プログラム。
- 画像内の文字領域を検出する文字領域検出装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する学習済のニューラルネットワークで構成された単独文字検出モデルを用いて、入力された画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記ペア属性で同じ文字列に含まれる単独文字の領域を統合した前記文字領域を算出する文字領域算出手段と、
を備えることを特徴とする文字領域検出装置。 - 前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項6に記載の文字領域検出装置。 - 前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第1ネットワークと、
前記第1ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを1チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第2ネットワークと、
を連結して構成していることを特徴とする請求項6または請求項7に記載の文字領域検出装置。 - コンピュータを、請求項6から請求項8のいずれか一項に記載の文字領域検出装置として機能させるための文字領域検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019209628A JP7373367B2 (ja) | 2019-11-20 | 2019-11-20 | 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019209628A JP7373367B2 (ja) | 2019-11-20 | 2019-11-20 | 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021082056A JP2021082056A (ja) | 2021-05-27 |
JP7373367B2 true JP7373367B2 (ja) | 2023-11-02 |
Family
ID=75963242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019209628A Active JP7373367B2 (ja) | 2019-11-20 | 2019-11-20 | 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7373367B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7468472B2 (ja) | 2021-07-08 | 2024-04-16 | Jfeスチール株式会社 | 学習済みモデル生成方法、認識方法、及び情報処理装置 |
JP7043670B1 (ja) * | 2021-09-17 | 2022-03-29 | 株式会社東芝 | 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195542A (ja) | 2000-01-14 | 2001-07-19 | Fuji Xerox Co Ltd | 画像処理装置および画像処理方法 |
WO2019174405A1 (zh) | 2018-03-14 | 2019-09-19 | 台达电子工业股份有限公司 | 车牌辨识方法以及其系统 |
-
2019
- 2019-11-20 JP JP2019209628A patent/JP7373367B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195542A (ja) | 2000-01-14 | 2001-07-19 | Fuji Xerox Co Ltd | 画像処理装置および画像処理方法 |
WO2019174405A1 (zh) | 2018-03-14 | 2019-09-19 | 台达电子工业股份有限公司 | 车牌辨识方法以及其系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2021082056A (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348815B (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN110163640B (zh) | 一种在视频中植入广告的方法及计算机设备 | |
JP4813749B2 (ja) | 基本オブジェクトに基づいてビデオ画像を分割する方法 | |
US10360672B2 (en) | Automated separation of binary overlapping trees | |
WO2022121031A1 (zh) | 基于部分卷积和掩膜更新的指静脉图像修复方法 | |
CN110088805A (zh) | 一种用于显著性前景检测和多对象分割的迭代法 | |
JP2023501574A (ja) | 仮想および拡張現実のためのシステムおよび方法 | |
JP7373367B2 (ja) | 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム | |
US11961170B2 (en) | Systems and methods for automating conversion of drawings to indoor maps and plans | |
Xiao et al. | Accurate motion layer segmentation and matting | |
JP6612486B1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
Shen et al. | A new approach to simplifying polygonal and linear features using superpixel segmentation | |
US9275485B2 (en) | Seam network processing for panorama weaving | |
JP7174298B2 (ja) | 差異検出装置、差異検出方法及びプログラム | |
CN114926849A (zh) | 一种文本检测方法、装置、设备及存储介质 | |
CN112330699B (zh) | 一种基于重叠区域对齐的三维点云分割方法 | |
CN117422851A (zh) | 虚拟换衣方法及其装置、电子设备 | |
CN111402429B (zh) | 一种尺度还原、三维重建方法、系统、存储介质及设备 | |
KR102572415B1 (ko) | 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치 | |
Bei et al. | GeoGlue: Feature matching with self-supervised geometric priors for high-resolution UAV images | |
EP3588440A1 (en) | Improved geographic indexing | |
US20240062048A1 (en) | Learning device, learning method, and storage medium | |
JP2005241886A (ja) | 地理画像間変化領域の抽出方法、地理画像間変化領域を抽出可能なプログラム、閉領域抽出方法及び閉領域抽出可能なプログラム | |
CN108520259A (zh) | 一种前景目标的提取方法、装置、设备及存储介质 | |
KR102069073B1 (ko) | 의약품 분류 장치, 이를 이용한 의약품 분류 방법 및 의약품 분류를 위한 학습 방법, 이를 수행하기 위한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7373367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |