JP7163356B2

JP7163356B2 - ディープラーニングに基づく画像補正方法及びシステム

Info

Publication number: JP7163356B2
Application number: JP2020211742A
Authority: JP
Inventors: 冠徳李; 名嘉黄; 宏軒林; 宇哲李; 佳玲羅
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2020-08-26
Filing date: 2020-12-21
Publication date: 2022-10-31
Anticipated expiration: 2040-12-21
Also published as: DE102020134888A1; IL279443A; TWI790471B; NO20210058A1; CN114119379A; TW202209175A; JP2022039895A; US20220067881A1

Description

本開示は一般に、画像補正方法およびシステムに関し、より詳細には、ディープラーニング（deep learning）に基づく画像補正方法およびシステムに関する。

画像認識の分野では、特に画像内の文字の認識において、最初に画像から対象文字を含む部分画像の位置を特定し、その後の認識モデルのために正面像として補正されて文字認識が行われる。画像補正手順は異なる視野角（view angle）と距離を持つ画像を、同じ角度と距離を持つ正面像に変換して、認識モデルの学習を高速化し、認識精度を高める。

しかしながら、現在の技術では、回転パラメータを手動で見つけ、画像補正手順の精度を高めるためにパラメータを繰り返し調整する従来の画像処理方法に依っている。画像補正手順は人工知能（ＡＩ：artificial intelligence）の技術を用いて実行することができるが、画像補正手順は時計回りまたは反時計回りの回転角度しか見つけることができず、画像を一定の縮尺にし、シフトまたは傾斜させるための複雑な画像処理において使用することができない。例えば、学習されたニューラルネットワークを利用するナンバープレート認識は、米国特許公開第９７８５８５５号に開示されている。

そのため、産業界では、様々な画像を正面像として効率的かつ正確に補正することが重要な課題となっている。

本開示は、ディープラーニングに基づく画像補正方法およびシステムを対象とする。画像補正手順のための始点変換（perspective transformation）パラメータはディープラーニングモデルによって見つけられ、様々な画像を正面像に効率的に補正し、さらに、認識精度を高めるために損失値を使用してディープラーニングモデルを更新するために使用される。

一実施形態によれば、ディープラーニングに基づく画像補正方法が提供される。画像補正方法は、以下のステップを含む。少なくとも１つの文字を含む画像がディープラーニングモデルによって受け取られ、視点変換行列（perspective transformation matrix）が画像に従って生成される。画像に対する視点変換は、視点変換行列に従って実行され、少なくとも１つの文字の正面像を含む補正画像が得られる。少なくとも１つの文字の正面像を含む最適化された補正画像が、画像に従って生成される。画像と最適化した補正画像に対応する最適化視点変換行列が得られる。最適化視点変換行列と視点変換行列との間の損失値が計算される。ディープラーニングモデルは、損失値を用いて更新される。

別の実施形態によれば、ディープラーニングに基づく画像補正システムが提供される。画像補正システムは、ディープラーニングモデル、処理部およびモデル調整部を備える。ディープラーニングモデルは少なくとも１つの文字を含む画像を受け取り、その画像に従って視点変換行列を生成するように構成される。処理部は画像および視点変換行列を受け取り、視点変換行列に従って画像に対して視点変換を実行して、少なくとも１つの文字の正面像を含む補正画像を取得するように構成される。モデル調整部は画像を受け取り、画像に従って少なくとも１つの文字の正面像を含む最適化された補正画像を生成し、画像および最適化された補正画像に対応する最適化された視点変換行列を取得し、最適化された視点変換行列と視点変換行列との間の損失値を計算し、損失値を使用してディープラーニングモデルを更新するように構成される。

本開示の上記および他の態様は、好ましいが非限定的な実施形態の以下の詳細な説明に関してより良く理解されるのであろう。以下、図面を参照して説明する。

本開示の一実施形態によるディープラーニングに基づく画像補正システムの概略図である。本開示によるディープラーニングに基づく画像補正方法の一実施形態のフローチャートである。本開示の一実施形態による車両プレートを含む画像の概略図である。本開示の別の実施形態による道路標識を含む画像の概略図である。本発明の一実施形態による補正画像の概略図である。本開示の一実施形態によるステップＳ１３０のサブステップのフローチャートである。本開示の一実施形態によるマークを含む画像の概略図である。本開示の一実施形態による画像及び拡張画像の概略図である。本開示の一実施形態による最適化された補正画像の概略図である。本開示の一実施形態によるディープラーニングに基づく画像補正システムの概略図である。本開示の他の実施形態によるディープラーニングに基づく画像補正方法のフローチャートである。

以下の詳細な説明において、説明の目的のために、開示された実施形態の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、これらの特定の詳細なしに、１つ以上の実施形態が実施されてもよいことは明らかであろう。他の例では、図面を簡略化するために、周知の構造およびデバイスが概略的に示されている。

〔実施形態１〕
図１を参照すると、本開示の一実施形態によるディープラーニングに基づく画像補正システム１００の概略図が示されている。画像補正システム１００は、ディープラーニングモデル１１０と、処理部１２０と、モデル調整部１３０とを備えている。ディープラーニングモデル１１０は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルによって実現することができる。処理部１２０及びモデル調整部１３０は、チップ、回路基板又は回路によって実現することができる。

図１と図２を同時に参照されたい。図２は、本開示によるディープラーニングに基づく画像補正方法の一実施形態のフローチャートである。

ステップＳ１１０において、少なくとも１つの文字を含む画像ＩＭＧ１がディープラーニングモデル１１０によって受信され、画像ＩＭＧ１に従って視点変換行列Ｔが生成される。画像ＩＭＧ１は、車両プレート、道路標識、シリアル番号、または標識板の画像など、少なくとも１つの文字を含む任意の画像とすることができる。少なくとも１つの文字は、数字、英語文字、ハイフン、句読点、またはそれらの組み合わせなどである。図３及び図４参照されたい。図３は、本開示の一実施形態による車両プレートを含む画像ＩＭＧ１の概略図である。図３に示すように、画像ＩＭＧ１は文字「ＡＢＣ－５５５５」を含み、図４は本開示の別の実施形態による道路標識を含む画像ＩＭＧ１の概略図であり、図４に示すように、画像ＩＭＧ１は文字「ＷｕＸｉｎｇＳｔ．」を含む。ディープラーニングモデル１１０は事前に学習されたモデル（pre-trained model）であり、画像ＩＭＧ１がディープラーニングモデル１１０に入力されると、ディープラーニングモデル１１０はそれに対応して画像ＩＭＧ１に対応する視点変換行列Ｔを出力する。視点変換行列Ｔには、式１に示すように、いくつかの視点変換パラメータＴ_１１、Ｔ_１２、Ｔ_１３、Ｔ_２１、Ｔ_２２、Ｔ_２３、Ｔ_３１、Ｔ_３２と１が含まれている。

ステップＳ１２０において、視点変換行列Ｔに従って、処理部１２０によって画像ＩＭＧ１に対して視点変換が実行され、少なくとも１つの文字の正面像を含む補正画像ＩＭＧ２が得られる。処理部１２０は視点変換行列Ｔに従って画像ＩＭＧ１に対して視点変換を実行し、画像ＩＭＧ１を、少なくとも１つの文字の正面像を含む補正画像ＩＭＧ２に変換する。図５を参照すると、本開示の一実施形態による補正画像ＩＭＧ２の概略図が示されている。例えば、図３の画像ＩＭＧ１を例に取る。画像ＩＭＧ１は車両プレートを含む。視点変換行列Ｔに従って画像ＩＭＧ１に対して視点変換を行った後、図５に示すような補正画像ＩＭＧ２を得ることができる。

ステップＳ１３０では、損失値Ｌを用いてモデル調整部１３０によってディープラーニングモデル１１０が更新される。図６を参照すると、本開示の一実施形態によるステップＳ１３０のサブステップのフローチャートが示されている。ステップＳ１３０は、ステップＳ１３１～Ｓ１３５を含む。

ステップＳ１３１において、画像ＩＭＧ１はモデル調整部１３０によってマークされ、マークは文字をカバーするマーク範囲を含む。図７を参照すると、本開示の一実施形態によるマークを含む画像ＩＭＧ１の概略図が示されている。画像ＩＭＧ１上のマークは、文字をカバーするマーク範囲Ｒを形成するマーク点Ａ、Ｂ、Ｃ及びＤを含む。本実施形態では、画像ＩＭＧ１は車両プレートを含む画像であり、マーク点Ａ，Ｂ，Ｃ，Ｄは車両プレートの四隅に位置させることができ、マーク範囲Ｒは四辺形である。別の実施形態において、画像ＩＭＧ１が図４に示されるような道路標識を含む画像であり、マーク点Ａ、Ｂ、ＣおよびＤを道路標識の四隅に位置させることができる場合、マーク範囲は四辺形である。別の実施形態では画像ＩＭＧ１内の文字が車両プレートまたは道路標識などの幾何学的オブジェクト上に位置しない場合、モデル調整部１３０はマーク範囲が文字をカバーすることを可能にするだけでよい。別の実施形態ではモデル調整部１３０がマークされた画像を直接受け取ることができるが、マークを実行しない。

図８を参照すると、本開示の一実施形態による画像ＩＭＧ３および拡張画像ＩＭＧ４の概略図が示されている。一実施形態では、マーク範囲が画像ＩＭＧ３内の文字をカバーできない場合、または画像ＩＭＧ３内の文字が画像ＩＭＧ３を超える場合、モデル調整部１３０はマーク範囲Ｒ’が文字をカバーできるように、画像ＩＭＧ３を拡張して拡張画像ＩＭＧ４を取得し、拡張画像ＩＭＧ４をマークする。本実施形態では、モデル調整部１３０が画像ＩＭＧ３に空白画像ＢＬＫを付加して、拡張画像ＩＭＧ４を得る。

再び図７を参照する。ステップＳ１３２では、モデル調整部１３０により、画像ＩＭＧ１に応じて、文字の正面像を含む最適化補正画像が生成される。本実施の形態では、モデル調整部１３０が画像ＩＭＧ１のマーク点Ａ，Ｂ，Ｃ，Ｄにおける画素を画像の四隅に位置合わせして、最適化された補正画像を得る。図９を参照すると、本開示の一実施形態による最適化された補正画像の概略図が示されている。図９に示すように、最適化された補正画像は、文字の正面像を含む。

ステップＳ１３３において、モデル調整部１３０により、画像ＩＭＧ１及び最適化された補正画像に対応する最適化視点変換マトリクスが得られる。画像ＩＭＧ１と最適化された補正画像との視点変換関係により、モデル調整部１３０は画像ＩＭＧ１及び最適化された補正画像を用いて視点変換行列を計算し、計算された視点変換行列を最適化視点変換行列として使用することができる。

ステップＳ１３４では、モデル調整部１３０により、最適化視点変換行列と視点変換行列Ｔとの間の損失値Ｌが算出される。ステップＳ１３５において、ディープラーニングモデル１１０は損失値Ｌを用いてモデル調整部１３０により更新される。図５に示すように、視点変換行列Ｔに従って画像ＩＭＧ１に対して視点変換を行って得られた補正画像ＩＭＧ２が最良の結果と一致しないため、損失値Ｌを用いてモデル調整部１３０によりディープラーニングモデル１１０を更新することができる。

本開示のディープラーニングに基づく画像補正システム１００および方法によれば、画像補正手順のための視点変換パラメータはディープラーニングモデルによって求められ、様々な画像を正面像に効率的に補正し、さらに損失値を使用してディープラーニングモデルを更新し、認識精度を向上させる。

図１０を参照すると、本開示の一実施形態によるディープラーニングに基づく画像補正システム１１００の概略図が示されている。画像補正システム１１００は、画像補正システム１１００がカメラによって実現可能な撮像部１１４０をさらに含む点で、画像補正システム１００と異なる。図１０と図１１を同時に参照する。図１１は、本発明の他の実施形態によるディープラーニングによる画像補正方法を示すフローチャートである。

ステップＳ１１１０において、少なくとも１つの文字を含む画像ＩＭＧ５が、撮像部１１４０によって撮影される。

ステップＳ１１２０において、画像ＩＭＧ５がディープラーニングモデル１１１０によって受信され、画像ＩＭＧ５に従って視点変換行列Ｔ’が生成される。ステップＳ１１２０は図２のステップＳ１１０と同様であり、類似点はここでは繰り返さない。

ステップＳ１１３０では、ディープラーニングモデル１１１０で撮影情報ＳＩを受信し、撮影情報ＳＩに応じて視点変換行列Ｔ’の視点変換パラメータをいくつか制限する。撮影情報ＳＩは、撮影場所、撮影方向、撮影角度である。撮影場所、撮影方向、撮影角度は、それぞれ３つのパラメータ、２つのパラメータ、１つのパラメータで表すことができる。視点変換行列Ｔ’は式２に示すように、いくつかの視点変換パラメータＴ’_１１、Ｔ’_１２、Ｔ’_１３、Ｔ’_２１、Ｔ’_２２、Ｔ’_２３、Ｔ’_３１、Ｔ’_３２、および１を含む。視点変換パラメータＴ’_１１、Ｔ’_１３、Ｔ’_２１、Ｔ’_２２、Ｔ’_３２は、撮影場所、撮影方向、撮影角度の６つのパラメータにより決定できる。

まず、ディープラーニングモデル１１１０は撮影位置、撮影方向、撮影角度の６つのパラメータのそれぞれに合理的な範囲を割り当て、グリッドサーチアルゴリズム（grid search algorithm）を用いて視点変換パラメータＴ’_ｍｎを計算し、視点変換パラメータＴ’_ｍｎの最大値Ｌ_ｍｎ及び最小値Ｓ_ｍｎを得る。そして、ディープラーニングモデル１１１０は、式３に従って、それぞれの視点変換パラメータＴ’_ｍｎを算出する。

式３で、Ｚ_ｍｎは制限を受けない値であり、σは０～１の範囲の論理関数である。したがって、ディープラーニングモデル１１１０は、視点変換パラメータＴ’_１１、Ｔ’_１２、Ｔ’_１３、Ｔ’_２１、Ｔ’_２２、Ｔ’_２３、Ｔ’_３１、Ｔ’_３２の各々が合理的な範囲内に収まることを保証することができる。

ステップＳ１１４０において、視点変換行列Ｔ’に従って、処理部１１２０によって画像ＩＭＧ５に対して視点変換が実行され、少なくとも１つの文字の正面像を含む補正画像ＩＭＧ６が得られる。ステップＳ１１４０は図２のステップＳ１２０と同様であり、類似点はここでは繰り返さない。

ステップＳ１１５０では損失値Ｌ’を用いてディープラーニングモデル１１１０を更新するが、ステップＳ１１５０は図２のステップＳ１３０と同様であり、ここでは類似点は繰り返さない。

したがって、本開示の画像補正システム１１００およびディープラーニングに基づく方法はディープラーニングモデル精度を高め、ディープラーニングモデルの学習をより容易にするために、撮影情報ＳＩに従って視点変換パラメータの範囲を制限することができる。

当業者には、開示された実施形態に対して様々な修正および変形を行うことができることが明らかであろう。明細書および実施例は単に例示的なものとみなされ、開示の真の範囲は以下の特許請求の範囲およびその均等の範囲によって示されることが意図される。

Claims

ディープラーニングに基づく画像補正方法であって、
撮像部によって、少なくとも１つの文字を含む画像を撮像するステップと、
ディープラーニングモデルによって前記画像を受け取り、前記画像に従って視点変換行列を生成するステップと、
前記撮像部の撮影情報に応じて、前記視点変換行列の複数の視点変換パラメータについて最大値及び最小値を計算するステップと、
前記視点変換パラメータのそれぞれを、前記最大値と最小値との間の範囲内に制限するステップと、
前記少なくとも１つの文字の正面像を含む補正画像を得るために、前記視点変換行列に従って前記画像に対して視点変換を実行するステップと、
前記画像に従って、前記少なくとも１つの文字の正面像を含む最適化された補正画像を生成するステップと、
前記画像及び前記最適化された補正画像に対応する最適化視点変換行列を取得するステップと、
前記最適化視点変換行列と前記ディープラーニングモデルによって生成される前記視点変換行列との間の損失値を計算するステップと、
前記損失値を使用して前記ディープラーニングモデルを更新するステップと、を含む
画像補正方法。
前記画像に従って、前記少なくとも１つの文字の正面像を含む前記最適化された補正画像を生成するステップは、前記少なくとも１つの文字をカバーするマーク範囲を含む前記画像にマークするステップを含む、
請求項１に記載の画像補正方法。
前記マーク範囲が前記少なくとも１つの文字をカバーできない場合、拡張画像を得るために前記画像を拡張するステップと、
前記マーク範囲が前記少なくとも１つの文字をカバーするように前記拡張画像をマーキクするステップを、更に含む
請求項２に記載の画像補正方法。
前記撮影情報は、撮影場所、撮影方向及び撮影角度を含む
請求項１に記載の画像補正方法。
ディープラーニングに基づく画像補正システムであって、
少なくとも１つの文字を含む画像を撮像する撮像部と、
前記画像を受け取り、前記画像に従って視点変換行列を生成するように構成されたディープラーニングモデルと、
前記画像および前記視点変換行列を受信し、前記撮像部の撮影情報に応じて、前記視点変換行列の複数の視点変換パラメータについて最大値及び最小値を計算し、前記視点変換パラメータのそれぞれを前記最大値と最小値との間の範囲内に制限し、前記視点変換行列に従って前記画像に対して視点変換を実行し、前記少なくとも１つの文字の正面像を含む補正画像を取得するように構成された処理部と、
前記画像を受信し、前記画像に従って少なくとも１つの文字の正面像を含む最適化された補正画像を生成し、前記画像および前記最適化された補正画像に対応する最適化された視点変換行列を取得し、前記最適化された視点変換行列と前記ディープラーニングモデルによって生成される前記視点変換行列との間の損失値を計算し、前記損失値を使用して前記ディープラーニングモデルを更新するように構成されたモデル調整部と、備える
画像補正システム。
前記モデル調整部は、前記少なくとも１つの文字をカバーするマーク範囲を含む前記画像をさらにマークする、
請求項５に記載の画像補正システム。
前記マーク範囲が前記少なくとも１つの文字をカバーできない場合、前記モデル調整部は前記画像をさらに拡張して拡張画像を取得し、前記マーク範囲が前記少なくとも１つの文字をカバーするように前記拡張画像をマークする
請求項６に記載の画像補正システム。
前記撮影情報は、撮影場所、撮影方向及び撮影角度を含む
請求項５記載に記載の画像補正システム。