JP2022522596A

JP2022522596A - 画像識別方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2022522596A
Application number: JP2021536000A
Authority: JP
Inventors: ユシンヤン; ウェイフイ; チェンカイチュー; ウェイウー; ジエンタオリ
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-03-26
Publication date: 2022-04-20
Also published as: US20210312214A1; TW202131219A; CN111339846A; WO2021159594A1; SG11202106622XA; CN111339846B

Abstract

本開示は画像識別方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む。本開示の実施例によって目標識別の正確度を向上することができる。【選択図】図１

Description

関連出願の相互参照

本出願は、２０２０年２月１２日に中国国家知識産権局に提出された、出願番号が２０２０１００８９６５１.８で、発明の名称が「画像識別方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本出願に組み込まれる。

本開示は、コンピュータテクノロジーの分野に関し、特に画像識別方法及び装置、電子機器並びに記憶媒体に関する。

コンピュータビジョン及びインテリジェントビデオ監視などの分野では、画像における様々な目標対象物（例えば歩行者、車両など）を検出して識別する必要がある。

本開示は、画像識別の発明を提案している。

本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む画像識別方法が提供される。

可能な一実施形態では、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含む。

可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第１の位置を含み、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含む。

可能な一実施形態では、前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、前記第１の位置及び前記第２の位置のそれぞれに対して正規化処理を行って、正規化された第１の位置及び正規化された第２の位置を得ることと、前記正規化された第１の位置及び前記正規化された第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含む。

可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、前記補正領域における複数の目標ポイントの第３の位置及び前記ホモグラフィ変換行列に基づき、各前記第３の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第３の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含む。

可能な一実施形態では、前記領域画像情報を識別して前記目標領域の識別結果を得ることは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。

可能な一実施形態では、前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。

可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第１の特徴を得ることと、前記特徴融合サブネットワークにより前記第１の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。

可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。

本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含む画像識別装置が提供される。

可能な一実施形態では、前記キーポイント検出モジュールは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得るための特徴抽出・融合サブモジュールと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得るための検出サブモジュールと、を含む。

可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第１の位置を含み、前記補正モジュールは、前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するための変換行列決定サブモジュールと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得るための補正サブモジュールと、を含む。

可能な一実施形態では、前記変換行列決定サブモジュールは、前記第１の位置及び前記第２の位置のそれぞれに対して正規化処理を行って、正規化された第１の位置及び正規化された第２の位置を得ることと、前記正規化された第１の位置及び前記正規化された第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することとに用いられる。

可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第３の位置及び前記ホモグラフィ変換行列に基づき、各前記第３の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第３の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることとに用いられる。

可能な一実施形態では、前記識別モジュールは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。

可能な一実施形態では、前記装置は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第１のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第２のトレーニングモジュールと、をさらに含む。

可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第１のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第１の特徴を得ることと、前記特徴融合サブネットワークにより前記第１の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることとに用いられる。

本開示の一側面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記方法を実行するように構成された電子機器が提供される。

本開示の一側面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、前記コンピュータプログラム命令はプロセッサにより実行されると、前記方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の一側面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムが提供される。

本開示の実施例によれば、処理対象画像における目標領域の複数の輪郭キーポイント情報を決定し、複数の輪郭キーポイント情報に基づいて目標領域を補正し、補正した領域画像情報を識別して目標領域の識別結果を得ることによって、目標識別の正確度を向上することができる。

なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものにすぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び側面は明瞭になる。

ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適合し、明細書と共に本開示の技術的手段の説明に用いられる。
図１は本開示の実施例に係る画像識別方法のフローチャートを示す。図２は本開示の実施例に係るキーポイント検出手順の模式図を示す。図３は本開示の実施例に係る画像識別手順の模式図的を示す。図４は本開示の実施例に係る画像識別装置のブロック図を示す。図５は本開示の実施例に係る電子機器のブロック図を示す。図６は本開示の実施例に係る電子機器のブロック図を示す。

以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。

ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

図１は本開示の実施例に係る画像識別方法のフローチャートを示す。図１に示すように、前記方法は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するステップＳ１１と、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るステップＳ１２と、
前記領域画像情報を識別して前記目標領域の識別結果を得るステップＳ１３と、を含む。

可能な一実施形態では、前記画像識別方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレスフォン電話機、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルドデバイス、計算装置、車載装置、ウェアラブル装置等の端末装置、又はサーバ等の電子機器によって実行されてよく、前記方法はプロセッサによってメモリに記憶されたコンピュータ読み取り可能なコマンドを呼び出す形態で実現されてよい。又は、サーバによって前記方法を実行してもよい。

例を挙げて説明すると、処理対象画像は、画像収集装置（例えばカメラ）により収集された画像またはビデオフレーム等であってもよく、処理対象画像には、例えば歩行者、車両、ナンバープレートなどの識別されるべき目標対象物を含む。

可能な一実施形態では、ステップＳ１１において処理対象画像に対してキーポイントを行って、処理対象画像における目標対象物の存在する画像領域（目標領域と呼ばれる）の輪郭上の複数の輪郭キーポイント情報を決定することができる。目標領域が四角形である場合、目標領域の複数の輪郭キーポイントは、例えば目標領域の４つの頂点であってもよい。検出された輪郭キーポイントによって目標領域の範囲を限定することができれば、当業者は実際の状況に応じて検出される輪郭キーポイントの数を設定することができることが理解すべきである。本開示では、目標領域の具体的な形状及び輪郭キーポイントの数は限定されない。

可能な一実施形態では、処理対象画像の撮影角度による処理対象画像における目標領域の歪み、回転、変形などが発生する可能性がある。この場合に、ステップＳ１２において、複数の輪郭キーポイント情報に基づき、処理対象画像における目標領域を補正して、例えばホモグラフィ変換により補正して、目標領域に対応する補正領域の領域画像情報を得ることができる。当該補正領域は、目標領域を正面から見た時に示される領域であり、例えば目標対象物がナンバープレートである場合、当該補正領域は、ナンバープレートを正面から見た時にナンバープレートが存在する矩形状領域である。補正領域の領域画像情報は補正領域の画像または特徴マップであってもよい。

可能な一実施形態では、領域画像情報を得た後、ステップＳ１３において領域画像情報を識別して、目標領域の識別結果を得ることができる。例えば、ニューラルネットワークにより領域画像情報に対して特徴抽出を行い、抽出された特徴をデコードして、識別結果を得ることができる。

可能な一実施形態では、目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。つまり、識別されるべき目標対象物が車両のナンバープレートである場合、画像におけるナンバープレート領域の複数の輪郭キーポイント（例えば４つの頂点）を検出して、さらにはナンバープレート領域に対する補正及び識別を行って、ナンバープレート領域の文字の種別が得られ、例えばナンバープレート領域には９８１５ＱＷという文字が含まれている。

可能な一実施形態では、識別されるべき目標対象物が広告用掲示板または店舗看板などである場合、得られた目標領域の識別結果は、広告用掲示板または店舗看板における文字及び／又は数字であり、識別されるべき目標対象物が交通標識である場合、得られた目標領域の識別結果は、交通標識の種別である。本開示では、これが限定されない。

可能な一実施形態では、ステップＳ１１は、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含んでもよい。

例を挙げて説明すると、目標検出ネットワークにより処理対象画像に対するキーポイント検出を行うことができ、目標検出ネットワークは例えば畳み込みニューラルネットワークであってもよい。ここで、目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含んでもよい。

可能な一実施形態では、特徴抽出サブネットワークにより処理対象画像に対して特徴抽出を行って、処理対象画像の複数のスケールでの特徴を得ることができる。特徴抽出サブネットワークは、複数の残差層または残差ブロックを含む残差ネットワークＲｅｓｎｅｔを用いてもよい。特徴抽出サブネットワークは、ｇｏｏｇｌｅｎｅｔ（グーグルネットワーク）、ｖｇｇｎｅｔ（ｖｇｇネットワーク）、ｓｈｕｆｆｌｅｎｅｔ（シャッフルネットワーク）、ｄａｒｋｎｅｔ（ダークネットワーク）などのネットワーク構造をさらに用いてもよいことが理解すべきである。本開示では、これが限定されない。

可能な一実施形態では、特徴融合サブネットワークにより処理対象画像の複数のスケールでの特徴を融合し、１つのスケールでの特徴、つまり処理対象画像の特徴マップを得ることができる。特徴融合サブネットワークは、特徴ピラミッドネットワークＦＰＮを用いてもよく、ＮＡＳ－ＦＰＮ（自動検索による特徴ピラミッドネットワーク）、ｈｏｕｒｇｌａｓｓ（砂時計ネットワーク）などのネットワーク構造を用いてもよいが、本開示ではこれが限定されない。

可能な一実施形態では、検出サブネットワークにより処理対象画像の特徴マップに対してキーポイント検出を行って、処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることができる。検出サブネットワークは複数の畳み込み層及び複数の検出層（例えば全結合層を含む）を含んでもよく、複数の畳み込み層により処理対象画像の特徴マップにおける特徴情報を更に抽出し、複数の検出層により当該特徴情報におけるキーポイントの位置をそれぞれ検出する。目標領域が四角形である場合、４つの位置決めヒートマップを予測し、それぞれ目標領域の左上、右上、右下及び左下の頂点（つまり４つのキーポイント）の位置を位置決めすることができる。各ヒートマップは頂点座標の位置を１、残りの頂点座標を０と定義することができ、０１コードを選択してもよく、ガウスコードに置き換えてもよいが、本開示ではこれが限定されない。

図２は本開示の実施例に係るキーポイント検出手順の模式図を示す。図２に示すように、処理対象画像２１を目標検出ネットワークに入力し、順次に残差ネットワーク（Ｒｅｓ）２２及び特徴ピラミッドネットワーク（ＦＰＮ）２３を介して特徴抽出及び融合を行って、特徴マップ２４を得ることができる。処理対象画像２１の寸法は、例えば３２０×２８０であり、特徴抽出及び融合の後、寸法が８０×７０×６４である特徴マップ２４が得られ、検出サブネットワーク（図示せず）により特徴マップ２４に対して畳み込み及びキーポイント検出を更に行って、８０×７０×４の４つのキーポイントの位置決めヒートマップが得られることで、目標領域の左上、右上、右下及び左下の頂点の位置が決定される。

このようにして、目標領域の複数の輪郭キーポイント情報を迅速に決定することができることにより、目標領域の境界輪郭を精度よく限定し、処理速度及び精度を向上している。

可能な一実施形態では、複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第１の位置を含み、ステップＳ１２は、
前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含んでもよい。

例を挙げて説明すると、目標領域の複数の輪郭キーポイント情報を決定した後、目標領域を補正することができる。複数の輪郭キーポイント情報は、処理対象画像または処理対象画像の特徴マップにおける各輪郭キーポイントの位置座標（つまり各輪郭キーポイントの第１の位置）を含んでもよい。目標領域が四角形領域である場合、４つの輪郭キーポイントを含んでもよい。

可能な一実施形態では、処理対象画像またはその特徴マップのスケールをｈ（高さ）×ｗ（幅）×Ｃ（チャンネル数）とし、輪郭キーポイントの座標を（ｘ１，ｙ１，ｘ２，ｙ２，ｘ３，ｙ３，ｘ４，ｙ４）とし、補正された補正領域をｈ_Ｈ（高さ）×ｗ_Ｈ（幅）×Ｃ（チャンネル数）とすることができる。複数の輪郭キーポイントの第１の位置に基づいて目標領域の位置を決定し、目標領域の位置及び補正領域の第２の位置に基づいて目標領域と補正領域との間のホモグラフィ変換行列を決定することができる。本分野での公知の方法を用いて目標領域と補正領域との間のホモグラフィ変換行列を決定することができることは理解すべきであり、本開示ではこれが限定されない。

可能な一実施形態では、前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するステップは、
前記第１の位置及び前記第２の位置のそれぞれに対して正規化処理を行って、正規化された第１の位置及び正規化された第２の位置を得ることと、
前記正規化された第１の位置及び前記正規化された第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含んでもよい。

つまり、入力された輪郭キーポイント座標（ｘ１，ｙ１，ｘ２，ｙ２，ｘ３，ｙ３，ｘ４，ｙ４）及び出力された補正領域ｈ_Ｈ（高さ）×ｗ_Ｈ（幅）×Ｃ（チャンネル数）の座標をそれぞれ正規化し、入力座標及び出力座標を［－１，１］の間に正規化して、正規化された第１の位置及び正規化された第２の位置を得ることができる。正規化された第１の位置及び正規化された第２の位置に基づき、正規化された目標領域と補正領域との間のホモグラフィ変換行列（例えば３×３の行列）を決定する。本開示では、ホモグラフィ変換行列を決定する方法が限定されない。

このようにして、目標領域と補正領域のスケールを統一させ、目標領域と補正領域のスケールの差異による誤差を低減し、ホモグラフィ変換行列の正確度を向上することができる。

可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像又は特徴を補正して、前記補正領域の領域画像情報を得るステップは、
前記補正領域における複数の目標ポイントの第３の位置及び前記ホモグラフィ変換行列に基づき、各前記第３の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第３の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含んでもよい。

例を挙げて説明すると、補正領域の正規化された第２の位置について、座標のｘ軸及びｙ軸における［－１，１］の間でｗ_Ｈ及びｈ_Ｈ個の点を等間隔で取って、補正領域のグリッド化座標（合計でｈ_Ｈ×ｗ_Ｈ個の座標がある）を得、グリッド化座標を補正領域における複数の目標ポイントとする。複数の目標ポイントの第３の位置及びホモグラフィ変換行列に基づき、目標領域において対応するピクセルポイントの位置を算出することができることで、第３の位置のそれぞれに対応する目標領域におけるピクセルポイントを決定することができる。

可能な一実施形態では、第３の位置のそれぞれに対応するピクセルポイントのピクセル情報（つまりピクセル値）を目標ポイントのそれぞれにマッピングし、それぞれの目標ポイントの間に補間処理を行って、補正領域の領域画像情報を得ることができる。双線形補間の方法を用いてもよく、他の補間方法を用いてもよいが、本開示ではこれが限定されない。当該領域画像情報は、領域画像または領域特徴マップであってもよいが、本開示ではこれが限定されない。

このようにして、斜めに回転した目標領域を水平方向に補正することができる。この処理過程はホモグラフィプーリング（Ｈｏｍｏｐｏｏｌｉｎｇ）操作と呼ぶことができ、この操作は、目標領域の画像または特徴を補正するために微分および逆伝播することができ、任意のニューラルネットワークに埋め込んでエンドツーエンドのトレーニングを行うことができるため、統一されたネットワークにおいて画像識別過程全体を実現可能である。

可能な一実施形態では、ステップＳ１３は、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。

例を挙げて説明すると、複数の畳み込み層、グループ正規化（ｇｒｏｕｐｎｏｒｍａｌｉｚａｔｉｏｎ）層、ＲＥＬＵ活性化層及び最大プーリング層などのネットワーク層を含む識別ネットワークにより領域画像情報を識別することができる。各ネットワーク層を介して領域画像情報の特徴を抽出して、幅が１の特徴ベクトル、例えば寸法が１×４７の特徴ベクトルを得ることができる。

可能な一実施形態では、この識別ネットワークは、全結合層及びＣＴＣ（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、接続主義時間分類）デコーダをさらに含んでもよい。全結合層により特徴ベクトを処理して、領域画像情報の文字確率分布ベクトルを得ることができ、ＣＴＣデコーダにより文字確率分布ベクトルをデコードして、目標領域の識別結果を得ることができる。目標対象物がナンバープレートである場合、目標領域の識別結果は、ナンバープレートにおける対応する文字、例えば９８１５ＱＷである。このようにして、識別結果の正確性を向上することができる。

図３は本開示の実施例に係る画像識別手順の模式図的を示す。図３に示すように、本開示の実施例に係る画像識別方法は、前記処理対象画像に対してキーポイント検出を行うため目標検出ネットワーク３１、前記目標領域を補正するための補正ネットワーク３２及び前記領域画像情報を識別するための識別ネットワーク３３を含むニューラルネットワークにより実現できる。

図３に示すように、処理対象画像３４における目標対象物が車両のナンバープレートであり、処理対象画像３４を目標検出ネットワーク３１に入力してキーポイント検出を行って、ナンバープレートの４つの頂点を含む画像３５が得られ、補正ネットワーク３２により、画像３５における４つの頂点に基づいて処理対象画像３４のナンバープレート領域を補正して、ナンバープレート画像３６が得られ、ナンバープレート画像３６を識別ネットワーク３３に入力して識別を行って、ナンバープレート領域の識別結果３７、つまりナンバープレートにおける対応する９８１５ＱＷという文字が得られる。

ニューラルネットワークを設定する前に、ニューラルネットワークをトレーニングする必要がある。本開示の実施例に係る画像識別方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。

例を挙げて説明すると、ニューラルネットワークを２つの段階に分けてトレーニングすることができる。即ち、目標検出ネットワークを先にトレーニングし、そして補正ネットワーク及び前記識別ネットワークをトレーニングすることになる。

トレーニングの第１の段階では、トレーニングセットのサンプル画像を目標検出ネットワークに入力し、サンプル画像における目標領域の輪郭キーポイント検出情報を出力し、複数のサンプル画像の輪郭キーポイント検出情報と輪郭キーポイントラベリング情報との間の差異に応じて予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。

トレーニングの第２の段階では、トレーニングセットのサンプル画像をトレーニングされた目標検出ネットワークに入力し、トレーニングされた目標検出ネットワーク、補正ネットワーク及び識別ネットワークによる処理によってサンプル画像における目標領域のトレーニング識別結果が得られ、複数のサンプル画像のトレーニング識別結果と種別ラベリング情報との差異に応じて予め設定されたトレーニング条件が満たされるまで補正ネットワーク及び識別ネットワークのパラメータを調整して、トレーニングされた補正ネットワーク及び識別ネットワークを得る。

このようにして、トレーニング効果を高め、トレーニング速度を速くすることができる。

可能な一実施形態では、予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るステップは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第１の特徴を得ることと、
前記特徴融合サブネットワークにより前記第１の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。

例を挙げて説明すると、トレーニング効果を高めるために、トレーニング過程中で背景の検出を追加することができる。サンプル画像を特徴抽出サブネットワークに入力して特徴抽出を行って、サンプル画像の第１の特徴が得られ、第１の特徴を特徴融合サブネットワークに入力して特徴融合を行って、サンプル画像の融合特徴が得られ、融合特徴を検出サブネットワークに入力して検出して、サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報が得られる。即ち、目標対象物がナンバープレートである場合、４つの頂点の検出情報及びサンプル画像における背景の検出情報を得ることができる。

可能な一実施形態では、複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、目標検出ネットワークのネットワーク損失を特定し、ネットワーク損失に基づいて、予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。

教師有り信号として背景検出を追加することで目標検出ネットワークのトレーニング効果を大幅に高めることができる。

本開示の実施例に係る画像識別方法によれば、画像における複数の角度および不定なワード長を持つ目標対象物（例えばナンバープレート、広告用掲示板、交通標識など）を正確に識別することができる。この方法は、境界枠の代わりにキーポイント識別によるナンバープレート検出を行い、この形態は、ピクセル毎の回帰が不要で、アンカーを検出する必要がなく、非極大値の抑制を省くため、検出速度が大幅に向上した。回帰ターゲットとしてキーポイントのヒートマップを使用すると、位置決めの正確度を高めた。また、ポイント数が増加したため、より多くのナンバープレート情報を取得してナンバープレートを補正するためのホモグラフィプーリングに使用できる。

本開示の実施例に係る画像識別方法によれば、ホモグラフィープーリングによりナンバープレート画像または特徴を補正することができ、任意のネットワークに埋め込んでエンドツーエンドの協同訓練の統一されたネットワークを実現し、ネットワークの各部分を協同で最適化して、速度と精度を確保することができる。

本開示の実施例に係る画像識別方法によれば、スマートシティ、インテリジェント交通、安全防衛の監視制御、駐車場、車両の再識別、偽造ナンバープレートの識別などのシーンに適用してナンバープレートの番号を迅速で精度よく識別することができ、さらにはナンバープレートに基づく課金、罰金、偽造ナンバープレートの検出などを行うことができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。

また、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る画像識別方法のいずれか１つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。

図４は本開示の実施例に係る画像識別装置のブロック図を示す。図４に示すように、前記装置は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュール４１と、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュール４２と、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュール４３と、を含む。

可能な一実施形態では、前記変換行列決定サブモジュールは、前記第１の位置及び前記第２の位置のそれぞれに対して正規化処理を行って、正規化された第１の位置及び正規化された第２の位置を得ることと、前記正規化された第１の位置及び前記正規化された第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することに用いられる。

可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第３の位置及び前記ホモグラフィ変換行列に基づき、各前記第３の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第３の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることに用いられる。

可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第１のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第１の特徴を得ることと、前記特徴融合サブネットワークにより前記第１の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることに用いられる。

いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。

本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性または揮発性のコンピュータ可読記憶媒体であってもよい。

本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記の方法を実行するように構成される電子機器がさらに提供される。

本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラム製品であって、当該コンピュータ可読コードは機器において動作すると、機器のプロセッサに上述したいずれかの実施例に係る画像識別方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。

本開示の実施例では、コンピュータ可読命令が記憶されているコンピュータプログラム製品であって、命令は実行されると、コンピュータに上述したいずれかの実施例に係る画像識別方法の動作を実行させる別のコンピュータプログラム製品がさらに提供される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図５は、本開示の実施例に係る電子機器８００のブロック図を示す。例えば、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。

図５を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されと、上記方法を実行させることができる。

図６は、本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供されてもよい。図６を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されいるオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することににより、本開示の各方面を実現するようにしてもよい。

ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

当該コンピュータプログラム製品は、ハードウェア、ソフトウェア、又はそれらの組み合わせによって具体的に実現できる。選択可能的な一実施例では、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化される。選択可能的な別の実施例では、コンピュータプログラム製品はソフトウェア製品、例えば、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、略称ＳＤＫ）等として具現化される。
論理に違反しない限り、本開示のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims

処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、
前記領域画像情報を識別して前記目標領域の識別結果を得ることと、
を含むことを特徴とする画像識別方法。
請求項１に記載の方法であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、
を含むことを特徴とする方法。
請求項１または２に記載の方法であって、
前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第１の位置を含み、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、
前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。
請求項３に記載の方法であって、
前記複数の輪郭キーポイントの第１の位置及び前記補正領域の第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、
前記第１の位置及び前記第２の位置のそれぞれに対して正規化処理を行って、正規化された第１の位置及び正規化された第２の位置を得ることと、
前記正規化された第１の位置及び前記正規化された第２の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
を含むことを特徴とする方法。
請求項３または４に記載の方法であって、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、
前記補正領域における複数の目標ポイントの第３の位置及び前記ホモグラフィ変換行列に基づき、各前記第３の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第３の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。
請求項１～５のいずれか１項に記載の方法であって、
前記領域画像情報を識別して前記目標領域の識別結果を得ることは、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、
前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、
を含むことを特徴とする方法。
請求項１～６のいずれか１項に記載の方法であって、
前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、
をさらに含むことを特徴とする方法。
請求項７に記載の方法であって、
前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第１の特徴を得ることと、
前記特徴融合サブネットワークにより前記第１の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
を含むことを特徴とする方法。
請求項１～８のいずれか１項に記載の方法であって、
前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含むことを特徴とする方法。
画像識別装置であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、
前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含むことを特徴とする画像識別装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、請求項１～９のいずれか１項に記載の方法を実行するように構成されたことを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、
前記コンピュータプログラム命令はプロセッサにより実行されると、請求項１～９のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに請求項１～９のいずれか１項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。