JP6947856B2

JP6947856B2 - 物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス

Info

Publication number: JP6947856B2
Application number: JP2020003251A
Authority: JP
Inventors: 王文▲チ▼; 廉士国; 南一冰
Original assignee: 達闥机器人有限公司
Priority date: 2019-01-10
Filing date: 2020-01-10
Publication date: 2021-10-13
Anticipated expiration: 2040-01-10
Also published as: US11281939B2; JP2020113274A; CN109840883A; CN109840883B; US20200320342A1

Description

本発明の実施例はコンピュータビジョン技術分野に関し、特に物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイスに関する。

魚眼レンズは、標準レンズよりも画角が大きく、焦点距離が短い特殊なレンズであり、魚眼レンズは、画角が大きく、焦点距離が短いという自己の構造的特徴により、撮像する魚眼画像に歪みが生じる。現在の魚眼レンズは、主にビデオ監視の場面で使用され、魚眼レンズによって撮像された歪んだ画像を、人間の眼の視覚効果に適合する画像に補正し、次いで、ステッチングアルゴリズムを使用して補正後の魚眼画像をステッチングし、ステッチングが完了した画像を、目標検出認識アルゴリズムを使用して認識する。

本発明者らは、本発明を実現する過程において、従来技術では歪んだ魚眼画像を人間の眼の効果に適合する画像に補正する必要があり、手順が煩雑で、歪んだ魚眼画像を直接認識できないことを見出した。

上記の問題に鑑みて、本発明は、上記の問題を解消するか、又は上記の問題を少なくとも部分的に解決する物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイスを提供するためになされた。

上記の技術的課題を解決するために、本発明の実施例の１つの技術的解決手段にて提供される物体認識ニューラルネットワークの訓練方法は、歪んだ魚眼画像に基づき、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するステップと、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するステップと、各前記目標物体が属する領域を決定するステップと、各前記目標物体が属する領域に応じて各前記目標物体を分類するステップと、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するステップと、を含む。

好ましくは、各前記目標物体が属する領域を決定するステップは、前記歪んだ魚眼画像における各目標物体に外接枠を設置するステップと、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するステップと、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するステップと、前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断するステップと、前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とするステップと、前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするステップと、を含む。

好ましくは、各前記目標物体が属する領域に基づき、各前記目標物体を分類することは、同一の領域に属する同一の目標物体を１つのカテゴリに分類することを含む。

好ましくは、前記同一の領域内において、前記目標物体の歪みの程度は同じである。

好ましくは、本発明にてさらに提供される物体認識方法は、入力された歪んだ魚眼画像を受信するステップと、物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含む。

本発明の実施例のもう１つの技術的解決手段にて提供される物体認識ニューラルネットワークの訓練装置は、少なくとも１つの目標物体を含む歪んだ魚眼画像を取得するための取得モジュールと、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するための画成モジュールと、各前記目標物体が属する領域を決定するための決定モジュールと、各前記目標物体が属する領域に基づき、各前記目標物体を分類するための分類モジュールと、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するための訓練モジュールと、を含む。

好ましくは、前記決定モジュールは、前記歪んだ魚眼画像における各目標物体に外接枠を設置するための設置ユニットと、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するための計算ユニットと、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するための取得ユニットと、前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断するための判断ユニットと、前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とするための第１の決定ユニットと、前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするための第２の決定ユニットとを含む。

好ましくは、前記分類モジュールは、同一の領域に属する同一の目標物体を１つのカテゴリに分類するための分類ユニットを含む。

好ましくは、本実施例にて提供される物体認識装置は、入力された歪んだ魚眼画像を受信するための受信モジュールと、物体認識ニューラルネットワークの訓練装置により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るための認識モジュールと、を含む。

本発明の実施例のさらにもう１つの技術的解決手段にて提供されるコンピューティングデバイスは、プロセッサと、メモリと、通信インタフェースと、通信バスとを含み、前記プロセッサと、前記メモリと、前記通信インタフェースは前記通信バスを介して相互に通信を行い、前記メモリは、少なくとも１つの実行可能な命令を格納するために用いられ、前記実行可能な命令は前記プロセッサに、例えば物体認識ニューラルネットワークの訓練方法に対応する動作を実行させる。

本発明の実施例の別のもう１つの技術的解決手段にて提供されるコンピュータ読み取り可能な記憶媒体は、少なくとも１つの実行可能な命令を記憶しており、前記実行可能な命令はプロセッサに、例えば物体認識ニューラルネットワークの訓練方法に対応する動作を実行させる。

従来技術と異なり、本発明の実施例は、歪みの程度に応じて歪んだ魚眼画像をいくつかの領域に画成し、各前記領域の目標物体を分類し、前記歪んだ魚眼画像及び前記目標物体の前記カテゴリを物体認識ニューラルネットワークに入力して訓練することで、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは、歪んだ魚眼画像における目標物体を直接認識することができる。

以上の説明は、本発明の技術的解決手段の概説に過ぎず、本発明の技術的手段をより明確に理解するために、明細書の内容に従って実施してもよく、また、本発明の上記及び他の目的、特徴、利点をより明確に理解できるように、以下、本発明の具体的な実施例を列挙する。

様々な他の利点及び有益な効果は、以下の好ましい実施例の詳細な説明を読むことによって、当業者にとって明らかになる。図面は、好ましい実施例を示すことを目的とするものであり、本発明を限定するものとみなされるべきではない。また、図面全体を通して同一の要素には同一の符号が付されている。図面において、
本発明の実施例の物体認識ニューラルネットワークの訓練方法のフローチャートである。本発明の実施例の物体認識ニューラルネットワークの訓練方法において目標物体が属する領域を決定する概略図である。本発明の実施例の物体認識ニューラルネットワークの訓練装置の機能ブロック図である。本発明の実施例のコンピューティングデバイスの概略図である。

以下、本開示の例示的な実施例について図面を参照して詳細に説明する。本開示の例示的な実施例が図面に示されているが、本開示は、ここに記載された実施例に限定されることなく、様々な形態で実施され得ることが理解されるべきである。むしろ、これらの実施例は、本開示をより完全に理解することができ、本開示の範囲を当業者に完全に伝えることができるように提供される。

図１は、本発明の物体認識ニューラルネットワークの訓練方法の実施例のフローチャートである。図１に示すように、当該方法は、ステップＳ１０１〜ステップＳ１０５を含む。

ステップＳ１０１、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得する。

本ステップでは、前記歪んだ魚眼画像は、魚眼レンズを用いて撮影されたピクチャであり、魚眼レンズは、画角が大きく、焦点距離が短いという自己の構造的特徴により、撮像する魚眼画像に歪みが生じる。

ステップＳ１０２：前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成する。

魚眼レンズの歪みの湾曲の程度は一定の規則性がないが、その歪みの程度は分布が一定の規則性を示すため、魚眼レンズの歪みの特徴に基づいて、魚眼レンズの画角範囲内の歪みの状況を解析し、同じ歪みの程度を１つの領域に画成することができる。本発明の実施例では、いくつかの異なる大きさの同心円を使用して前記歪んだ魚眼画像をいくつかの領域に画成する。なお、同一の前記領域内において、前記目標物体の歪みの程度が同じである。

ステップＳ１０３：各前記目標物体が属する領域を決定する。

本ステップでは、以下の方式により前記目標物体が属する領域を決定し、図２に示すように、各目標物体が属する領域を決定することは、ステップＳ１０３１〜ステップＳ１０３６を含む。

ステップＳ１０３１：前記歪んだ魚眼画像における各目標物体に外接枠を設置する。

外接枠とは、前記歪んだ魚眼画像内における各目標物体を完全に包む込むことができる最小の枠である。

ステップＳ１０３２：各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算する。

重なり面積とは、各領域が前記外接枠に含まれる面積である。重なり面積の計算に際しては、積分アルゴリズムを用いて計算してもよいし、前記外接枠と前記領域とが重なる部分の画素点を用いて計算してもよく、重なり面積の計算の具体的な方法については、本発明の実施形態において限定されるものではない。なお、前記積分アルゴリズムは、不規則な領域の面積を計算する方法で、周知の技術であるため、ここでは説明を省略する。

ステップＳ１０３３：各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得する。

本ステップでは、前記外接枠と各前記領域との重なり面積を大きい順にソートし、前記重なり面積の最大値に対応する重なり領域を得る。

ステップＳ１０３４：前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断し、そうであれば、ステップＳ１０３５を実行し、そうでなければ、ステップＳ１０３６を実行する。

本ステップでは、１つの目標物体の外接枠が複数の前記領域に位置する場合、前記重なり面積の最大値に対応する重なり領域の数も１つよりも多い可能性があり、例えば、前記外接枠と２つの領域との重なり面積が等しくかつ最大である場合、前記目標物体に対応する最大の重なり領域の数は１つよりも多い。

ステップＳ１０３５：前記最大の重なり領域から最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とする。

本ステップでは、前記最適な領域は、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である。前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記歪んだ魚眼画像の中心に最も近い領域を目標物体が属する領域とする。

ステップＳ１０３６：前記最大の重なり領域を前記目標物体が属する領域とする。

本ステップでは、前記目標物体に対応する最大の重なり領域の数が１つだけである場合、前記最大の重なり領域を前記目標物体が属する領域とする。

ステップＳ１０４：各前記目標物体が属する領域に応じて各前記目標物体を分類する。

本ステップでは、各前記目標物体が属する領域に応じて各前記目標物体を分類することは、同一の領域に属する同一の目標物体を１つのカテゴリに分類することを含む。例えば、前記歪んだ魚眼画像には、２種類の目標物体Ａ及びＢが含まれ、そのうち、前記目標物体Ａは、３つあり、それぞれ目標物体Ａ１、目標物体Ａ２及び目標物体Ａ３と表記され、目標物体Ｂは、１つあり、目標物体Ｂと表記され、前記領域は、３つ含み、前記歪んだ魚眼画像の中心から外へ順にＡｒｅａ＿１、Ａｒｅａ＿２及びＡｒｅａ＿３であり、ここで、前記目標物体Ａ１及び前記目標物体Ａ２は、それぞれ属する領域がＡｒｅａ＿１であると決定され、前記目標物体Ａ３は、属する領域がＡｒｅａ＿２であると決定され、前記目標物体Ｂは、属する領域がＡｒｅａ＿３であると決定され、したがって、前記目標物体Ａ１及び前記目標物体Ａ２は、１つのカテゴリに分類され、Ａ−１と表記され、前記目標物体Ａ３は、１つのカテゴリに分類され、Ａ−２と表記され、前記目標物体Ｂは、１つのカテゴリに分類され、Ｂ−３と表記される。

ステップＳ１０５：前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練する。

目標物体の前記歪んだ魚眼画像の異なる領域における歪みの程度が異なり、目標物体を前記領域及び目標物体のカテゴリに応じて分類して物体認識ニューラルネットワークに入力して訓練し、分類を行わず訓練を直接行う物体認識ニューラルネットワークと比較して、本発明の実施例は、歪みの程度に応じて目標物体を分類し、目標物体認識ニューラルネットワークの歪んだ魚眼画像に基づく認識効果を高めることができる。

本ステップでは、取得した大量の物体のカテゴリ及び対応する歪んだ魚眼画像を物体認識ニューラルネットワークに入力して訓練を行い、訓練済みの物体認識ニューラルネットワークを得る。前記目標物体認識ニューラルネットワークは、現在の主流のニューラルネットワークであり、具体的なニューラルネットワークのカテゴリは、ここに限定されず、前記訓練済みの物体認識ニューラルネットワークは、ニューラルネットワークを訓練する際に用いられる各目標物体のカテゴリを認識することができる。

本発明の実施例では、歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成し、前記領域ごとに目標物体を分類し、前記歪んだ魚眼画像と前記目標物体の前記カテゴリを物体認識ニューラルネットワークに入力して訓練し、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは歪んだ魚眼画像における目標物体を直接認識することができる。

１つの実施例にて提供される物体認識方法は、入力された歪んだ魚眼画像を受信するステップと、上記の物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含む。

上記の物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークは、歪んだ魚眼画像に含まれる目標物体の物体情報の認識により優れた認識効果を有するため、当該物体認識ニューラルネットワークを用いて歪んだ魚眼画像に含まれる目標物体を認識する場合、物体認識の認識効果を高めることができる。

図３は、本発明の実施例の物体認識ニューラルネットワークの訓練装置の機能ブロック図を示し、図３に示すように、前記装置は、取得モジュール３０１と、画成モジュール３０２と、決定モジュール３０３と、分類モジュール３０４と、訓練モジュール３０５とを含み、そのうち、前記取得モジュール３０１は、少なくとも１つの目標物体を含む歪んだ魚眼画像を取得するために用いられ、画成モジュール３０２は、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するために用いられ、決定モジュール３０３は、各前記目標物体が属する領域を決定するために用いられ、分類モジュール３０４は、各前記目標物体が属する領域に基づき、各前記目標物体を分類するために用いられ、訓練モジュール３０５は、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するために用いられる。

ここで、前記決定モジュールは、設置ユニット３０３１と、計算ユニット３０３２と、取得ユニット３０３３と、判断ユニット３０３４と、第１の決定ユニット３０３５と、第２の決定ユニット３０３６とを含み、そのうち、前記設置ユニット３０３１は、前記歪んだ魚眼画像における各目標物体に外接枠を設置するために用いられ、前記計算ユニット３０３２は、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するために用いられ、前記取得ユニット３０３３は、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するために用いられ、前記判断ユニット３０３４は、前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断するために用いられ、前記第１の決定ユニット３０３５は、前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とするために用いられ、前記第２の決定ユニット３０３６は、前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするために用いられる。

ここで、前記分類モジュール３０４は、同一の領域に属する同一の目標物体を１つのカテゴリに分類するための分類ユニット３０４１を含む。

ここで、前記同一の領域内において、前記目標物体の歪みの程度は同じである。

１つの実施例にて提供される物体認識装置は、受信モジュールと認識モジュールと、を含み、そのうち、前記受信モジュールは、入力された歪んだ魚眼画像を受信するために用いられ、前記認識モジュールは、前記物体認識ニューラルネットワークの訓練装置により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るために用いられる。

本発明の実施例では、歪みの程度に応じて歪んだ魚眼画像を画成モジュールによりいくつかの領域に画成し、各前記領域の目標物体を画成モジュールにより分類し、前記歪んだ魚眼画像及び前記目標物体の前記カテゴリを訓練モジュールにより物体認識ニューラルネットワークに入力して訓練することで、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは、歪んだ魚眼画像における目標物体を直接認識することができる。

本発明の実施例にて提供される不揮発性のコンピュータ読み取り可能な記憶媒体は、少なくとも１つの実行可能な命令を記憶しており、当該コンピュータ実行可能な命令は、上記の任意の方法の実施例における物体認識ニューラルネットワークの訓練方法を実行することができる。

図４は、本発明のコンピューティングデバイスの実施例の構成概略図であり、本発明の具体的な実施例は、コンピューティングデバイスの具体的な実現を限定するものではない。

図４に示すように、当該コンピューティングデバイスは、プロセッサ（ｐｒｏｃｅｓｓｏｒ）４０２と、通信インタフェース（ＣｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｔｅｒｆａｃｅ）４０４と、メモリ（ｍｅｍｏｒｙ）４０６と、通信バス４０８とを含む。

そのうち、プロセッサ４０２と通信インタフェース４０４とメモリ４０６とは通信バス４０８を介して相互に通信を行う。

通信インタフェース４０４は、クライアント又は他のサーバなど、他のデバイスのネットワークエレメントと通信するために用いられる。

プロセッサ４０２は、プログラム４１０を実行するために用いられ、具体的には、上記の物体認識ニューラルネットワークの訓練方法の実施例における関連ステップを実行することができる。

具体的には、プログラム４１０は、コンピュータ動作命令を含むプログラムコードを含んでもよい。

プロセッサ４０２は、中央プロセッサＣＰＵ、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又は本発明の実施例を実施するように構成された１つ以上の集積回路であってもよい。コンピューティングデバイスが含む１つ以上のプロセッサは、１つ以上のＣＰＵのような同じタイプのプロセッサであってもよいし、１つ以上のＣＰＵ及び１つ以上のＡＳＩＣのような異なるタイプのプロセッサであってもよい。

メモリ４０６は、プログラム４１０を格納するために用いられる。メモリ４０６は、高速ＲＡＭメモリを含んでもよいし、また、少なくとも１つの磁気ディスクストレージのような不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。

プログラム４１０は具体的にはプロセッサ４０２に以下の動作を実行させるために用いられる。

少なくとも１つの目標物体を含む歪んだ魚眼画像を取得し、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成し、前記目標物体が属する領域を決定し、前記目標物体が属する領域に基づき、前記少なくとも１つの目標物体を分類し、前記歪んだ魚眼画像及び前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練する。

好ましい形態では、プログラム４１０は、具体的には、プロセッサ４０２に以下の動作をさらに実行させるために用いられる。

前記歪んだ魚眼画像における各目標物体に外接枠を設置し、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算し、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得し、前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断し、前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とし、前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とする。

好ましい形態では、プログラム４１０は、具体的には、プロセッサ４０２に以下の動作をさらに実行させるために用いられる。前記目標物体が属する領域に基づき、前記少なくとも１つの目標物体を分類することは、同一の領域に属する同一の目標物体を１つのカテゴリに分類することを含む。

好ましい形態では、前記同一の領域内において、前記目標物体の歪みの程度は同じである。

好ましい形態では、プログラム４１０は、具体的には、プロセッサ４０２に以下の動作をさらに実行させるために用いられる。入力された歪んだ魚眼画像を受信し、物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得る。

本明細書で提供されるアルゴリズム及び表示は、特定のコンピュータ、仮想システム、又は他のデバイスに固有の関連性を有しない。各種の汎用システムは、ここでの教示と共に用いることもできる。以上の記述に基づき、このようなシステムを構成するために必要な構成は明らかである。さらに、本発明は、いかなる特定のプログラミング言語にも向けられていない。なお、本明細書に記載された本発明の内容は、様々なプログラミング言語を用いて実現されてもよく、特定の言語に関する上記の記述は、本発明の最適な実施例を開示するために行われることが理解されたい。

ここにて提供される本明細書では、多数の具体的な詳細が説明される。しかしながら、本発明の実施例は、これらの具体的な詳細なしに実施できることが理解される。いくつかの実施例では、本明細書の理解を曖昧にしないように、周知の方法、構造、及び技術は詳細に示されていない。

同様に、本開示を簡潔にし、様々な発明の態様のうちの１つ以上を分かりやすくするために、本発明の例示的な実施形態についての上記の記述において、本発明の様々な特徴は、単一の実施例、図面、又はそれらの記述に一緒にグループ化される場合があることが理解されたい。しかしながら、この開示された方法は、保護を要求する本発明は、各請求項に明示的に記載された特徴よりも多い特徴を要求するという意図を反映するものとして解釈されるべきではない。むしろ、特許請求の範囲が反映するように、発明の態様は、上記に開示された単一の実施例の全ての特徴よりも少ないことである。そのため、具体的な実施例に従う特許請求の範囲は当該具体的な実施例に明示的に組み込まれ、各請求項自体は本発明の別個の実施例として機能する。

当業者であれば、実施例におけるデバイスのモジュールを自己適応的に変更し、当該実施例とは異なる１つ以上のデバイスに設置してもよいことを理解すべきである。実施例におけるモジュール、ユニット又はアセンブリは、１つのモジュール、ユニット又はアセンブリとして構成されてもよく、また、複数のサブモジュール、サブユニット又はサブアセンブリに分割されてもよい。そのような特徴及び／又はプロセス又はユニットの少なくともいくつかが相互に排他的であることを除き、本明細書（添付の特許請求の範囲、要約書、及び図面を含む）に開示されるすべての特徴、ならびにそのように開示される任意の方法又はデバイスのすべてのプロセス若しくはユニットは、任意の組み合わせで組み合わされてもよい。別段の明確な記載がない限り、本明細書（添付の特許請求の範囲、要約書、及び図面を含む）に開示される各特徴は、同一、同等、又は類似の目的を提供する代替的な特徴によって置き換えることができる。

さらに、当業者であれば、本明細書に記載のいくつかの実施例は、他の特徴ではなく、他の実施例に含まれる特定の特徴を含むが、異なる実施例の特徴の組み合わせは、本発明の範囲内にあり、異なる実施例を形成することを意味することを理解することができる。例えば、以下の特許請求の範囲において、保護を要求する実施例のいずれかの１つは、任意の組み合わせで使用されてもよい。

本発明の様々な部材の実施例は、ハードウェアで、１つ若しくは複数のプロセッサ上で動作するソフトウェアモジュールで、又はそれらの組み合わせで実現することができる。当業者であれば、実施中に、マイクロプロセッサ又はデジタルシグナルプロセッサ（ＤＳＰ）を使用して、本発明の実施例による物体認識ニューラルネットワークの訓練装置の一部又は全部の部材の一部又は全部の機能を実現できることを理解すべきである。本発明はさらに、本明細書に記載の方法の一部又は全部を実行するためのデバイス又は装置のプログラム（例えば、コンピュータプログラム及びコンピュータプログラム製品）として実現できる。本発明を実現するこのようなプログラムは、コンピュータ読み取り可能な媒体に記憶されるか、又は１つ又は複数の信号の形態を有してもよい。そのような信号は、インターネットウェブサイトからダウンロードして取得することができ、又は、キャリアシグナル上で提供することができ、又は、任意の他の形態で提供することができる。

なお、上記の実施例は本発明を説明するもので、本発明を限定するものではなく、当業者であれば、特許請求の範囲に記載された本発明の要旨から逸脱することなく変形例を設計することが可能である。請求項において、括弧内の任意の参照符号は、請求項を限定するように構成されるべきではない。単語「含む」は、請求項に列挙されていない要素又はステップの存在を除外しない。要素の前に位置する単語「１」又は「１つ」は、そのような要素が複数存在することを除外しない。本発明は、いくつかの異なる要素を備えるハードウェア、及び適切にプログラミングされたコンピュータによって実現される。いくつかの装置を列挙する請求項において、これらの装置のいくつかは、同じハードウェア項目によって具現化される。第１、第２、第３等の単語の使用は、順序を示していない。これらの単語は、名前として解釈することができる。

Claims

物体認識ニューラルネットワークの訓練方法であって、歪んだ魚眼画像に基づき、
少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するステップと、
前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するステップと、
各前記目標物体が属する領域を決定するステップと、
各前記目標物体が属する領域に応じて各前記目標物体を分類するステップと、
前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するステップと、を含むことを特徴とする物体認識ニューラルネットワークの訓練方法。
各前記目標物体が属する領域を決定するステップは、
前記歪んだ魚眼画像における各目標物体に外接枠を設置するステップと、
各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するステップと、
各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するステップと、
前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断するステップと、
前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とするステップと、
前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするステップと、を含むことを特徴とする請求項１に記載の方法。
各前記目標物体が属する領域に基づき、各前記目標物体を分類することは、
同一の領域に属する同一の目標物体を１つのカテゴリに分類することを含むことを特徴とする請求項１に記載の方法。
前記同一の領域内において、前記目標物体の歪みの程度は同じであることを特徴とする請求項１−３のいずれか一項に記載の方法。
入力された歪んだ魚眼画像を受信するステップと、
請求項１−４のいずれか一項により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含むことを特徴とする物体認識方法。
物体認識ニューラルネットワークの訓練装置であって、
少なくとも１つの目標物体を含む歪んだ魚眼画像を取得するための取得モジュールと、
前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するための画成モジュールと、
各前記目標物体が属する領域を決定するための決定モジュールと、
各前記目標物体が属する領域に基づき、各前記目標物体を分類するための分類モジュールと、
前記歪んだ魚眼画像及び前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するための訓練モジュールと、を含むことを特徴とする物体認識ニューラルネットワークの訓練装置。
前記決定モジュールは、
前記歪んだ魚眼画像における各目標物体に外接枠を設置するための設置ユニットと、
各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するための計算ユニットと、
各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するための取得ユニットと、
前記目標物体に対応する最大の重なり領域の数が１つよりも多いか否かを判断するための判断ユニットと、
前記目標物体に対応する最大の重なり領域の数が１つである場合、前記最大の重なり領域を前記目標物体が属する領域とするための第１の決定ユニットと、
前記目標物体に対応する最大の重なり領域の数が１つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするための第２の決定ユニットとを含むことを特徴とする請求項６に記載の装置。
前記分類モジュールは、同一の領域に属する同一の目標物体を１つのカテゴリに分類するための分類ユニットを含むことを特徴とする請求項６に記載の装置。
前記同一の領域内において、前記目標物体の歪みの程度は同じであることを特徴とする請求項６−８のいずれか一項に記載の装置。
物体認識装置であって、
入力された歪んだ魚眼画像を受信するための受信モジュールと、
請求項１−４のいずれか一項により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るための認識モジュールと、を含むことを特徴とする物体認識装置。
コンピューティングデバイスであって、プロセッサと、メモリと、通信インタフェースと、通信バスとを含み、前記プロセッサと前記メモリと前記通信インタフェースは前記通信バスを介して相互に通信を行い、前記メモリは、少なくとも１つの実行可能な命令を格納するために用いられ、前記少なくとも１つの実行可能な命令は、請求項１−４のいずれか一項に記載の物体認識ニューラルネットワークの訓練方法に対応する動作を前記プロセッサに実行させることを特徴とするコンピューティングデバイス。
コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体は、少なくとも１つの実行可能な命令を記憶しており、前記実行可能な命令は、請求項１−４のいずれか一項に記載の物体認識ニューラルネットワークの訓練方法に対応する動作をプロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。