JP6947856B2 - 物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス - Google Patents

物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス Download PDF

Info

Publication number
JP6947856B2
JP6947856B2 JP2020003251A JP2020003251A JP6947856B2 JP 6947856 B2 JP6947856 B2 JP 6947856B2 JP 2020003251 A JP2020003251 A JP 2020003251A JP 2020003251 A JP2020003251 A JP 2020003251A JP 6947856 B2 JP6947856 B2 JP 6947856B2
Authority
JP
Japan
Prior art keywords
target object
region
neural network
fisheye image
recognition neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020003251A
Other languages
English (en)
Other versions
JP2020113274A (ja
Inventor
王文▲チ▼
廉士国
南一冰
Original Assignee
達闥机器人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 達闥机器人有限公司 filed Critical 達闥机器人有限公司
Publication of JP2020113274A publication Critical patent/JP2020113274A/ja
Application granted granted Critical
Publication of JP6947856B2 publication Critical patent/JP6947856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明の実施例はコンピュータビジョン技術分野に関し、特に物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイスに関する。
魚眼レンズは、標準レンズよりも画角が大きく、焦点距離が短い特殊なレンズであり、魚眼レンズは、画角が大きく、焦点距離が短いという自己の構造的特徴により、撮像する魚眼画像に歪みが生じる。現在の魚眼レンズは、主にビデオ監視の場面で使用され、魚眼レンズによって撮像された歪んだ画像を、人間の眼の視覚効果に適合する画像に補正し、次いで、ステッチングアルゴリズムを使用して補正後の魚眼画像をステッチングし、ステッチングが完了した画像を、目標検出認識アルゴリズムを使用して認識する。
本発明者らは、本発明を実現する過程において、従来技術では歪んだ魚眼画像を人間の眼の効果に適合する画像に補正する必要があり、手順が煩雑で、歪んだ魚眼画像を直接認識できないことを見出した。
上記の問題に鑑みて、本発明は、上記の問題を解消するか、又は上記の問題を少なくとも部分的に解決する物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイスを提供するためになされた。
上記の技術的課題を解決するために、本発明の実施例の1つの技術的解決手段にて提供される物体認識ニューラルネットワークの訓練方法は、歪んだ魚眼画像に基づき、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するステップと、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するステップと、各前記目標物体が属する領域を決定するステップと、各前記目標物体が属する領域に応じて各前記目標物体を分類するステップと、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するステップと、を含む。
好ましくは、各前記目標物体が属する領域を決定するステップは、前記歪んだ魚眼画像における各目標物体に外接枠を設置するステップと、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するステップと、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するステップと、前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断するステップと、前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とするステップと、前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするステップと、を含む。
好ましくは、各前記目標物体が属する領域に基づき、各前記目標物体を分類することは、同一の領域に属する同一の目標物体を1つのカテゴリに分類することを含む。
好ましくは、前記同一の領域内において、前記目標物体の歪みの程度は同じである。
好ましくは、本発明にてさらに提供される物体認識方法は、入力された歪んだ魚眼画像を受信するステップと、物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含む。
本発明の実施例のもう1つの技術的解決手段にて提供される物体認識ニューラルネットワークの訓練装置は、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するための取得モジュールと、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するための画成モジュールと、各前記目標物体が属する領域を決定するための決定モジュールと、各前記目標物体が属する領域に基づき、各前記目標物体を分類するための分類モジュールと、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するための訓練モジュールと、を含む。
好ましくは、前記決定モジュールは、前記歪んだ魚眼画像における各目標物体に外接枠を設置するための設置ユニットと、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するための計算ユニットと、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するための取得ユニットと、前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断するための判断ユニットと、前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とするための第1の決定ユニットと、前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするための第2の決定ユニットとを含む。
好ましくは、前記分類モジュールは、同一の領域に属する同一の目標物体を1つのカテゴリに分類するための分類ユニットを含む。
好ましくは、前記同一の領域内において、前記目標物体の歪みの程度は同じである。
好ましくは、本実施例にて提供される物体認識装置は、入力された歪んだ魚眼画像を受信するための受信モジュールと、物体認識ニューラルネットワークの訓練装置により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るための認識モジュールと、を含む。
本発明の実施例のさらにもう1つの技術的解決手段にて提供されるコンピューティングデバイスは、プロセッサと、メモリと、通信インタフェースと、通信バスとを含み、前記プロセッサと、前記メモリと、前記通信インタフェースは前記通信バスを介して相互に通信を行い、前記メモリは、少なくとも1つの実行可能な命令を格納するために用いられ、前記実行可能な命令は前記プロセッサに、例えば物体認識ニューラルネットワークの訓練方法に対応する動作を実行させる。
本発明の実施例の別のもう1つの技術的解決手段にて提供されるコンピュータ読み取り可能な記憶媒体は、少なくとも1つの実行可能な命令を記憶しており、前記実行可能な命令はプロセッサに、例えば物体認識ニューラルネットワークの訓練方法に対応する動作を実行させる。
従来技術と異なり、本発明の実施例は、歪みの程度に応じて歪んだ魚眼画像をいくつかの領域に画成し、各前記領域の目標物体を分類し、前記歪んだ魚眼画像及び前記目標物体の前記カテゴリを物体認識ニューラルネットワークに入力して訓練することで、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは、歪んだ魚眼画像における目標物体を直接認識することができる。
以上の説明は、本発明の技術的解決手段の概説に過ぎず、本発明の技術的手段をより明確に理解するために、明細書の内容に従って実施してもよく、また、本発明の上記及び他の目的、特徴、利点をより明確に理解できるように、以下、本発明の具体的な実施例を列挙する。
様々な他の利点及び有益な効果は、以下の好ましい実施例の詳細な説明を読むことによって、当業者にとって明らかになる。図面は、好ましい実施例を示すことを目的とするものであり、本発明を限定するものとみなされるべきではない。また、図面全体を通して同一の要素には同一の符号が付されている。図面において、
本発明の実施例の物体認識ニューラルネットワークの訓練方法のフローチャートである。 本発明の実施例の物体認識ニューラルネットワークの訓練方法において目標物体が属する領域を決定する概略図である。 本発明の実施例の物体認識ニューラルネットワークの訓練装置の機能ブロック図である。 本発明の実施例のコンピューティングデバイスの概略図である。
以下、本開示の例示的な実施例について図面を参照して詳細に説明する。本開示の例示的な実施例が図面に示されているが、本開示は、ここに記載された実施例に限定されることなく、様々な形態で実施され得ることが理解されるべきである。むしろ、これらの実施例は、本開示をより完全に理解することができ、本開示の範囲を当業者に完全に伝えることができるように提供される。
図1は、本発明の物体認識ニューラルネットワークの訓練方法の実施例のフローチャートである。図1に示すように、当該方法は、ステップS101〜ステップS105を含む。
ステップS101、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得する。
本ステップでは、前記歪んだ魚眼画像は、魚眼レンズを用いて撮影されたピクチャであり、魚眼レンズは、画角が大きく、焦点距離が短いという自己の構造的特徴により、撮像する魚眼画像に歪みが生じる。
ステップS102:前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成する。
魚眼レンズの歪みの湾曲の程度は一定の規則性がないが、その歪みの程度は分布が一定の規則性を示すため、魚眼レンズの歪みの特徴に基づいて、魚眼レンズの画角範囲内の歪みの状況を解析し、同じ歪みの程度を1つの領域に画成することができる。本発明の実施例では、いくつかの異なる大きさの同心円を使用して前記歪んだ魚眼画像をいくつかの領域に画成する。なお、同一の前記領域内において、前記目標物体の歪みの程度が同じである。
ステップS103:各前記目標物体が属する領域を決定する。
本ステップでは、以下の方式により前記目標物体が属する領域を決定し、図2に示すように、各目標物体が属する領域を決定することは、ステップS1031〜ステップS1036を含む。
ステップS1031:前記歪んだ魚眼画像における各目標物体に外接枠を設置する。
外接枠とは、前記歪んだ魚眼画像内における各目標物体を完全に包む込むことができる最小の枠である。
ステップS1032:各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算する。
重なり面積とは、各領域が前記外接枠に含まれる面積である。重なり面積の計算に際しては、積分アルゴリズムを用いて計算してもよいし、前記外接枠と前記領域とが重なる部分の画素点を用いて計算してもよく、重なり面積の計算の具体的な方法については、本発明の実施形態において限定されるものではない。なお、前記積分アルゴリズムは、不規則な領域の面積を計算する方法で、周知の技術であるため、ここでは説明を省略する。
ステップS1033:各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得する。
本ステップでは、前記外接枠と各前記領域との重なり面積を大きい順にソートし、前記重なり面積の最大値に対応する重なり領域を得る。
ステップS1034:前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断し、そうであれば、ステップS1035を実行し、そうでなければ、ステップS1036を実行する。
本ステップでは、1つの目標物体の外接枠が複数の前記領域に位置する場合、前記重なり面積の最大値に対応する重なり領域の数も1つよりも多い可能性があり、例えば、前記外接枠と2つの領域との重なり面積が等しくかつ最大である場合、前記目標物体に対応する最大の重なり領域の数は1つよりも多い。
ステップS1035:前記最大の重なり領域から最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とする。
本ステップでは、前記最適な領域は、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である。前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記歪んだ魚眼画像の中心に最も近い領域を目標物体が属する領域とする。
ステップS1036:前記最大の重なり領域を前記目標物体が属する領域とする。
本ステップでは、前記目標物体に対応する最大の重なり領域の数が1つだけである場合、前記最大の重なり領域を前記目標物体が属する領域とする。
ステップS104:各前記目標物体が属する領域に応じて各前記目標物体を分類する。
本ステップでは、各前記目標物体が属する領域に応じて各前記目標物体を分類することは、同一の領域に属する同一の目標物体を1つのカテゴリに分類することを含む。例えば、前記歪んだ魚眼画像には、2種類の目標物体A及びBが含まれ、そのうち、前記目標物体Aは、3つあり、それぞれ目標物体A1、目標物体A2及び目標物体A3と表記され、目標物体Bは、1つあり、目標物体Bと表記され、前記領域は、3つ含み、前記歪んだ魚眼画像の中心から外へ順にArea_1、Area_2及びArea_3であり、ここで、前記目標物体A1及び前記目標物体A2は、それぞれ属する領域がArea_1であると決定され、前記目標物体A3は、属する領域がArea_2であると決定され、前記目標物体Bは、属する領域がArea_3であると決定され、したがって、前記目標物体A1及び前記目標物体A2は、1つのカテゴリに分類され、A−1と表記され、前記目標物体A3は、1つのカテゴリに分類され、A−2と表記され、前記目標物体Bは、1つのカテゴリに分類され、B−3と表記される。
ステップS105:前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練する。
目標物体の前記歪んだ魚眼画像の異なる領域における歪みの程度が異なり、目標物体を前記領域及び目標物体のカテゴリに応じて分類して物体認識ニューラルネットワークに入力して訓練し、分類を行わず訓練を直接行う物体認識ニューラルネットワークと比較して、本発明の実施例は、歪みの程度に応じて目標物体を分類し、目標物体認識ニューラルネットワークの歪んだ魚眼画像に基づく認識効果を高めることができる。
本ステップでは、取得した大量の物体のカテゴリ及び対応する歪んだ魚眼画像を物体認識ニューラルネットワークに入力して訓練を行い、訓練済みの物体認識ニューラルネットワークを得る。前記目標物体認識ニューラルネットワークは、現在の主流のニューラルネットワークであり、具体的なニューラルネットワークのカテゴリは、ここに限定されず、前記訓練済みの物体認識ニューラルネットワークは、ニューラルネットワークを訓練する際に用いられる各目標物体のカテゴリを認識することができる。
本発明の実施例では、歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成し、前記領域ごとに目標物体を分類し、前記歪んだ魚眼画像と前記目標物体の前記カテゴリを物体認識ニューラルネットワークに入力して訓練し、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは歪んだ魚眼画像における目標物体を直接認識することができる。
1つの実施例にて提供される物体認識方法は、入力された歪んだ魚眼画像を受信するステップと、上記の物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含む。
上記の物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークは、歪んだ魚眼画像に含まれる目標物体の物体情報の認識により優れた認識効果を有するため、当該物体認識ニューラルネットワークを用いて歪んだ魚眼画像に含まれる目標物体を認識する場合、物体認識の認識効果を高めることができる。
図3は、本発明の実施例の物体認識ニューラルネットワークの訓練装置の機能ブロック図を示し、図3に示すように、前記装置は、取得モジュール301と、画成モジュール302と、決定モジュール303と、分類モジュール304と、訓練モジュール305とを含み、そのうち、前記取得モジュール301は、少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するために用いられ、画成モジュール302は、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するために用いられ、決定モジュール303は、各前記目標物体が属する領域を決定するために用いられ、分類モジュール304は、各前記目標物体が属する領域に基づき、各前記目標物体を分類するために用いられ、訓練モジュール305は、前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するために用いられる。
ここで、前記決定モジュールは、設置ユニット3031と、計算ユニット3032と、取得ユニット3033と、判断ユニット3034と、第1の決定ユニット3035と、第2の決定ユニット3036とを含み、そのうち、前記設置ユニット3031は、前記歪んだ魚眼画像における各目標物体に外接枠を設置するために用いられ、前記計算ユニット3032は、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するために用いられ、前記取得ユニット3033は、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するために用いられ、前記判断ユニット3034は、前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断するために用いられ、前記第1の決定ユニット3035は、前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とするために用いられ、前記第2の決定ユニット3036は、前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするために用いられる。
ここで、前記分類モジュール304は、同一の領域に属する同一の目標物体を1つのカテゴリに分類するための分類ユニット3041を含む。
ここで、前記同一の領域内において、前記目標物体の歪みの程度は同じである。
1つの実施例にて提供される物体認識装置は、受信モジュールと認識モジュールと、を含み、そのうち、前記受信モジュールは、入力された歪んだ魚眼画像を受信するために用いられ、前記認識モジュールは、前記物体認識ニューラルネットワークの訓練装置により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るために用いられる。
本発明の実施例では、歪みの程度に応じて歪んだ魚眼画像を画成モジュールによりいくつかの領域に画成し、各前記領域の目標物体を画成モジュールにより分類し、前記歪んだ魚眼画像及び前記目標物体の前記カテゴリを訓練モジュールにより物体認識ニューラルネットワークに入力して訓練することで、訓練済みの物体認識ニューラルネットワークを得て、前記訓練済みの物体認識ニューラルネットワークは、歪んだ魚眼画像における目標物体を直接認識することができる。
本発明の実施例にて提供される不揮発性のコンピュータ読み取り可能な記憶媒体は、少なくとも1つの実行可能な命令を記憶しており、当該コンピュータ実行可能な命令は、上記の任意の方法の実施例における物体認識ニューラルネットワークの訓練方法を実行することができる。
図4は、本発明のコンピューティングデバイスの実施例の構成概略図であり、本発明の具体的な実施例は、コンピューティングデバイスの具体的な実現を限定するものではない。
図4に示すように、当該コンピューティングデバイスは、プロセッサ(processor)402と、通信インタフェース(Communications Interface)404と、メモリ(memory)406と、通信バス408とを含む。
そのうち、プロセッサ402と通信インタフェース404とメモリ406とは通信バス408を介して相互に通信を行う。
通信インタフェース404は、クライアント又は他のサーバなど、他のデバイスのネットワークエレメントと通信するために用いられる。
プロセッサ402は、プログラム410を実行するために用いられ、具体的には、上記の物体認識ニューラルネットワークの訓練方法の実施例における関連ステップを実行することができる。
具体的には、プログラム410は、コンピュータ動作命令を含むプログラムコードを含んでもよい。
プロセッサ402は、中央プロセッサCPU、特定用途向け集積回路(Application Specific Integrated Circuit)、又は本発明の実施例を実施するように構成された1つ以上の集積回路であってもよい。コンピューティングデバイスが含む1つ以上のプロセッサは、1つ以上のCPUのような同じタイプのプロセッサであってもよいし、1つ以上のCPU及び1つ以上のASICのような異なるタイプのプロセッサであってもよい。
メモリ406は、プログラム410を格納するために用いられる。メモリ406は、高速RAMメモリを含んでもよいし、また、少なくとも1つの磁気ディスクストレージのような不揮発性メモリ(non−volatile memory)を含んでもよい。
プログラム410は具体的にはプロセッサ402に以下の動作を実行させるために用いられる。
少なくとも1つの目標物体を含む歪んだ魚眼画像を取得し、前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成し、前記目標物体が属する領域を決定し、前記目標物体が属する領域に基づき、前記少なくとも1つの目標物体を分類し、前記歪んだ魚眼画像及び前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練する。
好ましい形態では、プログラム410は、具体的には、プロセッサ402に以下の動作をさらに実行させるために用いられる。
前記歪んだ魚眼画像における各目標物体に外接枠を設置し、各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算し、各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得し、前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断し、前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とし、前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とする。
好ましい形態では、プログラム410は、具体的には、プロセッサ402に以下の動作をさらに実行させるために用いられる。前記目標物体が属する領域に基づき、前記少なくとも1つの目標物体を分類することは、同一の領域に属する同一の目標物体を1つのカテゴリに分類することを含む。
好ましい形態では、前記同一の領域内において、前記目標物体の歪みの程度は同じである。
好ましい形態では、プログラム410は、具体的には、プロセッサ402に以下の動作をさらに実行させるために用いられる。入力された歪んだ魚眼画像を受信し、物体認識ニューラルネットワークの訓練方法により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得る。
本明細書で提供されるアルゴリズム及び表示は、特定のコンピュータ、仮想システム、又は他のデバイスに固有の関連性を有しない。各種の汎用システムは、ここでの教示と共に用いることもできる。以上の記述に基づき、このようなシステムを構成するために必要な構成は明らかである。さらに、本発明は、いかなる特定のプログラミング言語にも向けられていない。なお、本明細書に記載された本発明の内容は、様々なプログラミング言語を用いて実現されてもよく、特定の言語に関する上記の記述は、本発明の最適な実施例を開示するために行われることが理解されたい。
ここにて提供される本明細書では、多数の具体的な詳細が説明される。しかしながら、本発明の実施例は、これらの具体的な詳細なしに実施できることが理解される。いくつかの実施例では、本明細書の理解を曖昧にしないように、周知の方法、構造、及び技術は詳細に示されていない。
同様に、本開示を簡潔にし、様々な発明の態様のうちの1つ以上を分かりやすくするために、本発明の例示的な実施形態についての上記の記述において、本発明の様々な特徴は、単一の実施例、図面、又はそれらの記述に一緒にグループ化される場合があることが理解されたい。しかしながら、この開示された方法は、保護を要求する本発明は、各請求項に明示的に記載された特徴よりも多い特徴を要求するという意図を反映するものとして解釈されるべきではない。むしろ、特許請求の範囲が反映するように、発明の態様は、上記に開示された単一の実施例の全ての特徴よりも少ないことである。そのため、具体的な実施例に従う特許請求の範囲は当該具体的な実施例に明示的に組み込まれ、各請求項自体は本発明の別個の実施例として機能する。
当業者であれば、実施例におけるデバイスのモジュールを自己適応的に変更し、当該実施例とは異なる1つ以上のデバイスに設置してもよいことを理解すべきである。実施例におけるモジュール、ユニット又はアセンブリは、1つのモジュール、ユニット又はアセンブリとして構成されてもよく、また、複数のサブモジュール、サブユニット又はサブアセンブリに分割されてもよい。そのような特徴及び/又はプロセス又はユニットの少なくともいくつかが相互に排他的であることを除き、本明細書(添付の特許請求の範囲、要約書、及び図面を含む)に開示されるすべての特徴、ならびにそのように開示される任意の方法又はデバイスのすべてのプロセス若しくはユニットは、任意の組み合わせで組み合わされてもよい。別段の明確な記載がない限り、本明細書(添付の特許請求の範囲、要約書、及び図面を含む)に開示される各特徴は、同一、同等、又は類似の目的を提供する代替的な特徴によって置き換えることができる。
さらに、当業者であれば、本明細書に記載のいくつかの実施例は、他の特徴ではなく、他の実施例に含まれる特定の特徴を含むが、異なる実施例の特徴の組み合わせは、本発明の範囲内にあり、異なる実施例を形成することを意味することを理解することができる。例えば、以下の特許請求の範囲において、保護を要求する実施例のいずれかの1つは、任意の組み合わせで使用されてもよい。
本発明の様々な部材の実施例は、ハードウェアで、1つ若しくは複数のプロセッサ上で動作するソフトウェアモジュールで、又はそれらの組み合わせで実現することができる。当業者であれば、実施中に、マイクロプロセッサ又はデジタルシグナルプロセッサ(DSP)を使用して、本発明の実施例による物体認識ニューラルネットワークの訓練装置の一部又は全部の部材の一部又は全部の機能を実現できることを理解すべきである。本発明はさらに、本明細書に記載の方法の一部又は全部を実行するためのデバイス又は装置のプログラム(例えば、コンピュータプログラム及びコンピュータプログラム製品)として実現できる。本発明を実現するこのようなプログラムは、コンピュータ読み取り可能な媒体に記憶されるか、又は1つ又は複数の信号の形態を有してもよい。そのような信号は、インターネットウェブサイトからダウンロードして取得することができ、又は、キャリアシグナル上で提供することができ、又は、任意の他の形態で提供することができる。
なお、上記の実施例は本発明を説明するもので、本発明を限定するものではなく、当業者であれば、特許請求の範囲に記載された本発明の要旨から逸脱することなく変形例を設計することが可能である。請求項において、括弧内の任意の参照符号は、請求項を限定するように構成されるべきではない。単語「含む」は、請求項に列挙されていない要素又はステップの存在を除外しない。要素の前に位置する単語「1」又は「1つ」は、そのような要素が複数存在することを除外しない。本発明は、いくつかの異なる要素を備えるハードウェア、及び適切にプログラミングされたコンピュータによって実現される。いくつかの装置を列挙する請求項において、これらの装置のいくつかは、同じハードウェア項目によって具現化される。第1、第2、第3等の単語の使用は、順序を示していない。これらの単語は、名前として解釈することができる。

Claims (12)

  1. 物体認識ニューラルネットワークの訓練方法であって、歪んだ魚眼画像に基づき、
    少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するステップと、
    前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するステップと、
    各前記目標物体が属する領域を決定するステップと、
    各前記目標物体が属する領域に応じて各前記目標物体を分類するステップと、
    前記歪んだ魚眼画像及び各前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するステップと、を含むことを特徴とする物体認識ニューラルネットワークの訓練方法。
  2. 各前記目標物体が属する領域を決定するステップは、
    前記歪んだ魚眼画像における各目標物体に外接枠を設置するステップと、
    各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するステップと、
    各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するステップと、
    前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断するステップと、
    前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とするステップと、
    前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 各前記目標物体が属する領域に基づき、各前記目標物体を分類することは、
    同一の領域に属する同一の目標物体を1つのカテゴリに分類することを含むことを特徴とする請求項1に記載の方法。
  4. 前記同一の領域内において、前記目標物体の歪みの程度は同じであることを特徴とする請求項1−3のいずれか一項に記載の方法。
  5. 入力された歪んだ魚眼画像を受信するステップと、
    請求項1−4のいずれか一項により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るステップと、を含むことを特徴とする物体認識方法。
  6. 物体認識ニューラルネットワークの訓練装置であって、
    少なくとも1つの目標物体を含む歪んだ魚眼画像を取得するための取得モジュールと、
    前記歪んだ魚眼画像を歪みの程度に応じていくつかの領域に画成するための画成モジュールと、
    各前記目標物体が属する領域を決定するための決定モジュールと、
    各前記目標物体が属する領域に基づき、各前記目標物体を分類するための分類モジュールと、
    前記歪んだ魚眼画像及び前記目標物体が属するカテゴリを物体認識ニューラルネットワークに入力して、前記物体認識ニューラルネットワークを訓練するための訓練モジュールと、を含むことを特徴とする物体認識ニューラルネットワークの訓練装置。
  7. 前記決定モジュールは、
    前記歪んだ魚眼画像における各目標物体に外接枠を設置するための設置ユニットと、
    各前記目標物体の外接枠と各領域との重なり面積をそれぞれ計算するための計算ユニットと、
    各前記目標物体に対応する前記目標物体の外接枠との重なり面積が最大となる領域である最大の重なり領域を取得するための取得ユニットと、
    前記目標物体に対応する最大の重なり領域の数が1つよりも多いか否かを判断するための判断ユニットと、
    前記目標物体に対応する最大の重なり領域の数が1つである場合、前記最大の重なり領域を前記目標物体が属する領域とするための第1の決定ユニットと、
    前記目標物体に対応する最大の重なり領域の数が1つよりも多い場合、前記最大の重なり領域から、最大の重なり領域において前記歪んだ魚眼画像の中心に最も近い領域である最適な領域を選択して、前記最適な領域を前記目標物体が属する領域とするための第2の決定ユニットとを含むことを特徴とする請求項6に記載の装置。
  8. 前記分類モジュールは、同一の領域に属する同一の目標物体を1つのカテゴリに分類するための分類ユニットを含むことを特徴とする請求項6に記載の装置。
  9. 前記同一の領域内において、前記目標物体の歪みの程度は同じであることを特徴とする請求項6−8のいずれか一項に記載の装置。
  10. 物体認識装置であって、
    入力された歪んだ魚眼画像を受信するための受信モジュールと、
    請求項1−4のいずれか一項により得られた物体認識ニューラルネットワークに基づき、前記歪んだ魚眼画像を認識し、前記歪んだ魚眼画像に含まれる目標物体の物体情報を得るための認識モジュールと、を含むことを特徴とする物体認識装置。
  11. コンピューティングデバイスであって、プロセッサと、メモリと、通信インタフェースと、通信バスとを含み、前記プロセッサと前記メモリと前記通信インタフェースは前記通信バスを介して相互に通信を行い、前記メモリは、少なくとも1つの実行可能な命令を格納するために用いられ、前記少なくとも1つの実行可能な命令は、請求項1−4のいずれか一項に記載の物体認識ニューラルネットワークの訓練方法に対応する動作を前記プロセッサに実行させることを特徴とするコンピューティングデバイス。
  12. コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体は、少なくとも1つの実行可能な命令を記憶しており、前記実行可能な命令は、請求項1−4のいずれか一項に記載の物体認識ニューラルネットワークの訓練方法に対応する動作をプロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2020003251A 2019-01-10 2020-01-10 物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス Active JP6947856B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910022601.5 2019-01-10
CN201910022601.5A CN109840883B (zh) 2019-01-10 2019-01-10 一种训练物体识别神经网络的方法、装置及计算设备

Publications (2)

Publication Number Publication Date
JP2020113274A JP2020113274A (ja) 2020-07-27
JP6947856B2 true JP6947856B2 (ja) 2021-10-13

Family

ID=66883724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020003251A Active JP6947856B2 (ja) 2019-01-10 2020-01-10 物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス

Country Status (3)

Country Link
US (1) US11281939B2 (ja)
JP (1) JP6947856B2 (ja)
CN (1) CN109840883B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021102911A1 (zh) * 2019-11-29 2021-06-03 深圳市大疆创新科技有限公司 一种图像检测方法、图像检测设备及存储介质
CN111275020A (zh) * 2020-03-12 2020-06-12 青梧桐有限责任公司 一种房间状态识别方法
CN112001229B (zh) * 2020-07-09 2021-07-20 浙江大华技术股份有限公司 视频行为识别的方法、装置、系统和计算机设备
CN112733677B (zh) * 2020-12-31 2021-11-30 桂林海威科技股份有限公司 一种人流量统计系统及方法
CN112784815B (zh) * 2021-02-19 2024-05-03 苏州科知律信息科技有限公司 一种无人机巡航目标识别方法、装置及云服务器
CN113791055B (zh) * 2021-08-17 2024-05-14 北京农业信息技术研究中心 一种鱼肉新鲜度检测方法及系统
CN114004986A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 图像处理方法、检测模型的训练方法、装置、设备和介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5739722B2 (ja) * 2011-04-26 2015-06-24 株式会社日立情報通信エンジニアリング 物体認識方法及び認識装置
US9251437B2 (en) * 2012-12-24 2016-02-02 Google Inc. System and method for generating training cases for image classification
DE102015205502A1 (de) * 2015-03-26 2016-09-29 Mando Corporation Bildverarbeitungsverfahren und Bildverarbeitungssystem zum Extrahieren verzerrter kreisförmiger Bildelemente
EP3446281A1 (en) * 2016-04-21 2019-02-27 OSRAM GmbH Training method and detection method for object recognition
US10733697B2 (en) * 2016-12-27 2020-08-04 Intel IP Corporation Convolutional neural network for wide-angle camera images
CN108932697B (zh) * 2017-05-26 2020-01-17 杭州海康威视数字技术股份有限公司 一种失真图像的去失真方法、装置及电子设备
JP6799325B2 (ja) * 2017-05-29 2020-12-16 地方独立行政法人東京都立産業技術研究センター 画像補正装置、画像補正方法、注目点認識装置、注目点認識方法及び異常検知システム
US10019654B1 (en) * 2017-06-28 2018-07-10 Accenture Global Solutions Limited Image object recognition
TWI657378B (zh) * 2017-09-22 2019-04-21 財團法人資訊工業策進會 複數非線性扭曲鏡頭下之目標追蹤方法及系統

Also Published As

Publication number Publication date
US11281939B2 (en) 2022-03-22
JP2020113274A (ja) 2020-07-27
CN109840883A (zh) 2019-06-04
CN109840883B (zh) 2022-12-23
US20200320342A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
JP6947856B2 (ja) 物体認識ニューラルネットワークの訓練方法、装置及びコンピューティングデバイス
JP7085726B2 (ja) ロボットの目標物体把持位置の検出方法
CN108268869B (zh) 目标检测方法、装置及系统
US11398084B2 (en) Method, apparatus and application system for extracting a target feature
KR102399017B1 (ko) 이미지 생성 방법 및 장치
CN109815843B (zh) 图像处理方法及相关产品
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
CN108389155B (zh) 图像处理方法、装置及电子设备
CN110956060A (zh) 动作识别、驾驶动作分析方法和装置及电子设备
CN108346130B (zh) 图像处理方法、装置及电子设备
WO2020233178A1 (zh) 一种图像处理方法、装置及电子设备
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN107959798B (zh) 视频数据实时处理方法及装置、计算设备
WO2022082999A1 (zh) 一种物体识别方法、装置、终端设备及存储介质
CN108399599B (zh) 图像处理方法、装置及电子设备
CN110991385A (zh) 一种识别船只行驶轨迹的方法、装置及电子设备
TWI684918B (zh) 臉部辨識系統以及加強臉部辨識方法
CN107153806B (zh) 一种人脸检测方法及装置
CN113095228B (zh) 图像中的目标检测方法、装置及计算机可读存储介质
CN109981967B (zh) 用于智能机器人的拍摄方法、装置、终端设备及介质
CN115719314A (zh) 一种去拖影方法、去拖影装置及电子设备
US20220012491A1 (en) Contextual usage control of cameras
CN111383199B (zh) 图像处理方法、装置、计算机可读存储介质及电子设备
CN117441195A (zh) 纹理补全
CN114037741A (zh) 一种基于事件相机的自适应目标检测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210309

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210916

R150 Certificate of patent or registration of utility model

Ref document number: 6947856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350