JP2018147431A - 画像認識装置及び画像認識方法 - Google Patents

画像認識装置及び画像認識方法 Download PDF

Info

Publication number
JP2018147431A
JP2018147431A JP2017044867A JP2017044867A JP2018147431A JP 2018147431 A JP2018147431 A JP 2018147431A JP 2017044867 A JP2017044867 A JP 2017044867A JP 2017044867 A JP2017044867 A JP 2017044867A JP 2018147431 A JP2018147431 A JP 2018147431A
Authority
JP
Japan
Prior art keywords
feature map
feature
image
interest
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017044867A
Other languages
English (en)
Other versions
JP6787196B2 (ja
Inventor
文平 田路
Bunpei Taji
文平 田路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017044867A priority Critical patent/JP6787196B2/ja
Publication of JP2018147431A publication Critical patent/JP2018147431A/ja
Application granted granted Critical
Publication of JP6787196B2 publication Critical patent/JP6787196B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】畳み込みニューラルネットワークを用いる画像認識を改善する。
【解決手段】取得部(RPN層54)は、複数段のうち第1の所定の段(5段目)で生成された特徴マップMである第1特徴マップを用いて、画像Imに写っている物体OBを検出し、物体OBの第1特徴マップ上での位置情報PIを取得する。補正部58は、第1の所定の段(5段目)よりも前にある第2の所定の段(3段目)で生成された特徴マップMである第2特徴マップの解像度と対応するように、位置情報PIを補正する。抽出部(RoIプーリング層55)は、補正された位置情報PIで示される位置にある関心領域Rを第2特徴マップに設定し、物体OBに関する特徴を示す特徴情報FIを関心領域Rから抽出する。推定部(全結合層56)は、特徴情報FIを用いて、物体OBの予め定められた部位の位置を推定する。
【選択図】図2

Description

本発明は、深層学習(deep learning)を用いて、画像認識をする技術に関する。
深層学習の一種として、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)がある。CNNは、主に画像認識(例えば、コンピュータービジョン)で利用されることが期待されている。
CNNを用いる画像認識の一例として、例えば、非特許文献1に開示された物体検出がある。これは、画像を背景と背景以外とに分け、背景以外の領域を物体候補領域として検出し、検出した物体候補領域を切り出し、切り出した物体候補領域が何であるかを識別している(例えば、人間、馬)。非特許文献1は、これら一連の処理に、R−CNN(Regions with CNN)が用いられる場合、Fast R−CNNが用いられる場合、Faster R−CNNが用いられる場合について説明をし、Fast R−CNNが、R−CNNよりも上記一連の処理を速くすることができ、Faster R−CNNが、Fast R−CNNよりも上記一連の処理を速くすることができることを説明している。
CNNを用いる画像認識の他の例として、例えば、非特許文献2に開示された人物の姿勢推定がある。これは、画像から切り出された人物領域に対して、CNNを適用することにより、その人物の関節の位置を推定し、関節の位置からその人物の姿勢を推定している。
福井宏、他3名、 ″Deep Learning を用いた歩行者検出の研究動向″、[online ]、電子情報通信学会、p.7、[平成29年1月30日検索]、インターネット〈URL:http://www.vision.cs.chubu.ac.jp/MPRG/F_group/F182_fukui2016.pdf〉 ″DeepPose:Human Pose Estimation via Deep Neural Networks″、[online ]、[平成29年1月30日検索]、インターネット〈URL:http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Toshev_DeepPose_Human_Pose_2014_CVPR_paper.pdf〉
本発明者は、CNNを用いる画像認識で人物の姿勢推定をする場合に、Faster R−CNNをそのまま適用すると、人物の姿勢推定の精度が低くなることを見出した。従って、CNNを用いる画像認識の更なる改善が求められる。
本発明の目的は、畳み込みニューラルネットワークを用いる画像認識を改善することができる画像認識装置及び画像認識方法を提供することである。
本発明の第1の局面に係る画像認識装置は、畳み込みニューラルネットワークを用いる画像認識装置であって、画像を複数段で処理し、最初の段から最後の段へ向かうに従って解像度が低くなる特徴マップを生成する生成部と、前記複数段のうち第1の所定の段で生成された前記特徴マップである第1特徴マップを用いて、前記画像に写っている物体を検出し、前記物体の前記第1特徴マップ上での位置情報を取得する取得部と、前記第1の所定の段よりも前にある第2の所定の段で生成された前記特徴マップである第2特徴マップの解像度と対応するように、前記位置情報を補正する補正部と、補正された前記位置情報で示される位置にある関心領域を前記第2特徴マップに設定し、前記物体に関する特徴を示す特徴情報を前記関心領域から抽出する抽出部と、前記特徴情報を用いて、前記物体の予め定められた部位の位置を推定する推定部と、を備える。
関心領域は、画像に写っている物体の範囲に相当するので、物体の特徴に関する特徴情報を含む。関心領域が設定される特徴マップは、位置情報の取得に用いられた第1特徴マップではなく、第1特徴マップよりも解像度が高い第2特徴マップである。取得部が取得した位置情報は、物体の第1特徴マップ上での位置情報なので、補正部は、第2特徴マップの解像度と対応するように、位置情報を補正する。
特徴マップは、解像度が低くなるに従って、位置に関する情報を失う。第2特徴マップは、第1特徴マップよりも、解像度が高いので、第2特徴マップは、第1特徴マップよりも、位置に関する情報を多く含む。従って、第2特徴マップに設定された関心領域から抽出された特徴情報は、第1特徴マップに設定された関心領域から抽出された特徴情報と比べて、位置に関する情報を多く含む。よって、第2特徴マップに設定された関心領域から抽出された特徴情報を用いれば、物体(例えば、人物)の予め定められた部位(例えば、関節)の位置を推定することができる。この推定は、いわゆる回帰分析である。
以上より、本発明の第1局面に係る画像認識装置によれば、畳み込みニューラルネットワークを用いて、物体の予め定められた部位の位置を推定することができるので、畳み込みニューラルネットワークを用いる画像認識を改善することができる。
上記構成において、前記取得部は、前記画像に写っている前記物体の範囲のサイズが予め定められた下限値よりも大きいとき、前記物体を検出し、前記画像認識装置は、前記関心領域のサイズの下限値を予め記憶しており、前記物体の範囲のサイズの下限値を、前記第2特徴マップの解像度に対応させた値が、前記関心領域のサイズの下限値よりも大きくなる解像度を有する前記特徴マップを、前記第2特徴マップとして選択する選択部を、さらに備える。
関心領域のサイズが小さすぎると、特徴情報には位置に関する情報が含まれなくなるので、位置に関する情報が特徴情報に含まれるように、関心領域のサイズの下限値が予め定められている。
最初の段から最後の段へ向かうに従って、特徴マップの解像度が低くなるので、画像に写っている物体の範囲(検出対象となる範囲)も、最初の段から最後の段へ向かうに従って小さくなる。上述したように、画像に写っている物体の範囲は、関心領域に相当する。よって、この範囲が関心領域のサイズの下限値より小さくなると、特徴情報には位置に関する情報が含まれなくなる。
そこで、選択部は、画像に写っている物体の範囲のサイズの下限値(例えば、64画素×64画素)を、第2特徴マップの解像度に対応させた値(例えば、8画素×8画素)が、関心領域のサイズの下限値(例えば、7画素×7画素)よりも大きくなる解像度を有する特徴マップを、第2特徴マップとして選択する。
上記構成において、前記選択部は、前記物体の範囲のサイズの下限値を、前記第2特徴マップの解像度に対応させた値が、前記関心領域のサイズの下限値よりも大きくなる解像度を有する前記特徴マップのうち、解像度が最も低い前記特徴マップを前記第2特徴マップとして選択する。
畳み込みニューラルネットワークでは、解像度が低い特徴マップを用いるほうが、物体の識別の精度を高めることができる。そこで、この構成によれば、選択可能な特徴マップ(例えば、112画素×112画素の特徴マップ、56画素×56画素の特徴マップ、28画素×28画素の特徴マップ)のうち、解像度が最も低い特徴マップ(28画素×28画素の特徴マップ)を第2特徴マップとして選択する。
上記構成において、前記第1の所定の段は、前記最後の段である。
複数段のうち、第1特徴マップが生成される段は、一般的には、最後の段である。
上記構成において、前記取得部は、前記画像に写っている人物と前記人物以外とにおいて、前記人物を前記物体として検出し、前記推定部は、前記人物の関節の位置を前記部位の位置として推定する。
この構成は、画像から検出された人物の関節の位置を推定するので、この人物の姿勢を推定することが可能となる。
本発明の第2の局面に係る画像認識方法は、畳み込みニューラルネットワークを用いる画像認識方法であって、画像を複数段で処理し、最初の段から最後の段へ向かうに従って解像度が低くなる特徴マップを生成する生成ステップと、前記複数段のうち第1の所定の段で生成された前記特徴マップである第1特徴マップを用いて、前記画像に写っている物体を検出し、前記物体の前記第1特徴マップ上での位置情報を取得する取得ステップと、前記第1の所定の段よりも前にある第2の所定の段で生成された前記特徴マップである第2特徴マップの解像度と対応するように、前記位置情報を補正する補正ステップと、補正された前記位置情報で示される位置にある関心領域を前記第2特徴マップに設定し、前記物体に関する特徴を示す特徴情報を前記関心領域から抽出する抽出ステップと、前記特徴情報を用いて、前記物体の予め定められた部位の位置を推定する推定ステップと、を備える。
本発明の第2の局面に係る画像認識方法は、本発明の第1の局面に係る画像認識装置を方法の観点から規定しており、本発明の第1の局面に係る画像認識装置と同様の作用効果を有する。
本発明によれば、畳み込みニューラルネットワークを用いる画像認識を改善することができる。
実施形態に係る画像認識システムを示す機能ブロック図である。 CNN部の機能ブロック図である。 CNN部に備えられる入力層に入力される画像の一例を説明する説明図である。 CNN部において、畳み込み層とプーリング層とで処理された特徴マップを説明する説明図である。 物体の範囲を示す点線が付加された画像を説明する説明図である。 実施形態において、RPN層での処理を説明する説明図である。 位置情報の補正を説明する説明図である。 実施形態において、RoIプーリング層での処理を説明する説明図である。 RoIプーリングにおいて、固定サイズの特徴マップを生成する処理を説明する説明図である。 Faster R−CNNの一例を示す機能ブロック図である。 Faster R−CNNに備えられる入力層に入力される画像の一例を説明する説明図である。 図10に示すFaster R−CNNにおいて、畳み込み層とプーリング層とで処理された特徴マップを説明する説明図である。 図10に示すFaster R−CNNにおいて、RPN層での処理を説明する説明図である。 図10に示すFaster R−CNNにおいて、RoIプーリング層での処理を説明する説明図である。
以下、図面に基づいて本発明の実施形態を詳細に説明する。各図において、同一符号を付した構成は、同一の構成であることを示し、その構成について、既に説明している内容については、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し(例えば、畳み込み層52)、個別の構成を指す場合には添え字を付した参照符号で示す(例えば、畳み込み層52−1)。
実施形態は、Faster R−CNNの改良である。まず、Faster R−CNNについて説明する。図10は、Faster R−CNNの一例を示す機能ブロック図である。Faster R−CNN100は、入力層51と、畳み込み層52と、プーリング層53と、RPN(Region Proposal Network)層54と、RoI(Region of Interest)プーリング層55と、全結合層56と、出力層57と、を備える。
入力層51は、Faster R−CNN100の外部から送られてきた画像Imを受け付け、画像Imを畳み込み層52−1へ送る。図11は、Faster R−CNN100に備えられる入力層51に入力される画像Imの一例を説明する説明図である。この画像Imには、2つの物体OB−1,OB−2が写っている。物体OB−1は、人物であり、物体OB−2は、犬とする。画像Imのサイズは、例えば、224画素×224画素とする。
図10を参照して、畳み込み層52とプーリング層53との組は、5つとする。これらの組の数は、複数であれよく、5に限定されない。畳み込み層52−1とプーリング層53−1とで1段目の処理をする。畳み込み層52−2とプーリング層53−2とで2段目の処理をする。畳み込み層52−3とプーリング層53−3とで3段目の処理をする。畳み込み層52−4とプーリング層53−4とで4段目の処理をする。畳み込み層52−5とプーリング層53−5とで5段目の処理をする。
畳み込み層52が用いるフィルタの数は、10とする。畳み込み層52が実行する畳み込みは、画像Im及び特徴マップMのサイズを変えないとする。フィルタの数は、複数であればよく、10に限定されない。画像Im及び特徴マップMのサイズを小さくする畳み込みでもよい。畳み込み層52−1は、画像Imに対して畳み込みをすることにより、特徴マップMを生成する。畳み込み層52−2〜52−5は、プーリング処理がされた特徴マップMに対して畳み込み処理をすることにより新たな特徴マップMを生成する。
プーリングは、特徴マップMの位置に対する感度を低くする処理であり、言い換えれば、特徴マップMの解像度を低くする処理である。プーリング層53が実行するプーリングは、最大プーリングとする。フィルタのサイズは、2×2とする。フィルタのストライドは、2とする。このプーリングにより、特徴マップMの縦サイズ及び横サイズがそれぞれ半分になる。プーリングは、最大プーリングに限定されず、例えば、平均プーリングでもよい。フィルタのサイズ、及び、フィルタのストライドは、上記数に限定されない。
図12は、図10に示すFaster R−CNN100において、畳み込み層52とプーリング層53とで処理された特徴マップMを説明する説明図である。C層は、畳み込み層52を意味し、P層は、プーリング層53を意味する。図10及び図12を参照して、畳み込み層52−1は、入力層51から送られてきた画像Imに対して、畳み込み処理をする。これにより、10個の特徴マップM−1〜M−10が生成される。これらの特徴マップMのサイズは、画像Imのサイズと同じであり、224画素×224画素である。プーリング層53−1は、10個の特徴マップM−1〜M−10のそれぞれに対して、プーリングをする。これにより、10個の特徴マップM−11〜M−20が生成される。これらの特徴マップMのサイズは、特徴マップM−1〜M−10のサイズより小さくなり、112画素×112画素である。
畳み込み層52−2は、10個の特徴マップM−11〜M−20のそれぞれに対して、畳み込み処理をする。これにより、10個の特徴マップM−21〜M−30が生成される。これらの特徴マップMのサイズは、特徴マップM−11〜M−20のサイズと同じであり、112画素×112画素である。プーリング層53−2は、10個の特徴マップM−21〜M−30のそれぞれに対して、プーリングをする。これにより、10個の特徴マップM−31〜M−40が生成される。これらの特徴マップMのサイズは、特徴マップM−21〜M−30のサイズより小さくなり、56画素×56画素である。
畳み込み層52−3は、10個の特徴マップM−31〜M−40のそれぞれに対して、畳み込み処理をする。これにより、10個の特徴マップM−41〜M−50が生成される。これらの特徴マップMのサイズは、特徴マップM−31〜M−40のサイズと同じであり、56画素×56画素である。プーリング層53−3は、10個の特徴マップM−41〜M−50のそれぞれに対して、プーリングをする。これにより、10個の特徴マップM−51〜M−60が生成される。これらの特徴マップMのサイズは、特徴マップM−41〜M−50のサイズより小さくなり、28画素×28画素である。
畳み込み層52−4は、10個の特徴マップM−51〜M−60のそれぞれに対して、畳み込み処理をする。これにより、10個の特徴マップM−61〜M−70が生成される。これらの特徴マップMのサイズは、特徴マップM−51〜M−60のサイズと同じであり、28画素×28画素である。プーリング層53−4は、10個の特徴マップM−61〜M−70のそれぞれに対して、プーリングをする。これにより、10個の特徴マップM−71〜M−80が生成される。これらの特徴マップMのサイズは、特徴マップM−61〜M−70のサイズより小さくなり、14画素×14画素である。
畳み込み層52−5は、10個の特徴マップM−71〜M−80のそれぞれに対して、畳み込み処理をする。これにより、10個の特徴マップM−81〜M−90が生成される。これらの特徴マップMのサイズは、特徴マップM−71〜M−80のサイズと同じであり、14画素×14画素である。プーリング層53−5は、10個の特徴マップM−81〜M−90のそれぞれに対して、プーリングをする。これにより、10個の特徴マップM−91〜M−100が生成される。これらの特徴マップMのサイズは、特徴マップM−81〜M−90のサイズより小さくなり、7画素×7画素である。
図10を参照して、プーリング層53−5は、特徴マップM−91〜M−100を、RPN層54及びRoIプーリング層55へ送る。
図13は、図10に示すFaster R−CNN100において、RPN層54での処理を説明する説明図である。RPN層54は、特徴マップM−91〜M−100の特徴をもとに、図11に示す物体OB−1,OB−2を検出し、物体OB−1の位置情報PI−1、及び、物体OB−2の位置情報PI−2を取得する。
位置情報PI−1は、特徴マップM−91〜M−100のそれぞれに設定される関心領域R−1(図14)の位置を示す情報である。関心領域R−1は、図11に示す画像Imに写された物体OB−1を囲む範囲に相当する。位置情報PI−1は、例えば、座標C1=(x1、y1)、座標C2=(x2、y2)とする。関心領域R−1は、座標(x1、y1)、座標(x1、y2)、座標(x2、y1)、及び、座標(x2、y2)により規定される矩形の領域となる。
位置情報PI−2は、特徴マップM−91〜M−100のそれぞれに設定される関心領域R−2(図14)の位置を示す情報である。関心領域R−2は、図11に示す画像Imに写された物体OB−2を囲む範囲に相当する。位置情報PI−2は、例えば、座標C3=(x3、y3)、座標C4=(x4、y4)とする。関心領域R−2は、座標(x3、y3)、座標(x3、y4)、座標(x4、y3)、及び、座標(x4、y4)により規定される矩形の領域となる。
図10を参照して、RPN層54は、位置情報PI−1,PI−2をRoIプーリング層55へ送る。図14は、図10に示すFaster R−CNN100において、RoIプーリング層55での処理を説明する説明図である。RoIプーリングは、関心領域Rを抽出し、これを固定サイズ(例えば、7画素×7画素)の特徴マップにする処理である。詳しくは、RoIプーリング層55は、特徴マップM−91〜M−100のそれぞれに対して、位置情報PI−1(座標C1、座標C2)で示される位置にある関心領域R−1を設定し、位置情報PI−2(座標C3、座標C4)で示される位置にある関心領域R−2を設定する。RoIプーリング層55は、関心領域R−1、関心領域R−2のそれぞれに対して、プーリングをすることにより、物体OB−1に関する特徴を示す特徴情報FI−1〜FI−10、及び、物体OB−2に関する特徴を示す特徴情報FI−11〜FI−20を、特徴マップM−91〜M−100のそれぞれから抽出する。抽出されたこれらの特徴情報FIは、特徴マップであり、プーリング処理により、全て同じサイズに整形される(ここでは、7画素×7画素)。
図10を参照して、RoIプーリング層55は、特徴情報FI−1〜FI−20を全結合層56へ送る。全結合層56は、これらの特徴情報FIを用いて、物体OBが何であるかを識別する。ここでは、全結合層56は、特徴情報FI−1〜FI−10を用いて、物体OB−1を人物と識別し、特徴情報FI−11〜FI−20を用いて、物体OB−2を犬と識別する。全結合層56は、物体OB−1が人物であることを示す識別結果CR−1、及び、物体OB−2が犬であることを示す識別結果CR−2を、出力層57へ送る。出力層57は、これらの識別結果CRを、Faster R−CNN100の外部へ出力し、ディスプレイ(不図示)に識別結果CRが表示される。
以上がFaster R−CNN100の説明である。
プーリングは、画像Imに写っている物体OBの位置不変性を獲得するための処理である。これにより、物体OBが移動しても同じ物体OBとして認識することができる。プーリングが繰り返されることにより、位置に関する情報が徐々に失われる。従って、図12を参照して、プーリングされた特徴マップMのうち、位置に関する情報量が最も多いのは、特徴マップM−11〜M−20であり、次に多いのは、特徴マップM−31〜M−40であり、その次に多いのは、特徴マップM−51〜M−60であり、その次に多いのは、特徴マップM−71〜M−80であり、最も少ないのは、特徴マップM−91〜M−100である。
上述したように、Faster R−CNN100は、識別問題を解決するCNNである。図10及び図14を参照して、Faster R−CNN100は、最後の段(5段目)で生成された特徴マップM−91〜M−100を用いて、RoIプーリングをする。特徴マップM−91〜M−100は、位置に関する情報が最も少ない。これは、識別問題の解決にとって好都合であるが、画像中の位置を回帰する位置回帰問題にとって不都合である。
位置回帰問題とは、画像Imから物体OBを検出し、検出した物体OBから物体OBの一部の位置を推定する問題である。物体OBの一部の位置とは、人物の姿勢推定の場合、その人物の関節の位置である。手の姿勢推定の場合、指関節の位置である。ロボットの姿勢推定の場合、ロボットを構成する関節の位置である。
このように、Faster R−CNN100は、位置回帰問題の解決には向かないCNNである。これに対して、実施形態は、位置回帰問題の解決に適用できるCNNである。
図1は、実施形態に係る画像認識システム1を示す機能ブロック図である。画像認識システム1は、撮像部2と、画像認識装置3と、表示部4と、を備える。
撮像部2は、画像認識の対象となる人物の動画Vを撮像し、動画Vを画像認識装置3へ送信する。撮像部2は、例えば、デジタル式の可視光カメラ、デジタル式の赤外線カメラである。
画像認識装置3は、機能ブロックとして、CNN部5と、画像生成部6と、を備える。画像認識装置3は、ハードウェア(CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)等)、及び、ソフトウェア等によって実現される。
CNN部5は、動画Vのフレームを画像Imとし、画像Imに写された人物を検出し、検出した人物の各関節の位置を推定する。画像生成部6は、CNN部5が推定した各関節の位置を示す画像(例えば、各関節の位置をもとにした棒人形の画像)を、動画Vに加える処理をし、その画像が加えられた動画Vを表示部4へ出力する。
表示部4は、文字画像が加えられた動画Vを表示する。表示部4は、例えば、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイである。
図2は、CNN部5の機能ブロック図である。CNN部5は、図10に示すFaster R−CNN10と同じく、入力層51と、畳み込み層52と、プーリング層53と、RPN層54と、RoIプーリング層55と、全結合層56と、出力層57と、を備える。CNN部5は、さらに、補正部58と、選択部59と、を備える。
入力層51には、図1に示す撮像部2が撮像した動画Vを構成するフレームが画像Imとして入力される。入力層51は、画像Imを畳み込み層52−1へ送る。図3は、CNN部5に備えられる入力層51に入力される画像Imの一例を説明する説明図である。この画像Imには、2つの物体OB−3,OB−4が写っている。物体OB−3は、走っている人物であり、物体OB−4は、歩いている人物とする。画像Imのサイズは、224画素×224画素とする。
図2を参照して、畳み込み層52−1及びプーリング層53−1の組と、畳み込み層52−2及びプーリング層53−2の組と、畳み込み層52−3及びプーリング層53−3の組と、畳み込み層52−4及びプーリング層53−4の組と、畳み込み層52−5及びプーリング層53−5の組とにより、生成部が構成される。生成部は、画像Imを複数段で処理し、最初の段から最後の段へ向かうに従って解像度が低くなる特徴マップMを生成する。実施形態において、複数段は、1段目〜5段目であり、最初の段は、畳み込み層52−1及びプーリング層53−1の組により構成される1段目であり、最後の段は、畳み込み層52−5及びプーリング層53−5の組により構成される5段目である。なお、全ての段において、プーリング層53が備えられていなくてもよい。例えば、1段目及び2段目において、プーリング層53が備えられていなくてもよい。
図4は、CNN部5において、畳み込み層52とプーリング層53とで処理された特徴マップMを説明する説明図である。図4が図12と相違する点は、画像Imに写っている物体OBの範囲Sのサイズが示されていることである。図5は、範囲Sを示す点線が付加された画像Imを説明する説明図である。範囲Sは、物体OBを囲む矩形形状を有する。範囲Sの形状は、矩形に限定されない。範囲S−1は、物体OB−3を囲んでいる。範囲S−1のサイズは、例えば、96画素×96画素とする。範囲S−2は、物体OB−4を囲んでいる。範囲S−2のサイズは、例えば、64画素×64画素とする。
図4を参照して、1段目(最初の段)から5段目(最後の段)へ向かうに従って、特徴マップMの解像度が低くなるので、画像Imに写っている物体Ob−3の範囲S−1及び物体OB−4の範囲S−2も、1段目から5段目へ向かうに従って小さくなる。特徴マップMの縦サイズと横サイズとが半分になれば、範囲Sの縦サイズと横サイズとが半分になる。
図6は、実施形態において、RPN層54での処理を説明する説明図である。RPN層54は、Faster R−CNN100で説明したように、特徴マップM−91〜M−100の特徴をもとに、物体OBを検出し、検出した物体OBの位置情報PIを取得する。ここでは、RPN層54は、物体OB−3,OB−4を検出し、物体OB−3の位置情報PI−3、及び、物体OB−4の位置情報PI−4を取得する。
このように、RPN層54は、取得部の機能を有する。取得部は、複数段のうち第1の所定の段で生成された特徴マップMである第1特徴マップを用いて、画像Imに写っている物体OBを検出し、物体OBの第1特徴マップ上での位置情報PIを取得する。実施形態において、第1の所定の段は、5段目(最後の段)であり、第1特徴マップは、特徴マップM91〜M100である。
RPN層54は、画像Imに写っている物体OBの範囲Sのサイズが予め定められた下限値よりも大きいとき、物体OBを検出する。範囲Sの下限値は、例えば、64画素×64画素である。範囲Sの下限値は、ユーザによって画像認識装置3に入力される。
図2を参照して、選択部59は、最終の段で得られた特徴マップM以外の段で得られた特徴マップMの中から、任意の段で得られた特徴マップMを第2特徴マップとして選択し、第2特徴マップをRoIプーリング層55へ送る。詳しく説明すると、第2特徴マップは、第1の所定の段(例えば、5段目)よりも前にある第2の所定の段(例えば、3段目)で生成された特徴マップMである。選択部59は、スイッチを切り替えることにより、1段目のプーリング層53−1で得られた特徴マップM−11〜M−20、2段目のプーリング層53−2で得られた特徴マップM−31〜M−40、3段目のプーリング層53−3で得られた特徴マップM−51〜M−60、及び、4段目のプーリング層53−4で得られた特徴マップM−71〜M−80の中から、RoIプーリング層55へ送る特徴マップM(第2特徴マップ)を選択する。
ここでは、3段目のプーリング層53−3で得られた特徴マップM−51〜M−60が第2特徴マップとして選択されている。この理由を、図4を参照して説明する。関心領域Rのサイズが小さすぎると、特徴情報FIには位置に関する情報が含まれなくなるので、位置に関する情報が特徴情報FIに含まれるように、関心領域Rのサイズの下限値が予め定められている(例えば、7画素×7画素)。1段目から5段目へ向かうに従って、特徴マップMの解像度が低くなるので、画像Imに写っている物体OBの範囲S(検出対象となる範囲)も、1段目から5段目へ向かうに従って小さくなる。画像Imに写っている物体OBの範囲Sは、関心領域Rに相当する。よって、範囲Sが関心領域Rのサイズの下限値より小さくなると、特徴情報FIには位置に関する情報が含まれなくなる。
そこで、選択部59は、範囲Sのサイズの下限値(例えば、64画素×64画素)を予め記憶しており、画像Imに写っている物体OBの範囲Sのサイズの下限値を、第2特徴マップの解像度に対応させた値(例えば、8画素×8画素)が、関心領域Rのサイズの下限値(例えば、7画素×7画素)よりも大きくなる解像度を有する特徴マップMを、第2特徴マップとして選択する。ここでは、選択部59が選択可能な特徴マップMは、112画素×112画素の特徴マップM11〜M20、56画素×56画素の特徴マップM31〜M40、28画素×28画素の特徴マップM51〜M60である。
実施形態において、選択部59は、範囲Sのサイズの下限値を、第2特徴マップの解像度に対応させた値が、関心領域Rのサイズの下限値よりも大きくなる解像度を有する特徴マップMのうち、解像度が最も低い特徴マップM(28画素×28画素の特徴マップM51〜M60)を第2特徴マップとして選択する。畳み込みニューラルネットワークでは、解像度が低い特徴マップMを用いるほうが、物体の認識の汎化性能を高めることができるからである。
図2を参照して、補正部58は、RPN層54が生成した位置情報PI−3,PI−4を補正する。理由は、以下の通りである。図6を参照して、位置情報PI−3は、特徴マップM−91〜M−100のそれぞれに設定される関心領域R−3(図7)の位置を示す情報である。関心領域R−3は、画像Imに写っている物体OB−3を囲む範囲(すなわち、図5に示す範囲S−1)に相当する。位置情報PI−3は、例えば、座標C5=(x5、y5)、及び、座標C6=(x6、y6)とする。関心領域R−3は、座標(x5、y5)、座標(x5、y6)、座標(x6、y5)、及び、座標(x6、y6)により規定される矩形の領域となる。
位置情報PI−4は、特徴マップM−91〜M−100のそれぞれに設定される関心領域R−4(図7)の位置を示す情報である。関心領域R−4は、画像Imに写っている物体OB−4を囲む範囲(すなわち、図5に示す範囲S−2)に相当する。位置情報PI−4は、例えば、座標C7=(x7、y7)、座標C8=(x8、y8)とする。関心領域R−4は、座標(x7、y7)、座標(x7、y8)、座標(x8、y7)、及び、座標(x8、y8)により規定される矩形の領域となる。
Faster R−CNN100では、特徴マップM−91〜M−100のそれぞれに関心領域Rを設定する。これに対して、実施形態では、特徴マップM−51〜M−60のそれぞれに関心領域Rを設定する。特徴マップM−51〜M−60は、特徴マップM−91〜M−100よりも解像度が高い(言い換えれば、サイズが大きい)。
そこで、図2に示す補正部58は、特徴マップM−51〜M−60(第2特徴マップ)の解像度と対応するように、位置情報PIを補正する。図7は、位置情報PIの補正を説明する説明図である。図4で説明したように、特徴マップM−91〜M−100の解像度は、7画素×7画素である。特徴マップM−51〜M−60の解像度は、28画素×28画素である。補正部58は、位置情報PIで示される関心領域Rのサイズ(寸法)が4倍に拡大するように、位置情報PIを補正する。
具体的に説明すると、図7を参照して、位置情報PI−3の場合、補正部58は、座標C5を座標C9に補正し、座標C6を座標C10に補正する。座標C9と座標C10とで位置が特定される関心領域R−3は、座標C5と座標C6とで位置が特定される関心領域R−3を、この領域を中心にして、サイズ(寸法)が4倍拡大した領域である。
位置情報PI−4の場合、補正部58は、座標C7を座標C11に補正し、座標C8を座標C12に補正する。座標C11と座標C12とで位置が特定される関心領域R−4は、座標C7と座標C8とで位置が特定される関心領域R−4を、この領域を中心にして、サイズ(寸法)が4倍拡大した領域である。
以上説明したように、補正部58は、第1の所定の段(5段目)よりも前にある第2の所定の段(3段目)で生成された特徴マップMである第2特徴マップの解像度と対応するように、位置情報PIを補正する。
図2を参照して、補正部58は、補正した位置情報PI−3,PI−4をRoIプーリング層55へ送る。RoIプーリング層55は、抽出部として機能する。抽出部は、補正された位置情報PIで示される位置にある関心領域Rを第2特徴マップに設定し、物体OBに関する特徴を示す特徴情報FIを関心領域Rから抽出する。
図8は、実施形態において、RoIプーリング層55での処理を説明する説明図である。RoIプーリング層55は、特徴マップM−51〜M−60のそれぞれに対して、補正された位置情報PI−3(座標C9、座標C10)で示される位置にある関心領域R−3を設定し、補正された位置情報PI−4(座標C11、座標C12)で示される位置にある関心領域R−4を設定する。RoIプーリング層55は、関心領域R−3、関心領域R−4のそれぞれに対して、プーリングをすることにより、物体OB−3に関する特徴を示す特徴情報FI−21〜FI−30、及び、物体OB−4に関する特徴を示す特徴情報FI−31〜FI−40を、特徴マップM−51〜M−60のそれぞれから抽出する。抽出されたこれらの特徴情報FIは、特徴マップであり、プーリング処理により、全て同じサイズに整形される(ここでは、7画素×7画素)。
以上説明したRoIプーリングについて、さらに詳しく説明する。上述したように、RoIプーリングは、関心領域Rを抽出し、これを固定サイズ(例えば、7画素×7画素)の特徴マップにする処理である。この特徴マップMが特徴情報FIとなる。関心領域Rのサイズに関わりなく、固定サイズにされる。例えば、関心領域Rのサイズが12画素×12画素でも、3画素×3画素でも、7画素×7画素の特徴マップにされる。例えば、関心領域Rのサイズが21画素×21画素であり、これを7画素×7画素の特徴マップ(特徴情報FI)にする場合、RoIプーリング層55は、21画素×21画素の関心領域Rを7×7のグリッドに分割し、グリッドと重なる画素(9個の画素)が有する値の中で最大の値をそのグリッドの値とする処理を、各グリッドにおいて実行する。関心領域Rのサイズがグリッドのサイズで割り切れない場合も、同様の処理をする。これについて説明すると、図9は、RoIプーリングにおいて、固定サイズの特徴マップM(特徴情報FI)を生成する処理を説明する説明図である。固定サイズが、4画素×4画素とする。RoIプーリング層55が抽出した関心領域Rのサイズが、5画素×5画素の場合と3画素×3画素の場合とを例にする。いずれの場合も、RoIプーリング層55は、この関心領域Rを4×4のグリッドに分割し、グリッドと重なる画素が有する値の中で最大の値をそのグリッドの値とする処理を、各グリッドにおいて実行する。これにより、4画素×4画素の特徴マップMが生成される。
図2を参照して、RoIプーリング層55は、特徴情報FI−21〜FI−40を全結合層56へ送る。全結合層56は、特徴情報FI−21〜FI−40を回帰分析して、回帰結果RRを生成する。詳しく説明すると、全結合層56は、推定部として機能する。推定部は、特徴情報FIを用いて、物体OBの予め定められた部位の位置を推定する。ここでは、全結合層56は、特徴情報FI−21〜FI−30を回帰分析して、物体OB−3の所定の関節の位置を推定し、特徴情報FI−31〜FI−40を回帰分析して、物体OB−4の所定の関節の位置を推定する。所定の関節は、例えば、左肩関節、左肘関節、左手首関節、左股関節、左膝関節、左足首関節、右肩関節、右肘関節、右手首関節、右股関節、右膝関節、右足首関節である。回帰分析には、一般的な回帰分析のアルゴリズム(例えば、線形モデル)を用いることもできる。
全結合層56は、推定した関節の位置を示す回帰結果RR−1,RR−2を、出力層57へ送る。出力層57は、回帰結果RR−1,RR−2を、図1に示す画像生成部6へ送る。
画像生成部6は、画像Im(図3)、及び、回帰結果RR−1,RR−2を用いて、出力画像(不図示)を生成する。出力画像は、例えば、物体OB−3の所定の関節の位置を示す画像、及び、物体OB−4の所定の関節の位置を示す画像を、画像Imに付加した画像である。所定の関節の位置を示す画像は、例えば、所定の関節の位置をもとにした棒人形の画像である。画像生成部6で生成された出力画像は、表示部4(図1)に表示される。
実施形態の主な効果を説明する。図2及び図4を参照して、特徴マップMは、解像度が低くなるに従って、位置に関する情報を失う。第2特徴マップ(特徴マップM−51〜M−60)は、第1特徴マップ(特徴マップM−91〜M−100)よりも、解像度が高いので、第2特徴マップは、第1特徴マップよりも、位置に関する情報を多く含む。従って、第2特徴マップに設定された関心領域Rから抽出された特徴情報FIは、第1特徴マップに設定された関心領域Rから抽出された特徴情報FIと比べて、位置に関する情報を多く含む。よって、第2特徴マップに設定された関心領域Rから抽出された特徴情報FIを用いれば、人物の姿勢推定に必要な所定の関節の位置を推定することができる。
以上より、実施形態によれば、畳み込みニューラルネットワークを用いて、人物の姿勢を推定することができるので、畳み込みニューラルネットワークを用いる画像認識を改善することができる。
実施形態では、図3に示す画像Imに、二人の人物(物体OB−3,OB−4)が写っているので、二人の人物が検出され、それぞれの姿勢が推定されている。画像Imに、一人の人物が写っている場合、その人物が検出され、その人物の姿勢が推定され、画像Imに、複数の人物が写っている場合、それらの人物が検出され、それぞれの姿勢が推定される。
実施形態は、人物の所定の関節の位置を推定し、関節の位置から人物の姿勢を推定している。実施形態は、これに限らず、例えば、手の姿勢推定、ロボットの姿勢推定、ドアミラーの姿勢推定に適用することができる。手の姿勢推定の場合、指関節の位置が推定され、これを基にして、手の姿勢が推定される。ロボットの姿勢推定の場合、ロボットを構成する関節の位置が推定され、これを基にして、ロボットの姿勢が推定される。
1 画像認識システム
100 Faster R−CNN
CR,CR−1,CR−2 識別結果
FI,FI−1〜FI−20 特徴情報
M,M1〜M100 特徴マップ
OB,OB−1〜OB−4 物体
PI,PI−1〜PI−4 位置情報
R,R−1〜R−4 関心領域
RR,RR−1,RR−2 回帰結果
S,S−1,S−2 範囲
V 動画

Claims (6)

  1. 畳み込みニューラルネットワークを用いる画像認識装置であって、
    画像を複数段で処理し、最初の段から最後の段へ向かうに従って解像度が低くなる特徴マップを生成する生成部と、
    前記複数段のうち第1の所定の段で生成された前記特徴マップである第1特徴マップを用いて、前記画像に写っている物体を検出し、前記物体の前記第1特徴マップ上での位置情報を取得する取得部と、
    前記第1の所定の段よりも前にある第2の所定の段で生成された前記特徴マップである第2特徴マップの解像度と対応するように、前記位置情報を補正する補正部と、
    補正された前記位置情報で示される位置にある関心領域を前記第2特徴マップに設定し、前記物体に関する特徴を示す特徴情報を前記関心領域から抽出する抽出部と、
    前記特徴情報を用いて、前記物体の予め定められた部位の位置を推定する推定部と、を備える画像認識装置。
  2. 前記取得部は、前記画像に写っている前記物体の範囲のサイズが予め定められた下限値よりも大きいとき、前記物体を検出し、
    前記画像認識装置は、前記関心領域のサイズの下限値を予め記憶しており、前記物体の範囲のサイズの下限値を、前記第2特徴マップの解像度に対応させた値が、前記関心領域のサイズの下限値よりも大きくなる解像度を有する前記特徴マップを、前記第2特徴マップとして選択する選択部を、さらに備える、請求項1に記載の画像認識装置。
  3. 前記選択部は、前記物体の範囲のサイズの下限値を、前記第2特徴マップの解像度に対応させた値が、前記関心領域のサイズの下限値よりも大きくなる解像度を有する前記特徴マップのうち、解像度が最も低い前記特徴マップを前記第2特徴マップとして選択する、請求項2に記載の画像認識装置。
  4. 前記第1の所定の段は、前記最後の段である、請求項1〜3のいずれか一項に記載の画像認識装置。
  5. 前記取得部は、前記画像に写っている人物と前記人物以外とにおいて、前記人物を前記物体として検出し、
    前記推定部は、前記人物の関節の位置を前記部位の位置として推定する、請求項1〜4のいずれか一項に記載の画像認識装置。
  6. 畳み込みニューラルネットワークを用いる画像認識方法であって、
    画像を複数段で処理し、最初の段から最後の段へ向かうに従って解像度が低くなる特徴マップを生成する生成ステップと、
    前記複数段のうち第1の所定の段で生成された前記特徴マップである第1特徴マップを用いて、前記画像に写っている物体を検出し、前記物体の前記第1特徴マップ上での位置情報を取得する取得ステップと、
    前記第1の所定の段よりも前にある第2の所定の段で生成された前記特徴マップである第2特徴マップの解像度と対応するように、前記位置情報を補正する補正ステップと、
    補正された前記位置情報で示される位置にある関心領域を前記第2特徴マップに設定し、前記物体に関する特徴を示す特徴情報を前記関心領域から抽出する抽出ステップと、
    前記特徴情報を用いて、前記物体の予め定められた部位の位置を推定する推定ステップと、を備える画像認識方法。
JP2017044867A 2017-03-09 2017-03-09 画像認識装置及び画像認識方法 Active JP6787196B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017044867A JP6787196B2 (ja) 2017-03-09 2017-03-09 画像認識装置及び画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017044867A JP6787196B2 (ja) 2017-03-09 2017-03-09 画像認識装置及び画像認識方法

Publications (2)

Publication Number Publication Date
JP2018147431A true JP2018147431A (ja) 2018-09-20
JP6787196B2 JP6787196B2 (ja) 2020-11-18

Family

ID=63592205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017044867A Active JP6787196B2 (ja) 2017-03-09 2017-03-09 画像認識装置及び画像認識方法

Country Status (1)

Country Link
JP (1) JP6787196B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726739A (zh) * 2018-12-04 2019-05-07 深圳大学 一种目标检测方法和系统
JP2020008896A (ja) * 2018-07-02 2020-01-16 カシオ計算機株式会社 画像識別装置、画像識別方法及びプログラム
CN111461161A (zh) * 2019-01-22 2020-07-28 斯特拉德视觉公司 基于cnn且抗波动性强的客体检测方法及装置
JP2020119540A (ja) * 2019-01-22 2020-08-06 株式会社ストラドビジョン 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
JP2020201558A (ja) * 2019-06-06 2020-12-17 Kddi株式会社 姿勢推定装置、方法およびプログラム
JP2020201944A (ja) * 2019-06-13 2020-12-17 ネイバー コーポレーションNAVER Corporation オブジェクト認識装置およびオブジェクト認識方法
WO2020250388A1 (ja) * 2019-06-13 2020-12-17 日本電気株式会社 処理装置、処理方法及びプログラム
KR20200143193A (ko) * 2019-06-13 2020-12-23 네이버 주식회사 객체인식장치 및 객체인식방법
JP2021039642A (ja) * 2019-09-05 2021-03-11 Kddi株式会社 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
JP2021512378A (ja) * 2018-12-29 2021-05-13 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド アンカー決定方法及び装置、電子機器並びに記憶媒体
JPWO2021130881A1 (ja) * 2019-12-25 2021-07-01
CN113792175A (zh) * 2021-08-23 2021-12-14 西南科技大学 一种基于细粒度特征提取的图像理解方法
JP2022517571A (ja) * 2019-04-01 2022-03-09 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 画像処理方法及び装置、電子機器並びに記憶媒体
WO2022137476A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
WO2022209220A1 (ja) * 2021-03-31 2022-10-06 ソニーグループ株式会社 画像処理装置および画像処理方法、並びに記録媒体
JP2022542949A (ja) * 2019-07-30 2022-10-07 華為技術有限公司 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020008896A (ja) * 2018-07-02 2020-01-16 カシオ計算機株式会社 画像識別装置、画像識別方法及びプログラム
JP7135504B2 (ja) 2018-07-02 2022-09-13 カシオ計算機株式会社 画像識別装置、画像識別方法及びプログラム
CN109726739A (zh) * 2018-12-04 2019-05-07 深圳大学 一种目标检测方法和系统
US11301726B2 (en) 2018-12-29 2022-04-12 Beijing Sensetime Technology Development Co., Ltd. Anchor determination method and apparatus, electronic device, and storage medium
JP2021512378A (ja) * 2018-12-29 2021-05-13 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド アンカー決定方法及び装置、電子機器並びに記憶媒体
CN111461161A (zh) * 2019-01-22 2020-07-28 斯特拉德视觉公司 基于cnn且抗波动性强的客体检测方法及装置
JP2020119530A (ja) * 2019-01-22 2020-08-06 株式会社ストラドビジョン 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP2020119540A (ja) * 2019-01-22 2020-08-06 株式会社ストラドビジョン 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
CN111461161B (zh) * 2019-01-22 2024-03-15 斯特拉德视觉公司 基于cnn且抗波动性强的客体检测方法及装置
JP2022517571A (ja) * 2019-04-01 2022-03-09 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 画像処理方法及び装置、電子機器並びに記憶媒体
JP2020201558A (ja) * 2019-06-06 2020-12-17 Kddi株式会社 姿勢推定装置、方法およびプログラム
JP7054392B2 (ja) 2019-06-06 2022-04-13 Kddi株式会社 姿勢推定装置、方法およびプログラム
WO2020250388A1 (ja) * 2019-06-13 2020-12-17 日本電気株式会社 処理装置、処理方法及びプログラム
JPWO2020250388A1 (ja) * 2019-06-13 2020-12-17
JP2020201944A (ja) * 2019-06-13 2020-12-17 ネイバー コーポレーションNAVER Corporation オブジェクト認識装置およびオブジェクト認識方法
JP7218804B2 (ja) 2019-06-13 2023-02-07 日本電気株式会社 処理装置、処理方法及びプログラム
KR20200143193A (ko) * 2019-06-13 2020-12-23 네이버 주식회사 객체인식장치 및 객체인식방법
KR102261894B1 (ko) * 2019-06-13 2021-06-08 네이버 주식회사 객체인식장치 및 객체인식방법
JP2022542949A (ja) * 2019-07-30 2022-10-07 華為技術有限公司 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ
JP7305869B2 (ja) 2019-07-30 2023-07-10 華為技術有限公司 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ
JP2021039642A (ja) * 2019-09-05 2021-03-11 Kddi株式会社 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
JP7143263B2 (ja) 2019-09-05 2022-09-28 Kddi株式会社 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
JP7031081B2 (ja) 2019-12-25 2022-03-07 三菱電機株式会社 物体検出装置、モニタリング装置及び学習装置
JPWO2021130881A1 (ja) * 2019-12-25 2021-07-01
WO2021130881A1 (ja) * 2019-12-25 2021-07-01 三菱電機株式会社 物体検出装置、モニタリング装置及び学習装置
WO2022137476A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
JP7361949B2 (ja) 2020-12-25 2023-10-16 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
WO2022209220A1 (ja) * 2021-03-31 2022-10-06 ソニーグループ株式会社 画像処理装置および画像処理方法、並びに記録媒体
CN113792175A (zh) * 2021-08-23 2021-12-14 西南科技大学 一种基于细粒度特征提取的图像理解方法

Also Published As

Publication number Publication date
JP6787196B2 (ja) 2020-11-18

Similar Documents

Publication Publication Date Title
JP6787196B2 (ja) 画像認識装置及び画像認識方法
CN109448090B (zh) 图像处理方法、装置、电子设备及存储介质
CN103336576B (zh) 一种基于眼动追踪进行浏览器操作的方法及装置
US20150320343A1 (en) Motion information processing apparatus and method
CN109815776B (zh) 动作提示方法和装置、存储介质及电子装置
CN109117753B (zh) 部位识别方法、装置、终端及存储介质
Obdržálek et al. Real-time human pose detection and tracking for tele-rehabilitation in virtual reality
CN112131965B (zh) 一种人体姿态估计方法、装置、电子设备及存储介质
CN106774862B (zh) 基于视线的vr显示方法及vr设备
JP2018057596A (ja) 関節位置推定装置および関節位置推定プログラム
CN111626105B (zh) 姿态估计方法、装置及电子设备
KR20100136993A (ko) 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법
JP2019101740A (ja) 機械学習方法及び装置
JP2022536790A (ja) 人物の単眼深度推定のための方法およびシステム
CN114511931A (zh) 基于视频图像的动作识别方法、装置、设备及存储介质
CN112084851A (zh) 手卫生效果检测方法、装置、设备及介质
CN113658165B (zh) 杯盘比确定方法、装置、设备及存储介质
CN111274932A (zh) 基于视频中人体步态的状态识别方法、装置及存储介质
CN113065529B (zh) 基于关节组间关联建模的动作识别方法与系统
AU2018430831B2 (en) Determining method, determining program, and information processing apparatus
Ueoka et al. I’m here!: A wearable object remembrance support system
JP2005000301A (ja) 身体の姿勢診断支援システム
Bakar et al. Computer vision-based hand deviation exercise for rehabilitation
JP6312991B2 (ja) 画像出力装置
CN115019343A (zh) 一种人体动作识别方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6787196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150