JP2023149600A - 物体特徴点検出装置 - Google Patents
物体特徴点検出装置 Download PDFInfo
- Publication number
- JP2023149600A JP2023149600A JP2022058253A JP2022058253A JP2023149600A JP 2023149600 A JP2023149600 A JP 2023149600A JP 2022058253 A JP2022058253 A JP 2022058253A JP 2022058253 A JP2022058253 A JP 2022058253A JP 2023149600 A JP2023149600 A JP 2023149600A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- objects
- feature point
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 134
- 238000004364 calculation method Methods 0.000 claims abstract description 58
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 49
- 238000005457 optimization Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000003384 imaging method Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】従来に比して演算負荷を低減することができる物体特徴点検出装置の提供。【解決手段】実施形態に係る物体特徴点検出装置は、入力画像における各物体に含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、学習部とを備える。学習部の学習用データ格納部は、学習用画像と、各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する。学習部の算出部は、検出モデルから出力された複数の推定データの物体のうち任意の物体の推定データと、物体毎の正解データと、を用いて、任意の物体の特徴点毎の推定位置と正解位置との誤差の総和である総和誤差を前記物体毎に算出し、物体毎の総和誤差のうち最小総和誤差に対応する物体を任意の物体と対応付けし、複数の正解データのそれぞれの物体と複数の推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群に決定する。【選択図】図3
Description
本発明の実施形態は、物体特徴点検出装置に関する。
近年、カメラ画像から物体、例えば人物の関節及びその位置を検出する物体関節検出技術が種々提案されている。従来の物体関節検出技術では、カメラ画像を分割し、領域ごとに物体関節検出処理を実行する。このため、画像分割を詳細にしないと位置推定や接続推定の高精度化が困難である。その結果、物体関節検出における演算負荷は一般的に重くなる。
物体関節検出等の物体特徴点検出技術において、演算負荷を軽減することができれば有益である。
そこで、本発明の課題の一つは、従来に比して演算負荷を軽減することができる物体特徴点検出装置を提供することにある。
本発明の実施形態にかかる物体特徴点検出装置は、一例として、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、前記検出モデルの機械学習を実行する学習部と、を備える。前記学習部は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、を有する。
上記構成により、一例としては、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。
また、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。
上記物体特徴点検出装置において、前記算出部は、推定データの物体と対応付けされた正解データの物体を他の推定データの物体ついての正解データの物体との対応付けから除外するようにしてもよい。
上記構成により、採用総和誤差群の決定においては、学習に用いる検出物体数をNとした場合において、1からNまでの整数和だけの総和誤差演算処理を実行すればよい。その結果、学習処理における計算負荷を従来に比して大幅に軽くすることができ、安価な演算処理装置による物体位置の検出のための演算が可能となる。
上記物体特徴点検出装置において、前記算出部は、前記採用総和誤差群に含まれる総和誤差の和である損失関数を用いて誤差を計算し、前記学習部は、前記最適化処理において、前記損失関数を用いた前記総和誤差に基づいて前記検出モデルの前記パラメータを更新する更新部をさらに有するようにしてもよい。
上記構成により、学習用画像における複数の物体のそれぞれの正解位置を考慮したパラメータの最適化処理を実行でき、学習における収束性を向上させることができる。
上記物体特徴点検出装置において、前記物体を人物とし、前記特徴点を人体の関節点としてもよい。
上記構成により、複数の人物のそれぞれのポーズを、演算負荷を低減しつつも高精度に検出することができる。
本発明の実施形態にかかる物体特徴点検出装置は、一例として、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルを備える物体特徴点検出装置であって、前記検出モデルは、複数の物体を撮像して得られた学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群として用いてパラメータが最適化処理されている。
従って、一例としては、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。
以下に、本願に係る物体特徴点検出装置を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。
実施形態に係る物体特徴点検出装置は、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。ここで、「物体」とは、移動体(車両、二輪車、人、動物、ロボット、ロボットアーム、ドローン等)、立体構造物等である。
なお、以下においては、説明を具体的にするため、検出対象の物体が人物(人体)であり、物体の特徴点が人体の関節点である場合、すなわち、物体特徴点検出装置が物体関節検出装置である場合を例とする。
なお、この実施形態により本願に係る物体特徴点検出装置は物体関節検出装置に限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[1.車両の構成]
図1は、実施形態に係る物体関節検出装置が搭載される車両1の車室内を上方から見た平面図である。
図1は、実施形態に係る物体関節検出装置が搭載される車両1の車室内を上方から見た平面図である。
図1は、乗車定員が5名の車両1の車室内の一例を示すものである。車両1の車室内には、複数の座席2が設けられている。車室内の前方側には、運転席2aおよび助手席2bが設けられ、後方側には複数の後部座席2c~2eが設けられる。後部座席2cは、運転席2aの後方に設けられ、後部座席2dは、助手席2bの後方に設けられ、後部座席2eは、後部座席2cと後部座席2dとの間に設けられる。
車室内の前方側には撮像装置4が設けられる。撮像装置4は、CCD(Charge Coupled Device)、またはCIS(CMOS Image Sensor)等の撮像素子を内蔵し、撮像素子によって撮像された画像を後述するECU10(図2参照)に出力する。撮像装置4は、例えば車両1の前方を所定のフレームレートで撮像する。
撮像装置4として、たとえば、単眼カメラ、ステレオカメラ、可視光カメラ、赤外線カメラ、またはTOF距離画像カメラ等の任意の種類のカメラを採用できる。なお、これらのカメラのうち、赤外線カメラは、車外が明るい状況でも白飛びしにくく、また、車室内が暗い状況でも乗員をある程度捉えることができるという点で有効である。
[2.制御システム100の構成]
車両1には、物体関節検出装置を含む制御システム100が設けられる。かかる制御システム100の構成について図2を参照して説明する。図2は、実施形態に係る制御システム100の構成を示すブロック図である。
車両1には、物体関節検出装置を含む制御システム100が設けられる。かかる制御システム100の構成について図2を参照して説明する。図2は、実施形態に係る制御システム100の構成を示すブロック図である。
図2に示すように、制御システム100は、車内ネットワーク3と、撮像装置4と、複数のエアバッグ装置5と、警報装置6と、ECU10とを備える。ECU10は、物体関節検出装置の一例である。物体関節検出装置は、ECU10の他、撮像装置4を含んで構成されてもよい。
複数のエアバッグ装置5は、複数の座席2の各々に対応して設けられる。エアバッグ装置5は、車両1の衝突時などにエアバッグを展開することによって、座席2に着座した乗員を衝撃から保護する。警報装置6は、たとえば警告灯やスピーカなどを含んで構成され、光や音によって乗員に警報を発する。なお、警報装置6は、通信部を備え、乗員が所持するスマートフォン等の携帯端末に対して所定の警報情報を送信してもよい。
ECU10は、たとえば、CPU(Central Processing Unit)11と、SSD(Solid State Drive)12と、ROM(Read Only Memory)13と、RAM(Random Access Memory)14とを備える。CPU11は、ROM13等の不揮発性の記憶装置にインストールされ記憶されたプログラムを実行することによって、物体関節検出装置としての機能を実現する。RAM14は、CPU11での演算で用いられる各種のデータを一時的に記憶する。SSD12は、書き換え可能な不揮発性の記憶装置であって、ECU10の電源がオフされた場合にあってもデータを記憶することができる。CPU11、ROM13、およびRAM14等は、同一パッケージ内に集積され得る。ECU10は、CPU11に替えて、DSP(Digital Signal Processor)等の他の論理演算プロセッサや論理回路等が用いられる構成であってもよい。SSD12に替えてHDD(Hard Disk Drive)が設けられてもよいし、SSD12またはHDDは、ECU10とは別に設けられてもよい。
ECU10は、物体関節検出装置としての機能の他にも車両1の種々の制御機能を実現する。たとえば、ECU10は、車内ネットワーク3を介して制御信号を送ることにより、エアバッグ装置5および警報装置6を制御できる。その他、ECU10は、ブレーキシステムの制御、操舵システムの制御等を実行し得る。また、ECU10は、出力線を介して、撮像装置4により撮像された車室内の画像を撮像装置4から取得できる。
[3.ECU10の機能的構成]
次に、ECU10の機能的構成について図3を参照して説明する。図3は、ECU10の機能的構成を示すブロック図である。
次に、ECU10の機能的構成について図3を参照して説明する。図3は、ECU10の機能的構成を示すブロック図である。
図3に示すように、ECU10は、検出部30と、判定部40と、車載機器制御部50と、学習部60とを備える。ECU10が備える各部の機能は、CPU11が、ROM13に格納されたプログラムを実行することによって実現される。なお、これらの構成は、ハードウェア回路にて実現されてもよい。
検出部30は、後述する機械学習によって得られる学習済検出モデル64を用いて物体位置検出処理を実行する。
学習済検出モデル64は、画像を入力し、取得した画像に含まれる予め定められた数の物体各々の推定位置を出力する。具体的には、学習済検出モデルは、学習済ニューラルネットワーク等のAI(Artificial Intelligence:人工知能)であり、例えばDNN(Deep Neural Network)、CNN(Convolutional Neural Network)等の学習済モデル(推定モデル)である。
図4は、学習済検出モデル64を用いた物体位置検出処理を説明するための図である。図5は、学習済検出モデル64の入力データとしての検出用画像LIの一例を示した図である。
図4に示した様に、学習済検出モデル64は、複数の物体を撮像して得られた画像Iを入力し、画像Iにおける複数の物体のそれぞれに含まれる関節毎の推定位置を含む推定データを出力する。すなわち、学習済検出モデル64は、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定する。以下、説明を具体的にするため、入力データとしての検出用画像LIに10個の物体が含まれている場合を想定する。なお、図5に示した検出用画像LIでは、人物A、人物B、人物Cのみを例示している。
ここで、学習済検出モデル64が出力する推定データは、次のような情報である。すなわち、学習済検出モデル64へ検出用画像LIを入力した場合、学習済検出モデル64が出力する推定データは、図4、5に示した様に、各物体の認識(ID)と、各物体の関節毎の推定位置を含む情報である。例えば、人物Aの推定データは、物体の認識情報(ID)、頭(X,Y)、首(X,Y)、右肩(X,Y)、左肩(X,Y)等の各関節の推定位置(座標)である。検出部30は、検出した各物体の各関節の推定位置を判定部40へ出力する。
判定部40は、検出部30により検出された各物体の各関節の推定位置に基づいて、車両1の前方のどの位置にどの物体がどの様な姿勢(ポーズ)で存在するかを判定する。判定部40は、判定結果を車載機器制御部50へ出力する。
車載機器制御部50は、車両1に搭載される各種機器の制御を行う。一例として、車載機器制御部50は、判定部40におる判定結果に基づいて、ブレーキ、アクセル、エアバッグ装置等(車載機器の一例)を個別に制御する。
学習部60は、学習用検出モデル640の学習処理を実行し、学習用検出モデル640のネットワークパラメータ(以下、単に「パラメータ」とも呼ぶ)を最適化して学習済検出モデル64を生成する。学習部60は、学習用データ格納部61と、パラメータ格納部62と、設定部63と、学習用検出モデル640と、算出部65と、更新部66とを備える。
学習用データ格納部61は、所定数の物体を撮像して得られた学習用画像と、当該学習用画像において定義された物体毎の正解データ(教師データ)と、を含む複数の学習用データを格納する。
図6は、学習用検出モデル640の学習に用いる学習用データの概要を示す図である。学習用検出モデル640の入力データとしての学習用画像LIは、複数の物体を撮像して取得された画像である。従って、学習用画像LIは、被写体となった10個の物体(図6では3人の人物を例示)を含む画像である。
また、正解データは、学習用画像LI上において、複数の物体のそれぞれが何であるかを示すID(「人物A」等の認識情報)と、各物体の関節毎の正解位置(X,Y)として定義される。例えば、図6に示した様に、学習用画像LI上における人物Aの正解データは、人物Aの関節毎の正解位置に対応するものとして頭(X,Y)、首(X,Y)、右肩(X,Y)、左肩(X,Y)等が定義されている。学習用データは、入力データとしての10個の物体を含む学習用画像LIと、当該学習用画像LI上における各物体の正解データとを含む。この学習用データは、学習用検出モデル640の機械学習のために必要な分だけ準備される。
パラメータ格納部62は、学習用検出モデル640に設定されるネットワークパラメータを記憶する。設定部63は、学習用画像及びパラメータを学習用検出モデル640に設定する。算出部65は、後述する採用誤差演算処理、採用総和誤差群決定処理を実行する。更新部66は、後述するパラメータ最適化処理を実行する。
[4.学習処理]
学習部60が実行する学習用検出モデル640の学習処理は、採用総和誤差群決定処理とパラメータ最適化処理と含む。ここで、採用総和誤差群決定処理とは、任意の順序で推定位置と正解位置との対応付けを行うことで、学習用検出モデル640の機械学習の損失関数に用いる採用総和誤差群を効率的に決定する処理である。パラメータ最適化処理とは、採用総和誤差群を用いて定義された損失関数を最小化し、学習用検出モデル640のネットワークパラメータを最適化する処理である。以下、各処理について説明する。
学習部60が実行する学習用検出モデル640の学習処理は、採用総和誤差群決定処理とパラメータ最適化処理と含む。ここで、採用総和誤差群決定処理とは、任意の順序で推定位置と正解位置との対応付けを行うことで、学習用検出モデル640の機械学習の損失関数に用いる採用総和誤差群を効率的に決定する処理である。パラメータ最適化処理とは、採用総和誤差群を用いて定義された損失関数を最小化し、学習用検出モデル640のネットワークパラメータを最適化する処理である。以下、各処理について説明する。
図7、図8、図9は、採用総和誤差群決定処理を説明するための図である。
まず、図7に示した様に、学習用画像LIが学習用検出モデル640に入力され、推定データとして複数の推定データE1~推定データE10が出力される。
複数の推定データE1~推定データE10のうちの任意の一つ、例えば人物aの推定データE1を選択する。選択された推定データE1に含まれる各関節について、その推定位置と人物Aの正解データGT1に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差eaT1として計算する。同様に、選択された推定データE1と残りの複数の人物の正解データGT2~正解データGT10のそれぞれとの総和誤差eaT2~総和誤差eaT10を算出する総和誤差演算処理を実行する。
上記演算によって取得された総和誤差eaT1~総和誤差eaT10のうち、最小の総和誤差(最小総和誤差)を学習に用いる採用総和誤差ET1として決定する。なお、図7に示した例では、総和誤差ea1が採用総和誤差ET1(最小総和誤差)である場合を示している。
次に、図8に示した様に、残りの複数の人物の推定データE2~推定データE10のうちの任意の一つ、例えば推定データE2を選択する。選択された推定データE2に含まれる各関節について、その推定位置と例えば人物Bの正解データGT2に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差ebT1として計算する。同様に、選択された推定データE2と残りの複数の正解データGT3~正解データGT10のそれぞれとの総和誤差ebT2~総和誤差ebT9を算出する総和誤差演算処理を実行する。
算出された総和誤差ebT1~総和誤差ebT9をのうち、最小総和誤差を学習に用いる採用総和誤差ET2として決定する。なお、図7に示した例では、総和誤差ebT2が採用総和誤差ET2(最小総和誤差)である場合を示している。
次に、図9に示した様に、複数の人物の推定データE3~推定データE10のうちの任意の一つ、例えば推定データE3を選択する。選択された推定データE3に含まれる各関節について、その推定位置と例えば人物Bの正解データGT2に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差ecT1として計算する。同様に、選択された推定データE2と残りの複数の正解データGT4~正解データGT10のそれぞれとの総和誤差ecT1~総和誤差ecT8を算出する総和誤差演算処理を実行する。
算出された総和誤差ecT1~総和誤差ecT8をのうち、最小総和誤差を物体Cの学習に用いる採用総和誤差ET3として決定する。なお、図9に示した例では、総和誤差ecT1が採用総和誤差ET3(最小総和誤差)である場合を示している。
以下、残りの物体についても同様の処理を実行し、各物体の学習に用いる採用総和誤差ET1~ET10を決定する。その結果、総和誤差ea1~総和誤差ea10を算出する10回の総和誤差演算処理が実行される。
本実施形態では、決定された採用総和誤差ET1~ET10を「採用総和誤差群」と呼ぶ。学習用画像LI1、当該学習用画像LIと関連付けされた正解データとを含む学習用データとを用いた学習処理に用いる損失関数L1は、採用総和誤差群を用いて定義することができる。
例えば、損失関数L1は、採用総和誤差群を構成する採用総和誤差ET1~ET10の和で定義することができる。また、必要に応じて、損失関数L1は、採用総和誤差ET1~ET10の重みづけ線形和とすることもできる。
以上述べた採用総和誤差群決定処理においては、上記の様に学習する物体数を10個とする場合、全ての物体についての採用総和誤差を決定するまでに必要な総和誤差演算処理は、10+9+8+7+6+5+4+3+2+1=55回となる。また、例えば学習する物体数をN個とする場合、全ての物体についての採用総和誤差を決定するまでに必要な総和誤差演算処理は、N(N+1)/2回となる。
図10は、採用総和誤差群決定処理とパラメータ最適化処理と含む学習処理の概要を説明するための図である。
図10に示した様に、算出部65は、採用総和誤差群決定処理を学習用画像毎に実行し、学習用画像毎に損失関数を決定する。なお、図10において、採用総和誤差群決定処理EInは学習用画像LInに対応するものである。
更新部66は、学習用データと対応する損失関数とを用いてネットワークパラメータを逐次的に更新し、パラメータ最適化処理を実行する。パラメータ最適化処理の手法としては、勾配降下法、確率的勾配降下法、誤差逆伝播法等の一般的な手法を採用することができる。
学習部60は、最適化されたパラメータをパラメータ格納部62に格納する。学習部60は、最適化されたパラメータを検出部30へ出力する。
[5.ECU10の具体的動作]
図11は、ECU10が実行する学習処理の手順の一例を示すフローチャートである。
図11は、ECU10が実行する学習処理の手順の一例を示すフローチャートである。
図11に示すように、設定部63は、学習用データ格納部61から学習用データを読み込む(ステップS101)。
続いて、設定部63は、パラメータ格納部62からパラメータを読み込み(ステップS102)、読み込んだパラメータを学習用検出モデル640に設定する(ステップS103)。
続いて、ステップS101で読み込んだ学習用データの学習用画像が、学習用検出モデル640に入力される(ステップS104)。
算出部65は、学習用検出モデル640から出力される各推定データを取得する(ステップS105)。
算出部65は、取得した複数の推定データのうち、所定の(任意の)推定データを選択する(ステップS106)。
算出部65は、ステップS101で読み込んだ学習用データの複数の正解データのそれぞれと、選択した推定データとの間の総和誤差演算処理を実行する(ステップS107)。その結果、複数の物体のそれぞれについての総和誤差が算出される。
算出部65は、ステップS107において算出された複数の総和誤差のうちの最小総和誤差を、選択した推定データに対応する物体についての採用総和誤差に決定する(ステップS108)。
算出部65は、採用総和誤差が決定されていない物体があるか否かを判定する(ステップS109)。算出部65は、残りの物体有と判定した場合には(ステップS109のYes)、ステップS106~ステップS108の処理を繰り返し実行する。一方、算出部65は、残りの物体無と判定した場合には(ステップS109のNo)、全ての学習用画像について処理を実行したか否かを判定する(ステップS110)。
算出部65が全ての学習用画像について処理を実行したと判定した場合には、更新部66は、画像毎の採用総和誤差群(損失関数)を用いたパラメータ最適化処理を実行する(ステップS111)。一方、算出部65が全ての学習用画像について処理を実行していない判定した場合には、残りの学習用画像について、ステップS104~ステップS109の処理が繰り返し実行される。
以上述べた実施形態に係る物体関節検出装置は、入力した画像における複数の物体のそれぞれの推定位置を出力する学習済検出モデル64と、学習用検出モデル640の機械学習を実行して学習済検出モデル64を生成する学習部60と、を備える。学習部60は、学習用データ格納部61と、算出部65とを有する。学習用データ格納部61は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する。算出部65は、学習用画像を入力した学習用検出モデル640から出力された複数の推定データの物体のうち任意の物体の推定データと、物体毎の正解データと、を用いて、任意の物体の特徴点毎の推定位置と正解位置との誤差の総和である総和誤差を前記物体毎に算出する。算出部65は、物体毎の総和誤差のうち最小総和誤差に対応する物体を任意の物体と対応付けし、複数の正解データのそれぞれの物体と複数の推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する。
従って、一例としては、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。
また、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。
また、算出部65は、推定位置と対応付けされた正解位置を他の推定位置についての正解位置との対応付けから除外する。すなわち、学習部60は、学習用検出モデル640の学習処理において、学習用検出モデル640が出力する複数の推定位置の任意の一つに対して、複数の正解位置の中から最も近い(誤差の小さい)正解位置を割り当てる。また、学習部60は、学習用検出モデル640の学習処理において、学習用検出モデル640が出力する複数の推定位置うちの残りの(正解位置が割り当てられていない)任意の一つに対して、残りの正解位置(推定位置に割り当てられていない正解位置)の中から最も近い(誤差の小さい)正解位置を割り当てる。
従って、採用誤差群の決定においては、学習に用いる検出物体数をNとした場合において、1からNまでの整数和だけの誤差演算処理を実行すればよい。その結果、学習処理における計算負荷を従来に比して大幅に軽くすることができ、安価な演算処理装置による物体位置の検出のための演算が可能となる。
算出部65は、採用誤差群に含まれる誤差の和である損失関数を用いて誤差を計算する。学習部60は、パラメータの最適化処理において、採用誤差群に含まれる誤差の和である損失関数を用いた誤差に基づいて、学習用検出モデル640のパラメータを更新する。
従って、学習用画像における複数の物体のそれぞれの正解位置を考慮したパラメータの最適化処理を実行でき、学習における収束性を向上させることができる。
[変形例1]
上記実施形態においては、検出対象の物体を人物とし、特徴点を人体の関節として、物体関節検出装置としての物体特徴点検出装置1を例として説明した。これに対し、検出対象の物体は、人物に限定されず、ロボット、ロボットアーム、車両等の移動体等、種々の物体対象とすることができる。
上記実施形態においては、検出対象の物体を人物とし、特徴点を人体の関節として、物体関節検出装置としての物体特徴点検出装置1を例として説明した。これに対し、検出対象の物体は、人物に限定されず、ロボット、ロボットアーム、車両等の移動体等、種々の物体対象とすることができる。
例えば、検出対象の物体をロボット、ロボットアームとする場合、ロボット等が有する関節、マニピュレータ部分等を特徴点とすることができる。また、検出対象の物体を車両とする場合には、ヘッドライト、テールランプ、ドア等を特徴点とすることができる。いずれの場合であっても、学習用画像において、物体の特徴点毎の正解位置を含む正解データを準備し、これを用いて上述した学習処理を実行することで、同様の効果を実現することができる。
[変形例2]
上記実施形態では、一例として、車両1の前方を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル64を適用する例について説明した。これに対し、この例には特に限定される必要はない。例えば、車両1の側方、後方等を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル64を適用することもできる。また、例えば、車室内を撮影した画像に含まれる乗員の頭部の位置を検出する処理に学習済検出モデル64を適用することもできる。すなわち、画像内に含まれる複数の物体の数が予め定められていれば、どのような被写体が撮像された画像であっても、学習済検出モデル64を同様に適用して、画像に含まれる複数の物体の位置を検出できる。
上記実施形態では、一例として、車両1の前方を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル64を適用する例について説明した。これに対し、この例には特に限定される必要はない。例えば、車両1の側方、後方等を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル64を適用することもできる。また、例えば、車室内を撮影した画像に含まれる乗員の頭部の位置を検出する処理に学習済検出モデル64を適用することもできる。すなわち、画像内に含まれる複数の物体の数が予め定められていれば、どのような被写体が撮像された画像であっても、学習済検出モデル64を同様に適用して、画像に含まれる複数の物体の位置を検出できる。
[変形例3]
算出部65は、上記誤差演算処理を実行する際、各正解位置及び各推定位置に含まれる座標(X,Y)よりも、各正解位置及び各推定位置に含まれる水平軸方向の幅W、及び垂直軸方向の高さHに対する重みを大きくしてもよい。すなわち、検出対象に応じてバウンディングボックスのサイズ、形状を調整することができる。
算出部65は、上記誤差演算処理を実行する際、各正解位置及び各推定位置に含まれる座標(X,Y)よりも、各正解位置及び各推定位置に含まれる水平軸方向の幅W、及び垂直軸方向の高さHに対する重みを大きくしてもよい。すなわち、検出対象に応じてバウンディングボックスのサイズ、形状を調整することができる。
[変形例4]
上記実施形態においては、学習用検出モデル640の学習処理を実行する学習部60と、推定処理をする学習用検出モデル640を有する検出部30が同じ装置に内蔵されている場合を例示した。これに対し、学習部60と検出部30とを別装置として構成することもできる。また、例えば学習部60をクラウド上のコンピュータによって実現することもできる。
上記実施形態においては、学習用検出モデル640の学習処理を実行する学習部60と、推定処理をする学習用検出モデル640を有する検出部30が同じ装置に内蔵されている場合を例示した。これに対し、学習部60と検出部30とを別装置として構成することもできる。また、例えば学習部60をクラウド上のコンピュータによって実現することもできる。
以上、本発明の実施形態を例示したが、上記実施形態および変形例はあくまで一例であって、発明の範囲を限定することは意図していない。上記実施形態や変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、組み合わせ、変更を行うことができる。また、各実施形態や各変形例の構成や形状は、部分的に入れ替えて実施することも可能である。
1…車両、2…座席、3…車内ネットワーク、4…撮像装置、5…エアバッグ装置、6…警報装置、10…ECU、30…検出部、40…判定部、50…車載機器制御部、60…学習部、61…学習用データ格納部、62…パラメータ格納部、63…設定部、64…学習済検出モデル、65…算出部、66…更新部、100…制御システム、640…学習用検出モデル。
本発明の実施形態にかかる物体特徴点検出装置は、一例として、検出モデルと、学習部と、パラメータ最適化部と、を有する。前記検出モデルは、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。前記学習部は、検出モデルと、前記検出モデルの機械学習を実行する。前記パラメータ最適化部は、複数の物体を撮像して得た学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の特徴点毎の位置を推定するためのパラメータを最適化する。前記検出モデルは、前記パラメータ最適化部により最適化されたパラメータを用いて、新たに入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。
上記構成により、一例としては、画像を領域分割することなく、また画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。
上記物体特徴点検出装置において、前記学習部は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、を有する。
上記構成により、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。
上記構成により、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。
Claims (5)
- 入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、
前記検出モデルの機械学習を実行する学習部と、
を備え、
前記学習部は、
複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、
前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、
を有する、
物体特徴点検出装置。 - 前記算出部は、推定データの物体と対応付けされた正解データの物体を他の推定データの物体ついての正解データの物体との対応付けから除外する、
請求項1に記載の物体特徴点検出装置。 - 前記算出部は、前記採用総和誤差群に含まれる総和誤差の和である損失関数を用いて誤差を計算し、
前記学習部は、前記最適化処理において、前記損失関数を用いた前記総和誤差に基づいて前記検出モデルの前記パラメータを更新する更新部をさらに有する、
請求項1又は2に記載の物体特徴点検出装置。 - 前記物体は人物であり、前記特徴点は人体の関節点である、
請求項1又は2に記載の物体特徴点検出装置。 - 入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルを備える物体特徴点検出装置であって、
前記検出モデルは、
複数の物体を撮像して得られた学習用画像を入力した前記検出モデルから出力された複数の推定データの物体のうち任意の物体の推定データと、学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群として用いてパラメータが最適化処理されている、
物体特徴点検出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022058253A JP2023149600A (ja) | 2022-03-31 | 2022-03-31 | 物体特徴点検出装置 |
PCT/JP2023/005012 WO2023188908A1 (ja) | 2022-03-31 | 2023-02-14 | 物体特徴点検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022058253A JP2023149600A (ja) | 2022-03-31 | 2022-03-31 | 物体特徴点検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023149600A true JP2023149600A (ja) | 2023-10-13 |
Family
ID=88201069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022058253A Pending JP2023149600A (ja) | 2022-03-31 | 2022-03-31 | 物体特徴点検出装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023149600A (ja) |
WO (1) | WO2023188908A1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7422456B2 (ja) | 2019-11-26 | 2024-01-26 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
-
2022
- 2022-03-31 JP JP2022058253A patent/JP2023149600A/ja active Pending
-
2023
- 2023-02-14 WO PCT/JP2023/005012 patent/WO2023188908A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023188908A1 (ja) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361449B2 (en) | Neural network for object detection and tracking | |
EP2860664B1 (en) | Face detection apparatus | |
US10152649B2 (en) | Detecting visual information corresponding to an animal | |
US11487966B2 (en) | Image processing method and apparatus for target recognition | |
JP6682833B2 (ja) | 物体認識アルゴリズムの機械学習のためのデータベース構築システム | |
US11804048B2 (en) | Recognizing the movement intention of a pedestrian from camera images | |
US20230038039A1 (en) | In-vehicle user positioning method, in-vehicle interaction method, vehicle-mounted apparatus, and vehicle | |
JP2019509552A (ja) | コンテキスト及び深さ順序を用いる、部分的に遮られた物体の検出 | |
JP2020204804A (ja) | 画像認識装置 | |
CN113111978B (zh) | 一种基于点云和图像数据的三维目标检测系统和方法 | |
CN106183979A (zh) | 一种根据车距对车辆进行提醒的方法和装置 | |
CN113002562B (zh) | 车辆控制装置以及存储介质 | |
JP2020160914A (ja) | 物体検出装置 | |
CN112989915A (zh) | 用于检测自主载具中的异常乘客行为的系统和方法 | |
CN114266889A (zh) | 图像识别方法及其装置、可读介质和电子设备 | |
EP3493116B1 (en) | System and method for generating a confidence value for at least one state in the interior of a vehicle | |
CN112752693B (zh) | 车辆数据弹道估计 | |
US10467486B2 (en) | Method for evaluating credibility of obstacle detection | |
WO2023188908A1 (ja) | 物体特徴点検出装置 | |
WO2019123582A1 (ja) | 物体情報生成装置及び物体情報生成プログラム | |
JP2023149680A (ja) | 物体位置検出装置 | |
JP2023104680A (ja) | ドライバモニタ装置、ドライバモニタ方法及びドライバモニタ用コンピュータプログラム | |
WO2021024905A1 (ja) | 画像処理装置、モニタリング装置、制御システム、画像処理方法、コンピュータプログラム、及び記憶媒体 | |
JP7400222B2 (ja) | 外部環境認識装置 | |
JP6996368B2 (ja) | サーバ、障害物認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240207 |