JP2023149600A

JP2023149600A - 物体特徴点検出装置

Info

Publication number: JP2023149600A
Application number: JP2022058253A
Authority: JP
Inventors: 雅一戸部田; Masakazu Tobeta
Original assignee: Aisin Corp
Current assignee: Aisin Corp
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-13
Also published as: WO2023188908A1

Abstract

【課題】従来に比して演算負荷を低減することができる物体特徴点検出装置の提供。【解決手段】実施形態に係る物体特徴点検出装置は、入力画像における各物体に含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、学習部とを備える。学習部の学習用データ格納部は、学習用画像と、各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する。学習部の算出部は、検出モデルから出力された複数の推定データの物体のうち任意の物体の推定データと、物体毎の正解データと、を用いて、任意の物体の特徴点毎の推定位置と正解位置との誤差の総和である総和誤差を前記物体毎に算出し、物体毎の総和誤差のうち最小総和誤差に対応する物体を任意の物体と対応付けし、複数の正解データのそれぞれの物体と複数の推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群に決定する。【選択図】図３

Description

本発明の実施形態は、物体特徴点検出装置に関する。

近年、カメラ画像から物体、例えば人物の関節及びその位置を検出する物体関節検出技術が種々提案されている。従来の物体関節検出技術では、カメラ画像を分割し、領域ごとに物体関節検出処理を実行する。このため、画像分割を詳細にしないと位置推定や接続推定の高精度化が困難である。その結果、物体関節検出における演算負荷は一般的に重くなる。

物体関節検出等の物体特徴点検出技術において、演算負荷を軽減することができれば有益である。

特開２０２１－８６３２２号公報

そこで、本発明の課題の一つは、従来に比して演算負荷を軽減することができる物体特徴点検出装置を提供することにある。

本発明の実施形態にかかる物体特徴点検出装置は、一例として、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、前記検出モデルの機械学習を実行する学習部と、を備える。前記学習部は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、を有する。

上記構成により、一例としては、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。

また、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。

上記物体特徴点検出装置において、前記算出部は、推定データの物体と対応付けされた正解データの物体を他の推定データの物体ついての正解データの物体との対応付けから除外するようにしてもよい。

上記構成により、採用総和誤差群の決定においては、学習に用いる検出物体数をＮとした場合において、１からＮまでの整数和だけの総和誤差演算処理を実行すればよい。その結果、学習処理における計算負荷を従来に比して大幅に軽くすることができ、安価な演算処理装置による物体位置の検出のための演算が可能となる。

上記物体特徴点検出装置において、前記算出部は、前記採用総和誤差群に含まれる総和誤差の和である損失関数を用いて誤差を計算し、前記学習部は、前記最適化処理において、前記損失関数を用いた前記総和誤差に基づいて前記検出モデルの前記パラメータを更新する更新部をさらに有するようにしてもよい。

上記構成により、学習用画像における複数の物体のそれぞれの正解位置を考慮したパラメータの最適化処理を実行でき、学習における収束性を向上させることができる。

上記物体特徴点検出装置において、前記物体を人物とし、前記特徴点を人体の関節点としてもよい。

上記構成により、複数の人物のそれぞれのポーズを、演算負荷を低減しつつも高精度に検出することができる。

本発明の実施形態にかかる物体特徴点検出装置は、一例として、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルを備える物体特徴点検出装置であって、前記検出モデルは、複数の物体を撮像して得られた学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群として用いてパラメータが最適化処理されている。

従って、一例としては、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。

図１は、実施形態に係る物体関節検出装置が搭載される車両の車室内を上方から見た平面図である。図２は、実施形態に係る制御システムの構成を示すブロック図である。図３は、ＥＣＵの機能的構成を示すブロック図である。図４は、検出モデルの概要を説明するための図である。図５は、検出モデルへの入力データとしての撮像画像の一例を示す図である。図６は、学習用検出モデルの学習に用いる学習用データの概要を示す図である。図７は、検出モデルの学習において実行される採用誤差群決定処理の概要を示す図である。図８は、検出モデルの学習において実行される採用誤差群決定処理の概要を示す図である。図９は、検出モデルの学習において実行される採用誤差群決定処理の概要を示す図である。図１０は、採用誤差群決定処理及びパラメータ最適化処理を含む学習処理の概要を示す図である。図１１は、物体関節検出装置としてのＥＣＵが実行する学習処理の手順の一例を示すフローチャートである。

以下に、本願に係る物体特徴点検出装置を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。

実施形態に係る物体特徴点検出装置は、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。ここで、「物体」とは、移動体（車両、二輪車、人、動物、ロボット、ロボットアーム、ドローン等）、立体構造物等である。

なお、以下においては、説明を具体的にするため、検出対象の物体が人物（人体）であり、物体の特徴点が人体の関節点である場合、すなわち、物体特徴点検出装置が物体関節検出装置である場合を例とする。

なお、この実施形態により本願に係る物体特徴点検出装置は物体関節検出装置に限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［１．車両の構成］
図１は、実施形態に係る物体関節検出装置が搭載される車両１の車室内を上方から見た平面図である。

図１は、乗車定員が５名の車両１の車室内の一例を示すものである。車両１の車室内には、複数の座席２が設けられている。車室内の前方側には、運転席２ａおよび助手席２ｂが設けられ、後方側には複数の後部座席２ｃ～２ｅが設けられる。後部座席２ｃは、運転席２ａの後方に設けられ、後部座席２ｄは、助手席２ｂの後方に設けられ、後部座席２ｅは、後部座席２ｃと後部座席２ｄとの間に設けられる。

車室内の前方側には撮像装置４が設けられる。撮像装置４は、ＣＣＤ（Charge Coupled Device）、またはＣＩＳ（CMOS Image Sensor）等の撮像素子を内蔵し、撮像素子によって撮像された画像を後述するＥＣＵ１０（図２参照）に出力する。撮像装置４は、例えば車両１の前方を所定のフレームレートで撮像する。

撮像装置４として、たとえば、単眼カメラ、ステレオカメラ、可視光カメラ、赤外線カメラ、またはＴＯＦ距離画像カメラ等の任意の種類のカメラを採用できる。なお、これらのカメラのうち、赤外線カメラは、車外が明るい状況でも白飛びしにくく、また、車室内が暗い状況でも乗員をある程度捉えることができるという点で有効である。

［２．制御システム１００の構成］
車両１には、物体関節検出装置を含む制御システム１００が設けられる。かかる制御システム１００の構成について図２を参照して説明する。図２は、実施形態に係る制御システム１００の構成を示すブロック図である。

図２に示すように、制御システム１００は、車内ネットワーク３と、撮像装置４と、複数のエアバッグ装置５と、警報装置６と、ＥＣＵ１０とを備える。ＥＣＵ１０は、物体関節検出装置の一例である。物体関節検出装置は、ＥＣＵ１０の他、撮像装置４を含んで構成されてもよい。

複数のエアバッグ装置５は、複数の座席２の各々に対応して設けられる。エアバッグ装置５は、車両１の衝突時などにエアバッグを展開することによって、座席２に着座した乗員を衝撃から保護する。警報装置６は、たとえば警告灯やスピーカなどを含んで構成され、光や音によって乗員に警報を発する。なお、警報装置６は、通信部を備え、乗員が所持するスマートフォン等の携帯端末に対して所定の警報情報を送信してもよい。

ＥＣＵ１０は、たとえば、ＣＰＵ（Central Processing Unit）１１と、ＳＳＤ（Solid State Drive）１２と、ＲＯＭ（Read Only Memory）１３と、ＲＡＭ（Random Access Memory）１４とを備える。ＣＰＵ１１は、ＲＯＭ１３等の不揮発性の記憶装置にインストールされ記憶されたプログラムを実行することによって、物体関節検出装置としての機能を実現する。ＲＡＭ１４は、ＣＰＵ１１での演算で用いられる各種のデータを一時的に記憶する。ＳＳＤ１２は、書き換え可能な不揮発性の記憶装置であって、ＥＣＵ１０の電源がオフされた場合にあってもデータを記憶することができる。ＣＰＵ１１、ＲＯＭ１３、およびＲＡＭ１４等は、同一パッケージ内に集積され得る。ＥＣＵ１０は、ＣＰＵ１１に替えて、ＤＳＰ（Digital Signal Processor）等の他の論理演算プロセッサや論理回路等が用いられる構成であってもよい。ＳＳＤ１２に替えてＨＤＤ（Hard Disk Drive）が設けられてもよいし、ＳＳＤ１２またはＨＤＤは、ＥＣＵ１０とは別に設けられてもよい。

ＥＣＵ１０は、物体関節検出装置としての機能の他にも車両１の種々の制御機能を実現する。たとえば、ＥＣＵ１０は、車内ネットワーク３を介して制御信号を送ることにより、エアバッグ装置５および警報装置６を制御できる。その他、ＥＣＵ１０は、ブレーキシステムの制御、操舵システムの制御等を実行し得る。また、ＥＣＵ１０は、出力線を介して、撮像装置４により撮像された車室内の画像を撮像装置４から取得できる。

［３．ＥＣＵ１０の機能的構成］
次に、ＥＣＵ１０の機能的構成について図３を参照して説明する。図３は、ＥＣＵ１０の機能的構成を示すブロック図である。

図３に示すように、ＥＣＵ１０は、検出部３０と、判定部４０と、車載機器制御部５０と、学習部６０とを備える。ＥＣＵ１０が備える各部の機能は、ＣＰＵ１１が、ＲＯＭ１３に格納されたプログラムを実行することによって実現される。なお、これらの構成は、ハードウェア回路にて実現されてもよい。

検出部３０は、後述する機械学習によって得られる学習済検出モデル６４を用いて物体位置検出処理を実行する。

学習済検出モデル６４は、画像を入力し、取得した画像に含まれる予め定められた数の物体各々の推定位置を出力する。具体的には、学習済検出モデルは、学習済ニューラルネットワーク等のＡＩ（Artificial Intelligence：人工知能）であり、例えばＤＮＮ（Deep Neural Network）、ＣＮＮ（Convolutional Neural Network）等の学習済モデル（推定モデル）である。

図４は、学習済検出モデル６４を用いた物体位置検出処理を説明するための図である。図５は、学習済検出モデル６４の入力データとしての検出用画像ＬＩの一例を示した図である。

図４に示した様に、学習済検出モデル６４は、複数の物体を撮像して得られた画像Iを入力し、画像Iにおける複数の物体のそれぞれに含まれる関節毎の推定位置を含む推定データを出力する。すなわち、学習済検出モデル６４は、画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定する。以下、説明を具体的にするため、入力データとしての検出用画像ＬＩに１０個の物体が含まれている場合を想定する。なお、図５に示した検出用画像ＬＩでは、人物Ａ、人物Ｂ、人物Ｃのみを例示している。

ここで、学習済検出モデル６４が出力する推定データは、次のような情報である。すなわち、学習済検出モデル６４へ検出用画像ＬＩを入力した場合、学習済検出モデル６４が出力する推定データは、図４、５に示した様に、各物体の認識（ＩＤ）と、各物体の関節毎の推定位置を含む情報である。例えば、人物Ａの推定データは、物体の認識情報（ＩＤ）、頭（Ｘ，Ｙ）、首（Ｘ，Ｙ）、右肩（Ｘ，Ｙ）、左肩（Ｘ，Ｙ）等の各関節の推定位置（座標）である。検出部３０は、検出した各物体の各関節の推定位置を判定部４０へ出力する。

判定部４０は、検出部３０により検出された各物体の各関節の推定位置に基づいて、車両１の前方のどの位置にどの物体がどの様な姿勢（ポーズ）で存在するかを判定する。判定部４０は、判定結果を車載機器制御部５０へ出力する。

車載機器制御部５０は、車両１に搭載される各種機器の制御を行う。一例として、車載機器制御部５０は、判定部４０におる判定結果に基づいて、ブレーキ、アクセル、エアバッグ装置等（車載機器の一例）を個別に制御する。

学習部６０は、学習用検出モデル６４０の学習処理を実行し、学習用検出モデル６４０のネットワークパラメータ（以下、単に「パラメータ」とも呼ぶ）を最適化して学習済検出モデル６４を生成する。学習部６０は、学習用データ格納部６１と、パラメータ格納部６２と、設定部６３と、学習用検出モデル６４０と、算出部６５と、更新部６６とを備える。

学習用データ格納部６１は、所定数の物体を撮像して得られた学習用画像と、当該学習用画像において定義された物体毎の正解データ（教師データ）と、を含む複数の学習用データを格納する。

図６は、学習用検出モデル６４０の学習に用いる学習用データの概要を示す図である。学習用検出モデル６４０の入力データとしての学習用画像ＬＩは、複数の物体を撮像して取得された画像である。従って、学習用画像ＬＩは、被写体となった１０個の物体（図６では３人の人物を例示）を含む画像である。

また、正解データは、学習用画像ＬＩ上において、複数の物体のそれぞれが何であるかを示すＩＤ（「人物Ａ」等の認識情報）と、各物体の関節毎の正解位置（Ｘ，Ｙ）として定義される。例えば、図６に示した様に、学習用画像ＬＩ上における人物Ａの正解データは、人物Ａの関節毎の正解位置に対応するものとして頭（Ｘ，Ｙ）、首（Ｘ，Ｙ）、右肩（Ｘ，Ｙ）、左肩（Ｘ，Ｙ）等が定義されている。学習用データは、入力データとしての１０個の物体を含む学習用画像ＬＩと、当該学習用画像ＬＩ上における各物体の正解データとを含む。この学習用データは、学習用検出モデル６４０の機械学習のために必要な分だけ準備される。

パラメータ格納部６２は、学習用検出モデル６４０に設定されるネットワークパラメータを記憶する。設定部６３は、学習用画像及びパラメータを学習用検出モデル６４０に設定する。算出部６５は、後述する採用誤差演算処理、採用総和誤差群決定処理を実行する。更新部６６は、後述するパラメータ最適化処理を実行する。

［４．学習処理］
学習部６０が実行する学習用検出モデル６４０の学習処理は、採用総和誤差群決定処理とパラメータ最適化処理と含む。ここで、採用総和誤差群決定処理とは、任意の順序で推定位置と正解位置との対応付けを行うことで、学習用検出モデル６４０の機械学習の損失関数に用いる採用総和誤差群を効率的に決定する処理である。パラメータ最適化処理とは、採用総和誤差群を用いて定義された損失関数を最小化し、学習用検出モデル６４０のネットワークパラメータを最適化する処理である。以下、各処理について説明する。

図７、図８、図９は、採用総和誤差群決定処理を説明するための図である。

まず、図７に示した様に、学習用画像ＬＩが学習用検出モデル６４０に入力され、推定データとして複数の推定データＥ_１～推定データＥ_１０が出力される。

複数の推定データＥ_１～推定データＥ_１０のうちの任意の一つ、例えば人物ａの推定データＥ_１を選択する。選択された推定データＥ_１に含まれる各関節について、その推定位置と人物Ａの正解データＧＴ_１に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差ｅａ_Ｔ１として計算する。同様に、選択された推定データＥ_１と残りの複数の人物の正解データＧＴ_２～正解データＧＴ_１０のそれぞれとの総和誤差ｅａ_Ｔ２～総和誤差ｅａ_Ｔ１０を算出する総和誤差演算処理を実行する。

上記演算によって取得された総和誤差ｅａ_Ｔ１～総和誤差ｅａ_Ｔ１０のうち、最小の総和誤差（最小総和誤差）を学習に用いる採用総和誤差ＥＴ_１として決定する。なお、図７に示した例では、総和誤差ｅａ_１が採用総和誤差ＥＴ_１（最小総和誤差）である場合を示している。

次に、図８に示した様に、残りの複数の人物の推定データＥ_２～推定データＥ_１０のうちの任意の一つ、例えば推定データＥ_２を選択する。選択された推定データＥ_２に含まれる各関節について、その推定位置と例えば人物Ｂの正解データＧＴ_２に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差ｅｂ_Ｔ１として計算する。同様に、選択された推定データＥ_２と残りの複数の正解データＧＴ_３～正解データＧＴ_１０のそれぞれとの総和誤差ｅｂ_Ｔ２～総和誤差ｅｂ_Ｔ９を算出する総和誤差演算処理を実行する。

算出された総和誤差ｅｂ_Ｔ１～総和誤差ｅｂ_Ｔ９をのうち、最小総和誤差を学習に用いる採用総和誤差ＥＴ_２として決定する。なお、図７に示した例では、総和誤差ｅｂ_Ｔ２が採用総和誤差ＥＴ_２（最小総和誤差）である場合を示している。

次に、図９に示した様に、複数の人物の推定データＥ_３～推定データＥ_１０のうちの任意の一つ、例えば推定データＥ_３を選択する。選択された推定データＥ_３に含まれる各関節について、その推定位置と例えば人物Ｂの正解データＧＴ_２に含まれる対応する関節の推定位置との誤差を計算し、得られた関節毎の誤差の総和を総和誤差ｅｃ_Ｔ１として計算する。同様に、選択された推定データＥ_２と残りの複数の正解データＧＴ_４～正解データＧＴ_１０のそれぞれとの総和誤差ｅｃ_Ｔ１～総和誤差ｅｃ_Ｔ８を算出する総和誤差演算処理を実行する。

算出された総和誤差ｅｃ_Ｔ１～総和誤差ｅｃ_Ｔ８をのうち、最小総和誤差を物体Ｃの学習に用いる採用総和誤差ＥＴ_３として決定する。なお、図９に示した例では、総和誤差ｅｃ_Ｔ１が採用総和誤差ＥＴ_３（最小総和誤差）である場合を示している。

以下、残りの物体についても同様の処理を実行し、各物体の学習に用いる採用総和誤差ＥＴ_１～ＥＴ_１０を決定する。その結果、総和誤差ｅａ_１～総和誤差ｅａ_１０を算出する１０回の総和誤差演算処理が実行される。

本実施形態では、決定された採用総和誤差ＥＴ_１～ＥＴ_１０を「採用総和誤差群」と呼ぶ。学習用画像ＬＩ_１、当該学習用画像ＬＩと関連付けされた正解データとを含む学習用データとを用いた学習処理に用いる損失関数Ｌ_１は、採用総和誤差群を用いて定義することができる。

例えば、損失関数Ｌ_１は、採用総和誤差群を構成する採用総和誤差ＥＴ_１～ＥＴ_１０の和で定義することができる。また、必要に応じて、損失関数Ｌ１は、採用総和誤差ＥＴ_１～ＥＴ_１０の重みづけ線形和とすることもできる。

以上述べた採用総和誤差群決定処理においては、上記の様に学習する物体数を１０個とする場合、全ての物体についての採用総和誤差を決定するまでに必要な総和誤差演算処理は、１０＋９＋８＋７＋６＋５＋４＋３＋２＋１＝５５回となる。また、例えば学習する物体数をＮ個とする場合、全ての物体についての採用総和誤差を決定するまでに必要な総和誤差演算処理は、Ｎ（Ｎ＋１）／２回となる。

図１０は、採用総和誤差群決定処理とパラメータ最適化処理と含む学習処理の概要を説明するための図である。

図１０に示した様に、算出部６５は、採用総和誤差群決定処理を学習用画像毎に実行し、学習用画像毎に損失関数を決定する。なお、図１０において、採用総和誤差群決定処理ＥＩ_ｎは学習用画像ＬＩ_ｎに対応するものである。

更新部６６は、学習用データと対応する損失関数とを用いてネットワークパラメータを逐次的に更新し、パラメータ最適化処理を実行する。パラメータ最適化処理の手法としては、勾配降下法、確率的勾配降下法、誤差逆伝播法等の一般的な手法を採用することができる。

学習部６０は、最適化されたパラメータをパラメータ格納部６２に格納する。学習部６０は、最適化されたパラメータを検出部３０へ出力する。

［５．ＥＣＵ１０の具体的動作］
図１１は、ＥＣＵ１０が実行する学習処理の手順の一例を示すフローチャートである。

図１１に示すように、設定部６３は、学習用データ格納部６１から学習用データを読み込む（ステップＳ１０１）。

続いて、設定部６３は、パラメータ格納部６２からパラメータを読み込み（ステップＳ１０２）、読み込んだパラメータを学習用検出モデル６４０に設定する（ステップＳ１０３）。

続いて、ステップＳ１０１で読み込んだ学習用データの学習用画像が、学習用検出モデル６４０に入力される（ステップＳ１０４）。

算出部６５は、学習用検出モデル６４０から出力される各推定データを取得する（ステップＳ１０５）。

算出部６５は、取得した複数の推定データのうち、所定の（任意の）推定データを選択する（ステップＳ１０６）。

算出部６５は、ステップＳ１０１で読み込んだ学習用データの複数の正解データのそれぞれと、選択した推定データとの間の総和誤差演算処理を実行する（ステップＳ１０７）。その結果、複数の物体のそれぞれについての総和誤差が算出される。

算出部６５は、ステップＳ１０７において算出された複数の総和誤差のうちの最小総和誤差を、選択した推定データに対応する物体についての採用総和誤差に決定する（ステップＳ１０８）。

算出部６５は、採用総和誤差が決定されていない物体があるか否かを判定する（ステップＳ１０９）。算出部６５は、残りの物体有と判定した場合には（ステップＳ１０９のＹｅｓ）、ステップＳ１０６～ステップＳ１０８の処理を繰り返し実行する。一方、算出部６５は、残りの物体無と判定した場合には（ステップＳ１０９のＮｏ）、全ての学習用画像について処理を実行したか否かを判定する（ステップＳ１１０）。

算出部６５が全ての学習用画像について処理を実行したと判定した場合には、更新部６６は、画像毎の採用総和誤差群（損失関数）を用いたパラメータ最適化処理を実行する（ステップＳ１１１）。一方、算出部６５が全ての学習用画像について処理を実行していない判定した場合には、残りの学習用画像について、ステップＳ１０４～ステップＳ１０９の処理が繰り返し実行される。

以上述べた実施形態に係る物体関節検出装置は、入力した画像における複数の物体のそれぞれの推定位置を出力する学習済検出モデル６４と、学習用検出モデル６４０の機械学習を実行して学習済検出モデル６４を生成する学習部６０と、を備える。学習部６０は、学習用データ格納部６１と、算出部６５とを有する。学習用データ格納部６１は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する。算出部６５は、学習用画像を入力した学習用検出モデル６４０から出力された複数の推定データの物体のうち任意の物体の推定データと、物体毎の正解データと、を用いて、任意の物体の特徴点毎の推定位置と正解位置との誤差の総和である総和誤差を前記物体毎に算出する。算出部６５は、物体毎の総和誤差のうち最小総和誤差に対応する物体を任意の物体と対応付けし、複数の正解データのそれぞれの物体と複数の推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する。

また、算出部６５は、推定位置と対応付けされた正解位置を他の推定位置についての正解位置との対応付けから除外する。すなわち、学習部６０は、学習用検出モデル６４０の学習処理において、学習用検出モデル６４０が出力する複数の推定位置の任意の一つに対して、複数の正解位置の中から最も近い（誤差の小さい）正解位置を割り当てる。また、学習部６０は、学習用検出モデル６４０の学習処理において、学習用検出モデル６４０が出力する複数の推定位置うちの残りの（正解位置が割り当てられていない）任意の一つに対して、残りの正解位置（推定位置に割り当てられていない正解位置）の中から最も近い（誤差の小さい）正解位置を割り当てる。

従って、採用誤差群の決定においては、学習に用いる検出物体数をＮとした場合において、１からＮまでの整数和だけの誤差演算処理を実行すればよい。その結果、学習処理における計算負荷を従来に比して大幅に軽くすることができ、安価な演算処理装置による物体位置の検出のための演算が可能となる。

算出部６５は、採用誤差群に含まれる誤差の和である損失関数を用いて誤差を計算する。学習部６０は、パラメータの最適化処理において、採用誤差群に含まれる誤差の和である損失関数を用いた誤差に基づいて、学習用検出モデル６４０のパラメータを更新する。

従って、学習用画像における複数の物体のそれぞれの正解位置を考慮したパラメータの最適化処理を実行でき、学習における収束性を向上させることができる。

［変形例１］
上記実施形態においては、検出対象の物体を人物とし、特徴点を人体の関節として、物体関節検出装置としての物体特徴点検出装置１を例として説明した。これに対し、検出対象の物体は、人物に限定されず、ロボット、ロボットアーム、車両等の移動体等、種々の物体対象とすることができる。

例えば、検出対象の物体をロボット、ロボットアームとする場合、ロボット等が有する関節、マニピュレータ部分等を特徴点とすることができる。また、検出対象の物体を車両とする場合には、ヘッドライト、テールランプ、ドア等を特徴点とすることができる。いずれの場合であっても、学習用画像において、物体の特徴点毎の正解位置を含む正解データを準備し、これを用いて上述した学習処理を実行することで、同様の効果を実現することができる。

［変形例２］
上記実施形態では、一例として、車両１の前方を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル６４を適用する例について説明した。これに対し、この例には特に限定される必要はない。例えば、車両１の側方、後方等を撮影した画像に含まれる物体及びその位置を検出する処理に学習済検出モデル６４を適用することもできる。また、例えば、車室内を撮影した画像に含まれる乗員の頭部の位置を検出する処理に学習済検出モデル６４を適用することもできる。すなわち、画像内に含まれる複数の物体の数が予め定められていれば、どのような被写体が撮像された画像であっても、学習済検出モデル６４を同様に適用して、画像に含まれる複数の物体の位置を検出できる。

［変形例３］
算出部６５は、上記誤差演算処理を実行する際、各正解位置及び各推定位置に含まれる座標（Ｘ，Ｙ）よりも、各正解位置及び各推定位置に含まれる水平軸方向の幅Ｗ、及び垂直軸方向の高さＨに対する重みを大きくしてもよい。すなわち、検出対象に応じてバウンディングボックスのサイズ、形状を調整することができる。

［変形例４］
上記実施形態においては、学習用検出モデル６４０の学習処理を実行する学習部６０と、推定処理をする学習用検出モデル６４０を有する検出部３０が同じ装置に内蔵されている場合を例示した。これに対し、学習部６０と検出部３０とを別装置として構成することもできる。また、例えば学習部６０をクラウド上のコンピュータによって実現することもできる。

以上、本発明の実施形態を例示したが、上記実施形態および変形例はあくまで一例であって、発明の範囲を限定することは意図していない。上記実施形態や変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、組み合わせ、変更を行うことができる。また、各実施形態や各変形例の構成や形状は、部分的に入れ替えて実施することも可能である。

１…車両、２…座席、３…車内ネットワーク、４…撮像装置、５…エアバッグ装置、６…警報装置、１０…ＥＣＵ、３０…検出部、４０…判定部、５０…車載機器制御部、６０…学習部、６１…学習用データ格納部、６２…パラメータ格納部、６３…設定部、６４…学習済検出モデル、６５…算出部、６６…更新部、１００…制御システム、６４０…学習用検出モデル。

本発明の実施形態にかかる物体特徴点検出装置は、一例として、検出モデルと、学習部と、パラメータ最適化部と、を有する。前記検出モデルは、入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。前記学習部は、検出モデルと、前記検出モデルの機械学習を実行する。前記パラメータ最適化部は、複数の物体を撮像して得た学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の特徴点毎の位置を推定するためのパラメータを最適化する。前記検出モデルは、前記パラメータ最適化部により最適化されたパラメータを用いて、新たに入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する。

上記構成により、一例としては、画像を領域分割することなく、また画像を全領域に渡って探索する必要がなく、対象と各特徴点の種類・位置を直接的に推定することができる。このため、予め数が決まっている複数の物体を画像内から検出するための必要最小限の演算を実行すればよく、演算負荷を低減しつつも高精度な位置検出を実現することができる。

上記物体特徴点検出装置において、前記学習部は、複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、を有する。
上記構成により、検出対象である物体の特徴点の推定位置と各物体につき予め定義された特徴点の正解位置との関連付けを任意の順序で実行する。その結果、予め定められた数の複数の物体を画像内から検出する検出モデルについて、正解順序に依存しない効率的な学習を実現することができる。

Claims

入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルと、
前記検出モデルの機械学習を実行する学習部と、
を備え、
前記学習部は、
複数の物体を撮像して得られた学習用画像と、当該学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を関連付けて記憶する学習用データ格納部と、
前記学習用画像を入力した前記検出モデルから出力された複数の前記推定データの物体のうち任意の物体の推定データと、前記物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、前記検出モデルのパラメータの最適化処理に用いる採用総和誤差群に決定する算出部と、
を有する、
物体特徴点検出装置。
前記算出部は、推定データの物体と対応付けされた正解データの物体を他の推定データの物体ついての正解データの物体との対応付けから除外する、
請求項１に記載の物体特徴点検出装置。
前記算出部は、前記採用総和誤差群に含まれる総和誤差の和である損失関数を用いて誤差を計算し、
前記学習部は、前記最適化処理において、前記損失関数を用いた前記総和誤差に基づいて前記検出モデルの前記パラメータを更新する更新部をさらに有する、
請求項１又は２に記載の物体特徴点検出装置。
前記物体は人物であり、前記特徴点は人体の関節点である、
請求項１又は２に記載の物体特徴点検出装置。
入力した画像における複数の物体のそれぞれに含まれる特徴点毎の推定位置を含む推定データを出力する検出モデルを備える物体特徴点検出装置であって、
前記検出モデルは、
複数の物体を撮像して得られた学習用画像を入力した前記検出モデルから出力された複数の推定データの物体のうち任意の物体の推定データと、学習用画像における前記各物体に含まれる特徴点毎の正解位置を含む物体毎の正解データと、を用いて、前記任意の物体の特徴点毎の前記推定位置と前記正解位置との誤差の総和である総和誤差を前記物体毎に算出し、前記物体毎の前記総和誤差のうち最小総和誤差に対応する前記物体を前記任意の物体と対応付けし、複数の前記正解データのそれぞれの物体と複数の前記推定データのいずれかの物体と対応させるために用いたそれぞれの最小総和誤差を、採用総和誤差群として用いてパラメータが最適化処理されている、
物体特徴点検出装置。