JP2013196683A - 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置 - Google Patents

姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置 Download PDF

Info

Publication number
JP2013196683A
JP2013196683A JP2012287224A JP2012287224A JP2013196683A JP 2013196683 A JP2013196683 A JP 2013196683A JP 2012287224 A JP2012287224 A JP 2012287224A JP 2012287224 A JP2012287224 A JP 2012287224A JP 2013196683 A JP2013196683 A JP 2013196683A
Authority
JP
Japan
Prior art keywords
training
classifier
posture
training image
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012287224A
Other languages
English (en)
Inventor
Sho Pang Tang
ショウパン タン
Feng Wang
フェン ワン
Gui Liu
グオイ リウ
Hongming Zhang
ホンミン チャン
Wei Zeng
ウェイ ゼン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2013196683A publication Critical patent/JP2013196683A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Abstract

【課題】 対象物ヒット率を向上させる。
【解決手段】 姿勢分類器トレーニング方法であって、第1のトレーニング画像サンプルセットを取得するステップと、第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの、実際の姿勢情報を取得するステップと、指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するステップとを含む。
【選択図】 図9

Description

本発明は画像処理の分野に関し、特に姿勢分類器および対象物分類器をトレーニングするための方法および装置、対象物検出のための方法および装置に関する。
電子情報技術の発展およびネットワークの普及と共に、日常生活ではモノのインターネットにおいて、監視ビデオカメラ、デジタルビデオカメラ、ウェブカメラ、デジタルカメラ、電話カメラ、およびビデオセンサなど、様々な画像収集装置によって、大量の画像およびビデオデータが取得されるようになった。こうした膨大な量の画像およびビデオデータに対応して、すべてのデータを迅速かつ知的に分析する方法が緊急の課題になっている。
人体検出技術はデータを知的に分析する技術的な手法の1つである。図1を参照すると、人体検出のプロセスは入力画像について画像における人体を検出し、人体の位置を特定し、人体の位置を検出結果として出力することである。
人体検出のための既存の方法は、主に3つのタイプに分類される。
第1のタイプは局所的な特徴抽出に基づく方法である。このタイプの方法によってトレーニング画像のサブエリアに基づいて特徴が計算され、異なるサブエリアの特徴が並べ替えられ、ある方法で人体の特徴として結合され、次に人体の特徴に従って分類器がトレーニングされる。検出プロセス中、入力画像の対応するサブエリアの特徴が検出、計算され、次に分類器が計算された特徴を分類して人体検出が実現する。
第2のタイプは、注視点に基づく方法である。このタイプの方法によって、まずトレーニング画像セットに基づいて注視点を計算し、次にポイントを中心とするある大きさのブロックを抽出し、抽出されたすべてのブロックをクラスタ化して辞書を生成する。検出プロセス中、入力画像における同一の注視点が計算され、ブロックが抽出され、次に類似のブロックが辞書から検索され、最後に辞書におけるブロックに従って投票することによって、入力画像における人体の位置が識別されて人体検出が実現する。
第3のタイプはテンプレート照合に基づく方法である。このタイプの方法によって身体輪郭のテンプレートが前もって準備される。検出プロセス中、入力画像のエッジ分布画像が計算され、エッジ分布画像から身体輪郭と最も類似するエリアが検索されて人体検出が実現する。
本発明を実現する過程で、発明者は従来技術において少なくとも以下の問題を発見した。上記の3つのタイプの方法は、ある程度まで人体検出を実現することはできるが、これらの方法は一般的にすべて人体が直立であることを前提としており、柔軟な物体としての人体の姿勢の変化を無視している。人体の姿勢が変化すると既存の人体検出方法では、人体を背景エリアと区別することが殆ど不可能となり人体ヒット率が低下する。
人体ヒット率を向上させるために、本発明の実施例において姿勢分類器および対象物分類器をトレーニングするための方法および装置、ならびに対象物検出のための方法および装置が提供される。技術的な解決法は、以下の通りである。
本発明の実施例の1つの目的は姿勢分類器をトレーニングするための方法を提供することであり、この方法は、
第1のトレーニング画像サンプルセットを取得するステップと、
前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの、実際の姿勢情報を取得するステップと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するステップとを含む。
一実施例において、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成する前記ステップは、
損失関数を構築するステップであって、前記損失関数の入力が前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差である、ステップと、
マッピング関数を構築するステップであって、前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である、ステップと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するステップとを含む。
ここで前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差であることが望ましい。
ここで前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差および方向差であることが望ましい。
本発明の実施例の1つの目的は、上述の方法に従った方法によって生成された姿勢分類器を使用して対象物分類器をトレーニングするための方法を提供することであり、前記対象物は関節を有する対象物であり、前記方法は、
第2のトレーニング画像サンプルセットを取得するステップと、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行するステップと、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するステップとを含む。
一実施例において、前記姿勢分類器に従って前記第2のトレーニング画像サンプルセットにおける、指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行する前記ステップは、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するステップと、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するステップとを含み、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行する前記ステップは、
前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するステップを含む。
別の実施例では、前記指定された数のトレーニング画像サンプルの、推定された姿勢情報を取得する前記ステップの後、
前記指定された数のトレーニング画像サンプルの、推定された姿勢情報を表示するステップをさらに含む。
別の実施例では、前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップの後、
前記複数の正規化されたトレーニング対象物包囲枠を表示するステップをさらに含む。
別の実施例では、前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するステップを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
別の実施例では、前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するステップを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
本発明の実施例の別の目的は、上述の方法によって生成された姿勢分類器、および上述の方法によって生成された対象物分類器を使用した対象物検出のための方法を提供することであり、前記対象物は関節を有する対象物であり、前記方法は、
入力画像サンプルを取得するステップと、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するステップと、
前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するステップとを含む。
一実施例では、前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行する前記ステップは、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得するステップと、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分の対象物境界ボックスがサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行するステップとを含み、
それに対応して、前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行する前記ステップは、
前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行するステップを含む。
別の実施例では、前記入力画像サンプルの推定された姿勢情報を取得する前記ステップの後、
前記入力画像サンプルの推定された姿勢情報を表示するステップをさらに含む。
別の実施例では、複数の対象物境界ボックスにおいて正規化を実行する前記ステップの後、
前記複数の正規化された対象物境界ボックスを表示するステップをさらに含む。
別の実施例では、前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するステップを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
別の実施例では、前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するステップを含み、前記対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
本発明の実施例の別の目的は、姿勢分類器をトレーニングするための装置を提供することであり、この装置は、
第1のトレーニング画像サンプルセットを取得するための第1の取得モジュールと、
前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得するための第2の取得モジュールと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するための第1のトレーニング生成モジュールとを含む。
一実施例では、前記第1のトレーニング生成モジュールは、
損失関数を構築するための第1の構築ユニットであって、前記損失関数の入力が、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差である、第1の構築ユニットと、
マッピング関数を構築するための第2の構築ユニットであって、前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である、第2の構築ユニットと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するための姿勢分類器取得ユニットとを含む。
ここで前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差であることが望ましい。
ここで前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差および方向差であることが望ましい。
本発明の実施例の別の目的は、上述の装置によって生成された姿勢分類器を使用して対象物分類器をトレーニングするための装置を提供することであり、前記対象物は関節を有する対象物であり、前記装置は、
第2のトレーニング画像サンプルセットを取得するための第3の取得モジュールと、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して、姿勢推定処理を実行するための第1の姿勢推定モジュールと、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するための第2のトレーニング生成モジュールとを含む。
一実施例では、前記第1の姿勢推定モジュールは、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するための第1の姿勢推定ユニットと、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するための第1の構築処理ユニットとを含み、
前記第2のトレーニング生成モジュールは、
前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するためのトレーニングユニットを含む。
別の実施例では、前記装置は、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得する前記ステップの後、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を表示するための第1のグラフィックユーザインターフェースをさらに含む。
別の実施例では、前記装置は、
前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップの後、前記複数の正規化されたトレーニング対象物包囲枠を表示するための第2のグラフィックユーザインターフェースをさらに含む。
別の実施例では、前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第1の構築サブユニットを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
別の実施例では、前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するための第2の構築サブユニットを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
本発明の実施例の別の目的は、上述の装置によって生成された姿勢分類器および対象物分類器を使用した対象物検出のための装置を提供することであり、前記対象物は関節を有する対象物であり、前記装置は、
入力画像サンプルを取得するための第4の取得モジュールと、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するための第2の姿勢推定モジュールと、
前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するための検出モジュールとを含む。
一実施例では、前記第2の姿勢推定モジュールは、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得するための第2の姿勢推定ユニットと、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行するための第2の構築処理ユニットとを含み、
前記検出モジュールは、
前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行するための検出ユニットを含む。
別の実施例では、前記装置は、
前記入力画像サンプルの推定された姿勢情報を取得する前記ステップの後、前記入力画像サンプルの推定された姿勢情報を表示するための第3のグラフィックユーザインターフェースをさらに含む。
別の実施例では、前記装置は、
複数の対象物境界ボックスにおいて正規化を実行する前記ステップの後、前記複数の正規化された対象物境界ボックスを表示するための第4のグラフィックユーザインターフェースをさらに含む。
別の実施例では、前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第3の構築サブユニットを含み、対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
別の実施例では、前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は、
頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸と見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するための第4の構築サブユニットを含み、前記対象物の前記構造特徴点は、対応する対象物境界ボックスにある。
本発明の実施例によって提供される技術的な解決法は、以下の利点を有する。回帰方法を使用して第1のトレーニング画像セットにおける指定された数のトレーニング画像サンプルをトレーニングすることによって、姿勢分類器が生成され、次に前記姿勢分類器を使用して、対象物分類器のトレーニングおよび対象物推定のプロセスにおいて姿勢推定が実行され、対象物境界ボックスがさらに構築され、正規化され、従って対象物の特徴の計算における姿勢の影響が除去され、その結果、同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになり、それによって異なる姿勢の、関節を有する対象物を検出することができ、対象物ヒット率を向上させることができる。
さらに、回帰方法によって生成される姿勢分類器が、対象物分類器トレーニングプロセスおよび対象物検出プロセスに対して姿勢推定のためにそれぞれ出力され、本実施例における方法の計算の複雑さは、従来の姿勢推定方法のものと比較して低減する。
損失関数を構築する際に方向差が考慮されるため、異なる姿勢の対象物の検出において好都合となり、対象物ヒット率が向上することが望ましい。
本発明において提供される方法および装置は、人体の計数、ビデオ監視の分野など、画像またはビデオ分析の分野に適用することができる。
本発明は、以下に示す添付の図面からより完全に理解されるであろう。しかし、これらの図面は例示にすぎない。当業者であれば、負担の大きい不要な実験を行わなくても、さらに別の変形を容易に得ることができる。こうした変形は、本発明の精神および範囲からの逸脱と見なされない。
本発明の実施例において提供される姿勢分類器をトレーニングするための方法の一実施例のフローチャートを示す。 本発明の実施例において提供される姿勢分類器をトレーニングするための方法の別の実施例のフローチャートを示す。 本発明の実施例において提供されるトレーニング画像サンプルの特徴ベクトルを抽出する概略図を示す。 本発明の実施例において提供される推定された位置の概略図を示す。 本発明の実施例において提供される対象物分類器をトレーニングするための方法の一実施例のフローチャートを示す。 本発明の実施例において提供される対象物分類器をトレーニングするための方法の別の実施例のフローチャートを示す。 本発明の実施例において提供される4つの特徴点の対象物境界ボックスの概略図を示す。 本発明の実施例において提供される6つの特徴点の対象物境界ボックスの概略図を示す。 本発明の実施例において提供される対象物検出のための方法の一実施例のフローチャートを示す。 本発明の実施例において提供される対象物検出のための方法の別の実施例のフローチャートを示す。 本発明の実施例において提供される、本発明の実施例および既存の実施例のROC曲線の概略図を示す。 本発明の実施例において提供される姿勢分類器をトレーニングするための装置の一実施例の構造図を示す。 本発明の実施例において提供される姿勢分類器をトレーニングするための装置の別の実施例の構造図を示す。 本発明の実施例において提供される対象物分類器をトレーニングするための装置の一実施例の構造図を示す。 本発明の実施例において提供される対象物分類器をトレーニングするための装置の別の実施例の構造図を示す。 本発明の実施例において提供される対象物検出のための装置の一実施例の構造図を示す。 本発明の実施例において提供される対象物検出のための装置の別の実施例の構造図を示す。
本発明の目的、技術的解決法、および利点をより明確にするために、本発明の実施例を添付の図面を参照しながら以下にさらに詳しく説明する。
図1を参照すると、本発明の実施例において姿勢分類器をトレーニングするための方法の一実施例のフローチャートが提供される。姿勢分類器をトレーニングするための前記方法は、
S101:第1のトレーニング画像サンプルセットを取得するステップと、
S102:前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得するステップと、
S103:前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するステップとを含む。
本実施例では、第1のトレーニング画像サンプルセット、および前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得し、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行することによって、姿勢分類器が生成され、その結果、姿勢分類器によって異なる姿勢の対象物を検出することができるようになり、それによって対象物ヒット率が向上する。
本発明の実施例における対象物は、具体的には人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない、関節を有する対象物である。本実施例では、詳細な説明のために一例として人体が使用される。図2を参照すると、本発明の実施例において、姿勢分類器をトレーニングするための方法の別の実施例のフローチャートが提供される。
姿勢分類器をトレーニングするための前記方法は、以下を含む。
S201:第1のトレーニング画像サンプルセットを取得するステップ。
姿勢分類器をトレーニングするプロセス中、トレーニングプロセスを実行するために、トレーニング画像サンプルとして複数の画像サンプルが使用されるものとする。具体的には前記複数の画像サンプルは、例えば人体または他の対象物など、関節を有する対象物の複数の画像とすることができる。本発明の実施例では、複数のトレーニング画像サンプルは第1のトレーニング画像サンプルセットとして格納することができる。
同じシーンまたは異なるシーンで、画像収集装置によって前記第1のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプルを取得することができる。本発明の実施例では、できるだけ多くの様々な姿勢の人体の画像サンプルが選択され、トレーニング画像サンプルとして前記第1のトレーニング画像サンプルセットに格納され、従って生成された姿勢分類器の精度が向上することが望ましい。
S202:前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得するステップ。
本発明の実施例では、関連する実際の姿勢情報は例えば頭部またはウエストの位置情報などの、人体の各部分の位置情報を指す。人体の各部分の位置情報は人体の各部分の特定の位置を表すことができる。前記指定された数のトレーニング画像サンプルは、前記第1のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプル、または前記第1のトレーニング画像サンプルセットにおけるトレーニング画像サンプルの一部とすることができる。生成された姿勢分類器の精度が向上するように、前記指定された数のトレーニング画像サンプルは、前記第1のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプルを指すことが望ましい。
このステップでは、前記指定された数のトレーニング画像サンプルにおける人体の実際の姿勢情報を取得するために、前記指定された数のトレーニング画像サンプルにおける人体は手動でマークされるものとする。
具体的には、人体の前記各部分は人体の構造特徴点によって表すことができ、人体の前記構造特徴点とは、人体構造を反映することができる位置の点を指す。人体の構造特徴点は1つまたは複数あり得る。人体の構造特徴点は4つまたは6つであることが望ましい。人体の構造特徴点が4つある場合、人体の前記構造特徴点は、頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、人体の構造特徴点が6つある場合、人体の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含む。しかし、人体の構造特徴点の数は4つまたは6つに限定されず、ここでは詳述しない。
S203:損失関数を構築するステップであって、前記損失関数の入力が、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差である、ステップ。
本発明の実施例では、損失関数の入力は前記指定された数のトレーニング画像サンプル、具体的には前記指定された数のトレーニング画像サンプルの特徴ベクトルを含む。図3を参照すると、本発明の実施例においてトレーニング画像サンプルの特徴ベクトルを抽出する概略図が提供される。トレーニング画像サンプルがI、その特徴ベクトルがXであるならば、トレーニング画像サンプルIから特徴を抽出することによって特徴ベクトルXが取得される。ここでトレーニング画像サンプルの特徴ベクトルXは、例えば画像の色、グレースケール、テクスチャ、勾配、および形状など、対象物のモード情報を表すことができ、ビデオにおいて、トレーニング画像サンプルの前記特徴ベクトルXは対象物の動き情報を表すこともできる。
トレーニング画像サンプルの前記特徴ベクトルはHOG特徴であることが望ましい。ここでHOG特徴は、コンピュータビジョンおよび画像処理において対象物を検出するための特徴ディスクライバである。HOG特徴を抽出する方法は、画像自体の勾配の方向の特徴を使用し、高密度のメッシュおよび同一の寸法を有するグリッドユニットにおいて計算を行う方法であり、最後にトレーニング画像サンプルの特徴として異なるメッシュの特徴を連結し、さらに精度を向上させるためにローカルコントラストの正規化を重ね合わせる方法を採用する。HOG特徴を抽出する方法は従来技術における方法に類似しており、従ってここでは詳述しない。詳細については従来技術の関連の記述を参照されたい。
前記損失関数は多くの形を有することができる。例えば前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差であり、以下を含む。
Figure 2013196683
式中、J’(y,F(x))は損失関数を表し、F(x)はマッピング関数を表し、yは前記指定された数のトレーニング画像サンプルの実際の姿勢情報を表し、Ψ(y,F(x))はi番目のトレーニング画像サンプルのマッピング関数を表し、yはi番目のトレーニング画像サンプルの実際の姿勢情報を表し、xはi番目のトレーニング画像サンプルを表し、F(x)はi番目のトレーニング画像サンプルのマッピング関数を表し、Nはトレーニング画像サンプルの合計数を表す。
損失関数J’(y,F(x))は上述の式の形態に限定されず、ここでは詳述しない。実際の姿勢情報と推定された姿勢情報との間の位置差を反映することができるすべての損失関数は、本発明の補償範囲に属するものとする。
別の実施例では、前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差および方向差であり、以下を含むことが望ましい。
Figure 2013196683
式中、J(y,F(x))は損失関数を表し、yは前記指定された数のトレーニング画像サンプルの実際の姿勢情報を表し、F(x)はマッピング関数を表し、yi,1はi番目のトレーニング画像サンプルにおけるルートノードの実際の位置を表し、g(x)はi番目のトレーニング画像サンプルにおけるルートノードの推定された位置を表し、yi,jはi番目のトレーニング画像サンプルにおける人体のj番目の構造特徴点の実際の位置を表し、F(x)はi番目のトレーニング画像サンプルにおける人体のj番目の構造特徴点のマッピング関数を表し、Nはトレーニング画像サンプルの合計数を表し、qは人体の構造特徴点の合計数を表し、αは加重係数であり、0<α<1である。
損失関数J(y,F(x))において、ウエスト中心点をルートノードと見なし、軸は、ウエスト中心点および人体の他の構造特徴点に従って実際の姿勢情報の軸として構築され、次に前記実際の姿勢情報と前記推定された姿勢情報との間の方向差は、前記実際の姿勢情報の軸と対応する推定された姿勢情報の軸との間のベクトルによって表すことができる。例えば
Figure 2013196683
であり、方向差は実際の姿勢情報の軸と推定された姿勢情報の軸との間の内抱角によって表すこともでき、これについてはここで詳述しない。
前記損失関数J(y,F(x))は上述の式の形態に限定されず、ここでは詳述しない。実際の姿勢情報と推定された姿勢情報との間の位置差および方向差を反映することができるすべての損失関数は、本発明の補償範囲に属するものとする。
図4を参照すると、本発明の実施例において推定された位置の概略図が提供される。損失関数J(y,F(x))では、推定位置2の方向が実際の位置のものと一致しているので、図4において、推定位置2は推定位置1よりも効果的であり、これは特徴抽出のためにはより効果的である。従って損失関数が構築される時、異なる姿勢の人体の検出では、実際の姿勢情報と推定された姿勢情報との間の位置差および方向差を考慮に入れることが有利である。
S204:マッピング関数を構築するステップであって、前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である、ステップ。
このステップでは、最初にあらかじめ設定された弱いマッピング関数プールから前記損失関数の出力値を最小にする弱いマッピング関数が選択され、前記弱いマッピング関数が最初のマッピング関数として使用され、マッピング関数が前記最初のマッピング関数に従って構築される。
本発明の実施例における弱いマッピング関数プールは、複数の弱いマッピング関数を含むプールである。前記弱いマッピング関数プールにおける弱いマッピング関数は経験に従って構築される。前記弱いマッピング関数プールは、3,025の弱いマッピング関数を含むことが望ましい。ここで各弱いマッピング関数はサブウィンドウに対応し、次に本発明の実施例における前記弱いマッピング関数プールは、3,025のサブウィンドウを含むことが望ましい。
これは損失関数の式から知られており、前記損失関数はマッピング関数F(x)の関数であり、前記損失関数はそれぞれ前記弱いマッピング関数プールにおける各弱いマッピング関数よって置換される。前記損失関数の出力値は、前記指定された数のトレーニング画像サンプルおよび実際の姿勢情報に従って計算され、前記損失関数の出力値を最小にする弱いマッピング関数が取得され、前記損失関数の出力値を最小にする弱いマッピング関数が最初のマッピング関数F(x)として使用される。
マッピング関数F(x)が最初のマッピング関数F(x)に従って構築される。例えば
Figure 2013196683
であり、式中、前記マッピング関数F(x)の入力は、前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力は、前記指定された数のトレーニング画像サンプルの推定された姿勢情報であり、λはt番目の回帰の最適な重みを表し、h(x)はt番目の回帰の最適な弱いマッピング関数を表し、Tは回帰の合計回数を表す。
S205:前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するステップ。
本発明の実施例では、F(x)を解くプロセスは回帰のプロセスである。回帰が実行されるたびに最適な弱いマッピング関数h(x)は、あらかじめ設定された式に従って弱いマッピング関数プールから選択され、現在の回帰の最適な重みλが前記h(x)に従って計算されて、現在の回帰のマッピング関数F(x)が取得される。連続した回帰と共に、マッピング関数に対応する損失関数の出力値が連続して低減し、取得されたマッピング関数F(x)が収束すると回帰は停止し、この時点でマッピング関数F(x)に対応する前記損失関数の出力値は最小であり、前記損失関数の出力値を最小にするマッピング関数が姿勢分類器として使用される。
マッピング関数が収束したかどうかを判断するプロセスは、具体的には以下を含む。T番目の回帰によって取得されたマッピング関数F(x)が収束されるならば、T番目の回帰によって取得されたマッピング関数F(x)に対応する損失関数の出力値はψとして計算され、(T−1)番目の回帰によって取得されたマッピング関数F(x)に対応する損失関数の出力値はψT−1として計算され、この時0≦ψT−1−ψ≦はあらかじめ設定されたしきい値であり、あらかじめ設定されたしきい値は、それだけには限定されないが0.01とすることができる。
損失関数は、実際の姿勢情報と推定された姿勢情報(すなわち、マッピング関数)との間の差の程度を表す。本実施例では、前記損失関数は姿勢分類器を計算するために使用することができ、これは損失関数の最小の値に対応するマッピング関数が姿勢分類器として使用されることを意味し、また、姿勢分類器が実際の姿勢情報にほぼ近い推定された姿勢情報であることを意味する。
姿勢分類器を取得するための計算プロセスについて、一例として損失関数J(y,F(x))を使用して説明する。
単一のトレーニング画像サンプルでは、損失関数は以下の通りである。
Figure 2013196683
式中、qは人体の構造特徴点の合計数を表し、Pは人体のj番目の構造特徴点の実際の位置を表し、P’は人体のj番目の構造特徴点の推定位置を表し、Proot,jはPのルートノードの実際の位置を表し、ここで前記ルートノードは、ウエスト中心点であり、P’root,jはPのルートノードの推定位置を表し、(Proot,j,P)は実際の姿勢情報の軸を表すことが望ましい。
第1のトレーニング画像サンプルセット全体では、損失関数は以下の通りである。
Figure 2013196683
前記J(y,F(x))は、前記第1のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプルの損失関数である。J(y,F(x))が構築される時、すべての人体境界ボックスの軸の開始点は同じ特徴点として定義され、前記同じ特徴点はルートノードとして定義され、前記ルートノードはウエスト中心点であることが望ましく、従ってルートノードを除いて損失関数J(y,F(x))におけるjの開始点は2である。
ここでk(x)=F(x)−g(x),ui,j=yi,j−yi,1である。
上述のJ(y,F(x))では、F(x)はk(x)およびg(x)を計算することよって取得することができる。
g(x)は、SVR(サポートベクトル回帰)およびPCA(主成分分析)の方法を採用することによって解くことができ、具体的にこのプロセスは以下を含む。
1a)次を入力する:{y,x ,y∈R2q,x∈R
2a)PCAの解法によって次を計算する:r=p(yi,1):R→R
3a)
Figure 2013196683
を最小にすることによってWを計算し、ここで
Figure 2013196683
であり、k(x,x)はカーネル関数である
4a)次を出力する:g(x)=p−1(g’(x)):R→R
式中、Rは実数体を表し、xはi番目のトレーニング画像サンプルを表し、yは人体のj番目の構造特徴点の位置を表し、rはi番目のトレーニング画像サンプルのルートノードの位置を表し、yi,1はi番目のトレーニング画像サンプルにおけるルートノードの実際の位置を表し、wはベクトルであり式の係数を表し、例えばz=ax+byである場合w=(a,b)であり、Cは倍率であり、Nはトレーニング画像サンプルの合計数を表し、g’(x)はi番目のトレーニング画像サンプルにおけるルートノードの推定位置を表し、ξは短縮係数を表す。
k(x)はブースティング方式によって計算することができ、具体的にこの方法は以下を含む。
1b)次を入力する:{y,x ,y∈R2q,x∈R
2b)次を計算する:u={(yi,j−yi,1)} j=2∈R2q−2
3b)次を設定する:k(x)=0
4b)loop:t:1→T、k(x)=λ(x),k(x)=k(x)+k(x)を計算し、k(x)の収束をチェックし、k(x)が収束すると、ループは終了する。ここでλはt番目の回帰の最適な重みを表し、h(x)はt番目の回帰の最適な弱いマッピング関数を表し、Tは回帰の合計回数を表す。
ここでは以下の通りである。
Figure 2013196683
5b)次を出力する:F(x)=J(g(x),k(x)):R→R2q
k(x)が収束するとM(k(x))の値は最小になり、対応するマッピング関数F(x)はこの時点で姿勢分類器となる。
k(x)を計算するプロセスは回帰プロセスであり、各回帰において最適な弱いマッピング関数h(x)がマッピング関数プールから取得される。
前記姿勢分類器は生成された後、後で使用するために格納することができる。具体的には本実施例において生成される姿勢分類器は、対象物分類器をトレーニングするその後のプロセスおよび対象物検出のプロセスにおける姿勢推定のために使用することもできる。
本実施例では、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行するプロセスは、具体的には姿勢分類器を生成するためにS203およびS205の実現プロセスによって実現される。
本実施例では、第1のトレーニング画像サンプルセット、および前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報が取得され、マッピング関数および損失関数は前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って構築され、前記損失関数の出力値が最小になるまで、前記マッピング関数は前記損失関数の出力値に従って調整され、回帰トレーニングプロセスを実現することによって、前記損失関数の出力値を最小にするマッピング関数が姿勢分類器として選択される。その結果、様々な姿勢の関節を有する対象物を姿勢分類器によって検出できるようになり、それによって対象物ヒット率が向上する。
さらに姿勢推定のために、回帰方法によって生成される姿勢分類器が対象物分類器トレーニングプロセスおよび対象物検出プロセスに対してそれぞれ出力され、これは本実施例において多出力回帰の方法が採用されることを意味し、本実施例における方法の計算の複雑さは従来の姿勢推定方法のものと比較して低減する。本実施例では、損失関数が構築される時に方向差が考慮され、これは異なる姿勢の対象物の検出に、より有利であり対象物ヒット率を向上させる。
図5を参照すると、本発明の実施例において対象物分類器をトレーニングするための方法の一実施例のフローチャートが提供される。前記対象物は、本実施例では、例えば人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない関節を有する対象物であり、本実施例において採用される姿勢分類器は上述の実施例において生成されるものである。
対象物分類器をトレーニングするための前記方法は、以下を含む。
S501:第2のトレーニング画像サンプルセットを取得するステップと、
S502:前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおいて姿勢推定処理を実行するステップと、
S503:前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するステップとを含む。
本実施例では、第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおける姿勢推定処理は、姿勢分類器に従って実行され、次に前記姿勢推定処理によって処理されたトレーニング画像サンプルは対象物分類器を生成するためにトレーニングされ、従って生成された対象物分類器によって、対象物の特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになり、それによって異なる姿勢の、関節を有する対象物を検出することができ、対象物ヒット率を向上させることができる。
本発明の実施例における対象物は、具体的には人体、ロボット、サル、またはイヌなどの対象物を含むがそれらに限られない関節を有する対象物である。本実施例では、詳細な説明のために一例として人体が使用される。図6を参照すると、本発明の実施例において対象物分類器をトレーニングするための方法の別の実施例のフローチャートが提供され、本実施例において採用される姿勢分類器は、上述の実施例において生成された姿勢分類器である。
対象物分類器をトレーニングするための前記方法は以下を含む。
S601:第2のトレーニング画像サンプルセットを取得するステップ。
対象物分類器をトレーニングするプロセス中、トレーニングプロセスを実行するためにトレーニング画像サンプルとして複数の画像サンプルが使用されるものとする。具体的に前記複数の画像サンプルは、例えば人体または他の対象物など関節を有する対象物の複数の画像とすることができる。本発明の実施例では、複数のトレーニング画像サンプルは、第2のトレーニング画像サンプルセットとして格納することができる。
同じシーンまたは異なるシーンで、画像収集装置によって前記第2のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプルを取得することができる。
602:前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおいて姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するステップ。
前記指定された数のトレーニング画像サンプルは、前記第2のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプル、または前記第2のトレーニング画像サンプルセットにおけるトレーニング画像サンプルの一部とすることができる。生成された対象物分類器の精度が向上するように、前記指定された数のトレーニング画像サンプルは、前記第2のトレーニング画像サンプルセットにおけるすべてのトレーニング画像サンプルを指すことが望ましい。
本発明の実施例では、関連する推定された姿勢情報は人体の各部分の推定された位置情報を指し、具体的に人体をトレーニングする構造特徴点の位置情報である。人体をトレーニングする前記構造特徴点は1つまたは複数あり得る。人体の構造特徴点は4つまたは6つであることが望ましい。具体的には人体の構造特徴点が4つある場合、人体の前記構造特徴点は頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、人体の構造特徴点が6つある場合、人体の前記構造特徴点は頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含む。
別の実施例では、前記指定されたトレーニング画像サンプルの推定された姿勢情報が取得された後、前記指定された数のトレーニング画像サンプルの推定された姿勢情報、具体的に前記指定されたトレーニング画像サンプルの人体の構造特徴点の位置情報を表示することもできる。
S603:前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するステップ。
このステップでは、前記推定された姿勢情報は具体的に人体の構造特徴点の位置情報であり、次に複数のトレーニング人体境界ボックスが人体の構造特徴点の前記位置情報に従って人体毎に構築される。人体境界ボックスを構築するために、ウエスト中心点がルートノードとして使用されることが望ましいがこれに限られない。
具体的にはトレーニングする人体の構造特徴点が4つある時、図7に示されるように、頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中央軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸と見なすことによって、人体毎に3つの人体境界ボックスがそれぞれ構築され、本発明の実施例において4つの特徴点の人体境界ボックスの概略図が提供される。
構築された後、異なる人体の同じ部分の人体境界ボックスがサイズおよび方向で一致するように、前記3つの人体境界ボックスが回転され、サイズ変更され、すなわち正規化される。ここで人体の前記構造特徴点は対応する人体境界ボックスにある。
別の実施例では、人体のトレーニング構造特徴点が6つある時、図8に示されるように頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸と見なすことによって、人体毎に5つの人体境界ボックスがそれぞれ構築される。図8は、本発明の実施例において提供される6つの特徴点の人体境界ボックスの概略図を示す。
構築された後、異なる人体の同じ部分の人体境界ボックスがサイズおよび方向で一致するように、前記5つの人体境界ボックスが回転され、サイズ変更され、すなわち正規化される。ここで人体の前記構造特徴点は対応する人体境界ボックスにある。
本実施例では、前記姿勢分類器に従って前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおいて姿勢推定処理を実行するプロセスは、具体的にはS602およびS603の実現プロセスによって実現される。
別の実施例では、複数のトレーニング対象物包囲枠において正規化を実行した後、図7および図8に示されるように前記複数の正規化されたトレーニングオブジェクト境界ボックス、具体的には回転され、サイズ変更された複数のトレーニングオブジェクト境界ボックスを表示することができる。
S604:姿勢分類器を生成するために前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するステップ。
このステップでは、正規化されたトレーニング画像サンプルにおいてトレーニングを実行する前記ステップは、具体的には正規化されたトレーニング画像サンプルの人体境界ボックスの特徴ベクトルを計算し、前記特徴ベクトルをトレーニングし、その結果、特徴の計算における人体の姿勢の影響が除去され、従って同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになるステップを含み、ここで前記特徴ベクトルはHOGベクトルである。
前記対象物分類器は、SVM(サポートベクトルマシン)対象物分類器を含み、具体的にそれだけには限定されないが、SVM人間分類器であることが望ましい。
オプションで正規化されたトレーニング画像サンプルの人体境界ボックスの特徴ベクトルが計算された後、後で使用できるように前記特徴ベクトルを格納することができる。具体的には本実施例において生成された対象物分類器は、その後の対象物検出プロセスにおける対象物検出に使用することができる。
前記SVM対象物分類器は取得された後、後で使用できるように格納できることが望ましい。
本実施例では、第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおける姿勢推定処理は、姿勢分類器に従って実行され、次いで前記姿勢推定処理によって処理されたトレーニング画像サンプルは、対象物分類器を生成するためにトレーニングされ、従って生成された対象物分類器によって、対象物の特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになり、それによって異なる姿勢の関節を有する対象物を検出することができ、対象物ヒット率を向上させることができる。
図9を参照すると、本発明の実施例において、対象物検出のための方法の一実施例のフローチャートが提供される。本発明の実施例における対象物は、具体的には人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない関節を有する対象物である。本実施例において採用される姿勢分類器および対象物分類器は、上述の実施例において生成された姿勢分類器および対象物分類器である。
対象物検出のための前記方法は以下を含む。
S901:入力画像サンプルを取得するステップ。
S902:前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するステップ。
S903:前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するステップ。
本実施例では、入力画像サンプルにおける姿勢推定処理は姿勢分類器に従って実行され、従って特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになる。次に姿勢推定に従って生成された対象物分類器を使用して、処理された入力画像サンプルにおいて対象物検出が実行され、従って対象物の位置情報が取得され、対象物検出プロセスにおいて対象物の姿勢情報が十分に考慮され、異なる姿勢の関節を有する対象物を検出することができ、従って対象物ヒット率が増加する。
本発明の実施例における対象物は、具体的には人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない関節を有する対象物である。本実施例では、詳細な説明のために一例として人体が使用される。図10は、本発明の実施例において提供された対象物検出のための方法の別の実施例のフローチャートであり、本実施例において採用される姿勢分類器および対象物分類器は、上述の実施例において生成された姿勢分類器および対象物分類器である。
S1001:入力画像サンプルを取得するステップ。
対象物検出のプロセス中に、入力画像サンプルにおいて、前記入力画像サンプルに人体など関節を有する対象物があるかどうかを検出するための検出が必要となる。前記入力画像サンプルは1つまたは複数の人体を含む画像、または人体を含まない画像でもよく、この態様における特定の限定はない。
S1002:前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得するステップ。
前記推定された姿勢情報は、具体的には人体の構造特徴点の位置情報である。人体の構造特徴点は4つまたは6つであるのが望ましい。具体的に人体の構造特徴点が4つある場合、人体の前記構造特徴点は頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、人体の構造特徴点が6つある場合、人体の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含む。
S1003:前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分の対象物境界ボックスがサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行するステップ。
S1003およびS603の手順は類似している。違いは、S603では、前記第2のトレーニング画像サンプルにおける指定された画像サンプルの推定された姿勢情報に従って対応する処理が実行され、一方、S1003では、前記入力画像サンプルの推定された姿勢情報において対応する処理が実行されるという点である。関連の説明は、S603にあるためここで詳述しない。
本実施例では、前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するプロセスは、具体的にはS1002およびS1003の実現プロセスで実現される。
1004:前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するステップ。
このステップでは、前記対象物分類器に従って前記正規化された入力画像サンプルにおいて人体の検出を実行する前記ステップは、具体的には入力画像サンプルの正規化された人体境界ボックスの特徴ベクトルを計算し、前記対象物分類器、具体的には人体分類器に従って入力画像サンプルの正規化された人体境界ボックスの前記特徴ベクトルにおいて人体の検出を実行して、特徴の計算における人体の姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有するようになるステップを含み、ここで前記特徴ベクトルはHOGベクトルである。
ROC(受信者動作特性)曲線は、システムのヒット率と偽陽性率との間の関係を反映し、ここでヒット率=正確に検出されたターゲット対象物の量/テストセットにおけるターゲット対象物の総量、偽陽性率=誤って検出されたターゲット対象物の量/テストセットにおけるすべての走査窓の総量である。本実施例における対象物検出のための方法のROC曲線については、図11を参照されたい。図11は、本発明および従来技術の実施例のROC曲線である。本発明の実施例における対象物検出のための方法のROC曲線が従来技術のものより明らかに優れていることが図11からわかる。
本実施例では、姿勢分類器に従って入力画像サンプルにおける姿勢推定処理が実行され、従って特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになり、次に姿勢推定に従って生成された対象物分類器を使用して、処理された入力画像サンプルにおいて対象物検出が実行され、従って対象物の位置情報が取得され、対象物検出プロセスにおいて、関節を有する対象物の姿勢情報が十分に考慮され、異なる姿勢の関節を有する対象物を検出することができ、従って対象物ヒット率が向上する。
図12は、本発明の実施例において提供される姿勢分類器をトレーニングするための装置の構造図を示す。姿勢分類器をトレーニングするための前記装置は以下を含む。
第1のトレーニング画像サンプルセットを取得するための第1の取得モジュール1201と、
前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの、実際の姿勢情報を取得するための第2の取得モジュール1202と、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するための第1のトレーニング生成モジュール1203とを含む。
図13を参照すると、一実施例において前記第1のトレーニング生成モジュール1203は、
損失関数を構築するための第1の構築ユニット1203aであって、前記損失関数の入力が前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差である、第1の構築ユニット1203aと、
マッピング関数を構築するための第2の構築ユニット1203bであって、前記マッピング関数の入力が、前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が、前記指定された数のトレーニング画像サンプルの推定された姿勢情報である、第2の構築ユニット1203bと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するための姿勢分類器取得ユニット1203cとを含む。
ここでは前記損失関数は、実際の姿勢情報と推定された姿勢情報との間の位置差である。
または、前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差および方向差である。
本実施例では、第1のトレーニング画像サンプルセット、および前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報が取得され、マッピング関数および損失関数は、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って構築され、前記損失関数の出力値が最小になるまで、前記マッピング関数は、前記損失関数の出力値に従って調整され、回帰トレーニングプロセスを実現することによって、前記損失関数の出力値を最小にするマッピング関数が姿勢分類器として選択され、その結果様々な姿勢の関節を有する対象物を姿勢分類器によって検出できるようになり、それによって対象物ヒット率が向上する。
さらに、回帰方法によって生成される姿勢分類器が、対象物分類器トレーニングプロセスおよび対象物検出プロセスに対して姿勢推定のためにそれぞれ出力され、このことは、本実施例において多出力回帰の方法が採用されることを意味し、本実施例における方法の計算の複雑さは従来の姿勢推定方法のものと比較して低減する。本実施例では、損失関数が構築される時に方向差が考慮され、これは異なる姿勢の対象物の検出に、より有利であり対象物ヒット率を向上させる。
本発明の実施例における対象物は、具体的には人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない関節を有する対象物である。図14は、本発明の実施例において提供される対象物分類器をトレーニングするための装置の一実施例の構造図である。本実施例における対象物分類器をトレーニングするための前記装置は、上述の実施例において生成される姿勢分類器である。
対象物分類器をトレーニングするための前記装置は、以下を含む。
第2のトレーニング画像サンプルセットを取得するための第3の取得モジュール1401と、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおいて姿勢推定処理を実行するための第1の姿勢推定モジュール1402と、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するための第2のトレーニング生成モジュール1403とを含む。
図15を参照すると、一実施例において前記第1の姿勢推定モジュール1402は、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおいて姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するための第1の姿勢推定ユニット1402aと、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するための第1の構築処理ユニット1402bとを含む。
それに対応して、前記第2のトレーニング生成モジュール1403は、
前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するためのトレーニングユニット1403aを含む。
別の実施例では、前記装置は、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得する前記ステップの後、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を表示するための第1のグラフィックユーザインターフェース(GUI)をさらに含む。
別の実施例では、前記装置は、
前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップの後、前記複数の正規化されたトレーニング対象物包囲枠を表示するための第2のグラフィックユーザインターフェースをさらに含む。
他の実施例において、前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニット1402bは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第1の構築サブユニットを含み、対象物の前記構造特徴点は対応する対象物境界ボックスにある。
別の実施例において前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、トレーニング対象物の前記構造特徴点は頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニット1402bは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し前記5つの対象物境界ボックスを回転し、サイズ変更するための第2の構築サブユニットを含み、対象物の前記構造特徴点は対応する対象物境界ボックスにある。
本実施例では、第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルにおける姿勢推定処理は姿勢分類器に従って実行され、次いで前記姿勢推定処理によって処理されたトレーニング画像サンプルは、対象物分類器を生成するためにトレーニングされ、従って生成された対象物分類器によって、対象物の特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになり、それによって異なる姿勢の関節を有する対象物を検出することができ、対象物ヒット率を向上させることができる。
本発明の実施例における対象物は、人体、ロボット、サル、またはイヌなどの対象物を含むがこれらに限られない関節を有する対象物である。図16は、本発明の実施例において提供される対象物検出のための装置の一実施例の構造図である。本実施例における対象物検出のための前記装置は、上述の実施例において生成された姿勢分類器および対象物分類器を採用する。
対象物検出のための前記装置は、
入力画像サンプルを取得するための第4の取得モジュール1601と、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するための第2の姿勢推定モジュール1602と、
前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するための検出モジュール1603とを含む。
図17を参照すると、一実施例において、前記第2の姿勢推定モジュール1602は、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得するための第2の姿勢推定ユニット1602aと、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行するための第2の構築処理ユニット1602bとを含む。
それに対応して、前記検出モジュール1603は、
前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行するための検出ユニット1603aを含む。
別の実施例では、前記装置は、
前記入力画像サンプルの推定された姿勢情報を取得する前記ステップの後、前記入力画像サンプルの推定された姿勢情報を表示するための第3のグラフィックユーザインターフェースをさらに含む。
別の実施例では、前記装置は、
複数の対象物境界ボックスにおいて正規化を実行する前記ステップの後、前記複数の正規化された対象物境界ボックスを表示するための第4のグラフィックユーザインターフェースをさらに含む。
他の実施例において前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニット1602bは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第3の構築サブユニットを含み、対象物の前記構造特徴点は対応する対象物境界ボックスにある。
他の実施例において前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、対象物の前記構造特徴点は頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニット1602bは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸と見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するための第4の構築サブユニットを含み、前記対象物の前記構造特徴点は対応する対象物境界ボックスにある。
本実施例では、入力画像サンプルにおける姿勢推定処理は姿勢分類器に従って実行され、従って特徴の計算における姿勢の影響が除去され、その結果同じタイプの対象物は、異なる姿勢にあっても一致した特徴ベクトルを有することができるようになる。次に姿勢推定に従って生成された対象物分類器を使用して、処理された入力画像サンプルにおいて対象物検出が実行され、従って対象物の位置情報が取得され、対象物検出プロセスにおいて対象物の姿勢情報が十分に考慮され、異なる姿勢の関節を有する対象物を検出することができ、従って対象物ヒット率が向上する。
本説明におけるすべての実施例は漸進的な手段で記載されており、各実施例は他の実施例との差を強調しており、実施例の同じ部分は相互に関連するということに留意されたい。装置の実施例は方法の実施例と基本的に類似しているので、簡素化されている。関連については方法の実施例の説明部分を参照されたい。
本書では、第1および第2などの関係を示す用語は、あるエンティティまたは操作を別のエンティティまたは操作と区別するために使用されているにすぎず、それらのエンティティまたは操作の実際の関係または順序を必要としたり、暗示しないことに留意されたい。さらに「備える」、「含む」という用語、および任意の他の変形は、プロセス、方法、オブジェクト、もしくは装置(一連の要求を含む)が非排他的な要素を網羅するだけでなく、明示された要素も含むことを意味し、またプロセス、方法、オブジェクト、もしくは装置の固有の要素も含むことを意味する。また「〜を備える」という文章によって限定される要素は、プロセス、方法、オブジェクト、または装置内に存在する他の同一の要素を除外しない。但し他の限定は考慮しない。
上述の実施例を実現するためのステップのすべてまたは一部は、ハードウェアによって、またはプログラムの命令によって関連のハードウェアによって達成することができ、前記プログラムを、ROM、ディスク、または光ディスクなどの可読メモリ媒体に格納することができることを、当業者であれば理解することができる。
上述の説明は本発明の例示的な実施例であり、本発明を限定することはできない。本発明の精神および原理の範囲内で、任意の変更、同等物との置換、または改良はすべて、本発明の補償範囲内に含まれるものとする。
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
第1のトレーニング画像サンプルセットを取得するステップと、
前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの、実際の姿勢情報を取得するステップと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するステップと
を含むことを特徴とする姿勢分類器トレーニング方法。
(付記2)
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成する前記ステップは、
損失関数を構築するステップと、
マッピング関数を構築するステップと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するステップとを含み、
前記損失関数の入力が前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差であり、
前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である
ことを特徴とする付記1に記載の姿勢分類器トレーニング方法。
(付記3)
前記損失関数は、実際の姿勢情報と推定された姿勢情報との間の位置差である
ことを特徴とする付記2に記載の姿勢分類器トレーニング方法。
(付記4)
前記損失関数は、実際の姿勢情報と推定された姿勢情報との間の位置差および方向差である
ことを特徴とする付記2に記載の姿勢分類器トレーニング方法。
(付記5)
付記1から付記4の何れか1項に記載の姿勢分類器トレーニング方法によって生成された姿勢分類器を使用して対象物分類器をトレーニングする対象物分類器トレーニング方法であって、
第2のトレーニング画像サンプルセットを取得するステップと、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行するステップと、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するステップとを含み、
前記対象物は関節を有する対象物である
ことを特徴とする対象物分類器トレーニング方法。
(付記6)
前記姿勢分類器に従って前記第2のトレーニング画像サンプルセットにおける、指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行する前記ステップは、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するステップと、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するステップとを含み、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行する前記ステップは、
前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するステップを含む
ことを特徴とする付記5に記載の対象物分類器トレーニング方法。
(付記7)
前記指定された数のトレーニング画像サンプルの、推定された姿勢情報を取得する前記ステップの後に、
前記指定された数のトレーニング画像サンプルの、推定された姿勢情報を表示するステップを有する
ことを特徴とする付記6に記載の対象物分類器トレーニング方法。
(付記8)
前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップの後に、
前記複数の正規化されたトレーニング対象物包囲枠を表示するステップを有する
ことを特徴とする付記6に記載の対象物分類器トレーニング方法。
(付記9)
前記推定された姿勢情報は、具体的にはトレーニング対象物の構造特徴点の位置情報であり、
トレーニング対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、
前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するステップを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記5から付記8の何れか1項に記載の対象物分類器トレーニング方法。
(付記10)
前記推定された姿勢情報は、トレーニング対象物の構造特徴点の位置情報であり、
トレーニング対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数のトレーニング対象物包囲枠において正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するステップを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記5から付記8の何れか1項に記載の対象物分類器トレーニング方法。
(付記11)
付記1から付記4の何れか1項に記載の姿勢分類器トレーニング方法によって生成された姿勢分類器、および付記5から付記10の何れか1項に記載の対象物分類器トレーニング方法によって生成された対象物分類器を使用した対象物検出方法であって、
入力画像サンプルを取得するステップと、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するステップと、
前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するステップとを含み、
前記対象物は関節を有する対象物である
ことを特徴とする対象物検出方法。
(付記12)
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行する前記ステップは、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得するステップと、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分の対象物境界ボックスがサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行するステップとを含み、
それに対応して、前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行する前記ステップは、
前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行するステップを含む
ことを特徴とする付記11に記載の対象物検出方法。
(付記13)
前記入力画像サンプルの推定された姿勢情報を取得する前記ステップの後に、前記入力画像サンプルの推定された姿勢情報を表示するステップを有する
ことを特徴とする付記12に記載の対象物検出方法。
(付記14)
複数の対象物境界ボックスにおいて正規化を実行する前記ステップの後に、前記複数の正規化された対象物境界ボックスを表示するステップを有する
ことを特徴とする付記12に記載の対象物検出方法。
(付記15)
前記推定された姿勢情報は、対象物の構造特徴点の位置情報であり、
対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するステップを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記12から付記14の何れか1項に記載の対象物検出方法。
(付記16)
前記推定された姿勢情報は、具体的には対象物の構造特徴点の位置情報であり、
対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、前記複数の対象物境界ボックスにおいて正規化を実行する前記ステップは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するステップを含み、
前記対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記12から付記14の何れか1項に記載の対象物検出方法。
(付記17)
第1のトレーニング画像サンプルセットを取得する第1の取得モジュールと、
前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得する第2の取得モジュールと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成する第1のトレーニング生成モジュールとを含む
ことを特徴とする姿勢分類器トレーニング装置。
(付記18)
前記第1のトレーニング生成モジュールは、
損失関数を構築する第1の構築ユニットと、
マッピング関数を構築する第2の構築ユニットと、
前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択する姿勢分類器取得ユニットとを含み、
前記損失関数の入力が、前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差であり、
前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である
ことを特徴とする付記17に記載の姿勢分類器トレーニング装置。
(付記19)
前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差である
ことを特徴とする付記18に記載の姿勢分類器トレーニング装置。
(付記20)
ここで前記損失関数は実際の姿勢情報と推定された姿勢情報との間の位置差および方向差であることが望ましい。
ことを特徴とする付記18に記載の姿勢分類器トレーニング装置。
(付記21)
付記17から付記20の何れか1項に記載の姿勢姿勢分類器トレーニング装置によって生成された姿勢分類器を使用して、対象物分類器をトレーニングする対象物分類器トレーニング装置であって、
第2のトレーニング画像サンプルセットを取得する第3の取得モジュールと、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して、姿勢推定処理を実行する第1の姿勢推定モジュールと、
前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成する第2のトレーニング生成モジュールとを含み、
前記対象物は関節を有する対象物である
ことを特徴とする対象物分類器トレーニング装置。
(付記22)
前記第1の姿勢推定モジュールは、
前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得する第1の姿勢推定ユニットと、
前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行する第1の構築処理ユニットとを含み、
前記第2のトレーニング生成モジュールは、
前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するためのトレーニングユニットを含む
ことを特徴とする付記21に記載の対象物分類器トレーニング装置。
(付記23)
前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得した後に、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を表示する第1のグラフィックユーザインターフェースを含む
ことを特徴とする付記22に記載の対象物分類器トレーニング装置。
(付記24)
前記複数のトレーニング対象物包囲枠において正規化を実行した後に、前記複数の正規化されたトレーニング対象物包囲枠を表示する第2のグラフィックユーザインターフェースを含む
ことを特徴とする付記22に記載の対象物分類器トレーニング装置。
(付記25)
前記推定された姿勢情報は、トレーニング対象物の構造特徴点の位置情報であり、
トレーニング対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第1の構築サブユニットを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記22から付記24の何れか1項に記載の対象物分類器トレーニング装置。
(付記26)
前記推定された姿勢情報は、トレーニング対象物の構造特徴点の位置情報であり、
トレーニング対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第1の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するための第2の構築サブユニットを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記22から付記24の何れか1項に記載の対象物分類器トレーニング装置。
(付記27)
付記17から付記20の何れか1項に記載の姿勢姿勢分類器トレーニング装置によって生成された姿勢分類器、及び、付記21から付記26の何れか1項に記載の対象物分類器トレーニング装置によって生成された対象物分類器を使用した対象物検出装置であって、
入力画像サンプルを取得する第4の取得モジュールと、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行する第2の姿勢推定モジュールと、
前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するための検出モジュールとを含み、
前記対象物は関節を有する対象物である
ことを特徴とする対象物検出装置。
(付記28)
前記第2の姿勢推定モジュールは、
前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定を実行して、前記入力画像サンプルの推定された姿勢情報を取得する第2の姿勢推定ユニットと、
前記入力画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数の対象物境界ボックスを構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数の対象物境界ボックスにおいて正規化を実行する第2の構築処理ユニットとを含み、
前記検出モジュールは、
前記対象物分類器に従って前記正規化された入力画像サンプルにおいて対象物検出を実行する検出ユニットを含む
ことを特徴とする付記27に記載の対象物検出装置。
(付記29)
前記入力画像サンプルの推定された姿勢情報を取得した後、前記入力画像サンプルの推定された姿勢情報を表示する第3のグラフィックユーザインターフェースを含む
ことを特徴とする付記28に記載の対象物検出装置。
(付記30)
複数の対象物境界ボックスにおいて正規化を実行した後、前記複数の正規化された対象物境界ボックスを表示する第4のグラフィックユーザインターフェースを含む
ことを特徴とする付記28に記載の対象物検出装置。
(付記31)
前記推定された姿勢情報は、対象物の構造特徴点の位置情報であり、
対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸とそれぞれ見なすことによって、関節を有する対象物毎に3つの対象物境界ボックスを構築し、前記3つの対象物境界ボックスを回転し、サイズ変更するための第3の構築サブユニットを含み、
対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記28から付記30の何れか1項に記載の対象物検出装置。
(付記32)
前記推定された姿勢情報は、対象物の構造特徴点の位置情報であり、
対象物の前記構造特徴点は、頭部中心点、ウエスト中心点、左膝中心点、右膝中心点、左足中心点、および右足中心点を含み、
前記第2の構築処理ユニットは、
頭部中心点とウエスト中心点との間の直線を中心軸と見なし、ウエスト中心点と左膝中心点との間の直線を中心軸と見なし、ウエスト中心点と右膝中心点との間の直線を中心軸と見なし、ウエスト中心点と左足中心点との間の直線を中心軸と見なし、ウエスト中心点と右足中心点との間の直線を中心軸と見なすことによって、関節を有する対象物毎に5つの対象物境界ボックスを構築し、前記5つの対象物境界ボックスを回転し、サイズ変更するための第4の構築サブユニットを含み、
前記対象物の前記構造特徴点は、対応する対象物境界ボックスにある
ことを特徴とする付記28から付記30の何れか1項に記載の対象物検出装置。
1201:第1の取得モジュール
1202:第2の取得モジュール
1203:第1のトレーニング生成モジュール
1203a:第1の構築ユニット
1203b:第2の構築ユニット
1401:第3の取得モジュール
1402:第1の姿勢推定モジュール
1403:第2のトレーニング生成モジュール
1402a:第1の姿勢推定ユニット
1402b:第1の構築処理ユニット
1403a:トレーニングユニット
1601:第4の取得モジュール
1602:第2の姿勢推定モジュール
1603:検出モジュール
1602a:第2の姿勢推定ユニット
1602b:第2の構築処理ユニット
1603a:検出ユニット

Claims (10)

  1. 第1のトレーニング画像サンプルセットを取得するステップと、
    前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの、実際の姿勢情報を取得するステップと、
    前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成するステップと
    を含むことを特徴とする姿勢分類器トレーニング方法。
  2. 前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成する前記ステップは、
    損失関数を構築するステップと、
    マッピング関数を構築するステップと、
    前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰を実行し、前記損失関数の出力値を最小にするマッピング関数を姿勢分類器として選択するステップとを含み、
    前記損失関数の入力が前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報であり、前記損失関数の出力が、実際の姿勢情報と前記指定された数のトレーニング画像サンプルの推定された姿勢情報との間の差であり、
    前記マッピング関数の入力が前記指定された数のトレーニング画像サンプルであり、前記マッピング関数の出力が前記指定された数のトレーニング画像サンプルの推定された姿勢情報である
    ことを特徴とする請求項1に記載の姿勢分類器トレーニング方法。
  3. 前記損失関数は、実際の姿勢情報と推定された姿勢情報との間の位置差である
    ことを特徴とする請求項2に記載の姿勢分類器トレーニング方法。
  4. 前記損失関数は、実際の姿勢情報と推定された姿勢情報との間の位置差および方向差である
    ことを特徴とする請求項2に記載の姿勢分類器トレーニング方法。
  5. 請求項1から請求項4の何れか1項に記載の姿勢分類器トレーニング方法によって生成された姿勢分類器を使用して対象物分類器をトレーニングする対象物分類器トレーニング方法であって、
    第2のトレーニング画像サンプルセットを取得するステップと、
    前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行するステップと、
    前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成するステップとを含み、
    前記対象物は関節を有する対象物である
    ことを特徴とする対象物分類器トレーニング方法。
  6. 前記姿勢分類器に従って前記第2のトレーニング画像サンプルセットにおける、指定された数のトレーニング画像サンプルに対して姿勢推定処理を実行する前記ステップは、
    前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して姿勢推定を実行して、前記指定された数のトレーニング画像サンプルの推定された姿勢情報を取得するステップと、
    前記指定された数のトレーニング画像サンプルの推定された姿勢情報に従って、関節を有する対象物毎に複数のトレーニング対象物包囲枠を構築し、異なる対象物の同じ部分のトレーニング対象物包囲枠がサイズおよび方向で一致するように、前記複数のトレーニング対象物包囲枠において正規化を実行するステップとを含み、
    前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行する前記ステップは、
    前記正規化されたトレーニング画像サンプルにおいてトレーニングを実行するステップを含む
    ことを特徴とする請求項5に記載の対象物分類器トレーニング方法。
  7. 請求項1から請求項4の何れか1項に記載の姿勢分類器トレーニング方法によって生成された姿勢分類器、および請求項5から請求項10の何れか1項に記載の対象物分類器トレーニング方法によって生成された対象物分類器を使用した対象物検出方法であって、
    入力画像サンプルを取得するステップと、
    前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行するステップと、
    前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するステップとを含み、
    前記対象物は関節を有する対象物である
    ことを特徴とする対象物検出方法。
  8. 第1のトレーニング画像サンプルセットを取得する第1の取得モジュールと、
    前記第1のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルの実際の姿勢情報を取得する第2の取得モジュールと、
    前記指定された数のトレーニング画像サンプルおよびその実際の姿勢情報に従って回帰トレーニングプロセスを実行して、姿勢分類器を生成する第1のトレーニング生成モジュールとを含む
    ことを特徴とする姿勢分類器トレーニング装置。
  9. 請求項17から請求項20の何れか1項に記載の姿勢姿勢分類器トレーニング装置によって生成された姿勢分類器を使用して、対象物分類器をトレーニングする対象物分類器トレーニング装置であって、
    第2のトレーニング画像サンプルセットを取得する第3の取得モジュールと、
    前記姿勢分類器に従って、前記第2のトレーニング画像サンプルセットにおける指定された数のトレーニング画像サンプルに対して、姿勢推定処理を実行する第1の姿勢推定モジュールと、
    前記姿勢推定によって処理されたトレーニング画像サンプルにおいてトレーニングを実行して、対象物分類器を生成する第2のトレーニング生成モジュールとを含み、
    前記対象物は関節を有する対象物である
    ことを特徴とする対象物分類器トレーニング装置。
  10. 請求項17から請求項20の何れか1項に記載の姿勢姿勢分類器トレーニング装置によって生成された姿勢分類器、及び、請求項21から請求項26の何れか1項に記載の対象物分類器トレーニング装置によって生成された対象物分類器を使用した対象物検出装置であって、
    入力画像サンプルを取得する第4の取得モジュールと、
    前記姿勢分類器に従って前記入力画像サンプルにおいて姿勢推定処理を実行する第2の姿勢推定モジュールと、
    前記対象物分類器に従って処理された入力画像サンプルにおいて対象物検出を実行して、対象物の位置情報を取得するための検出モジュールとを含み、
    前記対象物は関節を有する対象物である
    ことを特徴とする対象物検出装置。
JP2012287224A 2012-03-21 2012-12-28 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置 Pending JP2013196683A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210077224.3 2012-03-21
CN2012100772243A CN103324938A (zh) 2012-03-21 2012-03-21 训练姿态分类器及物体分类器、物体检测的方法及装置

Publications (1)

Publication Number Publication Date
JP2013196683A true JP2013196683A (ja) 2013-09-30

Family

ID=49193666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012287224A Pending JP2013196683A (ja) 2012-03-21 2012-12-28 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置

Country Status (3)

Country Link
US (1) US20130251246A1 (ja)
JP (1) JP2013196683A (ja)
CN (1) CN103324938A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190042197A (ko) * 2017-10-16 2019-04-24 한국과학기술원 동적 인간 모델에 대한 회귀 분석 기반 랜드마크 검출 방법 및 그 장치

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
CN104699717B (zh) * 2013-12-10 2019-01-18 中国银联股份有限公司 数据挖掘方法
CN105389583A (zh) * 2014-09-05 2016-03-09 华为技术有限公司 图像分类器的生成方法、图像分类方法和装置
US10083376B2 (en) * 2015-10-19 2018-09-25 Honeywell International Inc. Human presence detection in a home surveillance system
CN105931218B (zh) * 2016-04-07 2019-05-17 武汉科技大学 模块化机械臂的智能分拣方法
US10154624B2 (en) 2016-08-08 2018-12-18 The Climate Corporation Estimating nitrogen content using hyperspectral and multispectral images
CN107808111B (zh) * 2016-09-08 2021-07-09 北京旷视科技有限公司 用于行人检测和姿态估计的方法和装置
CN106570480B (zh) * 2016-11-07 2019-04-19 南京邮电大学 一种基于姿势识别的人体动作分类方法
CN106845515B (zh) * 2016-12-06 2020-07-28 上海交通大学 基于虚拟样本深度学习的机器人目标识别和位姿重构方法
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
CN110163046B (zh) * 2018-06-19 2023-09-19 腾讯科技(深圳)有限公司 人体姿态识别方法、装置、服务器及存储介质
WO2020024584A1 (zh) * 2018-08-03 2020-02-06 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN110795976B (zh) 2018-08-03 2023-05-05 华为云计算技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN109492534A (zh) * 2018-10-12 2019-03-19 高新兴科技集团股份有限公司 一种基于Faster RCNN的跨场景多姿态的行人检测方法
CN110457999B (zh) * 2019-06-27 2022-11-04 广东工业大学 一种基于深度学习和svm的动物姿态行为估计与心情识别方法
CN110349180B (zh) * 2019-07-17 2022-04-08 达闼机器人有限公司 人体关节点预测方法及装置、动作类型识别方法及装置
CN110458225A (zh) * 2019-08-08 2019-11-15 北京深醒科技有限公司 一种车辆检测和姿态分类联合识别方法
CN110660103B (zh) * 2019-09-17 2020-12-25 北京三快在线科技有限公司 一种无人车定位方法及装置
CN112528858A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 人体姿态估计模型的训练方法、装置、设备、介质及产品
CN113609999B (zh) * 2021-08-06 2024-02-20 湖南大学 基于姿态识别的人体模型建立方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043466A1 (ja) * 2003-10-30 2005-05-12 Nec Corporation 物体の状態を推定する推定システム、推定方法および推定プログラム
JP2006268850A (ja) * 2005-03-17 2006-10-05 Siemens Corporate Res Inc ブースティングを使用して画像ベースの回帰を実行する方法
JP2008112211A (ja) * 2006-10-27 2008-05-15 Toshiba Corp 姿勢推定装置及びその方法
JP2011128916A (ja) * 2009-12-18 2011-06-30 Fujifilm Corp オブジェクト検出装置および方法並びにプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526123B2 (en) * 2004-02-12 2009-04-28 Nec Laboratories America, Inc. Estimating facial pose from a sparse representation
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
CN101393599B (zh) * 2007-09-19 2012-02-08 中国科学院自动化研究所 一种基于人脸表情的游戏角色控制方法
CN101763503B (zh) * 2009-12-30 2012-08-22 中国科学院计算技术研究所 一种姿态鲁棒的人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043466A1 (ja) * 2003-10-30 2005-05-12 Nec Corporation 物体の状態を推定する推定システム、推定方法および推定プログラム
JP2006268850A (ja) * 2005-03-17 2006-10-05 Siemens Corporate Res Inc ブースティングを使用して画像ベースの回帰を実行する方法
JP2008112211A (ja) * 2006-10-27 2008-05-15 Toshiba Corp 姿勢推定装置及びその方法
JP2011128916A (ja) * 2009-12-18 2011-06-30 Fujifilm Corp オブジェクト検出装置および方法並びにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190042197A (ko) * 2017-10-16 2019-04-24 한국과학기술원 동적 인간 모델에 대한 회귀 분석 기반 랜드마크 검출 방법 및 그 장치
KR101995126B1 (ko) * 2017-10-16 2019-07-01 한국과학기술원 동적 인간 모델에 대한 회귀 분석 기반 랜드마크 검출 방법 및 그 장치

Also Published As

Publication number Publication date
US20130251246A1 (en) 2013-09-26
CN103324938A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
JP2013196683A (ja) 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置
US10198823B1 (en) Segmentation of object image data from background image data
WO2019128508A1 (zh) 图像处理方法、装置、存储介质及电子设备
JP6596164B2 (ja) 単一ビューオブジェクト再構成のためのファイングレインデータセットにおける教師なしマッチング
WO2021068323A1 (zh) 多任务面部动作识别模型训练方法、多任务面部动作识别方法、装置、计算机设备和存储介质
US11481869B2 (en) Cross-domain image translation
US9098740B2 (en) Apparatus, method, and medium detecting object pose
WO2017096753A1 (zh) 人脸关键点跟踪方法、终端和非易失性计算机可读存储介质
JP2022502751A (ja) 顔キーポイント検出方法、装置、コンピュータ機器及びコンピュータプログラム
JP2016170542A (ja) 画像処理装置、画像処理方法及びプログラム
JP6207210B2 (ja) 情報処理装置およびその方法
Shao et al. Computer vision for RGB-D sensors: Kinect and its applications [special issue intro.]
CN103430218A (zh) 用3d脸部建模和地标对齐扩增造型的方法
JP2006524394A (ja) 画像における人体輪郭描写
JP6920246B2 (ja) 行動認識装置、モデル構築装置及びプログラム
JP2016091108A (ja) 人体部位検出システムおよび人体部位検出方法
WO2021218238A1 (zh) 图像处理方法和图像处理装置
Tepelea et al. A vision module for visually impaired people by using Raspberry PI platform
WO2014169346A1 (en) System and method of tracking an object
Zhou et al. MTCNet: Multi-task collaboration network for rotation-invariance face detection
CN108875488B (zh) 对象跟踪方法、对象跟踪装置以及计算机可读存储介质
Shi et al. Combined channel and spatial attention for YOLOv5 during target detection
JP2011232845A (ja) 特徴点抽出装置および方法
Kausar et al. A novel mathematical modeling and parameterization for sign language classification
JP4942197B2 (ja) テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140902