JP7396364B2

JP7396364B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP7396364B2
Application number: JP2021553986A
Authority: JP
Inventors: 登吉田; 祥治西村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-12-12
Anticipated expiration: 2039-10-31
Also published as: EP4053790A1; EP4053790A4; US20240087353A1; JPWO2021084687A1; WO2021084687A1; CN114641794A

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムが格納された非一時的なコンピュータ可読媒体に関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態の検出や検索を行う技術が利用されている。関連する技術として、例えば、特許文献１及び２が知られている。特許文献１には、人物を撮像した画像から人物の姿勢を推定し、推定された姿勢に類似した姿勢を含む画像を検索する技術が開示されている。特許文献２には、人物を撮像した画像から人物の状態を検出し、検出された状態に基づいて人物の身長を推定する技術が開示されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

特開２０１９－０９１１３８号公報国際公開第２０１９／０６４３７５号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

上記特許文献１のような関連する技術では、類似した姿勢を検索するため、人物の姿勢の特徴を示す特徴量を用いているが、特定の観点からの検索しか考慮されていないため、多様な観点からの検索に対しロバスト性が低い場合がある。このため、関連する技術では、人物の状態の検索や分類等の状態認識処理のロバスト性が低いという問題がある。

本開示は、このような課題に鑑み、人物の状態認識処理のロバスト性を向上することが可能な画像処理装置、画像処理方法及び画像処理プログラムが格納された非一時的なコンピュータ可読媒体を提供することを目的とする。

本開示に係る画像処理装置は、取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定する推定手段と、前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する正規化手段と、を備えるものである。

本開示に係る画像処理方法は、取得される２次元画像に基づいて人物の２次元骨格構造を検出し、前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化するものである。

本開示に係る画像処理プログラムが格納された非一時的なコンピュータ可読媒体は、取得される２次元画像に基づいて人物の２次元骨格構造を検出し、前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体である。

本開示によれば、人物の状態認識処理のロバスト性を向上することが可能な画像処理装置、画像処理方法及び画像処理プログラムが格納された非一時的なコンピュータ可読媒体を提供することができる。

実施の形態に係る画像処理装置の概要を示す構成図である。実施の形態１に係る画像処理装置の構成を示す構成図である。実施の形態１に係る画像処理装置の他の構成を示す構成図である。実施の形態１に係る画像処理方法を示すフローチャートである。実施の形態１に係る身長画素数算出方法の具体例１を示すフローチャートである。実施の形態１に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態１に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態１に係る正規化方法を示すフローチャートである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る身長画素数算出方法を説明するためのヒストグラムである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る３次元人体モデルを示す図である。実施の形態１に係る身長画素数算出方法を説明するための図である。実施の形態１に係る身長画素数算出方法を説明するための図である。実施の形態１に係る身長画素数算出方法を説明するための図である。実施の形態１に係る正規化方法を説明するための図である。実施の形態１に係る正規化方法を説明するための図である。実施の形態１に係る正規化方法を説明するための図である。実施の形態１に係る画像処理方法の効果を説明するための図である。実施の形態１に係る画像処理方法の効果を説明するための図である。実施の形態１に係る画像処理方法の効果を説明するための図である。実施の形態１に係る画像処理方法の効果を説明するための図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態に至る検討）
近年、ディープラーニング等の機械学習を活用した画像認識技術が様々なシステムに応用されている。例えば、監視カメラの画像により監視を行う監視システムへの適用が進められている。監視システムに機械学習を活用することで、画像から人物の姿勢や行動等の状態をある程度把握することが可能とされつつある。

しかしながら、このような関連する技術では、機械学習による事前準備が前提となるため、必ずしもオンデマンドにユーザが望む人物の状態を把握できない場合がある。すなわち、関連する技術では、予め人物の状態が定義された画像（座り込んでいる画像や手を挙げている画像等）を大量に学習する必要がある。そうすると、事前に定義することができない人物の状態を監視対象としたい場合には、機械学習では対応することが困難である。

また、関連する技術では、多様な観点からの検索が考慮されていない。例えば、同じ姿勢であれば、どの向きの姿勢でも同じ姿勢と判定することや、画角の影響をなるべく抑えることをユーザが望む場合がある。ディープラーニングを用いることにより姿勢情報を画角や人物の向きにロバストな特徴量に変換する方法もあるが、この方法では、上記のように大量の学習データが必要であり、未知の（学習データにない）姿勢に弱いという問題がある。また、例えば人物の体の一部が隠れている場合に検索を行うことができず、部分一致等の柔軟な検索にも対応することができない。

そこで、発明者らは、人物の状態を機械学習するような事前準備を行うことなく、柔軟に人物の状態を認識するため、非特許文献１などの骨格推定技術を利用する方法を検討した。非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、人物の向きや画角等による影響に対しロバスト性の高い状態認識処理を可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
図１は、実施の形態に係る画像処理装置１０の概要を示している。図１に示すように、画像処理装置１０は、骨格検出部１１、推定部１２、正規化部１３を備えている。骨格検出部１１は、カメラ等から取得される２次元画像に基づいて人物の２次元骨格構造を検出する。推定部１２は、骨格検出部１１により検出された２次元骨格構造に基づいて、２次元画像空間上の人物の直立時の高さを推定する。正規化部１３は、推定部１２により推定された直立時の高さに基づいて、骨格検出部１１により検出された２次元骨格構造を正規化する。

このように、実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造から推定する人物の直立時の高さに基づいて２次元骨格構造を正規化する。これにより、この正規化された正規化値（特徴量）を用いた検索等の状態認識処理において、人物の向き等に対するロバスト性を向上することができる。

（実施の形態１）
以下、図面を参照して実施の形態１について説明する。図２は、本実施の形態に係る画像処理装置１００の構成を示している。画像処理装置１００は、カメラ２００及びデータベース（ＤＢ）１１０とともに画像処理システム１を構成する。画像処理装置１００を含む画像処理システム１は、画像から推定される人物の骨格構造を正規化するシステムである。また、正規化された骨格構造の特徴量を用いて、人物の状態の分類や検索等を行うことができる。

カメラ２００は、２次元の画像を生成する監視カメラ等の撮像部である。カメラ２００は、所定の箇所に設置されて、設置個所から撮像領域における人物等を撮像する。カメラ２００は、撮像した画像（映像）を画像処理装置１００へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、カメラ２００を画像処理装置１００の内部に設けてもよい。

データベース１１０は、画像処理装置１００の処理に必要な情報（データ）や処理結果等を格納するデータベースである。データベース１１０は、画像取得部１０１が取得した画像や、骨格構造検出部１０２の検出結果、機械学習用のデータ、正規化部１０４が正規化した特徴量等を記憶する。データベース１１０は、画像処理装置１００と必要に応じてデータを入出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、データベース１１０をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置１００の内部に設けてもよい。

図２に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、身長算出部１０３、正規化部１０４を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。なお、必要に応じて、ユーザからの操作を入力する入力部や、処理結果等を表示する表示部を備えていてもよい。

画像取得部１０１は、カメラ２００が撮像した人物を含む２次元の画像を取得する。画像取得部１０１は、例えば、所定の監視期間にカメラ２００が撮像した、人物を含む画像（複数の画像を含む映像）を取得する。なお、カメラ２００からの取得に限らず、予め用意された人物を含む画像をデータベース１１０等から取得してもよい。

骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造を検出する。骨格構造検出部１０２は、取得された画像の中で認識される全ての人物について、骨格構造を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

身長算出部（身長推定部）１０３は、検出された２次元の骨格構造に基づき、２次元の画像内の人物の直立時の高さ（身長画素数という）を算出（推定）する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）であるとも言える。身長算出部１０３は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

以下の例では、身長画素数を求める方法として具体例１～３を用いる。なお、具体例１～３のいずれかの方法を用いてもよいし、任意に選択される複数の方法を組み合わせて用いてもよい。具体例１では、骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求める。骨格構造検出部１０２（骨格推定技術）が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正することもできる。具体例２では、各ボーンの長さと全身の長さ（２次元画像空間上の身長）との関係を示す人体モデルを用いて、身長画素数を算出する。具体例３では、３次元人体モデルを２次元骨格構造にフィッティング（あてはめる）することで、身長画素数を算出する。

正規化部１０４は、算出された人物の身長画素数に基づいて、人物の骨格構造（骨格情報）を正規化する。この例では、正規化部１０４は、骨格構造に含まれる各キーポイント（特徴点）の画像上の高さを、身長画素数で正規化する。正規化部１０４は、正規化された骨格構造の特徴量（正規化値）をデータベース１１０に格納する。例えば、高さ方向（上下方向または縦方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における上下の方向（Ｙ軸方向）である。この場合、キーポイントの高さは、キーポイントのＹ座標の値（画素数）から求めることができる。
あるいは、高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラ２００の姿勢、位置、撮像角度、焦点距離等である。カメラ２００により、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。撮像された画像の両端ではひずみが発生し、実世界の鉛直方向と画像の上下方向が合わない場合がある。これに対し、画像を撮影したカメラのパラメータを使用することで、実世界の鉛直方向が画像中でどの程度傾いているのかが分かる。このため、カメラパラメータに基づいて画像中に投影した鉛直投影軸に沿ったキーポイントの値を身長で正規化することで、実世界と画像のずれを考慮してキーポイントを特徴量化することができる。なお、左右方向（横方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における左右の方向（Ｘ軸方向）であり、または、実世界の３次元座標空間における地面に対し平行な方向を、２次元座標空間に投影した方向である。

なお、画像処理装置１００は、図３に示すように、さらに、分類部１０５及び検索部１０６のいずれか、または両方を備えていてもよい。分類部１０５及び検索部１０６の両方、もしくは一方は、人物の状態の認識処理を行う認識部である。分類部１０５は、データベース１１０に格納された複数の骨格構造を、骨格構造の特徴量の類似度に基づいて分類する（クラスタリングする）。分類部１０５は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態を分類しているとも言える。また、検索部１０６は、データベース１１０に格納された複数の骨格構造の中から、検索クエリ（クエリ状態）の特徴量と類似度の高い骨格構造を検索する。検索部１０６は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態の中から、検索条件（クエリ状態）に該当する人物の状態を検索しているとも言える。

類似度は、骨格構造の特徴量間の距離である。分類部１０５及び検索部１０６は、骨格構造の全体の特徴量の類似度により分類及び検索してもよいし、骨格構造の一部の特徴量の類似度により分類及び検索してもよい。また、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を分類及び検索してもよいし、時間的に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を分類及び検索してもよい。すなわち、分類部１０５及び検索部１０６は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を分類及び検索できる。

図４～図８は、本実施の形態に係る画像処理装置１００の動作を示している。図４は、画像処理装置１００における画像取得から正規化情報を出力するまでの流れを示し、図５～図７は、図４の身長画素数算出処理（Ｓ１０３）の具体例１～３の流れを示し、図８は、図４の正規化処理（Ｓ１０４）の流れを示している。

図４に示すように、画像処理装置１００は、カメラ２００から画像を取得する（Ｓ１０１）。画像取得部１０１は、骨格構造から正規化処理を行うために人物を撮像した画像を取得し、取得した画像をデータベース１１０に格納する。画像取得部１０１は、例えば、所定の監視期間に撮像された複数の画像を取得し、複数の画像に含まれる全ての人物について以降の処理を行う。

続いて、画像処理装置１００は、取得した人物の画像に基づいて人物の骨格構造を検出する（Ｓ１０２）。図９は、骨格構造の検出例を示している。図９に示すように、監視カメラ等から取得した画像には複数の人物が含まれており、画像に含まれる各人物について骨格構造を検出する。

図１０は、このとき検出する人体モデル３００の骨格構造を示しており、図１１～図１３は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図１０のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。この例では、図１０に示すように、画像における直立時の人物の骨格構造の高さを身長画素数（ｈ）とし、画像の人物の状態における骨格構造の各キーポイントの高さをキーポイント高さ（ｙ_ｉ）とする。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図１０の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。

図１１は、直立した状態の人物を検出する例である。図１１では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

図１２は、しゃがみ込んでいる状態の人物を検出する例である。図１２では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

図１３は、寝込んでいる状態の人物を検出する例である。図１３では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

続いて、画像処理装置１００は、図４に示すように、検出された骨格構造に基づいて身長画素数算出処理を行う（Ｓ１０３）。以下、身長画素数算出処理の具体例１～３について説明する。

＜具体例１＞
具体例１では、頭部から足部までのボーンの長さを用いて身長画素数を求める。具体例１では、図５に示すように、身長算出部１０３は、各ボーンの長さを取得し（Ｓ１１１）、取得した各ボーンの長さを合計する（Ｓ１１２）。

身長算出部１０３は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。すなわち、骨格構造を検出した画像から、図１０のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数（ｈ）として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

図１１の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出されている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

図１２の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い右足側のＬ１＋Ｌ２１＋Ｌ３１＋Ｌ４１に補正定数を乗じた値を身長画素数とする。

図１３の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

具体例１では、頭から足までのボーンの長さを合計することで身長を求めることができるため、簡易な方法で身長画素数を求めることができる。また、機械学習を用いた骨格推定技術により、少なくとも頭から足までの骨格を検出できればよいため、しゃがみ込んでいる状態など、必ずしも人物の全体が画像に写っていない場合でも精度よく身長画素数を推定することができる。

＜具体例２＞
具体例２では、２次元骨格構造に含まれる骨の長さと２次元画像空間上の人物の全身の長さとの関係を示す２次元骨格モデルを用いて身長画素数を求める。

図１４は、具体例２で用いる、２次元画像空間上の各ボーンの長さと２次元画像空間上の全身の長さとの関係を示す人体モデル（２次元骨格モデル）３０１である。図１４に示すように、平均的な人物の各ボーンの長さと全身の長さとの関係（全身の長さに対する各ボーンの長さの割合）を、人体モデル３０１の各ボーンに対応付ける。例えば、頭のボーンＢ１の長さは全身の長さ×０．２（２０％）であり、右手のボーンＢ４１の長さは全身の長さ×０．１５（１５％）であり、右足のボーンＢ７１の長さは全身の長さ×０．２５（２５％）である。このような人体モデル３０１の情報をデータベース１１０に記憶しておくことで、各ボーンの長さから平均的な全身の長さを求めることができる。平均的な人物の人体モデルの他に、年代、性別、国籍等の人物の属性ごとに人体モデルを用意してもよい。これにより、人物の属性に応じて適切に全身の長さ（身長）を求めることができる。

具体例２では、図６に示すように、身長算出部１０３は、各ボーンの長さを取得する（Ｓ１２１）。身長算出部１０３は、検出された骨格構造において、全てのボーンの長さ（２次元画像空間上の長さ）を取得する。図１５は、しゃがみ込んでいる状態の人物を右斜め後ろから撮像し、骨格構造を検出した例である。この例では、人物の顔や左側面が写っていないことから、頭のボーンと左腕及び左手のボーンが検出できていない。このため、検出されているボーンＢ２１、Ｂ２２、Ｂ３１、Ｂ４１、Ｂ５１、Ｂ５２、Ｂ６１、Ｂ６２、Ｂ７１、Ｂ７２の各長さを取得する。

続いて、身長算出部１０３は、図６に示すように、人体モデルに基づき、各ボーンの長さから身長画素数を算出する（Ｓ１２２）。身長算出部１０３は、図１４のような、各ボーンと全身の長さとの関係を示す人体モデル３０１を参照し、各ボーンの長さから身長画素数を求める。例えば、右手のボーンＢ４１の長さが全身の長さ×０．１５であるため、ボーンＢ４１の長さ／０．１５によりボーンＢ４１に基づいた身長画素数を求める。また、右足のボーンＢ７１の長さが全身の長さ×０．２５であるため、ボーンＢ７１の長さ／０．２５によりボーンＢ７１に基づいた身長画素数を求める。

このとき参照する人体モデルは、例えば、平均的な人物の人体モデルであるが、年代、性別、国籍等の人物の属性に応じて人体モデルを選択してもよい。例えば、撮像した画像に人物の顔が写っている場合、顔に基づいて人物の属性を識別し、識別した属性に対応する人体モデルを参照する。属性ごとの顔を機械学習した情報を参照し、画像の顔の特徴から人物の属性を認識することができる。また、画像から人物の属性が識別できない場合に、平均的な人物の人体モデルを用いてもよい。

また、ボーンの長さから算出した身長画素数をカメラパラメータにより補正してもよい。例えばカメラを高い位置において、人物を見下ろすように撮影した場合、二次元骨格構造において肩幅のボーン等の横の長さはカメラの俯角の影響を受けないが、首－腰のボーン等の縦の長さは、カメラの俯角が大きくなる程小さくなる。そうすると、肩幅のボーン等の横の長さから算出した身長画素数が実際より大きくなる傾向がある。そこで、カメラパラメータを活用すると、人物がどの程度の角度でカメラに見下ろされているかがわかるため、この俯角の情報を使って正面から撮影したような二次元骨格構造に補正することができる。これによって、より正確に身長画素数を算出できる。

続いて、身長算出部１０３は、図６に示すように、身長画素数の最適値を算出する（Ｓ１２３）。身長算出部１０３は、ボーンごとに求めた身長画素数から身長画素数の最適値を算出する。例えば、図１６に示すような、ボーンごとに求めた身長画素数のヒストグラムを生成し、その中で大きい身長画素数を選択する。つまり、複数のボーンに基づいて求められた複数の身長画素数の中で他よりも長い身長画素数を選択する。例えば、上位３０％を有効な値とし、図１６ではボーンＢ７１、Ｂ６１、Ｂ５１による身長画素数を選択する。選択した身長画素数の平均を最適値として求めてもよいし、最も大きい身長画素数を最適値としてもよい。２次元画像のボーンの長さから身長を求めるため、ボーンを正面からできていない場合、すなわち、ボーンがカメラから見て奥行き方向に傾いて撮像された場合、ボーンの長さが正面から撮像した場合よりも短くなる。そうすると、身長画素数が大きい値は、身長画素数が小さい値よりも、正面から撮像された可能性が高く、より尤もらしい値となることから、より大きい値を最適値とする。

具体例２では、２次元画像空間上のボーンと全身の長さとの関係を示す人体モデルを用いて、検出した骨格構造のボーンに基づき身長画素数を求めるため、頭から足までの全ての骨格が得られない場合でも、一部のボーンから身長画素数を求めることができる。特に、複数のボーンから求められた値のうち、より大きい値を採用することで、精度よく身長画素数を推定することができる。

＜具体例３＞
具体例３では、２次元骨格構造を３次元人体モデル（３次元骨格モデル）にフィッティングさせて、フィッティングした３次元人体モデルの身長画素数を用いて全身の骨格ベクトルを求める。

具体例３では、図７に示すように、身長算出部１０３は、まず、カメラ２００の撮像した画像に基づき、カメラパラメータを算出する（Ｓ１３１）。身長算出部１０３は、カメラ２００が撮像した複数の画像の中から、予め長さが分かっている物体を抽出し、抽出した物体の大きさ（画素数）からカメラパラメータを求める。なお、カメラパラメータを予め求めておき、求めておいたカメラパラメータを必要に応じて取得してもよい。

続いて、身長算出部１０３は、３次元人体モデルの配置及び高さを調整する（Ｓ１３２）。身長算出部１０３は、検出された２次元骨格構造に対し、身長画素数算出用の３次元人体モデルを用意し、カメラパラメータに基づいて、同じ２次元画像内に配置する。具体的には、カメラパラメータと、２次元骨格構造から、「実世界におけるカメラと人物の相対的な位置関係」を特定する。例えば、仮にカメラの位置を座標（０，０，０）としたときに、人物が立っている（または座っている）位置の座標（ｘ，ｙ，ｚ）を特定する。そして、特定した人物と同じ位置（ｘ，ｙ，ｚ）に３次元人体モデルを配置して撮像した場合の画像を想定することで、２次元骨格構造と３次元人体モデルを重ね合わせる。

図１７は、しゃがみ込んでいる人物を左斜め前から撮像し、２次元骨格構造４０１を検出した例である。２次元骨格構造４０１は、２次元の座標情報を有する。なお、全てのボーンを検出していることが好ましいが、一部のボーンが検出されていなくてもよい。この２次元骨格構造４０１に対し、図１８のような、３次元人体モデル４０２を用意する。３次元人体モデル（３次元骨格モデル）４０２は、３次元の座標情報を有し、２次元骨格構造４０１と同じ形状の骨格のモデルである。そして、図１９のように、検出した２次元骨格構造４０１に対し、用意した３次元人体モデル４０２を配置し重ね合わせる。また、重ね合わせるとともに、３次元人体モデル４０２の高さを２次元骨格構造４０１に合うように調整する。

なお、このとき用意する３次元人体モデル４０２は、図１９のように、２次元骨格構造４０１の姿勢に近い状態のモデルでもよいし、直立した状態のモデルでもよい。例えば、機械学習を用いて２次元画像から３次元空間の姿勢を推定する技術を用いて、推定した姿勢の３次元人体モデル４０２を生成してもよい。２次元画像の関節と３次元空間の関節の情報を学習することで、２次元画像から３次元の姿勢を推定することができる。

続いて、身長算出部１０３は、図７に示すように、３次元人体モデルを２次元骨格構造にフィッティングする（Ｓ１３３）。身長算出部１０３は、図２０のように、３次元人体モデル４０２を２次元骨格構造４０１に重ね合わせた状態で、３次元人体モデル４０２と２次元骨格構造４０１の姿勢が一致するように、３次元人体モデル４０２を変形させる。すなわち、３次元人体モデル４０２の身長、体の向き、関節の角度を調整し、２次元骨格構造４０１との差異がなくなるように最適化する。例えば、３次元人体モデル４０２の関節を、人の可動範囲で回転させていき、また、３次元人体モデル４０２の全体を回転させたり、全体のサイズを調整する。なお、３次元人体モデルと２次元骨格構造のフィッティング（あてはめ）は、２次元空間（２次元座標）上で行う。すなわち、２次元空間に３次元人体モデルを写像し、変形させた３次元人体モデルが２次元空間（画像）でどのように変化するかを考慮して、３次元人体モデルを２次元骨格構造に最適化する。

続いて、身長算出部１０３は、図７に示すように、フィッティングさせた３次元人体モデルの身長画素数を算出する（Ｓ１３４）。身長算出部１０３は、図２１のように、３次元人体モデル４０２と２次元骨格構造４０１の差異がなくなり、姿勢が一致すると、その状態の３次元人体モデル４０２の身長画素数を求める。最適化された３次元人体モデル４０２を直立させた状態として、カメラパラメータに基づき、２次元空間上の全身の長さを求める。例えば、３次元人体モデル４０２を直立させた場合の頭から足までのボーンの長さ（画素数）により身長画素数を算出する。具体例１と同様に、３次元人体モデル４０２の頭部から足部までのボーンの長さを合計してもよい。

具体例３では、カメラパラメータに基づいて３次元人体モデルを２次元骨格構造にフィッティングさせて、その３次元人体モデルに基づいて身長画素数を求めることで、全てのボーンが正面に写っていない場合、すなわち、全てのボーンが斜めに映っているため誤差が大きい場合でも、精度よく身長画素数を推定することができる。

＜正規化処理＞
図４に示すように、画像処理装置１００は、身長画素数算出処理に続いて、正規化処理（Ｓ１０４）を行い、正規化処理の結果得られた正規化値をデータベース１１０に格納する（Ｓ１０５）。正規化処理では、図８に示すように、正規化部１０４は、キーポイント高さを算出する（Ｓ１４１）。正規化部１０４は、検出された骨格構造に含まれる全てのキーポイントのキーポイント高さ（画素数）を算出する。キーポイント高さは、骨格構造の最下端（例えばいずれかの足のキーポイント）からそのキーポイントまでの高さ方向の長さである。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのＹ座標から求める。なお、上記のように、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。例えば、図１０の例で、首のキーポイントＡ２の高さ（ｙ_ｉ）は、キーポイントＡ２のＹ座標から右足のキーポイントＡ８１または左足のキーポイントＡ８２のＹ座標を引いた値である。

続いて、正規化部１０４は、正規化のための基準点を特定する（Ｓ１４２）。基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。また、キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

続いて、正規化部１０４は、キーポイント高さ（ｙ_ｉ）を身長画素数で正規化する（Ｓ１４３）。各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、正規化部１０４は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Ｙ座標のみを抽出し、また、基準点を首のキーポイントとして正規化を行う。具体的には、基準点（首のキーポイント）のＹ座標を（ｙ_ｃ）として、次の式（１）を用いて、特徴量（正規化値）を求める。なお、カメラパラメータに基づいた鉛直投影軸を用いる場合は、（ｙ_ｉ）及び（ｙ_ｃ）を鉛直投影軸に沿った方向の値に変換する。

例えば、キーポイントが１８個の場合、各キーポイントの１８点の座標（ｘ_０、ｙ_０）、（ｘ_１、ｙ_１）、・・・（ｘ_１７、ｙ_１７）を、上記式（１）を用いて、次のように１８次元の特徴量に変換する。

図２２は、正規化部１０４が求めた各キーポイントの特徴量の例を示している。この例では、首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図２３のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図２４のように、図２２に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、本実施の形態の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

＜実施の形態１の効果＞
以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた身長画素数（２次元画像空間上の直立時の高さ）を用いて、骨格構造の各キーポイント（特徴点）を正規化する。この正規化された特徴量を用いることで、分類や検索等を行った場合のロバスト性を向上することができる。

すなわち、本実施の形態の特徴量は、上記のように人物の横方向の変化に影響を受けないため、人物の向きや人物の体型の変化に対しロバスト性が高い。例えば、図２５の骨格構造５０１～５０３のように、人物の向きや体型が異なる場合でも、特徴量は大きく変化しない。このため、骨格構造５０１～５０３では、分類や検索時に同じ姿勢であると判断することができる。

図２６は検索結果の例を示しており、検索クエリＱ１０、Ｑ２０、Ｑ３０のそれぞれの検索結果Ｑ１１、Ｑ２１、Ｑ３１を示している。検索クエリＱ１０のように座っている姿勢を検索すると、検索結果Ｑ１１のように様々な方向を向いて座っている姿勢が似ている姿勢として判断される。同様に、検索クエリＱ２０のように立ち上がって右手を水平に伸ばしている姿勢を検索すると、検索結果Ｑ２１のように立ち上がって様々な方向に右手を伸ばしている姿勢が似ている姿勢として判断される。また、検索クエリＱ３０のように寝込んでいる姿勢を検索すると、検索結果Ｑ３１のように様々な方向を向いて寝込んでいる姿勢が似ている姿勢として判断される。

また、本実施の形態の特徴量は、各キーポイントを正規化した値であるため、体の一部が隠れている画像に対してロバスト性が高い。例えば、図２７の骨格構造５１１及び５１２のように、左足が隠れていることにより、左足のキーポイントが検出できない場合でも、検出されている他のキーポイントの特徴量を使用できる。このため、骨格構造５１１及び５１２では、分類や検索時に同じ姿勢であると判断することができる。つまり、全てのキーポイントではなく、一部のキーポイントの特徴量を用いて、分類や検索を行うことができる。図２８の骨格構造５２１及び５２２の例では、両足の向きが異なっているものの、上半身のキーポイント（Ａ１、Ａ２、Ａ３１、Ａ３２、Ａ４１、Ａ４２、Ａ５１、Ａ５２）の特徴量を検索クエリとすることで、同じ姿勢であると判断することができる。

さらに、本実施の形態では、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて人物の骨格構造を検出することで実現できるため、人物の姿勢等を学習する学習データを用意する必要がない。また、骨格構造のキーポイントを正規化し、データベースに格納しておくことで、人物の姿勢等の分類や検索が可能となるため、未知な姿勢に対しても分類や検索を行うことができる。また、骨格構造のキーポイントを正規化することで、明確でわかりやすい特徴量を得ることができるため、機械学習のようにブラックボックス型のアルゴリズムと異なり、処理結果に対するユーザの納得性が高い。

なお、上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。画像処理装置１０及び１００の機能（処理）を、図２９に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ２１及び記憶装置であるメモリ２２を有するコンピュータ２０により実現してもよい。例えば、メモリ２２に実施形態における方法を行うためのプログラム（画像処理プログラム）を格納し、各機能を、メモリ２２に格納されたプログラムをプロセッサ２１で実行することにより実現してもよい。

これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

また、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記では人物の骨格構造を検出したが、骨格構造を有する人物以外の動物（哺乳類、爬虫類、鳥類、両生類、魚類等）を検出対象としてもよい。

以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定する推定手段と、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する正規化手段と、
を備える画像処理装置。
（付記２）
前記正規化手段は、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化する、
付記１に記載の画像処理装置。
（付記３）
前記特徴点の高さは、前記２次元画像空間を表すＸ－Ｙ座標におけるＹ軸方向の高さである、
付記２に記載の画像処理装置。
（付記４）
前記特徴点の高さは、前記２次元画像の撮像パラメータに基づいて、実世界の３次元空間における基準面に対する鉛直方向を、前記２次元画像空間に投影した鉛直投影方向の高さである、
付記２に記載の画像処理装置。
（付記５）
前記正規化手段は、前記２次元骨格構造内の基準点に対する前記特徴点の相対的な高さを前記直立時の高さにより正規化する、
付記２乃至４のいずれかに記載の画像処理装置。
（付記６）
前記基準点は、前記２次元骨格構造における中心よりも前記２次元画像空間で上の点である、
付記５に記載の画像処理装置。
（付記７）
前記基準点は、前記２次元骨格構造における首部または頭部の特徴点である、
付記６に記載の画像処理装置。
（付記８）
前記推定手段は、前記２次元骨格構造に含まれる２次元画像空間上の骨の長さに基づいて、前記人物の直立時の高さを推定する、
付記１乃至７のいずれかに記載の画像処理装置。
（付記９）
前記推定手段は、前記２次元骨格構造に含まれる足部から頭部までの前記骨の長さの合計に基づいて、前記人物の直立時の高さを推定する、
付記８に記載の画像処理装置。
（付記１０）
前記推定手段は、前記骨の長さと２次元画像空間上の前記人物の全身の長さとの関係を示す２次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
付記８に記載の画像処理装置。
（付記１１）
前記推定手段は、前記２次元画像の撮像パラメータに基づいて前記２次元骨格構造にフィッティングさせた３次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
付記１乃至７のいずれかに記載の画像処理装置。
（付記１２）
前記骨格検出手段は、前記２次元画像に基づいて複数の人物の２次元骨格構造を検出し、
前記正規化手段は、前記複数の人物の２次元骨格構造を正規化し、
前記正規化された複数の２次元骨格構造の正規化値に基づいて、前記複数の人物の状態の認識処理を行う認識手段をさらに備える、
付記１乃至１１のいずれかに記載の画像処理装置。
（付記１３）
前記認識手段は、前記認識処理として、前記複数の人物の状態を分類する、
付記１２に記載の画像処理装置。
（付記１４）
前記認識手段は、前記２次元骨格構造の全体または一部の正規化値に基づいて、前記複数の人物の状態を分類する、
付記１３に記載の画像処理装置。
（付記１５）
前記骨格検出手段は、時系列に連続する複数の２次元画像から、前記複数の人物の２次元骨格構造を検出し、
前記認識手段は、前記複数の２次元画像から検出された２次元骨格構造の正規化値に基づいて、前記複数の人物の状態を分類する、
付記１３または１４に記載の画像処理装置。
（付記１６）
前記認識手段は、前記複数の２次元画像における前記２次元骨格構造の正規化値の変化に基づいて、前記複数の人物の状態を分類する、
付記１５に記載の画像処理装置。
（付記１７）
前記認識手段は、前記認識処理として、前記複数の人物の状態からクエリ状態を検索する、
付記１２に記載の画像処理装置。
（付記１８）
前記認識手段は、前記２次元骨格構造の全体または一部の正規化値に基づいて、前記クエリ状態を検索する、
付記１７に記載の画像処理装置。
（付記１９）
前記骨格検出手段は、時系列に連続する複数の２次元画像から、前記複数の人物の２次元骨格構造を検出し、
前記認識手段は、前記複数の２次元画像から検出された２次元骨格構造の正規化値に基づいて、前記クエリ状態を検索する、
付記１７または１８に記載の画像処理装置。
（付記２０）
前記認識手段は、前記複数の２次元画像における前記２次元骨格構造の正規化値の変化に基づいて、前記クエリ状態を検索する、
付記１９に記載の画像処理装置。
（付記２１）
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する、
画像処理方法。
（付記２２）
前記正規化では、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化する、
付記２１に記載の画像処理方法。
（付記２３）
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する、
処理をコンピュータに実行させるための画像処理プログラム。
（付記２４）
前記正規化では、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化する、
付記２３に記載の画像処理プログラム。

１画像処理システム
１０画像処理装置
１１骨格検出部
１２推定部
１３正規化部
２０コンピュータ
２１プロセッサ
２２メモリ
１００画像処理装置
１０１画像取得部
１０２骨格構造検出部
１０３身長算出部
１０４正規化部
１０５分類部
１０６検索部
１１０データベース
２００カメラ
３００、３０１人体モデル
４０１２次元骨格構造
４０２３次元人体モデル

Claims

取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定する推定手段と、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する正規化手段と、
を備え、
前記正規化手段は、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化し、
前記正規化手段は、前記２次元骨格構造内の基準点に対する前記特徴点の相対的な高さを前記直立時の高さにより正規化する、
画像処理装置。
前記特徴点の高さは、前記２次元画像空間を表すＸ－Ｙ座標におけるＹ軸方向の高さである、
請求項１に記載の画像処理装置。
前記特徴点の高さは、前記２次元画像の撮像パラメータに基づいて、実世界の３次元空間における基準面に対する鉛直方向を、前記２次元画像空間に投影した鉛直投影方向の高さである、
請求項１に記載の画像処理装置。
前記基準点は、前記２次元骨格構造における中心よりも前記２次元画像空間で上の点である、
請求項１に記載の画像処理装置。
前記基準点は、前記２次元骨格構造における首部または頭部の特徴点である、
請求項４に記載の画像処理装置。
前記推定手段は、前記２次元骨格構造に含まれる２次元画像空間上の骨の長さに基づいて、前記人物の直立時の高さを推定する、
請求項１乃至５のいずれか一項に記載の画像処理装置。
前記推定手段は、前記２次元骨格構造に含まれる足部から頭部までの前記骨の長さの合計に基づいて、前記人物の直立時の高さを推定する、
請求項６に記載の画像処理装置。
前記推定手段は、前記骨の長さと２次元画像空間上の前記人物の全身の長さとの関係を示す２次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
請求項６に記載の画像処理装置。
取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定する推定手段と、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化する正規化手段と、
を備え、
前記推定手段は、前記２次元画像の撮像パラメータに基づいて前記２次元骨格構造にフィッティングさせた３次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
画像処理装置。
前記骨格検出手段は、前記２次元画像に基づいて複数の人物の２次元骨格構造を検出し、
前記正規化手段は、前記複数の人物の２次元骨格構造を正規化し、
前記正規化された複数の２次元骨格構造の正規化値に基づいて、前記複数の人物の状態の認識処理を行う認識手段をさらに備える、
請求項１乃至９のいずれか一項に記載の画像処理装置。
前記認識手段は、前記認識処理として、前記複数の人物の状態を分類する、
請求項１０に記載の画像処理装置。
前記認識手段は、前記２次元骨格構造の全体または一部の正規化値に基づいて、前記複数の人物の状態を分類する、
請求項１１に記載の画像処理装置。
前記骨格検出手段は、時系列に連続する複数の２次元画像から、前記複数の人物の２次元骨格構造を検出し、
前記認識手段は、前記複数の２次元画像から検出された２次元骨格構造の正規化値に基づいて、前記複数の人物の状態を分類する、
請求項１１または１２に記載の画像処理装置。
前記認識手段は、前記複数の２次元画像における前記２次元骨格構造の正規化値の変化に基づいて、前記複数の人物の状態を分類する、
請求項１３に記載の画像処理装置。
前記認識手段は、前記認識処理として、前記複数の人物の状態からクエリ状態を検索する、
請求項１０に記載の画像処理装置。
前記認識手段は、前記２次元骨格構造の全体または一部の正規化値に基づいて、前記クエリ状態を検索する、
請求項１５に記載の画像処理装置。
前記骨格検出手段は、時系列に連続する複数の２次元画像から、前記複数の人物の２次元骨格構造を検出し、
前記認識手段は、前記複数の２次元画像から検出された２次元骨格構造の正規化値に基づいて、前記クエリ状態を検索する、
請求項１５または１６に記載の画像処理装置。
前記認識手段は、前記複数の２次元画像における前記２次元骨格構造の正規化値の変化に基づいて、前記クエリ状態を検索する、
請求項１７に記載の画像処理装置。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化し、
前記正規化では、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化し、
前記正規化では、前記２次元骨格構造内の基準点に対する前記特徴点の相対的な高さを前記直立時の高さにより正規化する、
画像処理方法。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化し、
前記推定では、前記２次元画像の撮像パラメータに基づいて前記２次元骨格構造にフィッティングさせた３次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
画像処理方法。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化し、
前記正規化では、前記２次元骨格構造に含まれる特徴点の高さを前記直立時の高さにより正規化し、
前記正規化では、前記２次元骨格構造内の基準点に対する前記特徴点の相対的な高さを前記直立時の高さにより正規化する、
処理をコンピュータに実行させるための画像処理プログラム。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいて２次元画像空間上の前記人物の直立時の高さを推定し、
前記推定された直立時の高さに基づいて前記検出された２次元骨格構造を正規化し、
前記推定では、前記２次元画像の撮像パラメータに基づいて前記２次元骨格構造にフィッティングさせた３次元骨格モデルに基づいて、前記人物の直立時の高さを推定する、
処理をコンピュータに実行させるための画像処理プログラム。