JP7491380B2

JP7491380B2 - 画像選択装置、画像選択方法、及びプログラム

Info

Publication number: JP7491380B2
Application number: JP2022534508A
Authority: JP
Inventors: 登吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2024-05-28
Anticipated expiration: 2040-07-06
Also published as: WO2022009279A1; US20230245342A1; JPWO2022009279A1

Description

本発明は、画像選択装置、画像選択方法、及びプログラムに関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態の検出や検索を行う技術が利用されている。関連する技術として、例えば、特許文献１及び２が知られている。特許文献１には、深さ映像に含まれる人物の頭や手足等のキージョイントに基づいて、類似する人物の姿勢を検索する技術が開示されている。特許文献２には、人物の姿勢と関連しないが、画像に付加された傾き等の姿勢情報を利用して類似画像を検索する技術が開示されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

また、特許文献３には、関節により接続された複数の部位を有する物体の姿勢を推定する装置において、姿勢毎に、部位の位置を規定する基準モデルを格納部に格納しておくとともに、姿勢毎に、密集部分の重みが小さくなるように部位に対して重み付けを行うことが記載されている。

特表２０１４－５２２０３５号公報特開２００６－２６０４０５号公報特開２０１２－１８１７３６号公報

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

装置が人の姿勢を示す姿勢情報を用いて画像を選択する場合、所望する姿勢とは異なる姿勢の人を含む画像が検索結果に含まれる可能性がある。本発明の目的は、人の姿勢を示す姿勢情報を用いて画像を選択する場合において、選択精度を上げることにある。

本発明によれば、人の姿勢を示すクエリ情報を取得するクエリ取得手段と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択手段と、
を備え、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択手段は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択装置が提供される。

本発明によれば、コンピュータが、
人の姿勢を示すクエリ情報を取得するクエリ取得処理と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択処理と、
を行い
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択処理において、前記コンピュータは、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択方法が提供される。

本発明によれば、コンピュータに、
人の姿勢を示すクエリ情報を取得するクエリ取得機能と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択機能と、
を持たせ、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択機能は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、プログラムが提供される。

本発明によれば、人の姿勢を示す姿勢情報を用いて画像を選択する場合において、選択精度は上がる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

実施の形態に係る画像処理装置の概要を示す構成図である。実施の形態１に係る画像処理装置の構成を示す構成図である。実施の形態１に係る画像処理方法を示すフローチャートである。実施の形態１に係る分類方法を示すフローチャートである。実施の形態１に係る検索方法を示すフローチャートである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る分類方法の具体例を示すグラフである。実施の形態１に係る分類結果の表示例を示す図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索結果の表示例を示す図である。実施の形態２に係る画像処理装置の構成を示す構成図である。実施の形態２に係る画像処理方法を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例１を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例３を示すフローチャートである。実施の形態２に係る正規化方法を示すフローチャートである。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る身長画素数算出方法を説明するためのヒストグラムである。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る３次元人体モデルを示す図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。画像処理装置のハードウェア構成例を示す図である。検索方法６に係る検索部の機能構成の一例を示す図である。（Ａ）は、基準姿勢情報の一例を示す図であり、（Ｂ）は、クエリ情報の一例を示す図である。検索方法６において検索部が行う処理の第１例を示すフローチャートである。検索方法６において検索部が行う処理の第２例を示すフローチャートである。検索方法６において検索部が行う処理の第３例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（実施の形態に至る検討）
近年、ディープラーニング等の機械学習を活用した画像認識技術が様々なシステムに応用されている。例えば、監視カメラの画像により監視を行う監視システムへの適用が進められている。監視システムに機械学習を活用することで、画像から人物の姿勢や行動等の状態をある程度把握することが可能とされつつある。

しかしながら、このような関連する技術では、必ずしもオンデマンドにユーザが望む人物の状態を把握できない場合がある。例えば、ユーザが検索し把握したい人物の状態を事前に特定できている場合もあれば、未知の状態のように具体的に特定できていない場合もある。そうすると、場合によっては、ユーザが検索したい人物の状態を詳細に指定することができない。また、人物の体の一部が隠れているような場合には検索等を行うことができない。関連する技術では、特定の検索条件のみからしか人物の状態を検索できないため、所望の人物の状態を柔軟に検索や分類することが困難である。

そこで、発明者らは、オンデマンドに画像からユーザ所望の人物の状態を認識するため、非特許文献１などの骨格推定技術を利用する方法を検討した。非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、人物の状態を柔軟に認識することを可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
図１は、実施の形態に係る画像処理装置１０の概要を示している。図１に示すように、画像処理装置１０は、骨格検出部１１、特徴量算出部１２、及び認識部１３を備えている。骨格検出部１１は、カメラ等から取得される２次元画像に基づいて、複数の人物の２次元骨格構造を検出する。特徴量算出部１２は、骨格検出部１１により検出された複数の２次元骨格構造の特徴量を算出する。認識部１３は、特徴量算出部１２により算出された複数の特徴量の類似度に基づいて、複数の人物の状態の認識処理を行う。認識処理は、人物の状態の分類処理や検索処理（選択処理）等である。このため、画像処理装置１０は画像選択装置としても機能する。

このように、実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造から算出される特徴量に基づいて人物の状態の分類や検索等の認識処理を行うことで、所望の人物の状態を柔軟に認識することができる。

（実施の形態１）以下、図面を参照して実施の形態１について説明する。図２は、本実施の形態に係る画像処理装置１００の構成を示している。画像処理装置１００は、カメラ２００及びデータベース（ＤＢ）１１０とともに画像処理システム１を構成する。画像処理装置１００を含む画像処理システム１は、画像から推定される人物の骨格構造に基づき、人物の姿勢や行動等の状態を分類及び検索するシステムである。なお、画像処理装置１００も、画像選択装置としても機能する。

カメラ２００は、２次元の画像を生成する監視カメラ等の撮像部である。カメラ２００は、所定の箇所に設置されて、設置個所から撮像領域における人物等を撮像する。カメラ２００は、撮像した画像（映像）を画像処理装置１００へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、カメラ２００を画像処理装置１００の内部に設けてもよい。

データベース１１０は、画像処理装置１００の処理に必要な情報（データ）や処理結果等を格納するデータベースである。データベース１１０は、画像取得部１０１が取得した画像や、骨格構造検出部１０２の検出結果、機械学習用のデータ、特徴量算出部１０３が算出した特徴量、分類部１０４の分類結果、検索部１０５の検索結果等を記憶する。データベース１１０は、画像処理装置１００と必要に応じてデータを入出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、データベース１１０をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置１００の内部に設けてもよい。

図２に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、入力部１０６、及び表示部１０７を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、入力部１０６や表示部１０７等を外部の装置としてもよい。また、分類部１０４及び検索部１０５の両方を備えていてもよいし、いずれか一方のみを備えていてもよい。分類部１０４及び検索部１０５の両方、もしくは一方は、人物の状態の認識処理を行う認識部である。

画像取得部１０１は、カメラ２００が撮像した人物を含む２次元の画像を取得する。画像取得部１０１は、例えば、所定の監視期間にカメラ２００が撮像した、人物を含む画像（複数の画像を含む映像）を取得する。なお、カメラ２００からの取得に限らず、予め用意された人物を含む画像をデータベース１１０等から取得してもよい。

骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造を検出する。骨格構造検出部１０２は、取得された画像の中で認識される全ての人物について、骨格構造を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

特徴量算出部１０３は、検出された２次元の骨格構造の特徴量を算出し、算出した特徴量を、処理対象となった画像に紐づけてデータベース１１０に格納する。骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態を分類や検索するための要素となる。通常、この特徴量は、複数のパラメータ（例えば後述する分類要素）を含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

なお、ユーザが望む分類や検索を行うためには、分類や検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類や検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

分類部１０４は、データベース１１０に格納された複数の骨格構造を、骨格構造の特徴量の類似度に基づいて分類する（クラスタリングする）。分類部１０４は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態を分類しているとも言える。類似度は、骨格構造の特徴量間の距離である。分類部１０４は、骨格構造の全体の特徴量の類似度により分類してもよいし、骨格構造の一部の特徴量の類似度により分類してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により分類してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を分類してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を分類してもよい。すなわち、分類部１０４は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を分類できる。例えば、分類部１０４は、所定の監視期間に撮像された複数の画像における複数の骨格構造を分類対象とする。分類部１０４は、分類対象の特徴量間の類似度を求め、類似度の高い骨格構造が同じクラスタ（似た姿勢のグループ）となるように分類する。なお、検索と同様に、分類条件をユーザが指定できるようにしてもよい。分類部１０４は、骨格構造の分類結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

検索部１０５は、データベース１１０に格納された複数の骨格構造の中から、検索クエリ（クエリ状態）の特徴量と類似度の高い骨格構造を検索する。検索部１０５は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態の中から、検索条件（クエリ状態）に該当する人物の状態を検索しているとも言える。分類と同様に、類似度は、骨格構造の特徴量間の距離である。検索部１０５は、骨格構造の全体の特徴量の類似度により検索してもよいし、骨格構造の一部の特徴量の類似度により検索してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により検索してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を検索してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を検索してもよい。すなわち、検索部１０５は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を検索できる。例えば、検索部１０５は、分類対象と同様に、所定の監視期間に撮像された複数の画像における複数の骨格構造の特徴量を検索対象とする。また、分類部１０４が表示した分類結果の中からユーザが指定した骨格構造（姿勢）を検索クエリ（検索キー）とする。なお、分類結果に限らず、分類されていない複数の骨格構造の中から検索クエリを選択してもよいし、検索クエリとなる骨格構造をユーザが入力してもよい。検索部１０５は、検索対象の特徴量の中から、検索クエリの骨格構造の特徴量と類似度の高い特徴量を検索する。検索部１０５は、特徴量の検索結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

入力部１０６は、画像処理装置１００を操作するユーザから入力された情報を取得する入力インタフェースである。例えば、ユーザは、監視カメラの画像から不審な状態の人物を監視する監視者である。入力部１０６は、例えば、ＧＵＩ（Graphical User Interface）であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部１０６は、分類部１０４により分類された骨格構造（姿勢）の中から、指定された人物の骨格構造を検索クエリとして受け付ける。

表示部１０７は、画像処理装置１００の動作（処理）の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイ等のディスプレイ装置である。表示部１０７は、分類部１０４の分類結果や検索部１０５の検索結果を類似度等に応じてＧＵＩに表示する。

図３９は、画像処理装置１００のハードウェア構成例を示す図である。画像処理装置１００は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０は画像処理装置１００の各機能（例えば画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、及び入力部１０６）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０はデータベース１１０としても機能することもある。

入出力インタフェース１０５０は、画像処理装置１００と各種入出力機器とを接続するためのインタフェースである。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、入出力インタフェース１０５０を介してデータベース１１０と接続してもよい。

ネットワークインタフェース１０６０は、画像処理装置１００をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。画像処理装置１００は、ネットワークインタフェース１０６０を介してカメラ２００と通信してもよい。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、ネットワークインタフェース１０６０を介してデータベース１１０と接続してもよい。

図３～図５は、本実施の形態に係る画像処理装置１００の動作を示している。図３は、画像処理装置１００における画像取得から検索処理までの流れを示し、図４は、図３の分類処理（Ｓ１０４）の流れを示し、図５は、図３の検索処理（Ｓ１０５）の流れを示している。

図３に示すように、画像処理装置１００は、カメラ２００から画像を取得する（Ｓ１０１）。画像取得部１０１は、骨格構造から分類や検索を行うために人物を撮像した画像を取得し、取得した画像をデータベース１１０に格納する。画像取得部１０１は、例えば、所定の監視期間に撮像された複数の画像を取得し、複数の画像に含まれる全ての人物について以降の処理を行う。

続いて、画像処理装置１００は、取得した人物の画像に基づいて人物の骨格構造を検出する（Ｓ１０２）。図６は、骨格構造の検出例を示している。図６に示すように、監視カメラ等から取得した画像には複数の人物が含まれており、画像に含まれる各人物について骨格構造を検出する。

図７は、このとき検出する人体モデル３００の骨格構造を示しており、図８～図１０は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。骨格構造検出部１０２は、検出した人物の骨格構造をデータベース１１０に格納する。

図８は、直立した状態の人物を検出する例である。図８では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

図９は、しゃがみ込んでいる状態の人物を検出する例である。図９では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

図１０は、寝込んでいる状態の人物を検出する例である。図１０では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

続いて、図３に示すように、画像処理装置１００は、検出された骨格構造の特徴量を算出する（Ｓ１０３）。例えば、骨格領域の高さや面積を特徴量とする場合、特徴量算出部１０３は、骨格構造を含む領域を抽出し、その領域の高さ（画素数）や面積（画素面積）を求める。骨格領域の高さや面積は、抽出される骨格領域の端部の座標や端部のキーポイントの座標から求められる。特徴量算出部１０３は、求めた骨格構造の特徴量をデータベース１１０に格納する。なお、この骨格構造の特徴量は、上記したキーポイント及びボーンと共に、人物の姿勢を示す姿勢情報としても用いられる。

図８の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は左足のキーポイントＡ８２、骨格領域の左端は右肘のキーポイントＡ４１、骨格領域の右端は左手のキーポイントＡ５２となる。このため、キーポイントＡ１とキーポイントＡ８２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ４１とキーポイントＡ５２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図９の例では、しゃがみ込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は右足のキーポイントＡ８１、骨格領域の左端は右腰のキーポイントＡ６１、骨格領域の右端は右手のキーポイントＡ５１となる。このため、キーポイントＡ１とキーポイントＡ８１のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ６１とキーポイントＡ５１のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図１０の例では、画像の左右方向に寝込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は左肩のキーポイントＡ３２、骨格領域の下端は左手のキーポイントＡ５２、骨格領域の左端は右手のキーポイントＡ５１、骨格領域の右端は左足のキーポイントＡ８２となる。このため、キーポイントＡ３２とキーポイントＡ５２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ５１とキーポイントＡ８２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

続いて、図３に示すように、画像処理装置１００は、分類処理を行う（Ｓ１０４）。分類処理では、図４に示すように、分類部１０４は、算出された骨格構造の特徴量の類似度を算出し（Ｓ１１１）、算出された類似度に基づいて骨格構造を分類する（Ｓ１１２）。分類部１０４は、分類対象であるデータベース１１０に格納されている全ての骨格構造間の特徴量の類似度を求め、最も類似度が高い骨格構造（姿勢）を同じクラスタに分類する（クラスタリングする）。さらに、分類したクラスタ間の類似度を求めて分類し、所定の数のクラスタとなるまで分類を繰り返す。図１１は、骨格構造の特徴量の分類結果のイメージを示している。図１１は、２次元の分類要素によるクラスタ分析のイメージであり、２つ分類要素は、例えば、骨格領域の高さと骨格領域の面積等である。図１１では、分類の結果、複数の骨格構造の特徴量が３つのクラスタＣ１～Ｃ３に分類されている。クラスタＣ１～Ｃ３は、例えば、立っている姿勢、座っている姿勢、寝ている姿勢のように各姿勢に対応し、似ている姿勢ごとに骨格構造（人物）が分類される。

本実施の形態では、人物の骨格構造の特徴量に基づいて分類することにより、多様な分類方法を用いることができる。なお、分類方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。また、後述する検索方法と同じ方法により分類を行ってもよい。つまり、検索条件と同様の分類条件により分類してもよい。例えば、分類部１０４は、次の分類方法により分類を行う。いずれかの分類方法を用いてもよいし、任意に選択された分類方法を組み合わせてもよい。

（分類方法１）複数の階層による分類
全身の骨格構造による分類や、上半身や下半身の骨格構造による分類、腕や脚の骨格構造による分類等を階層的に組み合わせて分類する。すなわち、骨格構造の第１の部分や第２の部分の特徴量に基づいて分類し、さらに、第１の部分や第２の部分の特徴量に重みづけを行って分類してもよい。

（分類方法２）時系列に沿った複数枚の画像による分類
時系列に連続する複数の画像における骨格構造の特徴量に基づいて分類する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて分類してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて分類してもよい。

（分類方法３）骨格構造の左右を無視した分類
人物の右側と左側が反対の骨格構造を同じ骨格構造として分類する。

さらに、分類部１０４は、骨格構造の分類結果を表示する（Ｓ１１３）。分類部１０４は、データベース１１０から必要な骨格構造や人物の画像を取得し、分類結果として似ている姿勢（クラスタ）ごとに骨格構造及び人物を表示部１０７に表示する。図１２は、姿勢を３つに分類した場合の表示例を示している。例えば、図１２に示すように、表示ウィンドウＷ１に、姿勢ごとの姿勢領域ＷＡ１～ＷＡ３を表示し、姿勢領域ＷＡ１～ＷＡ３にそれぞれ該当する姿勢の骨格構造及び人物（イメージ）を表示する。姿勢領域ＷＡ１は、例えば立っている姿勢の表示領域であり、クラスタＣ１に分類された、立っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ２は、例えば座っている姿勢の表示領域であり、クラスタＣ２に分類された、座っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ３は、例えば寝ている姿勢の表示領域であり、クラスタＣ３に分類された、寝ている姿勢に似た骨格構造及び人物を表示する。

続いて、図３に示すように、画像処理装置１００は、検索処理を行う（Ｓ１０５）。検索処理では、図５に示すように、検索部１０５は、検索条件の入力を受け付け（Ｓ１２１）、検索条件に基づいて骨格構造を検索する（Ｓ１２２）。検索部１０５は、入力部１０６から、ユーザの操作に応じて検索条件である検索クエリの入力を受け付ける。分類結果から検索クエリを入力する場合、例えば、図１２の表示例では、ユーザは、表示ウィンドウＷ１に表示されている姿勢領域ＷＡ１～ＷＡ３の中から検索したい姿勢の骨格構造を指定（選択）する。そうすると、検索部１０５は、ユーザにより指定された骨格構造を検索クエリとして、検索対象であるデータベース１１０に格納されている全ての骨格構造の中から特徴量の類似度が高い骨格構造を検索する。検索部１０５は、検索クエリの骨格構造の特徴量と検索対象の骨格構造の特徴量との類似度を算出し、算出した類似度が所定の閾値よりも高い骨格構造を抽出する。検索クエリの骨格構造の特徴量は、予め算出された特徴量を使用してもよいし、検索時に求めた特徴量を使用してもよい。なお、検索クエリは、ユーザの操作に応じて骨格構造の各部を動かすことで入力してもよいし、ユーザがカメラの前で実演した姿勢を検索クエリとしてもよい。

本実施の形態では、分類方法と同様に、人物の骨格構造の特徴量に基づいて検索することにより、多様な検索方法を用いることができる。なお、検索方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。例えば、検索部１０５は、次の検索方法により検索を行う。いずれかの検索方法を用いてもよいし、任意に選択された検索方法を組み合わせてもよい。複数の検索方法（検索条件）を論理式（例えばAND（論理積）、OR（論理和）、NOT（否定））により組み合わせて検索してもよい。例えば、検索条件を「（右手を挙げている姿勢）AND（左足を挙げている姿勢）」として検索してもよい。

（検索方法１）高さ方向の特徴量のみによる検索
人物の高さ方向の特徴量のみを用いて検索することで、人物の横方向の変化の影響を抑えることができ、人物の向きや人物の体型の変化に対しロバスト性が向上する。例えば、図１３の骨格構造５０１～５０３のように、人物の向きや体型が異なる場合でも、高さ方向の特徴量は大きく変化しない。このため、骨格構造５０１～５０３では、検索時（分類時）に同じ姿勢であると判断することができる。

（検索方法２）部分検索画像において人物の体の一部が隠れている場合、認識可能な部分の情報のみを用いて検索する。例えば、図１４の骨格構造５１１及び５１２のように、左足が隠れていることにより、左足のキーポイントが検出できない場合でも、検出されている他のキーポイントの特徴量を使用して検索できる。このため、骨格構造５１１及び５１２では、検索時（分類時）に同じ姿勢であると判断することができる。つまり、全てのキーポイントではなく、一部のキーポイントの特徴量を用いて、分類や検索を行うことができる。図１５の骨格構造５２１及び５２２の例では、両足の向きが異なっているものの、上半身のキーポイント（Ａ１、Ａ２、Ａ３１、Ａ３２、Ａ４１、Ａ４２、Ａ５１、Ａ５２）の特徴量を検索クエリとすることで、同じ姿勢であると判断することができる。また、検索したい部分（特徴点）に対して、重みを付けて検索してもよいし、類似度判定の閾値を変化させてもよい。体の一部が隠れている場合、隠れた部分を無視して検索してもよいし、隠れた部分を加味して検索してもよい。隠れた部分も含めて検索することで、同じ部位が隠れているような姿勢を検索することができる。

（検索方法３）骨格構造の左右を無視した検索
人物の右側と左側が反対の骨格構造を同じ骨格構造として検索する。例えば、図１６の骨格構造５３１及び５３２のように、右手を挙げている姿勢と、左手を挙げている姿勢を同じ姿勢として検索（分類）できる。図１６の例では、骨格構造５３１と骨格構造５３２は、右手のキーポイントＡ５１、右肘のキーポイントＡ４１、左手のキーポイントＡ５２、左肘のキーポイントＡ４２の位置が異なるものの、その他のキーポイントの位置は同じである。骨格構造５３１の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１と骨格構造５３２の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となり、また、骨格構造５３１の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２と骨格構造５３２の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となるため、同じ姿勢と判断する。

（検索方法４）縦方向と横方向の特徴量による検索
人物の縦方向（Ｙ軸方向）の特徴量のみで検索を行った後、得られた結果をさらに人物の横方向（Ｘ軸方向）の特徴量を用いて検索する。

（検索方法５）時系列に沿った複数枚の画像による検索
時系列に連続する複数の画像における骨格構造の特徴量に基づいて検索する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて検索してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて検索してもよい。

さらに、検索部１０５は、骨格構造の検索結果を表示する（Ｓ１２３）。検索部１０５は、データベース１１０から必要な骨格構造や人物の画像を取得し、検索結果として得られた骨格構造及び人物を表示部１０７に表示する。例えば、検索クエリ（検索条件）が複数指定されている場合、検索クエリごとに検索結果を表示する。図１７は、３つの検索クエリ（姿勢）により検索した場合の表示例を示している。例えば、図１７に示すように、表示ウィンドウＷ２において、左端部に指定された検索クエリＱ１０、Ｑ２０、Ｑ３０の骨格構造及び人物を表示し、検索クエリＱ１０、Ｑ２０、Ｑ３０の右側に各検索クエリの検索結果Ｑ１１、Ｑ２１、Ｑ３１の骨格構造及び人物を並べて表示する。

検索結果を検索クエリの隣から並べて表示する順番は、該当する骨格構造が見つかった順でもよいし、類似度が高い順でもよい。部分検索の部分（特徴点）に重みを付けて検索した場合に、重み付けて計算した類似度順に表示してもよい。ユーザが選択した部分（特徴点）のみから計算した類似度順に表示してもよい。また、検索結果の画像（フレーム）を中心に、時系列の前後の画像（フレーム）を一定時間分切り出して表示してもよい。

（検索方法６）本検索方法において、検索部１０５は、検索クエリ（以下、クエリ情報とも記載）として、上記した骨格構造を用いる。この骨格構造は、人の姿勢を示している。そして検索部１０５は、基準となる姿勢と、クエリ情報との差分を用いて、少なくとも一つのキーポイントの重み付けを決定する。そして検索部１０５は、この重み付けを用いて、クエリ情報が示す姿勢に類似している姿勢の人を含む画像（以下、目的画像と記載）を選択する。

図４０は、本検索方法に係る検索部１０５の機能構成の一例を示す図である。本図において、検索部１０５は、クエリ取得部６１０及び画像選択部６２０を有している。

クエリ取得部６１０は、クエリ情報を取得する。クエリ情報すなわち骨格構造は、複数のキーポイントそれぞれの相対位置を示す情報を含んでいる。上記したように、複数のキーポイントは、いずれも人の身体の互いに異なる部分、例えば関節を示している。クエリ取得部６１０は、このクエリ情報を、クエリとして入力された画像を処理することにより生成してもよい。またクエリ取得部６１０は、骨格情報そのものをクエリ情報として取得してもよい。

画像選択部６２０は、複数の選択対象画像から少なくとも一つの目的画像を選択する。詳細には、画像選択部６２０は、目的画像を選択する際に、基準となる姿勢を示す基準姿勢情報を用いる。基準姿勢情報は、複数のキーポイントの相対位置の基準的な位置すなわち基準相対位置（標準的な相対位置と表現することもできる）を含んでいる。画像選択部６２０は、この基準姿勢情報と、クエリ情報との差分を用いて、少なくとも一つのキーポイントの重み付けを決定する。そして画像選択部６２０は、複数の選択対象画像それぞれに含まれる人の複数のキーポイントの相対位置、クエリ情報、及び重み付けを用いて、少なくとも一つの目的画像を選択する。一例として画像選択部６２０は、クエリ情報に対する選択対象画像の類似スコア（例えば上記した類似度）を、複数のキーポイントの相対位置を用いて算出する。この際、画像選択部６２０は、複数のキーポイントそれぞれの類似スコアを算出し、これら複数の類似スコアを用いた演算処理、例えば和の算出を行うが、この演算において、上記した重み付けを用いた処理、例えば加重平均を行う。

画像選択部６２０は、複数のキーポイントのすべてについて重み付けを決定するのが好ましい。この処理において、一部のキーポイントの重み付けの値（例えば係数）は標準値（デフォルト値）から変更されない場合もある。また、一部のキーポイントの重み付けは０になることもある。

ここで画像選択部６２０は、基準姿勢情報における当該キーポイントの基準相対位置と、クエリ情報における当該キーポイントの相対位置と、の差が大きくなると、当該キーポイントの重み付けを大きくする。このようにする理由は、上記した差が大きいキーポイントは、クエリ情報が示す姿勢を特徴づけていると推定されるためである。

ここで、重み付けを決定する際に用いられる各キーポイントの相対位置は、例えば上記したボーンリンク、すなわち人体の構造上隣に位置するキーポイントを基準とした位置で示されてもよい。またこの相対位置は、基準となるキーポイント（以下、基準キーポイントと記載）を少なくとも一つ設定し、この基準キーポイントを基準とした位置として示されてもよい。後者の場合、基準キーポイントは、例えば首、右肩、及び左肩の少なくとも一つである。そしてキーポイントの相対位置は、この基準キーポイントを原点とした当該キーポイントの座標で示されてもよいし、基準キーポイントから当該キーポイントに至るまでのボーンリンクで示されてもよい。

本図に示す例において、画像選択部６２０が画像を選択する際の母集団となる複数の画像（以下、選択対象画像と記載）は、画像記憶部６３０に記憶されている。画像記憶部６３０に記憶されている選択対象画像は、繰り返し更新される。この更新は、選択対象画像の追加、及び選択対象画像の削除の双方が含まれるが、一般的に、画像記憶部６３０が記憶している選択対象画像の数は、時間が経過するにつれて増えていく。また、本図に示す例において、画像記憶部６３０は検索部１０５すなわち画像処理装置１０の一部となっている。ただし画像記憶部６３０は、画像処理装置１０の外部に位置していてもよい。なお、画像記憶部６３０は、上記したデータベース１１０の一部であってもよいし、データベース１１０とは別に設けられていてもよい。

ここで、基準姿勢情報について説明する。上記したように、基準姿勢情報はキーポイントの重み付けを決定する際に用いられる。基準姿勢情報は、予め定められていてもよいし、画像処理装置１０のユーザからの入力に従って画像選択部６２０が取得してもよいし、画像選択部６２０が生成してもよい。

基準姿勢情報が予め定められている場合、基準姿勢情報が示す姿勢は、例えば直立である。この場合、基準姿勢情報は、人が直立し、かつ両手を体に沿って下げたときの複数のキーポイントの相対位置を示している。基準姿勢情報は、例えば画像記憶部６３０に記憶されている。ただし、基準姿勢情報は画像記憶部６３０とは異なる場所に記憶されていてもよい。

また、画像選択部６２０がユーザからの入力に従って基準姿勢情報を取得する場合、ユーザから入力される情報は、基準姿勢情報そのものであってもよいし、予め記憶されている複数の姿勢情報から基準姿勢情報として用いる情報を選択することを示してもよい。後者の例において、複数の姿勢情報のそれぞれは、互いに異なる姿勢に対応しており、かつ当該姿勢における複数のキーポイントの相対位置を含んでいる。なお、ここで用いられる複数の姿勢情報は、画像記憶部６３０に記憶されていてもよいし、画像記憶部６３０とは異なる場所に記憶されていてもよい。

また、画像選択部６２０は、基準姿勢情報を生成する場合、例えば画像記憶部６３０が記憶している複数の選択対象画像を処理することにより基準姿勢情報を生成してもよい。ここで行われる処理は、例えば、少なくとも２つの選択対象画像それぞれの複数のキーポイントの相対位置を統計処理することである。ここで行われる統計処理は例えば平均であるが、これに限定されない。なお、画像選択部６２０は、基準姿勢情報を生成する際に、画像記憶部６３０が記憶しているすべての選択対象画像を用いてもよい。

図４１（Ａ）は、基準姿勢情報の一例を示す図であり、図４１（Ｂ）は、クエリ情報の一例を示す図である。図４１（Ａ）に示す例において、基準姿勢情報が示す姿勢は直立である。一方、図４１（Ｂ）に示すクエリ情報は、左手を上げている。この場合、クエリ情報と基準姿勢情報との差は、左手のキーポイントやボーンリンクが最も大きい。このため、図４１（Ｂ）に示すクエリ情報を用いて目的画像を選択する場合、画像選択部６２０は、左手のキーポイントやボーンリンクの重み付けの値を、他のキーポイントやボーンリンクと比べて大きくする。

なお、クエリ情報が一部のキーポイントを含んでいないことがある。このような例としては、例えばクエリとして用いられる画像において人体の一部が欠損している場合である。画像選択部６２０は、このようなクエリ情報を用いる場合、欠損しているキーポイントの重み付けの値を０にするのが好ましい。

図４２は、本検索方法において検索部１０５が行う処理の第１例を示すフローチャートである。本図に示す例において、画像選択部６２０は、予め設定された基準姿勢情報を用いる。

まずクエリ取得部６１０は、クエリ情報を取得する（ステップＳ３００）。すると画像選択部６２０は、基準姿勢情報を例えば画像記憶部６３０から読み出し、この基準姿勢情報とクエリ情報との差を用いて、複数のキーポイントそれぞれの重み付けを決定する（ステップＳ３１０）。

そして画像選択部６２０は、画像記憶部６３０が記憶している複数の選択対象画像から、クエリ情報に類似する画像を選択する（ステップＳ３２０）。この際、上記したように、画像選択部６２０は、複数の選択対象画像毎に、クエリ情報に対する類似スコアを算出するが、この類似スコアを算出する際に、ステップＳ３１０で算出した重み付けを用いる。そして画像選択部６２０は類似スコアが基準値以上になった画像を、目的画像として選択する。ただし画像選択部６２０は、類似スコアが大きい順に選択対象画像を並べ、上位から数えて基準数までの選択対象画像を目的画像として選択してもよい。

そして画像選択部６２０は、選択した目的画像を、例えば表示部１０７に表示させるために出力する（ステップＳ３３０）。

図４３は、本検索方法において検索部１０５が行う処理の第２例を示すフローチャートである。本図に示す例は、画像選択部６２０が基準姿勢情報を生成する点を除いて、図４２に示した例と同様である。

詳細には、クエリ取得部６１０がクエリ情報を取得する（ステップＳ３００）と、画像選択部６２０は、画像記憶部６３０が記憶している選択対象画像を用いて、基準姿勢情報を生成する（ステップＳ３０２）。この生成処理の具体例は、上記した通りである。それ以降の処理（ステップＳ３１０～Ｓ３３０）は、図４２を用いて説明した通りである。

なお、上記したように、画像記憶部６３０が記憶している選択対象画像の数は時間が経過するにつれて増える場合が多い。このため、基準姿勢画像を生成するときに画像記憶部６３０が記憶しているすべての選択対象画像が使用され、かつ目的画像を選択するたびに基準姿勢情報が生成されるようにすると、基準姿勢情報を生成するときに用いられる選択対象画像の数はそのタイミングにおける最大数となる。従って、基準姿勢情報の標準度合いは高くなる。言い換えると基準姿勢情報が示す姿勢の特徴は少なくなる。

また、ステップＳ３０２に示した処理は、ステップＳ３００の前に行われてもよい。

図４４は、本検索方法において検索部１０５が行う処理の第３例を示すフローチャートである。本図に示す例は、画像選択部６２０がユーザの入力に従って基準姿勢情報を取得する点を除いて、図４２に示した例と同様である。

詳細には、クエリ取得部６１０がクエリ情報を取得する（ステップＳ３００）と、画像処理装置１０のユーザは、画像処理装置１０に、基準姿勢情報、又はあらかじめ記憶されている複数の姿勢情報のうち基準姿勢情報となる情報を特定する情報を、入力する。すると画像選択部６２０は、この入力に従って基準姿勢情報を取得する（ステップＳ３０４）。それ以降の処理（ステップＳ３１０～Ｓ３３０）は、図４２を用いて説明した通りである。

なお、ステップＳ３０４に示した処理は、ステップＳ３００の前に行われてもよい。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造の特徴量に基づいて分類や検索を行うことを可能とした。これにより、類似度が高い似た姿勢ごとに分類することができ、また、検索クエリ（検索キー）と類似度が高い似た姿勢を検索することができる。画像から似ている姿勢を分類し表示することで、ユーザが姿勢等を指定することなく、画像中の人物の姿勢を把握することができる。分類結果の中からユーザが検索クエリの姿勢を指定できるため、予めユーザが検索したい姿勢を詳細に把握していない場合でも、所望の姿勢を検索することができる。例えば、人物の骨格構造の全体や一部等を条件として分類や検索を行うことができるため、柔軟な分類や検索が可能となる。

また、検索方法６によれば、クエリ情報を用いて画像を選択する際に、クエリ情報と基準姿勢情報との差を用いて、キーポイントの重み付けを決定する。このようにすると、クエリ情報に含まれる複数のキーポイントのうち、クエリ情報が示す姿勢を特徴づけるキーポイントの重みを大きくすることができる。従って、人の姿勢を示す姿勢情報を用いて画像を選択する場合において、選択精度は上がる。また、画像処理装置１０のユーザの負荷も小さい。

（実施の形態２）以下、図面を参照して実施の形態２について説明する。本実施の形態では、実施の形態１における特徴量算出の具体例について説明する。本実施の形態では、人物の身長を用いて正規化することで特徴量を求める。その他については、実施の形態１と同様である。

図１８は、本実施の形態に係る画像処理装置１００の構成を示している。図１８に示すように、画像処理装置１００は、実施の形態１の構成に加えて、さらに身長算出部１０８を備える。なお、特徴量算出部１０３と身長算出部１０８を一つの処理部としてもよい。

身長算出部（身長推定部）１０８は、骨格構造検出部１０２により検出された２次元の骨格構造に基づき、２次元の画像内の人物の直立時の高さ（身長画素数という）を算出（推定）する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）であるとも言える。身長算出部１０８は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

以下の例では、身長画素数を求める方法として具体例１～３を用いる。なお、具体例１～３のいずれかの方法を用いてもよいし、任意に選択される複数の方法を組み合わせて用いてもよい。具体例１では、骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求める。骨格構造検出部１０２（骨格推定技術）が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正することもできる。具体例２では、各ボーンの長さと全身の長さ（２次元画像空間上の身長）との関係を示す人体モデルを用いて、身長画素数を算出する。具体例３では、３次元人体モデルを２次元骨格構造にフィッティング（あてはめる）することで、身長画素数を算出する。

本実施の形態の特徴量算出部１０３は、算出された人物の身長画素数に基づいて、人物の骨格構造（骨格情報）を正規化する正規化部である。特徴量算出部１０３は、正規化した骨格構造の特徴量（正規化値）をデータベース１１０に格納する。特徴量算出部１０３は、骨格構造に含まれる各キーポイント（特徴点）の画像上での高さを、身長画素数で正規化する。本実施の形態では、例えば、高さ方向は、画像の２次元座標（Ｘ－Ｙ座標）空間における上下の方向（Ｙ軸方向）である。この場合、キーポイントの高さは、キーポイントのＹ座標の値（画素数）から求めることができる。あるいは、高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラ２００の姿勢、位置、撮像角度、焦点距離等である。カメラ２００により、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。撮像された画像の両端ではひずみが発生し、実世界の鉛直方向と画像の上下方向が合わない場合がある。これに対し、画像を撮影したカメラのパラメータを使用することで、実世界の鉛直方向が画像中でどの程度傾いているのかが分かる。このため、カメラパラメータに基づいて画像中に投影した鉛直投影軸に沿ったキーポイントの値を身長で正規化することで、実世界と画像のずれを考慮してキーポイントを特徴量化することができる。なお、左右方向（横方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における左右の方向（Ｘ軸方向）であり、または、実世界の３次元座標空間における地面に対し平行な方向を、２次元座標空間に投影した方向である。

図１９～図２３は、本実施の形態に係る画像処理装置１００の動作を示している。図１９は、画像処理装置１００における画像取得から検索処理までの流れを示し、図２０～図２２は、図１９の身長画素数算出処理（Ｓ２０１）の具体例１～３の流れを示し、図２３は、図１９の正規化処理（Ｓ２０２）の流れを示している。

図１９に示すように、本実施の形態では、実施の形態１における特徴量算出処理（Ｓ１０３）として、身長画素数算出処理（Ｓ２０１）及び正規化処理（Ｓ２０２）を行う。その他については実施の形態１と同様である。

画像処理装置１００は、画像取得（Ｓ１０１）及び骨格構造検出（Ｓ１０２）に続いて、検出された骨格構造に基づいて身長画素数算出処理を行う（Ｓ２０１）。この例では、図２４に示すように、画像における直立時の人物の骨格構造の高さを身長画素数（ｈ）とし、画像の人物の状態における骨格構造の各キーポイントの高さをキーポイント高さ（ｙｉ）とする。以下、身長画素数算出処理の具体例１～３について説明する。

＜具体例１＞具体例１では、頭部から足部までのボーンの長さを用いて身長画素数を求める。具体例１では、図２０に示すように、身長算出部１０８は、各ボーンの長さを取得し（Ｓ２１１）、取得した各ボーンの長さを合計する（Ｓ２１２）。

身長算出部１０８は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。すなわち、骨格構造を検出した画像から、図２４のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数（ｈ）として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

図２５の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出されている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

図２６の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い右足側のＬ１＋Ｌ２１＋Ｌ３１＋Ｌ４１に補正定数を乗じた値を身長画素数とする。

図２７の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

具体例１では、頭から足までのボーンの長さを合計することで身長を求めることができるため、簡易な方法で身長画素数を求めることができる。また、機械学習を用いた骨格推定技術により、少なくとも頭から足までの骨格を検出できればよいため、しゃがみ込んでいる状態など、必ずしも人物の全体が画像に写っていない場合でも精度よく身長画素数を推定することができる。

＜具体例２＞具体例２では、２次元骨格構造に含まれる骨の長さと２次元画像空間上の人物の全身の長さとの関係を示す２次元骨格モデルを用いて身長画素数を求める。

図２８は、具体例２で用いる、２次元画像空間上の各ボーンの長さと２次元画像空間上の全身の長さとの関係を示す人体モデル（２次元骨格モデル）３０１である。図２８に示すように、平均的な人物の各ボーンの長さと全身の長さとの関係（全身の長さに対する各ボーンの長さの割合）を、人体モデル３０１の各ボーンに対応付ける。例えば、頭のボーンＢ１の長さは全身の長さ×０．２（２０％）であり、右手のボーンＢ４１の長さは全身の長さ×０．１５（１５％）であり、右足のボーンＢ７１の長さは全身の長さ×０．２５（２５％）である。このような人体モデル３０１の情報をデータベース１１０に記憶しておくことで、各ボーンの長さから平均的な全身の長さを求めることができる。平均的な人物の人体モデルの他に、年代、性別、国籍等の人物の属性ごとに人体モデルを用意してもよい。これにより、人物の属性に応じて適切に全身の長さ（身長）を求めることができる。

具体例２では、図２１に示すように、身長算出部１０８は、各ボーンの長さを取得する（Ｓ２２１）。身長算出部１０８は、検出された骨格構造において、全てのボーンの長さ（２次元画像空間上の長さ）を取得する。図２９は、しゃがみ込んでいる状態の人物を右斜め後ろから撮像し、骨格構造を検出した例である。この例では、人物の顔や左側面が写っていないことから、頭のボーンと左腕及び左手のボーンが検出できていない。このため、検出されているボーンＢ２１、Ｂ２２、Ｂ３１、Ｂ４１、Ｂ５１、Ｂ５２、Ｂ６１、Ｂ６２、Ｂ７１、Ｂ７２の各長さを取得する。

続いて、身長算出部１０８は、図２１に示すように、人体モデルに基づき、各ボーンの長さから身長画素数を算出する（Ｓ２２２）。身長算出部１０８は、図２８のような、各ボーンと全身の長さとの関係を示す人体モデル３０１を参照し、各ボーンの長さから身長画素数を求める。例えば、右手のボーンＢ４１の長さが全身の長さ×０．１５であるため、ボーンＢ４１の長さ／０．１５によりボーンＢ４１に基づいた身長画素数を求める。また、右足のボーンＢ７１の長さが全身の長さ×０．２５であるため、ボーンＢ７１の長さ／０．２５によりボーンＢ７１に基づいた身長画素数を求める。

このとき参照する人体モデルは、例えば、平均的な人物の人体モデルであるが、年代、性別、国籍等の人物の属性に応じて人体モデルを選択してもよい。例えば、撮像した画像に人物の顔が写っている場合、顔に基づいて人物の属性を識別し、識別した属性に対応する人体モデルを参照する。属性ごとの顔を機械学習した情報を参照し、画像の顔の特徴から人物の属性を認識することができる。また、画像から人物の属性が識別できない場合に、平均的な人物の人体モデルを用いてもよい。

また、ボーンの長さから算出した身長画素数をカメラパラメータにより補正してもよい。例えばカメラを高い位置において、人物を見下ろすように撮影した場合、二次元骨格構造において肩幅のボーン等の横の長さはカメラの俯角の影響を受けないが、首－腰のボーン等の縦の長さは、カメラの俯角が大きくなる程小さくなる。そうすると、肩幅のボーン等の横の長さから算出した身長画素数が実際より大きくなる傾向がある。そこで、カメラパラメータを活用すると、人物がどの程度の角度でカメラに見下ろされているかがわかるため、この俯角の情報を使って正面から撮影したような二次元骨格構造に補正することができる。これによって、より正確に身長画素数を算出できる。

続いて、身長算出部１０８は、図２１に示すように、身長画素数の最適値を算出する（Ｓ２２３）。身長算出部１０８は、ボーンごとに求めた身長画素数から身長画素数の最適値を算出する。例えば、図３０に示すような、ボーンごとに求めた身長画素数のヒストグラムを生成し、その中で大きい身長画素数を選択する。つまり、複数のボーンに基づいて求められた複数の身長画素数の中で他よりも長い身長画素数を選択する。例えば、上位３０％を有効な値とし、図３０ではボーンＢ７１、Ｂ６１、Ｂ５１による身長画素数を選択する。選択した身長画素数の平均を最適値として求めてもよいし、最も大きい身長画素数を最適値としてもよい。２次元画像のボーンの長さから身長を求めるため、ボーンを正面から撮像できていない場合、すなわち、ボーンがカメラから見て奥行き方向に傾いて撮像された場合、ボーンの長さが正面から撮像した場合よりも短くなる。そうすると、身長画素数が大きい値は、身長画素数が小さい値よりも、正面から撮像された可能性が高く、より尤もらしい値となることから、より大きい値を最適値とする。

具体例２では、２次元画像空間上のボーンと全身の長さとの関係を示す人体モデルを用いて、検出した骨格構造のボーンに基づき身長画素数を求めるため、頭から足までの全ての骨格が得られない場合でも、一部のボーンから身長画素数を求めることができる。特に、複数のボーンから求められた値のうち、より大きい値を採用することで、精度よく身長画素数を推定することができる。

＜具体例３＞具体例３では、２次元骨格構造を３次元人体モデル（３次元骨格モデル）にフィッティングさせて、フィッティングした３次元人体モデルの身長画素数を用いて全身の骨格ベクトルを求める。

具体例３では、図２２に示すように、身長算出部１０８は、まず、カメラ２００の撮像した画像に基づき、カメラパラメータを算出する（Ｓ２３１）。身長算出部１０８は、カメラ２００が撮像した複数の画像の中から、予め長さが分かっている物体を抽出し、抽出した物体の大きさ（画素数）からカメラパラメータを求める。なお、カメラパラメータを予め求めておき、求めておいたカメラパラメータを必要に応じて取得してもよい。

続いて、身長算出部１０８は、３次元人体モデルの配置及び高さを調整する（Ｓ２３２）。身長算出部１０８は、検出された２次元骨格構造に対し、身長画素数算出用の３次元人体モデルを用意し、カメラパラメータに基づいて、同じ２次元画像内に配置する。具体的には、カメラパラメータと、２次元骨格構造から、「実世界におけるカメラと人物の相対的な位置関係」を特定する。例えば、仮にカメラの位置を座標（０，０，０）としたときに、人物が立っている（または座っている）位置の座標（ｘ，ｙ，ｚ）を特定する。そして、特定した人物と同じ位置（ｘ，ｙ，ｚ）に３次元人体モデルを配置して撮像した場合の画像を想定することで、２次元骨格構造と３次元人体モデルを重ね合わせる。

図３１は、しゃがみ込んでいる人物を左斜め前から撮像し、２次元骨格構造４０１を検出した例である。２次元骨格構造４０１は、２次元の座標情報を有する。なお、全てのボーンを検出していることが好ましいが、一部のボーンが検出されていなくてもよい。この２次元骨格構造４０１に対し、図３２のような、３次元人体モデル４０２を用意する。３次元人体モデル（３次元骨格モデル）４０２は、３次元の座標情報を有し、２次元骨格構造４０１と同じ形状の骨格のモデルである。そして、図３３のように、検出した２次元骨格構造４０１に対し、用意した３次元人体モデル４０２を配置し重ね合わせる。また、重ね合わせるとともに、３次元人体モデル４０２の高さを２次元骨格構造４０１に合うように調整する。

なお、このとき用意する３次元人体モデル４０２は、図３３のように、２次元骨格構造４０１の姿勢に近い状態のモデルでもよいし、直立した状態のモデルでもよい。例えば、機械学習を用いて２次元画像から３次元空間の姿勢を推定する技術を用いて、推定した姿勢の３次元人体モデル４０２を生成してもよい。２次元画像の関節と３次元空間の関節の情報を学習することで、２次元画像から３次元の姿勢を推定することができる。

続いて、身長算出部１０８は、図２２に示すように、３次元人体モデルを２次元骨格構造にフィッティングする（Ｓ２３３）。身長算出部１０８は、図３４のように、３次元人体モデル４０２を２次元骨格構造４０１に重ね合わせた状態で、３次元人体モデル４０２と２次元骨格構造４０１の姿勢が一致するように、３次元人体モデル４０２を変形させる。すなわち、３次元人体モデル４０２の身長、体の向き、関節の角度を調整し、２次元骨格構造４０１との差異がなくなるように最適化する。例えば、３次元人体モデル４０２の関節を、人の可動範囲で回転させていき、また、３次元人体モデル４０２の全体を回転させたり、全体のサイズを調整する。なお、３次元人体モデルと２次元骨格構造のフィッティング（あてはめ）は、２次元空間（２次元座標）上で行う。すなわち、２次元空間に３次元人体モデルを写像し、変形させた３次元人体モデルが２次元空間（画像）でどのように変化するかを考慮して、３次元人体モデルを２次元骨格構造に最適化する。

続いて、身長算出部１０８は、図２２に示すように、フィッティングさせた３次元人体モデルの身長画素数を算出する（Ｓ２３４）。身長算出部１０８は、図３５のように、３次元人体モデル４０２と２次元骨格構造４０１の差異がなくなり、姿勢が一致すると、その状態の３次元人体モデル４０２の身長画素数を求める。最適化された３次元人体モデル４０２を直立させた状態として、カメラパラメータに基づき、２次元空間上の全身の長さを求める。例えば、３次元人体モデル４０２を直立させた場合の頭から足までのボーンの長さ（画素数）により身長画素数を算出する。具体例１と同様に、３次元人体モデル４０２の頭部から足部までのボーンの長さを合計してもよい。

具体例３では、カメラパラメータに基づいて３次元人体モデルを２次元骨格構造にフィッティングさせて、その３次元人体モデルに基づいて身長画素数を求めることで、全てのボーンが正面に写っていない場合、すなわち、全てのボーンが斜めに映っているため誤差が大きい場合でも、精度よく身長画素数を推定することができる。

＜正規化処理＞図１９に示すように、画像処理装置１００は、身長画素数算出処理に続いて、正規化処理（Ｓ２０２）を行う。正規化処理では、図２３に示すように、特徴量算出部１０３は、キーポイント高さを算出する（Ｓ２４１）。特徴量算出部１０３は、検出された骨格構造に含まれる全てのキーポイントのキーポイント高さ（画素数）を算出する。キーポイント高さは、骨格構造の最下端（例えばいずれかの足のキーポイント）からそのキーポイントまでの高さ方向の長さ（画素数）である。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのＹ座標から求める。なお、上記のように、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。例えば、図２４の例で、首のキーポイントＡ２の高さ（ｙｉ）は、キーポイントＡ２のＹ座標から右足のキーポイントＡ８１または左足のキーポイントＡ８２のＹ座標を引いた値である。

続いて、特徴量算出部１０３は、正規化のための基準点を特定する（Ｓ２４２）。基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

続いて、特徴量算出部１０３は、キーポイント高さ（ｙｉ）を身長画素数で正規化する（Ｓ２４３）。特徴量算出部１０３は、各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、特徴量算出部１０３は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Ｙ座標のみを抽出し、また、基準点を首のキーポイントとして正規化を行う。具体的には、基準点（首のキーポイント）のＹ座標を（ｙｃ）として、次の式（１）を用いて、特徴量（正規化値）を求める。なお、カメラパラメータに基づいた鉛直投影軸を用いる場合は、（ｙｉ）及び（ｙｃ）を鉛直投影軸に沿った方向の値に変換する。

例えば、キーポイントが１８個の場合、各キーポイントの１８点の座標（ｘ０、ｙ０）、（ｘ１、ｙ１）、・・・（ｘ１７、ｙ１７）を、上記式（１）を用いて、次のように１８次元の特徴量に変換する。

図３６は、特徴量算出部１０３が求めた各キーポイントの特徴量の例を示している。この例では、首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図３７のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図３８のように、図３６に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、本実施の形態の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた身長画素数（２次元画像空間上の直立時の高さ）を用いて、骨格構造の各キーポイントを正規化する。この正規化された特徴量を用いることで、分類や検索等を行った場合のロバスト性を向上することができる。すなわち、本実施の形態の特徴量は、上記のように人物の横方向の変化に影響を受けないため、人物の向きや人物の体型の変化に対しロバスト性が高い。

さらに、本実施の形態では、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて人物の骨格構造を検出することで実現できるため、人物の姿勢等を学習する学習データを用意する必要がない。また、骨格構造のキーポイントを正規化し、データベースに格納しておくことで、人物の姿勢等の分類や検索が可能となるため、未知な姿勢に対しても分類や検索を行うことができる。また、骨格構造のキーポイントを正規化することで、明確でわかりやすい特徴量を得ることができるため、機械学習のようにブラックボックス型のアルゴリズムと異なり、処理結果に対するユーザの納得性が高い。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．人の姿勢を示すクエリ情報を取得するクエリ取得手段と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択手段と、
を備え、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択手段は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択装置。
２．上記１に記載の画像選択装置において、
前記画像選択手段は、前記複数のキーポイントのそれぞれにおいて、前記基準姿勢情報における当該キーポイントの前記基準相対位置と、前記クエリ情報における当該キーポイントの相対位置と、の差が大きくなると、当該キーポイントの前記重み付けを大きくする画像選択装置。
３．上記１又は２に記載の画像選択装置において、
前記基準姿勢情報は、人が直立し、かつ両手を体に沿って下げたときの前記複数のキーポイントの相対位置を示す画像選択装置。
４．上記１又は２に記載の画像選択装置において、
前記画像選択手段は、複数の選択対象画像を処理することにより、前記基準姿勢情報を生成する画像選択装置。
５．上記４に記載の画像選択装置において、
前記画像選択手段は、少なくとも２つの前記選択対象画像それぞれの前記複数のキーポイントの相対位置を統計処理することにより、前記基準相対位置を決定する画像選択装置。
６．上記１又は２に記載の画像選択装置において、
前記画像選択手段は、ユーザからの入力に従って前記基準姿勢情報を取得する、画像選択装置。
７．コンピュータが、
人の姿勢を示すクエリ情報を取得するクエリ取得処理と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択処理と、
を行い
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択処理において、前記コンピュータは、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択方法。

８．上記７に記載の画像選択方法において、
前記画像選択処理において、前記コンピュータは、前記複数のキーポイントのそれぞれにおいて、前記基準姿勢情報における当該キーポイントの前記基準相対位置と、前記クエリ情報における当該キーポイントの相対位置と、の差が大きくなると、当該キーポイントの前記重み付けを大きくする画像選択方法。
９．上記７又は８に記載の画像選択方法において、
前記基準姿勢情報は、人が直立し、かつ両手を体に沿って下げたときの前記複数のキーポイントの相対位置を示す画像選択方法。
１０．上記７又は８に記載の画像選択方法において、
前記画像選択処理において、前記コンピュータは、複数の選択対象画像を処理することにより、前記基準姿勢情報を生成する画像選択方法。
１１．上記１０に記載の画像選択方法において、
前記画像選択処理において、前記コンピュータは、少なくとも２つの前記選択対象画像それぞれの前記複数のキーポイントの相対位置を統計処理することにより、前記基準相対位置を決定する画像選択方法。
１２．上記７又は８に記載の画像選択方法において、
前記画像選択処理において、前記コンピュータは、ユーザからの入力に従って前記基準姿勢情報を取得する、画像選択方法。
１３．コンピュータに、
人の姿勢を示すクエリ情報を取得するクエリ取得機能と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択機能と、
を持たせ、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択機能は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、プログラム。
１４．上記１３に記載のプログラムにおいて、
前記画像選択機能は、前記複数のキーポイントのそれぞれにおいて、前記基準姿勢情報における当該キーポイントの前記基準相対位置と、前記クエリ情報における当該キーポイントの相対位置と、の差が大きくなると、当該キーポイントの前記重み付けを大きくするプログラム。
１５．上記１３又は１４に記載のプログラムにおいて、
前記基準姿勢情報は、人が直立し、かつ両手を体に沿って下げたときの前記複数のキーポイントの相対位置を示すプログラム。
１６．上記１３又は１４に記載のプログラムにおいて、
前記画像選択機能は、複数の選択対象画像を処理することにより、前記基準姿勢情報を生成するプログラム。
１７．上記１６に記載のプログラムにおいて、
前記画像選択機能は、少なくとも２つの前記選択対象画像それぞれの前記複数のキーポイントの相対位置を統計処理することにより、前記基準相対位置を決定するプログラム。
１８．上記１３又は１４に記載のプログラムにおいて、
前記画像選択機能は、ユーザからの入力に従って前記基準姿勢情報を取得する、プログラム。

１画像処理システム
１０画像処理装置（画像選択装置）
１１骨格検出部
１２特徴量算出部
１３認識部
１００画像処理装置（画像選択装置）
１０１画像取得部
１０２骨格構造検出部
１０３特徴量算出部
１０４分類部
１０５検索部
１０６入力部
１０７表示部
１０８身長算出部
１１０データベース
２００カメラ
３００、３０１人体モデル
４０１２次元骨格構造
４０２３次元人体モデル
６１０クエリ取得部
６２０画像選択部
６３０画像記憶部

Claims

人の姿勢を示すクエリ情報を取得するクエリ取得手段と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択手段と、
を備え、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択手段は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択装置。
請求項１に記載の画像選択装置において、
前記画像選択手段は、前記複数のキーポイントのそれぞれにおいて、前記基準姿勢情報における当該キーポイントの前記基準相対位置と、前記クエリ情報における当該キーポイントの相対位置と、の差が大きくなると、当該キーポイントの前記重み付けを大きくする画像選択装置。
請求項１又は２に記載の画像選択装置において、
前記基準姿勢情報は、人が直立し、かつ両手を体に沿って下げたときの前記複数のキーポイントの相対位置を示す画像選択装置。
請求項１又は２に記載の画像選択装置において、
前記画像選択手段は、複数の選択対象画像を処理することにより、前記基準姿勢情報を生成する画像選択装置。
請求項４に記載の画像選択装置において、
前記画像選択手段は、少なくとも２つの前記選択対象画像それぞれの前記複数のキーポイントの相対位置を統計処理することにより、前記基準相対位置を決定する画像選択装置。
請求項１又は２に記載の画像選択装置において、
前記画像選択手段は、ユーザからの入力に従って前記基準姿勢情報を取得する、画像選択装置。
コンピュータが、
人の姿勢を示すクエリ情報を取得するクエリ取得処理と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択処理と、
を行い
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択処理において、前記コンピュータは、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、画像選択方法。
コンピュータに、
人の姿勢を示すクエリ情報を取得するクエリ取得機能と、
前記クエリ情報を用いて、複数の選択対象画像から少なくとも一つの目的画像を選択する画像選択機能と、
を持たせ、
前記クエリ情報は、人の身体の互いに異なる部分を示す複数のキーポイントの相対位置を含んでおり、
前記画像選択機能は、
前記複数のキーポイントの基準相対位置を含む基準姿勢情報と、前記クエリ情報との差分を用いて、少なくとも一つの前記キーポイントの重み付けを決定し、
前記選択対象画像に含まれる人の前記複数のキーポイントの相対位置、前記クエリ情報、及び前記重み付けを用いて、前記少なくとも一つの目的画像を選択する、プログラム。