JP7302741B2

JP7302741B2 - 画像選択装置、画像選択方法、およびプログラム

Info

Publication number: JP7302741B2
Application number: JP2022524825A
Authority: JP
Inventors: 諒川合; 登吉田; 雅冬潘; 祥治西村; 健全劉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-07-04
Anticipated expiration: 2040-05-22
Also published as: US20230186597A1; WO2021234935A1; JPWO2021234935A1

Description

本発明は、画像選択装置、画像選択方法、およびプログラムに関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態の検出や検索を行う技術が利用されている。関連する技術として、例えば、特許文献１及び２が知られている。特許文献１には、人物の姿勢を関節位置座標で示し、この関節位置座標を用いて、入力画像に写る人物の姿勢と類似する姿勢を有する人物の画像を選択することが記載されている。特許文献２には、深さ映像に含まれる人物の頭や手足等のキージョイントに基づいて、類似する人物の姿勢を検索する技術が開示されている。特許文献３には、人物の姿勢と関連しないが、画像に付加された傾き等の姿勢情報を利用して類似画像を検索する技術が開示されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

特開２０１７－０９７５４９号公報特表２０１４－５２２０３５号公報特開２００６－２６０４０５号公報

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

本発明者は、複数の画像をクエリとして、画像を検索することを検討した。この場合、クエリが複数になるため、検索結果に関連する情報は増える。本発明が解決しようとする課題の一つは、複数の画像をクエリとして画像を検索する場合において、検索結果に関連する情報を効率よくユーザに伝えることにある。

本発明によれば、複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得手段と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択手段と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御手段と、
を備える画像選択装置が提供される。

本開示には、前記表示制御手段が、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる画像選択装置が含まれる。

本開示には、前記類似画像選択手段が、前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する画像選択装置が含まれる。

本発明によれば、コンピュータが、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得処理と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択処理と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御処理と、
を行う画像選択方法が提供される。

本開示には、前記コンピュータが、前記表示制御処理において、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる画像選択方法が含まれる。

本開示には、前記コンピュータが、前記表示制御処理において、前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する画像選択方法が含まれる。

本発明によれば、コンピュータに、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得機能と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択機能と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御機能と、
を持たせるプログラムが提供される。

本開示には、前記表示制御機能において、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させるプログラムが含まれる。

本開示には、前記類似画像選択機能において、前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択するプログラムが提供される。

本発明によれば、複数の画像をクエリとして画像を検索する場合において、検索結果に関連する情報を効率よくユーザに伝えることができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

実施の形態に係る画像処理装置の概要を示す構成図である。実施の形態１に係る画像処理装置の構成を示す構成図である。実施の形態１に係る画像処理方法を示すフローチャートである。実施の形態１に係る分類方法を示すフローチャートである。実施の形態１に係る検索方法を示すフローチャートである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る分類方法の具体例を示すグラフである。実施の形態１に係る分類結果の表示例を示す図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索結果の表示例を示す図である。実施の形態２に係る画像処理装置の構成を示す構成図である。実施の形態２に係る画像処理方法を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例１を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例３を示すフローチャートである。実施の形態２に係る正規化方法を示すフローチャートである。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る身長画素数算出方法を説明するためのヒストグラムである。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る３次元人体モデルを示す図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。画像処理装置のハードウェア構成例を示す図である。検索方法６に係る検索部１０５の機能構成の一例を示す図である。検索方法６に係る検索部１０５が行う処理の一例を示すフローチャートである。ステップＳ３０６における類似画像の表示態様の第１例を示す図である。ステップＳ３０６における類似画像の表示態様の第２例を示す図である。ステップＳ３０６における類似画像の表示態様の第３例を示す図である。ステップＳ３０６における類似画像の表示態様の第４例を示す図である。ステップＳ３０６における類似画像の表示態様の第５例を示す図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（実施の形態に至る検討）
近年、ディープラーニング等の機械学習を活用した画像認識技術が様々なシステムに応用されている。例えば、監視カメラの画像により監視を行う監視システムへの適用が進められている。監視システムに機械学習を活用することで、画像から人物の姿勢や行動等の状態をある程度把握することが可能とされつつある。

しかしながら、このような関連する技術では、必ずしもオンデマンドにユーザが望む人物の状態を把握できない場合がある。例えば、ユーザが検索し把握したい人物の状態を事前に特定できている場合もあれば、未知の状態のように具体的に特定できていない場合もある。そうすると、場合によっては、ユーザが検索したい人物の状態を詳細に指定することができない。また、人物の体の一部が隠れているような場合には検索等を行うことができない。関連する技術では、特定の検索条件のみからしか人物の状態を検索できないため、所望の人物の状態を柔軟に検索や分類することが困難である。

そこで、発明者らは、オンデマンドに画像からユーザ所望の人物の状態を認識するため、非特許文献１などの骨格推定技術を利用する方法を検討した。非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、人物の状態を柔軟に認識することを可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。そして「キーポイント」の位置は関節情報の一例になる。

（実施の形態の概要）
図１は、実施の形態に係る画像処理装置１０の概要を示している。図１に示すように、画像処理装置１０は、骨格検出部１１、特徴量算出部１２、及び認識部１３を備えている。骨格検出部１１は、カメラ等から取得される２次元画像に基づいて、複数の人物の２次元骨格構造を検出する。特徴量算出部１２は、骨格検出部１１により検出された複数の２次元骨格構造の特徴量を算出する。認識部１３は、特徴量算出部１２により算出された複数の特徴量の類似度に基づいて、複数の人物の状態の認識処理を行う。認識処理は、人物の状態の分類処理や検索処理（選択処理）等である。このため、画像処理装置１０は画像選択装置としても機能する。

このように、実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造から算出される特徴量に基づいて人物の状態の分類や検索等の認識処理を行うことで、所望の人物の状態を柔軟に認識することができる。

（実施の形態１）以下、図面を参照して実施の形態１について説明する。図２は、本実施の形態に係る画像処理装置１００の構成を示している。画像処理装置１００は、カメラ２００及びデータベース（ＤＢ）１１０とともに画像処理システム１を構成する。画像処理装置１００を含む画像処理システム１は、画像から推定される人物の骨格構造に基づき、人物の姿勢や行動等の状態を分類及び検索するシステムである。なお、画像処理装置１００も、画像選択装置としても機能する。

カメラ２００は、２次元の画像を生成する監視カメラ等の撮像部である。カメラ２００は、所定の箇所に設置されて、設置個所から撮像領域における人物等を撮像する。カメラ２００は、撮像した画像（映像）を画像処理装置１００へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、カメラ２００を画像処理装置１００の内部に設けてもよい。

データベース１１０は、画像処理装置１００の処理に必要な情報（データ）や処理結果等を格納するデータベースである。データベース１１０は、画像取得部１０１が取得した画像や、骨格構造検出部１０２の検出結果、機械学習用のデータ、特徴量算出部１０３が算出した特徴量、分類部１０４の分類結果、検索部１０５の検索結果等を記憶する。データベース１１０は、画像処理装置１００と必要に応じてデータを入出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、データベース１１０をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置１００の内部に設けてもよい。

図２に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、入力部１０６、及び表示部１０７を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、入力部１０６や表示部１０７等を外部の装置としてもよい。また、分類部１０４及び検索部１０５の両方を備えていてもよいし、いずれか一方のみを備えていてもよい。分類部１０４及び検索部１０５の両方、もしくは一方は、人物の状態の認識処理を行う認識部である。

画像取得部１０１は、カメラ２００が撮像した人物を含む２次元の画像を取得する。画像取得部１０１は、例えば、所定の監視期間にカメラ２００が撮像した、人物を含む画像（複数の画像を含む映像）を取得する。なお、カメラ２００からの取得に限らず、予め用意された人物を含む画像をデータベース１１０等から取得してもよい。

骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造を検出する。骨格構造検出部１０２は、取得された画像の中で認識される全ての人物について、骨格構造を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

特徴量算出部１０３は、検出された２次元の骨格構造の特徴量を算出し、算出した特徴量を、処理対象となった画像に紐づけてデータベース１１０に格納する。骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態を分類や検索するための要素となる。通常、この特徴量は、複数のパラメータ（例えば後述する分類要素）を含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

なお、ユーザが望む分類や検索を行うためには、分類や検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類や検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

分類部１０４は、データベース１１０に格納された複数の骨格構造を、骨格構造の特徴量の類似度に基づいて分類する（クラスタリングする）。分類部１０４は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態を分類しているとも言える。類似度は、骨格構造の特徴量間の距離である。分類部１０４は、骨格構造の全体の特徴量の類似度により分類してもよいし、骨格構造の一部の特徴量の類似度により分類してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により分類してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を分類してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を分類してもよい。すなわち、分類部１０４は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を分類できる。例えば、分類部１０４は、所定の監視期間に撮像された複数の画像における複数の骨格構造を分類対象とする。分類部１０４は、分類対象の特徴量間の類似度を求め、類似度の高い骨格構造が同じクラスタ（似た姿勢のグループ）となるように分類する。なお、検索と同様に、分類条件をユーザが指定できるようにしてもよい。分類部１０４は、骨格構造の分類結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

検索部１０５は、データベース１１０に格納された複数の骨格構造の中から、検索クエリ（クエリ状態）の特徴量と類似度の高い骨格構造を検索する。検索部１０５は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態の中から、検索条件（クエリ状態）に該当する人物の状態を検索しているとも言える。分類と同様に、類似度は、骨格構造の特徴量間の距離である。検索部１０５は、骨格構造の全体の特徴量の類似度により検索してもよいし、骨格構造の一部の特徴量の類似度により検索してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により検索してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を検索してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を検索してもよい。すなわち、検索部１０５は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を検索できる。例えば、検索部１０５は、分類対象と同様に、所定の監視期間に撮像された複数の画像における複数の骨格構造の特徴量を検索対象とする。また、分類部１０４が表示した分類結果の中からユーザが指定した骨格構造（姿勢）を検索クエリ（検索キー）とする。なお、分類結果に限らず、分類されていない複数の骨格構造の中から検索クエリを選択してもよいし、検索クエリとなる骨格構造をユーザが入力してもよい。検索部１０５は、検索対象の特徴量の中から、検索クエリの骨格構造の特徴量と類似度の高い特徴量を検索する。検索部１０５は、特徴量の検索結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

入力部１０６は、画像処理装置１００を操作するユーザから入力された情報を取得する入力インタフェースである。例えば、ユーザは、監視カメラの画像から不審な状態の人物を監視する監視者である。入力部１０６は、例えば、ＧＵＩ（Graphical User Interface）であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部１０６は、分類部１０４により分類された骨格構造（姿勢）の中から、指定された人物の骨格構造を検索クエリとして受け付ける。

表示部１０７は、画像処理装置１００の動作（処理）の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイ等のディスプレイ装置である。表示部１０７は、分類部１０４の分類結果や検索部１０５の検索結果を類似度等に応じてＧＵＩに表示する。

図３９は、画像処理装置１００のハードウェア構成例を示す図である。画像処理装置１００は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０は画像処理装置１００の各機能（例えば画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、及び入力部１０６）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０はデータベース１１０としても機能することもある。

入出力インタフェース１０５０は、画像処理装置１００と各種入出力機器とを接続するためのインタフェースである。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、入出力インタフェース１０５０を介してデータベース１１０と接続してもよい。

ネットワークインタフェース１０６０は、画像処理装置１００をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。画像処理装置１００は、ネットワークインタフェース１０６０を介してカメラ２００と通信してもよい。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、ネットワークインタフェース１０６０を介してデータベース１１０と接続してもよい。

図３～図５は、本実施の形態に係る画像処理装置１００の動作を示している。図３は、画像処理装置１００における画像取得から検索処理までの流れを示し、図４は、図３の分類処理（Ｓ１０４）の流れを示し、図５は、図３の検索処理（Ｓ１０５）の流れを示している。

図３に示すように、画像処理装置１００は、カメラ２００から画像を取得する（Ｓ１０１）。画像取得部１０１は、骨格構造から分類や検索を行うために人物を撮像した画像を取得し、取得した画像をデータベース１１０に格納する。画像取得部１０１は、例えば、所定の監視期間に撮像された複数の画像を取得し、複数の画像に含まれる全ての人物について以降の処理を行う。

続いて、画像処理装置１００は、取得した人物の画像に基づいて人物の骨格構造を検出する（Ｓ１０２）。図６は、骨格構造の検出例を示している。図６に示すように、監視カメラ等から取得した画像には複数の人物が含まれており、画像に含まれる各人物について骨格構造を検出する。

図７は、このとき検出する人体モデル３００の骨格構造を示しており、図８～図１０は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。骨格構造検出部１０２は、検出した人物の骨格構造をデータベース１１０に格納する。

図８は、直立した状態の人物を検出する例である。図８では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

図９は、しゃがみ込んでいる状態の人物を検出する例である。図９では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

図１０は、寝込んでいる状態の人物を検出する例である。図１０では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

続いて、図３に示すように、画像処理装置１００は、検出された骨格構造の特徴量を算出する（Ｓ１０３）。例えば、骨格領域の高さや面積を特徴量とする場合、特徴量算出部１０３は、骨格構造を含む領域を抽出し、その領域の高さ（画素数）や面積（画素面積）を求める。骨格領域の高さや面積は、抽出される骨格領域の端部の座標や端部のキーポイントの座標から求められる。特徴量算出部１０３は、求めた骨格構造の特徴量をデータベース１１０に格納する。

なお、この骨格構造の特徴量は、人物の姿勢を示す姿勢情報としても用いられる。また、この骨格構造の特徴量は、その特徴量の信頼度とともにデータベース１１０に格納される。特徴量の信頼度は、その特徴量であることの確からしさ（すなわち姿勢の推定結果が正しい確率）を示している。ある特徴量の信頼度が高い場合、その特徴量である確率は高くなる。なお、特徴量の信頼度は、例えばその骨格構造の特徴量を設定する際に用いられたキーポイントの数、及び当該キーポイントの信頼度を用いて算出されている。例えば関節の数が多くなるにつれて、特徴量の信頼度は高くなる。さらに、キーポイントの信頼度が高くなると、特徴量の信頼度は高くなる。

図８の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は左足のキーポイントＡ８２、骨格領域の左端は右肘のキーポイントＡ４１、骨格領域の右端は左手のキーポイントＡ５２となる。このため、キーポイントＡ１とキーポイントＡ８２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ４１とキーポイントＡ５２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図９の例では、しゃがみ込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は右足のキーポイントＡ８１、骨格領域の左端は右腰のキーポイントＡ６１、骨格領域の右端は右手のキーポイントＡ５１となる。このため、キーポイントＡ１とキーポイントＡ８１のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ６１とキーポイントＡ５１のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図１０の例では、画像の左右方向に寝込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は左肩のキーポイントＡ３２、骨格領域の下端は左手のキーポイントＡ５２、骨格領域の左端は右手のキーポイントＡ５１、骨格領域の右端は左足のキーポイントＡ８２となる。このため、キーポイントＡ３２とキーポイントＡ５２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ５１とキーポイントＡ８２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

続いて、図３に示すように、画像処理装置１００は、分類処理を行う（Ｓ１０４）。分類処理では、図４に示すように、分類部１０４は、算出された骨格構造の特徴量の類似度を算出し（Ｓ１１１）、算出された類似度に基づいて骨格構造を分類する（Ｓ１１２）。分類部１０４は、分類対象であるデータベース１１０に格納されている全ての骨格構造間の特徴量の類似度を求め、最も類似度が高い骨格構造（姿勢）を同じクラスタに分類する（クラスタリングする）。さらに、分類したクラスタ間の類似度を求めて分類し、所定の数のクラスタとなるまで分類を繰り返す。図１１は、骨格構造の特徴量の分類結果のイメージを示している。図１１は、２次元の分類要素によるクラスタ分析のイメージであり、２つ分類要素は、例えば、骨格領域の高さと骨格領域の面積等である。図１１では、分類の結果、複数の骨格構造の特徴量が３つのクラスタＣ１～Ｃ３に分類されている。クラスタＣ１～Ｃ３は、例えば、立っている姿勢、座っている姿勢、寝ている姿勢のように各姿勢に対応し、似ている姿勢ごとに骨格構造（人物）が分類される。

本実施の形態では、人物の骨格構造の特徴量に基づいて分類することにより、多様な分類方法を用いることができる。なお、分類方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。また、後述する検索方法と同じ方法により分類を行ってもよい。つまり、検索条件と同様の分類条件により分類してもよい。例えば、分類部１０４は、次の分類方法により分類を行う。いずれかの分類方法を用いてもよいし、任意に選択された分類方法を組み合わせてもよい。

（分類方法１）複数の階層による分類
全身の骨格構造による分類や、上半身や下半身の骨格構造による分類、腕や脚の骨格構造による分類等を階層的に組み合わせて分類する。すなわち、骨格構造の第１の部分や第２の部分の特徴量に基づいて分類し、さらに、第１の部分や第２の部分の特徴量に重みづけを行って分類してもよい。

（分類方法２）時系列に沿った複数枚の画像による分類
時系列に連続する複数の画像における骨格構造の特徴量に基づいて分類する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて分類してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて分類してもよい。

（分類方法３）骨格構造の左右を無視した分類
人物の右側と左側が反対の骨格構造を同じ骨格構造として分類する。

さらに、分類部１０４は、骨格構造の分類結果を表示する（Ｓ１１３）。分類部１０４は、データベース１１０から必要な骨格構造や人物の画像を取得し、分類結果として似ている姿勢（クラスタ）ごとに骨格構造及び人物を表示部１０７に表示する。図１２は、姿勢を３つに分類した場合の表示例を示している。例えば、図１２に示すように、表示ウィンドウＷ１に、姿勢ごとの姿勢領域ＷＡ１～ＷＡ３を表示し、姿勢領域ＷＡ１～ＷＡ３にそれぞれ該当する姿勢の骨格構造及び人物（イメージ）を表示する。姿勢領域ＷＡ１は、例えば立っている姿勢の表示領域であり、クラスタＣ１に分類された、立っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ２は、例えば座っている姿勢の表示領域であり、クラスタＣ２に分類された、座っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ３は、例えば寝ている姿勢の表示領域であり、クラスタＣ３に分類された、寝ている姿勢に似た骨格構造及び人物を表示する。

続いて、図３に示すように、画像処理装置１００は、検索処理を行う（Ｓ１０５）。検索処理では、図５に示すように、検索部１０５は、検索条件の入力を受け付け（Ｓ１２１）、検索条件に基づいて骨格構造を検索する（Ｓ１２２）。検索部１０５は、入力部１０６から、ユーザの操作に応じて検索条件である検索クエリの入力を受け付ける。分類結果から検索クエリを入力する場合、例えば、図１２の表示例では、ユーザは、表示ウィンドウＷ１に表示されている姿勢領域ＷＡ１～ＷＡ３の中から検索したい姿勢の骨格構造を指定（選択）する。そうすると、検索部１０５は、ユーザにより指定された骨格構造を検索クエリとして、検索対象であるデータベース１１０に格納されている全ての骨格構造の中から特徴量の類似度が高い骨格構造を検索する。検索部１０５は、検索クエリの骨格構造の特徴量と検索対象の骨格構造の特徴量との類似度を算出し、算出した類似度が所定の閾値よりも高い骨格構造を抽出する。検索クエリの骨格構造の特徴量は、予め算出された特徴量を使用してもよいし、検索時に求めた特徴量を使用してもよい。なお、検索クエリは、ユーザの操作に応じて骨格構造の各部を動かすことで入力してもよいし、ユーザがカメラの前で実演した姿勢を検索クエリとしてもよい。

本実施の形態では、分類方法と同様に、人物の骨格構造の特徴量に基づいて検索することにより、多様な検索方法を用いることができる。なお、検索方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。例えば、検索部１０５は、次の検索方法により検索を行う。いずれかの検索方法を用いてもよいし、任意に選択された検索方法を組み合わせてもよい。複数の検索方法（検索条件）を論理式（例えばAND（論理積）、OR（論理和）、NOT（否定））により組み合わせて検索してもよい。例えば、検索条件を「（右手を挙げている姿勢）AND（左足を挙げている姿勢）」として検索してもよい。

（検索方法１）高さ方向の特徴量のみによる検索
人物の高さ方向の特徴量のみを用いて検索することで、人物の横方向の変化の影響を抑えることができ、人物の向きや人物の体型の変化に対しロバスト性が向上する。例えば、図１３の骨格構造５０１～５０３のように、人物の向きや体型が異なる場合でも、高さ方向の特徴量は大きく変化しない。このため、骨格構造５０１～５０３では、検索時（分類時）に同じ姿勢であると判断することができる。

（検索方法２）部分検索画像において人物の体の一部が隠れている場合、認識可能な部分の情報のみを用いて検索する。例えば、図１４の骨格構造５１１及び５１２のように、左足が隠れていることにより、左足のキーポイントが検出できない場合でも、検出されている他のキーポイントの特徴量を使用して検索できる。このため、骨格構造５１１及び５１２では、検索時（分類時）に同じ姿勢であると判断することができる。つまり、全てのキーポイントではなく、一部のキーポイントの特徴量を用いて、分類や検索を行うことができる。図１５の骨格構造５２１及び５２２の例では、両足の向きが異なっているものの、上半身のキーポイント（Ａ１、Ａ２、Ａ３１、Ａ３２、Ａ４１、Ａ４２、Ａ５１、Ａ５２）の特徴量を検索クエリとすることで、同じ姿勢であると判断することができる。また、検索したい部分（特徴点）に対して、重みを付けて検索してもよいし、類似度判定の閾値を変化させてもよい。体の一部が隠れている場合、隠れた部分を無視して検索してもよいし、隠れた部分を加味して検索してもよい。隠れた部分も含めて検索することで、同じ部位が隠れているような姿勢を検索することができる。

（検索方法３）骨格構造の左右を無視した検索
人物の右側と左側が反対の骨格構造を同じ骨格構造として検索する。例えば、図１６の骨格構造５３１及び５３２のように、右手を挙げている姿勢と、左手を挙げている姿勢を同じ姿勢として検索（分類）できる。図１６の例では、骨格構造５３１と骨格構造５３２は、右手のキーポイントＡ５１、右肘のキーポイントＡ４１、左手のキーポイントＡ５２、左肘のキーポイントＡ４２の位置が異なるものの、その他のキーポイントの位置は同じである。骨格構造５３１の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１と骨格構造５３２の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となり、また、骨格構造５３１の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２と骨格構造５３２の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となるため、同じ姿勢と判断する。

（検索方法４）縦方向と横方向の特徴量による検索
人物の縦方向（Ｙ軸方向）の特徴量のみで検索を行った後、得られた結果をさらに人物の横方向（Ｘ軸方向）の特徴量を用いて検索する。

（検索方法５）時系列に沿った複数枚の画像による検索
時系列に連続する複数の画像における骨格構造の特徴量に基づいて検索する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて検索してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて検索してもよい。

さらに、検索部１０５は、骨格構造の検索結果を表示する（Ｓ１２３）。検索部１０５は、データベース１１０から必要な骨格構造や人物の画像を取得し、検索結果として得られた骨格構造及び人物を表示部１０７に表示する。例えば、検索クエリ（検索条件）が複数指定されている場合、検索クエリごとに検索結果を表示する。図１７は、３つの検索クエリ（姿勢）により検索した場合の表示例を示している。例えば、図１７に示すように、表示ウィンドウＷ２において、左端部に指定された検索クエリＱ１０、Ｑ２０、Ｑ３０の骨格構造及び人物を表示し、検索クエリＱ１０、Ｑ２０、Ｑ３０の右側に各検索クエリの検索結果Ｑ１１、Ｑ２１、Ｑ３１の骨格構造及び人物を並べて表示する。

検索結果を検索クエリの隣から並べて表示する順番は、該当する骨格構造が見つかった順でもよいし、類似度が高い順でもよい。部分検索の部分（特徴点）に重みを付けて検索した場合に、重み付けて計算した類似度順に表示してもよい。ユーザが選択した部分（特徴点）のみから計算した類似度順に表示してもよい。また、検索結果の画像（フレーム）を中心に、時系列の前後の画像（フレーム）を一定時間分切り出して表示してもよい。

（検索方法６）本検索方法において、検索クエリとしては複数の画像（以下、クエリ画像と記載）が用いられる。そして検索部１０５は、これら複数のクエリ画像の少なくとも一つに類似している画像（以下、類似画像と記載）を選択し、表示部１０７に表示させる。

図４０は、本検索方法に係る検索部１０５の機能構成の一例を示す図である。本図に示す例において、検索部１０５は、クエリ取得部６１０、類似画像選択部６２０、及び表示制御部６３０を備えている。

クエリ取得部６１０は複数のクエリ情報を取得する。クエリ情報は、複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示している。すなわちクエリ取得部６１０は、複数のクエリ画像それぞれのクエリ情報を取得する。クエリ情報の一例は、上記した姿勢情報である。

類似画像選択部６２０は、複数のクエリ情報を用いて、少なくとも１つのクエリ画像に対する類似度が基準を満たす画像、例えば特徴量空間における相対距離が基準値以下の画像を、類似画像として選択する。類似画像の母集団となる画像は、例えばデータベース１１０に記憶されている。この場合、類似画像選択部６２０は、データベース１１０から類似画像を選択することになる。

表示制御部６３０は、類似画像選択部６２０が選択した類似画像を表示部１０７に表示させる。

例えば類似画像選択部６２０が複数の類似画像を選択した場合、表示制御部６３０は、表示部１０７における複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が基準を満たした（すなわち類似する）クエリ画像の枚数を用いて設定する。この際、表示制御部６３０は、複数の類似画像を、当該類似画像が基準を満たしたクエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる。

なお、類似画像選択部６２０は、類似画像を選択するとき、基準枚数以上のクエリ画像に対する類似度が基準を満たす、という条件を用いることもある。なお、この基準枚数は、１以上（好ましくは２以上）の整数であり、例えばユーザ入力によって設定される。

図４１は、本検索方法において検索部１０５が行う処理の一例を示すフローチャートである。まずクエリ取得部６１０は、ユーザからの入力に従って複数のクエリ画像を特定する情報を取得し、これら複数のクエリ画像それぞれの特徴を示す情報（例えば上記した姿勢情報）をクエリ情報として取得する（ステップＳ３００）。例えばクエリ取得部６１０は、データベース１１０が記憶している画像の少なくとも一部を表示部１０７に表示させる。するとユーザは、表示部１０７に表示されている画像からクエリ画像を選択するための入力を行う。するとクエリ取得部６１０は、選択されたクエリ画像に対応する姿勢情報をデータベース１１０から読み出す。

次いで類似画像選択部６２０は、複数のクエリ情報を用いて、データベース１１０が記憶している画像から類似画像を少なくとも一つ選択する。ここで類似画像選択部６２０は、少なくとも一つのクエリ画像に類似している画像を、類似画像として選択する。そして類似画像選択部６２０は、類似画像毎に、その類似画像が類似していたクエリ画像の枚数をカウントする（ステップＳ３０２）。

次いで表示制御部６３０は、ステップＳ３０２で選択された類似画像の表示態様を決定し（ステップＳ３０４）、決定した表示態様で類似画像を表示部１０７に表示させる（ステップＳ３０６）。

なお、ユーザが選択するクエリ画像は、互いに類似していてもよい。言い換えると、ユーザが選択するクエリ画像は、互いに同一の種類の特徴を有していてもよい。一例として、複数のクエリ画像がいずれも人物を含んでいる場合、これら複数のクエリ画像に含まれる人物は、同じ姿勢（例えば椅子に座っている、立っている、右手を伸ばしている、又は左手を伸ばしているなど）を取っている。この場合、類似画像選択部６２０は、これらのクエリ画像に共通する特徴を有する画像を類似画像として選択する。

またユーザが選択するクエリ画像の少なくとも一つ（以下、第１のクエリ画像と記載）が示す特徴の種類は、他のクエリ画像（以下、第２のクエリ画像と記載）とは異なる種類の特徴を有していてもよい。この場合、類似画像選択部６２０は、第１のクエリ画像が有する特徴と、第２のクエリ画像が有する特徴の双方を有する画像を、類似画像として選択する。

一例として、クエリ画像が人物を含んでいる場合、第１の特徴は、その人物の全身の姿勢（例えば座っている、立っている、又は歩いている）を示しており、第２の特徴は、その人物の体の特定部位（例えば顔、右手、左手、右足、又は左足）の状態を示している。この場合の例としては、第１の特徴は、その人物が座っていることを示しており、第２の特徴は、その人物の右手が伸びていることを示している。この場合、類似画像選択部６２０は、いすに座っており、かつ右手を伸ばしている人物を含む画像を、類似画像として選択する。

他の例として、第１の特徴は第１の物体の特徴量であり、第２の特徴は第２の物体の特徴量である。この場合、類似画像選択部６２０は、第１の物体及び第２の物体の双方を含む画像を、類似画像として選択する。

図４２は、ステップＳ３０６における類似画像の表示態様の第１例を示す図である。本図に示す例において、表示制御部６３０は、クエリ画像として用いられたすべての画像を表示部１０７に表示させるとともに、複数の類似画像の表示位置又は表示順序を、当該類似画像が類似しているクエリ画像の枚数を用いて決定している。さらに表示制御部６３０は、表示部１０７において各類似画像の近傍に、当該類似画像が類似しているクエリ画像の枚数を示す情報を表示させる。

一つの類似画像は複数のクエリ画像に類似することがある。そして類似するクエリ画像の数が増えると、その類似画像が、ユーザが所望する画像である可能性は高くなる。このため、類似するクエリ画像の数の大小は重要な情報である。本例によれば、類似画像をユーザに示すとともに、類似画像の表示位置をユーザに認識させることによって、類似するクエリ画像の数の大小をユーザに伝えることができる。

図４３は、ステップＳ３０６における類似画像の表示態様の第２例を示す図である。本図に示す例においても、表示制御部６３０は、図４２に示した例と同様に、クエリ画像として用いられたすべての画像を表示部１０７に表示させるとともに、複数の類似画像の表示位置又は表示順序を、当該類似画像が類似しているクエリ画像の枚数を用いて決定している。そして、表示制御部６３０は、少なくとも一つの類似画像が選択されたことを示す情報がユーザによって入力されると、当該少なくとも一つの類似画像が基準を満たしたクエリ画像、すなわちその類似画像が類似していると判断されたクエリ画像のすべてを、他のクエリ画像から識別可能な状態で表示部１０７に表示させる。このようにすると、その類似画像に類似するクエリ画像を直接ユーザに確認させることができる。

本図に示す例において、表示制御部６３０は、選択された類似画像、及び当該類似画像に類似するクエリ画像の双方を、同一の枠線で囲んでいる。なお、ユーザが第１の類似画像と第２の類似画像を選択した場合、表示制御部６３０は、第１の類似画像及び第１の類似画像に類似するクエリ画像を第１の枠線で囲み、第２の類似画像及び第２の類似画像に類似するクエリ画像を第２の枠線で囲む。ここで第１の枠線及び第２の枠線は、色及び線の種類（例えば実線、点線、一点鎖線など）の少なくとも一方が互いに異なる。なお、枠線の代わりにマークが用いられてもよい。

図４４は、ステップＳ３０６における類似画像の表示態様の第３例を示す図である。本図に示す例においても、表示制御部６３０は、図４２に示した例と同様に、クエリ画像として用いられたすべての画像を表示部１０７に表示させるとともに、複数の類似画像の表示位置又は表示順序を、当該類似画像が類似しているクエリ画像の枚数を用いて決定している。そして、表示制御部６３０は、少なくとも一つのクエリ画像が選択されたことを示す情報がユーザによって入力されると、当該少なくとも一つのクエリ画像に対する類似度が基準を満たした類似画像、すなわちそのクエリ画像に類似している類似画像のすべてを、他の類似画像から識別可能な状態で表示部１０７に表示させる。このようにすると、そのクエリ画像に類似する類似画像を直接ユーザに確認させることができる。

本図に示す例において、表示制御部６３０は、選択されたクエリ画像、及び当該クエリ画像に類似する類似画像の双方を、同一の枠線で囲んでいる。この場合、ユーザが第１のクエリ画像と第２のクエリ画像を選択した場合、表示制御部６３０は、第１のクエリ画像及び第１のクエリ画像に類似する類似画像を第１の枠線で囲み、第２のクエリ画像及び第２のクエリ画像に類似する類似画像を第２の枠線で囲む。この例においても、第１の枠線及び第２の枠線は、色及び線の種類（例えば実線、点線、一点鎖線など）の少なくとも一方が互いに異なる。なお、枠線の代わりにマークが用いられてもよい。

図４５は、ステップＳ３０６における類似画像の表示態様の第４例を示す図である。本図に示す例において、類似画像選択部６２０は、類似しているクエリ画像が基準枚数以上となった画像を類似画像として選択している。そして表示制御部６３０は、クエリ画像として用いられたすべての画像を表示部１０７に表示させるとともに、類似画像選択部６２０が選択した類似画像を表示部１０７に表示させている。このようにすると、ユーザは、表示部１０７を見ることにより、類似画像を確認できるとともに、当該類似画像に類似しているクエリ画像が基準枚数以上であることも確認できる。

なお、本図に示す例においても、表示制御部６３０は、複数の類似画像の表示位置又は表示順序を、当該類似画像が類似しているクエリ画像の枚数を用いて決定している。

図４６は、ステップＳ３０６における類似画像の表示態様の第５例を示す図である。本図に示す例においても、表示制御部６３０は、図４２に示した例と同様に、クエリ画像として用いられたすべての画像を表示部１０７に表示させるとともに、複数の類似画像の表示位置又は表示順序を、当該類似画像が類似しているクエリ画像の枚数を用いて決定している。そして、表示制御部６３０は、複数の類似画像のそれぞれを、当該類似画像が類似していたクエリ画像とともに表示部１０７に表示させている。このようにすると、その類似画像に類似するクエリ画像を直接ユーザに確認させることができる。

本図に示す例において、表示制御部６３０は、類似画像の横に、当該類似画像が類似していたクエリ画像を、当該類似画像よりも小さく表示させている。

なお、本検索方法が対象とする画像は、人物を含む画像に限定されない。また、対象となる画像は一枚の画像であってもよいし、複数のフレーム画像からなる動画であってもよい。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造の特徴量に基づいて分類や検索を行うことを可能とした。これにより、類似度が高い似た姿勢ごとに分類することができ、また、検索クエリ（検索キー）と類似度が高い似た姿勢を検索することができる。画像から似ている姿勢を分類し表示することで、ユーザが姿勢等を指定することなく、画像中の人物の姿勢を把握することができる。分類結果の中からユーザが検索クエリの姿勢を指定できるため、予めユーザが検索したい姿勢を詳細に把握していない場合でも、所望の姿勢を検索することができる。例えば、人物の骨格構造の全体や一部等を条件として分類や検索を行うことができるため、柔軟な分類や検索が可能となる。

（実施の形態２）以下、図面を参照して実施の形態２について説明する。本実施の形態では、実施の形態１における特徴量算出の具体例について説明する。本実施の形態では、人物の身長を用いて正規化することで特徴量を求める。その他については、実施の形態１と同様である。

図１８は、本実施の形態に係る画像処理装置１００の構成を示している。図１８に示すように、画像処理装置１００は、実施の形態１の構成に加えて、さらに身長算出部１０８を備える。なお、特徴量算出部１０３と身長算出部１０８を一つの処理部としてもよい。

身長算出部（身長推定部）１０８は、骨格構造検出部１０２により検出された２次元の骨格構造に基づき、２次元の画像内の人物の直立時の高さ（身長画素数という）を算出（推定）する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）であるとも言える。身長算出部１０８は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

以下の例では、身長画素数を求める方法として具体例１～３を用いる。なお、具体例１～３のいずれかの方法を用いてもよいし、任意に選択される複数の方法を組み合わせて用いてもよい。具体例１では、骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求める。骨格構造検出部１０２（骨格推定技術）が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正することもできる。具体例２では、各ボーンの長さと全身の長さ（２次元画像空間上の身長）との関係を示す人体モデルを用いて、身長画素数を算出する。具体例３では、３次元人体モデルを２次元骨格構造にフィッティング（あてはめる）することで、身長画素数を算出する。

本実施の形態の特徴量算出部１０３は、算出された人物の身長画素数に基づいて、人物の骨格構造（骨格情報）を正規化する正規化部である。特徴量算出部１０３は、正規化した骨格構造の特徴量（正規化値）をデータベース１１０に格納する。特徴量算出部１０３は、骨格構造に含まれる各キーポイント（特徴点）の画像上での高さを、身長画素数で正規化する。本実施の形態では、例えば、高さ方向は、画像の２次元座標（Ｘ－Ｙ座標）空間における上下の方向（Ｙ軸方向）である。この場合、キーポイントの高さは、キーポイントのＹ座標の値（画素数）から求めることができる。あるいは、高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラ２００の姿勢、位置、撮像角度、焦点距離等である。カメラ２００により、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。撮像された画像の両端ではひずみが発生し、実世界の鉛直方向と画像の上下方向が合わない場合がある。これに対し、画像を撮影したカメラのパラメータを使用することで、実世界の鉛直方向が画像中でどの程度傾いているのかが分かる。このため、カメラパラメータに基づいて画像中に投影した鉛直投影軸に沿ったキーポイントの値を身長で正規化することで、実世界と画像のずれを考慮してキーポイントを特徴量化することができる。なお、左右方向（横方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における左右の方向（Ｘ軸方向）であり、または、実世界の３次元座標空間における地面に対し平行な方向を、２次元座標空間に投影した方向である。

図１９～図２３は、本実施の形態に係る画像処理装置１００の動作を示している。図１９は、画像処理装置１００における画像取得から検索処理までの流れを示し、図２０～図２２は、図１９の身長画素数算出処理（Ｓ２０１）の具体例１～３の流れを示し、図２３は、図１９の正規化処理（Ｓ２０２）の流れを示している。

図１９に示すように、本実施の形態では、実施の形態１における特徴量算出処理（Ｓ１０３）として、身長画素数算出処理（Ｓ２０１）及び正規化処理（Ｓ２０２）を行う。その他については実施の形態１と同様である。

画像処理装置１００は、画像取得（Ｓ１０１）及び骨格構造検出（Ｓ１０２）に続いて、検出された骨格構造に基づいて身長画素数算出処理を行う（Ｓ２０１）。この例では、図２４に示すように、画像における直立時の人物の骨格構造の高さを身長画素数（ｈ）とし、画像の人物の状態における骨格構造の各キーポイントの高さをキーポイント高さ（ｙｉ）とする。以下、身長画素数算出処理の具体例１～３について説明する。

＜具体例１＞具体例１では、頭部から足部までのボーンの長さを用いて身長画素数を求める。具体例１では、図２０に示すように、身長算出部１０８は、各ボーンの長さを取得し（Ｓ２１１）、取得した各ボーンの長さを合計する（Ｓ２１２）。

身長算出部１０８は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。すなわち、骨格構造を検出した画像から、図２４のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数（ｈ）として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

図２５の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出されている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

図２６の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い右足側のＬ１＋Ｌ２１＋Ｌ３１＋Ｌ４１に補正定数を乗じた値を身長画素数とする。

図２７の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

具体例１では、頭から足までのボーンの長さを合計することで身長を求めることができるため、簡易な方法で身長画素数を求めることができる。また、機械学習を用いた骨格推定技術により、少なくとも頭から足までの骨格を検出できればよいため、しゃがみ込んでいる状態など、必ずしも人物の全体が画像に写っていない場合でも精度よく身長画素数を推定することができる。

＜具体例２＞具体例２では、２次元骨格構造に含まれる骨の長さと２次元画像空間上の人物の全身の長さとの関係を示す２次元骨格モデルを用いて身長画素数を求める。

図２８は、具体例２で用いる、２次元画像空間上の各ボーンの長さと２次元画像空間上の全身の長さとの関係を示す人体モデル（２次元骨格モデル）３０１である。図２８に示すように、平均的な人物の各ボーンの長さと全身の長さとの関係（全身の長さに対する各ボーンの長さの割合）を、人体モデル３０１の各ボーンに対応付ける。例えば、頭のボーンＢ１の長さは全身の長さ×０．２（２０％）であり、右手のボーンＢ４１の長さは全身の長さ×０．１５（１５％）であり、右足のボーンＢ７１の長さは全身の長さ×０．２５（２５％）である。このような人体モデル３０１の情報をデータベース１１０に記憶しておくことで、各ボーンの長さから平均的な全身の長さを求めることができる。平均的な人物の人体モデルの他に、年代、性別、国籍等の人物の属性ごとに人体モデルを用意してもよい。これにより、人物の属性に応じて適切に全身の長さ（身長）を求めることができる。

具体例２では、図２１に示すように、身長算出部１０８は、各ボーンの長さを取得する（Ｓ２２１）。身長算出部１０８は、検出された骨格構造において、全てのボーンの長さ（２次元画像空間上の長さ）を取得する。図２９は、しゃがみ込んでいる状態の人物を右斜め後ろから撮像し、骨格構造を検出した例である。この例では、人物の顔や左側面が写っていないことから、頭のボーンと左腕及び左手のボーンが検出できていない。このため、検出されているボーンＢ２１、Ｂ２２、Ｂ３１、Ｂ４１、Ｂ５１、Ｂ５２、Ｂ６１、Ｂ６２、Ｂ７１、Ｂ７２の各長さを取得する。

続いて、身長算出部１０８は、図２１に示すように、人体モデルに基づき、各ボーンの長さから身長画素数を算出する（Ｓ２２２）。身長算出部１０８は、図２８のような、各ボーンと全身の長さとの関係を示す人体モデル３０１を参照し、各ボーンの長さから身長画素数を求める。例えば、右手のボーンＢ４１の長さが全身の長さ×０．１５であるため、ボーンＢ４１の長さ／０．１５によりボーンＢ４１に基づいた身長画素数を求める。また、右足のボーンＢ７１の長さが全身の長さ×０．２５であるため、ボーンＢ７１の長さ／０．２５によりボーンＢ７１に基づいた身長画素数を求める。

このとき参照する人体モデルは、例えば、平均的な人物の人体モデルであるが、年代、性別、国籍等の人物の属性に応じて人体モデルを選択してもよい。例えば、撮像した画像に人物の顔が写っている場合、顔に基づいて人物の属性を識別し、識別した属性に対応する人体モデルを参照する。属性ごとの顔を機械学習した情報を参照し、画像の顔の特徴から人物の属性を認識することができる。また、画像から人物の属性が識別できない場合に、平均的な人物の人体モデルを用いてもよい。

また、ボーンの長さから算出した身長画素数をカメラパラメータにより補正してもよい。例えばカメラを高い位置において、人物を見下ろすように撮影した場合、二次元骨格構造において肩幅のボーン等の横の長さはカメラの俯角の影響を受けないが、首－腰のボーン等の縦の長さは、カメラの俯角が大きくなる程小さくなる。そうすると、肩幅のボーン等の横の長さから算出した身長画素数が実際より大きくなる傾向がある。そこで、カメラパラメータを活用すると、人物がどの程度の角度でカメラに見下ろされているかがわかるため、この俯角の情報を使って正面から撮影したような二次元骨格構造に補正することができる。これによって、より正確に身長画素数を算出できる。

続いて、身長算出部１０８は、図２１に示すように、身長画素数の最適値を算出する（Ｓ２２３）。身長算出部１０８は、ボーンごとに求めた身長画素数から身長画素数の最適値を算出する。例えば、図３０に示すような、ボーンごとに求めた身長画素数のヒストグラムを生成し、その中で大きい身長画素数を選択する。つまり、複数のボーンに基づいて求められた複数の身長画素数の中で他よりも長い身長画素数を選択する。例えば、上位３０％を有効な値とし、図３０ではボーンＢ７１、Ｂ６１、Ｂ５１による身長画素数を選択する。選択した身長画素数の平均を最適値として求めてもよいし、最も大きい身長画素数を最適値としてもよい。２次元画像のボーンの長さから身長を求めるため、ボーンを正面から撮像できていない場合、すなわち、ボーンがカメラから見て奥行き方向に傾いて撮像された場合、ボーンの長さが正面から撮像した場合よりも短くなる。そうすると、身長画素数が大きい値は、身長画素数が小さい値よりも、正面から撮像された可能性が高く、より尤もらしい値となることから、より大きい値を最適値とする。

具体例２では、２次元画像空間上のボーンと全身の長さとの関係を示す人体モデルを用いて、検出した骨格構造のボーンに基づき身長画素数を求めるため、頭から足までの全ての骨格が得られない場合でも、一部のボーンから身長画素数を求めることができる。特に、複数のボーンから求められた値のうち、より大きい値を採用することで、精度よく身長画素数を推定することができる。

＜具体例３＞具体例３では、２次元骨格構造を３次元人体モデル（３次元骨格モデル）にフィッティングさせて、フィッティングした３次元人体モデルの身長画素数を用いて全身の骨格ベクトルを求める。

具体例３では、図２２に示すように、身長算出部１０８は、まず、カメラ２００の撮像した画像に基づき、カメラパラメータを算出する（Ｓ２３１）。身長算出部１０８は、カメラ２００が撮像した複数の画像の中から、予め長さが分かっている物体を抽出し、抽出した物体の大きさ（画素数）からカメラパラメータを求める。なお、カメラパラメータを予め求めておき、求めておいたカメラパラメータを必要に応じて取得してもよい。

続いて、身長算出部１０８は、３次元人体モデルの配置及び高さを調整する（Ｓ２３２）。身長算出部１０８は、検出された２次元骨格構造に対し、身長画素数算出用の３次元人体モデルを用意し、カメラパラメータに基づいて、同じ２次元画像内に配置する。具体的には、カメラパラメータと、２次元骨格構造から、「実世界におけるカメラと人物の相対的な位置関係」を特定する。例えば、仮にカメラの位置を座標（０，０，０）としたときに、人物が立っている（または座っている）位置の座標（ｘ，ｙ，ｚ）を特定する。そして、特定した人物と同じ位置（ｘ，ｙ，ｚ）に３次元人体モデルを配置して撮像した場合の画像を想定することで、２次元骨格構造と３次元人体モデルを重ね合わせる。

図３１は、しゃがみ込んでいる人物を左斜め前から撮像し、２次元骨格構造４０１を検出した例である。２次元骨格構造４０１は、２次元の座標情報を有する。なお、全てのボーンを検出していることが好ましいが、一部のボーンが検出されていなくてもよい。この２次元骨格構造４０１に対し、図３２のような、３次元人体モデル４０２を用意する。３次元人体モデル（３次元骨格モデル）４０２は、３次元の座標情報を有し、２次元骨格構造４０１と同じ形状の骨格のモデルである。そして、図３３のように、検出した２次元骨格構造４０１に対し、用意した３次元人体モデル４０２を配置し重ね合わせる。また、重ね合わせるとともに、３次元人体モデル４０２の高さを２次元骨格構造４０１に合うように調整する。

なお、このとき用意する３次元人体モデル４０２は、図３３のように、２次元骨格構造４０１の姿勢に近い状態のモデルでもよいし、直立した状態のモデルでもよい。例えば、機械学習を用いて２次元画像から３次元空間の姿勢を推定する技術を用いて、推定した姿勢の３次元人体モデル４０２を生成してもよい。２次元画像の関節と３次元空間の関節の情報を学習することで、２次元画像から３次元の姿勢を推定することができる。

続いて、身長算出部１０８は、図２２に示すように、３次元人体モデルを２次元骨格構造にフィッティングする（Ｓ２３３）。身長算出部１０８は、図３４のように、３次元人体モデル４０２を２次元骨格構造４０１に重ね合わせた状態で、３次元人体モデル４０２と２次元骨格構造４０１の姿勢が一致するように、３次元人体モデル４０２を変形させる。すなわち、３次元人体モデル４０２の身長、体の向き、関節の角度を調整し、２次元骨格構造４０１との差異がなくなるように最適化する。例えば、３次元人体モデル４０２の関節を、人の可動範囲で回転させていき、また、３次元人体モデル４０２の全体を回転させたり、全体のサイズを調整する。なお、３次元人体モデルと２次元骨格構造のフィッティング（あてはめ）は、２次元空間（２次元座標）上で行う。すなわち、２次元空間に３次元人体モデルを写像し、変形させた３次元人体モデルが２次元空間（画像）でどのように変化するかを考慮して、３次元人体モデルを２次元骨格構造に最適化する。

続いて、身長算出部１０８は、図２２に示すように、フィッティングさせた３次元人体モデルの身長画素数を算出する（Ｓ２３４）。身長算出部１０８は、図３５のように、３次元人体モデル４０２と２次元骨格構造４０１の差異がなくなり、姿勢が一致すると、その状態の３次元人体モデル４０２の身長画素数を求める。最適化された３次元人体モデル４０２を直立させた状態として、カメラパラメータに基づき、２次元空間上の全身の長さを求める。例えば、３次元人体モデル４０２を直立させた場合の頭から足までのボーンの長さ（画素数）により身長画素数を算出する。具体例１と同様に、３次元人体モデル４０２の頭部から足部までのボーンの長さを合計してもよい。

具体例３では、カメラパラメータに基づいて３次元人体モデルを２次元骨格構造にフィッティングさせて、その３次元人体モデルに基づいて身長画素数を求めることで、全てのボーンが正面に写っていない場合、すなわち、全てのボーンが斜めに映っているため誤差が大きい場合でも、精度よく身長画素数を推定することができる。

＜正規化処理＞図１９に示すように、画像処理装置１００は、身長画素数算出処理に続いて、正規化処理（Ｓ２０２）を行う。正規化処理では、図２３に示すように、特徴量算出部１０３は、キーポイント高さを算出する（Ｓ２４１）。特徴量算出部１０３は、検出された骨格構造に含まれる全てのキーポイントのキーポイント高さ（画素数）を算出する。キーポイント高さは、骨格構造の最下端（例えばいずれかの足のキーポイント）からそのキーポイントまでの高さ方向の長さ（画素数）である。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのＹ座標から求める。なお、上記のように、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。例えば、図２４の例で、首のキーポイントＡ２の高さ（ｙｉ）は、キーポイントＡ２のＹ座標から右足のキーポイントＡ８１または左足のキーポイントＡ８２のＹ座標を引いた値である。

続いて、特徴量算出部１０３は、正規化のための基準点を特定する（Ｓ２４２）。基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

続いて、特徴量算出部１０３は、キーポイント高さ（ｙｉ）を身長画素数で正規化する（Ｓ２４３）。特徴量算出部１０３は、各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、特徴量算出部１０３は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Ｙ座標のみを抽出し、また、基準点を首のキーポイントとして正規化を行う。具体的には、基準点（首のキーポイント）のＹ座標を（ｙｃ）として、次の式（１）を用いて、特徴量（正規化値）を求める。なお、カメラパラメータに基づいた鉛直投影軸を用いる場合は、（ｙｉ）及び（ｙｃ）を鉛直投影軸に沿った方向の値に変換する。

例えば、キーポイントが１８個の場合、各キーポイントの１８点の座標（ｘ０、ｙ０）、（ｘ１、ｙ１）、・・・（ｘ１７、ｙ１７）を、上記式（１）を用いて、次のように１８次元の特徴量に変換する。

図３６は、特徴量算出部１０３が求めた各キーポイントの特徴量の例を示している。この例では、首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図３７のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図３８のように、図３６に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、本実施の形態の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた身長画素数（２次元画像空間上の直立時の高さ）を用いて、骨格構造の各キーポイントを正規化する。この正規化された特徴量を用いることで、分類や検索等を行った場合のロバスト性を向上することができる。すなわち、本実施の形態の特徴量は、上記のように人物の横方向の変化に影響を受けないため、人物の向きや人物の体型の変化に対しロバスト性が高い。

さらに、本実施の形態では、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて人物の骨格構造を検出することで実現できるため、人物の姿勢等を学習する学習データを用意する必要がない。また、骨格構造のキーポイントを正規化し、データベースに格納しておくことで、人物の姿勢等の分類や検索が可能となるため、未知な姿勢に対しても分類や検索を行うことができる。また、骨格構造のキーポイントを正規化することで、明確でわかりやすい特徴量を得ることができるため、機械学習のようにブラックボックス型のアルゴリズムと異なり、処理結果に対するユーザの納得性が高い。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得手段と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択手段と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御手段と、
を備える画像選択装置。
２．上記１に記載の画像選択装置において、
前記表示制御手段は、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を特定可能な情報とともに表示手段に表示させる画像選択装置。
３．複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得手段と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択手段と、
前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる表示制御手段と、
を備える画像選択装置。
４．複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得手段と、
前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する類似画像選択手段と、
前記類似画像を表示手段に表示させる表示制御手段と、
を備える画像選択装置。
５．上記１～４のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、前記複数の類似画像のそれぞれを、当該類似画像が前記基準を満たした前記クエリ画像とともに前記表示手段に表示させる画像選択装置。
６．上記１～５のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記類似画像が選択されると、当該少なくとも一つの前記類似画像が前記基準を満たした前記クエリ画像を、他の前記クエリ画像から識別可能な状態で前記表示手段に表示させる画像選択装置。
７．上記１～６のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記クエリ画像が選択されると、選択された前記クエリ画像に対する類似度が基準を満たした前記類似画像を、他の前記類似画像から識別可能な状態で前記表示手段に表示させる画像選択装置。
８．上記１～７のいずれか一項に記載の画像選択装置において、
前記複数のクエリ情報は互いに類似している画像選択装置。
９．上記１～７のいずれか一項に記載の画像選択装置において、
第１の前記クエリ情報が示す特徴の種類は、第２の前記クエリ情報とは異なる種類である画像選択装置。
１０．上記９に記載の画像選択装置において、
前記クエリ情報は、前記クエリ画像に含まれる人物の姿勢を示しており、
前記第１のクエリ情報は、前記人物の全身の姿勢を示しており、前記第２のクエリ情報は、その人物の体の特定部位の状態を示している画像選択装置。
１１．コンピュータが、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得処理と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択処理と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御処理と、
を行う画像選択方法。
１２．上記１１に記載の画像選択方法において、
前記表示制御処理において、前記コンピュータは、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を特定可能な情報とともに表示手段に表示させる画像選択方法。
１３．コンピュータが、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得処理と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択処理と、
前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる表示制御処理と、
を行う画像選択方法。
１４．コンピュータが、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得処理と、
前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する類似画像選択処理と、
前記類似画像を表示手段に表示させる表示制御処理と、
を備える画像選択方法。
１５．上記１１～１４のいずれか一項に記載の画像選択方法において、
前記表示制御処理において、前記コンピュータは、前記複数の類似画像のそれぞれを、当該類似画像が前記基準を満たした前記クエリ画像とともに前記表示手段に表示させる画像選択方法。
１６．上記１１～１５のいずれか一項に記載の画像選択方法において、
前記表示制御処理において、前記コンピュータは、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記類似画像が選択されると、当該少なくとも一つの前記類似画像が前記基準を満たした前記クエリ画像を、他の前記クエリ画像から識別可能な状態で前記表示手段に表示させる画像選択方法。
１７．上記１１～１６のいずれか一項に記載の画像選択方法において、
前記表示制御処理において、前記コンピュータは、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記クエリ画像が選択されると、選択された前記クエリ画像に対する類似度が基準を満たした前記類似画像を、他の前記類似画像から識別可能な状態で前記表示手段に表示させる画像選択方法。
１８．上記１１～１７のいずれか一項に記載の画像選択方法において、
前記複数のクエリ情報は互いに類似している画像選択方法。
１９．上記１１～１７のいずれか一項に記載の画像選択方法において、
第１の前記クエリ情報が示す特徴の種類は、第２の前記クエリ情報とは異なる種類である画像選択方法。
２０．上記１９に記載の画像選択方法において、
前記クエリ情報は、前記クエリ画像に含まれる人物の姿勢を示しており、
前記第１のクエリ情報は、前記人物の全身の姿勢を示しており、前記第２のクエリ情報は、その人物の体の特定部位の状態を示している画像選択方法。
２１．コンピュータに、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得機能と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択機能と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御機能と、
を持たせるプログラム。
２２．上記２１に記載のプログラムにおいて、
前記表示制御機能は、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を特定可能な情報とともに表示手段に表示させるプログラム。
２３．コンピュータに、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得機能と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択機能と、
前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる表示制御機能と、
を持たせるプログラム。
２４．コンピュータに、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得機能と、
前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する類似画像選択機能と、
前記類似画像を表示手段に表示させる表示制御機能と、
を持たせるプログラム。
２５．上記２１～２４のいずれか一項に記載のプログラムにおいて、
前記表示制御機能は、前記複数の類似画像のそれぞれを、当該類似画像が前記基準を満たした前記クエリ画像とともに前記表示手段に表示させるプログラム。
２６．上記２１～２５のいずれか一項に記載のプログラムにおいて、
前記表示制御機能は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記類似画像が選択されると、当該少なくとも一つの前記類似画像が前記基準を満たした前記クエリ画像を、他の前記クエリ画像から識別可能な状態で前記表示手段に表示させるプログラム。
２７．上記２１～２６のいずれか一項に記載のプログラムにおいて、
前記表示制御機能は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記クエリ画像が選択されると、選択された前記クエリ画像に対する類似度が基準を満たした前記類似画像を、他の前記類似画像から識別可能な状態で前記表示手段に表示させるプログラム。
２８．上記２１～２７のいずれか一項に記載のプログラムにおいて、
前記複数のクエリ情報は互いに類似しているプログラム。
２９．上記２１～２７のいずれか一項に記載のプログラムにおいて、
第１の前記クエリ情報が示す特徴の種類は、第２の前記クエリ情報とは異なる種類であるプログラム。
３０．上記２９に記載のプログラムにおいて、
前記クエリ情報は、前記クエリ画像に含まれる人物の姿勢を示しており、
前記第１のクエリ情報は、前記人物の全身の姿勢を示しており、前記第２のクエリ情報は、その人物の体の特定部位の状態を示しているプログラム。

１画像処理システム
１０画像処理装置（画像選択装置）
１１骨格検出部
１２特徴量算出部
１３認識部
１００画像処理装置（画像選択装置）
１０１画像取得部
１０２骨格構造検出部
１０３特徴量算出部
１０４分類部
１０５検索部
１０６入力部
１０７表示部
１０８身長算出部
１１０データベース
２００カメラ
３００、３０１人体モデル
４０１２次元骨格構造
６１０クエリ取得部
６２０類似画像選択部
６３０表示制御部

Claims

複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得手段と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択手段と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御手段と、
を備える画像選択装置。
請求項１に記載の画像選択装置において、
前記表示制御手段は、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を特定可能な情報とともに表示手段に表示させる画像選択装置。
請求項１または２に記載の画像選択装置において、
前記表示制御手段は、前記複数の類似画像を、当該類似画像が前記基準を満たした前記クエリ画像の枚数又は当該クエリ画像を特定可能な情報とともに表示手段に表示させる画像選択装置。
請求項１～３のいずれか一項に記載の画像選択装置において、
前記類似画像選択手段は、前記複数のクエリ情報を用いて、基準枚数以上の前記クエリ画像に対する類似度が基準を満たす類似画像を選択する画像選択装置。
請求項１～４のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、前記複数の類似画像のそれぞれを、当該類似画像が前記基準を満たした前記クエリ画像とともに前記表示手段に表示させる画像選択装置。
請求項１～５のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記類似画像が選択されると、当該少なくとも一つの前記類似画像が前記基準を満たした前記クエリ画像を、他の前記クエリ画像から識別可能な状態で前記表示手段に表示させる画像選択装置。
請求項１～６のいずれか一項に記載の画像選択装置において、
前記表示制御手段は、
前記表示手段に前記複数のクエリ画像を表示させ、
少なくとも一つの前記クエリ画像が選択されると、選択された前記クエリ画像に対する類似度が基準を満たした前記類似画像を、他の前記類似画像から識別可能な状態で前記表示手段に表示させる画像選択装置。
請求項１～７のいずれか一項に記載の画像選択装置において、
前記複数のクエリ情報は互いに類似している画像選択装置。
請求項１～７のいずれか一項に記載の画像選択装置において、
第１の前記クエリ情報が示す特徴の種類は、第２の前記クエリ情報とは異なる種類である画像選択装置。
請求項９に記載の画像選択装置において、
前記クエリ情報は、前記クエリ画像に含まれる人物の姿勢を示しており、
前記第１のクエリ情報は、前記人物の全身の姿勢を示しており、前記第２のクエリ情報は、その人物の体の特定部位の状態を示している画像選択装置。
コンピュータが、
複数のクエリ画像毎に生成された情報であって、当該クエリ画像の特徴を示すクエリ情報を複数取得するクエリ取得処理と、
前記複数のクエリ情報を用いて、少なくとも１つの前記クエリ画像に対する類似度が基準を満たす類似画像を複数選択する類似画像選択処理と、
前記複数の類似画像を表示手段に表示させるとともに、前記表示手段における前記複数の類似画像それぞれの表示位置又は表示順を、当該類似画像が前記基準を満たした前記クエリ画像の枚数を用いて設定する表示制御処理と、
を行う画像選択方法。
コンピュータに、請求項１１に記載の画像選択方法を実行させるプログラム。