JP7435754B2

JP7435754B2 - 画像選択装置、画像選択方法、及びプログラム

Info

Publication number: JP7435754B2
Application number: JP2022519885A
Authority: JP
Inventors: 登吉田; 雅冬潘; 諒川合; 健全劉; 祥治西村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2024-02-21
Anticipated expiration: 2040-05-08
Also published as: US20230206482A1; WO2021224994A1; JPWO2021224994A1

Description

本発明は、画像選択装置、画像選択方法、及びプログラムに関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態の検出や検索を行う技術が利用されている。関連する技術として、例えば、特許文献１及び２が知られている。特許文献１には、深さ映像に含まれる人物の頭や手足等のキージョイントに基づいて、類似する人物の姿勢を検索する技術が開示されている。特許文献２には、人物の姿勢と関連しないが、画像に付加された傾き等の姿勢情報を利用して類似画像を検索する技術が開示されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

また、特許文献３には、姿勢情報を検索情報として入力することにより、その姿勢情報に類似する姿勢を含む画像を検索することが記載されている。また、特許文献４には、基準画像の中の人物の姿勢と、参照画像の中の人物の姿勢と、の部分的な差異を表す部分類似度を算出し、この部分類似度を用いて複数の参照画像から画像を選択することが記載されている。

一方、特許文献５には、複数の画像のうち所定の条件を満たした画像を記憶手段から削除することが記載されている。所定の条件の例は、顔がぶれている、顔に対して露出アンダーである、目を閉じている、顔が上を向きすぎている、目の下にクマがある、化粧がされていない、顔が横を向いている、などである。また特許文献５には、削除を望む被写体が写った画像を入力することにより、この人物が撮像された画像を削除候補として設定することができる、と記載されている。さらに特許文献５には、削除候補を表示手段に表示させ、その後、ユーザからの入力に応じて削除候補の画像を記憶手段から削除することも記載されている。

特表２０１４－５２２０３５号公報特開２００６－２６０４０５号公報特開２０１９－０９１１３８号公報特開２０１８－１８０８９４号公報特開２００５－１４１５８４号公報

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

本発明者は、特定の姿勢を含む画像を選択する際の検索クエリとして、人物を含む画像を用いることを検討した。この検討において、本発明者は、ある程度の頻度で、所望する姿勢以外の姿勢を含む画像が選択結果に含まれることに気づいた。このため、選択された画像から、削除すべき画像を効率よく選択する必要がある。

本発明の目的は、特定の姿勢を含むという条件で選択された画像から、削除すべき姿勢を含む画像を効率よく選択することにある。

本発明によれば、複数の対象画像毎に生成された情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得手段と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得手段と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出手段と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択手段と、
を備える画像選択装置が提供される。

本発明によれば、コンピュータが、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得し、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得し、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出し、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する、画像選択方法が提供される。

本発明によれば、コンピュータに、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得機能と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得機能と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出機能と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択機能と、
を持たせるプログラムが提供される。

本発明によれば、特定の姿勢を含むという条件で選択された画像から、削除すべき姿勢を含む画像を効率よく選択できる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

実施の形態に係る画像処理装置の概要を示す構成図である。実施の形態１に係る画像処理装置の構成を示す構成図である。実施の形態１に係る画像処理方法を示すフローチャートである。実施の形態１に係る分類方法を示すフローチャートである。実施の形態１に係る検索方法を示すフローチャートである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る分類方法の具体例を示すグラフである。実施の形態１に係る分類結果の表示例を示す図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索結果の表示例を示す図である。実施の形態２に係る画像処理装置の構成を示す構成図である。実施の形態２に係る画像処理方法を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例１を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例３を示すフローチャートである。実施の形態２に係る正規化方法を示すフローチャートである。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る身長画素数算出方法を説明するためのヒストグラムである。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る３次元人体モデルを示す図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。画像処理装置のハードウェア構成例を示す図である。検索方法６に係る検索部の機能構成の一例を示す図である。除外基準と選択基準の一例を説明するための図である。検索方法６に係る検索部が行う処理の第１例を示すフローチャートである図４２のステップＳ３１０を説明するための図である。図４２の変形例を示すフローチャートである。選択基準の更新方法の第1例を説明するための図である。選択基準の更新方法の第２例を説明するための図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（実施の形態に至る検討）
近年、ディープラーニング等の機械学習を活用した画像認識技術が様々なシステムに応用されている。例えば、監視カメラの画像により監視を行う監視システムへの適用が進められている。監視システムに機械学習を活用することで、画像から人物の姿勢や行動等の状態をある程度把握することが可能とされつつある。

しかしながら、このような関連する技術では、必ずしもオンデマンドにユーザが望む人物の状態を把握できない場合がある。例えば、ユーザが検索し把握したい人物の状態を事前に特定できている場合もあれば、未知の状態のように具体的に特定できていない場合もある。そうすると、場合によっては、ユーザが検索したい人物の状態を詳細に指定することができない。また、人物の体の一部が隠れているような場合には検索等を行うことができない。関連する技術では、特定の検索条件のみからしか人物の状態を検索できないため、所望の人物の状態を柔軟に検索や分類することが困難である。

そこで、発明者らは、オンデマンドに画像からユーザ所望の人物の状態を認識するため、非特許文献１などの骨格推定技術を利用する方法を検討した。非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、人物の状態を柔軟に認識することを可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
図１は、実施の形態に係る画像処理装置１０の概要を示している。図１に示すように、画像処理装置１０は、骨格検出部１１、特徴量算出部１２、及び認識部１３を備えている。骨格検出部１１は、カメラ等から取得される２次元画像に基づいて、複数の人物の２次元骨格構造を検出する。特徴量算出部１２は、骨格検出部１１により検出された複数の２次元骨格構造の特徴量を算出する。認識部１３は、特徴量算出部１２により算出された複数の特徴量の類似度に基づいて、複数の人物の状態の認識処理を行う。認識処理は、人物の状態の分類処理や検索処理（選択処理）等である。このため、画像処理装置１０は画像選択装置としても機能する。

このように、実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造から算出される特徴量に基づいて人物の状態の分類や検索等の認識処理を行うことで、所望の人物の状態を柔軟に認識することができる。

（実施の形態１）以下、図面を参照して実施の形態１について説明する。図２は、本実施の形態に係る画像処理装置１００の構成を示している。画像処理装置１００は、カメラ２００及びデータベース（ＤＢ）１１０とともに画像処理システム１を構成する。画像処理装置１００を含む画像処理システム１は、画像から推定される人物の骨格構造に基づき、人物の姿勢や行動等の状態を分類及び検索するシステムである。なお、画像処理装置１００も、画像選択装置としても機能する。

カメラ２００は、２次元の画像を生成する監視カメラ等の撮像部である。カメラ２００は、所定の箇所に設置されて、設置個所から撮像領域における人物等を撮像する。カメラ２００は、撮像した画像（映像）を画像処理装置１００へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、カメラ２００を画像処理装置１００の内部に設けてもよい。

データベース１１０は、画像処理装置１００の処理に必要な情報（データ）や処理結果等を格納するデータベースである。データベース１１０は、画像取得部１０１が取得した画像や、骨格構造検出部１０２の検出結果、機械学習用のデータ、特徴量算出部１０３が算出した特徴量、分類部１０４の分類結果、検索部１０５の検索結果等を記憶する。データベース１１０は、画像処理装置１００と必要に応じてデータを入出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、データベース１１０をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置１００の内部に設けてもよい。

図２に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、入力部１０６、及び表示部１０７を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、入力部１０６や表示部１０７等を外部の装置としてもよい。また、分類部１０４及び検索部１０５の両方を備えていてもよいし、いずれか一方のみを備えていてもよい。分類部１０４及び検索部１０５の両方、もしくは一方は、人物の状態の認識処理を行う認識部である。

画像取得部１０１は、カメラ２００が撮像した人物を含む２次元の画像を取得する。画像取得部１０１は、例えば、所定の監視期間にカメラ２００が撮像した、人物を含む画像（複数の画像を含む映像）を取得する。なお、カメラ２００からの取得に限らず、予め用意された人物を含む画像をデータベース１１０等から取得してもよい。

骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造を検出する。骨格構造検出部１０２は、取得された画像の中で認識される全ての人物について、骨格構造を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

特徴量算出部１０３は、検出された２次元の骨格構造の特徴量を算出し、算出した特徴量を、処理対象となった画像に紐づけてデータベース１１０に格納する。骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態を分類や検索するための要素となる。通常、この特徴量は、複数のパラメータ（例えば後述する分類要素）を含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

なお、ユーザが望む分類や検索を行うためには、分類や検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類や検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

分類部１０４は、データベース１１０に格納された複数の骨格構造を、骨格構造の特徴量の類似度に基づいて分類する（クラスタリングする）。分類部１０４は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態を分類しているとも言える。類似度は、骨格構造の特徴量間の距離である。分類部１０４は、骨格構造の全体の特徴量の類似度により分類してもよいし、骨格構造の一部の特徴量の類似度により分類してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により分類してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を分類してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を分類してもよい。すなわち、分類部１０４は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を分類できる。例えば、分類部１０４は、所定の監視期間に撮像された複数の画像における複数の骨格構造を分類対象とする。分類部１０４は、分類対象の特徴量間の類似度を求め、類似度の高い骨格構造が同じクラスタ（似た姿勢のグループ）となるように分類する。なお、検索と同様に、分類条件をユーザが指定できるようにしてもよい。分類部１０４は、骨格構造の分類結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

検索部１０５は、データベース１１０に格納された複数の骨格構造の中から、検索クエリ（クエリ状態）の特徴量と類似度の高い骨格構造を検索する。検索部１０５は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態の中から、検索条件（クエリ状態）に該当する人物の状態を検索しているとも言える。分類と同様に、類似度は、骨格構造の特徴量間の距離である。検索部１０５は、骨格構造の全体の特徴量の類似度により検索してもよいし、骨格構造の一部の特徴量の類似度により検索してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により検索してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を検索してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を検索してもよい。すなわち、検索部１０５は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を検索できる。例えば、検索部１０５は、分類対象と同様に、所定の監視期間に撮像された複数の画像における複数の骨格構造の特徴量を検索対象とする。また、分類部１０４が表示した分類結果の中からユーザが指定した骨格構造（姿勢）を検索クエリ（検索キー）とする。なお、分類結果に限らず、分類されていない複数の骨格構造の中から検索クエリを選択してもよいし、検索クエリとなる骨格構造をユーザが入力してもよい。検索部１０５は、検索対象の特徴量の中から、検索クエリの骨格構造の特徴量と類似度の高い特徴量を検索する。検索部１０５は、特徴量の検索結果をデータベース１１０に格納するとともに、表示部１０７に表示する。

入力部１０６は、画像処理装置１００を操作するユーザから入力された情報を取得する入力インタフェースである。例えば、ユーザは、監視カメラの画像から不審な状態の人物を監視する監視者である。入力部１０６は、例えば、ＧＵＩ（Graphical User Interface）であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部１０６は、分類部１０４により分類された骨格構造（姿勢）の中から、指定された人物の骨格構造を検索クエリとして受け付ける。

表示部１０７は、画像処理装置１００の動作（処理）の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイ等のディスプレイ装置である。表示部１０７は、分類部１０４の分類結果や検索部１０５の検索結果を類似度等に応じてＧＵＩに表示する。

図３９は、画像処理装置１００のハードウェア構成例を示す図である。画像処理装置１００は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０は画像処理装置１００の各機能（例えば画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、及び入力部１０６）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０はデータベース１１０としても機能することもある。

入出力インタフェース１０５０は、画像処理装置１００と各種入出力機器とを接続するためのインタフェースである。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、入出力インタフェース１０５０を介してデータベース１１０と接続してもよい。

ネットワークインタフェース１０６０は、画像処理装置１００をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。画像処理装置１００は、ネットワークインタフェース１０６０を介してカメラ２００と通信してもよい。データベース１１０が画像処理装置１００の外部に位置する場合、画像処理装置１００は、ネットワークインタフェース１０６０を介してデータベース１１０と接続してもよい。

図３～図５は、本実施の形態に係る画像処理装置１００の動作を示している。図３は、画像処理装置１００における画像取得から検索処理までの流れを示し、図４は、図３の分類処理（Ｓ１０４）の流れを示し、図５は、図３の検索処理（Ｓ１０５）の流れを示している。

図３に示すように、画像処理装置１００は、カメラ２００から画像を取得する（Ｓ１０１）。画像取得部１０１は、骨格構造から分類や検索を行うために人物を撮像した画像を取得し、取得した画像をデータベース１１０に格納する。画像取得部１０１は、例えば、所定の監視期間に撮像された複数の画像を取得し、複数の画像に含まれる全ての人物について以降の処理を行う。

続いて、画像処理装置１００は、取得した人物の画像に基づいて人物の骨格構造を検出する（Ｓ１０２）。図６は、骨格構造の検出例を示している。図６に示すように、監視カメラ等から取得した画像には複数の人物が含まれており、画像に含まれる各人物について骨格構造を検出する。

図７は、このとき検出する人体モデル３００の骨格構造を示しており、図８～図１０は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。骨格構造検出部１０２は、検出した人物の骨格構造をデータベース１１０に格納する。

図８は、直立した状態の人物を検出する例である。図８では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

図９は、しゃがみ込んでいる状態の人物を検出する例である。図９では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

図１０は、寝込んでいる状態の人物を検出する例である。図１０では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

続いて、図３に示すように、画像処理装置１００は、検出された骨格構造の特徴量を算出する（Ｓ１０３）。例えば、骨格領域の高さや面積を特徴量とする場合、特徴量算出部１０３は、骨格構造を含む領域を抽出し、その領域の高さ（画素数）や面積（画素面積）を求める。骨格領域の高さや面積は、抽出される骨格領域の端部の座標や端部のキーポイントの座標から求められる。特徴量算出部１０３は、求めた骨格構造の特徴量をデータベース１１０に格納する。なお、この骨格構造の特徴量は、人物の姿勢を示す姿勢情報としても用いられる。

図８の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は左足のキーポイントＡ８２、骨格領域の左端は右肘のキーポイントＡ４１、骨格領域の右端は左手のキーポイントＡ５２となる。このため、キーポイントＡ１とキーポイントＡ８２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ４１とキーポイントＡ５２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図９の例では、しゃがみ込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は右足のキーポイントＡ８１、骨格領域の左端は右腰のキーポイントＡ６１、骨格領域の右端は右手のキーポイントＡ５１となる。このため、キーポイントＡ１とキーポイントＡ８１のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ６１とキーポイントＡ５１のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図１０の例では、画像の左右方向に寝込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は左肩のキーポイントＡ３２、骨格領域の下端は左手のキーポイントＡ５２、骨格領域の左端は右手のキーポイントＡ５１、骨格領域の右端は左足のキーポイントＡ８２となる。このため、キーポイントＡ３２とキーポイントＡ５２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ５１とキーポイントＡ８２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

続いて、図３に示すように、画像処理装置１００は、分類処理を行う（Ｓ１０４）。分類処理では、図４に示すように、分類部１０４は、算出された骨格構造の特徴量の類似度を算出し（Ｓ１１１）、算出された類似度に基づいて骨格構造を分類する（Ｓ１１２）。分類部１０４は、分類対象であるデータベース１１０に格納されている全ての骨格構造間の特徴量の類似度を求め、最も類似度が高い骨格構造（姿勢）を同じクラスタに分類する（クラスタリングする）。さらに、分類したクラスタ間の類似度を求めて分類し、所定の数のクラスタとなるまで分類を繰り返す。図１１は、骨格構造の特徴量の分類結果のイメージを示している。図１１は、２次元の分類要素によるクラスタ分析のイメージであり、２つ分類要素は、例えば、骨格領域の高さと骨格領域の面積等である。図１１では、分類の結果、複数の骨格構造の特徴量が３つのクラスタＣ１～Ｃ３に分類されている。クラスタＣ１～Ｃ３は、例えば、立っている姿勢、座っている姿勢、寝ている姿勢のように各姿勢に対応し、似ている姿勢ごとに骨格構造（人物）が分類される。

本実施の形態では、人物の骨格構造の特徴量に基づいて分類することにより、多様な分類方法を用いることができる。なお、分類方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。また、後述する検索方法と同じ方法により分類を行ってもよい。つまり、検索条件と同様の分類条件により分類してもよい。例えば、分類部１０４は、次の分類方法により分類を行う。いずれかの分類方法を用いてもよいし、任意に選択された分類方法を組み合わせてもよい。

（分類方法１）複数の階層による分類
全身の骨格構造による分類や、上半身や下半身の骨格構造による分類、腕や脚の骨格構造による分類等を階層的に組み合わせて分類する。すなわち、骨格構造の第１の部分や第２の部分の特徴量に基づいて分類し、さらに、第１の部分や第２の部分の特徴量に重みづけを行って分類してもよい。

（分類方法２）時系列に沿った複数枚の画像による分類
時系列に連続する複数の画像における骨格構造の特徴量に基づいて分類する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて分類してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて分類してもよい。

（分類方法３）骨格構造の左右を無視した分類
人物の右側と左側が反対の骨格構造を同じ骨格構造として分類する。

さらに、分類部１０４は、骨格構造の分類結果を表示する（Ｓ１１３）。分類部１０４は、データベース１１０から必要な骨格構造や人物の画像を取得し、分類結果として似ている姿勢（クラスタ）ごとに骨格構造及び人物を表示部１０７に表示する。図１２は、姿勢を３つに分類した場合の表示例を示している。例えば、図１２に示すように、表示ウィンドウＷ１に、姿勢ごとの姿勢領域ＷＡ１～ＷＡ３を表示し、姿勢領域ＷＡ１～ＷＡ３にそれぞれ該当する姿勢の骨格構造及び人物（イメージ）を表示する。姿勢領域ＷＡ１は、例えば立っている姿勢の表示領域であり、クラスタＣ１に分類された、立っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ２は、例えば座っている姿勢の表示領域であり、クラスタＣ２に分類された、座っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ３は、例えば寝ている姿勢の表示領域であり、クラスタＣ３に分類された、寝ている姿勢に似た骨格構造及び人物を表示する。

続いて、図３に示すように、画像処理装置１００は、検索処理を行う（Ｓ１０５）。検索処理では、図５に示すように、検索部１０５は、検索条件の入力を受け付け（Ｓ１２１）、検索条件に基づいて骨格構造を検索する（Ｓ１２２）。検索部１０５は、入力部１０６から、ユーザの操作に応じて検索条件である検索クエリの入力を受け付ける。分類結果から検索クエリを入力する場合、例えば、図１２の表示例では、ユーザは、表示ウィンドウＷ１に表示されている姿勢領域ＷＡ１～ＷＡ３の中から検索したい姿勢の骨格構造を指定（選択）する。そうすると、検索部１０５は、ユーザにより指定された骨格構造を検索クエリとして、検索対象であるデータベース１１０に格納されている全ての骨格構造の中から特徴量の類似度が高い骨格構造を検索する。検索部１０５は、検索クエリの骨格構造の特徴量と検索対象の骨格構造の特徴量との類似度を算出し、算出した類似度が所定の閾値よりも高い骨格構造を抽出する。検索クエリの骨格構造の特徴量は、予め算出された特徴量を使用してもよいし、検索時に求めた特徴量を使用してもよい。なお、検索クエリは、ユーザの操作に応じて骨格構造の各部を動かすことで入力してもよいし、ユーザがカメラの前で実演した姿勢を検索クエリとしてもよい。

本実施の形態では、分類方法と同様に、人物の骨格構造の特徴量に基づいて検索することにより、多様な検索方法を用いることができる。なお、検索方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。例えば、検索部１０５は、次の検索方法により検索を行う。いずれかの検索方法を用いてもよいし、任意に選択された検索方法を組み合わせてもよい。複数の検索方法（検索条件）を論理式（例えばAND（論理積）、OR（論理和）、NOT（否定））により組み合わせて検索してもよい。例えば、検索条件を「（右手を挙げている姿勢）AND（左足を挙げている姿勢）」として検索してもよい。

（検索方法１）高さ方向の特徴量のみによる検索
人物の高さ方向の特徴量のみを用いて検索することで、人物の横方向の変化の影響を抑えることができ、人物の向きや人物の体型の変化に対しロバスト性が向上する。例えば、図１３の骨格構造５０１～５０３のように、人物の向きや体型が異なる場合でも、高さ方向の特徴量は大きく変化しない。このため、骨格構造５０１～５０３では、検索時（分類時）に同じ姿勢であると判断することができる。

（検索方法２）部分検索画像において人物の体の一部が隠れている場合、認識可能な部分の情報のみを用いて検索する。例えば、図１４の骨格構造５１１及び５１２のように、左足が隠れていることにより、左足のキーポイントが検出できない場合でも、検出されている他のキーポイントの特徴量を使用して検索できる。このため、骨格構造５１１及び５１２では、検索時（分類時）に同じ姿勢であると判断することができる。つまり、全てのキーポイントではなく、一部のキーポイントの特徴量を用いて、分類や検索を行うことができる。図１５の骨格構造５２１及び５２２の例では、両足の向きが異なっているものの、上半身のキーポイント（Ａ１、Ａ２、Ａ３１、Ａ３２、Ａ４１、Ａ４２、Ａ５１、Ａ５２）の特徴量を検索クエリとすることで、同じ姿勢であると判断することができる。また、検索したい部分（特徴点）に対して、重みを付けて検索してもよいし、類似度判定の閾値を変化させてもよい。体の一部が隠れている場合、隠れた部分を無視して検索してもよいし、隠れた部分を加味して検索してもよい。隠れた部分も含めて検索することで、同じ部位が隠れているような姿勢を検索することができる。

（検索方法３）骨格構造の左右を無視した検索
人物の右側と左側が反対の骨格構造を同じ骨格構造として検索する。例えば、図１６の骨格構造５３１及び５３２のように、右手を挙げている姿勢と、左手を挙げている姿勢を同じ姿勢として検索（分類）できる。図１６の例では、骨格構造５３１と骨格構造５３２は、右手のキーポイントＡ５１、右肘のキーポイントＡ４１、左手のキーポイントＡ５２、左肘のキーポイントＡ４２の位置が異なるものの、その他のキーポイントの位置は同じである。骨格構造５３１の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１と骨格構造５３２の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となり、また、骨格構造５３１の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２と骨格構造５３２の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となるため、同じ姿勢と判断する。

（検索方法４）縦方向と横方向の特徴量による検索
人物の縦方向（Ｙ軸方向）の特徴量のみで検索を行った後、得られた結果をさらに人物の横方向（Ｘ軸方向）の特徴量を用いて検索する。

（検索方法５）時系列に沿った複数枚の画像による検索
時系列に連続する複数の画像における骨格構造の特徴量に基づいて検索する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて検索してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて検索してもよい。

さらに、検索部１０５は、骨格構造の検索結果を表示する（Ｓ１２３）。検索部１０５は、データベース１１０から必要な骨格構造や人物の画像を取得し、検索結果として得られた骨格構造及び人物を表示部１０７に表示する。例えば、検索クエリ（検索条件）が複数指定されている場合、検索クエリごとに検索結果を表示する。図１７は、３つの検索クエリ（姿勢）により検索した場合の表示例を示している。例えば、図１７に示すように、表示ウィンドウＷ２において、左端部に指定された検索クエリＱ１０、Ｑ２０、Ｑ３０の骨格構造及び人物を表示し、検索クエリＱ１０、Ｑ２０、Ｑ３０の右側に各検索クエリの検索結果Ｑ１１、Ｑ２１、Ｑ３１の骨格構造及び人物を並べて表示する。

検索結果を検索クエリの隣から並べて表示する順番は、該当する骨格構造が見つかった順でもよいし、類似度が高い順でもよい。部分検索の部分（特徴点）に重みを付けて検索した場合に、重み付けて計算した類似度順に表示してもよい。ユーザが選択した部分（特徴点）のみから計算した類似度順に表示してもよい。また、検索結果の画像（フレーム）を中心に、時系列の前後の画像（フレーム）を一定時間分切り出して表示してもよい。

（検索方法６）本検索方法において、検索部１０５は、検索結果として選択された画像（以下、対象画像と記載）が複数あり、かつこれら複数の対象画像の中にユーザの意図から外れる姿勢の人物の画像が含まれていた場合、当該意図から外れる姿勢の人物の画像（以下、除外画像と記載）を対象画像から除外する。

図４０は、本検索方法に係る検索部１０５の機能構成の一例を示す図である。本図において、検索部１０５は、検索用情報取得部６１０、除外用情報取得部６２０、除外用スコア算出部６３０、及び除外画像選択部６４０を備えている。

検索用情報取得部６１０は、複数の対象画像毎に生成された情報であって、当該対象画像に含まれる人物の姿勢を示す情報（以下、検索用姿勢情報と記載）を複数取得する。言い換えると、検索用情報取得部６１０は、複数の対象画像それぞれの検索用姿勢情報を取得する。検索用姿勢情報は、例えば、上記した骨格構造の特徴量であるが、骨格構造そのもの、例えば複数のキーポイントの相対位置であってもよい。

除外用情報取得部６２０は、除外クエリ画像に含まれる人物の姿勢を示す情報（以下、除外用姿勢情報と記載）を取得する。除外クエリ画像は、検索結果から除外すべき画像のクエリとなる画像であり、少なくとも人物を含んでいる。

除外用スコア算出部６３０は、複数の検索用姿勢情報のそれぞれについて、除外用スコアを算出する。除外用スコアは、除外用姿勢情報に対する検索用姿勢情報の類似度を示している。

除外画像選択部６４０は、除外用スコアを用いて、複数の対象画像から、検索結果から除外すべき画像すなわち除外画像を選択する。除外画像の選択方法の具体例は、他の図を用いて後述する。

なお、検索部１０５は、既に選択されていた複数の対象画像に対して上記した処理を行ってもよいし、新たに選択された複数の対象画像に対して上記した処理を行ってもよい。前者の場合、複数の対象画像を特定する情報は、例えばデータベース１１０に記憶されている。後者の場合、検索部１０５は、例えば検索クエリとなる画像（以下、検索クエリ画像と記載）を取得し、この検索クエリ画像に対する類似度を示す選択用スコアを用いて複数の対象画像を選択する。なお、検索クエリ画像は、対象画像に含まれるべき姿勢の人物を含んでいる。

また、除外用スコアは、例えば骨格構造の特徴量（パラメータ）によって定義される空間（以下、特徴量空間と記載）における距離である。この場合、除外画像選択部６４０は、特徴量空間において除外クエリ画像からの距離が基準以内の対象画像を、除外画像として選択する。なお、以下の説明において、除外画像を選択するための基準を、除外基準と記載する。

また、選択用スコアの一例は、除外用スコアと同じ空間における距離である。検索用情報取得部６１０は、特徴量空間において検索クエリ画像からの距離が基準以内の画像を、対象画像として選択する。ここで検索対象となる画像は、例えばデータベース１１０に記憶されている。なお、以下の説明において、対象画像を選択するための基準を、選択基準と記載する。

図４１は、除外基準と選択基準の一例を説明するための図である。本図に示す例において、除外用スコアと選択用スコアは、同じ特徴量を用いて定義されている。このため、これら２つのスコアは、同一の特徴量空間で示される。

検索用情報取得部６１０は、検索クエリ画像からの距離が選択基準以内の画像（本図に示す例では検索クエリ画像を中心として半径が選択基準となる円の中に位置する画像）を、対象画像として選択する。

また、除外画像選択部６４０は、対象画像のうち、除外クエリ画像からの距離が除外基準以内の画像（本図に示す例では除外クエリ画像を中心として半径が除外基準となる円の中に位置する画像）を、除外画像として選択する。なお、本図に示す例において、除外クエリ画像は、対象画像の中から選択されている。

なお、除外画像選択部６４０は、除外基準をユーザからの入力に従って設定する。ただし除外画像選択部６４０は、選択基準を用いて除外基準を設定していてもよい。一例として、除外用スコアと選択用スコアが同じ特徴量空間を用いて定義されている場合、除外基準は、選択基準未満の値として定義される。この場合、除外基準は、例えば選択基準を変数として関数で定義される。除外基準は、選択基準に１未満の定数を乗じた値であってもよいし、選択基準から所定の定数を引いた値であってもよい。

図４２は、本検索方法に係る検索部１０５が行う処理の第１例を示すフローチャートである。まず、検索部１０５の検索用情報取得部６１０は、検索クエリ画像を取得する（ステップＳ３００）。一例として、検索用情報取得部６１０は、ユーザが指定した画像を検索クエリ画像として取得する。ユーザは、データベース１１０に記憶されている画像から検索クエリ画像を選択してもよいし、外部の装置または記憶媒体から検索クエリ画像を検索部１０５に取得させてもよい。

次いで検索用情報取得部６１０は、データベース１１０に記憶されている画像のうち検索クエリ画像に類似する画像を、対象画像として選択する。この際、検索用情報取得部６１０は、検索クエリ画像に類似しているか否かの判断を、上記した選択基準を用いて行う（ステップＳ３０２）。この処理において、検索部１０５は、分類部１０４によるクラスタリングが行われた後に対象画像を選択する処理を行ってもよいし、クラスタリングが行われていない状態で対象画像を選択する処理を行ってもよい。通常、この処理において複数の対象画像が選択される。

次いで検索用情報取得部６１０は、選択した複数の対象画像を表示部１０７に表示させる（ステップＳ３０４）。これにより、画像処理装置１００のユーザは、対象画像の選択結果が所望した結果になっているか否か、例えば所望していない姿勢の画像が対象画像に含まれているか否かを確認することができる。

ここで、複数の対象画像に、所望していない姿勢の画像が含まれていた場合、画像処理装置１００のユーザは、例えば入力部１０６を介して除外クエリ画像を入力する。一例として、画像処理装置１００のユーザは、表示部１０７に表示されている対象画像から、除外クエリ画像とすべき画像を少なくとも一つ（複数でもよい）選択する（ステップＳ３０６）。

すると除外用情報取得部６２０は、この画像を除外クエリ画像として認識し、複数の対象画像のうち除外クエリ画像に類似する画像を、除外画像として選択する（ステップＳ３０８）

詳細には、除外用情報取得部６２０は、除外クエリ画像に含まれる人物の骨格構造の特徴量を取得する。除外クエリ画像がデータベース１１０に記憶されていた画像の一つである場合、除外用情報取得部６２０は、この除外クエリ画像に紐づいている骨格構造の特徴量をデータベース１１０から読み出す。一方、除外クエリ画像がデータベース１１０に記憶されていなかった場合、骨格構造検出部１０２及び特徴量算出部１０３は、除外クエリ画像を処理して骨格構造の特徴量を算出する。そして除外用情報取得部６２０は、この骨格構造の特徴量を取得する。

そして除外用スコア算出部６３０は、特徴量空間における、除外クエリ画像からの距離を、各対象画像について算出する。そして除外画像選択部６４０は、この距離が除外基準以内に位置する対象画像を、除外画像として選択する。

次いで除外画像選択部６４０は、表示部１０７に、選択された除外画像をユーザに認識するための情報を表示させる（ステップＳ３１０）。一例として、図４３に示すように、ステップＳ３０４において、検索用情報取得部６１０は、複数の対象画像を表示部１０７に表示させている。除外画像選択部６４０は、表示部１０７において、対象画像のうち除外画像として選択された画像に特定のマーク（例えば枠線）を重ねる。このようにして、除外画像選択部６４０は、複数の対象画像を、除外画像を特定可能な状態で表示部１０７に表示させる。

その後、除外画像選択部６４０は、所定の入力があったときに、除外画像を対象画像から除く。一例として、ユーザは、除外画像から、対象画像から除外すべき画像を選択するための入力を、入力部１０６に対して行う。例えば、ユーザは、表示部１０７に表示された除外画像から、本当に除外すべき画像を選択し、当該画像を特定するための情報を入力部１０６に入力する（ステップＳ３１２）。具体例としては、カーソルを当該画像に重ねたうえで「決定」のための入力を行うことが挙げられる。次いで除外画像選択部６４０は、ステップＳ３１２において選択された除外画像を、対象画像から除く（ステップＳ３１４）。

なお、ステップＳ３１４において、除外画像選択部６４０は、ユーザから所定の入力があった場合、ステップＳ３０８で選択されている複数の除外画像のすべてを対象画像から除いてもよい。例えばステップＳ３１０において複数の除外画像が一つの枠で囲まれている場合、ユーザが行う所定の入力は、この枠を選択する処理、及び除外画像を削除する処理を行うためのボタンを選択する処理の双方である。

そして除外画像選択部６４０は、残りの対象画像を特定する情報を、データベース１１０に記憶させる（ステップＳ３１６）。除外画像選択部６４０は、残りの対象画像そのものを記憶してもよいし、データベース１１０に既に記憶されている当該画像に、その画像が対象画像として選択されたことを示すフラグを紐づけてもよい。ここで除外画像選択部６４０は、検索クエリ画像に紐づけて残りの対象画像をデータベース１１０に記憶させてもよい。

図４４は、図４２の変形例を示すフローチャートである。本図に示す例において、検索用情報取得部６１０は、検索クエリ画像を、ユーザに再度利用させるためにデータベース１１０に記憶させる。この際、検索用情報取得部６１０は、この検索クエリ画像と共に用いるべき選択基準を、当該検索クエリ画像に紐づけてデータベース１１０に記憶させる。ここで検索用情報取得部６１０は、選択基準を、除外画像の選択に関するユーザからの入力を用いて更新する。

具体的には、ステップＳ３００～ステップＳ３１６までの処理は、図４２と同様である。次いで検索用情報取得部６１０は、例えば以下の２つの例のいずれかに従って、選択基準を更新する（ステップＳ３１８）。

第１の例において、ユーザは、ステップＳ３１２において、表示部１０７に表示された除外画像から、本当に除外すべき画像を選択し、当該画像を特定するための情報を入力部１０６に入力している。次いで除外画像選択部６４０は、ステップＳ３１４において、ステップＳ３１２において選択された除外画像を、対象画像から除いている。そして検索用情報取得部６１０は、ステップＳ３１２において選択された除外画像を用いて、選択基準を更新する。具体的には、図４５に示すように、検索用情報取得部６１０は、ステップＳ３１２において選択された除外画像が対象画像から外れるように、選択基準としての特徴量空間における距離を更新する。

第２の例において、除外基準はユーザの入力に従って設定されている。そしてユーザは、除外基準を変更しながら、除外用スコア算出部６３０及び除外画像選択部６４０に、ステップＳ３０８及びステップＳ３１０に示した処理を繰り返し行わせている。これにより、除外基準は最適な値に調整される。そして検索用情報取得部６１０は、選択基準をこの除外基準を用いて更新する。具体的には、図４６に示すように、検索用情報取得部６１０は、選択基準としての特徴量空間における距離を、「「検索クエリ画像から除外クエリ画像までの距離」－「除外基準としての特徴量空間における距離」」に更新する。

そして検索用情報取得部６１０は、更新後の選択基準及び検索クエリ画像を互いに紐づけてデータベース１１０に記憶させる。その後、検索用情報取得部６１０は、ユーザ入力に従ってデータベース１１０に記憶された検索クエリ画像を用いて画像を検索する場合、この検索クエリ画像に紐づいている選択基準をデータベース１１０から読み出して使用する。このため、検索クエリ画像を再利用して対象画像を選択する場合、その選択結果の精度は高くなる。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造の特徴量に基づいて分類や検索を行うことを可能とした。これにより、類似度が高い似た姿勢ごとに分類することができ、また、検索クエリ（検索キー）と類似度が高い似た姿勢を検索することができる。画像から似ている姿勢を分類し表示することで、ユーザが姿勢等を指定することなく、画像中の人物の姿勢を把握することができる。分類結果の中からユーザが検索クエリの姿勢を指定できるため、予めユーザが検索したい姿勢を詳細に把握していない場合でも、所望の姿勢を検索することができる。例えば、人物の骨格構造の全体や一部等を条件として分類や検索を行うことができるため、柔軟な分類や検索が可能となる。

また、検索方法６によれば、検索部１０５は、検索クエリ画像によって選択された対象画像から、除外クエリ画像に類似する画像を除く。このため、検索部１０５による検索精度は高くなる。検索部１０５によって検索された対象画像に、ユーザが意図していない姿勢の人物の画像が含まれる可能性は低くなる。

（実施の形態２）以下、図面を参照して実施の形態２について説明する。本実施の形態では、実施の形態１における特徴量算出の具体例について説明する。本実施の形態では、人物の身長を用いて正規化することで特徴量を求める。その他については、実施の形態１と同様である。

図１８は、本実施の形態に係る画像処理装置１００の構成を示している。図１８に示すように、画像処理装置１００は、実施の形態１の構成に加えて、さらに身長算出部１０８を備える。なお、特徴量算出部１０３と身長算出部１０８を一つの処理部としてもよい。

身長算出部（身長推定部）１０８は、骨格構造検出部１０２により検出された２次元の骨格構造に基づき、２次元の画像内の人物の直立時の高さ（身長画素数という）を算出（推定）する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）であるとも言える。身長算出部１０８は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

以下の例では、身長画素数を求める方法として具体例１～３を用いる。なお、具体例１～３のいずれかの方法を用いてもよいし、任意に選択される複数の方法を組み合わせて用いてもよい。具体例１では、骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求める。骨格構造検出部１０２（骨格推定技術）が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正することもできる。具体例２では、各ボーンの長さと全身の長さ（２次元画像空間上の身長）との関係を示す人体モデルを用いて、身長画素数を算出する。具体例３では、３次元人体モデルを２次元骨格構造にフィッティング（あてはめる）することで、身長画素数を算出する。

本実施の形態の特徴量算出部１０３は、算出された人物の身長画素数に基づいて、人物の骨格構造（骨格情報）を正規化する正規化部である。特徴量算出部１０３は、正規化した骨格構造の特徴量（正規化値）をデータベース１１０に格納する。特徴量算出部１０３は、骨格構造に含まれる各キーポイント（特徴点）の画像上での高さを、身長画素数で正規化する。本実施の形態では、例えば、高さ方向は、画像の２次元座標（Ｘ－Ｙ座標）空間における上下の方向（Ｙ軸方向）である。この場合、キーポイントの高さは、キーポイントのＹ座標の値（画素数）から求めることができる。あるいは、高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラ２００の姿勢、位置、撮像角度、焦点距離等である。カメラ２００により、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。撮像された画像の両端ではひずみが発生し、実世界の鉛直方向と画像の上下方向が合わない場合がある。これに対し、画像を撮影したカメラのパラメータを使用することで、実世界の鉛直方向が画像中でどの程度傾いているのかが分かる。このため、カメラパラメータに基づいて画像中に投影した鉛直投影軸に沿ったキーポイントの値を身長で正規化することで、実世界と画像のずれを考慮してキーポイントを特徴量化することができる。なお、左右方向（横方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における左右の方向（Ｘ軸方向）であり、または、実世界の３次元座標空間における地面に対し平行な方向を、２次元座標空間に投影した方向である。

図１９～図２３は、本実施の形態に係る画像処理装置１００の動作を示している。図１９は、画像処理装置１００における画像取得から検索処理までの流れを示し、図２０～図２２は、図１９の身長画素数算出処理（Ｓ２０１）の具体例１～３の流れを示し、図２３は、図１９の正規化処理（Ｓ２０２）の流れを示している。

図１９に示すように、本実施の形態では、実施の形態１における特徴量算出処理（Ｓ１０３）として、身長画素数算出処理（Ｓ２０１）及び正規化処理（Ｓ２０２）を行う。その他については実施の形態１と同様である。

画像処理装置１００は、画像取得（Ｓ１０１）及び骨格構造検出（Ｓ１０２）に続いて、検出された骨格構造に基づいて身長画素数算出処理を行う（Ｓ２０１）。この例では、図２４に示すように、画像における直立時の人物の骨格構造の高さを身長画素数（ｈ）とし、画像の人物の状態における骨格構造の各キーポイントの高さをキーポイント高さ（ｙｉ）とする。以下、身長画素数算出処理の具体例１～３について説明する。

＜具体例１＞具体例１では、頭部から足部までのボーンの長さを用いて身長画素数を求める。具体例１では、図２０に示すように、身長算出部１０８は、各ボーンの長さを取得し（Ｓ２１１）、取得した各ボーンの長さを合計する（Ｓ２１２）。

身長算出部１０８は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。すなわち、骨格構造を検出した画像から、図２４のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数（ｈ）として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

図２５の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出されている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

図２６の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い右足側のＬ１＋Ｌ２１＋Ｌ３１＋Ｌ４１に補正定数を乗じた値を身長画素数とする。

図２７の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

具体例１では、頭から足までのボーンの長さを合計することで身長を求めることができるため、簡易な方法で身長画素数を求めることができる。また、機械学習を用いた骨格推定技術により、少なくとも頭から足までの骨格を検出できればよいため、しゃがみ込んでいる状態など、必ずしも人物の全体が画像に写っていない場合でも精度よく身長画素数を推定することができる。

＜具体例２＞具体例２では、２次元骨格構造に含まれる骨の長さと２次元画像空間上の人物の全身の長さとの関係を示す２次元骨格モデルを用いて身長画素数を求める。

図２８は、具体例２で用いる、２次元画像空間上の各ボーンの長さと２次元画像空間上の全身の長さとの関係を示す人体モデル（２次元骨格モデル）３０１である。図２８に示すように、平均的な人物の各ボーンの長さと全身の長さとの関係（全身の長さに対する各ボーンの長さの割合）を、人体モデル３０１の各ボーンに対応付ける。例えば、頭のボーンＢ１の長さは全身の長さ×０．２（２０％）であり、右手のボーンＢ４１の長さは全身の長さ×０．１５（１５％）であり、右足のボーンＢ７１の長さは全身の長さ×０．２５（２５％）である。このような人体モデル３０１の情報をデータベース１１０に記憶しておくことで、各ボーンの長さから平均的な全身の長さを求めることができる。平均的な人物の人体モデルの他に、年代、性別、国籍等の人物の属性ごとに人体モデルを用意してもよい。これにより、人物の属性に応じて適切に全身の長さ（身長）を求めることができる。

具体例２では、図２１に示すように、身長算出部１０８は、各ボーンの長さを取得する（Ｓ２２１）。身長算出部１０８は、検出された骨格構造において、全てのボーンの長さ（２次元画像空間上の長さ）を取得する。図２９は、しゃがみ込んでいる状態の人物を右斜め後ろから撮像し、骨格構造を検出した例である。この例では、人物の顔や左側面が写っていないことから、頭のボーンと左腕及び左手のボーンが検出できていない。このため、検出されているボーンＢ２１、Ｂ２２、Ｂ３１、Ｂ４１、Ｂ５１、Ｂ５２、Ｂ６１、Ｂ６２、Ｂ７１、Ｂ７２の各長さを取得する。

続いて、身長算出部１０８は、図２１に示すように、人体モデルに基づき、各ボーンの長さから身長画素数を算出する（Ｓ２２２）。身長算出部１０８は、図２８のような、各ボーンと全身の長さとの関係を示す人体モデル３０１を参照し、各ボーンの長さから身長画素数を求める。例えば、右手のボーンＢ４１の長さが全身の長さ×０．１５であるため、ボーンＢ４１の長さ／０．１５によりボーンＢ４１に基づいた身長画素数を求める。また、右足のボーンＢ７１の長さが全身の長さ×０．２５であるため、ボーンＢ７１の長さ／０．２５によりボーンＢ７１に基づいた身長画素数を求める。

このとき参照する人体モデルは、例えば、平均的な人物の人体モデルであるが、年代、性別、国籍等の人物の属性に応じて人体モデルを選択してもよい。例えば、撮像した画像に人物の顔が写っている場合、顔に基づいて人物の属性を識別し、識別した属性に対応する人体モデルを参照する。属性ごとの顔を機械学習した情報を参照し、画像の顔の特徴から人物の属性を認識することができる。また、画像から人物の属性が識別できない場合に、平均的な人物の人体モデルを用いてもよい。

また、ボーンの長さから算出した身長画素数をカメラパラメータにより補正してもよい。例えばカメラを高い位置において、人物を見下ろすように撮影した場合、二次元骨格構造において肩幅のボーン等の横の長さはカメラの俯角の影響を受けないが、首－腰のボーン等の縦の長さは、カメラの俯角が大きくなる程小さくなる。そうすると、肩幅のボーン等の横の長さから算出した身長画素数が実際より大きくなる傾向がある。そこで、カメラパラメータを活用すると、人物がどの程度の角度でカメラに見下ろされているかがわかるため、この俯角の情報を使って正面から撮影したような二次元骨格構造に補正することができる。これによって、より正確に身長画素数を算出できる。

続いて、身長算出部１０８は、図２１に示すように、身長画素数の最適値を算出する（Ｓ２２３）。身長算出部１０８は、ボーンごとに求めた身長画素数から身長画素数の最適値を算出する。例えば、図３０に示すような、ボーンごとに求めた身長画素数のヒストグラムを生成し、その中で大きい身長画素数を選択する。つまり、複数のボーンに基づいて求められた複数の身長画素数の中で他よりも長い身長画素数を選択する。例えば、上位３０％を有効な値とし、図３０ではボーンＢ７１、Ｂ６１、Ｂ５１による身長画素数を選択する。選択した身長画素数の平均を最適値として求めてもよいし、最も大きい身長画素数を最適値としてもよい。２次元画像のボーンの長さから身長を求めるため、ボーンを正面から撮像できていない場合、すなわち、ボーンがカメラから見て奥行き方向に傾いて撮像された場合、ボーンの長さが正面から撮像した場合よりも短くなる。そうすると、身長画素数が大きい値は、身長画素数が小さい値よりも、正面から撮像された可能性が高く、より尤もらしい値となることから、より大きい値を最適値とする。

具体例２では、２次元画像空間上のボーンと全身の長さとの関係を示す人体モデルを用いて、検出した骨格構造のボーンに基づき身長画素数を求めるため、頭から足までの全ての骨格が得られない場合でも、一部のボーンから身長画素数を求めることができる。特に、複数のボーンから求められた値のうち、より大きい値を採用することで、精度よく身長画素数を推定することができる。

＜具体例３＞具体例３では、２次元骨格構造を３次元人体モデル（３次元骨格モデル）にフィッティングさせて、フィッティングした３次元人体モデルの身長画素数を用いて全身の骨格ベクトルを求める。

具体例３では、図２２に示すように、身長算出部１０８は、まず、カメラ２００の撮像した画像に基づき、カメラパラメータを算出する（Ｓ２３１）。身長算出部１０８は、カメラ２００が撮像した複数の画像の中から、予め長さが分かっている物体を抽出し、抽出した物体の大きさ（画素数）からカメラパラメータを求める。なお、カメラパラメータを予め求めておき、求めておいたカメラパラメータを必要に応じて取得してもよい。

続いて、身長算出部１０８は、３次元人体モデルの配置及び高さを調整する（Ｓ２３２）。身長算出部１０８は、検出された２次元骨格構造に対し、身長画素数算出用の３次元人体モデルを用意し、カメラパラメータに基づいて、同じ２次元画像内に配置する。具体的には、カメラパラメータと、２次元骨格構造から、「実世界におけるカメラと人物の相対的な位置関係」を特定する。例えば、仮にカメラの位置を座標（０，０，０）としたときに、人物が立っている（または座っている）位置の座標（ｘ，ｙ，ｚ）を特定する。そして、特定した人物と同じ位置（ｘ，ｙ，ｚ）に３次元人体モデルを配置して撮像した場合の画像を想定することで、２次元骨格構造と３次元人体モデルを重ね合わせる。

図３１は、しゃがみ込んでいる人物を左斜め前から撮像し、２次元骨格構造４０１を検出した例である。２次元骨格構造４０１は、２次元の座標情報を有する。なお、全てのボーンを検出していることが好ましいが、一部のボーンが検出されていなくてもよい。この２次元骨格構造４０１に対し、図３２のような、３次元人体モデル４０２を用意する。３次元人体モデル（３次元骨格モデル）４０２は、３次元の座標情報を有し、２次元骨格構造４０１と同じ形状の骨格のモデルである。そして、図３３のように、検出した２次元骨格構造４０１に対し、用意した３次元人体モデル４０２を配置し重ね合わせる。また、重ね合わせるとともに、３次元人体モデル４０２の高さを２次元骨格構造４０１に合うように調整する。

なお、このとき用意する３次元人体モデル４０２は、図３３のように、２次元骨格構造４０１の姿勢に近い状態のモデルでもよいし、直立した状態のモデルでもよい。例えば、機械学習を用いて２次元画像から３次元空間の姿勢を推定する技術を用いて、推定した姿勢の３次元人体モデル４０２を生成してもよい。２次元画像の関節と３次元空間の関節の情報を学習することで、２次元画像から３次元の姿勢を推定することができる。

続いて、身長算出部１０８は、図２２に示すように、３次元人体モデルを２次元骨格構造にフィッティングする（Ｓ２３３）。身長算出部１０８は、図３４のように、３次元人体モデル４０２を２次元骨格構造４０１に重ね合わせた状態で、３次元人体モデル４０２と２次元骨格構造４０１の姿勢が一致するように、３次元人体モデル４０２を変形させる。すなわち、３次元人体モデル４０２の身長、体の向き、関節の角度を調整し、２次元骨格構造４０１との差異がなくなるように最適化する。例えば、３次元人体モデル４０２の関節を、人の可動範囲で回転させていき、また、３次元人体モデル４０２の全体を回転させたり、全体のサイズを調整する。なお、３次元人体モデルと２次元骨格構造のフィッティング（あてはめ）は、２次元空間（２次元座標）上で行う。すなわち、２次元空間に３次元人体モデルを写像し、変形させた３次元人体モデルが２次元空間（画像）でどのように変化するかを考慮して、３次元人体モデルを２次元骨格構造に最適化する。

続いて、身長算出部１０８は、図２２に示すように、フィッティングさせた３次元人体モデルの身長画素数を算出する（Ｓ２３４）。身長算出部１０８は、図３５のように、３次元人体モデル４０２と２次元骨格構造４０１の差異がなくなり、姿勢が一致すると、その状態の３次元人体モデル４０２の身長画素数を求める。最適化された３次元人体モデル４０２を直立させた状態として、カメラパラメータに基づき、２次元空間上の全身の長さを求める。例えば、３次元人体モデル４０２を直立させた場合の頭から足までのボーンの長さ（画素数）により身長画素数を算出する。具体例１と同様に、３次元人体モデル４０２の頭部から足部までのボーンの長さを合計してもよい。

具体例３では、カメラパラメータに基づいて３次元人体モデルを２次元骨格構造にフィッティングさせて、その３次元人体モデルに基づいて身長画素数を求めることで、全てのボーンが正面に写っていない場合、すなわち、全てのボーンが斜めに映っているため誤差が大きい場合でも、精度よく身長画素数を推定することができる。

＜正規化処理＞図１９に示すように、画像処理装置１００は、身長画素数算出処理に続いて、正規化処理（Ｓ２０２）を行う。正規化処理では、図２３に示すように、特徴量算出部１０３は、キーポイント高さを算出する（Ｓ２４１）。特徴量算出部１０３は、検出された骨格構造に含まれる全てのキーポイントのキーポイント高さ（画素数）を算出する。キーポイント高さは、骨格構造の最下端（例えばいずれかの足のキーポイント）からそのキーポイントまでの高さ方向の長さ（画素数）である。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのＹ座標から求める。なお、上記のように、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。例えば、図２４の例で、首のキーポイントＡ２の高さ（ｙｉ）は、キーポイントＡ２のＹ座標から右足のキーポイントＡ８１または左足のキーポイントＡ８２のＹ座標を引いた値である。

続いて、特徴量算出部１０３は、正規化のための基準点を特定する（Ｓ２４２）。基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

続いて、特徴量算出部１０３は、キーポイント高さ（ｙｉ）を身長画素数で正規化する（Ｓ２４３）。特徴量算出部１０３は、各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、特徴量算出部１０３は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Ｙ座標のみを抽出し、また、基準点を首のキーポイントとして正規化を行う。具体的には、基準点（首のキーポイント）のＹ座標を（ｙｃ）として、次の式（１）を用いて、特徴量（正規化値）を求める。なお、カメラパラメータに基づいた鉛直投影軸を用いる場合は、（ｙｉ）及び（ｙｃ）を鉛直投影軸に沿った方向の値に変換する。

例えば、キーポイントが１８個の場合、各キーポイントの１８点の座標（ｘ０、ｙ０）、（ｘ１、ｙ１）、・・・（ｘ１７、ｙ１７）を、上記式（１）を用いて、次のように１８次元の特徴量に変換する。

図３６は、特徴量算出部１０３が求めた各キーポイントの特徴量の例を示している。この例では、首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図３７のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図３８のように、図３６に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、本実施の形態の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた身長画素数（２次元画像空間上の直立時の高さ）を用いて、骨格構造の各キーポイントを正規化する。この正規化された特徴量を用いることで、分類や検索等を行った場合のロバスト性を向上することができる。すなわち、本実施の形態の特徴量は、上記のように人物の横方向の変化に影響を受けないため、人物の向きや人物の体型の変化に対しロバスト性が高い。

さらに、本実施の形態では、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて人物の骨格構造を検出することで実現できるため、人物の姿勢等を学習する学習データを用意する必要がない。また、骨格構造のキーポイントを正規化し、データベースに格納しておくことで、人物の姿勢等の分類や検索が可能となるため、未知な姿勢に対しても分類や検索を行うことができる。また、骨格構造のキーポイントを正規化することで、明確でわかりやすい特徴量を得ることができるため、機械学習のようにブラックボックス型のアルゴリズムと異なり、処理結果に対するユーザの納得性が高い。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．複数の対象画像毎に生成された情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得手段と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得手段と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出手段と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択手段と、
を備える画像選択装置。
２．上記１に記載の画像選択装置において、
前記検索用情報取得手段は、前記対象画像に含まれるべき姿勢の人物を含む検索クエリ画像を取得し、当該検索クエリ画像に対する類似度を示す選択用スコアを用いて前記複数の対象画像を選択する画像選択装置。
３．上記２に記載の画像選択装置において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定する画像選択装置。
４．上記３に記載の画像選択装置において、
前記除外画像選択手段は、前記パラメータからなる空間における距離が前記除外基準を満たす前記対象画像を、前記除外画像として選択し、
前記検索用情報取得手段は、前記パラメータからなる空間における距離が前記選択基準を満たす画像を、前記対象画像として選択し、
前記除外基準は前記選択基準未満である画像選択装置。
５．上記２～４のいずれか一項に記載の画像選択装置において、
前記除外画像選択手段は、少なくとも一つの前記除外画像の選択入力を取得し、当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外し、
前記検索用情報取得手段は、
前記検索クエリ画像を用いて前記複数の対象画像を選択するための選択基準を、前記選択入力によって選択された前記除外画像を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択装置。
６．上記２に記載の画像選択装置において、
前記除外用スコアは、少なくとも一つのパラメータによって示されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、ユーザからの入力に従って設定する画像選択装置。
７．上記６に記載の画像選択装置において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定し、
前記検索用情報取得手段は、
前記選択基準を、前記除外基準を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択装置。
８．上記１～７のいずれか一項に記載の画像選択装置において、
前記除外画像選択手段は、前記複数の対象画像を、前記除外画像を特定可能な状態で表示手段に表示させ、
さらに、所定の入力があったときに、前記複数の対象画像から前記除外画像を除外する除外手段を備える画像選択装置
９．上記８に記載の画像選択装置において、
前記除外画像選択手段は、
前記複数の対象画像を表示させた後、少なくとも一つの前記除外画像の選択入力を取得し、
当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外する画像選択装置。
１０．上記８又は９に記載の画像選択装置において、
前記除外画像選択手段は、複数の前記除外画像を選択し、
前記除外画像選択手段は、所定の入力があったときには、前記複数の除外画像を前記複数の対象画像から除外する画像選択装置。
１１．コンピュータが、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得処理と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得処理と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出処理と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択処理と、
を行う画像選択方法。
１２．上記１１に記載の画像選択方法において、
前記検索用情報取得処理において、前記コンピュータは、前記対象画像に含まれるべき姿勢の人物を含む検索クエリ画像を取得し、当該検索クエリ画像に対する類似度を示す選択用スコアを用いて前記複数の対象画像を選択する画像選択方法。
１３．上記１２に記載の画像選択方法において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択処理において、前記コンピュータは、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定する画像選択方法。
１４．上記１３に記載の画像選択方法において、
前記除外画像選択処理において、前記コンピュータは、前記パラメータからなる空間における距離が前記除外基準を満たす前記対象画像を、前記除外画像として選択し、
前記検索用情報取得処理において、前記コンピュータは、前記パラメータからなる空間における距離が前記選択基準を満たす画像を、前記対象画像として選択し、
前記除外基準は前記選択基準未満である画像選択方法。
１５．上記１２～１４のいずれか一項に記載の画像選択方法において、
前記除外画像選択処理において、前記コンピュータは、少なくとも一つの前記除外画像の選択入力を取得し、当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外し、
前記検索用情報取得処理において、前記コンピュータは、
前記検索クエリ画像を用いて前記複数の対象画像を選択するための選択基準を、前記選択入力によって選択された前記除外画像を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択方法。
１６．上記１２に記載の画像選択方法において、
前記除外用スコアは、少なくとも一つのパラメータによって示されており、
前記除外画像選択処理において、前記コンピュータは、前記除外画像を選択するための除外基準を、ユーザからの入力に従って設定する画像選択方法。
１７．上記１６に記載の画像選択方法において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択処理において、前記コンピュータは、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定し、
前記検索用情報取得処理において、前記コンピュータは、
前記選択基準を、前記除外基準を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択方法。
１８．上記１１～１７のいずれか一項に記載の画像選択方法において、
前記除外画像選択処理において、前記コンピュータは、前記複数の対象画像を、前記除外画像を特定可能な状態で表示手段に表示させ、
さらに、前記コンピュータは、所定の入力があったときに、前記複数の対象画像から前記除外画像を除外する除外処理を行う、画像選択方法
１９．上記１８に記載の画像選択方法において、
前記除外画像選択処理において、前記コンピュータは、
前記複数の対象画像を表示させた後、少なくとも一つの前記除外画像の選択入力を取得し、
当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外する画像選択方法。
２０．上記１８又は１９に記載の画像選択方法において、
前記除外画像選択処理において、前記コンピュータは、複数の前記除外画像を選択し、
前記除外画像選択処理において、前記コンピュータは、所定の入力があったときには、前記複数の除外画像を前記複数の対象画像から除外する画像選択方法。
２１．コンピュータに、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得機能と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得機能と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出機能と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択機能と、
を持たせるプログラム。
２２．上記２１に記載のプログラムにおいて、
前記検索用情報取得機能は、前記対象画像に含まれるべき姿勢の人物を含む検索クエリ画像を取得し、当該検索クエリ画像に対する類似度を示す選択用スコアを用いて前記複数の対象画像を選択するプログラム。
２３．上記２２に記載のプログラムにおいて、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択機能は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定するプログラム。
２４．上記２３に記載のプログラムにおいて、
前記除外画像選択機能は、前記パラメータからなる空間における距離が前記除外基準を満たす前記対象画像を、前記除外画像として選択し、
前記検索用情報取得機能は、前記パラメータからなる空間における距離が前記選択基準を満たす画像を、前記対象画像として選択し、
前記除外基準は前記選択基準未満であるプログラム。
２５．上記２２～２４のいずれか一項に記載のプログラムにおいて、
前記除外画像選択機能は、少なくとも一つの前記除外画像の選択入力を取得し、当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外し、
前記検索用情報取得機能は、
前記検索クエリ画像を用いて前記複数の対象画像を選択するための選択基準を、前記選択入力によって選択された前記除外画像を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させるプログラム。
２６．上記２２に記載のプログラムにおいて、
前記除外用スコアは、少なくとも一つのパラメータによって示されており、
前記除外画像選択機能は、前記除外画像を選択するための除外基準を、ユーザからの入力に従って設定するプログラム。
２７．上記２６に記載のプログラムにおいて、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択機能は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定し、
前記検索用情報取得機能は、
前記選択基準を、前記除外基準を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させるプログラム。
２８．上記２１～２７のいずれか一項に記載のプログラムにおいて、
前記除外画像選択機能は、前記複数の対象画像を、前記除外画像を特定可能な状態で表示手段に表示させ、
さらに、前記コンピュータに、所定の入力があったときに、前記複数の対象画像から前記除外画像を除外する除外機能を持たせるプログラム
２９．上記２８に記載のプログラムにおいて、
前記除外画像選択機能は、
前記複数の対象画像を表示させた後、少なくとも一つの前記除外画像の選択入力を取得し、
当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外するプログラム。
３０．上記２８又は２９に記載のプログラムにおいて、
前記除外画像選択機能は、複数の前記除外画像を選択し、
前記除外画像選択機能は、所定の入力があったときには、前記複数の除外画像を前記複数の対象画像から除外するプログラム。

１画像処理システム
１０画像処理装置（画像選択装置）
１１骨格検出部
１２特徴量算出部
１３認識部
１００画像処理装置（画像選択装置）
１０１画像取得部
１０２骨格構造検出部
１０３特徴量算出部
１０４分類部
１０５検索部
１０６入力部
１０７表示部
１０８身長算出部
１１０データベース
２００カメラ
３００、３０１人体モデル
４０１２次元骨格構造
４０２３次元人体モデル
６１０検索用情報取得部
６２０除外用情報取得部
６３０除外用スコア算出部
６４０除外画像選択部

Claims

複数の対象画像毎に生成された情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得手段と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得手段と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出手段と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択手段と、
を備える画像選択装置。
請求項１に記載の画像選択装置において、
前記検索用情報取得手段は、前記対象画像に含まれるべき姿勢の人物を含む検索クエリ画像を取得し、当該検索クエリ画像に対する類似度を示す選択用スコアを用いて前記複数の対象画像を選択する画像選択装置。
請求項２に記載の画像選択装置において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定する画像選択装置。
請求項３に記載の画像選択装置において、
前記除外画像選択手段は、前記パラメータからなる空間における距離が前記除外基準を満たす前記対象画像を、前記除外画像として選択し、
前記検索用情報取得手段は、前記パラメータからなる空間における距離が前記選択基準を満たす画像を、前記対象画像として選択し、
前記除外基準は前記選択基準未満である画像選択装置。
請求項２～４のいずれか一項に記載の画像選択装置において、
前記除外画像選択手段は、少なくとも一つの前記除外画像の選択入力を取得し、当該選択入力によって選択された前記除外画像を前記複数の対象画像から除外し、
前記検索用情報取得手段は、
前記検索クエリ画像を用いて前記複数の対象画像を選択するための選択基準を、前記選択入力によって選択された前記除外画像を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択装置。
請求項２に記載の画像選択装置において、
前記除外用スコアは、少なくとも一つのパラメータによって示されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、ユーザからの入力に従って設定する画像選択装置。
請求項６に記載の画像選択装置において、
前記除外用スコアと前記選択用スコアは同じパラメータによって定義されており、
前記除外画像選択手段は、前記除外画像を選択するための除外基準を、前記複数の対象画像を選択するための選択基準を用いて設定し、
前記検索用情報取得手段は、
前記選択基準を、前記除外基準を用いて更新し、
前記検索クエリ画像及び更新後の前記選択基準を互いに紐づけて記憶手段に記憶させる画像選択装置。
請求項１～７のいずれか一項に記載の画像選択装置において、
前記除外画像選択手段は、前記複数の対象画像を、前記除外画像を特定可能な状態で表示手段に表示させ、
さらに、所定の入力があったときに、前記複数の対象画像から前記除外画像を除外する除外手段を備える画像選択装置。
コンピュータが、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得し、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得し、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出し、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する、画像選択方法。
コンピュータに、
複数の対象画像毎に生成された姿勢情報であって、当該対象画像に含まれる人物の姿勢を示す検索用姿勢情報を複数取得する検索用情報取得機能と、
検索結果から除外すべき画像のクエリとなる除外クエリ画像に含まれる人物の姿勢を示す除外用姿勢情報を取得する除外用情報取得機能と、
前記複数の検索用姿勢情報のそれぞれについて、前記除外用姿勢情報に対する類似度を示す除外用スコアを算出する除外用スコア算出機能と、
前記除外用スコアを用いて、前記複数の対象画像から、検索結果から除外すべき画像である除外画像を選択する除外画像選択機能と、
を持たせるプログラム。