JP5898014B2 - 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム - Google Patents

姿勢推定装置、姿勢推定方法、および姿勢推定プログラム Download PDF

Info

Publication number
JP5898014B2
JP5898014B2 JP2012165671A JP2012165671A JP5898014B2 JP 5898014 B2 JP5898014 B2 JP 5898014B2 JP 2012165671 A JP2012165671 A JP 2012165671A JP 2012165671 A JP2012165671 A JP 2012165671A JP 5898014 B2 JP5898014 B2 JP 5898014B2
Authority
JP
Japan
Prior art keywords
candidate
region
feature amount
candidate area
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012165671A
Other languages
English (en)
Other versions
JP2014026429A (ja
Inventor
川口 京子
京子 川口
岩井 和彦
和彦 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2012165671A priority Critical patent/JP5898014B2/ja
Priority to PCT/JP2013/003509 priority patent/WO2014017006A1/ja
Priority to CN201380039239.3A priority patent/CN104487999B/zh
Priority to US14/413,814 priority patent/US9576191B2/en
Publication of JP2014026429A publication Critical patent/JP2014026429A/ja
Application granted granted Critical
Publication of JP5898014B2 publication Critical patent/JP5898014B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • G01S5/163Determination of attitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20061Hough transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Description

本発明は、対となる部位をもつ多関節物体の姿勢を推定する、姿勢推定装置、姿勢推定方法、および姿勢推定プログラムに関する。
近年、撮影された動画像の画像データに基づく人の姿勢推定に関する研究が、盛んに行われている。姿勢推定装置は、動画像から人の行動をコンピュータ解析により判定することができ、人手に頼らずに行動解析を行うことができる。行動解析の適用アプリケーションとしては、例えば、街頭での異常行動検知、店舗での購買行動分析、工場における作業効率化支援、およびスポーツにおけるフォーム指導がある。
人の姿勢を推定する場合は、例えば、部位の姿勢の推定が可能であることが望まれる。ここで、部位とは、多関節物体の構成要素(例えば、頭部、胴体、腕、足など)を示す。また、部位の姿勢とは、人の姿勢における部位の位置や角度を示す。人は動作によって部位の姿勢を変えるため、部位の位置が推定できれば、その人が何をしているのか、これから何をしようとしているかといった動作の推定などが可能となる。
このような人の姿勢推定は、人に方位センサなどの装置を取り付けることなく行えることが望ましい。人に装置を取り付ける推定手法は、不特定の人を推定対象とすることが困難であり、推定対象が多数の場合にはコストが掛かるからである。
そこで、人を撮影した映像に基づいて、当該人の姿勢を推定する技術が、例えば特許文献1に記載されている。
特許文献1に記載の技術(以下、「従来技術1」という)は、撮影映像から人物シルエットの重心を求め、重心から人物シルエットの輪郭線上の各点までの距離を算出し、重心から上方に伸びる垂直軸を検出して人物シルエットの輪郭線との交点を頭頂点とする。そして、従来技術1は、頭頂点を始点とし反時計回りに算出した距離が極大になる点を探索し、最初の極大になる点を右手の先と判定し、次の極大になる点を、右足、左足、左手の先と判定する。この従来技術1によれば、人に方位センサなどの装置を取り付けることなく、人の姿勢を推定することができる。
また、人を撮影した画像に基づいて、当該人の姿勢を推定する技術が、例えば特許文献2に記載されている。
特許文献2に記載の技術(以下、「従来技術2」という)は、ブルーの背景において、ブルー以外の色で、かつ部位毎に色の異なる衣服を着用した人を撮影する。これにより、従来技術2は、背景画像と人物画像との色情報の違いから人物シルエットを取得し、衣服の色情報から人の部位を検出する。この従来技術2を用いれば、人にセンサなどの装置を取り付けることなく、人の姿勢を推定することができる。
特許第3400961号公報 特開2005−339100号公報
しかしながら、従来技術1および従来技術2は、撮影条件によっては、人の姿勢を高精度に推定することができないという課題を有する。なぜなら、従来技術1は、両腕、両足同士が交差したり、腕または足と胴体が重なったりしている場合、人物シルエット内に腕または足が重なるため、腕または足の姿勢を推定できないからである。また、従来技術2は、特定の背景および特定の衣服で人を撮影しなければ、人の部位を検出できないからである。
本発明の目的は、対となる部位を有する多関節物体の姿勢を高精度に推定することである。
本発明の一態様に係る姿勢推定装置は、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定装置であって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する候補領域抽出部と、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする部位領域抽出部と、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する特徴量算出部と、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する特徴量修正部と、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する判定部と、を備える。
本発明の一態様に係る姿勢推定方法は、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定方法であって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出するステップと、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とするステップと、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出するステップと、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正するステップと、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定するステップと、を有する。
本発明の一態様に係る姿勢推定プログラムは、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する装置のコンピュータに実行させる姿勢推定プログラムであって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する処理と、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする処理と、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する処理と、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する処理と、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する処理と、を実行させる。
本発明によれば、対となる部位を有する多関節物体の姿勢を高精度に推定することができる。
本発明の実施の形態1に係る姿勢推定装置の構成の一例を示すブロック図 本発明の実施の形態2に係る姿勢推定システムの構成の一例を示すシステム構成図 本発明の実施の形態2における身体モデルの一例を示す図 本発明の実施の形態2に係る姿勢推定装置の動作の一例を示すフローチャート 本発明の実施の形態2における候補領域抽出処理の一例を示すフローチャート 本発明の実施の形態2におけるエッジペア尤度マップ生成処理の一例を示すフローチャート 本発明の実施の形態2におけるエッジペア尤度マップ生成処理を説明するための図 本発明の実施の形態2における極大値を説明するための図 本発明の実施の形態2における特徴量修正処理の一例を示すフローチャート 本発明の実施の形態2における人の姿勢の一例を示す図 本発明の実施の形態2における特徴量算出領域抽出処理の一例を示すフローチャート 本発明の実施の形態2における人の姿勢の一例を示す図 本発明の実施の形態2における固有特徴量を正しく算出できない場合の画像とそのヒストグラムの一例を示す図 本発明の実施の形態2における固有特徴量を正しく算出できない場合のヒストグラムの一例を示す図 本発明の実施の形態2における固有特徴量を正しく算出できない場合のヒストグラムの一例を示す図
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本発明の実施の形態1は、本発明の基本的態様の一例である。
図1は、本実施の形態に係る姿勢推定装置の構成の一例を示すブロック図である。
図1において、姿勢推定装置100は、候補領域抽出部110、部位領域抽出部120、特徴量算出部130、特徴量修正部140、および判定部150を有する。
なお、本実施の形態の姿勢推定装置100は、多関節物体を構成する「対となる部位」の姿勢を推定する。ここで、「部位」とは、多関節物体の構成要素である。また、「部位の姿勢」とは、部位の位置や角度を意味する。
候補領域抽出部110は、推定対象となる多関節物体の一部または全部を含む画像から、共通特徴量を用いて、推定対象部位の候補領域を複数抽出する。「共通特徴量」とは、対となる部位について不特定多数の多関節物体に共通する形状の特徴(例えば、エッジのみ、または、エッジおよびシルエット)を示す。また、ここで抽出される候補領域は、ノイズがある候補領域を含む場合がある。なお、「推定対象部位」とは、部位の姿勢の推定対象である、対となる部位である。また、対となる部位のうち、一方の部位を「第一部位」、もう一方の部位を「第二部位」と呼ぶ。例えば、対となる部位が前腕である場合、右前腕を第一部位、左前腕を第二部位と呼ぶ。
なお、上記「対となる部位について不特定多数の多関節物体に共通する形状」は、例えば、多関節物体における部位の存在可能範囲、または、部位の大きさ、長さ、太さ、あるいは断面の形状や、多関節物体を撮影する角度によって定まる。このような部位についての、存在可能範囲、大きさ、長さ、太さ、断面の形状、または多関節物体を撮影する角度は、多関節物体の制約情報として予め定められている。そして、候補領域抽出部110は、上記制約情報に基づいて候補領域を抽出するようにしてもよい。これにより、候補領域抽出部110は、推定対象部位である可能性(尤度)が最も高い領域を、候補領域として抽出することができる。
部位領域抽出部120は、候補領域抽出部110で抽出した複数の候補領域のうち、推定対象部位である尤度が最も高い領域を、第一部位の候補領域(第1候補領域の一例)として抽出する。ここで、第一部位の候補領域を「部位領域」と呼ぶ。一方、部位領域以外の候補領域は「第二部位の候補領域」(第2候補領域の一例)と呼ぶ。第二部位の候補領域は複数存在する場合もある。
特徴量算出部130は、部位領域抽出部120で抽出した、部位領域および第二部位の候補領域のそれぞれについて、固有特徴量を算出する。ここで算出される「固有特徴量」とは、対となる部位について推定対象の多関節物体の個体に固有の特徴(例えば、色およびテクスチャの少なくとも1つ)を示す。
特徴量修正部140は、特徴量算出部130で算出した、部位領域および第二部位の候補領域のうちのどちらか一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正(再算出)する。すなわち、特徴量修正部140は、部位領域の固有特徴量を、第二部位の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。または、特徴量修正部140は、第二部位の候補領域の固有特徴量を、部位領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。前者の修正方法は、尤度が高い候補領域を、尤度が低い候補領域に合わせるように修正するので、尤度が低い候補領域から尤度の高い候補領域の特徴量を推定する後者の修正方法よりも、推定の精度が上がる。
なお、第二部位の候補領域が複数ある場合、特徴量修正部140は、部位領域と第二部位の候補領域のペアごとに固有特徴量を修正する。
また、特徴量修正部140は、上述した固有特徴量の修正を行う前に、以下の処理を行うようにしてもよい。まず、特徴量修正部140は、特徴量算出部130で算出した、部位領域の固有特徴量と第二部位の候補領域の固有特徴量との類似度を算出する。次に、特徴量修正部140は、算出した類似度に基づいて、部位領域と対になると推定できる第二部位の候補領域が存在するか否かを判断する。この判断の結果、部位領域と対になると推定できる第二部位の候補領域が存在しない場合、特徴量修正部140は、上述した固有特徴量の修正を行う。
判定部150は、特徴量修正部140で修正した固有特徴量と、他方の候補領域の固有特徴量との類似度(例えば、コサイン類似度)に基づいて、部位領域と第二部位の候補領域とが対の部位であるか否かを判定する。この判定により、部位の姿勢が推定される。
姿勢推定装置100は、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリを有する。この場合、上記した各構成部の機能は、CPUが制御プログラムを実行することにより実現される。
このような構成を備えた姿勢推定装置100は、以下の効果を奏する。
不特定多数の多関節物体の姿勢を推定する場合では、各多関節物体がどのような服装または色をしているかを事前に把握することは難しいため、共通特徴量(例えば、エッジ、シルエット、輪郭など)を用いて部位の推定を行うのが一般的である。このような部位の推定において、ある部位の周囲に他の部位がない場合は、その部位のエッジ情報のみが抽出されるため、部位の推定は比較的容易である。しかし、部位の推定を行う際に、ある部位の周囲に他の部位がある場合が想定される。すなわち、例えば、ある部位の後ろに他の部位がある場合には、ある部位だけでなくその後ろにある他の部位のエッジ情報も併せて取得されるため、部位の推定が困難である。さらに、ある部位が他の部位に遮蔽されている場合には、画像上で見える面積が少なく、上記共通特徴量だけでは、部位の推定が困難となる。
一方で、一般的に、対となる部位を持つ多関節物体では、対となる部位の服装、色、質感は同じであることが多いと考えられる。例えば、人間の場合、右腿と左腿は単一の衣服を着ているので同じ色をしていると想定できるし、右腕と左腕も同じ柄の衣服が多いと考えられる。
そこで、姿勢推定装置100は、まず、共通特徴量を用いて画像から複数の候補領域を抽出し、部位領域と第二部位の候補領域とに分ける。次に、姿勢推定装置100は、部位領域および第二部位の候補領域のそれぞれについて固有特徴量を算出する。次に、姿勢推定装置100は、部位領域および第二部位の候補領域のうち、いずれか一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。次に、姿勢推定装置100は、修正した固有特徴量と、他方の候補領域の固有特徴量との類似度に基づいて、部位領域と第二部位の候補領域とが対となる部位であるか否かを判定する。このような動作により、姿勢推定装置100は、第二部位の候補領域の周囲に他の部位の候補領域がある場合でも、第二部位の候補領域を絞り込むことが可能となる。よって、姿勢推定装置100は、対となる部位の一方の姿勢を推定するのが困難な場合でも、また、事前にその部位の色およびテクスチャの少なくとも一方が不明である場合でも、対となる部位を有する多関節物体の姿勢を高精度に推定することが可能となる。
(実施の形態2)
本発明の実施の形態2は、本発明を、撮影画像を入力し、その撮影画像に含まれる人の姿勢を推定する装置に適用した場合の、本発明の具体的態様の一例である。
まず、本実施の形態に係る姿勢推定装置を含む姿勢推定システムの概要について説明する。
図2は、本実施の形態における姿勢推定システムの構成の一例を示すシステム構成図である。図2において、姿勢推定システム200は、撮影エリア310を撮影するカメラ320と、カメラ320と通信可能に接続された姿勢推定装置100とを有する。カメラ320は、例えばデジタルビデオカメラであり、撮影エリア310を斜め上方から撮影する。すなわち、カメラ320が撮影する画像は、人340および水平な床面330を含む実空間を撮影して得られた画像である。そして、カメラ320は、撮影映像の映像データを、姿勢推定装置100へ送信する。ここでは、撮影エリア310の床面330を、姿勢推定の対象となる人340が歩行しているものとする。
姿勢推定装置100は、例えばパーソナルコンピュータであり、カメラ320から受信した映像データに基づいて、人340の姿勢を推定する。
以上で、姿勢推定システム200の概要についての説明を終える。
次に、本実施の形態において推定の対象となる人340の姿勢について説明する。
図3は、人340の身体の構成モデル(以下「身体モデル」という)410の一例を示す図である。身体モデル410は、姿勢推定に用いられる身体の各部位の位置関係を、模式的に示したものである。身体モデル410は、胴411、左大腿412、左下腿413、左足414、右大腿415、右下腿416、右足417、および頭418、右上腕419、右前腕420、左上腕422、左前腕423を少なくとも含む。
これらの各部位は、関節で接続されている。このため、各部位の可動域は、他の部位により制約を受ける。例えば、左前腕423は、左上腕422との接続点を中心とする所定の角度範囲でのみ動くことができる。また、例えば頭418と胴411の接続点を基準点とすると、基準点を中心とした左前腕423の存在可能域(「存在可能範囲」ともいう)は、左前腕423の接続元の部位である左上腕422と胴411の部位の物理的な長さや可動域の制約を受ける。このような、多関節物体の構造上の接続関係、接続点の可動域、部位の長さ、太さ、形状による制約を制約情報と呼ぶ。
本実施の形態では、姿勢推定装置100は、各部位の制約情報を用いて人に共通する特徴を示す情報に加えて、個人の部位の特徴を示す情報を用いて、身体モデル410における各部位の領域を画像情報から抽出するものとする。なお、姿勢推定装置100が用いる身体モデルは、図3に示す例に限定されるものではない。
身体モデル410において、対となる部位とは、左大腿412と右大腿415、左下腿413と右下腿416、左足414と右足417、左上腕422と右上腕419、左前腕423と右前腕420、である。なお、本実施の形態では、対となる部位を、上記の組み合わせのうち、左前腕423と右前腕420の前腕として説明するが、これに限定されない。
以上で、推定の対象となる人340の姿勢についての説明を終える。
次に、姿勢推定装置100の構成について説明する。
図1は、姿勢推定装置100の構成の一例を示すブロック図である。本実施の形態に係る姿勢推定装置100の構成は、実施の形態1と同じである。ただし、本実施の形態では、推定対象の多関節物体を人340、対となる部位を前腕(左前腕423と右前腕420)として説明する。
候補領域抽出部110は、推定対象となる人の一部または全部を含む画像から、共通特徴量を用いて、前腕であると推定される候補領域を複数抽出する。ここでいう共通特徴量とは、前腕について不特定多数の人に共通する形状の特徴(例えば、エッジのみ、または、エッジおよびシルエット)を示す。なお、ここで抽出される候補領域は、ノイズがある候補領域、すなわち、衣服の模様などが前腕であると誤って推定される候補領域を含む場合がある。
なお、上記「前腕について不特定多数の人に共通する形状」は、例えば、人340における前腕の存在可能範囲、または、前腕の大きさ、長さあるいは太さによって定まる。このような前腕についての、存在可能範囲、大きさ、長さおよび太さは、人の制約情報として予め定められている。なお、人340における前腕の存在可能範囲は、例えば、人340上のある基準点(例えば、頭418と胴411の接続点)からの距離で定めてもよい。そして、候補領域抽出部110は、上記制約情報に基づいて候補領域を抽出するようにしてもよい。これにより、候補領域抽出部110は、前腕である可能性(尤度)が最も高い領域を、候補領域として抽出することができる。
部位領域抽出部120は、候補領域抽出部110で抽出した複数の候補領域のうち、前腕である尤度が最も高い領域を、前腕のうちの第一部位の候補領域(第1の候補領域の一例)として抽出する。ここで、第一部位の候補領域を「部位領域」と呼ぶ。一方、部位領域以外の候補領域は「第二部位の候補領域」(第2の候補領域の一例)と呼ぶ。第二部位の候補領域は複数存在する場合もある。
特徴量算出部130は、部位領域抽出部120で抽出した、部位領域と第二部位の候補領域のそれぞれについて、固有特徴量を算出する。ここでいう固有特徴量とは、前腕について推定対象の人340に固有の特徴(例えば、色およびテクスチャの少なくとも1つ)を示す。
特徴量修正部140は、特徴量算出部130で算出した、部位領域および第二部位の候補領域のうちのどちらか一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正(再算出)する。すなわち、特徴量修正部140は、部位領域の固有特徴量を、第二部位の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。なお、特徴量修正部140は、第二部位の候補領域の固有特徴量を、部位領域の長さ、幅、および角度の少なくとも1つに基づいて修正するようにしてもよい。前者の修正方法は、尤度が高い候補領域を、尤度が低い候補領域に合わせるように修正するので、後者の修正方法よりも推定の精度が上がるため、好ましい。
なお、第二部位の候補領域が複数ある場合、特徴量修正部140は、部位領域と第二部位の候補領域のペアごとに、部位領域または第二部位の候補領域の固有特徴量を修正する。
また、特徴量修正部140は、上述した固有特徴量の修正を行う前に、以下の処理を行うようにしてもよい。まず、特徴量修正部140は、特徴量算出部130で算出した、部位領域の固有特徴量と第二部位の候補領域の固有特徴量との類似度を算出する。次に、特徴量修正部140は、算出した類似度に基づいて、部位領域と対の前腕であると推定できる第二部位の候補領域が存在するか否かを判断する。この判断の結果、部位領域と対の前腕であると推定できる第二部位の候補領域が存在しない場合、特徴量修正部140は、上述した固有特徴量の修正を行う。
判定部150は、特徴量修正部140で修正した固有特徴量と、他方の候補領域の固有特徴量との類似度(例えば、コサイン類似度)に基づいて、部位領域と第二部位の候補領域とが対の前腕であるか否かを判定する。この判定により、前腕の姿勢が推定される。
姿勢推定装置100は、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリを有する。この場合、上記した各構成部の機能は、CPUが制御プログラムを実行することにより実現される。
このような構成を備えた姿勢推定装置100は、以下の効果を奏する。
不特定多数の人の姿勢を推定する場合では、各人がどのような服装または肌の色をしているかを事前に把握することは難しいため、共通特徴量(例えば、エッジ、シルエット、輪郭など)を用いて、部位の推定を行うのが一般的である。このような部位の推定において、ある部位の周囲に他の部位がない場合は、その部位のエッジ情報のみが抽出されるので、部位の推定は比較的容易である。しかし、部位の推定を行う際に、ある部位の周囲に他の部位がある場合が想定される。すなわち、例えば、左前腕423の後ろに胴411がある場合には、左前腕423だけでなく胴411のエッジ情報も併せて取得されるため、左前腕423の推定が困難となる。さらに、ある部位が他の部位に遮蔽されている場合も想定される。すなわち、例えば、左前腕423の一部が胴411に隠れている場合には、左前腕423が画像上で見える面積が少なく、前腕の形状の特徴を示す画像特徴量だけでは、左前腕423の推定が困難となる。
一方で、一般的に、人の服装は左右対称であり、対となる部位の画像上での色、テクスチャは同じことが多い。例えば、人間の場合、右腿と左腿は単一のズボンを着用しているので同じ長さ、同じ色をしていると想定できるし、右腕と左腕も同じ柄、同じ袖の長さの衣服が多いと考えられる。
そこで、姿勢推定装置100は、まず、共通特徴量を用いて画像から複数の候補領域を抽出し、部位領域と第二部位の候補領域とに分ける。次に、姿勢推定装置100は、部位領域および第二部位の候補領域のそれぞれについて固有特徴量を算出する。次に、姿勢推定装置100は、部位領域および第二部位の候補領域のうち、いずれか一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。次に、姿勢推定装置100は、修正した固有特徴量と、他方の候補領域の固有特徴量との類似度に基づいて、部位領域と第二部位の候補領域とが対となる部位であるか否かを判定する。このような動作により、姿勢推定装置100は、第二部位の候補領域の周囲に他の部位(例えば胴411)の候補領域がある場合でも、第二部位の候補領域を絞り込むことが可能となる。よって、姿勢推定装置100は、前腕の一方の姿勢を推定するのが困難な場合でも、また、事前にその部位の色およびテクスチャの少なくとも一方が不明である場合でも、対となる部位を有する多関節物体の姿勢を高精度に推定することが可能となる。
次に、姿勢推定装置100の動作について説明する。図4は、姿勢推定装置の動作の一例を示すフローチャートである。
まず、ステップS1100において、候補領域抽出部110は、候補領域抽出処理を行う。候補領域抽出処理は、推定対象部位である前腕の候補領域を複数抽出する処理である。
ここで、ステップS1100の候補領域抽出処理の詳細について、説明する。図5は、候補領域抽出処理の動作の一例を示すフローチャートである。
まず、ステップS1101の「画像入力」において、候補領域抽出部110は、カメラ320から画像を入力する。この画像は、人340の一部または全部が撮影された画像である。
次に、ステップS1102の「前景抽出」において、候補領域抽出部110は、入力された画像から、前景領域を抽出する。具体的には、候補領域抽出部110は、背景差分画像を生成し、前景を人340と推定される領域(以下「人の候補領域」という)として抽出する。ここで、背景差分画像とは、例えば、人340が存在しない状態で撮影された背景画像と、入力された画像との差分を示す画像である。
背景差分画像は、例えば、入力された画像と背景画像との画素値が異なる画素を白で表現し、入力画像と背景画像との画素値が同じ画素を黒で表現する。すなわち、背景差分画像は、人340が存在する領域を、白の領域で表現し、人340が存在しない領域を、黒の領域で表現する。
次に、ステップS1103の「頭抽出」において、候補領域抽出部110は、頭418と推定される領域(以下「頭の候補領域」という)を抽出し、人340の基準点を算出する。本実施の形態では、基準点は、頭418と胴411の接続点とするが、これに限定されない。
候補領域抽出部110は、白の領域を人の候補領域として抽出し、そのうち、上部の領域を、頭の候補領域として抽出する。上部の領域は、例えば、人の候補領域(白の領域)のうち上端から下方に向かって所定の比率(例えば、30%)の部分を含む領域として、予め定められている。
そして、候補領域抽出部110は、抽出した頭の候補領域から、ハフ変換などを用いて頭領域を抽出する。ハフ変換は、公知の技術であり、エッジ情報から楕円の中心(X座標、Y座標)、長軸、短軸、傾きを表す5つのパラメータを求めることができる。候補領域抽出部110は、この楕円の長軸と楕円の交点のうち、下に位置する点を、頭418と胴411の接続点である基準点として算出する。
次に、ステップS1104の「候補領域抽出」において、前腕の候補領域を抽出する。ここで、前腕の候補領域を抽出する例を2つ説明する。
まず、第一の例を説明する。第一の例は、頭の候補領域の抽出と同様に行う。
候補領域抽出部110は、白の領域を人の候補領域として抽出し、そのうち、基準点から所定の距離の領域を、前腕存在可能領域として抽出する。ここで、所定の距離は、人340の制約情報に基づいて、予め学習により、頭領域の大きさの所定の倍率(例えば、短軸の7.5倍など)として、予め定められている。
そして、候補領域抽出部110は、抽出した前腕存在可能領域から、ハフ変換などを用いて前腕の候補領域を抽出する。ハフ変換は、公知の技術であり、エッジ情報から楕円の中心(X座標、Y座標)、長軸、短軸、傾きを表す5つのパラメータを求めることができる。候補領域抽出部110は、このようにして求めた楕円のうち、長軸、短軸の長さが所定の条件を満たすものを前腕の候補領域として抽出する。ここで、所定の条件は、人340の制約情報に基づいて、予め学習により、頭領域の大きさの所定の比率の範囲(例えば、長軸は頭領域の長軸の長さの1.2倍より小さい、短軸は頭領域の短軸の長さの1.2倍より小さいなど)として、予め定められている。
このようにして候補領域抽出部110が抽出する前腕の候補領域は、それぞれ、楕円の中心(X座標、Y座標)、長軸、短軸、傾きにより定義されて出力される。
次に、第二の例を説明する。第二の例は、前腕存在可能領域を基に生成したエッジペア尤度マップから前腕の候補領域を抽出する。
エッジペア尤度マップは、各画素の近傍に存在する、所定の勾配方向に平行なエッジペアに基づいて算出したエッジペア尤度を各画素の値とするマップである。本実施の形態では、平行線の幅を前腕の太さの制約情報に基づいて決めるため、画素ごとのエッジペア尤度は、当該画素の近傍に存在する画素が、前腕のエッジであることの尤もらしさ(尤度)を示す。
図6は、エッジペア尤度マップ生成処理の動作の一例を示すフローチャートである。図7は、勾配方向が水平方向であるエッジペア尤度マップの生成処理を説明するための図である。ここでは、水平方向を0度として、水平方向のエッジペア尤度マップを生成する例を説明する。
ステップS2001において、候補領域抽出部110は、生成するエッジペア尤度マップの勾配方向の刻み幅を選択する。ここでは例として、刻み幅が、予め30度に設定されているとする。このように勾配方向を30度刻みとする場合、0度、30度、60度、90度、120度、150度の6つのエッジペア尤度マップが生成されることになる。よって、その場合、候補領域抽出部110は、ステップS2002からS2006の処理を6回繰り返すことになる。
ステップS2002において、候補領域抽出部110は、前腕存在可能領域から、注目画素を選択する。例えば、図7において、候補領域抽出部110は、左上隅の画素(※で示す画素)から、X座標をX軸方向に1ずつインクリメントしてX軸方向の端まで移動したら、X座標を初期位置(※で示す画素のX座標の位置)に戻し、Y座標をY座標方向に1インクリメントして、X座標をX軸方向に1ずつインクリメントする処理を繰り返して、腕第二部位の候補領域の全ての画素を注目画素として選択する。ただし、選択の方法はこれに限定されない。図7では、前腕存在可能領域710から注目画素702が選択された場合を例に説明する。
ステップS2003において、候補領域抽出部110は、勾配方向ペア画素を選択する。図7では、勾配方向ペア画素として704と705が選択される。
上述した通り、ここでは、水平方向のエッジペア尤度マップを生成する例としている。よって、候補領域抽出部110は、2つの条件を満たす画素として、704および705の2つを勾配方向ペア画素として選択する。2つの条件とは、注目画素702を通り水平な直線と垂直となる直線上にあること、および、注目画素702からの距離が対象部位の太さ701の半分の長さ703であること、である。すなわち、角度θのエッジペア尤度マップを生成する場合には、候補領域抽出部110は、注目画素を通り、角度θと垂直(θ+90度)の直線上で、距離が対象部位の太さ701の半分の長さ703となる画素を、勾配方向ペア画素として2つ選択するものとする。なお、本実施の形態では、対象部位の太さ701は、予め学習により、頭領域の大きさの所定の比率(例えば、頭領域の短軸の長さの1.2倍など)として、予め定められている。
ステップS2004において、候補領域抽出部110は、勾配方向ペア画素のそれぞれから予め設定された距離以内にある画素群を、勾配方向ペア近傍領域としてそれぞれ選択する。図7では、勾配方向ペア画素704および705のそれぞれから、近傍の長さ708の距離以内にある画素群が、勾配方向ペア近傍領域706および707としてそれぞれ選択されている。近傍の長さ708は、部位の太さの誤差の長さを表す、予め定められた値である。例えば、近傍の長さ708は、頭領域の大きさの所定の比率(例えば、頭領域の短軸の長さの20%など)として、予め定められている。
ステップS2005において、候補領域抽出部110は、注目画素702のエッジペア尤度を計算する。具体的には、候補領域抽出部110は、勾配方向ペア近傍領域706内の画素の輝度の総和と、勾配方向ペア近傍領域707内の画素の輝度の総和との積を、エッジペア尤度として算出する。
なお、候補領域抽出部110は、勾配方向ペア近傍領域706内で所定値以上の輝度Yを持つ画素の数と、勾配方向ペア近傍領域707内で所定値以上の輝度Yを持つ画素の数の積を、エッジペア尤度として算出するようにしてもよい。これにより、候補領域抽出部110は、各勾配方向ペア近傍領域706、707の大きさでエッジペア尤度を正規化することができる。
ステップS2006において、候補領域抽出部110は、前腕存在可能領域の全画素についてエッジペア尤度の算出が終了したか否かを判断する。全画素について計算が終了していれば(S2006:YES)、候補領域抽出部110は、ステップS2001で選択した刻み幅のエッジペア尤度マップの生成が終了したと判断し、ステップS2007に進む。一方、全画素について計算が終了していなければ(S2006:NO)、候補領域抽出部110は、ステップS2001で選択した刻み幅のエッジペア尤度マップの生成が終了していないと判断し、ステップS2002に進む。
ステップS2007において、候補領域抽出部110は、全ての勾配方向についてエッジペア尤度の算出が終了したか否かを判断する。全ての勾配方向について計算が終了していれば(S2006:YES)、候補領域抽出部110は、予め定められた全ての勾配方向のエッジペア尤度マップの生成が終了したと判断し、一連の処理を終了する。一方、全ての勾配方向について終了していなければ(S2006:NO)、候補領域抽出部110は、予め定められた全ての勾配方向のエッジペア尤度マップの生成が終了していないと判断する。よって、候補領域抽出部110は、未生成である勾配方向のエッジペア尤度マップを生成するために、ステップS2001に進む。
候補領域抽出部110は、このように生成したエッジペア尤度マップの尤度が所定の閾値以上の画素を、エッジペア尤度マップから算出した前腕存在可能領域として抽出する。ここで、所定の閾値は、エッジペア尤度マップ内の最大エッジペア尤度に対する比率(たとえば、10%など)として、予め定められている。
候補領域抽出部110は、前腕存在可能領域から前腕の候補領域を抽出したときと同じように、エッジペア尤度マップから算出した前腕存在可能領域から、ハフ変換を用いて前腕の候補領域を抽出する。
このように、本実施の形態では、対象部位である前腕の制約情報を用いて前腕存在可能領域を絞り込むことで、対象部位である前腕の候補領域をより精度よく抽出できる。
以上で、ステップS1100の候補領域抽出処理の具体例の説明を終える。
次に、ステップS1200において、部位領域抽出部120は、部位領域抽出処理を行う。部位領域抽出処理は、候補領域抽出部110で抽出された複数の候補領域のうち、前腕である尤度が高い領域を、前腕のうちの第一部位の候補領域である「部位領域」として抽出する。
ここで、前腕の部位領域を抽出する例を3つ説明する。
まず、第一の例を説明する。第一の例は、部位領域抽出部120が、人340の輪郭上の基準点からの極大値を用いて、部位領域を抽出する。
図8は、輪郭上の基準点からの極大値を用いて、部位領域を抽出する一例を示す図である。
図8Aは、人340の背景差分画像の一部の例を示す。図8Aにおいて、白い領域は、入力画像と背景画像との画素値が異なる画素(人340が存在する領域)を示している。また、図8Aにおいて、801は、人340の基準点の例を示す。
部位領域抽出部120は、基準点から真上にある白い領域と黒い領域(ハッチングの領域)の境界の画素802を選択し、境界沿いに左周りに画素位置を記録していく。図8Aの画素上の数字は、記録された順番を示す。画素802は一番に記録されたので、1と示されている。記録される順番は、例えば、左斜め上、横、左斜め下、下、右斜め下の画素の順とする。
図8Bは、記録された順番と、その順番で記録された画素と基準点の距離を示すグラフである。このグラフから、記録された順番が20の画素が極大値をとることがわかる。
部位領域抽出部120は、候補領域抽出部110で抽出された候補領域のうち、極大値との間で最も距離が小さいものを、部位領域として抽出する。具体的には、部位領域抽出部120は、候補領域の長軸と楕円周との交点のうち、基準点からの距離が大きい方の交点と極大点の距離が小さい候補領域を部位領域としてもよいし、第二部位の候補領域の重心と基準点からの距離が小さい候補領域を部位領域としてもよい。
このように、部位領域抽出部120は、前腕が他の部位(例えば胴)から離れているために、他の部位の情報が含まれている可能性の最も低い候補領域を、部位領域として抽出することが可能となる。
次に、第二の例を説明する。
部位領域抽出部120は、エッジペア尤度を用いて、部位領域を抽出する。具体的には、部位領域抽出部120は、エッジペア尤度マップ上の各候補領域において、エッジペア尤度の総和を算出し、その総和が最も高い候補領域を部位領域として抽出する。
このように、部位領域抽出部120は、対象部位のエッジペア尤度を最も多く保持し、対象部位である可能性が最も高い候補領域を、部位領域として抽出することが可能となる。
次に、第三の例を説明する。
部位領域抽出部120は、第一の例と第二の例の手法を組み合わせて部位領域を抽出する。具体的には、部位領域抽出部120は、第二部位の候補領域の長軸と楕円周との交点のうち基準点からの距離が大きい方の交点と極大点の距離が小さく、かつ、候補領域のエッジペア尤度の総和が高い候補領域を、部位領域として抽出する。具体的には、部位領域抽出部120は、以下の数式(1)を用いて算出した値が最も高い候補領域を、部位領域として抽出してもよい。
Figure 0005898014
なお、数式(1)において、各値は、以下の通りである。Siは、i番目の候補領域のスコアである。Max[L]は、候補領域と基準点との間の距離の最大値である。Liは、i番目の候補領域と極大点との間の距離の最大値である。Piは、i番目の候補領域のエッジペア尤度の総和である。Max[P]は、候補領域のエッジペア尤度の総和の最大値である。mとnは、予め定められる重み定数であり、n+m=1となるように設定される。重み定数は、候補領域と基準点との間の距離と、エッジペア尤度とが同じ程度信頼できる環境では、同じ比率に設定される。その一方、候補領域と基準点との間の距離よりもエッジペア尤度の方が信頼できる環境では、重み定数は、mよりnを大きくするというように、事前の学習により設定される。
このように2種類の値を用いることで、部位領域抽出部120は、複数の候補領域の中から、基準点からの距離と、部位らしいエッジペア尤度との両方の条件を最もよく満たす候補領域、つまり、最も推定対象部位らしい候補領域をより精度よく抽出することが可能となる。
以上で、ステップS1200の部位領域抽出処理の具体例の説明を終える。
次に、ステップS1300において、特徴量算出部130は、部位領域抽出部120で抽出した、部位領域および第二部位の候補領域毎に、固有特徴量を算出する。
ここで、固有特徴量の例を2つ説明する。
第一の例は、色情報の公知の技術である、輝度のヒストグラムである。具体的には、固有特徴量の一例である輝度ヒストグラムは、各第二部位の候補領域に含まれる画素の輝度の値を、0から255の値をとる256ビンの情報としたものである。
第二の例は、テクスチャ情報のエッジペア尤度のヒストグラムである。具体的には、固有特徴量の一例であるエッジペア尤度のヒストグラムは、各第二部位の候補領域に含まれるエッジペア尤度の値を正規化して、0から1までの値とした、平行線の方向の刻みの数に応じたビン数の情報(例えば、8方向のエッジペア尤度の場合は8ビン)としたものである。
以上で、ステップS1300の特徴量算出処理の具体例の説明を終える。
次に、S1400において、特徴量修正部140は、特徴量算出部130で算出した、部位領域および第二部位の候補領域のうちのどちらか一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。例えば、特徴量修正部140は、部位領域の固有特徴量を、第二部位の候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。なお、本実施の形態では、部位領域と第二部位の候補領域のうち、部位領域の固有特徴量を算出しなおす例について説明するが、それに限定されない。また、第二部位の候補領域が複数ある場合には、特徴量修正部140は、部位領域と第二部位の候補領域のペアごとに、上述した固有特徴量の修正を行う。
特徴量修正部140が特徴量修正処理を行う理由は、部位領域および第二部位の候補領域の位置または形状によっては、特徴量算出部130が固有特徴量を正しく取得(算出)できない場合があるためである。ここで、固有特徴量が正しく取得できない場合の例を3つ説明する。
まず、第一の例を説明する。図10は、推定対象となる人340の姿勢の一例を示す。
図10Aは、人が右腕を前に伸ばし、左腕を軽く曲げた姿勢を右側から見た身体モデルで示した例である。図10Aに示す姿勢は、例えば、人が商品棚から商品を取得する購買行動において、左手にカゴやかばんをもち、右手で商品を取得するときに見られる。図10Aにおいて、右前腕420は全部見えている。その一方、図10Aにおいて、左前腕423は、その半分程度が他の部位である胴411に遮蔽されており、先端の部分しか見えていない。
図10Bは、図10Aの人340を撮影した画像から抽出される、前腕の部位領域901および第二部位の候補領域902を示した例である。図10Bにおいて、右前腕420は他の部位から離れている上、カメラ320の向きと垂直に伸びており、長軸の長さも長い。そのため、右前腕420で抽出される候補領域は、部位領域抽出部120により部位領域901として抽出される。
図13は、第一の例における画像とそのヒストグラムの一例を示す。
図13の例では、前腕の先端まで衣服で覆われていないため、前腕の部位領域901から抽出される特徴量には、衣服と腕の肌の色またはテクスチャの特徴が含まれる。しかし、第二部位の候補領域902から抽出される特徴量には腕の肌の特徴量しか含まれない。
図13Aは、図10Bに示す右腕の画像の一例を示し、部位領域901を示す。図13Bは、図13AのRGBヒストグラムの例を示す。図13Cは、図13Aの輝度ヒストグラムの例を示す。また、図13Dは、図10Bに示す左腕の画像の一例を示し、第二部位の候補領域902を示す。図13Eは、図13DのRGBヒストグラムの例を示す。図13Fは、図13Dの輝度ヒストグラムの例を示す。ヒストグラムは、ある領域における画素ごとの値の分布を示したものである。図13の例では、図示を省略しているが、グラフの左側には画像の暗い値(最も暗い値はレベル0)が表示され、右側には明るい値(最も明るい値はレベル255)が表示される。グラフの縦軸は、各レベルの画素の総数を示す。
RGBヒストグラムは、赤、緑および青の各カラーチャンネルのヒストグラムを個別に出力した後、レベルごとに和をとり表示したものである。本実施の形態では、RGBヒストグラムは、レベルごとに和をとったが、重ね合わせずに、0から255のレベルが3つ(赤、緑および青)を並べて768レベルのヒストグラムとしてもよい。
輝度のヒストグラムは、画素の輝度の値をヒストグラムにしたものである。
図13において、部位領域901は衣服と肌の情報を含むのに対し、第二部位の候補領域902は主に肌の情報しか含まないため、RGBヒストグラムと輝度ヒストグラムのどちらを見ても異なっている。
そのため、コサイン類似度の値は高くならず、第二部位の候補領域902は部位領域901の対となる部位として抽出されない。正しく抽出できる特徴量とするためには、特徴量修正部140は、部位領域901と第二部位の候補領域902の先端の半分の領域から特徴量を取得する必要がある。
次に、第二の例を説明する。図10Cは、部位領域901と第二部位の候補領域902のテクスチャの一例を示す。具体的には、人340が縞のシャツを着ているとする。
図10Dは、図10Bにおける、基準点900、部位領域901、および第二部位の候補領域902を示す。図10Dにおいて、角度θ904は、部位領域901と第二部位の候補領域902の傾きの差を示す角度である。
図14は、第二の例におけるヒストグラムの一例を示す。
図14は、図10Bに示す人が図10Cに示す縞模様の衣服を着ている場合の、テクスチャのヒストグラムを示す。図14Aは、部位領域901のテクスチャのヒストグラムを示す。図14Bは、候補領域902のテクスチャのヒストグラムを示す。
図14のテクスチャのヒストグラムは、エッジペア角度の分布を正規化して8つのレベルで示している。グラフの一番左から水平方向(レベル1)のエッジペアの分布が示され、時計回りの方向に22.5度刻みの順に、グラフの右側には157.5度方向(レベル8)のエッジペアの分布が示される。図14Aの部位領域901のテクスチャのヒストグラムは、図10Cで示すように、垂直方向のエッジペアが多くなるため、垂直方向のエッジペアの分布を示すれレベル4の値が高くなる。図14Bのテクスチャのヒストグラムは、レベル1(水平方向)から時計回りに135度の方向(レベル7)が最も多くなる。
そのため、部位領域901と第二部位の候補領域の特徴量のコサイン類似度の値は高くなく、第二部位の候補領域902は部位領域901の対となる部位として抽出されない。正しく抽出できる特徴量とするためには、特徴量修正部140は、部位領域901と第二部位の候補領域902のうちいずれか一方の領域を角度θ904だけ回転させてから特徴量を取得する必要がある。
次に、第三の例を示す。図12は、人340の姿勢の一例を示す。
図12Aは、右上腕419は下に下ろし、肘を折り曲げて右前腕420の先端が肩の位置にした姿勢を正面から見た身体モデルを示す。図12Bは、図12Aに示す姿勢を右側から見た身体モデルを示す。この場合、正面からの画像では、右上腕419は見えず、右前腕420のみが見えることになる。
図15は、第三の例におけるヒストグラムの一例を示す。
図15のテクスチャのヒストグラムは、エッジペア角度と間隔の分布を正規化なしで24のレベルで示している。図15の各ヒストグラムは、グラフの一番左から水平方向のエッジペアの分布が示され、時計回りの方向に22.5度刻みの順に、グラフの右側には157.5度方向のエッジペアの分布が示される。これは、図14のヒストグラムと同様である。それに加え、図15の各ヒストグラムは、方向ごとに、エッジペアの間隔が3段階(腕の太さを示す長さ、腕の太さを示す長さの2分の一、腕の太さを示す長さの4分の一)の分布が示される。このように、合わせて8(方向)x3(太さ)のレベルをもつヒストグラムとなる。例えば、図15の各ヒストグラムにおいて、グラフの一番左のレベルは、エッジペアの方向が水平で、間隔は腕の太さをもつエッジペアの分布を示す。また、2番目のレベルは、エッジペアの方向が水平で、間隔は腕の太さの2分の一の太さをもつエッジペアの分布を示す。また、3番目のレベルは、エッジペアの方向が水平で、間隔は腕の太さの4分の一の太さをもつエッジペアの分布を示す。
図12Cは、図12Aに示す人340が、前腕に縞のあるシャツを着ている場合の模式図を示す。
この場合、部位領域抽出部120は、左前腕423を部位領域として抽出し、右前腕420を第二部位の候補領域として抽出する。
そして、特徴量算出部130で算出される、部位領域(図12Cに示す左前腕423)と第二部位の候補領域(図12Cに示す右前腕420)の固有特徴量はともに、図15Aに示すヒストグラムで表され、類似度が高い。
図12Dは、人が右腕をまっすぐ前下に伸ばし、左腕を下に下ろしている姿勢を正面から見た身体モデルを示す。図12Eは、図12Dに示す姿勢を右側から見た身体モデルを示す。この場合、図12Aと同様に、左前腕423が部位領域として抽出されるが、他に第二部位の候補領域が2つ抽出される。具体的には、候補領域抽出部110は、第二部位の候補領域として、右上腕419と右前腕420とをあわせた領域(以下「合併領域」という)と、右前腕420との2つを抽出することが予測される。ここで、抽出された合併領域を「第二部位の候補領域A」と呼び、抽出された右前腕420を「第二部位の候補領域B」と呼ぶ。
図12Fは、図12Dに示す人340が、図12Cと同じ縞のシャツを着ている場合の模式図を示す。
この場合、特徴量算出部130で算出される部位領域(図12Fに示す左前腕423)の固有特徴量は、太い縞のエッジペアの分布が多い図15Aに示すヒストグラムとなる。また、第二部位の候補領域A(図12Fに示す右上腕419および右前腕420)および第二部位の候補領域B(図12Fに示す右前腕420)の固有特徴量は、細い縞のエッジペアも抽出される。そのため、第二部位の候補領域Aの固有特徴量は、図15Bに示すヒストグラムとなり、第二部位の候補領域Bの固有特徴量は、図15Cに示すヒストグラムとなる。よって、特徴量算出部130で算出される、部位領域のテクスチャの特徴量と、第二部位の候補領域Aのテクスチャの特徴量とは、異なることになる。また、特徴量算出部130で算出される、部位領域のテクスチャの特徴量と、第二部位の候補領域Bのテクスチャの特徴量とは、異なることになる。
しかし、部位領域と第二部位の候補領域の長軸の比率に応じて、領域を変形させて再算出領域を抽出することにより、特徴量の類似度が高くなり、第二部位の候補領域を正しく推定できる場合がある。
例えば、部位領域が図12Fに示す左前腕423であり、第二部位の候補領域が図12Fに示す右前腕420(第二部位の候補領域B)である場合は、以下のようになる。すなわち、部位領域を第二部位の候補領域Bの長軸の長さに合わせて縮小すると、第二部位の候補領域Bと同じように、図15Cに示す細い縞の特徴量が抽出される。一方、部位領域が図12Fに示す左前腕423であり、第二部位の候補領域が図12Fに示す右上腕419および右前腕420(第二部位の候補領域A)である場合は、以下のようになる。すなわち、部位領域と第二部位の候補領域Aの長軸の長さは等しいので、再算出領域は変化せず、特徴量も異なる。よって、部位領域に対となる第二部位の候補領域は、第二部位の候補領域Aではなく、第二部位の候補領域Bであると正しく推定される。
上記3つの例による理由から、特徴量修正部140は、ステップS1400の特徴量修正処理を行う。
図9は、ステップS1400の特徴量修正処理のフローの一例を示す。
ステップS1401において、特徴量修正部140は、コサイン類似度が所定の条件を満たさない部位領域と第二部位の候補領域のペアについて、特徴量算出領域抽出処理を行う。ここで、所定の条件は、複数算出されたコサイン類似度の相対的な値で設定(例えば、最もコサイン類似度が高いなど)されたものでもよい。または、所定の条件は、コサイン類似度の閾値を絶対値で設定(例えば、コサイン類似度が0.8より大きい)されたものでもよい。あるいは、所定の条件は、上記相対的な値と絶対値との両方で設定されたものでもよい。そして、ステップS1401の特徴量算出領域抽出処理の結果、後述する再算出領域が抽出される。なお、このステップS1401の詳細は、後述する。
ステップS1402において、特徴量修正部140は、再算出領域から固有特徴量を再算出(修正)する処理を行う。ここでの固有特徴量の再算出は、特徴量算出部130の固有特徴量の算出と同様に行う。
なお、特徴量修正部140は、特徴量算出部130における固有特徴量の算出に用いたものと同一の固有特徴量を用いてもよいし、色とテクスチャの両方の固有特徴量を算出するようにしてもよい。複数の固有特徴量を算出することで、よりロバストな判定が可能となる。
次に、特徴量算出領域抽出処理の詳細を説明する。図11は、ステップS1401の特徴量算出領域抽出処理フローの一例を示す。
ステップS14011において、特徴量修正部140は、第二部位の候補領域902の長軸と楕円周との交点として、基準点900からの距離が短い交点A(第1交点の一例)と、基準点900からの距離が長い交点B(第2交点の一例)とを抽出する。
ステップS14012において、特徴量修正部140は、第二部位の候補領域902が他の部位(例えば胴411)によって遮蔽されている可能性(以下「遮蔽可能性」という)があるか否かを判断する。この判断は、基準点900から交点Aまでの距離および角度、並びに、基準点900から交点Bまでの距離および角度に基づいて行われる。具体的には、特徴量修正部140は、他の部位が存在する可能性のある領域(以下「他部位領域」という)に、交点Aと交点Bが含まれるかを判断する。他部位領域は、基準点900および人340の制約情報に基づいて、算出、設定された領域である。例えば、他部位領域は、基準点900を基準にして、幅は頭の短軸の4倍であり、長さは頭の短軸の8倍である矩形領域が挙げられる。
ステップS14012における判断の結果、他部位領域に、交点Aが含まれており、かつ、交点Bが含まれていない場合、特徴量修正部140は、遮蔽可能性ありと判断し(S14013:YES)、ステップ14024の処理に進む。
一方、ステップS14012における判断の結果、他部位領域に、交点Aが含まれていない、または、交点Bが含まれている場合、特徴量修正部140は、遮蔽可能性なしと判断し(S14013:NO)、ステップS14015の処理に進む。
ステップS14014において、特徴量修正部140は、部位領域901から、固有特徴量を再算出する領域、すなわち再算出領域を抽出する。まず、特徴量修正部140は、制約情報である対象部位の長さ(例えば、頭領域の短軸の4倍)と第二部位の候補領域902の長軸の長さとの比に基づいて、遮蔽されていない面積の比R(例えば、20%など)を求める。次に、特徴量修正部140は、部位領域901のうち、その先端から面積の比Rに相当する領域を、再算出領域として抽出する。
なお、特徴量の再算出に色情報のみを用いる場合には、このステップS14014にて処理を終了してもよい。
図10では、第二部位の候補領域902には腕の肌のみが含まれる例を説明したが、第二部位の候補領域902に衣服も含まれる場合もある。この場合、ステップS14014の処理だけでは、精度よく類似度が判断できない。なぜなら、衣服のテクスチャは、腕の角度により異なる特徴量となるからである。
よって、精度よく類似度を判断するために、特徴量修正部140は、ステップS14015以降の処理を行うことが好ましい。
ステップS14015において、特徴量修正部140は、テクスチャの特徴量を算出する場合に、部位領域901と第二部位の候補領域902とのなす角度が所定の値より小さいか(図10Dに示す角度θ904が所定の値より小さい角度か)否かを判断する。ここで所定の値とは、候補領域の角度の推定誤差を示し、予め学習して取得した値(例えば15度)である。
ステップS14015における判断の結果、角度が所定の値より小さい場合(S14015:YES)、特徴量修正部140は、ステップS14017の処理に進む。
一方、ステップS14015における判断の結果、角度が所定の値より小さくない場合(S14015:NO)、特徴量修正部140は、ステップS14016の処理に進む。
ステップS14016において、特徴量修正部140は、部位領域901と第二部位の候補領域902の角度の違いであるθ904を用いて、ステップS14014で抽出した再算出領域を回転させる。なお、ステップS14014を行わなかった場合(S14013:NO)、特徴量修正部140は、θ904を用いて、部位領域901を回転させる。
ステップS14017において、特徴量修正部140は、部位領域901の長軸の長さと第二部位の候補領域902の長軸の長さとを比較し、長軸の長さの差が所定の値より小さいか否かを判断する。ここで所定の値とは、長軸の推定誤差を示し、頭領域の長軸の比率(頭領域の10%)で設定された値である。
ステップS14017における判断の結果、長軸の長さの差が所定の値より小さい場合(S14017:YES)、特徴量修正部140は、ステップS14018の処理に進む。
一方、ステップS14017における判断の結果、長軸の長さの差が所定の値より小さくない場合(S14017:NO)、特徴量修正部140は、ステップS14016で抽出した再算出領域を出力して、一連の処理を終了する。なお、長軸の長さの差が所定の値より小さくない場合において、事前にステップS14016の処理を行っていない場合には、特徴量修正部140は、ステップS14014で抽出した再算出領域を出力して、一連の処理を終了する。また、長軸の長さの差が所定の値より小さくない場合において、事前にステップS14014の処理およびステップS14016の処理を行っていない場合には、特徴量修正部140は、部位領域901を再算出領域として出力して、一連の処理を終了する。
ステップS14018において、特徴量修正部140は、部位領域901を縮小して再算出領域とする。具体的には、特徴量修正部140は、部位領域901の長軸の長さに対する第二部位の候補領域902の長軸の長さの比率に合わせて、部位領域901を縮小し、それを再算出領域として、一連の処理を終了する。例えば、特徴量修正部140は、部位領域901の長軸の長さが6画素、第二部位の候補領域902の長軸の長さが3画素である場合、比率を50%などにする。そして、特徴量修正部140は、比率50%に合わせて、部位領域901の面積を50%に縮小する。そして、特徴量修正部140は、縮小した部位領域901を再算出領域とする。
以上説明した図11のフローによれば、部位領域901と第二部位の候補領域902の部位の角度が異なるために、見えの長さが異なる場合にも、部位領域901の対となる第二部位の候補領域902を正しく推定することができる。
なお、図11のフローにおいて、ステップS14017を先に行い、ステップS14015をその後に行ってもよい。
また、ステップS14018において、特徴量修正部140は、再算出領域を縮小する例について説明したが、再算出領域を拡大するようにしてもよい。
以上で、ステップS1400の特徴量修正処理の具体例の説明を終える。
次に、ステップS1500において、判定部150は、部位領域901と第二部位の候補領域902とが、対となる部位であるか否かを判断する。具体的には、判定部150は、特徴量修正部140の手法と同様に、特徴量修正部140で算出した特徴量の類似度を用いて判断する。
なお、特徴量修正部140において、複数の特徴量を算出する場合、以下の数式(2)を用いて類似度を算出してもよい。
Figure 0005898014
なお、数式(2)において、各値は、以下の通りである。CSi’は、i番目の第二部位の候補領域902の類似度スコアを示す。Max[C]は、部位領域901と第二部位の候補領域902との色の特徴量による類似度の最大値を示す。Ciは、i番目の第二部位の候補領域902と部位領域901の色の特徴量による類似度を示す。Tiは、i番目の第二部位の候補領域902と部位領域901のテクスチャの特徴量による類似度を示す。Max[T]は、部位領域901と第二部位の候補領域902のテクスチャの特徴量による類似度の最大値を示す。mとnは、予め定めておく重み定数で、n+m=1となるように設定される。重み定数は、色の特徴量とテクスチャの特徴量とが同じ程度信頼できる環境では同じ比率にする。その一方で、重み定数は、色の特徴量がテクスチャの特徴量よりも信用できる環境では、mをnより大きくするというように、事前の学習により設定される。
判定部150は、CSi’の値が最も大きい第二部位の候補領域902を、部位領域901と対となる部位として抽出する。また、第二部位の候補領域902が1つの場合、判定部150は、CSi’が所定の値以上であれば、部位領域と対となる部位として抽出する。所定の値は、学習により予め設定される。
このように、判定部150は、2つの特徴量を環境に応じて重み付けをして用いることで、より精度よく部位領域と対となる部位を抽出することが可能となる。
以上で、ステップS1500の判定処理の具体例の説明を終える。
(実施の形態1、2の変形例)
以上、本実施の形態1、2についてそれぞれ説明したが、上記説明は一例であり、種々の変形が可能である。以下、本実施の形態1、2の変形例について説明する。
例えば、実施の形態1および2で説明した姿勢推定装置100の動作は、ハードウェアとの連係において、ソフトウェアでも実現することも可能である。
また、例えば、実施の形態2では、多関節物体を人として説明したが、本発明は、人に限定されない。
また、例えば、実施の形態2において、特徴量修正部140は、固有特徴量の修正を行う前に、以下の特徴量判定処理を行うようにしてもよい。
特徴量判定処理の概要は、次の通りである。まず、特徴量修正部140は、特徴量算出部130で算出した、部位領域の固有特徴量と第二部位の候補領域の固有特徴量との類似度を算出する。次に、特徴量修正部140は、算出した類似度に基づいて、部位領域と対の前腕であると推定できる第二部位の候補領域が存在するか否かを判断する。この判断の結果、部位領域と対の前腕であると推定できる第二部位の候補領域が存在しない場合、特徴量修正部140は、上述した固有特徴量の修正を行う。
以下、特徴量判定処理の具体例について説明する。
特徴量修正部140は、類似度の算出を行うにあたり、例えば、公知の技術であるコサイン類似度を用いるものとして説明するが、コサイン類似度に限定されない。コサイン類似度は、多次元の変数をベクトルと考え、ベクトルの向きが一致している時に最大値の1をとり、直交ならば0、向きが逆ならば最小値の−1をとる。特徴量修正部140が用いるコサイン類似度の数式(3)を以下に示す。
Figure 0005898014
なお、数式(3)において、各値は、以下の通りである。kは、特徴量のビン数を示す。xiは、部位領域の特徴量のi番目のビンの値を示す。yiは、第二部位の候補領域の特徴量のi番目のビンの値を示す。
特徴量修正部140は、部位領域901と第二部位の候補領域902のペアごとに、コサイン類似度を算出する。そして、特徴量修正部140は、ペアごとに、算出したコサイン類似度に基づいて、第二部位の候補領域902が部位領域901と似た特徴量を持っているか否かを判定する。ここで、特徴量修正部140は、コサイン類似度の値が最も大きい第二部位の候補領域902を、部位領域901の対となる候補領域として抽出してもよい。
このように、姿勢推定装置100は、人340に共通の形状を示す情報に基づいて抽出した第二部位の候補領域902のうち、部位の可能性が高い第二部位の候補領域902を特定する。そして、姿勢推定装置100は、個別の人の部位に特有な情報を示す特徴量を用いて、部位領域901と特定した第二部位の候補領域902との類似度と、部位領域901と他の第二部位の候補領域902との類似度と、を比較する。これにより、姿勢推定装置100は、第二部位の候補領域902が複数ある場合にも、精度よく対となる部位を推定することができる。
以上、本開示の姿勢推定装置は、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定装置であって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する候補領域抽出部と、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする部位領域抽出部と、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する特徴量算出部と、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する特徴量修正部と、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する判定部と、を備える。
また、本開示の姿勢推定装置において、前記特徴量修正部は、前記第1候補領域の固有特徴量と前記第2候補領域の固有特徴量との類似度を算出し、前記算出した類似度に基づいて、前記第1候補領域と対になると推定できる前記第2候補領域が存在するか否かを判断し、前記判断の結果、前記第1候補領域と対になると推定できる前記第2候補領域が存在しない場合、前記一方の候補領域の固有特徴量の修正を行う。
また、本開示の姿勢推定装置において、前記特徴量修正部は、前記第1候補領域の固有特徴量を、前記第2候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する。
また、本開示の姿勢推定装置において、前記特徴量修正部は、前記第2候補領域の長軸と楕円周との交点として、基準点からの距離が短い第1交点と、前記基準点からの距離が長い第2交点とを抽出し、他の部位が存在する可能性のある領域に前記第1交点および前記第2交点が含まれるか否かに基づいて、前記第2候補領域が前記他の部位に遮蔽されている可能性を判断し、遮蔽されている可能性がある場合、前記第1候補領域の一部を抽出し、抽出した前記第1候補領域の一部について、固有特徴量の算出を行う。
また、本開示の姿勢推定装置において、前記特徴量修正部は、前記第1候補領域と前記第2候補領域とが為す角度が0度であるか否かを判断し、前記角度が0度ではない場合、前記角度を用いて、前記第1候補領域の一部または全部を回転させる。
また、本開示の姿勢推定装置において、前記特徴量修正部は、前記第1候補領域の長軸の長さと前記第2候補領域の長軸の長さとを比較し、前記長軸の長さの差が所定の値より小さい場合、または、前記長軸の長さが等しい場合、前記第1候補領域の長軸の長さに対する前記第2候補領域の長軸の長さの比率に合わせて、前記第1候補領域を縮小し、縮小した前記第1候補領域について、固有特徴量の算出を行う。
また、本開示の姿勢推定装置において、前記候補領域抽出部は、前記対となる部位の特性について予め定められた制約情報に基づいて、前記複数の候補領域を抽出する。
また、本開示の姿勢推定装置において、前記共通特徴量は、エッジのみ、または、エッジおよびシルエットである。
また、本開示の姿勢推定装置において、前記固有特徴量は、色およびテクスチャのうち少なくとも1つである。
本開示の姿勢推定方法は、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定方法であって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出するステップと、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とするステップと、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出するステップと、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正するステップと、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定するステップと、を有する。
本開示の姿勢推定プログラムは、対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する装置のコンピュータに実行させる姿勢推定プログラムであって、前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する処理と、前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする処理と、前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する処理と、前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する処理と、前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する処理と、を実行させる。
本発明に係る姿勢推定装置、姿勢推定方法および姿勢推定プログラムは、対となる部位を有する多関節物体の姿勢を高精度に推定することができる装置、方法およびプログラムに有用である。
100 姿勢推定装置
110 候補領域抽出部
120 部位領域抽出部
130 特徴量算出部
140 特徴量修正部
150 判定部
200 姿勢推定システム
310 撮影エリア
320 カメラ
330 床面
340 人

Claims (11)

  1. 対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定装置であって、
    前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する候補領域抽出部と、
    前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする部位領域抽出部と、
    前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する特徴量算出部と、
    前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する特徴量修正部と、
    前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する判定部と、
    を備える姿勢推定装置。
  2. 前記特徴量修正部は、
    前記第1候補領域の固有特徴量と前記第2候補領域の固有特徴量との類似度を算出し、
    前記算出した類似度に基づいて、前記第1候補領域と対になると推定できる前記第2候補領域が存在するか否かを判断し、
    前記判断の結果、前記第1候補領域と対になると推定できる前記第2候補領域が存在しない場合、前記一方の候補領域の固有特徴量の修正を行う、
    請求項1記載の姿勢推定装置。
  3. 前記特徴量修正部は、
    前記第1候補領域の固有特徴量を、前記第2候補領域の長さ、幅、および角度の少なくとも1つに基づいて修正する、
    請求項1記載の姿勢推定装置。
  4. 前記特徴量修正部は、
    前記第2候補領域の長軸と楕円周との交点として、基準点からの距離が短い第1交点と、前記基準点からの距離が長い第2交点とを抽出し、
    他の部位が存在する可能性のある領域に前記第1交点および前記第2交点が含まれるか否かに基づいて、前記第2候補領域が前記他の部位に遮蔽されている可能性を判断し、
    遮蔽されている可能性がある場合、前記第1候補領域の一部を抽出し、
    抽出した前記第1候補領域の一部について、固有特徴量の算出を行う、
    請求項1記載の姿勢推定装置。
  5. 前記特徴量修正部は、
    前記第1候補領域と前記第2候補領域とが為す角度が0度であるか否かを判断し、
    前記角度が0度ではない場合、前記角度を用いて、前記第1候補領域の一部または全部を回転させる、
    請求項1記載の姿勢推定装置。
  6. 前記特徴量修正部は、
    前記第1候補領域の長軸の長さと前記第2候補領域の長軸の長さとを比較し、
    前記長軸の長さの差が所定の値より小さい場合、または、前記長軸の長さが等しい場合、前記第1候補領域の長軸の長さに対する前記第2候補領域の長軸の長さの比率に合わせて、前記第1候補領域を縮小し、
    縮小した前記第1候補領域について、固有特徴量の算出を行う、
    請求項1記載の姿勢推定装置。
  7. 前記候補領域抽出部は、
    前記対となる部位の特性について予め定められた制約情報に基づいて、前記複数の候補領域を抽出する、
    請求項1記載の姿勢推定装置。
  8. 前記共通特徴量は、エッジのみ、または、エッジおよびシルエットである、
    請求項1記載の姿勢推定装置。
  9. 前記固有特徴量は、色およびテクスチャのうち少なくとも1つである、
    請求項1記載の姿勢推定装置。
  10. 対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する姿勢推定方法であって、
    前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出するステップと、
    前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とするステップと、
    前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出するステップと、
    前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正するステップと、
    前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定するステップと、
    を有する姿勢推定方法。
  11. 対となる部位を有する多関節物体の全部または一部を含む画像に基づいて、前記対となる部位を推定する装置のコンピュータに実行させる姿勢推定プログラムであって、
    前記画像から、前記対となる部位について不特定多数の多関節物体に共通する形状の特徴を示す共通特徴量を用いて、前記対となる部位の候補領域を複数抽出する処理と、
    前記複数の候補領域から、前記対となる部位である尤度が最大である第1候補領域を抽出し、前記第1候補領域以外を第2候補領域とする処理と、
    前記第1候補領域および前記第2候補領域のそれぞれについて、前記対となる部位について推定対象の多関節物体に固有の特徴を示す固有特徴量を算出する処理と、
    前記第1候補領域および前記第2候補領域のうち、一方の候補領域の固有特徴量を、他方の候補領域の長さ、幅、および角度のうち少なくとも1つに基づいて修正する処理と、
    前記修正した固有特徴量と、前記他方の候補領域の固有特徴量との類似度に基づいて、前記第1候補領域と前記第2候補領域とが前記対となる部位であるか否かを判定する処理と、
    を実行させる姿勢推定プログラム。
JP2012165671A 2012-07-26 2012-07-26 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム Active JP5898014B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012165671A JP5898014B2 (ja) 2012-07-26 2012-07-26 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム
PCT/JP2013/003509 WO2014017006A1 (ja) 2012-07-26 2013-06-04 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム
CN201380039239.3A CN104487999B (zh) 2012-07-26 2013-06-04 姿势估计装置和姿势估计方法
US14/413,814 US9576191B2 (en) 2012-07-26 2013-06-04 Posture estimation device, posture estimation method, and posture estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012165671A JP5898014B2 (ja) 2012-07-26 2012-07-26 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム

Publications (2)

Publication Number Publication Date
JP2014026429A JP2014026429A (ja) 2014-02-06
JP5898014B2 true JP5898014B2 (ja) 2016-04-06

Family

ID=49996834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012165671A Active JP5898014B2 (ja) 2012-07-26 2012-07-26 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム

Country Status (4)

Country Link
US (1) US9576191B2 (ja)
JP (1) JP5898014B2 (ja)
CN (1) CN104487999B (ja)
WO (1) WO2014017006A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013011644A1 (ja) * 2011-07-15 2013-01-24 パナソニック株式会社 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム
JP6728865B2 (ja) * 2016-03-25 2020-07-22 富士ゼロックス株式会社 手上げ検出装置及び手上げ検出プログラム
JP6563873B2 (ja) * 2016-08-02 2019-08-21 トヨタ自動車株式会社 向き判別装置、向き判別方法
CN110621451B (zh) 2017-04-04 2021-07-06 牧今科技 信息处理装置、拾取系统、物流系统、程序以及信息处理方法
CN110520259B (zh) 2017-04-04 2021-09-21 牧今科技 控制装置、拾取系统、物流系统、存储介质以及控制方法
CN110494259B (zh) * 2017-04-04 2020-11-10 牧今科技 控制装置、拾取系统、物流系统、程序、控制方法以及生产方法
JP6258556B1 (ja) 2017-04-04 2018-01-10 株式会社Mujin 制御装置、ピッキングシステム、物流システム、プログラム、制御方法、及び、生産方法
WO2018185858A1 (ja) 2017-04-04 2018-10-11 株式会社Mujin 制御装置、ピッキングシステム、物流システム、プログラム、制御方法、及び、生産方法
DE102017216953A1 (de) * 2017-09-25 2019-03-28 Siemens Healthcare Gmbh Anzeige eines mit einem realen Objekt verknüpften virtuellen Objekts in einer Augmented-Reality-Anzeigevorrichtung
JP7210890B2 (ja) * 2018-03-29 2023-01-24 株式会社リコー 行動認識装置、行動認識方法、そのプログラム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体
JP7196645B2 (ja) * 2019-01-31 2022-12-27 コニカミノルタ株式会社 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
CN110427890B (zh) * 2019-08-05 2021-05-11 华侨大学 基于深度级联网络和质心分化编码的多人姿态估计方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3400961B2 (ja) 1999-09-27 2003-04-28 株式会社国際電気通信基礎技術研究所 人物像の姿勢推定装置および人物像の姿勢推定プログラムを記録した記録媒体
JP4492036B2 (ja) * 2003-04-28 2010-06-30 ソニー株式会社 画像認識装置及び方法、並びにロボット装置
JP2005339100A (ja) 2004-05-26 2005-12-08 Advanced Telecommunication Research Institute International 身体動作解析装置
US7317836B2 (en) * 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
JP2007199864A (ja) * 2006-01-24 2007-08-09 Matsushita Electric Ind Co Ltd 画像列生成方法および画像列生成装置
US8023726B2 (en) * 2006-11-10 2011-09-20 University Of Maryland Method and system for markerless motion capture using multiple cameras
JP2009075868A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム
CN102279979A (zh) * 2010-06-12 2011-12-14 陈姝 利用骨骼约束计算透视投影成像模型中比例因子的方法
WO2012046392A1 (ja) * 2010-10-08 2012-04-12 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
CN103210421B (zh) * 2010-12-09 2016-03-02 松下电器产业株式会社 物体检测装置及物体检测方法
JP5837508B2 (ja) * 2010-12-09 2015-12-24 パナソニック株式会社 姿勢状態推定装置および姿勢状態推定方法

Also Published As

Publication number Publication date
JP2014026429A (ja) 2014-02-06
US20150169947A1 (en) 2015-06-18
CN104487999A (zh) 2015-04-01
WO2014017006A1 (ja) 2014-01-30
US9576191B2 (en) 2017-02-21
CN104487999B (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
JP5898014B2 (ja) 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム
US11501508B2 (en) Parameterized model of 2D articulated human shape
JP5877053B2 (ja) 姿勢推定装置および姿勢推定方法
US10600207B2 (en) Posture state estimation apparatus and posture state estimation method
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
US9968845B2 (en) Image processing device and image processing method, and program
US11087169B2 (en) Image processing apparatus that identifies object and method therefor
EP2893479B1 (en) System and method for deriving accurate body size measures from a sequence of 2d images
US9031286B2 (en) Object detection device and object detection method
JP5671281B2 (ja) 位置姿勢計測装置、位置姿勢計測装置の制御方法及びプログラム
JP5801237B2 (ja) 部位推定装置、部位推定方法、および部位推定プログラム
US9141873B2 (en) Apparatus for measuring three-dimensional position, method thereof, and program
JP4938748B2 (ja) 画像認識装置及びプログラム
JP6410231B2 (ja) 位置合わせ装置、位置合わせ方法及び位置合わせ用コンピュータプログラム
GB2509783A (en) System and method for foot tracking
Nakajima et al. Depth-based gait feature representation
Shinmura et al. Estimation of Human Orientation using Coaxial RGB-Depth Images.
JP6810442B2 (ja) カメラアセンブリ、そのカメラアセンブリを用いる手指形状検出システム、そのカメラアセンブリを用いる手指形状検出方法、その検出方法を実施するプログラム、及び、そのプログラムの記憶媒体
CN108694348B (zh) 一种基于自然特征的跟踪注册方法及装置
Liem et al. Coupled person orientation estimation and appearance modeling using spherical harmonics
JPWO2020026677A1 (ja) 検出装置、処理装置、検出方法、及び処理プログラム
Koniarski Augmented reality using optical flow
JP7374401B1 (ja) 人物相関判定装置、人物相関判定方法および人物相関判定プログラム
Kopaczka et al. Robust Statistics for Feature-based Active Appearance Models.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160303

R151 Written notification of patent or utility model registration

Ref document number: 5898014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151