JP2004054376A - Method and device for estimating group attribute - Google Patents

Method and device for estimating group attribute Download PDF

Info

Publication number
JP2004054376A
JP2004054376A JP2002207889A JP2002207889A JP2004054376A JP 2004054376 A JP2004054376 A JP 2004054376A JP 2002207889 A JP2002207889 A JP 2002207889A JP 2002207889 A JP2002207889 A JP 2002207889A JP 2004054376 A JP2004054376 A JP 2004054376A
Authority
JP
Japan
Prior art keywords
attribute
person
estimated
scene image
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002207889A
Other languages
Japanese (ja)
Other versions
JP4198951B2 (en
Inventor
Hitoshi Hongo
本郷 仁志
Original Assignee
Hitoshi Hongo
Japan Science & Technology Corp
Softopia Japan Foundation
本郷 仁志
科学技術振興事業団
財団法人ソフトピアジャパン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitoshi Hongo, Japan Science & Technology Corp, Softopia Japan Foundation, 本郷 仁志, 科学技術振興事業団, 財団法人ソフトピアジャパン filed Critical Hitoshi Hongo
Priority to JP2002207889A priority Critical patent/JP4198951B2/en
Publication of JP2004054376A publication Critical patent/JP2004054376A/en
Application granted granted Critical
Publication of JP4198951B2 publication Critical patent/JP4198951B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To estimate the group attribute of a group comprising a plurality of persons from a scene image in which the plurality of persons are imaged. <P>SOLUTION: A person extracting processing extracting customers imaged in a scene image inside a store is performed. Then, a group estimation processing estimating a plurality of customers forming the same group from a plurality of extracted customers is performed using the scene image data. Then, a person attribute estimation processing estimating the person attribute of every customer estimated to form the same group using the scene image is performed. Finally, based on the person attribute estimated for every customer, group attribute estimation processing estimating a group attribute is performed. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、複数の人物が撮像された場面画像データから、複数の人物によって形成されるグループのグループ属性を推定するグループ属性推定方法及びグループ属性推定装置に関するものである。
【0002】
【従来の技術】
従来、例えばコンビニエンス・ストア等の店舗では、商品を購入した顧客について、その性別・年代等の属性を店員が目視によって推定し、その商品に対する購入情報として蓄積・利用することが知られている。このような顧客の属性情報を、顧客が撮像された画像データを画像処理することによって自動で取得する試みが提案されている。
【0003】
例えば特開平2000−149105号広報には、商品購入者を撮像し、その顔画像データを解析して商品購入者の性別や年代を推定する自動販売機が提案されている。その手法としては、予め性別・年代別の平均顔データを用意しておき、購入者の顔画像データに最も類似する平均顔データの性別・年代を購入者の性別・年代として推定する方法を用いることが記載されている。
【0004】
また、特開2001−218020号広報には、未知人物の顔画像データから唇部分の領域を抽出し、その唇部分の色味に基づいて未知人物の性別を推定する画像処理方法が提案されている。
【0005】
また、特開平6−333023号広報には、顔の縦横比、目の高さ、しわの本数、髪際の後退度等の特徴量に基づいて、対象人物の年齢を推定する方法が提案されている。
【0006】
【発明が解決しようとする課題】
ところで、商品の購入情報としては、複数の顧客で形成されたグループの、例えば親子、友人、カップル等といったグループ属性との関連が重要である。
【0007】
しかしながら、上記の各公報に開示されている手法は、人物毎の人物属性を推定しようとするものであり、複数の人物によって形成されるグループのグループ属性を自動で推定するものではない。従って、上記の各手法を用いる限りでは、商品の購入情報をより高度に蓄積・利用することができない問題がある。
【0008】
本発明は、上記課題を解決するためになされたものであって、その目的は、複数の人物が撮像された場面画像から、複数の人物によって形成されるグループのグループ属性を推定することができるグループ属性推定方法及びグループ属性推定装置を提供することにある。
【0009】
【課題を解決するための手段】
上記課題を解決するため、請求項1に記載の発明は、人物が通過する場所が撮像された場面画像データから、その場面画像に撮像された人物を抽出する人物抽出処理と、前記場面画像データを用い、前記抽出された複数の人物から、同一のグループを形成する複数の人物を推定するグループ推定処理と、前記場面画像データを用い、同一のグループを形成すると推定された人物毎にその人物属性を推定する人物属性推定処理と、前記人物毎に推定された人物属性に基づき、前記グループのグループ属性を判定するグループ属性判定処理とを行うことを特徴とする。
【0010】
請求項1に記載の発明によれば、先ず、場面画像データに撮像された複数の人物から、同一のグループを形成する複数の人物が推定される。そして、この複数の人物毎の人物属性から、そのグループのグループ属性が判定される。従って、複数の人物が撮像された場面画像から、複数の人物によって形成されるグループのグループ属性を推定することができる。
【0011】
請求項2に記載の発明は、請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する複数の人物を推定することを特徴とする。ここで、用いる場面画像データは、ある時刻に撮像された1つのデータに限らず、ある時間間隔隔てて撮像された複数の場面画像データであってもよい。
【0012】
請求項2に記載の発明には、請求項1に記載の発明の作用に加えて次の作用がある。人物同士の距離間隔がある距離以下であれば、その人物同士が同一のグループを形成する可能性があると推定できる。このため、場面画像から推定可能な、人物同士の距離間隔に基づいて、同一のグループを形成する複数の人物を推定することができる。
【0013】
請求項3に記載の発明は、請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の場面画像上での重なり状態を検出し、この重なり状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする。
【0014】
請求項3に記載の発明には、請求項1に記載の発明の作用に加えて次の作用がある。人物同士の重なり程度が大きいときには、その人物同士が手を繋いだり、あるいは、腕を組んでいる可能性が高い状態であって、この人物同士の親密度が高いと推定できる。このため、場面画像から推定可能な、人物同士の重なり状態に基づいて、同一のグループを形成する複数の顧客を推定することができる。
【0015】
請求項4に記載の発明は、請求項1に記載の発明において、前記グループ推定処理では、時間を隔てて撮像された前記場面画像データを用い、前記抽出された人物同士の実空間における距離間隔の変化状態を検出し、この変化状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする。
【0016】
請求項4に記載の発明には、請求項1に記載の発明の作用に加えて次の作用がある。人物同士の実空間における距離間隔がある距離以下である状態が継続するときには、その人物同士がいっしょに行動している状態であって、この人物同士の親密度が高いと推定できる。このため、時間を隔てて撮像された場面画像から推定可能な、人物同士の距離間隔の変化状態に基づいて、同一のグループを形成する複数の人物を推定できる。
【0017】
請求項5に記載の発明は、請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の顔向き合い状態を検出し、この顔向き合い状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする。
【0018】
請求項5に記載の発明には、請求項1に記載の発明の作用に加えて次の作用がある。人物同士が互いに顔を向き合わせているときには、その人物同士がいっしょに会話をしている状態であって、この人物同士の親密度が高いと推定できる。このため、場面画像から推定可能な、人物同士の顔向き合い状態に基づいて、同一のグループを形成する複数の人物を推定することができる。
【0019】
請求項6に記載の発明は、請求項1〜請求項5のいずれか一項に記載の発明において、前記人物属性推定処理では、属性が異なる複数の参照人物の顔を所定の異なる複数の顔向き方向で撮像した参照顔画像毎に取得され、かつ、その参照人物の属性が関連付けられた参照特徴量と、前記場面画像を用いて前記人物毎の顔画像から取得された対象特徴量とから該人物の属性を推定することを特徴とする。
【0020】
請求項6に記載の発明には、請求項1〜請求項5のいずれか一項に記載の発明の作用に加えて次の作用がある。人物の顔画像から取得された対象特徴量は、属性が異なる複数の参照人物の顔を所定の異なる複数の顔向き方向で撮像した参照顔画像毎に取得された参照特徴量の内、その顔向き方向に近い顔向き方向の範囲で撮像された参照人物の参照顔画像から取得された参照特徴量に類似する。さらに、対象特徴量は、その顔向き方向に近い顔向き方向の範囲で撮像された参照顔画像の参照特徴量の内、人物の属性に近い属性を備えた参照人物の参照顔画像から取得された参照特徴量に類似する。このため、先ず、全ての参照特徴量の中から、人物の顔画像の対象特徴量に類似する参照特徴量を判別することによって人物の顔画像が撮像された顔向き方向が推定される。そして、推定された顔向き方向の範囲で撮像された参照顔画像の参照特徴量の中から、人物の顔画像の対象特徴量に類似する参照特徴量を判別することによって、人物の属性が推定される。従って、場面画像から抽出された人物の顔画像から、その人物の人物属性が推定される。
【0021】
請求項7に記載の発明は、請求項1〜請求項6のいずれか一項に記載の発明において、前記人物属性は、性別及び年齢の少なくともいずれか一方であることを特徴とする。
【0022】
請求項7に記載の発明には、請求項1〜請求項6のいずれか一項に記載の発明の作用に加えて次の作用がある。同一のグループを形成する複数の人物毎の性別及び年齢の少なくともいずれか一方から、そのグループのグループ属性が推定される。このため、グループを形成する人物の性別及び年齢の少なくともいずれか一方によって特徴付けられるグループ属性がより高い精度で推定できる。
【0023】
請求項8に記載の発明は、請求項1〜請求項7のいずれか一項に記載の発明において、前記グループ属性は、親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫のいずれかであることを特徴とする。
【0024】
請求項8に記載の発明には、請求項1〜請求項7のいずれか一項に記載の発明の作用に加えて次の作用がある。同一のグループを形成する複数の人物毎の属性から、そのグループのグループ属性が親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫のいずれかであることが推定される。
【0025】
請求項9に記載の発明は、人物が通過する場所が撮像された場面画像データから、その場面画像に撮像された人物を抽出する人物抽出手段と、前記場面画像データを用い、前記抽出された複数の人物から、同一のグループを形成する複数の人物を推定するグループ推定手段と、前記場面画像データを用い、同一のグループを形成すると推定された人物毎にその人物属性を推定する人物属性推定手段と、前記人物毎に推定された属性に基づき、前記グループのグループ属性を判定するグループ属性判定手段とを備えたことを特徴とする。
【0026】
請求項9に記載の発明には、請求項1に記載の発明と同様の作用がある。
【0027】
【発明の実施の形態】
(第1実施形態)
以下、本発明を、店舗内で複数の顧客が形成するグループのグループ属性を推定するグループ属性推定方法に具体化した第1実施形態を図1〜図8に従って説明する。
【0028】
本実施形態のグループ属性推定装置は、店舗内において顧客が通過する場所が撮像された場面画像から複数の顧客を検出し、この複数の顧客から同一のグループを形成する複数の顧客を推定する。そして、同一のグループを形成する複数の顧客毎にその人物属性を推定し、この各顧客の人物属性に基づいてそのグループのグループ属性を推定する。本実施形態における人物属性は性別及び年齢であり、同じくグループ属性は親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫である。
【0029】
グループ属性推定装置が推定したグループの属性情報は、例えば、このグループの顧客が購入した商品の販売情報として蓄積され、商品販売戦略に利用される。
【0030】
図2に示すように、グループ属性推定装置10は、ビデオカメラ11、画像処理装置12とからなる。
ビデオカメラ11は、店舗内の、顧客が通過する場所を撮像範囲とする場面画像をカラーで撮像する。
【0031】
画像処理装置12は、信号処理装置13及びコンピュータ14等からなる。
本実施形態では、ビデオカメラ11が撮像手段であり、信号処理装置13及びコンピュータ14が画像取得手段である。また、コンピュータ14が、人物抽出手段、グループ推定手段、人物属性推定手段及びグループ属性判定手段である。
【0032】
コンピュータ14は、ビデオカメラ11を撮像制御して場面画像を撮像し、所定時間が経過する毎に、そのときビデオカメラ11が撮像する場面画像を取得する。コンピュータ14は、取得した場面画像に撮像された複数の顧客によって形成されるグループを推定し、このグループのグループ属性を推定するグループ属性推定処理を行う。
【0033】
(グループ属性推定処理)
次に、画像処理装置が行うグループ属性推定処理の概要を説明する。
グループ属性推定処理は、図1に示すように、画像取得処理、人物抽出処理、グループ推定処理、人物属性推定処理、グループ属性判定処理及び結果出力処理からなる。
【0034】
先ず、画像取得処理として、所定時間経過毎に、ビデオカメラ11がそのとき撮像する場面画像の場面画像データ(以下、単に場面画像という。)を取得する(S100)。
【0035】
次に、人物抽出処理として、取得された場面画像から、画像処理を用いて複数の顧客を抽出する(S200)。
次に、グループ推定処理として、抽出された複数の顧客から、同一のグループを形成する複数の顧客を推定する(S300)。
【0036】
次に、人物属性推定処理として、同一のグループを形成する複数の顧客毎に、その顧客の人物属性を推定する(S400)。本実施形態で推定する人物属性は、性別及び年齢である。
【0037】
次に、グループ属性判定処理として、顧客毎に推定された人物属性に基づき、そのグループのグループ属性を推定する(S500)。本実施形態で推定するグループ属性は、親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫である。
【0038】
最後に、結果出力処理として、同一のグループを形成する複数の顧客毎の人物属性と、そのグループのグループ属性とを対応させて出力する(S600)。
(人物抽出処理)
次に、人物抽出処理について詳述する。
【0039】
人物抽出処理では、場面画像データから、画像処理によって、顧客の全身に対応する画像領域である人物領域を求め、また、顧客の顔部分に対応する画像領域である顔領域を抽出する。そして、人物領域が抽出され、かつ、その人物領域内に顔領域が抽出できたときに、1人の顧客として認識する。
【0040】
人物領域を検出するには、図3に示すように、先ず、顧客がいない状態で予め撮像されている背景画像と、新たに取得された場面画像とから背景差分画像を生成する(S210)。
【0041】
次に、この背景差分画像から、所定の閾値により背景領域と背景領域以外の検出領域を分離する。なお、検出領域に対して膨張縮小処理を施すことで、ノイズ除去および検出領域の安定化を図る(S220)。
【0042】
最後に、この検出領域から、その面積が所定の判定値を超える画像領域を抽出し、この画像領域を人物領域とする(S230)。
また、顔領域を検出するには、色情報を用いた公知の肌色基準値による手法を用いる。肌色基準値による手法としては、均等知覚色空間の1つであるCIE−L*U*V*表色系の他、rgb,HSV,CIE−Lav,CIE−xyx表色系等を用いてもよい。
【0043】
先ず、場面画像の全領域に亘り、U,V座標値による2次元ヒストグラムを求め、予め設定された肌色有効範囲内のピーク値(度数が最大の値)を肌色基準値とする(S240)。
【0044】
次に、公知の判別分析法を用いて、肌色基準値からの色差に対する閾値を決定し、この閾値に基づいて場面画像を肌色領域と非肌色領域とに2値化する(S250)。
【0045】
最後に、抽出された複数の肌色領域毎に、その肌色領域を形成する画素数(面積)を求め、その画素数が所定の判定値以上である肌色領域を顔領域とする(S260)。
【0046】
従って、この人物抽出処理では、場面画像に撮像されている顧客であっても、その顔がある大きさで場面画像に撮像されていない場合には、顧客として抽出されない。
【0047】
(グループ推定処理)
次に、グループ推定処理について詳述する。
グループ推定処理は、図4に示すように、距離間隔推定処理及び重なり状態推定処理からなる。
【0048】
先ず、距離間隔推定処理として、場面画像を用いて、人物抽出処理で抽出された複数の顧客同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する可能性がある複数の顧客を選別する(S310)。
【0049】
次に、重なり状態推定処理として、場面画像を用い、距離間隔推定処理で選別された顧客同士の場面画像上での重なり状態を検出し、この重なり状態に基づき、同一のグループを形成する複数の顧客を最終的に推定する(S320)。
【0050】
(距離間隔推定処理)
次に、距離間隔推定処理について詳述する。
距離間隔推定処理では、図5に示すように、先ず、場面画像から抽出された人物領域毎にその重心位置を求め、この重心位置間の場面画像上での重心間距離を求める(S311)。
【0051】
次に、この重心間距離から、予め記憶されているテーブルを用いて実空間における人物同士の距離間隔を算出する(S312)。
最後に、算出された距離間隔が予め設定されている距離判定値以下である顧客同士を同一のグループを形成する顧客であると判定することにより、同一のグループを形成する可能性がある複数の顧客として推定する(S313)。
【0052】
(重なり状態推定処理)
次に、重なり状態推定処理について詳述する。
重なり状態推定処理では、図6に示すように、先ず、同一のグループを形成する可能性がある複数の顧客について、人物抽出処理で検出した人物領域から、各顧客に対応する人物領域の垂直方向での画素数の累積ヒストグラムを作成する(S321)。
【0053】
そして、この累積ヒストグラムから、所定の閾値以上の領域を人物領域としてカウントし、顔領域の検出より得られた人数と比較することで、顧客同士が寄り添っている、または手をつないでいる可能性があるか否かを判定する。
【0054】
例えば、図8(a)は、夫、妻及び子供からなる3人の親子が撮像された場面画像から生成された2値画像を示す。
この親子は、夫と妻とが寄り添い、又、夫と子供とが手を繋いでいる。
【0055】
この2値画像の人物領域から得られる累積ヒストグラムは、図8(b)に示すように、夫と妻との人物領域が明確に分離されず、また、夫と子供との人物領域は、繋がれた手の領域が重なった状態となる。しかし、カメラアングル、ノイズなどにより顧客同士が手をつないでいなくても、累積ヒストグラム上で接触していると判断される場合がある。
【0056】
そこで、次に、隣り合う人物領域の範囲で、画素の累積数が「0」でなく、かつ、所定の閾値未満の領域を抽出し、この画像領域を腕候補領域とする(S322)。
【0057】
最後に、この腕候補領域に対し、人物抽出処理と同様の手法によって、肌色領域が含まれているか否かを判定し、肌色領域が含まれていたときには、人物同士が手を繋いでいると推定する(S323)。
【0058】
そして、手を繋いでいる顧客同士が同一のグループを形成していると最終的に推定する。
(人物属性推定処理)
次に、人物属性推定処理について詳述する。
【0059】
人物属性推定処理では、性別及び年齢が異なる不特定多数の参照人物の顔を所定の異なる複数の顔向き方向で撮像した参照顔画像毎に取得され、かつ、その参照人物の性別及び年齢が関連付けられた参照特徴量と、場面画像を用いて顧客毎の顔画像から取得した対象特徴量とから該顧客の性別及び年齢を推定する。
【0060】
参照人物の参照特徴量は、学習データとしてコンピュータ14に予め記憶されている。
(学習データ)
この学習データは、グループ属性推定装置10とは異なるシステムにより、顔画像取得処理、顔領域検出処理及び特徴ベクトル作成処理によって生成される。
【0061】
先ず、顔画像取得処理では、参照人物毎に、予め設定された複数の異なる顔向き方向で撮像された参照顔画像を取得する。
次に、顔領域検出処理では、参照顔画像毎に、その参照人物の顔領域を検出する。これは、人物抽出処理で用いる手法によって検出することができる。
【0062】
次に、特徴ベクトル作成行程では、顔領域が検出された参照顔画像毎に、その参照顔領域の特徴量を表した参照特徴ベクトル(参照特徴量)を作成する。これは、以下のように行うことができる。先ず、参照顔画像の顔領域における濃淡勾配から4方向のベクトル場を求め、この各方向毎に分割した方向エッジ画像を得る。次に、4つの方向エッジ画像を顔領域で正規化した後、それぞれ8×8に低解像度化する。最後に、参照顔画像毎に、4つの方向エッジ画像について、それぞれ8×8に低解像度化した画像の濃淡値を特徴量として抽出した256次元の特徴ベクトル(以下、参照特徴ベクトルという。)とする。
【0063】
この参照特徴ベクトルは、その参照顔画像が撮像された参照人物、撮像された顔向き方向、その参照人物の性別及び年齢に対応された学習データとしてコンピュータ14に記憶される。
【0064】
(人物属性推定処理)
人物属性推定処理は、特徴ベクトル作成処理、顔向き推定処理、性別推定処理及び年齢推定処理からなる。
【0065】
先ず、特徴ベクトル作成処理では、同一のグループを形成する可能性がある顧客毎に、人物抽出処理で抽出したその顔領域に対応する場面画像の領域である顔画像から、その顧客の顔画像に対する対象特徴ベクトル(対象特徴量)を取得する(S410)。この対象特徴ベクトルは、参照人物から参照特徴ベクトルを取得した方法と同じ手法で取得される。
【0066】
次に、顔向き推定処理では、対象特徴ベクトルが取得された顧客毎に、学習データの全ての参照特徴ベクトルと、その顧客の対象特徴ベクトルとを用いて、その顧客の顔画像が撮像された顔向き方向が含まれる可能性が高い顔向き方向の範囲を推定する(S420)。
【0067】
これは、線形判別分析によって異なる顔向き方向の範囲毎にクラス化された顔向き判別空間に対象特徴ベクトルを線形写像し、この顔向き方向判別空間において対象特徴ベクトルが最も類似するクラスの顔向き方向の範囲を識別結果とする方法で推定することができる。
【0068】
次に、性別推定処理では、顔向き方向の範囲が推定された顧客毎に、推定された顔向き方向の範囲で撮像された全ての参照顔画像から取得された参照特徴ベクトルと、その顧客の対象特徴ベクトルとを用いて、その顧客の性別を推定する(S430)。
【0069】
これは、線形判別分析によって性別毎にクラス化された性別判別空間に対象特徴ベクトルを線形写像し、この性別判別空間において対象特徴ベクトルが最も類似するクラスの性別を識別結果とする方法で推定することができる。
【0070】
次に、年齢推定処理では、性別が推定された顧客毎に、推定された顔向き方向の範囲で取得された参照特徴ベクトルの内、推定された性別の参照人物から取得された全ての参照特徴ベクトルと、その顧客の対象特徴ベクトルとを用いて、その顧客の年齢を推定する(S440)。
【0071】
これは、線形判別分析によって異なる年齢毎にクラス化された年齢判別空間に対象特徴ベクトルを線形写像し、この年齢判別空間において対象特徴ベクトルが最も類似するクラスの年齢を識別結果とする方法で推定することができる。
【0072】
(グループ属性判定処理)
次に、グループ属性判定処理について説明する。
グループ属性判定処理では、あるグループを形成する顧客の人数と、各顧客の性別及び年齢とに基づいて、そのグループ属性を推定する。
【0073】
例えば、グループを形成する顧客の人数が2〜4人であり、グループが20歳以上かつ40歳未満の年齢差がある2つの顧客のサブグループに分割でき、かつ、年齢が高い方のサブグループを形成する顧客の人数が1人又は2人であるときには、そのグループ属性が親子であると推定する。
【0074】
また、グループを形成する顧客の人数が2〜4人であり、グループが60歳以上の年齢差がある2つの顧客のサブグループに分割でき、かつ、年齢が高い方のサブグループを形成する顧客の人数が1人又は2人であるときには、そのグループ属性が祖父及び祖母の少なくとも一方と孫であると推定する。
【0075】
また、グループを形成する顧客の人数が2人であり、性別が男女であり、かつ、その年齢差が10歳以内であるときには、そのグループ属性がカップル、夫婦、あるいは友達のいずれかであると推定する。
【0076】
さらに、カップル、夫婦あるいは友達のいずれかであると推定したグループを形成する2人の顧客同士が重なり状態推定処理において互いに手を繋いでいると推定されているときには、このグループ属性が一組のカップル又は夫婦であると推定する。
【0077】
また、グループを形成する顧客の人数が2人又は3人であり、性別が男のみ又は女のみであり、かつ、その年齢差が10歳以内であるときには、そのグループ属性が兄弟、姉妹あるいは友達のいずれかであると推定する。
【0078】
さらに、グループを形成する顧客の人数が3人以上あり、性別が男のみ又は女のみであり、かつ、その年齢差が5歳以内であるときには、そのグループ属性が友達であると推定する。
【0079】
このグループ属性判定処理における各グループ属性の推定の結果は、確率で表してもよい。例えば、友人の確率80%となる。
以上詳述した本実施形態は、下記(1)〜(6)に記載した各効果を有する。
【0080】
(1) 本実施形態では、先ず、店舗内が撮像された場面画像から、その場面画像に撮像された顧客(人物)を抽出する人物抽出処理を行う。次に、場面画像データを用い、抽出された複数の顧客から同一のグループを形成する複数の顧客を推定するグループ推定処理を行う。次に、場面画像を用いて、同一のグループを形成すると推定された顧客毎に、その人物属性を推定する人物属性推定処理を行う。最後に、顧客毎に推定された人物属性に基づき、グループ属性を推定するグループ属性推定処理を行う。
【0081】
このため、先ず、場面画像に撮像された複数の顧客から、同一のグループを形成する複数の顧客が推定される。そして、この複数の顧客毎の人物属性から、そのグループのグループ属性が推定される。従って、複数の顧客が撮像された場面画像から、複数の顧客によって形成されるグループのグループ属性を推定することができる。
【0082】
(2) 又、本実施形態では、グループ推定処理として、場面画像を用いて、抽出された顧客同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する可能性がある複数の顧客を推定する距離間隔推定処理を行う。このため、場面画像から推定可能な、顧客同士の距離間隔に基づいて、同一のグループを形成する複数の顧客を推定することができる。
【0083】
(3) 又、本実施形態では、グループ推定処理として、場面画像を用いて、抽出された顧客同士の場面画像上での重なり状態を検出し、この重なり状態に基づき、同一のグループを形成する複数の顧客を推定する。このため、場面画像から推定可能な、顧客同士の重なり状態に基づいて、同一のグループを形成する複数の顧客を推定することができる。
【0084】
また、距離間隔推定処理で推定された顧客に対して行うので、同一のグループに属するか否かをより高い精度で推定することができる。
(4) 又、本実施形態では、人物属性推定処理として、性別及び年齢(属性)が異なる複数の参照人物の顔画像から取得された参照特徴量(参照特徴ベクトル)と、顧客の顔画像から取得された対象特徴量(対象特徴ベクトル)とから該顧客の性別及び年齢を推定する。従って、場面画像から抽出された顧客の顔画像から、その顧客の人物属性が推定される。
【0085】
(5) 又、本実施形態では、人物属性として、性別及び年齢を推定する。このため、グループを形成する顧客の性別及び年齢によって特徴付けられるグループ属性がより高い精度で推定できる。
【0086】
(6) 又、本実施形態では、グループ属性として、親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫を推定することができる。
(第2実施形態)
次に、本発明を具体化した第2実施形態を図9に従って説明する。尚、本実施形態は、前記第1実施形態における重なり状態推定処理に代えて、距離変化推定処理を行うことのみが第1実施形態と異なる。従って、第1実施形態と同じ構成については、符号を同じにしてその説明を省略し、距離変化推定処理のみについて詳述する。
【0087】
(距離変化推定処理)
距離変化推定処理について詳述する。
距離変化推定処理では、時間を隔てて撮像された場面画像を用い、同一のグループを形成する可能性がある人物同士の実空間における距離間隔を求める。そして、この距離間隔が所定値以下である状態が所定時間以上継続したときに、この人物同士が同一のグループを形成すると推定する。
【0088】
距離変化推定処理では、図9に示すように、先ず、グループ推定処理において同一のグループを形成すると推定された複数の顧客毎に、次に取得した場面画像から人物抽出処理によって抽出した人物領域の重心と、先の場面画像から抽出した人物領域の重心との重心間距離が所定値以下であるか否か判断する。
【0089】
そして、この重心距離が所定値以下のときに、この2つの場面画像から人物領域が抽出された顧客が同一人物であると推定する(S321)。
次に、先の場面画像において同一のグループを形成すると推定され、かつ、前記次の場面画像においてそれぞれ同一人物であると推定された複数の顧客について、同次の場面画像における両人物領域間の重心間距離が所定値以下であるか否かを判定する。
【0090】
そして、次の場面画像において両人物領域の重心距離が所定値以下であったときには、この顧客同士が近い距離を保っていると判断する(S322)。
次に、順次取得する場面画像から抽出する人物領域から、同一のグループを形成すると一旦推定した顧客同士が、継続して重心間距離が所定値以下である状態が所定時間を超えて継続したか否かを判断する。
【0091】
そして、顧客同士の距離間隔が所定値以下である状態が所定時間を超えて継続したときには、その顧客同士が同一のグループを形成していると最終的に推定する(S323)。
【0092】
距離変化推定処理が終了すると、その推定結果に基づき、同一のグループを形成していると推定された複数の顧客について、第1実施形態と同様に、人物属性推定処理及びグループ属性推定処理を行って、その複数の顧客によって形成されるグループのグループ属性を推定する。
【0093】
以上詳述した本実施形態は、前記第1実施形態の(1),(2),(4)〜(6)に記載した各効果に加え、下記(7)に記載した効果を有する。
(7) 本実施形態では、グループ推定処理として、時間を隔てて撮像された場面画像データを用い、抽出された顧客同士の実空間における距離間隔の変化状態を検出し、この変化状態に基づき、同一のグループを形成する複数の顧客を推定する。このため、時間を隔てて撮像された複数の場面画像から推定可能な、顧客同士の距離間隔の変化状態に基づいて、同一のグループを形成する複数の顧客を推定することができる。
【0094】
また、距離間隔推定処理で推定された顧客に対して行うので、同一のグループに属するか否かをより高い精度で推定することができる。
(第3実施形態)
次に、本発明を具体化した第3実施形態を図10及び図11に従って説明する。尚、本実施形態は、前記第1実施形態における重なり状態推定処理に代えて、顔向き合い状態推定処理を行うことのみが第1実施形態と異なる。従って、第1実施形態と同じ構成については、符号を同じにしてその説明を省略し、顔向き合い状態推定処理のみについて詳述する。
【0095】
(顔向き合い状態推定処理)
顔向き合い状態推定処理について詳述する。
顔向き合い状態推定処理では、場面画像を用い、同一のグループを形成する可能性がある顧客同士の顔向き合い状態を検出し、この顔向き合い状態に基づき、同一のグループを形成する複数の顧客を最終的に推定する。
【0096】
詳述すると、親密度推定処理は、図10に示すように、人物位置推定処理、顔向き方向推定処理及び顔向き合い状態判定処理からなる。
先ず、人物位置推定処理では、場面画像を用い、同一のグループを形成する可能性がある顧客毎に、その顧客に対応する人物領域の場面画像上の重心位置から、実空間に対応した所定の座標系における座標位置を求める(S321)。これは、予め場面画像上に設定した複数の参照位置に対し、前記座標系の座標位置を対応させておき、参照位置以外の重心位置に対応する座標位置を、複数の参照位置に対応する座標位置から求めることで行う。
【0097】
次に、顔向き方向推定処理では、座標位置が求められた顧客毎に、その顧客の顔向き方向を線形判別分析によって推定する(S322)。
次に、顔向き合い状態判定処理では、顔向き方向が推定された顧客毎に、人物位置推定処理で推定した座標位置と、その顔向き方向とから、顧客同士が顔を互いに向き合わせているか否かを判定する(S323)。
【0098】
そして、顧客同士が顔を向き合わせているときに、この顧客同士が同一のグループを形成していると最終的に推定する。
(顔向き方向推定処理)
次に、顔向き方向推定処理について詳述する。
【0099】
顔向き方向推定処理では、座標位置が求められた顧客毎に、その顧客の顔領域に対応する顔画像から取得した特徴量に最も類似する特徴量を、人物属性推定処理で用いる学習データに登録されている参照人物の参照特徴量の中から抽出する。そして、この最も類似する特徴量が取得された参照人物の参照顔画像が撮像された顔向き方向が、その顧客の顔向き方向であると推定する。
【0100】
顔向き方向推定処理は、図11に示すように、特徴ベクトル作成処理、左右顔向き推定処理及び上下顔向き推定処理からなる。
先ず、特徴ベクトル作成処理では、座標位置が求められた顧客毎に、その顧客の顔画像から、学習データと同様にして、その対象特徴ベクトルを取得する(S3221)。
【0101】
次に、左右顔向き推定処理では、顔画像の対象特徴ベクトルが取得された顧客毎に、学習データの全ての参照特徴ベクトルと、その顧客の対象特徴ベクトルとを用いて、その顧客の顔画像が撮像された顔向き方向が含まれる左右方向の顔向き範囲を推定する(S3222)。
【0102】
これは、線形判別分析によって左右方向の異なる顔向き範囲毎にクラス化された左右顔向き判別空間に対象特徴ベクトルを線形写像し、この左右顔向き判別空間において対象特徴ベクトルが最も類似するクラスの左右顔向き範囲を識別結果とする方法で推定することができる。
【0103】
次に、上下顔向き推定処理では、顔向き方向が含まれる左右方向の範囲が推定された顧客毎に、その左右方向の顔向き範囲で撮像された参照顔画像の参照特徴ベクトルと、その顧客の対象特徴ベクトルとを用いて、その顧客の顔画像が撮像された上下方向の顔向き範囲を推定する(S3223)。
【0104】
これは、線形判別分析によって上下方向の異なる顔向き範囲毎にクラス化された上下顔向き判別空間に対象特徴ベクトルを線形写像し、この上下顔向き判別空間において対象特徴ベクトルが最も類似するクラスの上下顔向き範囲を識別結果とする方法で推定することができる。
【0105】
顔向き合い状態推定処理が終了すると、その推定結果に基づき、同一のグループを形成すると推定された複数の顧客について、第1実施形態と同様に、人物属性推定処理及びグループ属性推定処理を行って、その複数の顧客によって形成されるグループのグループ属性を推定する。
【0106】
以上詳述した本実施形態は、前記第1実施形態の(1),(2),(4)〜(6)に記載した各効果の他に、下記(8)に記載した効果を有する。
(8) 本実施形態では、グループ推定処理として、場面画像データを用いて、抽出された顧客同士の顔向き合い状態を検出し、この顔向き合い状態に基づき、同一のグループを形成する複数の顧客を推定する。このため、場面画像から推定可能な、顧客同士の顔向き合い状態に基づき、同一のグループを形成する複数の顧客を推定することができる。
【0107】
また、距離間隔推定処理で推定された顧客に対して行うので、同一のグループに属するか否かをより高い精度で推定することができる。
(他の実施形態)
次に、上記第1、第2及び第3実施形態以外の実施形態を列記する。
【0108】
・ 前記第1実施形態の重なり状態推定処理で、累積ヒストグラムの閾値をより大きく設定することにより、顧客同士が腕を組んでいる状態を検出する構成とする。この場合には、腕を組む可能性があるカップルをより確実に検出できる可能性がある。
【0109】
・ 前記第1、第2及び第3実施形態の距離間隔推定処理として、時間を隔てて撮像された複数の場面画像データを用い、同一の場面画像に撮像されていない人物同士の距離間隔を推定し、この距離間隔に基づき、同一のグループを形成する可能性がある複数の顧客を推定する構成とする。この場合には、時間を隔てて撮像された複数の場面画像から推定可能な、人物同士の距離間隔に基づいて、同一のグループを形成する複数の人物を推定することができる。
【0110】
・ 前記第1、第2及び第3実施形態の人物属性推定処理として、共に場面画像から取得可能な、人物のビデオカメラ11からの距離と、人物領域の横幅とに基づいて、その顧客が大人であるか子供であるかという人物属性を推定する構成とする。そして、グループ属性推定処理において、年齢に代えて、性別に加え、大人であるか子供であるかという人物属性に基づいてグループ属性を推定する構成とする。
【0111】
・ 前記第1、第2及び第3実施形態のグループ推定処理として、人物抽出処理で抽出された顧客の人物領域について色ヒストグラムを求め、顧客同士でその分布がある所定の閾値より差がない場合は、その顧客同士が共に同じ衣服を着用していると推定する。すなわち、衣服の類似度が高いと推定する。そして、この同じ服を着た各顧客が、学生やクラブチームといったグループに属していると推定する構成とする。この場合には、学生やクラブチームを形成する複数の顧客をより高い精度で推定することができる。
【0112】
・ 前記第3実施形態の顔向き方向推定処理として、場面画像から抽出した顔部品(眼、鼻、口)の実空間上での位置関係に基づいて顔向き方向を推定する構成であってもよい。または、3D顔モデルを回転させて最もマッチした顔向き方向を推定結果とする構成であってもよい。
【0113】
・ 前記第1、第2及び第3実施形態の人物属性推定処理で、その顔画像から、その顧客が東洋人であるか西洋人であるかといった人種を人物属性として推定する構成とする。そして、グループ属性推定処理において、性別及び年齢に加え、人種を考慮してグループ属性を推定する構成とする。
【0114】
・ 前記第3実施形態の顔向き合い状態推定処理で行う人物位置推定処理で、人物位置を検出するために、場面画像を撮像するビデオカメラ11とは別に設けられた天井カメラで撮像した場面画像を用いて、人物位置を検出する構成とする。この場合には、人物位置をより高い精度で検出することが可能となり、グループ属性の推定精度の向上を図ることができる。
【0115】
・ 前記第3実施形態で、ビデオカメラ11としてステレオカメラを用いることにより、人物位置推定処理において、カメラから顧客までの距離を図ることによって、人物位置を検出する構成とする。
【0116】
(その他の技術的思想)
以下、前記各実施形態から把握される技術的思想を列記する。
(1) 請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する可能性がある複数の人物を選別する距離間隔推定処理と、前記場面画像データを用いて、前記選別された人物同士の場面画像上での重なり状態を検出し、この重なり状態に基づき、同一のグループを形成する複数の人物を最終的に推定する重なり状態推定処理とを行うことを特徴とするグループ属性推定方法。
【0117】
(2) 請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する可能性がある複数の人物を選別する距離間隔推定処理と、時間を隔てて撮像された前記場面画像データを用い、前記選別された人物同士の実空間における距離間隔の変化状態を検出し、この変化状態に基づき、同一のグループを形成する複数の人物を最終的に推定する距離変化推定処理とを行うことを特徴とするグループ属性推定方法。
【0118】
(3) 請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する可能性がある複数の人物を選別する距離間隔推定処理と、前記場面画像データを用いて、前記選別された人物同士の顔向き合い状態を検出し、この顔向き合い状態に基づき、同一のグループを形成する複数の人物を最終的に推定する顔向き合い状態推定処理とを行うことを特徴とするグループ属性推定方法。
【0119】
(4) 請求項1に記載の発明において、前記グループ推定処理では、前記場面画像データを用いて、前記抽出された人物同士が着用する衣服の類似度を求め、この服装の類似度に基づき、同一のグループを形成する複数の顧客を推定することを特徴とするグループ属性推定方法。
【0120】
(5) 請求項9に記載の発明において、前記場面画像を撮像する撮像手段(ビデオカメラ11)と、所定時間経過する毎に、前記撮像手段がそのとき撮像する場面画像を取得する画像取得手段(画像処理装置12)と、同一のグループを形成する複数の人物毎の人物属性と、そのグループのグループ属性とを対応させて出力する結果出力手段(コンピュータ14)とを備えていることを特徴とするグループ属性推定装置。
【0121】
【発明の効果】
請求項1〜請求項9に記載の発明によれば、場面画像データに撮像された複数の人物から、同一のグループを形成する複数の人物が推定され、この複数の人物毎の人物属性から、そのグループのグループ属性が判定される。従って、複数の人物が撮像された場面画像から、複数の人物によって形成されるグループのグループ属性を推定することができる。
【図面の簡単な説明】
【図1】第1実施形態のグループ属性推定処理を示すフローチャート。
【図2】グループ属性推定装置を示す模式構成図。
【図3】人物抽出処理を示すフローチャート。
【図4】グループ推定処理を示すフローチャート。
【図5】距離間隔推定処理を示すフローチャート。
【図6】重なり状態推定処理を示すフローチャート。
【図7】人物属性推定処理を示すフローチャート。
【図8】(a)は人物領域が抽出された2値画像を示す模式図、(b)は人物領域における垂直方向での画素数の累積ヒストグラム。
【図9】第2実施形態の距離変化推定処理を示すフローチャート。
【図10】第3実施形態の顔向き合い状態推定処理を示すフローチャート。
【図11】顔向き方向推定処理を示すフローチャート。
【符号の説明】
10…グループ属性推定装置、11…ビデオカメラ(撮像手段)、12…画像処理装置(画像取得手段)、13…信号処理装置、14…コンピュータ(人物抽出手段、グループ推定手段、人物属性推定手段、グループ属性判定手段)。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a group attribute estimating method and a group attribute estimating device for estimating a group attribute of a group formed by a plurality of persons from scene image data obtained by capturing a plurality of persons.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, it is known that, for example, in a store such as a convenience store, for a customer who has purchased a product, a store clerk visually estimates attributes such as sex and age, and stores and uses the information as purchase information for the product. Attempts have been made to automatically acquire such customer attribute information by performing image processing on image data captured by the customer.
[0003]
For example, Japanese Patent Laid-Open Publication No. 2000-149105 discloses a vending machine that images a purchaser of a product and analyzes face image data to estimate the sex and age of the purchaser. As the method, a method is used in which average face data for each sex and age are prepared in advance, and the sex and age of the average face data most similar to the face image data of the purchaser are estimated as the sex and age of the purchaser. It is described.
[0004]
Japanese Patent Application Laid-Open No. 2001-218020 proposes an image processing method for extracting a lip region from face image data of an unknown person and estimating the gender of the unknown person based on the color of the lip portion. I have.
[0005]
Also, Japanese Patent Laid-Open Publication No. Hei 6-333023 proposes a method for estimating the age of a target person based on feature amounts such as the aspect ratio of the face, the height of the eyes, the number of wrinkles, and the degree of receding of the hair. ing.
[0006]
[Problems to be solved by the invention]
By the way, as the purchase information of a product, it is important to associate a group formed by a plurality of customers with a group attribute such as a parent and child, a friend, and a couple.
[0007]
However, the methods disclosed in the above publications attempt to estimate the personal attribute of each person, and do not automatically estimate the group attribute of a group formed by a plurality of persons. Therefore, as long as each of the above methods is used, there is a problem that it is not possible to accumulate and use the product purchase information at a higher level.
[0008]
SUMMARY An advantage of some aspects of the invention is to estimate a group attribute of a group formed by a plurality of people from a scene image in which a plurality of people are captured. A group attribute estimating method and a group attribute estimating apparatus are provided.
[0009]
[Means for Solving the Problems]
In order to solve the above problem, the invention according to claim 1 includes a person extraction process of extracting a person imaged in a scene image from scene image data obtained by imaging a place where a person passes, and the scene image data. A group estimation process for estimating a plurality of persons forming the same group from the plurality of extracted persons, and for each person estimated to form the same group using the scene image data, Characteristic estimation processing for estimating an attribute and group attribute determination processing for determining a group attribute of the group based on the personal attribute estimated for each person are performed.
[0010]
According to the first aspect of the invention, first, a plurality of persons forming the same group are estimated from a plurality of persons imaged in the scene image data. Then, the group attribute of the group is determined from the person attributes of each of the plurality of persons. Therefore, a group attribute of a group formed by a plurality of persons can be estimated from a scene image in which a plurality of persons are captured.
[0011]
According to a second aspect of the present invention, in the first aspect of the present invention, in the group estimation processing, a distance interval in the real space between the extracted persons is obtained using the scene image data, and the distance interval is calculated. , A plurality of persons forming the same group are estimated. Here, the scene image data to be used is not limited to one piece of data captured at a certain time, but may be a plurality of pieces of scene image data captured at a certain time interval.
[0012]
The invention of claim 2 has the following operation in addition to the operation of the invention of claim 1. If the distance between the persons is equal to or less than a certain distance, it can be estimated that the persons may form the same group. For this reason, a plurality of persons forming the same group can be estimated based on the distance between persons, which can be estimated from the scene image.
[0013]
According to a third aspect of the present invention, in the first aspect of the present invention, in the group estimation process, an overlapping state of the extracted persons on a scene image is detected using the scene image data, On the basis of the overlapping state, a plurality of persons forming the same group are estimated.
[0014]
The third aspect of the invention has the following operation in addition to the operation of the first aspect of the invention. When the degree of overlap between the persons is large, it is highly likely that the persons hold their hands or their arms are crossed, and it can be estimated that the intimacy of the persons is high. For this reason, a plurality of customers forming the same group can be estimated based on the overlapping state of the persons, which can be estimated from the scene image.
[0015]
According to a fourth aspect of the present invention, in the first aspect of the present invention, in the group estimating process, the distance between the extracted persons in a real space using the scene image data captured at an interval. Is detected, and a plurality of persons forming the same group are estimated based on the detected change state.
[0016]
The invention described in claim 4 has the following operation in addition to the operation of the invention described in claim 1. When the state in which the distance between persons in the real space is equal to or less than a certain distance continues, it is estimated that the persons are acting together and that the degree of intimacy between the persons is high. For this reason, a plurality of persons forming the same group can be estimated based on a change state of the distance interval between persons, which can be estimated from a scene image captured at a time interval.
[0017]
According to a fifth aspect of the present invention, in the first aspect of the present invention, in the group estimation process, the face facing state of the extracted persons is detected using the scene image data, and the face facing state is detected. , A plurality of persons forming the same group are estimated.
[0018]
The invention described in claim 5 has the following operation in addition to the operation of the invention described in claim 1. When the persons face each other, it is in a state where the persons are talking together, and it can be estimated that the intimacy of the persons is high. Therefore, a plurality of persons forming the same group can be estimated based on the face-to-face state of the persons, which can be estimated from the scene image.
[0019]
According to a sixth aspect of the present invention, in the invention of any one of the first to fifth aspects, in the person attribute estimating process, the faces of a plurality of reference persons having different attributes are replaced with a plurality of predetermined different faces. A reference feature amount acquired for each reference face image captured in the direction of orientation, and a reference feature amount associated with the attribute of the reference person, and a target feature amount acquired from the face image of each person using the scene image The attribute of the person is estimated.
[0020]
The invention described in claim 6 has the following operation in addition to the operation of the invention described in any one of claims 1 to 5. The target feature amount acquired from the face image of the person is the face feature among the reference feature amounts acquired for each of the reference face images obtained by imaging the faces of a plurality of reference people having different attributes in a plurality of predetermined different face directions. It is similar to the reference feature amount acquired from the reference face image of the reference person imaged in the range of the face direction close to the direction. Further, the target feature amount is obtained from the reference face image of the reference person having an attribute close to the attribute of the person among the reference feature amounts of the reference face image captured in the range of the face direction close to the face direction. Similar to the reference feature value. For this reason, first, the face direction in which the face image of the person is captured is estimated by determining the reference feature amount similar to the target feature amount of the face image of the person from all the reference feature amounts. The attribute of the person is estimated by determining a reference feature value similar to the target feature value of the face image of the person from the reference feature values of the reference face image captured in the range of the estimated face direction. Is done. Therefore, the person attribute of the person is estimated from the face image of the person extracted from the scene image.
[0021]
The invention according to claim 7 is the invention according to any one of claims 1 to 6, wherein the personal attribute is at least one of gender and age.
[0022]
The invention according to claim 7 has the following operation in addition to the operation of the invention described in any one of claims 1 to 6. A group attribute of the group is estimated from at least one of the gender and the age of each of a plurality of persons forming the same group. For this reason, the group attribute characterized by at least one of the gender and the age of the persons forming the group can be estimated with higher accuracy.
[0023]
The invention according to claim 8 is the invention according to any one of claims 1 to 7, wherein the group attributes include parent and child, couple, couple, friend, brother, sister, and grandfather or grandmother. It is one of the grandchildren.
[0024]
The invention described in claim 8 has the following operation in addition to the operation of the invention described in any one of claims 1 to 7. From the attributes of a plurality of persons forming the same group, it is estimated that the group attributes of the group are parent-child, couple, couple, friend, brother, sister, and grandfather or grandmother and grandchild.
[0025]
According to the ninth aspect of the present invention, from the scene image data in which a place where a person passes is imaged, a person extracting means for extracting a person imaged in the scene image, and the extracted scene image data is used by using the scene image data. Group estimating means for estimating a plurality of persons forming the same group from a plurality of persons, and person attribute estimating for estimating a person attribute of each person estimated to form the same group using the scene image data And group attribute determining means for determining a group attribute of the group based on the attribute estimated for each person.
[0026]
The invention described in claim 9 has the same operation as the invention described in claim 1.
[0027]
BEST MODE FOR CARRYING OUT THE INVENTION
(1st Embodiment)
A first embodiment in which the present invention is embodied in a group attribute estimation method for estimating a group attribute of a group formed by a plurality of customers in a store will be described with reference to FIGS.
[0028]
The group attribute estimating device of the present embodiment detects a plurality of customers from a scene image in which a place where a customer passes in a store is captured, and estimates a plurality of customers forming the same group from the plurality of customers. Then, the personal attribute is estimated for each of a plurality of customers forming the same group, and the group attribute of the group is estimated based on the personal attributes of each customer. In this embodiment, the personal attributes are gender and age, and the group attributes are parent and child, couple, couple, friend, brother, sister, and grandfather or grandmother and grandchild.
[0029]
The attribute information of the group estimated by the group attribute estimating device is accumulated, for example, as sales information of the products purchased by the customers of this group, and is used for a product sales strategy.
[0030]
As shown in FIG. 2, the group attribute estimating device 10 includes a video camera 11 and an image processing device 12.
The video camera 11 captures, in color, a scene image having a location where a customer passes in the store as an imaging range.
[0031]
The image processing device 12 includes a signal processing device 13, a computer 14, and the like.
In the present embodiment, the video camera 11 is an imaging unit, and the signal processing device 13 and the computer 14 are an image acquisition unit. The computer 14 is a person extracting unit, a group estimating unit, a person attribute estimating unit, and a group attribute determining unit.
[0032]
The computer 14 controls the imaging of the video camera 11 to capture a scene image, and every time a predetermined time elapses, acquires a scene image captured by the video camera 11 at that time. The computer 14 estimates a group formed by a plurality of customers captured in the acquired scene image, and performs a group attribute estimation process of estimating a group attribute of the group.
[0033]
(Group attribute estimation processing)
Next, an outline of the group attribute estimation processing performed by the image processing apparatus will be described.
As shown in FIG. 1, the group attribute estimation process includes an image acquisition process, a person extraction process, a group estimation process, a person attribute estimation process, a group attribute determination process, and a result output process.
[0034]
First, as an image acquisition process, every time a predetermined time elapses, scene image data (hereinafter, simply referred to as a scene image) of a scene image captured by the video camera 11 at that time is acquired (S100).
[0035]
Next, as a person extraction process, a plurality of customers are extracted from the acquired scene image by using image processing (S200).
Next, as a group estimation process, a plurality of customers forming the same group are estimated from the plurality of extracted customers (S300).
[0036]
Next, as a person attribute estimation process, a person attribute of the customer is estimated for each of a plurality of customers forming the same group (S400). The personal attributes estimated in the present embodiment are gender and age.
[0037]
Next, as a group attribute determination process, the group attributes of the group are estimated based on the personal attributes estimated for each customer (S500). The group attributes estimated in the present embodiment are parent and child, couple, couple, friend, brother, sister, and grandfather or grandmother and grandchild.
[0038]
Finally, as a result output process, the personal attribute of each of a plurality of customers forming the same group is output in association with the group attribute of the group (S600).
(People extraction processing)
Next, the person extraction process will be described in detail.
[0039]
In the person extraction process, a person region which is an image region corresponding to the whole body of the customer is obtained from the scene image data by image processing, and a face region which is an image region corresponding to the face portion of the customer is extracted. Then, when a person region is extracted and a face region can be extracted within the person region, the person is recognized as one customer.
[0040]
In order to detect a person region, as shown in FIG. 3, first, a background difference image is generated from a background image captured in advance without a customer and a newly acquired scene image (S210).
[0041]
Next, a background region and a detection region other than the background region are separated from the background difference image by a predetermined threshold. In addition, by performing expansion / reduction processing on the detection area, noise removal and stabilization of the detection area are achieved (S220).
[0042]
Finally, an image area whose area exceeds a predetermined determination value is extracted from the detection area, and this image area is set as a person area (S230).
To detect a face area, a method based on a known skin color reference value using color information is used. As a method using the skin color reference value, in addition to the CIE-L * U * V * color system, which is one of uniform perceived color spaces, rgb, HSV, CIE-Lav, CIE-xyx color system, or the like may be used. Good.
[0043]
First, a two-dimensional histogram based on the U and V coordinate values is obtained over the entire area of the scene image, and a peak value (a value having a maximum frequency) within a preset effective skin color range is set as a skin color reference value (S240).
[0044]
Next, a threshold value for the color difference from the skin color reference value is determined using a known discriminant analysis method, and the scene image is binarized into a skin color region and a non-skin color region based on the threshold value (S250).
[0045]
Finally, the number of pixels (area) forming the skin color region is determined for each of the plurality of extracted skin color regions, and the skin color region in which the number of pixels is equal to or greater than a predetermined determination value is defined as a face region (S260).
[0046]
Therefore, in this person extraction process, even if a customer is captured in a scene image, if the face is not captured in the scene image with a certain size, it is not extracted as a customer.
[0047]
(Group estimation processing)
Next, the group estimation processing will be described in detail.
As shown in FIG. 4, the group estimation process includes a distance interval estimation process and an overlap state estimation process.
[0048]
First, as a distance interval estimation process, using a scene image, a distance interval in a real space between a plurality of customers extracted in the person extraction process is obtained, and the same group may be formed based on the distance interval. A plurality of customers are selected (S310).
[0049]
Next, as the overlapping state estimation processing, using the scene image, detecting the overlapping state on the scene image of the customers selected in the distance interval estimation processing, based on the overlapping state, a plurality of forming the same group The customer is finally estimated (S320).
[0050]
(Distance interval estimation processing)
Next, the distance interval estimation processing will be described in detail.
In the distance interval estimation process, as shown in FIG. 5, first, the position of the center of gravity of each person region extracted from the scene image is obtained, and the distance between the centers of gravity on the scene image between the positions of the center of gravity is obtained (S311).
[0051]
Next, from the distance between the centers of gravity, the distance between persons in the real space is calculated using a table stored in advance (S312).
Finally, by determining that the customers whose calculated distance intervals are equal to or smaller than a preset distance determination value are customers forming the same group, a plurality of customers who may form the same group are determined. It is estimated as a customer (S313).
[0052]
(Overlapping state estimation processing)
Next, the overlapping state estimation processing will be described in detail.
In the overlap state estimation process, as shown in FIG. 6, first, for a plurality of customers who may form the same group, the vertical direction of the person region corresponding to each customer is determined from the person regions detected in the person extraction process. Then, a cumulative histogram of the number of pixels is created (S321).
[0053]
Then, from the cumulative histogram, a region equal to or greater than a predetermined threshold is counted as a person region, and compared with the number of people obtained from the detection of the face region. It is determined whether or not there is.
[0054]
For example, FIG. 8A illustrates a binary image generated from a scene image in which three parents and children including a husband, a wife, and a child are captured.
In this parent and child, a husband and a wife are snuggling, and a husband and a child are holding hands.
[0055]
As shown in FIG. 8B, in the cumulative histogram obtained from the person region of the binary image, the person region of the husband and the wife is not clearly separated, and the person region of the husband and the child is connected. The regions of the hands that have been overlapped are in a state of being overlapped. However, even if the customers are not holding hands due to camera angle, noise, or the like, it may be determined that the customers are in contact on the cumulative histogram.
[0056]
Therefore, next, an area in which the cumulative number of pixels is not “0” and is smaller than a predetermined threshold is extracted in the range of the adjacent person area, and this image area is set as an arm candidate area (S322).
[0057]
Finally, for this arm candidate region, it is determined whether or not a flesh-colored region is included by a method similar to the person extraction process. When the flesh-colored region is included, it is determined that the persons are holding hands. It is estimated (S323).
[0058]
Then, it is finally estimated that the customers holding hands form the same group.
(People attribute estimation processing)
Next, the person attribute estimation processing will be described in detail.
[0059]
In the person attribute estimating process, the faces of an unspecified number of reference persons having different genders and ages are acquired for each of reference face images captured in a plurality of predetermined different face directions, and the gender and age of the reference persons are associated with each other. The gender and age of the customer are estimated from the obtained reference feature and the target feature acquired from the face image of each customer using the scene image.
[0060]
The reference feature amount of the reference person is stored in the computer 14 in advance as learning data.
(Learning data)
The learning data is generated by a face image acquisition process, a face region detection process, and a feature vector creation process by a system different from the group attribute estimation device 10.
[0061]
First, in the face image acquisition processing, a reference face image captured in a plurality of preset different face orientation directions is acquired for each reference person.
Next, in the face area detection processing, the face area of the reference person is detected for each reference face image. This can be detected by the technique used in the person extraction process.
[0062]
Next, in the feature vector creation process, a reference feature vector (reference feature amount) representing the feature amount of the reference face area is created for each reference face image in which the face area is detected. This can be done as follows. First, a vector field in four directions is obtained from the shading gradient in the face area of the reference face image, and a direction edge image divided for each direction is obtained. Next, after normalizing the four direction edge images in the face region, the resolution is reduced to 8 × 8. Finally, for each reference face image, a 256-dimensional feature vector (hereinafter referred to as a reference feature vector) in which the grayscale values of the images whose resolution has been reduced to 8 × 8 for each of the four direction edge images is extracted as a feature amount. I do.
[0063]
The reference feature vector is stored in the computer 14 as learning data corresponding to the reference person from which the reference face image was captured, the face direction in which the reference face image was captured, and the gender and age of the reference person.
[0064]
(People attribute estimation processing)
The person attribute estimation process includes a feature vector creation process, a face direction estimation process, a gender estimation process, and an age estimation process.
[0065]
First, in the feature vector creation process, for each customer who is likely to form the same group, a face image, which is a scene image region corresponding to the face region extracted in the person extraction process, is applied to the face image of the customer. The target feature vector (target feature amount) is acquired (S410). The target feature vector is obtained by the same method as the method of obtaining the reference feature vector from the reference person.
[0066]
Next, in the face direction estimation process, for each customer for which the target feature vector was acquired, a face image of the customer was captured using all the reference feature vectors of the learning data and the target feature vector of the customer. The range of the face direction that is likely to include the face direction is estimated (S420).
[0067]
In this method, a target feature vector is linearly mapped to a face direction determination space classified for each range of different face direction by linear discriminant analysis, and the face direction of the class whose target feature vector is most similar in the face direction determination space is determined. The range of the direction can be estimated by a method using the identification result.
[0068]
Next, in the gender estimation processing, for each customer for which the range of the face direction has been estimated, a reference feature vector acquired from all reference face images captured in the range of the estimated face direction, and the customer's The gender of the customer is estimated using the target feature vector (S430).
[0069]
In this method, a target feature vector is linearly mapped to a gender discrimination space classified for each gender by linear discriminant analysis, and the gender of the class whose target feature vector is most similar in the gender discrimination space is estimated as a classification result. be able to.
[0070]
Next, in the age estimation processing, for each customer whose gender is estimated, of the reference feature vectors obtained in the range of the estimated face direction, all the reference features obtained from the reference person of the estimated gender are used. The age of the customer is estimated using the vector and the target feature vector of the customer (S440).
[0071]
This is a method in which the target feature vector is linearly mapped to an age discrimination space classified for each different age by linear discriminant analysis, and the age of the class to which the target feature vector is most similar in this age discrimination space is estimated as a classification result. can do.
[0072]
(Group attribute judgment processing)
Next, the group attribute determination processing will be described.
In the group attribute determination process, the group attributes are estimated based on the number of customers forming a group and the gender and age of each customer.
[0073]
For example, the number of customers forming a group is 2 to 4, the group can be divided into two subgroups of customers having an age difference of 20 years or more and less than 40 years, and the subgroup with the higher age is used. When the number of customers forming the group is one or two, it is estimated that the group attribute is parent and child.
[0074]
In addition, the number of customers forming a group is 2 to 4, the group can be divided into two sub-groups of customers with an age difference of 60 years or more, and the customers forming the sub-group with the higher age Is one or two, it is estimated that the group attribute is at least one of grandfather and grandmother and grandchild.
[0075]
When the number of customers forming a group is two, the gender is male and female, and the age difference is within 10 years, the group attribute is either a couple, a couple, or a friend. presume.
[0076]
Further, when it is estimated that two customers forming a group estimated to be a couple, a couple, or a friend are holding hands with each other in the overlapping state estimation process, this group attribute is set to one set. Presumed to be couple or couple.
[0077]
When the number of customers forming a group is two or three, the gender is only men or women, and the age difference is within 10 years, the group attribute is brother, sister or friend. Is estimated to be one of
[0078]
Further, when the number of customers forming a group is three or more, the gender is only male or female, and the age difference is within 5 years, it is estimated that the group attribute is friend.
[0079]
The result of estimation of each group attribute in the group attribute determination process may be represented by a probability. For example, the probability of a friend is 80%.
The present embodiment described above has the following effects (1) to (6).
[0080]
(1) In the present embodiment, first, a person extraction process of extracting a customer (person) captured in a scene image from a scene image captured in a store is performed. Next, a group estimation process for estimating a plurality of customers forming the same group from the plurality of extracted customers is performed using the scene image data. Next, a personal attribute estimating process of estimating the personal attribute is performed for each customer estimated to form the same group using the scene image. Finally, a group attribute estimating process for estimating the group attribute is performed based on the person attribute estimated for each customer.
[0081]
Therefore, first, a plurality of customers forming the same group are estimated from a plurality of customers captured in the scene image. Then, the group attributes of the group are estimated from the personal attributes of each of the plurality of customers. Therefore, a group attribute of a group formed by a plurality of customers can be estimated from a scene image of a plurality of customers.
[0082]
(2) In the present embodiment, as the group estimation processing, the distance between the extracted customers in the real space is obtained using the scene image, and the same group may be formed based on the distance. A distance interval estimation process for estimating a plurality of customers is performed. For this reason, a plurality of customers forming the same group can be estimated based on the distance between customers, which can be estimated from the scene image.
[0083]
(3) In the present embodiment, as a group estimation process, an overlapping state of the extracted customers on the scene image is detected using the scene image, and the same group is formed based on the overlapping state. Estimate multiple customers. For this reason, a plurality of customers forming the same group can be estimated based on the overlapping state of the customers, which can be estimated from the scene image.
[0084]
Further, since the process is performed for the customer estimated in the distance interval estimation process, it can be estimated with higher accuracy whether or not the customer belongs to the same group.
(4) Further, in the present embodiment, as the person attribute estimating process, a reference feature amount (reference feature vector) acquired from face images of a plurality of reference persons having different genders and ages (attributes) and a customer face image are used. The gender and age of the customer are estimated from the acquired target feature amount (target feature vector). Therefore, from the face image of the customer extracted from the scene image, the personal attribute of the customer is estimated.
[0085]
(5) In this embodiment, gender and age are estimated as personal attributes. For this reason, the group attribute characterized by the gender and age of the customers forming the group can be estimated with higher accuracy.
[0086]
(6) In this embodiment, parent and child, couple, couple, friend, brother, sister, and grandfather or grandmother and grandchild can be estimated as group attributes.
(2nd Embodiment)
Next, a second embodiment of the present invention will be described with reference to FIG. Note that the present embodiment differs from the first embodiment only in that a distance change estimation process is performed instead of the overlap state estimation process in the first embodiment. Therefore, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted. Only the distance change estimation processing will be described in detail.
[0087]
(Distance change estimation processing)
The distance change estimation processing will be described in detail.
In the distance change estimation processing, a distance interval in a real space between persons who may form the same group is obtained using scene images captured at intervals. Then, when the state in which the distance interval is equal to or less than the predetermined value continues for a predetermined time or more, it is estimated that the persons form the same group.
[0088]
In the distance change estimating process, as shown in FIG. 9, first, for each of a plurality of customers estimated to form the same group in the group estimating process, a person region extracted by a person extracting process from a scene image acquired next is used. It is determined whether the distance between the center of gravity and the center of gravity of the person region extracted from the previous scene image is equal to or less than a predetermined value.
[0089]
Then, when the center-of-gravity distance is equal to or less than a predetermined value, it is estimated that the customers whose person regions have been extracted from the two scene images are the same person (S321).
Next, for a plurality of customers estimated to form the same group in the previous scene image, and for each of the plurality of customers estimated to be the same person in the next scene image, a region between the two person regions in the same scene image It is determined whether the distance between the centers of gravity is equal to or less than a predetermined value.
[0090]
If the distance between the centers of gravity of the two person regions in the next scene image is equal to or less than the predetermined value, it is determined that the customers are maintaining a close distance (S322).
Next, whether the customers once estimated to form the same group from the person regions extracted from the sequentially acquired scene images continue to have a state in which the distance between the centers of gravity is equal to or less than a predetermined value for a predetermined period of time or longer. Determine whether or not.
[0091]
Then, when the state in which the distance interval between the customers is equal to or less than the predetermined value continues for more than the predetermined time, it is finally estimated that the customers form the same group (S323).
[0092]
When the distance change estimating process is completed, based on the estimation result, the person attribute estimating process and the group attribute estimating process are performed on a plurality of customers estimated to form the same group as in the first embodiment. Then, the group attribute of the group formed by the plurality of customers is estimated.
[0093]
The present embodiment described above has the following effect (7) in addition to the effects (1), (2), (4) to (6) of the first embodiment.
(7) In the present embodiment, as a group estimation process, a change state of the distance interval in the real space between the extracted customers is detected using scene image data captured at intervals, and based on this change state, Estimate a plurality of customers forming the same group. For this reason, it is possible to estimate a plurality of customers forming the same group based on a change state of the distance interval between the customers, which can be estimated from a plurality of scene images captured at intervals of time.
[0094]
Further, since the process is performed for the customer estimated in the distance interval estimation process, it can be estimated with higher accuracy whether or not the customer belongs to the same group.
(Third embodiment)
Next, a third embodiment of the present invention will be described with reference to FIGS. Note that the present embodiment differs from the first embodiment only in that a face-facing state estimation process is performed instead of the overlap state estimation process in the first embodiment. Therefore, the same components as those in the first embodiment are denoted by the same reference numerals and the description thereof is omitted, and only the face-facing state estimation processing will be described in detail.
[0095]
(Face facing state estimation processing)
The face facing state estimation processing will be described in detail.
In the face-facing state estimation process, a scene image is used to detect a face-facing state between customers who may form the same group, and based on the face-facing state, a plurality of customers forming the same group are finally determined. It is estimated.
[0096]
More specifically, as shown in FIG. 10, the familiarity estimation process includes a person position estimation process, a face direction estimation process, and a face orientation state determination process.
First, in the person position estimation processing, a scene image is used, and for each customer who may form the same group, a predetermined center corresponding to the real space is calculated from the position of the center of gravity of the person region corresponding to the customer on the scene image. A coordinate position in the coordinate system is obtained (S321). This means that coordinate positions of the coordinate system are made to correspond to a plurality of reference positions set on the scene image in advance, and coordinate positions corresponding to the center of gravity other than the reference positions are changed to coordinates corresponding to the plurality of reference positions. This is done by obtaining from the position.
[0097]
Next, in the face direction estimation process, for each customer whose coordinate position has been determined, the face direction of that customer is estimated by linear discriminant analysis (S322).
Next, in the face-facing state determination processing, for each customer whose face direction is estimated, whether or not the customers face each other is determined based on the coordinate position estimated in the person position estimation processing and the face direction. Is determined (S323).
[0098]
Then, when the customers face each other, it is finally estimated that the customers form the same group.
(Face direction estimation process)
Next, the face direction estimation process will be described in detail.
[0099]
In the face direction estimation process, for each customer for which the coordinate position is obtained, the feature amount most similar to the feature amount obtained from the face image corresponding to the customer's face area is registered in the learning data used in the person attribute estimation process. Extracted from the reference feature amounts of the reference person. Then, it is estimated that the face direction in which the reference face image of the reference person from which the most similar feature amount has been acquired is the face direction of the customer.
[0100]
As shown in FIG. 11, the face direction estimation process includes a feature vector creation process, left and right face direction estimation processes, and upper and lower face direction estimation processes.
First, in the feature vector creation process, the target feature vector is acquired from the face image of each customer for which the coordinate position has been obtained in the same manner as the learning data (S3221).
[0101]
Next, in the left and right face direction estimation processing, for each customer for which the target feature vector of the face image has been acquired, the face image of the customer The face direction range in the left-right direction including the face direction in which is captured is estimated (S3222).
[0102]
In this method, a target feature vector is linearly mapped to a left-right face orientation discrimination space classified for each different face orientation range in the left-right direction by linear discriminant analysis. The left and right face orientation ranges can be estimated by a method using the identification results.
[0103]
Next, in the up-down face direction estimation processing, for each customer for which the range in the left-right direction including the face direction is estimated, the reference feature vector of the reference face image captured in the left-right face direction range and the customer The target feature vector is used to estimate the vertical face direction range in which the face image of the customer is captured (S3223).
[0104]
In this method, a target feature vector is linearly mapped to an upper / lower face orientation discrimination space classified for each different face orientation range in the vertical direction by linear discriminant analysis, and a class of the target feature vector most similar to the upper / lower face orientation discrimination space is obtained. The upper and lower face orientation ranges can be estimated by a method using the identification results.
[0105]
When the face-facing state estimating process is completed, based on the estimation result, a plurality of customers estimated to form the same group are subjected to a person attribute estimating process and a group attribute estimating process in the same manner as in the first embodiment. The group attribute of the group formed by the plurality of customers is estimated.
[0106]
The present embodiment described above has effects described in (8) below in addition to the effects described in (1), (2), (4) to (6) of the first embodiment.
(8) In the present embodiment, as the group estimation process, the face-to-face state of the extracted customers is detected using scene image data, and a plurality of customers forming the same group are detected based on the face-to-face state. presume. Therefore, a plurality of customers forming the same group can be estimated based on the face-to-face state of the customers, which can be estimated from the scene image.
[0107]
Further, since the process is performed for the customer estimated in the distance interval estimation process, it can be estimated with higher accuracy whether or not the customer belongs to the same group.
(Other embodiments)
Next, embodiments other than the first, second and third embodiments will be listed.
[0108]
In the overlapping state estimation processing of the first embodiment, a state is set in which the threshold value of the cumulative histogram is set to be larger to detect a state in which customers have their arms crossed. In this case, there is a possibility that a couple who may cross their arms can be detected more reliably.
[0109]
As the distance interval estimation processing of the first, second, and third embodiments, a plurality of scene image data captured at intervals are used to estimate a distance interval between persons who are not captured in the same scene image. Then, based on this distance interval, a plurality of customers who may form the same group are estimated. In this case, a plurality of persons forming the same group can be estimated based on a distance interval between persons, which can be estimated from a plurality of scene images captured at intervals.
[0110]
In the first, second and third embodiment, the personal attribute estimation process is based on the distance of the person from the video camera 11 and the width of the person area, both of which can be obtained from the scene image, and the customer is an adult. Or a child attribute is estimated. Then, in the group attribute estimating process, a configuration is adopted in which the group attribute is estimated based on the gender and the person attribute of being an adult or a child instead of the age.
[0111]
In the first, second, and third embodiments, a color histogram is obtained for the customer's person region extracted by the person extraction process, and there is no difference between the customers from a predetermined threshold value. Estimate that the customers wear the same clothes. That is, it is estimated that the similarity of the clothes is high. Each customer wearing the same clothes is assumed to belong to a group such as a student or a club team. In this case, a plurality of customers forming a student or a club team can be estimated with higher accuracy.
[0112]
The face direction estimation process of the third embodiment may be configured to estimate the face direction based on the positional relationship in the real space of the face parts (eyes, nose, mouth) extracted from the scene image. Good. Alternatively, the configuration may be such that the 3D face model is rotated and the face direction most matched is used as the estimation result.
[0113]
In the personal attribute estimation processing of the first, second, and third embodiments, a race such as whether the customer is an Oriental or a Western is estimated from the face image as a personal attribute. Then, in the group attribute estimation process, the configuration is such that the group attribute is estimated in consideration of race in addition to gender and age.
[0114]
In the person position estimating process performed in the face facing state estimating process according to the third embodiment, in order to detect a person position, a scene image captured by a ceiling camera provided separately from the video camera 11 that captures a scene image is detected. To detect the position of a person. In this case, the position of the person can be detected with higher accuracy, and the estimation accuracy of the group attribute can be improved.
[0115]
In the third embodiment, a stereo camera is used as the video camera 11, and in the person position estimating process, the person position is detected by measuring the distance from the camera to the customer.
[0116]
(Other technical ideas)
Hereinafter, technical ideas grasped from the above embodiments will be listed.
(1) In the invention according to claim 1, in the group estimation processing, a distance interval in the real space between the extracted persons is obtained using the scene image data, and the same group is determined based on the distance interval. A distance interval estimation process of selecting a plurality of persons who may form a, and using the scene image data, to detect the state of overlap on the scene image of the selected people, based on this overlap state And an overlapping state estimation process for finally estimating a plurality of persons forming the same group.
[0117]
(2) In the invention according to claim 1, in the group estimation processing, a distance interval in the real space between the extracted persons is obtained using the scene image data, and the same group is determined based on the distance interval. A distance interval estimating process of selecting a plurality of persons who may form a pattern, and detecting a change state of a distance interval in the real space between the selected persons using the scene image data captured at a time interval. And a distance change estimation process for finally estimating a plurality of persons forming the same group based on the change state.
[0118]
(3) In the invention according to claim 1, in the group estimation processing, a distance interval in the real space between the extracted persons is obtained using the scene image data, and the same group is determined based on the distance interval. A distance interval estimating process of selecting a plurality of persons who may form an image, and using the scene image data, detecting a face-to-face state between the selected persons, based on the face-to-face state, A group attribute estimation method, comprising: performing a face-facing state estimation process for finally estimating a plurality of persons forming a group.
[0119]
(4) In the invention according to claim 1, in the group estimation process, a similarity of clothes worn by the extracted persons is obtained using the scene image data, and based on the similarity of the clothes, A group attribute estimating method characterized by estimating a plurality of customers forming the same group.
[0120]
(5) In the invention according to claim 9, an image pickup means (video camera 11) for picking up the scene image and an image obtaining means for obtaining a scene image picked up by the image pickup means each time a predetermined time elapses. (Image processing apparatus 12), and a result output unit (computer 14) for outputting the personal attribute of each of a plurality of persons forming the same group and the group attribute of the group in association with each other. Group attribute estimating device.
[0121]
【The invention's effect】
According to the invention described in claims 1 to 9, a plurality of persons forming the same group are estimated from a plurality of persons imaged in the scene image data, and from the person attributes of each of the plurality of persons, The group attribute of the group is determined. Therefore, a group attribute of a group formed by a plurality of persons can be estimated from a scene image in which a plurality of persons are captured.
[Brief description of the drawings]
FIG. 1 is a flowchart illustrating a group attribute estimation process according to a first embodiment.
FIG. 2 is a schematic configuration diagram showing a group attribute estimation device.
FIG. 3 is a flowchart illustrating a person extraction process.
FIG. 4 is a flowchart illustrating a group estimation process.
FIG. 5 is a flowchart illustrating distance interval estimation processing.
FIG. 6 is a flowchart illustrating an overlap state estimation process.
FIG. 7 is a flowchart illustrating a person attribute estimation process.
FIG. 8A is a schematic diagram showing a binary image from which a person region is extracted, and FIG. 8B is a cumulative histogram of the number of pixels in the person region in the vertical direction.
FIG. 9 is a flowchart illustrating a distance change estimation process according to the second embodiment.
FIG. 10 is a flowchart illustrating a face-facing state estimation process according to the third embodiment;
FIG. 11 is a flowchart illustrating a face direction estimation process.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Group attribute estimation apparatus, 11 ... Video camera (imaging means), 12 ... Image processing apparatus (image acquisition means), 13 ... Signal processing apparatus, 14 ... Computer (person extraction means, group estimation means, person attribute estimation means, Group attribute determining means).

Claims (9)

  1. 人物が通過する場所が撮像された場面画像データから、その場面画像に撮像された人物を抽出する人物抽出処理と、
    前記場面画像データを用い、前記抽出された複数の人物から、同一のグループを形成する複数の人物を推定するグループ推定処理と、
    前記場面画像データを用い、同一のグループを形成すると推定された人物毎にその人物属性を推定する人物属性推定処理と、
    前記人物毎に推定された人物属性に基づき、前記グループのグループ属性を判定するグループ属性判定処理とを行うことを特徴とするグループ属性推定方法。
    From scene image data in which a place where a person passes is imaged, a person extraction process of extracting a person imaged in the scene image,
    Using the scene image data, from the plurality of extracted people, a group estimation process of estimating a plurality of people forming the same group,
    Using the scene image data, for each person estimated to form the same group, a person attribute estimation process for estimating the person attribute,
    A group attribute determining process for determining a group attribute of the group based on the person attribute estimated for each person.
  2. 前記グループ推定処理では、
    前記場面画像データを用いて、前記抽出された人物同士の実空間における距離間隔を求め、この距離間隔に基づき、同一のグループを形成する複数の人物を推定することを特徴とする請求項1に記載のグループ属性推定方法。
    In the group estimation process,
    The method according to claim 1, wherein a distance interval between the extracted persons in a real space is obtained using the scene image data, and a plurality of persons forming the same group are estimated based on the distance interval. The described group attribute estimation method.
  3. 前記グループ推定処理では、
    前記場面画像データを用いて、前記抽出された人物同士の場面画像上での重なり状態を検出し、この重なり状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする請求項1に記載のグループ属性推定方法。
    In the group estimation process,
    Using the scene image data, detecting an overlapping state of the extracted persons on a scene image, and estimating a plurality of persons forming the same group based on the overlapping state. Item 2. The group attribute estimation method according to Item 1.
  4. 前記グループ推定処理では、
    時間を隔てて撮像された前記場面画像データを用い、前記抽出された人物同士の実空間における距離間隔の変化状態を検出し、この変化状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする請求項1に記載のグループ属性推定方法。
    In the group estimation process,
    Using the scene image data captured at an interval, a change state of a distance interval in the real space between the extracted persons is detected, and a plurality of persons forming the same group are estimated based on the change state. 2. The group attribute estimating method according to claim 1, wherein
  5. 前記グループ推定処理では、
    前記場面画像データを用いて、前記抽出された人物同士の顔向き合い状態を検出し、この顔向き合い状態に基づき、同一のグループを形成する複数の人物を推定することを特徴とする請求項1に記載のグループ属性推定方法。
    In the group estimation process,
    The method according to claim 1, wherein a face-facing state of the extracted persons is detected using the scene image data, and a plurality of persons forming the same group are estimated based on the face-facing state. The described group attribute estimation method.
  6. 前記人物属性推定処理では、
    属性が異なる複数の参照人物の顔を所定の異なる複数の顔向き方向で撮像した参照顔画像毎に取得され、かつ、その参照人物の属性が関連付けられた参照特徴量と、前記場面画像を用いて前記人物毎の顔画像から取得された対象特徴量とから該人物の属性を推定することを特徴とする請求項1〜請求項5のいずれか一項に記載のグループ属性推定方法。
    In the person attribute estimation process,
    By using a reference feature amount obtained for each reference face image obtained by capturing the faces of a plurality of reference persons having different attributes in a plurality of predetermined different face orientation directions, and the attribute of the reference person being associated with the scene image, The group attribute estimating method according to any one of claims 1 to 5, wherein the attribute of the person is estimated from the target feature amount acquired from the face image of each person.
  7. 前記人物属性は、性別及び年齢の少なくともいずれか一方であることを特徴とする請求項1〜請求項6のいずれか一項に記載のグループ属性推定方法。The method according to claim 1, wherein the personal attribute is at least one of gender and age.
  8. 前記グループ属性は、親子、カップル、夫婦、友達、兄弟、姉妹、及び、祖父又は祖母と孫のいずれかであることを特徴とする請求項1〜請求項7のいずれか一項に記載のグループ属性推定方法。The group according to any one of claims 1 to 7, wherein the group attribute is one of parent and child, couple, couple, friend, brother, sister, and grandfather or grandmother and grandchild. Attribute estimation method.
  9. 人物が通過する場所が撮像された場面画像データから、その場面画像に撮像された人物を抽出する人物抽出手段と、
    前記場面画像データを用い、前記抽出された複数の人物から、同一のグループを形成する複数の人物を推定するグループ推定手段と、
    前記場面画像データを用い、同一のグループを形成すると推定された人物毎にその人物属性を推定する人物属性推定手段と、
    前記人物毎に推定された属性に基づき、前記グループのグループ属性を判定するグループ属性判定手段とを備えたことを特徴とするグループ属性推定装置。
    From scene image data in which a place where a person passes is imaged, person extraction means for extracting a person imaged in the scene image,
    Group estimating means for estimating a plurality of persons forming the same group from the plurality of extracted persons using the scene image data;
    Using the scene image data, for each person estimated to form the same group, a person attribute estimating means for estimating the person attribute,
    A group attribute estimating device, comprising: group attribute determining means for determining a group attribute of the group based on the attribute estimated for each person.
JP2002207889A 2002-07-17 2002-07-17 Group attribute estimation method and group attribute estimation apparatus Expired - Fee Related JP4198951B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002207889A JP4198951B2 (en) 2002-07-17 2002-07-17 Group attribute estimation method and group attribute estimation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002207889A JP4198951B2 (en) 2002-07-17 2002-07-17 Group attribute estimation method and group attribute estimation apparatus

Publications (2)

Publication Number Publication Date
JP2004054376A true JP2004054376A (en) 2004-02-19
JP4198951B2 JP4198951B2 (en) 2008-12-17

Family

ID=31932178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002207889A Expired - Fee Related JP4198951B2 (en) 2002-07-17 2002-07-17 Group attribute estimation method and group attribute estimation apparatus

Country Status (1)

Country Link
JP (1) JP4198951B2 (en)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079457A (en) * 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd Electronic album display system, electronic album display method, electronic album display program, image classification device, image classification method and image classification program
JP2006092396A (en) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd Apparatus for detecting lone person and person in group
JPWO2006085383A1 (en) * 2005-02-10 2008-06-26 富士通株式会社 Information providing system and information providing method
JPWO2006025272A1 (en) * 2004-09-01 2008-07-31 日本電気株式会社 Video classification device, video classification program, video search device, and video search program
JP2008203916A (en) * 2007-02-16 2008-09-04 Hitachi Ltd Image processing apparatus, program, and image processing method
JP2009139857A (en) * 2007-12-10 2009-06-25 Unicast Corp Contents display control device, contents display control method, and contents display control program
US7634106B2 (en) 2004-09-22 2009-12-15 Fujifilm Corporation Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program
US7660825B2 (en) 2004-09-28 2010-02-09 Sony Corporation Audio/visual content providing system and audio/visual content providing method
JP2010044448A (en) * 2008-08-08 2010-02-25 Panasonic Corp Image processing device and image processing method
JP2010055248A (en) * 2008-08-27 2010-03-11 Shoei Computer:Kk Sales information generation system with clientele
JP2011514575A (en) * 2008-01-25 2011-05-06 イーストマン コダック カンパニー Determining social relationships from personal photo collections
JP2011128816A (en) * 2009-12-16 2011-06-30 Canon Inc Image processing method and device
JP2011139441A (en) * 2009-12-03 2011-07-14 Panasonic Corp Viewing terminal device, viewing statistics apparatus, viewing statistics processing system, and viewing statistics processing method
JP2011227510A (en) * 2011-06-13 2011-11-10 Hitachi Ltd Display control device, display control method, display control program, and display
JP2011248548A (en) * 2010-05-25 2011-12-08 Fujitsu Ltd Content determination program and content determination device
JP2012509519A (en) * 2008-10-25 2012-04-19 イーストマン コダック カンパニー Proposing actions based on presumed social relationships
JP2012198705A (en) * 2011-03-18 2012-10-18 Toshiba Tec Corp Electronic apparatus, information processor, information processing system, information processing method, and information processing program
EP2570965A2 (en) 2011-09-15 2013-03-20 Omron Corporation Detection device, display control device and imaging control device, provided with the detection device, body detection method, control program, and recording medium
JP2013232243A (en) * 2013-08-21 2013-11-14 Advanced Telecommunication Research Institute International Group behavior estimation device
JP2015011597A (en) * 2013-07-01 2015-01-19 株式会社 日立産業制御ソリューションズ Tailgating control entering/leaving management system and tailgating control method thereof
US9152845B2 (en) 2011-06-02 2015-10-06 Panasonic Intellectual Property Management Co., Ltd. Human attribute estimation system, human attribute estimation apparatus and human attribute estimation method
JP5856726B1 (en) * 2015-01-22 2016-02-10 三菱電機インフォメーションシステムズ株式会社 Attribute estimation apparatus and attribute estimation program
WO2016038901A1 (en) * 2014-09-11 2016-03-17 富士ゼロックス株式会社 Image processing device, image processing program, image processing method, and recording medium
JP2016122272A (en) * 2014-12-24 2016-07-07 富士通株式会社 Availability calculation system, availability calculation method and availability calculation program
WO2016152122A1 (en) * 2015-03-23 2016-09-29 日本電気株式会社 Order terminal device, order system, customer information generation method, and non-transitory computer readable medium that stores program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874884B1 (en) 2014-12-25 2016-03-02 パナソニックIpマネジメント株式会社 Facility usage status measurement device, facility usage status measurement system, and facility usage status measurement method

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4973188B2 (en) * 2004-09-01 2012-07-11 日本電気株式会社 Video classification device, video classification program, video search device, and video search program
JPWO2006025272A1 (en) * 2004-09-01 2008-07-31 日本電気株式会社 Video classification device, video classification program, video search device, and video search program
JP2006079457A (en) * 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd Electronic album display system, electronic album display method, electronic album display program, image classification device, image classification method and image classification program
JP4490214B2 (en) * 2004-09-10 2010-06-23 富士フイルム株式会社 Electronic album display system, electronic album display method, and electronic album display program
US7634106B2 (en) 2004-09-22 2009-12-15 Fujifilm Corporation Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program
JP4506381B2 (en) * 2004-09-27 2010-07-21 沖電気工業株式会社 Single actor and group actor detection device
JP2006092396A (en) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd Apparatus for detecting lone person and person in group
US7660825B2 (en) 2004-09-28 2010-02-09 Sony Corporation Audio/visual content providing system and audio/visual content providing method
JPWO2006085383A1 (en) * 2005-02-10 2008-06-26 富士通株式会社 Information providing system and information providing method
JP2008203916A (en) * 2007-02-16 2008-09-04 Hitachi Ltd Image processing apparatus, program, and image processing method
JP2009139857A (en) * 2007-12-10 2009-06-25 Unicast Corp Contents display control device, contents display control method, and contents display control program
JP2011514575A (en) * 2008-01-25 2011-05-06 イーストマン コダック カンパニー Determining social relationships from personal photo collections
JP2010044448A (en) * 2008-08-08 2010-02-25 Panasonic Corp Image processing device and image processing method
JP2010055248A (en) * 2008-08-27 2010-03-11 Shoei Computer:Kk Sales information generation system with clientele
JP2012509519A (en) * 2008-10-25 2012-04-19 イーストマン コダック カンパニー Proposing actions based on presumed social relationships
JP2011139441A (en) * 2009-12-03 2011-07-14 Panasonic Corp Viewing terminal device, viewing statistics apparatus, viewing statistics processing system, and viewing statistics processing method
JP2011128816A (en) * 2009-12-16 2011-06-30 Canon Inc Image processing method and device
US8724845B2 (en) 2010-05-25 2014-05-13 Fujitsu Limited Content determination program and content determination device
JP2011248548A (en) * 2010-05-25 2011-12-08 Fujitsu Ltd Content determination program and content determination device
JP2012198705A (en) * 2011-03-18 2012-10-18 Toshiba Tec Corp Electronic apparatus, information processor, information processing system, information processing method, and information processing program
US9152845B2 (en) 2011-06-02 2015-10-06 Panasonic Intellectual Property Management Co., Ltd. Human attribute estimation system, human attribute estimation apparatus and human attribute estimation method
JP2011227510A (en) * 2011-06-13 2011-11-10 Hitachi Ltd Display control device, display control method, display control program, and display
JP2013065110A (en) * 2011-09-15 2013-04-11 Omron Corp Detection device, display control device and imaging control device provided with the detection device, object detection method, control program, and recording medium
EP2570965A2 (en) 2011-09-15 2013-03-20 Omron Corporation Detection device, display control device and imaging control device, provided with the detection device, body detection method, control program, and recording medium
JP2015011597A (en) * 2013-07-01 2015-01-19 株式会社 日立産業制御ソリューションズ Tailgating control entering/leaving management system and tailgating control method thereof
JP2013232243A (en) * 2013-08-21 2013-11-14 Advanced Telecommunication Research Institute International Group behavior estimation device
WO2016038901A1 (en) * 2014-09-11 2016-03-17 富士ゼロックス株式会社 Image processing device, image processing program, image processing method, and recording medium
JP2016057940A (en) * 2014-09-11 2016-04-21 富士ゼロックス株式会社 Image processing device and image processing program
JP2016122272A (en) * 2014-12-24 2016-07-07 富士通株式会社 Availability calculation system, availability calculation method and availability calculation program
JP5856726B1 (en) * 2015-01-22 2016-02-10 三菱電機インフォメーションシステムズ株式会社 Attribute estimation apparatus and attribute estimation program
WO2016152122A1 (en) * 2015-03-23 2016-09-29 日本電気株式会社 Order terminal device, order system, customer information generation method, and non-transitory computer readable medium that stores program
JP2016177755A (en) * 2015-03-23 2016-10-06 日本電気株式会社 Order terminal equipment, order system, customer information generation method, and program

Also Published As

Publication number Publication date
JP4198951B2 (en) 2008-12-17

Similar Documents

Publication Publication Date Title
US10546417B2 (en) Method and apparatus for estimating body shape
Aggarwal et al. Human activity recognition from 3d data: A review
US10234957B2 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
US9489744B2 (en) Parameterized model of 2D articulated human shape
US9805266B2 (en) System and method for video content analysis using depth sensing
CN105391970B (en) The method and system of at least one image captured by the scene camera of vehicle is provided
Oreifej et al. Hon4d: Histogram of oriented 4d normals for activity recognition from depth sequences
US9898651B2 (en) Upper-body skeleton extraction from depth maps
Zhang et al. RGB-D camera-based daily living activity recognition
US10417775B2 (en) Method for implementing human skeleton tracking system based on depth data
JP6276519B2 (en) Person counting device and human flow line analyzing device
US9224037B2 (en) Apparatus and method for controlling presentation of information toward human object
Wang et al. Adaptive object tracking based on an effective appearance filter
Biswas et al. Gesture recognition using microsoft kinect®
US9019267B2 (en) Depth mapping with enhanced resolution
CA2884670C (en) System and method for generating an activity summary of a person
US7529388B2 (en) Methods for automatically tracking moving entities entering and exiting a specified region
US9807316B2 (en) Method for image segmentation
Hazelhoff et al. Video-based fall detection in the home using principal component analysis
US8433094B1 (en) System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display
CN104463146B (en) Posture identification method and device based on near-infrared TOF camera depth information
US8401248B1 (en) Method and system for measuring emotional and attentional response to dynamic digital media content
Tsalakanidou et al. Use of depth and colour eigenfaces for face recognition
Kondori et al. 3D head pose estimation using the Kinect
Zeng et al. Silhouette-based gait recognition via deterministic learning

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040129

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050712

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081002

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141010

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees