JP2017130061A

JP2017130061A - 画像処理システム、画像処理方法およびプログラム

Info

Publication number: JP2017130061A
Application number: JP2016009137A
Authority: JP
Inventors: 智大佐藤; Tomohiro Sato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2017-07-27

Abstract

【課題】撮像装置からの画像に基づく人物のグループの特定の精度を高める。【解決手段】画像処理システムは、第１領域を撮像して得られる第１画像および第１領域とは異なる第２領域を撮像して得られる第２画像のそれぞれから人物を検出する検出部３１３と、検出部３１３によって第１画像から検出された人物を第１条件にしたがいグループに分けると共に、検出部によって第２画像から検出された人物を第２条件にしたがいグループに分けるグループ化部３１４と、第１画像に係るグループと第２画像に係るグループとを比較する比較部３１５と、比較部３１５における比較結果に基づいてグループを再構成する再構成部３２２と、を備える。【選択図】図２

Description

本発明は、画像処理システム、画像処理方法およびプログラムに関する。

近年、ネットワークカメラの映像を用いて人物のグループ特定を行うシステムが提案されている。例えば特許文献１に記載のシステムでは、飲食店や小売店の入口に設置したネットワークカメラ（以下、入口カメラと称す）の映像を画像処理をすることで、人物のグループ特定を実現している。特許文献１に記載のシステムは、まず入口カメラの映像を時系列で１枚ずつの画像フレームに分割する。次にシステムは、１枚の画像フレームごとに人物か否かを識別し、複数の画像フレームから移動する人物を追跡し、映像中の複数の人物を特定する。特定された人物の映像から人物の年齢および性別が特定される。この方法によって特定された複数の人物は、同時刻に入店した場合に１つのグループとして判断される。更に、ＰＯＳレジスタ（販売実績を管理する機器）の売上データとして記録された購買品の数や、店員がハンディターミナルに入力した人数との比較により、グループ特定の精度を向上させる。グループ特定の結果は、例えば顧客満足度や売上および利益の向上を図る改善策を考える上で有益な情報となる。

特開２０１４−１４６１５４号公報

特許文献１に記載の技術では、同一グループに所属する全ての人物は入口カメラの映像に同時に映り込むことを前提としている。この前提に基づき、特許文献１に記載のシステムは人物が映り込んだ時刻情報を利用してグループを特定している。しかしながら、同一グループに所属する全ての人物が一度に入店しない状況や、同時に複数のグループが入店した状況では、時刻情報を利用したグループ特定の精度は低下しうる。

あるいはまた、特許文献１に記載の技術では、入口カメラの映像の全ての画像フレームで人物の顔が鮮明に映り込むことを前提としている。この前提に基づき、特許文献１に記載のシステムは顔認識技術を利用してグループを特定している。しかしながら、映像中の人物が他の人物の影に隠れている状況や、下や横を向き顔が正面から撮影できない状況では、顔認識技術を利用したグループ特定の精度は低下しうる。

これらの状況の少なくともひとつが発生した場合はグループの特定に失敗する蓋然性が高く、システム全体でのグループ特定の精度が低下しうる。

本発明はこうした課題に鑑みてなされたものであり、その目的は、撮像装置からの画像に基づく人物のグループの特定の精度を高めることができる技術の提供にある。

本発明のある態様は画像処理システムに関する。この画像処理システムは、第１領域を撮像して得られる第１画像および第１領域とは異なる第２領域を撮像して得られる第２画像のそれぞれから人物を検出する検出部と、検出部によって第１画像から検出された人物を第１条件にしたがいグループに分けると共に、検出部によって第２画像から検出された人物を第２条件にしたがいグループに分けるグループ化部と、第１画像に係るグループと第２画像に係るグループとを比較する比較部と、比較部における比較結果に基づいてグループを再構成する再構成部と、を備える。

本発明によれば、撮像装置からの画像に基づく人物のグループの特定の精度を高めることができる。

ネットワークカメラの店内配置の一例を示す図。第１の実施の形態に係る画像処理システムのシステム構成図。図２に示される画像処理システムの各機能を実現するためのハードウエア構成を示すブロック図。図４（ａ）〜（ｃ）は、入口カメラの特性を説明するための図。図２の年齢性別条件保持部の一例を示すデータ構造図。図６（ａ）〜（ｄ）は、店内カメラの特性を説明するための図。図２の行動条件保持部の一例を示すデータ構造図。仮グループからグループを再構成する動作の模式図。図９（ａ）〜（ｅ）は、画像処理システムにおける一連の処理の一例を示すフローチャートおよびそのサブルーチン。第２の実施の形態に係る画像処理システムのシステム構成図。図１１（ａ）、（ｂ）は、画像処理システムにおける一連の処理の一例を示すフローチャートおよびそのサブルーチン。

以下、図面を参照して本発明の実施の形態を説明する。ただし、本発明の実施の形態は以下の実施の形態に限定されるものではない。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。

実施の形態に係る画像処理システムは、飲食店や小売店などの店舗に設置された撮像装置、例えば入口カメラ、店舗内に設置されたカメラ（以下、店内カメラと称す）、店舗の精算場所に設置されたカメラ、の映像を画像処理し、人物のグループの特定を行う。これにより、店舗の複数箇所に設置されたカメラの映像の処理結果を組み合わせることで、グループ特定の精度を向上させることができる。また、その精度の向上によって、より多様なマーケティング分析が可能となる。

図１は、ネットワークカメラの店内配置の一例を示す図である。図１は小売店１０１の平面図である。ここでは、全ての来店客が通過する入口１０９と、会計カウンタ１１０と、が１つずつある小売店１０１が想定される。小売店１０１には４台のネットワークカメラが設置されている。入口カメラ１０２は、入口１０９の付近に設置され、入口１０９から入店する来店客１０３の挙動を撮影することができる。入口カメラ１０２（第１撮像装置）は入口１０９（第１領域）を過不足なく撮像して入口画像（第１画像）を生成する。入口カメラ１０２の画角は来店客１０３の顔が明確に確認できるように設定される。入口カメラ１０２の撮影領域１１１は入口１０９を含む。なお、来店客１０３が入口カメラ１０２に向かう向きとは異なる向きを向く等の不都合な状況も発生し得る。主な来店客１０３の挙動は、入口カメラ１０２に向かって店外から店内に入店する、もしくは入口カメラ１０２に背を向け店内から店外に退店するもので、来店客１０３はおおむね一定速度で移動する。なお、入口カメラ１０２に加えてまたはその代わりに、退店する来店客を映すために入口カメラ１０２とは逆向きに向けられたカメラが入口１０９付近に設置されてもよい。

店内カメラ１０４、１０５は、店内１１２の様々な場所に設置され、陳列棚１１３の間を移動する来店客１０６の挙動を撮影することができる。店内カメラ１０４、１０５のそれぞれ（第２撮像装置）は店内１１２の領域（第２領域）を撮像して店内画像（第２画像）を生成する。店内カメラ１０４、１０５のそれぞれの画角は、来店客１０６の挙動の全体像が確認できるように設定される。なお、来店客１０６が陳列棚１１３の影に隠れる等の不都合な状況も発生し得る。主な来店客１０６の挙動は、店内１１２を移動する、もしくは立ち止まるもので、来店客１０６の移動方向や移動速度は様々である。

小売店１０１の精算場所である会計カウンタ１１０に設置されたカメラ（以下、レジカメラと称す）１０７は、会計カウンタ１１０の背面に設置され、会計時に店員が精算装置、例えばＰＯＳレジスタを操作している最中に、来店客１０８の挙動を正面から撮影することができる。レジカメラ１０７は会計カウンタ１１０を撮像してカウンタ画像を生成する。レジカメラ１０７の画角は、会計カウンタ１１０を過不足なく映し来店客１０８の顔が明確に確認できるように設定される。なお、来店客１０８がレジカメラ１０７に向かう向きとは異なる向きを向く等の不都合な状況も発生し得る。主な来店客１０８の挙動は、会計カウンタ１１０に向かって近付く、会計のために立ち止まる、もしくは会計カウンタ１１０から立ち去るもので、来店客１０８は一定速度で移動するか、所定位置で静止する。

（第１の実施の形態）
図２は、第１の実施の形態に係る画像処理システム２０４のシステム構成図である。画像処理システム２０４は入口カメラ１０２と店内カメラ１０４、１０５、とに有線または無線により接続される。入口カメラ１０２は類似した特性を有するカメラ群であってもよい。店内カメラ１０４、１０５は、入口カメラ１０２とは異なる特性を有するカメラ群であってもよい。画像処理システム２０４は、入口カメラ１０２からの入口画像および店内カメラ１０４、１０５からの店内画像を入力とし、画像処理と人物のグループ特定とを行い、顧客属性とグループ情報とを持つ顧客データを生成し、顧客データ保持部３３１に格納する。画像処理システム２０４は、カメラ制御部３１１と、録画映像保持部３１２と、映像解析部３２１と、年齢性別条件保持部３２５と、行動条件保持部３２６と、顧客データ保持部３３１と、を備える。

カメラ制御部３１１は、入口カメラ１０２および店内カメラ１０４、１０５と接続され、それらのカメラを制御する。カメラ制御部３１１は、入口カメラ１０２からの映像および店内カメラ１０４、１０５からの映像を録画映像保持部３１２に格納する。

映像解析部３２１は、録画映像保持部３１２に保持される入口カメラ１０２からの映像および店内カメラ１０４、１０５からの映像を解析し、小売店１０１に来店した人物のグループを特定する。映像解析部３２１は、検出部３１３と、グループ化部３１４と、比較部３１５と、再構成部３２２と、算出部３２３と、更新部３２４と、を含む。

検出部３１３は、入口カメラ１０２からの映像および店内カメラ１０４、１０５からの映像を録画映像保持部３１２からカメラ制御部３１１を経由して取得する。検出部３１３は、取得された映像に含まれる入口画像および店内画像のそれぞれから、パターンマッチング等公知の人物検知技術を使用して人物を検出する。検出部３１３は、入口画像および店内画像のそれぞれから検出された人物の特徴量、例えば、顔特徴量を抽出する。検出部３１３は、入口画像および店内画像のそれぞれから検出された人物の年齢や性別などの属性を推定する。

グループ化部３１４は、検出部３１３によって入口画像から検出された人物を第１条件にしたがい仮グループに分ける。グループ化部３１４は、検出部３１３によって店内画像から検出された人物を第２条件にしたがい仮グループに分ける。より一般的にはグループ化部３１４は入口カメラ１０２、店内カメラ１０４、１０５などのカメラごとに人物の仮グループを推定する。ここで、第１条件と第２条件とは異なる。第１条件は小売店１０１の入口１０９に応じた条件であり、例えば人物の属性に関する条件である。第２条件は小売店１０１の店内１１２に応じた条件であり、例えば人物の移動方向や移動速度などの動きに関する条件である。より具体的には、グループ化部３１４は、グループ化のための年齢性別条件を保持する年齢性別条件保持部３２５を参照して、入口画像から検出された人物を仮グループに分ける。グループ化部３１４は、グループ化のための行動条件を保持する行動条件保持部３２６を参照して、店内画像から検出された人物を仮グループに分ける。

算出部３２３は、入口画像に係る仮グループの第１確度を入口に応じた第１計算式で算出する。算出部３２３は、店内画像に係る仮グループの第２確度を店内の領域に応じた第２計算式であって第１計算式とは異なる第２計算式で算出する。

比較部３１５は、入口画像に係る仮グループと店内画像に係る仮グループとを比較する。比較部３１５は、算出部３２３によって算出された第１確度および第２確度を比較に使用する。算出部３２３は、入口画像に係る仮グループのうち比較的高い第１確度を有する仮グループに含まれる人物の顔特徴量と、店内画像に係る仮グループのうち同程度に高い第２確度を有する仮グループに含まれる人物の顔特徴量とを比較する。顔特徴量の比較により、人物が同一であるか否かが判定される。

再構成部３２２は、比較部３１５における比較結果に基づいてグループを再構成する。再構成部３２２は、比較部３１５における顔特徴量の比較の結果を参照する。再構成部３２２は、該比較の結果、入口画像に係る仮グループに含まれる人物と店内画像に係る仮グループに含まれる人物とが同一人物であると判定される場合は、それらの仮グループを統合（ｍｅｒｇｅ）する。再構成部３２２は、統合されたグループを確定されたグループとして出力する。再構成部３２２は、確定されたグループに属する人物を除いて上記の確度算出および顔特徴量比較、グループ再構成を繰り返す。

更新部３２４は、年齢性別条件保持部３２５および行動条件保持部３２６を更新する。映像解析部３２１は、顧客属性とグループ情報とを持つ顧客データを生成し、顧客データ保持部３３１に格納する。顧客属性は、顔特徴量、年齢性別、顧客データ保持部３３１と比較して得られた来店頻度、最新来店日等の情報を持つデータである。

図３は、図２に示される画像処理システム２０４の各機能を実現するためのハードウエア構成を示すブロック図である。ＣＰＵ２０１は、ＲＡＭ２０２をワークメモリとして、ＲＯＭ２０３や記憶部２０９に格納されたプログラムを実行し、システムバス２０８を介して、後述する構成を制御する。記憶部２０９は、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリなどであり、ＯＳや、後述する画像処理を実現するプログラムを格納する。

汎用インタフェイス２０５は、例えばＵＳＢなどのシリアルバスインタフェイスであり、マウスやキーボードなどの操作部２１１などが接続される。ビデオインタフェイス２０６は、ＨＤＭＩ（登録商標）やＤｉｓｐｌａｙＰｏｒｔ（商標）などのビデオインタフェイスであり、モニタ２１２が接続される。

ネットワークインタフェイス２０７は、有線または無線のネットワーク２１３と接続するためのインタフェイスである。ユーザ操作は、ネットワークインタフェイス２０７を介して行われてもよい。また、画像処理システム２０４が実行する各種処理のプログラムはネットワーク２１３上のサーバ装置から供給されてもよい。

入口カメラ１０２や店内カメラ１０４、１０５等であってもよいカメラ２２０は、汎用インタフェイス２０５を介して、コンピュータ機器である画像処理システム２０４に接続される。あるいは、カメラ２２０は、ネットワーク２１３およびネットワークインタフェイス２０７を介して画像処理システム２０４に接続されてもよい。

図４（ａ）〜（ｃ）は、入口カメラ１０２の特性を説明するための図である。図４（ａ）、（ｂ）はいずれも、入口カメラ１０２による撮像の結果得られる入口画像を示しており、これらの入口画像から年齢性別条件を利用したグループ推定が行われる。図４（ａ）はある時点での第１画像フレーム４０１を、図４（ｂ）は図４（ａ）から数秒経過後の第２画像フレーム４１１を示している。図４（ａ）、（ｂ）中のａ１、ａ２、ａ３はグループＡ、ｂ１、ｂ２はグループＢに属する人物を表している。

入口カメラ１０２は、全ての来店客が通過する入口１０９を過不足なく映し来店客の顔が明確に確認できるように設置されているため、入口カメラ１０２からの入口画像は顔認識から得られる顧客属性を利用したグループ推定に都合が良い。そのため、入口画像には年齢性別条件を利用したグループ推定の手法が適用される。

入口カメラ１０２の第１画像フレーム４０１には、一定速度で同一方向に移動する３人の来店客４０２が映り込んでいるが、入口１０９の外にいる２人の来店客４０３はまだ映り込んでいない。一定時間後の入口カメラ１０２の第２画像フレーム４１１には、先ほど外にいた２人の来店客４１２が映り込んでいるが、３人の来店客４１３は入口カメラ１０２の撮影領域を通過して映り込んでいない。

図４（ｃ）は、映像の画像フレームと映り込んでいる人物との関係を時系列で示した模式図である。各画像フレーム間隔は１秒間とされている。一般に、小売店や飲食店では、１つのグループの人物はほぼ同時に入店する傾向がある。グループＢは、第１画像フレーム４０１に全ての人物が映り込んでいるため、映像解析部３２１は１つの第１画像フレーム４０１を画像解析することでグループの推定が可能である。しかし、グループＡのようにグループの人物が入店する時間に数秒間のずれが生じた場合、同じ画像フレームに映り込まない可能性がある。そのため、映像解析部３２１は、一定期間、例えば５秒間の画像フレームをまとめて画像フレーム群５１１〜５１４とし、各画像フレーム群を画像解析の対象と見なして処理を行う。画像フレーム群５１２、５１３にグループＡの全ての人物が含まれるため、これらの画像フレーム群５１２、５１３を使用した場合にグループＡの推定が可能となる。

入口カメラ１０２でのグループ推定の流れを説明する。図５は、図２の年齢性別条件保持部３２５の一例を示すデータ構造図である。年齢性別条件保持部３２５は、グループ属性と、該グループ属性が割り当てられる年齢・性別基準と、を対応付けて保持する。検出部３１３により、画像フレームに映る人物と、該人物の年齢・性別と、が取得される。このようにして取得された複数の人物の年齢・性別が年齢性別条件保持部３２５に保持される年齢・性別基準を満たす場合、該複数の人物は対応するグループ属性を有する仮グループに属すると決定される。図５では、グループ属性として家族連れ、カップル、友達、一人客（非グループ）の４種類の例が挙げられる。

検出部３１３による検出処理の結果、ａ１、ａ２、ａ３、ｂ１、ｂ２がそれぞれ、３０代の男性、３０代の女性、１０歳未満の男性、２０代の男性、２０代の女性であると検出された場合を考える。図４（ｃ）の画像フレーム群５１１〜５１４の全てについて、映り込む人物の組み合わせを列挙すると、｛ａ１｝、｛ａ１，ａ２，ａ３，ｂ１，ｂ２｝、｛ａ１，ｂ１，ｂ２｝、｛ａ２，ａ３｝、｛ａ２，ａ３，ｂ１，ｂ２｝の５つの組み合わせとなる。これらの組み合わせの中から比較的多く現れる組み合わせとして｛ａ２，ａ３｝と｛ｂ１，ｂ２｝とが抽出される。｛ａ２，ａ３｝の組み合わせは３０代女性と１０歳未満の男性、｛ｂ１，ｂ２｝の組み合わせは２０代の男性と２０代の女性であり、｛ｂ１，ｂ２｝の組み合わせがグループ属性「カップル」の年齢性別基準を満たす。この｛ｂ１，ｂ２｝をカップルと推定して仮グループとし、この人物２人をはじめに列挙した５つの組み合わせから除外すると、残りの組み合わせは｛ａ１｝、｛ａ１，ａ２，ａ３｝、｛ａ２，ａ３｝の３つの組み合わせである。｛ａ１｝と｛ａ２，ａ３｝とは該当するグループ属性がなく、｛ａ１，ａ２，ａ３｝はグループ属性「家族連れ」に該当する。この｛ａ１，ａ２，ａ３｝を家族連れと推定して仮グループとすると、全ての人物を仮グループに分けることができる。

上記のように推定された仮グループについて、算出部３２３は、グループ属性に応じた第１計算式によってグループらしさを示すグループ確度（第１確度）を計算し、仮グループに付与する。例えばファミリー向けの品揃えの店舗であれば、第１計算式において家族連れのグループに重みづけを行うことで、グループ特定の精度の向上を図ることができる。重みづけは手動で設定されてもよく、またはグループの来店頻度による自動のフィードバックで設定されてもよい。第１計算式は、グループ属性が家族連れであれば両親の年齢差が小さいほど点数が高くなるよう、また子供と両親との年齢差が２０〜３０歳に近いほど点数が高くなるように定義される。第１計算式は、グループ属性がカップルであれば１０〜２０歳でありかつ年齢差が小さいほど点数が高くなるように定義される。第１計算式は、グループ属性が友達であれば年齢差が小さいほど点数が高くなるように定義される。更新部３２４は精度向上のために、グループ化部３１４におけるグループ推定の結果を、年齢性別条件保持部３２５に保持される年齢性別条件のパラメータにフィードバックする。

図６（ａ）〜（ｄ）は、店内カメラ１０４、１０５の特性を説明するための図である。図６（ａ）、（ｂ）はいずれも、店内カメラ１０４による撮像の結果得られる店内画像を示しており、これらの店内画像から行動条件を利用したグループ推定が行われる。図６（ａ）はある時点での画像フレームに映り込んだ人物全員を１つのグループと推定した失敗例を、図６（ｂ）は行動条件を利用して２つのグループと推定した成功例を示している。図中のａ１、ａ２、ａ３はグループＡ、ｂ１、ｂ２はグループＢに属する人物を表している。

店内カメラ１０４は、様々な方向へ様々な速度で移動する人物の全体像を明確に確認できるように設置されているため、店内カメラ１０４からの店内画像は公知の動体追尾技術から得られる動線を利用したグループ推定に都合が良い。そのため、店内画像には行動条件を利用したグループ推定の手法が適用される。

店内カメラ１０４からの店内画像の失敗例に係る映像解析結果７０１では、グループ分けを示す破線７０２によって示される通り、映り込んだ人物全員が１つのグループに属すると推定されている。これは、映像中の１つの画像フレームに映り込んだ人物全員を１つのグループに属すると仮定したためである。

店内カメラ１０４からの店内画像の成功例に係る映像解析結果７１１では、グループ分けを示す破線７１２、７１３によって示される通り、グループＡ、グループＢの２つのグループとして推定されている。これは、グループ化部３１４が、映像中の複数の画像フレームを比較することで全ての人物の移動方向や移動速度７１４、７１５、人物間の距離７１６、７１７を算出し、類似する行動をしている複数の人物を１つのグループに属すると仮定したためである。

図６（ｃ）、（ｄ）は、類似性の高い行動を表す模式図である。図６（ｃ）は人物ａ１、ａ２のそれぞれの移動方向と速度とを示す。人物ａ１のベクトルｖ１と人物ａ２のベクトルｖ２との類似度Ｓが大きいほど行動の類似性が高いと判定される。類似度Ｓは、ベクトルｖ１とベクトルｖ２とから計算されるコサイン類似度ｃｏｓを使用して定義される。コサイン類似度ｃｏｓは、ｖ１とｖ２との内積を、ｖ１のノルムとｖ２のノルムとの積で除算したものとして定義され、−１から１までの値を取る。類似度Ｓは以下の式で表される。

図６（ｄ）は２人の人物間の距離Ｄを示す。人物ａ１と人物ａ２との間の相対距離Ｄが近いほど、行動の類似性が高いと判定される。グループ化部３１４は、これらの評価尺度を仮グループの人物全てに行い、平均値をもって仮グループでの評価尺度とする。

店内カメラ１０４、１０５でのグループ推定の流れを説明する。図７は、図２の行動条件保持部３２６の一例を示すデータ構造図である。行動条件保持部３２６は、グループ属性と、該グループ属性が割り当てられる行動基準と、を対応付けて保持する。グループ化部３１４による複数の画像フレームの解析により、画像フレームに写る人物の移動方向、速度および人物間の距離が取得される。このようにして取得された複数の人物の移動方向、速度および距離が行動条件保持部３２６に保持される行動基準を満たす場合、該複数の人物は対応するグループ属性を有する仮グループに属すると決定される。図７では図５と同じく、グループ属性として家族連れ、カップル、友達、一人客（非グループ）の４種類の例が挙げられる。なお、年齢性別条件保持部３２５におけるグループ属性と行動条件保持部３２６におけるグループ属性とは同じであってもよいし異なっていてもよい。行動条件保持部３２６に保持される行動基準は、対応するグループ属性のグループに属する人物について想定される行動に基づき定義される。例えば、家族連れとカップルと友達のグループは店内移動時に一緒に行動する（類似度の高い行動を取る）が、一人客は独立に行動する（類似度の低い行動を取る）。家族連れとカップルのグループは、人物間の距離が近い状態（手がつなげる程度の距離）で行動するが、友達のグループは一定の距離（会話ができる程度の距離）を保って行動する。人数については、家族連れは３人以上、カップルは２人組、友達は２人以上で構成される。

グループ化部３１４により行動条件保持部３２６を適用してグループ属性が設定された仮グループについて、算出部３２３はそれぞれのグループ属性に合わせた第２計算式を用いてグループ確度（第２確度）を計算し、仮グループに付与する。年齢性別条件と同様に、第２計算式においてグループに重みづけを行うことでグループ特定の精度の向上を図ることができる。重みづけは手動で設定されてもよく、または自動のフィードバックで設定されてもよい。第２計算式は、グループ属性が家族連れであれば、移動方向や速度が近くて人物間距離が近く、人数が３〜５人に近いほど高確度となるよう定義される。第２計算式は、グループ属性がカップルであれば、移動方向や速度が近くて人物間距離が近いほど高確度となるよう、かつ人数が２人の場合に限るよう定義される。第２計算式は、グループ属性が友達であれば、移動方向や速度が近く、一定の距離として２ｍに近いほど高確度となるよう、かつ２人以上の任意の人数でよいように定義される。更新部３２４は精度向上のために、グループ化部３１４におけるグループ推定の結果を、行動条件保持部３２６に保持される行動条件のパラメータにフィードバックする。

図８は、仮グループからグループを再構成する動作の模式図である。映像解析部３２１は、各カメラの仮グループからグループを確定する。入口カメラ１０２による仮グループ推定結果１１０１は、未確定の仮グループ１１０２（例えば仮グループＡ）やグループ化されなかった人物１１０３（例えば人物ｃ２）を複数含む。店内カメラ１０４による仮グループ推定結果１１１１、店内カメラ１０５による仮グループ推定結果１１２１も同様に、仮グループとグループ化されなかった人物とを複数含む。仮グループ推定結果１１０１、１１１１、１１２１を合わせて未確定の仮グループ群とする。

映像解析部３２１は、各仮グループに付与されたグループ確度の点数（図８において仮グループの矩形に接続された円領域内の数字で示される）を用いて、仮グループから確定済みのグループ１１３２（例えばグループＸ）を順に得ていき、統廃合を繰り返すことで確定済みのグループ群１１３１を得る。映像解析部３２１は、まず、未確定の仮グループ群から最も高得点の仮グループ（仮グループＦ（９０点））と次に高得点の仮グループ（仮グループＡ（８０点））とを抽出する。映像解析部３２１は、これらの仮グループに属する人物の顔特徴量を比較して、同一人物が存在すればこれらの仮グループをマージし、存在しなければ独立したグループとする。図８の例では、仮グループＡと仮グループＦとに同一人物（人物ａ１、ａ２）が存在すると判定され、両仮グループが統合され、統合の結果人物ａ１、ａ２、ａ３からなる確定済みのグループＸが再構成される。

映像解析部３２１は、確定済みのグループに属する人物を未確定の仮グループ群から除外し、更新された仮グループでグループ確度を再計算する。図８の例では、グループＸに属する人物ａ１、ａ２、ａ３が未確定の仮グループ群から除かれた結果、仮グループＤのグループ確度が２５から５０に更新される。また、仮グループＣはグループではなくなる。映像解析部３２１は、更新された未確定の仮グループ群から、再び高得点の仮グループの抽出とマージを繰り返す。図８の例では、映像解析部３２１は、残存する未確定の仮グループから最も高得点の仮グループ（仮グループＥ（７０点））と次に高得点の仮グループ（仮グループＧ（６５点））とを抽出する。抽出された仮グループＥと仮グループＧとに同一人物（人物ｃ１）が存在すると判定され、両仮グループが統合され、統合の結果人物ｃ１、ｃ２、ｃ３からなる確定済みのグループＺが再構成される。グループＺに属する人物ｃ１、ｃ２、ｃ３が未確定の仮グループ群から除かれた結果、仮グループＢのグループ確度が３０から６０に更新される。映像解析部３２１は、残存する未確定の仮グループから最も高得点の仮グループ（仮グループＢ（６０点））と次に高得点の仮グループ（仮グループＤ（５０点））とを抽出する。抽出された仮グループＢと仮グループＤとに同一人物（人物ｂ１、ｂ２）が存在すると判定され、両仮グループが統合され、統合の結果人物ｂ１、ｂ２からなる確定済みのグループＹが再構成される。映像解析部３２１は、未確定の仮グループ群に２人以上のグループが無くなったら処理を終了する。この時に残った未確定の仮グループ群の人物は、全て一人客とされる。

以上の構成による画像処理システム２０４の動作を説明する。
図９（ａ）は、画像処理システム２０４における一連の処理の一例を示すフローチャートである。該フローチャートに対応する処理は、例えば、１以上のプロセッサが対応するプログラム（ＲＯＭ等に格納）を実行することにより実現される。図９（ｂ）〜（ｅ）はそれぞれ、図９（ａ）に示されるフローチャートのサブルーチンを示す。

まず、ステップＳ１２０１では、映像解析部３２１は、入口カメラ１０２の映像解析を行うため、サブルーチンＳ１２１０（図９（ｂ））を呼び出す。サブルーチンＳ１２１０のステップＳ１２１１では、検出部３１３は、録画映像保持部３１２から入口カメラ１０２の映像を取得する。ステップＳ１２１２では、検出部３１３は、入口カメラ１０２の映像全てに映った人物の顔特徴量（入口）と年齢性別とを抽出する。ステップＳ１２１３では、グループ化部３１４は、年齢性別条件保持部３２５から年齢性別条件を取得する。ステップＳ１２１４では、グループ化部３１４は、年齢性別条件から仮グループ（入口）を推定し、サブルーチン呼び出し元のステップＳ１２０２へ進む。

ステップＳ１２０２では、映像解析部３２１は、店内カメラ１０４、１０５の映像解析を行うため、サブルーチンＳ１２２０（図９（ｃ））を呼び出す。サブルーチンＳ１２２０のステップＳ１２２１では、検出部３１３は、録画映像保持部３１２から店内カメラ１０４、１０５の映像を取得する。ステップＳ１２２２では、検出部３１３は、店内カメラ１０４、１０５の映像全てに映った人物の顔特徴量（店内）と年齢性別とを抽出する。ステップＳ１２２３では、グループ化部３１４は、行動条件保持部３２６から行動条件を取得する。ステップＳ１２２４では、グループ化部３１４は、行動条件から仮グループ（店内）を推定し、サブルーチン呼び出し元のステップＳ１２０３へ進む。

ステップＳ１２０３では、映像解析部３２１は、仮グループ（入口）と仮グループ（店内）を利用しグループを確定するため、サブルーチンＳ１２３０（図９（ｄ））を呼び出す。サブルーチンＳ１２３０のステップＳ１２３１では、再構成部３２２は、未確定の仮グループ群から最も高得点の仮グループを抽出する。ステップＳ１２３２では、再構成部３２２は、未確定の仮グループ群から高得点の上位から順に仮グループを抽出する。ステップＳ１２３３では、再構成部３２２は、２つの仮グループに同一人物がいるか判断し、真ならばステップＳ１２３４へ進み、偽ならばステップＳ１２３２へ進む。ステップＳ１２３４では、再構成部３２２は、２つの仮グループをマージしてグループを確定する。ステップＳ１２３５では、再構成部３２２は、未確定の仮グループ群からマージしたグループに含まれる人物を除外する。ステップＳ１２３７では、再構成部３２２は、未確定の仮グループ群に２人以上が含まれる仮グループが存在するか判断し、真ならばステップＳ１２３１へ進み、偽ならばステップＳ１２３８へ進む。ステップＳ１２３８では、再構成部３２２は、未確定の仮グループ群の仮グループの属性を全て一人客に設定し、呼び出し元のステップＳ１２０４へ進む。

ステップＳ１２０４では、映像解析部３２１は、顧客データを生成する。ステップＳ１２０５では、映像解析部３２１は、顧客データを顧客データ保持部３３１に格納する。ステップＳ１２０６では、映像解析部３２１は、年齢性別条件保持部３２５、行動条件保持部３２６の更新のために、サブルーチンＳ１２４０（図９（ｅ））を呼び出す。サブルーチンＳ１２４０のステップＳ１２４１では、更新部３２４は、年齢性別条件に無いグループがあるか判断し、真ならばステップＳ１２４２へ進み、偽ならばステップＳ１２４３へ進む。ステップＳ１２４２では、更新部３２４は、年齢性別条件保持部３２５に新たな年齢性別条件を追加し、ステップＳ１２４３へ進む。ステップＳ１２４３では、更新部３２４は、年齢性別条件保持部３２５のパラメータを更新する。ステップＳ１２４４では、更新部３２４は、行動条件に無いグループがあるか判断し、真ならばステップＳ１２４５へ進み、偽ならばステップＳ１２４６へ進む。ステップＳ１２４５では、更新部３２４は、行動条件保持部３２６に新たな行動条件を追加し、ステップＳ１２４６へ進む。ステップＳ１２４６では、更新部３２４は、行動条件保持部３２６のパラメータを更新し、呼び出し元に戻り、処理を終了する。

本実施の形態に係る画像処理システム２０４によると、店舗の複数箇所に設置されたカメラの映像の処理結果を組み合わせることで、グループ特定の精度を向上させることができる。また、その精度の向上によって、より多様なマーケティング分析が可能となる。例えば、入口カメラ１０２の映像だけでなく店内カメラ１０４、１０５の映像も使用することで、グループが同時に入店しなかったり他の人が紛れたりした場合にもより正確にグループを特定できる。

店舗の入口１０９の入口カメラ１０２だけでは、グループの人物が同時に入店しない場合や、同時に複数グループが入店した場合や、人物の顔が重なる場合や、正面から撮影できず顔認識ができない場合等にグループ特定の精度が低下しうる。本実施の形態では、店内カメラ１０４、１０５からの映像の解析結果も加味することにより、上記の場合でもより正確にグループを特定することができる。

店舗内のカメラの設置場所によって、撮影できる範囲や人物の挙動の特性が異なる。そこで、本実施の形態に係る画像処理システム２０４では、カメラの設置場所に応じてグループ推定の条件を使い分けることで、より精度の高いグループの特定が可能となる。例えば、入口カメラ１０２の映像に対しては、入口カメラ１０２が人物の認識により適していることから、人物認識に係る条件が適用される。一方、店内カメラ１０４、１０５の映像に対しては、店内カメラ１０４、１０５が人物の行動の追跡により適していることから、行動に係る条件が適用される。

（第２の実施の形態）
第２の実施の形態では、入口カメラ１０２、店内カメラ１０４、１０５に加えてレジカメラ１０７からの映像を使用する場合を説明する。本実施の形態では、ＰＯＳレジスタの売上データ（売上情報）をグループ特定結果と連携させ、新規来店客獲得や顧客単価向上などのマーケティング分析に利用する。レジカメラ１０７は、入口カメラ１０２とも店内カメラ１０４、１０５とも異なる特性を有するカメラ群であってもよい。

図１０は、第２の実施の形態に係る画像処理システム１３００のシステム構成図である。画像処理システム１３００は、カメラ制御部３１１と、録画映像保持部３１２と、映像解析部３２１と、年齢性別条件保持部３２５と、行動条件保持部３２６と、顧客データ保持部３３１と、売上データ保持部１３４２と、データ統合部１３４３と、分析用データ保持部１３４４と、を備える。レジカメラ１０７は、カメラ制御部３１１によって制御され、レジカメラ１０７の映像は録画映像保持部３１２に記録される。ＰＯＳレジスタ１３４１は会計カウンタ１１０に設置される。会計時に店員がＰＯＳレジスタ１３４１を操作し、ＰＯＳレジスタ１３４１は売上品目と金額と日時とを売上データ保持部１３４２に記録する。データ統合部１３４３は、顧客データ保持部３３１の顧客データと、売上データ保持部１３４２の売上データと、を日時等の時刻をキーにして統合する。例えば、データ統合部１３４３はレジカメラ１０７で撮影した映像における時刻と、ＰＯＳレジスタ１３４１で記憶している時刻との対応関係に基づいて統合する。データ統合部１３４３は、過去の来店履歴と購買履歴とから最新来店日、来店頻度、最新購買日、購買頻度、購買金額等の、マーケティング分析用データを生成して、分析用データ保持部１３４４に記録する。

以上の構成による画像処理システム１３００の動作を説明する。
図１１（ａ）は、画像処理システム１３００における一連の処理の一例を示すフローチャートである。該フローチャートに対応する処理は、例えば、１以上のプロセッサが対応するプログラム（ＲＯＭ等に格納）を実行することにより実現される。図１１（ｂ）は、図１１（ａ）に示されるフローチャートのサブルーチンを示す。

まず、ステップＳ１４０１では、映像解析部３２１は、入口カメラ１０２の映像解析を行うため、サブルーチンＳ１２１０を呼び出す。ステップＳ１４０２では、映像解析部３２１は、店内カメラ１０４、１０５の映像解析を行うため、サブルーチンＳ１２２０を呼び出す。ステップＳ１４０３では、映像解析部３２１は、仮グループ（入口）と仮グループ（店内）とを利用しグループを確定するため、サブルーチンＳ１２３０を呼び出す。ステップＳ１４０４では、映像解析部３２１は、顧客データを生成する。ステップＳ１４０５では、映像解析部３２１は、顧客データを顧客データ保持部３３１に格納する。ステップＳ１４０６では、映像解析部３２１は、年齢性別条件保持部３２５、行動条件保持部３２６の更新のために、サブルーチンＳ１２４０を呼び出す。ステップＳ１４０７では、映像解析部３２１は、レジカメラ１０７の映像解析を行うため、サブルーチンＳ１４２０（図１１（ｂ））を呼び出す。

サブルーチンＳ１４２０のステップＳ１４２１では、検出部３１３は、録画映像保持部３１２からレジカメラ１０７の映像を取得する。ステップＳ１４２２では、検出部３１３は、レジカメラ１０７の映像全てに映った人物の顔特徴量（レジ）と年齢性別とを推定し、呼び出し元のステップＳ１４０８へ進む。

ステップＳ１４０８では、データ統合部１３４３は、顔特徴量（レジ）と顔特徴量（全体）とでグループ（全体）を関連付ける。ステップＳ１４０９では、データ統合部１３４３は、ＰＯＳレジスタ１３４１の売上データの日時とレジカメラ１０７の日時とで、売上データとグループ（全体）とを関連付ける関連付け部として機能する。例えば、データ統合部１３４３はレジカメラ１０７で撮影した映像における時刻と、ＰＯＳレジスタ１３４１で記憶している時刻との対応関係に基づいて統合する。データ統合部１３４３は、関連付けの結果に基づき顧客データ保持部３３１を更新する。ステップＳ１４１０では、データ統合部１３４３は、顧客データ保持部３３１から来店頻度、購買金額、購買頻度、最新購買日を抽出し、分析用データ保持部１３４４に格納し、処理を終了する。

本実施の形態に係る画像処理システム１３００によると、第１の実施の形態に係る画像処理システム２０４によって奏される作用効果と同様の作用効果が奏される。

以上、実施の形態に係る画像処理システムの構成と動作について説明した。これらの実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

第１および第２の実施の形態では、飲食店や小売店を対象とする場合について説明したが、これに限られない。例えば一般のオフィス、工場、駐車場、その他の店舗形態や建物等に設置されたネットワークカメラからの映像を処理する場合に、第１または第２の実施の形態に係る技術的思想を適用してもよい。

第１および第２の実施の形態では、入口カメラ１０２や店内カメラ１０４、１０５からの映像を対象とする場合について説明したが、これに限られない。例えば、利用するカメラとして、店外カメラ、車内カメラ、機器内部カメラ、移動式カメラ（レストランの給仕ロボットに組み込まれたカメラ等）等が採用されてもよい。

第１および第２の実施の形態では、店内カメラ１０４、１０５の映像からの仮グループ推定において、類似性の高い行動か否かを判断するためにコサイン類似度を算出する場合について説明したが、これに限られない。コサイン類似度の代わりに、例えばユークリッド距離、マハラノビス距離、ピアソンの相関係数等の尺度が使用されてもよい。また、行動の類似度と人物間距離による類似度とを計算する代わりに、全ての画像フレームでの人物間距離の平均値が使用されてもよい。

第１および第２の実施の形態では、グループ属性として家族連れ、カップル、友達等が例示されたが、これに限られず、主婦、学生、仕事仲間等のグループ属性が設定されてもよい。

第２の実施の形態では、売上データをＰＯＳレジスタ１３４１から取得する場合について説明したが、これに限られない。例えば、タブレット型レジスタ、ハンディターミナル、売上管理ソフト、ＡＳＰサービス、クラウドサービス等から売上データが取得されてもよい。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０１小売店、１０２入口カメラ、１０４店内カメラ、２０４画像処理システム、３２１映像解析部。

Claims

第１領域を撮像して得られる第１画像および前記第１領域とは異なる第２領域を撮像して得られる第２画像のそれぞれから人物を検出する検出部と、
前記検出部によって前記第１画像から検出された人物を第１条件にしたがいグループに分けると共に、前記検出部によって前記第２画像から検出された人物を第２条件にしたがいグループに分けるグループ化部と、
前記第１画像に係るグループと前記第２画像に係るグループとを比較する比較部と、
前記比較部における比較結果に基づいてグループを再構成する再構成部と、を備えることを特徴とする画像処理システム。
前記第１条件は前記第１領域に応じた条件であり、前記第２条件は前記第２領域に応じた条件であり、前記第１条件と前記第２条件とは異なることを特徴とする請求項１に記載の画像処理システム。
前記第１画像は第１撮像装置が前記第１領域を撮像して得られる画像であり、前記第２画像は前記第１撮像装置とは異なる第２撮像装置が前記第２領域を撮像して得られる画像であることを特徴とする請求項１または２に記載の画像処理システム。
前記比較部は、前記第１画像に係るグループに含まれる人物の特徴量と前記第２画像に係るグループに含まれる人物の特徴量とを比較し、
前記再構成部は、前記比較部における比較の結果、同一人物であると判定される場合は前記第１画像に係るグループと前記第２画像に係るグループとを統合することを特徴とする請求項１から３のいずれか１項に記載の画像処理システム。
前記第１画像に係るグループの第１確度を前記第１領域に応じた第１計算式で算出すると共に、前記第２画像に係るグループの第２確度を前記第２領域に応じた第２計算式であって前記第１計算式とは異なる第２計算式で算出する算出部をさらに備え、
前記比較部は、前記算出部によって算出された前記第１確度および前記第２確度を比較に使用することを特徴とする請求項１から４のいずれか１項に記載の画像処理システム。
前記第１領域は店舗の入口であり、前記第２領域は店舗の店内の領域であることを特徴とする請求項１から５のいずれか１項に記載の画像処理システム。
前記第１条件は人物の属性に関する条件であり、前記第２条件は人物の動きに関する条件であることを特徴とする請求項６に記載の画像処理システム。
前記第２画像は店舗の精算場所に設置された撮像装置から得られる画像であり、
前記画像処理システムはさらに、前記精算場所に対応する精算装置から得られる売上情報と前記再構成部によって再構成されたグループとを関連付ける関連付け部を備えることを特徴とする請求項１から７のいずれか１項に記載の画像処理システム。
グループ属性と、該グループ属性が割り当てられる基準と、を対応付けて保持する条件保持部と、
前記条件保持部を更新する更新部と、をさらに備え、
前記グループ化部は前記条件保持部を参照してグループ分けを行うことを特徴とする請求項１から８のいずれか１項に記載の画像処理システム。
第１領域を撮像して得られる第１画像および前記第１領域とは異なる第２領域を撮像して得られる第２画像のそれぞれから人物を検出することと、
前記第１画像から検出された人物を第１条件にしたがいグループに分けると共に、前記第２画像から検出された人物を第２条件にしたがいグループに分けることと、
前記第１画像に係るグループと前記第２画像に係るグループとを比較することと、
比較結果に基づいてグループを再構成することと、を含むことを特徴とする画像処理方法。
コンピュータを請求項１乃至９のいずれか１項に記載のシステムの各部として機能させるためのプログラム。