JP2022052538A

JP2022052538A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2022052538A
Application number: JP2020158977A
Authority: JP
Inventors: 敦史川野; Atsushi Kawano; 翔齊藤; Sho Saito; 章文田中; Akifumi Tanaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-04-04

Abstract

【課題】対象人物に対して、監視中であることを適切に知覚させることができるようにする。【解決手段】画像の中から人物を検出し、人物の行動履歴を記録し、都度更新する。人物の不審行動を検知した場合は、当該人物の行動履歴に沿った音声を作成し、出力する。また、当該人物の周辺に他の人物がいる場合は、当該他の人物の行動履歴と比較して、当該人物に特有の行動に基づいた音声を作成し、出力する。【選択図】図２

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

万引き等の犯罪行為を抑止する方法として、監視カメラの画像を解析して人物の所定の行動を検知した時、同人物の近傍に配置されたスピーカーから音声を出力することで同人物に対して監視中であることを知覚させる方法がある。特許文献１では、人物の所定行動を検知した時、同人物の外見的特徴を参照して、対象の外見的特徴に関連する音声を選択して再生する監視システムが提案されている。

特開２０１８－１９６０６０号公報

しかしながら、通常、人物は行動する際に自身の外見的特徴に強い意識を持っていないため、外見的特徴に関連付く音声を出力しても対象人物が自身であると認知することは難しい。例えば、万引き等の犯罪行為を行う人物は外見的特徴が少なく目立たない服装をしている場合が多いため、外見的特徴で同人物に対象人物が自身であることを認知させることは難しい。また、対象人物の周囲に類似の外観的特徴を持つ人物がいる場合、自身に対する音声の再生であると認知することがより難しい。このため、外見的特徴に関連する音声では、対象人物に対して、監視中であることを知覚させる効果を十分に得られない。

本発明は上述した問題を解決するためになされたものであり、対象人物に対して、監視中であることを適切に知覚させることができるようにすることを目的としている。

本発明に係る画像処理装置は、画像の中から人物を検出して追尾し、前記人物の行動履歴を取得する取得手段と、前記取得手段によって取得された行動履歴を記憶する記憶手段と、前記記憶手段に記憶された行動履歴に基づいて、音声を出力する対象人物がいるか否かを判定する判定手段と、前記判定手段により音声を出力する対象人物がいると判定された場合に、前記記憶手段に記憶された前記対象人物の行動履歴に基づいて、前記対象人物に関連する音声を作成する作成手段と、前記作成手段によって作成された音声を出力装置に出力する出力手段と、を有することを特徴とする。

本発明によれば、対象人物に対して、監視中であることを適切に知覚させることができる。

第１の実施形態における店舗の構成の一例を示す図である。第１の実施形態に係る監視システムの構成の一例を示すブロック図である。行動記憶部が記憶する情報のデータ構造を説明するための図である。音声記憶部が記憶する情報のデータ構造を説明するための図である。第１の実施形態に係る監視システムの処理手順の一例を示すフローチャートである。第２の実施形態に係る監視システムの機能構成の一例を示すブロック図である。第２の実施形態の画像処理装置の処理手順の一例を示すフローチャートである。第３の実施形態に係る監視システムの機能構成の一例を示すブロック図である。第３の実施形態の画像処理装置の処理手順の一例を示すフローチャートである。

（第１の実施形態）
以下、添付の図面を参照して、本発明の第１の実施形態について詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
第１の実施形態に係る監視システムは、人物の特定の行動を検知した時、当該人物の行動履歴と当該人物の周辺にいる人物の行動履歴とに基づいて、音声を選択して再生するシステムである。図１は、第１の実施形態で想定する店舗の構成の一例を示す図であり、店舗とは、例えば家電等を販売する量販店である。後ほど、図１を参照して、本実施形態に係る監視システムの動作について説明する。

次に、図２を参照して、本実施形態に係る監視システムの構成について説明する。
図２（ａ）は、本実施形態に係る監視システムの機能構成の一例を示すブロック図である。本システムは、撮像装置１００、画像処理装置２００、および出力装置３００から構成される。撮像装置１００は、図１のカメラ１やカメラ２１であり、店内に設置され、従業員や客を撮影する。出力装置３００は、図１のスピーカー２やスピーカー２２であり、店舗内の商品棚に設置される。なお、図２（ａ）においては、２つの撮像装置１００および２つの出力装置３００を示しているが、撮像装置１００および出力装置３００の数は１つでもよく、３つ以上でもよい。撮像装置１００、画像処理装置２００、および出力装置３００は、通信ネットワークを介して接続される。具体的には、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮなどの通信ネットワークで接続される。

まず、図２（ｂ）を参照して、画像処理装置２００のハードウェア構成について説明する。図２（ｂ）は、本実施形態に係る画像処理装置２００のハードウェア構成の一例を示すブロック図である。
画像処理装置２００は、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、ＨＤＤ１４と、表示部１５と、入力Ｉ／Ｆ１６と、通信部１７とを有している。ＣＰＵ１１は、ＲＯＭ１２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１３は、ＣＰＵ１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１４は、各種データや各種プログラム等を記憶する。表示部１５は、各種情報を表示する。なお、表示部１５はタッチパネルと一体型の表示装置であってもよい。入力Ｉ／Ｆ１６は、操作情報を入力するためのインターフェースである。通信部１７は、有線または無線によりネットワークを介して撮像装置１００や出力装置３００等の外部装置との通信処理を行う。

なお、後述する画像処理装置２００の機能や処理は、ＣＰＵ１１がＲＯＭ１２またはＨＤＤ１４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、他の例としては、ＣＰＵ１１は、ＲＯＭ１２等に替えて、ＳＤカード等の記録媒体に格納されているプログラムを読み出してもよい。

なお、本実施形態では、画像処理装置２００は、１つのプロセッサ（ＣＰＵ１１）が１つのメモリ（ＲＯＭ１２）を用いて後述するフローチャートに示す各処理を実行するものとするが、他の様態であっても構わない。例えば複数のプロセッサーや複数のＲＡＭ、ＲＯＭおよびストレージを協働させて後述するフローチャートに示す各処理を実行することもできる。また、ハードウェア回路を用いて一部の処理を実行するようにしても良い。また、ＣＰＵ以外のプロセッサーを用いて後述する画像処理装置２００の機能や処理を実現することとしてもよい（例えば、ＣＰＵに替えてＧＰＵ（Graphics Processing Unit）を用いることとしてもよい。）。

次に、撮像装置１００、画像処理装置２００および出力装置３００の機能構成について説明する。

撮像装置１００は、撮像部１０１と画像送信部１０２とを有する。
撮像部１０１は、撮像レンズや、ＣＣＤやＣＭＯＳなどの撮像センサや、Ａ／Ｄ変換および所定の信号処理を行う信号処理部などから構成される。また、撮像部１０１は、撮像して得られた画像を所定の時間間隔で画像送信部１０２に送信する。
画像送信部１０２は、撮像部１０１から受信した画像に撮像装置情報、時刻などの付加情報を付与して、ネットワーク上に送信可能なデータに変換して、画像処理装置２００に送信する。

画像処理装置２００は、画像受信部２０１と人物検出追尾部２０２と顔特徴ＤＢ２０３とカメラ間人物照合部２０４と挙動抽出部２０５と行動記憶部２０６と行動検知部２０７と音声記憶部２０８と音声選択作成部２０９と音声送信部２１０とを有する。
画像受信部２０１は、通信部１７を介して撮像装置１００からデータ受信し、受信したデータから画像を取り出して画像を人物検出追尾部２０２に送信する。
人物検出追尾部２０２は、画像受信部２０１が受信した画像に写る人物の検出処理と、検出した人物を画像間で対応付ける追尾処理とを行う。人物の検出処理は、例えば、機械学習を用いて人物の画像上の位置を抽出することにより行う。位置は、画像の左上を原点として、人物を囲む矩形の中心座標、矩形の幅および矩形の高さで表現することができる。
また、追尾処理は、検出した人物を連続する画像間で対応付ける処理である。人物検出追尾部２０２は、例えば、連続する画像それぞれにおける人物を囲む矩形の中心座標を結ぶ線分の長さ、矩形の幅および矩形の高さの変化量と、過去の追尾処理により得られた人物の予測位置とに基づいて、各画像から検出した人物の対応付けを行う。そして、各人物に追尾ＩＤを付与する。なお、追尾ＩＤは、撮像装置の画像列を問わず重複しない一意な識別子となるようにする。具体的には、人物検出追尾部２０２は、ある撮像装置の画像列中の人物に追尾ＩＤとして「１０」を付与したら、その他の撮像装置の画像列中の人物には追尾ＩＤとして「１０」は付与しないよう制御する。
人物検出追尾部２０２は、検出処理および追尾処理が完了すると、検出した人物の画像、追尾ＩＤ、および人物を囲む矩形の中心座標、幅、高さなどの人物の情報をカメラ間人物照合部２０４と、挙動抽出部２０５とに送信する。

顔特徴ＤＢ２０３は、後述する顔認証処理で用いる人物の顔特徴に関する情報を記憶する。具体的には、顔特徴ＤＢ２０３内のテーブルは、顔特徴インデックス番号と、人物ＩＤと、顔特徴データとを対応付けて記憶している。顔特徴インデックス番号とはレコードの識別子、人物ＩＤとは人物の識別子、顔特徴データとは人物の顔画像から抽出した同人物の特徴を示すデータである。
カメラ間人物照合部２０４は、異なる時刻、異なる撮像装置の画像に写る同一人物を照合して、一意な人物ＩＤを付与する。人物の照合においては、顔特徴ＤＢ２０３に記憶されている顔特徴データを参照して、顔認証処理を行う。なお、カメラ間人物照合部２０４は、人物検出追尾部２０２から人物の情報を受信する度に、人物の画像中のすべての人物に関して顔認証処理を実施する。
以下、顔認証処理の一例について説明する。カメラ間人物照合部２０４は、まず、画像上の人物の位置を示す人物の矩形領域の内部に限定して顔検出処理を行う。カメラ間人物照合部２０４は、顔領域を検出した場合は、同顔領域から顔特徴データ（以下、照合データとする。）を抽出する。次に、カメラ間人物照合部２０４は、照合データを顔特徴ＤＢ２０３のすべての顔特徴データ（以下、非照合データとする。）と比較する。カメラ間人物照合部２０４は、比較の結果、顔特徴データ間の一致度合いを示す尤度を出力する。カメラ間人物照合部２０４は、尤度が閾値を超えた場合は、最も高い尤度の非照合データを照合データの示す人物と同一人物の顔特徴データとみなす。この場合、カメラ間人物照合部２０４は、非照合データと対応する人物ＩＤを取得して、人物ＩＤと人物検出追尾部２０２から受け取った追尾ＩＤとを行動記憶部２０６に対応付けて記録する。
一方で、尤度が閾値を超えない場合、カメラ間人物照合部２０４は、非照合データの示す人物は新規人物であるとみなす。この場合、カメラ間人物照合部２０４は、顔特徴ＤＢ２０３にレコードを新規作成して、顔特徴インデックス番号と、人物ＩＤとを発行し、顔特徴インデックス番号、人物ＩＤ、および抽出した顔特徴データを記録する。また、カメラ間人物照合部２０４は、行動記憶部２０６に人物ＩＤと追尾ＩＤとを対応付けて記録する。
一方で、顔検出処理により顔領域を検出できない場合、カメラ間人物照合部２０４は、行動記憶部２０６に記憶している人物ＩＤと追尾ＩＤとの対応付けを参照して、処理対象の追尾ＩＤが存在する場合、追尾ＩＤと対応する人物ＩＤを同人物に付与する。
このように顔認証処理を行うことで、異なる撮像装置に映る人物の照合を行う。また、カメラ間人物照合部２０４は、人物ＩＤと追尾ＩＤとの対応関係のほかに、人物検出追尾部２０２から受信した人物の情報も行動記憶部２０６に記録する。

挙動抽出部２０５は、人物検出追尾部２０２で検出、追尾した人物の挙動を抽出する。挙動とは、例えば、周囲を見る、商品を持つ、商品を戻す、商品をかばんに入れる、などの行動である。挙動抽出部２０５は、具体的には、各人物に対して機械学習を用いた姿勢推定処理を行い、姿勢の時系列変化に基づいて挙動の有無を判定することにより挙動を抽出する。
姿勢推定処理において、挙動抽出部２０５は、人物の矩形領域の内側から目、鼻、首、肩、肘、手、腰、膝および足の位置を推定して、挙動抽出部２０５内の姿勢ＤＢに追尾ＩＤと対応付けて記録する。各挙動の判定は、姿勢ＤＢが記憶している情報を用いて行う。
周囲を見る行動について、挙動抽出部２０５は、例えば過去２秒間の顔の向きの変化量を算出して閾値を超える場合は周囲を見ると判定する。顔の向きは、目、鼻の位置関係から推定する。例えば、右目から鼻の距離と左目から鼻の距離とが等しい場合は正面向き、右目から鼻の距離が左目から鼻の距離より小さい場合は右向き、逆の場合は左向きと推定する。
商品を持つ行動について、挙動抽出部２０５は、体の向きが商品棚を向き、手が商品棚と接触したことで判定する。体の向きは、肩、腰、膝および足の位置関係から推定する。商品棚の位置は事前に座標列で設定し、商品棚の座標列から成る領域の内部に手の座標が存在する場合に商品棚に接触したと判定する。さらに、挙動抽出部２０５は、商品棚に接触した後の画像の手領域に対して物体検出処理を行い、物体を検出した場合は商品を持ったと判定する。
商品を戻す行動について、挙動抽出部２０５は、商品を持つ行動の後に、手が商品棚と接触した際、商品棚に接触する前の画像の手領域で物体を検出し、商品棚に接触した後の画像の手領域で物体を検出しない場合は商品を戻したと判定する。
商品をかばんに入れる行動について、挙動抽出部２０５は、商品を持つ行動後に手がかばんと接触した際、かばんに接触する前の画像の手領域から物体を検出し、かばんに接触した後の画像の手領域から物体を検出しない場合に商品をかばんに入れたと判定する。なお、かばんの有無および位置は、検出追尾した人物の矩形領域に機械学習を用いたかばん検出処理を行うことで判定する。なお、人物の挙動は上述の種類に限定されず、画像列を解析することで判定可能な挙動であればよく、例えば、しゃがむ、買い物かごに商品を入れるなどが挙げられる。
挙動抽出部２０５は、上述したような挙動を抽出した場合、人物の追尾ＩＤと挙動の種類の情報とを行動記憶部２０６に記録する。

行動記憶部２０６は、カメラ間人物照合部２０４および挙動抽出部２０５から受信した情報を記憶する。図３は、行動記憶部２０６が記憶する情報のデータ構造の一例を示す図である。図３（ａ）は人物リスト、図３（ｂ）は登録リスト、図３（ｃ）は行動リスト、図４（ｄ）は非照合人物の行動リストの例を示す図である。
人物リストとは、カメラ間人物照合部２０４で人物ＩＤを付与した人物のリストである。人物リストにおいては、人物ＩＤごとに属性、出現時刻、最終検出時刻、登録ＩＤおよび顔特徴量インデックス番号が対応付けられている。人物リストの更新は、カメラ間人物照合部２０４から情報を取得した時に行われる。カメラ間人物照合部２０４は、カメラ間人物照合部２０４が取得した情報に含まれる人物ＩＤと人物リストとを比較して、人物リストにその人物ＩＤが存在する場合は、人物リストの最終検出時刻を現在時刻に更新する。一方、人物リストにその人物ＩＤが存在しない場合には、カメラ間人物照合部２０４は、人物リストにレコードを新規作成して、情報を記憶する。次に、カメラ間人物照合部２０４は、顔特徴インデックス番号を参照して顔特徴データを取得して、後述する登録リストに登録された人物であるか否かを、顔認証を用いて判定する。登録リストに登録された人物であると判定した場合、登録リストに記載の属性および登録ＩＤを、それぞれ人物リストの属性および登録ＩＤに設定する。一方で、登録リストに登録されていない人物であると判定した場合は、人物リストの属性を客と設定する。また、カメラ間人物照合部２０４が取得した情報のうち人物ＩＤが付与されていない人物に関しては、人物リストへの登録は行わない。
登録リストは、店長や従業員や、要注意人物などの既知の人物を管理するためのリストである。登録リストは、識別子となる登録ＩＤ、店長や従業員などの属性、および顔特徴ＤＢ２０３が記憶している同人物の顔特徴を示す顔特徴インデックス番号が対応付けられている。登録リストは、事前に作成されるものであるが、従業員の変化があったり、新たな要注意人物を記録する要望が発生したりするタイミングで適宜記録や削除が行われる。

行動リストとは、人物の行動履歴を記憶したリストである。行動リストの更新は、カメラ間人物照合部２０４から情報を取得した時、または、挙動抽出部２０５から情報を取得した時に実施される。カメラ間人物照合部２０４が情報を取得した時に、人物ＩＤが付与された人物に対しては、図３（ｃ）に例示する行動リストに人物ＩＤ単位で、検出追尾した時刻、カメラＩＤ、追尾ＩＤおよび位置が行動リストに記憶される。位置は人物の矩形の中心座標である。一方で、人物ＩＤが付与されていない人物に対しては、図３（ｄ）に例示する非照合人物の行動リストに検出追尾した時刻、カメラＩＤ、追尾ＩＤおよび位置が時系列順に記憶される。また、挙動抽出部２０５が情報を取得した時に、挙動抽出部２０５は追尾ＩＤを参照して該当する人物の挙動を更新する。行動リストのエリアは、事前にカメラＩＤとエリア名とのルックアップテーブルを作成しておき、人物が映るカメラＩＤからエリア名を取得することにより設定される。また、行動検知部２０７は、行動記憶部２０６に記憶された行動リストが更新される度に更新情報を取得する。

行動検知部２０７は、行動記憶部２０６から更新情報を受信する度に、行動記憶部２０６の情報を参照して音声再生すべき対象人物の有無を判定する。行動検知部２０７は、具体的には、行動記憶部２０６の行動リストを参照して、事前設定したルールに該当する人物がいるか否かを判定する。ルールは、例えば、条件１「最新レコードの挙動が周辺確認」、条件２「過去１０秒間での位置から移動距離を算出して移動距離が５００未満」の２条件を満たす人物であることである。または、ルールは、例えば、条件１「最新レコードの挙動が商品をカバンに入れる」、条件２「過去５秒間のレコードの挙動において１回以上の周辺確認がある」、の２条件を満たす人物であることである。行動検知部２０７は、上記いずれかのルールに該当する人物がいると判定した場合は、当該人物を音声再生すべき人物とみなす。なお、ルールは上述したものに限定されず、人物リストの情報を用いてもよい。例えば、上記ルールに、条件３「人物リストの属性が従業員でない」を更に組み合わせることができる。また、ルールによる対象判定方法を記載したが、他の判定方法を用いてもよい。例えば、音声再生の対象としたい行動を行った人物の映像を集め、機械学習により判定器を作成して判定する方法を用いてもよい。

行動検知部２０７は、音声再生すべき対象人物がいると判定した場合、対象人物の人物ＩＤ、もしくは、人物ＩＤが付与されていない人物の場合は追尾ＩＤを音声選択作成部２０９に送信する。
音声記憶部２０８は、音声ファイルを種類に分けて記憶する。図４は、音声記憶部２０８が記憶する情報のデータ構造の一例を示す図である。図４（ａ）は挨拶音声リスト、図４（ｂ）は呼掛け音声リスト、図４（ｃ）は案内音声リストの例を示す図である。
挨拶音声リストにおいては、音声ＩＤと時間帯と音声とが対応付けられている。呼掛け音声リストにおいては、音声ＩＤと分類と音声とが対応付けられている。分類とは、確認、滞在、出現など人物行動の種類を示す。案内音声リストにおいては、音声ＩＤと強度と音声とが対応付けられている。強度とは、音声の内容が持つ聞き手への指示の強さ度合いを示す値であり、数値が上がるごとに強い指示の言葉になるよう設定される。なお、図４に示した音声は一例であり、挨拶、呼掛け、および案内の意図を持つ他の言葉を予め設定してもよい。例えば、呼掛け音声リストに、分類を確認、音声を「お探しの商品はございますか？」として設定することができる。

音声選択作成部２０９は、行動検知部２０７から音声再生すべき対象人物の人物ＩＤまたは追尾ＩＤを受信すると、行動記憶部２０６を参照して対象人物に再生する音声を選択して音声ファイルを作成する。音声選択作成部２０９は、具体的には、挨拶音声、呼掛け音声および案内音声を選択して、それらを連結することにより音声ファイルを作成する。
以下、音声の選択処理について説明する。音声選択作成部２０９は、まず、現在時刻と音声記憶部２０８の挨拶音声リストの時間帯とを比較して挨拶音声を選択する。
次に、音声選択作成部２０９は、対象人物の行動履歴に基づき呼掛け音声を選択する。音声選択作成部２０９は、例えば、行動検知部２０７から受信した対象人物の人物ＩＤまたは追尾ＩＤと、行動記憶部２０６の行動リストとに基づいて、対象人物の行動リストを抽出する。対象人物の行動リストの最新のレコードの挙動が「周辺確認」である場合は、音声選択作成部２０９は、音声記憶部２０８の呼掛け音声リストから分類が「確認」である呼掛け音声を選択する。呼掛け音声リストに同一分類の音声が複数存在する場合は、例えば、音声ＩＤの数字が小さな方の音声を選択する。
なお、呼掛け音声は、最新レコードの挙動だけでなく、過去のレコードを参照して決定する方法や挙動の組み合わせに基づいて選択してもよい。例えば、最新レコードの位置と過去３分間のレコードの位置とを比較して位置が所定範囲内にある場合は、その場に留まっているとみなして、呼掛け音声リストから分類が「滞在」である音声を選択してもよい。また、過去１分間のレコードの挙動を参照して周辺確認を行っており、最新レコードの挙動が「商品をかばんに入れる」である場合、呼掛け音声リストから分類が「注意」である音声を選択してもよい。

また、呼掛け音声の選択方法として、対象人物の行動履歴に基づき呼掛け音声を選択する方法を記載したが、対象人物と周辺人物との行動履歴を比較して、対象人物のみが多く行う挙動や、滞在したエリアに基づき呼掛け音声を選択する方法を使用してもよい。具体的には、音声選択作成部２０９は、対象人物の人物ＩＤを参照して行動リストの最新レコードからカメラＩＤを取得し、同じ時間帯に同一のカメラＩＤに映る人物を抽出する。次に、対象人物と抽出した周辺人物との過去１分間の挙動を比較して、対象人物が周辺人物に比べて多く行った挙動に基づき呼掛け音声を選択する。例えば、対象人物の「周辺確認」の挙動が周辺人物の「周辺確認」の挙動より多い場合は、呼掛け音声リストから分類が「確認」である呼掛け音声を選択する。前記の例では挙動の回数を比較して多い挙動に基づき音声を選択したが、ある時間当たりの挙動の発生密度が最も高い挙動や挙動の回数に重み付けして比較する方法でもよい。また、行動リストのエリアを比較して、対象人物が最も長く滞在したエリアに基づき呼掛け音声を選択してもよい。例えば、対象人物のみが時計売り場に訪れた場合、挙動を「出現」として音声「時計売り場にお立ち寄りのお客様」を選択する。さらに、呼掛け音声の選択は、挙動に従い音声を選択したが、挙動抽出部２０５で挙動に加え、挙動判定の信頼度を出力し、信頼度に従い呼掛け音声を選択してもよい。信頼度を使用することで、より確からしい挙動に基づき音声を選択することができる。

次に、音声選択作成部２０９は、対象人物への音声出力回数に基づき案内音声を選択する。音声選択作成部２０９は、具体的には、人物ＩＤごとに音声出力回数を記憶しており、音声出力回数に従い強度を決定する。次に、音声記憶部２０８の案内音声リストから、決定した強度に対応付けられた音声を選択する。例えば、音声選択作成部２０９は、音声出力回数を３分の１にして小数点以下切り捨てた整数を強度として決定し、その強度に基づいて音声を選択する。
そして、音声選択作成部２０９は、選択した挨拶音声、呼掛け音声および案内音声を連結して音声ファイルを作成する。なお、案内音声の選択時に強度が２以上の人物の場合は挨拶音声を含まない音声ファイルを作成するなど、呼掛け音声や案内音声の選択処理に基づいて、挨拶音声の有無を決定してもよい。また、案内音声の強度の決定は、呼掛け音声の選択時の分類に従って決定してもよく、例えば、分類が「注意」の場合は強度を３に決定してもよい。

さらに、音声選択作成部２０９は、案内音声の選択時に行動記憶部２０６が記憶している人物リストおよび行動リストを参照して、人物の属性を用いて音声に情報を付け加えることができる。例えば、音声選択作成部２０９は、人物リストから属性が「従業員」の人物を抽出して、抽出した人物の行動リストの最新レコードの位置と対象人物の位置とを比較することで、対象人物から最も近い位置にいる従業員を特定する。次に、音声選択作成部２０９は、行動リストの最新レコードから特定した従業員のエリアを抽出して、「従業員は時計売り場にいます。」という音声を作成する。そして、音声選択作成部２０９は、従業員に関する案内音声が選択された場合には、前記音声と組み合わせ、「従業員は時計売り場にいます。従業員までお気軽にご相談ください。」という音声を作成することができる。
上述したように音声ファイルの作成が完了すると、音声選択作成部２０９は、行動リストから対象人物の最新レコードを参照して対象人物の位置を特定し、近傍の出力装置への送信指示を作成する。音声選択作成部２０９は、作成した音声ファイルと出力装置への送信指示とを音声送信部２１０に送信する。
音声送信部２１０は、音声選択作成部２０９から受信した音声ファイルを、通信部１７を介して音声選択作成部２０９に指示された出力装置３００に送信する。
出力装置３００は、音声受信部３０１と出力部３０２とを有する。
音声受信部３０１は、画像処理装置２００の音声送信部２１０から音声ファイルを受信し、音声ファイルを出力部３０２に送信する。
出力部３０２は、音声受信部３０１から受信した音声ファイルを再生して音声を出力する。

次に、図５のフローチャートを参照して、本実施形態に係る監視システムの処理について説明する。
図５（ａ）は撮像装置１００の処理手順の一例を示すフローチャートである。
ステップＳ１０１において、撮像部１０１は、被写体を撮像して画像を取得する。
ステップＳ１０２において、画像送信部１０２は、撮像部１０１により取得した画像を画像処理装置２００に送信する。
ステップＳ１０３において、画像送信部１０２は画像送信の終了要求があるか否かを判定する。画像送信部１０２は、画像送信の終了要求があると判定した場合は、処理を終了する。一方、画像送信部１０２は、画像送信の終了要求がないと判定した場合は、処理をステップＳ１０１に戻す。

図５（ｂ）は画像処理装置２００の処理手順の一例を示すフローチャートである。
ステップＳ２０１において、画像受信部２０１は、撮像装置１００から送信された画像を受信する。ステップＳ２０２において、人物検出追尾部２０２は、画像受信部２０１が受信した画像に基づいて人物の検出処理および追尾処理を行う。
次に、ステップＳ２０３において、カメラ間人物照合部２０４は、人物検出追尾部２０２により検出および追尾した人物同士の照合処理を行う。次に、ステップＳ２０４において、挙動抽出部２０５は、人物検出追尾部２０２により検出および追尾した人物の挙動の抽出を行う。
ステップＳ２０５において、挙動抽出部２０５は、ステップＳ２０４において抽出した挙動に関する情報を行動記憶部２０６に記録する。
次に、ステップＳ２０６において、行動検知部２０７は、行動記憶部２０６から更新情報を取得し、事前設定したルールと比較する。そして、ステップＳ２０７において、行動検知部２０７は、音声再生の対象人物がいるか否かを判定する。行動検知部２０７は、音声再生の対象人物がいると判定した場合は、ステップＳ２０８へ処理を進める。一方、行動検知部２０７は、音声再生の対象人物がいないと判定した場合は、ステップＳ２０１へ処理を戻す。
次に、ステップＳ２０８において、音声選択作成部２０９は、音声の選択および音声ファイルの作成を行う。ステップ２０９において、音声送信部２１０は、音声選択作成部２０９により作成した音声ファイルを出力装置３００に送信する。
ステップＳ２１０において、音声送信部２１０は終了要求があるか否かを判定する。音声送信部２１０は、終了要求があると判定した場合は、処理を終了する。一方、音声送信部２１０は、終了要求がないと判定した場合は、ステップＳ２０１へ処理を戻す。

図５（ｃ）は出力装置３００の処理手順の一例を示すフローチャートである。ステップＳ３０１において、音声受信部３０１は、画像処理装置２００から送信された音声ファイルを受信する。ステップＳ３０２において、出力部３０２は、音声受信部３０１が受信した音声ファイルを再生して音声を出力する。ステップ３０３において、出力部３０２は、停止の要求があるか否かを判定する。出力部３０２は、停止の要求があると判定した場合は、処理を終了する。一方、出力部３０２は、停止の要求がないと判定した場合は、ステップＳ３０１へ処理を戻す。

次に、図１に示す店舗の構成例を参照して、本実施形態の動作例を説明する。例えば、人物２３は入店し、時計売り場６に長時間滞在する。その後、人物２３は家電売り場７に移動して、図１に示す位置に登場し、カメラ２１で周辺確認の挙動を複数回判定され、人物２３に対して音声を出力する状況である。カメラ２１の画角内には人物２３と人物２４とが写るため、人物２３と人物２４との行動履歴を比較して、音声を選択する。人物２４から周辺確認の挙動が確認されていない場合、周辺確認の回数の違いから、「商品をお探しのお客様、従業員までお気軽にお声掛けください。」の音声ファイルを再生してスピーカー２２からその音声を出力する。更に、別のカメラでレジにいる従業員３を検出している場合、「商品をお探しのお客様、レジの従業員までお気軽にお声掛けください。」の音声ファイルを再生してスピーカー２２からその音声を出力することもできる。また、人物２４が入店後に時計売り場６を経由せず家電売り場７に訪れていた場合、立ち寄った場所の違いから「時計売り場にお立ち寄りのお客様、従業員までお気軽にご相談ください。」の音声ファイルを再生してスピーカー２２からその音声を出力することもできる。このように、人物の行動履歴と、周辺人物の行動履歴との違いに着目して音声を出力することで、対象人物が自身に対する音声であると認知しやすくなる。

以上のように、本実施形態に係る監視システムでは、人物の行動履歴に基づいて音声ファイルを選択および作成することで、自身に対する音声であることを認知することができる。なお、上述したような画像処理装置２００の構成に限らず、より単純に画像受信部２０１と挙動抽出部２０５と行動検知部２０７と音声記憶部２０８と音声選択作成部２０９と音声送信部２１０とから画像処理装置２００を構成することもできる。同構成では、挙動抽出部２０５は画像受信部２０１から画像を取得して挙動の抽出を行い、前記抽出した挙動を行動検知部２０７で判定して音声出力の対象人物を特定する。そして、音声選択作成部２０９で前記挙動に従い音声を選択することで、第１の実施形態に記載した監視システムと同様の効果を得ることができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。第２の実施形態では、音声を出力した時の対象人物の反応を利用して効果を計測することで、音声の再選択をすべきか否かを判定するシステムの一例を示す。
図６は、第２の実施形態に係る監視システムの機能構成の一例を示すブロック図である。本実施形態に係る監視システムは、第１の実施形態に係る監視システムに、反応検知部４０１と反応記憶部４０２とを加えた構成である。以下、第１の実施形態と比べて異なる部分を中心に説明する。
反応検知部４０１は、音声を出力した時の対象人物の反応を検知する。検知処理について説明すると、まず、反応検知部４０１は、音声送信部２１０が音声ファイルを出力装置３００に送信すると同時に、音声送信部２１０から対象人物が写る撮像装置のカメラＩＤと追尾ＩＤを取得する。次に、反応検知部４０１は、その取得したカメラＩＤの画像中の追尾ＩＤを持つ人物が音声への反応を示すかどうかを判定する。音声への反応とは、音声出力後、例えば２秒以内に、音源である出力装置３００の方向を向く・見る、動きが止まる、急速な動きをする、などの動作である。これらの動作は、反応検知部４０１が、挙動抽出部２０５の姿勢ＤＢを参照して、各部位の動きから反応の有無と度合いとを判定する。そして、反応検知部４０１は、追尾ＩＤ、反応の有無と度合いとの情報を反応記憶部４０２に記録する。

反応検知部４０１により音声選択作成部２０９が選択した音声と反応検知部４０１から受信した情報とが音声の再生回数、反応回数、平均反応度合い、反応率に変換され、反応記憶部４０２に記憶される。
音声選択作成部２０９は、第１の実施形態において記載した方法で音声ファイルを選択した後、反応記憶部４０２に記憶された、選択した音声ファイルの再生回数、反応回数、反応率を参照する。再生回数が閾値を超え、かつ、反応率が所定値未満である場合は、音声選択作成部２０９は、選択した音声ファイルとは別の音声ファイルを再選択する。なお、平均反応度合いを参照して、閾値を下回る場合は、別の音声ファイルを再選択するとしてもよい。再選択を行うことにより、反応の得られない音声に関しては別の音声に変更する。結果として、より効果的な音声を出力することができる。

次に、図７のフローチャートを参照して、本実施形態の画像処理装置２００の処理について説明する。
ステップＳ２０１～ステップＳ２０４において、第１の実施形態で説明した図５（ｂ）と同様の処理を行う。
ステップＳ４０１において、反応検知部４０１は、音声を出力してから所定の時間内であるか否かを判定する。反応検知部４０１は、例えば、音声の出力から２秒以内であれば所定の時間内であると判定して、ステップＳ４０２に処理を進める。一方で、反応検知部４０１は、所定の時間内でないと判定した場合は、ステップＳ２０５に処理を進める。
ステップＳ４０２において、反応検知部４０１は、音声出力の対象人物の反応を検知する。次に、ステップＳ４０３において、反応検知部４０１は、対象人物の追尾ＩＤ、反応の有無と度合いとの情報を反応記憶部４０２に記録する。
ステップＳ２０５～ステップＳ２０８において、第１の実施形態と同様の処理を行う。ステップＳ４０４において、音声選択作成部２０９は、反応記憶部４０２に記憶された情報を参照して、音声の再選択を行うか否かを判定する。音声選択作成部２０９は、再選択を行うと判定した場合は、処理をステップＳ２０８に戻し、再び音声選択処理を行う。一方、音声選択作成部２０９は、再選択をしないと判定した場合は、処理をステップＳ２０９に進める。
以上のように、本実施形態に係る監視システムでは、音声を出力した時の対象人物の反応を記録して、その反応に基づき音声を変更することで、対象人物が自身に対する音声であることをより効果的に認知することができる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。第３の実施形態では、人物の行動履歴と商品情報とを利用して対象人物に対して販売促進用の音声を出力するシステムの一例を示す。
図８は、第３の実施形態に係る監視システムの機能構成の一例を示すブロック図である。本実施形態に係る監視システムは、第１の実施形態に係る監視システムに、商品推定部５０１と商品情報記憶部５０２とを加えた構成である。以下、第１の実施形態と比べて異なる部分を中心に説明する。

商品推定部５０１は、対象人物が興味を示す商品を推定する。商品推定部５０１は、例えば、挙動抽出部２０５が商品を持つ挙動を抽出した時に、同人物は同商品に興味があると判定する。なお、興味があるか否かの判定は商品を持つ挙動に限定されず、挙動抽出部２０５において人物が興味を持つ商品を推定する方法であればよく、目、鼻の位置関係から人物の視線を推定して視線が長く向けられた商品を興味がある商品と判定してもよい。
また、商品推定部５０１は、人物が興味を持つ商品に関して、商品情報記憶部５０２に記憶された情報を参照して、画像中の同商品の外観、もしくは、人物が商品棚に手を伸ばした位置から商品のカテゴリおよび商品コードを取得する。ここで、商品のカテゴリとは、家電量販店であれば、ポータブルオーディオやパソコン、プリンタなどであり、化粧品店であれば、マスカラやファンデーションなどである。
さらに、商品推定部５０１は、人物が興味を示す商品のカテゴリ、商品コードの情報を行動記憶部２０６に記憶する。なお、行動記憶部２０６は、第１の実施形態で説明した情報に加えて、人物が興味を示す商品の情報を行動リストの挙動を追加する。例えば、興味（ポータブルオーディオ）といった情報も併せて記憶する。また、本実施形態では、例えば、条件１「最新レコードの挙動が興味」、条件２「過去１０秒間での位置から移動距離を算出して移動距離が５００未満」の２条件を満たす人物を判定するルールを設定するものとする。

商品情報記憶部５０２は、商品の画像、カテゴリ、商品名、コード、売上および売上ランキングに関する情報を記憶する。
音声記憶部２０８には、第１の実施形態で説明した音声に加えて、挙動が興味である場合の音声を追加する。例えば、呼掛け音声リストには、「ポータブルオーディオをお探しのお客様」など、商品のカテゴリを持つ音声を含むようにする。また、案内音声リストには、商品情報記憶部５０２に記憶されている商品名、売上ランキングに基づき、「ＡＢＣＤＥオーディオは売上２位です」など商品の紹介音声を追加する。

音声選択作成部２０９は、第１の実施形態と同様の音声選択方法に加えて、対象人物の挙動が興味である場合には、販売促進用の音声ファイルを作成する。例えば、対象人物の挙動が興味（ポータブルオーディオ）である場合、「ポータブルオーディオをお探しのお客様、ＡＢＣＤＥオーディオは売上２位です。」などの音声ファイルを作成する。なお、商品紹介音声を事前に音声記憶部２０８に記憶するのでなく、音声選択作成部２０９の処理時に、人物の挙動を利用して商品情報記憶部５０２に記憶された情報を参照して音声を合成し、音声ファイルを作成してもよい。

次に、図９のフローチャートを参照して、本実施形態の画像処理装置２００の処理について説明する。
ステップＳ２０１～ステップＳ２０４において、第１の実施形態と同様の処理を行う。次に、ステップＳ５０１において、商品推定部５０１は、人物が興味を持つ商品の推定を行う。ステップＳ２０５～ステップＳ２１０において、第１の実施形態と同様の処理を行う。
以上のように、本実施形態に係る監視システムでは、人物の行動履歴と商品情報とに基づいて、対象人物に対して販売促進用の音声を出力することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２０２人物検出追尾部、２０５挙動抽出部、２０６行動記憶部、２０７行動検知部、２０８音声記憶部、２０９音声選択作成部

Claims

画像の中から人物を検出して追尾し、前記人物の行動履歴を取得する取得手段と、
前記取得手段によって取得された行動履歴を記憶する記憶手段と、
前記記憶手段に記憶された行動履歴に基づいて、音声を出力する対象人物がいるか否かを判定する判定手段と、
前記判定手段により音声を出力する対象人物がいると判定された場合に、前記記憶手段に記憶された前記対象人物の行動履歴に基づいて、前記対象人物に関連する音声を作成する作成手段と、
前記作成手段によって作成された音声を出力装置に出力する出力手段と、
を有することを特徴とする画像処理装置。
前記対象人物の周辺に他の人物が存在する場合に、前記作成手段は、前記記憶手段に記憶された前記対象人物の行動履歴と前記他の人物の行動履歴との違いに基づいて、前記対象人物に関連する音声を作成すること、
を特徴とする請求項１に記載の画像処理装置。
前記取得手段において取得する人物の行動履歴には、人物を撮影した場所を含み、
前記対象人物の周辺に他の人物が存在する場合に、前記作成手段は、前記対象人物を撮影した場所と前記他の人物を撮影した場所との違いに基づいて、前記対象人物に関連する音声を作成すること、
を特徴とする請求項２に記載の画像処理装置。
前記取得手段において取得する行動履歴には、人物の挙動および前記挙動の信頼度を含み、
前記記憶手段は、前記人物の挙動と前記挙動の信頼度とを対応付けて記憶し、
前記作成手段は、前記挙動の信頼度に基づいて音声を作成すること、
を特徴とする請求項１～３のいずれか１項に記載の画像処理装置。
前記作成手段によって作成された音声に対する前記対象人物の反応を検知する検知手段をさらに有し、
前記作成手段は、前記検知手段によって検知された前記対象人物の反応に基づいて音声を作成すること、
を特徴とする請求項１～４のいずれか１項に記載の画像処理装置。
前記取得手段に取得された行動履歴に基づいて、前記対象人物に関連する商品を推定する推定手段をさらに有し、
前記作成手段は、前記推定手段によって推定された商品に関連した音声を作成すること、
を特徴とする請求項１～５のいずれか１項に記載の画像処理装置。
画像の中から人物を検出して追尾し、前記人物の行動履歴を取得する取得工程と、
前記取得工程によって取得された行動履歴を記憶手段に記憶する記憶工程と、
前記記憶手段に記憶された行動履歴に基づいて、音声を出力する対象人物がいるか否かを判定する判定工程と、
前記判定工程により音声を出力する対象人物がいると判定された場合に、前記記憶手段に記憶された前記対象人物の行動履歴に基づいて、前記対象人物に関連する音声を作成する作成工程と、
前記作成工程によって作成された音声を出力装置に出力する出力工程と、
を有することを特徴とする画像処理方法。
画像の中から人物を検出して追尾し、前記人物の行動履歴を取得する取得工程と、
前記取得工程によって取得された行動履歴を記憶手段に記憶する記憶工程と、
前記記憶手段に記憶された行動履歴に基づいて、音声を出力する対象人物がいるか否かを判定する判定工程と、
前記判定工程により音声を出力する対象人物がいると判定された場合に、前記記憶手段に記憶された前記対象人物の行動履歴に基づいて、前記対象人物に関連する音声を作成する作成工程と、
前記作成工程によって作成された音声を出力装置に出力する出力工程と、
をコンピュータに実行させるためのプログラム。