JP2019091121A

JP2019091121A - 情報処理装置、背景更新方法および背景更新プログラム

Info

Publication number: JP2019091121A
Application number: JP2017217768A
Authority: JP
Inventors: 典弘覚幸; Norihiro Kakuko; 珊珊于; Shanshan Yu; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2019-06-13
Anticipated expiration: 2037-11-10
Also published as: EP3483835B1; EP3483835A1; CN109767453B; CN109767453A; US10713799B2; JP7067023B2; CN109767453B9; US20190147601A1

Abstract

【課題】動物体が背景画像に含まれて検出されることを抑制する。【解決手段】実施形態の情報処理装置は、抽出部と、追跡部と、決定部と、背景更新部とを有する。抽出部は、入力された動画像を構成する各フレーム同士を比較した結果に基づき、フレームに含まれる動物体の動物体領域を抽出する。追跡部は、抽出した動物体領域と、動画像の各フレームとの相関に基いて、フレーム間における動物体領域の位置を追跡する。決定部は、動画像の各フレームにおいて、位置を追跡した動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定する。背景更新部は、決定した各フレームの背景領域に基いて動画像の背景画像を更新する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、背景更新方法および背景更新プログラムに関する。

従来、カメラで撮影された動画像から前景として映り込む動物体を検出する手法として、背景差分法が知られている。背景差分法では、カメラで撮影された動画像から検出対象物体が撮影されていない背景画像（背景モデルとも呼ぶ）を検出して記憶しておく。そして、カメラで撮影された動画像から背景画像の差分を求めることで、動物体が映り込む画像領域を検出する。

背景差分法に用いる背景画像を検出する技術として、監視画像の各領域の画素値を所定の透過率で制御し、背景画像の対応する領域の画素値を順次更新する技術が知られている。また、動物体領域と検出された画素以外の画素についてはカウント値を増加させ、カウント値が所定の値となった画素については背景画像データを更新する技術が知られている。また、前景として継続的に現れた回数をカウントして得た静止時間が予め定めた静止判定閾値以上になった箇所を静止領域として判断し、静止領域と判断された領域について新たな背景モデルを作成する技術が知られている。

特開２０１３−１５２６６９号公報特開２００３−１２３０７４号公報特開２０１０−１５４６９号公報

しかしながら、上記の従来技術では、例えばカメラで撮影された動画像に映り込む動物体が一定時間にわたって静止した場合、動物体が影のように写り込んだ背景画像が検出されるという問題がある。

１つの側面では、動物体が背景画像に含まれて検出されることを抑制できる情報処理装置、背景更新方法および背景更新プログラムを提供することを目的とする。

第１の案では、情報処理装置は、抽出部と、追跡部と、決定部と、背景更新部とを有する。抽出部は、入力された動画像を構成する各フレーム同士を比較した結果に基づき、フレームに含まれる動物体の動物体領域を抽出する。追跡部は、抽出した動物体領域と、動画像の各フレームとの相関に基いて、フレーム間における動物体領域の位置を追跡する。決定部は、動画像の各フレームにおいて、位置を追跡した動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定する。背景更新部は、決定した各フレームの背景領域に基いて動画像の背景画像を更新する。

本発明の１実施態様によれば、動物体が背景画像に含まれて検出されることを抑制できる。

図１は、第１の実施形態にかかる検出装置の機能構成例を示すブロック図である。図２は、背景領域の決定を説明する説明図である。図３は、更新された背景画像を説明する説明図である。図４は、第１の実施形態にかかるシステム構成例を説明する説明図である。図５は、第１の実施形態にかかるシステムの機能構成例を示すブロック図である。図６は、第１の実施形態にかかるシステムの動作例を示すフローチャートである。図７は、第２の実施形態にかかるシステム構成例を説明する説明図である。図８は、第２の実施形態にかかるシステムの機能構成例を示すブロック図である。図９は、第２の実施形態にかかるシステムの動作例を示すフローチャートである。図１０は、振動指示の決定を説明する説明図である。図１１は、第３の実施形態にかかるシステム構成例を説明する説明図である。図１２は、第３の実施形態にかかるシステムの機能構成例を示すブロック図である。図１３は、第３の実施形態にかかるシステムの動作例を示すフローチャートである。図１４は、実施形態にかかる検出装置のハードウエア構成の一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる情報処理装置、背景更新方法および背景更新プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する情報処理装置、背景更新方法および背景更新プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（第１の実施形態）
図１は、第１の実施形態にかかる検出装置の機能構成例を示すブロック図である。図１に示すように、検出装置１には、カメラ２より撮影された動画像が入力される。検出装置１は、入力された動画像から前景として映り込む動物体以外の背景に対応する背景画像３を検出して出力する背景検出部１０を有する。検出装置１は、動画像に対する画像処理を行う情報処理装置であり、例えばＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末等を採用できる。

背景画像３は、背景差分法により動物体が映り込む画像領域を検出するための背景に対応した背景モデルとも呼ばれる画像データであり、例えば背景に対応する画像領域の各画素の輝度値等を含む画素値を示す画像データである。背景差分法では、カメラ２により撮影された動画像から背景画像３の差分を求めることで、動物体が映り込む画像領域を検出できる。

背景検出部１０は、動物体領域抽出部１１、動物体領域保存部１２、動物体領域追跡部１３、背景領域決定部１４、背景更新部１５および背景保存部１６を有する。

動物体領域抽出部１１は、カメラ２より入力された動画像の前後のフレームの比較結果に基づき、各フレームに映り込む動物体に対応する画像領域である動物体領域を抽出する。すなわち、動物体領域抽出部１１は、抽出部の一例である。

動物体領域保存部１２は、動物体領域抽出部１１が抽出した動物体領域を保存する。具体的には、動物体領域保存部１２は、動物体領域抽出部１１が抽出した動物体領域内の画素をフレームから抽出して保存する。

動物体領域追跡部１３は、動物体領域保存部１２に保存された動物体領域を参照することで、動物体領域抽出部１１が抽出した動物体領域と、動画像の各フレームとの相関に基いて、フレーム間における動物体領域の位置を追跡する。すなわち、動物体領域追跡部１３は、追跡部の一例である。

背景領域決定部１４は、カメラ２により撮影された動画像の各フレームにおいて、動物体領域抽出部１１が抽出した動物体領域を除く画像領域を各フレームの背景領域と決定する。また、背景領域決定部１４は、動物体領域追跡部１３が位置を追跡した動物体領域がフレーム内に含まれる場合はその動物体領域も除く画像領域を各フレームの背景領域と決定する。すなわち、背景領域決定部１４は、決定部の一例である。

図２は、背景領域の決定を説明する説明図である。図２において、動画像Ｇ１は、カメラ２が撮影して背景検出部１０に入力される動画像である。また、相関情報Ｇ２は、動画像Ｇ１における前後のフレームの輝度値の相関を算出して得られた情報である。

図２に示すように、動画像Ｇ１における前後のフレームで移動している動物体が含まれる場合、相関情報Ｇ２では、動物体に対応する領域Ｒ１の相関が低くなる。

よって、動物体領域抽出部１１は、処理対象のフレームと一つ前のフレームとの相関情報Ｇ２より相関の低い領域Ｒ１を、動物体が含まれる候補の領域として求める。そして、動物体領域抽出部１１は、求めた領域Ｒ１の中で処理対象のフレームと輝度値の相関が高い領域Ｒ２を動物体に対応する動物体領域として抽出する。これにより、背景領域決定部１４は、動きのある動物体に対応して抽出された領域Ｒ２以外の画像領域を背景領域と決定する。

また、「フレームｔ−１」以後のように動物体が静止した場合は、相関情報Ｇ２より相関の低い領域Ｒ１が得られないことから、動物体領域抽出部１１による動物体領域の抽出が行われなくなる。

このような動物体の静止に対応するため、動物体領域追跡部１３は、動物体領域保存部１２に保存された動物体領域、すなわち領域Ｒ２と、動画像Ｇ１の各フレームとの相関に基づいて、フレーム間における動物体領域の位置を追跡する。具体的には、動物体領域追跡部１３は、動画像Ｇ１の各フレームにおいて、領域Ｒ２との相関の高い位置を追跡する。

例えば、図２の例では「フレームｔ−１」以後のフレームにおいて動物体は静止しているが、動物体領域追跡部１３は、前のフレームまでに得られた領域Ｒ２との相関に基づいて、静止した動物体に対応する領域Ｒ３の位置を追跡する。これにより、背景領域決定部１４は、動物体領域追跡部１３により位置を追跡した領域Ｒ３がフレーム内にとどまっている場合、領域Ｒ３以外の画像領域を背景領域と決定する。

背景更新部１５は、背景領域決定部１４が決定した各フレームの背景領域に基いて、カメラ２により撮影された動画像の各フレームにおける背景画像３を検出する。すなわち、背景更新部１５は、背景検出部の一例である。

具体的には、背景更新部１５は、背景領域決定部１４が決定した背景領域に基づいて、処理対象のフレームの背景領域内の画素値（例えば輝度値）に所定値を掛け合わせる。これにより、背景更新部１５は、処理対象のフレームから背景領域に対応した背景画像を検出する。

次いで、背景更新部１５は、処理対象のフレームより前のフレームまでに検出した背景画像を保存する背景保存部１６より背景画像を読み出し、処理対象のフレームから検出した背景画像を足し合わせる。これにより、背景更新部１５は、背景保存部１６が保存する背景画像を、処理対象のフレームまでの背景画像として更新する。次いで、背景更新部１５は、更新した背景画像を背景画像３として出力する。

図３は、更新された背景画像を説明する説明図である。図３において、動画像Ｇ１は、フレーム外から移動した店員Ｈがレジでの作業を行う場面を撮影したものである。動物体領域抽出部１１により抽出された動物体領域以外の画像領域を背景領域とする場合は、静止以後のフレームにおいて動物体領域の抽出が行われなくなることから、レジ前で静止した店員Ｈに対応する影Ｈ’が背景画像３’に含まれることがある。このように、動物体（店員Ｈ）が影のように写り込んだ背景画像３‘を用いて背景差分法を実施した場合は、動物体の検出精度の低減を招くこととなる。

これに対し、動物体領域追跡部１３により位置を追跡した動物体領域がフレーム内にとどまっているとき、その動物体領域以外の画像領域を背景領域とする場合は、レジ前で静止した店員Ｈ以外も背景領域とすることとなる。よって、店員Ｈが含まれない背景画像３を得ることができる。

ここで、上記の検出装置１を店員が顧客と接客する際の接客対応を監視するシステムに適用した場合を例示し、検出装置１にかかる処理の詳細を説明する。

図４は、第１の実施形態にかかるシステム構成例を説明する説明図である。図４に示すように、カメラ２は、顧客Ｈ１と店員Ｈ２との接客現場における店員Ｈ２を撮影し、撮影した動画像を上司Ｈ３の端末装置１ａへ出力する。

端末装置１ａは、上記の検出装置１を適用したＰＣなどの情報処理装置であり、カメラ２が撮影した動画像から背景画像を検出する。そして、端末装置１ａは、検出した背景画像に基づき、背景差分法により接客時における店員Ｈ２の動きを検出し、顧客Ｈ１に対する店員Ｈ２の接客対応を評価してディスプレイなどに表示する。これにより、上司Ｈ３は、店員Ｈ２の接客対応を確認できる。

図５は、第１の実施形態にかかるシステムの機能構成例を示すブロック図である。図５に示すように、端末装置１ａは、背景検出部１０ａ、背景差分処理部２０、顔検知部２１、動き算出部２２、うなずき検知部２３、応対品質評価部２４、データ処理部２５および出力部２６を有する。

背景検出部１０ａは、動物体領域抽出部１１、動物体領域保存部１２、動物体領域追跡部１３、背景領域決定部１４、背景更新部１５、背景保存部１６および動き保存部１７を有する。

動物体領域抽出部１１は、動物体領域候補抽出部１１ａ、特徴点抽出部１１ｂ、領域内特徴点抽出部１１ｃ、動物体領域候補動き算出部１１ｄ、動物体領域決定部１１ｅを有する。

動物体領域候補抽出部１１ａは、前後のフレームの相関に基づいて動物体領域の候補を抽出する。具体的には、動物体領域候補抽出部１１ａは、次の式（１）に示すように、処理対象のフレームと一つ前のフレームとの相関情報Ｇ２より相関の低い領域Ｒ１を処理対象のフレームにおける動物体領域候補として取得する。

式（１）において、ｔはフレームかかる時刻、Ｇ（ｔ，ｘ，ｙ）は時刻（ｔ）のフレームにおける画素（ｘ，ｙ）である。閾値Ｔ１は、相関値を判定するために予め設定された閾値である。動物体領域候補抽出部１１ａは、式（１）を満たす画素点（ｘ、ｙ）の集合Ｃ、すなわち動物体領域候補を取得する。

特徴点抽出部１１ｂは、動物体領域候補抽出部１１ａにより抽出された現時刻（ｔ）の動物体領域候補の中から、画像における特徴点を抽出する。例えば、特徴点抽出部１１ｂは、次の式（２）における４つの式のうち、２つ以上を満たす点（ｘ，ｙ）∈Ｃを特徴点として抽出する。なお、閾値Ｔ２は、特徴点を判定するために予め設定された閾値である。

これにより、特徴点抽出部１１ｂは、方向の異なる２つ以上の際立ったエッジが周辺に存在する点を特徴点として抽出する。なお、式（２）の４つの式のうち、２つ以上を満たす点（ｘ，ｙ）∈Ｃとして抽出された点の集合をＰとする。

領域内特徴点抽出部１１ｃは、特徴点抽出部１１ｂにより抽出された特徴点をもとに、次の時刻（ｔ＋１）における動物体領域候補内の特徴点を領域内特徴点として抽出する。具体的には、領域内特徴点抽出部１１ｃは、特徴点ごとに、次の時刻（ｔ＋１）のフレームの動物体領域候補における点の中で周辺の輝度の相関が一定値以上の点を探索し、探索された点を領域内特徴点とする。

例えば、領域内特徴点抽出部１１ｃは、点（ｋ，ｌ）∈Ｃとしたとき、次の式（３）を満たす点（ｘ，ｙ）∈Ｐを領域内特徴点として取得する。なお、閾値Ｔ３は、相関の高さを判定するために予め設定された閾値である。取得した点の集合をＰ’とする。また、対応する次の時刻（ｔ＋１）における領域内特徴点の集合をＣ’とする。

動物体領域候補動き算出部１１ｄは、領域内特徴点ごとに、移動先の位置から移動前の位置を差し引いた動きを求め、求めた動きの平均を動物体領域候補の動きとして算出する。具体的には、動物体領域候補動き算出部１１ｄは、動物体領域候補の動き（ｕ（ｔ），ｖ（ｔ））を次の式（４）により算出する。

動物体領域決定部１１ｅは、動物体領域候補の中から動物体領域を決定する。具体的には、動物体領域決定部１１ｅは、現時刻の動物体領域候補の各点を動物体領域候補動き算出部１１ｄにより算出した動物体領域候補の動きで移動させたときに、移動後の位置が動物体領域候補内の場合、動物体領域を構成すると判定する。

例えば、各点（ｘ，ｙ）∈Ｃにおいて、（ｘ＋ｙ，ｙ＋ｖ）∈Ｃであれば、動体領域を構成する点と判定する。次いで、動物体領域決定部１１ｅは、動物体領域を構成すると判定した動物体領域候補の各点（集合Ｒ）を動物体領域と決定する。これにより、動物体領域抽出部１１は、各フレームに映り込む動物体に対応する画像領域である動物体領域を抽出する。

動物体領域保存部１２は、動物体領域決定部１１ｅが決定した動物体領域をもとに、動物体領域内の画素（集合Ｒ）を抽出して保存する。すなわち、動物体領域保存部１２は、各フレームより抽出された動物体領域を抽出して保存する。

動物体領域追跡部１３は、動物体領域保存部１２に保存された動物体領域を参照し、動画像の各フレームとの相関に基いて、フレーム間における動物体領域の位置を追跡する。具体的には、動物体領域追跡部１３は、動物体領域保存部１２に保存されている動物体領域ＭＲを用いて、次の式（５）の値を最小とする平行移動量（ｐ，ｑ）を求める。そして、動物体領域追跡部１３は、動物体領域ＭＲ内の各点を平行移動させた点の集合を次の時刻の動物体領域ＭＲ’として追跡する。

また、動物体領域追跡部１３は、現時刻の動物体領域の位置と、次の時刻の動物体領域の位置との差、すなわち平行移動量（ｐ，ｑ）を動きとして動き保存部１７に保存する。

背景領域決定部１４は、動物体領域抽出部１１が抽出した動物体領域を除く画像領域を各フレームの背景領域と決定する。また、背景領域決定部１４は、動物体領域追跡部１３による追跡結果に基づいて、動物体領域追跡部１３が位置を追跡した動物体領域がフレーム内に含まれる場合はその動物体領域も除く画像領域を各フレームの背景領域と決定する。

より具体的には、背景領域決定部１４は、動物体領域追跡部１３が位置を追跡した動物体領域の動き（ｕ（ｋ），ｖ（ｋ））について、ｋ＝１，…，ｔの各時刻において次の式（６）を満たす回数を判定する。ここで、閾値Ｔ４は、位置の移動を判別するために予め設定された閾値である。

次いで、背景領域決定部１４は、式（６）を満たす回数が閾値Ｔ５以上である場合、その動物体領域追跡部１３が位置を追跡した動物体領域を除く画像領域を背景領域と決定する。ここで、閾値Ｔ５は、位置が移動したフレーム数を判別するために予め設定された閾値である。

すなわち、背景領域決定部１４は、閾値Ｔ５以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を背景領域と決定する。このように、位置を追跡した動物体領域において、閾値Ｔ５以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を背景領域とすることで、例えば風で数フレーム揺れる木の枝が動物体領域とされ、背景から除外されることを抑制できる。

背景更新部１５は、背景領域決定部１４が決定した背景領域に基づいて、現時刻のフレームにおける背景領域内の各点の輝度値に、予め設定された所定値（固定値α）を掛け合わせる。これにより、背景更新部１５は、現時刻のフレームにおける背景領域内の輝度値（現時刻のフレームまでの背景画像（背景モデル）に足し合わせるための現時刻のフレームにおける背景画像）を求める。

次いで、背景更新部１５は、現時刻より前の背景画像を背景保存部１６より読み出し、現時刻のフレームにおける背景領域の輝度値を足し合わせる。そして、背景更新部１５は、足し合わせた背景画像について、１と固定値αとの和の値で割ることで得られた値を現時刻までの背景画像とし、背景保存部１６の背景画像を更新する。具体的には、背景更新部１５は、背景画像（Ｈ）中の背景と判定された各点（ｘ，ｙ）について、次の式（７）により背景を更新する。

背景差分処理部２０は、背景差分法にかかる背景差分処理を実行する。具体的には、背景差分処理部２０は、背景保存部１６の背景画像を参照し、カメラ２の動画像Ｇ１の各フレームと背景画像との差分に基いて、動画像Ｇ１の各フレームに含まれる動物体に対応する動物体画像を検出する。すなわち、背景差分処理部２０は、差分処理部の一例である。

より具体的には、背景差分処理部２０は、動画像Ｇ１の各フレームの点Ｇ（ｔ，ｘ，ｙ）について、背景保存部１６の背景画像Ｈ（ｔ，ｘ，ｙ）との差分より、次の式（８）を満たす点の集合を動物体領域ＨＭＲとして取得する。なお、閾値Ｔ６は、背景差分法により動物体領域ＨＭＲを判別するために予め設定された閾値である。

顔検知部２１は、背景差分処理部２０が検出した動物体領域ＨＭＲから人物の顔画像を検知する。具体的には、顔検知部２１は、事前に撮影した店員Ｈ２の顔画像をＦ（ｘ，ｙ）（ｘ＝０，…，２Ｘ、ｙ＝０，…，２Ｙ）とすると、次の式（９）を満たし、かつ動物体領域ＨＭＲに含まる領域を顔画像として検知する。

なお、式（９）において、閾値Ｔ７は、顔と判別するために予め設定された閾値である。式（９）において、顔画像とする領域（ＦＲ）は、画素（ｋ，ｌ）を顔の中心とする（２Ｘ＋１）×（２Ｙ＋１）の矩形となる。

動き算出部２２は、顔検知部２１が検知した顔画像の前後のフレームにおける動きを算出する。具体的には、動き算出部２２は、次の式（１０）を最小とする（ｋ、ｌ）を、顔の動きとして算出する。

うなずき検知部２３は、動き算出部２２が算出した顔の動きをもとに、顔のうなずき、すなわち店員Ｈ２のうなずきを検知する。具体的には、うなずき検知部２３は、顔の動き（ｕ，ｖ）のｖの値（うなずく際の鉛直方向の顔の動き）が予め設定された閾値Ｔ８以上の負の変化があった後に、閾値Ｔ８以上の正の変化があるとき、うなずきと判定する。

例えば、ｖが最も小さい値ｖ_ｍｉｎとなる前の時間で閾値Ｔ５未満の変化の時刻を開始時刻、そのときのｖの値をｖ_ｌｅｆｔとする。また、ｖが最も小さい値ｖ_ｍｉｎとなる後の時間で閾値Ｔ５未満の変化の時刻を終了時刻、そのときのｖの値をｖ_{ｒｉｇｈｔ}とする。うなずき検知部２３は、うなずきの長さ（ｉ）、ｖの変化量のうなずきの深さ（ｊ）を、次の式（１１）により求める。

応対品質評価部２４は、うなずき検知部２３が検知した店員Ｈ２のうなずきを基に、顧客Ｈ１に対する店員Ｈ２の応対品質を評価する。すなわち、応対品質評価部２４は、動物体画像に基づいて動物体の動きを評価する評価部の一例である。

具体的には、応対品質評価部２４は、「同じうなずきを続けると、話し手は本当に話を聞いていると感じる」という従来の知見を基に、うなずき検知部２３が検知した店員Ｈ２のうなずきの長さ（ｉ）およびうなずきの深さ（ｊ）から店員Ｈ２の応対品質を求める。

例えば、応対品質評価部２４は、ｓ回目のうなずきの長さをｉ_ｓ、うなずきの深さをｊ_ｓとし、ｒがｓ−１から次の２つの式（１２）を満たす間は、ｓを１ずつ小さくする。そして、応対品質評価部２４は、式（１２）を満たさなくなったときに回数Ｒ＝ｓ−ｒを算出する。次いで、応対品質評価部２４は、算出した回数Ｒを用いて応対品質の評価値を（評価値）＝１／Ｒで算出する。

データ処理部２５は、応対品質評価部２４の評価結果をもとに、評価結果をディスプレイに表示する表示データを生成する。例えば、データ処理部２５は、横軸を時間、縦軸を評価値とするグラフの表示データを生成する。出力部２６は、データ処理部２５が生成した表示データをディスプレイの画面に表示し、上司Ｈ３に評価結果を出力する。これにより、上司Ｈ３は、店員Ｈ２の応対品質、例えば横軸を時間、縦軸を評価値とするグラフの場合は応対品質の時間変化を確認できる。

図６は、第１の実施形態にかかるシステムの動作例を示すフローチャートである。図６に示すように、処理が開始されると、動物体領域候補抽出部１１ａは、カメラ２からの動画像Ｇ１をもとに、現時刻（ｔ）のフレームと、前または後のフレームとの相関に基づいて動物体領域候補を取得する（Ｓ１）。次いで、特徴点抽出部１１ｂは、現時刻（ｔ）の動物体領域候補の中から、画像における特徴点を抽出する（Ｓ２）。

次いで、領域内特徴点抽出部１１ｃは、特徴点ごとに、次の時刻（ｔ＋１）のフレームの動物体領域候補における点の中で周辺の輝度の相関が一定値以上の点を探索し、探索された点を領域内特徴点と決定する（Ｓ３）。

次いで、動物体領域候補動き算出部１１ｄは、領域内特徴点ごとに、移動先の位置から移動前の位置を差し引いた動きを求め、動物体領域候補の動きを算出する（Ｓ４）。

次いで、動物体領域決定部１１ｅは動物体領域候補の中から動物体領域を決定し（Ｓ５）、動物体領域保存部１２は、動物体領域決定部１１ｅが決定した動物体領域を保存する（Ｓ６）。

次いで、動物体領域追跡部１３は、次の時刻の動物体領域候補を取得し、動物体領域保存部１２に保存された動物体領域を参照して相関を求めることで、フレーム間における動物体領域の位置を追跡する（Ｓ７）。

次いで、動物体領域追跡部１３は、現時刻の動物体領域の位置と、次の時刻の動物体領域の位置との差をもとに、動物体の動き（平行移動量（ｐ，ｑ））を動き保存部１７に保存する（Ｓ８）。

次いで、背景領域決定部１４は、動物体領域抽出部１１が抽出した動物体領域および動物体領域追跡部１３の追跡結果に基づいて、背景保存部１６における背景画像の更新を行う領域（背景領域）を決定する（Ｓ９）。

次いで、背景更新部１５は、背景領域決定部１４が決定した背景領域に基づいて、現時刻のフレームの背景領域の各点の輝度値に固定値αをかけて、背景保存部１６より読み出した背景画像に足し合わせ、背景画像の輝度を更新する（Ｓ１０）。次いで、背景更新部１５は、更新した背景画像の輝度を現時刻までのフレームにおける背景画像として背景保存部１６に保存する（Ｓ１１）。

次いで、背景差分処理部２０は、背景保存部１６に保存された背景（背景画像）を用いた背景差分法により、カメラ２の動画像Ｇ１より動物体領域を推定する（Ｓ１２）。次いで、顔検知部２１は、Ｓ１２により推定された動物体領域から顔を検出する（Ｓ１３）。次いで、動き算出部２２は、顔検知部２１が検知した顔の前後のフレームにおける動きを検出する（Ｓ１４）。

次いで、うなずき検知部２３は、動き算出部２２が検出した顔の動きをもとに、顔のうなずき、すなわち店員Ｈ２のうなずきを検知する（Ｓ１５）。次いで、応対品質評価部２４は、うなずき検知部２３が検知した店員Ｈ２のうなずきをもとに、顧客Ｈ１に対する店員Ｈ２の応対品質を評価する（Ｓ１６）。次いで、データ処理部２５は、応対品質評価部２４の評価結果をディスプレイに表示する表示データを生成する。出力部２６は、データ処理部２５が生成した表示データをディスプレイの画面に表示し、店員Ｈ２の応対品質の評価結果を上司Ｈ３に出力する（Ｓ１７）。

次いで、背景検出部１０ａは、カメラ２からの映像（動画像Ｇ１）の有無をもとに、映像の終了判定を行う（Ｓ１８）。映像終了の場合（Ｓ１８：ＹＥＳ）、背景検出部１０ａは、処理を終了する。また、映像終了でない場合（Ｓ１８：ＮＯ）、背景検出部１０ａは、Ｓ１へ処理を戻す。

（第２の実施形態）
図７は、第２の実施形態にかかるシステム構成例を説明する説明図である。図７に示すように、カメラ２は、顧客Ｈ１と店員Ｈ２との接客現場における店員Ｈ２を撮影し、撮影した動画像を店員Ｈ２の端末装置１ｂへ出力する。

端末装置１ｂは、上記の検出装置１を適用したスマートフォンなどの情報処理装置であり、カメラ２が撮影した動画像から背景画像を検出する。そして、端末装置１ｂは、検出した背景画像に基づき、背景差分法により接客時における店員Ｈ２の動きを検出し、顧客Ｈ１に対する店員Ｈ２の接客対応を評価して振動などで評価結果を店員Ｈ２に通知する。これにより、店員Ｈ２は、自身の接客対応を確認できる。

図８は、第２の実施形態にかかるシステムの機能構成例を示すブロック図である。図８に示すように、端末装置１ｂは、背景検出部１０ｂと、振動指示部２７と、振動部２８とを有する点が第１の実施形態にかかる端末装置１ａと異なる。

背景検出部１０ｂにおける背景領域決定部１４は、背景度合い算出部１４ａおよび背景度合い調整部１４ｂを有する。背景度合い算出部１４ａは、動物体領域追跡部１３の追跡結果をもとに、追跡した動物体領域の位置が移動したフレーム数に基づいて、動物体領域の背景度合いを算出する。すなわち、背景度合い算出部１４ａは、算出部の一例である。

具体的には、背景度合い算出部１４ａは、動物体領域追跡部１３の追跡結果から得られた、現時刻のフレームまでに位置の動きのあるフレーム数をもとに、動きのあるフレーム数が多いほど低い値を持つ背景度合いを算出する。

より具体的には、過去から現時刻のフレームまでに動きがあるフレーム数（回数）をＡとすると、背景度合い算出部１４ａは、次の式（１３）をもとに、例えば最大値を１とするように規定した背景度合い（ＨＤ）を算出する。

背景度合い調整部１４ｂは、背景度合い算出部１４ａが算出した背景度合い（ＨＤ）の大きさを所定の閾値をもとに調整する。例えば、背景度合い調整部１４ｂは、背景度合い（ＨＤ）のうち、所定の下限閾値未満の重み値を０とし、下限閾値未満については背景度合い（ＨＤ）の大きさを０とする。また、背景度合い調整部１４ｂは、背景度合い（ＨＤ）のうち、所定の上限閾値Ｔ１０以上の値を閾値Ｔ１０と同値とする。これにより、上限閾値Ｔ１０以上については、背景度合い（ＨＤ）の大きさを閾値Ｔ１０で固定する。

背景更新部１５は、背景を更新する際の固定値αを、背景度合い調整部１４ｂにより調整された背景度合い（ＨＤ）に応じた値とする。具体的には、背景更新部１５は、背景領域決定部１４が決定した背景領域に基づいて、現時刻のフレームにおける背景領域内の各点の輝度値に、背景度合い（ＨＤ）の値を掛け合わせる。次いで、背景更新部１５は、現時刻より前の背景画像を背景保存部１６より読み出し、現時刻のフレームにおける背景領域の輝度値を足し合わせる。そして、背景更新部１５は、足し合わせた背景画像について、１と背景度合い（ＨＤ）との和の値で割ることで得られた値を現時刻までの背景画像とし、背景保存部１６の背景画像を更新する。

より具体的には、背景更新部１５は、背景画像（Ｈ）中の背景と判定された各点（ｘ，ｙ）について、次の式（１４）により背景を更新する。

このように、背景更新部１５は、固定値αに代わり、動物体領域追跡部１３が追跡した動物体領域の位置が移動したフレーム数に基づく背景度合いを背景の更新に適用することで、例えば長時間にわたって動きのあった動物体を適切に背景から除くことができる。また、背景更新部１５は、過去における動きが短期であり、背景と推定できる動物体を背景に含めるように更新できる。

また、背景検出部１０ｂは、終了判定部１８を有する。終了判定部１８は、背景保存部１６に保存された背景画像を参照し、現時刻と次の時刻の背景の輝度の相関に基づいて背景の検出を終了するか否かの判定を行う。例えば、終了判定部１８は、現時刻と次の時刻の背景の輝度の相関から動画像Ｇ１において同じ背景画像が所定期間続く場合は、背景の検出を不要とし、背景の検出を終了するものと判定する。

より具体的には、終了判定部１８は、現時刻の背景画像Ｈ（ｔ，ｘ，ｙ）と、次の時刻の背景画像Ｈ（ｔ＋１，ｘ，ｙ）の輝度の相関が次の式（１５）を満たす場合が所定の閾値Ｔ１２以上続くと、背景検出を終了と判定する。なお、閾値Ｔ１１は、同じ背景画像であるか否かを評価するために予め設定された閾値である。

終了判定部１８の判定結果をもとに、背景検出部１０ｂは、背景の検出を終了する。これにより、背景検出部１０ｂは、例えば動画像Ｇ１において背景が変化しない期間が続く場合は、背景の検出を終了することができる。

振動指示部２７は、応対品質評価部２４の評価結果をもとに、店員Ｈ２への振動指示を振動部２８に送信するか否かを判定する。例えば、振動指示部２７は、応対品質評価部２４における評価値が所定値未満の状態が所定の期間継続した場合、店員Ｈ２への振動指示を振動部２８に送信する。振動部２８は、振動指示部２７の指示に基づいて振動し、店員Ｈ２に対して振動による通知を行う。これにより、店員Ｈ２は、応対品質評価部２４の評価結果、例えば応対品質の評価値が所定値よりも低い状態が継続していることを認識できる。

図９は、第２の実施形態にかかるシステムの動作例を示すフローチャートである。図９に示すように、第１の実施形態とはＳ２０〜Ｓ２５の処理を有する点が異なっている。

具体的には、Ｓ９に次いで、背景度合い算出部１４ａは、動物体領域追跡部１３の追跡結果をもとに、動物体領域の背景度合い（ＨＤ）を算出する（Ｓ２０）。次いで、背景度合い調整部１４ｂは、背景度合い算出部１４ａが算出した背景度合い（ＨＤ）の大きさを所定の閾値で調整する（Ｓ２１）。

次いで、背景更新部１５は、背景領域の各点の輝度に背景度合い（ＨＤ）の値をかけて得られた値を背景の輝度とし、背景保存部１６の背景画像を更新する（Ｓ２２）。

また、終了判定部１８は、Ｓ１１に次いで、背景保存部１６に保存された背景画像を参照し、現時刻と次の時刻の背景画像の輝度の相関が閾値以上のときが一定回数続くか否かを判定する（Ｓ２３）。

また、振動指示部２７は、Ｓ１６に次いで、応対品質評価部２４の評価結果（応対品質）から振動部２８に振動指示を送信するか否かを決定する（Ｓ２４）。

図１０は、振動指示の決定を説明する説明図である。図１０において、横軸は時間軸、縦軸はグラフの評価値を示す。図１０に示すように、振動指示部２７は、応対品質評価部２４の評価結果における評価値のグラフについて、閾値Ｔ９を下回る期間Ｓが所定期間続いたとき、振動指示を振動部２８に送信する。この振動指示による振動部２８の振動により、店員Ｈ２は、例えば応対品質の評価値が閾値Ｔ９よりも低い状態が所定期間継続していることを認識できる。

図９に戻り、背景検出部１０ｂは、Ｓ１８が否定判定である場合（Ｓ１８：ＮＯ）、終了判定部１８の判定結果をもとに、背景検出（背景推定）の終了の有無を判定する（Ｓ２５）。背景検出を終了する場合（Ｓ２５：ＹＥＳ）、背景検出部１０ｂは、Ｓ１２へ処理を戻す。背景検出を終了しない場合（Ｓ２５：ＮＯ）、背景検出部１０ｂは、Ｓ１へ処理を戻す。

（第３の実施形態）
図１１は、第３の実施形態にかかるシステム構成例を説明する説明図である。図１１に示すように、カメラ２ａは、上司Ｈ３により端末装置１ｄを介した撮影方向やズームイン／ズームアウトなどの操作が可能なカメラである。カメラ２ａは、上司Ｈ３からの操作をもとに、顧客Ｈ１と店員Ｈ２との接客現場を撮影し、撮影した動画像をサーバ装置１ｃへ出力する。

サーバ装置１ｃは、上記の検出装置１を適用した情報処理装置であり、カメラ２が撮影した動画像から背景画像を検出する。そして、サーバ装置１ｃは、検出した背景画像に基づき、背景差分法により接客時における店員Ｈ２の動きを検出し、顧客Ｈ１に対する店員Ｈ２の接客対応を評価して端末装置１ｄへ通知する。端末装置１ｄは、通知された接客対応の評価をディスプレイなどに表示する。また、端末装置１ｄは、接客対応の評価に対し、上司Ｈ３が店員Ｈ２に行う指示（フィードバック）の入力を受け付け、入力された指示を店員Ｈ２の端末装置４にフィードバックする。

図１２は、第３の実施形態にかかるシステムの機能構成例を示すブロック図である。図１２に示すように、サーバ装置１ｃは、背景検出部１０ｃと、映像補正部２９とを有する点が第１の実施形態にかかる端末装置１ａと異なる。

背景検出部１０ｃは、ジャイロセンサ３０およびユーザ入力保存部３１を有する。ジャイロセンサ３０は、カメラ２ａのｘ，ｙ，ｚ軸方向の動きを検出するセンサであり、動き検出部の一例である。ユーザ入力保存部３１は、端末装置１ｄにおいてユーザ（上司Ｈ３）が行った入力指示、例えばカメラ２ａの操作指示などを保存する。

背景領域決定部１４は、ジャイロセンサ３０が検出したカメラ２ａの動きに基づき、各フレームにおける背景領域のカメラ２ａの動きに伴うずれを補正する。具体的には、背景領域決定部１４は、次の式（１６）に示す回転行列Ｒｏｔをもとに、カメラの動き（ｘ軸（水平）、ｙ軸（垂直）、ｚ軸（光軸）を中心とした回転）に伴う回転ずれを補正する。式（１６）において、ジャイロセンサ３０が検出したカメラ２ａの動きにおける回転角度は、θｘ、θｙ、θｚとする。これにより、背景領域決定部１４は、カメラ２ａの動きに伴うずれを補正した背景画像を得ることができる。

映像補正部２９は、ユーザ入力保存部３１に保存されたカメラ２ａの操作指示をもとに、カメラ２ａの映像（動画像Ｇ１）を補正する。具体的には、映像補正部２９は、ユーザが行ったズームイン／ズームアウトをキャンセルするように、動画像Ｇ１を補正する。

より具体的には、映像補正部２９は、ユーザが行ったズームイン／ズームアウトのズーム率をＺとし、修正後の動画像（Ｇ’）を次の式（１７）により算出する。なお、式（１７）において、Ｕ（ｘ）は、ｘの小数点以下を切り捨てる関数とする。

端末装置１ｄは、データ処理部２５、出力部２６、ユーザ入力部３２、カメラ操作入力部３３およびフィードバック部３４を有する。ユーザ入力部３２は、キーボードやマウス等の入力装置（図示しない）からの入力に基づいて、処理の終了、店員Ｈ２へのフィードバックの内容など、各種のユーザ入力を受け付ける。ユーザ入力部３２は、受け付けた操作内容をユーザ入力保存部３１へ通知する。

カメラ操作入力部３３は、キーボードやマウス等の入力装置（図示しない）からの入力に基づいて、カメラ２ａにかかる操作入力（撮影方向やズームイン／ズームアウト）などを受け付ける。カメラ操作入力部３３は、受け付けた操作内容をユーザ入力保存部３１へ通知する。フィードバック部３４は、ユーザ入力部３２が受け付けた、店員Ｈ２へのフィードバックの内容を端末装置４へ通知する。

図１３は、第３の実施形態にかかるシステムの動作例を示すフローチャートである。図１３に示すように、第１の実施形態とは、Ｓ３０〜Ｓ３５の処理を有する点が異なっている。

具体的には、カメラ操作入力部３３は、ズームイン・ズームアウトの入力をユーザ（上司Ｈ３）より受け付ける（Ｓ３０）。カメラ操作入力部３３が受け付けたズームイン・ズームアウトの入力内容はユーザ入力保存部３１に保存される。

次いで、映像補正部２９は、ユーザ入力保存部３１に保存されたズームイン・ズームアウトの入力内容をもとに、ズームをキャンセルするように映像（動画像Ｇ１）を修正する（Ｓ３１）。

また、背景領域決定部１４は、Ｓ８に次いで、ジャイロセンサ３０よりカメラ２ａの動きを取得する（Ｓ３２）。次いで、背景領域決定部１４は、ジャイロセンサ３０が検出したカメラ２ａの動きに基づき、各フレームにおける背景領域のカメラ２ａの動きに伴うずれを補正する。これにより、背景領域決定部１４は、カメラ２ａの動きを差し引いて背景の更新を行う領域（背景領域）を決定する（Ｓ３３）。

また、ユーザ入力部３２は、Ｓ１１に次いで、推定中の背景、すなわち背景検出部１０ｃが検出した背景を出力部２６よりディスプレイに表示する。次いで、ユーザ入力部３２は、ユーザ（上司Ｈ３）から背景推定が完了したか否かの入力を受け付ける（Ｓ３４）。背景推定が完了したとの入力がある場合、ユーザ入力部３２は、背景推定の完了をユーザ入力保存部３１に保存する。背景検出部１０ｃは、背景推定の完了がユーザ入力保存部３１に保存された場合、背景検出部１０ｃにおける背景の検出を終了する。

また、フィードバック部３４は、Ｓ１７に次いで、ユーザ入力部３２がユーザ（上司Ｈ３）より受け付けた、店員Ｈ２へのフィードバックの内容を端末装置４へ通知する（Ｓ３５）。これにより、店員Ｈ２には、端末装置４を介して、上司Ｈ３が店員Ｈ２に行う指示（フィードバック）が通知される。

以上のように、検出装置１、端末装置１ａ、１ｂ、１ｃは、動物体領域抽出部１１、動物体領域追跡部１３、背景領域決定部１４および背景更新部１５を有する。動物体領域抽出部１１は、入力された動画像の前後のフレームの比較結果に基づき、フレームに含まれる動物体の動物体領域を抽出する。動物体領域追跡部１３は、動物体領域抽出部１１が抽出した動物体領域と、動画像の各フレームとの相関に基いて、フレーム間における動物体領域の位置を追跡する。背景領域決定部１４は、動画像の各フレームにおいて、抽出した動物体領域を除く画像領域を各フレームの背景領域と決定する。また、背景領域決定部１４は、動物体領域追跡部１３が位置を追跡した動物体領域がフレーム内に含まれる場合はその動物体領域を除く画像領域を各フレームの背景領域と決定する。背景更新部１５は、背景領域決定部１４が決定した各フレームの背景領域に基いて動画像の各フレームにおける背景画像を検出する。

したがって、検出装置１、端末装置１ａ、１ｂ、１ｃは、例えば動画像に写り込んだ動物体が一定時間にわたって静止した場合であっても、動物体が背景画像に含まれて検出されることを抑制できる。

また、背景領域決定部１４は、閾値Ｔ５以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を背景領域と決定する。このように、位置を追跡した動物体領域の中で、閾値Ｔ５以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を背景領域とすることで、例えば風で数フレーム揺れる木の枝が動物体領域とされ、背景から除外されることを抑制できる。

また、検出装置１、端末装置１ａ、１ｂ、１ｃは、動画像の所定のフレームより前のフレームまでに検出した背景画像を保存する背景保存部１６を有する。背景更新部１５は、所定のフレームにおいて決定した背景領域内の画素値に所定値（固定値α）を掛けた上で、背景保存部１６に保存された背景画像に足し合わせることで、所定フレームに対応する背景画像を検出する。これにより、検出装置１、端末装置１ａ、１ｂ、１ｃは、所定のフレームより前のフレームまでの背景画像、すなわち背景モデルについて、所定のフレームにおいて決定した背景領域内の画素値に所定値を掛け合わせた背景画像（所定のフレームの背景画像）を足し合わせて更新することができる。

また、検出装置１、端末装置１ａ、１ｂ、１ｃは、所定値（固定値α）に代わり、動物体領域追跡部１３が追跡した動物体領域の位置が移動したフレーム数に基づく背景度合い（ＨＤ）を背景の更新に適用してもよい。この場合は、例えば長時間にわたって動きのあった動物体を適切に背景から除くことができる。または、過去における動きが短期であり、背景と推定できる動物体を背景に含めるように更新できる。

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、検出装置１、端末装置１ａ、１ｂ、１ｄ、サーバ装置１ｃ等（以下、代表して検出装置１と称する）で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、検出装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ（ハードウエア）の一例を説明する。図１４は、実施形態にかかる検出装置１のハードウエア構成の一例を示すブロック図である。なお、図１４のハードウエア構成例は、コンピュータの一例として検出装置１を代表して説明するが、端末装置１ａ、１ｂ、１ｄ、サーバ装置１ｃ等も同様であることは言うまでもないことである。

図１４に示すように、検出装置１は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３と、スピーカ１０４とを有する。また、検出装置１は、記憶媒体からプログラム等を読み取る媒体読取装置１０５と、各種装置と接続するためのインタフェース装置１０６と、有線または無線により外部機器と通信接続するための通信装置１０７とを有する。また、検出装置１は、各種情報を一時記憶するＲＡＭ１０８と、ハードディスク装置１０９とを有する。また、検出装置１内の各部（１０１〜１０９）は、バス１１０に接続される。

ハードディスク装置１０９には、上記の実施形態で説明した各種の処理を実行するためのプログラム１１１が記憶される。また、ハードディスク装置１０９には、プログラム１１１が参照する各種データ１１２が記憶される。入力装置１０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ１０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置１０６は、例えば印刷装置等が接続される。通信装置１０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０９に記憶されたプログラム１１１を読み出して、ＲＡＭ１０８に展開して実行することで、各種の処理を行う。このプログラム１１１を実行することで、ＣＰＵ１０１は、例えば背景検出部１０、１０ａ、１０ｂ、１０ｃ、背景差分処理部２０、顔検知部２１、動き算出部２２、うなずき検知部２３、応対品質評価部２４、データ処理部２５、出力部２６、振動指示部２７、映像補正部２９、ユーザ入力部３２、カメラ操作入力部３３およびフィードバック部３４等として機能する。なお、プログラム１１１は、ハードディスク装置１０９に記憶されていなくてもよい。例えば、検出装置１が読み取り可能な記憶媒体に記憶されたプログラム１１１を読み出して実行するようにしてもよい。検出装置１が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム１１１を記憶させておき、検出装置１がこれらからプログラム１１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出する抽出部と、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡する追跡部と、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定する決定部と、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する背景更新部と、
を有することを特徴とする情報処理装置。

（付記２）前記決定部は、前記フレーム内に含まれる動物体領域の中の、所定数以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を前記背景領域と決定する、
ことを特徴とする付記１に記載の情報処置装置。

（付記３）前記動画像の所定のフレームより前のフレームまでに検出した背景画像を保存する保存部を更に有し、
前記背景更新部は、前記所定のフレームにおいて決定した前記背景領域内の画素値に所定値を掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記１または２に記載の情報処理装置。

（付記４）追跡した前記動物体領域の位置が移動したフレーム数に基づいて、前記動物体領域の背景度合いを算出する算出部を更に有し、
前記背景更新部は、前記所定のフレームにおいて決定した前記背景領域内の画素値に算出した前記背景度合いを掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記３に記載の情報処理装置。

（付記５）取得した前記背景画像と、前記動画像の各フレームとの差分に基いて、前記動画像の各フレームに含まれる動物体に対応する動物体画像を検出する差分処理部を更に有する、
ことを特徴とする付記１乃至４のいずれか一に記載の情報処理装置。

（付記６）前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する評価部を更に有する、
ことを特徴とする付記５に記載の情報処理装置。

（付記７）前記動画像を撮影するカメラにかかる操作入力を受け付ける入力部と、
前記操作入力に基づき、当該操作入力をキャンセルするように前記動画像を補正する映像補正部と、を更に有し、
前記評価部は、補正された前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する、
ことを特徴とする付記６に記載の情報処理装置。

（付記８）前記動画像を撮影するカメラの動きを検出する動き検出部を更に有し、
前記決定部は、検出した前記カメラの動きに基づき、各フレームにおける前記背景領域の前記カメラの動きに伴うずれを補正する、
ことを特徴とする付記１乃至７のいずれか一に記載の情報処理装置。

（付記９）入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出し、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡し、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定し、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する、
処理をコンピュータが実行することを特徴とする背景更新方法。

（付記１０）前記決定する処理は、前記フレーム内に含まれる動物体領域の中の、所定数以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を前記背景領域と決定する、
ことを特徴とする付記９に記載の背景更新方法。

（付記１１）前記動画像の所定のフレームより前のフレームまでに検出した背景画像を保存する処理を更にコンピュータが実行し、
前記更新する処理は、前記所定のフレームにおいて決定した前記背景領域内の画素値に所定値を掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記９または１０に記載の背景更新方法。

（付記１２）追跡した前記動物体領域の位置が移動したフレーム数に基づいて、前記動物体領域の背景度合いを算出する処理を更にコンピュータが実行し、
前記更新する処理は、前記所定のフレームにおいて決定した前記背景領域内の画素値に算出した前記背景度合いを掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記１１に記載の背景更新方法。

（付記１３）取得した前記背景画像と、前記動画像の各フレームとの差分に基いて、前記動画像の各フレームに含まれる動物体に対応する動物体画像を検出する差分処理を更にコンピュータが実行する、
ことを特徴とする付記９乃至１２のいずれか一に記載の背景更新方法。

（付記１４）前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する処理を更にコンピュータが実行する、
ことを特徴とする付記１３に記載の背景更新方法。

（付記１５）前記動画像を撮影するカメラにかかる操作入力を受け付ける処理と、
前記操作入力に基づき、当該操作入力をキャンセルするように前記動画像を補正する処理と、を更にコンピュータが実行し、
前記評価する処理は、補正された前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する、
ことを特徴とする付記１４に記載の背景更新方法。

（付記１６）前記決定する処理は、前記動画像を撮影するカメラの動きを検出する動き検出部が検出した前記カメラの動きに基づき、各フレームにおける前記背景領域の前記カメラの動きに伴うずれを補正する、
ことを特徴とする付記９乃至１５のいずれか一に記載の背景更新方法。

（付記１７）入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出し、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡し、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定し、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する、
処理をコンピュータに実行させることを特徴とする背景更新プログラム。

（付記１８）前記決定する処理は、前記フレーム内に含まれる動物体領域の中の、所定数以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を前記背景領域と決定する、
ことを特徴とする付記１７に記載の背景更新プログラム。

（付記１９）前記動画像の所定のフレームより前のフレームまでに検出した背景画像を保存する処理を更にコンピュータに実行させ、
前記更新する処理は、前記所定のフレームにおいて決定した前記背景領域内の画素値に所定値を掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記１７または１８に記載の背景更新プログラム。

（付記２０）追跡した前記動物体領域の位置が移動したフレーム数に基づいて、前記動物体領域の背景度合いを算出する処理を更にコンピュータに実行させ、
前記更新する処理は、前記所定のフレームにおいて決定した前記背景領域内の画素値に算出した前記背景度合いを掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする付記１９に記載の背景更新プログラム。

（付記２１）取得した前記背景画像と、前記動画像の各フレームとの差分に基いて、前記動画像の各フレームに含まれる動物体に対応する動物体画像を検出する差分処理を更にコンピュータに実行させる、
ことを特徴とする付記１７乃至２０のいずれか一に記載の背景更新プログラム。

（付記２２）前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する処理を更にコンピュータに実行させる、
ことを特徴とする付記２１に記載の背景更新プログラム。

（付記２３）前記動画像を撮影するカメラにかかる操作入力を受け付ける処理と、
前記操作入力に基づき、当該操作入力をキャンセルするように前記動画像を補正する処理と、を更にコンピュータに実行させ、
前記評価する処理は、補正された前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する、
ことを特徴とする付記２２に記載の背景更新プログラム。

（付記２４）前記決定する処理は、前記動画像を撮影するカメラの動きを検出する動き検出部が検出した前記カメラの動きに基づき、各フレームにおける前記背景領域の前記カメラの動きに伴うずれを補正する、
ことを特徴とする付記１７乃至２３のいずれか一に記載の背景更新プログラム。

１…検出装置
１ａ、１ｂ、１ｄ、４…端末装置
１ｃ…サーバ装置
２、２ａ…カメラ
３、３’…背景画像
１０、１０ａ、１０ｂ、１０ｃ…背景検出部
１０ａ…背景検出部
１０ｂ…背景検出部
１０ｃ…背景検出部
１１…動物体領域抽出部
１１ａ…動物体領域候補抽出部
１１ｂ…特徴点抽出部
１１ｃ…領域内特徴点抽出部
１１ｄ…動物体領域候補動き算出部
１１ｅ…動物体領域決定部
１２…動物体領域保存部
１３…動物体領域追跡部
１４…背景領域決定部
１４ａ…背景度合い算出部
１４ｂ…背景度合い調整部
１５…背景更新部
１６…背景保存部
１７…動き保存部
１８…終了判定部
２０…背景差分処理部
２１…顔検知部
２２…動き算出部
２３…うなずき検知部
２４…応対品質評価部
２５…データ処理部
２６…出力部
２７…振動指示部
２８…振動部
２９…映像補正部
３０…ジャイロセンサ
３１…ユーザ入力保存部
３２…ユーザ入力部
３３…カメラ操作入力部
３４…フィードバック部
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…スピーカ
１０５…媒体読取装置
１０６…インタフェース装置
１０７…通信装置
１０８…ＲＡＭ
１０９…ハードディスク装置
１１０…バス
１１１…プログラム
１１２…各種データ
Ｇ１…動画像
Ｇ２…相関情報
Ｈ、Ｈ２…店員
Ｈ’…影
Ｈ１…顧客
Ｈ３…上司
Ｒ１〜Ｒ３…領域
Ｔ１〜Ｔ１２…閾値
α…固定値

Claims

入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出する抽出部と、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡する追跡部と、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定する決定部と、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する背景更新部と、
を有することを特徴とする情報処理装置。
前記決定部は、前記フレーム内に含まれる動物体領域の中の、所定数以上のフレーム数にわたって位置が移動した動物体領域を除く画像領域を前記背景領域と決定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記動画像の所定のフレームより前のフレームまでに検出した背景画像を保存する保存部を更に有し、
前記背景更新部は、前記所定のフレームにおいて決定した前記背景領域内の画素値に所定値を掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする請求項１または２に記載の情報処理装置。
追跡した前記動物体領域の位置が移動したフレーム数に基づいて、前記動物体領域の背景度合いを算出する算出部を更に有し、
前記背景更新部は、前記所定のフレームにおいて決定した前記背景領域内の画素値に算出した前記背景度合いを掛けた上で、保存された前記背景画像に足し合わせることで、前記所定フレームに対応する背景画像を更新する、
ことを特徴とする請求項３に記載の情報処理装置。
取得した前記背景画像と、前記動画像の各フレームとの差分に基いて、前記動画像の各フレームに含まれる動物体に対応する動物体画像を検出する差分処理部を更に有する、
ことを特徴とする請求項１乃至４のいずれか一項に記載の情報処理装置。
前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する評価部を更に有する、
ことを特徴とする請求項５に記載の情報処理装置。
前記動画像を撮影するカメラにかかる操作入力を受け付ける入力部と、
前記操作入力に基づき、当該操作入力をキャンセルするように前記動画像を補正する映像補正部と、を更に有し、
前記評価部は、補正された前記動画像の各フレームより検出した前記動物体画像に基づいて前記動物体の動きを評価する、
ことを特徴とする請求項６に記載の情報処理装置。
前記動画像を撮影するカメラの動きを検出する動き検出部を更に有し、
前記決定部は、検出した前記カメラの動きに基づき、各フレームにおける前記背景領域の前記カメラの動きに伴うずれを補正する、
ことを特徴とする請求項１乃至７のいずれか一項に記載の情報処理装置。
入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出し、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡し、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定し、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する、
処理をコンピュータが実行することを特徴とする背景更新方法。
入力された動画像を構成する各フレーム同士を比較した結果に基づき、前記フレームに含まれる動物体の動物体領域を抽出し、
抽出した前記動物体領域と、前記動画像の各フレームとの相関に基いて、フレーム間における前記動物体領域の位置を追跡し、
前記動画像の各フレームにおいて、位置を追跡した前記動物体領域がフレーム内に含まれる場合は当該動物体領域を除く画像領域を各フレームの背景領域と決定し、
決定した前記各フレームの背景領域に基いて前記動画像の背景画像を更新する、
処理をコンピュータに実行させることを特徴とする背景更新プログラム。