JP2014060491A

JP2014060491A - 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム

Info

Publication number: JP2014060491A
Application number: JP2012202927A
Authority: JP
Inventors: Hiroyoshi Watanabe; 大喜渡邊; Mutsuhiro Nakashige; 睦裕中茂
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-09-14
Filing date: 2012-09-14
Publication date: 2014-04-03
Anticipated expiration: 2032-09-14
Also published as: JP5940944B2

Abstract

【課題】カメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する。
【解決手段】カメラ１が撮影した画像情報を用いてユーザの顔認識を行う顔認識手段３１と、画像情報を用いてユーザの動体検知を行う動体検知手段３３と、マイク２が取得した音情報を用いてユーザの音検知を行う音検知手段３５と、顔認識手段３１が認識した顔認識結果、動体検知手段３３が検知した動体検知結果および音検知手段３５が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識の頻度特徴量と、動体検知の頻度特徴量と、音検知の頻度特徴量とを算出する頻度特徴量算出手段３７と、顔認識の頻度特徴量と、動体検知の頻度特徴量と、音検知の頻度特徴量とをあらかじめ構築した識別器３９に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段３８と、を備える視聴状況判定装置３。
【選択図】図２

Description

本発明は、ユーザの視聴状況を推定するための視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラムに関する。

従来では、テレビの前の視聴者の状況を推定する技術として、テレビにカメラを搭載し、画像処理技術によるセンシングを行って状況推定する手法が一般的である。非特許文献１には、画像処理技術によって動体検出に加えて顔認識を行うことでユーザの存在の有無のみならず、視聴の有無を判定することで積極的な省エネに活用する事例が示されている。

また、非特許文献２には、画像認識技術によりユーザ識別、顔向き、表情変化などと、タブレット端末操作の有無から関心度推定を行い関連情報や推薦番組の提示を行う事例が示されている。非特許文献２では、顔向きがテレビ方向かつ静止状態が一定時間以上、または表情の変化が高いときに関心度が高く、顔向きがよそ見かつ端末の操作が無いときに関心度が低いと判定される。

鶴見辰吾"画像認識とヒュ-マンインタフェ-ス 3．画像認識を応用したヒュ-マンインタフェ-ス 3-1インテリジェント人感センサ"映像情報メディア学会誌Vol．64 No．12 Page．1809-1811 山内結子, 奥田誠, 高橋正樹, CLIPPINGDALE Simon, 苗村昌秀, 藤井真人 "テレビ視聴インターフェース-UTAN-の提案"、映像情報メディア学会冬季大会講演予稿集,7-2,2011

従来のように、視聴の有無や関心の高さの判定のために、カメラによってユーザの視聴状況を推定する手法では、カメラの画角から外れた地点から視聴していたり、障害物によって顔や体の一部が隠れている場合などは、視聴状況を正しく推定することができないという問題がある。この問題を解決するために、カメラを複数台設置したり、赤外線センサなどを室内に散りばめたりすることが想定されるが、それに対して視聴状況の取得という効果だけではコストに見合うものではない。

また、従来手法では検出結果が「顔」有り・無し、「動き」有り・無しのように今現在のフレームに対して二値で表現されているため、時系列変化を汲み取って状況を推定することができない。例えば、非特許文献２の場合、関心を持ってテレビの視聴しているときに、今たまたま他の視聴者と会話したり他の用事をしたりして、顔の向きをテレビ方向から外した場合には、関心度が低いと判断されてしまう。

本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、カメラの画角から外れた地点でユーザが視聴しているなどカメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム提供することにある。

上記目的を達成するため、本発明は、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、前記画像情報を用いてユーザの動体検知を行う動体検知手段と、マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段と、を備える。

また、本発明は、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、前記画像情報を用いてユーザの動体検知を行う動体検知手段と、マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、前記頻度特徴量算出手段が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築手段と、を備える。

また、本発明は、コンピュータが行う視聴状況判定方法であって、前記コンピュータは、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定ステップと、を行う。

また、コンピュータが行う識別器構築方法であって、前記コンピュータは、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、前記頻度特徴量算出ステップで算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築ステップ、を行う。

また、本発明は、前記装置として、コンピュータを機能させるためのプログラムである。

本発明によれば、カメラの画角から外れた地点でユーザが視聴しているなどカメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム提供することができる。

本発明の実施形態に係る視聴状況判定システムの全体構成図である。視聴状況判定装置の構成を示すブロック図である。顔認識結果バッファの一例である。頻度特徴量算出部と、専念・非専念判定部と、専念・非専念識別器との関係を示す図である。実施例１の識別器構築装置の構成を示すブロック図である。学習データおよび３次元散文図の一例である。実施例２の識別器（判定テーブル）の一例である。

以下、本発明の実施の形態について、図面を参照して説明する。本実施形態の視聴状況判定システムは、マイクよりユーザが動作する音を検知して、カメラより取得される顔認識など画像処理の情報と組み合わせてマルチモーダルに視聴状況を判断する。

図１は本発明の実施形態に係る視聴状況判定システムの構成を示す全体構成図である。視聴状況判定システムは、テレビ４などの映像を視聴しているユーザを撮影するカメラ１と、カメラ１の画角外（カメラの感知範囲以外）のユーザの動きを検知可能な無指向性の高感度のマイク２（マイクロフォン）と、視聴状況判定装置３とを備える。カメラ１、マイク２および視聴状況判定装置３は、例えばテレビ４などに設置・内蔵されているものとする。

カメラ１とマイク２は、図１に示すようにユーザの視聴状況を観察できる位置に設置する。このときテレビ４とカメラ１およびマイク２の位置関係は、図１に示す限りでなく、ユーザを観察できるのであれば同じ位置に設置する必要はなく、それぞれを離れた位置に設置しても良い。またカメラ１およびマイク２をそれぞれ複数台数設置してセンシングしても良い。

図２は、視聴状況判定装置３の構成を示すブロック図である。図示する視聴状況判定装置３は、顔認識部３１と、顔認識結果バッファ３２と、動体検知部３３と、動体検知結果バッファ３４と、音検知部３５と、音検知結果バッファ３６と、頻度特徴量算出部３７と、専念・非専念判定部３８と、専念・非専念識別器３９とを備える。

顔認識部３１は、カメラ２から取得した画像情報（フレーム画像）を用いて、テレビ４に向けられたユーザの顔の検知を行うモジュールである。顔認識のアルゴリズムは広く一般的に知られており、例えばインテルの開発したオープンソースのコンピュータビジョンライブラリOpenCVの顔認識（オブジェクト検出）では、Haar-Like特徴量を利用してブーストされた識別器のカスケードを用いている。顔認識部３１では、テレビ４に向けられた顔画像（例えば正面顔など）の特徴量を抽出して学習させたデータを用いて、未知の入力画像に対して、当該入力画像内に顔が有るか無いかを判定する。

顔認識部３１は、カメラ２から入力される画像情報をフレーム毎に顔認識して、顔が有るか無いかを判定し、判定結果を認識結果として出力する。認識結果としては、例えば、顔が有れば1を、顔が無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、顔認識部３１は、フレーム毎の認識結果を顔認識結果バッファ３２に出力する。顔認識結果バッファ３２には、所定の時間分（例えば60 sec）の認識結果が蓄積される。

動体検知部３３は、カメラ１から取得した画像情報（フレーム画像）を用いて、画像内の動体、つまりユーザの動きの有無を検知するモジュールである。移動物体の検出手法については、背景差分法やオプティカルフローを利用する方法が挙げられる。例えば、背景差分法では現在の一つ前のフレーム、または数フレーム前の画像を背景画像として取り込み、現在のフレームと背景画像との差の絶対値による差分画像を得る。差分画像については２値化して動体を分離する。誤差程度の動きの検出を棄却するため、動体領域のピクセル数をカウントして、所定の閾値以上であれば動体と判定し（動き有りと判定）、所定の閾値未満であれば動体と判定しない（動き無しと判定）。

動体検知部３３は、カメラ２から入力される画像情報をフレーム毎に動体検知して、ユーザに動きが有るか無いかを判定し、判定結果を動体検知結果として出力する。検知結果としては、例えば、動きが有れば1を、動きが無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、動体検知部３３は、フレーム毎の動体検知を動体検知結果バッファ３４に出力する。動体検知結果バッファ３４には、所定の時間分（例えば60 sec）の動体検知結果が蓄積される。

音検知部３５は、マイク２から取得した音信号を用いて、ユーザが音（例えば、ユーザの動作音など）を発生させたかどうか検知するモジュールである。音検知部３５は、例えば、ユーザが音を発生させたどうかを、信号強度の強弱（例えば、特定周波数の音圧など）によって判断する。周囲の雑音やテレビの音による影響を除くために、想定され得るノイズ（雑音、テレビの音など）の大きさの信号強度を閾値として、その閾値よりも信号強度が大きければ有音であると判断する。

音検知部３５は、マイク２から入力される音情報を所定のサンプリングレートで音検知して、音が有るか無いかを判定し、判定結果を音検知結果として出力する。音検知結果としては、例えば、音が有れば1を、音が無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、音検知部３５は、サンプリング毎の音検知結果を音検知結果バッファ３６に出力する。音検知結果バッファ３６には、所定の時間分（例えば60 sec）の音検知結果が蓄積される。

図３は、顔認識結果バッファ３２に記憶される認識結果の一例を示すものである。顔認識結果バッファ３２には、フレーム毎の認識結果が所定の時間（例えば、60sec）分、保持されている。具体的には、フレーム番号と、認識結果と、先頭フレーム（図示する例では、フレーム１）からの経過時間とが記憶されている。図示する例では、顔認識部３１は、対象とするフレームのフレーム番号、認識結果および経過時間（0）を設定したデータ（レコード）を生成し、順次、顔認識結果バッファ３２のテーブルの先頭に新規に挿入し、記憶する。これにより、既にバッファに登録されていた既存のデータの経過時間がそれぞれ更新され、更新後の経過時間が所定時間（例えば60sec）を超える古いデータが破棄される。

動体検知結果バッファ３４は、顔認識結果バッファ３２と同様であって、フレーム毎の動体検知結果が所定の時間分（例えば60sec）保持され、所定の時間を経過した動体検知結果のデータは破棄される。また、音検知結果バッファ３６は、顔認識結果バッファ３２と同様であって、サンプリング毎の音検知結果が所定の時間分（例えば60sec）保持され、所定の時間を経過した音検知結果のデータは破棄される。なお、画像情報のフレームレートと、音情報のサンプリングレートは、同じである必要はなく、一般的にはサンプリングレートの方が大きい。

頻度特徴量算出部３７は、現在より所定の時間前（例えば60sec前）から現在までに、どのくらいの頻度で「顔」、「動体」、「音」が検知されたかを示すそれぞれの頻度特徴量Xを算出するモジュールである。各頻度特徴量は、例えば、各バッファ３２、３４、３６に蓄積されたデータの数をN個とした時に、各結果データ（0か1）の値を取得時刻の古い順にｐ_ｎ、ｐ_ｎ−１、ｐ_ｎ−２、・・・ｐ_１とすると以下の式１で表すことが出来る。

この頻度特徴量Xは、系列データに対して所定の時間単位で扱うためのデータの平滑化である。ただし、バッファするデータ数Nはフレームレートまたはサンプリングレートによって可変であるため、固定数のデータに対して平滑化をしているわけではない。各データ（顔認識結果、動体検知結果、音検知結果）に重み付けε_０, ε₁, ・・・，ε_nをして表現することができるとすると、一般化して次の式２のように表すこともできる。

重み付けは、例えば頻度特徴量の種類（顔、動体、音）によってデータに差をつけたり、時間経過に従ってデータの影響度を減らしていく場合などに利用できる。

頻度特徴量算出部３７は、式２を用いて、顔認識結果バッファ３２にバッファされたデータを用いて顔の頻度特徴量X_faceを、動体検知結果バッファ３４にバッファされたデータを用いて動体の頻度特徴量X_motionを、音検知結果バッファ３６にバッファされたデータを用いて音の頻度特徴量X_audioを算出する。そして、頻度特徴量算出部３７は、算出したこれら頻度特徴量を、専念・非専念判定部３８に出力する。

専念・非専念判定部３８は、専念・非専念識別器３９を用いて、頻度特徴量からユーザの視聴状況が専念視聴であるか、非専念視聴であるかを判定するモジュールである。

図４に示すように、専念・非専念判定部３８には、頻度特徴量算出部３７が算出した３つの頻度特徴量（X_face、X_motion、X_audio）が入力される。そして、専念・非専念判定部３８は、これらの頻度特徴量と、専念・非専念識別器３９とを用いて、ユーザの視聴状況が専念視聴であるのか、または非専念視聴であるかの判別結果を出力する。

専念・非専念識別器３９は、あらかじめ構築されているものとする。次に、専念・非専念識別器３９の構築方法について２つの実施例を示す。

＜実施例１＞
実施例１では、機械学習による専念・非専念識別器３９の構築手法を示す。学習データより分類器を構築するテクニックとして、決定木、単純ベイズ分類器、ニューラルネットワーク等さまざまな手法が考えられるが、専念・非専念識別器３９として、例えば「Vapnik : Statistical learning theory, A Wiley-Interscience Publication, 1998」に記載されているサポートベクトルマシン（ＳＶＮ）を利用できる。本実施例では、カーネルトリックを利用してサポートベクトルマシンによる非線形分類器を構築するものとする。

図５は、実施例１の専念・非専念識別器３９を構築するための識別器構築装置５を示すものである。識別器構築装置５は、顔認識部３１と、顔認識結果バッファ３２と、動体検知部３３と、動体検知結果バッファ３４と、音検知部３５と、音検知結果バッファ３６と、頻度特徴量算出部３７とを備え、これらは図２で説明した視聴状況判定装置３と同様であるため、ここでは説明を省略する。

識別器構築装置５は、識別器構築部５１をさらに備える。識別器構築部５１は、頻度特徴量算出部３７が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築するモジュールである。

具体的には、識別器構築部５１には、学習データとして、カメラ１から取得した画像情報およびマイク２から取得した音情報にもとづいて頻度特徴量算出部３７が算出した、複数の頻度特徴量（X_face、X_motion、X_audio）が入力される。そして、識別器構築部５１は、入力された複数の頻度特徴量の各々に対応する正解ラベル（正解データ）の入力を受け付け、頻度特徴量と対応付けて記憶する。

図６（ａ）は、収集された学習データ（頻度特徴量と正解データ）の一例を示す図である。正解ラベルは、ユーザの視聴状況を記録した所定の時間（例えば、60sec）の映像情報および声情報に対して付与されるラベル（専念なたは非専念）である。このとき正解ラベルは、例えば、被験者の主観や、実験者が被験者を観察して見た行動などから専念または非専念に振り分けることが考えられる。あらかじめ記録した映像情報および音情報から頻度特徴量を算出することができるので、図６（ａ）のように正解データと頻度特徴量とを対応づけることができる。

図６（ａ）の学習データの３次元散文図は、図６（ｂ）のようになる。図６（ｂ）の例では、○は正解ラベルが専念の学習データであって、×は正解ラベルが非専念の学習データである。サポートベクトルマシンの概念は、この３次元散文図をマージンが最大となるように分離する分離超平面を構築することであるが、図６（ｂ）のようにほとんどの場合は単純に線形分離することができない。

そこで、識別器構築部５１は、カーネルトリックと呼ばれるデータを高次元の特徴空間へ写像する手法を用いてサポートベクトルマシンを構築し、非線形分離可能な識別関数を専念・非専念識別器３９として生成する。

実施例１では、このように生成された識別関数が記憶されたメモリなどの記憶装置を、専念・非専念識別器３９とする。専念・非専念判定部３８は、識別関数である専念・非専念識別器３９を用いて、ユーザの視聴状況を専念か非専念かに判定する。すなわち、図４に示すように、専念・非専念判定部３８は、頻度特徴量算出部３７から入力された頻度特徴量を、専念・非専念識別器３９である識別関数に入力し、関数演算結果として出力される判定結果（専念または非専念）を取得し、出力する。

なお、サポートベクトルマシンにより生成される識別関数では、判定結果とともに、分離超平面との距離も出力することができるため、専念・非専念判定部３８は、判定結果とともに分離超平面との距離を信頼度として出力することとしてもよい。これにより、視聴状況判定装置３の判定結果を利用する各種制御部（例えば、専念または非専念に応じて、テレビのバックライトの明るさを制御し、省エネを実現する制御部など）では、信頼度の低い判定結果については棄却するなどの制御を行うことができる。

＜実施例２＞
実施例２では、専念・非専念識別器３９として、例えば図７に示すような判定テーブルを人手で構築・生成する。図７に示す判定テーブルは、顔の頻度特徴量、動体の頻度特徴量および音の頻度特徴量と、判定結果（専念または非専念）とが対応付けて記憶されたテーブルである。

実施例２では、このような判定テーブルが記憶されたメモリなどの記憶装置を、専念・非専念識別器３９とする。専念・非専念判定部３８は、判定テーブルである専念・非専念識別器３９を用いて、ユーザの視聴状況を専念か非専念かに判定する。すなわち、図４に示すように、専念・非専念判定部３８は、頻度特徴量算出部３７から入力された頻度特徴量に対して、専念・非専念識別器３９である判定テーブルを順に走査して、当てはまる条件の判定結果を取得する。

このとき、例えば図７に示す判定テーブルの条件５、条件９、条件１０などは従来技術では判別ができない、もしくは誤った判別を下す可能性があるが、実施例２の判定テーブルを用いることで、ユーザの視聴状況に合った適切な視聴状況を判定することができる。

例えば、条件５は、従来技術では、顔が認識されていないので、専念して視聴していない非専念と判断されていた。しかしながら、顔や動きの認識度・検知度が小さいときに、動作音が小さければ、カメラ２の画角外から集中して視聴していると予測できるため、条件５に示すように専念視聴であると判定できる。一方、動作音の検知度が大きければ、条件８などに示すように非専念で視聴していると予測される。

また、条件９および条件１０の場合、顔が検出されているが、認識度が0.3〜0.7となっていて、専念・非専念のどちらに判定するか、従来技術では判定しづらい。これに動作音の検知度（0.3以上、0.4以上）が加わることで、非専念の判定を下すことができる。このように、本発明では動作音の検知度を画像情報から得られる顔認識および動体検知に加えることで、画像だけではどちらか判別しにくい条件で効果を発揮することができる。

上記説明した、視聴状況判定装置３および識別器構築装置５、例えば、ＣＰＵと、メモリと、ＨＤＤ等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵがメモリ上にロードされた所定のプログラムを実行することにより、各装置の各機能が実現される。例えば、視聴状況判定装置３および識別器構築装置５の各機能は、視聴状況判定装置３用のプログラムの場合は視聴状況判定装置３のＣＰＵが、そして、識別器構築装置５用のプログラムの場合は識別器構築装置５のＣＰＵがそれぞれ実行することにより実現される。また、視聴状況判定装置３用のプログラム、および識別器構築装置５のプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ−ＲＯＭなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

以上説明した本実施形態では、マイクよりユーザが動作する音を検知して、カメラより取得される顔認識などの画像処理の情報と組み合わせてマルチモーダルに視聴状況を判断する。これにより、本実施形態では、ユーザがカメラの画角外からテレビなどの映像を視聴していたり、顔の一部が隠れてうまく認識されていないなど、顔認識が正しく機能しない場合においても、動体検知と音検知の検知結果を利用して視聴状態が専念状態か非専念状態かをより高い精度で推定することが可能になる。

近年ゲームやテレビ電話サービス利用のためにカメラと合わせて、マイクを設置することが増えており、マイクを他サービスと兼用して利用できるため、用途の限られるセンサを設置するよりもコストパフォーマンスは高い。

また、本実施形態では、顔認識結果、動体検知結果および音検知結果の検知有り・無しという二値の検知結果を、所定の時間内における検出頻度で表現した頻度特徴量として扱うことで、従来のように単なる検出の有無の組み合わせでは推定できない時系列変化を加味した視聴状況も、専念状態か非専念状態に分類することが可能になる。すなわち、時間変化を考慮して、より細やかに視聴状況を把握することができる。

また、音の検知結果は継続して検知しやすい顔や動きの結果よりも、断続的に検知されたデータとなりやすい（例えば、人の足音や物を置く音は継続して毎フレーム発生し続けるわけではない）。そのため、音の検知結果を画像情報に単純に補完するように組み合わせると、画像の検知結果と同期をとることが難しくなる。例えば、フレーム画像の取得タイミングと同タイミングで音が検知されなければ、正しく推定を行うことができないといった不具合がある。そこで、本実施形態では、ある時間幅での検知結果の有り無しの頻度を算出することで、データを平滑化して音の検知結果と画像の検知結果とを同等に扱うことを可能にする。すなわち、断続的で扱いづらい音の検知結果を平滑化し、より細やかに視聴情報を判定することができる。

なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

１：カメラ
２：マイク
３：視聴状況判定装置
３１：顔認識部３１
３２：顔認識結果バッファ
３３：動体検知部
３４：動体検知結果バッファ
３５：音検知部３５
３６：音検知結果バッファ
３７：頻度特徴量算出部
３８：専念・非専念判定部
３８：専念・非専念識別器
４：テレビ

Claims

カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、
前記画像情報を用いてユーザの動体検知を行う動体検知手段と、
マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、
前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、
前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段と、を備えること
を特徴とする視聴状況判定装置。
カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、
前記画像情報を用いてユーザの動体検知を行う動体検知手段と、
マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、
前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、
前記頻度特徴量算出手段が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築手段と、を備えること
を特徴とする識別器構築装置。
コンピュータが行う視聴状況判定方法であって、
前記コンピュータは、
カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、
前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、
マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、
前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、
前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定ステップと、を行うこと
を特徴とする視聴状況判定方法。
コンピュータが行う識別器構築方法であって、
前記コンピュータは、
カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、
前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、
マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、
前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、
前記頻度特徴量算出ステップで算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築ステップ、を行うこと
を特徴とする識別器構築方法。
請求項１または請求項２に記載の装置として、コンピュータを機能させるためのプログラム。