JP2014060491A - 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム - Google Patents

視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム Download PDF

Info

Publication number
JP2014060491A
JP2014060491A JP2012202927A JP2012202927A JP2014060491A JP 2014060491 A JP2014060491 A JP 2014060491A JP 2012202927 A JP2012202927 A JP 2012202927A JP 2012202927 A JP2012202927 A JP 2012202927A JP 2014060491 A JP2014060491 A JP 2014060491A
Authority
JP
Japan
Prior art keywords
face recognition
sound
detection
moving object
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012202927A
Other languages
English (en)
Other versions
JP5940944B2 (ja
Inventor
Hiroyoshi Watanabe
大喜 渡邊
Mutsuhiro Nakashige
睦裕 中茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012202927A priority Critical patent/JP5940944B2/ja
Publication of JP2014060491A publication Critical patent/JP2014060491A/ja
Application granted granted Critical
Publication of JP5940944B2 publication Critical patent/JP5940944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】カメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する。
【解決手段】カメラ1が撮影した画像情報を用いてユーザの顔認識を行う顔認識手段31と、画像情報を用いてユーザの動体検知を行う動体検知手段33と、マイク2が取得した音情報を用いてユーザの音検知を行う音検知手段35と、顔認識手段31が認識した顔認識結果、動体検知手段33が検知した動体検知結果および音検知手段35が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識の頻度特徴量と、動体検知の頻度特徴量と、音検知の頻度特徴量とを算出する頻度特徴量算出手段37と、顔認識の頻度特徴量と、動体検知の頻度特徴量と、音検知の頻度特徴量とをあらかじめ構築した識別器39に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段38と、を備える視聴状況判定装置3。
【選択図】図2

Description

本発明は、ユーザの視聴状況を推定するための視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラムに関する。
従来では、テレビの前の視聴者の状況を推定する技術として、テレビにカメラを搭載し、画像処理技術によるセンシングを行って状況推定する手法が一般的である。非特許文献1には、画像処理技術によって動体検出に加えて顔認識を行うことでユーザの存在の有無のみならず、視聴の有無を判定することで積極的な省エネに活用する事例が示されている。
また、非特許文献2には、画像認識技術によりユーザ識別、顔向き、表情変化などと、タブレット端末操作の有無から関心度推定を行い関連情報や推薦番組の提示を行う事例が示されている。非特許文献2では、顔向きがテレビ方向かつ静止状態が一定時間以上、または表情の変化が高いときに関心度が高く、顔向きがよそ見かつ端末の操作が無いときに関心度が低いと判定される。
鶴見辰吾"画像認識とヒュ-マンインタフェ-ス 3.画像認識を応用したヒュ-マンインタフェ-ス 3-1インテリジェント人感センサ"映像情報メディア学会誌Vol.64 No.12 Page.1809-1811 山内結子, 奥田誠, 高橋正樹, CLIPPINGDALE Simon, 苗村昌秀, 藤井真人 "テレビ視聴インターフェース-UTAN-の提案"、 映像情報メディア学会冬季大会講演予稿集,7-2,2011
従来のように、視聴の有無や関心の高さの判定のために、カメラによってユーザの視聴状況を推定する手法では、カメラの画角から外れた地点から視聴していたり、障害物によって顔や体の一部が隠れている場合などは、視聴状況を正しく推定することができないという問題がある。この問題を解決するために、カメラを複数台設置したり、赤外線センサなどを室内に散りばめたりすることが想定されるが、それに対して視聴状況の取得という効果だけではコストに見合うものではない。
また、従来手法では検出結果が「顔」有り・無し、「動き」有り・無しのように今現在のフレームに対して二値で表現されているため、時系列変化を汲み取って状況を推定することができない。例えば、非特許文献2の場合、関心を持ってテレビの視聴しているときに、今たまたま他の視聴者と会話したり他の用事をしたりして、顔の向きをテレビ方向から外した場合には、関心度が低いと判断されてしまう。
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、カメラの画角から外れた地点でユーザが視聴しているなどカメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム提供することにある。
上記目的を達成するため、本発明は、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、前記画像情報を用いてユーザの動体検知を行う動体検知手段と、マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段と、を備える。
また、本発明は、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、前記画像情報を用いてユーザの動体検知を行う動体検知手段と、マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、前記頻度特徴量算出手段が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築手段と、を備える。
また、本発明は、コンピュータが行う視聴状況判定方法であって、前記コンピュータは、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定ステップと、を行う。
また、コンピュータが行う識別器構築方法であって、前記コンピュータは、カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、前記頻度特徴量算出ステップで算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築ステップ、を行う。
また、本発明は、前記装置として、コンピュータを機能させるためのプログラムである。
本発明によれば、カメラの画角から外れた地点でユーザが視聴しているなどカメラの画像情報が利用できない場合であっても、より高い精度でユーザの視聴状況を推定する視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム提供することができる。
本発明の実施形態に係る視聴状況判定システムの全体構成図である。 視聴状況判定装置の構成を示すブロック図である。 顔認識結果バッファの一例である。 頻度特徴量算出部と、専念・非専念判定部と、専念・非専念識別器との関係を示す図である。 実施例1の識別器構築装置の構成を示すブロック図である。 学習データおよび3次元散文図の一例である。 実施例2の識別器(判定テーブル)の一例である。
以下、本発明の実施の形態について、図面を参照して説明する。本実施形態の視聴状況判定システムは、マイクよりユーザが動作する音を検知して、カメラより取得される顔認識など画像処理の情報と組み合わせてマルチモーダルに視聴状況を判断する。
図1は本発明の実施形態に係る視聴状況判定システムの構成を示す全体構成図である。視聴状況判定システムは、テレビ4などの映像を視聴しているユーザを撮影するカメラ1と、カメラ1の画角外(カメラの感知範囲以外)のユーザの動きを検知可能な無指向性の高感度のマイク2(マイクロフォン)と、視聴状況判定装置3とを備える。カメラ1、マイク2および視聴状況判定装置3は、例えばテレビ4などに設置・内蔵されているものとする。
カメラ1とマイク2は、図1に示すようにユーザの視聴状況を観察できる位置に設置する。このときテレビ4とカメラ1およびマイク2の位置関係は、図1に示す限りでなく、ユーザを観察できるのであれば同じ位置に設置する必要はなく、それぞれを離れた位置に設置しても良い。またカメラ1およびマイク2をそれぞれ複数台数設置してセンシングしても良い。
図2は、視聴状況判定装置3の構成を示すブロック図である。図示する視聴状況判定装置3は、顔認識部31と、顔認識結果バッファ32と、動体検知部33と、動体検知結果バッファ34と、音検知部35と、音検知結果バッファ36と、頻度特徴量算出部37と、専念・非専念判定部38と、専念・非専念識別器39とを備える。
顔認識部31は、カメラ2から取得した画像情報(フレーム画像)を用いて、テレビ4に向けられたユーザの顔の検知を行うモジュールである。顔認識のアルゴリズムは広く一般的に知られており、例えばインテルの開発したオープンソースのコンピュータビジョンライブラリOpenCVの顔認識(オブジェクト検出)では、Haar-Like特徴量を利用してブーストされた識別器のカスケードを用いている。顔認識部31では、テレビ4に向けられた顔画像(例えば正面顔など)の特徴量を抽出して学習させたデータを用いて、未知の入力画像に対して、当該入力画像内に顔が有るか無いかを判定する。
顔認識部31は、カメラ2から入力される画像情報をフレーム毎に顔認識して、顔が有るか無いかを判定し、判定結果を認識結果として出力する。認識結果としては、例えば、顔が有れば1を、顔が無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、顔認識部31は、フレーム毎の認識結果を顔認識結果バッファ32に出力する。顔認識結果バッファ32には、所定の時間分(例えば60 sec)の認識結果が蓄積される。
動体検知部33は、カメラ1から取得した画像情報(フレーム画像)を用いて、画像内の動体、つまりユーザの動きの有無を検知するモジュールである。移動物体の検出手法については、背景差分法やオプティカルフローを利用する方法が挙げられる。例えば、背景差分法では現在の一つ前のフレーム、または数フレーム前の画像を背景画像として取り込み、現在のフレームと背景画像との差の絶対値による差分画像を得る。差分画像については2値化して動体を分離する。誤差程度の動きの検出を棄却するため、動体領域のピクセル数をカウントして、所定の閾値以上であれば動体と判定し(動き有りと判定)、所定の閾値未満であれば動体と判定しない(動き無しと判定)。
動体検知部33は、カメラ2から入力される画像情報をフレーム毎に動体検知して、ユーザに動きが有るか無いかを判定し、判定結果を動体検知結果として出力する。検知結果としては、例えば、動きが有れば1を、動きが無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、動体検知部33は、フレーム毎の動体検知を動体検知結果バッファ34に出力する。動体検知結果バッファ34には、所定の時間分(例えば60 sec)の動体検知結果が蓄積される。
音検知部35は、マイク2から取得した音信号を用いて、ユーザが音(例えば、ユーザの動作音など)を発生させたかどうか検知するモジュールである。音検知部35は、例えば、ユーザが音を発生させたどうかを、信号強度の強弱(例えば、特定周波数の音圧など)によって判断する。周囲の雑音やテレビの音による影響を除くために、想定され得るノイズ(雑音、テレビの音など)の大きさの信号強度を閾値として、その閾値よりも信号強度が大きければ有音であると判断する。
音検知部35は、マイク2から入力される音情報を所定のサンプリングレートで音検知して、音が有るか無いかを判定し、判定結果を音検知結果として出力する。音検知結果としては、例えば、音が有れば1を、音が無ければ0を出力する。出力したデータは、頻度特徴量の算出に利用するため、所定の時間バッファする。具体的には、音検知部35は、サンプリング毎の音検知結果を音検知結果バッファ36に出力する。音検知結果バッファ36には、所定の時間分(例えば60 sec)の音検知結果が蓄積される。
図3は、顔認識結果バッファ32に記憶される認識結果の一例を示すものである。顔認識結果バッファ32には、フレーム毎の認識結果が所定の時間(例えば、60sec)分、保持されている。具体的には、フレーム番号と、認識結果と、先頭フレーム(図示する例では、フレーム1)からの経過時間とが記憶されている。図示する例では、顔認識部31は、対象とするフレームのフレーム番号、認識結果および経過時間(0)を設定したデータ(レコード)を生成し、順次、顔認識結果バッファ32のテーブルの先頭に新規に挿入し、記憶する。これにより、既にバッファに登録されていた既存のデータの経過時間がそれぞれ更新され、更新後の経過時間が所定時間(例えば60sec)を超える古いデータが破棄される。
動体検知結果バッファ34は、顔認識結果バッファ32と同様であって、フレーム毎の動体検知結果が所定の時間分(例えば60sec)保持され、所定の時間を経過した動体検知結果のデータは破棄される。また、音検知結果バッファ36は、顔認識結果バッファ32と同様であって、サンプリング毎の音検知結果が所定の時間分(例えば60sec)保持され、所定の時間を経過した音検知結果のデータは破棄される。なお、画像情報のフレームレートと、音情報のサンプリングレートは、同じである必要はなく、一般的にはサンプリングレートの方が大きい。
頻度特徴量算出部37は、現在より所定の時間前(例えば60sec前)から現在までに、どのくらいの頻度で「顔」、「動体」、「音」が検知されたかを示すそれぞれの頻度特徴量Xを算出するモジュールである。各頻度特徴量は、例えば、各バッファ32、34、36に蓄積されたデータの数をN個とした時に、各結果データ(0か1)の値を取得時刻の古い順にp、pn−1、pn−2、・・・pとすると以下の式1で表すことが出来る。
Figure 2014060491
この頻度特徴量Xは、系列データに対して所定の時間単位で扱うためのデータの平滑化である。ただし、バッファするデータ数Nはフレームレートまたはサンプリングレートによって可変であるため、固定数のデータに対して平滑化をしているわけではない。各データ(顔認識結果、動体検知結果、音検知結果)に重み付けε, ε1, ・・・,εnをして表現することができるとすると、一般化して次の式2のように表すこともできる。
Figure 2014060491
重み付けは、例えば頻度特徴量の種類(顔、動体、音)によってデータに差をつけたり、時間経過に従ってデータの影響度を減らしていく場合などに利用できる。
頻度特徴量算出部37は、式2を用いて、顔認識結果バッファ32にバッファされたデータを用いて顔の頻度特徴量Xfaceを、動体検知結果バッファ34にバッファされたデータを用いて動体の頻度特徴量Xmotionを、音検知結果バッファ36にバッファされたデータを用いて音の頻度特徴量Xaudioを算出する。そして、頻度特徴量算出部37は、算出したこれら頻度特徴量を、専念・非専念判定部38に出力する。
専念・非専念判定部38は、専念・非専念識別器39を用いて、頻度特徴量からユーザの視聴状況が専念視聴であるか、非専念視聴であるかを判定するモジュールである。
図4に示すように、専念・非専念判定部38には、頻度特徴量算出部37が算出した3つの頻度特徴量(Xface、Xmotion、Xaudio)が入力される。そして、専念・非専念判定部38は、これらの頻度特徴量と、専念・非専念識別器39とを用いて、ユーザの視聴状況が専念視聴であるのか、または非専念視聴であるかの判別結果を出力する。
専念・非専念識別器39は、あらかじめ構築されているものとする。次に、専念・非専念識別器39の構築方法について2つの実施例を示す。
<実施例1>
実施例1では、機械学習による専念・非専念識別器39の構築手法を示す。学習データより分類器を構築するテクニックとして、決定木、単純ベイズ分類器、ニューラルネットワーク等さまざまな手法が考えられるが、専念・非専念識別器39として、例えば「Vapnik : Statistical learning theory, A Wiley-Interscience Publication, 1998」に記載されているサポートベクトルマシン(SVN)を利用できる。本実施例では、カーネルトリックを利用してサポートベクトルマシンによる非線形分類器を構築するものとする。
図5は、実施例1の専念・非専念識別器39を構築するための識別器構築装置5を示すものである。識別器構築装置5は、顔認識部31と、顔認識結果バッファ32と、動体検知部33と、動体検知結果バッファ34と、音検知部35と、音検知結果バッファ36と、頻度特徴量算出部37とを備え、これらは図2で説明した視聴状況判定装置3と同様であるため、ここでは説明を省略する。
識別器構築装置5は、識別器構築部51をさらに備える。識別器構築部51は、頻度特徴量算出部37が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築するモジュールである。
具体的には、識別器構築部51には、学習データとして、カメラ1から取得した画像情報およびマイク2から取得した音情報にもとづいて頻度特徴量算出部37が算出した、複数の頻度特徴量(Xface、Xmotion、Xaudio)が入力される。そして、識別器構築部51は、入力された複数の頻度特徴量の各々に対応する正解ラベル(正解データ)の入力を受け付け、頻度特徴量と対応付けて記憶する。
図6(a)は、収集された学習データ(頻度特徴量と正解データ)の一例を示す図である。正解ラベルは、ユーザの視聴状況を記録した所定の時間(例えば、60sec)の映像情報および声情報に対して付与されるラベル(専念なたは非専念)である。このとき正解ラベルは、例えば、被験者の主観や、実験者が被験者を観察して見た行動などから専念または非専念に振り分けることが考えられる。あらかじめ記録した映像情報および音情報から頻度特徴量を算出することができるので、図6(a)のように正解データと頻度特徴量とを対応づけることができる。
図6(a)の学習データの3次元散文図は、図6(b)のようになる。図6(b)の例では、○は正解ラベルが専念の学習データであって、×は正解ラベルが非専念の学習データである。サポートベクトルマシンの概念は、この3次元散文図をマージンが最大となるように分離する分離超平面を構築することであるが、図6(b)のようにほとんどの場合は単純に線形分離することができない。
そこで、識別器構築部51は、カーネルトリックと呼ばれるデータを高次元の特徴空間へ写像する手法を用いてサポートベクトルマシンを構築し、非線形分離可能な識別関数を専念・非専念識別器39として生成する。
実施例1では、このように生成された識別関数が記憶されたメモリなどの記憶装置を、専念・非専念識別器39とする。専念・非専念判定部38は、識別関数である専念・非専念識別器39を用いて、ユーザの視聴状況を専念か非専念かに判定する。すなわち、図4に示すように、専念・非専念判定部38は、頻度特徴量算出部37から入力された頻度特徴量を、専念・非専念識別器39である識別関数に入力し、関数演算結果として出力される判定結果(専念または非専念)を取得し、出力する。
なお、サポートベクトルマシンにより生成される識別関数では、判定結果とともに、分離超平面との距離も出力することができるため、専念・非専念判定部38は、判定結果とともに分離超平面との距離を信頼度として出力することとしてもよい。これにより、視聴状況判定装置3の判定結果を利用する各種制御部(例えば、専念または非専念に応じて、テレビのバックライトの明るさを制御し、省エネを実現する制御部など)では、信頼度の低い判定結果については棄却するなどの制御を行うことができる。
<実施例2>
実施例2では、専念・非専念識別器39として、例えば図7に示すような判定テーブルを人手で構築・生成する。図7に示す判定テーブルは、顔の頻度特徴量、動体の頻度特徴量および音の頻度特徴量と、判定結果(専念または非専念)とが対応付けて記憶されたテーブルである。
実施例2では、このような判定テーブルが記憶されたメモリなどの記憶装置を、専念・非専念識別器39とする。専念・非専念判定部38は、判定テーブルである専念・非専念識別器39を用いて、ユーザの視聴状況を専念か非専念かに判定する。すなわち、図4に示すように、専念・非専念判定部38は、頻度特徴量算出部37から入力された頻度特徴量に対して、専念・非専念識別器39である判定テーブルを順に走査して、当てはまる条件の判定結果を取得する。
このとき、例えば図7に示す判定テーブルの条件5、条件9、条件10などは従来技術では判別ができない、もしくは誤った判別を下す可能性があるが、実施例2の判定テーブルを用いることで、ユーザの視聴状況に合った適切な視聴状況を判定することができる。
例えば、条件5は、従来技術では、顔が認識されていないので、専念して視聴していない非専念と判断されていた。しかしながら、顔や動きの認識度・検知度が小さいときに、動作音が小さければ、カメラ2の画角外から集中して視聴していると予測できるため、条件5に示すように専念視聴であると判定できる。一方、動作音の検知度が大きければ、条件8などに示すように非専念で視聴していると予測される。
また、条件9および条件10の場合、顔が検出されているが、認識度が0.3〜0.7となっていて、専念・非専念のどちらに判定するか、従来技術では判定しづらい。これに動作音の検知度(0.3以上、0.4以上)が加わることで、非専念の判定を下すことができる。このように、本発明では動作音の検知度を画像情報から得られる顔認識および動体検知に加えることで、画像だけではどちらか判別しにくい条件で効果を発揮することができる。
上記説明した、視聴状況判定装置3および識別器構築装置5、例えば、CPUと、メモリと、HDD等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされた所定のプログラムを実行することにより、各装置の各機能が実現される。例えば、視聴状況判定装置3および識別器構築装置5の各機能は、視聴状況判定装置3用のプログラムの場合は視聴状況判定装置3のCPUが、そして、識別器構築装置5用のプログラムの場合は識別器構築装置5のCPUがそれぞれ実行することにより実現される。また、視聴状況判定装置3用のプログラム、および識別器構築装置5のプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
以上説明した本実施形態では、マイクよりユーザが動作する音を検知して、カメラより取得される顔認識などの画像処理の情報と組み合わせてマルチモーダルに視聴状況を判断する。これにより、本実施形態では、ユーザがカメラの画角外からテレビなどの映像を視聴していたり、顔の一部が隠れてうまく認識されていないなど、顔認識が正しく機能しない場合においても、動体検知と音検知の検知結果を利用して視聴状態が専念状態か非専念状態かをより高い精度で推定することが可能になる。
近年ゲームやテレビ電話サービス利用のためにカメラと合わせて、マイクを設置することが増えており、マイクを他サービスと兼用して利用できるため、用途の限られるセンサを設置するよりもコストパフォーマンスは高い。
また、本実施形態では、顔認識結果、動体検知結果および音検知結果の検知有り・無しという二値の検知結果を、所定の時間内における検出頻度で表現した頻度特徴量として扱うことで、従来のように単なる検出の有無の組み合わせでは推定できない時系列変化を加味した視聴状況も、専念状態か非専念状態に分類することが可能になる。すなわち、時間変化を考慮して、より細やかに視聴状況を把握することができる。
また、音の検知結果は継続して検知しやすい顔や動きの結果よりも、断続的に検知されたデータとなりやすい(例えば、人の足音や物を置く音は継続して毎フレーム発生し続けるわけではない)。そのため、音の検知結果を画像情報に単純に補完するように組み合わせると、画像の検知結果と同期をとることが難しくなる。例えば、フレーム画像の取得タイミングと同タイミングで音が検知されなければ、正しく推定を行うことができないといった不具合がある。そこで、本実施形態では、ある時間幅での検知結果の有り無しの頻度を算出することで、データを平滑化して音の検知結果と画像の検知結果とを同等に扱うことを可能にする。すなわち、断続的で扱いづらい音の検知結果を平滑化し、より細やかに視聴情報を判定することができる。
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
1 :カメラ
2 :マイク
3 :視聴状況判定装置
31:顔認識部31
32:顔認識結果バッファ
33:動体検知部
34:動体検知結果バッファ
35:音検知部35
36:音検知結果バッファ
37:頻度特徴量算出部
38:専念・非専念判定部
38:専念・非専念識別器
4 :テレビ

Claims (5)

  1. カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、
    前記画像情報を用いてユーザの動体検知を行う動体検知手段と、
    マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、
    前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、
    前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定手段と、を備えること
    を特徴とする視聴状況判定装置。
  2. カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識手段と、
    前記画像情報を用いてユーザの動体検知を行う動体検知手段と、
    マイクが取得した音情報を用いてユーザの音検知を行う音検知手段と、
    前記顔認識手段が認識した顔認識結果、前記動体検知手段が検知した動体検知結果、および前記音検知手段が検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出手段と、
    前記頻度特徴量算出手段が算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築手段と、を備えること
    を特徴とする識別器構築装置。
  3. コンピュータが行う視聴状況判定方法であって、
    前記コンピュータは、
    カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、
    前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、
    マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、
    前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、
    前記顔認識の頻度特徴量と、前記動体検知の頻度特徴量と、前記音検知の頻度特徴量とをあらかじめ構築した識別器に入力し、ユーザの視聴状況が専念状態か非専念状態かを判定する判定ステップと、を行うこと
    を特徴とする視聴状況判定方法。
  4. コンピュータが行う識別器構築方法であって、
    前記コンピュータは、
    カメラが撮影した画像情報を用いてユーザの顔認識を行う顔認識ステップと、
    前記画像情報を用いてユーザの動体検知を行う動体検知ステップと、
    マイクが取得した音情報を用いてユーザの音検知を行う音検知ステップと、
    前記顔認識ステップで認識した顔認識結果、前記動体検知ステップで検知した動体検知結果、および前記音検知ステップで検知した音検知結果をそれぞれ所定の時間分蓄積したデータを用いて、顔認識された頻度を示す顔認識の頻度特徴量と、動体検知された頻度を示す動体検知の頻度特徴量と、音検知された頻度を示す音検知の頻度特徴量とを算出する頻度特徴量算出ステップと、
    前記頻度特徴量算出ステップで算出した複数の顔認識、動体検知および音検知の頻度特徴量に対応する各正解ラベルとして、ユーザの視聴状況が専念状態か非専念状態かを受け付け、顔認識、動体検知および音検知の頻度特徴量を入力すると専念状態または非専念状態のいずれかを出力する、非線形分離可能な識別関数を構築する識別器構築ステップ、を行うこと
    を特徴とする識別器構築方法。
  5. 請求項1または請求項2に記載の装置として、コンピュータを機能させるためのプログラム。
JP2012202927A 2012-09-14 2012-09-14 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム Expired - Fee Related JP5940944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012202927A JP5940944B2 (ja) 2012-09-14 2012-09-14 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012202927A JP5940944B2 (ja) 2012-09-14 2012-09-14 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014060491A true JP2014060491A (ja) 2014-04-03
JP5940944B2 JP5940944B2 (ja) 2016-06-29

Family

ID=50616615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012202927A Expired - Fee Related JP5940944B2 (ja) 2012-09-14 2012-09-14 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5940944B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534096A (ja) * 2015-09-25 2018-11-22 ジェ−メックス インク.J−MEX Inc. 運動認識装置及び運動認識方法
CN111541892A (zh) * 2020-04-23 2020-08-14 北京三快在线科技有限公司 识别局域网中的摄像装置的方法、数据交换设备及系统
JP2021029001A (ja) * 2019-08-09 2021-02-25 株式会社Nttドコモ 情報処理装置
WO2022145040A1 (ja) * 2020-12-31 2022-07-07 株式会社I’mbesideyou ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08257017A (ja) * 1995-03-24 1996-10-08 Toshiba Corp 状態監視装置及びその方法
JP2006260275A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd コンテンツ管理システム、表示制御装置、表示制御方法、および表示制御プログラム
JP2009543497A (ja) * 2006-07-12 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ−ビデオコンテンツを再生するための装置及び方法
JP2011061631A (ja) * 2009-09-11 2011-03-24 Sony Corp 表示方法及び表示装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08257017A (ja) * 1995-03-24 1996-10-08 Toshiba Corp 状態監視装置及びその方法
JP2006260275A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd コンテンツ管理システム、表示制御装置、表示制御方法、および表示制御プログラム
JP2009543497A (ja) * 2006-07-12 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ−ビデオコンテンツを再生するための装置及び方法
JP2011061631A (ja) * 2009-09-11 2011-03-24 Sony Corp 表示方法及び表示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015042785; 苗村昌秀 他: 'CRFを用いたTVの興味視聴区間の推定手法' 電子情報通信学会技術研究報告 Vol.111, No.431, 20120202, p.1-6, 社団法人電子情報通信学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534096A (ja) * 2015-09-25 2018-11-22 ジェ−メックス インク.J−MEX Inc. 運動認識装置及び運動認識方法
JP2021029001A (ja) * 2019-08-09 2021-02-25 株式会社Nttドコモ 情報処理装置
JP7300927B2 (ja) 2019-08-09 2023-06-30 株式会社Nttドコモ 情報処理装置
CN111541892A (zh) * 2020-04-23 2020-08-14 北京三快在线科技有限公司 识别局域网中的摄像装置的方法、数据交换设备及系统
WO2022145040A1 (ja) * 2020-12-31 2022-07-07 株式会社I’mbesideyou ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Also Published As

Publication number Publication date
JP5940944B2 (ja) 2016-06-29

Similar Documents

Publication Publication Date Title
US8314854B2 (en) Apparatus and method for image recognition of facial areas in photographic images from a digital camera
Saypadith et al. Real-time multiple face recognition using deep learning on embedded GPU system
US8140458B2 (en) Information processing apparatus, information processing method, and computer program
JP5567853B2 (ja) 画像認識装置および方法
JP4642128B2 (ja) 画像処理方法、画像処理装置及びシステム
US7848548B1 (en) Method and system for robust demographic classification using pose independent model from sequence of face images
US20090147995A1 (en) Information processing apparatus and information processing method, and computer program
WO2019023921A1 (zh) 一种手势识别方法、装置及设备
TW201201115A (en) Facial expression recognition systems and methods and computer program products thereof
US20120148160A1 (en) Landmark localization for facial imagery
US20150205995A1 (en) Personal recognition apparatus that performs personal recognition using face detecting function, personal recognition method, and storage medium
JP5940944B2 (ja) 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム
JP6157165B2 (ja) 視線検出装置及び撮像装置
JP6025557B2 (ja) 画像認識装置、その制御方法及びプログラム
Ponce-López et al. Multi-modal social signal analysis for predicting agreement in conversation settings
JP6103765B2 (ja) 行動認識装置、方法及びプログラム並びに認識器構築装置
JP2015219648A5 (ja)
EP2998928A1 (en) Apparatus and method for extracting high watermark image from continuously photographed images
JP2009098901A (ja) 表情検出方法及び装置及びプログラム
JP6495691B2 (ja) 動体検出装置、動体検出方法及びコンピュータプログラム
JP5552946B2 (ja) 顔画像サンプル採取装置、顔画像サンプル採取方法、プログラム
Salah et al. Multimodal identification and localization of users in a smart environment
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
JP2008140093A (ja) 異常事象抽出装置、異常事象抽出方法、この方法のプログラム及びこのプログラムを記録した記録媒体
US10140503B2 (en) Subject tracking apparatus, control method, image processing apparatus, and image pickup apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160519

R150 Certificate of patent or registration of utility model

Ref document number: 5940944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees