JP6282769B2

JP6282769B2 - エンゲージメント値処理システム及びエンゲージメント値処理装置

Info

Publication number: JP6282769B2
Application number: JP2017091691A
Authority: JP
Inventors: ▲隆▼一平出; 村山　正美; 正美村山; 祥一八谷; 誠一西尾; 幹夫岡崎
Original assignee: GAIA SYSTEM SOLUTIONS Inc
Current assignee: GAIA SYSTEM SOLUTIONS Inc
Priority date: 2016-06-23
Filing date: 2017-05-02
Publication date: 2018-02-21
Anticipated expiration: 2037-05-02
Also published as: KR20190020779A; TW201810128A; CN109416834A; US20190340780A1; WO2017221555A1; JP2018005892A

Description

本発明は、コンピュータや電子機器等が利用者に提供するコンテンツに対し、利用者がコンテンツに示すエンゲージメント値に関する情報を検出して利用する、エンゲージメント値処理システム及びエンゲージメント値処理装置に関する。

テレビジョン放送（以下「ＴＶ放送」）において放送される映像コンテンツが、どれだけ視聴者に視聴されているのかを示す指標として、従来から「世帯視聴率」が用いられている。ＴＶ放送における世帯視聴率の計測は、サンプルとなる家庭に視聴率を測定するための機器を設置し、その機器が、テレビジョン受像機（以下「ＴＶ」）がオン状態で表示しているチャンネルに関する情報をほぼリアルタイムで集計拠点へ送信する。すなわち世帯視聴率とは、視聴時間と視聴チャンネルに関する情報を集計した結果であり、世帯視聴率という情報から視聴者がどのような状態で番組（映像コンテンツ）を視聴したのかはわからない。
例えば、視聴者がＴＶ番組に対し、画面を注視せずラジオのように聞き流すような視聴形態である場合には、当該番組は視聴者にとって集中した状態で視聴されていないこととなる。このような視聴形態では、ＴＶ番組に挟まれるコマーシャル（以下「ＣＭ」）の宣伝効果はあまり期待できない。

視聴者がＴＶ番組をどの程度集中して視聴しているのかを知るための技術が、幾つか検討されている。
特許文献１には、ＴＶ番組に対し、視聴者がどの程度集中しているのかを「集中度」と定義し、その集中度を習得して利用する技術が開示されている。
特許文献２には、カメラで撮影したユーザの顔の画像データから短時間フーリエ変換（short-time Fourier transform、short-term Fourier transform、STFT）を用いて脈拍を検出する技術が開示されている。
特許文献３には、離散ウェーブレット変換（Discrete wavelet transform, DWT）を用いて脈拍を検出する技術が開示されている。

特開２００３−１１１１０６号公報特開２０１５−１１６３６８号公報特開平１０−２１６０９６号公報

前述の特許文献３に示されるように、視聴者の集中度に関連して、対象となるコンテンツ（contents）は必ずしもＴＶ番組に限らない。あらゆるコンテンツが対象となる。ここで、コンテンツとは、オンライン若しくはオフラインにて、コンピュータや電子機器を介して提供される文字列、音声、静止画像、映像（動画）、またこれらが組み合わされたプレゼンテーションやゲーム等の、対象者が理解可能な内容にて享受する情報を総称したものをいう。またこれ以降、本明細書では、コンテンツを享受及び／または利用する者を、視聴者ではなくユーザと総称する。

発明者らはこれまで集中度を測定する機器を開発してきた。そして、機器の開発の過程において、発明者らは、人がある事象に対して集中するという状態は、能動的な要因のみではなく、受動的な要因もあるということに気付いた。
例えば、人がある課題に直面して、その課題を解決するために集中するという行為は、能動的な要因である。つまり、当該行為は「当該事象に集中しなければならない」という意識に起因する。これに対し、人が面白いことや楽しいこと等の事象を見て、興味を惹かれるという行為は、ある意味で受動的な要因である。つまり、当該行為は「当該事象に思わず惹かれてしまう」という感情に起因する。

発明者らは、このように相反する意識や感情に起因する行動を「集中度」という言葉で表現することが必ずしも適切ではないと考えた。そこで発明者らは、ある対象者が、ある事象に対し、能動的または受動的な要因の如何に関わらず、注目している状態を、「エンゲージメント（Engagement）」という言葉で定義することとした。そして、発明者らは、これまで開発してきた機器を、集中度を測定する機器ではなく、エンゲージメントを測定する機器と定義付けた。

特に娯楽性の高い映像コンテンツは、ユーザに様々な感情を想起させる効果を有するものが多い。エンゲージメント値に加え、ユーザの感情を検出する生体情報を同時に取得することができれば、コンテンツの評価や改良にも利用できる、有用な情報となる。
また、ユーザが閲覧するコンテンツは必ずしも娯楽を対象とする内容とは限らない。学習塾等で利用される、教育や学習等に用いられるコンテンツも存在する。教育や学習等の用途に用いられるコンテンツにおいて、エンゲージメント値は重要なコンテンツの評価指標となる。ユーザが注目しないコンテンツでは、効果的な学習が期待できない。

本発明はかかる課題に鑑みてなされたものであり、撮像装置から得られる映像データのみを用いて、エンゲージメント値に加え、脈拍等の生体情報を同時に取得することができるエンゲージメント値処理システム及びエンゲージメント値処理装置を提供することを目的とする。

上記課題を解決するために、本発明のエンゲージメント値処理システムは、コンテンツを表示する表示部と、表示部を見るユーザの顔を撮影可能な方向に設置される撮像装置と、撮像装置から出力される画像データストリームからユーザの顔の存在を検出し、ユーザの顔を抽出した顔抽出画像データを出力する顔検出処理部と、顔抽出画像データから、ユーザの顔の輪郭を含む、二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部と、特徴点データから、ユーザの顔の向きを示す顔方向ベクトルと、ユーザの顔における視線の向きを示す視線方向ベクトルを所定のサンプリングレートにて生成するベクトル解析部と、顔方向ベクトルと視線方向ベクトルから、ユーザのコンテンツに対するエンゲージメント値を算出するエンゲージメント算出部とを具備する。
更に、ユーザを一意に識別するユーザＩＤと、ユーザがコンテンツを視聴した視聴日時と、コンテンツを一意に識別するコンテンツＩＤと、コンテンツの再生位置を示す再生位置情報と、エンゲージメント算出部が出力するユーザのコンテンツに対するエンゲージメント値とを蓄積するデータベースとを具備する。

本発明により、撮像装置から得られる映像データのみを用いて、エンゲージメント値に加え、脈拍等の生体情報を同時に取得することが可能になる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の実施形態に係るエンゲージメント値処理システムの全体像を示す概略図である。本発明の実施形態に係るエンゲージメント値処理システムにおける、ユーザのエンゲージメント値の仕組みを説明する概略図である。ディスプレイの種類とカメラのバリエーションを示す図である。横型と縦型のディスプレイにおける、カメラの最適な配置位置の領域を示す図である。エンゲージメント値処理システムのハードウェア構成を示すブロック図である。本発明の第一の実施形態に係るエンゲージメント値処理システムのソフトウェア機能を示すブロック図である。エンゲージメント算出部の機能ブロック図である。本発明の第二の実施形態に係るエンゲージメント値処理システムのソフトウェア機能を示すブロック図である。撮像装置から出力される画像データストリームの一例を示す概略図と、顔検出処理部が出力する顔抽出画像データの一例を示す概略図と、特徴点抽出部が出力する特徴点データの一例を示す概略図である。脈拍検出領域抽出部が、ユーザの顔の画像データから部分画像データとして切り出す領域を模式的に示す図である。感情推定部が実施する、感情の分類を説明する概略図である。本発明の第三の実施形態に係るエンゲージメント値処理装置のハードウェア構成を示すブロック図である。本発明の第三の実施形態に係るエンゲージメント値処理装置のソフトウェア機能を示すブロック図である。再生制御部がコンテンツ再生処理部に与える制御情報によって生じる、エンゲージメント値とコンテンツの再生速度の対応関係の一例を示すグラフである。

本発明の実施形態に係るエンゲージメント値処理システムは、ユーザのコンテンツに対するエンゲージメント値を測定し、これをサーバにアップロードして、様々な解析等に利用する。
一般に、エンゲージメント値処理システムは、ユーザの顔をカメラで撮影し、ユーザの顔と視線の向きを検出し、それらの向きがコンテンツを表示するディスプレイにどの程度向いているかを測定することで、ユーザのコンテンツに対するエンゲージメント値を算出する。
一方、特許文献２に示されるように、カメラで撮影したユーザの顔の画像データから、脈拍を検出する技術が知られている。しかし、顔の画像データから脈拍を検出するためには、その前提として顔の画像データのうち、脈拍を検出するために適切な領域を抽出することが必要である。本発明の実施形態に係るエンゲージメント値処理システムでは、エンゲージメント値を測定するために取得する、ユーザの顔の輪郭を示すベクトルデータを基に、脈拍を検出するために適切な領域を抽出している。
なお、本発明の実施形態におけるエンゲージメント値処理システムでは、視覚を利用するコンテンツを対象とする。したがって、音声のみのコンテンツは、本発明の実施形態に係るエンゲージメント値処理システムにおけるエンゲージメント値の測定及び利用の対象外である。

［全体構成］
図１は、本発明の実施形態に係るエンゲージメント値処理システム１０１の全体像を示す概略図である。
ユーザ１０２はコンテンツ再生機能を有するクライアント１０３の表示部１０４に表示されているコンテンツ１０５を視聴する。液晶ディスプレイ等よりなる表示部１０４の上部には、いわゆるｗｅｂカメラと呼ばれる撮像装置１０６が設けられている。撮像装置１０６はユーザ１０２の顔を撮影し、画像データストリームを出力する。
クライアント１０３は、その内部にエンゲージメント値処理機能を有している。そして、ユーザ１０２のコンテンツ１０５に対するエンゲージメント値を含む様々な情報が、クライアント１０３のエンゲージメント値処理機能によって算出され、インターネット１０７を通じてサーバ１０８にアップロードされる。

［エンゲージメント値について］
図２Ａ及び図２Ｂは、本発明の実施形態に係るエンゲージメント値処理システム１０１における、ユーザ１０２のエンゲージメント値の仕組みを説明する概略図である。
図２Ａにおいて、ユーザ１０２はコンテンツ１０５が表示されている表示部１０４を注視している。表示部１０４のすぐ上には撮像装置１０６が装着されている。撮像装置１０６は表示部１０４の前に存在するユーザ１０２の顔を撮影可能な方向に向けられている。撮像装置１０６には、図示しない情報処理装置であるクライアント１０３（図１参照）が接続されている。クライアント１０３は、撮像装置１０６から得られる画像データから、ユーザ１０２の顔の向き及び／又は視線が表示部１０４の方向に向いているか否かを検出し、ユーザ１０２がコンテンツ１０５に注視しているか否かを、０から１まで、あるいは０から２５５まで、または０から１０２３まで等、所定の範囲を有する値のデータとして出力する。このクライアント１０３から出力される値がエンゲージメント値である。

図２Ｂにおいては、ユーザ１０２はコンテンツ１０５を表示している表示部１０４を注視していない。撮像装置１０６に接続されているクライアント１０３は、撮像装置１０６から得られる画像データから、図２Ａにおけるエンゲージメント値よりも低い値のエンゲージメント値を出力する。
このように、本実施形態に係るエンゲージメント値処理システム１０１は、ユーザ１０２の顔の向き及び／又は視線がコンテンツ１０５を表示している表示部１０４に向かっているか否かを、撮像装置１０６から得られる画像データから算出することができるようになっている。

図３Ａ、図３Ｂ及び図３Ｃは、表示部１０４の種類と撮像装置１０６のバリエーションを示す図である。
図４Ａ及び図４Ｂは、表示部１０４の種類と撮像装置１０６が装着される配置関係を示す図である。
図３Ａは、据え置き型のＬＣＤディスプレイ３０１に、外付けのＵＳＢタイプｗｅｂカメラ３０２が装着されている例である。
図３Ｂは、ノートパソコン３０３のＬＣＤディスプレイ３０４の枠に、ｗｅｂカメラ３０５が埋設されている例である。
図３Ｃは、スマートフォン等の携帯型無線端末３０６のＬＣＤディスプレイ３０７の枠に、自分撮り用インカメラ３０８が埋設されている例である。
これら図３Ａ、図３Ｂ及び図３Ｃに共通する点は、撮像装置１０６が表示部１０４の中心線近傍に設けられている点である。

図４Ａは、図３Ａ及び図３Ｂに対応する、横型の表示部１０４ａにおける、撮像装置１０６の最適な配置位置の領域を示す図である。
図４Ｂは、図３Ｃに対応する、縦型の表示部１０４ｂにおける、撮像装置１０６の最適な配置位置の領域を示す図である。
図４Ａの表示部１０４ａ、及び図４Ｂの表示部１０４ｂ、すなわちディスプレイが横型、縦型の何れの場合でも、表示部１０４ａ及び１０４ｂの上下の辺の、中心線Ｌ４０２及びＬ４０４を通過する領域４０１ａ、４０１ｂ、４０３ａ及び４０３ｂに撮像装置１０６が配置されていれば、撮像装置１０６は、ユーザ１０２の顔と視線を無調整で正しく捕捉することが可能である。

なお、撮像装置１０６がこれらの領域から外れる位置に設置される場合は、ユーザ１０２の顔と視線が表示部１０４に正しく向かっているか否かを検出するために、予めユーザ１０２の顔と視線が表示部１０４に正しく向かっている時の、撮像装置１０６から見たユーザ１０２の顔と視線の向きの情報を検出して、不揮発性ストレージ５０４（図５参照）等に記憶しておくことが好ましい。

［エンゲージメント値処理システム１０１：ハードウェア構成］
図５は、エンゲージメント値処理システム１０１のハードウェア構成を示すブロック図である。
クライアント１０３は一般的なコンピュータであり、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、不揮発性ストレージ５０４、現在日時情報を出力するリアルタイムクロック（以下「ＲＴＣ」）５０５、操作部５０６がバス５０７に接続されている。そして、エンゲージメント値処理システム１０１において重要な役割を持つ表示部１０４と撮像装置１０６もバス５０７に接続されている。
クライアント１０３はバス５０７に接続されたＮＩＣ（Network Interface Card）５０８を通じて、インターネット１０７を介してサーバ１０８と通信を行う。
サーバ１０８もまた一般的なコンピュータであり、ＣＰＵ５１１、ＲＯＭ５１２、ＲＡＭ５１３、不揮発性ストレージ５１４、ＮＩＣ５１５がバス５１６に接続されている。

［第一の実施形態：エンゲージメント値処理システム１０１のソフトウェア機能］
次に、エンゲージメント値処理システム１０１のソフトウェア機能について説明する。エンゲージメント値処理システム１０１は、その機能の大半がソフトウェアの機能で構成されている。ソフトウェアの機能の一部には、高い負荷の演算処理を必要とするものが含まれているため、ソフトウェアを実行するハードウェアの演算処理能力によって、クライアント１０３で処理できる機能が異なる場合がある。
これより説明する第一の実施形態では、主にパソコン等の、比較的演算処理能力（リソース）が潤沢であるハードウェアを想定した、エンゲージメント値処理システム１０１のソフトウェア機能が想定されている。これに対し、後述する第二の実施形態のエンゲージメント値処理システム１０１では、携帯型無線端末や組み込み用途のマイコン等、低資源装置とも呼ばれる、演算処理能力が乏しいハードウェアを想定したソフトウェア機能について説明される。

図６は、本発明の第一の実施形態に係るエンゲージメント値処理システム１０１のソフトウェア機能を示すブロック図である。
撮像装置１０６がコンテンツ１０５を視聴するユーザ１０２の顔を撮影した画像データストリームは、顔検出処理部６０１に供給される。この画像データストリームを一時的に不揮発性ストレージ５０４等に蓄え、以降の処理をコンテンツ１０５の再生後に行ってもよい。
顔検出処理部６０１は、撮像装置１０６から出力される画像データストリームを時間軸上で連続する静止画として捉え、この時間軸上で連続する静止画の各画像データに対し、例えばＶｉｏｌａ−Ｊｏｎｅｓ法等の周知のアルゴリズムを用いて、ユーザ１０２の顔の存在を検出する。そして、ユーザ１０２の顔だけを抽出した顔抽出画像データを出力する。
顔検出処理部６０１が出力する顔抽出画像データは、特徴点抽出部６０２に供給される。
特徴点抽出部６０２は、顔抽出画像データに含まれるユーザ１０２の顔の画像に、ポリゴン解析等の処理を施す。そして、ユーザ１０２の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する。特徴点データの詳細については図９で後述する。
特徴点抽出部６０２が出力する特徴点データは、クライアント１０３のＣＰＵ５０１の演算処理能力に応じて、例えば１００ｍｓｅｃ等の、所定の時間間隔（サンプリングレート）で出力される。

特徴点抽出部６０２が出力する特徴点データと、顔検出処理部６０１が出力する顔抽出画像データは、ベクトル解析部６０３に供給される。
ベクトル解析部６０３は、連続する２枚の顔抽出画像データに基づく特徴点データから、ユーザ１０２の顔の向きを示すベクトル（以下「顔方向ベクトル」）を、特徴点抽出部６０２と同様に、所定のサンプリングレートにて生成する。
また、ベクトル解析部６０３は、連続する２枚の顔抽出画像データに基づく特徴点データと、顔抽出画像データから特徴点データによって切り出した、ユーザ１０２の目の部分の画像データを用いて、ユーザ１０２の顔における、視線の向きを示すベクトル（以下「視線方向ベクトル」）を、特徴点抽出部６０２と同様に、所定のサンプリングレートにて生成する。

ベクトル解析部６０３が出力する顔方向ベクトルと視線方向ベクトルは、エンゲージメント算出部６０４に供給される。エンゲージメント算出部６０４は、顔方向ベクトルと視線方向ベクトルから、エンゲージメント値を算出する。
図７は、エンゲージメント算出部６０４の機能ブロック図である。
ベクトル解析部６０３が出力する顔方向ベクトルと視線方向ベクトルは、ベクトル加算部７０１に入力される。ベクトル加算部７０１は、顔方向ベクトルと視線方向ベクトルを加算して、注視方向ベクトルを算出する。この注視方向ベクトルは、ユーザ１０２がコンテンツを表示する表示部１０４と撮像装置１０６を含む３次元空間内の何処を注視しているのかを示すベクトルである。

ベクトル加算部７０１が算出した注視方向ベクトルは、注視方向判定部７０２に入力される。注視方向判定部７０２は、ユーザ１０２が注視する対象を指し示す注視方向ベクトルが表示部１０４に向いているか否かを判定する、２値の注視方向判定結果を出力する。
なお、撮像装置１０６が表示部１０４の近傍から離れた場所に設置されている場合は、不揮発性ストレージ５０４に記憶されている初期補正値７０３によって、注視方向判定部７０２の判定処理に補正が加えられる。初期補正値７０３には、ユーザ１０２の顔と視線が表示部１０４に正しく向かっているか否かを検出するために、予めユーザ１０２の顔と視線が表示部１０４に正しく向かっている時の、撮像装置１０６から見たユーザ１０２の顔と視線の向きの情報が、不揮発性ストレージ５０４に記憶されている。

注視方向判定部７０２が出力する２値の注視方向判定結果は、第一平滑化処理部７０４に入力される。注視方向判定部７０２が出力する注視方向判定結果には、特徴点抽出部６０２が生成する特徴点データに含まれるノイズに由来する外乱がしばしば発生する。このため、第一平滑化処理部７０４によってノイズの影響を抑え、ユーザ１０２の挙動に極めて近い状態を示す「ライブエンゲージメント値」を得る。
第一平滑化処理部７０４は、例えば現在の注視方向判定結果を含む数サンプルの移動平均を算出し、ライブエンゲージメント値を出力する。

第一平滑化処理部７０４が出力するライブエンゲージメント値は、第二平滑化処理部７０５に入力される。第二平滑化処理部７０５は、入力されたライブエンゲージメント値に対し、予め指定されたサンプル数７０６の数に基づく平滑化処理を行い、「エンゲージメント基礎値」を出力する。例えば、サンプル数７０６に「５」と記述されていれば、５個のライブエンゲージメント値に対して移動平均を算出する。また、平滑化処理では、加重移動平均、指数加重移動平均等の別のアルゴリズムを使用してもよい。このサンプル数７０６及び平滑化処理のアルゴリズムは、本発明の実施形態に係るエンゲージメント値処理システム１０１が適用されるアプリケーションに応じて、適切に設定される。
第二平滑化処理部７０５が出力するエンゲージメント基礎値は、エンゲージメント演算処理部７０７に入力される。

一方、顔方向ベクトルはよそ見判定部７０８にも入力される。よそ見判定部７０８は、ユーザ１０２の顔の向きを示す顔方向ベクトルが表示部１０４に向いているか否かを判定する、２値のよそ見判定結果を生成する。そして、このよそ見判定結果を、ベクトル解析部６０３が出力する顔方向ベクトルと視線方向ベクトルのサンプリングレートにしたがって、内蔵する２個のカウンタで計数する。

第一のカウンタは、ユーザ１０２がよそ見をしている判定結果を計数し、第二のカウンタは、ユーザ１０２がよそ見をしていない判定結果を計数する。第一のカウンタは、第二のカウンタが所定の計数値に至るとリセットされる。第二のカウンタは、第一のカウンタが所定の計数値に至るとリセットされる。第一のカウンタと第二のカウンタの論理値が、ユーザ１０２がよそ見をしているか否かを示す判定結果として出力される。
また、方向別に第一のカウンタを複数持つ事で、アプリケーションに応じて、例えば手元でノートを取ることはよそ見と判定しないとする事もできる。

また、視線方向ベクトルは目瞑り判定部７０９にも入力される。目瞑り判定部７０９は、ユーザ１０２の視線の向きを示す視線方向ベクトルが検出できているか否かを判定する、２値の目瞑り判定結果を生成する。
図９Ｃで後述するが、視線方向ベクトルはユーザ１０２の目が開いている状態で検出することができる。つまり、ユーザ１０２が目を瞑っていると、視線方向ベクトルは検出できなくなる。そこで、目瞑り判定部７０９は、ユーザ１０２が目を瞑っているか否かを示す、２値の目瞑り判定結果を生成する。そして、この目瞑り判定結果を、ベクトル解析部６０３が出力する顔方向ベクトルと視線方向ベクトルのサンプリングレートにしたがって、内蔵する２個のカウンタで計数する。

第一のカウンタは、ユーザ１０２が目を瞑っている判定結果を計数し、第二のカウンタは、ユーザ１０２が目を開いている（目を瞑っていない）判定結果を計数する。第一のカウンタは、第二のカウンタが所定の計数値に至るとリセットされる。第二のカウンタは、第一のカウンタが所定の計数値に至るとリセットされる。第一のカウンタと第二のカウンタの論理値が、ユーザ１０２が目を瞑っているか否かを示す判定結果として出力される。

第二平滑化処理部７０５が出力するエンゲージメント基礎値と、よそ見判定部７０８が出力するよそ見判定結果と、目瞑り判定部７０９が出力する目瞑り判定結果は、エンゲージメント演算処理部７０７に入力される。
エンゲージメント演算処理部７０７は、エンゲージメント基礎値と、よそ見判定結果と、目瞑り判定結果に対し、アプリケーションに応じた重み付け係数７１０を乗算した上で加算して、最終的なエンゲージメント値を出力する。

サンプル数７０６及び重み付け係数７１０を調整することで、エンゲージメント値処理システム１０１を様々なアプリケーションに対応することができる。例えば、サンプル数７０６を「０」に設定し、よそ見判定部７０８及び目瞑り判定部７０９に対する重み付け係数７１０もそれぞれ「０」に設定すれば、第一平滑化処理部７０４が出力するライブエンゲージメントそのものがそのままエンゲージメント値としてエンゲージメント演算処理部７０７から出力される。
特に、第二平滑化処理部７０５は、サンプル数７０６の設定によって無効化することもでき得る。そこで、第一平滑化処理部７０４と第二平滑化処理部７０５は、単一の平滑化処理部として上位概念でみなすことができる。

図６に戻って、エンゲージメント値処理システム１０１のソフトウェア機能の説明を続ける。
顔検出処理部６０１が出力する顔抽出画像データと、特徴点抽出部６０２が出力する特徴点データは、脈拍検出領域抽出部６０５にも供給される。
脈拍検出領域抽出部６０５は、顔検出処理部６０１から出力される顔抽出画像データと、特徴点抽出部６０２が出力する特徴点データに基づいて、ユーザ１０２の顔の一部に相当する画像データの切り出しを実行し、得られた部分画像データを脈拍算出部６０６へ出力する。詳細は図１０にて後述するが、脈拍検出領域抽出部６０５は、ユーザ１０２の顔のうち、目の直下、頬骨に該当する領域を、脈拍を検出するための領域として画像データの切り出しを行う。脈拍を検出するための領域としては、唇、眉間の少し上、頬骨付近などが考えられるが、本実施形態では髭や髪の毛に隠れて皮膚が見えない可能性の低い頬骨付近の場合を用いて説明する。なお、脈拍の検出領域を決定する手法は、様々な応用が考えられる。例えば、唇や、眉間の少し上でも構わない。更に、唇・眉間直上・頬骨付近等の複数の候補領域を解析できるようにして、唇が髭に隠れているようであれば次の候補（例えば眉間直上）、次の候補も隠れているようであればその次の候補（頬骨付近）のようにして、順次候補を絞り込んで、適切な切出し領域を決めるという方法でも構わない。

脈拍算出部６０６は、脈拍検出領域抽出部６０５が生成する部分画像データから、緑色の成分を抜粋し、ピクセル毎の輝度の平均値を得る。そして、この平均値の変動を、例えば特許文献２等に記載されている短時間フーリエ変換、あるいは特許文献３等に記載されている離散ウェーブレット変換等を用いて、ユーザ１０２の脈拍を検出する。なお、本実施形態の脈拍算出部６０６は、ピクセル毎の輝度の平均値を得るとしているが、平均値以外にも最頻値や中央値を採用してもよい。
血液に含まれるヘモグロビンは、緑色の光を吸収する特性を有することが知られている。周知のパルスオキシメータは、このヘモグロビンの特性を利用して、皮膚に緑色の光を照射して、反射光を検出し、その強度変化を基に脈拍を検出する。脈拍算出部６０６もこのヘモグロビンの特性を利用する点については同じである。但し、検出する根拠となるデータが画像データである点が、パルスオキシメータと異なる。

特徴点抽出部６０２が出力する特徴点データは、感情推定部６０７にも供給される。
感情推定部６０７は、特徴点抽出部６０２が生成する特徴点データを、特徴量６１６を参照して、例えばベイズ推定やサポートベクタマシン等の教師あり学習アルゴリズムを用いて、ユーザ１０２が平常時の表情からどの様に表情が変化したか否か、すなわちユーザ１０２の感情を推定する。

図６に示すように、入出力制御部６０８には、撮像装置１０６から得られる画像データストリームから得られる、ユーザ１０２のエンゲージメント値、ユーザ１０２の感情を示す感情データ、ユーザ１０２の脈拍を示す脈拍データが供給される。
一方、ユーザ１０２は表示部１０４に表示される所定のコンテンツ１０５を視聴している。コンテンツ１０５は、ネットワークストレージ６０９からインターネット１０７を通じて、あるいはローカルストレージ６１０から、コンテンツ再生処理部６１１に供給される。コンテンツ再生処理部６１１は、操作部５０６の操作情報にしたがってコンテンツ１０５を再生して表示部１０４に表示する。また、コンテンツ再生処理部６１１は、コンテンツ１０５を一意に識別するコンテンツＩＤと、コンテンツ１０５の再生位置を示す再生位置情報を入出力制御部６０８に出力する。
ここで、コンテンツ１０５の再生位置情報は、コンテンツ１０５の種類によってその内容が異なる。例えば、コンテンツ１０５が動画データであれば、再生時間情報に相当する。また、コンテンツ１０５がプレゼンテーション資料やゲーム等のデータやプログラムであれば、「ページ」、「シーン番号」、「章」、「節」等の、コンテンツ１０５を区分けする情報に相当する。

入出力制御部６０８には、コンテンツ再生処理部６１１から、コンテンツＩＤと再生位置情報が供給される。更に、これらの情報に加え、入出力制御部６０８には、ＲＴＣ５０５から出力される、コンテンツ視聴時点における現在日時情報、すなわち視聴日時情報と、不揮発性ストレージ５０４等に記憶されているユーザＩＤ６１２が供給される。ここで、ユーザＩＤ６１２とは、ユーザ１０２を一意に識別する情報であるが、このユーザＩＤ６１２はユーザ１０２の個人情報を保護する観点から、周知のバナー広告等に用いられる、乱数等を基に作られる匿名ＩＤであることが好ましい。

入出力制御部６０８は、ユーザＩＤ６１２、視聴日時、コンテンツＩＤ、再生位置情報、脈拍データ、エンゲージメント値、感情データを受け取り、送信データ６１３を構成する。この送信データ６１３は、ユーザＩＤ６１２で一意に識別され、サーバ１０８のデータベース６１４に蓄積される。その際、データベース６１４にはユーザＩＤフィールド、視聴日時フィールド、コンテンツＩＤフィールド、再生位置情報フィールド、脈拍データフィールド、エンゲージメント値フィールド、感情データフィールドを有する図示しないテーブルが設けられ、送信データ６１３がこのテーブルに蓄積される。

なお、入出力制御部６０８が出力する送信データ６１３を、一旦ＲＡＭ５０３または不揮発性ストレージ５０４に記憶して、可逆的データ圧縮処理を施してから、サーバ１０８へ送信してもよい。サーバ１０８におけるクラスタ分析処理部６１５等のデータ処理機能は、殆どの場合、コンテンツ１０５の再生と同時である必要がない。したがって、例えば、ユーザ１０２がコンテンツ１０５の視聴を終えた後から、送信データ６１３を圧縮したデータをサーバ１０８へアップロードしてもよい。

サーバ１０８は、多数の匿名のユーザ１０２がコンテンツ１０５を視聴した際の、再生位置情報におけるエンゲージメント値に加え、脈拍と、感情までも取得して、データベース６１４に蓄積することができる。ユーザ１０２の数が増えれば増えるほど、またコンテンツ１０５の数が増えれば増えるほど、データベース６１４のデータはクラスタ分析処理部６１５等の統計的解析処理に好適なビッグデータとしての利用価値が高まる。

［第二の実施形態：エンゲージメント値処理システム８０１のソフトウェア機能］
図８は、本発明の第二の実施形態に係るエンゲージメント値処理システム８０１のソフトウェア機能を示すブロック図である。
図８に示す、本発明の第二の実施形態に係るエンゲージメント値処理システム８０１において、図６に示した本発明の第一の実施形態に係るエンゲージメント値処理システム１０１との相違点は、以下の４点である。

（１）クライアント１０３にあったベクトル解析部６０３、エンゲージメント算出部６０４、感情推定部６０７及び脈拍算出部６０６が、サーバ８０２に存在すること。
（２）脈拍算出部６０６が、脈拍検出領域抽出部６０５が生成する部分画像データから、緑色の成分を抜粋し、ピクセル毎の輝度の平均値を算出する輝度平均値算出部８０３に置換されていること。
（３）上記（１）及び（２）によって、入出力制御部８０４が生成する送信データ８０５として、脈拍データの代わりに輝度平均値が送信され、エンゲージメント値及び感情データの代わりに特徴点データが送信されること。
（４）上記（３）によって、サーバ８０２のデータベース８０６には、ユーザＩＤフィールド、視聴日時フィールド、コンテンツＩＤフィールド、再生位置情報フィールド、輝度平均値フィールド及び特徴点フィールドを有する図示しないテーブルが作成され、送信データ８０５が蓄積されること。

すなわち、第二の実施形態のエンゲージメント値処理システム８０１は、第一の実施形態において、クライアント１０３に存在する機能ブロックのうち、負荷が高い演算処理の、エンゲージメント算出部６０４、感情推定部６０７及び脈拍算出部６０６を、サーバ８０２に移設している。

エンゲージメント算出部６０４は多数の行列演算処理を、感情推定部６０７は学習アルゴリズムの演算処理を、脈拍算出部６０６は短時間フーリエ変換あるいは離散ウェーブレット変換等を必要とするため、演算処理の負荷が高い。そこで、これらの機能ブロック（ソフトウェア機能）を、演算リソースが潤沢なサーバ８０２に持たせて、サーバ８０２上でこれらの演算処理を実行することで、クライアント１０３が低資源装置でもエンゲージメント値処理システム８０１を実現することができる。

なお、輝度平均値算出部８０３は、ネットワークに通すデータ量を削減するために、クライアント１０３の側に設けた。
そして、第二の実施形態のサーバ８０２のデータベース８０６も、最終的には第一の実施形態のデータベース６１４と同様に、ユーザＩＤ６１２、視聴日時、コンテンツＩＤ、再生位置情報、脈拍データ、エンゲージメント値、感情データが蓄積される。
また、エンゲージメント算出部６０４が演算処理の際に参照する、クライアント１０３の表示部１０４の大きさと、撮像装置１０６の設置位置等の情報は、ユーザＩＤ６１２に紐付けて、予めクライアント１０３からサーバ８０２へ送信し、サーバ８０２のデータベース８０６に保持する必要がある。

以上説明したように、本発明の第二の実施形態に係るエンゲージメント値処理システム８０１では、本発明の第一の実施形態に係るエンゲージメント値処理システム１０１において、クライアント１０３にあったエンゲージメント算出部６０４、感情推定部６０７及び脈拍算出部６０６をサーバ８０２に移設した。このため、図８に示すように、入出力制御部８０４から出力される送信データ８０５は、ユーザＩＤ６１２、視聴日時、コンテンツＩＤ、再生位置情報、輝度平均値、特徴点データで構成される。特徴点データは、エンゲージメント算出部６０４と感情推定部６０７が参照するデータである。輝度平均値は、脈拍算出部６０６が参照するデータである。

［特徴点データについて］
顔検出処理部６０１、特徴点抽出部６０２、そしてベクトル解析部６０３の動作について、以下に説明する。
図９Ａは、撮像装置１０６から出力される画像データストリームの一例を示す概略図である。図９Ｂは、顔検出処理部６０１が出力する顔抽出画像データの一例を示す概略図である。図９Ｃは、特徴点抽出部６０２が出力する特徴点データの一例を示す概略図である。
先ず、撮像装置１０６からユーザ１０２を含む画像データストリームがリアルタイムで出力される。これが図９Ａの画像データＰ９０１である。
次に、顔検出処理部６０１は、撮像装置１０６から出力される画像データＰ９０１から、例えばＶｉｏｌａ−Ｊｏｎｅｓ法等の周知のアルゴリズムを用いて、ユーザ１０２の顔の存在を検出する。そして、ユーザ１０２の顔だけを抽出した顔抽出画像データを出力する。これが図９Ｂの顔抽出画像データＰ９０２である。
そして、特徴点抽出部６０２は、顔抽出画像データＰ９０２に含まれるユーザ１０２の顔の画像に、ポリゴン解析等の処理を施す。そして、ユーザ１０２の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する。これが図９Ｃの特徴点データＰ９０３である。この特徴点データＰ９０３は、二次元空間内における座標情報を有する特徴点の集合体で構成される。

二次元の特徴点データを、時間軸上で異なるタイミングにて２セット取得すると、ユーザ１０２の顔が僅かに動くことにより、各々の特徴点データにずれが生じる。このずれを基に、ユーザ１０２の顔の方向を算出することができる。これが顔方向ベクトルである。
また、目の輪郭に対する瞳の配置は、ユーザ１０２の顔に対するおおよその視線の方向を算出することができる。これが視線方向ベクトルである。
ベクトル解析部６０３は、以上のような処理にて、特徴点データから顔方向ベクトルと視線方向ベクトルを生成する。次に、ベクトル解析部６０３はこれら顔方向ベクトルと視線方向ベクトルを加算する。つまり、ユーザ１０２が顔をどちらに向け、更に視線をどちらに向けているのかを知るために顔方向ベクトルと視線方向ベクトルを加算して、最終的にユーザ１０２が表示部１０４と撮像装置１０６を含む３次元空間内の何処を注視しているのかを示す、注視方向ベクトルを算出する。更に、ベクトル解析部６０３は注視方向ベクトルの、時間軸上の変動量であるベクトル変動量も算出する。

図９Ｃに示すように、ユーザ１０２の目に該当する箇所は、目の輪郭部分と瞳の中心を示す点が存在する。ベクトル解析部６０３は、輪郭の中に瞳の中心を示す点があることで、視線方向ベクトルを検出することができる。逆に、輪郭の中に瞳の中心を示す点がないと、ベクトル解析部６０３は視線方向ベクトルを検出することができない。すなわち、ユーザ１０２が目を瞑っていると、特徴点抽出部６０２が目の輪郭部分の中に瞳の中心を示す点が検出できなくなるので、ベクトル解析部６０３は視線方向ベクトルを検出することができなくなる。図７の目瞑り判定部７０９は、この視線方向ベクトルの有無を基に、ユーザ１０２の目瞑り状態を検出する。
目瞑りの判定処理は、上述の他、目の画像を直接認識する等の方法もあり、アプリケーションが求める必要な精度に応じて適宜変更可能である。

［脈拍の検出領域について］
図１０は、脈拍検出領域抽出部６０５が、ユーザ１０２の顔の画像データから部分画像データとして切り出す領域を模式的に示す図である。
特許文献２にも記載されているが、顔の肌の色から脈拍を正しく検出するためには、顔の画像データのうち、目、鼻の穴、唇、頭髪や髭等の、肌の色とは無関係な要素をできる限り排除する必要がある。特に、目は動きが激しく、また瞼を閉じたり開いたりすることで、画像データ中に瞳が存在したり存在しなかったりという、短時間に急激な輝度の変化が起きるので、輝度の平均値を算出する際に悪影響を及ぼす。また、個人差があるものの、頭髪と髭の存在は肌の色の検出を大きく阻害する。
以上のことを考慮すると、図１０に示すように、目の下の領域１００１ａ及び１００１ｂが、目、頭髪、髭の存在によって影響を受け難い、比較的安定して肌の色を検出可能な領域の一例である。
本発明の実施形態に係るエンゲージメント値処理システム１０１では、ユーザ１０２の顔をベクトル化し、ユーザ１０２の顔を認識する機能を有しているので、脈拍検出領域抽出部６０５は、顔特徴点から目の下の領域の座標情報を算出することが実現できる。

［感情の推定について］
図１１は、感情推定部６０７が実施する、感情の分類を説明する概略図である。
ポール・エクマン（Paul Ekman）によれば、人間はどのような言語圏や文化圏に属していても、普遍的な感情を有しているとされる。またエクマンによる感情の分類は、「エクマンの基本６情動」とも呼ばれる。平常時の無表情（Ｆ１１０１）に対し、驚き（Ｆ１１０２）、恐怖（Ｆ１１０３）、嫌悪（Ｆ１１０４）、怒り（Ｆ１１０５）、喜び（Ｆ１１０６）、悲しみ（Ｆ１１０７）の６感情において、人間の表情は変化する。表情の変化は、顔特徴点の変化となって現れる。感情推定部６０７は、時間軸上における、顔特徴点の相対的な変動を検出し、これをエクマンの基本６情動にしたがって、コンテンツ１０５の再生位置情報または視聴日時におけるユーザ１０２の表情が、どの感情に属するのかを推定する。

［第三の実施形態：エンゲージメント値処理装置１２０１のハードウェア構成］
エンゲージメント値は、コンテンツの再生状態を制御する情報としても有用である。
図１２は、本発明の第三の実施形態に係るエンゲージメント値処理装置１２０１のハードウェア構成を示すブロック図である。
図１２に示すエンゲージメント値処理装置１２０１のハードウェア構成は、図５に示す本発明の第一の実施形態に係るエンゲージメント値処理システム１０１のクライアント１０３と同一である。このため、同一の構成要素には同一の符号を付して、その説明を省略する。
エンゲージメント値処理装置１２０１は、本発明の第一の実施形態に係るエンゲージメント値処理システム１０１とは異なり、スタンドアロンの構成である。しかし、必ずしもスタンドアロンの構成でなければならない訳ではなく、必要に応じて第一の実施形態と同様に、算出したエンゲージメント値等をサーバ１０８へアップロードしてもよい。

［第三の実施形態：エンゲージメント値処理装置１２０１のソフトウェア機能］
図１３は、本発明の第三の実施形態に係るエンゲージメント値処理装置１２０１のソフトウェア機能を示すブロック図である。図１３に示すエンゲージメント値処理装置１２０１のうち、図６に示す第一の実施形態に係るエンゲージメント値処理システム１０１と同じ機能ブロックには、同一の符号を付して説明を省略する。なお、図１３のエンゲージメント算出部６０４は、第一の実施形態に係るエンゲージメント値処理システム１０１のエンゲージメント算出部６０４と同一の機能を有するので、図７に示すエンゲージメント算出部６０４と同じ機能ブロックにて構成される。
図１３に示すエンゲージメント値処理装置１２０１の、図６に示す第一の実施形態に係るエンゲージメント値処理システム１０１との相違点は、入出力制御部１３０１に再生制御部１３０２が含まれていることと、コンテンツ再生処理部１３０３が再生制御部１３０２の制御情報に基づいて、コンテンツの再生／停止／再生速度の変更を実行する点である。
すなわち、ユーザ１０２のコンテンツに対する集中の度合いを、コンテンツの再生速度及び再生状態に反映している。
ユーザ１０２がコンテンツに対して集中していない（エンゲージメント値が低い）状態では再生を一時停止することで、ユーザ１０２がコンテンツを確実に閲覧できるようにする。逆に、ユーザ１０２がコンテンツに対して集中している（エンゲージメント値が高い）状態では、再生速度を高めることで、ユーザ１０２がより早くコンテンツを閲覧できるようにする。
この再生速度変更機能は、特に学習コンテンツに対して有用である。

図１４は、再生制御部１３０２がコンテンツ再生処理部１３０３に与える制御情報によって生じる、エンゲージメント値とコンテンツの再生速度の対応関係の一例を示すグラフである。横軸はエンゲージメント値であり、縦軸はコンテンツ再生速度である。
再生制御部１３０２は、エンゲージメント算出部６０４から出力されるエンゲージメント値を、複数の所定の閾値と比較して、コンテンツ再生処理部１３０３に対し、コンテンツの再生または一時停止、そしてコンテンツを再生するときにはその再生速度を指示する。
図１４では一例として、
・ユーザ１０２のエンゲージメント値が３０％未満になったらコンテンツの再生を一時停止し、
・ユーザ１０２のエンゲージメント値が３０％以上４０％未満になったらコンテンツを０．８倍速で再生し、
・ユーザ１０２のエンゲージメント値が４０％以上５０％未満になったらコンテンツを０．９倍速で再生し、
・ユーザ１０２のエンゲージメント値が５０％以上６０％未満になったらコンテンツを１．０倍速で再生し、
・ユーザ１０２のエンゲージメント値が６０％以上７０％未満になったらコンテンツを１．２倍速で再生し、
・ユーザ１０２のエンゲージメント値が７０％以上８０％未満になったらコンテンツを１．３倍速で再生し、
・ユーザ１０２のエンゲージメント値が８０％以上９０％未満になったらコンテンツを１．４倍速で再生し、
・ユーザ１０２のエンゲージメント値が９０％以上になったらコンテンツを１．５倍速で再生する
ように、コンテンツ再生処理部１３０３の制御が行われる。
なお、再生制御部１３０２にて設定される閾値や再生速度は、所定のＧＵＩ（Graphical User Interface）を用いて、ユーザ１０２の任意で変更できることが好ましい。

本発明の実施形態においては、エンゲージメント値処理システム１０１、エンゲージメント値処理システム８０１及びエンゲージメント値処理装置１２０１を開示した。
表示部１０４近傍に設置される撮像装置１０６は、コンテンツ１０５を視聴するユーザ１０２の顔を撮影し、画像データストリームを出力する。この画像データストリームから、特徴点抽出部６０２によって顔の特徴点の集合体である特徴点データが生成される。そして、この特徴点データから、注視方向ベクトルとベクトル変動量が算出される。エンゲージメント算出部６０４は、これらのデータからユーザ１０２のコンテンツ１０５に対するエンゲージメント値を算出する。
一方、特徴点データは、脈拍を検出する際の、部分画像データの切り出しにも利用することができる。更に特徴点データは、ユーザ１０２の感情の推定にも利用できる。したがって、撮像装置１０６でユーザ１０２を撮影するだけで、コンテンツ１０５を視聴するユーザ１０２の、コンテンツ１０５に対するエンゲージメント値と、脈拍と、感情を同時に取得することができ、ユーザ１０２がどの程度注意を向けていたかのみではなく、どの程度興味をもったか等を含めて総合的にユーザ１０２の行動や感情を把握することができる。

また、エンゲージメント値をコンテンツの再生と一時停止、そして再生速度の制御に利用することで、ユーザ１０２に対する学習効果を向上させることが期待できる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、他の変形例、応用例を含む。
例えば、上記した実施形態は本発明をわかりやすく説明するために装置及びシステムの構成を詳細かつ具体的に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることは可能であり、更にはある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。

また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行するためのソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の揮発性あるいは不揮発性のストレージ、または、ＩＣカード、光ディスク等の記録媒体に保持することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１…エンゲージメント値処理システム、１０２…ユーザ、１０３…クライアント、１０４…表示部、１０５…コンテンツ、１０６…撮像装置、１０７…インターネット、１０８…サーバ、３０１…ＬＣＤディスプレイ、３０２…ＵＳＢタイプｗｅｂカメラ、３０３…ノートパソコン、３０４…ＬＣＤディスプレイ、３０５…ｗｅｂカメラ、３０６…携帯型無線端末、３０７…ＬＣＤディスプレイ、３０８…自分撮り用インカメラ、５０１…ＣＰＵ、５０２…ＲＯＭ、５０３…ＲＡＭ、５０４…不揮発性ストレージ、５０５…ＲＴＣ、５０６…操作部、５０７…バス、５０８…ＮＩＣ、５１１…ＣＰＵ、５１２…ＲＯＭ、５１３…ＲＡＭ、５１４…不揮発性ストレージ、５１５…ＮＩＣ、５１６…バス、６０１…顔検出処理部、６０２…特徴点抽出部、６０３…ベクトル解析部、６０４…エンゲージメント算出部、６０５…脈拍検出領域抽出部、６０６…脈拍算出部、６０７…感情推定部、６０８…入出力制御部、６０９…ネットワークストレージ、６１０…ローカルストレージ、６１１…コンテンツ再生処理部、６１２…ユーザＩＤ、６１３…送信データ、６１４…データベース、６１５…クラスタ分析処理部、６１６…特徴量、７０１…ベクトル加算部、７０２…注視方向判定部、７０３…初期補正値、７０４…第一平滑化処理部、７０５…第二平滑化処理部、７０６…サンプル数、７０７…エンゲージメント演算処理部、７０８…よそ見判定部、７０９…目瞑り判定部、７１０…重み付け係数、８０１…エンゲージメント値処理システム、８０２…サーバ、８０３…輝度平均値算出部、８０４…入出力制御部、８０５…送信データ、８０６…データベース、１２０１…エンゲージメント値処理装置、１３０１…入出力制御部、１３０２…再生制御部、１３０３…コンテンツ再生処理部

Claims

コンテンツを表示する表示部と、
前記表示部を見るユーザの顔を撮影可能な方向に設置される撮像装置と、
前記撮像装置から出力される画像データストリームから前記ユーザの顔の存在を検出し、前記ユーザの顔を抽出した顔抽出画像データを出力する顔検出処理部と、
前記顔抽出画像データから、前記ユーザの顔の輪郭を含む、二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部と、
前記特徴点データから、前記ユーザの顔の向きを示す顔方向ベクトルと、前記ユーザの顔における視線の向きを示す視線方向ベクトルを所定のサンプリングレートにて生成するベクトル解析部と、
前記顔方向ベクトルと前記視線方向ベクトルから、前記ユーザの前記コンテンツに対するエンゲージメント値を算出するエンゲージメント算出部と、
前記ユーザを一意に識別するユーザＩＤと、前記ユーザが前記コンテンツを視聴した視聴日時と、前記コンテンツを一意に識別するコンテンツＩＤと、前記コンテンツの再生位置を示す再生位置情報と、前記エンゲージメント算出部が出力する前記ユーザの前記コンテンツに対する前記エンゲージメント値とを蓄積するデータベースと
を具備する、エンゲージメント値処理システム。
前記エンゲージメント算出部は、
前記顔方向ベクトルと前記視線方向ベクトルを加算して、前記ユーザがコンテンツを表示する前記表示部と前記撮像装置を含む３次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出するベクトル加算部と、
前記注視方向ベクトルが前記表示部に向いているか否かを判定する、注視方向判定結果を出力する注視方向判定部と、
前記注視方向判定結果に対し、所定のサンプル数にて平滑化を行う、平滑化処理部と
を具備する、請求項１に記載のエンゲージメント値処理システム。
前記エンゲージメント算出部は更に、
前記顔方向ベクトルが前記表示部に向いているか否かを判定する、よそ見判定部と、
前記ユーザが目を瞑っているか否かを判定する、目瞑り判定部と、
前記平滑化処理部が出力するエンゲージメント基礎値と、前記よそ見判定部が出力するよそ見判定結果と、前記目瞑り判定部が出力する目瞑り判定結果とを、所定の重み付け係数にて乗算した上で加算する、エンゲージメント演算処理部と
を具備する、請求項２に記載のエンゲージメント値処理システム。
更に、
前記特徴点データに基づいて、前記顔抽出画像データに含まれる、前記ユーザの顔の一部に相当する画像データの切り出しを実行して、得られた部分画像データを出力する脈拍検出領域抽出部と、
前記部分画像データの、特定の色成分の輝度の時間軸上の変動量から前記ユーザの脈拍を算出する脈拍算出部と
を具備し、
前記データベースは前記脈拍算出部が出力する前記ユーザの脈拍データも蓄積する、
請求項３に記載のエンゲージメント値処理システム。
更に、
前記特徴点データを基に、ユーザの感情を推定する感情推定部と
を具備し、
前記データベースは、前記感情推定部が推定する前記ユーザの感情を示す感情データを蓄積する、
請求項４に記載のエンゲージメント値処理システム。
コンテンツを再生するコンテンツ再生処理部と、
前記コンテンツを表示する表示部と、
前記表示部を見るユーザの顔を撮影可能な方向に設置される撮像装置と、
前記撮像装置から出力される画像データストリームから前記ユーザの顔の存在を検出し、前記ユーザの顔を抽出した顔抽出画像データを出力する顔検出処理部と、
前記顔抽出画像データから、前記ユーザの顔の輪郭を含む、二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部と、
前記特徴点データから、前記ユーザの顔の向きを示す顔方向ベクトルと、前記ユーザの顔における視線の向きを示す視線方向ベクトルを所定のサンプリングレートにて生成するベクトル解析部と、
前記顔方向ベクトルと前記視線方向ベクトルから、前記ユーザの前記コンテンツに対するエンゲージメント値を算出するエンゲージメント算出部と、
前記エンゲージメント値が所定の値の範囲にあるときには前記コンテンツを第一の再生速度で再生し、前記エンゲージメント値が前記所定の値の範囲より大きいときには前記コンテンツを前記第一の再生速度より早い第二の再生速度で再生し、前記エンゲージメント値が前記所定の値の範囲より小さいときには前記コンテンツの再生を一時停止するべく前記コンテンツの再生を制御する再生制御部と
を具備する、エンゲージメント値処理装置。
前記エンゲージメント算出部は、
前記顔方向ベクトルと前記視線方向ベクトルを加算して、前記ユーザがコンテンツを表示する前記表示部と前記撮像装置を含む３次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出するベクトル加算部と、
前記注視方向ベクトルが前記表示部に向いているか否かを判定する、注視方向判定結果を出力する注視方向判定部と、
前記注視方向判定結果に対し、所定のサンプル数にて平滑化を行う、平滑化処理部と
を具備する、請求項６に記載のエンゲージメント値処理装置。
前記エンゲージメント算出部は更に、
前記顔方向ベクトルが前記表示部に向いているか否かを判定する、よそ見判定部と、
前記ユーザが目を瞑っているか否かを判定する、目瞑り判定部と、
前記平滑化処理部が出力するエンゲージメント基礎値と、前記よそ見判定部が出力するよそ見判定結果と、前記目瞑り判定部が出力する目瞑り判定結果とを、所定の重み付け係数にて乗算した上で加算する、エンゲージメント演算処理部と
を具備する、請求項７に記載のエンゲージメント値処理装置。