JP7260505B2

JP7260505B2 - 情報処理装置、情報処理方法、情報処理プログラム及び端末装置

Info

Publication number: JP7260505B2
Application number: JP2020082880A
Authority: JP
Inventors: 宏彰寺岡; 圭祐明石
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2023-04-18
Anticipated expiration: 2040-05-08
Also published as: JP2021177362A

Description

本発明の実施形態は、情報処理装置、情報処理方法、情報処理プログラム及び端末装置に関する。

従来、利用者から取得した生体情報に基づいて利用者の心理状況や感情を判定し、判定した利用者の心理状況や感情に応じたサービスの提供を行う技術が知られている。例えば、利用者の感情を検出し、検出した感情に応じて、利用者が作成中のメッセージを加工する情報端末装置が開示されている。

例えば、情報端末装置は、利用者がメッセージを作成する際に、生体センサを用いて、利用者の生体情報を測定し、測定した生体情報を用いて、利用者の心理状況や感情の強さを示す情報を算出する。そして、情報端末装置は、算出した情報に基づいて、利用者が作成したメールを加工し、加工したメッセージを送信することで、利用者の感情を伝達する。

特開２０１３－０２９９２８号公報

しかしながら、上記の従来技術は、メッセージの送信先へ利用者の感情を伝えるに過ぎず、コンテンツを閲覧することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができるとは限らない。

本願は、上記に鑑みてなされたものであって、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる情報処理装置、情報処理方法、情報処理プログラム及び端末装置を提供することを目的とする。

本願に係る情報処理装置は、コンテンツを閲覧中のユーザを、当該コンテンツを表示している端末装置が有する撮像手段によって撮像された撮像情報が示す当該ユーザの表情に基づいて推定された当該ユーザの感情に関する情報を取得する取得部と、前記取得部によって取得された推定結果を集計することにより、前記コンテンツの中で前記ユーザの感情に変化が生じたポイントである感情ポイントを特定する特定部とを備えることを特徴とする。

実施形態の一態様によれば、コンテンツを閲覧することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができるといった効果を奏する。

図１は、実施形態に係る情報処理装置による情報処理の一例を示す図である。図２は、実施形態に係る提示処理の一例を示す図である。図３は、実施形態に係る表示画面の一例を示す図である。図４は、実施形態に係る情報処理システムの構成例を示す図である。図５は、実施形態に係る端末装置の構成例を示す図である。図６は、実施形態に係る情報処理装置の構成例を示す図である。図７は、実施形態に係る撮像情報記憶部の一例を示す図である。図８は、実施形態に係る推定情報記憶部の一例を示す図である。図９は、実施形態に係る全体集計結果記憶部の一例を示す図である。図１０は、実施形態に係る感情ポイント記憶部の一例を示す図である。図１１は、実施形態に係る出演者情報記憶部の一例を示す図である。図１２は、実施形態に係る情報処理装置が実行する情報処理を示すフローチャートである。図１３は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法、情報処理プログラム及び端末装置を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ説明する。なお、この実施形態により本願にかかる情報処理装置、情報処理方法、情報処理プログラム及び端末装置が限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理の一例〕
最初に、実施形態に係る情報処理装置１００により実現される情報処理を説明する。図１は、実施形態に係る情報処理装置１００による情報処理の一例を示す図である。以下の説明では、実施形態に係る情報処理として、端末装置１０及び情報処理装置１００が協働して行う情報処理について説明する。本実施形態では、情報処理装置１００は、実施形態に係る情報処理プログラムを実行し、端末装置１０と協働することで、実施形態に係る情報処理を行う。また、端末装置１０にも、実施形態に係る情報処理プログラムであるアプリケーション（以下、「アプリＡＰ」と表記する場合がある）がインストールされているものとする。

図１の説明に先立って、図４を用いて、実施形態に係る情報処理システム１について説明する。図４は、実施形態に係る情報処理システム１の構成例を示す図である。実施形態に係る情報処理システム１は、図４に示すように、端末装置１０と、コンテンツ配信装置３０と、情報処理装置１００とを含む。端末装置１０、コンテンツ配信装置３０、情報処理装置１００は、ネットワークＮを介して有線又は無線により通信可能に接続される。なお、図４に示す情報処理システム１には、複数台の端末装置１０や、複数台のコンテンツ配信装置３０や、複数台の情報処理装置１００が含まれてよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）や、ヘッドマウントディスプレイ等である。本実施形態では、端末装置１０は、スマートフォンであるものとする。

また、端末装置１０には、２つのカメラ機能が内蔵されている。一つは、メインカメラであり、ユーザから見た景色や人物を撮像するために用いられる。このため、メインカメラ用のレンズは、ユーザとは反対側の方向に向けて、例えば、端末装置１０の裏側に付与されている。

もう一つは、インカメラであり、例えば、ビデオ通話や顔認証に利用される。このため、インカメラ用のレンズは、端末装置１０が有するディスプレイ（タッチパネル）の周辺等において、ユーザ向きに付与されている。このため、ユーザは、インカメラ用のレンズによって取り込まれた映像（例えば、自身の顔の映像）であって、ディスプレイに表示された映像の映り具合を確認しながら、インカメラを用いて自身を撮影することができる。本実施形態では、このインカメラを「撮像手段の一例」とする。

また、上記の通り、端末装置１０にはアプリＡＰがインストールされており、端末装置１０は、アプリＡＰの制御に従って、ユーザによる操作に関係なく、動的にユーザを撮像することができるものとする。例えば、端末装置１０は、アプリＡＰの制御に従って、ユーザが所定の動画サイト（「動画サイトＳＴ」とする）で動画コンテンツを視聴中にのみ、動的にユーザの表情を撮像する。より具体的には、端末装置１０は、アプリＡＰ内で配信される全て、又は、任意の動画コンテンツを視聴中にのみ、動的にユーザの表情を撮像する。

なお、動的にユーザを撮像するため、例えば、ユーザが動画サイトＳＴを訪問した際、又は、動画サイトＳＴにおいて任意の動画コンテンツを閲覧する際には、端末装置１０は、アプリＡＰの制御に従って、ユーザに対して撮像する旨の同意を得るようにする。例えば、ユーザがユーザ自身を撮像されることを許可した場合（同意が得られた場合）には、端末装置１０は、かかるユーザの撮像を行う。一方、ユーザがユーザ自身を撮像されることを許可しなかった場合（同意が得られなかった場合）には、端末装置１０は、かかるユーザの撮像は行わない。

コンテンツ配信装置３０は、コンテンツを配信するサーバ装置又はクラウドシステム等である。例えば、コンテンツ配信装置３０は、動画コンテンツを配信する。例えば、コンテンツ配信装置３０は、動画サイトＳＴを介して、端末装置１０に動画コンテンツを配信する。例えば、ユーザが動画サイトＳＴに訪問し、閲覧したい動画コンテンツの動画名やカテゴリをクエリとして指定したものとする。この場合、コンテンツ配信装置３０は、端末装置１０からクエリを受信し、受信したクエリに対応する動画コンテンツの一覧を動画サイトＳＴ中に表示させる。

また、コンテンツ配信装置３０は、ＶＯＤ（Video On Demand）といった配信形態で、動画コンテンツを配信する。例えば、コンテンツ配信装置３０は、お笑い番組、ドラマ、映画、アニメ等の様々なジャンルの動画コンテンツを配信する。また、コンテンツ配信装置３０は、インターネットライブ配信を行う。

ここで、実施形態にかかる情報処理が行われるにあたっての前提について説明する。例えば、動画サイトＳＴでお笑い番組を視聴する場合、面白いポイントを探してそこだけを視聴しようとする場合があるが、かかる場合、ユーザはシークバーを動かす等を行い、ユーザ自身で面白いポイントを見つける必要があり面倒である。このようなことから、面白いポイントだけをピックアップして視聴出来るようにして欲しいといったニーズがある。

このようなニーズをかなえようとすると、所定の担当者（例えば、目利きの人）が、お笑い番組を視聴し、面白いポイントを探すことが考えられるが、この作業も非常に面倒である。このようなことから、お笑い番組を視聴しているユーザについて、そのユーザの感情（表情）から、笑ったという笑いの行動を推定できれば、より多くのユーザが笑ったポイントを面白いポイントとして抽出し、以降、このお笑い番組を視聴しようとするユーザに、この抽出したポイントを提示することができるようになる。

また、お笑い番組の中には、例えば、出演者（例えば、お笑いタレントやグループ）毎に、出演者の演技（すなわち、ネタ）に対するユーザの反応に基づいて、ネタの面白さを競って、出演者に順位付けするといったものがある。このようなお笑い番組では、実際に、お笑い番組を視聴していた各ユーザからの投票を受け付けてその投票結果で順位付けする場合がある。一例を示すと、集計する専用サーバは、お笑い番組が再生表示されている最中に、このお笑い番組が再生表示されている領域の下部等に「投票ボタン」を表示しておく。ユーザは、この出演者のネタが面白いと思う場合には、「投票ボタン」を押下する。これによって、集計する専用サーバは、出演者毎に投票結果を集計し、投票数のより多い出演者に高い順位を付与する。

しかしながら、このような投票システムで算出される投票数は、必ずしも面白さを正確に反映しているとはいい難い場合がある。例えば、１人のユーザが、１組の出演者について、複数回投票ができてしまうと、興味のない出演者を故意に上位にランクアップさせることができてしまうかもしれない。また、投票するという行動は、反射的な行動ではなく、確固たる意思に基づく行動であるため、実際には面白いと思ってなくても、不正のような形で投票ボタンを押そうとするユーザもいるかもしれない。そうすると、投票数は、必ずしも面白さを正確に反映しているとはいい難い。

一方で、ユーザは面白いネタには、反射的に笑ってしまい、面白くないネタには反応しない（わざと笑うようなことはしない）ため、ユーザが確実に笑ったことを特定し、笑ったユーザの人数を出演者毎に集計できれば、この集計結果は、上記投票数よりも、より正確にユーザの意志（面白いという感情）を反映しているといえる。そうすると、出演者に対してより正確な順位付けができるようになる。

以上のような前提及び問題点を踏まえて、実施形態に係る情報処理装置１００は、コンテンツ（例えば、動画コンテンツ）を視聴中のユーザを、かかるコンテンツを表示している端末装置が有する撮像手段によって撮像された撮像情報が示すユーザの表情に基づいて推定されたユーザの感情に関する情報を取得する。そして、情報処理装置１００は、取得された推定結果を集計することにより、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定する。

以下、実施形態に係る情報処理の一例について説明する。以下の情報処理の一例では、情報処理装置１００が情報処理プログラムを実行することにより、上記手順を行うものとする。情報処理装置１００は、例えば、実施形態にかかる情報処理を行うサーバ装置又はクラウドシステム等である。また、コンテンツ配信装置３０及び情報処理装置１００を管理する事業主を「事業主Ｘ」とする。このようなことから、動画サイトＳＴは、事業主Ｘによって管理・運営されるコンテンツといえる。

まず、図１の例では、ユーザＵ１及びＵ２の２人のユーザを例示するが、これは一例であり、ユーザの人数は２人に限定されない。また、ユーザＵ１によって利用される端末装置１０を端末装置１０－１とする。また、ユーザＵ２によって利用される端末装置１０を端末装置１０－２とする。一方、ユーザ毎に端末装置を区別する必要が無い場合には、単に端末装置１０と表記する。また、図１の例では、ユーザＵ１及びＵ２ともに、動画サイトＳＴにて動画コンテンツを閲覧中にインカメラで自身が撮像されることを許可しているものとする。つまり、端末装置１０－１は、インカメラにてユーザＵ１を撮像してよい旨を認識している。また、端末装置１０－２は、インカメラにてユーザＵ２を撮像してよい旨を認識している。

このような状態において、図１の例では、ユーザＵ１は、端末装置１０－１を用いて、動画サイトＳＴにて動画コンテンツＶＣ１を視聴しているものとする。また、同様に、ユーザＵ２は、端末装置１０－２を用いて、動画サイトＳＴにて動画コンテンツＶＣ２を視聴しているものとする。また、動画コンテンツＶＣ１及びＶＣ２ともにお笑い番組であるものとする。

端末装置１０－１は、ユーザＵ１が動画コンテンツＶＣ１を視聴している間、インカメラを制御し、ユーザＵ１の顔（表情）を撮像する（ステップＳ１）。例えば、端末装置１０－１は、ユーザＵ１が動画コンテンツＶＣ１を視聴している間、ユーザＵ１の表情を動画（顔動画）として撮像する。そして、端末装置１０－１は、ユーザＵ１を撮像することで得られた撮像情報ＦＤＡ１を情報処理装置１００に送信する（ステップＳ２）。この点について具体的に説明すると、端末装置１０－１は、ユーザＵ１を撮像することで得られた顔動画のデータを解析することにより、その解析に基づく推定結果を含む撮像情報ＦＤＡ１を得る。

例えば、端末装置１０－１は、顔動画のデータ（撮像情報の一例）に基づいて、ユーザＵ１の感情に関する情報を推定する。具体的には、端末装置１０－１は、顔動画のデータが示すユーザＵ１の表情に基づいて、ユーザＵ１の感情に関する情報として、ユーザＵ１の感情表出行動を推定する。例えば、端末装置１０－１は、顔動画のデータについて表情解析することにより、ユーザＵ１の感情表出行動を推定する推定処理を行う。また、端末装置１０－１は、顔動画のデータが示すユーザの瞳孔について解析することにより、ユーザＵ１の感情表出行動を推定する推定処理を行う。

ここで、感情表出行動とは、いわゆる喜怒哀楽に関する行動であり、「笑う」、「泣く」、「驚く」等が挙げられる。以下の実施形態では、特に「笑う」行動に焦点を当てて説明する。以下、感情表出行動を「笑う行動」と表記する。図１の例では、端末装置１０－１は、ユーザＵ１が笑う行動を行ったと推定したとする。そうすると、端末装置１０－１は、この笑う行動の度合い（どれだけ笑ったか笑いの程度を示す度合い）を示す特徴量を推定（算出）する。例えば、端末装置１０－１は、笑う行動の度合いを示す特徴量を１～１０の数値で推定することができる。例えば、端末装置１０－１は、ユーザＵ１の笑いが微笑レベルであるなら、笑う行動の度合いを示す特徴量として、笑い度「２」を推定する。一方、端末装置１０は、ユーザＵ１の笑いが大笑いレベルであるなら、笑い度「９」を推定する。

なお、端末装置１０－１は、ユーザＵ１が動画コンテンツＶＣ１を閲覧しているまさにそのタイミング、つまり、リアルタイムで、ユーザＵ１を撮像しつつ上記推定処理を連続的に行う。そして、端末装置１０－１は、この推定結果を含む撮像情報ＦＤＡ１を、例えば、毎秒、情報処理装置１００に送信する。一例を示すと、端末装置１０－１は、動画コンテンツＶＣ１の再生時間に対応する時間位置（タイムコード）と、感情表出行動を示す情報と、その感情表出行動の特徴量とを含む撮像情報ＦＤＡ１を毎秒毎に、情報処理装置１００に送信する。なお、上記リアルタイムにおける処理は、５Ｇ（Generation）等の無線通信網を介して通信を行うことで実現可能である。

上記のように、笑いの例を用いると、端末装置１０－１は、ユーザＵ１を撮像しつつ上記推定処理を連続的に行っているため、例えば、時間位置「１分５３秒」、感情表出行動「笑う行動」、笑い度「０」といった情報を含む撮像情報ＦＤＡ１を情報処理装置１００に送信する。また、端末装置１０は、例えば、時間位置「１分５４秒」、感情表出行動「笑う行動」、笑い度「２」といった情報を含む撮像情報ＦＤＡ１を情報処理装置１００に送信する。また、端末装置１０は、例えば、時間位置「１分５５秒」、感情表出行動「笑う行動」、笑い度「９」といった情報を含む撮像情報ＦＤＡ１を情報処理装置１００に送信する。なお、端末装置１０－１は、撮像情報を毎秒毎に送信するのではなく、任意の時間間隔（例えば、３秒）毎に撮像情報を送信してもよい。

端末装置１０－１について説明してきたが、端末装置１０－２についても同様である。具体的には、端末装置１０－２は、ユーザＵ２が動画コンテンツＶＣ２を視聴している間、インカメラを制御し、ユーザＵ２の顔（表情）を撮像する（ステップＳ１）。例えば、端末装置１０－２は、ユーザＵ２が動画コンテンツＶＣ２を視聴している間、ユーザＵ２の表情を顔動画として撮像する。そして、端末装置１０－２は、ユーザＵ２を撮像することで得られた撮像情報ＦＤＡ２を情報処理装置１００に送信する（ステップＳ２）。具体的には、端末装置１０－２は、ユーザＵ２が動画コンテンツＶＣ２を閲覧しているまさにそのタイミング、つまり、リアルタイムで、ユーザＵ２を撮像しつつ、端末装置１０－１を例に説明した推定処理を連続的に行う。そして、端末装置１０－２は、この推定結果を含む撮像情報ＦＤＡ２を、例えば、毎秒毎に、情報処理装置１００に送信する。一例を示すと、端末装置１０－２は、動画コンテンツＶＣ２の再生時間に対応する時間位置と、感情表出行動を示す情報と、その感情表出行動の特徴量とを含む撮像情報ＦＤＡ１を毎秒毎に、情報処理装置１００に送信する。

端末装置１０－２は、ユーザＵ２を撮像しつつ上記推定処理を連続的に行っているため、例えば、時間位置「１分５３秒」、感情表出行動「笑う行動」、笑い度「０」といった情報を含む撮像情報ＦＤＡ２を情報処理装置１００に送信する。また、端末装置１０は、例えば、時間位置「１分５４秒」、感情表出行動「笑う行動」、笑い度「３」といった情報を含む撮像情報ＦＤＡ２を情報処理装置１００に送信する。また、端末装置１０は、例えば、時間位置「１分５５秒」、感情表出行動「笑う行動」、笑い度「１０」といった情報を含む撮像情報ＦＤＡ２を情報処理装置１００に送信する。

以下、撮像情報ＦＤＡ１及び撮像情報ＦＤＡ２を区別せずに、単に撮像情報ＦＤＡと表記する場合がある。情報処理装置１００は、端末装置１０から送信された撮像情報ＦＤＡを受信する（ステップＳ３）。言い換えれば、情報処理装置１００は、端末装置１０から撮像情報ＦＤＡを取得する。また、情報処理装置１００は、受信した撮像情報ＦＤＡを撮像情報記憶部１２１に格納する（ステップＳ４）。なお、このとき、情報処理装置１００は、端末装置１０からユーザの属性に関する属性情報を取得してもよい。ここで、属性情報とは、ユーザの性別や、年齢や、興味関心及び趣味趣向や、ユーザの居住地及びユーザの位置情報等を含む地域に関する情報等に関する情報である。

撮像情報記憶部１２１は、コンテンツを視聴中のユーザを、かかるコンテンツを表示している端末装置１０が有するインカメラ（撮像手段）で撮像することで得られる撮像情報ＦＤＡを記憶する。図１の例では、撮像情報記憶部１２１は、「ユーザＩＤ」、「動画ＩＤ」、「撮像情報」といった項目を有する。

「ユーザＩＤ」は、ユーザ又はユーザの端末装置１０を識別する識別情報を示す。「動画ＩＤ」は、ユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴していた動画コンテンツを識別する識別情報を示す。「撮像情報」は、動画コンテンツを視聴中のユーザをインカメラで撮像することで得られる撮像情報であって、端末装置１０の推定処理による推定結果を含む撮像情報を示す。なお、撮像情報には、ユーザが撮像された顔動画のデータも含まれてよい。

すなわち、図１に示す撮像情報記憶部１２１の例では、ユーザＩＤ「Ｕ１」によって識別されるユーザ（ユーザＵ１）が、動画ＩＤ「ＶＣ１」によって識別される動画コンテンツ（動画コンテンツＶＣ１）を閲覧中において、端末装置１０のインカメラによって撮像されることによって、ユーザＵ１の表情を含む撮像情報ＦＤＡ１が得られた例を示す。

次に、情報処理装置１００は、動画コンテンツにおいて笑う行動が行われた時間位置を特定する（ステップＳ５）。上記の通り、情報処理装置１００は、時間位置（例えば、１分５５秒）、感情表出行動行動（例えば、笑う行動）、笑い度（特徴量）（例えば、「９」）といった推定結果を含む撮像情報を端末装置１０（図１の例では、端末装置１０－１及び１０－２）から毎秒毎に受信する。このため、情報処理装置１００は、端末装置１０による推定結果（撮像情報）に基づいて、動画コンテンツにおいて笑う行動が行われた時間位置を特定する。例えば、情報処理装置１００は、特徴量である笑い度が所定の閾値（例えば、笑い度「５」）以上を示す時間位置を、動画コンテンツＶＣ１において、ユーザＵ１が笑う行動を行った時間位置として特定する。かかる例では、情報処理装置１００は、動画コンテンツＶＣ１の時間位置「ｔ２、ｔ２１、ｔ５１・・・」をユーザＵ１が笑う行動を行った時間位置として特定したとする。

また、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ１３、ｔ３１、ｔ５２・・・」をユーザＵ２が笑う行動を行った時間位置として特定したとする。

次に、情報処理装置１００は、端末装置１０により推定された感情表出行動と、ステップＳ５で特定した時間位置とを対応付けて、推定情報記憶部１２２に格納する（ステップＳ６）。推定情報記憶部１２２は、感情表出行動を推定した推定結果に関する情報を記憶する。図１の例では、推定情報記憶部１２２は、「動画ＩＤ」、「ユーザＩＤ」、「行動情報（笑う）」といった項目を有する。なお、情報処理装置１００は、感情表出行動として、笑う行動だけでなく、泣く行動や驚く行動等を推定する場合もある。このため、「行動情報」には、「泣く」や「驚く」といった項目も含まれてよい。

また、情報処理装置１００は、画像解析等の従来技術を用いて、ユーザの顔動画から、かかるユーザの属性情報を推定してもよい。そして、情報処理装置１００は、ユーザの属性情報を「行動情報」と対応付けて推定情報記憶部１２２に格納してもよい。なお、情報処理装置１００は、予め端末装置１０からユーザの属性情報を取得している場合には、かかるユーザの「行動情報」と対応付けてユーザの属性情報を推定情報記憶部１２２に格納してもよい。

「動画ＩＤ」は、ユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴している動画コンテンツを識別する識別情報を示す。「ユーザＩＤ」は、対応する動画コンテンツを視聴するユーザ又はユーザの端末装置を識別する識別情報を示す。「行動情報（笑い）」は、推定処理で推定された感情表出行動のうち、笑う行動が行われた時間位置を示す。

上記例の通り、情報処理装置１００は、ユーザＵ１について、笑う行動は動画コンテンツＶＣ１の「ｔ２、ｔ２１、ｔ５１・・・」で行われたことを特定している。したがって、情報処理装置１００は、図１に示す推定情報記憶部１２２の例のように、動画ＩＤ「ＶＣ１」、ユーザＩＤ「Ｕ１」、行動情報（笑い）「ｔ２、ｔ２１、ｔ５１・・・」を対応付けて格納する。

また、上記例の通り、情報処理装置１００は、ユーザＵ２について、笑う行動は動画コンテンツＶＣ２の「ｔ１３、ｔ３１、ｔ５２・・・」で行われたことを特定している。したがって、情報処理装置１００は、図１に示す推定情報記憶部１２２の例のように、動画ＩＤ「ＶＣ２」、ユーザＩＤ「Ｕ２」、行動情報（笑い）「ｔ１３、ｔ３１、ｔ５２・・・」を対応付けて格納する。

なお、推定情報記憶部１２２は、各ユーザが各動画コンテンツの中で行ったと推定される感情表出行動について、動画コンテンツの中で感情表出行動行われた時間位置を記憶するため、ユーザ毎の集計結果を記憶する記憶部といえる。これに対して、後述する全体集計結果記憶部１２３は、ユーザ毎の集計結果をまとめて、全ユーザで見た場合はどうなるか集計し直した集計結果を記憶する。

次に、情報処理装置１００は、ステップＳ５で特定した時間位置に基づいて、動画コンテンツの中で感情表出行動が行われた人数を集計する（ステップＳ７）。例えば、情報処理装置１００は、各動画コンテンツの中で笑う行動を行った人数である行動人数を、各動画コンテンツの時間位置毎に集計する。例えば、情報処理装置１００は、推定情報記憶部１２２に記憶される情報を用いて、かかる集計を行う。

図１の例では、情報処理装置１００は、動画コンテンツＶＣ１の時間位置「ｔ１」では、所定期間の間に動画コンテンツＶＣ１を視聴したユーザの総数のうち、「１３５人」が笑う行動を行った（行動人数１３５人）との集計結果を得たものとする。また、情報処理装置１００は、動画コンテンツＶＣ１の時間位置「ｔ２」では、所定期間の間に動画コンテンツＶＣ１を視聴したユーザの総数のうち、「６９３人」が笑う行動を行った（行動人数６９３人）との集計結果を得たものとする。また、情報処理装置１００は、動画コンテンツＶＣ１の時間位置「ｔ３」では、所定期間の間に動画コンテンツＶＣ１を視聴したユーザの総数のうち、「８６人」が笑う行動を行った（行動人数８６人）との集計結果を得たものとする。

また、図１の例では、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ１」では、所定期間の間に動画コンテンツＶＣ２を視聴したユーザの総数のうち、「３２１人」が笑う行動を行った（行動人数３２１人）との集計結果を得たものとする。また、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ２」では、所定期間の間に動画コンテンツＶＣ２を視聴したユーザの総数のうち、「５９２人」が笑う行動を行った（行動人数５９２人）との集計結果を得たものとする。また、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ３」では、所定期間の間に動画コンテンツＶＣ２を視聴したユーザの総数のうち、「２９３人」が笑う行動を行った（行動人数２９３人）との集計結果を得たものとする。

次に、情報処理装置１００は、ステップＳ７での集計結果として、行動人数を全体集計結果記憶部１２３に格納する（ステップＳ８）。全体集計結果記憶部１２３は、所定期間の間において、各動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数を、各動画コンテンツの時間位置毎に記憶する。図１の例では、全体集計結果記憶部１２３は、「動画ＩＤ」、「行動情報（笑う）」といった項目を有する。なお、情報処理装置１００は、感情表出行動として、笑う行動だけでなく、泣く行動や驚く行動等を推定する場合もある。このため、「行動情報」には、「泣く」や「驚く」といった項目も含まれてよい。

「動画ＩＤ」は、ユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴している動画コンテンツを識別する識別情報を示す。「行動情報（笑う）」に対応付けられる項目（「ｔ１」、「ｔ２」、「ｔ３」・・・）は、各動画コンテンツの時間位置を示し、所定期間の間、動画コンテンツを閲覧したユーザの総数うち、その時間位置において笑う行動を行ったユーザの人数である行動人数が入力される。

上記例の通り、情報処理装置１００は、動画コンテンツＶＣ１の時間位置「ｔ１」では行動人数「１３５人」、時間位置「ｔ２」では行動人数「６９３人」、時間位置「ｔ３」では行動人数「８６人」との集計結果を得ている。したがって、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ１」及び時間位置「ｔ１」に対応する入力欄に「１３５人」を入力する。また、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ１」及び時間位置「ｔ２」に対応する入力欄に「６９３人」を入力する。また、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ１」及び時間位置「ｔ３」に対応する入力欄に「８６人」を入力する。

また、上記例の通り、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ１」では行動人数「３２１人」、時間位置「ｔ２」では行動人数「５９２人」、時間位置「ｔ３」では行動人数「２９３人」との集計結果を得ている。したがって、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ２」及び時間位置「ｔ１」に対応する入力欄に「３２１人」を入力する。また、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ２」及び時間位置「ｔ２」に対応する入力欄に「５９２人」を入力する。また、情報処理装置１００は、図１に示す全体集計結果記憶部１２３の例のように、動画ＩＤ「ＶＣ２」及び時間位置「ｔ３」に対応する入力欄に「２９３人」を入力する。

次に、情報処理装置１００は、ステップＳ８での集計結果、すなわち行動人数に基づいて、動画コンテンツに関する情報をユーザに提示する（ステップＳ９）。例えば、情報処理装置１００は、動画コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフを、かかる動画コンテンツとともに表示されるシークバーが示す時間位置に対応付けて提示する。

上記の通り、全体集計結果記憶部１２３は、所定期間の間において、各動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数を、各動画コンテンツの時間位置毎に記憶する。このようなことから、全体集計結果記憶部１２３に記憶される集計結果は、動画コンテンツの時間位置に応じて変化する行動人数の遷移と言い換えることもできる。したがって、ステップＳ９では、情報処理装置１００は、動画コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフが、動画コンテンツとともに表示されるシークバーが示す時間位置に対応付けて表示されるよう表示制御する。

ここで、図２に実施形態に係る提示処理の一例を示す。図２では、ユーザＵ１が、動画コンテンツＶＣ２を閲覧する際を例に説明する。まず、端末装置１０は、ユーザＵ１の操作に応じて、動画サイトＳＴにおいて動画コンテンツＶＣ２をストリーミング配信させるための配信要求をコンテンツ配信装置３０に送信する（ステップＳ１０）。例えば、ユーザＵ１が動画サイトＳＴにおいて、動画コンテンツＶＣ２を示すクエリを指定したとすると、端末装置１０は、かかるクエリを含む配信要求をコンテンツ配信装置３０に送信する。

続いて、コンテンツ配信装置３０は、配信要求を受信すると、ユーザＵ１の端末装置１０から動画コンテンツＶＣ２の配信要求を受信した旨を情報処理装置１００に通知する（ステップＳ１１）。例えば、コンテンツ配信装置３０は、ユーザＩＤ「Ｕ１」と、動画ＩＤ「ＶＣ２」とを含む情報を情報処理装置１００に通知する。

そして、情報処理装置１００は、コンテンツ配信装置３０から通知を受信すると、動画コンテンツＶＣ２の中で笑う行動を行ったユーザの人数である行動人数であって、動画コンテンツＶＣ２の時間位置に応じて変化する行動人数の遷移を示すグラフＧを生成する（ステップＳ１２）。具体的には、情報処理装置１００は、全体集計結果記憶部１２３にアクセスし、動画ＩＤ「ＶＣ２」に対応付けられる行動人数を取得する。より具体的には、情報処理装置１００は、動画ＩＤ「ＶＣ２」に対応付けられる行動人数として、動画コンテンツＶＣ２の時間位置の変化（例えば、時間位置ｔ１、ｔ２、ｔ３といった時間位置の変化）に応じて変化する行動人数を取得する。図１の例では、情報処理装置１００は、時間位置ｔ１では「３２１人」、時間位置ｔ２では「５９２人」、時間位置ｔ３では「２９３人」といった、時間位置の変化に応じて変化する行動人数の遷移（遷移情報）を取得する。

そして、情報処理装置１００は、取得した遷移情報に基づいて、グラフＧを生成する。例えば、情報処理装置１００は、横軸（Ｘ座標）を動画コンテンツＶＣ２の時間位置、縦軸（Ｙ座標）を行動人数として、各時間位置に対応する行動人数をプロットすることで、グラフＧを生成する。

次に、情報処理装置１００は、ステップＳ１３で生成したグラフＧが動画コンテンツＶＣ２の再生箇所（時間位置）をユーザ側がコントロールすることができるシークバーＢＲ上に表示されるようコンテンツ配信装置３０に対して表示制御する（ステップＳ１３）。具体的には、情報処理装置１００は、グラフＧの横軸が示す時間位置、すなわち動画コンテンツＶＣ２の時間位置が、シークバーＢＲの時間位置に対応付けて表示されるようコンテンツ配信装置３０に対して表示制御する。例えば、情報処理装置１００は、端末装置１０がシークバーＢＲ上にグラフＧを表示するよう、端末装置１０に対してグラフＧを配信するようコンテンツ配信装置３０に指示する。また、情報処理装置１００は、グラフＧをコンテンツ配信装置３０に送信する。

シークバーの時間位置は、動画コンテンツＶＣ２の時間位置に対応付けられる。例えば、ユーザＵ１は、シークバーを時間位置「３２分」のところに合わせた場合、動画コンテンツＶＣ２を再生時間「３２分」のところから視聴することができる。このような状態において、グラフＧの時間位置もシークバーの時間位置に対応付けられる。したがって、シークバーの時間位置「３２分」は、グラフＧの時間位置「３２分」に一致する。

説明を戻す。コンテンツ配信装置３０は、情報処理装置１００からの表示制御に応じて、動画コンテンツＶＣ２をストリーミング配信する（ステップＳ１４）。例えば、コンテンツ配信装置３０は、動画コンテンツＶＣ２をストリーミング配信するにあたって、シークバーＢＲ上にグラフＧを表示するよう、端末装置１０に対してグラフＧを配信する。これにより、図２に示す端末装置１０の表示画面Ｄのように、シークバーＢＲ上にグラフＧを表示される。

図２に示す表示画面Ｄの例によると、動画サイトＳＴに含まれる領域ＡＲ１内に、実際に動画コンテンツＶＣ２が再生表示される領域ＰＬ１が存在し、領域ＰＬ１内には動画コンテンツＶＣ２の再生を開始しるための再生ボタンＢＴ３が表示される。なお、領域ＰＬ１は、動画コンテンツＶＣ２の再生制御を行うプレーヤーＰＬ１と言い換えることができるものとする。プレーヤーＰＬ１は、例えば、ブラウザ上で動画コンテンツの再生制御を行うブラウザ版プレーヤー（ウェブプレーヤー）であってもよいし、アプリケーション（アプリＡＰ）としてのプレーヤー（アプリ版プレーヤー）であってもよい。また、予め、シークバーＢＲの時間位置のうち、最も行動人数が多い再生位置から選択された状態で動画コンテンツが再生されてもよい。また、ユーザに対して、最も行動人数が多い再生位置から動画コンテンツを再生するか否かを提示してもよい。

また、シークバーＢＲ上には、グラフＧが表示される。上記の通り、シークバーＢＲの時間位置と、グラフＧの時間位置とは一致している。また、グラフＧの縦軸は行動人数を示すため、ユーザＵ１は、他のユーザはおよそどの時間位置でよく笑っていたかをグラフＧを一目見て把握することができる。このため、ユーザＵ１は、例えば、動画コンテンツＶＣ２の中で面白いポイントだけピックアップして視聴した場合、例えば、グラフＧのピークに対応する時間位置にシークバーＢＲのカーソルを合わせることで、簡単に面白いポイントの箇所へと移動することができる。また、これにより、目利きの人が面白いポイントを探さなければならないといった面倒な作業を無くすことができる。

また、図３を用いて、所定の時間位置に感情を抽象化したマークを付した動画コンテンツＶＣ２を配信する場合の表示画面の例を説明する。図３は、実施形態に係る表示画面の一例を示す図である。ここで、コンテンツ配信装置３０は、情報処理装置１００からの表示制御に応じて、動画コンテンツＶＣ２の所定の時間位置に感情を抽象化したマークを付した動画コンテンツＶＣ２をストリーミング配信するものとして説明する。

図３に示す表示画面Ｔの例によると、動画サイトＳＴに含まれる領域ＡＲ２内に、実際に動画コンテンツＶＣ２が再生表示されるプレーヤーＰＬ２が表示される。また、図３に示す表示画面Ｔの例によると、シークバーＢＲ上にグラフＧが表示される。

ここで、動画コンテンツＶＣ２のうち、時間位置「ｔ２」で所定期間の間に動画コンテンツＶＣ２を視聴したユーザの総数のうち、最も多い「５９２人」が笑う行動を行ったとの集計結果を得たものとする。この場合、情報処理装置１００は、動画コンテンツＶＣ２のうち、時間位置「ｔ２」において笑った顔文字マークＭＲを付すようにコンテンツ配信装置３０に対して表示制御する。例えば、情報処理装置１００は、動画コンテンツＶＣ２の時間位置「ｔ２」において、笑った顔文字マークＭＲがプレーヤーＰＬ２の下方向からプレーヤーＰＬ２の中央付近に素早く飛出すような表示態様で表示制御する。この場合、笑った顔文字マークＭＲは、動画コンテンツＶＣ２に重畳されるように表示される。これにより、情報処理装置１００は、観客がいないリアルタイム配信においても、ユーザ間で一体感を演出したサービスの提供が可能となる。

また、動画コンテンツＶＣ２は、予め、シークバーＢＲの時間位置のうち、最も行動人数が多い再生位置から選択された状態で再生されてもよい。また、ユーザに対して、最も行動人数が多い再生位置から動画コンテンツＶ２を再生するか否かを提示してもよい。例えば、図３の例では、グラフＧのうち、時間位置「ｔ２」に笑った顔文字マークＭＲが付されている。これにより、ユーザに対して、最も笑う行動を行った人数が多い再生位置である時間位置「ｔ２」から動画コンテンツＶ２を再生するように提示してもよい。

なお、笑った顔文字マークＭＲを付す例に限定されなくともよく、感情を抽象化したマークの代わりに、笑い声や、効果音や、キャラクタを付してもよい。このように、情報処理装置１００は、動画コンテンツの盛り上りを演出できるような効果であれば如何なる情報を付すように表示制御してもよい。また、上記例では、ユーザの感情として、笑いについて例を挙げて説明したが、上記処理は、泣くや、驚く等の感情にも適用可能である。

以上、図１及び図２を用いて説明してきたように、実施形態に係る情報処理装置１００は、コンテンツ（例えば、動画コンテンツ）を視聴中のユーザを、かかるコンテンツを表示している端末装置１０が有するインカメラによって撮像された撮像情報が示すユーザの表情に基づいて推定されたユーザの感情に関する情報を取得する。そして、情報処理装置１００は、取得された推定結果を集計することにより、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定する。また、情報処理装置１００は、推定結果に基づいて、コンテンツに関する情報を提示する。これにより、実施形態にかかる情報処理装置１００は、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

〔２．端末装置の構成〕
次に、図５を用いて、実施形態にかかる端末装置１０について説明する。図５は、実施形態に係る端末装置１０の構成例を示す図である。図５に示すように、端末装置１０は、通信部１１と、表示部１２と、撮像部１３と、制御部１４とを有する。端末装置１０は、ユーザによって利用される情報処理装置である。

（通信部１１について）
通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮと有線又は無線で接続され、例えば、コンテンツ配信装置３０や情報処理装置１００との間で情報の送受信を行う。

（表示部１２について）
表示部１２は、各種情報を表示する表示デバイスであり、図２に示す表示画面Ｄに相当する。例えば、表示部１２には、タッチパネルが採用される。また、表示部１２は、例えば、撮像部１３によってレンズから取り込まれた映像を表示する。

（撮像部１３について）
撮像部１３は、撮像素子を内蔵し、画像や動画を撮像するデバイスである。撮像素子は、ＣＣＤ(Charge Coupled Device)、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）など何れでもよい。例えば、撮像部１３は、レンズから取り込んだ映像であって表示部１２に現在表示されている映像を静止画像として写真撮影したり、動画撮影したりすることができる。また、撮像部１３は、図１で説明したインカメラに相当するものとする。

（制御部１４について）
制御部１４は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、端末装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ（Random Access Memory)を作業領域として実行されることにより実現される。また、制御部１４は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。また、制御部１４は、実施形態に係る情報処理プログラム（アプリＡＰ）により実行される処理部である。

図５に示すように、制御部１４は、要求部１４ａと、同意情報受付部１４ｂと、表示制御部１４ｃと、カメラ制御部１４ｄと、取得部１４ｅと、推定部１４ｆ、送信部１４ｇとを有し、以下に説明する情報処理の機能や作用を実現又は実行する。なお、制御部１４の内部構成は、図５に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１４が有する各処理部の接続関係は、図５に示した接続関係に限られず、他の接続関係であってもよい。

（要求部１４ａ）
要求部１４ａは、コンテンツ（例えば、動画コンテンツ）の配信を要求する。例えば、要求部１４ａは、コンテンツ配信装置３０に対して、コンテンツの配信を要求する。例えば、要求部１４ａは、コンテンツの配信を要求する配信要求をコンテンツ配信装置３０に送信する。図１の例では、端末装置１０は、ユーザＵ１の操作に応じて、動画サイトＳＴにおいて動画コンテンツをストリーミング配信させるための配信要求をコンテンツ配信装置３０に送信する。例えば、ユーザＵ１が動画サイトＳＴにおいて、動画コンテンツＶＣ２を示すクエリを指定したとすると、端末装置１０は、かかるクエリを含む配信要求をコンテンツ配信装置３０に送信する。また、要求部１４ａは、コンテンツ配信装置３０から配信されたコンテンツを受信する。

（同意情報受付部１４ｂ）
同意情報受付部１４ｂ、インカメラ（撮像部１３）によって撮像されることに同意するか否か（撮像されることを許可するか否か）を示す同意情報をユーザから受け付ける。図１の例では、同意情報受付部１４ｂは、動画サイトＳＴにおいて任意の動画コンテンツを閲覧している間だけインカメラ（撮像部１３）によって撮像されることに、同意するか否か（撮像されることを許可するか否か）を示す同意情報をユーザから受け付ける。例えば、同意情報受付部１４ｂは、動画サイトＳＴに表示される「同意ボタン」が押下された場合には、インカメラ（撮像部１３）によって撮像されることに同意する旨の同意情報を受け付ける。

（表示制御部１４ｃについて）
表示制御部１４ｃは、各種情報を端末装置１０の表示画面Ｄ（表示部１２）に表示させるための表示制御を行う。例えば、表示制御部１４ｃは、要求部１４ａによって受信された情報を表示画面Ｄに表示させる。例えば、表示制御部１４ｃは、動画サイトＳＴを表示画面Ｄに表示させる。また、表示制御部１４ｃは、動画コンテンツを表示画面Ｄに表示させる。例えば、図２の例では、要求部１４ａは、動画コンテンツＶＣ２を受信する。かかる場合、表示制御部１４ｃは、領域ＡＲ内にプレーヤーＰＬ１、グラフＧ、シークバーＢＲを表示させる。

（カメラ制御部１４ｄについて）
カメラ制御部１４ｄは、インカメラ（撮像部１３）を制御することによりユーザを撮像する。例えば、カメラ制御部１４ｄは、同意情報受付部１４ｂにより受け付けられた同意情報に従って、インカメラを制御する。例えば、カメラ制御部１４ｄは、同意情報受付部１４ｂにより撮像されることに同意する旨の同意情報が受け付けられた場合には、ユーザが動画サイトＳＴにおいて任意の動画コンテンツを閲覧している間だけインカメラを制御する。つまり、カメラ制御部１４ｄは、ユーザが動画サイトＳＴにおいて任意の動画コンテンツを閲覧している間だけユーザを撮像するようインカメラを制御する。

（取得部１４ｅについて）
取得部１４ｅは、コンテンツを視聴中のユーザを、コンテンツを表示している端末装置１０が有するインカメラで撮像することで得られる撮像情報（顔動画のデータ）を取得する。例えば、取得部１４ｅは、カメラ制御部１４ｄから撮像情報を取得する。

また、例えば、取得部１４ｅは、コンテンツとして、動画コンテンツ又は画像コンテンツを視聴中のユーザを撮像することで得られる撮像情報を取得する。動画コンテンツは、お笑い番組、ドラマ、映画、アニメ等の様々なジャンルの動画コンテンツである。一方、画像コンテンツは、例えば、各種の電子書籍である。また、取得部１４ｅは、撮像情報として、ユーザの許諾が得られた場合にインカメラで撮像することで得られる撮像情報を取得する。例えば、取得部１４ｅは、撮像情報として、ユーザの許諾が得られた場合において、コンテンツが表示されている間、インカメラで撮像することで得られる撮像情報を取得する。

（推定部１４ｆについて）
推定部１４ｆは、図１のステップＳ２で説明した推定処理を行う。具体的には、推定部１４ｆは、取得部１４ｅにより取得された撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報を推定する。例えば、推定部１４ｆは、撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報として、ユーザの感情表出行動を推定する。感情表出行動は、感情を表す行動であり、面白いといった感情が生じた際に行う笑う行動、悲しいといった感情が生じた際に行う泣く行動、等である。また、例えば、推定部１４ｆは、コンテンツが再生されている再生中に（つまり、ユーザがコンテンツを視聴しているまさにその時、リアルタイムに）、ユーザの感情に関する情報を推定する。また、推定部１４ｆは、撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報として、ユーザの感情表出行動の度合いを示す特徴量を推定する。

図１の例では、取得部１４ｅは、カメラ制御部１４ｄによる撮像で得られた顔動画のデータ（撮像情報の一例）を取得し、推定部１４ｆに送信する。そして、推定部１４ｆは、顔動画のデータ（撮像情報の一例）に基づいて、ユーザの感情に関する情報を推定する。具体的には、推定部１４ｆは、顔動画のデータが示すユーザの表情に基づいて、ユーザの感情に関する情報として、ユーザの感情表出行動を推定する。例えば、推定部１４ｆは、顔動画のデータについて表情解析することにより、ユーザの感情表出行動を推定する。

また、推定部１４ｆは、推定した感情放出行動の度合いを示す特徴量を推定する。例えば、推定部１４ｆは、感情放出行動として、「笑う行動」を推定した場合には、この笑う行動の度合い（どれだけ笑ったか笑いの程度を示す度合い）を示す特徴量を推定（算出）する。例えば、推定部１４ｆは、顔動画のデータが示すユーザの笑いが微笑レベルであるなら、笑う行動の度合いを示す特徴量として、笑い度「２」を推定する。一方、推定部１４ｆは、顔動画のデータが示すユーザの笑いが大笑いレベルであるなら、笑い度「９」を推定する。

なお、推定部１４ｆは、上記例に限定されない。具体的には、推定部１４ｆは、取得部１４ｅにより取得された撮像情報が示すユーザの表情に基づいて、ユーザの属性情報を推定してもよい。例えば、推定部１４ｆは、画像解析等の従来技術を用いて、目や、鼻や、口の大きさ、眉毛の形、顔の皺又は髪の長さ等のユーザの属性を特徴付ける特徴情報を抽出する。そして、推定部１４ｆは、抽出された特徴情報に基づいて、ユーザの属性情報として、ユーザの年齢や、性別を推定してもよい。

また、推定部１４ｆは、ユーザが動画コンテンツを閲覧しているまさにそのタイミング、つまり、リアルタイムで、ユーザが撮像されることに応じて、例えば、毎秒推定処理を連続的に行う。このため、後述する送信部１４ｇは、この推定部１４ｆによる推定処理の推定結果を含む情報を、例えば、毎秒毎に、情報処理装置１００に送信する。一例を示すと、送信部１４ｇは、動画コンテンツの再生時間に対応する時間位置（タイムコード）と、感情表出行動を示す情報と、その感情表出行動の特徴量とを含む情報（図1の例では、撮像情報ＦＤＡ１やＦＤＡ２）を毎秒、情報処理装置１００に送信する。つまり、送信部１４ｇは、ユーザが動画コンテンツを閲覧している間は、時間位置（タイムコード）と、感情表出行動を示す情報と、その感情表出行動の特徴量とを含む情報、つまり推定結果を遂次、情報処理装置１００に送信する。

（送信部１４ｇについて）
送信部１４ｇは、推定部１４ｆによる推定結果を送信する。具体的には、送信部１４ｇは、推定部１４ｆによる推定結果を含む情報を情報処理装置１００に送信する。図１の例では、送信部１４ｇは、撮像情報ＦＤＡ１を情報処理装置１００に送信する。また、送信部１４ｇは、撮像情報ＦＤＡ２を情報処理装置１００に送信する。

なお、推定部１４ｆによる推定処理は、情報処理装置１００側で行われてもよい。この場合には、情報処理装置１００は、推定部１４ｆに対応する処理部を有することになる。また、この場合には、送信部１４ｇは、顔動画のデータを連続的に情報処理装置１００に送信する。

〔３．情報処理装置の構成〕
次に、図６を用いて、実施形態にかかる情報処理装置１００について説明する。図６は、実施形態にかかる情報処理装置１００の構成例を示す図である。図６に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。情報処理装置１００は、例えば、実施形態にかかる情報処理を行うサーバ装置である。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ等によって実現される。そして、通信部１１０は、ネットワークＮと有線又は無線で接続され、例えば、端末装置１０やコンテンツ配信装置３０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子又はハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、撮像情報記憶部１２１と、推定情報記憶部１２２と、全体集計結果記憶部１２３と、感情ポイント記憶部１２４と、出演者情報記憶部１２５とを有する。

（撮像情報記憶部１２１について）
撮像情報記憶部１２１は、コンテンツを視聴中のユーザを、コンテンツを表示している端末装置１０が有するインカメラで撮像することで得られる撮像情報を記憶する。ここで、図７に実施形態にかかる撮像情報記憶部１２１の一例を示す。図７の例では、撮像情報記憶部１２１は、「ユーザＩＤ」、「動画ＩＤ」、「撮像情報」といった項目を有する。撮像情報記憶部１２１については、図１で説明済みのため、説明を省略する。

（推定情報記憶部１２２について）
推定情報記憶部１２２は、感情表出行動を推定した推定結果に関する情報を記憶する。また、推定情報記憶部１２２は、各ユーザが各動画コンテンツの中で行ったと推定される感情表出行動について、動画コンテンツの中で感情表出行動行われた時間位置を記憶するため、ユーザ毎の集計結果を記憶する記憶部といえる。ここで、図８に実施形態にかかる推定情報記憶部１２２の一例を示す。図１の例では、推定情報記憶部１２２は、「動画ＩＤ」、「ユーザＩＤ」、「行動情報」といった項目を有する。また、「行動情報」は、「笑う」、「泣く」、「驚く」といった項目を含む。

「動画ＩＤ」は、ユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴している動画コンテンツを識別する識別情報を示す。「ユーザＩＤ」は、対応する動画コンテンツを視聴するユーザ又はユーザの端末装置を識別する識別情報を示す。

「行動情報」に含まれる「笑い」は、推定処理で推定された感情表出行動のうち、笑う行動が行われた時間位置であって、対応する動画ＩＤが示す動画コンテンツの中で笑う行動が行われた時間位置を示す。また、「行動情報」に含まれる「笑い」は、後述する集計部１３２が、推定部１４ｆによる推定結果に基づいて、動画コンテンツにおいて笑う行動が行われたものとして特定した時間位置を示す。「行動情報」に含まれる「泣く」は、推定処理で推定された感情表出行動のうち、泣く行動が行われた時間位置であって、対応する動画ＩＤが示す動画コンテンツの中で泣く行動が行われた時間位置を示す。また、「行動情報」に含まれる「泣く」は、後述する集計部１３２が、推定部１４ｆによる推定結果に基づいて、動画コンテンツにおいて泣く行動が行われたものとして特定した時間位置を示す。「行動情報」に含まれる「驚く」は、推定処理で推定された感情表出行動のうち、驚く行動が行われた時間位置であって、対応する動画ＩＤが示す動画コンテンツの中で驚く行動が行われた時間位置を示す。また、「行動情報」に含まれる「驚く」は、後述する集計部１３２が、推定部１４ｆによる推定結果に基づいて、動画コンテンツにおいて驚く行動が行われたものとして特定した時間位置を示す。

すなわち、図８の例では、ユーザＵ１が動画コンテンツＶＣ１を閲覧している中で、笑う行動を行ったと推定されたとともに、動画コンテンツＶＣ１の再生時間の中の時間位置ｔ２、ｔ２１、ｔ５１において、この笑う行動が行われたことを特定された例を示す。

なお、本実施形態では、時間位置は、ある１点の時間位置であってもよいし、時間の範囲であってもよい。例えば、時間位置「ｔ２」は、「２分３５秒」といった１点の時間位置であってもよいし、「２分３５秒～２分３０秒」といった時間範囲であってもよい。また、時間位置が１点の時間位置を示す場合、かかる時間位置は、例えば、感情表出行動が開始された時間位置、感情表出行動が終了した時間位置、感情表出行動が開始された時間位置から感情表出行動が終了した時間位置までの時間範囲の中での中間時刻のいずれかであってもよい。

（全体集計結果記憶部１２３について）
全体集計結果記憶部１２３は、所定期間の間において、各動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数（笑う行動を行ったユーザの割合）を、各動画コンテンツの時間位置毎に記憶する。ここで、図９に実施形態にかかる全体集計結果記憶部１２３の一例を示す。図９の例では、全体集計結果記憶部１２３は、「動画ＩＤ」、「行動情報」といった項目を有する。また、「行動情報」は、「笑った人数（割合）」、「泣いた人数（割合）」、「驚いた人数（割合）」といった項目を含む。また、「笑った人数（割合）」、「泣いた人数（割合）」、「驚いた人数（割合）」それぞれには、動画コンテンツの時間位置を示す広告が対応付けられる。

「動画ＩＤ」は、ユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴している動画コンテンツを識別する識別情報を示す。

「笑った人数（割合）」に対応付けられる項目である時間位置（「ｔ１」、「ｔ２」、「ｔ３」・・・）は、各動画コンテンツの時間位置を示し、所定期間の間、動画コンテンツを閲覧したユーザの総数うち、その時間位置において笑う行動を行ったユーザの人数である行動人数（笑う行動を行ったユーザの割合）が入力される。「泣いた人数（割合）」に対応付けられる項目である時間位置（「ｔ１」、「ｔ２」、「ｔ３」・・・）は、各動画コンテンツの時間位置を示し、所定期間の間、動画コンテンツを閲覧したユーザの総数うち、その時間位置において泣く行動を行ったユーザの人数である行動人数（泣く行動を行ったユーザの割合）が入力される。「驚いた人数（割合）」に対応付けられる項目である時間位置（「ｔ１」、「ｔ２」、「ｔ３」・・・）は、各動画コンテンツの時間位置を示し、所定期間の間、動画コンテンツを閲覧したユーザの総数うち、その時間位置において驚く行動を行ったユーザの人数である行動人数（驚く行動を行ったユーザの割合）が入力される。

すなわち、図９の例では、所定期間の間、動画コンテンツＶＣ１を閲覧したユーザの総数うち、時間位置ｔ１において笑う行動を行ったユーザの人数である行動人数が「１３５人」である例を示す。また、図９の例では、所定期間の間、動画コンテンツＶＣ１を閲覧したユーザの総数に対する、時間位置ｔ１において笑う行動を行ったユーザの人数の割合が「２０％」である例を示す。

また、図９の例では、所定期間の間、動画コンテンツＶＣ２を閲覧したユーザの総数うち、時間位置ｔ１において笑う行動を行ったユーザの人数である行動人数が「３２１人」である例を示す。また、図９の例では、所定期間の間、動画コンテンツＶＣ２を閲覧したユーザの総数に対する、時間位置ｔ１において笑う行動を行ったユーザの人数の割合が「５％」である例を示す。

（感情ポイント記憶部１２４について）
感情ポイント記憶部１２４は、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントに関する情報を記憶する。ユーザは感情に変化が生じると、反射的にその感情を行動に表す、例えば、面白いといった感情が芽生えたときには、笑う行動を行う。例えば、悲しいといった感情が芽生えたときには、泣く行動を行う。例えば、驚きの感情が芽生えたときには、驚く行動を行う。このようなことから、感情ポイントは、面白ポイント、泣きポイント、驚きポイント等に分けられる。ここで、図１０に実施形態にかかる感情ポイント記憶部１２４の一例を示す。図１０に示すように、感情ポイント記憶部１２４は、感情ポイント記憶部１２４－１、１２４－２、１２４－３に分けられる。

まず、感情ポイント記憶部１２４－１について説明する。感情ポイント記憶部１２４－１は、ユーザの感情ポイントに関する情報を記憶する。図１０の例では、感情ポイント記憶部１２４－１は、「動画ＩＤ」、「感情ポイント」といった項目を有する。また、「感情ポイント」は、「面白ポイント」、「泣きポイント」、「驚きポイント」といった項目を含む。

「動画ＩＤ」は、ユーザによって視聴された動画コンテンツを識別する識別情報を示す。「面白ポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。かかる数値は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数そのもの、又は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数に対する、笑う行動を行ったユーザの人数の割合である。

このようなことから、「面白ポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数が所定人数以上であった時間位置を示す。あるいは、「面白ポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数に対する、笑う行動を行ったユーザの人数の割合が所定割合以上であった時間位置を示す。つまり、「面白ポイント」は、図９に示す全体集計結果記憶部１２３に記憶される時間位置のうち、上記条件情報を満たす時間位置が抽出されたものである。図１０の例では、「面白ポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数が所定人数以上であった時間位置を示すものとする。

「泣きポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち泣く行動を行ったユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。かかる数値は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、泣く行動を行ったユーザの人数である行動人数そのもの、又は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数に対する、泣く行動を行ったユーザの人数の割合である。

このようなことから、「泣きポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、泣く行動を行ったユーザの人数である行動人数が所定人数以上であった時間位置を示す。あるいは、「面白ポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数に対する、泣く行動を行ったユーザの人数の割合が所定割合以上であった時間位置を示す。つまり、「泣きポイント」は、図９に示す全体集計結果記憶部１２３に記憶される時間位置のうち、上記条件情報を満たす時間位置が抽出されたものである。図１０の例では、「泣きポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、泣く行動を行ったユーザの人数である行動人数が所定人数以上であった時間位置を示すものとする。

「驚きポイント」は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち驚く行動を行ったユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。「驚きポイント」についても同様であるためこれ以上の説明は省略する。

また、「感情ポイント」を示す時間位置の中でも、最も行動人数が多かった（又は、最も割合が高かった）時間位置にはチェックマークが付与される。「感情ポイント」は、後述する特定部１３３によって特定され、感情ポイント記憶部１２４に入力される。

すなわち、図１０の例では、動画コンテンツＶＣ１について時間位置「ｔ１、ｔ３１、ｔ６２・・・」が面白ポイントとして特定され、また、時間位置「ｔ１、ｔ３１、ｔ６２・・・」のうち、笑う行動を行った行動人数が最も多い時間位置が時間位置ｔ３１であると特定された例を示す。

また、図１０の例では、動画コンテンツＶＣ２について時間位置「ｔ１３、ｔ５５、ｔ６１・・・」が面白ポイントとして特定され、また、時間位置「ｔ１３、ｔ５５、ｔ６１・・・」のうち、笑う行動を行った行動人数が最も多い時間位置が時間位置ｔ６１であると特定された例を示す。

なお、図８に示す推定情報記憶部１２２は、動画コンテンツ毎に各ユーザが感情表出行動を行った時間位置を記憶している。このため、推定情報記憶部１２２に記憶される時間位置は、各ユーザの感情ポイントともいえる。

次に、感情ポイント記憶部１２４－２について説明する。感情ポイント記憶部１２４－２は、ユーザの年代毎に、年代を有するユーザの感情ポイントに関する情報を記憶する。図１０の例では、感情ポイント記憶部１２４－２は、「属性（年代）」、「属性（性別）」、「動画ＩＤ」、「感情ポイント」といった項目を有する。また、「感情ポイント」は、「面白ポイント」、「泣きポイント」、「驚きポイント」といった項目を含む。なお、図１０の例では、属性が「年代」及び「性別」である例を示すが、感情ポイント記憶部１２４、例えば、属性がユーザの興味関心及び趣味趣向や、ユーザの居住地及びユーザの位置情報等を含む地域に関する情報等の場合の感情ポイントも記憶することができる。つまり、図１０の例では、属性をどうするかは限定されない。

「属性（年代）」は、動画コンテンツを視聴したユーザの年代を示す。なお、「属性（年代）」は、動画コンテンツを視聴したユーザの年齢を示してもよい。「属性（性別）」は、動画コンテンツを視聴したユーザの性別を示す。「動画ＩＤ」は、対応する属性のユーザが視聴する動画コンテンツであって、インカメラにて撮像されるユーザが視聴している動画コンテンツを識別する識別情報を示す。

「面白ポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際の総数のうち、笑う行動を行ったユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。かかる数値は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数のうち、笑う行動を行ったかかる年代及び性別のユーザの人数である行動人数そのもの、又は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数に対する、笑う行動を行ったかかる年代及び性別のユーザの人数の割合である。

このようなことから、「面白ポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数のうち、笑う行動を行ったかかる年代及び性別のユーザの人数である行動人数が所定人数以上であった時間位置を示す。あるいは、「面白ポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数に対する、笑う行動を行ったかかる年代及び性別のユーザの人数の割合が所定割合以上であった時間位置を示す。図１０の例では、「面白ポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数のうち、笑う行動を行ったかかる年代及び性別のユーザの人数である行動人数が所定人数以上であった時間位置を示すものとする。

「泣きポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数のうち、泣く行動を行ったかかる年代及び性別のユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。「驚きポイント」は、所定期間の間において、対応する年代及び性別のユーザが動画コンテンツを視聴した際のこのユーザの総数のうち、驚く行動を行ったかかる年代のユーザの人数である行動人数に基づく数値が所定数以上（条件情報）であった時間位置を示す。「泣きポイント」及び「驚きポイント」も考え方は「面白ポイント」と同様であるためこれ以上の説明は省略する。

すなわち、図１０の例では、動画コンテンツＶＣ１について時間位置「ｔ１４、ｔ２１、ｔ３９・・・」が面白ポイントとして特定され、また、時間位置「ｔ１４、ｔ２１、ｔ３９・・・」のうち、笑う行動を行った行動人数が最も多い時間位置が時間位置ｔ３１であると特定された例を示す。

また、図１０の例では、１０代のユーザであり、男性のユーザに対して、動画コンテンツＶＣ２について時間位置「ｔ１３、ｔ５５、ｔ６１・・・」が面白ポイントとして特定された例を示す。また、時間位置「ｔ１３、ｔ５５、ｔ６１・・・」のうち、笑う行動を行った行動人数が最も多い時間位置が１０代男性のユーザでは、時間位置ｔ２１であると特定された例を示す。

（出演者情報記憶部１２５について）
出演者情報記憶部１２５は、動画コンテンツに出演する出演者（例えば、タレント、芸人等）に対して行われた感情表出行動に関する情報を記憶する。出演者情報記憶部１２５は、例えば、推定情報記憶部１２２に記憶される情報を集計することで得られる。ここで、図１１に実施形態にかかる出演者情報記憶部１２５の一例を示す。図１１に示すように、出演者情報記憶部１２５は、出演者情報記憶部１２５－１、出演者情報記憶部１２５－２等に分けられる。

まず、出演者情報記憶部１２５－１について説明する。出演者情報記憶部１２５－１は、動画コンテンツＶＣ１に出演している各出演者毎に、出演者が動画コンテンツＶＣ１の中で演じている際に、このとき動画コンテンツＶＣ１を視聴していたユーザのうち、感情表出行動を行ったユーザの人数に関する情報を記憶する。つまり、出演者情報記憶部１２５－１は、動画コンテンツＶＣ１に出演している各出演者に対して、視聴者であるユーザがどれだけ笑ったか等といった情報を記憶する。図１１の例では、出演者情報記憶部１２５－１は、「動画ＩＤ」、「行動情報」、「出演者」といった項目を有する。また、「出演者」は、各出演者を示す情報（例えば、氏名、グループ名等）を概念的に示す記号（ＴＲ１１、ＴＲ１２、ＴＲ１３等）を含む。

「動画ＩＤ」は、ユーザによって視聴された動画コンテンツを識別する識別情報を示す。「行動情報」は、対応する動画コンテンツの中でユーザが行った感情放出行動を示す。

また、動画コンテンツＶＣ１において、出演者「ＴＲ１１」及び行動情報「笑う」に対応付けられる数値「３０％」は、出演者「ＴＲ１１」が動画コンテンツＶＣ１の中で演じている際に笑う行動を行ったユーザの割合を示す。また、動画コンテンツＶＣ１において、出演者「ＴＲ１２」及び行動情報「笑う」に対応付けられる数値「５０％」は、出演者「ＴＲ１２」が動画コンテンツＶＣ１の中で演じている際に笑う行動を行ったユーザの割合を示す。また、動画コンテンツＶＣ１において、出演者「ＴＲ１３」及び行動情報「笑う」に対応付けられる数値「１５％」は、出演者「ＴＲ１３」が動画コンテンツＶＣ１の中で演じている際に笑う行動を行ったユーザの割合を示す。

次に、出演者情報記憶部１２５－２について説明する。出演者情報記憶部１２５－２は、出演者情報記憶部１２５－１と比較して、対象とする動画コンテンツが異なるため、出演者が行っているといった違いはあるが、実質、出演者情報記憶部１２５－１と同様である。

例えば、動画コンテンツＶＣ２において、出演者「ＴＲ２１」及び行動情報「笑う」に対応付けられる数値「３％」は、出演者「ＴＲ２１」が動画コンテンツＶＣ２の中で演じている際に笑う行動を行ったユーザの割合を示す。また、動画コンテンツＶＣ２において、出演者「ＴＲ２２」及び行動情報「笑う」に対応付けられる数値「３％」は、出演者「ＴＲ２２」が動画コンテンツＶＣ２の中で演じている際に笑う行動を行ったユーザの割合を示す。また、動画コンテンツＶＣ２において、出演者「ＴＲ２３」及び行動情報「笑う」に対応付けられる数値「３％」は、出演者「ＴＲ２３」が動画コンテンツＶＣ２の中で演じている際に笑う行動を行ったユーザの割合を示す。

図６に戻り、制御部１３０は、ＣＰＵやＭＰＵ等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図６に示すように、制御部１３０は、受信部１３１と、集計部１３２と、特定部１３３と、提示部１３４と、編集部１３５とを有し、以下に説明する情報処理の機能や作用を実現又は実行する。なお、制御部１３０の内部構成は、図６に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図６に示した接続関係に限られず、他の接続関係であってもよい。

（受信部１３１について）
受信部１３１は、各種情報を受信する。具体的には、受信部１３１は、端末装置１０から送信される情報を受信する。例えば、受信部１３１は、端末装置１０による推定処理の推定結果を含む情報を受信する。上記の通り、推定部１４ｆは、ユーザが動画コンテンツを閲覧しているリアルタイムで推定処理を行い、送信部１４ｇは、推定結果を含む情報をリアルタイムで遂次、情報処理装置１００に送信する。このため、受信部１３１は、ユーザが動画コンテンツを閲覧しているリアルタイムで情報を受信する。図１の例では、端末装置１０は、撮像情報ＦＤＡ１やＦＤＡ２を受信する。例えば、受信部１３１は、ユーザの属性情報を受信する。このとき、受信部１３１は、端末装置１０からユーザの属性情報を受信してもよいし、ユーザ毎に属性情報が予め記憶されている記憶部を有する外部サーバからユーザの属性情報を受信してもよい。

（集計部１３２について）
集計部１３２は、推定部１４ｆにより推定された推定結果を集計する集計処理を行う。例えば、集計部１３２は、推定部１４ｆにより推定された推定結果に基づいて、動画コンテンツにおいて感情表出行動が行われた時間位置を特定する。そして、特定部１３３は、特定した時間位置に基づいて、動画コンテンツの中で感情表出行動が行われた回数を集計する。図１の例では、集計部１３２は、特徴量である笑い度が所定の閾値（例えば、笑い度「５」）以上を示す時間位置を、動画コンテンツＶＣ１において、ユーザＵ１が笑う行動を行った時間位置として特定する。また、集計部１３２は、推定情報記憶部１２２に格納する。

また、例えば、集計部１３２は、各動画コンテンツの中で笑う行動を行った人数である行動人数を、各動画コンテンツの時間位置毎に集計する。例えば、集計部１３２は、推定情報記憶部１２２に記憶される情報を用いて、かかる集計を行う。また、集計部１３２は、所定期間の間において、動画コンテンツを視聴したユーザの総数に対する、その動画コンテンツの中で笑う行動を行ったユーザの人数の割合を、各動画コンテンツの時間位置毎に集計する。例えば、集計部１３２は、推定情報記憶部１２２に記憶される情報を用いて、かかる集計を行う。また、集計部１３２は、集計した集計結果を全体集計結果記憶部１２３に格納する。

また、集計部１３２は、コンテンツに出演している出演者毎に、出演者がコンテンツの中で演じている際に動画コンテンツＶＣ１を視聴していたユーザのうち、感情表出行動を行ったユーザの人数に関する情報を集計する。例えば、集計部１３２は、出演者がコンテンツの中で演じている際に笑う行動を行ったユーザの割合を集計する。例えば、集計部１３２は、推定情報記憶部１２２に記憶される情報を集計することにより、出演者がコンテンツの中で演じている際に笑う行動を行ったユーザの割合を算出する。また、集計部１３２は、このときの集計結果を出演者情報記憶部１２５に格納する。

（特定部１３３について）
特定部１３３は、推定部１４ｆにより推定された推定結果を集計することにより、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定する。図１０で説明したように、感情ポイントは、面白ポイント、泣きポイント、驚きポイント等に分けられる。

例えば、特定部１３３は、推定部１４ｆにより推定された推定結果をユーザ毎に集計することにより、ユーザ毎に感情ポイントを特定する。推定情報記憶部１２２に記憶されるユーザ毎に時間位置は、ユーザ毎の感情ポイントといえる。また、特定部１３３は、このユーザ毎の感情ポイントである時間位置の出現回数を集計することにより、感情ポイントを特定する。言い換えれば、特定部１３３は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数を集計することにより、感情ポイントを特定する。

例えば、特定部１３３は、行動人数に基づく数値が所定の条件情報を満たすポイントを感情ポイントとして特定する。具体的には、特定部１３３は、コンテンツが動画コンテンツである場合には、動画コンテンツの再生時間のうち、行動人数に基づく数値が所定の条件情報を満たす時間位置を感情ポイントとして特定する。例えば、特定部１３３は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数が所定人数以上の時間位置を面白ポイント（感情ポイントの一例）として特定する。あるいは、特定部１３３は、所定期間の間において、対応する動画コンテンツを視聴したユーザの総数に対する、このユーザのうち笑う行動を行ったユーザの人数である行動人数の割合が所定割合以上の時間位置を面白ポイント（感情ポイントの一例）として特定する。また、特定部１３３は、特定した感情ポイントを感情ポイント記憶部１２４－１に格納する。

また、特定部１３３は、推定部１４ｆにより推定された推定結果をユーザのユーザ属性毎に集計することにより、ユーザ属性毎に感情ポイントを特定する。また、特定部１３３は、特定した感情ポイントを感情ポイント記憶部１２４－２に格納する。

また、特定部１３３は、推定結果をユーザ毎に集計した集計結果と、ユーザ毎の属性情報とに基づいて、ユーザ毎に感情ポイントを特定してもよい。例えば、特定部１３３は、ユーザの年齢が同一又は類似する年齢である他のユーザの感情ポイントを参照して、かかるユーザの感情ポイントを特定してもよい。また、特定部１３３は、ユーザの性別が同一又は類似する性別である他のユーザの感情ポイントを参照して、かかるユーザの感情ポイントを特定してもよい。また、特定部１３３は、ユーザの興味関心及び趣味嗜好が同一又は類似する興味関心及び趣味趣向を有する他のユーザの感情ポイントを参照して、かかるユーザの感情ポイントを特定してもよい。

（提示部１３４について）
提示部１３４は、推定部１４ｆにより推定された推定結果に基づいて、コンテンツに関する情報を提示する。例えば、提示部１３４は、ユーザがコンテンツを閲覧する際に、コンテンツについて推定された推定結果に基づくコンテンツに関する情報を提示する。図２で説明したように、提示部１３４は、コンテンツが動画コンテンツである場合には、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフが、コンテンツとともに表示されるシークバーが示す時間位置に対応付けて表示（提示）されるよう表示制御する。例えば、図２の例では、提示部１３４は、ステップＳ１３及びＳ１４にかけての処理を行う。

また、提示部１３４は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数に基づいて、コンテンツに順位付けを行う。そして、提示部１３４は、付与した順位情報に基づいて、ランキング形式でコンテンツを提示する。例えば、提示部１３４は、順位の高い上位所定数のコンテンツを人気コンテンツランキングとしてユーザに提示する。この点について、図９の例を用いて説明する。

図９の例では、全体集計結果記憶部１２３は、所定期間の間において、各動画コンテンツを視聴したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数を、各動画コンテンツの時間位置毎に記憶する。したがって、提示部１３４は、全体集計結果記憶部１２３に記憶される行動人数に基づいて、コンテンツに順位付けを行う。例えば、提示部１３４は、動画コンテンツを視聴したユーザの総数に対する、このユーザのうち笑う行動を行ったユーザの人数の割合を、各動画コンテンツの時間位置毎に算出する。なお、この算出は、集計部１３２によって行われてもよい。

次に、提示部１３４は、各動画コンテンツから最も高い割合を抽出する。図９の例では、動画コンテンツＶＣ１については時間位置ｔ２の「４６％」、動画コンテンツＶＣ２については時間位置ｔ１の「５％」といった具合である。そして、提示部１３４は、例えば、この割合がより高い上位５つの動画コンテンツを提示対象の動画コンテンツとして決定するとともに、割合が高い動画コンテンツほど高い順位を付与する。図９で不図示であるが、説明の便宜上、提示部１３４は、動画コンテンツＶＣ５「１位」、動画コンテンツＶＣ１「２位」、動画コンテンツＶＣ４「３位」、動画コンテンツＶＣ２「４位」、動画コンテンツＶＣ３「５位」、といった順位付けを行ったものとする。

そうすると、提示部１３４は、この順位付けを行った５つの動画コンテンツを、例えば、「今週の人気動画ランキング」といった形でユーザに提示する。例えば、ユーザＵ１が動画サイトＳＴにアクセスしてきた場合、提示部１３４は、動画サイトＳＴの所定のページ内において「今週の人気動画ランキング」を表示させる。ユーザＵ１は、「今週の人気動画ランキング」の中に気になる動画コンテンツが含まれていれば、それを選択することで動画閲覧ページへとジャンプすることができる。

また、別の一例を示すと、提示部１３４は、推定部１４ｆにより推定された推定結果に基づいて、各ユーザに応じたコンテンツをユーザにレコメンドすることができる。具体的には、提示部１３４は、推定部１４ｆにより推定された推定結果をユーザ毎に集計することによりユーザについて特定された感情ポイントであって、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントに基づいて、ユーザに応じたコンテンツをレコメンドする。一例を示すと、提示部１３４は、ユーザ毎にユーザにパーソナライズ化されたコンテンツを、「あなた向けの動画一覧」等としてレコメンドする。この点について、図８の例を用いて説明する。

図８の例では、推定情報記憶部１２２は、動画コンテンツ毎に各ユーザが感情表出行動を行った時間位置を記憶している。このため、推定情報記憶部１２２に記憶される時間位置は、各ユーザの感情ポイントともいえる。したがって、提示部１３４は、この感情ポイントでの動画コンテンツの内容を分析する。ユーザＵ１を例に挙げると、提示部１３４は、動画コンテンツＶＣ１の時間位置ｔ２では、出演者は誰であったか、その出演者はどのような内容の演技を行っていたか等を分析する。また、提示部１３４は、動画コンテンツＶＣ１の時間位置ｔ２１、ｔ５１についても同様に分析する。また、提示部１３４は、分析結果に基づいて、例えば、ユーザＵ１はどのようなジャンルの動画コンテンツが好みであるか、ユーザＵ１はどのような出演者が好みであるか、ユーザＵ１はどのような演技（例えば、お笑いネタ）が好みであるか等といった、動画コンテンツに対するユーザＵ１の傾向を学習する。

ここでは、簡単な例として、提示部１３４は、ユーザＵ１について「複数のグループが漫才を披露してゆく番組を好む傾向にある」との学習結果を得たとする。このような状態において、ユーザＵ１が動画サイトＳＴにアクセスしてきたとする。かかる場合、提示部１３４は、動画サイトＳＴの所定のページ内において「あなた向けの動画一覧」を表示させる。ここで、コンテンツ配信装置３０は、ユーザに配信する各種コンテンツを記憶部に格納している。したがって、提示部１３４は、コンテンツ配信装置３０の記憶部にアクセスし、「複数のグループが漫才を披露してゆく番組」（動画コンテンツ）を選択する。そして、提示部１３４は、選択した動画コンテンツをユーザＵ１に配信するようコンテンツ配信装置３０に指示する。例えば、提示部１３４は、選択した動画コンテンツが「あなた向けの動画一覧」として表示されるよう、選択した動画コンテンツを配信させる。

これにより、情報処理装置１００は、ユーザＵ１が好みそうなコンテンツをレコメンドすることができる。この結果、例えば、ユーザＵ１は、視聴したい動画コンテンツは決まっていないが、面白そうものがあれば視聴してみたいといった場面で、積極的に探すことなく、容易に自分好みの動画コンテンツを視聴することができるようになる。つまり、情報処理装置１００は、ユーザに面倒な操作を与えることなく、ユーザに適したコンテンツをレコメンドすることができる。

（編集部１３５について）
編集部１３５は、動画コンテンツの編集を行う、具体的には、編集部１３５は、特定部１３３により特定された感情ポイントに基づいて、コンテンツの編集を行う。なお、本実施形態において編集するとは、新たなコンテンツを生成する概念を含み得るものとする。例えば、編集部１３５は、コンテンツのうち、感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する。例えば、編集部１３５は、コンテンツそれぞれの感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する。この点について、図１０の例を用いて説明する。

図１０に示す感情ポイント記憶部１２４－１の例では、動画コンテンツＶＣ１の面白ポイントは時間位置ｔ２、ｔ３１、ｔ６２である。また、動画コンテンツＶＣ２の面白ポイントは時間位置ｔ１３、ｔ５５、ｔ６１である。

この場合、編集部１３５は、動画コンテンツＶＣ１から、時間位置ｔ２周辺の部分コンテンツ、時間位置ｔ３１周辺の部分コンテンツ、時間位置ｔ６２周辺の部分コンテンツをそれぞれ抽出する。例えば、編集部１３５は、時間位置ｔ０～ｔ４までに対応する動画コンテンツＶＣ１を、時間位置ｔ２周辺の部分コンテンツＶＣ１１として抽出する。また、編集部１３５は、時間位置ｔ２９～ｔ３３までに対応する動画コンテンツＶＣ１を、時間位置ｔ３１周辺の部分コンテンツとＶＣ１２して抽出する。また、編集部１３５は、時間位置ｔ００～ｔ６４までに対応する動画コンテンツＶＣ１を、時間位置ｔ６２周辺の部分コンテンツＶＣ１３として抽出する。

また、編集部１３５は、動画コンテンツＶＣ２から、時間位置ｔ１３周辺の部分コンテンツ、時間位置ｔ５５周辺の部分コンテンツ、時間位置ｔ６１周辺の部分コンテンツをそれぞれ抽出する。例えば、編集部１３５は、時間位置ｔ１１～ｔ１５までに対応する動画コンテンツＶＣ２を、時間位置ｔ１３周辺の部分コンテンツＶＣ２１として抽出する。また、編集部１３５は、時間位置ｔ５３～ｔ５７までに対応する動画コンテンツＶＣ２を、時間位置ｔ５５周辺の部分コンテンツとＶＣ２２して抽出する。また、編集部１３５は、時間位置ｔ５９～ｔ６３までに対応する動画コンテンツＶＣ２を、時間位置ｔ６１周辺の部分コンテンツＶＣ２３として抽出する。

そして、編集部１３５は、上記にように抽出した部分コンテンツＶＣ１１、ＶＣ１２、ＶＣ１３、ＶＣ２１、ＶＣ２２、ＶＣ２３を組み合わせる（繋ぎ合わせる）ことにより、新たな動画コンテンツＶＣ１１－２１を生成する。このようなことから、動画コンテンツＶＣ１１－２１は、面白ポイントだけで構成された動画コンテンツといえる。また、提示部１３４は、ユーザからのアクセスに応じて、動画コンテンツＶＣ１１－２１を提示してもよい。

これにより、情報処理装置１００は、ユーザがより楽しむことのできる動画コンテンツを動的に生成することができる。また、情報処理装置１００は、動画コンテンツＶＣ１１－２１を所定の事業主に販売することができる。なお、上記例では、情報処理装置１００が、面白ポイントで編集する例を示したが、情報処理装置１００は、泣きポイントや驚きポイントで同様の編集を行ってもよい。また、情報処理装置１００は、面白ポイント、泣きポイント、驚きポイントを織り交ぜることで編集を行ってもよい。

また、編集部１３５は、動画コンテンツの所定の時間位置に、感情を抽象化したマークを付してもよい。例えば、動画コンテンツＶＣ１のうち、時間位置「ｔ２」で所定期間の間に動画コンテンツＶＣ１を視聴したユーザの総数のうち、最も多い「６９３人」が笑う行動を行った（行動人数６９３人）との集計結果を得たものとする。この場合、編集部１３５は、時間位置「ｔ２」において笑った顔文字等のマークを付してもよい。この場合、笑った顔文字マークは、動画コンテンツＶＣ１に重畳されるように表示される。なお、上記例に限定されなくともよく、感情を抽象化したマークの代わりに、笑い声や、効果音や、キャラクタを付してもよい。このように、編集部１３５は、動画コンテンツの盛り上りを演出できるような効果であれば如何なる情報を付してもよい。また、上記例では、ユーザの感情として、笑いについて例を挙げて説明したが、上記編集処理は、泣くや、驚く等の感情にも適用可能である。

〔４．処理手順〕
次に、図１２を用いて、実施形態に係る情報処理の手順について説明する。図１２は、実施形態にかかる情報処理装置１００が実行する情報処理を示すフローチャートである。図１２の例では、端末装置１０と情報処理装置１００とが協働して行う情報処理の手順を示す。また、端末装置１０及び情報処理装置１００は、実施形態に係る情報処理プログラムを実行することにより情報処理を行う。なお、図１２の例では、ユーザが閲覧する動画コンテンツを動画コンテンツＶＣ１とする。

まず、端末装置１０の同意情報受付部１４ｂは、ユーザから受け付けた同意情報に基づいて、ユーザが撮像に許可したか否かを判定する（ステップＳ１０１）。同意情報受付部１４ｂは、ユーザが撮像に許可しなかった場合には（ステップＳ１０１；Ｎｏ）、ユーザの撮像を行わず処理を終了する。一方、カメラ制御部１４ｄは、同意情報受付部１４ｂによりユーザが撮像に許可したと判定された場合には（ステップＳ１０１；Ｙｅｓ）、動画コンテンツＶＣ１の閲覧が開始されたか否かを判定する（ステップＳ１０２）。カメラ制御部１４ｄは、動画コンテンツＶＣ１の閲覧が開始されていない場合には（ステップＳ１０２；Ｎｏ）、閲覧が開始されるまで待機する。一方、カメラ制御部１４ｄは、動画コンテンツＶＣ１の閲覧が開始された場合には（ステップＳ１０２；Ｙｅｓ）、ユーザの撮像を行う（ステップＳ１０３）。

カメラ制御部１４ｄは、ユーザが動画コンテンツＶＣ１を閲覧している間は撮像を継続するため、推定部１４ｆは、カメラ制御部１４ｄの撮像による撮像データ（顔動画のデータ）に基づいて、ユーザの感情表出行動を推定するとともに、推定した感情表出行動の度合いを示す特徴量を推定する推定処理を行う（ステップＳ１０４）。例えば、推定部１４ｆは、ユーザが動画コンテンツＶＣ１を閲覧しているリアルタイムにおいて、ユーザが動画コンテンツＶＣ１の閲覧を終了するまで、毎秒毎に、この推定処理を行う。そして、送信部１４ｇは、推定部１４ｆによる推定結果を含む情報を、毎秒毎に、情報処理装置１００に送信する（ステップＳ１０５）。

集計部１３２は、受信部１３１により撮像情報が受信されると、推定部１４ｆにより推定された推定結果に基づいて、動画コンテンツＶＣ１において感情表出行動が行われた時間位置を特定する（ステップＳ２０６）。例えば、集計部１３２は、特徴量が所定の閾値以上を示す時間位置を、動画コンテンツＶＣ１において、ユーザが対応する感情表出行動を行った時間位置として特定する。

次に、集計部１３２は、推定部１４ｆによる推定結果、及び、ステップＳ２０６で特定した時間位置に基づいて、各種集計を行う（ステップＳ２０７）。例えば、集計部１３２は、笑う行動を行ったユーザの人数や割合を集計し、全体集計結果記憶部１２３に格納する。

次に、特定部１３３は、感情ポイント（例えば、面白ポイント）を特定する（ステップＳ２０８）。例えば、特定部１３３は、全体集計結果記憶部１２３を参照し、各動画コンテンツの中で所定人数以上が笑う行動を行った時間位置、又は動画コンテンツの中で所定割合以上が笑う行動を行った時間位置を面白ポイントとして特定する。

このような状態において、受信部１３１は、ユーザからのアクセスを受信したか否かを判定する（ステップＳ２０９）。例えば、受信部１３１は、ユーザから動画コンテンツの配信要求を受信したか否かを判定する。受信部１３１は、アクセスを受信していない場合には（ステップＳ２０９；Ｎｏ）、受信するまで待機する。一方、提示部１３４は、受信部１３１によりアクセスが受信された場合には（ステップＳ２０９；Ｙｅｓ）、このとき、かかるユーザが視聴しようとする動画コンテンツ（ここでは、動画コンテンツＶＣ２とする）に応じたコンテンツ（提示対象のコンテンツ）を生成する（ステップＳ２１０）。例えば、提示部１３４は、図２で説明したように、全体集計結果記憶部１２３にアクセスし、線情報を取得し、取得した遷移情報に基づいて、動画コンテンツＶＣ２における行動人数ンの遷移を示すグラフＧを生成する。

次に、提示部１３４は、グラフＧを配信要求送信元のユーザに提示する（ステップＳ２１１）。例えば、情報処理装置１３６は、グラフＧが動画コンテンツＶＣ２の再生箇所（時間位置）をユーザ側がコントロールすることができるシークバーＢＲ上に表示されるようコンテンツ配信装置３０に対して表示制御する。例えば、情報処理装置１００は、端末装置１０がシークバーＢＲ上にグラフＧを表示するよう、端末装置１０に対してグラフＧを配信するようコンテンツ配信装置３０に指示する。また、情報処理装置１００は、グラフＧをコンテンツ配信装置３０に送信する。

〔５．変形例〕
上記実施形態に係る端末装置１０及び情報処理装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、端末装置１０及び情報処理装置１００の他の実施形態について説明する。

〔５－１．コンテンツ〕
上記実施形態では、情報処理装置１００による情報処理の対象となるコンテンツが動画コンテンツの場合での例を示してきたが、情報処理の対象となるコンテンツは、画像コンテンツであってもよい。すなわち、実施形態に係る情報処理装置１００は、画像コンテンツを閲覧中のユーザを、かかる画像コンテンツを表示している端末装置１０が有する撮像手段によって撮像された撮像情報が示すユーザの表情に基づいて推定されたユーザの感情に関する情報を取得する。そして、情報処理装置１００は、取得された推定結果を集計することにより、画像コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定する。

一方、情報処理装置１００は、コンテンツが画像コンテンツ（例えば、電子書籍）である場合には、画像コンテンツのページのうち、行動人数に基づく数値が所定の条件情報を満たすページを感情ポイントとして特定する。

この場合、集計部１３２は、各画像コンテンツの中で笑う行動を行った人数である行動人数を、各画像コンテンツのページ毎に集計する。例えば、集計部１３２は、推定情報記憶部１２２に記憶される情報を用いて、行動人数の集計を行う。また、集計部１３２は、所定期間の間において、画像コンテンツを閲覧したユーザの総数に対する、その画像コンテンツの中で笑う行動を行ったユーザの人数の割合を、各画像コンテンツのページ毎に集計する。例えば、集計部１３２は、推定情報記憶部１２２に記憶される情報を用いて、ユーザの人数の割合の集計を行う。また、集計部１３２は、集計した集計結果を全体集計結果記憶部１２３に格納する。

また、特定部１３３は、行動人数に基づく数値が所定の条件情報を満たすポイントを感情ポイントとして特定する。具体的には、特定部１３３は、画像コンテンツのページのうち、行動人数に基づく数値が所定の条件情報を満たすページを感情ポイントとして特定する。例えば、特定部１３３は、所定期間の間において、対応する画像コンテンツを閲覧したユーザの総数のうち、笑う行動を行ったユーザの人数である行動人数が所定人数以上のページを面白ポイントとして特定する。また、特定部１３３は、所定期間の間において、対応する画像コンテンツを閲覧したユーザの総数に対する、このユーザのうち笑う行動を行ったユーザの人数である行動人数の割合が所定割合以上のページを面白ポイントとして特定する。

これにより、情報処理装置１００は、コンテンツを閲覧することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。例えば、情報処理装置１００は、面白ポイントのページだけを寄せ集めた新たな画像コンテンツを提供したり、ユーザが画像コンテンツを閲覧使用する際に、笑いのポイントとなるページをグラフで提示したりすることができる。

〔５－２．端末装置〕
上記実施形態では、端末装置１０が、感情に関する情報を推定する例を示したが、端末装置１０が実行する推定処理は、情報処理装置１００側で行われてもよい。一方、端末装置１０は、推定処理を行うことに加えて、情報処理装置１００が実行する集計部１３２によって行われる集計処理や、特定部１３３によって行われる特定処理等を行ってよい。

〔５－３．集中度を推定〕
上記実施形態では、推定部１４ｆが、ユーザの感情に関する情報として、感情表出行動や感情表出行動の特徴量を推定する推定処理を行う例を示したが、推定部１４ｆは、撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報として、コンテンツに対するユーザの集中度を推定してもよい。例えば、ユーザは、動画コンテンツを集中して閲覧するからこそ、笑う、泣く、驚く、といった感情表出行動を行う。したがって、コンテンツに対するユーザの集中度は、ユーザの感情に関する情報といえる。なお、推定部１４ｆは、これまでに説明してきた推定処理と同様の手法を用いて、集中度（集中の度合いを示す指標値）を推定することができる。以下、この一例について、適宜、図１の例を用いて説明する。

例えば、推定部１４ｆは、顔動画のデータについて表情解析することにより、ユーザの表情、動画コンテンツＶＣ１のどの時間位置で動画コンテンツＶＣ１（あるいは、動画コンテンツＶＣ１が表示されている端末装置１０の画面）に注目したかといった視聴態様を判断・計測する。そして、推定部１４ｆは、この結果に基づいて、例えば、毎秒、集中度を推定する。

また、送信部１４ｇは、かかる推定結果（集中度）を含む情報を、例えば、毎秒毎に、情報処理装置１００に送信する。一例を示すと、送信部１４ｇは、動画コンテンツの再生時間に対応する時間位置（タイムコード）と、集中度とを含む情報を毎秒毎に、情報処理装置１００に送信する。つまり、送信部１４ｇは、ユーザが動画コンテンツを閲覧している間は、時間位置（タイムコード）と、集中度とを含む情報を遂次、情報処理装置１００に送信する。例えば、送信部１４ｇは、時間位置「１分５３秒」、集中度「１０」といった情報を情報処理装置１００に送信する。また、例えば、送信部１４ｇは、時間位置「１分５４秒」、集中度「８」といった情報を情報処理装置１００に送信する。また、例えば、送信部１４ｇは、時間位置「１分５５秒」、集中度「７」といった情報を情報処理装置１００に送信する。

ここで、動画コンテンツＶＣ１を広告動画とすると、情報処理装置１００は、端末装置１０から受信した集中度に基づいて、広告効果を測定することができるため、測定した広告効果に基づいて、どのような広告配信がよいかを分析することや、分析結果を広告主にフィードバックすることができる。

〔５－４．コンテンツ配信装置〕
上記実施形態では、コンテンツ配信装置３０が、各種コンテンツを配信する例を示したが、情報処理装置１００がコンテンツ配信装置３０の機能を有することによりコンテンツ配信を行ってもよい。この場合、情報処理装置１００は、事業主（例えば、コンテンツプロバイダー）から受け付けた各種コンテンツを記憶する記憶部を有する。

〔５－５．音声情報〕
上記実施形態では、情報処理装置１００が、撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報を推定する例を示したが、情報処理装置１００が、端末装置１０が有する集音手段（例えば、マイク）で集音された音声情報を取得し、取得した音声情報に基づいて、ユーザの感情に関する情報を推定してもよい。

例えば、情報処理装置１００は、端末装置１０が有するマイクで集音されたユーザの笑い声を取得する。そして、情報処理装置１００は、ユーザの笑い声が取得されたことから、ユーザの感情に関する情報を「笑い」と推定してもよい。このとき、情報処理装置１００は、音声解析等の従来技術を用いて、ユーザの音声情報を解析する。

なお、変形例は、上記例に限定されなくともよい。例えば、情報処理装置１００は、端末装置１０が有する集音手段で集音された音声情報を取得し、取得した音声情報と撮像情報とを組み合わせて、ユーザの感情に関する情報を推定してもよい。

また、情報処理装置１００は、音声情報に限らず、例えば、端末装置１０の動きを検知するジャイロセンサ及び加速度センサから取得されるセンシング情報や、ユーザの心拍数や、ユーザの体温等のユーザの生体情報に関するセンシング情報に基づいて、ユーザの感情に関する情報を推定してもよい。

〔６．ハードウェア構成〕
また、上述してきた実施形態にかかる端末装置１０、コンテンツ配信装置３０及び情報処理装置１００は、例えば図１３に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に挙げて説明する。図１３は、情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等である。

例えば、コンピュータ１０００が実施形態にかかる情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

また、例えば、コンピュータ１０００が端末装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１４の機能を実現する。

〔７．その他〕
上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、推定部は、推定手段や推定回路に読み替えることができる。

〔８．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、受信部１３１（取得部の一例）と、特定部１３３とを有する。受信部１３１は、コンテンツを閲覧中のユーザを、コンテンツを表示している端末装置１０が有する撮像手段によって撮像された撮像情報が示すユーザの表情に基づいて推定されたユーザの感情に関する情報を取得する。特定部１３３は、受信部１３１によって取得された推定結果を集計することにより、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定する。

これにより、実施形態に係る情報処理装置１００は、推定結果を集計することにより、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントを特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、受信部１３１は、ユーザの表情に基づいて、リアルタイムで推定されたユーザの感情に関する情報を取得し、特定部１３３は、受信部１３１によってリアルタイムで取得された推定結果をユーザ毎に集計することにより、ユーザ毎に感情ポイントをリアルタイムで特定する。

これにより、実施形態に係る情報処理装置１００は、リアルタイムで取得された推定結果をユーザ毎に集計することにより、ユーザ毎に感情ポイントをリアルタイムで特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報をリアルタイムで提供することができる。

また、実施形態に係る情報処理装置１００において、受信部１３１は、ユーザの属性に関する属性情報を取得し、特定部１３３は、受信部１３１によって取得された推定結果をユーザ毎に集計した集計結果と、ユーザ毎の属性情報とに基づいて、ユーザ毎に感情ポイントを特定する。

これにより、実施形態に係る情報処理装置１００は、取得された推定結果をユーザ毎に集計した集計結果と、ユーザ毎の属性情報とに基づいて、ユーザ毎に感情ポイントを特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、特定部１３３は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数を集計することにより、感情ポイントを特定する。

これにより、実施形態に係る情報処理装置１００は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数を集計することにより、感情ポイントを特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、特定部１３３は、行動人数に基づく数値が所定の条件情報を満たすポイントを感情ポイントとして特定する。

これにより、実施形態に係る情報処理装置１００は、行動人数に基づく数値が所定の条件情報を満たすポイントを前記感情ポイントとして特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、特定部１３３は、コンテンツが動画コンテンツである場合には、動画コンテンツの再生時間のうち、行動人数に基づく数値が所定の条件情報を満たす時間位置を感情ポイントとして特定する。

これにより、実施形態に係る情報処理装置１００は、コンテンツが動画コンテンツである場合には、動画コンテンツの再生時間のうち、行動人数に基づく数値が所定の条件情報を満たす時間位置を感情ポイントとして特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、特定部１３３は、コンテンツが画像コンテンツである場合には、画像コンテンツのページのうち、行動人数に基づく数値が所定の条件情報を満たすページを感情ポイントとして特定する。

これにより、実施形態に係る情報処理装置１００は、コンテンツが画像コンテンツである場合には、画像コンテンツのページのうち、行動人数に基づく数値が所定の条件情報を満たすページを感情ポイントとして特定するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、感情ポイントに基づいて、コンテンツの編集を行う編集部１３５をさらに備える。

これにより、実施形態に係る情報処理装置１００は、感情ポイントに基づいて、コンテンツの編集を行うため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、編集部１３５は、コンテンツのうち、感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する。

これにより、実施形態に係る情報処理装置１００は、コンテンツのうち、感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、編集部１３５は、コンテンツそれぞれの感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する。

これにより、実施形態に係る情報処理装置１００は、コンテンツそれぞれの感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、受信部１３１によって取得された推定結果に基づいて、コンテンツに関する情報を提示する提示部１３４をさらに備える。

これにより、実施形態に係る情報処理装置１００は、取得された推定結果に基づいて、コンテンツに関する情報を提示するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、提示部１３４は、ユーザがコンテンツを閲覧する際に、コンテンツについて推定された推定結果に基づくコンテンツに関する情報を提示する。

これにより、実施形態に係る情報処理装置１００は、ユーザがコンテンツを閲覧する際に、コンテンツについて推定された推定結果に基づくコンテンツに関する情報を提示するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、提示部１３４は、コンテンツが動画コンテンツである場合には、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフが、コンテンツとともに表示されるシークバーが示す時間位置に対応付けて表示されるよう表示制御する。

これにより、実施形態に係る情報処理装置１００は、コンテンツが動画コンテンツである場合には、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフが、コンテンツとともに表示されるシークバーが示す時間位置に対応付けて表示されるよう表示制御するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、提示部１３４は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数に基づきコンテンツに順位付けされた順位情報に基づいて、ランキング形式でコンテンツを提示する。

これにより、実施形態に係る情報処理装置１００は、コンテンツの中で感情表出行動を行ったユーザの人数である行動人数に基づきコンテンツに順位付けされた順位情報に基づいて、ランキング形式でコンテンツを提示するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、提示部１３４は、受信部１３１によって取得された推定結果に基づいて、ユーザに応じたコンテンツをレコメンドする。

これにより、実施形態に係る情報処理装置１００は、取得された推定結果に基づいて、ユーザに応じたコンテンツをレコメンドするため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る情報処理装置１００において、提示部１３４は、受信部１３１によって取得された推定結果をユーザ毎に集計することによりユーザについて特定された感情ポイントであって、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントに基づいて、ユーザに応じたコンテンツをレコメンドする。

これにより、実施形態に係る情報処理装置１００は、取得された推定結果をユーザ毎に集計することによりユーザについて特定された感情ポイントであって、コンテンツの中でユーザの感情に変化が生じたポイントである感情ポイントに基づいて、ユーザに応じたコンテンツをレコメンドするため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

また、実施形態に係る端末装置１０は、取得部１４ｅと、推定部１４ｆと、送信部１４ｇを有する。取得部１４ｅは、コンテンツを閲覧中のユーザを、撮像手段によって撮像されることで得られる撮像情報を取得する。推定部１４ｆは、取得部１４ｅによって取得された撮像情報が示すユーザの表情に基づいて、ユーザの感情に関する情報を推定する。送信部１４ｇは、推定部１４ｆによって推定された推定結果を情報処理装置１００に送信する。

これにより、実施形態に係る端末装置１０は、取得された撮像情報が示すユーザの表情に基づいて推定されたユーザの感情に関する推定結果を情報処理装置１００に送信するため、コンテンツを視聴することでユーザに生じた感情の変化に応じて、ユーザにとって有意義な情報を提供することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

１情報処理システム
１０端末装置
１２表示部
１３撮像部
１４制御部
１４ａ要求部
１４ｂ同意情報受付部
１４ｃ表示制御部
１４ｄカメラ制御部
１４ｅ取得部
１４ｆ推定部
１４ｇ送信部
３０コンテンツ配信装置
１００情報処理装置
１２０記憶部
１２１撮像情報記憶部
１２２推定情報記憶部
１２３全体集計結果記憶部
１２４感情ポイント記憶部
１２５出演者情報記憶部
１３０制御部
１３１受信部
１３２集計部
１３３特定部
１３４提示部
１３５編集部

Claims

コンテンツを閲覧中のユーザを、当該コンテンツを表示している端末装置が有する撮像手段によって撮像された撮像情報が示す当該ユーザの表情に基づいて推定された当該ユーザの感情に関する情報として、感情表出行動を示す情報と、当該感情表出行動の特徴量とを取得する取得部と、
前記取得部により取得された推定結果を前記特徴量が所定の閾値以上を示す時間位置と前記感情表出行動とを対応付けた情報に基づき前記コンテンツの時間位置毎に集計することにより、前記コンテンツの中で前記ユーザの感情に変化が生じたポイントである感情ポイントを特定する特定部と
を備えることを特徴とする情報処理装置。
前記取得部は、
前記ユーザの表情に基づいて、リアルタイムで推定された前記ユーザの感情に関する情報を取得し、
前記特定部は、
前記取得部によってリアルタイムで取得された推定結果を前記ユーザ毎に集計することにより、前記ユーザ毎に前記感情ポイントをリアルタイムで特定する
ことを特徴とする請求項１に記載の情報処理装置。
前記取得部は、
前記ユーザの属性に関する属性情報を取得し、
前記特定部は、
前記取得部によって取得された推定結果を前記ユーザ毎に集計した集計結果と、前記ユーザ毎の属性情報とに基づいて、前記ユーザ毎に前記感情ポイントを特定する
ことを特徴とする請求項２に記載の情報処理装置。
前記特定部は、
前記コンテンツの中で感情表出行動を行ったユーザの人数である行動人数を集計することにより、前記感情ポイントを特定する
ことを特徴とする請求項１～３のいずれか１つに記載の情報処理装置。
前記特定部は、
前記行動人数に基づく数値が所定の条件情報を満たすポイントを前記感情ポイントとして特定する
ことを特徴とする請求項４に記載の情報処理装置。
前記特定部は、
前記コンテンツが動画コンテンツである場合には、動画コンテンツの再生時間のうち、前記行動人数に基づく数値が所定の条件情報を満たす時間位置を前記感情ポイントとして特定する
ことを特徴とする請求項５に記載の情報処理装置。
前記特定部は、
前記コンテンツが画像コンテンツである場合には、画像コンテンツのページのうち、前記行動人数に基づく数値が所定の条件情報を満たすページを前記感情ポイントとして特定する
ことを特徴とする請求項５又は６に記載の情報処理装置。
前記感情ポイントに基づいて、前記コンテンツの編集を行う編集部をさらに備える
ことを特徴とする請求項１～７のいずれか１つに記載の情報処理装置。
前記編集部は、
前記コンテンツのうち、前記感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する
ことを特徴とする請求項８に記載の情報処理装置。
前記編集部は、
前記コンテンツそれぞれの前記感情ポイントに対応するコンテンツである部分コンテンツを抽出し、抽出した部分コンテンツを組み合わせた新たなコンテンツを生成する
ことを特徴とする請求項９に記載の情報処理装置。
前記取得部によって取得された推定結果に基づいて、前記コンテンツに関する情報を提示する提示部をさらに備える
ことを特徴とする請求項１～１０のいずれか１つに記載の情報処理装置。
前記提示部は、
前記ユーザがコンテンツを閲覧する際に、当該コンテンツについて推定された推定結果に基づく前記コンテンツに関する情報を提示する
ことを特徴とする請求項１１に記載の情報処理装置。
前記提示部は、
前記コンテンツが動画コンテンツである場合には、前記コンテンツの中で感情表出行動を行ったユーザの人数である行動人数であって、動画コンテンツの時間位置に応じて変化する行動人数の遷移を示すグラフが、前記コンテンツとともに表示されるシークバーが示す時間位置に対応付けて表示されるよう表示制御する
ことを特徴とする請求項１２に記載の情報処理装置。
前記提示部は、
前記コンテンツの中で感情表出行動を行ったユーザの人数である行動人数に基づき前記コンテンツに順位付けされた順位情報に基づいて、ランキング形式でコンテンツを提示する
ことを特徴とする請求項１１～１３のいずれか１つに記載の情報処理装置。
前記提示部は、
前記取得部によって取得された推定結果に基づいて、前記ユーザに応じたコンテンツをレコメンドする
ことを特徴とする請求項１１～１４のいずれか１つに記載の情報処理装置。
前記提示部は、
前記取得部によって取得された推定結果を前記ユーザ毎に集計することにより当該ユーザについて特定された感情ポイントであって、前記コンテンツの中で当該ユーザの感情に変化が生じたポイントである感情ポイントに基づいて、当該ユーザに応じたコンテンツをレコメンドする
ことを特徴とする請求項１５に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
コンテンツを閲覧中のユーザを、当該コンテンツを表示している端末装置が有する撮像手段によって撮像された撮像情報が示す当該ユーザの表情に基づいて推定された当該ユーザの感情に関する情報として、感情表出行動を示す情報と、当該感情表出行動の特徴量とを取得する取得工程と、
前記取得工程により取得された推定結果を前記特徴量が所定の閾値以上を示す時間位置と前記感情表出行動とを対応付けた情報に基づき前記コンテンツの時間位置毎に集計することにより、前記コンテンツの中で前記ユーザの感情に変化が生じたポイントである感情ポイントを特定する特定工程と
を含むことを特徴とする情報処理方法。
コンテンツを閲覧中のユーザを、当該コンテンツを表示している端末装置が有する撮像手段によって撮像された撮像情報が示す当該ユーザの表情に基づいて推定された当該ユーザの感情に関する情報として、感情表出行動を示す情報と、当該感情表出行動の特徴量とを取得する取得手順と、
前記取得手順により取得された推定結果を前記特徴量が所定の閾値以上を示す時間位置と前記感情表出行動とを対応付けた情報に基づき前記コンテンツの時間位置毎に集計することにより、前記コンテンツの中で前記ユーザの感情に変化が生じたポイントである感情ポイントを特定する特定手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
コンテンツを閲覧中のユーザを、撮像手段によって撮像されることで得られる撮像情報を取得する取得部と、
前記取得部によって取得された撮像情報が示す前記ユーザの表情に基づいて、前記ユーザの感情に関する情報として、感情表出行動を示す情報と、当該感情表出行動の特徴量とを推定する推定部と、
前記推定部によって推定された推定結果を、当該推定結果を前記特徴量が所定の閾値以上を示す時間位置と前記感情表出行動とを対応付けた情報に基づき前記コンテンツの時間位置毎に集計することにより前記コンテンツの中で前記ユーザの感情に変化が生じたポイントである感情ポイントを特定する情報処理装置、に送信する送信部と
を備えることを特徴とする端末装置。