JP2012238232A

JP2012238232A - 興味区間検出装置、視聴者興味情報提示装置、および興味区間検出プログラム

Info

Publication number: JP2012238232A
Application number: JP2011107591A
Authority: JP
Inventors: Makoto Okuda; 誠奥田
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2012-12-06
Anticipated expiration: 2031-05-12
Also published as: JP5637930B2

Abstract

【課題】コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出する。
【解決手段】コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部３０１と、画像データ取得部３０１が取得したフレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部３０３と、教師データである教師顔画像をあらかじめ機械学習して得た境界面から、画像特徴量計算部３０３が計算した画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部３０４と、画像特徴量評価部３０４が計算した顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、視聴者のコンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部３０６とを備えた。
【選択図】図４

Description

本発明は、興味区間検出装置、視聴者興味情報提示装置、および興味区間検出プログラムに関する。

コンテンツを視聴している視聴者をカメラが撮影して得た映像データから、その視聴者の顔表情の変化を検出し、検出タイミングの近傍の時間に対応するコンテンツデータ部分からキーワードを抽出するキーワード抽出装置が知られている（例えば、特許文献１参照）。このキーワード抽出装置は、視聴者の嗜好や興味に合致する可能性が高いキーワードを抽出するものである。

特開２０１０−５５４０９号公報

しかしながら、顔表情の変化度合には個人差がある。また、日常生活における顔表情の変化度合と、テレビ番組等のコンテンツを視聴しているときの顔表情の変化度合とが異なる場合もある。さらに、コンテンツのジャンルによっても、顔表情の変化度合に差異が生ずる。よって、視聴者個人に適合した、コンテンツ視聴時における顔表情変化の検出技術が求められる。

本発明は、上記事情に鑑みてなされたものであり、コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出することができる、興味区間検出装置および興味区間検出プログラムを提供することを目的とする。
また、それに加え、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードについてのウェブ検索、およびそのキーワードに対応するシーンの再生を簡単に行うことができる、視聴者興味情報提示装置を提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様である興味区間検出装置は、コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、前記画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、を備えることを特徴とする。
この構成によれば、本発明の第１の態様では、興味区間検出装置は、教師顔画像をあらかじめ機械学習させて境界面を求めておき、この境界面と視聴者顔画像の特徴量との距離に基づいて視聴者のコンテンツに対する興味の有無を推定する。よって、コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出することができる。
ここで、顔表情変化度合は、例えば、０（ゼロ）を中心（境界面上に相当する）とし、値が大きくなるほど顔表情の変化が大きくなり、値が小さくなるほど顔表情の変化が小さくなることを示す度合である。

［２］上記［１］記載の興味区間検出装置において、前記画像特徴量評価部は、顔表情有または顔表情無いずれかのラベルが付された教師顔画像を用いてサポートベクターマシンにより前記超平面を得ることを特徴とする。
［３］上記［１］または［２］記載の興味区間検出装置において、前記画像特徴量評価部は、所定の視聴期間分の顔表情変化度合を視聴者に対応させて取得し、前記所定の視聴期間分の顔表情変化度合に基づき顔表情変化度合閾値を計算して、前記顔表情変化度合閾値を前記視聴者状態検出部に設定することを特徴とする。
ここで、画像特徴量評価部は、取得した一定の視聴期間分の顔表情変化度合において、最大振幅における最大値から下方向に所定割合（例えば２０％）の値を顔表情変化度合閾値とする。または、画像特徴量評価部は、取得した一定の視聴期間分の顔表情変化度合について時間積分し、一定レベルを超える側の面積が総面積の例えば２０％となる当該レベルを、顔表情変化度合閾値に設定する。よって、このように構成することにより、視聴者個人の趣味、嗜好、視聴しているコンテンツに対する好み等に適合した、視聴者顔画像の閾値判定を行うことができる。
［４］上記［３］記載の興味区間検出装置において、外部から電子番組情報を取得する電子番組情報取得部をさらに備え、前記画像特徴量評価部は、視聴番組に対応する属性を抽出し、前記属性ごとに、顔表情変化度合を視聴者に対応させて取得することを特徴とする。

［５］上記の課題を解決するため、本発明の一態様である視聴者興味情報提示装置は、コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、所定時間分のコンテンツデータを記憶可能な放送データバッファと、前記視聴者が視聴する番組に対応する放送データを多重分離してコンテンツデータを抽出するデータ分離部と、前記データ分離部が抽出した前記コンテンツデータを前記所定時間分だけ順次更新して前記放送データバッファに記憶させるバッファ制御部と、前記視聴者状態検出部が検出した前記興味区間において、前記放送データバッファからキーワードを抽出するキーワード抽出部と、前記キーワード抽出部が抽出した前記キーワードを選択可能に含めた興味情報メニューを生成する提示制御部と、を備えることを特徴とする。
この構成によれば、本発明の第５の態様では、視聴者興味情報提示装置は、検出した興味区間に対応する放送データの部分からキーワードを抽出し、この抽出したキーワードを選択可能に含めた興味情報メニューを生成する。よって、コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出し、それに加え、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードについての興味情報メニューを生成することができる。
［６］上記［５］記載の視聴者興味情報提示装置において、前記提示制御部は、ウェブ検索処理を実行させる検索ボタンをも含めて前記興味情報メニューを生成し、前記キーワードおよび前記検索ボタンが選択された場合に、前記キーワードを検索キーとしてウェブ検索を実行させることを特徴とする。
この構成によれば、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードについてのウェブ検索（例えば、情報検索および番組検索）を簡単に行うことができる。
［７］上記［５］または［６］記載の視聴者興味情報提示装置において、前記データ分離部が抽出した前記コンテンツデータを記憶する放送データ記憶部と、再生部と、を備え、前記提示制御部は、シーン再生処理を実行させるシーン再生ボタンをも含めて前記興味情報メニューを生成し、前記キーワードおよび前記シーン再生ボタンが選択された場合に、前記キーワードを含むコンテンツデータを前記放送データ記憶部から読み出し、前記コンテンツデータを前記再生部により再生させることを特徴とする。
この構成によれば、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードに対応するシーンの再生を簡単に行うことができる。

［８］上記の課題を解決するため、本発明の一態様である興味区間検出プログラムは、コンピュータを、コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、前記画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、として機能させる。

本発明によれば、コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出することができる。
また、それに加え、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードについてのウェブ検索、およびそのキーワードに対応するシーンの再生を簡単に行うことができる。

本発明の一実施形態である興味区間検出装置および視聴者興味情報提示装置を適用した、テレビ視聴システムの概略の全体構成図である。同実施形態である興味区間検出装置に適用されたサポートベクターマシンによって、教師顔画像の画像特徴量が２クラスに分類された様子を示す概念図である。二人の視聴者がテレビジョン受像機で同一のコンテンツを視聴しているときの、興味区間検出装置が算出する顔表情変化度合を時間経過に沿ってプロットしたグラフである。同実施形態である興味区間検出装置の機能構成を示すブロック図である。同実施形態における興味情報提示装置が表示する興味情報メニューを模式的に示した図である。同実施形態における情報検索サイトの検索メニューの例である。同実施形態における番組検索サイトの検索メニューの例である。同実施形態における興味情報提示装置の機能構成を示すブロック図である。同実施形態である興味区間検出装置が実行する機械学習処理の手順を示すフローチャートである。同実施形態である興味区間検出装置が実行する閾値調整処理の手順を示すフローチャートである。同実施形態である興味区間検出装置が実行する興味区間検出処理の手順を示すフローチャートである。同実施形態における興味情報提示装置が実行する放送データ取得処理の手順を示すフローチャートである。同実施形態における興味情報提示装置が実行する興味情報生成処理の手順を示すフローチャートである。興味情報提示装置が表示する興味情報メニューを模式的に示した図の別の例である。

以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
図１は、本発明の一実施形態である興味区間検出装置および視聴者興味情報提示装置を適用した、テレビ視聴システムの概略の全体構成図である。
同図に示すように、テレビ視聴システム１は、テレビジョン受像機１０と、撮像装置２０と、視聴者興味情報提示装置２とを、視聴者側の装置として含む。また、テレビ視聴システム１は、サーバ装置５０をサービス提供者側の装置として含む。視聴者興味情報提示装置２とサーバ装置５０とは、ネットワーク６０を介して接続されている。

テレビジョン受像機１０は、地上デジタル放送等の放送電波を受信した受信アンテナ（図示省略）から供給される信号を取り込んで放送データを取得し、視聴者によって所望に選択される番組のコンテンツデータやデータ放送のコンテンツデータ（これらをまとめてコンテンツデータと呼び、視聴する場合を指すときには、単にコンテンツと呼ぶ。）を放送データから抽出して映像音声出力するテレビ装置である。また、テレビジョン受像機１０は、通信インタフェースを介して、取得した放送データを視聴者興味情報提示装置２に供給する。

テレビジョン受像機１０は、例えば、受信アンテナで受信した信号を復調するチューナ部と表示部（例えば、液晶表示部）と音声出力部とを一体的に構成した液晶テレビ装置、チューナ部をセットトップボックスとして表示部から分離して構成したテレビシステム、チューナ部（例えば、チューナ搭載カード）を備えたコンピュータ装置および表示装置等により実現される。

撮像装置２０は、テレビジョン受像機１０でコンテンツを視聴する視聴者の顔を撮影可能な位置に設置され、コンテンツを視聴している視聴者の顔を撮影して得た撮像データ（視聴者映像）を視聴者興味情報提示装置２に供給する。撮像データは、例えば、３０フレーム／秒（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ；ｆｐｓ）のフレームレートを有する映像データである。撮像装置２０は、例えば、デジタルビデオカメラ装置により実現される。

図１に示すように、視聴者興味情報提示装置２は、興味区間検出装置３０と、興味情報提示装置４０とを含んで構成される。
視聴者興味情報提示装置２が備える制御部（図示省略）による選択制御によって、興味区間検出装置３０は、興味区間検出モード、機械学習モード、および閾値調整モードのいずれかの動作モードに設定されて動作する。以下、動作モードごとに説明する。

興味区間検出装置３０は、興味区間検出モードに設定された場合に、撮像装置２０から供給される撮像データを取り込み、フレーム画像データに含まれる視聴者の顔画像（視聴者顔画像）の画像特徴量を、事前に機械学習させた２クラスの識別器により分類して、顔表情の変化度合（顔表情変化度合）を計算する。本実施形態では、興味区間検出装置３０は、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ；ＳＶＭ）を用いて機械学習処理を行う。顔表情変化度合は、例えば、０（ゼロ）を中心とし、値が大きくなるほど顔表情の変化が大きくなり、値が小さくなるほど顔表情の変化が小さくなることを示す度合である。

興味区間検出装置３０は、あらかじめ各視聴者向きに調整された閾値（顔表情変化度合閾値）で顔表情変化度合を判定することによって、コンテンツデータに対する興味区間を検出する。興味区間とは、視聴者が興味をもってコンテンツを視聴していると推定される時間的な区間である。つまり、興味区間検出装置３０は、顔表情変化度合が顔表情変化度合閾値を超える値であるときに興味区間であると判定する。
なお、同時に複数の視聴者がテレビジョン受像機１０を視聴する場合は、興味区間検出装置３０は、公知の顔認識技術を用いて、各視聴者の顔を認識し、視聴者ごとに顔表情変化度合を計算する。

サポートベクターマシンは、教師データである画像サンプルを用いた機械学習をあらかじめ行う。よって、興味区間検出装置３０は、機械学習モードに設定された場合に、外部の教師データサーバ装置（図示省略）から、複数の表情無画像データと複数の表情有画像データとの教師顔画像を取り込み、この教師顔画像を用いて機械学習を行う。表情無画像データは、無表情である人の顔、および殆ど表情が出ていない人の顔を含む画像データに“表情なし”を示すラベルを付したフレーム画像データである。表情有画像データは、興味や好奇心をもったときの表情、例えば嬉しさや楽しさ等の感情表現をした人の顔を含む画像データに“表情あり”を示すラベルを付したフレーム画像データである。表情無画像データと表情有画像データとのサンプル数は多いほど学習精度が高まる。機械学習の詳細については、後述する。

また、興味区間検出装置３０は、閾値調整モードに設定された場合に、視聴者に適した顔表情変化度合閾値を決定する。興味区間検出装置３０は、視聴者（操作者）による操作にしたがって閾値調整パラメータを取り込む。閾値調整パラメータは、例えば、顔表情変化度合をサンプリングする期間を指定するサンプリング期間情報である。興味区間検出装置３０は、閾値調整パラメータが示す期間において、撮像装置２０から供給される撮像データを取り込んで、顔表情変化度合閾値を調整する。顔表情変化度合閾値の調整の詳細については、後述する。

興味情報提示装置４０は、テレビジョン受像機１０から供給される放送データを取り込み、興味区間検出装置３０が検出した興味区間に対応する放送データの部分からキーワードを抽出する。例えば、興味情報提示装置４０は、放送データに含まれる、メタデータ、番組表データ、データ放送コンテンツ、音声データ、文字データ、字幕データ等からキーワードを抽出する。

興味情報提示装置４０は、抽出したキーワードを含めた興味情報を生成し、興味情報メニューを形成して表示する。興味情報は、キーワードとこのキーワードの関連情報とを含む情報である。興味情報メニューは、興味情報一覧と、視聴者によって任意に選択されるキーワードに基づく情報検索、番組検索、およびシーン再生いずれかの機能を選択させるためのボタンとを含む情報である。情報検索は、選択されたキーワードを検索語（検索キー）として、サーバ装置５０から情報検索を行って検索結果を表示する機能である。番組検索は、選択されたキーワードを検索語として、サーバ装置５０から番組コンテンツの検索を行って検索結果を表示する機能である。よって、興味情報提示装置４０は、ウェブ検索処理を実行させるためのウェブブラウザを搭載している。シーン再生は、選択されたキーワードを含むセンテンスに対応するシーンを、記憶されたコンテンツデータから頭出しして再生する機能である。

サーバ装置５０は、情報検索や番組検索のためのデータベースであり、ウェブ検索処理を実行する。サーバ装置５０は、放送局や放送局以外の事業者によって管理されるものである。
ネットワーク６０は、例えば、インターネットプロトコル（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ；ＩＰ）によって通信可能なコンピュータネットワークである。

次に、視聴者興味情報提示装置２の興味区間検出装置３０に適用されるサポートベクターマシンについて説明する。
図２は、サポートベクターマシンによって、教師顔画像の画像特徴量が２クラスに分類された様子を示す概念図である。画像特徴量は、例えば、Ｂａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓである。便宜上、同図は、画像特徴量ベクトルの次元数を“２”とした場合を示している。２クラスとは、“表情あり”クラスおよび“表情なし”クラスである。また、同図に示した８個の教師顔画像および１個の視聴者顔画像（画像特徴量Ｘに対応する顔画像）のそれぞれは、画像特徴量に対応する顔の表情を視覚化したものであり、各顔画像が配置された位置は、特徴量空間（ここでは、特徴量平面）における画像特徴量の位置を示すものである。

本実施形態では、興味区間検出装置３０は、機械学習モードに設定された場合に、複数の表情無画像データおよび複数の表情有画像データを教師データとして用いて、サポートベクターマシンにより境界面（超平面、分離超平面、分離平面等ともいう）Ｈを計算する。図２では、画像特徴量が２次元であるため、境界面Ｈは直線として表されるが、実際は、画像特徴量の次元数−１の次元数による超平面である。例えば、画像特徴量が３００次元のＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓである場合、境界面Ｈは、２９９次元の超平面となる。つまり、境界面Ｈの計算が、サポートベクターマシンによる機械学習である。
同図において、８個の教師顔画像それぞれの画像特徴量は、境界面Ｈによって表情有の領域Ａと、表情無の領域Ｂとに分類される。

閾値調整モードおよび興味区間検出モードに設定された場合に、学習後のサポートベクターマシンは、撮像装置１０から供給された視聴者顔画像の画像特徴量Ｘについて、境界面Ｈから画像特徴量Ｘまでの距離である顔表情変化度合Ｄを計算する。この距離とは、特徴量空間における、画像特徴量Ｘから境界面Ｈまでのユークリッド距離である。本実施形態では、顔表情変化度合Ｄを、例えば、境界面Ｈ上の値が０（ゼロ）、表情有の領域Ａ側が正値、表情無の領域Ｂ側が負値として表す。

次に、顔表情変化度合閾値の調整について説明する。
図３は、二人の視聴者（ａおよびｂとする）がテレビジョン受像機１０で同一のコンテンツを視聴しているときの、興味区間検出装置３０が算出する顔表情変化度合を時間経過に沿ってプロットしたグラフである。つまり、このグラフは、顔表情変化度合の時間変化グラフである。同図において、実線のグラフＤ_ａは、視聴者ａの顔表情変化度合の時間変化グラフであり、破線のグラフＤ_ｂは、視聴者ｂの顔表情変化度合の時間変化グラフである。

図３に示すとおり、視聴者ａと視聴者ｂとでは、顔表情の変化度合に差異がある。具体的には、サンプリング期間ｔにおいて、視聴者ａの顔表情変化度合の最大振幅Ｌ_ａは、視聴者ｂの顔表情変化度合の最大振幅Ｌ_ｂよりも大きい。これは、言い換えると、視聴者ａは、視聴者ｂよりも顔表情の変化が大きいことを示している。また、顔表情変化度合が最大ピークとなる時刻および最小ピークとなる時刻も、視聴者ａと視聴者ｂとでは異なっている。これはすなわち、視聴者個人の趣味、嗜好、視聴しているコンテンツに対する好み等が異なることを示していると考えられる。

そこで、本実施形態では、閾値調整モードに設定された興味区間検出装置３０が、所定のサンプリング期間において、視聴者の顔表情変化度合をサンプリングし、最大振幅における最大値から下方向に所定割合の値を顔表情変化度合閾値とする。例えば、図３において、サンプリング期間ｔにおいて、視聴者ａの顔表情変化度合をサンプリングし、最大振幅Ｌ_ａにおける最大値から下方向に２０％の値Ｔ_ａを顔表情変化度合閾値Ｔ_ａとする。また、同様に、サンプリング期間ｔにおいて、視聴者ｂの顔表情変化度合をサンプリングし、最大振幅Ｌ_ｂにおける最大値から下方向に２０％の値Ｔ_ｂを顔表情変化度合閾値Ｔ_ｂとする。このように構成することにより、視聴者個人の趣味、嗜好、視聴しているコンテンツに対する好み等に適合した、視聴者顔画像の閾値判定を行うことができる。すなわち、興味区間の検出精度が高まる。

なお、閾値調整モードに設定された興味区間検出装置３０が、所定のサンプリング期間において、視聴者の顔表情変化度合をサンプリングして時間積分し、一定レベルを超える側の面積が総面積の例えば２０％となる当該レベルを、顔表情変化度合閾値に設定してもよい。

次に、興味区間検出装置３０の構成について説明する。
図４は、興味区間検出装置３０の機能構成を示すブロック図である。同図に示すように、興味区間検出装置３０は、画像データ取得部３０１と、顔画像領域抽出部３０２と、画像特徴量計算部３０３と、画像特徴量評価部３０４と、履歴記憶部３０５と、視聴者状態検出部３０６とを備える。

画像データ取得部３０１は、興味区間検出モードに設定された場合に、撮像装置２０から供給される撮像データを取り込み、撮像データのフレームごと、または複数フレームおきに、フレーム画像データを顔画像領域抽出部３０２に供給する。
また、画像データ取得部３０１は、機械学習モードに設定された場合に、外部の教師データサーバ装置から供給される、複数の表情無画像データと複数の表情有画像データとを取り込み、これらのフレーム画像データを順次、顔画像領域抽出部３０２に供給する。

また、画像データ取得部３０１は、閾値調整モードに設定された場合に、視聴者（操作者）による操作にしたがって閾値調整パラメータを取り込む。閾値調整パラメータであるサンプリング期間情報は、例えば、“２０１１年５月１日８時０分０秒から２０１１年６月３０日７時５９分５９秒まで”、“毎週日曜日の２１時０分０秒から２１時５９分５９秒まで”、“毎週月曜日から金曜日までの８時３０分０秒から８時４４分５９秒まで“等のフォーマットによるデータである。
画像データ取得部３０１は、閾値調整パラメータが示すサンプリング期間において撮像装置２０から供給される撮像データを取り込み、撮像データのフレームごと、または複数フレームおきに、フレーム画像データを顔画像領域抽出部３０２に供給する。

顔画像領域抽出部３０２は、興味区間検出モード、機械学習モード、および閾値調整モードそれぞれにおいて、画像データ取得部３０１から供給されるフレーム画像データを取り込む。顔画像領域抽出部３０２は、取り込んだフレーム画像データに対して顔画像検出処理を実行し、そのフレーム画像データから顔画像領域を検出する。顔画像検出処理のアルゴリズムとして、公知の顔画像検出アルゴリズム、例えばＡｄａＢｏｏｓｔを顔画像領域抽出部３０２に適用する。
なお、公知の顔画像検出アルゴリズムについては、例えば、PAUL VIOLA and MICHAEL J. JONES: “Robust Real-Time Face Detection”, International Journal of Computer Vision, Vol. 57, No. 2, pp. 137-154 (2004)に開示されている。

画像特徴量計算部３０３は、顔画像領域抽出部３０２が抽出した顔画像領域から顔画像（教師顔画像および視聴者顔画像）の画像特徴量を計算する。例えば、画像特徴量計算部３０３は、公知のＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓ手法を適用して顔画像領域から顔画像の画像特徴量を特徴ベクトルとして算出し、この顔画像の画像特徴量を画像特徴量評価部３０４に供給する。
なお、Ｂａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓ手法については、例えば、G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray: “Visual categorization with bags of keypoints”, Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74 (2004)に開示されている。

画像特徴量評価部３０４は、機械学習モードに設定された場合に、画像特徴量計算部３０３から供給される教師顔画像の画像特徴量を取り込んで機械学習を行う。例えば、画像特徴量評価部３０４は、サポートベクターマシンにより機械学習を行って境界面を計算し、この境界面のデータを内部の記憶部（図示省略）に記憶させる。
なお、サポートベクターマシンについては、例えば、C. Cortes, and V. Vapnik: “Support-Vector Networks”, Machine Learning, Vol. 20, No. 3, pp. 273-297 (1995)に開示されている。

また、画像特徴量評価部３０４は、閾値調整モードに設定された場合に、画像特徴量計算部３０３から供給される視聴者顔画像の画像特徴量を取り込んで顔表情変化度合を計算し、この顔表情変化度合を履歴記憶部３０５に記憶させる。具体的には、画像特徴量評価部３０４は、境界面から画像特徴量までの距離を計算し、この計算結果を顔表情変化度合として履歴記憶部３０５に記憶させる。顔表情変化度合は、境界面上の値が０（ゼロ）、表情有の領域側が正値、表情無の領域側が負値である。

閾値調整パラメータが示すサンプリング期間が終了すると、画像特徴量評価部３０４は、履歴記憶部３０５に記憶された全ての顔表情変化度合を読み込んで最大振幅における最大値から下方向に所定割合（例えば、２０％）の値を計算し、この値を顔表情変化度合閾値として視聴者状態検出部３０６に供給する。
なお、画像特徴量評価部３０４は、全ての顔表情変化度合を時間積分して、一定レベルを超える側の面積が総面積の例えば２０％となる当該レベル値を計算し、この値を顔表情変化度合閾値として視聴者状態検出部３０６に供給してもよい。

画像特徴量評価部３０４は、興味区間検出モードに設定された場合に、閾値調整モードの場合と同様に、画像特徴量計算部３０３から供給される視聴者顔画像の画像特徴量を取り込んで顔表情変化度合を計算し、この顔表情変化度合を視聴者状態検出部３０６に供給する。

視聴者状態検出部３０６は、閾値調整モードに設定された場合に、画像特徴量評価部３０４から供給される顔表情変化度合閾値を取り込み、この顔表情変化度合閾値を内部の記憶部（図示省略）に記憶させる。

また、視聴者状態検出部３０６は、興味区間検出モードに設定された場合に、画像特徴量評価部３０４から供給される顔表情変化度合を取り込み、内部の記憶部に記憶された顔表情変化度合閾値で顔表情変化度合を判定する。具体的には、視聴者状態検出部３０６は、顔表情変化度合が顔表情変化度合閾値を超える値であると判定した場合、視聴者状態フラグをオン（例えば“１”）に設定してこの視聴者状態フラグを出力する。また、視聴者状態検出部３０６は、顔表情変化度合が顔表情変化度合閾値以下の値であると判定した場合、視聴者状態フラグをオフ（例えば０”）に設定してこの視聴者状態フラグを出力する。

次に、興味情報提示装置４０が表示する興味情報メニューについて説明する。
図５は、興味情報提示装置４０が表示する興味情報メニューを模式的に示した図である。同図に示すように、興味情報提示装置４０が表示する興味情報メニュー８０には、興味情報一覧８１と、一覧移動操作部８２と、情報検索ボタン８３と、番組検索ボタン８４と、シーン再生ボタン８５とが設けられている。情報検索ボタン８３および番組検索ボタン８４は検索ボタンである。

興味情報一覧８１は、興味区間ごとに、日時欄と、チャンネル欄と、番組名欄と、画像欄と、キーワード欄とを対応付けた一覧である。日時欄は、興味区間に対応する日時情報の欄である。チャンネル欄は、当該興味区間において視聴されたコンテンツに対応する放送チャンネルを示す情報の欄である。番組名欄は、視聴されたコンテンツの番組名称の欄である。画像欄は、視聴されたコンテンツに対応する１フレーム画像データの縮小画像データの表示欄である。画像欄には、例えば、当該興味区間の開始時点に対応するフレーム画像データの縮小画像データが表示される。キーワード欄は、当該興味区間において視聴されたコンテンツおよびこのコンテンツの関連情報から抽出された文字データの欄である。ただし、キーワード欄に表示されるキーワードはグラフィカル・ユーザ・インタフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ；ＧＵＩ）となっており、視聴者によって一または複数のキーワードが選択されると、選択されたキーワードにはカーソル８６が表示される。また、カーソル８６が表示されているキーワードを選択することによって、カーソル８６が非表示となり、当該キーワードの選択が解除される。

一覧移動操作部８２は、興味情報一覧８１が一画面の表示範囲を超える場合に、興味情報一覧８１の隠れた部分を表示させるために、興味情報一覧８１をスクロールさせたり、ページを切替えさせたりする操作部である。一覧移動操作部８２は、例えば、スクロールバー、ページアップ／ダウンボタン、ページ捲りボタン、スライドボタン等のＧＵＩである。

情報検索ボタン８３は、カーソル８６が示すキーワードを検索語として情報検索を実行させるためのＧＵＩボタンである。
番組検索ボタン８４は、カーソル８６が示すキーワードを検索語として番組検索を実行させるためのＧＵＩボタンである。
シーン再生ボタン８５は、カーソル８６が示すキーワードに対応するシーンを再生させるためのＧＵＩボタンである。

図６は、情報検索サイトの検索メニューの例である。図５に示した興味情報メニュー８０におけるキーワード欄のキーワード“△△△スタジアム”にカーソル８６が付された状態で、情報検索ボタン８３が選択されると、図６に示す検索メニューが表示される。つまり、起動される情報検索サイトの検索メニュー９１は、検索キーワード入力欄９２に、興味情報メニュー８０のキーワード欄においてカーソル８６が付されたキーワード（“△△△スタジアム”）が代入されて入力受付の状態となる。
なお、興味情報メニュー８０において、複数のキーワードにカーソル８６が表示された状態で情報検索ボタン８３が選択された場合、検索メニュー９１の検索キーワード入力欄９２には、それら複数のキーワードそれぞれが、例えば“スペース”を挟んで表示され、それら複数のキーワードによるアンド検索が可能となる。

図７は、番組検索サイトの検索メニューの例である。図５に示した興味情報メニュー８０におけるキーワード欄のキーワード“△△△スタジアム”にカーソル８６が付された状態で、番組検索ボタン８４が選択されると、図７に示す検索メニューが表示される。つまり、起動される番組検索サイトの検索メニュー９３は、検索キーワード入力欄９４に、興味情報メニュー８０のキーワード欄においてカーソル８６が付されたキーワード（“△△△スタジアム”）が代入されて入力受付の状態となる。

次に、興味情報提示装置４０の構成について説明する。
図８は、興味情報提示装置４０の機能構成を示すブロック図である。同図に示すように、興味情報提示装置４０は、放送データ取得部４０１と、データ分離部４０２と、記憶制御部４０３と、バッファ制御部４０４と、放送データ記憶部４０５と、放送データバッファ４０６と、興味区間取得部４０７と、キーワード抽出部４０８と、興味情報生成部４０９と、提示制御部４１０と、表示部４１１と、操作受付部４１２と、通信部４１３と、再生部４１４と、音声出力部４１５とを備える。

放送データ取得部４０１は、テレビジョン受像機１０から供給される放送データを取り込み、この放送データをデータ分離部４０２に供給する。放送データは、映像データ、音声データ、静止画データ、文字データ、字幕データ、番組関連データ等が多重化されたストリームである。本実施形態では、放送データがＭＰＥＧ−２トランスポートストリーム（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ；ＴＳ）である場合を例とする。よって、放送データに多重化された番組関連データは、ＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）／ＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ）等の情報である。

データ分離部４０２は、放送データ取得部４０１から供給される放送データを取り込んで、この放送データから各種データを分離し、これら分離されたデータを、記憶制御部４０３とバッファ制御部４０４とに供給する。データ分離部４０２が放送データから分離抽出する各種データは、例えば、映像データ、音声データ、静止画データ、文字データ、字幕データ、番組関連データ等である。

記憶制御部４０３は、データ分離部４０２から供給される各種データを、放送データ記憶部４０５に記憶させる。具体的には、記憶制御部４０３は、データ分離部４０２から供給される各種データを、番組コンテンツと番組関連データとデータ放送コンテンツとにそれぞれまとめて放送データ記憶部４０５に記憶させる。番組コンテンツは、映像データと音声データとを含む、放送番組に関するコンテンツデータである。データ放送コンテンツは、静止画データと文字データと音声データとＢＭＬ（ＢｒｏａｄｃａｓｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データとを含む、データ放送に関するコンテンツデータである。

バッファ制御部４０４は、データ分離部４０２から供給される各種データを、あらかじめ設定された所定時間分、放送データバッファ４０６に記憶させる。具体的には、バッファ制御部４０４は、データ分離部４０２から供給される、映像データと音声データと字幕データと文字データとの、最新の所定時間分（例えば、１０秒間分）のデータを、放送データバッファ４０６に記憶させる。

放送データ記憶部４０５は、番組コンテンツと番組関連データとデータ放送コンテンツとを記憶する。放送データ記憶部４０５は、例えば、磁気ハードディスク装置や半導体ディスク装置により実現される。
放送データバッファ４０６は、映像データと音声データと字幕データと文字データとの、最新の所定時間分（例えば、１０秒間分）のデータを記憶する。放送データバッファ４０６は、例えば、半導体記憶装置により実現される。

興味区間取得部４０７は、興味区間検出装置３０から供給される視聴者状態フラグを順次取り込み、視聴者状態フラグがオフ状態（例えば“０（ゼロ）”）からオン状態（例えば“１”）に変化したことを検出した時点から、視聴者状態フラグがオン状態である期間中、興味区間であることを示す興味区間信号をキーワード抽出部４０８に供給する。

キーワード抽出部４０８は、興味区間取得部４０７から興味区間信号の供給を受けている期間中、放送データバッファ４０６に記憶された、音声データ、字幕データ、および文字データと、放送データ記憶部４０５に記憶された番組関連データとのいずれかまたは全てから、シーンに関するキーワードを抽出する。キーワード抽出の具体例については後述する。
キーワード抽出部４０８は、抽出したキーワードと興味区間信号の供給開始時刻および供給終了時刻の時刻情報（興味区間時間情報）とを、興味情報生成部４０９に供給する。

興味情報生成部４０９は、興味情報を生成して、この興味情報を提示制御部４１０に供給する。具体的には、興味情報生成部４０９は、キーワード抽出部４０８から供給されるキーワードと興味区間時間情報とを取り込む。また、興味情報生成部４０９は、興味区間時間情報が示す時間に対応する番組関連データにおける放送チャンネルと番組名称とを示す情報を放送データ記憶部４０５から読み込む。また、興味情報生成部４０９は、興味区間時間情報が示す時間における所定の時刻（例えば、先頭の時刻）に対応するフレーム画像データを、放送データバッファ４０６に記憶された映像データから抽出し、そのフレーム画像データを縮小処理して縮小画像データを生成する。そして、興味情報生成部４０９は、興味区間時間情報と、放送チャンネルを示す情報と、番組名称を示す情報と、縮小画像データと、キーワードとを対応付けた興味情報を生成し、この興味情報を提示制御部４１０に供給する。

提示制御部４１０は、興味情報生成部４０９から供給される興味情報を取り込んで興味情報メニューを生成し、この興味情報メニューを表示部４１１に表示させる。具体的には、提示制御部４１０は、興味情報生成部４０９から供給される興味情報を取り込んで内部の記憶部（図示省略）に記憶させる。提示制御部４１０は、その記憶部に記憶された興味情報の一覧（興味情報一覧）を読み出し、この興味情報一覧をもとに興味情報メニューを生成してこの興味情報メニューを表示部４１１に表示させる。興味情報メニューは、具体的には、例えば、図５に示した興味情報メニュー８０の構成を有する。提示制御部４１０は、興味情報メニュー８０のうち、一覧移動操作部８２と、情報検索ボタン８３と、番組検索ボタン８４と、シーン再生ボタン８５と、キーワード欄の各キーワードとをＧＵＩボタンとして構成する。

また、提示制御部４１０は、操作受付部４１２から供給される操作制御情報を取り込み、この操作制御信号に基づいて、興味情報メニューを操作する。
具体的には、キーワード欄のいずれかのキーワードが選択されることによって操作受付部４１２から供給される操作制御情報に基づいて、提示制御部４１０は、その選択されたキーワードにカーソル８６を重ね合わせて表示部４１１に表示させる。
また、一覧移動操作部８２が選択されることによって操作受付部４１２から供給される操作制御情報に基づいて、提示制御部４１０は、興味情報一覧の表示位置をスクロールさせる。

また、カーソル８６が表示された後に、情報検索ボタン８３が操作されることによって操作受付部４１２から供給される操作制御情報に基づいて、提示制御部４１０は、ウェブブラウザを起動させ、あらかじめ設定された情報検索サイトのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）情報を通信部４１３に供給する。
また、カーソル８６が表示された後に、番組検索ボタン８４が操作されることによって操作受付部４１２から供給される操作制御情報に基づいて、提示制御部４１０は、ウェブブラウザを起動させ、あらかじめ設定された番組検索サイトのＵＲＬ情報を通信部４１３に供給する。
また、カーソル８６が表示された後に、シーン再生ボタン８５が操作されることによって操作受付部４１２から供給される操作制御情報に基づいて、提示制御部４１０は、カーソル８６が示すキーワードと再生要求情報とを再生部４１４に供給する。

表示部４１１は、提示制御部４１０から供給される興味情報メニュー、ウェブブラウザの情報、シーン再生映像等を表示する。表示部４１１は、例えば、液晶ディスプレイ装置により実現される。
なお、表示部４１１は、興味情報提示装置４０から分離されてもよい。また、表示部４１１をテレビジョン受像機１０としてもよい。この場合、テレビジョン受像機１０は、画面分割処理を実行し、第１の画面にコンテンツ映像を表示させ、第２の画面に興味情報メニュー、ウェブブラウザ情報等を表示させる。

操作受付部４１２は、視聴者による操作に応じた操作制御情報を生成し、この操作制御情報を提示制御部４１０に供給する。操作受付部４１２は、表示部４１１の表示画面に合わせて設けられるタッチパネル、マウス等のポインティングデバイス、またはキーボートにより実現される。
通信部４１３は、提示制御部４１０から供給される情報検索サイトのＵＲＬ情報を取り込み、このＵＲＬ情報に示された情報検索サイトや番組検索サイトが所在するサーバ装置５０をアクセスしてデータ通信を行う。
再生部４１４は、提示制御部４１０から供給される、キーワードと再生要求情報とを取り込み、そのキーワードに対応するシーンを放送データ記憶部４０５から読み込んで再生することにより、映像データを提示制御部４１０に供給し、また音声データを音声出力部４１５に供給する。
音声出力部４１５は、再生部４１４から供給される音声データを取り込んで音声出力する。音声出力部４１５は、例えば、デジタル／アナログ変換回路、アンプ、およびスピーカ装置等により実現される。

次に、本実施形態である視聴者興味情報提示装置２の動作について説明する。まず、興味区間検出装置３０の動作について、図９から図１１までを参照して説明する。
図９は、興味区間検出装置３０が実行する機械学習処理の手順を示すフローチャートである。視聴者興味情報提示装置２が備える制御部によって興味区間検出装置３０が機械学習モードに設定されると、興味区間検出装置３０は、本フローチャートの処理を実行する。

ステップＳ１において、画像データ取得部３０１は、外部の教師データサーバ装置から供給される、複数の表情無画像データと複数の表情有画像データとを取り込み、これらのフレーム画像データを順次、顔画像領域抽出部３０２に供給する。
次に、ステップＳ２において、顔画像領域抽出部３０２は、画像データ取得部３０１から供給されるフレーム画像データを取り込み、例えばＡｄａＢｏｏｓｔを適用して顔画像検出処理を実行し、そのフレーム画像データから顔画像領域を検出する。

次に、ステップＳ３において、画像特徴量計算部３０３は、顔画像領域抽出部３０２が抽出した顔画像領域から教師顔画像の画像特徴量を計算する。例えば、画像特徴量計算部３０３は、Ｂａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓ手法を適用して顔画像領域から教師顔画像の画像特徴量を特徴ベクトルとして算出し、この教師顔画像の画像特徴量を画像特徴量評価部３０４に供給する。

具体的には、画像特徴量計算部３０３は、例えば、顔画像領域抽出部３０２が抽出した顔画像領域を所定サイズの矩形領域（例えば、１２８画素×１２８画素）に正規化する。つまり、画像特徴量計算部３０３は、様々なサイズの顔画像に対応させるため、顔画像領域を所定サイズにリサイズする。リサイズとは、顔画像領域を所定サイズの矩形領域に合わせて切り取ったり、拡大したり、縮小したりする画像編集のことである。
次に、画像特徴量計算部３０３は、リサイズ後の顔画像領域において、顔を含む円領域を設定し、この円領域内を顔領域とする。円領域は、顔表情の特徴を得やすい部位である、目、眉毛、鼻、口、頬を含むことが好ましい。例えば、リサイズ後の顔画像領域が正方形である場合、画像特徴量計算部３０３は、リサイズ後の顔画像領域の中心を中心位置とし、正方形の一辺の長さの０．８倍の長さを直径とする円領域を設定する。円領域によって抽出される顔領域は、髪の毛やイヤリング等の顔表情に関係がないかまたは関係が弱い情報が除外されたものである。
次に、画像特徴量計算部３０３は、円領域である顔領域を、その中心点を通る水平線を境に上半円領域と下半円領域とに分割する。
次に、画像特徴量計算部３０３は、上半円領域についてのＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓと、下半円領域についてのＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓとをそれぞれ計算し、各領域のＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓを合わせて１つのＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓを算出する。例えば、上半円領域についてのＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓが１７５次元ベクトル、下半円領域についてのＢａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓが１２５次元ベクトルである場合、画像特徴量は３００次元ベクトルとなる。

次に、ステップＳ４において、画像特徴量評価部３０４は、画像特徴量計算部３０３から供給される教師顔画像の画像特徴量を取り込んで機械学習を行う。例えば、画像特徴量評価部３０４は、サポートベクターマシンによる機械学習を行って境界面を計算し、この境界面のデータを内部の記憶部に記憶させる。

図１０は、興味区間検出装置３０が実行する閾値調整処理の手順を示すフローチャートである。視聴者興味情報提示装置２が備える制御部によって興味区間検出装置３０が閾値調整モードに設定されると、興味区間検出装置３０は、本フローチャートの処理を実行する。

ステップＳ１１において、画像データ取得部３０１は、視聴者による操作にしたがって閾値調整パラメータを取り込む。閾値調整パラメータであるサンプリング期間情報は、例えば、“２０１１年５月１日８時０分０秒から２０１１年６月３０日７時５９分５９秒まで”、“毎週日曜日の２１時０分０秒から２１時５９分５９秒まで”、“毎週月曜日から金曜日までの８時３０分０秒から８時４４分５９秒まで“等のデータである。
次に、ステップＳ１２において、画像データ取得部３０１は、閾値調整パラメータが示すサンプリング期間内である場合はステップＳ１３の処理に移し、サンプリング期間外である場合はステップＳ１８の処理に移す。

ステップＳ１３において、画像データ取得部３０１は、撮像装置２０から供給される撮像データを取り込み、撮像データのフレームごと、または複数フレームおきに、フレーム画像データを顔画像領域抽出部３０２に供給する。
次に、ステップＳ１４において、顔画像領域抽出部３０２は、画像データ取得部３０１から供給されるフレーム画像データを取り込んで、前述したステップＳ２の処理と同様に顔画像検出処理を実行し、そのフレーム画像データから顔画像領域を検出する。
次に、ステップＳ１５において、画像特徴量計算部３０３は、前述したステップＳ３の処理と同様に、顔画像領域抽出部３０２が抽出した顔画像領域から視聴者顔画像の画像特徴量を計算し、この視聴者顔画像の画像特徴量を画像特徴量評価部３０４に供給する。

次に、ステップＳ１６において、画像特徴量評価部３０４は、画像特徴量計算部３０３から供給される視聴者顔画像の画像特徴量を取り込んで顔表情変化度合を計算する。具体的には、画像特徴量評価部３０４は、境界面から当該画像特徴量までの距離を計算する。
次に、ステップＳ１７において、画像特徴量評価部３０４は、計算した顔表情変化度合を履歴記憶部３０５に記憶させ、ステップＳ１２の処理に戻す。

一方、閾値調整パラメータが示すサンプリング期間が終了すると（Ｓ１２：ＮＯ）、ステップＳ１８において、画像特徴量評価部３０４は、履歴記憶部３０５に記憶された全ての顔表情変化度合を読み込んで最大振幅における最大値から下方向に所定割合（例えば、２０％）の値を計算し、この値を顔表情変化度合閾値として視聴者状態検出部３０６に供給する。
次に、視聴者状態検出部３０６は、画像特徴量評価部３０４から供給される顔表情変化度合閾値を取り込み、この顔表情変化度合閾値を内部の記憶部に記憶させる。

図１１は、興味区間検出装置３０が実行する興味区間検出処理の手順を示すフローチャートである。視聴者興味情報提示装置２が備える制御部によって興味区間検出装置３０が興味区間検出モードに設定されると、興味区間検出装置３０は、本フローチャートの処理を実行する。

ステップＳ２１において、画像データ取得部３０１は、撮像装置２０から供給される撮像データを取り込み、撮像データのフレームごと、または複数フレームおきに、フレーム画像データを顔画像領域抽出部３０２に供給する。
次に、ステップＳ２２において、顔画像領域抽出部３０２は、画像データ取得部３０１から供給されるフレーム画像データを取り込んで、前述したステップＳ２の処理と同様に顔画像検出処理を実行し、そのフレーム画像データから顔画像領域を検出する。
次に、ステップＳ２３において、画像特徴量計算部３０３は、前述したステップＳ３の処理と同様に、顔画像領域抽出部３０２が抽出した顔画像領域から視聴者顔画像の画像特徴量を計算し、この視聴者顔画像の画像特徴量を画像特徴量評価部３０４に供給する。

次に、ステップＳ２４において、画像特徴量評価部３０４は、前述したステップＳ１６の処理と同様に、画像特徴量計算部３０３から供給される視聴者顔画像の画像特徴量を取り込んで顔表情変化度合を計算し、この顔表情変化度合を視聴者状態検出部３０６に供給する。
次に、ステップＳ２５において、視聴者状態検出部３０６は、画像特徴量評価部３０４から供給される顔表情変化度合を取り込み、内部の記憶部に記憶された顔表情変化度合閾値で顔表情変化度合を判定する。具体的には、視聴者状態検出部３０６は、顔表情変化度合が顔表情変化度合閾値を超える値であると判定した場合（Ｓ２５：ＹＥＳ）はステップＳ２６の処理に移し、顔表情変化度合が顔表情変化度合閾値以下の値であると判定した場合（Ｓ２５：ＮＯ）はステップＳ２７の処理に移す。

ステップＳ２６において、視聴者状態検出部３０６は、視聴者状態フラグをオン（例えば“１”）に設定し、ステップＳ２８の処理に移す。
一方、ステップＳ２７において、視聴者状態検出部３０６は、視聴者状態フラグをオフ（例えば“０”）に設定し、ステップＳ２８の処理に移す。

ステップＳ２８において、視聴者状態検出部３０６は、設定した視聴者状態フラグを出力し、ステップＳ２１の処理に戻す。

次に、興味情報提示装置４０の動作について、図１２および図１３を参照して説明する。
図１２は、興味情報提示装置４０が実行する放送データ取得処理の手順を示すフローチャートである。
ステップＳ３１において、放送データ取得部４０１は、テレビジョン受像機１０から供給される放送データを待ち続けている（Ｓ３１：ＮＯ）。そして、放送データ取得部４０１は、放送データの供給を受けると（Ｓ３１：ＹＥＳ）、ステップＳ３２の処理に移す。
ステップＳ３２において、放送データ取得部４０１は、その放送データを取り込み、この放送データをデータ分離部４０２に供給する。
次に、ステップＳ３３において、データ分離部４０２は、放送データ取得部４０１から供給される放送データを取り込んで、この放送データから各種データを分離し、これら分離されたデータを、記憶制御部４０３とバッファ制御部４０４とに供給する。

次に、ステップＳ３４において、記憶制御部４０３は、データ分離部４０２から供給される各種データを、放送データ記憶部４０５に記憶させる。具体的には、記憶制御部４０３は、データ分離部４０２から供給される各種データを、番組コンテンツと番組関連データとデータ放送コンテンツとにそれぞれまとめて放送データ記憶部４０５に記憶させる。
また、バッファ制御部４０４は、データ分離部４０２から供給される各種データを、あらかじめ設定された所定時間分、放送データバッファ４０６に記憶させる。具体的には、バッファ制御部４０４は、データ分離部４０２から供給される、映像データと音声データと字幕データと文字データとの、最新の所定時間分（例えば、１０秒間分）のデータを、放送データバッファ４０６に記憶させる。
次に、ステップＳ３１の処理に戻る。

図１３は、興味情報提示装置４０が実行する興味情報生成処理の手順を示すフローチャートである。
ステップＳ４１において、興味区間取得部４０７は、興味区間検出装置３０から供給される視聴者状態フラグを取り込む。
次に、ステップＳ４２において、興味区間取得部４０７は、取り込んだ視聴者状態フラグが前回の状態であるオフ状態（例えば“０（ゼロ）”）からオン状態（例えば“１”）に変化したことを検出した場合（Ｓ４２：ＹＥＳ）、ステップＳ４３の処理に移す。
一方、興味区間取得部４０７は、視聴者状態フラグが前回の状態であるオン状態（例えば“１”）からオフ状態（例えば“０（ゼロ）”）に変化したことを検出した場合（Ｓ４２：ＮＯ）、ステップＳ４４の処理に移す。

ステップＳ４３において、興味区間取得部４０７は、キーワード抽出部４０８に対して興味区間信号を送信し、ステップＳ４１の処理に戻す。

ステップＳ４４において、興味区間取得部４０７は、キーワード抽出部４０８に対して興味区間信号の送信を停止する。
次に、ステップＳ４５において、興味情報生成部４０９は、興味情報を生成して、この興味情報を提示制御部４１０に供給する。具体的には、興味情報生成部４０９は、キーワード抽出部４０８から供給されるキーワードと興味区間時間情報とを取り込む。また、興味情報生成部４０９は、興味区間時間情報が示す時間に対応する番組関連データにおける放送チャンネルと番組名称とを示す情報を放送データ記憶部４０５から読み込む。また、興味情報生成部４０９は、興味区間時間情報が示す時間における所定の時刻（例えば、先頭の時刻）に対応するフレーム画像データを、放送データバッファ４０６に記憶された映像データから抽出し、このフレーム画像データを縮小処理して縮小画像データを生成する。
次に、興味情報生成部４０９は、興味区間時間情報と、放送チャンネルを示す情報と、番組名称を示す情報と、縮小画像データと、キーワードとを対応付けた興味情報を生成し、この興味情報を提示制御部４１０に供給する。

次に、ステップＳ４６において、提示制御部４１０は、興味情報生成部４０９から供給される興味情報を取り込んで興味情報メニューを生成し、この興味情報メニューを表示部４１１に表示させる。具体的には、提示制御部４１０は、興味情報生成部４０９から供給される興味情報を取り込んで内部の記憶部に記憶させる。
次に、提示制御部４１０は、その記憶部に記憶された興味情報一覧を読み出し、この興味情報一覧をもとに図５に示した構成の興味情報メニュー８０を生成し、興味情報メニュー８０を表示部４１１に表示させる。

次に、ステップＳ４３の処理によって実行開始され、ステップＳ４４の処理によって実行終了される、キーワード抽出部４０８によるキーワード抽出処理について説明する。このキーワード抽出処理は、言い換えると、キーワード抽出部４０８が、興味区間取得部４０７から興味区間信号の供給を受けている期間中実行する処理である。
キーワード抽出部４０８は、放送データバッファ４０６に記憶された、音声データ、字幕データ、および文字データと、放送データ記憶部４０５に記憶された番組関連データとのいずれかまたは全てから、シーンに関するキーワードを抽出する。

具体的には、例えば、キーワード抽出部４０８は、興味区間信号の供給開始時から供給終了時までに対応する音声データを放送データバッファ４０６から読み込み、この音声データを音声認識処理してテキストデータを取得する。音声認識処理としては、公知の音声認識アルゴリズムを適用する。例えば、キーワード抽出部４０８は、統計的手法に基づく音声認識処理を適用して音声データからテキストデータを抽出する。
また、キーワード抽出部４０８は、放送データバッファ４０６に字幕データが記憶されている場合に、興味区間信号の供給開始時から供給終了時までに対応する字幕データを放送データバッファ４０６から読み込み、この字幕データから字幕の文字に該当するテキストデータを取得する。
また、キーワード抽出部４０８は、放送データバッファ４０６に文字データが記憶されている場合に、興味区間信号の供給開始時から供給終了時までの間に提示対象となる文字データを放送データバッファ４０６から読み込み、この文字データをテキストデータとして取得する。
また、キーワード抽出部４０８は、興味区間信号の供給開始時から供給終了時までの間に視聴された番組の番組情報からテキストデータを取得する。

次に、キーワード抽出部４０８は、上記の処理によって取得したテキストデータについて、例えば形態素解析を行って、一または複数の名詞をキーワードとして抽出する。
次に、キーワード抽出部４０８は、抽出したキーワードと興味区間信号の供給開始時刻および供給終了時刻の時刻情報（興味区間時間情報）とを、興味情報生成部４０９に供給する。

なお、キーワード抽出部４０８は、テキストデータから抽出した名詞の出現頻度に応じて、優先度をキーワードに付してもよい。例えば、キーワード抽出部４０８は、音声データと文字データと番組関連データとからテキストデータを取得した場合に、これらテキストから抽出した複数の名詞について、出現頻度が最も高い名詞を先頭に優先度を一位から順位付ける。

また、キーワード抽出部４０８は、興味区間取得部４０７から興味区間信号の供給を受け始めたときからでなく、その供給開始時点よりも所定時間前からキーワード抽出処理を行ってもよい。ただし、この場合の所定時間は、放送データバッファ４０６に記憶される分の時間よりも短い時間である。このように構成することにより、キーワード抽出部４０８は、興味区間検出装置３０が興味区間を検出した時点よりも前からキーワードを抽出することになる。視聴者は、顔の表情を変える前からコンテンツに対して興味をもち始めている場合があり、このように構成することによって、顔表情の変化を伴わない興味区間のキーワードを抽出することができる。
また、同様に、キーワード抽出部４０８は、興味区間信号の供給停止時点よりも所定時間遅いか早い時点までのキーワードを抽出するようにしてもよい。

以上詳述したように、本実施形態におけるテレビ視聴システム１では、テレビジョン受像機１０は、視聴者が任意に選択したチャンネルの番組のコンテンツを再生する。
また、撮像装置２０は、テレビジョン受像機１０でコンテンツを視聴している視聴者を撮影して撮像データを興味区間検出装置３０に供給する。
また、興味区間検出装置３０は、撮像装置２０から供給される撮像データを取り込み、フレーム画像データに含まれる視聴者顔画像の画像特徴量を抽出する。そして、興味区間検出装置３０は、その画像特徴量を、事前にサポートベクターマシンにより機械学習させた２クラス（“表情あり”および“表情なし”）の識別器により分類して顔表情変化度合を計算する。そして、興味区間検出装置３０は、あらかじめ視聴者向きに調整された顔表情変化度合閾値で顔表情変化度合を判定することにより、コンテンツに対する興味区間を検出する。
つまり、興味区間検出装置３０は、複数の表情有画像データと複数の表情無画像データとをあらかじめ機械学習させて境界面を求めておき、この境界面と視聴者顔画像の特徴量との距離に基づいて視聴者のコンテンツに対する興味の有無を推定する。

また、興味情報提示装置４０は、テレビジョン受像機１０から供給される放送データを取り込み、興味区間検出装置３０が検出した興味区間に対応する放送データの部分からキーワードを抽出する。そして、興味情報提示装置４０は、抽出したキーワードを含めた興味情報を生成し、興味情報メニューを形成して表示する。

このように構成したことにより、本実施形態によれば、コンテンツを視聴する視聴者の顔表情の変化を的確にとらえてコンテンツに対する興味区間を精度よく検出することができる。
また、それに加え、興味区間において、コンテンツを視聴する視聴者が興味をもったキーワードについての情報検索および番組検索（ウェブ検索）、ならびにそのキーワードに対応するシーンの再生を簡単に行うことができる。

なお、興味情報提示装置４０が生成する興味情報メニューは、図５に示した例以外に、例えば、図１４に示すものとしてもよい。同図における興味情報メニュー８０ａにおいて、キーワード欄には、キーワードを含む文章が表記されている。これらの文章は、キーワード抽出部４０８が音声データ、字幕データ等から抽出したテキストデータの文字列である。そして、これら文章は、キーワードに対応する名詞にアンダーラインが付されて表記されている。なお、キーワードを示す表記は、アンダーライン以外にも、例えば、カーソルの色と異なる色でハイライト表示させたり、キーワードをキーワード以外の文字と異なる色で表示させたりしてもよい。

また、テレビジョン受像機１０でコンテンツを視聴している視聴者が、自身の操作によって興味区間を指定するようにしてもよい。これを実現するために、例えば、図１４に示すように、興味情報メニュー８０ａに、興味ありボタン８７と興味なしボタン８８とを設ける。興味ありボタン８７は、視聴者がコンテンツに対する興味をもち始めたときに選択されるＧＵＩボタンである。興味なしボタン８８は、視聴者がコンテンツに対する興味を失い始めたときや失ったとき等に選択されるＧＵＩボタンである。この場合、興味区間取得部４０７は、興味ありボタン８７が選択されてから興味なしボタン８８が選択されるまでの期間において、興味区間信号をキーワード抽出部４０８に供給する。

また、本実施形態は、興味区間検出装置３０が、閾値調整モードに設定されたときに閾値調整処理を行うものとした。これ以外にも、興味区間検出装置３０が、興味区間検出モードに設定されて動作する以前に視聴した番組について測定した顔表情変化度合に基づいて、顔表情変化度合閾値を自動調整するようにしてもよい。このように構成することにより、閾値調整モードは不要となる。
さらに、興味区間検出装置３０は、電子番組情報取得部をさらに設け、この電子番組情報取得部に、電子番組情報を取得させて、この電子番組情報から、視聴番組に対応する属性（例えば、タイトル、ジャンル等）を抽出させ、画像特徴量評価部３０４に、属性ごと（例えば、タイトルごとやジャンルごと）の顔表情変化度合閾値を計算させるようにしてもよい。電子番組情報取得部は、電子番組情報を、テレビジョン受像機１０やネットワーク６０を介した電子番組ガイドサーバ等から取得する。

また、本実施形態では、興味区間検査装置３０の画像特徴量評価部３０４は、視聴者の顔表情の有無を分類するようにした。これ以外にも、画像特徴量評価部３０４は、例えば、怒り、嫌悪、恐怖、喜び、悲しみ、驚き等による顔表情を検出して分類することによって、興味区間を検出するようにしてもよい。これは、上記の様々な顔表情を分類するために、複数のサポートベクターマシンを組み合わせて用いることで実現できる。
複数のサポートベクターマシンを組み合わせて用いることについては、例えば、I. Kotsia, S. Zafeiriou, and I. Pitas: “Texture and shape information fusion for facial expression and facial action unit recognition”, Pattern Recognition, Vol. 41, No. 3, pp. 833-851 (2008)に開示されている。

また、画像特徴量評価部３０４は、視聴者の顔表情の変化と頭部の動きとを併せて解析し、この解析結果に基づいて興味区間を検出するようにしてもよい。
顔表情の変化と頭部の動きとを併せて解析することについては、例えば、Rana EI Kaliouby and Peter Robinson: “Real-Time Inference of Complex Mental States from Facial Expressions and Head Gestures", Real-time Vision for Human-Computer Interaction, pp. 181-200 (Aug. 2005)に開示されている。

また、画像特徴量評価部３０４は、顔表情の他に、身振り、手振り、発話内容等、視聴者自身の表現によって得られる状態変化を特徴量としてとらえ、より高次元なベクトル空間での機械学習を行うようにしてもよい。ここで、身振りの典型例としては、前のめりになって視聴する姿勢（前傾姿勢）であり、手振りの典型例としては、拍手したり指をさしたりといった手の動きである。

また、本実施形態は、カーソル８６が表示された後に、情報検索ボタン８３または番組検索ボタン８４が操作されることによって、提示制御部４１０がウェブブラウザを起動させ、あらかじめ設定された情報検索サイトまたは番組検索サイトのＵＲＬ情報を通信部４１３に供給する例であった。
これ以外にも、例えば、各キーワードに関する詳細情報や番組情報をデータベース化したサーバ（例えば、放送局や放送局以外の事業者が管理するサーバ）のＵＲＬ情報を番組関連データに付加しておき、情報検索ボタン８３または番組検索ボタン８４が操作されることにより、提示制御部４１０が、番組関連データからＵＲＬ情報を読み出してこのＵＲＬ情報を通信部４１３に供給するようにしてもよい。

また、テレビジョン受像機１０に興味情報提示装置４０を組み込んだ構成としてもよい。また、テレビジョン受像機１０に視聴者興味情報提示装置２を組み込んだ構成としてもよいし、さらに撮像装置２０をも組み込んで、視聴者側の装置を一体的に構成してもよい。

また、上述した実施形態における興味区間検出装置３０および興味情報提示装置４０またはいずれかの一部の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、ここでいうコンピュータシステムとは、オペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；ＯＳ）や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワークや、電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１テレビ視聴システム
２視聴者興味情報提示装置
１０テレビジョン受像機
２０撮像装置
３０興味区間検出装置
４０興味情報提示装置
５０サーバ装置
６０ネットワーク
３０１画像データ取得部
３０２顔画像領域抽出部
３０３画像特徴量計算部
３０４画像特徴量評価部
３０５履歴記憶部
３０６視聴者状態検出部
４０１放送データ取得部
４０２データ分離部
４０３記憶制御部
４０４バッファ制御部
４０５放送データ記憶部
４０６放送データバッファ
４０７興味区間取得部
４０８キーワード抽出部
４０９興味情報生成部
４１０提示制御部
４１１表示部
４１２操作受付部
４１３通信部
４１４再生部
４１５音声出力部

Claims

コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、
前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、
前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、
前記画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、
を備えることを特徴とする興味区間検出装置。
前記画像特徴量評価部は、
顔表情有または顔表情無いずれかのラベルが付された教師顔画像を用いてサポートベクターマシンにより前記超平面を得る
ことを特徴とする請求項１記載の興味区間検出装置。
前記画像特徴量評価部は、
所定の視聴期間分の顔表情変化度合を視聴者に対応させて取得し、前記所定の視聴期間分の顔表情変化度合に基づき顔表情変化度合閾値を計算して、前記顔表情変化度合閾値を前記視聴者状態検出部に設定する
ことを特徴とする請求項１または２記載の興味区間検出装置。
外部から電子番組情報を取得する電子番組情報取得部をさらに備え、
前記画像特徴量評価部は、
視聴番組に対応する属性を抽出し、前記属性ごとに、顔表情変化度合を視聴者に対応させて取得する
ことを特徴とする請求項３記載の興味区間検出装置。
コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、
前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、
前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、
画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、
所定時間分のコンテンツデータを記憶可能な放送データバッファと、
前記視聴者が視聴する番組に対応する放送データを多重分離してコンテンツデータを抽出するデータ分離部と、
前記データ分離部が抽出した前記コンテンツデータを前記所定時間分だけ順次更新して前記放送データバッファに記憶させるバッファ制御部と、
前記視聴者状態検出部が検出した前記興味区間において、前記放送データバッファからキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部が抽出した前記キーワードを選択可能に含めた興味情報メニューを生成する提示制御部と、
を備えることを特徴とする視聴者興味情報提示装置。
前記提示制御部は、
ウェブ検索処理を実行させる検索ボタンをも含めて前記興味情報メニューを生成し、前記キーワードおよび前記検索ボタンが選択された場合に、前記キーワードを検索キーとしてウェブ検索を実行させる
ことを特徴とする請求項５記載の視聴者興味情報提示装置。
前記データ分離部が抽出した前記コンテンツデータを記憶する放送データ記憶部と、
再生部と、
を備え、
前記提示制御部は、
シーン再生処理を実行させるシーン再生ボタンをも含めて前記興味情報メニューを生成し、前記キーワードおよび前記シーン再生ボタンが選択された場合に、前記キーワードを含むコンテンツデータを前記放送データ記憶部から読み出し、前記コンテンツデータを前記再生部により再生させる
ことを特徴とする請求項５または６記載の視聴者興味情報提示装置。
コンピュータを、
コンテンツを視聴する視聴者が被写体として映る視聴者映像から、フレームごと、または複数フレームおきにフレーム画像データを取得する画像データ取得部と、
前記画像データ取得部が取得した前記フレーム画像データに含まれる視聴者顔画像に基づいて、画像特徴量を計算する画像特徴量計算部と、
前記画像特徴量の空間における所定の超平面から、前記画像特徴量計算部が計算した前記画像特徴量までの距離である顔表情変化度合を計算する画像特徴量評価部と、
前記画像特徴量評価部が計算した前記顔表情変化度合とあらかじめ設定された顔表情変化度合閾値とに基づき、前記視聴者の前記コンテンツに対する興味の有無を判定して興味区間を検出する視聴者状態検出部と、
として機能させるための興味区間検出プログラム。