JP2006293979A

JP2006293979A - コンテンツ提供システム

Info

Publication number: JP2006293979A
Application number: JP2005297433A
Authority: JP
Inventors: Akira Uchiumi; 章内海; Shinjiro Kawato; 慎二郎川戸; Norifumi Susami; 憲史須佐見; Noriaki Kuwabara; 教彰桑原; Kazuhiro Kuwabara; 和宏桑原
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-18
Filing date: 2005-10-12
Publication date: 2006-10-26

Abstract

【課題】脳障害者などの鑑賞者の興味に応じたコンテンツを重点的に表示させるコンテンツ提供システムを提供する。
【解決手段】この発明のコンテンツ提供システムは、複数の映像コンテンツを有する映像コンテンツ供給装置２０と、この映像コンテンツ供給装置２０から与えられる映像を表示するモニタ１と、人間の顔領域を含む対象画像の画像データを撮影して取得するカメラ１１と、このカメラからの画像データに基づきユーザの動作を検出し、この検出出力に応じてユーザの表示手段への集中度を判定する判定してモニタ１に表示させる映像コンテンツを選択するように制御するコンピュータ１０とを備える。
【選択図】図２

Description

この発明は、コンテンツ提供システムに係り、特に、観察者に興味を抱かせる映像コンテンツを表示装置に提供させるコンテンツ提供システムに関するものである。

認知症や事故などによる脳障害者を介護する介護者を支援する目的で作成される「思い出ビデオ」というコンテンツが存在する。思い出ビデオは脳障害者に対して、ビデオ映像への集中を促し、徘徊などの危険行為を抑制したり、ビデオ映像への集中時間を作り出すことによって、脳障害者の問題行為の抑制のために心理的な安定を引き出したり、介護者の自由時間を確保する目的で提案され、その有効性が臨床の現場で報告されている（例えば、非特許文献１参照）。

認知症や事故などによる脳障害者を介護する介護者にとって、患者がビデオ映像に心を集中し、じっとしている時間が増えれば、負荷が軽減される。しかし、同じコンテンツのビデオ映像を流し続けておくと、脳障害者が、興味を無くして、退屈してしまうという問題がある。そこで、予め複数のコンテンツのビデオ映像を用意しておき、興味を無くして飽きてきたら、コンテンツが異なるビデオ映像に切り替えて、引き続き興味を引きつけ、ビデオ映像を鑑賞する時間を増やすことが考えられる。しかし、脳障害者がコンテンツの異なるビデオ映像に能動的に自分で選んだり、切り替えたりすることは不可能な場合が多い。また、介護者がコンテンツを切り替える場合には、介護者への負担が生じることになる。

また、ある程度時間が経過すると、コンテンツの異なるビデオ映像に自動的に切り替えるように構成することもできる。しかしながら、興味を抱いて鑑賞しているビデオ映像を突然他のビデオ映像に切り替えると、脳障害者等にとって気分を害することになり、かえって逆効果になる。
安田清ほか：認知症者への思い出ビデオの作成と集中度の評価、第２８回高次脳機能障害学会総会（２００４）

表示されているビデオ映像に鑑賞者が興味を持っているか否かを判断し、この判断結果に応じて、コンテンツ映像を切り替える制御を行なえばより長く鑑賞者を楽しませることができる。鑑賞者が、興味を抱いているか否かの検出は、例えば、鑑賞者に装着した脈拍形、血圧計、脳波計などの生理情報検出装置を用いて行うことができる。しかし、脳障害者は、装着型の機器は好まなく、すぐ外してしまう傾向がある。

そこで、この発明は、脳障害者などの鑑賞者に、計測機器を装着せずに、鑑賞者の集中度を測定し、測定した結果に応じて、鑑賞者の興味に応じたコンテンツ切り替えを行い鑑賞者が興味を持つコンテンツを重点的に表示させるコンテンツ提供システムを提供することを目的とするものである。

この発明のコンテンツ提供システムは、複数の映像コンテンツを有する映像供給手段と、この映像供給手段から与えられる映像を表示する表示手段と、ユーザの顔領域を含む対象画像の画像データを撮影して取得する撮影手段と、この撮影手段からの画像データに基づきユーザの動作を検出する検出手段と、この検出手段の出力に応じてユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に表示させる映像コンテンツを選択することを特徴とする。

前記検出手段は、ユーザの顔の向きを検出し、前記判定手段は、前記検出手段で検出した顔の向きが正面以外に向いている時間を計測し、その計測結果に応じて集中度を判定するように構成できる。

また、前記映像供給手段は、複数の映像コンテンツを格納する記憶手段を備え、前記判定手段に応じて前記記憶手段から映像コンテンツを読み出すように構成することができる。

また、前記判定手段として、ユーザのフレーム間差分による動作量を計測して集中度を判断するように構成しても良い。

また、この発明のコンテンツ提供システムは、複数の映像コンテンツを有する映像供給手段と、この映像供給手段から与えられる映像を表示する表示手段と、ユーザの発話・動作音を集音するマイクと、このマイクからの音声データに基づきユーザの発話・動作音を検出する検出手段と、この検出手段の出力に応じてユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に表示させる映像コンテンツを選択することを特徴とする。

また、この発明のコンテンツ提供システムは、少なくとも音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる音情報を出力する情報出力手段と、この情報出力手段からの音を聴取するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる音情報から拍子を検出する拍子検出手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記拍子検出手段からの出力と前記体動検出手段との出力に基づきユーザの体動が拍子と同期しているか否か判断してユーザの音情報への集中度を判定する判定手段と、この判定手段に応じて前記情報出力手段に提供させる映像コンテンツを選択することを特徴とする。

前記体動検出手段は、前記撮影手段から得られる画像データをフレーム間差分し、得られる動領域の画素数を演算する手段と、前記動領域の画素数の変動を監視する変動監視手段と、を備えるように構成することができる。

また、前記変動監視手段は、画素数が立ち下がり、画素数が０付近になる時を監視し、前記体動検出手段は０付近になった時に拍子動作として検出するように構成すればよい。

また、前記拍子検出手段は、音情報を複数の周波数帯毎にパワーを算出し、各周波数帯毎にパワーの変動の概形を抽出し、複数の周波数帯で連動して観測される概形の立ち上がりを拍子として検出するように構成すれば良い。

また、この発明のコンテンツ提供システムは、映像と音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる映像を表示する表示手段と、前記コンテンツ供給手段から与えられる音情報を出力するスピーカと、前記表示手段又はスピーカからの音声を視聴するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる映像情報又は音情報からユーザに対する指示内容を検出するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザの表示手段または音情報への集中度を判定する判定手段と、この判定手段に応じて前記表示手段及びスピーカに提供させる映像コンテンツを選択することを特徴とする。

更に、前記コンテンツ供給手段は、更に映像情報を含み、前記情報出力手段は、前記コンテンツ供給手段から与えられる映像情報を出力する表示手段を更に備え、前記判定手段は、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザのコンテンツへの集中度を判定することを特徴とする。

また、この発明のコンテンツ提供システムは、少なくとも映像コンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる映像を表示する表示手段と、ユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる映像情報からユーザに対する指示内容を検出するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に提供させる映像コンテンツを選択することを特徴とする。

また、この発明のコンテンツ提供システムは、映像と音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる映像を表示する表示手段と、前記コンテンツ供給手段から与えられる音情報を出力するスピーカと、前記表示手段又はスピーカからの音声を視聴するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる映像情報の内容を解析するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動がコンテンツの内容に同調しているか否か判断してユーザの表示手段または音情報への集中度を判定する判定手段と、この判定手段に応じて前記表示手段及びスピーカに提供させる映像コンテンツを選択することを特徴とする。

この発明によれば、鑑賞者が興味を無くして飽きてきたら、コンテンツが異なるビデオ映像または音楽などに切り替えて、引き続き興味を引きつけることができるので、ビデオ映像または音楽などを鑑賞する時間を増やすことができる。また、興味を抱いて鑑賞しているビデオ映像または音楽などを突然他のビデオ映像または音楽などに切り替えることもなくなり、脳障害者等のユーザの気分を害する虞もない。

この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、説明の重複を避けるためにその説明は繰返さない。

図１はこの発明の実施形態にかかるコンテンツ提供システムの構成を示す概略図、図２は、この発明の実施形態にかかるコンテンツ提供システムの構成を示すブロック図、図３は、この発明のコンテンツ提供システムにおけるコンピュータ１０の構成を中心にしたブロック図である。

図１に示すこの発明のコンテンツ提供システムは、パーソナルコンピュータ、ワークステーションのようなコンピュータ１０を含み、ＣＲＴ、液晶表示装置、プラズマディスプレイ装置、プロジェクタなどのモニタ１に表示させる映像のコンテンツを切り替えるものである。

この図１に示すように、椅子２に腰掛けたユーザ３の集中度を非接触で検出し、その検出結果に応じてコンピュータ１０が、映像コンテンツ供給装置２０を構成する映像再生装置２１〜２４を選択して、ユーザが興味を示している映像を表示させる。この実施形態では、ユーザの集中度を検出するために、ユーザ１を撮像するビデオカメラ１１が設けられ、このビデオカメラ１１で撮像した映像をコンピュータ１０に取り込み、コンピュータ１０が非接触顔追跡手法を利用し、顔の向きの変化によってモニタ１に表示されている映像のコンテンツに対するユーザの興味を判断するものである。そして、この判断結果に応じて映像コンテンツが切り替えられる。すなわち、映像再生装置２１〜２４の信号を切り替えてモニタ１に与えるものである。また、マイクからの集音やビデオカメラ１１から得られる画像により、ユーザの集中度を判断するように適用しても良い。

図２はかかる映像システムの構成を示すブロック図である。図２に示すように、この映像システムは、上述したように、モニタ１、コンピュータ１０、コンピュータ１０により制御される映像コンテンツ供給装置２０と、映像コンテンツ供給装置２０から与えられる映像信号の中から所定のコンテンツにかかる映像を選択して供給するコンテンツ切替装置３０と、ユーザを撮像するビデオカメラ１１と、ユーザの声などを集音するマイク１２と、を備える。ビデオカメラから出力される画像データは、コンピュータ１０へ与えられる。また、マイク１２にて集音されたユーザが存在する場ないし空間の音、音声又は動作音に対応する音声信号（音声データ）がコンピュータ１０へ与えられる。

映像コンテンツ供給装置２０には、この実施形態では、４つの映像再生装置２１〜２４を備え、各映像再生装置２１〜２４には、それぞれ異なるコンテンツの映像及び／または音楽などの音情報が再生できるように構成されている。この映像再生装置２１から２４は、ＤＶＤやビデオテープなどの映像メディア媒体を再生するものである。例えば、映像再生装置２１には、思い出ビデオの内容のコンテンツの映像媒体が装填され、映像再生装置２２には、相撲などのスポーツの内容のコンテンツの映像媒体が装填され、映像再生装置２３には、ニュースなどの内容のコンテンツの映像媒体が装填され、映像再生装置２４には、自然番組などの内容のコンテンツの映像媒体が装填される。これら映像再生装置２１〜２４は、コンピュータ２４の制御に基づき、オン／オフ、再生、停止等の動作が制御される。そして、これら映像再生装置２１〜２４の映像信号はコンテンツ映像切替装置３０に与えられ、このコンテンツ映像切替装置３０は、コンピュータ２４からの制御信号に基づき、映像再生装置２１〜２４からの映像信号を切り替え、そして選択した映像信号をモニタ１に与える。

また、コンピュータ１０は、モニタ１のオン／オフ制御並びにモニタに内蔵されたスピーカの音量、スピーカに与える音楽情報などの音声信号を供給する。

図３は、この発明のコンテンツ提供システムにおけるコンピュータ１０の構成を中心にしたブロック図である。この発明では、コンピュータ１０により、ユーザのモニタ１への集中度の判定、この判定に基づく映像コンテンツの切替を制御するものである。このシステムを構成するコンピュータ１０は、それぞれバス１１０に接続されたＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、起動用プログラムが格納されたＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２、ワークメモリなどとして用いられるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、ハードディスクドライブ１０４を備える。

更に、このコンピュータ１０は、ビデオカメラ１１からの画像を取り込むための画像取り込み装置１０５、マイク１２からの音声データを取り込むための音声取り込み装置１０６を備え、これら画像取り込み装置１０５、音声取り込み装置１０６がバス１１０と接続されている。更に、フロッピィディスク（ＦＤ）が装填され、データの読み取り／書き込みを行うフロッピィディスクドライブ（ＦＤＤ）装置１０７、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の光ディスク装填され、光ディスクに格納されたソフトウェアなどのデータを読み込む光ディスクドライブ装置１０８を備え、これら両ドライブ１０７、１０８からのデータはバス１１０を介してハードディスクドライブ１０４などに与えられる。ＣＰＵ１０１からの制御信号は、インタフェース回路１０９を介して映像コンテンツ供給装置２０、コンテンツ切替装置３０及びモニタ１に与えられる。

このコンテンツ提供システムの動作は、コンピュータ１０のハードウェアとＣＰＵ１０１により実行されるソフトウェアとにより実現される。一般的にこのようなソフトウェアは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＦＤ等の記憶媒体に格納されて流通し、光ディスクドライブ１０８、ＦＤＤ１０７等により、記憶媒体から読み取られ、ハードディスクドライブ１０４にそのソフトウェアが格納される。また、当該装置がネットワークに接続されている場合には、サーバからハードディスクドライブ１０４にソフトウェアが格納される。そして、ハードディスクドライブ１０４からＲＡＭ１０３に読み出されＣＰＵ１０１により実行される。

また、ビデオカメラ１１からの画像データは画像取り込み装置１０５、バス１１０を経てＲＡＭ１０３及びハードディスクドライブ１０４に与えられる。また、マイク１２からの音声データも同様に音声取り込み装置１０６、バス１１０を経てＲＡＭ１０３及びハードディスクドライブ１０４に与えられる。

次に、この発明のコンテンツ提供システムにおけるユーザの集中度を検出する方法につき説明する。

人間の視覚システムは、日常生活において常に重要であり、コミュニケーション上でも重要な役割を果たしている。従って、注視はユーザの集中度を推定する為の強力な手掛かりとなる。ユーザの集中度を観察する場合に、ユーザの顔方向を検出することで集中度を推定できる。厳密に言えば、眼球の情報が含まれないので、顔方向は事物に対する注視とは異なっている。しかし、ほとんどの場合、視覚的注意が失われる際には頭部の動きを伴う。従って、顔方向はユーザの集中度を推定する為に利用できる。

ユーザの集中度を推定する他の手段としては、体の動きがある。特に、表示されるコンテンツの視覚による或いは音による信号への同期動作は、コンテンツに対するユーザの集中を表わしているはずである。従って、音楽番組などに同調して拍子を取る動作を抽出すれば、ユーザの集中度を推定できる。

検出された集中度は、ユーザに提示されるオーディオコンテンツやビデオコンテンツを制御するために利用できる。例えば、モニタ（テレビ）を見たり、体で拍子を取る等の肯定的反応は、コンテンツ提供システムにそのコンテンツをもっと長い間提示させる為の基準として利用できる。対照的に、モニタ（テレビ）から顔をそむける等の否定的行動は、コンテンツ提供システムにコンテンツを切換えさせる為のきっかけとして利用出来る。

この発明には、上記した顔方向や体の動き等を検出してユーザの集中度を検出して、コンテンツの切り替えを制御するものである。まず、ユーザの顔方向を検出してユーザの集中度を検出する方法につき説明する。

この発明の映像システムは、ビデオカメラ１１によりユーザ２の顔を撮像してるか否か判定し、撮像しているならその位置と向きを抽出して追跡を行う。そのため、ビデオカメラ１１で撮像し、その画像取込み装置１０５から与えられる画像データをＣＰＵ１０１が判定する。この実施形態では、ＣＰＵ１０１は、顔の検出に２段階のステップを踏む。まず、ビデオカメラ１１より得た画像データより、粗く顔の候補点を拾い出し、絞った候補点に対して精度の高い顔らしさの判定を実施する。顔らしさの判定のプロセスで目の位置を抽出し、両目の位置に基づいて鼻位置を抽出する。顔の向きは目と鼻の相対位置関係から推定する。顔の追跡は、両目の中点パターンを毎フレーム更新しながらテンプレートマッチングで追跡する。

顔候補点の抽出につき説明する。顔候補点の抽出プロセスでは、まず、図４に示すように、６つのセグメントに分割した一定サイズの矩形枠で全画面を走査する。セグメントＳｉの領域の平均濃度を［Ｓｉ］で表す。左右の目や眉がそれぞれＳ１とＳ３に入った場合の顔の一般的な濃淡パターンから、次の（１）（２）式で示す不等式が成立すると期待できる。

［Ｓ１］＜［Ｓ２］且つ［Ｓ１］＜［Ｓ４］ …（１）
［Ｓ３］＜［Ｓ２］且つ［Ｓ３］＜［Ｓ６］ …（２）
そこで、不等式（１）（２）が同時に満たされる枠は顔候補とする。このようなフィルタを、ここでは６分割矩形（ＳＳＲ：Ｓｉｘ−ＳｅｇｍｅｎｔｅｄＲｅｃｔａｎｇｕｌａｒ）フィルタと呼ぶことにする。

ＳＳＲフィルタを高速で計算するために、中間画像としてｉｎｔｅｇｒａｌｉｍａｇｅを利用する。画像ｆ（ｘ、ｙ）に対してｉｎｔｅｇｒａｌｉｍａｇｅ（ｉｉ）は次の式（３）のように定義される。

このｉｎｔｅｇｒａｌｉｍａｇｅを次のように、ワンパスで計算することができる。

ここで、Ｓ（ｘ，ｙ）は行の累積値で、ｓ（−１，ｙ）＝０，ｉｉ（ｘ．−１）＝０とする。

ｉｎｔｅｇｒａｌｉｍａｇｅを利用すると、任意の矩形領域Ｄの画素値の総和はそのコーナーの座標を（ｘ１，ｙ１）、（ｘ２，ｙ１）、（ｘ１，ｙ２）、（ｘ２，ｙ２）とすると、その４点の値から次のように計算できる。

したがって、ＳＳＲフィルタ計算は、フィルタの大きさによらず一定時間で処理できる。

顔の大きさは予め知ることはできないので、例えば、入力画像３２０×２４０に対して、１２０×７２、８０×４８、６０×３６、４０×２４、３０×１８の５種類のフィるを適用する。

この実施形態で使用したＳＳＲフィるのセグメントの比は図４の記号でｗ１＝４、ｗ２＝２、ｈ１＝ｈ２＝３である。

現実には不等式（１）（２）を満たす点は塊で現れるので、そのクラスターの中心を１つの顔候補とする。

背景の中の顔の写真などを顔候補として抽出しないように、背景差分を利用して、顔候補領域に動きが生じていることを確認することにしている。

次に、顔、非顔の判定を行う。候補点が顔か非顔かの判定には、機械学習アルゴリズムの１つであるＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）を適用した。ヘアスタイルや髭などの影響を小さくするため、ＳＶＭの学習パターンには、額や口の領域を含めないことにした。図５に典型的な学習パターンの一例を示す。パターンの大きさは３５×２１である。スケールと回転は目の座標によって正規化する。この例では、両目間の距離は２３画素で、目は上から８画素目の列に水平に並んでいる。そしてヒストグラム平坦化の処理で濃度も正規化されている。

候補点をＳＶＭにインプットする前に、そのパターンは学習パターンと同じように正規化する必要がある。そこで、ＳＳＲフィルタの（Ｓ１＋Ｓ４）と（Ｓ３＋Ｓ６）の各領域で最も暗い点と２番目に暗い点を目の候補として抽出する。ＳＳＲフィルタで抽出された１つの顔候補に対して最大４つのパターンがＳＶＭで確かめられることになる。２番目に暗い点までの目の候補とするのは、眉が目より暗い撮像されるケースが少なくないからである。

ＳＶＭによる顔・非顔判定プロセスで目の位置も抽出される。目の追跡処理で問題になるのは、瞬きによって目の形状パターンが瞬間的に大きく変化することである。そのため、目のテンプレートを毎フレーム更新しても追従することができない。そこで、この実施形態では、目に代わって眉間を追跡し、その結果を基に目を再度検出する手順を採用している。眉間のパターンは顔表情が変化してもかなり安定しており、また額部と鼻筋は比較的明るく、両側の目部分が楔状に暗いパターンとなっているため位置決めしやすい。眉間追跡後、目はその両サイドに、前フレームと相対的に同じ位置に暗い領域として再探索される。追跡結果は、ＳＶＭによって顔らしさを確認する。

眉間のパターンは毎フレーム更新することにより、顔の向きの変化に対応する。顔の見かけの大きさの変化に対応するため、サブサンプリングによる２／３、１／２、１／３、１／４、１／６の一連の縮小画像を用意して、両目間の距離に応じて、追跡用の縮小画像が決定される。その結果、顔の見かけの大きさが大きく変化しても追跡用のテンプレートのサイズは固定サイズで対応できる。

次に、鼻頭の検出と追跡につき説明する。両目の位置が見つけ出されると、鼻頭を抽出するのは難しくはない。鼻頭は凸形状で皮膚の皺も少ない。従って、照明の方向が異なっても、鼻頭のどこかにハイライトが生じる。図６は目に対して相対的な鼻頭の探索領域を示している。この領域内の最も明るい点が鼻頭候補である。そして、その点が両目から等距離になったならば鼻頭として追跡を開始する。鼻頭の追跡においても、更新型テンプレートのサイズは固定サイズで対応できる。追跡の結果が、図６の領域からはずれた場合には誤追跡として判断し、再度検出処理から始める。

次に、顔の向きの推定処理につき説明する。精度の高い顔の向きの推定には、顔の特徴点の三次元位置を計測するステレオシステムが必要であるが、ここでは、対象者が正面を向いているか否かの判定を行うため、シングルカメラの方法を採用している。

一般に、正面顔の画像では左右の目から鼻頭までの距離はほぼ等しい。そこで、図７に示すように、両目を結ぶラインに鼻頭から垂線を下ろし、その垂線の足が両目の中点からどれくらい離れているかによって、正面を向いているか横方向を向いているかを判定する。高精度は期待できないが、シングルカメラの場合、ロングショットの画像にも適用できる利点がある。

両目と鼻頭の座標を（ｘ１，ｙ１）、（ｘ２，ｙ２）、（ｘ３．ｙ３）とし、ｘ２−ｘ１＝ｘ２１，ｙ２−ｙ１＝ｙ２１とすると、垂線の足の座標は次の式のようになる。

上記の式によれば、ｒの符号は顔が左右のどちらを向いているかを表し、絶対値はその度合いを表す。

また、同様にして、顔が下へ向いているか上へ向いているかは、両目を結ぶラインに鼻頭から垂線を下ろし、その垂線の距離を測定することで、判定できる。垂線の距離が正面でモニタ１を注視している状態より小さくなれば、顔が下または上を向いていると判断でき、更に鼻頭の輝度により、下を向いているか、上を向いているか判断できる。上を向くと鼻頭は明るくなり、下を向くと鼻頭は暗くなる。

この発明の第１の実施形態は、ユーザの顔の向きをＣＰＵ１０１が判断し、その結果により、ユーザがモニタ１に表示されている映像のコンテンツに興味を抱いて集中しているか否か判断するものである。ビデオカメラ１１から取り込んだユーザの顔の画像から上記した手法により、顔の方向を判断する。ユーザは興味あるコンテンツの映像がモニタ１に表示されていると、ユーザはモニタ１を注視しているので、顔の向きが正面を向いている。逆に興味が無い場合には、ユーザはモニタ１以外を見るようになる。このため、顔の向きが正面の向きから横または下もしくは上を向くようになる。この第１の実施形態では、ユーザの顔の向きを判断し、所定時間内にモニタ１を見ていない割合を判定し、所定の割合を超えると、ユーザがモニタ１に表示されているコンテンツの映像に興味がないと判断する。そして、映像コンテンツ供給装置２０に準備されている他の映像コンテンツに切替えて、その切り替えた映像をモニタ１に表示させる。モニタ１に表示される映像が切り替えられることにより、ユーザは再び興味を示し、モニタ１を見て映像を楽しむことができる。

上記したこの第１の実施形態の制御につき図８、図９のフローチャートに従い説明する。モニタ１にあるコンテンツの映像を表示させる。この表示させるコンテンツの映像は、ユーザが過去に一番興味を抱いていたと思われるものを表示する。この例では、映像再生装置２１には、思い出ビデオの内容のコンテンツの映像媒体が装填され、映像再生装置２２には、相撲などのスポーツの内容のコンテンツの映像媒体が装填され、映像再生装置２３には、ニュースなどの内容のコンテンツの映像媒体が装填され、映像再生装置２４には、自然番組などの内容のコンテンツの映像媒体が装填されている。まず、コンピュータ１０は、思い出ビデオを選択し、映像再生装置２１からの映像をモニタ１に表示させるように、映像コンテンツ供給装置２０、コンテンツ切替装置３０を制御し、映像再生装置２１で再生されている映像をモニタ１に表示させる。そして、コンピュータ１０は、ユーザの顔の向きを上記した手法により検出する（ステップＳ１）。続いて、モニタ１に表示されているコンテンツが終了したか否か判断される（ステップＳ２）。コンピュータ１０は、映像コンテンツ供給装置２０の各映像再生装置２１から２４を各種動作を制御可能に構成されており、コンテンツが終了したか否かは容易に把握できる。

コンテンツが終了していない場合には、続いて、集中度判定のルーチンに入る（ステップＳ３）。コンテンツが終了している場合には、ステップＳ５に進み、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替える。

集中度判定のルーチンに入ると（ステップＳ３）、過去Ｔ秒間以内にユーザがモニタ１を見ていなかった割合γを算出する。この算出は、例えば、Ｔ秒間を１０秒間とすると、１０秒間の間でステップＳ１において、検出した顔の向きが正面以外の場合の時間を計測しておき、その累積時間を基準である１０秒間で除した割合で算出する。このため、コンピュータ１０は、Ｔ時間（１０秒間）の間の顔の向きの時間を計測し、ＲＡＭ１０２に格納している。

続いて、割合γが閾値を超えたか否か判断する（ステップＳ３２）。ここでは、０．５、すなわち、半分の時間以上顔が正面を向いていないか否か判断される。閾値以下の場合には集中していると判断する。閾値を超える場合には、直ちに集中していないと判断するのではなく、ステップＳ３３に進む。ステップＳ３３では、直前のコンテンツ切り替えから所定時間（Ｎ秒）経過したか否か判断する。これはコンテンツが切り替わった直後は、モニタ１を正視していない場合があり、直ちに集中して以内と判断すると、頻繁にコンテンツを切り替えることになる。また、興味があるコンテンツでも切り替えられることになる。このため、この実施形態では、一定時間、例えば３０秒間経過した後も閾値を超える場合には集中していないと判断するように構成している。直前のコンテンツの切り替えから３０秒経過しても、半分の時間以上顔が正面を向いていない場合には集中していないと判断する。なお、このコンテンツ切替直後の集中していないと判断するための待機時間はこの例では３０秒間にしたが、ユーザの状態などでその時間を決めればよい。

集中度判定ルーチン（ステップＳ３）において判断された集中度により、ステップＳ４において、ユーザが集中しているか否か判断する。集中している場合には、ステップＳ１に戻り、前述の動作を繰り返す。集中していないと判断されると、ステップＳ５において、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替え、ステップＳ１に戻り、前述の動作を繰り返す。このとき、必要に応じて、今回切り替えることになったコンテンツの映像を表示していた時間を計測しておき、その時間をハードディスクドライブ１０４等に記憶させておくように構成しても良い。このように構成すると、表示された色々なコンテンツの中でのユーザが集中していた時間を取得することができる。この取得した時間に基づき、次回以降興味を持っていたと思われるコンテンツを優先的に表示させるように映像コンテンツ供給装置２０を制御することができる。

上記のように構成することで、ユーザ３が興味を無くして飽きてきたら、コンテンツが異なるビデオ映像に切り替えて、引き続き興味を引きつけ、ビデオ映像を鑑賞する時間を増やすことができる。また、興味を抱いて鑑賞しているビデオ映像を突然他のビデオ映像に切り替えることもなくなり、脳障害者等のユーザの気分を害する虞もない。

なお、上述した実施形態においては、４つの映像表示装置２１から２４で異なるコンテンツの映像を再生するように構成しているが、ハードディスクドライブを内蔵した映像再生装置などを用いて、複数のコンテンツをハードディスクドライブに格納しておき、格納されたデータの読み出しを制御して、コンテンツ映像を切り替えるように構成しても良い。このように構成すると、上記した映像コンテンツ供給装置２０とコンテンツ切替装置３０とが一体に構成され、読み出し制御でコンテンツ映像の選択、切り替えが行える。

更に、モニタ１に表示させるコンテンツとしては、記録した映像コンテンツに限らず、テレビ電話、テレビ放送などのライブ映像、ＣＧなどのコンピュータグラフィックなどを映像コンテンツの一つとして用い、これらコンテンツを選択し、切り替えるように構成しても良い。

上記した実施形態においては、ユーザの集中度を顔の向きで判定しているが、ユーザが発する声、手拍子などの動作音でユーザの集中度を判断するように構成することもできる。図１０、図１１にユーザの発話・動作音を用いてこの発明を実施した形態のフローチャートを示す。この実施形態は、ユーザがコンテンツ映像を視聴している時、ユーザの好む歌のコンテンツなどにおいては、コンテンツの音声に合わせて歌を歌ったり、手拍子などを取ることもある。このような状態を判断して、集中度を測定し、コンテンツ切替の判断を行うものである。

この表示させるコンテンツの映像は、ユーザが過去に一番興味を抱いていたと思われるものを表示する。この例では、映像再生装置２１には、思い出ビデオの内容のコンテンツの映像媒体が装填され、映像再生装置２２には、懐メロなどの音楽の内容のコンテンツの映像媒体が装填され、映像再生装置２３には、ニュースなどの内容のコンテンツの映像媒体が装填され、映像再生装置２４には、自然番組などの内容のコンテンツの映像媒体が装填されている。

まず、コンピュータ１０は、懐メロなどの音楽のビデオを選択し、映像再生装置２２からの映像をモニタ１に表示させるように、映像コンテンツ供給装置２０、コンテンツ切替装置３０を制御し、映像再生装置２２で再生されている映像をモニタ１に表示させるとともに、モニタ１に内蔵されたスピーカより音楽情報などの音情報を出力する。そして、コンピュータ１０は、ユーザの発話・動作音を計測する（ステップＳ１１）。計測はマイク１２で集音された音声データに基づき、ユーザが発生している音声並びに手拍子などの音を検出する。続いて、モニタ１に表示されているコンテンツが終了したか否か判断される（ステップＳ１２）。コンピュータ１０は、映像コンテンツ供給装置２０の各映像再生装置２１から２４を各種動作を制御可能に構成されており、コンテンツが終了したか否かは容易に把握できる。

コンテンツが終了していない場合には、続いて、集中度判定のルーチンに入る（ステップＳ１３）。コンテンツが終了している場合には、ステップＳ１５に進み、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替える。

ステップＳ１３にて、集中度判定のルーチンに入ると、ステップＳ１３１において、過去Ｔ秒間以内にユーザがコンテンツの音声信号と同期した発話・動作音が計測されていた割合γを算出する。この算出は、例えば、Ｔ秒間を１０秒間とすると、１０秒間の間でステップＳ１１において、検出した発話・動作音の時間を計測しておき、その累積時間を基準である１０秒間で除した割合で算出する。このため、コンピュータ１０は、Ｔ時間（１０秒間）の間の発話・動作音の時間を計測し、ＲＡＭ１０２に格納している。

続いて、割合γが閾値を超えたか否か判断する（ステップＳ１３２）。ここでは、０．５、すなわち、半分の時間以上発話・動作音があるか否か判断される。閾値以上の場合には集中していると判断する。閾値を下回る場合には、直ちに集中していないと判断するのではなく、ステップＳ１３３に進む。ステップＳ１３３では、直前のコンテンツ切り替えから所定時間（Ｎ秒）経過したか否か判断する。これはコンテンツが切り替わった直後は、モニタ１等を視聴していない場合があり、直ちに集中して以内と判断すると、頻繁にコンテンツを切り替えることになる。また、興味があるコンテンツでも切り替えられることになる。このため、この実施形態では、一定時間、例えば３０秒間経過した後も閾値を下回る場合には集中していないと判断するように構成している。直前のコンテンツの切り替えから３０秒経過しても、半分の時間以上発話・動作音がない場合には集中していないと判断する。なお、このコンテンツ切替直後の集中していないと判断するための待機時間はこの例では３０秒間にしたが、ユーザの状態などでその時間を決めればよい。

集中度判定ルーチン（ステップＳ１３）において判断された集中度により、ステップＳ１４において、ユーザが集中しているか否か判断する。集中している場合には、ステップＳ１１に戻り、前述の動作を繰り返す。集中していないと判断されると、ステップＳ１５において、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替え、ステップＳ１１に戻り、前述の動作を繰り返す。このとき、必要に応じて、今回切り替えることになったコンテンツの映像を表示していた時間を計測しておき、その時間をハードディスクドライブ１０４等に記憶させておくように構成しても良い。

上記した実施形態においては、マイク１１から入力された音声信号により、ユーザの発話・手拍子等の動作音を検出してユーザの集中度を判定するように構成した。

ユーザがコンテンツ映像並びにそれとともに音声情報を視聴している時、ユーザの好む歌のコンテンツなどにおいては、コンテンツの音声に合わせて体を揺らしたりすることがある。次に示すこの発明の第２の実施形態は、コンテンツの音楽情報などの音情報とビデオカメラから得られるユーザのとる体動の情報に基づき、ユーザのコンテンツへの集中度を測定するものである。

図１２は、この発明の第３の実施形態にかかるコンテンツ提供システムの構成を示すブロック図、図１３は、この発明の第３の実施形態にかかる映像システムの機能構成を示すブロック図である。

図２に示す第１の実施形態のコンテンツ提供システムと図１２に示す第３の実施形態とは、基本的には同じ構成であるが、図１２に示す第３の実施形態においては、コンテンツの音楽情報等との同期を判断するために、表示装置１に与える映像信号、音楽信号、音声信号をコンピュータ１０にも与えるように構成している点が相違する。

図１２に示すように、この第３の実施形態のコンテンツ提供システムは、モニタ１、コンピュータ１０、コンピュータ１０により制御される映像コンテンツ供給装置２０と、映像コンテンツ供給装置２０から与えられる映像信号の中から所定のコンテンツにかかる映像を選択して供給するコンテンツ切替装置３０と、ユーザを撮像するビデオカメラ１１と、ユーザの声などを集音するマイク１２と、を備える。

映像コンテンツ供給装置２０には、この実施形態では、４つの映像再生装置２１〜２４を備え、各映像再生装置２１〜２４には、それぞれ異なるコンテンツの映像が再生できるように構成されている。これら映像再生装置２１〜２４は、コンピュータ２４の制御に基づき、オン／オフ、再生、停止等の動作が制御される。そして、これら映像再生装置２１〜２４の映像信号等はコンテンツ映像切替装置３０に与えられ、このコンテンツ映像切替装置３０は、コンピュータ２４からの制御信号に基づき、映像再生装置２１〜２４からの映像信号等を切り替え、そして選択した映像信号等をモニタ１に与えるとともに、選択された映像信号等がコンピュータ１０に与えられる。

コンピュータ１０のハードウェアの構成は、図３に示すように構成されるが、図１３においては、この実施形態の理解を容易にするために、ソフトウェアによりコンピュータ１０が動作する機能をブロックとして表現している。

図１３に示すように、コンピュータ１０に与えられる映像信号、音楽信号、音声信号は、コンテンツ解析部１２０に与えられる。このコンテンツ解析部１２０は、与えられた各信号に基づき、拍子（ビート）、指示、動作などのコンテンツ内容を解析し、その解析結果を同期（類似）判定部１４０に与えるものである。拍子（ビート）の解析は、例えば与えられた音楽信号、音声信号を周波数分析して解析する。また、コンテンツ映像における動作や指示などの解析は、フレーム間差分などによる動領域の画素数を算出するなどして解析する。

センサ感知部１３０は、ビデオカメラ１２から撮像されたユーザの映像、マイク１１から集音されたユーザの音声等を入力し、ユーザの手拍子、足拍子などの体動、ユーザの手振り動作、音声によるユーザの拍子などを算出し、その結果を同期（類似）判定部１４０に与える。

ビデオカメラ１２から撮像されたユーザを含む画素列から手拍子、足拍子などの動作を検出する動作を説明する。

手拍子、足拍子などのユーザの体動は、フレーム間差分により得られる動領域の画素数（面積）Ｎを下記（９）（１０）式に従い計算により求める。

ここで、Ｃi,tは、時間ｔにおいて撮像された映像の、i番目の画素の色ベクトルを表わす。この方法は単純だが、動領域の経時的パターンを抽出するには有効である。

そして、拍子を取る動作（ｂｅａｔ：ビート）は、動作領域画素数の変動を下記の（１１）に示す条件で監視し、図１４に示すように、Ｎが立ち下がって「０」付近、この実施形態では「０」となった点として検出される。

このようにして、時系列的にビデオカメラ１１で撮像したユーザの映像から拍子を取る動作（ビート）を検出して、同期（類似）判定部１４０に与える。そして、同期（類似）判定部１４０は、音楽とユーザの体動のリズム（ビート）同期を判定するものである。

次に、コンテンツ供給装置２０から与えられる音楽情報、音声信号からコンテンツ解析部１２０にて拍子（ビート）を検出する処理について説明する。

拍子（ビート）は、人間が音楽を認識する最も基本的な特徴である。従って、拍子（ビート）と、音楽を聴いている人間の行動との間には重要な関係がある考えられる。提供されているコンテンツの音楽リズムの特徴に対して、ユーザが好むコンテンツなどにおいては、ユーザが手拍子などで同調する。

そこで、上記したユーザの体動との関係を同期（類似）判定部１４０で判定するために、拍子（ビート）の追跡を行う。拍子（ビート）の追跡は、色々な手法があるが、この実施形態においては、周波数分析に基づいて、幾つかの異なる周波数からなるひと組の信号出力バンクに基づく拍子（ビート）構造の検出を行った。

図１５は、ポピュラー音楽の入力音楽（音声）信号の周波数特性を示す特性図、図１６は図１５の信号を周波数毎に抽出した特性図である。この図において、横軸は時間軸を示し、この実施形態においては、体動との同期を判定するため、フレーム単位を時間軸としている。尚、この実施形態においては、１フレームは３３ｍｓｅｃである。

図１５に示す入力音楽（音声）信号が、周波数分析器に与えられ、周波数分析器で高速フーリエ変換（ＦＦＴ）を行い、個々のフィルタ・バンクに分離する。この実施形態においては、保護周波数は、０−２５０Ｈｚ、２５０−５００Ｈｚ、５００−１ｋＨｚ、１−２ｋＨｚ及び２−４ｋＨｚである。図１５に示す入力音楽（音声）信号が、図１６に示すように、各周波数毎にパワーを算出して、抽出される。

各バンクについて、出力変化を試験し、包路信号を発生させて、差分演算を使った上昇点としてビート構造を抽出する。そして、各周波数毎にパワーの変動の概形（エンベロープ）を抽出する。そして、複数の周波数帯で連動して、周期的に観測されるエンベロープの立ち上がりを拍子（ビート）として検出する。

コンテンツ解析部１２０からコンテンツの音楽に基づいて検出された拍子（ビート）情報とセンサ感知部１３０で検出したユーザの体動情報が同期（類似）判定部１４０に与えられる。同期（類似）判定部１４０では、それぞれ得られた拍子（ビート）と体動とが同期しているか検出し、両者が一定以上で一致する時に、同期と判定し、その判定結果に基づき、コンテンツの切り替えを制御する。図１７に何曲かのポピュラー音楽を実験に使用し、音楽信号の拍子（ビート）と、体動と抽出された同期行動（ビート行動）の関係を示す。図１７に示すように、音楽信号の拍子（ビート）と体動から抽出された同期行動（ビート行動）が確認できる。

図１８に、同期／非同期行動の結果を観察した結果を示している。この図においては、左側では、被験者は音楽を聴いており、拍子（ビート）に合わせて手を叩くよう指示されている。右側では、被験者は手をでたらめに動かしている。

この図１８からこのふたつの状態を明らかに区別出来ていることが分かる。よって、音楽の拍子（ビート）に対応して、ユーザが手拍子等を打っていることが判断で、ユーザの集中度を測定することができる。

図１９、図２０にユーザの体動を用いてこの発明を実施した形態のフローチャートを示す。この実施形態は、ユーザがコンテンツ映像を視聴している時、ユーザの好む歌のコンテンツなどにおいては、コンテンツの音楽、音声などの音楽情報に合わせて体を揺らしたり、手拍子、足拍子などの体動することもある。このような状態を判断して、集中度を測定し、コンテンツ切替の判断を行うものである。

まず、コンピュータ１０は、懐メロなどの音楽のビデオを選択し、映像再生装置２２からの映像をモニタ１に表示させるように、映像コンテンツ供給装置２０、コンテンツ切替装置３０を制御し、映像再生装置２２で再生されている映像をモニタ１に表示させるとともに、モニタ１に内蔵したスピーカから音楽などの音情報が出力される。そして、コンピュータ１０は、ユーザの体動の拍子（ビート）を計測する（ステップＳ２１）。計測はユーザの体動をカメラ１１から入力される画像データをフレーム間差分を行いその変動量を計測し、上記した手法により手拍子などの拍子（ビート）の動作点を検出する。

続いて、モニタ１に表示されているコンテンツが終了したか否か判断される（ステップＳ２２）。コンピュータ１０は、映像コンテンツ供給装置２０の各映像再生装置２１から２４を各種動作を制御可能に構成されており、コンテンツが終了したか否かは容易に把握できる。

コンテンツが終了していない場合には、続いて、集中度判定のルーチンに入る（ステップＳ２３）。コンテンツが終了している場合には、ステップＳ２５に進み、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替える。

ステップＳ２３にて、集中度判定のルーチンに入ると、ステップＳ２３１において、過去Ｔ秒間以内にユーザがコンテンツの音楽（音声）信号の拍子（ビート）と同期した体動が計測されていた割合γを算出する。この算出は、例えば、Ｔ秒間を３０秒間とすると、３０秒間の間でステップＳ２１において、検出した音楽（音声）信号の拍子（ビート）と同期した体動の回数を計測しておき、その回数を上記した検出した音楽（音声）信号の拍子（ビート）の立ち上がりの回数で除した割合で算出する。このため、コンピュータ１０は、Ｔ時間（１０秒間）の間の同期した体動の回数を計測し、ＲＡＭ１０２に格納している。

続いて、割合γが閾値を超えたか否か判断する（ステップＳ２３２）。ここでは、０．５、すなわち、半分以上の同期した体動があるか否か判断される。閾値以上の場合には集中していると判断する。閾値を下回る場合には、直ちに集中していないと判断するのではなく、ステップＳ２３３に進む。ステップＳ２３３では、直前のコンテンツ切り替えから所定時間（Ｎ秒）経過したか否か判断する。これはコンテンツが切り替わった直後は、モニタ１等を視聴していない場合があり、直ちに集中していないと判断すると、頻繁にコンテンツを切り替えることになる。また、興味があるコンテンツでも切り替えられることになる。このため、この実施形態では、一定時間、例えば６０秒経過したこの実施形態では６０秒間経過した後も閾値を下回る場合には集中していないと判断するように構成している。直前のコンテンツの切り替えから６０秒経過しても、半分未満の同期した体動がない場合には集中していないと判断する。なお、このコンテンツ切替直後の集中していないと判断するための待機時間はこの例では６０秒間にしたが、ユーザの状態などでその時間を決めればよい。

集中度判定ルーチン（ステップＳ２３）において判断された集中度により、ステップＳ２４において、ユーザが集中しているか否か判断する。集中している場合には、ステップＳ２１に戻り、前述の動作を繰り返す。集中していないと判断されると、ステップＳ２５において、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に提示させるコンテンツ映像を切り替え、ステップＳ２１に戻り、前述の動作を繰り返す。このとき、必要に応じて、今回切り替えることになったコンテンツの映像を表示していた時間を計測しておき、その時間をハードディスクドライブ１０４等に記憶させておくように構成しても良い。

尚、上記した実施形態においては、コンテンツとしてビデオ映像と音情報を含むものをモニタ１に提供しているが、音声情報のみのオーディオコンテンツを与えるように構成できる。例えば、音楽だけを再生する場合においても、興味を抱き、集中する場合には、音楽の拍子に応じた体動をユーザが行う場合がある。このような場合には、音楽を提供するだけのシステムにおいてもユーザが興味を抱いて集中することが期待できる。従って、この実施形態のコンテンツ提供システムにおいては、複数の音情報のコンテンツ、例えば、ラジオ放送、ＣＤ（コンパクトディスク）に格納された音楽情報などのコンテンツを用いるシステムにおいても適用できる。また、視力が悪い、ユーザに対しても同様に適用できる。

図２１、図２２にユーザの体動を用いてこの発明を実施した他の形態のフローチャートを示す。この実施形態は、コンテンツが映像若しくは音声信号でユーザに所定の動作を行うように指示した場合に、その指示にユーザが応答するか否か判断し、そのコンテンツの指示の応答状態を判断して、集中度を測定し、コンテンツ切替の判断を行うものである。

まず、コンピュータ１０は、表示させるコンテンツの映像及び／又は音声信号により、ユーザに所定の動作を行うように指示するためのコンテンツを表示させるように、映像コンテンツ供給装置２０から該当するコンテンツを選択し、モニタ１に与える。例えば、映像では、手を振っている動作の表示を行い、音声では「手を振ってください」と出力するためのコンテンツが選択される。

コンテンツ解析部１２０は、コンテンツからの情報に基づき、指示内容を解析し、その解析した指示内容を同期（類似）判定部１４０に与える（ステップＳ３１）。

続いて、コンピュータ１０は、ユーザの体動を計測する（ステップＳ３２）。計測はユーザの体動をビデオカメラ１１から入力される画像データから肌色抽出を行い、手の領域を抽出する。そして、入力される画像データをフレーム間差分を行って手の領域の各画素の濃淡値を算出し、その濃淡値に高速フーリエ変換を施し、得られるスペクトルにより手振り状態を検出する（ステップＳ３２）。

続いて、モニタ１に表示されているコンテンツが終了したか否か判断される（ステップＳ３３）。コンピュータ１０は、映像コンテンツ供給装置２０の各映像再生装置２１から２４を各種動作を制御可能に構成されており、コンテンツが終了したか否かは容易に把握できる。

コンテンツが終了していない場合には、続いて、集中度判定のルーチンに入る（ステップＳ３４）。コンテンツが終了している場合には、ステップＳ３６に進み、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替える。

ステップＳ３４にて、集中度判定のルーチンに入ると、ステップＳ３４１において、過去Ｔ秒間以内に行ったユーザの動作を抽出する。このＴ秒間は例えば３０秒間とする。

続いて、ユーザの動作が指示した動作か否か判断する（ステップＳ３４２）。指示した動作である場合には集中していると判断する。指示した動作でない場合には、直ちに集中していないと判断するのではなく、ステップＳ３４３に進む。ステップＳ３４３では、直前のコンテンツ切り替えから所定時間（Ｎ秒）経過したか否か判断する。これはコンテンツが切り替わった直後は、モニタ１等を視聴していない場合があり、直ちに集中していないと判断すると、頻繁にコンテンツを切り替えることになる。また、興味があるコンテンツでも切り替えられることになる。このため、この実施形態では、一定時間、例えば６０秒経過したこの実施形態では６０秒間経過した後も指示した動作を行わない場合には集中していないと判断するように構成している。直前のコンテンツの切り替えから６０秒経過しても、半分未満の同期した体動がない場合には集中していないと判断する。なお、このコンテンツ切替直後の集中していないと判断するための待機時間はこの例では１分間にしたが、ユーザの状態などでその時間を決めればよい。

集中度判定ルーチン（ステップＳ３４）において判断された集中度により、ステップＳ３５において、ユーザが集中しているか否か判断する。集中している場合には、ステップＳ３２に戻り、前述の動作を繰り返す。集中していないと判断されると、ステップＳ３６において、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替え、ステップＳ３１に戻り、前述の動作を繰り返す。このとき、必要に応じて、今回切り替えることになったコンテンツの映像を表示していた時間を計測しておき、その時間をハードディスクドライブ１０４等に記憶させておくように構成しても良い。

図２３、図２４にユーザの体動を用いてこの発明を実施した他の形態のフローチャートを示す。この実施形態は、コンテンツの映像内の動きと同期した動きをユーザが行っているか否か判断し、そのコンテンツへの集中度を測定し、コンテンツ切替の判断を行うものである。例えば、ラジオ体操の映像を表示、その表示された映像と同期してユーザが体操したり、映像内の人物に合わせて頷いたりする動作を行っている場合には、ユーザはそのコンテンツに集中していると判断することができる。

まず、コンピュータ１０は、例えば、映像では、「ラジオ体操」の表示を行い、音声では「ラジオ体操の音楽」を出力するためのコンテンツが選択される。

コンテンツ解析部１２０は、コンテンツからの情報に基づき、ラジオ体操であると解析すると、ラジオ体操の映像をフレーム毎に同期（類似）判定部１４０に与える。一方、コンピュータ１０は、ユーザの体動を撮像したビデオカメラ１１からの画像データをセンサ感知部１３０に与え、センサ感知部１３０はユーザを撮像した画像データをフレーム毎にから肌色抽出を行い、手の領域を抽出する。そして、入力される画像データをフレーム同期（類似）判定部１４０に与える（ステップ４１）。

続いて、モニタ１に表示されているコンテンツが終了したか否か判断される（ステップＳ４２）。コンピュータ１０は、映像コンテンツ供給装置２０の各映像再生装置２１から２４を各種動作を制御可能に構成されており、コンテンツが終了したか否かは容易に把握できる。

コンテンツが終了していない場合には、続いて、集中度判定のルーチンに入る（ステップＳ４３）。コンテンツが終了している場合には、ステップＳ３６に進み、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替える。

ステップＳ４３にて、集中度判定のルーチンに入ると、ステップＳ３４１において、過去Ｔ秒間以内に行ったユーザの動作を抽出する。このＴ秒間は例えば３０秒間とする。そして、同期（類似）判定部１４０は、コンテンツ映像の画像とビデオカメラ１１からの画像とのマッチングをとり、両者の類似度を判断する。そして、両者の類似している割合γを算出する。この算出は、例えば、Ｔ秒間を３０秒間とすると、３０秒間の間で、例えば、コンテンツ映像の画像が手足を動かしている画像であれば、ビデオカメラ１１で撮像した画像が手足のどちらかでも動かしていた場合には類似動作と判断し、その類似した動作の体動の累積時間を計測しておき、その回数を上記した時間で除した割合で算出する。このため、コンピュータ１０は、Ｔ時間（３０秒間）の間の同期した体動の回数を計測し、ＲＡＭ１０２に格納している。

続いて、割合γが閾値を超えたか否か判断する（ステップＳ４３２）。ここでは、０．５、すなわち、半分以上の類似した体動があるか否か判断される。閾値以上の場合には集中していると判断する。閾値を下回る場合には、直ちに集中していないと判断するのではなく、ステップＳ４３３に進む。

続いて、ユーザの動作が指示した動作か否か判断する（ステップＳ４４２）。指示した動作である場合には集中していると判断する。指示した動作でない場合には、直ちに集中していないと判断するのではなく、ステップＳ４４３に進む。ステップＳ４４３では、直前のコンテンツ切り替えから所定時間（Ｎ秒）経過したか否か判断する。これはコンテンツが切り替わった直後は、モニタ１等を視聴していない場合があり、直ちに集中していないと判断すると、頻繁にコンテンツを切り替えることになる。また、興味があるコンテンツでも切り替えられることになる。このため、この実施形態では、一定時間、例えば６０秒経過したこの実施形態では６０秒間経過した後も指示した動作を行わない場合には集中していないと判断するように構成している。直前のコンテンツの切り替えから６０秒経過しても、半分未満の同期した体動がない場合には集中していないと判断する。なお、このコンテンツ切替直後の集中していないと判断するための待機時間はこの例では６０秒間にしたが、ユーザの状態などでその時間を決めればよい。

集中度判定ルーチン（ステップＳ４３）において判断された集中度により、ステップＳ４４において、ユーザが集中しているか否か判断する。集中している場合には、ステップＳ４１に戻り、前述の動作を繰り返す。集中していないと判断されると、ステップＳ４５において、次のコンテンツの映像が装填されている映像再生装置を選び、コンテンツの切り替え動作を行って、モニタ１に表示させるコンテンツ映像を切り替え、ステップＳ４１に戻り、前述の動作を繰り返す。このとき、必要に応じて、今回切り替えることになったコンテンツの映像を表示していた時間を計測しておき、その時間をハードディスクドライブ１０４等に記憶させておくように構成しても良い。

尚、上記した実施形態においては、映像と音情報により、動作を指示する情報をユーザに提供しているが、どちらか一方の情報のみユーザに与え、その指示に対応する動作をユーザが行ったか否か判断するように構成しても良い。例えば、聴力が悪い場合には、映像のみの指示に従う場合が有り、また、逆に視力が悪い場合には、音情報の指示に従う場合があると考えられる。従って、使用するユーザに対応してそれぞれ適したコンテンツの種類を選択すればよい。

また、上記した複数の集中度の検出をそれぞコンテンツに応じて切り替えたり、また複数の検出を行い、複数の検出結果に応じて、コンテンツの切り替えを行うように制御しても良い。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

この発明は、脳障害者などを介護する施設などに用いることができる。

この発明の実施形態にかかるコンテンツ提供システムの構成を示す概略図である。この発明の実施形態にかかるコンテンツ提供システムの構成を示すブロック図である。この発明のコンテンツ提供システムにおけるコンピュータの構成を中心にしたブロック図である。この発明の顔の向きを検出する際に用いる場合の、画像枠を６つのセグメントに分けたＳＳＲフィルタを示す説明図である。この発明の顔の向きを検出する際に用いる場合の典型的な学習パターンを示す模式図である。目に対して相対的な鼻頭の探索領域を示す模式図である。両目と鼻頭との関係を示す図である。この発明の第１実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第１実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第２実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第２実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第３の実施形態にかかるコンテンツ提供システムの構成を示すブロック図である。この発明の第３の実施形態にかかる映像システムの機能構成を示すブロック図である。拍子を取る動作における動作領域画素数の変動を示す図である。ポピュラー音楽の入力音楽（音声）信号の周波数特性を示す特性図である。図１５の信号を周波数毎に抽出した特性図である。何曲かのポピュラー音楽を実験に使用し、音楽信号の拍子（ビート）と、体動と抽出された同期行動（ビート行動）の関係を示す図である。同期／非同期行動の結果を観察した結果を示す図である。この発明の第３の実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第３実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第４の実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第４の実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第５の実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。この発明の第５の実施形態にかかるコンテンツ提供システムの動作を説明するためのフローチャートである。

符号の説明

１モニタ、３ユーザ、１０コンピュータ、２０映像コンテンツ供給装置、２１〜２４映像再生装置、３０コンテンツ切替装置。

Claims

複数の映像コンテンツを有する映像供給手段と、この映像供給手段から与えられる映像を表示する表示手段と、ユーザの顔領域を含む対象画像の画像データを撮影して取得する撮影手段と、この撮影手段からの画像データに基づきユーザの動作を検出する検出手段と、この検出手段の出力に応じてユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に表示させる映像コンテンツを選択することを特徴とするコンテンツ提供システム。
前記検出手段は、ユーザの顔の向きを検出することを特徴とする請求項１に記載のコンテンツ提供システム。
前記判定手段は、前記検出手段で検出した顔の向きが正面以外に向いている時間を計測し、その計測結果に応じて集中度を判定することを特徴とする請求項２に記載のコンテンツ提供システム。
前記映像供給手段は、複数の映像コンテンツを格納する記憶手段を備え、前記判定手段に応じて前記記憶手段から映像コンテンツを読み出すことを特徴とする請求項１ないし３のいずれかに記載のコンテンツ提供システム。
前記判定手段は、ユーザのフレーム間差分による動作量を計測して集中度を判断することを特徴とする請求項１に記載のコンテンツ提供システム。
複数の映像コンテンツを有する映像供給手段と、この映像供給手段から与えられる映像を表示する表示手段と、ユーザの発話・動作音を集音するマイクと、このマイクからの音声データに基づきユーザの発話・動作音を検出する検出手段と、この検出手段の出力に応じてユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に表示させる映像コンテンツを選択することを特徴とするコンテンツ提供システム。
少なくとも音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる音情報を出力する情報出力手段と、この情報出力手段からの音を聴取するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる音情報から拍子を検出する拍子検出手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記拍子検出手段からの出力と前記体動検出手段との出力に基づきユーザの体動が拍子と同期しているか否か判断してユーザの音情報への集中度を判定する判定手段と、この判定手段に応じて前記情報出力手段に提供させる映像コンテンツを選択することを特徴とするコンテンツ提供システム。
前記コンテンツ供給手段は、更に映像情報を含み、前記情報出力手段は、前記コンテンツ供給手段から与えられる映像情報を出力する表示手段を更に備え、前記判定手段は、拍子検出手段からの出力と前記体動検出手段との出力に基づきユーザの体動が拍子と同期しているか否か判断してユーザの表示映像への集中度を判定することを特徴とする請求項７に記載のコンテンツ提供システム。
前記体動検出手段は、前記撮影手段から得られる画像データをフレーム間差分し、得られる動領域の画素数を演算する手段と、前記動領域の画素数の変動を監視する変動監視手段と、を備えることを特徴とする請求項７に記載のコンテンツ提供システム。
前記変動監視手段は、画素数が立ち下がり、画素数が０付近になる時を監視し、前記体動検出手段は０付近になった時に拍子動作として検出することを特徴とする請求項９に記載のコンテンツ提供システム。
前記拍子検出手段は、音情報を複数の周波数帯毎にパワーを算出し、各周波数帯毎にパワーの変動の概形を抽出し、複数の周波数帯で連動して観測される概形の立ち上がりを拍子として検出することを特徴とする請求項７に記載のコンテンツ提供システム。
少なくとも音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる音情報を出力する情報出力手段と、この情報出力手段からの音を聴取するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる音情報からユーザに対する指示内容を検出するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザの音情報への集中度を判定する判定手段と、この判定手段に応じて前記情報出力手段に提供させるコンテンツを選択することを特徴とするコンテンツ提供システム。
前記コンテンツ供給手段は、更に映像情報を含み、前記情報出力手段は、前記コンテンツ供給手段から与えられる映像情報を出力する表示手段を更に備え、前記判定手段は、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザのコンテンツへの集中度を判定することを特徴とする請求項１２に記載のコンテンツ提供システム。
少なくとも映像コンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる映像を表示する表示手段と、ユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる映像情報からユーザに対する指示内容を検出するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動が指示された動作と同調しているか否か判断してユーザの表示手段への集中度を判定する判定手段と、この判定手段に応じて前記表示手段に提供させる映像コンテンツを選択することを特徴とするコンテンツ提供システム。
映像と音情報を含むコンテンツを複数種類備えたコンテンツ供給手段と、このコンテンツ供給手段から与えられる映像を表示する表示手段と、前記コンテンツ供給手段から与えられる音情報を出力するスピーカと、前記表示手段又はスピーカからの音声を視聴するユーザの画像データを撮影して取得する撮影手段と、前記コンテンツ供給手段から与えられる映像情報の内容を解析するコンテンツ解析手段と、前記撮影手段からの画像データに基づきユーザの体動を検出する体動検出手段と、前記コンテンツ解析手段からの出力と前記体動検出手段との出力に基づきユーザの体動がコンテンツの内容に同調しているか否か判断してユーザの表示手段または音情報への集中度を判定する判定手段と、この判定手段に応じて前記表示手段及びスピーカに提供させる映像コンテンツを選択することを特徴とするコンテンツ提供システム。