JP4736511B2

JP4736511B2 - 情報提供方法および情報提供装置

Info

Publication number: JP4736511B2
Application number: JP2005108145A
Authority: JP
Inventors: 康成大淵; 信夫佐藤; 哲伊達
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-04-05
Filing date: 2005-04-05
Publication date: 2011-07-27
Anticipated expiration: 2025-04-05
Also published as: JP2006285115A; CN1848106A; CN1848106B; US20060224438A1

Description

本発明は、公共もしくは個人空間において、主として画像によりユーザの嗜好に合わせた情報を提供する方法および装置、および広告等の一般的な情報を提供する方法および装置に関する。

駅や空港、デパート、博物館、遊園地などの公共空間で、映像情報を利用した情報提供を行なう場合、ユーザの意思とは関係なく一方的に情報を流しつづけるか、もしくはユーザがボタン操作などで明示的に自分の希望する情報を選択するという方法が一般的である。しかし、ユーザの関心や属性などを自動的に取得し、それに応じて提供する情報を変化させようという試みがある。例えば、特許文献１（特開２００４−２８０６７３号公報）では、カメラによりユーザを撮影し、その視線を検出することによって興味の度合を推定することが示されている。

特開２００４−２８０６７３号公報

Bregman, "Auditory Scene Analysis: Perceptual Organization of Sound" (MIT Press, 1994, ISBN0-262-52195-4) 上田他, "IMPACT: An Interactive Natural-Motion-Picture Dedicated Multimedia Authoring System" (CHI91, ACM, pp.343-350,1991) 小林他, "複数マイク自由配置による複数話者位置推定"（電子情報通信学会論文誌A, Vol.J82-A, No.2, pp.193-200,1999） Zissman, "Comparison of four approaches to automatic language identification of telephone speech" (IEEE Transactions on Speech and Audio Processing, Vol.4, No.1, pp.31-44, 1996)

一般公衆もしくは個人向けに主として映像によって情報を提供する場合に、その映像を見ることができる場所にいるユーザが、その映像を注視しているかどうかを検知することができれば、そのとき表示されている項目に関してより詳しい情報を提供することにより、ユーザの利便性を向上させることができる。また、ユーザの嗜好を知ることにより、情報提供者のマーケティングに反映させることも可能になる。従来は、情報提供装置にボタンなどの選択装置を付けることにより、ユーザの主体的な選択を受けつける方法が用いられていたが、この場合、わざわざボタンを押すほどの強い意志を持たないユーザに対しては機能しない。また、ボタンを押すことによって操作が可能だということに気付かないユーザも多い。そこで、ユーザが映像を注視しているかどうかを自動的に検出し、その結果に応じて表示する映像を自動的に変化させることが可能になれば、より幅広いユーザの嗜好に対応することが可能になる。

音声入力部によって取得された音声データと、現在提供している映像データおよび映像データに付加された情報とを比較し、その類似度から対象者の注視度を推定する。音声データと映像データそれぞれのシーンの切れ目が一致する、音の周波数パターンが類似している、映像に含まれる内容を表わすキーワードが音声中に検出される、などの現象を検知することにより、注視度を推定することが可能である。また、言語識別装置により対象者の使用言語を推定し、その言語を用いて情報提供を行なうなど、音声データから得られた情報に最適化した映像情報を提供することにより、ユーザに伝わりやすい情報提供を行なう。

本発明により、より多くのユーザに対して関心を持ってもらえる情報を提供することが可能になる。また、ユーザの嗜好をより詳しく知ることができることから、販売計画などをユーザの嗜好に近づけるための情報を収集することが可能になる。

以下、図を用いて本発明の実施の形態の一例を詳しく説明する。
図１は、本発明による情報提供装置の構成を示している。本装置は、街頭など大勢の公衆が集まる場所において、案内や広告などの情報を主として映像によって提供する目的で設置するためのものである。音声入力部102は、マイクロフォンおよびそれに付属するアナログ−デジタル変換器などから成り、マイクロフォンの近辺にいる人（以下ユーザと呼ぶ）の声を取り込み、計算機等により処理可能な形式のデータへの変換を行なう。画像入力部104は、本発明の実施に必須のものではないが、カメラおよびそれに付属するデータ処理装置から成り、ユーザの様子を静止画や動画などの画像情報として取得する。こうして得られたデータは、対象者属性解析部106および音声・映像相関解析部108に送られる。

対象者属性解析部では、ユーザの使用言語・性別・空間的な位置等の属性を推定する。一方、音声・映像相関解析部では、音声入力部から送られてきた音声データを、後述する映像出力部から送られてきた映像データと比較し、両者の間の相関を求める。画像入力部から送られてくる情報がある場合には、後述するような方法でその情報を利用することにより、相関推定の精度を高める。音声・映像相関解析部によって、両者の間の相関が強いという判断が為された場合には、ユーザが出力映像の内容に関連した会話を行なっている可能性が高いと推定できることから、ユーザは現在の映像に関心を持っていると見なすことができる。逆に相関が低い場合には、映像を見ていない、もしくは見ていても関心を持っておらず、関係の無い話をしている可能性が高い。

対象者属性解析部および音声・映像相関解析部における解析結果は、出力映像選択部114に送られる。ここでは、前段の解析結果に基づき次に出力すべき映像を決定する。例えば、音声・映像相関解析部において、映像と音声の相関が強いと判定された場合には、ユーザは現在の映像の内容に興味を持っていると思われることから、その内容に関してより詳細な情報を提供する。逆に相関が弱い場合には、概略的な情報を流し続ける、もしくはテーマを変えるなどの操作を行なう。また、対象者属性解析部から送られてきた使用言語情報が、現在の映像の中の字幕などで用いられている言語と異なる場合には、字幕で用いる言語をユーザの使用言語に変更する。こうして得られた選択結果に基づき、映像出力部116で次の映像を作成してディスプレイに表示する。また、表示されているのと同じ出力映像データ118が音声・映像相関解析部に送られ、次の動作に用いられる。

対象者属性解析部および音声・映像相関解析部のおける解析結果は、同時に注視情報整理部110にも送られる。ここでは、放映された映像を見たユーザの属性および注視度に関する統計情報を整理する。得られた統計情報は通信部112によって映像の配信元に提供され、将来の映像配信計画立案のために利用される。
対象者属性解析、音声・映像相関解析、注視情報整理、出力映像選択などの処理は、演算装置によってそれぞれ所定のプログラムを実行することにより実現される。

図２は音声入力部102の実現の形態を模式的に書いたものである。人間の大きさよりも大きいようなディスプレイが存在する場合、そのディスプレイの前に人が立つ場合でも、様々な立ち位置が考えられる。そこで、ディスプレイの様々な場所にマイクを取り付けておくことにより、どのマイクへの入力音声が最も強いかを調べ、立ち位置を推定することができる。また、大きなディスプレイの場合には、ある程度の距離を置いたところから見るユーザもいることから、離れた位置にもマイクを設置し、そこで得られた信号を制御装置に送信する。いずれの場合も、最も強い信号を得たマイクの近くにユーザがいると推定できるが、より詳細な位置を知りたい場合には、複数のマイクから得られた信号を用い、その位相差により音源方向を推定できることから、３つ以上のマイクを使って三角測量の要領で音源位置を推定することも可能である。

図３は音声・映像相関解析部108の動作の原理を説明するための図である。入力された画像データ302は、視線方向推定モジュール314に送られ、ユーザがディスプレイの方を向いているかどうかの判定に用いられる。また、シーン分割モジュール318にも送られる。入力された音声データ304は、ワードスポットモジュール316、シーン分割モジュール318、および周波数解析モジュール320に送られる。
ワードスポットモジュール316では、出力映像データ118に付随して送られてくるキーワード情報308と音声データとを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定する。

シーン分割モジュール318では、振幅やスペクトルなどの情報によって音声データがシーン分割される。もっとも単純な手法としては、振幅が一定値以下である時間が一定時間以上続いたら、そこで一つのシーンが終わったと判定するものがある。より高度なシーン分割を行なうためには、聴覚情景解析(Auditory Scene Analysis)と呼ばれる分野の研究成果を活用することが可能である。聴覚情景解析に基づくシーン分割については、Bregman"Auditory Scene Analysis: Perceptual Organization of Sound"(MIT Press, 1994, ISBN0-262-52195-4)（非特許文献１）などの文献に詳しい。

一方、映像出力部116から送られてきた出力映像データ118も同じようにシーン分割される。一般に、映像出力部で出力される映像は、あらかじめ十分な労力をかけて製作されたものであるから、同時にシーンごとの切れ目の情報を付与しておくことが可能である。この場合、シーン分割は単にこの情報を読み出すだけで良い。また、何らかの理由で事前にシーン分割が為されていない場合には、これを自動的に行なうことも可能である。ビデオ等の映像を自動的にシーン分割する手法としては、上田他"IMPACT: An Interactive Natural-Motion-Picture Dedicated Multimedia Authoring System"(CHI'91,ACM,pp.343-350,1991)（非特許文献２）などの文献に示されたものが使用可能である。また、画像データ302を利用することができる場合には、このデータに対しても同様の手法を適用することによりシーン分割を行なうことが可能である。

こうして得られた画像データ、音声データ、出力映像データそれぞれのシーン分割結果をもとに、シーン照合モジュール322でこれらの照合関係を調べる。照合関係を調べる方法の詳細については後述する。音声データ304は、周波数解析モジュール320にも送られ、ここで音声としての様々なパラメータが抽出される。ここでいうパラメータとは、たとえば音声全体のパワー、特定の周波数帯域だけに限定したパワー、基本周波数などである。一方、出力映像データにもあらかじめこれらに対応するデータを付与しておき、両者を周波数照合モジュール324において比較し、相関を推定する。視線方向推定モジュール314、ワードスポットモジュール316、シーン照合モジュール322、周波数照合モジュール324によって得られた結果は、相関判定モジュール326に送られ、ここで個々の結果を総合して最終的な判断を下す。

図４は、ワードスポットモジュール316による相関推定の詳細を説明する図である。この方法のためには、映像に対してあらかじめキーワードを付与しておく。図の例で言うと、最初の部分に「冷蔵庫」、次の部分に「洗濯機」、最後の部分に「パソコン」というキーワードが付与されている。キーワードはこのように細かい部分ごとに異なってもよいし、映像全体に渡って同じものを使ってもよい。また、キーワードは必ずしも一つである必要は無い。実行時には、このキーワードを用い、該当する区間の音声に対してワードスポットを行なう。図にはその結果を丸印とバツ印で示してある。音声の中にキーワードが検出された部分に丸印、検出されなかった場合には区間全体にバツ印を示してある。この例では、最後の部分で「パソコン」というキーワードが検出されたので、ここでユーザが映像を見ながら話している可能性が高いと判断する。

図５は、シーン照合モジュール322において相関を調べる方法を図式化したものである。画像データと出力映像データ、もしくは音声データと出力映像データのシーン分割を比較し、両者で対応するシーン境界を見つけ、それらの時間軸上の位置がどれくらいずれているかを調べればよいが、その際、どちらか一方でシーン境界そのものが検出されないということが起こりうる。そのような状況にも対応するため、ダイナミックプログラミングにより最適な対応関係を見つける。図では、対応するシーン境界の位置がほぼ等しい場合を二重丸、近い場合を一重丸、遠い場合を三角、対応するシーン境界が無い場合をバツ印で表わしている。これら各々に対して適当な評価重みを与え、すべてのシーン境界についてそれらの値を加算することによって、最終的に音声データと映像データの相関の値を求めることができる。

図６は、周波数照合モジュール324において相関を調べる方法を図式化したものである。周波数解析によって得られた全パワー、特定帯域パワー、基本周波数などのパラメータを、あらかじめ出力映像データに付与された全パワー期待値、特定帯域パワー期待値、基本周波数期待値などのデータと比較し、類似度を求める。全帯域および個々の帯域に対してあらかじめ重み尺度を設定しておき、それぞれの類似度をこの重み尺度を用いて加算することにより、最終的に音声データと映像データの類似度を求めることができる。なお、出力映像データに対してこれらのデータを付与するためには、出力映像データを見ながら話していることがわかっている音声データのみを何らかの部で収集し、これらに対して周波数解析を行ない、その結果を平均すれば良い。また、本発明によるディスプレイシステムを実際に設置して音声データを収集し、その中で、出力映像データを注視している可能性が極めて高いと判定されたもののみを集めて同様の解析を行なうことによっても期待値を得ることができる。

図７は、相関判定モジュール326の動作のひとつの例を表わすフローチャートである。まず、視線方向推定を行ない、そこでユーザが画面の方を向いていると判定された場合には、「相関あり」を出力して終了する。そうでない場合には、次にワードスポットを行ない、キーワードが検出された場合には「相関あり」を出力して終了する。ここでも相関ありと判定されなかった場合、次にシーン照合を行ない、そこでの相関値があらかじめ設定した閾値よりも高い場合には、「相関あり」を出力して終了する。ここでも相関なしとなった場合には、周波数照合を行ない、ここで得られた相関の値が閾値より高い場合には、「相関あり」を出力して終了する。これらすべての判定で「NO」となった場合には、「相関なし」を出力して終了する。

図８は、相関判定モジュールのもうひとつの例を表わすフローチャートである。この例では、図７の例と異なり、視線方向推定、ワードスポット、シーン照合、周波数照合の四つを、それぞれ互いの結果に関係なく実行する。これら４つの処理は独立に行われるので、図の順序でなくてもよく、４つを並行して実行してもよい。それぞれの機能においては、相関の有無を二値で判定する代わりに、例えば０から１００までのスコアで示す。次に、これら四つのスコアをあらかじめ設定した重みをつけて和を取り、全体でひとつのスコアとする。このスコアが事前に設定した閾値より大きければ相関あり、小さければ相関なしと判定して終了する。

図９は対象者属性解析部106の詳細を説明するための図である。入力された音声データ904（304）を元に、空間的属性解析906と属人的属性解析908の二つの流れに沿って解析が行なわれる。
空間的属性解析においては、複数のマイクからの入力に対して、振幅検出910と位相差検出912の二つのモジュールによって処理が行なわれ、それらの結果を元に位置判定914のモジュールがユーザの位置を推定する。このとき、マイク等の機器が実際にどのような位置関係で配置されているかを示す機器配置情報ＤＢ916を参照する。位置判定のもっとも単純な動作方法としては、位相差検出の結果を無視し、振幅検出の結果から、最も大きな振幅を示したマイクを選び、そのマイクの位置を機器配置情報ＤＢで確認するというやり方がある。より精緻な方法としては、音のエネルギーが音源からの距離の２乗に反比例するという性質を利用し、振幅検出の結果から各マイクと音源との距離を推定することも可能である。また、音の伝達を平面波で近似できることから、位相差検出によって二つのマイクの間に到達した音の位相差を検出し、その音の波長と比較することによって、音源の方向を推定することもできる。これらの手法により得られる値は、雑音の影響などもあって必ずしも正確なものではないが、複数の推定結果を組み合わせることにより信頼度を増すことが可能である。この他、複数のマイクを用いた音源位置推定のアルゴリズムについては、例えば、小林他"複数マイク自由配置による複数話者位置推定"（電子情報通信学会論文誌A,Vol.J82-A,No.2,pp.193-200,1999）（非特許文献３）などの文献に詳しい。なお、画像データ302が使用可能な場合には、これを直接用いたユーザの位置判定も併用することが可能である。

一方、属人的属性解析においては、声の性質を解析することにより、ユーザ個々人に属する情報を取得する。ユーザ個々人に属する情報の例として、使用言語、性別、年齢などが挙げられる。これらは、言語識別918、性識別920、年令識別922のそれぞれのモジュールにおいて、あらかじめ作成しておいた言語別モデル924、性別モデル926、年代別モデル928などと入力音声を比較し、個々のモデルに対する類似度を計算した上で、最も類似度の高いカテゴリーを選択するという方法によって実現可能である。比較にあたっては、声に含まれる音韻パターンの推定を同時に行なうことにより精度を高めることができる。即ち、一般に良く用いられている隠れマルコフモデルによる音声認識を行なう際に、日本語音響モデルと英語音響モデル、男性音響モデルと女性音響モデル、十代音響モデルと二十代音響モデルと三十代音響モデル、といった具合に複数の音響モデルを平行して使用し、認識結果に対してより高い信頼度スコアを与えたモデルに相当する言語や性別、年代のカテゴリーを選択するという手法である。この中でも言語識別で高い精度を得るには手法の精緻化が必要となるが、言語識別の詳細なアルゴリズムに関しては、Zissman"Comparison of four approaches to automatic language identification of telephone speech"(IEEE Transactions on Speech and Audio Processing, Vol.4,No.1,pp.31-44, 1996)（非特許文献４）などの文献に詳しい。

次に、出力映像選択部116の動作について詳しく説明する。ここでは、対象者属性解析部および音声・映像相関解析部によって得られた結果に基づき、ユーザに対して最も効率的に情報を提供するための映像提示の方法を選択する。まず第一の例として、ユーザの使用言語がわかった場合には、映像に含まれる言語情報をその言語に変更する。また、映像に付加して音声が出力されている場合、出力音声の言語がユーザの使用言語と異なる場合に限り、ユーザの使用言語での字幕を追加するということも可能である。次に、ユーザの声と映像との相関が強いと判定された場合、ユーザが現在の映像に興味を持っていると考え、そこで示されている事柄に関し、より詳細な情報を提供する。逆にユーザが現在の映像に関心を持っていない場合には、概略的な情報提供のみを続けるか、もしくは何か別の項目に関する映像を提供する。ここで別の項目を選択する際に、ユーザの性別・年齢などがある程度推測できる場合には、そこから示される特定のユーザ層に興味を持ってもらえる可能性が高い情報を提供することも可能である。

このように画面全体で表示される単一の映像を選択するだけでなく、大きなディスプレイを分割して効果的に用いることも可能である。図１０はそのような情報提供形態の例を示したものである。この例では、人間に比べて著しく大きなディスプレイには、パーソナルコンピューターのイメージ広告を映している。それに対し、左側および中央付近のユーザは関心を示していないが、右側付近のユーザが興味を持っていそうだと判定した場合、そのあたりの画面上に小さなサブウィンドウを生成し、そこに商品の詳細仕様を表示している。これにより、興味を持ったユーザには詳しい情報を、それ以外のユーザには全体のイメージ情報を提供することができる。

ユーザの注視度に基づいて表示映像を制御するためには、追加表示（あるいはデフォルトの映像に変えて表示）する情報・映像データとしては、出力映像選択部114からアクセス可能な記憶装置に、デフォルトの出力映像と予め対応付けて格納されているものを利用すればよい。また、ユーザの属性に応じて表示映像を制御するためには、追加表示（あるいはデフォルトの映像に変えて表示）する情報・映像データを、各属性に対応付けて記憶装置に格納しておくとよい。

音声・映像相関解析部や対象者属性解析部においては、常に一定の割合で間違った結果が得られることが予想されることから、そのような場合にもユーザに悪い印象を与えないような機能が存在することが望ましい。図１１は、そのような機能を実現させるためのひとつの例を示すフローチャートである。ユーザが出力画像を注視していないと判定された場合、その直前では注視しているという判定であったならば、それまでと異なる映像を出力することになる。しかし、この判定が誤りであった場合、ユーザは注視していた情報を突然遮断されることになり、不快感を感じることとなる。そこで、このような場合には、タッチパネルによる入力機能を備えたディスプレイ画面に「戻る」ボタンを表示し、ユーザがこのボタンに触れた場合には、タッチパネルによりこれを検知し、この情報を出力映像選択部114に通知し、出力映像選択部において出力映像を元に戻す処理を行う。これによってユーザの不快感を低減させることが可能になる。なお、一定の時間にわたってこのボタンが触れられなかった場合には、上記のような誤判定は下されていないと考えられるので、ボタンを消去する。なお、ユーザ入力装置は、表示画面上のタッチパネル以外にも、表示画面とは別個の入力装置としてもよい。

図１２は、類似の例として、対象者属性解析部において言語の識別を誤った場合に対処するための方法を示すフローチャートである。一般に、複数の言語に対応した情報提供システムにおいては、「日本語」「English」「中文」などのように、それぞれの言語で示された言語選択ボタンが用意されていることが多い。また、そのようなボタンを、タッチパネル機能を持つ画面上のボタンとして実現することもある。そこでそのような場合、言語識別により現在の設定言語と異なる言語が検知されたら、表示言語を変更すると同時に、言語選択ボタンを大きくして表示する。これによりユーザは、自動的に言語が変更されたことと、その変更が意に沿わなければボタンによって再度変更可能であることを容易に知ることができ、仮に自動的に変更された言語に対して不満であっても、速やかに所望の言語に再変更することができる。なお、図１１の例の場合と同じく、一定時間にわたってこのボタンが触れられなかった場合には、誤判定は下されていないと見なして元に戻す。

次に、注視情報整理部110および通信部112の役目について詳しく説明する。本発明の実施により、表示した映像のどの部分に対してどのようなユーザが関心を持ったかという情報を得ることができる。それらの情報は、対象者属性解析部と音声・映像相関解析部の両方の出力を照らし合わせることにより得られる。このような情報は、映像を提供した者にとって極めて有益なものである。例えば、商品の販売の目的で広告映像を流した場合に、ユーザの関心の有無を知り、今後の商品開発に反映させることができる。また、広告媒体としてのディスプレイの価値を詳細に数値化できることから、広告使用の代金に反映させることもできる。そのような目的に用いるため、注視情報整理部により、映像のどの部分に対してどれくらいのユーザが関心を示したかという情報を取り出し、無駄な情報を取り除いて整理した後に、そうして得られた情報を通信部を用いて管理部署に送信する。

本発明は、公共空間などにおいて案内情報をより有効に提供するための装置に利用可能である。また、映像による広告情報の提供の効率化のために利用することも可能である。

本発明による各種方法を実行するためのシステムの一例を示す図。音声入力部の実現形態の一例を表わす模式図。音声と映像の相関を解析する方法の一例を表わす図。ワードスポットによる相関解析の一例を表わす図。シーン分割による相関解析の一例を表わす図。周波数解析による相関解析の一例を表わす図。相関判定の方法の一例を表わすフローチャート。相関判定の方法の別の一例を表わすフローチャート。対象者の属性を解析する方法の一例を表わす図。本発明による情報提供形態の一例を表わす模式図。音声・映像相関解析が誤った場合の対応の一例を表わすフローチャート。対象者属性解析が誤った場合の対応の一例を表わすフローチャート。

符号の説明

１０２音声を入力する部、１０４画像を入力する部、１０６対象者の属性を解析する部、１０８音声と映像の相関を解析する部、１１０得られた注視情報を整理する部、１１２結果を別の装置等に伝えるための通信部、１１４得られた結果に基づき出力映像を選択する部、１１６映像を出力する部、１１８映像出力部によって出力された映像データ、
３０２入力された画像データ、３０４入力された音声データ、３０６出力映像データに付与されたキーワード情報、３０８出力映像データに付与されたシーン情報、３１０出力映像データに付与された周波数情報、３１２視線方向を推定するモジュール、３１４ワードスポットを行なうモジュール、３１６シーン分割を行なうモジュール、３１８周波数解析を行なうモジュール、３２０シーン照合を行なうモジュール、３２２周波数照合を行なうモジュール、３２４最終的な相関判定を行なうモジュール、
９０２空間的属性解析の処理、９０４属人的属性解析の処理、９０６振幅検出を行なうモジュール、９０８位相差検出を行なうモジュール、９１０位置判定を行なうモジュール、９１２個々のマイク等の機器の配置情報のデータベース、９１４言語識別を行なうモジュール
９１６性識別を行なうモジュール、９１８年齢識別を行なうモジュール、９２０言語別の音声モデルデータ、９２２性別の音声モデルデータ、９２４年代別の音声モデルデータ。

Claims

映像表示装置に表示される映像により情報を提供する方法であって、
映像表示装置の周囲にいる人の音声を音声入力装置により入力する第１のステップと、
演算部により、提供している映像の時間的変化と前記入力された音声の時間的変化の相関を調べることにより前記周囲にいる人の注視度を判断する第２のステップと、を備え、
前記第２のステップとして、
前記入力された音声と前記映像表示装置に表示される映像データに付随して送られてくるキーワード情報とを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定するキーワード判定ステップ、
前記入力された音声及び前記映像データをシーン分割し、シーン分割された音声データのシーン境界の時間軸上の位置と、シーン分割された映像データのシーン境界の時間軸上の位置との時間的相関を判定するシーン照合ステップ、および、
前記入力された音声を周波数解析して全パワー、特定帯域パワー、基本周波数のパラメータを取得し、前記映像データに付随して送られてくる全パワー期待値、特定帯域パワー期待値、基本周波数期待値のデータと比較して類似度を求める周波数照合ステップ、
の３種類のステップのうち一つ以上を含む情報提供方法。
請求項１の情報提供方法であって、
前記演算部により、前記注視度に基づいて次に出力する映像を記憶部に格納された映像から選択する第３のステップを有することを特徴とする情報提供方法。
請求項２記載の情報提供方法であって、
前記第１のステップにおいて異なる位置に設置される複数の音声入力装置で音声を入力し、前記演算部により該複数の音声入力装置からの入力に基づいて前記周囲にいる人の位置を推定する第４のステップを有し、
前記第３のステップでは、前記推定された位置に対応する前記映像表示装置の表示画面上の位置に、前記制御の結果である映像を、前記制御結果以外の映像と重ねて表示することを特徴とする情報提供方法。
請求項２記載の情報提供方法であって、
前記注視度に基づいて出力した映像に対する操作入力を入力装置から受け付ける第５のステップと、該操作入力に基づいて前記次に出力する映像を前記記憶部に格納された映像から選択する第６のステップを有することを特徴とする情報提供方法。
映像により情報を提供する映像表示部と、該映像表示部の周囲にいる人の音声を入力する音声入力部と、提供している映像の時間的変化と前記入力された音声の時間的変化の相関を調べることにより前記周囲にいる人の注視度を判断する演算部と、を備え、
前記演算部には、
前記入力された音声と前記映像表示部に表示される映像データに付随して送られてくるキーワード情報とを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定するワードスポット部、
前記入力された音声及び前記映像データをシーン分割し、シーン分割された音声データのシーン境界の時間軸上の位置と、シーン分割された映像データのシーン境界の時間軸上の位置との時間的相関を判定するシーン照合部、および、
前記入力された音声を周波数解析して全パワー、特定帯域パワー、基本周波数のパラメータを、前記映像データに付随して送られてくる全パワー期待値、特定帯域パワー期待値、基本周波数期待値のデータと比較して類似度を求める周波数照合部、
のうち一つ以上を含む情報提供装置。
請求項５記載の情報提供装置であって、更に記憶部を有し、前記演算部は、前記注視度に基づいて次に出力する映像を前記記憶部に格納された映像から選択することを特徴とする情報提供装置。
請求項６記載の情報提供装置であって、前記音声入力部は、異なる位置に設置される複数のマイクを含み、
前記演算部は、前記異なる位置に設置される複数の音声入力装置からの入力に基づいて前記周囲にいる人の位置を推定し、前記推定された位置に対応する前記映像表示部の表示画面上の位置に、前記制御の結果である映像を、前記制御結果以外の映像と重ねて表示するよう制御を行うことを特徴とする情報提供装置。
請求項６記載の情報提供装置であって、前記注視度に基づいて出力した映像に対する操作入力を受け付けるユーザ入力部を有し、前記演算部は、該操作入力に基づいて前記次に出力する映像を前記記憶部に格納された映像から選択する情報提供装置。