JP4736511B2 - 情報提供方法および情報提供装置 - Google Patents

情報提供方法および情報提供装置 Download PDF

Info

Publication number
JP4736511B2
JP4736511B2 JP2005108145A JP2005108145A JP4736511B2 JP 4736511 B2 JP4736511 B2 JP 4736511B2 JP 2005108145 A JP2005108145 A JP 2005108145A JP 2005108145 A JP2005108145 A JP 2005108145A JP 4736511 B2 JP4736511 B2 JP 4736511B2
Authority
JP
Japan
Prior art keywords
video
information providing
information
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005108145A
Other languages
English (en)
Other versions
JP2006285115A (ja
JP2006285115A5 (ja
Inventor
康成 大淵
信夫 佐藤
哲 伊達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005108145A priority Critical patent/JP4736511B2/ja
Priority to CN2006100024251A priority patent/CN1848106B/zh
Priority to US11/342,556 priority patent/US20060224438A1/en
Publication of JP2006285115A publication Critical patent/JP2006285115A/ja
Publication of JP2006285115A5 publication Critical patent/JP2006285115A5/ja
Application granted granted Critical
Publication of JP4736511B2 publication Critical patent/JP4736511B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Controls And Circuits For Display Device (AREA)

Description

本発明は、公共もしくは個人空間において、主として画像によりユーザの嗜好に合わせた情報を提供する方法および装置、および広告等の一般的な情報を提供する方法および装置に関する。
駅や空港、デパート、博物館、遊園地などの公共空間で、映像情報を利用した情報提供を行なう場合、ユーザの意思とは関係なく一方的に情報を流しつづけるか、もしくはユーザがボタン操作などで明示的に自分の希望する情報を選択するという方法が一般的である。しかし、ユーザの関心や属性などを自動的に取得し、それに応じて提供する情報を変化させようという試みがある。例えば、特許文献1(特開2004−280673号公報)では、カメラによりユーザを撮影し、その視線を検出することによって興味の度合を推定することが示されている。
特開2004−280673号公報
Bregman, "Auditory Scene Analysis: Perceptual Organization of Sound" (MIT Press, 1994, ISBN0-262-52195-4) 上田他, "IMPACT: An Interactive Natural-Motion-Picture Dedicated Multimedia Authoring System" (CHI91, ACM, pp.343-350,1991) 小林他, "複数マイク自由配置による複数話者位置推定"(電子情報通信学会論文誌A, Vol.J82-A, No.2, pp.193-200,1999) Zissman, "Comparison of four approaches to automatic language identification of telephone speech" (IEEE Transactions on Speech and Audio Processing, Vol.4, No.1, pp.31-44, 1996)
一般公衆もしくは個人向けに主として映像によって情報を提供する場合に、その映像を見ることができる場所にいるユーザが、その映像を注視しているかどうかを検知することができれば、そのとき表示されている項目に関してより詳しい情報を提供することにより、ユーザの利便性を向上させることができる。また、ユーザの嗜好を知ることにより、情報提供者のマーケティングに反映させることも可能になる。従来は、情報提供装置にボタンなどの選択装置を付けることにより、ユーザの主体的な選択を受けつける方法が用いられていたが、この場合、わざわざボタンを押すほどの強い意志を持たないユーザに対しては機能しない。また、ボタンを押すことによって操作が可能だということに気付かないユーザも多い。そこで、ユーザが映像を注視しているかどうかを自動的に検出し、その結果に応じて表示する映像を自動的に変化させることが可能になれば、より幅広いユーザの嗜好に対応することが可能になる。
音声入力部によって取得された音声データと、現在提供している映像データおよび映像データに付加された情報とを比較し、その類似度から対象者の注視度を推定する。音声データと映像データそれぞれのシーンの切れ目が一致する、音の周波数パターンが類似している、映像に含まれる内容を表わすキーワードが音声中に検出される、などの現象を検知することにより、注視度を推定することが可能である。また、言語識別装置により対象者の使用言語を推定し、その言語を用いて情報提供を行なうなど、音声データから得られた情報に最適化した映像情報を提供することにより、ユーザに伝わりやすい情報提供を行なう。
本発明により、より多くのユーザに対して関心を持ってもらえる情報を提供することが可能になる。また、ユーザの嗜好をより詳しく知ることができることから、販売計画などをユーザの嗜好に近づけるための情報を収集することが可能になる。
以下、図を用いて本発明の実施の形態の一例を詳しく説明する。
図1は、本発明による情報提供装置の構成を示している。本装置は、街頭など大勢の公衆が集まる場所において、案内や広告などの情報を主として映像によって提供する目的で設置するためのものである。音声入力部102は、マイクロフォンおよびそれに付属するアナログ−デジタル変換器などから成り、マイクロフォンの近辺にいる人(以下ユーザと呼ぶ)の声を取り込み、計算機等により処理可能な形式のデータへの変換を行なう。画像入力部104は、本発明の実施に必須のものではないが、カメラおよびそれに付属するデータ処理装置から成り、ユーザの様子を静止画や動画などの画像情報として取得する。こうして得られたデータは、対象者属性解析部106および音声・映像相関解析部108に送られる。
対象者属性解析部では、ユーザの使用言語・性別・空間的な位置等の属性を推定する。一方、音声・映像相関解析部では、音声入力部から送られてきた音声データを、後述する映像出力部から送られてきた映像データと比較し、両者の間の相関を求める。画像入力部から送られてくる情報がある場合には、後述するような方法でその情報を利用することにより、相関推定の精度を高める。音声・映像相関解析部によって、両者の間の相関が強いという判断が為された場合には、ユーザが出力映像の内容に関連した会話を行なっている可能性が高いと推定できることから、ユーザは現在の映像に関心を持っていると見なすことができる。逆に相関が低い場合には、映像を見ていない、もしくは見ていても関心を持っておらず、関係の無い話をしている可能性が高い。
対象者属性解析部および音声・映像相関解析部における解析結果は、出力映像選択部114に送られる。ここでは、前段の解析結果に基づき次に出力すべき映像を決定する。例えば、音声・映像相関解析部において、映像と音声の相関が強いと判定された場合には、ユーザは現在の映像の内容に興味を持っていると思われることから、その内容に関してより詳細な情報を提供する。逆に相関が弱い場合には、概略的な情報を流し続ける、もしくはテーマを変えるなどの操作を行なう。また、対象者属性解析部から送られてきた使用言語情報が、現在の映像の中の字幕などで用いられている言語と異なる場合には、字幕で用いる言語をユーザの使用言語に変更する。こうして得られた選択結果に基づき、映像出力部116で次の映像を作成してディスプレイに表示する。また、表示されているのと同じ出力映像データ118が音声・映像相関解析部に送られ、次の動作に用いられる。
対象者属性解析部および音声・映像相関解析部のおける解析結果は、同時に注視情報整理部110にも送られる。ここでは、放映された映像を見たユーザの属性および注視度に関する統計情報を整理する。得られた統計情報は通信部112によって映像の配信元に提供され、将来の映像配信計画立案のために利用される。
対象者属性解析、音声・映像相関解析、注視情報整理、出力映像選択などの処理は、演算装置によってそれぞれ所定のプログラムを実行することにより実現される。
図2は音声入力部102の実現の形態を模式的に書いたものである。人間の大きさよりも大きいようなディスプレイが存在する場合、そのディスプレイの前に人が立つ場合でも、様々な立ち位置が考えられる。そこで、ディスプレイの様々な場所にマイクを取り付けておくことにより、どのマイクへの入力音声が最も強いかを調べ、立ち位置を推定することができる。また、大きなディスプレイの場合には、ある程度の距離を置いたところから見るユーザもいることから、離れた位置にもマイクを設置し、そこで得られた信号を制御装置に送信する。いずれの場合も、最も強い信号を得たマイクの近くにユーザがいると推定できるが、より詳細な位置を知りたい場合には、複数のマイクから得られた信号を用い、その位相差により音源方向を推定できることから、3つ以上のマイクを使って三角測量の要領で音源位置を推定することも可能である。
図3は音声・映像相関解析部108の動作の原理を説明するための図である。入力された画像データ302は、視線方向推定モジュール314に送られ、ユーザがディスプレイの方を向いているかどうかの判定に用いられる。また、シーン分割モジュール318にも送られる。入力された音声データ304は、ワードスポットモジュール316、シーン分割モジュール318、および周波数解析モジュール320に送られる。
ワードスポットモジュール316では、出力映像データ118に付随して送られてくるキーワード情報308と音声データとを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定する。
シーン分割モジュール318では、振幅やスペクトルなどの情報によって音声データがシーン分割される。もっとも単純な手法としては、振幅が一定値以下である時間が一定時間以上続いたら、そこで一つのシーンが終わったと判定するものがある。より高度なシーン分割を行なうためには、聴覚情景解析(Auditory Scene Analysis)と呼ばれる分野の研究成果を活用することが可能である。聴覚情景解析に基づくシーン分割については、Bregman"Auditory Scene Analysis: Perceptual Organization of Sound"(MIT Press, 1994, ISBN0-262-52195-4)(非特許文献1)などの文献に詳しい。
一方、映像出力部116から送られてきた出力映像データ118も同じようにシーン分割される。一般に、映像出力部で出力される映像は、あらかじめ十分な労力をかけて製作されたものであるから、同時にシーンごとの切れ目の情報を付与しておくことが可能である。この場合、シーン分割は単にこの情報を読み出すだけで良い。また、何らかの理由で事前にシーン分割が為されていない場合には、これを自動的に行なうことも可能である。ビデオ等の映像を自動的にシーン分割する手法としては、上田他"IMPACT: An Interactive Natural-Motion-Picture Dedicated Multimedia Authoring System"(CHI'91,ACM,pp.343-350,1991)(非特許文献2)などの文献に示されたものが使用可能である。また、画像データ302を利用することができる場合には、このデータに対しても同様の手法を適用することによりシーン分割を行なうことが可能である。
こうして得られた画像データ、音声データ、出力映像データそれぞれのシーン分割結果をもとに、シーン照合モジュール322でこれらの照合関係を調べる。照合関係を調べる方法の詳細については後述する。音声データ304は、周波数解析モジュール320にも送られ、ここで音声としての様々なパラメータが抽出される。ここでいうパラメータとは、たとえば音声全体のパワー、特定の周波数帯域だけに限定したパワー、基本周波数などである。一方、出力映像データにもあらかじめこれらに対応するデータを付与しておき、両者を周波数照合モジュール324において比較し、相関を推定する。視線方向推定モジュール314、ワードスポットモジュール316、シーン照合モジュール322、周波数照合モジュール324によって得られた結果は、相関判定モジュール326に送られ、ここで個々の結果を総合して最終的な判断を下す。
図4は、ワードスポットモジュール316による相関推定の詳細を説明する図である。この方法のためには、映像に対してあらかじめキーワードを付与しておく。図の例で言うと、最初の部分に「冷蔵庫」、次の部分に「洗濯機」、最後の部分に「パソコン」というキーワードが付与されている。キーワードはこのように細かい部分ごとに異なってもよいし、映像全体に渡って同じものを使ってもよい。また、キーワードは必ずしも一つである必要は無い。実行時には、このキーワードを用い、該当する区間の音声に対してワードスポットを行なう。図にはその結果を丸印とバツ印で示してある。音声の中にキーワードが検出された部分に丸印、検出されなかった場合には区間全体にバツ印を示してある。この例では、最後の部分で「パソコン」というキーワードが検出されたので、ここでユーザが映像を見ながら話している可能性が高いと判断する。
図5は、シーン照合モジュール322において相関を調べる方法を図式化したものである。画像データと出力映像データ、もしくは音声データと出力映像データのシーン分割を比較し、両者で対応するシーン境界を見つけ、それらの時間軸上の位置がどれくらいずれているかを調べればよいが、その際、どちらか一方でシーン境界そのものが検出されないということが起こりうる。そのような状況にも対応するため、ダイナミックプログラミングにより最適な対応関係を見つける。図では、対応するシーン境界の位置がほぼ等しい場合を二重丸、近い場合を一重丸、遠い場合を三角、対応するシーン境界が無い場合をバツ印で表わしている。これら各々に対して適当な評価重みを与え、すべてのシーン境界についてそれらの値を加算することによって、最終的に音声データと映像データの相関の値を求めることができる。
図6は、周波数照合モジュール324において相関を調べる方法を図式化したものである。周波数解析によって得られた全パワー、特定帯域パワー、基本周波数などのパラメータを、あらかじめ出力映像データに付与された全パワー期待値、特定帯域パワー期待値、基本周波数期待値などのデータと比較し、類似度を求める。全帯域および個々の帯域に対してあらかじめ重み尺度を設定しておき、それぞれの類似度をこの重み尺度を用いて加算することにより、最終的に音声データと映像データの類似度を求めることができる。なお、出力映像データに対してこれらのデータを付与するためには、出力映像データを見ながら話していることがわかっている音声データのみを何らかの部で収集し、これらに対して周波数解析を行ない、その結果を平均すれば良い。また、本発明によるディスプレイシステムを実際に設置して音声データを収集し、その中で、出力映像データを注視している可能性が極めて高いと判定されたもののみを集めて同様の解析を行なうことによっても期待値を得ることができる。
図7は、相関判定モジュール326の動作のひとつの例を表わすフローチャートである。まず、視線方向推定を行ない、そこでユーザが画面の方を向いていると判定された場合には、「相関あり」を出力して終了する。そうでない場合には、次にワードスポットを行ない、キーワードが検出された場合には「相関あり」を出力して終了する。ここでも相関ありと判定されなかった場合、次にシーン照合を行ない、そこでの相関値があらかじめ設定した閾値よりも高い場合には、「相関あり」を出力して終了する。ここでも相関なしとなった場合には、周波数照合を行ない、ここで得られた相関の値が閾値より高い場合には、「相関あり」を出力して終了する。これらすべての判定で「NO」となった場合には、「相関なし」を出力して終了する。
図8は、相関判定モジュールのもうひとつの例を表わすフローチャートである。この例では、図7の例と異なり、視線方向推定、ワードスポット、シーン照合、周波数照合の四つを、それぞれ互いの結果に関係なく実行する。これら4つの処理は独立に行われるので、図の順序でなくてもよく、4つを並行して実行してもよい。それぞれの機能においては、相関の有無を二値で判定する代わりに、例えば0から100までのスコアで示す。次に、これら四つのスコアをあらかじめ設定した重みをつけて和を取り、全体でひとつのスコアとする。このスコアが事前に設定した閾値より大きければ相関あり、小さければ相関なしと判定して終了する。
図9は対象者属性解析部106の詳細を説明するための図である。入力された音声データ904(304)を元に、空間的属性解析906と属人的属性解析908の二つの流れに沿って解析が行なわれる。
空間的属性解析においては、複数のマイクからの入力に対して、振幅検出910と位相差検出912の二つのモジュールによって処理が行なわれ、それらの結果を元に位置判定914のモジュールがユーザの位置を推定する。このとき、マイク等の機器が実際にどのような位置関係で配置されているかを示す機器配置情報DB916を参照する。位置判定のもっとも単純な動作方法としては、位相差検出の結果を無視し、振幅検出の結果から、最も大きな振幅を示したマイクを選び、そのマイクの位置を機器配置情報DBで確認するというやり方がある。より精緻な方法としては、音のエネルギーが音源からの距離の2乗に反比例するという性質を利用し、振幅検出の結果から各マイクと音源との距離を推定することも可能である。また、音の伝達を平面波で近似できることから、位相差検出によって二つのマイクの間に到達した音の位相差を検出し、その音の波長と比較することによって、音源の方向を推定することもできる。これらの手法により得られる値は、雑音の影響などもあって必ずしも正確なものではないが、複数の推定結果を組み合わせることにより信頼度を増すことが可能である。この他、複数のマイクを用いた音源位置推定のアルゴリズムについては、例えば、小林他"複数マイク自由配置による複数話者位置推定"(電子情報通信学会論文誌A,Vol.J82-A,No.2,pp.193-200,1999)(非特許文献3)などの文献に詳しい。なお、画像データ302が使用可能な場合には、これを直接用いたユーザの位置判定も併用することが可能である。
一方、属人的属性解析においては、声の性質を解析することにより、ユーザ個々人に属する情報を取得する。ユーザ個々人に属する情報の例として、使用言語、性別、年齢などが挙げられる。これらは、言語識別918、性識別920、年令識別922のそれぞれのモジュールにおいて、あらかじめ作成しておいた言語別モデル924、性別モデル926、年代別モデル928などと入力音声を比較し、個々のモデルに対する類似度を計算した上で、最も類似度の高いカテゴリーを選択するという方法によって実現可能である。比較にあたっては、声に含まれる音韻パターンの推定を同時に行なうことにより精度を高めることができる。即ち、一般に良く用いられている隠れマルコフモデルによる音声認識を行なう際に、日本語音響モデルと英語音響モデル、男性音響モデルと女性音響モデル、十代音響モデルと二十代音響モデルと三十代音響モデル、といった具合に複数の音響モデルを平行して使用し、認識結果に対してより高い信頼度スコアを与えたモデルに相当する言語や性別、年代のカテゴリーを選択するという手法である。この中でも言語識別で高い精度を得るには手法の精緻化が必要となるが、言語識別の詳細なアルゴリズムに関しては、Zissman"Comparison of four approaches to automatic language identification of telephone speech"(IEEE Transactions on Speech and Audio Processing, Vol.4,No.1,pp.31-44, 1996)(非特許文献4)などの文献に詳しい。
次に、出力映像選択部116の動作について詳しく説明する。ここでは、対象者属性解析部および音声・映像相関解析部によって得られた結果に基づき、ユーザに対して最も効率的に情報を提供するための映像提示の方法を選択する。まず第一の例として、ユーザの使用言語がわかった場合には、映像に含まれる言語情報をその言語に変更する。また、映像に付加して音声が出力されている場合、出力音声の言語がユーザの使用言語と異なる場合に限り、ユーザの使用言語での字幕を追加するということも可能である。次に、ユーザの声と映像との相関が強いと判定された場合、ユーザが現在の映像に興味を持っていると考え、そこで示されている事柄に関し、より詳細な情報を提供する。逆にユーザが現在の映像に関心を持っていない場合には、概略的な情報提供のみを続けるか、もしくは何か別の項目に関する映像を提供する。ここで別の項目を選択する際に、ユーザの性別・年齢などがある程度推測できる場合には、そこから示される特定のユーザ層に興味を持ってもらえる可能性が高い情報を提供することも可能である。
このように画面全体で表示される単一の映像を選択するだけでなく、大きなディスプレイを分割して効果的に用いることも可能である。図10はそのような情報提供形態の例を示したものである。この例では、人間に比べて著しく大きなディスプレイには、パーソナルコンピューターのイメージ広告を映している。それに対し、左側および中央付近のユーザは関心を示していないが、右側付近のユーザが興味を持っていそうだと判定した場合、そのあたりの画面上に小さなサブウィンドウを生成し、そこに商品の詳細仕様を表示している。これにより、興味を持ったユーザには詳しい情報を、それ以外のユーザには全体のイメージ情報を提供することができる。
ユーザの注視度に基づいて表示映像を制御するためには、追加表示(あるいはデフォルトの映像に変えて表示)する情報・映像データとしては、出力映像選択部114からアクセス可能な記憶装置に、デフォルトの出力映像と予め対応付けて格納されているものを利用すればよい。また、ユーザの属性に応じて表示映像を制御するためには、追加表示(あるいはデフォルトの映像に変えて表示)する情報・映像データを、各属性に対応付けて記憶装置に格納しておくとよい。
音声・映像相関解析部や対象者属性解析部においては、常に一定の割合で間違った結果が得られることが予想されることから、そのような場合にもユーザに悪い印象を与えないような機能が存在することが望ましい。図11は、そのような機能を実現させるためのひとつの例を示すフローチャートである。ユーザが出力画像を注視していないと判定された場合、その直前では注視しているという判定であったならば、それまでと異なる映像を出力することになる。しかし、この判定が誤りであった場合、ユーザは注視していた情報を突然遮断されることになり、不快感を感じることとなる。そこで、このような場合には、タッチパネルによる入力機能を備えたディスプレイ画面に「戻る」ボタンを表示し、ユーザがこのボタンに触れた場合には、タッチパネルによりこれを検知し、この情報を出力映像選択部114に通知し、出力映像選択部において出力映像を元に戻す処理を行う。これによってユーザの不快感を低減させることが可能になる。なお、一定の時間にわたってこのボタンが触れられなかった場合には、上記のような誤判定は下されていないと考えられるので、ボタンを消去する。なお、ユーザ入力装置は、表示画面上のタッチパネル以外にも、表示画面とは別個の入力装置としてもよい。
図12は、類似の例として、対象者属性解析部において言語の識別を誤った場合に対処するための方法を示すフローチャートである。一般に、複数の言語に対応した情報提供システムにおいては、「日本語」「English」「中文」などのように、それぞれの言語で示された言語選択ボタンが用意されていることが多い。また、そのようなボタンを、タッチパネル機能を持つ画面上のボタンとして実現することもある。そこでそのような場合、言語識別により現在の設定言語と異なる言語が検知されたら、表示言語を変更すると同時に、言語選択ボタンを大きくして表示する。これによりユーザは、自動的に言語が変更されたことと、その変更が意に沿わなければボタンによって再度変更可能であることを容易に知ることができ、仮に自動的に変更された言語に対して不満であっても、速やかに所望の言語に再変更することができる。なお、図11の例の場合と同じく、一定時間にわたってこのボタンが触れられなかった場合には、誤判定は下されていないと見なして元に戻す。
次に、注視情報整理部110および通信部112の役目について詳しく説明する。本発明の実施により、表示した映像のどの部分に対してどのようなユーザが関心を持ったかという情報を得ることができる。それらの情報は、対象者属性解析部と音声・映像相関解析部の両方の出力を照らし合わせることにより得られる。このような情報は、映像を提供した者にとって極めて有益なものである。例えば、商品の販売の目的で広告映像を流した場合に、ユーザの関心の有無を知り、今後の商品開発に反映させることができる。また、広告媒体としてのディスプレイの価値を詳細に数値化できることから、広告使用の代金に反映させることもできる。そのような目的に用いるため、注視情報整理部により、映像のどの部分に対してどれくらいのユーザが関心を示したかという情報を取り出し、無駄な情報を取り除いて整理した後に、そうして得られた情報を通信部を用いて管理部署に送信する。
本発明は、公共空間などにおいて案内情報をより有効に提供するための装置に利用可能である。また、映像による広告情報の提供の効率化のために利用することも可能である。
本発明による各種方法を実行するためのシステムの一例を示す図。 音声入力部の実現形態の一例を表わす模式図。 音声と映像の相関を解析する方法の一例を表わす図。 ワードスポットによる相関解析の一例を表わす図。 シーン分割による相関解析の一例を表わす図。 周波数解析による相関解析の一例を表わす図。 相関判定の方法の一例を表わすフローチャート。 相関判定の方法の別の一例を表わすフローチャート。 対象者の属性を解析する方法の一例を表わす図。 本発明による情報提供形態の一例を表わす模式図。 音声・映像相関解析が誤った場合の対応の一例を表わすフローチャート。 対象者属性解析が誤った場合の対応の一例を表わすフローチャート。
符号の説明
102 音声を入力する部、104 画像を入力する部、106 対象者の属性を解析する部、108 音声と映像の相関を解析する部、110 得られた注視情報を整理する部、112 結果を別の装置等に伝えるための通信部、114 得られた結果に基づき出力映像を選択する部、116 映像を出力する部、118 映像出力部によって出力された映像データ、
302 入力された画像データ、304 入力された音声データ、306 出力映像データに付与されたキーワード情報、308 出力映像データに付与されたシーン情報、310 出力映像データに付与された周波数情報、312 視線方向を推定するモジュール、314 ワードスポットを行なうモジュール、316 シーン分割を行なうモジュール、318 周波数解析を行なうモジュール、320 シーン照合を行なうモジュール、322 周波数照合を行なうモジュール、324 最終的な相関判定を行なうモジュール、
902 空間的属性解析の処理、904 属人的属性解析の処理、906 振幅検出を行なうモジュール、908 位相差検出を行なうモジュール、910 位置判定を行なうモジュール、912 個々のマイク等の機器の配置情報のデータベース、914 言語識別を行なうモジュール
916 性識別を行なうモジュール、918 年齢識別を行なうモジュール、920 言語別の音声モデルデータ、922 性別の音声モデルデータ、924 年代別の音声モデルデータ。

Claims (8)

  1. 映像表示装置に表示される映像により情報を提供する方法であって、
    映像表示装置の周囲にいる人の音声を音声入力装置により入力する第1のステップと、
    演算部により、提供している映像の時間的変化と前記入力された音声の時間的変化の相関を調べることにより前記周囲にいる人の注視度を判断する第2のステップと、を備え、
    前記第2のステップとして、
    前記入力された音声と前記映像表示装置に表示される映像データに付随して送られてくるキーワード情報とを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定するキーワード判定ステップ、
    前記入力された音声及び前記映像データをシーン分割し、シーン分割された音声データのシーン境界の時間軸上の位置と、シーン分割された映像データのシーン境界の時間軸上の位置との時間的相関を判定するシーン照合ステップ、および、
    前記入力された音声を周波数解析して全パワー、特定帯域パワー、基本周波数のパラメータを取得し、前記映像データに付随して送られてくる全パワー期待値、特定帯域パワー期待値、基本周波数期待値のデータと比較して類似度を求める周波数照合ステップ、
    の3種類のステップのうち一つ以上を含む情報提供方法。
  2. 請求項1の情報提供方法であって、
    前記演算部により、前記注視度に基づいて次に出力する映像を記憶部に格納された映像から選択する第3のステップを有することを特徴とする情報提供方法。
  3. 請求項2記載の情報提供方法であって、
    前記第1のステップにおいて異なる位置に設置される複数の音声入力装置で音声を入力し、前記演算部により該複数の音声入力装置からの入力に基づいて前記周囲にいる人の位置を推定する第4のステップを有し、
    前記第3のステップでは、前記推定された位置に対応する前記映像表示装置の表示画面上の位置に、前記制御の結果である映像を、前記制御結果以外の映像と重ねて表示することを特徴とする情報提供方法。
  4. 請求項2記載の情報提供方法であって、
    前記注視度に基づいて出力した映像に対する操作入力を入力装置から受け付ける第5のステップと、該操作入力に基づいて前記次に出力する映像を前記記憶部に格納された映像から選択する第6のステップを有することを特徴とする情報提供方法。
  5. 映像により情報を提供する映像表示部と、該映像表示部の周囲にいる人の音声を入力する音声入力部と、提供している映像の時間的変化と前記入力された音声の時間的変化の相関を調べることにより前記周囲にいる人の注視度を判断する演算部と、を備え、
    前記演算部には、
    前記入力された音声と前記映像表示部に表示される映像データに付随して送られてくるキーワード情報とを照らし合わせ、音声データ中にキーワードが含まれるかどうかを判定するワードスポット部、
    前記入力された音声及び前記映像データをシーン分割し、シーン分割された音声データのシーン境界の時間軸上の位置と、シーン分割された映像データのシーン境界の時間軸上の位置との時間的相関を判定するシーン照合部、および、
    前記入力された音声を周波数解析して全パワー、特定帯域パワー、基本周波数のパラメータを、前記映像データに付随して送られてくる全パワー期待値、特定帯域パワー期待値、基本周波数期待値のデータと比較して類似度を求める周波数照合部、
    のうち一つ以上を含む情報提供装置。
  6. 請求項5記載の情報提供装置であって、更に記憶部を有し、前記演算部は、前記注視度に基づいて次に出力する映像を前記記憶部に格納された映像から選択することを特徴とする情報提供装置。
  7. 請求項6記載の情報提供装置であって、前記音声入力部は、異なる位置に設置される複数のマイクを含み、
    前記演算部は、前記異なる位置に設置される複数の音声入力装置からの入力に基づいて前記周囲にいる人の位置を推定し、前記推定された位置に対応する前記映像表示部の表示画面上の位置に、前記制御の結果である映像を、前記制御結果以外の映像と重ねて表示するよう制御を行うことを特徴とする情報提供装置。
  8. 請求項6記載の情報提供装置であって、前記注視度に基づいて出力した映像に対する操作入力を受け付けるユーザ入力部を有し、前記演算部は、該操作入力に基づいて前記次に出力する映像を前記記憶部に格納された映像から選択する情報提供装置。
JP2005108145A 2005-04-05 2005-04-05 情報提供方法および情報提供装置 Expired - Fee Related JP4736511B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005108145A JP4736511B2 (ja) 2005-04-05 2005-04-05 情報提供方法および情報提供装置
CN2006100024251A CN1848106B (zh) 2005-04-05 2006-01-27 信息提供方法及信息提供装置
US11/342,556 US20060224438A1 (en) 2005-04-05 2006-01-31 Method and device for providing information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005108145A JP4736511B2 (ja) 2005-04-05 2005-04-05 情報提供方法および情報提供装置

Publications (3)

Publication Number Publication Date
JP2006285115A JP2006285115A (ja) 2006-10-19
JP2006285115A5 JP2006285115A5 (ja) 2008-03-06
JP4736511B2 true JP4736511B2 (ja) 2011-07-27

Family

ID=37071703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005108145A Expired - Fee Related JP4736511B2 (ja) 2005-04-05 2005-04-05 情報提供方法および情報提供装置

Country Status (3)

Country Link
US (1) US20060224438A1 (ja)
JP (1) JP4736511B2 (ja)
CN (1) CN1848106B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090132275A1 (en) * 2007-11-19 2009-05-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Determining a demographic characteristic of a user based on computational user-health testing
JP4479801B2 (ja) * 2008-01-30 2010-06-09 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
US9110890B2 (en) * 2008-02-15 2015-08-18 International Business Machines Corporation Selecting a language encoding of a static communication in a virtual universe
US8577685B2 (en) * 2008-10-24 2013-11-05 At&T Intellectual Property I, L.P. System and method for targeted advertising
JP5595027B2 (ja) * 2009-12-11 2014-09-24 三菱電機株式会社 情報表示処理装置
US8675981B2 (en) * 2010-06-11 2014-03-18 Microsoft Corporation Multi-modal gender recognition including depth data
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
JP5668017B2 (ja) * 2012-05-11 2015-02-12 東芝テック株式会社 情報提供装置とそのプログラムおよび情報提供システム
US10111013B2 (en) * 2013-01-25 2018-10-23 Sense Intelligent Devices and methods for the visualization and localization of sound
US9105026B1 (en) 2013-09-30 2015-08-11 Square, Inc. Rolling interface transition for mobile display
JP2015111214A (ja) * 2013-12-06 2015-06-18 株式会社リコー 情報処理システム、情報処理装置、プロジェクタ、情報処理方法、及びプログラム
US9635392B2 (en) 2014-04-16 2017-04-25 Sony Corporation Method and system for displaying information
US9324065B2 (en) 2014-06-11 2016-04-26 Square, Inc. Determining languages for a multilingual interface
US10496970B2 (en) 2015-12-29 2019-12-03 Square, Inc. Animation management in applications
WO2017163719A1 (ja) * 2016-03-23 2017-09-28 日本電気株式会社 出力制御装置、出力制御方法、およびプログラム
US10430835B2 (en) * 2016-04-14 2019-10-01 Google Llc Methods, systems, and media for language identification of a media content item based on comments
JP6422477B2 (ja) * 2016-12-21 2018-11-14 本田技研工業株式会社 コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供システム
US10380579B1 (en) 2016-12-22 2019-08-13 Square, Inc. Integration of transaction status indications
JP6600374B2 (ja) * 2018-03-01 2019-10-30 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
US11178465B2 (en) 2018-10-02 2021-11-16 Harman International Industries, Incorporated System and method for automatic subtitle display
JP6923029B1 (ja) * 2020-03-17 2021-08-18 大日本印刷株式会社 表示装置、表示システム、コンピュータプログラム及び表示方法
CN112632622B (zh) * 2020-12-31 2022-08-26 重庆电子工程职业学院 电子档案安全管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110417A (ja) * 1992-09-28 1994-04-22 Ricoh Co Ltd 販売支援装置
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
WO2004064393A1 (ja) * 2003-01-15 2004-07-29 Matsushita Electric Industrial Co., Ltd. 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP2005341138A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69830295T2 (de) * 1997-11-27 2005-10-13 Matsushita Electric Industrial Co., Ltd., Kadoma Steuerungsverfahren
US7120880B1 (en) * 1999-02-25 2006-10-10 International Business Machines Corporation Method and system for real-time determination of a subject's interest level to media content
US6873710B1 (en) * 2000-06-27 2005-03-29 Koninklijke Philips Electronics N.V. Method and apparatus for tuning content of information presented to an audience
JP3644502B2 (ja) * 2001-02-06 2005-04-27 ソニー株式会社 コンテンツ受信装置およびコンテンツ呈示制御方法
US8139793B2 (en) * 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
WO2004064022A1 (en) * 2003-01-14 2004-07-29 Alterface S.A. Kiosk system
JP2004280673A (ja) * 2003-03-18 2004-10-07 Takenaka Komuten Co Ltd 情報提供装置
US7501995B2 (en) * 2004-11-24 2009-03-10 General Electric Company System and method for presentation of enterprise, clinical, and decision support information utilizing eye tracking navigation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110417A (ja) * 1992-09-28 1994-04-22 Ricoh Co Ltd 販売支援装置
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
WO2004064393A1 (ja) * 2003-01-15 2004-07-29 Matsushita Electric Industrial Co., Ltd. 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP2005341138A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Also Published As

Publication number Publication date
JP2006285115A (ja) 2006-10-19
CN1848106A (zh) 2006-10-18
CN1848106B (zh) 2011-03-23
US20060224438A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
JP4736511B2 (ja) 情報提供方法および情報提供装置
CN109446876B (zh) 手语信息处理方法、装置、电子设备和可读存储介质
US11423909B2 (en) Word flow annotation
US20190371327A1 (en) Systems and methods for operating an output device
JP7118697B2 (ja) 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
JP6737398B2 (ja) 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法
US20220262091A1 (en) Image alignment method and device therefor
CN112653902A (zh) 说话人识别方法、装置及电子设备
CN112632349B (zh) 展区指示方法、装置、电子设备及存储介质
US20230048330A1 (en) In-Vehicle Speech Interaction Method and Device
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
JP2012216167A (ja) 環境地図生成装置及びプログラム
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20200098012A1 (en) Recommendation Method and Reality Presenting Device
WO2010140254A1 (ja) 映像音声出力装置及び音声定位方法
WO2021070681A1 (ja) 関心度評価システムおよび関心度評価方法
CN111554269A (zh) 一种语音取号方法、系统及存储介质
WO2024009748A1 (ja) 情報処理装置、情報処理方法、および記録媒体
JP2020086808A (ja) 情報処理装置、広告出力方法、及びプログラム
US20230101693A1 (en) Sound processing apparatus, sound processing system, sound processing method, and non-transitory computer readable medium storing program
US20230377558A1 (en) Gaze-based and augmented automatic interpretation method and system
KR101914665B1 (ko) 피사체 자동 인식기능을 통한 부가정보 표시 영상 제공장치
KR20230045814A (ko) 인공 지능 기반의 양방향 안내 장치 및 방법
JP2023115649A (ja) 分析システム、情報処理装置、分析方法、及びプログラム
CN113903335A (zh) 一种用户意图识别方法、用户意图识别装置和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R151 Written notification of patent or utility model registration

Ref document number: 4736511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees