JP2017146672A

JP2017146672A - 画像表示装置、画像表示方法、画像表示プログラム及び画像表示システム

Info

Publication number: JP2017146672A
Application number: JP2016026191A
Authority: JP
Inventors: 高橋　潤; Jun Takahashi; 潤高橋; 田中　正清; Masakiyo Tanaka; 正清田中; 村瀬　健太郎; Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2017-08-24

Abstract

【課題】説明箇所の推定精度を向上させること。【解決手段】画像表示装置１０は、話速を算出する算出部と、音声認識により得られたキーワードと、話速とからキーワードの発話開始時刻を推定する第１推定部と、視線検出により検出された視線位置のうちキーワードの発話開始時刻に検出された視線位置とキーワードとに基づいて、表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する第２推定部と、説明箇所に対応する領域のハイライト表示を実行する表示制御部とを有する。【選択図】図１

Description

本発明は、画像表示装置、画像表示方法、画像表示プログラム及び画像表示システムに関する。

会議、講演やパンフレット紹介などの各種の場面では、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書が共有された状態で会話によるコミュニケーションが行われる場合がある。

例えば、会話によるコミュニケーションを支援する技術の一例として、音声認識を活用することにより、共有文書に含まれる内容のうち会話の内容に対応する部分を提示するシステムが実現されている。この他、視線検出の結果を利用して、共有文書に含まれる内容のうち会話の内容に対応する部分を提示することも提案されている。

特開２０１０−２５６３９１号公報特開２００９−２０６９２４号公報特開２０１４−２２２２９０号公報特開２０１０−２６２４１３号公報特開２０１４−０８５９９８号公報特開２００４−００７３５８号公報特開２００５−３３８１７３号公報

このように、音声認識または視線検出のいずれかが個別に利用することが提案されている。これら音声認識及び視線検出を併用することにより、話者が発話により説明を行う箇所を推定する精度を向上させることも考えられる。例えば、音声認識の結果として得られるキーワードに対応する箇所のうち視線検出により得られた視線の位置と最も近い箇所を説明箇所として抽出することが考えられる。

しかしながら、音声認識及び視線検出を併用する場合、説明箇所の推定精度が低下する場合がある。

すなわち、音声認識では、キーワードに対応する表音文字列の発話が終了した時点で始めて話者により発話されたキーワードが認識される。このように、キーワードの発話が終了した時点では、必ずしもキーワードに対応する箇所が話者によって注視されているとは限らない。なぜなら、一例として、話者が次に説明する箇所を目視により先行して確認しながら、それよりも前の箇所を読み上げて説明する状況も起こり得るからである。

このような状況の下、発話中の箇所および次に発話予定の箇所の間で同一のキーワードが出現する場合、視線検出では次に発話予定の箇所から視線が検出される。この結果、発話中の箇所が説明箇所として抽出されず、誤って次に発話予定の箇所が説明箇所として抽出されることがある。

１つの側面では、本発明は、説明箇所の推定精度を向上させることができる画像表示装置、画像表示方法、画像表示プログラム及び画像表示システムを提供することを目的とする。

一態様では、画像表示装置は、話速を算出する算出部と、音声認識により得られたキーワードと、前記話速とから前記キーワードの発話開始時刻を推定する第１推定部と、視線検出により検出された視線位置のうち前記キーワードの発話開始時刻に検出された視線位置と前記キーワードとに基づいて、表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する第２推定部と、前記説明箇所に対応する領域のハイライト表示を実行する表示制御部とを有する。

説明箇所の推定精度を向上させることができる。

図１は、実施例１に係る画像表示装置の機能的構成を示すブロック図である。図２は、視線の検出時刻とキーワードの認識時刻の関係の一例を示す図である。図３は、実施例１に係る抽出キーワードデータの生成処理の手順を示すフローチャートである。図４は、実施例１に係る音声認識処理の手順を示すフローチャートである。図５は、実施例１に係る同期データの生成処理の手順を示すフローチャートである。図６は、実施例１に係る表示制御処理の手順を示すフローチャートである。図７は、視線の移動量の一例を示す図である。図８は、実施例２に係る画像表示システムの構成例を示す図である。図９は、画像表示サービスの会議システムへの適用例を示す図である。図１０は、画像表示サービスの会議システムへの適用例を示す図である。図１１は、実施例１及び実施例２に係る画像表示プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る画像表示装置、画像表示方法、画像表示プログラム及び画像表示システムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［画像表示装置が搭載する機能の一側面］
図１は、実施例１に係る画像表示装置の機能的構成を示すブロック図である。図１に示す画像表示装置１０は、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書に含まれるページ画面、例えばスライドのうち、話者の説明箇所に対応する部分をハイライト表示させる画像表示サービスを提供する。

かかる画像表示装置１０では、上記の説明箇所を推定するために、音声認識および視線検出が併用される。このように音声認識および視線検出が併用される構成の下、画像表示装置１０は、画像表示サービスの一環として、音声認識の結果としてキーワードが認識された時刻と話速とからキーワードの発話開始時刻を逆算し、当該発話開始時刻における視線検出位置とキーワードとに基づいて説明箇所を推定する。

このようにキーワードの発話開始時刻を逆算するのは、キーワードの発話が開始された時点では話者がキーワードに対応する説明箇所を注視している公算が高いからである。すなわち、一例として、説明を行う話者が説明箇所を先行して黙読してから説明箇所を音読する場合、キーワードの発話開始時点とキーワードの発話終了時点とでは、次のような違いがある。例えば、たとえ黙読の速度が音読の速度よりも大きいといえども、キーワードの発話開始時点では、説明箇所の黙読が終了しておらず、発話と視線が同じ説明箇所に向けられる可能性が高い。一方、キーワードの発話が終了した時点では、黙読の速度が音読の速度よりも大きいので、黙読が次の説明箇所に遷移するのに伴って視線も次の説明箇所に遷移している可能性が高い。

図２は、視線の検出時刻とキーワードの認識時刻の関係の一例を示す図である。図２の上段に示す時間軸には、視線検出に関する時間経過が示されており、話者の視線位置が検出された時刻のうち視線位置が説明箇所に始めて含まれた時刻が抜粋して白丸でプロットされると共に説明箇所に対応するインデックスが吹き出しで示されている。また、図２の下段に示す時間軸には、音声認識に関する時間経過が示されており、話者が発話することにより認識されたキーワードに対応する説明箇所のインデックスが丸印の中に記入されている。なお、図２の例では、説明箇所「Ａ」、説明箇所「Ｂ」、説明箇所「Ｃ」の順にスライドの説明がなされる場合が想定されている。

ここで、視線検出では、視線検出が実行されるサンプリング周期ごとに視線位置が得られる。例えば、カメラ１により撮像される画像から話者の視線位置が検出される場合、画像のフレームレートごとに視線位置が得られる。一方、音声認識では、キーワードに対応する表音文字列の発話が終了するまではキーワードが認識されない。すなわち、音声認識が実行されるサンプリング周期ごとにキーワードの認識結果が得られる訳ではなく、キーワードに対応する表音文字列の発話が終了して始めてキーワードの認識結果が得られる。

このような状況の下、図２に示す例では、時刻ｔ１で視線位置が説明箇所「Ａ」内で検出された後に時刻ｔ２で視線位置が説明箇所「Ａ」内で検出される一方で、時刻ｔ３で説明箇所「Ａ」に含まれるキーワードが認識される。これら視線検出および音声認識における時刻ｔ１及び時刻ｔ３の時間差は、音声認識および視線検出を単純に組み合わせた場合、説明箇所の推定精度の低下をまねく場合がある。

例えば、時刻ｔ３では、話者が次の説明箇所「Ｂ」を目視により先行して確認しながら、その前の説明箇所「Ａ」を読み上げて説明している状態であるにもかかわらず、説明箇所「Ａ」及び説明箇所「Ｂ」の間で同一のキーワードが出現する場合、説明箇所「Ａ」に含まれるキーワードが認識された時刻ｔ３に最も近い時刻ｔ２に検出された視線位置が含まれる説明箇所「Ｂ」を組み合わせて推定が行われるおそれがある。

一方、説明箇所「Ａ」及び説明箇所「Ｂ」の間で同一のキーワードが出現する場合であっても、説明箇所「Ａ」に含まれるキーワードの発話が開始された時点では、説明箇所「Ａ」の黙読が終了しておらず、説明箇所「Ａ」に視線を向けている可能性が高いので、キーワードの発話開始時刻では、発話と視線が同じ説明箇所に向けられる可能性が高い。

このことから、発話開始時刻における視線検出位置とキーワードとに基づいて説明箇所を推定することで、発話と視線が同じ説明箇所に向けられた公算が高いタイミングの音声認識結果および視線検出結果を説明箇所の推定に用いることができる。したがって、説明箇所の推定精度を向上させることができる。

ここで、以下では、一例として、上記のハイライト表示に関する機能がプレゼンテーションソフトにアドオンされる場合を想定し、当該プレゼンテーションソフトを用いて作成された文書ファイルが含む１または複数のスライドを表示装置５に表示させることによってプレゼンテーションが進行される場合を想定する。かかるスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像装置で撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。

［周辺機器］
図１に示すように、画像表示装置１０には、カメラ１と、マイク３と、表示装置５と、入力装置７とが接続される。これらマイク３、表示装置５及び入力装置７などの周辺機器と、画像表示装置１０との間は、有線または無線により接続される。

カメラ１は、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を搭載する撮像デバイスである。

一実施形態として、カメラ１は、視線検出用の画像を撮像するのに用いられる。ここでは、視線検出の目標とする話者の一例としてプレゼンタを想定し、表示装置５の一例としてプロジェクタがスクリーンへスライドの画像を投影することにより表示を実現する場合を想定する。この場合、カメラ１は、プレゼンタの顔の目の部分、すなわち角膜反射および瞳孔を所定の画素以上で撮像できる位置に設置される。このようなカメラ１の設置状況の下、カメラ１は、カメラ１の近傍に配置された図示しない光源を制御することによって被写体に赤外線を照射させ、被写体からの反射光を受光した上でデジタル信号に変換された被写体の画像を後述の視線検出部１５ｃへ出力する。このとき、被写体に利用者の眼球が含まれる場合には、眼球からの光の反射がカメラ１によって捉えられ、眼球の瞳孔部分と、角膜反射が他の部分よりも明るく写った画像を得ることができる。

マイク３は、音声を電気信号に変換する装置である。ここで言う「マイク」は、マイクロフォンの略称である。

例えば、マイク３は、話者、例えばプレゼンテーションを実施するプレゼンタに装着させることができる。この場合、ヘッドセット型やタイピン型のマイクをプレゼンタの身体や衣服の所定位置に装着させたり、ハンド型のマイクをプレゼンタに携帯させたりすることができる。また、マイク３は、プレゼンタの発話が集音できる範囲の所定位置に設置することもできる。この場合、マイク３には、取付け型や据置き型のマイクを採用することもできる。これらいずれの場合においても、マイク３には、任意のタイプの指向性を持つマイクを採用できるが、プレゼンタの発話以外の音声、例えば聴講者等の発話や騒音などの雑音が集音されるのを抑制するために、マイクの感度をプレゼンタの発声方向に限定することもできる。なお、マイク３には、ダイナミック型、エレクトレットコンデンサ型、コンデンサ型などの任意の変換方式を採用することができる。このマイク３に音声を採取することにより得られたアナログ信号は、デジタル信号へ変換された上で画像表示装置１０へ入力される。

表示装置５は、各種の情報を表示する装置である。

例えば、表示装置５には、発光により表示を実現する液晶ディスプレイや有機ＥＬ（electroluminescence）ディスプレイなどを採用することもできるし、投影により表示を実現するプロジェクタを採用することもできる。また、表示装置５の設置台数は、必ずしも１台に限定されずともよく、複数の台数であってかまわない。以下では、一例として、プレゼンテーションの参加者であるプレゼンタ及び聴講者の両者が閲覧する共用の表示装置としてプロジェクタ及びプロジェクタが投影する画像を映すスクリーンが実装される場合を想定する。

この表示装置５は、一例として、画像表示装置１０からの指示にしたがってプレゼンテーション画面を表示する。例えば、表示装置５は、画像表示装置１０上で動作するプレゼンテーションソフトが開く文書ファイルのスライドを表示する。この場合、表示装置５は、文書ファイルが含むスライドのうちプレゼンタが入力装置７を介して指定する任意のスライドを表示させることもできるし、プレゼンテーションソフトが有するスライドショーの機能がＯＮ状態に設定された場合、各スライドが作成されたページ順に文書ファイルが含むスライドを切り替えて表示させることもできる。

入力装置７は、各種の情報に対する指示入力を受け付ける装置である。

例えば、表示装置５がプロジェクタとして実装される場合、スクリーンに映し出されたスライド上の位置を指し示すレーザポインタを入力装置７として実装することができる。すなわち、レーザポインタの中には、スライドのページを進めたり、戻したりする各種のボタンなどの操作部が設けられたリモコン機能付きのレーザポインタも存在する。このリモコン機能付きのレーザポインタが有する操作部を入力装置７として援用することもできる。この他、マウスやキーボードを入力装置７として採用したり、レーザポインタによって指し示されたポインタの位置のセンシング、プレゼンタの視線検出やジェスチャ認識を行うためにスクリーンまたはプレゼンタの所定の部位が撮像された画像を入力する画像センサを入力装置７として採用することもできる。なお、表示装置５が液晶ディスプレイとして実装される場合、入力装置７には、液晶ディスプレイ上に貼り合わせられたタッチセンサを採用することもできる。

この入力装置７は、一例として、画像表示装置１０上でプレゼンテーションソフトに実行させる文書ファイルの指定、スライドのページを進める操作やスライドのページを戻す操作などを受け付ける。このように入力装置７を介して受け付けられる操作は、画像表示装置１０へ出力されることになる。

画像表示装置１０は、上記の画像表示サービスを実行するコンピュータである。

一実施形態として、画像表示装置１０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、画像表示装置１０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。

なお、本実施例では、あくまで一例として、画像表示装置１０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで上記の画像表示サービスを提供する場合を想定する。詳細は後述するが、上記の画像表示サービスは、スタンドアローンで提供される実装に限定されない。例えば、プレゼンテーションソフトを実行するクライアントに対し、上記の画像表示サービスを提供するサーバを設けることによってクライアントサーバシステムとして構築することができる。この他、プレゼンテーションソフトをサーバに実行させ、その実行結果をサーバがクライアントへ伝送して表示させるシンクライアントシステムとして構築したりすることもできる。

［画像表示装置１０の構成］
続いて、本実施例に係る画像表示装置１０の機能的構成について説明する。図１に示すように、画像表示装置１０は、入出力Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、データの入出力の関係を表す実線が示されているが、図１には、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。

入出力Ｉ／Ｆ部１１は、マイク３、表示装置５及び入力装置７などの周辺機器との間で入出力を行うインタフェースである。

一実施形態として、入出力Ｉ／Ｆ部１１は、入力装置７から入力された各種の操作を制御部１５へ出力する。また、入出力Ｉ／Ｆ部１１は、制御部１５から出力されたスライドの画像データを表示装置５へ出力したり、スライドに含まれる領域に対するハイライト指示またはそのキャンセル指示を表示装置５へ出力したりする。また、入出力Ｉ／Ｆ部１１は、マイク３から入力された音声データを制御部１５へ出力する。

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）やプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部１３は、画像表示装置１０における主記憶装置として実装される。例えば、記憶部１３には、各種の半導体メモリ素子、例えばＲＡＭ（Random Access Memory)やフラッシュメモリを採用できる。また、記憶部１３は、補助記憶装置として実装することもできる。この場合、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などを採用できる。

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、文書データ１３ａ、抽出キーワードデータ１３ｂ、認識キーワードデータ１３ｃ、視線データ１３ｄ及び同期データ１３ｅを記憶する。なお、上記の文書データ１３ａ以外の抽出キーワードデータ１３ｂ、認識キーワードデータ１３ｃ、視線データ１３ｄ及び同期データ１３ｅは、各データが参照または登録される場面で併せて説明することとする。また、記憶部１３には、上記のデータ以外にも、他の電子データ、例えばハイライト表示に関する定義データなども併せて記憶することもできる。

文書データ１３ａは、文書に関するデータである。

一実施形態として、文書データ１３ａには、プレゼンテーションソフトを用いて１または複数のスライドが作成された文書ファイルを採用できる。かかるスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像デバイスで撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。このように、テキスト以外のコンテンツには、音声認識によるキーワード検索を実現するために、プレゼンテーションの開始前までに当該コンテンツの説明語句や説明文などの文字列を含むメタ情報を付与しておくことができる。

制御部１５は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部１５は、中央処理装置、いわゆるＣＰＵ（Central Processing Unit）として実装される。なお、制御部１５は、必ずしも中央処理装置として実装されずともよく、ＭＰＵ（Micro Processing Unit）やＤＳＰ（Digital Signal Processor）として実装されることとしてもよい。また、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

制御部１５は、各種のプログラム、例えば上記の画像表示サービスに対応する機能がアドオンされたプレゼンテーションソフトを実行することによって下記の処理部を仮想的に実現する。例えば、制御部１５は、図１に示すように、抽出部１５ａと、音声認識部１５ｂと、視線検出部１５ｃと、話速算出部１５ｄと、対応付け部１５ｅと、推定部１５ｆと、表示制御部１５ｇとを有する。

抽出部１５ａは、文書ファイルに含まれるスライドから音声認識で用いる辞書データに登録する単語を抽出キーワードデータ１３ｂとして抽出する処理部である。

一実施形態として、抽出部１５ａは、上記の抽出キーワードデータ１３ｂを抽出する処理を自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

かかる抽出キーワードデータ１３ｂの生成について説明すると、抽出部１５ａは、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち保存が実行された文書ファイルあるいはプレゼンテーションの前処理の実行指示を受け付けた文書ファイルを読み出す。ここでは、一例として、抽出部１５ａが記憶部１３から文書ファイルを読み出す場合を例示したが、文書ファイルの入手経路はこれに限定されない。例えば、抽出部１５ａは、ハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから文書ファイルを取得することもできる。また、抽出部１５ａは、外部装置からネットワークを介して受信することによって文書ファイルを取得することもできる。

続いて、抽出部１５ａは、先に読み出した文書ファイルに含まれるスライドを複数の領域へ分割する。例えば、抽出部１５ａは、一文、行、段落などの単位でスライドを分割する。この場合、抽出部１５ａは、スライドが含む文字列を走査して、スペース、句点または改行に対応する区切り文字を検出し、当該区切り文字を領域の境界に設定する。かかる境界を前後に、抽出部１５ａは、スライドが含む文字列を区切る。これによって、スライドが複数の領域へ区切り文字ごとに分割される。その上で、抽出部１５ａは、スライドの分割によって得られた領域に当該領域を識別するインデックスを割り当てる。なお、ここでは、スライドを自動的に分割する場合を例示したが、入力装置７等を介して領域の境界を指定させることによってスライドを手動設定で分割することとしてもかまわない。

スライドの分割後に、抽出部１５ａは、当該スライドに含まれる複数の領域のうち領域を１つ選択する。続いて、抽出部１５ａは、先に選択された領域が含む文字列に対し、自然言語処理を実行することによって単語及びその読みを抽出する。例えば、抽出部１５ａは、領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語及び単語の読みを抽出する。その後、抽出部１５ａは、スライドが含む領域が全て選択されるまで上記の単語及び単語の読みの抽出を繰り返し実行する。その上で、抽出部１５ａは、単語、単語の読み及び単語が含まれる領域のインデックスが対応付けられた抽出キーワードデータ１３ｂを記憶部１３へ登録する。

スライドの分割後に、抽出部１５ａは、当該スライドに含まれる複数の領域のうち領域を１つ選択する。続いて、抽出部１５ａは、先に選択された領域が含む文字列に対し、自然言語処理を実行することによって単語を抽出する。例えば、抽出部１５ａは、領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語や、文節を形成する単語などを抽出する。そして、抽出部１５ａは、先に抽出された各単語に当該単語が含まれる領域に割り当てられたインデックスを付与する。その後、抽出部１５ａは、スライドが含む領域が全て選択されるまで上記の単語の抽出及び上記のインデックスの付与を繰返し実行する。

このようにして全ての領域から単語が抽出された後に、抽出部１５ａは、スライドに含まれる単語ごとに当該単語ｋの文書中の出現回数を算出する。かかる文書中の出現回数は、一例として、単語ｋが文書中に出現する回数を集計することによって算出される。その上で、抽出部１５ａは、単語ｋ、インデックスｉｄｘ及び単語ｋの文書中の出現回数が対応付けられた抽出キーワードデータ１３ｂを記憶部１３へ登録する。

音声認識部１５ｂは、音声認識を実行する処理部である。

一実施形態として、音声認識部１５ｂは、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、マイク３から所定時間長の音声信号が入力されるまで待機する。例えば、少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるのを待機する。そして、音声認識部１５ｂは、マイク３から所定時間長の音声信号が入力される度に、当該音声信号にワードスポッティングなどの音声認識を実行する。このとき、音声認識部１５ｂは、記憶部１３に記憶された抽出キーワードデータ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出キーワードデータ１３ｂをワードスポッティングに適用する。これによって、音声認識部１５ｂは、プレゼンタの発話の中に表示中のスライドに含まれる各領域から抽出された単語が存在するか否かを認識する。そして、音声認識部１５ｂは、音声信号から単語の読みが認識された場合、当該単語及びその単語が認識された時間が対応付けられた認識キーワードデータ１３ｃを記憶部１３へ登録する。なお、同一の単語が時間経過に伴って複数回にわたって認識される場合には、最後、すなわち最新に認識された時刻が記憶部１３へ登録される。

これら一連の動作により、音声認識部１５ｂは、表示中であるスライドの中でプレゼンタが説明中である可能性が高い単語を認識する。以下では、抽出キーワードデータ１３ｂに含まれる単語のことを「抽出キーワード」と記載すると共に、認識キーワードデータ１３ｃに含まれる単語のことを「認識キーワード」と記載し、互いのラベルを区別する場合がある。

視線検出部１５ｃは、視線検出を実行する処理部である。

一実施形態として、視線検出部１５ｃは、カメラ１から画像が取得される度に、当該画像に角膜反射法などのアルゴリズムを適用する。具体的には、視線検出部１５ｃは、カメラ１から取得された画像から楕円状の眼球の瞳孔の中心位置及び角膜の曲率中心を結ぶ視線方向、いわゆる視線ベクトルを検出する。その上で、視線検出部１５ｃは、先に検出された視線ベクトルから表示装置５のスクリーン上の注視点、例えばスクリーン上の座標を算出する。ここでは、あくまで一例として、角膜反射法を用いて視線検出を実現する場合を例示したが、これ以外の方法を用いて視線検出を実現することもできる。例えば、視線検出部１５ｃは、表示装置５のスクリーンを分割し、分割した領域を見る眼の形状を学習しておき、カメラ１から入力される被写体の画像から検出される眼の形状とテンプレートマッチングを実行することによって視線方向を検出することもできる。また、視線検出部１５ｃは、プレゼンタが装着するヘッドセットによって検出された視線方向を取得することとしてもかまわない。

このように注視点が算出された後、視線検出部１５ｃは、視線検出が実行された時刻および視線検出の結果として得られた注視点が対応付けられたエントリを視線データ１３ｄの１レコードとして記憶部１３へ追加登録する。以下では、音声認識部１５ｂによりキーワードが認識される時刻と、視線検出部１５ｃにより注視点が検出された時刻とを区別する観点から、前者のことを「認識時刻」と記載すると共に、後者のことを「検出時刻」と記載する場合がある。

なお、図１には、視線検出部１５ｃがソフトウェアにより実装される場合を例示したが、制御部１５等のプロセッサとは別のハードウェアとして実装することもできる。例えば、視線検出部１５ｃに対応する機能を有するマイコン等とカメラ１とが一体で形成された小型視線センサとして実装することもできる。

話速算出部１５ｄは、話速を算出する処理部である。

一実施形態として、話速算出部１５ｄは、記憶部１３に記憶された認識キーワードデータ１３ｃに対する更新の有無を監視する。そして、話速算出部１５ｄは、認識キーワードデータ１３ｃに新たな認識キーワードが追加される度に、話者の話速を算出する。例えば、話速算出部１５ｄは、当該認識キーワードが記憶部１３に登録された時点から過去の所定期間、例えば３秒間の音声データに含まれる母音数をもとに、単位時間、例えば１秒間あたりに発話されたモーラ数を「話速」として算出する。このように、話速算出部１５ｄは、認識キーワードが追加される度に話速を逐次的に算出する。これによって、一側面として、話者による説明の速度が変化してもそれに追従して上記の発話開始時刻を推定することが可能になる。

なお、ここでは、一例として、単位時間あたりに発話されたモーラ数を話速として算出する場合を例示したが、話速の算出方法はこれに限定されない。例えば、音声認識の対象とする言語が英語等である場合、単位時間あたりに発話された音節の数を話速として算出することもできる。また、上記の話速は、必ずしも認識キーワードが追加される度に話速を逐次的に算出せずともかまわない。例えば、プレゼンタの話速を固定値で設定しておき、かかる話速を新たな認識キーワードが追加される度に参照することもできる。

対応付け部１５ｅは、音声認識結果及び視線検出結果の対応付けを行う処理部である。

一実施形態として、対応付け部１５ｅは、話速算出部１５ｄにより話速が算出された場合、認識キーワードデータ１３ｃに追加された認識キーワードと、話速算出部１５ｄにより算出された話速とから、当該認識キーワードの発話が開始された時刻、すなわち上記の発話開始時刻を推定する。例えば、対応付け部１５ｅは、下記の式（１）にしたがって上記の「発話開始時刻」を推定する。

発話開始時刻＝認識時刻−反応時間−発話所要時間−認識処理時間・・・（１）

ここで、上記の式（１）に記載の「認識時刻」とは、認識キーワードが音声認識部１５ｂにより認識された時刻を指す。また、「反応時間」とは、話者がスライド上のキーワードに視線を向けてから当該キーワードの内容を視認して次の動作、例えばキーワードの表音文字列の読み上げなどを行うまでの反応に費やす時間を指す。例えば、反応時間には、２００ｍｓｅｃ程度の値を設定することができる。さらに、「発話所要時間」とは、認識キーワードに対応する表音文字列の発話を開始してから当該表音文字列の発話が終了するまでの時間を指す。例えば、対応付け部１５ｅは、認識キーワードに対応する表音文字列のモーラ数を話速算出部１５ｄにより算出された話速で乗算することにより、上記の「発話所用時間」を算出することができる。また、「認識処理時間」とは、話者によるキーワードの発話というイベントが発生してから当該キーワードが音声認識部１５ｂにより認識されるまでの音声認識処理の所要時間を指す。これは、一側面として、音声認識エンジンが実行されるハードウェア、例えばＣＰＵやメモリの性能に依存する。よって、ＣＰＵやメモリの性能が事前測定等により既知である場合、ＣＰＵやメモリの性能にしたがって上記の「認識処理時間」を設定しておくことができる。

これら「認識時刻」、「反応時間」、「発話所要時間」及び「認識処理時間」を上記の式（１）に代入することにより、対応付け部１５ｅは、認識キーワードの「発話開始時刻」を求めることができる。その後、対応付け部１５ｅは、記憶部１３に記憶された視線データ１３ｄに含まれる注視点のうち先に求められた「発話開始時刻」に対応する「検出時刻」と紐付けられた注視点を抽出する。その上で、対応付け部１５ｄは、「認識時刻」、「認識キーワード」及び「注視点」などの項目が対応付けられたエントリを同期データ１３ｅの１レコードとして記憶部１３へ追加登録する。

推定部１５ｆは、同期データ１３ｅを参照して、説明箇所を推定する処理部である。

一実施形態として、推定部１５ｆは、記憶部１３に記憶された同期データ１３ｅのうち推定部１５ｆが記憶部１３を参照する時刻から過去に遡って所定期間、例えば３秒間までに生成されたレコードを読み出す。続いて、推定部１５ｆは、先に読み出されたレコードのうちレコードを１つ選択する。そして、推定部１５ｆは、先に選択されたレコードに含まれる注視点が表示中のスライド上で属する領域と、当該レコードに含まれる認識キーワードが表示中のスライド上で属する領域との２つの領域が一致するか否かを判定する。

例えば、推定部１５ｆは、表示中のスライドに含まれる領域ごとに当該領域の内容が表示装置５のスクリーン上で表示される表示範囲が定義された表示範囲データを参照することにより、注視点が表示中のスライドに含まれる領域のうちいずれの領域に属するのかを識別することができる。かかる表示範囲データは、一例として、抽出部１５ａにより設定された領域の形状及び大きさを定義する情報と、表示装置５のスクリーンのサイズとから生成することができる。例えば、表示中のスライドに含まれる領域の形状が矩形であるとしたとき、領域ごとに当該領域に関する矩形の対角を形成する２つの頂点の座標、あるいは矩形を形成する１つの頂点と矩形の幅及び高さなどが対応付けられた表示範囲データが生成される。これを参照することにより、推定部１５ｆは、注視点の座標が表示中のスライドに含まれる領域のうちいずれの領域に属するのかを識別できる。例えば、注視点がいずれかの矩形に含まれる場合、当該矩形の領域に注視点が属すると判断できる。また、注視点がいずれの領域の外である場合でも、注視点から所定の距離以内に存在する矩形が存在する場合、当該矩形の領域に注視点が属すると判断することもできる。さらに、注視点から所定の距離以内に複数の矩形が存在する場合、注視点から近い方または注視点から所定の距離以内のエリアと多く重複する方の矩形の領域に属すると判断することもできる。

一方、推定部１５ｆは、抽出キーワードデータ１３ｂを参照することにより、認識キーワードが表示中のスライド上で属する領域を識別する。上記の抽出部１５ａの説明で述べたとおり、抽出キーワードデータ１３ｂには、抽出キーワードと領域のインデックスが対応付けられているので、認識キーワードと同一である抽出キーワードに紐付けられた領域のインデックスを検索することにより、認識キーワードが表示中のスライド上で属する領域も識別することができる。

ここで、２つの領域が一致する場合、音声認識および視線検出の両面で説明箇所の推定結果が一致していると判断できる。この場合、２つの領域が一致しない場合よりも、当該同期データ１３ｅのレコードから推定された説明箇所が尤もらしいとみなすことができる。よって、推定部１５ｆは、表示中のスライドに含まれる領域ごとに設けられたカウンタのうち音声認識および視線検出の両方の推定結果が一致する領域のカウンタを対象に、当該カウンタを１つインクリメントする。これによって、表示中のスライドに含まれる領域ごとに音声認識および視線検出の両方の推定結果が一致する回数を計数することができる。一方、２つの領域が一致しない場合、音声認識による説明箇所の推定結果と視線検出による説明箇所の推定結果が一致していないと判断できる。この場合、いずれの領域に関するカウンタもインクリメントされない。その後、推定部１５ｆは、記憶部１３から読み出された全てのレコードが選択されると、表示中のスライドに含まれる領域のうちカウンタの値が最大である領域を説明箇所として推定する。

表示制御部１５ｇは、表示装置５に対する表示制御を実行する処理部である。なお、ここでは、表示制御部１５ｇが実行する表示制御のうち、スライドに関する表示制御と、ハイライトに関する表示制御との一側面について説明する。

［スライドの表示制御］
一側面として、表示制御部１５ｇは、プレゼンテーションソフトにより文書ファイルが開かれた場合、当該文書ファイルが含むスライドを表示装置５に表示させる。このとき、表示制御部１５ｇは、文書ファイルが含むスライドのうち最初のページのスライドを表示させることとしてもよいし、最後に編集が行われたページのスライドを表示させることとしてもよい。その後、表示制御部１５ｇは、プレゼンテーションの開始指示を受け付けた後、推定部１５ｆにより推定された説明箇所に対応する領域に関するスライドを表示装置５に表示させる。また、表示制御部１５ｇは、入力装置７を介してページの切替え指示を受け付けた場合、表示装置５に表示させるスライドを変更する。例えば、ページを進める操作を受け付けた場合、表示制御部１５ｇは、表示中のスライドの次ページのスライドを表示装置５に表示させる。また、ページを戻る操作を受け付けた場合、表示制御部１５ｇは、表示中のスライドの前ページのスライドを表示装置５に表示させる。

［ハイライトの表示制御］
他の一側面として、表示制御部１５ｇは、プレゼンテーションの開始指示を受け付けてからプレゼンテーションの終了指示を受け付けるまで下記の処理を繰り返し実行する。すなわち、表示制御部１５ｇは、推定部１５ｆにより推定された説明箇所の領域のハイライト表示を実行する。ここで言う「ハイライト表示」は、狭義のハイライト表示、すなわち背景色を明るくしたり、反転したりする表示制御に留まらず、広義のハイライト表示を意味する。例えば、説明箇所の囲み表示、説明箇所の塗りつぶしの強調、フォント（フォントサイズ、下線や斜体）の強調などのように、強調表示の全般を任意に実行することができる。なお、ハイライト表示は、入力装置７を介してキャンセル操作を受け付けた場合に通常表示へ戻すこととしてもかまわない。また、当然のことながら、推定部１５ｆによりいずれの領域も説明箇所として出力されない場合には、表示中のスライド上でハイライト表示は実行されない。

［処理の流れ］
次に、本実施例に係る画像表示装置１０の処理の流れについて説明する。なお、ここでは、画像表示装置１０が実行する（１）抽出キーワードデータの生成処理、（２）音声認識処理、（３）同期データの生成処理、（４）表示制御処理の順に説明することとする。

（１）抽出キーワードデータの生成処理
図３は、実施例１に係る抽出キーワードデータの生成処理の手順を示すフローチャートである。この処理は、自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

図３に示すように、抽出部１５ａは、文書ファイルに含まれるスライドを一文、行または段落などの単位で複数の領域へ分割する（ステップＳ１０１）。続いて、抽出部１５ａは、ステップＳ１０１で得られた領域に各領域を識別するインデックスを割り当てる（ステップＳ１０２）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスのうちインデックスを１つ選択する（ステップＳ１０３）。続いて、抽出部１５ａは、ステップＳ１０３で選択されたインデックスの領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語及びその読みを抽出する（ステップＳ１０４）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスが全て選択されるまで（ステップＳ１０５Ｎｏ）、上記のステップＳ１０３及びステップＳ１０４の処理を繰り返し実行する。

その後、ステップＳ１０２で割り当てられたインデックスが全て選択された場合（ステップＳ１０５Ｙｅｓ）、抽出部１５ａは、単語、単語の読み及び単語が含まれる領域のインデックスが対応付けられた抽出キーワードデータ１３ａを記憶部１３へ登録し（ステップＳ１０６）、処理を終了する。

（２）音声認識処理
図４は、実施例１に係る音声認識処理の手順を示すフローチャートである。この音声認識処理は、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。なお、音声認識処理は、視線検出部１５ｃによる図示しない視線検出処理と並列して実行することができ、視線検出処理と同一のサンプリング周波数で実行することもできるし、視線検出処理と異なるサンプリング周波数で実行することもできる。

図４に示すように、音声認識部１５ｂは、マイク３から所定時間長の音声信号が入力されるまで、例えば少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるまで待機する（ステップＳ３０１）。

そして、マイク３から所定時間長の音声信号が入力されると（ステップＳ３０１Ｙｅｓ）、音声認識部１５ｂは、当該音声信号にワードスポッティングなどの音声認識を実行する（ステップＳ３０２）。かかるステップＳ３０２でワードスポッティングが実行される場合には、記憶部１３に記憶された抽出キーワードデータ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出キーワードデータが辞書データとして適用される。

このとき、音声信号から単語が認識された場合（ステップＳ３０３Ｙｅｓ）、音声認識部１５ｂは、ステップＳ３０２で認識された単語及びその単語が認識された時間が対応付けられた認識キーワードデータ１３ｃを記憶部１３へ登録し（ステップＳ３０４）、ステップＳ３０１の処理へ戻る。

一方、マイク３から所定時間長の音声信号が入力されていない場合、あるいは音声信号から単語が認識されなかった場合（ステップＳ３０１ＮｏまたはステップＳ３０３Ｎｏ）、認識キーワードデータ１３ｃの登録を実行せずに、ステップＳ３０１の処理へ戻る。

（３）同期データの生成処理
図５は、実施例１に係る同期データの生成処理の手順を示すフローチャートである。この処理は、一例として、認識キーワードデータ１３ｃに新たな認識キーワードが追加される度に実行される。

図５に示すように、認識キーワードデータ１３ｃに新たな認識キーワードが追加されると（ステップＳ５０１Ｙｅｓ）、話速算出部１５ｄは、ステップＳ５０１で追加された認識キーワードが記憶部１３に登録された時点から過去の所定期間の音声データに含まれる母音数をもとに、単位時間あたりに発話されたモーラ数を「話速」として算出する（ステップＳ５０２）。

続いて、対応付け部１５ｅは、ステップＳ５０２で算出された話速と、認識キーワードデータ１３ｃに追加された認識キーワードとから、当該認識キーワードの発話開始時刻を推定する（ステップＳ５０３）。例えば、ステップＳ５０２で算出された話速と、認識キーワードデータ１３ｃに追加された認識キーワードとを始め、予め与えられた他の情報をもとに上記の式（１）に関する「認識時刻」、「反応時間」、「発話所要時間」及び「認識処理時間」を求めた後、これらを上記の式（１）に代入することにより、認識キーワードの「発話開始時刻」を求めることができる。

その後、対応付け部１５ｅは、記憶部１３に記憶された視線データ１３ｄに含まれる注視点のうち先に求められた「発話開始時刻」に対応する「検出時刻」と紐付けられた注視点を抽出する（ステップＳ５０４）。例えば、対応付け部１５ｅは、「発話開始時刻」と最も時間差が少ない「検出時刻」と紐付けられた注視点を抽出することもできるし、「発話開始時刻」の前または後のいずれかの「検出時刻」と紐付けられた注視点だけを抽出することもできる。

その上で、対応付け部１５ｄは、「認識時刻」、「認識キーワード」及び「注視点」などの項目が対応付けられたエントリを同期データ１３ｅの１レコードとして記憶部１３へ追加登録し（ステップＳ５０５）、ステップＳ５０１の処理へ戻る。

（４）表示制御処理
図６は、実施例１に係る表示制御処理の手順を示すフローチャートである。この表示制御処理は、一例として、表示装置５にスライドが表示される限り、繰り返し実行される。図６に示すように、推定部１５ｆは、記憶部１３に記憶された同期データ１３ｅのうち推定部１５ｆが記憶部１３を参照する時刻から過去に遡って所定期間、例えば３秒間までに生成されたレコードを読み出す（ステップＳ７０１）。

続いて、推定部１５ｆは、ステップＳ７０１で読み出されたレコードのうちレコードを１つ選択する（ステップＳ７０２）。そして、推定部１５ｆは、ステップＳ７０２で選択されたレコードに含まれる注視点が表示中のスライド上で属する第１の領域と、当該レコードに含まれる認識キーワードが表示中のスライド上で属する第２の領域との２つの領域が一致するか否かを判定する（ステップＳ７０３）。

これら第１の領域および第２の領域が一致する場合（ステップＳ７０３Ｙｅｓ）、音声認識および視線検出の両面で説明箇所の推定結果が一致していると判断できる。この場合、２つの領域が一致しない場合よりも、当該同期データ１３ｅのレコードから推定された説明箇所が尤もらしいとみなすことができる。よって、推定部１５ｆは、表示中のスライドに含まれる領域のうち音声認識および視線検出の両方の推定結果が一致する領域のカウンタを対象に、音声認識および視線検出の両方の推定結果が一致する回数を計数するカウンタを１つインクリメントする（ステップＳ７０４）。

一方、第１の領域および第２の領域が一致しない場合（ステップＳ７０３Ｎｏ）、音声認識による説明箇所の推定結果と視線検出による説明箇所の推定結果が一致していないと判断できる。この場合、いずれの領域に関するカウントもインクリメントされず、ステップＳ７０５の処理へ移行する。

その後、ステップＳ７０１で読み出された全てのレコードが選択されるまで（ステップＳ７０５Ｎｏ）、上記のステップＳ７０２から上記のステップＳ７０４までの処理が繰り返し実行される。

そして、ステップＳ７０１で読み出された全てのレコードが選択された場合（ステップＳ７０５Ｙｅｓ）、推定部１５ｆは、表示中のスライドに含まれる領域のうちカウンタの値が最大である領域を説明箇所として推定する（ステップＳ７０６）。その上で、表示制御部１５ｇは、推定部１５ｆにより推定された説明箇所の領域をハイライト表示し（ステップＳ７０７）、ステップＳ７０１の処理へ移行する。

なお、図６に示すフローチャートでは、カウンタの値が最大である領域を説明箇所として推定する場合を例示したが、カウンタの値が所定の閾値以上である領域を説明箇所として推定することもできる。この場合、説明箇所として推定される領域は必ずしも１つであるとは限らず、複数の領域が説明箇所として推定される場合もある。

［効果の一側面］
上述してきたように、本実施例に係る画像表示装置１０は、音声認識の結果としてキーワードが認識された時刻と話速とからキーワードの発話開始時刻を逆算し、当該発話開始時刻における視線検出位置及びキーワードに基づいて説明箇所を推定する。それ故、発話と視線が同じ説明箇所に向けられた公算が高いタイミングの音声認識結果および視線検出結果を説明箇所の推定に用いることができる。したがって、本実施例に係る画像表示装置１０によれば、説明箇所の推定精度を向上させることができる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［文書ファイルの応用例］
上記の実施例１では、プレゼンテーションソフトによって作成された文書を用いる場合を例示したが、他のアプリケーションプログラムによって作成された文書を用いることもできる。すなわち、表示時に画面単位で表示されるページを含む文書ファイルであれば、ワープロソフトの文書ファイルが有するページをスライドに読み替えたり、表計算ソフトの文書ファイルが有するシートをスライドに読み替えることによって図３〜図６に示した処理を同様に適用できる。

［対応付けの応用例１］
上記の画像表示装置１０は、ステップＳ５０３等で推定されるキーワードの発話開始時刻に対応する視線データの動きが大きい場合、視線の動きが大きくなる前の視線データを利用するように補正処理を行うこともできる。例えば、画像表示装置１０は、所定の期間、例えば１００ｍｓｅｃが経過する度に、所定の期間の開始時点でカメラ１から取得された画像から検出された第１の注視点と、所定の期間の終了時点でカメラ１から取得された画像から検出された第２の注視点との距離を算出する。その上で、画像表示装置１０は、第１の注視点および第２の注視点の間の距離が所定の閾値、例えばスライドの幅または高さの半分以上である場合、所定期間に含まれる検出時刻に視線の移動量「大」のラベルが付与される一方で、第１の注視点および第２の注視点の間の距離が所定の閾値未満である場合、所定期間に含まれる検出時刻に視線の移動量「小」のラベルが付与される。このように各注視点が検出される検出時刻に視線の移動量「小」または「大」のラベルがさらに対応付けられたエントリが視線データ１３ｄのレコードとして生成される。

図７は、視線の移動量の一例を示す図である。図７に示すように、キーワードの発話開始時刻ｔ１に対応する検出時刻に視線の移動量「大」のラベルが付与されている場合、話者の視線がある領域から次に説明する領域へ移っている可能性が高い。この場合、画像表示装置１０は、キーワードの発話開始時刻ｔ１よりも前の検出時刻であって始めて視線の移動量「小」のラベルが付与されている検出時刻ｔ０に紐付けられた注視点の座標がキーワード及び発話開始時刻と対応付けられたエントリを同期データ１３ｅの１レコードとして記憶部１３へ追加登録する。なお、図７には示されていないが、キーワードの発話開始時刻に対応する検出時刻に視線の移動量「小」のラベルが付与されている場合、画像表示装置１０は、キーワードの発話開始時刻ｔ１に対応する検出時刻に紐付けられた注視点の座標がキーワード及び発話開始時刻と対応付けられたエントリを同期データ１３ｅの１レコードとして記憶部１３へ追加登録する。

［対応付けの応用例２］
さらに、上記の画像表示装置１０は、キーワードの発話開始時刻ｔ１に対応する検出時刻に視線の移動量「大」のラベルが付与されていることを条件に、視線の移動量「小」のラベルが付与されている検出時刻まで遡って注視点を対応付ける場合を例示したが、さらなる加重要件を設けることとしてもよい。例えば、画像表示装置１０は、音声認識部１５ｂにより認識された認識キーワードが当該認識キーワードを含む領域内の末尾、例えば領域の文字全体の後ろ１０％以内に含まれる場合、かつキーワードの発話開始時刻ｔ１に対応する検出時刻に視線の移動量「大」のラベルが付与されている場合に始めて、視線の移動量「小」のラベルが付与されている検出時刻まで遡って注視点を対応付けることとしてもよい。このような加重要件を設定することにより、話者の視線がある領域から次に説明する領域へ移っている可能性がより高い状況下でキーワードと対応付ける注視点の検出時刻を補正できる。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、抽出部１５ａ、音声認識部１５ｂ、視線検出部１５ｃ、話速算出部１５ｄ、対応付け部１５ｅ、推定部１５ｆまたは表示制御部１５ｇを画像表示装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、抽出部１５ａ、音声認識部１５ｂ、視線検出部１５ｃ、話速算出部１５ｄ、対応付け部１５ｅ、推定部１５ｆまたは表示制御部１５ｇを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の画像表示装置１０の機能を実現するようにしてもよい。

［他の実装例］
上記の実施例１では、画像表示装置１０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで図３〜図６に関する処理を実行する場合を例示したが、他の実装形態を採用することもできる。例えば、プレゼンテーションソフトを実行するクライアントに対し、図３〜図６に関する処理のうち一部または全部の処理を実行するサーバを設けることによってクライアントサーバシステムとして構築することもできる。この場合、パッケージソフトウェアやオンラインソフトウェアとして上記の画像表示サービスを実現する画像表示プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記の画像表示サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の画像表示サービスを提供するクラウドとして実装することとしてもかまわない。この場合、クライアントは、サーバ装置に対し、ハイライト表示の開始指示、例えば少なくともプレゼンテーションに用いる文書ファイルを指定する情報をアップロードした後に、プレゼンテーションが開始される。プレゼンテーションが開始されると、クライアントは、マイク３から採取された音声信号または音声認識処理の結果とカメラ１により撮像された画像データまたは視線検出処理の結果とをアップロードし、表示装置５に表示中のスライドのページが切り替わる度にスライドのページ情報をアップロードする。すなわち、抽出キーワードデータの生成処理、音声認識処理や視線検出処理は、クライアント側で実行させることもできるし、サーバ側で実行させることとしてもかまわない。これによって、サーバ装置は、少なくとも図５や図６に示した処理が実行可能となる。さらに、クライアントは、図示しない入力デバイスに関する操作情報をサーバへ伝送し、サーバから伝送される処理結果だけを表示装置５に表示させることにより、シンクライアントシステムとして構築することもできる。この場合には、各種のリソース、例えば文書データもサーバにより保持されると共に、プレゼンテーションソフトもサーバで仮想マシンとして実装されることになる。例えば、プレゼンテーションソフトがクライアント側で実行される場合、サーバからクライアントへハイライト表示を実施する領域の識別情報、例えば上記の領域のインデックスを伝送すればよく、また、シンクライアントシステムとして実装される場合、説明箇所のハイライト表示が実施されたスライドの表示データまたはハイライト表示が行われる前の画面との差分データをサーバからクライアントへ伝送すればよい。なお、上記の実施例１では、画像表示プログラムがプレゼンテーションソフトにアドオンされる場合を想定したが、ライセンス権限を有するクライアントから画像表示プログラムをライブラリとして参照する要求を受け付けた場合に、画像表示プログラムをプラグインさせることもできる。

［シンクライアントシステムへの適用例］
図８は、実施例２に係る画像表示システムの構成例を示す図である。図８には、画像表示システム２の一例として、クライアント端末２０に最低限の機能しか持たせず、サーバ装置２００でアプリケーションやファイルなどのリソースを管理するシンクライアントシステムが示されている。なお、ここでは、画像表示システム２の一形態としてシンクライアントシステムを例示するが、後述のように、汎用のクライアントサーバシステムにも上記の画像表示サービスを適用できることをここで付言しておく。

図８に示すように、画像表示システム２には、クライアント端末２０と、サーバ装置２００とが含まれる。

クライアント端末２０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、クライアント端末２０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳなどの移動体通信端末、さらには、ＰＤＡなどのスレート端末などがその範疇に含まれる。

サーバ装置２００は、上記の画像表示サービスを提供するコンピュータである。

一実施形態として、サーバ装置２００は、パッケージソフトウェアやオンラインソフトウェアとして上記の画像表示サービスを実現する画像表示プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記の画像表示サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の画像表示サービスを提供するクラウドとして実装することとしてもかまわない。

これらクライアント端末２０及びサーバ装置２００は、ネットワークＮＷを介して、互いが通信可能な状態で接続される。かかるネットワークＮＷの一例として、有線または無線を問わず、インターネットを始め、ＬＡＮやＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。

図８に示す通り、クライアント端末２０は、カメラ１と、マイク３と、表示装置５と、入力装置７と、視線検出部２２と、データ授受部２４とを有する。なお、図８には、図１に示した機能部と同様の機能を発揮する機能部、例えばマイク、カメラ、表示装置及び入力装置に同一の符号を付し、その説明を省略する。

図８に示す視線検出部２２は、図１に示した視線検出部１５ｃと同様に、カメラ１から画像が取得される度に、当該画像に対する視線検出を実行する。ここで、図８に示す視線検出部２２は、一例として、視線検出部２２がプロセッサ等とは別のハードウェアとして実装される場合を想定する。この場合、カメラ１及び視線検出部２２は、一例として、表示装置５の周辺に設置される小型視線センサとして実装することができる。

データ授受部２４は、サーバ装置２００との間で各種のデータの授受を制御する処理部である。

一実施形態として、データ授受部２４は、一例として、クライアント端末２０が有するＣＰＵなどのプロセッサにより、シンクライアントシステムのクライアント用のプログラムが実行されることで、仮想的に実現される。

例えば、データ授受部２４は、カメラ１が撮像する画像に対する視線検出部２２の視線検出の結果、マイク３により入力される音声データ、さらには、入力装置７が受け付けた操作情報などをサーバ装置２００へ送信する。また、データ授受部２４は、サーバ装置２００で実行されるプレゼンテーションソフトの実行結果を含むデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを受信する。例えば、プレゼンテーションソフトにより文書ファイルがスライドショーで表示される場合、プレゼンテーションソフトにより生成されるウィンドウは全画面表示されるので、デスクトップ画面とウィンドウ画面とが同じ表示内容となる。ここで、データ授受部２４は、サーバ装置２００が伝送するデスクトップ画面の表示データを任意のフレームレートで受信することができる他、デスクトップ画面の表示データに差分がある場合に絞ってデスクトップ画面の表示データを受信することもできる。このとき、サーバ装置２００から伝送されるデスクトップ画面の表示データは、デスクトップ画面の全体であってもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データであってもかまわない。

このように、クライアント端末２０及びサーバ装置２００の間で授受される各種のデータには、トラフィックを抑制する観点から、圧縮符号化を行うこととしてもよいし、また、セキュリティの観点から、各種の暗号化を行うこととしてもよい。

図８に示すように、サーバ装置２００は、記憶部２２０と、制御部２４０とを有する。なお、サーバ装置２００は、図８に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば他の装置との間で通信制御を行う通信Ｉ／Ｆ部などの機能部を有することとしてもかまわない。

記憶部２２０は、制御部２４０で実行されるＯＳやプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部２２０は、サーバ装置２００における主記憶装置として実装される。例えば、記憶部２２０には、各種の半導体メモリ素子、例えばＲＡＭやフラッシュメモリを採用できる。また、記憶部２２０は、補助記憶装置として実装することもできる。この場合、ＨＤＤ、光ディスクやＳＳＤなどを採用できる。

例えば、記憶部２２０は、制御部２４０で実行されるプログラムに用いられるデータの一例として、図８に示す文書データ２２１、抽出キーワードデータ２２２、認識キーワードデータ２２３、視線データ２２４及び同期データ２２５を記憶する。これら文書データ２２１、抽出キーワードデータ２２２、認識キーワードデータ２２３、視線データ２２４及び同期データ２２５は、サーバ装置２００に接続されるクライアント端末２０のうちいずれのクライアント端末２０に関するデータであるのかがサーバ装置２００で識別できるように、文書データ２２１、抽出キーワードデータ２２２、認識キーワードデータ２２３、視線データ２２４及び同期データ２２５が格納される記憶領域がクライアント端末２０の識別情報ごとに区別されたり、あるいは文書データ２２１、抽出キーワードデータ２２２、認識キーワードデータ２２３、視線データ２２４及び同期データ２２５がクライアント端末２０の識別情報とさらに対応付けられたりする他は、図１に示した文書データ１３ａ、抽出キーワードデータ１３ｂ、認識キーワードデータ１３ｃ、視線データ１３ｄ及び同期データ１３ｅと同様のデータである。これらのデータ以外にも、他の電子データ、例えばハイライト表示に関する定義データなども併せて記憶することもできる。

制御部２４０は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部２４０は、中央処理装置、いわゆるＣＰＵとして実装される。なお、制御部２４０は、必ずしも中央処理装置として実装されずともよく、ＭＰＵやＤＳＰとして実装されることとしてもよい。また、制御部１５は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

制御部２４０は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部２４０は、図８に示すように、音声認識部２４１と、話速算出部２４２と、対応付け部２４３と、推定部２４４と、表示制御部２４５とを有する。なお、ここでは、音声認識を適用する前処理を実行する抽出部１５ａに対応する処理部の図示は省略したが、抽出部１５ａと同様の機能を発揮する処理部をサーバ装置２００上に設けることにより、図３に示す処理をサーバ装置２００に実行させることができるのは言うまでもない。

ここで、図８に示す制御部２４０では、図１に示した制御部１５と異なり、視線検出がクライアント端末２０で実行された上で視線検出の結果として検出時刻及び注視点がサーバ装置２００へ伝送されるので、サーバ装置２００では視線検出処理を実行せずともよい点が異なる。その代わりに、制御部２４０は、クライアント端末２０から検出時刻及び注視点が伝送される度に、検出時刻及び注視点を含むエントリを視線データ２２４の１レコードとして記憶部２２０へ追加登録する。

図８に示す音声認識部２４１は、図１に示した音声認識部１５ｂと同様に、音声認識を実行する処理部である。この音声認識部２４１へ入力される音声データがクライアント端末２０からサーバ装置２００へ伝送された音声データであるという入力の取得経路以外は、図１に示した音声認識部１５ｂとの間で相違はなく、音声認識部２４１は、図１に示した音声認識部１５ｂと同様の処理を実行する。

また、話速算出部２４２、対応付け部２４３及び推定部２４４も、図１に示した話速算出部１５ｄ、対応付け部１５ｅ及び推定部１５ｆと同様の処理を実行する処理部である。

表示制御部２４５は、クライアント端末２０の表示装置５に対する表示制御を実行する処理部である。

ここで、表示制御部２４５は、クライアント端末２０のデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを所定のフレームレート、あるいはデスクトップ画面の更新を契機に送信する。このとき、表示制御部２４５は、デスクトップ画面に更新がない場合、必ずしもデスクトップ画面の表示データをクライアント端末２０へ伝送せずともかまわない。さらに、表示制御部２４５は、デスクトップ画面の全体の表示データを送信することとしてもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データを送信することとしてもかまわない。このようなデスクトップ画面の伝送と並行して、表示制御部２４５は、図１に示した表示制御部１５ｇと同様に、クライアント端末２０から伝送される入力装置７の操作情報にしたがって上記のスライドの表示制御を実行したり、さらには、上記のハイライトの表示制御などを実行することにより、プレゼンテーションソフトにより生成されるウィンドウ画面の表示データを更新する。このようにしてデスクトップ画面の伝送時にウィンドウ画面の更新内容がサーバ装置２００からクライアント端末２０へ伝送されることになる。

以上のように、本実施例に係る画像表示システム２がシンクライアントシステムとして実装された場合、サーバ装置２００の音声認識部２４１が図４に示した音声認識処理を実行することができる。この音声認識処理では、ステップＳ３０１でマイク３から音声データが直接取得される代わりに、クライアント端末２０からサーバ装置２００へ伝送される音声データが取得される以外に処理内容の差はない。さらに、サーバ装置２００の話速算出部２４２及び対応付け部２４３が図５に示した同期データの生成処理を実行することができる。さらに、サーバ装置２００の推定部２４４及び表示制御部２４５が図６に示した表示制御処理を実行することができる。この表示制御処理では、ステップＳ７０６で説明箇所の領域が推定された段階で直ちにハイライト表示が実行されるとは限らない点が異なる。すなわち、ステップＳ７０７では、ハイライト表示が行われたウィンドウ画面を含むデスクトップ画面の表示データが生成される。このデスクトップ画面の表示データがクライアント端末２０へ伝送されるタイミングは、必ずしもデスクトップ画面の表示データが生成されたタイミングと同時でなくともかまわない。

［汎用のクライアントサーバシステムへの適用例］
図８には、画像表示システム２がシンクライアントシステムとして実装される場合を例示したが、必ずしもシンクライアントシステムとして実装されずともかまわず、汎用のクライアントサーバシステムとして実装することもできる。

例えば、図１に示した画像表示装置１０をクライアント端末とし、このクライアント端末を収容する図示しないサーバ装置に、画像表示装置１０が有する処理部のうち、話速算出部１５ｄ、対応付け部１５ｅ及び推定部１５ｆなどの処理部を実装することとすればよい。この場合、クライアント端末である画像表示装置１０が図４に示した音声認識処理を実行し、認識キーワードが得られる度に追加の認識キーワードもしくは認識キーワードデータの全体を図示しないサーバ装置へ伝送することにより、図示しないサーバ装置上でクライアント端末ごとに認識キーワードデータが記憶されることになる。これによって、クライアント及びサーバ間で音声データが伝送されずともよくなる。

さらに、図示しないサーバ装置で図５及び図６に示した各処理が実行される。この場合、図示しないサーバ装置は、ステップＳ７０６で説明箇所に対応する領域が推定された場合、当該領域に付与されたインデックスをクライアント端末である画像表示装置１０に伝送する。このように説明箇所に対応する領域のインデックスを受け取った画像表示装置１０の表示制御部１５ｇは、説明箇所に対応する領域のハイライト表示を実行することができる。

以上のように、汎用のクライアントサーバシステムにも上記の画像表示サービスを適用できる。

［会議システムへの適用例］
例えば、上記の実施例１では、話者と聴講者が１つの表示装置５を共用する場面を例示したが、必ずしも話者と聴講者が１つの表示装置を共用せずともかまわず、複数の表示装置の間で同一の表示内容が共有される場面にも上記の画像表示サービスを適用できる。例えば、会議等のコミュニケーションにおいて各参加者が話者及び聴講者の少なくとも一方または両方の立場で参加する状況が挙げられる。この場合、互いの表示装置に接続されるコンピュータがネットワークを介して接続されていれば互いが遠隔地に存在してもかまわない。

図９は、画像表示サービスの会議システムへの適用例を示す図である。例えば、図９に示すように、図１に示した画像表示装置１０と同様の機能を有するクライアント端末１０Ａ及び１０ＢがネットワークＮＷを介して接続されると共にクライアント端末１０Ａ及び１０Ｂ上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末１０Ａ及び１０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、クライアント端末１０Ａ及び１０Ｂのうち少なくとも一方の端末が図３〜図６に示した処理を実行することにより、クライアント端末１０Ａまたは１０Ｂの利用者の発話および視線を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

図１０は、画像表示サービスの会議システムへの適用例を示す図である。例えば、図１０に示すように、図８に示したクライアント端末２０と同様の機能を有するクライアント端末２０Ａ及び２０Ｂと、図８に示したサーバ装置２００とがネットワークＮＷを介して接続されると共に、サーバ装置２００上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末２０Ａ及び２０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、サーバ装置２００が図３〜図６に示した処理を実行することにより、クライアント端末２０Ａまたは２０Ｂの利用者の発話および視線を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

［画像表示プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１１を用いて、上記の実施例と同様の機能を有する画像表示プログラムを実行するコンピュータの一例について説明する。

図１１は、実施例１及び実施例２に係る画像表示プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１１に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１１に示すように、上記の実施例１で示した抽出部１５ａ、音声認識部１５ｂ、視線検出部１５ｃ、話速算出部１５ｄ、対応付け部１５ｅ、推定部１５ｆ及び表示制御部１５ｇと同様の機能を発揮する画像表示プログラム１７０ａが記憶される。また、ＨＤＤ１７０には、上記の実施例２で示した音声認識部２４１、話速算出部２４２、対応付け部２４３、推定部２４４及び表示制御部２４５と同様の機能を発揮する画像表示プログラム１７０ａが記憶されることとしてもよい。この画像表示プログラム１７０ａは、図１に示した抽出部１５ａ、音声認識部１５ｂ、視線検出部１５ｃ、話速算出部１５ｄ、対応付け部１５ｅ、推定部１５ｆ及び表示制御部１５ｇの各構成要素と同様、統合又は分離してもかまわない。また、画像表示プログラム１７０ａは、図８に示した音声認識部２４１、話速算出部２４２、対応付け部２４３、推定部２４４及び表示制御部２４５の各構成要素と同様、統合又は分散してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１または上記の実施例２で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から画像表示プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、画像表示プログラム１７０ａは、図１１に示すように、画像表示プロセス１８０ａとして機能する。この画像表示プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち画像表示プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、画像表示プロセス１８０ａが実行する処理の一例として、図３〜図６に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の画像表示プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に画像表示プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から画像表示プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに画像表示プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから画像表示プログラム１７０ａを取得して実行するようにしてもよい。

１カメラ
３マイク
５表示装置
７入力装置
１０画像表示装置
１１入出力Ｉ／Ｆ部
１３記憶部
１３ａ文書データ
１３ｂ抽出キーワードデータ
１３ｃ認識キーワードデータ
１３ｄ視線データ
１３ｅ同期データ
１５制御部
１５ａ抽出部
１５ｂ音声認識部
１５ｃ視線検出部
１５ｄ話速算出部
１５ｅ対応付け部
１５ｆ推定部
１５ｇ表示制御部

Claims

話速を算出する算出部と、
音声認識により得られたキーワードと、前記話速とから前記キーワードの発話開始時刻を推定する第１推定部と、
視線検出により検出された視線位置のうち前記キーワードの発話開始時刻に検出された視線位置と前記キーワードとに基づいて、表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する第２推定部と、
前記説明箇所に対応する領域のハイライト表示を実行する表示制御部と
を有することを特徴とする画像表示装置。
前記第２推定部は、所定期間の視線位置から求まる視線の移動量のうち前記キーワードの発話開始時刻に対応する視線の移動量が所定の閾値以上である場合に、前記視線の移動量が前記閾値未満となるまで遡った時点の視線位置と前記キーワードとに基づいて、前記説明箇所に対応する領域を推定することを特徴とする請求項１に記載の画像表示装置。
前記算出部は、前記音声認識によりキーワードが認識される度に、前記話速を算出することを特徴とする請求項１または２に記載の画像表示装置。
前記算出部は、前記音声認識によりキーワードが認識される度に、前記キーワードが認識された時点から過去の所定期間の音声データを参照して、単位時間あたりに発話が行われたモーラ数を算出することを特徴とする請求項３に記載の画像表示装置。
話速を算出する処理と、
音声認識により得られたキーワードと、前記話速とから前記キーワードの発話開始時刻を推定する処理と、
視線検出により検出された視線位置のうち前記キーワードの発話開始時刻に検出された視線位置と前記キーワードとに基づいて、表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する処理と、
前記説明箇所に対応する領域のハイライト表示を実行する処理と
がコンピュータにより実行されることを特徴とする画像表示方法。
話速を算出する処理と、
音声認識により得られたキーワードと、前記話速とから前記キーワードの発話開始時刻を推定する処理と、
視線検出により検出された視線位置のうち前記キーワードの発話開始時刻に検出された視線位置と前記キーワードとに基づいて、表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する処理と、
前記説明箇所に対応する領域のハイライト表示を実行する処理と
をコンピュータに実行させることを特徴とする画像表示プログラム。
第１装置と第２装置とを有する画像表示システムであって、
前記第１装置は、
表示を行う表示装置と、
音声を入力するマイクと、
前記表示装置に対する視線を検出する視線検出部と、
前記マイクにより入力される音声データと、前記視線検出部により検出される視線位置とを前記第２装置へ送信する送信部とを有し、
前記第２装置は、
前記音声データに音声認識を行う音声認識部と、
話速を算出する算出部と、
前記音声認識部により認識されたキーワードと、前記話速とから、前記キーワードの発話開始時刻を推定する第１推定部と、
前記送信部により送信される視線位置のうち前記キーワードの発話開始時刻に検出された視線位置と前記キーワードとに基づいて、前記表示装置に表示される文書データのページが分割された領域のうち説明箇所に対応する領域を推定する第２推定部と、
前記表示装置に表示される前記ページのうち前記説明箇所に対応する領域をハイライト表示させる表示制御部と
を有することを特徴とする画像表示システム。