JP2018005011A

JP2018005011A - プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム

Info

Publication number: JP2018005011A
Application number: JP2016132824A
Authority: JP
Inventors: 高橋　潤; Jun Takahashi; 潤高橋; 田中　正清; Masakiyo Tanaka; 正清田中; 村瀬　健太郎; Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2018-01-11
Anticipated expiration: 2036-07-04
Also published as: JP6690442B2

Abstract

【課題】発話箇所の表示状態の変更漏れが発生するのを抑制すること。
【解決手段】プレゼンテーション支援装置１０は、文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行する認識部と、音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する表示制御部とを有する。
【選択図】図１

Description

本発明は、プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラムに関する。

会議や講演におけるプレゼンテーション、パンフレット紹介などが行われる場面では、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書が共有された状態で会話によるコミュニケーションが行われる場合がある。

このような会話によるコミュニケーションを支援する技術の一例として、音声認識を活用することにより、共有文書に含まれる内容のうち発話箇所に対応する部分の表示状態を変更するものがある。

この他、下記に説明する同期コンテンツ情報生成装置が提案されている。この同期コンテンツ情報生成装置は、文書を用いた会議等の様子がビデオカメラ装置により録音・撮像された音声・映像情報に基づいて、文書情報がＮ個に分割された文書ブロック、例えば１ページや１段落などの単位で抽出されるキーワードが出現した時刻順の出現キーワード分布を計測し、音声・映像情報と時間的な同期がとられた状態で文書情報を表示させるための同期コンテンツ情報を生成する。

特開２００４−７３５８号公報特開２００９−２７１８１４号公報特開平７−３３４０７５号公報特開２０１３−８３８９７号公報

しかしながら、上記の技術では、発話箇所の表示状態の変更漏れが発生する場合がある。

すなわち、上記の同期コンテンツ情報生成装置では、文書ブロックのうちキーワードの発話頻度が高い文書ブロックの表示状態が変更される。ところが、上記の文書ブロック内に含まれるキーワードの絶対数が少ない場合、当該文書ブロック内のキーワードが発話されていたとしても、他の文書ブロック内のキーワードの発話頻度が高ければ、他の文書ブロックの表示状態が変更される。この結果、キーワードの絶対数が少ない文書ブロックの表示状態が変更されずにスキップされてしまう場合がある。

１つの側面では、本発明は、発話箇所の表示状態の変更漏れが発生するのを抑制できるプレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラムを提供することを目的とする。

一態様では、プレゼンテーション支援装置は、文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行する認識部と、前記音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、前記２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する表示制御部と、を有する。

発話箇所の表示状態の変更漏れが発生するのを抑制できる。

図１は、実施例１に係るプレゼンテーション支援装置１０の機能的構成を示すブロック図である。図２は、スライドの一例を示す図である。図３は、実施例１に係る抽出単語データの生成処理の手順を示すフローチャートである。図４は、実施例１に係る音声認識処理の手順を示すフローチャートである。図５は、実施例１に係る表示制御処理の手順を示すフローチャートである。図６は、実施例２に係るプレゼンテーション支援装置２０の機能的構成を示すブロック図である。図７は、実施例３に係るプレゼンテーション支援システム３の構成例を示す図である。図８は、実施例３に係るプレゼンテーション支援システム４の構成例を示す図である。図９は、電子会議システムへの適用例を示す図である。図１０は、電子会議システムへの適用例を示す図である。図１１は、プレゼンテーション支援システムへの実装例を示す図である。図１２は、実施例１〜実施例３に係るプレゼンテーション支援プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係るプレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［プレゼンテーション支援装置が搭載する機能の一側面］
図１は、実施例１に係るプレゼンテーション支援装置の機能的構成を示すブロック図である。図１に示すプレゼンテーション支援装置１０は、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書が共有された状態で当該文書に含まれるページ画面、例えばスライドのうち、話者により発話された音声から認識された単語に対応する部分をハイライト表示させるプレゼンテーション支援サービスを提供する。

ここで、以下では、あくまで一例として、上記のハイライト表示に関する機能がプレゼンテーションソフトにアドオンされる場合を想定し、当該プレゼンテーションソフトを用いて作成された文書ファイルが含む１または複数のスライドを表示装置５に表示させることによってプレゼンテーションが進行される場合を想定する。このスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像装置で撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。

プレゼンテーション支援装置１０は、上記のプレゼンテーション支援サービスを実行するコンピュータである。

一実施形態として、プレゼンテーション支援装置１０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、プレゼンテーション支援装置１０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。

なお、本実施例では、あくまで一例として、プレゼンテーション支援装置１０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで上記のプレゼンテーション支援サービスを提供する場合を想定する。詳細は後述するが、上記のプレゼンテーション支援サービスは、スタンドアローンで提供される実装に限定されない。例えば、プレゼンテーションソフトを実行するクライアント端末に対し、上記のプレゼンテーション支援サービスを提供するサーバ装置を設けることによってクライアントサーバシステムとして構築することもできる。この他、プレゼンテーションソフトをサーバ装置に実行させ、その実行結果をサーバ装置がクライアント端末へ伝送して表示させるシンクライアントシステムとして構築することもできる。

ここで、上記のプレゼンテーション支援装置１０は、上記のプレゼンテーション支援サービスの一環として、発話から音声認識される２つの認識単語がスライド上の複数の領域にまたがる場合に２つの認識単語のうち後続する認識単語が出現する領域の表示状態を変更する。それ故、単語の絶対数が少ない領域内の単語が発話された場合、他の領域内の単語の発話頻度が高くとも当該領域の表示状態をハイライト表示等に変更できる結果、単語の絶対数が少ない領域の表示状態が変更されずにスキップされるのを抑制できる。したがって、発話箇所の表示状態の変更漏れが発生するのを抑制できる。

［周辺機器］
図１に示すように、プレゼンテーション支援装置１０には、マイク１と、表示装置５と、入力装置７とが接続される。これらマイク１、表示装置５及び入力装置７などの周辺機器と、プレゼンテーション支援装置１０との間は、有線または無線により接続される。

マイク１は、音声を電気信号に変換する装置である。ここで言う「マイク」は、マイクロフォンの略称である。

例えば、マイク１は、話者、例えばプレゼンテーションを実施するプレゼンタに装着させることができる。この場合、ヘッドセット型やタイピン型のマイクをプレゼンタの身体や衣服の所定位置に装着させたり、ハンド型のマイクをプレゼンタに携帯させたりすることができる。また、マイク１は、プレゼンタの発話が集音できる範囲の所定位置に設置することもできる。この場合、マイク１には、取付け型や据置き型のマイクを採用することもできる。これらいずれの場合においても、マイク１には、任意のタイプの指向性を持つマイクを採用できるが、プレゼンタの発話以外の音声、例えば聴講者等の発話や騒音などの雑音が集音されるのを抑制するために、マイクの感度をプレゼンタの発声方向に限定することもできる。なお、マイク１には、ダイナミック型、エレクトレットコンデンサ型、コンデンサ型などの任意の変換方式を採用することができる。このマイク１に音声を採取することにより得られたアナログ信号は、デジタル信号へ変換された上でプレゼンテーション支援装置１０へ入力される。

表示装置５は、各種の情報を表示する装置である。

例えば、表示装置５には、発光により表示を実現する液晶ディスプレイや有機ＥＬ（electroluminescence）ディスプレイなどを採用することもできるし、投影により表示を実現するプロジェクタを採用することもできる。また、表示装置５の設置台数は、必ずしも１台に限定されずともよく、複数の台数であってかまわない。以下では、一例として、プレゼンテーションの参加者であるプレゼンタ及び聴講者の両者が閲覧する共用の表示装置としてプロジェクタ及びプロジェクタが投影する画像を映すスクリーンが実装される場合を想定する。

表示装置５は、一例として、プレゼンテーション支援装置１０からの指示にしたがってプレゼンテーション画面を表示する。例えば、表示装置５は、プレゼンテーション支援装置１０のプロセッサ上で動作するプレゼンテーションソフトが開く文書ファイルのスライドを表示する。このとき、表示装置５には、文書ファイルに含まれるスライドを自動または手動により切り替えて表示させることができる。例えば、プレゼンタが入力装置７を介して指定する任意のスライドを表示させることもできるし、プレゼンテーションソフトが有するスライドショーの機能がＯＮ状態に設定された場合、各スライドが作成されたページ順に文書ファイルに含まれるスライドを切り替えて表示させることもできる。

入力装置７は、各種の情報に対する指示入力を受け付ける装置である。

例えば、表示装置５がプロジェクタとして実装される場合、スクリーンに映し出されたスライド上の位置を指し示すレーザポインタを入力装置７として実装することができる。すなわち、レーザポインタの中には、スライドのページを進めたり、戻したりする各種のボタンなどの操作部が設けられたリモコン機能付きのレーザポインタも存在する。このリモコン機能付きのレーザポインタが有する操作部を入力装置７として援用することもできる。この他、マウスやキーボードを入力装置７として採用したり、レーザポインタによって指し示されたポインタの位置のセンシング、プレゼンタの視線検出やジェスチャ認識を行うためにスクリーンまたはプレゼンタの所定の部位が撮像された画像を入力する画像センサを入力装置７として採用したりすることもできる。なお、表示装置５が液晶ディスプレイとして実装される場合、入力装置７には、液晶ディスプレイ上に貼り合わせられたタッチセンサを採用することもできる。

入力装置７は、一例として、プレゼンテーション支援装置１０のプロセッサ上でプレゼンテーションソフトに実行させる文書ファイルの指定、スライドのページを進める操作やスライドのページを戻す操作などを受け付ける。このように入力装置７を介して受け付けられる操作は、プレゼンテーション支援装置１０へ出力されることになる。

［プレゼンテーション支援装置１０の構成］
続いて、本実施例に係るプレゼンテーション支援装置１０の機能的構成について説明する。図１に示すように、プレゼンテーション支援装置１０は、入出力Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、データの入出力の関係を表す実線が示されているが、図１には、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。

入出力Ｉ／Ｆ部１１は、マイク１、表示装置５及び入力装置７などの周辺機器との間で入出力を行うインタフェースである。

一側面として、入出力Ｉ／Ｆ部１１は、入力装置７から入力された各種の操作を制御部１５へ出力する。また、入出力Ｉ／Ｆ部１１は、制御部１５から出力されたスライドの画像データを表示装置５へ出力したり、スライドに含まれる領域に対するハイライト指示またはそのキャンセル指示を表示装置５へ出力したりする。また、入出力Ｉ／Ｆ部１１は、マイク１から入力された音声データを制御部１５へ出力する。

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）やプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部１３は、プレゼンテーション支援装置１０における主記憶装置として実装される。例えば、記憶部１３には、各種の半導体メモリ素子、例えばＲＡＭ（Random Access Memory）やフラッシュメモリを採用できる。また、記憶部１３は、補助記憶装置として実装することもできる。この場合、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などを採用できる。

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、文書データ１３ａ、抽出単語データ１３ｂ及び認識単語データ１３ｃを記憶する。これらのデータ以外にも、記憶部１３には、他の電子データ、例えば表示状態の変更制御に関する定義データなども併せて記憶することもできる。なお、上記の文書データ１３ａ以外の抽出単語データ１３ｂ及び認識単語データ１３ｃは、各データの登録または参照を行う処理部の説明に合わせて説明を行うこととする。

文書データ１３ａは、文書に関するデータである。

一実施形態として、文書データ１３ａには、プレゼンテーションソフトを用いて１または複数のスライドが作成された文書ファイルを採用できる。かかるスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像デバイスで撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。このように、テキスト以外のコンテンツには、音声認識によるキーワード検索を実現するために、プレゼンテーションの開始前までに当該コンテンツの説明語句や説明文などの文字列を含むメタ情報を付与しておくことができる。

制御部１５は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部１５は、中央処理装置、いわゆるＣＰＵ（Central Processing Unit）として実装される。制御部１５は、必ずしも中央処理装置として実装されずともよく、ＭＰＵ（Micro Processing Unit）やＤＳＰ（Digital Signal Processor）として実装されることとしてもよい。このように、制御部１５は、プロセッサとして実装されればよく、その種別が汎用型または特化型であるかは問われない。また、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

制御部１５は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部１５は、図１に示すように、抽出部１５ａと、認識部１５ｂと、算出部１５ｃと、推定部１５ｄと、表示制御部１５ｅとを有する。

抽出部１５ａは、文書ファイルに含まれるスライドから音声認識で用いる辞書データに登録する単語を抽出単語データ１３ｂとして抽出する処理部である。

一実施形態として、抽出部１５ａは、上記の抽出単語データ１３ｂを抽出する処理を自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

抽出単語データ１３ｂの生成について説明すると、抽出部１５ａは、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち保存が実行された文書ファイルあるいはプレゼンテーションの前処理の実行指示を受け付けた文書ファイルを読み出す。ここでは、一例として、抽出部１５ａが記憶部１３から文書ファイルを読み出す場合を例示したが、文書ファイルの入手経路はこれに限定されない。例えば、抽出部１５ａは、ハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから文書ファイルを取得することもできる。また、抽出部１５ａは、外部装置からネットワークを介して受信することによって文書ファイルを取得することもできる。

続いて、抽出部１５ａは、先に読み出した文書ファイルに含まれるスライドを複数の領域へ分割する。例えば、抽出部１５ａは、一文、行、段落などの単位でスライドを分割する。この場合、抽出部１５ａは、スライドが含む文字列を走査して、スペース、句点または改行に対応する区切り文字を検出し、当該区切り文字を領域の境界に設定する。かかる境界を前後に、抽出部１５ａは、スライドが含む文字列を区切る。これによって、スライドが複数の領域へ区切り文字ごとに分割される。その上で、抽出部１５ａは、スライドの分割によって得られた領域に当該領域を識別するインデックスを割り当てる。なお、ここでは、スライドを自動的に分割する場合を例示したが、入力装置７等を介して領域の境界を指定させることによってスライドを手動設定で分割することとしてもかまわない。

スライドの分割後に、抽出部１５ａは、当該スライドに含まれる複数の領域のうち領域を１つ選択する。続いて、抽出部１５ａは、先に選択された領域が含む文字列に対し、自然言語処理を実行することによって単語を抽出する。例えば、抽出部１５ａは、領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語や、文節を形成する単語などを抽出する。そして、抽出部１５ａは、先に抽出された単語ごとに当該単語が含まれる領域に割り当てられたインデックスを付与する。その後、抽出部１５ａは、スライドが含む領域が全て選択されるまで上記の単語の抽出及び上記のインデックスの付与を繰返し実行する。

このようにして全ての領域から単語が抽出された後に、抽出部１５ａは、スライドに含まれる単語ごとに当該単語ｋの読みおよびインデックスｉｄｘが対応付けられた抽出単語データ１３ｂを記憶部１３へ登録する。

認識部１５ｂは、音声認識を実行する処理部である。

一実施形態として、認識部１５ｂは、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、マイク１から所定時間長の音声信号が入力されるまで待機する。例えば、少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるのを待機する。そして、認識部１５ｂは、マイク１から所定時間長の音声信号が入力される度に、当該音声信号が入力された時点から遡って過去の一定期間における音声信号にワードスポッティングなどの音声認識を実行する。なお、ワードスポッティングとは、必要な単語を事前に登録しておき、音声信号から登録した単語を抽出する方式の総称である。このとき、認識部１５ｂは、記憶部１３に記憶された抽出単語データ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出単語データ１３ｂをワードスポッティングに適用する。これによって、認識部１５ｂは、プレゼンタ等の話者による発話の中に表示中のスライドに含まれる各領域から抽出された単語が存在するか否かを認識する。そして、認識部１５ｂは、音声信号から単語の読みが認識された場合、当該単語及びその単語が認識された時間が対応付けられた認識単語データ１３ｃを記憶部１３へ登録する。なお、同一の単語が時間経過に伴って複数回にわたって認識される場合には、最後、すなわち最新に認識された時刻が記憶部１３へ登録される。

その後、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃのうち記憶部１３へ登録されてから所定の期間が経過した単語が存在するか否かを判定する。例えば、認識部１５ｂは、認識単語データ１３ｃに含まれる単語ごとに、当該単語に対応付けて登録された時間と、認識部１５ｂが認識単語データ１３ｃを参照する時間、すなわち現時間との差が所定の閾値を超過するか否かを判定する。このとき、認識部１５ｂは、スライドが分割された単位、例えば一文、行や段落などによって上記の判定に用いる閾値を変えることができる。例えば、スライドが行単位で分割される場合、１つの領域で読み上げられる文字数はおよそ２０〜３０文字であると想定できる。この場合、上記の閾値の一例として、説明音声の平均的な読み上げ速度である、７拍／秒〜８拍／秒から読み上げに必要な時間を計算して、３秒を用いることができる。また、スライドが段落単位で分割される場合、行単位よりも長い時間が読み上げに割かれると想定できる。この場合、上記の閾値の一例として、行数×３秒を用いることができる。

ここで、記憶部１３へ登録されてから所定の期間、例えば行数×３秒間が経過した単語が存在する場合、当該単語を含むスライドの領域に関する説明が終了している可能性が高まる。このような単語を残しておくと、説明が終了している領域がハイライトで表示される可能性も高まる。よって、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃから当該単語に関するレコードを削除する。一方、記憶部１３へ登録されてから所定の期間が経過した単語が存在しない場合、認識単語データ１３ｃに含まれる単語が出現するスライドの領域に関する説明が終了していない可能性が高まる。よって、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃに含まれる単語を削除せずにそのまま残す。

また、認識部１５ｂは、表示装置５に表示されるスライドのページが変更されたか否かを判定する。例えば、認識部１５ｂは、スライドショーによりスライドが切り替えられたり、入力装置７を介してスライドのページを進める操作またはスライドのページを戻す操作を受け付けたりしたかを判定する。このとき、表示装置５に表示されるスライドのページが変更された場合、プレゼンタ等の話者による説明も変更前のページのスライドから変更後のページのスライドへ切り替わった可能性が高い。この場合、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃを削除する。一方、表示装置５に表示されるスライドのページが変更されていない場合、話者が説明するページにも変りがない可能性が高い。この場合、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃに含まれる単語を削除せずにそのまま残す。

これら一連の動作により、認識部１５ｂは、表示中であるスライドの中でプレゼンタが説明中である可能性が高い単語を認識する。以下では、抽出単語データ１３ｂに含まれる単語のことを「抽出単語」と記載すると共に、認識単語データ１３ｃに含まれる単語のことを「認識単語」と記載し、互いのラベルを区別する場合がある。

算出部１５ｃは、認識単語の領域内の位置を算出する処理部である。

一実施形態として、算出部１５ｃは、記憶部１３に記憶された認識単語データ１３ｃのうち、互いが連続して音声認識された２つの認識単語に関するレコードを読み出す。例えば、エントリの時刻が最新である認識単語と、その認識単語の直前に認識された認識単語とのレコードを読み出す。以下では、２つの認識単語のうち前者の認識単語のことを「第１の認識単語」と記載すると共に後者の認識単語のことを「第２の認識単語」と記載する場合がある。さらに、第１の認識単語に対応付けられたインデックス、すなわちスライド上で第１の認識単語が出現する領域のことを「第１の領域」と記載すると共に第２の認識単語に対応付けられたインデックス、すなわちスライド上で第２の認識単語が出現する領域のことを「第２の領域」と記載する場合がある。

その後、算出部１５ｃは、第１の認識単語に対応付けられたインデックスと、第２の認識単語に対応付けられたインデックスとが異なるか否かを判定する。言い換えれば、算出部１５ｃは、第１の領域および第２の領域が異なるか否かを判定する。このとき、第１の領域および第２の領域が同一である場合、プレゼンテーションがそれまでに説明が行われていた領域から次の説明に関する記述がある新たな領域へ遷移していない可能性の方が高いと推定できる。一方、第１の領域および第２の領域が異なる場合、プレゼンテーションがそれまでに説明が行われていた領域から次の説明に関する記述がある新たな領域へ遷移した段階である可能性の方が高いと推定できる。この場合、算出部１５ｃは、第１の認識単語が表示装置５に表示中であるスライド内の複数の領域に出現する単語であるか否かをさらに判定する。例えば、算出部１５ｃは、抽出単語データ１３ｂに含まれる抽出単語のうち第１の認識単語と一致する抽出単語に対応付けられたインデックスと、表示中のスライドに含まれる領域のインデックスとを比較し、第１の認識単語と一致する抽出単語に対応付けられたインデックスが表示中のスライドに含まれる領域のインデックスと複数個にわたって一致するか否かを判定する。

ここで、第１の認識単語が表示中のスライド内の複数の領域に出現しない単語である場合、プレゼンテーションがそれまでに説明が行われていた領域から次の説明に関する記述がある新たな領域へ遷移した段階である可能性がより高まる。この場合、算出部１５ｃは、記憶部１３に記憶された抽出単語データ１３ｂのうち第１の領域のインデックスに対応付けられた抽出単語の数が所定値、例えば「２」以上であるか否かを判定する。つまり、スライド上の第１の領域に含まれる単語の絶対数が少ないか否かを判定する。このとき、第１の領域に含まれる単語の絶対数が少ない場合、第１の認識単語が音声認識により得られた段階でハイライト表示を実施しないと第１の領域のハイライト表示漏れが発生する可能性が高まる。この場合、後述の推定部１５ｄにより第１の領域が発話箇所であると推定される。一方、第１の領域に含まれる単語の絶対数が少なくはない場合、プレゼンテーションの進行が領域間を遷移する段階に差し掛かったか否かをより精細に判定するパラメータとして、算出部１５ｃは、第１の認識単語の領域上の位置と、第２の認識単語の領域上の位置とを算出する。

例えば、算出部１５ｃは、下記の式（１）および下記の式（２）にしたがって第１の認識単語の領域上の位置ｔ１と、第２の認識単語の領域上の位置ｔ２とを算出する。ここで、下記の式（１）及び下記の式（２）における「Ｎ」は、領域を指し、「Ｋ」は、認識単語を指す。そして、下記の式（１）における「ＩＮＤＥＸ１（Ｎ，Ｋ）」は、領域Ｎの最初に含まれる認識単語Ｋの先頭文字のインデックス番号を指す。一方、下記の式（２）における「ＩＮＤＥＸ２（Ｎ，Ｋ）」は、領域Ｎの最後に含まれる認識単語Ｋの最終文字のインデックス番号を指す。なお、ここでは、一例として、インデックス番号が０から始まる場合を想定して以下の説明を行う。

ｔ１＝ＩＮＤＥＸ１（Ｎ，Ｋ）／（Ｎの文字数−１）・・・式（１）
ｔ２＝ＩＮＤＥＸ２（Ｎ，Ｋ）／（Ｎの文字数−１）・・・式（２）

図２は、スライドの一例を示す図である。図２には、領域Ｅ１、領域Ｅ２、領域Ｅ３及び領域Ｅ４の４つの領域を含むスライドＳ１が示されている。図２に示すスライドＳ１が表示装置５に表示された状況の下、話者によって「明日の天気です。関東ですが・・・」との発話が行われた場合、認識単語が「明日」、「天気」、「関東」の順に得られる。この場合、「関東」が第１の認識単語に該当し、「天気」が第２の認識単語に該当する。そして、「関東」が含まれる第１の領域Ｅ２と「天気」が含まれる第２の領域Ｅ１とが相違し、「関東」はスライドＳ１上の他の領域には出現しない。さらに、第１の領域Ｅ２には、「関東」及び「地方」の２つ以上の抽出単語が含まれるので、第１の領域Ｅ２の単語の絶対数は少数でないと識別される。

これらの条件が満たされたことで、上記の式（１）にしたがって第１の認識単語の領域上の位置ｔ１が算出される。具体的には、第１の領域Ｅ２の最初に含まれる認識単語「関東」の先頭文字は「関」であり、この先頭文字「関」は第１の領域Ｅ２に含まれる文字列「関東地方」の先頭でもあるので、そのインデックス番号であるＩＮＤＥＸ１（Ｅ２，関東）は「０」と算出される。このため、ｔ１は、「０／（４−１）」の計算により「０」と算出される。一方、第２の領域Ｅ１の最後に含まれる認識単語「天気」の最終文字は「気」であり、この最終文字「気」は第２の領域Ｅ１に含まれる文字列「明日の天気」の５文字目、すなわち最終文字に対応するので、そのインデックス番号は０から数えて５番目の整数「４」がＩＮＤＥＸ２（Ｅ１，天気）として算出される。このため、ｔ２は、「４／（５−１）」の計算により「１」と算出される。

このようなｔ１及びｔ２を算出することにより、ｔ１及びｔ２から次のような評価を行うことが可能になる。例えば、上述の通り算出される第１の認識単語の領域上の位置ｔ１は、第１の領域「Ｅ２」上で第１の認識単語「関東」が先頭から近い位置に存在するほどその値が低く算出される一方で、先頭から遠い位置に存在するほどその値が高く算出される。それ故、第１の認識単語の領域上の位置ｔ１により、第１の認識単語が第１の領域「Ｅ２」上でどれだけ先頭に近いかどうかを評価できる。また、上述の通り算出される第２の認識単語の領域上の位置ｔ２は、第２の領域「Ｅ１」上で第２の認識単語「天気」が末尾から近い位置に存在するほどその値が高く算出される一方で、末尾から遠い位置に存在するほどその値が低く算出される。それ故、第２の認識単語の領域上の位置ｔ２により、第２の認識単語が第２の領域「Ｅ１」上でどれだけ末尾に近いかどうかを評価できる。

推定部１５ｄは、表示中のスライドに含まれる領域のうち発話箇所に対応する領域を推定する処理部である。

一実施形態として、推定部１５ｄは、第１の領域および第２の領域が異なり、第１の認識単語が表示中のスライド内の複数の領域に出現しない単語であり、第１の領域に含まれる抽出単語の数が所定値以上でない場合、第１の領域を発話箇所と推定する。一方、推定部１５ｄは、第１の領域および第２の領域が異なり、第１の認識単語が表示中のスライド内の複数の領域に出現しない単語であり、第１の領域に含まれる抽出単語の数が所定値以上である場合、次のような判定により、第１の領域を発話箇所として推定するか、認識単語数が最多である領域を発話箇所として推定するのかを決定する。すなわち、推定部１５ｄは、第１の認識単語の位置が第１の領域の先頭から所定の範囲内であり、かつ第２の認識単語の位置が第２の領域の末尾から所定の範囲内であるか否かの判定により、プレゼンテーションの進行が領域間を遷移する段階に差し掛かったか否かをより詳細に判定する。

これを具体的に説明すると、推定部１５ｄは、第１の認識単語の領域上の位置ｔ１が所定の閾値Ｔｈ１、例えば「０．２」以下であるか否かを判定する。このとき、推定部１５ｄは、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下である場合、第２の認識単語の領域上の位置ｔ２が所定の閾値Ｔｈ２、例えば「０．８」以上であるか否かをさらに判定する。このとき、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下であり、かつ第２の認識単語の領域上の位置ｔ２が閾値Ｔｈ２以上である場合、プレゼンテーションがスライドの記述内容の通りに進行し、領域間を遷移した直後である可能性が高いと推認できる。この場合、推定部１５ｄは、第１の領域を発話箇所と推定する。一方、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下でないか、あるいは第２の認識単語の領域上の位置ｔ２が閾値Ｔｈ２以上でない場合、領域間を遷移した直後でない可能性が残る。この場合、認識単語数が最多である領域を発話箇所として推定する。例えば、推定部１５ｄは、表示中のスライドに含まれる領域ごとに当該領域のインデックスが対応付けられた認識単語の数を計数し、認識単語の数が最多である領域を発話箇所として推定する。

このように、第１の認識単語および第２の認識単語の位置に基づいて発話箇所に対応する領域を推定することにより、発話箇所の表示状態の変更漏れが発生するのを抑制できる。例えば、図２の例で言えば、スライドＳ１が表示装置５に表示された状況の下、話者によって「明日の天気です。関東ですが・・・」との発話が行われた場合、領域Ｅ１の認識単語数は「２」となり、領域Ｅ２の認識単語数は「１」となる。このため、認識単語が最多である領域を発話箇所として画一的に推定したのでは、プレゼンテーションは領域Ｅ２へ進行しているにもかかわらず、領域Ｅ１がハイライト表示される。この場合、領域Ｅ２に含まれる抽出単語「地方」が発話されることなく、領域Ｅ３にプレゼンテーションが進行した場合、領域Ｅ２の認識単語数が最多となる状況が発生しづらく、領域Ｅ２のハイライト表示漏れが発生する可能性がある。一方、本実施例では、第１の認識単語の領域上の位置ｔ１が「０」であり、第２の認識単語の領域上の位置ｔ２が「１」であるので、閾値Ｔｈ１「０．２」以下であり、かつ閾値Ｔｈ２「０．８」以上という条件を満たすことになる。この結果、第１の領域Ｅ２が発話箇所と推定されるので、領域Ｅ２のハイライト表示漏れを抑制できる。

なお、ここでは、認識単語の数が最多である領域を発話箇所として推定する場合を例示したが、これ以外の公知の任意の方法を用いることができる。例えば、認識単語のスライドにおける出現頻度を始めとする任意のパラメータにしたがって重みを付与してスコアを領域別に算出し、最高のスコアを持つ領域を発話箇所として推定することもできる。

さらに、推定部１５ｄは、第１の領域および第２の領域の距離が所定の閾値、例えばα行以内であるか否かをさらに加重要件として追加し、両者の距離が閾値以内である場合に始めて第１の領域を発話箇所と推定することもできる。このような判定を追加する意義は、領域間の距離が近い場合の方がスライドの記述内容の通りにプレゼンテーションが進行している可能性がより高いと判断できるからである。

表示制御部１５ｅは、表示装置５に対する表示制御を実行する処理部である。なお、ここでは、表示制御部１５ｅが実行する表示制御のうち、スライドに関する表示制御と、ハイライトに関する表示制御との一側面について説明する。

［スライドの表示制御］
一側面として、表示制御部１５ｅは、プレゼンテーションソフトにより文書ファイルが開かれた場合、当該文書ファイルが含むスライドを表示装置５に表示させる。このとき、表示制御部１５ｅは、文書ファイルが含むスライドのうち最初のページのスライドを表示させることとしてもよいし、最後に編集が行われたページのスライドを表示させることとしてもよい。その後、表示制御部１５ｅは、プレゼンテーションの開始指示を受け付けた後、推定部１５ｄにより推定された発話箇所に対応する領域に関するスライドを表示装置５に表示させる。また、表示制御部１５ｅは、入力装置７を介してページの切替え指示を受け付けた場合、表示装置５に表示させるスライドを変更する。例えば、ページを進める操作を受け付けた場合、表示制御部１５ｅは、表示中のスライドの次ページのスライドを表示装置５に表示させる。また、ページを戻る操作を受け付けた場合、表示制御部１５ｅは、表示中のスライドの前ページのスライドを表示装置５に表示させる。

［ハイライトの表示制御］
他の一側面として、表示制御部１５ｅは、プレゼンテーションの開始指示を受け付けてからプレゼンテーションの終了指示を受け付けるまで下記の処理を繰り返し実行する。すなわち、表示制御部１５ｅは、推定部１５ｄにより推定された発話箇所の領域のハイライト表示を実行する。ここで言う「ハイライト表示」は、狭義のハイライト表示、すなわち背景色を明るくしたり、反転したりする表示制御に留まらず、広義のハイライト表示を意味する。例えば、説明箇所の囲み表示、説明箇所の塗りつぶしの強調、フォント（フォントサイズ、下線や斜体）の強調などのように、強調表示の全般を任意に実行することができる。なお、ハイライト表示は、入力装置７を介してキャンセル操作を受け付けた場合に通常表示へ戻すこととしてもかまわない。また、当然のことながら、推定部１５ｄによりいずれの領域も説明箇所として出力されない場合、例えば認識単語が存在しない場合等には、表示中のスライド上でハイライト表示は実行されない。

［処理の流れ］
次に、本実施例に係るプレゼンテーション支援装置１０の処理の流れについて説明する。なお、ここでは、プレゼンテーション支援装置１０が実行する（１）抽出単語データの生成処理、（２）音声認識処理、（３）表示制御処理の順に説明することとする。

（１）抽出単語データの生成処理
図３は、実施例１に係る抽出単語データの生成処理の手順を示すフローチャートである。この処理は、自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または前処理の実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

図３に示すように、抽出部１５ａは、文書ファイルに含まれるスライドを一文、行または段落などの単位で複数の領域へ分割する（ステップＳ１０１）。続いて、抽出部１５ａは、ステップＳ１０１で得られた領域に各領域を識別するインデックスを割り当てる（ステップＳ１０２）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスのうちインデックスを１つ選択する（ステップＳ１０３）。続いて、抽出部１５ａは、ステップＳ１０３で選択されたインデックスの領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語を抽出する（ステップＳ１０４）。その後、抽出部１５ａは、ステップＳ１０４で抽出された各単語に当該単語が含まれる領域に割り当てられたインデックスを付与する（ステップＳ１０５）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスが全て選択されるまで（ステップＳ１０６Ｎｏ）、上記のステップＳ１０３〜ステップＳ１０５までの処理を繰返し実行する。

その後、ステップＳ１０２で割り当てられたインデックスが全て選択された場合（ステップＳ１０６Ｙｅｓ）、抽出部１５ａは、スライドに含まれる単語ごとに当該単語ｋの読み及びインデックスｉｄｘが対応付けられた抽出単語データ１３ｂを記憶部１３へ登録し（ステップＳ１０７）、処理を終了する。

（２）音声認識処理
図４は、実施例１に係る音声認識処理の手順を示すフローチャートである。この処理は、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。

図４に示すように、認識部１５ｂは、マイク１から所定時間長の音声信号が入力されるまで、例えば少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるまで待機する（ステップＳ３０１）。

そして、マイク１から所定時間長の音声信号が入力されると（ステップＳ３０１Ｙｅｓ）、認識部１５ｂは、当該音声信号にワードスポッティングなどの音声認識を実行する（ステップＳ３０２）。かかるステップＳ３０２でワードスポッティングが実行される場合には、記憶部１３に記憶された抽出単語データ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出単語データが音声認識用の辞書データとして適用される。

このとき、音声信号から単語が認識された場合（ステップＳ３０３Ｙｅｓ）、認識部１５ｂは、ステップＳ３０２で認識された単語及びその単語が認識された時間が対応付けられた認識単語データ１３ｃを記憶部１３へ登録し（ステップＳ３０４）、ステップＳ３０５の処理へ移行する。

一方、マイク１から所定時間長の音声信号が入力されていない場合、あるいは音声信号から単語が認識されなかった場合（ステップＳ３０１ＮｏまたはステップＳ３０３Ｎｏ）、以降の処理を飛ばしてステップＳ３０５の処理へ移行する。

ここで、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃのうち記憶部１３へ登録されてから所定の期間が経過した単語が存在するか否かを判定する（ステップＳ３０５）。そして、記憶部１３へ登録されてから所定の期間が経過した単語が存在する場合（ステップＳ３０５Ｙｅｓ）、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃから当該単語に関するレコードを削除する（ステップＳ３０６）。なお、記憶部１３へ登録されてから所定の期間が経過した単語が存在しない場合（ステップＳ３０５Ｎｏ）には、ステップＳ３０６の処理を飛ばしてステップＳ３０７の処理へ移行する。

その後、認識部１５ｂは、表示装置５に表示されるスライドのページが変更されたか否かを判定する（ステップＳ３０７）。このとき、表示装置５に表示されるスライドのページが変更された場合（ステップＳ３０７Ｙｅｓ）、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃを削除し（ステップＳ３０８）、ステップＳ３０１の処理へ戻り、上記のステップＳ３０１以降の処理が繰り返し実行される。なお、表示装置５に表示されるスライドのページが変更されていない場合（ステップＳ３０７Ｎｏ）、ステップＳ３０８の処理を実行せずにステップＳ３０１の処理へ戻る。

（３）表示制御処理
図５は、実施例１に係る表示制御処理の手順を示すフローチャートである。この処理は、一例として、図４に示した音声認識処理と並行して実行される処理であり、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。なお、処理の実行が繰り返される周期は、図４に示した音声認識処理と同様であってもよいし、異なってもよく、図４に示した音声認識処理と同期して実行されることとしてもよいし、非同期で実行されることとしてもかまわない。

図５に示すように、算出部１５ｃは、記憶部１３に記憶された認識単語データ１３ｃのうち、エントリの時刻が最新である第１の認識単語と、第１の認識単語の直前に認識された第２の認識単語とのレコードを読み出す（ステップＳ５０１）。

続いて、算出部１５ｃは、第１の認識単語に対応付けられたインデックスと、第２の認識単語に対応付けられたインデックスとが異なるか否か、すなわち第１の領域および第２の領域が異なるか否かを判定する（ステップＳ５０２）。

このとき、第１の認識単語に対応付けられたインデックスと、第２の認識単語に対応付けられたインデックスとが異なる場合（ステップＳ５０２Ｙｅｓ）、プレゼンテーションがそれまでに説明が行われていた領域から次の説明に関する記述がある新たな領域へ遷移した段階である可能性の方が高いと推定できる。この場合、算出部１５ｃは、第１の認識単語が表示装置５に表示中であるスライド内の複数の領域に出現する単語であるか否かをさらに判定する（ステップＳ５０３）。

ここで、第１の認識単語が表示中のスライド内の複数の領域に出現しない単語である場合（ステップＳ５０３Ｎｏ）、プレゼンテーションがそれまでに説明が行われていた領域から次の説明に関する記述がある新たな領域へ遷移した段階である可能性がより高まる。この場合、算出部１５ｃは、記憶部１３に記憶された抽出単語データ１３ｂのうち第１の領域のインデックスに対応付けられた抽出単語の数が所定値、例えば「２」以上であるか否かを判定する（ステップＳ５０４）。

そして、第１の領域に含まれる抽出単語の数が所定値以上である場合（ステップＳ５０４Ｙｅｓ）、プレゼンテーションの進行が領域間を遷移する段階に差し掛かったか否かをより精細に判定するパラメータとして、算出部１５ｃは、第１の認識単語の領域上の位置と、第２の認識単語の領域上の位置とを算出する（ステップＳ５０５）。

その上で、推定部１５ｄは、第１の認識単語の領域上の位置ｔ１が所定の閾値Ｔｈ１、例えば「０．２」以下であるか否かを判定する（ステップＳ５０６）。このとき、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下である場合（ステップＳ５０６Ｙｅｓ）、第２の認識単語の領域上の位置ｔ２が所定の閾値Ｔｈ２、例えば「０．８」以上であるか否かをさらに判定する（ステップＳ５０７）。

ここで、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下であり、かつ第２の認識単語の領域上の位置ｔ２が閾値Ｔｈ２以上である場合、プレゼンテーションがスライドの記述内容の通りに進行し、領域間を遷移した直後である可能性が高いと推認できる。この場合、推定部１５ｄは、第１の領域および第２の領域の距離が所定の閾値、例えばα行以内であるか否かをさらに判定する（ステップＳ５０８）。このとき、第１の領域および第２の領域の距離が閾値以内である場合（ステップＳ５０８Ｙｅｓ）、推定部１５ｄは、第１の領域を発話箇所と推定する（ステップＳ５０９）。

また、第１の領域に含まれる抽出単語の数が所定値以上でない場合（ステップＳ５０４Ｎｏ）、第１の認識単語が音声認識により得られた段階でハイライト表示を実施しないと第１の領域のハイライト表示漏れが発生する可能性が高まる。この場合にも、推定部１５ｄは、第１の領域を発話箇所と推定する（ステップＳ５０９）。

一方、第１の認識単語に対応付けられたインデックスと第２の認識単語に対応付けられたインデックスとが同一である場合、第１の認識単語が表示中のスライド内の複数の領域に出現する単語である場合、第１の認識単語の領域上の位置ｔ１が閾値Ｔｈ１以下でない場合、第２の認識単語の領域上の位置ｔ２が閾値Ｔｈ２以上でない場合、あるいは第１の領域および第２の領域の距離が閾値以内でない場合（ステップＳ５０２Ｎｏ、ステップＳ５０３Ｙｅｓ、ステップＳ５０６Ｎｏ、ステップＳ５０７ＮｏまたはステップＳ５０８Ｎｏ）、推定部１５ｄは、認識単語数が最多である領域を発話箇所として推定する（ステップＳ５１０）。

その後、表示制御部１５ｅは、ステップＳ５０９またはステップＳ５１０で発話箇所として推定された領域に関するハイライト表示を実行し（ステップＳ５１１）、処理を終了する。

なお、図５に示したステップＳ５０２、ステップＳ５０３、ステップＳ５０６〜ステップＳ５０８の判定は、図示の順序通りに実行されずともかまわず、順不同で実行することもできるし、並列処理により判定することもできる。

［効果の一側面］
上述してきたように、本実施例に係るプレゼンテーション支援装置１０は、発話から音声認識される２つの認識単語がスライド上の複数の領域にまたがる場合に２つの認識単語のうち後続する認識単語が出現する領域の表示状態を変更する。それ故、単語の絶対数が少ない領域内の単語が発話された場合、他の領域内の単語の発話頻度が高くとも当該領域の表示状態をハイライト表示等に変更できる結果、単語の絶対数が少ない領域の表示状態が変更されずにスキップされるのを抑制できる。したがって、本実施例に係るプレゼンテーション支援装置１０によれば、発話箇所の表示状態の変更漏れが発生するのを抑制できる。

また、本実施例に係るプレゼンテーション支援装置１０は、第１の領域に含まれる抽出単語の数が所定値以上である場合、第１の認識単語の位置が第１の領域の先頭から所定の範囲内であり、かつ第２の認識単語の位置が第２の領域の末尾から所定の範囲内であるか否かを判定する。したがって、本実施例に係るプレゼンテーション支援装置１０によれば、第１の領域から第２の領域へのハイライト表示の切替えを迅速に行うことができる。

上記の実施例１では、プレゼンテーションの一例として、会議や講演等を想定したが、プレゼンテーションはこれら会議や講演などの場面に限定されない。すなわち、予め定められたシナリオにしたがって演劇や映画などの音声が映像と共に出力される場面もプレゼンテーションの範疇に含まれる。

そこで、本実施例では、演劇や映画などのシナリオ、例えばセリフなどに関する文書データ１３ａ、抽出単語データ１３ｂ及び認識単語データ１３ｃを記憶しておき、演劇や映画などのコンテンツが表示装置５で再生される状況の下、文書データ１３ａに含まれるスライドのうちセリフ等の発話箇所に対応する領域がピックアップして表示される実施形態について説明する。

図６は、実施例２に係るプレゼンテーション支援装置２０の機能的構成を示すブロック図である。図６に示すプレゼンテーション支援装置２０は、図１に示したプレゼンテーション支援装置１０に比べて、記憶部２１に映像データ２１ａが記憶されると共に、制御部２３が上記の表示制御部１５ｅの機能と一部が異なる表示制御部２３ａを有する点が異なる。なお、以下では、図１に示したプレゼンテーション支援装置１０と機能が同一である部分には同一の符号を付し、その説明を省略することとする。

図６に示す映像データ２１ａは、動画等の映像コンテンツに関するデータである。この映像コンテンツの一例として、演劇や映画などのコンテンツを採用できる。これと関連して、映像コンテンツに含まれるセリフ等は、脚本や台本などの文書もしくはそこからセリフが抽出された文書が文書データ１３ａとして記憶部２１に記憶される。

図６に示す表示制御部２３ａは、表示装置５に対する表示制御を実行する点は図１に示した表示制御部１５ｅと共通するが、その表示制御の内容が異なる。すなわち、表示制御部２３ａは、文書データ１３ａのスライドを表示する代わりに、映像データ２１ａに含まれる映像コンテンツを表示装置５で再生する。そして、表示制御部２３ａは、文書データ１３ａのうち推定部１５ｄにより発話箇所として推定された領域に対応するセリフを映像コンテンツに重畳して表示させる。つまり、表示制御部２３ａは、推定部１５ｄにより発話箇所として推定された領域に対応するセリフを抜粋して表示することにより、発話箇所として推定された領域の表示状態の変更を実現する。このようにセリフを映像コンテンツ上に重畳表示させる場合、セリフが文字列として表示される位置や大きさは任意とすることができるが、一例として、字幕スーパーと同様の表示方法を採用できる。

以上の映像データ２１ａや表示制御部２３ａの実装により、本実施例に係るプレゼンテーション支援装置２０は、演劇や映画のセリフ等の発話箇所に対応する領域がピックアップして表示するプレゼンテーションを実現できる。このプレゼンテーション支援装置２０においても、上記の実施例１と同様、発話箇所の表示状態の変更漏れが発生するのを抑制できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［文書ファイルの応用例］
上記の実施例１では、プレゼンテーションソフトによって作成された文書を用いる場合を例示したが、他のアプリケーションプログラムによって作成された文書を用いることもできる。例えば、ワープロソフトの文書ファイルが有するページをスライドに読み替えたり、表計算ソフトの文書ファイルが有するシートをスライドに読み替えたりすることによって図３〜図５に示した処理を同様に適用できる。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図１や図６の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄまたは表示制御部１５ｅもしくは表示制御部２３ａをプレゼンテーション支援装置１０またはプレゼンテーション支援装置２０の外部装置としてネットワーク経由で接続するようにしてもよい。また、抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄまたは表示制御部１５ｅもしくは表示制御部２３ａを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のプレゼンテーション支援装置１０またはプレゼンテーション支援装置２０の機能を実現するようにしてもよい。

［他の実装例］
上記の実施例１では、プレゼンテーション支援装置１０またはプレゼンテーション支援装置２０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで図３〜図５に関する処理を実行する場合を例示したが、他の実装形態を採用することもできる。例えば、プレゼンテーションソフトを実行するクライアントに対し、図３〜図５に関する処理のうち一部または全部の処理を実行するサーバを設けることによってクライアントサーバシステムとして構築することもできる。この場合、パッケージソフトウェアやオンラインソフトウェアとして上記のプレゼンテーション支援サービスを実現するプレゼンテーション支援プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記のプレゼンテーション支援サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のプレゼンテーション支援サービスを提供するクラウドとして実装することとしてもかまわない。この場合、クライアントは、サーバ装置に対し、ハイライト表示の開始指示、例えば少なくともプレゼンテーションに用いる文書ファイルを指定する情報をアップロードした後に、プレゼンテーションが開始される。プレゼンテーションが開始されると、クライアントは、マイク１から採取された音声信号または音声認識処理の結果をアップロードし、表示装置５に表示中のスライドのページが切り替わる度にスライドのページ情報をアップロードする。すなわち、抽出単語データの生成処理や音声認識処理は、クライアント側で実行させることもできるし、サーバ側で実行させることとしてもかまわない。これによって、サーバ装置は、少なくとも図５に示した処理が実行可能となる。さらに、クライアントは、図示しない入力デバイスに関する操作情報をサーバへ伝送し、サーバから伝送される処理結果だけを表示装置５に表示させることにより、シンクライアントシステムとして構築することもできる。この場合には、各種のリソース、例えば文書データもサーバにより保持されると共に、プレゼンテーションソフトもサーバで仮想マシンとして実装されることになる。例えば、プレゼンテーションソフトがクライアント側で実行される場合、サーバからクライアントへハイライト表示を実施する領域の識別情報、例えば上記の領域のインデックスを伝送すればよく、また、シンクライアントシステムとして実装される場合、説明箇所のハイライト表示が実施されたスライドの表示データまたはハイライト表示が行われる前の画面との差分データをサーバからクライアントへ伝送すればよい。なお、上記の実施例１では、上記のプレゼンテーション支援処理が組み込まれたプレゼンテーションソフトが実行される場合を想定したが、ライセンス権限を有するクライアントからプレゼンテーション支援プログラムをライブラリとして参照する要求を受け付けた場合に、プレゼンテーション支援プログラムをプレゼンテーションソフトへプラグインさせることもできる。

［シンクライアントシステムへの適用例１］
図７は、実施例３に係るプレゼンテーション支援システム３の構成例を示す図である。図７には、図１に示したプレゼンテーション支援装置１０がシンクライアントシステムとして実装される例が示されている。図７に示すプレゼンテーション支援システム３は、一例として、クライアント端末３０に最低限の機能しか持たせず、サーバ装置３００でアプリケーションやファイルなどのリソースを管理する。なお、ここでは、プレゼンテーション支援システム３の一形態としてシンクライアントシステムを例示するが、後述のように、汎用のクライアントサーバシステムにも上記のプレゼンテーション支援サービスを適用できることをここで付言しておく。

図７に示すように、プレゼンテーション支援システム３には、クライアント端末３０と、サーバ装置３００とが含まれる。

クライアント端末３０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、クライアント端末３０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳなどの移動体通信端末、さらには、ＰＤＡなどのスレート端末などがその範疇に含まれる。

サーバ装置３００は、上記のプレゼンテーション支援サービスを提供するコンピュータである。

一実施形態として、サーバ装置３００は、パッケージソフトウェアやオンラインソフトウェアとして上記のプレゼンテーション支援サービスを実現するプレゼンテーション支援プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置３００は、上記のプレゼンテーション支援サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のプレゼンテーション支援サービスを提供するクラウドとして実装することとしてもかまわない。

これらクライアント端末３０及びサーバ装置３００は、ネットワークＮＷを介して、互いが通信可能な状態で接続される。ネットワークＮＷの一例として、有線または無線を問わず、インターネットを始め、ＬＡＮやＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。

図７に示す通り、クライアント端末３０は、マイク１と、表示装置５と、入力装置７と、データ授受部２４とを有する。なお、図７には、図１に示した機能部と同様の機能を発揮する機能部、例えばマイク、表示装置及び入力装置に同一の符号を付し、その説明を省略する。

データ授受部３４は、サーバ装置３００との間で各種のデータの授受を制御する処理部である。

一実施形態として、データ授受部３４は、一例として、クライアント端末３０が有するＣＰＵなどのプロセッサにより、シンクライアントシステムのクライアント用のプログラムが実行されることで、仮想的に実現される。

例えば、データ授受部３４は、マイク１により入力される音声データ、さらには、入力装置７が受け付けた操作情報などをサーバ装置３００へ送信する。また、データ授受部３４は、サーバ装置３００で実行されるプレゼンテーションソフトの実行結果を含むデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを受信する。例えば、プレゼンテーションソフトにより文書ファイルがスライドショーで表示される場合、プレゼンテーションソフトにより生成されるウィンドウは全画面表示されるので、デスクトップ画面とウィンドウ画面とが同じ表示内容となる。ここで、データ授受部３４は、サーバ装置３００が伝送するデスクトップ画面の表示データを任意のフレームレートで受信することができる他、デスクトップ画面の表示データに差分がある場合に絞ってデスクトップ画面の表示データを受信することもできる。このとき、サーバ装置３００から伝送されるデスクトップ画面の表示データは、デスクトップ画面の全体であってもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データであってもかまわない。

このように、クライアント端末３０及びサーバ装置３００の間で授受される各種のデータには、トラフィックを抑制する観点から、圧縮符号化を行うこととしてもよいし、また、セキュリティの観点から、各種の暗号化を行うこととしてもよい。

図７に示すように、サーバ装置３００は、記憶部３２０と、制御部３４０とを有する。なお、サーバ装置３００は、図７に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば他の装置との間で通信制御を行う通信Ｉ／Ｆ部などの機能部を有することとしてもかまわない。

記憶部３２０は、制御部３４０で実行されるＯＳやプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部３２０は、サーバ装置３００における主記憶装置として実装される。例えば、記憶部３２０には、各種の半導体メモリ素子、例えばＲＡＭやフラッシュメモリを採用できる。また、記憶部３２０は、補助記憶装置として実装することもできる。この場合、ＨＤＤ、光ディスクやＳＳＤなどを採用できる。

例えば、記憶部３２０は、制御部３４０で実行されるプログラムに用いられるデータの一例として、図７に示す文書データ３２１、抽出単語データ３２２及び認識単語データ３２３を記憶する。これら文書データ３２１、抽出単語データ３２２及び認識単語データ３２３は、サーバ装置３００に接続されるクライアント端末３０のうちいずれのクライアント端末３０に関するデータであるのかがサーバ装置３００で識別できるように、文書データ３２１、抽出単語データ３２２及び認識単語データ３２３が格納される記憶領域がクライアント端末３０の識別情報ごとに区別されたり、あるいは文書データ３２１、抽出単語データ３２２及び認識単語データ３２３がクライアント端末３０の識別情報とさらに対応付けられたりする他は、図１に示した文書データ１３ａ、抽出単語データ１３ｂ及び認識単語データ１３ｃと同様のデータである。

制御部３４０は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部３４０は、中央処理装置、いわゆるＣＰＵとして実装される。なお、制御部３４０は、必ずしも中央処理装置として実装されずともよく、ＭＰＵやＤＳＰとして実装されることとしてもよい。また、制御部３４０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

制御部３４０は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部３４０は、図７に示すように、抽出部３４１と、認識部３４２と、算出部３４３と、推定部３４４と、表示制御部３４５とを有する。

図７に示す抽出部３４１、認識部３４２、算出部３４３及び推定部３４４は、図１に示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ及び推定部１５ｄと同様の処理を実行する処理部である。

表示制御部３４５は、クライアント端末３０の表示装置５に対する表示制御を実行する処理部である。

ここで、表示制御部３４５は、クライアント端末３０のデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを所定のフレームレート、あるいはデスクトップ画面の更新を契機に送信する。このとき、表示制御部３４５は、デスクトップ画面に更新がない場合、必ずしもデスクトップ画面の表示データをクライアント端末３０へ伝送せずともかまわない。さらに、表示制御部３４５は、デスクトップ画面の全体の表示データを送信することとしてもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データを送信することとしてもかまわない。このようなデスクトップ画面の伝送と並行して、表示制御部３４５は、図１に示した表示制御部１５ｅと同様に、クライアント端末３０から伝送される入力装置７の操作情報にしたがって上記のスライドの表示制御を実行したり、さらには、上記のハイライトの表示制御などを実行することにより、プレゼンテーションソフトにより生成されるウィンドウ画面の表示データを更新する。このようにしてデスクトップ画面の伝送時にウィンドウ画面の更新内容がサーバ装置３００からクライアント端末３０へ伝送されることになる。

以上のように、本実施例に係るプレゼンテーション支援システム３がシンクライアントシステムとして実装された場合、サーバ装置３００の抽出部３４１が図３に示した処理を実行し、認識部３４２が図４に示した音声認識処理を実行することができる。この音声認識処理では、ステップＳ３０１でマイク１から音声データが直接取得される代わりに、クライアント端末３０からサーバ装置３００へ伝送される音声データが取得される以外に処理内容の差はない。さらに、サーバ装置３００の算出部３４３、推定部３４４及び表示制御部３４５が図５に示した表示制御処理を実行することができる。

［シンクライアントシステムへの適用例２］
図８は、実施例３に係るプレゼンテーション支援システム４の構成例を示す図である。図８には、図６に示したプレゼンテーション支援装置２０がシンクライアントシステムとして実装される例が示されている。図８に示すプレゼンテーション支援システム４は、一例として、クライアント端末４０に最低限の機能しか持たせず、サーバ装置４００でアプリケーションやファイルなどのリソースを管理する。なお、ここでは、プレゼンテーション支援システム４の一形態としてシンクライアントシステムを例示するが、後述のように、汎用のクライアントサーバシステムにも上記のプレゼンテーション支援サービスを適用できることをここで付言しておく。

図８に示すように、プレゼンテーション支援システム４には、クライアント端末４０と、サーバ装置４００とが含まれる。

クライアント端末４０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、クライアント端末４０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳなどの移動体通信端末、さらには、ＰＤＡなどのスレート端末などがその範疇に含まれる。

サーバ装置４００は、上記のプレゼンテーション支援サービスを提供するコンピュータである。

一実施形態として、サーバ装置４００は、パッケージソフトウェアやオンラインソフトウェアとして上記のプレゼンテーション支援サービスを実現するプレゼンテーション支援プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置４００は、上記のプレゼンテーション支援サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のプレゼンテーション支援サービスを提供するクラウドとして実装することとしてもかまわない。

これらクライアント端末４０及びサーバ装置４００は、ネットワークＮＷを介して、互いが通信可能な状態で接続される。ネットワークＮＷの一例として、有線または無線を問わず、インターネットを始め、ＬＡＮやＶＰＮなどの任意の種類の通信網を採用できる。

図８に示す通り、クライアント端末４０は、図７に示したマイク１、表示装置５、入力装置７及びデータ授受部３４に加え、映像入力装置８をさらに有する。この映像入力装置８には、一例として、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を搭載する撮像装置を採用できる。これにより、映像データ２１ａを予め保持しておかずとも、映像入力装置８に撮像された演劇などの映像コンテンツをリアルタイムで表示装置５に再生させることもできる。また、映像データ２１ａをサーバ装置４００に保持させておき、映像コンテンツを表示制御部４４５に再生させることもできる。なお、図８には、図１に示した機能部と同様の機能を発揮する機能部、例えばマイク、表示装置及び入力装置に同一の符号を付し、その説明を省略する。

データ授受部４４は、サーバ装置４００との間で各種のデータの授受を制御する処理部である。

一実施形態として、データ授受部４４は、一例として、クライアント端末４０が有するＣＰＵなどのプロセッサにより、シンクライアントシステムのクライアント用のプログラムが実行されることで、仮想的に実現される。例えば、データ授受部４４は、マイク１により入力される音声データ、さらには、入力装置７が受け付けた操作情報などをサーバ装置４００へ送信する。また、データ授受部４４は、発話箇所に対応するセリフに関する表示データ、さらには、セリフが表示される大きさや位置などの属性情報を受信する。

このように、クライアント端末４０及びサーバ装置４００の間で授受される各種のデータには、トラフィックを抑制する観点から、圧縮符号化を行うこととしてもよいし、また、セキュリティの観点から、各種の暗号化を行うこととしてもよい。

図８に示すように、サーバ装置４００は、記憶部４２０と、制御部４４０とを有する。なお、サーバ装置４００は、図８に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば他の装置との間で通信制御を行う通信Ｉ／Ｆ部などの機能部を有することとしてもかまわない。

記憶部４２０は、制御部４４０で実行されるＯＳやプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部４２０は、サーバ装置４００における主記憶装置として実装される。例えば、記憶部４２０には、各種の半導体メモリ素子、例えばＲＡＭやフラッシュメモリを採用できる。また、記憶部４２０は、補助記憶装置として実装することもできる。この場合、ＨＤＤ、光ディスクやＳＳＤなどを採用できる。

例えば、記憶部４２０は、制御部４４０で実行されるプログラムに用いられるデータの一例として、図８に示す文書データ４２１、抽出単語データ４２２及び認識単語データ４２３を記憶する。これら文書データ４２１、抽出単語データ４２２及び認識単語データ４２３は、サーバ装置４００に接続されるクライアント端末４０のうちいずれのクライアント端末４０に関するデータであるのかがサーバ装置４００で識別できるように、文書データ４２１、抽出単語データ４２２及び認識単語データ４２３が格納される記憶領域がクライアント端末４０の識別情報ごとに区別されたり、あるいは文書データ４２１、抽出単語データ４２２及び認識単語データ４２３がクライアント端末４０の識別情報とさらに対応付けられたりする他は、図６に示した文書データ１３ａ、抽出単語データ１３ｂ及び認識単語データ１３ｃと同様のデータである。なお、図６に示した映像データ２１ａをさらに記憶部４２０に記憶させることもできる。

制御部４４０は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部４４０は、中央処理装置、いわゆるＣＰＵとして実装される。なお、制御部４４０は、必ずしも中央処理装置として実装されずともよく、ＭＰＵやＤＳＰとして実装されることとしてもよい。また、制御部４４０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

制御部４４０は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部４４０は、図８に示すように、抽出部４４１と、認識部４４２と、算出部４４３と、推定部４４４と、表示制御部４４５とを有する。図８に示す抽出部４４１、認識部４４２、算出部４４３、推定部４４４及び表示制御部４４５は、図６に示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄ及び表示制御部２３ａと同様の処理を実行する処理部である。

以上のように、本実施例に係るプレゼンテーション支援システム４がシンクライアントシステムとして実装された場合、サーバ装置４００の抽出部４４１が図３に示した処理を実行し、認識部４４２が図４に示した音声認識処理を実行することができる。この音声認識処理では、ステップＳ３０１でマイク１から音声データが直接取得される代わりに、クライアント端末３０からサーバ装置３００へ伝送される音声データが取得される以外に処理内容の差はない。さらに、サーバ装置４００の算出部４４３、推定部４４４及び表示制御部４４５が図５に示した表示制御処理を実行することができる。

［汎用のクライアントサーバシステムへの適用例］
図７及び図８には、プレゼンテーション支援システム３または４がシンクライアントシステムとして実装される場合を例示したが、必ずしもシンクライアントシステムとして実装されずともかまわず、汎用のクライアントサーバシステムとして実装することもできる。

例えば、図１または図６に示したプレゼンテーション支援装置１０または２０をクライアント端末とし、このクライアント端末を収容する図示しないサーバ装置に、プレゼンテーション支援装置１０または２０が有する処理部のうち、算出部１５ｃ、推定部１５ｄ及び表示制御部１５ｅもしくは２３ａなどの処理部を実装することとすればよい。この場合、クライアント端末であるプレゼンテーション支援装置１０または２０が図４に示した音声認識処理を実行し、認識単語が得られる度に追加の認識単語もしくは認識単語データの全体を図示しないサーバ装置へ伝送することにより、図示しないサーバ装置上でクライアント端末ごとに認識単語データが記憶されることになる。これによって、クライアント及びサーバ間で音声データが伝送されずともよくなる。

以上のように、汎用のクライアントサーバシステムにも上記のプレゼンテーション支援サービスを適用できる。

［電子会議システムへの適用例］
例えば、上記の実施例１では、話者と聴講者が１つの表示装置５を共用する場面を例示したが、必ずしも話者と聴講者が１つの表示装置を共用せずともかまわず、複数の表示装置の間で同一の表示内容が共有される場面にも上記のプレゼンテーション支援サービスを適用できる。例えば、電子会議等のコミュニケーションにおいて各参加者が話者及び聴講者の少なくとも一方または両方の立場で参加する状況が挙げられる。この場合、互いの表示装置に接続されるコンピュータがネットワークを介して接続されていれば互いが遠隔地に存在してもかまわない。

図９は、電子会議システムへの適用例を示す図である。例えば、図９に示すように、図１に示したプレゼンテーション支援装置１０と同様の機能を有するクライアント端末１０Ａ及び１０ＢがネットワークＮＷを介して接続されると共にクライアント端末１０Ａ及び１０Ｂ上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末１０Ａ及び１０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、クライアント端末１０Ａ及び１０Ｂのうち少なくとも一方の端末が図３〜図５に示した処理を実行することにより、クライアント端末１０Ａまたは１０Ｂの利用者の発話および視線を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

図１０は、電子会議システムへの適用例を示す図である。例えば、図１０に示すように、図７に示したクライアント端末３０と同様の機能を有するクライアント端末３０Ａ及び３０Ｂと、図７に示したサーバ装置３００とがネットワークＮＷを介して接続されると共に、サーバ装置３００上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末３０Ａ及び３０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、サーバ装置３００が図３〜図５に示した処理を実行することにより、クライアント端末３０Ａまたは３０Ｂの利用者の発話を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

［表示状態の変更方法］
図１に示したプレゼンテーション支援装置１０や図７に示したプレゼンテーション支援システム３では、スライドを常に表示させる場合を例示したが、発話箇所が推定されることを条件に当該発話箇所に対応する領域を抜粋することにより領域の表示状態の変更を実現し、プレゼンテーションを支援することとしてもよい。図１１は、プレゼンテーション支援システムへの実装例を示す図である。図１１には、図８に示したプレゼンテーション支援システム４が会議等のプレゼンテーションに援用される場合が示されている。図１１に示すように、図８に示したクライアント端末４０が有する映像入力装置８がプレゼンタ等の話者の様子を撮像できる位置に設置されると共に、クライアント端末４０が有する表示装置５が聴講者が閲覧可能な状態で設置される。なお、図１１には、図示を省略しているが、クライアント端末４０にはサーバ装置４００が接続されている。この表示装置５は、クライアント端末４０と通信可能な状態であれば遠隔地に設置されることとしてもよい。図１１に示す構成の下、発話箇所が推定されることを条件に当該発話箇所に対応する領域を抜粋することにより領域の表示状態の変更を実現し、プレゼンテーションを支援することができる。例えば、映像入力装置８により入力される映像に発話箇所に対応する領域を字幕スーパー５ａとして重畳表示させる。

［プレゼンテーション支援プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１２を用いて、上記の実施例と同様の機能を有するプレゼンテーション支援プログラムを実行するコンピュータの一例について説明する。

図１２は、実施例１〜実施例３に係るプレゼンテーション支援プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１２に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１２に示すように、上記の実施例１で示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄ及び表示制御部１５ｅと同様の機能を発揮するプレゼンテーション支援プログラム１７０ａが記憶される。また、ＨＤＤ１７０には、上記の実施例２で示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄ及び表示制御部２３ａと同様の機能を発揮するプレゼンテーション支援プログラム１７０ａが記憶されることとしてもかまわない。このプレゼンテーション支援プログラム１７０ａは、図１に示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、推定部１５ｄ及び表示制御部１５ｅの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１または上記の実施例２で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０からプレゼンテーション支援プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、プレゼンテーション支援プログラム１７０ａは、図１２に示すように、プレゼンテーション支援プロセス１８０ａとして機能する。このプレゼンテーション支援プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうちプレゼンテーション支援プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、プレゼンテーション支援プロセス１８０ａが実行する処理の一例として、図３〜図５に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記のプレゼンテーション支援プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」にプレゼンテーション支援プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体からプレゼンテーション支援プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などにプレゼンテーション支援プログラム１７０ａを記憶させておき、コンピュータ１００がこれらからプレゼンテーション支援プログラム１７０ａを取得して実行するようにしてもよい。

１マイク
５表示装置
７入力装置
１０プレゼンテーション支援装置
１１入出力Ｉ／Ｆ部
１３記憶部
１３ａ文書データ
１３ｂ抽出単語データ
１３ｃ認識単語データ
１５制御部
１５ａ抽出部
１５ｂ認識部
１５ｃ算出部
１５ｄ推定部
１５ｅ表示制御部

Claims

文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行する認識部と、
前記音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、前記２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する表示制御部と、
を有することを特徴とするプレゼンテーション支援装置。
前記２つの認識単語は、前記音声認識により最新の時刻に認識された第１の認識単語および前記第１の認識単語の直前に認識された第２の認識単語であることを特徴とする請求項１に記載のプレゼンテーション支援装置。
前記第１の認識単語が属する領域が含む文字列から抽出された単語が所定値以上である場合、前記第１の認識単語の領域上の位置と前記第２の認識単語の領域上の位置を算出する算出部をさらに有し、
前記表示制御部は、前記第１の認識単語の領域上の位置が先頭から所定の範囲内であり、かつ前記第２の認識単語の領域上の位置が末尾から所定の範囲内である場合、前記第１の認識単語を含む領域の表示状態を変更することを特徴とする請求項２に記載のプレゼンテーション支援装置。
前記第１の認識単語の領域上の位置が先頭から所定の範囲内でないか、あるいは前記第２の認識単語の領域上の位置が末尾から所定の範囲内でない場合、前記音声認識により得られた認識単語が含まれる個数が多い方の領域の表示状態を変更することを特徴とする請求項３に記載のプレゼンテーション支援装置。
前記表示制御部は、前記第１の認識単語が属する領域と、前記第２の認識単語が属する領域との距離が所定の閾値以内である場合、前記第１の認識単語を含む領域の表示状態を変更することを特徴とする請求項２、３または４に記載のプレゼンテーション支援装置。
第１装置と第２装置とを有するプレゼンテーション支援システムであって、
前記第１装置は、
表示を行う表示装置と、
音声を入力するマイクと、
前記マイクにより入力される音声データを前記第２装置へ送信する送信部とを有し、
前記第２装置は、
文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、前記音声データに対する音声認識を実行する認識部と、
前記音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、前記２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する制御を前記表示装置に行う表示制御部と、
を有することを特徴とするプレゼンテーション支援システム。
文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行し、
前記音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、前記２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する、
処理がコンピュータにより実行されることを特徴とするプレゼンテーション支援方法。
文書ファイルの表示コンテンツが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行し、
前記音声認識により連続して認識される２つの認識単語が異なる領域に属する場合、前記２つの認識単語のうち後続して認識された方の認識単語を含む領域の表示状態を変更する、
処理をコンピュータに実行させることを特徴とするプレゼンテーション支援プログラム。