JP6651985B2

JP6651985B2 - 雑談検出装置、画像表示システム、雑談検出方法及び雑談検出プログラム

Info

Publication number: JP6651985B2
Application number: JP2016105350A
Authority: JP
Inventors: 田中　正清; 正清田中; 高橋　潤; 潤高橋; 村瀬　健太郎; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2020-02-19
Anticipated expiration: 2036-05-26
Also published as: JP2017211546A

Description

本発明は、雑談検出装置、画像表示システム、雑談検出方法及び雑談検出プログラムに関する。

会議や講演におけるプレゼンテーション、パンフレット紹介などが行われる場面では、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書が共有された状態で会話によるコミュニケーションが行われる場合がある。

このような会話によるコミュニケーションを支援する技術の一例として、発言者の発言内容に該当する箇所を強調させて会議資料を表示させることを目的とする会議中継装置が挙げられる。この会議中継装置は、通信部を介して受信した音声信号に対して音声認識処理を行なってテキスト情報を生成する。そして、会議中継装置は、生成したテキスト情報に対して言語解析処理を行なって単語に分解し、分解した単語と、会議資料情報ＤＢ及び位置特定情報ＤＢのそれぞれに格納してある情報とを照合し、発言者の発言内容にいずれの情報が含まれるかを判断する。その上で、会議中継装置は、発言者の発言内容にいずれかの情報が含まれると判断した場合、会議資料中の、この情報に対応する領域を特定し、特定した領域を強調させる処理を行なってディスプレイに表示させる。

他の一例として、会議の参加者間でやり取りされる内容を考慮して、会議が本論から逸れているか否かを判断することを目的とする、上記の会議中継装置が開示される文献とは別の文献で開示される同名の会議中継装置が挙げられる。この会議中継装置は、複数の端末装置間で行なわれる通信会議で送受信される音声信号を取得した場合、音声信号に対して音声認識処理を行なってテキスト情報を生成する。続いて、会議中継装置は、生成したテキスト情報に対して言語解析処理を行なって単語に分解する。さらに、会議中継装置は、分解した単語とキーワードＤＢとを照合し、発言者の発言内容に対して１文ずつ、キーワードＤＢに格納してあるキーワードが含まれるか否かの判定を行なう。その上で、会議中継装置は、判定結果に基づいて、議論の状況を示す累積スコアを算出し、算出した累積スコアに基づいて、議論が本論に沿っているか否かを判定する。このような判定の他、会議中継装置には、上記のキーワードＤＢの生成に関し、次のような記載がある。すなわち、会議中継装置は、会議資料データから分解された各単語の出現頻度を計数した後、各単語の出現頻度が所定回数（例えば１０回）以上であるか否かを判断し、出現頻度が所定回数以上の単語を、キーワードとしてキーワードＤＢに格納する。

特開２０１１−０５５１６０号公報特開２０１２−０６５４６７号公報特開２０１２−００５４８９号公報特開２０１４−１１５７７３号公報

しかしながら、上記の技術では、以下に説明するように、雑談中の発話に含まれる単語が誤って文書に対応付けられる場合がある。

すなわち、講義や会議におけるプレゼンテーションでは、スライド資料や会議の議題とは関連がない話題、あるいは関連するがプレゼンテーションの進行から逸れた話題である、いわゆる「雑談」が行われることがある。ところが、前者の会議中継装置では、発話が雑談であるか否かを問わず、発話から音声認識された単語と文書中の単語の出現箇所との対応付けが画一的に実施される。この結果、前者の会議中継装置では、発話の内容とは無関係な箇所が強調して表示される不具合が発生する場合がある。

一方、後者の会議中継装置では、音声認識処理及び言語解析処理により得られた単語がキーワードＤＢ内のキーワードに含まれる回数に応じて加算される累積スコアが閾値以上であるか否かにより、議論が本論に沿っているか否かが判定される。それ故、後者の会議中継装置では、スライド資料や会議の議題とは無関係な話題が本筋に沿っていないと判定されるに過ぎない。すなわち、後者の会議中継装置では、スライド資料や会議の議題とは関連があるが、プレゼンテーションの進行から逸れた話題は本筋に沿っていると判定される。このため、後者の会議中継装置で行われる判定を前者の会議中継装置に援用したとしても、雑談中の発話に含まれる単語が誤って文書に対応付けられる場合がある。

１つの側面では、本発明は、雑談中の発話に含まれる単語が誤って文書に対応付けられるのを抑制できる雑談検出装置、画像表示システム、雑談検出方法及び雑談検出プログラムを提供することを目的とする。

一態様では、雑談検出装置は、表示時に画面単位で表示されるページを含む文書ファイルのページが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行する認識部と、所定期間内に前記音声認識の結果として得られた単語の数を算出する第１算出部と、前記所定期間内に前記音声認識の結果として得られた単語が前記ページ上で分布する位置のばらつき度合いを算出する第２算出部と、雑談中であるか否かの過去の判定結果と、前記単語の数の変化と、前記ばらつき度合いの変化とに基づいて、雑談中であるか否かを判定する判定部とを有する。

雑談中の発話に含まれる単語が誤って文書に対応付けられるのを抑制できる。

図１は、実施例１に係るプレゼンテーション支援装置の機能的構成を示すブロック図である。図２は、スライドの模式図の一例を示す図である。図３は、スライドの模式図の一例を示す図である。図４は、実施例１に係る抽出単語データの生成処理の手順を示すフローチャートである。図５は、実施例１に係る音声認識処理の手順を示すフローチャートである。図６は、実施例１に係る雑談検出処理の手順を示すフローチャート（１）である。図７は、実施例１に係る雑談検出処理の手順を示すフローチャート（２）である。図８は、実施例２に係るプレゼンテーション支援システムの構成例を示す図である。図９は、プレゼンテーション支援サービスの会議システムへの適用例を示す図である。図１０は、プレゼンテーション支援サービスの会議システムへの適用例を示す図である。図１１は、実施例１及び実施例２に係る雑談検出プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る雑談検出装置、画像表示システム、雑談検出方法及び雑談検出プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［プレゼンテーション支援装置が搭載する機能の一側面］
図１は、実施例１に係るプレゼンテーション支援装置の機能的構成を示すブロック図である。図１に示すプレゼンテーション支援装置１０は、複数人によって同一の内容の文書、例えば進捗アジェンダやスライド資料などに関する文書に含まれるページ画面、例えばスライドのうち、話者により発話された音声から認識された単語に対応する部分をハイライト表示させるプレゼンテーション支援サービスを提供する。

ここで、以下では、あくまで一例として、上記のハイライト表示に関する機能がプレゼンテーションソフトにアドオンされる場合を想定し、当該プレゼンテーションソフトを用いて作成された文書ファイルが含む１または複数のスライドを表示装置５に表示させることによってプレゼンテーションが進行される場合を想定する。このスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像装置で撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。

プレゼンテーション支援装置１０は、上記のプレゼンテーション支援サービスを実行するコンピュータである。

一実施形態として、プレゼンテーション支援装置１０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、プレゼンテーション支援装置１０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。

なお、本実施例では、あくまで一例として、プレゼンテーション支援装置１０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで上記のプレゼンテーション支援サービスを提供する場合を想定する。詳細は後述するが、上記のプレゼンテーション支援サービスは、スタンドアローンで提供される実装に限定されない。例えば、プレゼンテーションソフトを実行するクライアント端末に対し、上記のプレゼンテーション支援サービスを提供するサーバ装置を設けることによってクライアントサーバシステムとして構築することもできる。この他、プレゼンテーションソフトをサーバ装置に実行させ、その実行結果をサーバ装置がクライアント端末へ伝送して表示させるシンクライアントシステムとして構築することもできる。

ここで、上記のプレゼンテーション支援装置１０は、上記のプレゼンテーション支援サービスの一環として、発話音声からプレゼンテーションの進行から逸れる雑談中であるか否かを判定する雑談検出処理を実現する。

すなわち、プレゼンテーションの進行中には、スライド中の特定範囲、例えば行や段落などの局部に出現する単語が発話される頻度が高まる可能性が高い。一方、プレゼンテーションに関係のない話題が行われる場合、スライドに出現する単語が発話される頻度が低下し、プレゼンテーションに関連するがその進行から逸れる話題が行われる場合、発話される単語のスライド上の位置が局部に集中せずにランダムになる可能性が高い。

これらの知見の下、プレゼンテーション支援装置１０は、過去の雑談検出の結果、所定期間に発話から音声認識された認識単語の数の変化、及び、認識単語のスライド中の位置のばらつき度合いの変化を用いて雑談中であるか否かを判定する。これによって、スライド資料や会議の議題とは関連があるが、プレゼンテーションの進行から逸れた話題を雑談と判定し、もって雑談中の発話に含まれる単語が誤って文書に対応付けられるのを抑制する。

［周辺機器］
図１に示すように、プレゼンテーション支援装置１０には、マイク３と、表示装置５と、入力装置７とが接続される。これらマイク３、表示装置５及び入力装置７などの周辺機器と、プレゼンテーション支援装置１０との間は、有線または無線により接続される。

マイク３は、音声を電気信号に変換する装置である。ここで言う「マイク」は、マイクロフォンの略称である。

例えば、マイク３は、話者、例えばプレゼンテーションを実施するプレゼンタに装着させることができる。この場合、ヘッドセット型やタイピン型のマイクをプレゼンタの身体や衣服の所定位置に装着させたり、ハンド型のマイクをプレゼンタに携帯させたりすることができる。また、マイク３は、プレゼンタの発話が集音できる範囲の所定位置に設置することもできる。この場合、マイク３には、取付け型や据置き型のマイクを採用することもできる。これらいずれの場合においても、マイク３には、任意のタイプの指向性を持つマイクを採用できるが、プレゼンタの発話以外の音声、例えば聴講者等の発話や騒音などの雑音が集音されるのを抑制するために、マイクの感度をプレゼンタの発声方向に限定することもできる。なお、マイク３には、ダイナミック型、エレクトレットコンデンサ型、コンデンサ型などの任意の変換方式を採用することができる。このマイク３に音声を採取することにより得られたアナログ信号は、デジタル信号へ変換された上でプレゼンテーション支援装置１０へ入力される。

表示装置５は、各種の情報を表示する装置である。

例えば、表示装置５には、発光により表示を実現する液晶ディスプレイや有機ＥＬ（electroluminescence）ディスプレイなどを採用することもできるし、投影により表示を実現するプロジェクタを採用することもできる。また、表示装置５の設置台数は、必ずしも１台に限定されずともよく、複数の台数であってかまわない。以下では、一例として、プレゼンテーションの参加者であるプレゼンタ及び聴講者の両者が閲覧する共用の表示装置としてプロジェクタ及びプロジェクタが投影する画像を映すスクリーンが実装される場合を想定する。

この表示装置５は、一例として、プレゼンテーション支援装置１０からの指示にしたがってプレゼンテーション画面を表示する。例えば、表示装置５は、プレゼンテーション支援装置１０のプロセッサ上で動作するプレゼンテーションソフトが開く文書ファイルのスライドを表示する。このとき、表示装置５には、文書ファイルに含まれるスライドを自動または手動により切り替えて表示させることができる。例えば、プレゼンタが入力装置７を介して指定する任意のスライドを表示させることもできるし、プレゼンテーションソフトが有するスライドショーの機能がＯＮ状態に設定された場合、各スライドが作成されたページ順に文書ファイルが含むスライドを切り替えて表示させることもできる。

入力装置７は、各種の情報に対する指示入力を受け付ける装置である。

例えば、表示装置５がプロジェクタとして実装される場合、スクリーンに映し出されたスライド上の位置を指し示すレーザポインタを入力装置７として実装することができる。すなわち、レーザポインタの中には、スライドのページを進めたり、戻したりする各種のボタンなどの操作部が設けられたリモコン機能付きのレーザポインタも存在する。このリモコン機能付きのレーザポインタが有する操作部を入力装置７として援用することもできる。この他、マウスやキーボードを入力装置７として採用したり、レーザポインタによって指し示されたポインタの位置のセンシング、プレゼンタの視線検出やジェスチャ認識を行うためにスクリーンまたはプレゼンタの所定の部位が撮像された画像を入力する画像センサを入力装置７として採用したりすることもできる。なお、表示装置５が液晶ディスプレイとして実装される場合、入力装置７には、液晶ディスプレイ上に貼り合わせられたタッチセンサを採用することもできる。

この入力装置７は、一例として、プレゼンテーション支援装置１０のプロセッサ上でプレゼンテーションソフトに実行させる文書ファイルの指定、スライドのページを進める操作やスライドのページを戻す操作などを受け付ける。このように入力装置７を介して受け付けられる操作は、プレゼンテーション支援装置１０へ出力されることになる。

［プレゼンテーション支援装置１０の構成］
続いて、本実施例に係るプレゼンテーション支援装置１０の機能的構成について説明する。図１に示すように、プレゼンテーション支援装置１０は、入出力Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、データの入出力の関係を表す実線が示されているが、図１には、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。

入出力Ｉ／Ｆ部１１は、マイク３、表示装置５及び入力装置７などの周辺機器との間で入出力を行うインタフェースである。

一側面として、入出力Ｉ／Ｆ部１１は、入力装置７から入力された各種の操作を制御部１５へ出力する。また、入出力Ｉ／Ｆ部１１は、制御部１５から出力されたスライドの画像データを表示装置５へ出力したり、スライドに含まれる領域に対するハイライト指示またはそのキャンセル指示を表示装置５へ出力したりする。また、入出力Ｉ／Ｆ部１１は、マイク３から入力された音声データを制御部１５へ出力する。

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）やプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部１３は、プレゼンテーション支援装置１０における主記憶装置として実装される。例えば、記憶部１３には、各種の半導体メモリ素子、例えばＲＡＭ（Random Access Memory）やフラッシュメモリを採用できる。また、記憶部１３は、補助記憶装置として実装することもできる。この場合、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などを採用できる。

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、文書データ１３ａ、抽出単語データ１３ｂ、認識単語データ１３ｃ及び判定履歴データ１３ｄを記憶する。これらのデータ以外にも、記憶部１３には、他の電子データ、例えばハイライト表示に関する定義データなども併せて記憶することもできる。なお、上記の文書データ１３ａ以外の抽出単語データ１３ｂ、認識単語データ１３ｃ及び判定履歴データ１３ｄは、各データの登録または参照を行う処理部の説明に合わせて説明を行うこととする。

文書データ１３ａは、文書に関するデータである。

一実施形態として、文書データ１３ａには、プレゼンテーションソフトを用いて１または複数のスライドが作成された文書ファイルを採用できる。かかるスライドには、テキストや図形を始め、他のアプリケーションプログラムによって作成されたコンテンツをインポートすることができる。例えば、ワープロソフトで作成された文書、表計算ソフトで作成された表やグラフをインポートしたり、撮像デバイスで撮像された画像や動画、さらには、画像編集ソフトで編集された画像や動画などをインポートしたりすることができる。このように、テキスト以外のコンテンツには、音声認識によるキーワード検索を実現するために、プレゼンテーションの開始前までに当該コンテンツの説明語句や説明文などの文字列を含むメタ情報を付与しておくことができる。

制御部１５は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部１５は、中央処理装置、いわゆるＣＰＵ（Central Processing Unit）として実装される。制御部１５は、必ずしも中央処理装置として実装されずともよく、ＭＰＵ（Micro Processing Unit）やＤＳＰ（Digital Signal Processor）として実装されることとしてもよい。このように、制御部１５は、プロセッサとして実装されればよく、その種別が汎用型または特化型であるかは問われない。また、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

制御部１５は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部１５は、図１に示すように、抽出部１５ａと、認識部１５ｂと、算出部１５ｃと、判定部１５ｄと、表示制御部１５ｅとを有する。

抽出部１５ａは、文書ファイルに含まれるスライドから音声認識で用いる辞書データに登録する単語を抽出単語データ１３ｂとして抽出する処理部である。

一実施形態として、抽出部１５ａは、上記の抽出単語データ１３ｂを抽出する処理を自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

抽出単語データ１３ｂの生成について説明すると、抽出部１５ａは、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち保存が実行された文書ファイルあるいはプレゼンテーションの前処理の実行指示を受け付けた文書ファイルを読み出す。ここでは、一例として、抽出部１５ａが記憶部１３から文書ファイルを読み出す場合を例示したが、文書ファイルの入手経路はこれに限定されない。例えば、抽出部１５ａは、ハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから文書ファイルを取得することもできる。また、抽出部１５ａは、外部装置からネットワークを介して受信することによって文書ファイルを取得することもできる。

続いて、抽出部１５ａは、先に読み出した文書ファイルに含まれるスライドを複数の領域へ分割する。例えば、抽出部１５ａは、一文、行、段落などの単位でスライドを分割する。この場合、抽出部１５ａは、スライドが含む文字列を走査して、スペース、句点または改行に対応する区切り文字を検出し、当該区切り文字を領域の境界に設定する。かかる境界を前後に、抽出部１５ａは、スライドが含む文字列を区切る。これによって、スライドが複数の領域へ区切り文字ごとに分割される。その上で、抽出部１５ａは、スライドの分割によって得られた領域に当該領域を識別するインデックスを割り当てる。なお、ここでは、スライドを自動的に分割する場合を例示したが、入力装置７等を介して領域の境界を指定させることによってスライドを手動設定で分割することとしてもかまわない。

スライドの分割後に、抽出部１５ａは、当該スライドに含まれる複数の領域のうち領域を１つ選択する。続いて、抽出部１５ａは、先に選択された領域が含む文字列に対し、自然言語処理を実行することによって単語を抽出する。例えば、抽出部１５ａは、領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語や、文節を形成する単語などを抽出する。そして、抽出部１５ａは、先に抽出された単語ごとに当該単語が含まれる領域に割り当てられたインデックスを付与する。その後、抽出部１５ａは、スライドが含む領域が全て選択されるまで上記の単語の抽出及び上記のインデックスの付与を繰返し実行する。

このようにして全ての領域から単語が抽出された後に、抽出部１５ａは、スライドに含まれる単語ごとに当該単語ｋの文書中の出現回数を算出する。かかる文書中の出現回数は、一例として、単語ｋが文書中に出現する回数を集計することによって算出される。その上で、抽出部１５ａは、単語ｋ、インデックスｉｄｘ及び単語ｋの文書中の出現回数が対応付けられた抽出単語データ１３ｂを記憶部１３へ登録する。

認識部１５ｂは、音声認識を実行する処理部である。

一実施形態として、認識部１５ｂは、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、マイク３から所定時間長の音声信号が入力されるまで待機する。例えば、少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるのを待機する。そして、認識部１５ｂは、マイク３から所定時間長の音声信号が入力される度に、当該音声信号が入力された時点から遡って過去の一定期間における音声信号にワードスポッティングなどの音声認識を実行する。このとき、認識部１５ｂは、記憶部１３に記憶された抽出単語データ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出単語データ１３ｂをワードスポッティングに適用する。これによって、認識部１５ｂは、プレゼンタ等の話者による発話の中に表示中のスライドに含まれる各領域から抽出された単語が存在するか否かを認識する。そして、認識部１５ｂは、音声信号から単語の読みが認識された場合、当該単語及びその単語が認識された時間が対応付けられた認識単語データ１３ｃを記憶部１３へ登録する。なお、同一の単語が時間経過に伴って複数回にわたって認識される場合には、最後、すなわち最新に認識された時刻が記憶部１３へ登録される。

その後、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃのうち記憶部１３へ登録されてから所定の期間が経過した単語が存在するか否かを判定する。例えば、認識部１５ｂは、認識単語データ１３ｃに含まれる単語ごとに、当該単語に対応付けて登録された時間と、認識部１５ｂが認識単語データ１３ｃを参照する時間、すなわち現時間との差が所定の閾値を超過するか否かを判定する。このとき、認識部１５ｂは、スライドが分割された単位、例えば一文、行や段落などによって上記の判定に用いる閾値を変えることができる。例えば、スライドが行単位で分割される場合、１つの領域で読み上げられる文字数はおよそ２０〜３０文字であると想定できる。この場合、上記の閾値の一例として、説明音声の平均的な読み上げ速度である、７拍／秒〜８拍／秒から読み上げに必要な時間を計算して、３秒を用いることができる。また、スライドが段落単位で分割される場合、行単位よりも長い時間が読み上げに割かれると想定できる。この場合、上記の閾値の一例として、行数×３秒を用いることができる。なお、以下では、あくまで一例として、スライドが段落単位の領域に分割される場合を想定して説明を行う。

ここで、記憶部１３へ登録されてから所定の期間、例えば行数×３秒間が経過した単語が存在する場合、当該単語を含むスライドの領域に関する説明が終了している可能性が高まる。このような単語を残しておくと、説明が終了している領域がハイライトで表示される可能性も高まる。よって、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃから当該単語に関するレコードを削除する。一方、記憶部１３へ登録されてから所定の期間が経過した単語が存在しない場合、認識単語データ１３ｃに含まれる単語が出現するスライドの領域に関する説明が終了していない可能性が高まる。よって、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃに含まれる単語を削除せずにそのまま残す。

また、認識部１５ｂは、表示装置５に表示されるスライドのページが変更されたか否かを判定する。例えば、認識部１５ｂは、スライドショーによりスライドが切り替えられたり、入力装置７を介してスライドのページを進める操作またはスライドのページを戻す操作を受け付けたりしたかを判定する。このとき、表示装置５に表示されるスライドのページが変更された場合、プレゼンタ等の話者による説明も変更前のページのスライドから変更後のページのスライドへ切り替わった可能性が高い。この場合、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃを削除する。一方、表示装置５に表示されるスライドのページが変更されていない場合、話者が説明するページにも変りがない可能性が高い。この場合、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃに含まれる単語を削除せずにそのまま残す。

これら一連の動作により、認識部１５ｂは、表示中であるスライドの中でプレゼンタが説明中である可能性が高い単語を認識する。以下では、抽出単語データ１３ｂに含まれる単語のことを「抽出単語」と記載すると共に、認識単語データ１３ｃに含まれる単語のことを「認識単語」と記載し、互いのラベルを区別する場合がある。

算出部１５ｃは、上記の雑談検出処理に用いるパラメータを算出する処理部である。

一実施形態として、算出部１５ｃは、記憶部１３に記憶された認識単語データ１３ｃを参照する。そして、算出部１５ｃは、認識単語データ１３ｃを参照する時点から過去の所定の期間に音声認識により得られた認識単語の数を算出する。ここで言う「所定の期間」には、一例として、スライド上に含まれる１つの領域内の表音文字列、例えば１段落や１行に含まれる表音文字列が読み上げられる時間と同等もしくはそれよりも短い時間を設定できる。この「所定の期間」には、標準的な話速、例えば４〜６モーラを基準に設定することもできるし、認識部１５ｂ等が実行する音声認識エンジンにより測定される話速を用いて設定することができる。ここで言う「話速」とは、一例として、単位時間あたりに発話されたモーラ数を指す。このように話速を用いて設定が行われる場合、話速が早いほど上記の「所定の期間」を短く設定し、話速が遅いほど上記の「所定の期間」を長く設定することとすればよい。なお、以下では、認識単語データ１３ｃを参照する時点から過去の所定の期間に音声認識により得られた認識単語の数のことを「認識単語数」と略記する場合がある。

さらに、算出部１５ｃは、認識単語データ１３ｃを参照する時点から過去の所定の期間に音声認識により得られた認識単語がスライド上で分布する位置のばらつきを算出する。以下では、認識単語がスライド上で分布する位置のばらつきのことを「認識単語の分散」と記載する場合がある。

図２を用いて、認識単語数および認識単語の分散の算出方法の一例について説明する。図２は、スライドの模式図の一例を示す図である。図２には、領域Ｅ１、領域Ｅ２、領域Ｅ３及び領域Ｅ４の４つの領域を含むスライド４００が示されている。図２に示すスライド４００には、各領域Ｅ１〜Ｅ４に含まれる抽出単語のうち過去の所定の期間に音声認識により得られた認識単語が抜粋して示されている。例えば、領域Ｅ１には、認識単語Ｗａ、認識単語Ｗｂ、認識単語Ｗｃ、認識単語Ｗｄの４つの認識単語が含まれる。領域Ｅ２及び領域Ｅ３には、１つの認識単語Ｗａが含まれる。領域Ｅ４には、認識単語が１つも含まれない。

図２に示す状況である場合、算出部１５ｃは、認識単語数を「４」と算出する。このようにスライド４００上で複数の領域にまたがって出現する単語Ｗａは重複して計上されない。また、算出部１５ｃは、４つの認識単語、すなわち認識単語Ｗａ、認識単語Ｗｂ、認識単語Ｗｃ、認識単語Ｗｄに重みを設定する。例えば、算出部１５ｃは、スライド上で認識単語が存在する領域数の逆数を各認識単語の重みとして設定できる。つまり、認識単語Ｗａは、領域Ｅ１〜Ｅ３の３つの領域に出現するので、「１／３」が重みとして設定される。また、認識単語Ｗｂ、認識単語Ｗｃおよび認識単語Ｗｄは、領域Ｅ１にしか出現しないので、「１」が重みとして設定される。その上で、算出部１５ｃは、各領域の重み付きの認識単語数を求める。例えば、領域Ｅ１には、重みが「１／３」である認識単語Ｗａが１つ含まれると共に、重みが「１」である認識単語Ｗｂ、Ｗｃ及びＷｄが３つ含まれるので、「１／３＋１×３」の計算により重み付きの認識単語数が「１０／３」と算出される。また、領域Ｅ２及び領域Ｅ３には、重みが「１／３」である認識単語Ｗａが１つ含まれるので、重み付きの認識単語数が「１／３」と算出される。また、領域Ｅ４には、認識単語が含まれないので、重み付きの認識単語数が「０」と算出される。このような重み付きの認識単語数を用いて、算出部１５ｃは、認識単語の分散を算出する。例えば、算出部１５ｃは、重み付きの認識単語数が最も多い領域における重み付きの認識単語数を全認識単語数で除算した除算値を正規化することにより、認識単語の分散を算出する。図２の例で言えば、重み付きの認識単語数が最高である領域は領域Ｅ１である。したがって、領域Ｅ１における重み付きの認識単語数「１０／３」を全認識単語数「４」で除算し、その除算値「１０／１２」を１から減算することにより、認識単語の分散を「１／６」と算出する。

このように、認識単語の分散の算出時に認識単語数に重みを付与するのは、１つの認識単語がスライド上の複数の領域にまたがって出現する場合に当該認識単語の重みを複数の領域にまたがらない認識単語の重みよりも下げるためである。これにより、同一の認識単語が複数の領域にまたがって分布する場合よりも異なる認識単語が別々の領域に分布する場合の方が認識単語の分散を高く算出できる結果、スライド上の複数の領域にまたがって分布する頻出単語が認識単語に含まれる場合に当該頻出単語によって認識単語の分散が過度に高く算出されるのを抑制できる。

また、認識単語の分散の算出時に重み付きの認識単語数をスライド内の総領域数でなく全認識単語数「４」で除算することとしたのは、少数の領域などの局所に多くの認識単語が集中する場合に認識単語の分散を低く算出できるようにするためである。

図３は、スライドの模式図の一例を示す図である。図３には、領域Ｅ５、領域Ｅ６、領域Ｅ７及び領域Ｅ８の４つの領域を含むスライド６００が示されている。図３に示すスライド６００には、各領域Ｅ５〜Ｅ８に含まれる抽出単語のうち過去の所定の期間に音声認識により得られた認識単語が抜粋して示されている。例えば、領域Ｅ５には、認識単語Ｗａ及び認識単語Ｗｂの２つの認識単語が含まれる。領域Ｅ６及び領域Ｅ７には、１つの認識単語Ｗａが含まれる。領域Ｅ８には、認識単語が１つも含まれない。図３に示す状況である場合、算出部１５ｃは、認識単語数を「２」と算出する。また、算出部１５ｃは、２つの認識単語、すなわち認識単語Ｗａ、認識単語Ｗｂに重みを設定する。図３の例で言えば、認識単語Ｗａは、領域Ｅ５〜Ｅ７の３つの領域に出現するので、「１／３」が重みとして設定される一方で、認識単語Ｗｂは、領域Ｅ５にしか出現しないので、「１」が重みとして設定される。その上で、算出部１５ｃは、各領域の重み付きの認識単語数を求める。例えば、領域Ｅ５には、重みが「１／３」である認識単語Ｗａが１つ含まれると共に、重みが「１」である認識単語Ｗｂが１つ含まれるので、「１／３＋１」の計算により重み付きの認識単語数が「４／３」と算出される。また、領域Ｅ６及び領域Ｅ７には、重みが「１／３」である認識単語Ｗａが１つ含まれるので、重み付きの認識単語数が「１／３」と算出される。また、領域Ｅ８には、認識単語が含まれないので、重み付きの認識単語数が「０」と算出される。この結果、認識単語の分散は、領域Ｅ５における重み付きの認識単語数「４／３」を全認識単語数「２」で除算し、その除算値「２／３」を１から減算することにより、認識単語の分散を「１／３」と算出する。図２の例では、認識単語の分散が「１／６」と算出される一方で、図３の例では、認識単語の分散が「１／３」と算出される。この結果が示す通り、図３に示す例よりも領域Ｅ１に多くの認識単語が集中する図２の例の方が認識単語の分散を低く算出することができることがわかる。

これら認識単語数および認識単語の分散が算出された後、算出部１５ｃは、認識単語数の変化と、認識単語の分散の変化とを算出する。例えば、算出部１５ｃは、今回の雑談検出で算出された認識単語数と、認識単語の分散と、今回の雑談検出よりも以前の雑談検出、例えば直前の雑談検出で算出された認識単語数と、認識単語の分散との間で変化率を算出する。この場合、算出部１５ｃは、１回前の雑談検出で算出された認識単語数と、認識単語の分散とが保存された図示しない内部メモリを参照することにより、認識単語数の変化率と、認識単語の変化率を算出できる。例えば、算出部１５ｃは、今回の雑談検出で算出された認識単語数を１回前の雑談検出で算出された認識単語数で除算することにより認識単語数の変化率を算出すると共に、今回の雑談検出で算出された認識単語の分散を１回前の雑談検出で算出された認識単語の分散で除算することにより認識単語の分散の変化率を算出する。なお、ここでは、割合の計算により変化率を算出する場合を例示したが、今回の雑談検出で算出された認識単語数と１回前の雑談検出で算出された認識単語数との差を認識単語数の変化として算出すると共に、今回の雑談検出で算出された認識単語の分散と１回前の雑談検出で算出された認識単語の分散との差を認識単語の分散の変化として算出することもできる。

このように、算出部１５ｃは、上記の雑談検出処理に用いるパラメータとして、認識単語数の変化率及び認識単語の分散の変化率を算出する。なお、算出部１５ｃは、第１算出部および第２算出部の一例である。この算出部１５ｃは、認識単語数を算出する第１算出部と、認識単語の分散を算出する第２算出部とに分けることもできる。

判定部１５ｄは、雑談中であるか否かを判定する処理部である。

一実施形態として、判定部１５ｄは、過去の雑談検出の結果、認識単語数の変化率及び認識単語の分散の変化率に基づいて雑談中であるか否かを判定する。これらのうち、過去の雑談検出の結果は、記憶部１３に判定履歴データ１３ｄとして記憶される。例えば、判定履歴データ１３ｄとして、今回の雑談検出よりも以前、例えば直前の１回前に判定部１５ｄにより判定された結果、すなわち「雑談中」または「プレゼンテーション進行中」が記憶部１３に記憶される。

ここで、判定部１５ｄは、直前の雑談検出の結果が「雑談中」または「プレゼンテーション進行中」のいずれであるかにより、以下に説明する通り、判定ロジックを変えて雑談検出を実行する。

例えば、直前の雑談検出の結果が「プレゼンテーション進行中」である場合、判定部１５ｄは、認識単語数の変化率が所定の閾値Ｔｈ１、例えば「０．５」以下であるか否かを判定する。このとき、認識単語数の変化率が閾値Ｔｈ１以下でない場合、判定部１５ｄは、認識単語の分散が所定の閾値Ｔｈ２、例えば「０．８」以上であるか否かを判定する。ここで、認識単語数の変化率が閾値Ｔｈ１以下でない場合、かつ認識単語の分散が閾値Ｔｈ２以上でない場合、スライド中の特定範囲、例えば行や段落などの局部に出現する単語が集中して発話されている状況であると推定できる。この場合、判定部１５ｄは、「プレゼンテーション進行中」であると判定する。一方、認識単語数の変化率が閾値Ｔｈ１以下である場合、あるいは認識単語の分散が閾値Ｔｈ２以上である場合、発話される単語のスライド上の位置が局部に集中せずにランダムに分布している可能性が高いと推定できる。この場合、判定部１５ｄは、「雑談中」であると判定する。

一方、直前の雑談検出の結果が「雑談中」である場合、判定部１５ｄは、認識単語数の変化率が所定の閾値Ｔｈ３、例えば「０．８」以上であるか否かを判定する。このとき、認識単語数の変化率が閾値Ｔｈ３以上である場合、判定部１５ｄは、認識単語の分散が所定の閾値Ｔｈ４、例えば「０．５」以下であるか否かを判定する。ここで、認識単語数の変化率が閾値Ｔｈ３以上である場合、かつ認識単語の分散が閾値Ｔｈ４以下である場合、スライド中の特定範囲、例えば行や段落などの局部に出現する単語が集中して発話されている状況であると推定できる。この場合、判定部１５ｄは、「プレゼンテーション進行中」であると判定する。一方、認識単語数の変化率が閾値Ｔｈ３以上でない場合、あるいは認識単語の分散が閾値Ｔｈ４以下でない場合、発話される単語のスライド上の位置が局部に集中せずにランダムに分布している可能性が高いと推定できる。この場合、判定部１５ｄは、「雑談中」であると判定する。

表示制御部１５ｅは、表示装置５に対する表示制御を実行する処理部である。なお、ここでは、表示制御部１５ｅが実行する表示制御のうち、スライドに関する表示制御と、ハイライトに関する表示制御と、話者の説明箇所の推定方法との一側面について説明する。

［スライドの表示制御］
一側面として、表示制御部１５ｅは、プレゼンテーションソフトにより文書ファイルが開かれた場合、当該文書ファイルが含むスライドを表示装置５に表示させる。このとき、表示制御部１５ｅは、文書ファイルが含むスライドのうち最初のページのスライドを表示させることとしてもよいし、最後に編集が行われたページのスライドを表示させることとしてもよい。その後、表示制御部１５ｅは、入力装置７を介してページの切替え指示を受け付けた場合、表示装置５に表示させるスライドを変更する。例えば、ページを進める操作を受け付けた場合、表示制御部１５ｅは、表示中のスライドの次ページのスライドを表示装置５に表示させる。また、ページを戻る操作を受け付けた場合、表示制御部１５ｅは、表示中のスライドの前ページのスライドを表示装置５に表示させる。

［ハイライトの表示制御］
他の一側面として、表示制御部１５ｅは、プレゼンテーションの開始指示を受け付けてからプレゼンテーションの終了指示を受け付けるまで下記の処理を繰り返し実行する。すなわち、表示制御部１５ｅは、既存の任意の方法により、認識単語とスライド上の領域とを対応付け、認識単語と対応付けられた領域を話者の説明箇所と推定し、当該領域のハイライト表示を実行する。ここで言う「ハイライト表示」は、狭義のハイライト表示、すなわち背景色を明るくしたり、反転したりする表示制御に留まらず、広義のハイライト表示を意味する。例えば、説明箇所の囲み表示、説明箇所の塗りつぶしの強調、フォント（フォントサイズ、下線や斜体）の強調などのように、強調表示の全般を任意に実行することができる。なお、ハイライト表示は、入力装置７を介してキャンセル操作を受け付けた場合に通常表示へ戻すこととしてもかまわない。また、当然のことながら、いずれの領域も説明箇所として出力されない場合には、表示中のスライド上でハイライト表示は実行されない。

ここで、表示制御部１５ｅは、判定部１５ｄによる雑談検出の結果が「プレゼンテーション進行中」である場合に絞って上記のハイライト表示を実行する。すなわち、表示制御部１５ｅは、雑談検出の結果が「雑談中」である場合には、上記のハイライト表示は実行されず、ハイライト表示が実行中である場合には、実行中のハイライト表示をキャンセルする。これによって、雑談中の発話に含まれる単語が誤って文書に対応付けられるのを抑制できる。

［説明箇所の推定方法の一例］
他の一側面として、表示制御部１５ｅは、判定部１５ｄによる雑談検出の結果が「プレゼンテーション進行中」である場合、表示装置５に表示中であるスライドが含む領域のインデックスのうちインデックスを１つ選択する。続いて、表示制御部１５ｅは、認識単語データ１３ｃに含まれる認識単語のうち先に選択されたインデックスの領域に含まれる認識単語を抽出する。このとき、抽出単語データ１３ｂを参照することにより、単語ｋの文書中の出現回数を取得することができる。その上で、表示制御部１５ｅは、認識単語ｘの文書中の出現回数ｆ（ｘ）、認識単語ｘのモーラ数ｍ（ｘ）、認識結果の確からしさｃ（ｘ）を用いて、認識単語ｘの単語スコアｓ（ｘ）を算出する。ここで言う「確からしさ」とは、認識結果が単語の標準モデルに含まれる各音素のスペクトラムとの間でどれだけ類似しているかを表し、例えば、完全に一致している場合には、その値が１．０となる。

より具体的には、表示制御部１５ｅは、下記の式（１）に上記の認識単語ｘの文書中の出現回数ｆ（ｘ）、ｘのモーラ数ｍ（ｘ）及び認識結果の確からしさｃ（ｘ）などのパラメータを代入することにより、認識単語ｘの単語スコアｓ（ｘ）を計算する。ここで、ｍｉｎ（ａ，ｂ）は、ａ及びｂのうち値が小さい方を出力する関数を指し、また、Ｍは、定数とし、例えば、６などが採用される。その後、表示制御部１５ｅは、領域ｄに含まれる認識単語ごとに単語スコアｓ（ｘ）を算出した上で全ての認識単語の単語スコアを合計することにより、ハイライトスコアＳ（ｄ）を算出する。なお、下記の式（１）では、認識単語ｘの単語スコアｓ（ｘ）を算出するのに、認識単語ｘの文書中の出現回数ｆ（ｘ）、認識単語ｘのモーラ数ｍ（ｘ）及び認識結果の確からしさｃ（ｘ）の３つのパラメータを用いる例を説明したが、これらのうち任意のパラメータだけを使っても良いし、また、求め方もこれに限るものではない。

ｓ（ｘ）＝１／ｆ（ｘ）×ｍｉｎ（１．０，ｍ（ｘ）／Ｍ）×ｃ（ｘ）・・・（１）

その後、表示制御部１５ｅは、先に算出されたハイライトスコアの中に上記の閾値Ｔｈ５以上であるハイライトスコアを持つ領域が存在する場合、次のようにしてハイライト表示を実行する領域を決定する。例えば、表示制御部１５ｅは、ハイライト表示が実行中でない場合には、最高スコアを持つ領域に関するハイライト表示の実行を決定する。一方、表示制御部１５ｅは、ハイライト表示が実行中である場合、最高スコアが算出された領域とハイライト表示が実行中である領域とが同一であるならば、実行中のハイライト表示を維持し、最高スコアが算出された領域とハイライト表示が実行中である領域とが異なるならば、最高スコアが算出された領域をハイライト表示の対象と決定する。

［処理の流れ］
次に、本実施例に係るプレゼンテーション支援装置１０の処理の流れについて説明する。なお、ここでは、プレゼンテーション支援装置１０によって実行される（１）抽出単語データの生成処理、（２）音声認識処理、（３）雑談検出処理の順に説明することとする。

（１）抽出単語データの生成処理
図４は、実施例１に係る抽出単語データの生成処理の手順を示すフローチャートである。この処理は、自動的に開始することもできるし、手動設定で開始することもできる。例えば、自動的に開始する場合、プレゼンテーションソフトが文書ファイルを記憶部１３に保存した上で閉じる場合、あるいはプレゼンテーションを介する文書ファイルの編集中に文書ファイルが記憶部１３に保存された場合に、処理を起動させることができる。また、手動設定で開始する場合、入力装置７を介してプレゼンテーションの前処理の実行指示を受け付けた場合に、処理を起動させることができる。いずれの場合においても、記憶部１３に記憶された文書データ１３ａが含む文書ファイルのうち、保存または前処理の実行指示に対応する文書ファイルを読み出すことによって処理が開始される。

図４に示すように、抽出部１５ａは、文書ファイルに含まれるスライドを一文、行または段落などの単位で複数の領域へ分割する（ステップＳ１０１）。続いて、抽出部１５ａは、ステップＳ１０１で得られた領域に各領域を識別するインデックスを割り当てる（ステップＳ１０２）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスのうちインデックスを１つ選択する（ステップＳ１０３）。続いて、抽出部１５ａは、ステップＳ１０３で選択されたインデックスの領域内の文字列に形態素解析等を実行することにより得られた形態素のうち品詞が名詞である単語を抽出する（ステップＳ１０４）。その後、抽出部１５ａは、ステップＳ１０４で抽出された各単語に当該単語が含まれる領域に割り当てられたインデックスを付与する（ステップＳ１０５）。

そして、抽出部１５ａは、ステップＳ１０２で割り当てられたインデックスが全て選択されるまで（ステップＳ１０６Ｎｏ）、上記のステップＳ１０３〜ステップＳ１０５までの処理を繰返し実行する。

その後、ステップＳ１０２で割り当てられたインデックスが全て選択された場合（ステップＳ１０６Ｙｅｓ）、抽出部１５ａは、スライドに含まれる単語ごとに当該単語ｋの出現頻度ｆ_ｋを算出する（ステップＳ１０７）。そして、抽出部１５ａは、ステップＳ１０７で単語別に算出された出現頻度ｆ_ｋに対応する単語の重みｗ_ｋを付与する（ステップＳ１０８）。その上で、抽出部１５ａは、単語ｋ、インデックスｉｄｘ及び重みｗ_ｋが対応付けられた抽出単語データ１３ｂを記憶部１３へ登録し（ステップＳ１０９）、処理を終了する。

（２）音声認識処理
図５は、実施例１に係る音声認識処理の手順を示すフローチャートである。この処理は、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。

図５に示すように、認識部１５ｂは、マイク３から所定時間長の音声信号が入力されるまで、例えば少なくとも１フレーム分の時間長、例えば１０ｍｓｅｃの音声信号が入力されるまで待機する（ステップＳ３０１）。

そして、マイク３から所定時間長の音声信号が入力されると（ステップＳ３０１Ｙｅｓ）、認識部１５ｂは、当該音声信号にワードスポッティングなどの音声認識を実行する（ステップＳ３０２）。かかるステップＳ３０２でワードスポッティングが実行される場合には、記憶部１３に記憶された抽出単語データ１３ｂのうちプレゼンテーションソフトが実行中である文書ファイルが含むスライドであり、かつ表示装置５に表示中であるスライドに関する抽出単語データが音声認識用の辞書データとして適用される。

このとき、音声信号から単語が認識された場合（ステップＳ３０３Ｙｅｓ）、認識部１５ｂは、ステップＳ３０２で認識された単語及びその単語が認識された時間が対応付けられた認識単語データ１３ｃを記憶部１３へ登録し（ステップＳ３０４）、ステップＳ３０５の処理へ移行する。

一方、マイク３から所定時間長の音声信号が入力されていない場合、あるいは音声信号から単語が認識されなかった場合（ステップＳ３０１ＮｏまたはステップＳ３０３Ｎｏ）、以降の処理を飛ばしてステップＳ３０５の処理へ移行する。

ここで、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃのうち記憶部１３へ登録されてから所定の期間が経過した単語が存在するか否かを判定する（ステップＳ３０５）。そして、記憶部１３へ登録されてから所定の期間が経過した単語が存在する場合（ステップＳ３０５Ｙｅｓ）、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃから当該単語に関するレコードを削除する（ステップＳ３０６）。なお、記憶部１３へ登録されてから所定の期間が経過した単語が存在しない場合（ステップＳ３０５Ｎｏ）には、ステップＳ３０６の処理を飛ばしてステップＳ３０７の処理へ移行する。

その後、認識部１５ｂは、表示装置５に表示されるスライドのページが変更されたか否かを判定する（ステップＳ３０７）。このとき、表示装置５に表示されるスライドのページが変更された場合（ステップＳ３０７Ｙｅｓ）、認識部１５ｂは、記憶部１３に記憶された認識単語データ１３ｃを削除し（ステップＳ３０８）、ステップＳ３０１の処理へ戻り、上記のステップＳ３０１以降の処理が繰り返し実行される。なお、表示装置５に表示されるスライドのページが変更されていない場合（ステップＳ３０７Ｎｏ）、ステップＳ３０８の処理を実行せずにステップＳ３０１の処理へ戻る。

（３）雑談検出処理
図６及び図７は、実施例１に係る雑談検出処理の手順を示すフローチャートである。この処理は、図５に示した音声認識処理と並行して実行される処理であり、プレゼンテーションソフトが文書ファイルを開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。なお、処理の実行が繰り返される周期は、図５に示した音声認識処理と同様であってもよいし、異なってもよく、図５に示した音声認識処理と同期して実行されることとしてもよいし、非同期で実行されることとしてもかまわない。

図６に示すように、算出部１５ｃは、記憶部１３に記憶された認識単語データ１３ｃを参照して、認識単語データ１３ｃを参照する時点から過去の所定の期間に音声認識により得られた認識単語の数を算出する（ステップＳ５０１）。さらに、算出部１５ｃは、認識単語データ１３ｃを参照する時点から過去の所定の期間に音声認識により得られた認識単語がスライド上で分布する位置のばらつき度合いを算出する（ステップＳ５０２）。

その後、算出部１５ｃは、ステップＳ５０１で算出された認識単語数を１回前の雑談検出で算出された認識単語数で除算することにより認識単語数の変化率を算出すると共に、ステップＳ５０２で算出された認識単語の分散を１回前の雑談検出で算出された認識単語の分散で除算することにより認識単語の分散の変化率を算出する（ステップＳ５０３及びステップＳ５０４）。

続いて、判定部１５ｄは、記憶部１３に記憶された判定履歴データ１３ｄを参照して、直前の雑談検出の結果が「雑談中」であるか否かを判定する（ステップＳ５０５）。このとき、直前の雑談検出の結果が「プレゼンテーション進行中」である場合（ステップＳ５０５Ｎｏ）、判定部１５ｄは、認識単語数の変化率が閾値Ｔｈ１以下であるか否かを判定する（ステップＳ５０６）。そして、認識単語数の変化率が閾値Ｔｈ１以下でない場合（ステップＳ５０６Ｎｏ）、判定部１５ｄは、認識単語の分散が閾値Ｔｈ２以上であるか否かを判定する（ステップＳ５０７）。

ここで、認識単語数の変化率が閾値Ｔｈ１以下でない場合、かつ認識単語の分散が閾値Ｔｈ２以上でない場合（ステップＳ５０６ＮｏかつステップＳ５０７Ｎｏ）、スライド中の特定範囲、例えば行や段落などの局部に出現する単語が集中して発話されている状況であると推定できる。この場合、判定部１５ｄは、「プレゼンテーション進行中」であると判定し（ステップＳ５０８）、処理を終了する。一方、認識単語数の変化率が閾値Ｔｈ１以下である場合、あるいは認識単語の分散が閾値Ｔｈ２以上である場合（ステップＳ５０６ＹｅｓまたはステップＳ５０７Ｙｅｓ）、発話される単語のスライド上の位置が局部に集中せずにランダムに分布している可能性が高いと推定できる。この場合、判定部１５ｄは、「雑談中」であると判定し（ステップＳ５０９）、処理を終了する。

また、直前の雑談検出の結果が「雑談中」である場合（ステップＳ５０５Ｙｅｓ）、判定部１５ｄは、図７に示すように、認識単語数の変化率が閾値Ｔｈ３以上であるか否かを判定する（ステップＳ５１０）。このとき、認識単語数の変化率が閾値Ｔｈ３以上である場合（ステップＳ５１０Ｙｅｓ）、判定部１５ｄは、認識単語の分散が閾値Ｔｈ４以下であるか否かを判定する（ステップＳ５１１）。

ここで、認識単語数の変化率が閾値Ｔｈ３以上である場合、かつ認識単語の分散が閾値Ｔｈ４以下である場合（ステップＳ５１０ＹｅｓかつステップＳ５１１Ｙｅｓ）、スライド中の特定範囲、例えば行や段落などの局部に出現する単語が集中して発話されている状況であると推定できる。この場合、判定部１５ｄは、「プレゼンテーション進行中」であると判定し（ステップＳ５１２）、処理を終了する。一方、認識単語数の変化率が閾値Ｔｈ３以上でない場合、あるいは認識単語の分散が閾値Ｔｈ４以下でない場合（ステップＳ５１０ＮｏまたはステップＳ５１１Ｎｏ）、発話される単語のスライド上の位置が局部に集中せずにランダムに分布している可能性が高いと推定できる。この場合、判定部１５ｄは、「雑談中」であると判定し（ステップＳ５１３）、処理を終了する。

［効果の一側面］
上述してきたように、本実施例に係るプレゼンテーション支援装置１０は、過去の雑談検出の結果、所定期間に発話から音声認識された認識単語の数の変化、及び、認識単語のスライド中の位置のばらつき度合いの変化を用いて雑談中であるか否かを判定する。それ故、スライド資料や会議の議題とは関連があるが、プレゼンテーションの進行から逸れた話題を雑談と判定できる。したがって、本実施例に係るプレゼンテーション支援装置１０によれば、雑談中の発話に含まれる単語が誤って文書に対応付けられるのを抑制できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［文書ファイルの応用例］
上記の実施例１では、プレゼンテーションソフトによって作成された文書を用いる場合を例示したが、他のアプリケーションプログラムによって作成された文書を用いることもできる。すなわち、表示時に画面単位で表示されるページを含む文書ファイルであれば、ワープロソフトの文書ファイルが有するページをスライドに読み替えたり、表計算ソフトの文書ファイルが有するシートをスライドに読み替えることによって図４〜図７に示した処理を同様に適用できる。

［ハイライト表示以外の制御への適用］
上記の実施例１では、雑談中であるか否かによりハイライト表示を制御する場合を例示したが、雑談中であるか否かにより他の制御を実施することもできる。例えば、プレゼンテーション支援装置１０は、雑談検出の結果を所定の表示装置、例えば話者用の表示装置、聴講者用の表示装置あるいは話者及び聴講者兼用の表示装置に表示させることもできる。このように、雑談中であることをユーザに知覚させることで、議論を本筋に戻すことを促し、プレゼンテーションの所要時間を短縮させることができる。

［プレゼンテーション以外への適用］
例えば、会議の録音音声と議事録の文書を対応付け、議事録をクリックすると該当箇所の録音音声が再生されるシステムにおいて、上記の雑談検出処理を適用することにより、会議の録音音声が雑談中である箇所を上記の対応付けから除外することもできる。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、判定部１５ｄまたは表示制御部１５ｅをプレゼンテーション支援装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、判定部１５ｄまたは表示制御部１５ｅを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のプレゼンテーション支援装置１０の機能を実現するようにしてもよい。

［他の実装例］
上記の実施例１では、プレゼンテーション支援装置１０が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで図４〜図７に関する処理を実行する場合を例示したが、他の実装形態を採用することもできる。例えば、プレゼンテーションソフトを実行するクライアントに対し、図４〜図７に関する処理のうち一部または全部の処理を実行するサーバを設けることによってクライアントサーバシステムとして構築することもできる。この場合、パッケージソフトウェアやオンラインソフトウェアとして上記のプレゼンテーション支援サービスを実現するプレゼンテーション支援プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記のプレゼンテーション支援サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のプレゼンテーション支援サービスを提供するクラウドとして実装することとしてもかまわない。この場合、クライアントは、サーバ装置に対し、ハイライト表示の開始指示、例えば少なくともプレゼンテーションに用いる文書ファイルを指定する情報をアップロードした後に、プレゼンテーションが開始される。プレゼンテーションが開始されると、クライアントは、マイク３から採取された音声信号または音声認識処理の結果をアップロードし、表示装置５に表示中のスライドのページが切り替わる度にスライドのページ情報をアップロードする。すなわち、抽出単語データの生成処理や音声認識処理は、クライアント側で実行させることもできるし、サーバ側で実行させることとしてもかまわない。これによって、サーバ装置は、少なくとも図６及び図７に示した処理が実行可能となる。さらに、クライアントは、図示しない入力デバイスに関する操作情報をサーバへ伝送し、サーバから伝送される処理結果だけを表示装置５に表示させることにより、シンクライアントシステムとして構築することもできる。この場合には、各種のリソース、例えば文書データもサーバにより保持されると共に、プレゼンテーションソフトもサーバで仮想マシンとして実装されることになる。例えば、プレゼンテーションソフトがクライアント側で実行される場合、サーバからクライアントへハイライト表示を実施する領域の識別情報、例えば上記の領域のインデックスを伝送すればよく、また、シンクライアントシステムとして実装される場合、説明箇所のハイライト表示が実施されたスライドの表示データまたはハイライト表示が行われる前の画面との差分データをサーバからクライアントへ伝送すればよい。なお、上記の実施例１では、上記の雑談検出処理が組み込まれたプレゼンテーションソフトが実行される場合を想定したが、ライセンス権限を有するクライアントから雑談検出プログラムをライブラリとして参照する要求を受け付けた場合に、雑談検出プログラムをプレゼンテーションソフトへプラグインさせることもできる。

［シンクライアントシステムへの適用例］
図８は、実施例２に係るプレゼンテーション支援システムの構成例を示す図である。図８には、プレゼンテーション支援システム２の一例として、クライアント端末２０に最低限の機能しか持たせず、サーバ装置２００でアプリケーションやファイルなどのリソースを管理するシンクライアントシステムが示されている。なお、ここでは、プレゼンテーション支援システム２の一形態としてシンクライアントシステムを例示するが、後述のように、汎用のクライアントサーバシステムにも上記のプレゼンテーション支援サービスを適用できることをここで付言しておく。

図８に示すように、プレゼンテーション支援システム２には、クライアント端末２０と、サーバ装置２００とが含まれる。

クライアント端末２０には、デスクトップ型またはノート型のパーソナルコンピュータなどの情報処理装置を採用することができる。この他、クライアント端末２０には、上記のパーソナルコンピュータなどの据置き型の端末のみならず、各種の携帯端末装置を採用することもできる。例えば、携帯端末装置の一例として、スマートフォン、携帯電話機やＰＨＳなどの移動体通信端末、さらには、ＰＤＡなどのスレート端末などがその範疇に含まれる。

サーバ装置２００は、上記のプレゼンテーション支援サービスを提供するコンピュータである。

一実施形態として、サーバ装置２００は、パッケージソフトウェアやオンラインソフトウェアとして上記のプレゼンテーション支援サービスを実現する画像表示プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記のプレゼンテーション支援サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のプレゼンテーション支援サービスを提供するクラウドとして実装することとしてもかまわない。

これらクライアント端末２０及びサーバ装置２００は、ネットワークＮＷを介して、互いが通信可能な状態で接続される。かかるネットワークＮＷの一例として、有線または無線を問わず、インターネットを始め、ＬＡＮやＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。

図８に示す通り、クライアント端末２０は、マイク３と、表示装置５と、入力装置７と、データ授受部２４とを有する。なお、図８には、図１に示した機能部と同様の機能を発揮する機能部、例えばマイク、表示装置及び入力装置に同一の符号を付し、その説明を省略する。

データ授受部２４は、サーバ装置２００との間で各種のデータの授受を制御する処理部である。

一実施形態として、データ授受部２４は、一例として、クライアント端末２０が有するＣＰＵなどのプロセッサにより、シンクライアントシステムのクライアント用のプログラムが実行されることで、仮想的に実現される。

例えば、データ授受部２４は、マイク３により入力される音声データ、さらには、入力装置７が受け付けた操作情報などをサーバ装置２００へ送信する。また、データ授受部２４は、サーバ装置２００で実行されるプレゼンテーションソフトの実行結果を含むデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを受信する。例えば、プレゼンテーションソフトにより文書ファイルがスライドショーで表示される場合、プレゼンテーションソフトにより生成されるウィンドウは全画面表示されるので、デスクトップ画面とウィンドウ画面とが同じ表示内容となる。ここで、データ授受部２４は、サーバ装置２００が伝送するデスクトップ画面の表示データを任意のフレームレートで受信することができる他、デスクトップ画面の表示データに差分がある場合に絞ってデスクトップ画面の表示データを受信することもできる。このとき、サーバ装置２００から伝送されるデスクトップ画面の表示データは、デスクトップ画面の全体であってもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データであってもかまわない。

このように、クライアント端末２０及びサーバ装置２００の間で授受される各種のデータには、トラフィックを抑制する観点から、圧縮符号化を行うこととしてもよいし、また、セキュリティの観点から、各種の暗号化を行うこととしてもよい。

図８に示すように、サーバ装置２００は、記憶部２２０と、制御部２４０とを有する。なお、サーバ装置２００は、図８に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば他の装置との間で通信制御を行う通信Ｉ／Ｆ部などの機能部を有することとしてもかまわない。

記憶部２２０は、制御部２４０で実行されるＯＳやプレゼンテーションソフトを始め、アプリケーションプログラムなどの各種プログラムに用いられるデータを記憶するデバイスである。

一実施形態として、記憶部２２０は、サーバ装置２００における主記憶装置として実装される。例えば、記憶部２２０には、各種の半導体メモリ素子、例えばＲＡＭやフラッシュメモリを採用できる。また、記憶部２２０は、補助記憶装置として実装することもできる。この場合、ＨＤＤ、光ディスクやＳＳＤなどを採用できる。

例えば、記憶部２２０は、制御部２４０で実行されるプログラムに用いられるデータの一例として、図８に示す文書データ２２１、抽出単語データ２２２、認識単語データ２２３及び判定履歴データ２２４を記憶する。これら抽出単語データ２２２、認識単語データ２２３及び判定履歴データ２２４は、サーバ装置２００に接続されるクライアント端末２０のうちいずれのクライアント端末２０に関するデータであるのかがサーバ装置２００で識別できるように、抽出単語データ２２２、認識単語データ２２３及び判定履歴データ２２４が格納される記憶領域がクライアント端末２０の識別情報ごとに区別されたり、あるいは抽出単語データ２２２、認識単語データ２２３及び判定履歴データ２２４がクライアント端末２０の識別情報とさらに対応付けられたりする他は、図１に示した文書データ１３ａ、抽出単語データ１３ｂ、認識単語データ１３ｃ及び判定履歴データ１３ｄと同様のデータである。

制御部２４０は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。

一実施形態として、制御部２４０は、中央処理装置、いわゆるＣＰＵとして実装される。なお、制御部２４０は、必ずしも中央処理装置として実装されずともよく、ＭＰＵやＤＳＰとして実装されることとしてもよい。また、制御部２４０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

制御部２４０は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部２４０は、図８に示すように、抽出部２４１と、認識部２４２と、算出部２４３と、判定部２４４と、表示制御部２４５とを有する。

図８に示す抽出部２４１、認識部２４２、算出部２４３及び判定部２４４は、図１に示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ及び判定部１５ｄと同様の処理を実行する処理部である。

表示制御部２４５は、クライアント端末２０の表示装置５に対する表示制御を実行する処理部である。

ここで、表示制御部２４５は、クライアント端末２０のデスクトップ画面、すなわち表示装置５のスクリーンに表示させる表示データを所定のフレームレート、あるいはデスクトップ画面の更新を契機に送信する。このとき、表示制御部２４５は、デスクトップ画面に更新がない場合、必ずしもデスクトップ画面の表示データをクライアント端末２０へ伝送せずともかまわない。さらに、表示制御部２４５は、デスクトップ画面の全体の表示データを送信することとしてもよいし、デスクトップ画面の一部、例えばフレーム間の差分の表示データを送信することとしてもかまわない。このようなデスクトップ画面の伝送と並行して、表示制御部２４５は、図１に示した表示制御部１５ｅと同様に、クライアント端末２０から伝送される入力装置７の操作情報にしたがって上記のスライドの表示制御を実行したり、さらには、上記のハイライトの表示制御などを実行することにより、プレゼンテーションソフトにより生成されるウィンドウ画面の表示データを更新する。このようにしてデスクトップ画面の伝送時にウィンドウ画面の更新内容がサーバ装置２００からクライアント端末２０へ伝送されることになる。

以上のように、本実施例に係るプレゼンテーション支援システム２がシンクライアントシステムとして実装された場合、サーバ装置２００の認識部２４２が図５に示した音声認識処理を実行することができる。この音声認識処理では、ステップＳ３０１でマイク３から音声データが直接取得される代わりに、クライアント端末２０からサーバ装置２００へ伝送される音声データが取得される以外に処理内容の差はない。さらに、サーバ装置２００の算出部２４３及び判定部２４４が図６及び図７に示した雑談検出処理を実行することができる。

［汎用のクライアントサーバシステムへの適用例］
図８には、プレゼンテーション支援システム２がシンクライアントシステムとして実装される場合を例示したが、必ずしもシンクライアントシステムとして実装されずともかまわず、汎用のクライアントサーバシステムとして実装することもできる。

例えば、図１に示したプレゼンテーション支援装置１０をクライアント端末とし、このクライアント端末を収容する図示しないサーバ装置に、プレゼンテーション支援装置１０が有する処理部のうち、算出部１５ｃ及び判定部１５ｄなどの処理部を実装することとすればよい。この場合、クライアント端末であるプレゼンテーション支援装置１０が図５に示した音声認識処理を実行し、認識単語が得られる度に追加の認識単語もしくは認識単語データの全体を図示しないサーバ装置へ伝送することにより、図示しないサーバ装置上でクライアント端末ごとに認識単語データが記憶されることになる。これによって、クライアント及びサーバ間で音声データが伝送されずともよくなる。

以上のように、汎用のクライアントサーバシステムにも上記のプレゼンテーション支援サービスを適用できる。

［会議システムへの適用例］
例えば、上記の実施例１では、話者と聴講者が１つの表示装置５を共用する場面を例示したが、必ずしも話者と聴講者が１つの表示装置を共用せずともかまわず、複数の表示装置の間で同一の表示内容が共有される場面にも上記のプレゼンテーション支援サービスを適用できる。例えば、会議等のコミュニケーションにおいて各参加者が話者及び聴講者の少なくとも一方または両方の立場で参加する状況が挙げられる。この場合、互いの表示装置に接続されるコンピュータがネットワークを介して接続されていれば互いが遠隔地に存在してもかまわない。

図９は、プレゼンテーション支援サービスの会議システムへの適用例を示す図である。例えば、図９に示すように、図１に示したプレゼンテーション支援装置１０と同様の機能を有するクライアント端末１０Ａ及び１０ＢがネットワークＮＷを介して接続されると共にクライアント端末１０Ａ及び１０Ｂ上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末１０Ａ及び１０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、クライアント端末１０Ａ及び１０Ｂのうち少なくとも一方の端末が図４〜図７に示した処理を実行することにより、クライアント端末１０Ａまたは１０Ｂの利用者の発話および視線を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

図１０は、プレゼンテーション支援サービスの会議システムへの適用例を示す図である。例えば、図１０に示すように、図８に示したクライアント端末２０と同様の機能を有するクライアント端末２０Ａ及び２０Ｂと、図８に示したサーバ装置２００とがネットワークＮＷを介して接続されると共に、サーバ装置２００上でコミュニケーションツール、例えば画面共有用のアプリケーションプログラムが実行される場面に適用できる。これによって、クライアント端末２０Ａ及び２０Ｂが有する各表示装置の間で同一の表示内容、例えばプレゼンテーションソフト用の文書ファイルが共有される。このような状況の下、サーバ装置２００が図４〜図７に示した処理を実行することにより、クライアント端末２０Ａまたは２０Ｂの利用者の発話を利用して、文書ファイルに含まれるスライドのうち説明箇所に対応する領域をハイライト表示することができる。

［雑談検出プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１１を用いて、上記の実施例と同様の機能を有する雑談検出プログラムを実行するコンピュータの一例について説明する。

図１１は、実施例１及び実施例２に係る雑談検出プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１１に示すように、コンピュータ１００は、操作部１１０ａと、マイク１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１１に示すように、上記の実施例１で示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、判定部１５ｄ及び表示制御部１５ｅと同様の機能を発揮する雑談検出プログラム１７０ａが記憶される。この雑談検出プログラム１７０ａは、図１に示した抽出部１５ａ、認識部１５ｂ、算出部１５ｃ、判定部１５ｄ及び表示制御部１５ｅの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から雑談検出プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、雑談検出プログラム１７０ａは、図１１に示すように、雑談検出プロセス１８０ａとして機能する。この雑談検出プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち雑談検出プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、雑談検出プロセス１８０ａが実行する処理の一例として、図４〜図７に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の雑談検出プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に雑談検出プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から雑談検出プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに雑談検出プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから雑談検出プログラム１７０ａを取得して実行するようにしてもよい。

３マイク
５表示装置
７入力装置
１０プレゼンテーション支援装置
１１入出力Ｉ／Ｆ部
１３記憶部
１３ａ文書データ
１３ｂ抽出単語データ
１３ｃ認識単語データ
１３ｄ判定履歴データ
１５制御部
１５ａ抽出部
１５ｂ認識部
１５ｃ算出部
１５ｄ判定部
１５ｅ表示制御部

Claims

表示時に画面単位で表示されるページを含む文書ファイルのページが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行する認識部と、
所定期間内に前記音声認識の結果として得られた単語の数を算出する第１算出部と、
前記所定期間内に前記音声認識の結果として得られた単語が前記ページ上で分布する位置のばらつき度合いを算出する第２算出部と、
雑談中であるか否かの過去の判定結果と、前記単語の数の変化と、前記ばらつき度合いの変化とに基づいて、雑談中であるか否かを判定する判定部と
を有することを特徴とする雑談検出装置。
前記判定部は、前記過去の判定結果が雑談中でない場合、前記単語の数の変化率が第１の閾値以下であるか、または、前記ばらつき度合いの変化率が第２の閾値以上であるならば、雑談中と判定することを特徴とする請求項１に記載の雑談検出装置。
前記判定部は、前記過去の判定結果が雑談中である場合、前記単語の数の変化率が第３の閾値以上でないか、または、前記ばらつき度合いの変化率が第４の閾値以下でないならば、雑談中と判定することを特徴とする請求項１に記載の雑談検出装置。
前記判定部により雑談中でないと判定された場合、前記ページに含まれる領域のうち前記音声認識の結果として得られた単語を含む領域のハイライト表示を行い、前記判定部により雑談中であると判定された場合、前記ハイライト表示の実行を禁止する表示制御部をさらに有することを特徴とする請求項１、２または３に記載の雑談検出装置。
第１装置と第２装置とを有する画像表示システムであって、
前記第１装置は、
表示を行う表示装置と、
音声を入力するマイクと、
前記マイクにより入力される音声データを前記第２装置へ送信する送信部とを有し、
前記第２装置は、
表示時に画面単位で表示されるページを含む文書ファイルのページが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、前記音声データに音声認識を行う認識部と、
所定期間内に前記音声認識の結果として得られた単語の数を算出する第１算出部と、
前記所定期間内に前記音声認識の結果として得られた単語が前記ページ上で分布する位置のばらつき度合いを算出する第２算出部と、
雑談中であるか否かの過去の判定結果と、前記単語の数の変化と、前記ばらつき度合いの変化とに基づいて、雑談中であるか否かを判定する判定部と
前記判定部により雑談中でないと判定された場合、前記表示装置に表示される前記ページに含まれる領域のうち前記音声認識の結果として得られた単語を含む領域のハイライト表示を行い、前記判定部により雑談中であると判定された場合、前記ハイライト表示の実行を禁止する表示制御部と
を有することを特徴とする画像表示システム。
表示時に画面単位で表示されるページを含む文書ファイルのページが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行し、
所定期間内に前記音声認識の結果として得られた単語の数を算出し、
前記所定期間内に前記音声認識の結果として得られた単語が前記ページ上で分布する位置のばらつき度合いを算出し、
雑談中であるか否かの過去の判定結果と、前記単語の数の変化と、前記ばらつき度合いの変化とに基づいて、雑談中であるか否かを判定する、
処理がコンピュータにより実行されることを特徴とする雑談検出方法。
表示時に画面単位で表示されるページを含む文書ファイルのページが分割された領域ごとに当該領域が含む文字列から抽出された単語を用いて、音声データに対する音声認識を実行し、
所定期間内に前記音声認識の結果として得られた単語の数を算出し、
前記所定期間内に前記音声認識の結果として得られた単語が前記ページ上で分布する位置のばらつき度合いを算出し、
雑談中であるか否かの過去の判定結果と、前記単語の数の変化と、前記ばらつき度合いの変化とに基づいて、雑談中であるか否かを判定する、
処理をコンピュータに実行させることを特徴とする雑談検出プログラム。