JP6392150B2

JP6392150B2 - 講演支援装置、方法およびプログラム

Info

Publication number: JP6392150B2
Application number: JP2015055312A
Authority: JP
Inventors: 住田　一男; 一男住田; 聡史釜谷; 一彦阿部; 長　健太; 健太長
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2018-09-19
Anticipated expiration: 2035-03-18
Also published as: JP2016177013A; US20160275967A1

Description

本発明の実施形態は、講演支援装置、方法およびプログラムに関する。

会議や講演などで発話される音声を対象にした音声翻訳システムを実現しようとする場合、講演者は聴講者に対してＰＣ上のスライドを見せながら説明するので、音声認識結果や機械翻訳結果の出力のタイミングを配慮することが望ましい。すなわち、音声認識や機械翻訳の処理には処理時間が必ず必要となる。したがって、音声認識結果や機械翻訳結果が得られた時点で、それらに対する字幕や合成音声を出力した場合、講演者の元の音声が発話された時刻よりも遅れて出力せざるを得ない。このため、講演者が次のスライドを表示させた場合、１つ前のスライドに対して説明している内容に対する字幕や合成音声の出力が終了していない可能性がある。音声認識結果や機械翻訳結果に対する字幕や合成音声を視聴する際に対応するスライドを見ることができないのは、聴講者にとって理解の妨げになる。

特開２００１−２２４００２号公報

本開示は、上述の課題を解決するためになされたものであり、講演内容の理解を支援することができる講演支援装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る講演支援装置は、切替部、音声取得部、音声認識部及び制御部を含む。切替部は、第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替える。取得部は、前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得する。音声認識部は、前記第１音声信号に対して音声認識処理を行い、音声認識結果を得る。制御部は、前記第１コンテンツから前記第２コンテンツに切り替える場合、前記音声認識結果を第２ユーザに提示してから第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように制御する。

本実施形態に係る講演支援装置の利用例を示す概念図。第１の実施形態に係る講演支援装置を示すブロック図。第１の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。第１の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。第１の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。第１の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。第２の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。第２の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。第２の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。第２の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。第３の実施形態に係る講演支援装置を示すブロック図。第４の実施形態に係る講演支援装置を示すブロック図。

以下、図面を参照しながら本実施形態に係る講演支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。また、以下の実施形態では、講演者が日本語で発話すること前提に説明するが、日本語に限らず、他の言語で発話する場合も同様の処理を行うことができる。

本実施形態に係る講演支援装置の利用例について図１を参照して説明する。
図１は、講演支援装置を含む講演支援システム１００を示す概念図である。講演支援システム１００は、講演支援装置１０１、講演者用表示部１０３、聴講者用表示部１０４−１および１０４−２を含む。

講演者用表示部１０３は、講演者１５０（第１ユーザともいう）が閲覧する画面である。聴講者用表示部１０４−１および１０４−２は、聴講者１５１−１（第２ユーザともいう）および１５１−２それぞれが視聴する画面である。なお、ここでは聴講者１５１が２人である場合を想定するが、１人でもよいし、３人以上でもよい。

講演者１５０は、講演者用表示部１０３に表示されるコンテンツを見ながら講演を行う。講演者１５０は、マウスやキーボードなどの切換指示手段を用いて、ネットワーク１０２を介して講演支援装置１０１に対してコンテンツの切り替え指示を送信することにより、講演者用表示部１０３に表示されるコンテンツを切り替えることができる。

本実施形態で想定する「コンテンツ」は、例えば、プレゼンテーションに用いられるようなページ単位に分割されたスライドを想定するが、アニメーションを含むスライドでもよいし、単なる画像でもよい。
また、「コンテンツ」は、機器操作のインストラクション、システムのデモンストレーションなどの実演に関する動画でもよい。コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位をコンテンツの１ページとすればよい。すなわち、表示が切り替わるコンテンツであれば何でもよい。

聴講者１５１は、ネットワーク１０２を介して、聴講者用表示部１０４に表示される、講演に関するコンテンツと講演者１５０の音声認識結果に関する文字情報とを視聴できる。聴講者用表示部１０４では、講演支援装置１０１から新たにコンテンツを受信した場合に、表示するコンテンツを切り替える。なお、図１の例では、聴講者用表示部１０４としてスマートフォン、タブレットといった携帯端末を想定するが、例えば宅内のネットワーク１０２に接続されたＰＣでもよい。

（第１の実施形態）
第１の実施形態に係る講演支援装置について図２のブロック図を参照して説明する。
第１の実施形態に係る講演支援装置２００は、表示部２０１、切替部２０２、コンテンツバッファ２０３、音声取得部２０４、音声認識部２０５、対応記憶部２０６および提示制御部２０７を含む。

表示部２０１は、講演者用にコンテンツを提示する。
切替部２０２は、講演者の指示に応じて、表示部２０１に表示されるコンテンツを、現在表示されるコンテンツから次のコンテンツに切り替える。さらに、切替部２０２は、コンテンツを切り替える際の時刻情報に基づいて、コンテンツの表示時間に関する情報を生成する。

コンテンツバッファ２０３は、聴講者用に表示するコンテンツをバッファする。
音声取得部２０４は、講演者のコンテンツに関する発話を音声信号として取得する。さらに、音声取得部２０４は、音声信号の始端の時刻および終端の時刻を検出し、発話時間に関する情報を取得する。音声信号の始端および終端を検出する手法としては、例えば、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を用いればよく、一般的な手法であるため、ここでの説明は省略する。

音声認識部２０５は、音声取得部２０４から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果を得る。

対応記憶部２０６は、切替部２０２からコンテンツの表示時間に関する情報を、音声取得部２０４から発話時間に関する情報をそれぞれ受け取り、コンテンツの表示時間と発話時間との対応関係を示す対応関係テーブルとして記憶する。対応関係テーブルの詳細は、図３を参照して後述する。

提示制御部２０７は、音声認識部２０５から音声認識結果を、コンテンツバッファ２０３からコンテンツをそれぞれ受け取り、聴講者が視聴できるように、音声認識結果およびコンテンツを提示するように制御する。図１の例では、音声認識結果およびコンテンツが聴講者用表示部１０４に表示されるように出力される。
提示制御部２０７は、切替部２０２から講演者の指示（コンテンツの切り替え指示）を受け取り、切り替え指示に応じてコンテンツを切り替える場合、対応記憶部２０６に記憶される対応関係テーブルを参照して、切り替え前のコンテンツに関する音声認識結果を聴講者に提示してから第１期間内は、切り替え前のコンテンツを聴講者に継続して提示するように制御する。

次に、第１の実施形態に係る対応記憶部２０６に記憶される対応関係テーブルについて図３を参照して説明する。
図３に示す対応関係テーブル３００には、ページ番号３０１、表示時間情報３０２および発話時間情報３０３がそれぞれ対応付けて記録される。

ページ番号３０１は、コンテンツのページ番号であり、プレゼンテーションのスライドであればスライド番号となる。なお、コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位に一意のＩＤを振ればよい。

表示時間情報３０２は、コンテンツが表示されている時間を示し、ここでは、表示開始時刻３０４と表示終了時刻３０５とを記憶する。表示開始時刻３０４は、ページ番号に対応するコンテンツの表示が開始された時刻であり、表示終了時刻３０５は、ページ番号に対応するコンテンツの表示が終了した時刻である。

発話時間情報３０３は、コンテンツに対する講演者の発話時間を示し、ここでは、発話開始時刻３０６と発話終了時刻３０７とを記憶する。発話開始時刻３０６は、ページ番号に対応するコンテンツについて発話が開始された時刻であり、発話終了時刻３０７は、ページ番号に対応するコンテンツについて発話が終了した時刻である。

具体的には、例えば、ページ番号３０１「１」、表示開始時刻３０４「０：００」、表示終了時刻３０５「２：０４」、発話開始時刻３０６「０：１０」、発話終了時刻３０７「１：５９」がそれぞれ対応付けられて記憶される。これらの情報から、コンテンツのページ１の表示時間は、「２：０４」であり、ページ１に関する発話時間は、「１：４９」であることが分かる。

次に、第１の実施形態に係る講演支援装置２００の講演支援処理について図３、図４Ａおよび図４Ｂのフローチャートを参照して説明する。以下では、コンテンツとして、ページ単位に分割されているコンテンツを想定する。

ステップＳ４０１では、音声認識部２０５が起動される。
ステップＳ４０２では、提示制御部２０７が、対応記憶部２０６に記憶されるデータを初期化し、コンテンツの提示する際に最初に提示されるコンテンツのページ番号と、最初に提示されるコンテンツの表示開始時刻とを対応記憶部２０６に記録する。図３の例では、ページ番号３０１「１」と、表示開始時刻３０４「０：００」とが対応記憶部２０６に記憶される。

ステップＳ４０３では、表示部２０１が、講演者のために最初のコンテンツを表示し、提示制御部２０７が、聴講者のために最初のコンテンツを提示するように制御する。具体的には、図１の例では、コンテンツを聴講者用表示部１０４に出力すればよい。

ステップＳ４０４では、提示制御部２０７が、切り替えフラグを１に設定する。切り替えフラグは、コンテンツが切り替えられたかどうかを示すフラグである。

ステップＳ４０５では、講演支援装置２００が、イベント待ち状態となる。イベント待ち状態とは、講演者からのコンテンツの切り替え入力、講演者からの発話の入力を受け付ける状態である。

ステップＳ４０６では、切替部２０２が、講演者から切り替え指示が入力されたかどうかを判定する。切り替え指示が入力された場合、ステップＳ４０７に進み、切り替え指示が入力されない場合は、ステップＳ４１０に進む。

ステップＳ４０７では、切替部２０２が、聴講者に表示されるコンテンツのページを切り替え、タイマーを設定する。タイマーとして設定される時間は、処理を後述のステップＳ４１８以降に移行するために設定される時間であり、予め設定されている時間を用いてもよいし、状況に合わせて設定されてもよい。

ステップＳ４０８では、切替部２０２が、切り替え前に表示していたコンテンツのページ番号に対応する表示終了時刻と、ページ切り替え後のページ番号と、ページ切り替え後のページ番号に対応する表示開始時刻とを対応記憶部２０６に記録する。図３の例では、切り替え前に表示されているページ番号３０１「１」のコンテンツの表示終了時刻３０５「２：０４」と、ページ切り替え後のページ番号３０１「２」と、ページ番号３０１「２」の表示開始時刻３０４「２：０４」とが対応記憶部２０６に記憶される。

ステップＳ４０９では、提示制御部２０７が、切り替えフラグが１でない場合は１に設定し、ステップＳ４０５のイベント待機処理に戻る。

ステップＳ４１０では、音声取得部２０４が、講演者の音声の始端を検出したかどうかを判定する。音声の始端を検出した場合は、ステップＳ４１１に進み、音声の始端を検出していない場合は、ステップＳ４１４に進む。

ステップＳ４１１では、提示制御部２０７が、切り替えフラグが１であるかどうかを判定する。切り替えフラグが１である場合は、ステップＳ４１２に進み、切り替えフラグが１でない場合は、既に発話開始時刻が記憶されていることになるので、ステップＳ４０５のイベント待機処理に戻る。

ステップＳ４１２では、ページ切り替えが行われた直後の発話に関する音声の始端であるため、音声取得部２０４が、対応記憶部２０６に、切り替え後のページ番号と発話開始時刻として音声の始端時刻とを記録する。図３の例では、例えば、ページ番号３０１「２」と発話開始時刻３０６「２：０４」とが対応記憶部２０６に記憶される。

ステップＳ４１３では、切り替えフラグをゼロに設定し、ステップＳ４０５のイベント待機処理に戻る。切り替えフラグをゼロに設定することで、発話開始時刻として、講演者の最初の発話の時刻だけ記録するようにする。

ステップＳ４１４では、音声取得部２０４が、講演者の音声の終端を検出したかどうかを判定する。音声の終端を検出した場合は、ステップＳ４１５に進み、音声の終端を検出していない場合は、ステップＳ４１６に進む。

ステップＳ４１５では、音声取得部２０４が、対応記憶部２０６に、発話終了時刻を記憶させる。図３の例では、例えば、ページ番号３０１「２」の発話終了時刻３０７「４：２９」が対応記憶部２０６に記憶される。

ステップＳ４１６では、音声認識部２０５が、音声認識結果を出力可能であるかどうかを判定する。具体的には、例えば、音声信号に対する音声認識処理が終了し、音声認識結果を出力できる状態となる場合に、音声認識結果を出力可能であるかと判定すればよい。音声認識結果が出力可能である場合、ステップＳ４１７に進み、音声認識結果が出力可能でない場合、ステップＳ４１８に進む。

ステップＳ４１７では、提示制御部２０７が、聴講者のために音声認識結果を聴講者に提示するように制御する。具体的には、例えば、聴講者用の端末に音声認識結果の文字列が字幕またはテロップとして表示されるようにデータを送信する。その後、ステップＳ４０５のイベント待機処理に戻る。

ステップＳ４１８では、提示制御部２０７が、タイマーに設定した時間が経過したかどうか（タイマー割り込みが発生したかどうか）を判定する。設定した時間が経過している場合、ステップＳ４１９に進み、設定した時間が経過していない場合、ステップＳ４０５のイベント待機処理に戻る。

ステップＳ４１９では、提示制御部２０７が、聴講者への音声認識結果の提示が完了してから第１期間経過したかどうかを判定する。聴講者への音声認識結果の提示が完了したかどうかは、例えば、提示制御部２０７が音声認識結果を出力した後、所定時間経過すれば音声認識結果の提示が完了したと判定してもよいし、聴講者の端末から音声認識結果の提示が完了した旨のＡＣＫを受信したときでもよい。
音声認識結果を提示してから第１期間経過している場合は、ステップＳ４２０に進み、第１期間経過していない場合は、第１期間を経過するまで本ステップＳ４１９の処理を繰り返す。これにより、第１期間内は、聴講者に切り替え前のコンテンツが継続して提示されることになる。第１期間は、ここでは、講演者の発話とページの切り替えタイミングとを考慮して、表示終了時刻と発話終了時刻との差分の時間とするが、これに限らず、聴講者側にコンテンツと音声認識結果の文字列とが表示されてから、聴講者がコンテンツおよび音声認識結果の文字列を理解できる程度の時間を設定すればよい。

ステップＳ４２０では、提示制御部２０７が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一であるかどうかを判定する。ページが同一である場合、ステップＳ４０５のイベント待機処理に戻る。ページが同一でない場合、ステップＳ４２１に進む。

ステップＳ４２１では、提示制御部２０７が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一となるように切り替えるため、講演者に表示されるコンテンツのページが提示されるように制御する。具体的には、聴講者の端末に講演者に表示されるコンテンツを出力する。

ステップＳ４２２では、提示制御部２０７が、聴講者に提示したコンテンツのページが最後のページであるかどうかを判定する。最後のページである場合、処理を終了し、最後のページでない場合、ステップＳ４０５のイベント待機処理に戻る。以上で、講演支援装置２００の講演支援処理を終了する。

なお、図４Ａと図４Ｂで示した処理は、音声認識や機械翻訳の処理とは別のスレッドで独立的に動作させることで、音声認識結果が出力可能になったタイミングに依存して処理がデッドロックしてしまわないようにすることが望ましい。

次に、第１の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図５を参照して説明する。
図５は、講演者の発話および講演者用のコンテンツの表示と、聴講者用の音声認識結果の表示及びコンテンツの表示との時間推移を示す。

時系列５００は、講演者用のコンテンツの表示時間に関する時系列を示し、コンテンツの表示を切り替える時点を示す、切り替えタイミング５０１および切り替えタイミング５０２も図示する。図５の例では、コンテンツのページ１が表示されており、切り替えタイミング５０１を経て、ページ２に切り替えられたことを示す。また、ページ２の表示開始時刻が切り替えタイミング５０１であり、ページ２の表示終了時刻が切り替えタイミング５０２となる。

時系列５１０は、講演者の発話に関する音声波形を時系列で示したものである。ここでは、時刻５１１がページ１に関する発話開始時刻であり、時刻５１２がページ１に関する発話終了時刻である。また、時刻５１３がページ２に関する発話開始時刻であり、時刻５１４がページ２に関する発話終了時刻である。

時系列５２０は、講演者の発話の時系列５１０に対する音声認識結果を、聴講者に出力するタイミングを示す時系列である。図５の例では、講演者のページ１に関する発話（時刻５１１から時刻５１２まで）の時系列に対して、音声認識結果５２１、５２２および５２３と順次出力する。同様に、講演者のページ２に関する発話（時刻５１３から時刻５１４まで）の時系列に対して、音声認識結果５２４、５２５および５２６と順次出力する。

時系列５３０は、聴講者用のコンテンツに関する表示時間の時系列を示し、切り替えタイミング５３１および切り替えタイミング５３２も図示する。

図５に示すように、講演者用のコンテンツの表示がページ１からページ２に切り替わった場合でも、聴講者用のコンテンツの表示は、ページ１のままとする。その後、音声認識結果５２３が聴講者に出力されてから、第１期間５４０を経過した後に、聴講者用のページ１のコンテンツがページ２に切り替えて表示される。第１期間５４０は、ここでは、切り替えタイミング５０１とページ１の発話終了時刻である時刻５１２との差分である。

以上に示した第１の実施形態によれば、講演者側のコンテンツの表示時間および発話の継続時間に基づいて、聴講者用のコンテンツの表示を、聴講者に音声認識結果を提示してから第１期間経過したのちに切り替える。これによって、聴講者側で、講演者のコンテンツの切り替えに従って音声認識結果の表示前に先にコンテンツが切り替わってしまうなどの問題点が解消し、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、聴講者の講演内容の理解を支援することができる。すなわち、聴講者は、コンテンツと対応する字幕とを視聴することができるので、内容を理解しやすくなる。

（第２の実施形態）
第１の実施形態では、コンテンツがページの概念を持つ場合に、ページごとに発話が完結する場合を想定するが、第２の実施形態では、講演者が発話を継続しながらページを切り替える、すなわち、２つのページにまたがって発話が継続することを想定する。
第２の実施形態に係る対応記憶部２０６に記憶される対応関係テーブルについて図６を参照して説明する。

図６に示す対応関係テーブル６００は、図３に示す対応関係テーブル３００とほぼ同様であるが、発話終了時刻６０１に記録されるデータが異なる。

発話終了時刻６０１には、ページ切り替えの際に発話が終了している場合は、発話終了を示す「ｅｎｄ」と、発話終了時刻とが記録される。一方、ページ切り替えの際に発話が係属中である場合は、発話係属中を示す「ｃｏｎｔ」と、表示終了時刻３０５とが記録される。
具体的に図６の例では、ページ切り替えの際に発話が終了している場合、発話終了時刻６０１「（ｅｎｄ，１：５９）」が記録され、ページ切り替えの際に発話が係属中である場合は、発話終了時刻６０１「（ｃｏｎｔ，４：３０）」が記録される。

次に、第２の実施形態に係る講演支援装置の講演支援処理について図７Ａおよび図７Ｂのフローチャートを参照して説明する。
ステップＳ７０１からステップＳ７０７まで以外は、図４Ａおよび図４Ｂに示すフローチャートの処理と同様であるので、ここでの説明は省略する。

ステップＳ７０１では、提示制御部２０７が、ページ切り替えの際に講演者の発話が係属中であるかどうかを判定する。講演者の発話が係属中であれば、ステップＳ７０２に進み、講演者の発話が係属中でない、すなわち、ページ切り替えの際に講演者の発話が終了している場合は、ステップＳ４０９に進む。

ステップＳ７０２では、切替部２０２が、切り替え前にページに対応する発話終了時刻として、「（ｃｏｎｔ，表示終了時刻）」を記録するとともに、現在のページに対応する発話開始時刻として、表示終了時刻を記録する。

ステップＳ７０３では、音声取得部２０４が、対応記憶部２０６に、発話終了時刻として、「（ｅｎｄ，発話の終端時刻）」を記録する。

ステップＳ７０４では、提示制御部２０７が、表示されているページに対応する発話終了時刻が（ｅｎｄ，Ｔ）であるか、または（ｃｏｎｔ，Ｔ）であるかを判定する。ここでＴは、時刻を表し、（ｅｎｄ，Ｔ）の場合は発話の終端時刻、（ｃｏｎｔ，Ｔ）の場合は表示終了時刻である。発話終了時刻が（ｅｎｄ，Ｔ）である場合、ステップＳ４１９に進み、発話終了時刻が（ｃｏｎｔ，Ｔ）である場合、ステップＳ７０５に進む。

ステップＳ７０５では、提示制御部２０７が、聴講者への音声認識結果の提示が完了してから第２期間経過したかどうかを判定する。第２期間経過している場合は、ステップＳ４２０に進み、第２期間経過していない場合は、第２期間を経過するまで本ステップＳ７０５の処理を繰り返す。第２期間は、ここでは、講演者の発話が２ページにまたがっているため、ページの切り替えを早く行うべく、第１期間よりも短い期間を想定するが、第１期間と同じ期間でもよい。

次に、第２の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図８を参照して説明する。

図８は、図５とほぼ同様であるが、時系列５１０において、ページ切り替えの際に講演者の発話が係属中である点が異なる。

提示制御部２０７は、聴講者に、時刻８０１の発話を含む音声認識結果８０２の出力が完了してから第２期間８０３を経過した後に、聴講者が視聴するコンテンツのページ１をページ２に切り替えるよう制御する（ページ切り替え８０４）。
なお、また、提示制御部２０７は、ページ切り替えの際に講演者の発話が係属中である場合、聴講者への音声認識結果の提示が完了してから、ページの切り替えに関し、いわゆるフェードアウトおよびフェードインを用いて切り替えるように、コンテンツの出力を制御してもよい。

以上に示した第２の実施形態によれば、講演者が発話を継続しながらページを切り替える場合でも、ページ切り替えの際に発話が係属中であるかどうかに応じて対応関係テーブルを生成し、対応関係テーブルを参照して提示制御を行うことにより、第１の実施形態と同様に、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、講演内容の理解を支援することができる。

（第３の実施形態）
第３の実施形態では、講演者の発話の機械翻訳結果を聴講者に提示する点が上述の実施形態とは異なる。
第３の実施形態に係る講演支援装置を図９のブロック図を参照して説明する。
第３の実施形態に係る講演支援装置９００は、表示部２０１、切替部２０２、コンテンツバッファ２０３、音声取得部２０４、音声認識部２０５、対応記憶部２０６、提示制御部２０７および機械翻訳部９０１を含む。

提示制御部２０７および機械翻訳部９０１以外は、図２と同様の動作を行うので、説明を省略する。
機械翻訳部９０１は、音声認識部２０５から音声認識結果を受け取り、音声認識結果を機械翻訳して、機械翻訳結果を得る。

提示制御部２０７は、上述の実施形態とほぼ同様の動作を行うが、機械翻訳部９０１から機械翻訳結果を受け取り、聴講者に機械翻訳結果を提示するように制御する点が異なる。なお、提示制御部２０７は、音声認識結果と機械翻訳結果とを提示するように制御してもよい。

以上に示した第３の実施形態によれば、講演者の第１言語から聴講者の第３言語に翻訳が必要な場合でも、音声認識結果を機械翻訳することにより、聴講者が講演の内容を理解でき、第１の実施形態と同様に、講演に関する聴講者の理解を支援することができる。

（第４の実施形態）
第４の実施形態では、講演者の発話の機械翻訳結果の合成音声を聴講者に提示する点が上述の実施形態とは異なる。

第４の実施形態に係る講演支援装置を図１０のブロック図を参照して説明する。
第４の実施形態に係る講演支援装置１０００は、表示部２０１、切替部２０２、コンテンツバッファ２０３、音声取得部２０４、音声認識部２０５、対応記憶部２０６、提示制御部２０７、機械翻訳部９０１および音声合成部１００１を含む。

提示制御部２０７および音声合成部１００１以外は、図２と同様の動作を行うので、説明を省略する。
音声合成部１００１は、機械翻訳部９０１から機械翻訳結果を受け取り、機械翻訳結果を音声合成して、合成音声を得る。

提示制御部２０７は、上述の実施形態とほぼ同様の動作を行うが、音声合成部１００１から合成音声を受け取り、聴講者に合成音声を提示するように制御する点が異なる。なお、提示制御部２０７は、聴講者に、音声認識結果と機械翻訳結果と合成音声とを提示するように制御してもよいし、機械翻訳結果と合成音声とを提示するように制御してもよい。

以上に示した第４の実施形態によれば、講演者に合成音声を出力することができ、第１の実施形態と同様に、講演に関する聴講者の理解を支援することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した講演支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の講演支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・講演支援システム、１０１，２００，９００，１０００・・・講演支援装置、１０２・・・ネットワーク、１０３・・・講演者用表示部、１０４−１，１０４−２・・・聴講者用表示部、１５０・・・講演者、１５１−１，１５１−２・・・聴講者、２０１・・・表示部、２０２・・・切替部、２０３・・・コンテンツバッファ、２０４・・・音声取得部、２０５・・・音声認識部、２０６・・・対応記憶部、２０７・・・提示制御部、３００，６００・・・対応関係テーブル、３０１・・・ページ番号、３０２・・・表示時間情報、３０３・・・発話時間情報、３０４・・・表示開始時刻、３０５・・・表示終了時刻、３０６・・・発話開始時刻、３０７，６０１・・・発話終了時刻、５００，５１０，５２０，５３０・・・時系列、５０１，５０２，５３１，５３２・・・切り替えタイミング、５１１，５１２，５１３，５１４，８０１・・・時刻、５２１，５２２，５２３，５２４，５２５，８０２・・・音声認識結果、５４０，８０３・・・期間、９０１・・・機械翻訳部、１００１・・・音声合成部。

Claims

第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替える切替部と、
前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得する取得部と、
前記第１音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記第１コンテンツから前記第２コンテンツに切り替える場合、前記音声認識結果を第２ユーザに提示してから第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
前記制御部は、前記第１期間経過後に、前記第２コンテンツを該第２ユーザに提示するように制御することを特徴とする請求項１に記載の講演支援装置。
前記第１音声信号に関する発話開始時刻および該第１音声信号に関する発話終了時刻と、前記第１コンテンツの表示開始時刻および該第１コンテンツの表示終了時刻とをそれぞれ対応付けて記憶する記憶部をさらに具備し、
前記第１期間は、前記表示終了時刻と前記発話終了時刻との差分の時間であることを特徴とする請求項１または請求項２に記載の講演支援装置。
前記記憶部は、前記第１コンテンツから前記第２コンテンツに切り換わる際に前記第１ユーザが継続して発話している場合、前記発話終了時刻として前記第１コンテンツの表示終了時刻を記憶し、
前記制御部は、前記音声認識結果を前記第２ユーザに提示してから第２期間経過後に、前記第２コンテンツを該第２ユーザに提示するように制御することを特徴とする請求項３に記載の講演支援装置。
前記第１ユーザに前記第１コンテンツおよび前記第２コンテンツを表示する表示部をさらに具備することを特徴とする請求項１から請求項４のいずれか１項に記載の講演支援装置。
前記音声認識結果は、前記第１音声信号に関する音声認識結果の文字列であることを特徴とする請求項１から請求項５のいずれか１項に記載の講演支援装置。
第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替える切替部と、
前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得する取得部と、
前記第１音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
前記第１コンテンツから前記第２コンテンツに切り替える場合、前記機械翻訳結果を第２ユーザに提示してから第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替える切替部と、
前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得する取得部と、
前記第１音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
前記機械翻訳結果を音声合成し、合成音声を得る音声合成部と、
前記第１コンテンツから前記第２コンテンツに切り替える場合、前記合成音声を第２ユーザに提示後第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替えるステップと、
前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得するステップと、
前記第１音声信号に対して音声認識処理を行い、音声認識結果を得るステップと、
前記第１コンテンツから前記第２コンテンツに切り替える場合、前記音声認識結果を第２ユーザに提示してから第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように切り替えタイミングを制御するステップとを備える、コンピュータが実行する講演支援方法。
コンピュータを、
第１ユーザの指示に応じて、該第１ユーザに提示されるコンテンツを第１コンテンツから第２コンテンツに切り替える切替手段と、
前記第１ユーザから、前記第１コンテンツに関する発話を第１音声信号として取得する取得手段と、
前記第１音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識手段と、
前記第１コンテンツから前記第２コンテンツに切り替える場合、前記音声認識結果を第２ユーザに提示してから第１期間内は、該第１コンテンツを該第２ユーザに継続して提示するように制御する制御手段として機能させるための講演支援プログラム。