JP6392150B2 - 講演支援装置、方法およびプログラム - Google Patents

講演支援装置、方法およびプログラム Download PDF

Info

Publication number
JP6392150B2
JP6392150B2 JP2015055312A JP2015055312A JP6392150B2 JP 6392150 B2 JP6392150 B2 JP 6392150B2 JP 2015055312 A JP2015055312 A JP 2015055312A JP 2015055312 A JP2015055312 A JP 2015055312A JP 6392150 B2 JP6392150 B2 JP 6392150B2
Authority
JP
Japan
Prior art keywords
content
user
unit
switching
presented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015055312A
Other languages
English (en)
Other versions
JP2016177013A (ja
Inventor
住田 一男
一男 住田
聡史 釜谷
聡史 釜谷
一彦 阿部
一彦 阿部
長 健太
健太 長
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2015055312A priority Critical patent/JP6392150B2/ja
Priority to US15/064,987 priority patent/US20160275967A1/en
Publication of JP2016177013A publication Critical patent/JP2016177013A/ja
Application granted granted Critical
Publication of JP6392150B2 publication Critical patent/JP6392150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、講演支援装置、方法およびプログラムに関する。
会議や講演などで発話される音声を対象にした音声翻訳システムを実現しようとする場合、講演者は聴講者に対してPC上のスライドを見せながら説明するので、音声認識結果や機械翻訳結果の出力のタイミングを配慮することが望ましい。すなわち、音声認識や機械翻訳の処理には処理時間が必ず必要となる。したがって、音声認識結果や機械翻訳結果が得られた時点で、それらに対する字幕や合成音声を出力した場合、講演者の元の音声が発話された時刻よりも遅れて出力せざるを得ない。このため、講演者が次のスライドを表示させた場合、1つ前のスライドに対して説明している内容に対する字幕や合成音声の出力が終了していない可能性がある。音声認識結果や機械翻訳結果に対する字幕や合成音声を視聴する際に対応するスライドを見ることができないのは、聴講者にとって理解の妨げになる。
特開2001−224002号公報
本開示は、上述の課題を解決するためになされたものであり、講演内容の理解を支援することができる講演支援装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る講演支援装置は、切替部、音声取得部、音声認識部及び制御部を含む。切替部は、第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える。取得部は、前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する。音声認識部は、前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る。制御部は、前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する。
本実施形態に係る講演支援装置の利用例を示す概念図。 第1の実施形態に係る講演支援装置を示すブロック図。 第1の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。 第1の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。 第1の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。 第1の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。 第2の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。 第2の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。 第2の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。 第2の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。 第3の実施形態に係る講演支援装置を示すブロック図。 第4の実施形態に係る講演支援装置を示すブロック図。
以下、図面を参照しながら本実施形態に係る講演支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。また、以下の実施形態では、講演者が日本語で発話すること前提に説明するが、日本語に限らず、他の言語で発話する場合も同様の処理を行うことができる。
本実施形態に係る講演支援装置の利用例について図1を参照して説明する。
図1は、講演支援装置を含む講演支援システム100を示す概念図である。講演支援システム100は、講演支援装置101、講演者用表示部103、聴講者用表示部104−1および104−2を含む。
講演者用表示部103は、講演者150(第1ユーザともいう)が閲覧する画面である。聴講者用表示部104−1および104−2は、聴講者151−1(第2ユーザともいう)および151−2それぞれが視聴する画面である。なお、ここでは聴講者151が2人である場合を想定するが、1人でもよいし、3人以上でもよい。
講演者150は、講演者用表示部103に表示されるコンテンツを見ながら講演を行う。講演者150は、マウスやキーボードなどの切換指示手段を用いて、ネットワーク102を介して講演支援装置101に対してコンテンツの切り替え指示を送信することにより、講演者用表示部103に表示されるコンテンツを切り替えることができる。
本実施形態で想定する「コンテンツ」は、例えば、プレゼンテーションに用いられるようなページ単位に分割されたスライドを想定するが、アニメーションを含むスライドでもよいし、単なる画像でもよい。
また、「コンテンツ」は、機器操作のインストラクション、システムのデモンストレーションなどの実演に関する動画でもよい。コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位をコンテンツの1ページとすればよい。すなわち、表示が切り替わるコンテンツであれば何でもよい。
聴講者151は、ネットワーク102を介して、聴講者用表示部104に表示される、講演に関するコンテンツと講演者150の音声認識結果に関する文字情報とを視聴できる。聴講者用表示部104では、講演支援装置101から新たにコンテンツを受信した場合に、表示するコンテンツを切り替える。なお、図1の例では、聴講者用表示部104としてスマートフォン、タブレットといった携帯端末を想定するが、例えば宅内のネットワーク102に接続されたPCでもよい。
(第1の実施形態)
第1の実施形態に係る講演支援装置について図2のブロック図を参照して説明する。
第1の実施形態に係る講演支援装置200は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206および提示制御部207を含む。
表示部201は、講演者用にコンテンツを提示する。
切替部202は、講演者の指示に応じて、表示部201に表示されるコンテンツを、現在表示されるコンテンツから次のコンテンツに切り替える。さらに、切替部202は、コンテンツを切り替える際の時刻情報に基づいて、コンテンツの表示時間に関する情報を生成する。
コンテンツバッファ203は、聴講者用に表示するコンテンツをバッファする。
音声取得部204は、講演者のコンテンツに関する発話を音声信号として取得する。さらに、音声取得部204は、音声信号の始端の時刻および終端の時刻を検出し、発話時間に関する情報を取得する。音声信号の始端および終端を検出する手法としては、例えば、VAD(Voice Activity Detection)を用いればよく、一般的な手法であるため、ここでの説明は省略する。
音声認識部205は、音声取得部204から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果を得る。
対応記憶部206は、切替部202からコンテンツの表示時間に関する情報を、音声取得部204から発話時間に関する情報をそれぞれ受け取り、コンテンツの表示時間と発話時間との対応関係を示す対応関係テーブルとして記憶する。対応関係テーブルの詳細は、図3を参照して後述する。
提示制御部207は、音声認識部205から音声認識結果を、コンテンツバッファ203からコンテンツをそれぞれ受け取り、聴講者が視聴できるように、音声認識結果およびコンテンツを提示するように制御する。図1の例では、音声認識結果およびコンテンツが聴講者用表示部104に表示されるように出力される。
提示制御部207は、切替部202から講演者の指示(コンテンツの切り替え指示)を受け取り、切り替え指示に応じてコンテンツを切り替える場合、対応記憶部206に記憶される対応関係テーブルを参照して、切り替え前のコンテンツに関する音声認識結果を聴講者に提示してから第1期間内は、切り替え前のコンテンツを聴講者に継続して提示するように制御する。
次に、第1の実施形態に係る対応記憶部206に記憶される対応関係テーブルについて図3を参照して説明する。
図3に示す対応関係テーブル300には、ページ番号301、表示時間情報302および発話時間情報303がそれぞれ対応付けて記録される。
ページ番号301は、コンテンツのページ番号であり、プレゼンテーションのスライドであればスライド番号となる。なお、コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位に一意のIDを振ればよい。
表示時間情報302は、コンテンツが表示されている時間を示し、ここでは、表示開始時刻304と表示終了時刻305とを記憶する。表示開始時刻304は、ページ番号に対応するコンテンツの表示が開始された時刻であり、表示終了時刻305は、ページ番号に対応するコンテンツの表示が終了した時刻である。
発話時間情報303は、コンテンツに対する講演者の発話時間を示し、ここでは、発話開始時刻306と発話終了時刻307とを記憶する。発話開始時刻306は、ページ番号に対応するコンテンツについて発話が開始された時刻であり、発話終了時刻307は、ページ番号に対応するコンテンツについて発話が終了した時刻である。
具体的には、例えば、ページ番号301「1」、表示開始時刻304「0:00」、表示終了時刻305「2:04」、発話開始時刻306「0:10」、発話終了時刻307「1:59」がそれぞれ対応付けられて記憶される。これらの情報から、コンテンツのページ1の表示時間は、「2:04」であり、ページ1に関する発話時間は、「1:49」であることが分かる。
次に、第1の実施形態に係る講演支援装置200の講演支援処理について図3、図4Aおよび図4Bのフローチャートを参照して説明する。以下では、コンテンツとして、ページ単位に分割されているコンテンツを想定する。
ステップS401では、音声認識部205が起動される。
ステップS402では、提示制御部207が、対応記憶部206に記憶されるデータを初期化し、コンテンツの提示する際に最初に提示されるコンテンツのページ番号と、最初に提示されるコンテンツの表示開始時刻とを対応記憶部206に記録する。図3の例では、ページ番号301「1」と、表示開始時刻304「0:00」とが対応記憶部206に記憶される。
ステップS403では、表示部201が、講演者のために最初のコンテンツを表示し、提示制御部207が、聴講者のために最初のコンテンツを提示するように制御する。具体的には、図1の例では、コンテンツを聴講者用表示部104に出力すればよい。
ステップS404では、提示制御部207が、切り替えフラグを1に設定する。切り替えフラグは、コンテンツが切り替えられたかどうかを示すフラグである。
ステップS405では、講演支援装置200が、イベント待ち状態となる。イベント待ち状態とは、講演者からのコンテンツの切り替え入力、講演者からの発話の入力を受け付ける状態である。
ステップS406では、切替部202が、講演者から切り替え指示が入力されたかどうかを判定する。切り替え指示が入力された場合、ステップS407に進み、切り替え指示が入力されない場合は、ステップS410に進む。
ステップS407では、切替部202が、聴講者に表示されるコンテンツのページを切り替え、タイマーを設定する。タイマーとして設定される時間は、処理を後述のステップS418以降に移行するために設定される時間であり、予め設定されている時間を用いてもよいし、状況に合わせて設定されてもよい。
ステップS408では、切替部202が、切り替え前に表示していたコンテンツのページ番号に対応する表示終了時刻と、ページ切り替え後のページ番号と、ページ切り替え後のページ番号に対応する表示開始時刻とを対応記憶部206に記録する。図3の例では、切り替え前に表示されているページ番号301「1」のコンテンツの表示終了時刻305「2:04」と、ページ切り替え後のページ番号301「2」と、ページ番号301「2」の表示開始時刻304「2:04」とが対応記憶部206に記憶される。
ステップS409では、提示制御部207が、切り替えフラグが1でない場合は1に設定し、ステップS405のイベント待機処理に戻る。
ステップS410では、音声取得部204が、講演者の音声の始端を検出したかどうかを判定する。音声の始端を検出した場合は、ステップS411に進み、音声の始端を検出していない場合は、ステップS414に進む。
ステップS411では、提示制御部207が、切り替えフラグが1であるかどうかを判定する。切り替えフラグが1である場合は、ステップS412に進み、切り替えフラグが1でない場合は、既に発話開始時刻が記憶されていることになるので、ステップS405のイベント待機処理に戻る。
ステップS412では、ページ切り替えが行われた直後の発話に関する音声の始端であるため、音声取得部204が、対応記憶部206に、切り替え後のページ番号と発話開始時刻として音声の始端時刻とを記録する。図3の例では、例えば、ページ番号301「2」と発話開始時刻306「2:04」とが対応記憶部206に記憶される。
ステップS413では、切り替えフラグをゼロに設定し、ステップS405のイベント待機処理に戻る。切り替えフラグをゼロに設定することで、発話開始時刻として、講演者の最初の発話の時刻だけ記録するようにする。
ステップS414では、音声取得部204が、講演者の音声の終端を検出したかどうかを判定する。音声の終端を検出した場合は、ステップS415に進み、音声の終端を検出していない場合は、ステップS416に進む。
ステップS415では、音声取得部204が、対応記憶部206に、発話終了時刻を記憶させる。図3の例では、例えば、ページ番号301「2」の発話終了時刻307「4:29」が対応記憶部206に記憶される。
ステップS416では、音声認識部205が、音声認識結果を出力可能であるかどうかを判定する。具体的には、例えば、音声信号に対する音声認識処理が終了し、音声認識結果を出力できる状態となる場合に、音声認識結果を出力可能であるかと判定すればよい。音声認識結果が出力可能である場合、ステップS417に進み、音声認識結果が出力可能でない場合、ステップS418に進む。
ステップS417では、提示制御部207が、聴講者のために音声認識結果を聴講者に提示するように制御する。具体的には、例えば、聴講者用の端末に音声認識結果の文字列が字幕またはテロップとして表示されるようにデータを送信する。その後、ステップS405のイベント待機処理に戻る。
ステップS418では、提示制御部207が、タイマーに設定した時間が経過したかどうか(タイマー割り込みが発生したかどうか)を判定する。設定した時間が経過している場合、ステップS419に進み、設定した時間が経過していない場合、ステップS405のイベント待機処理に戻る。
ステップS419では、提示制御部207が、聴講者への音声認識結果の提示が完了してから第1期間経過したかどうかを判定する。聴講者への音声認識結果の提示が完了したかどうかは、例えば、提示制御部207が音声認識結果を出力した後、所定時間経過すれば音声認識結果の提示が完了したと判定してもよいし、聴講者の端末から音声認識結果の提示が完了した旨のACKを受信したときでもよい。
音声認識結果を提示してから第1期間経過している場合は、ステップS420に進み、第1期間経過していない場合は、第1期間を経過するまで本ステップS419の処理を繰り返す。これにより、第1期間内は、聴講者に切り替え前のコンテンツが継続して提示されることになる。第1期間は、ここでは、講演者の発話とページの切り替えタイミングとを考慮して、表示終了時刻と発話終了時刻との差分の時間とするが、これに限らず、聴講者側にコンテンツと音声認識結果の文字列とが表示されてから、聴講者がコンテンツおよび音声認識結果の文字列を理解できる程度の時間を設定すればよい。
ステップS420では、提示制御部207が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一であるかどうかを判定する。ページが同一である場合、ステップS405のイベント待機処理に戻る。ページが同一でない場合、ステップS421に進む。
ステップS421では、提示制御部207が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一となるように切り替えるため、講演者に表示されるコンテンツのページが提示されるように制御する。具体的には、聴講者の端末に講演者に表示されるコンテンツを出力する。
ステップS422では、提示制御部207が、聴講者に提示したコンテンツのページが最後のページであるかどうかを判定する。最後のページである場合、処理を終了し、最後のページでない場合、ステップS405のイベント待機処理に戻る。以上で、講演支援装置200の講演支援処理を終了する。
なお、図4Aと図4Bで示した処理は、音声認識や機械翻訳の処理とは別のスレッドで独立的に動作させることで、音声認識結果が出力可能になったタイミングに依存して処理がデッドロックしてしまわないようにすることが望ましい。
次に、第1の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図5を参照して説明する。
図5は、講演者の発話および講演者用のコンテンツの表示と、聴講者用の音声認識結果の表示及びコンテンツの表示との時間推移を示す。
時系列500は、講演者用のコンテンツの表示時間に関する時系列を示し、コンテンツの表示を切り替える時点を示す、切り替えタイミング501および切り替えタイミング502も図示する。図5の例では、コンテンツのページ1が表示されており、切り替えタイミング501を経て、ページ2に切り替えられたことを示す。また、ページ2の表示開始時刻が切り替えタイミング501であり、ページ2の表示終了時刻が切り替えタイミング502となる。
時系列510は、講演者の発話に関する音声波形を時系列で示したものである。ここでは、時刻511がページ1に関する発話開始時刻であり、時刻512がページ1に関する発話終了時刻である。また、時刻513がページ2に関する発話開始時刻であり、時刻514がページ2に関する発話終了時刻である。
時系列520は、講演者の発話の時系列510に対する音声認識結果を、聴講者に出力するタイミングを示す時系列である。図5の例では、講演者のページ1に関する発話(時刻511から時刻512まで)の時系列に対して、音声認識結果521、522および523と順次出力する。同様に、講演者のページ2に関する発話(時刻513から時刻514まで)の時系列に対して、音声認識結果524、525および526と順次出力する。
時系列530は、聴講者用のコンテンツに関する表示時間の時系列を示し、切り替えタイミング531および切り替えタイミング532も図示する。
図5に示すように、講演者用のコンテンツの表示がページ1からページ2に切り替わった場合でも、聴講者用のコンテンツの表示は、ページ1のままとする。その後、音声認識結果523が聴講者に出力されてから、第1期間540を経過した後に、聴講者用のページ1のコンテンツがページ2に切り替えて表示される。第1期間540は、ここでは、切り替えタイミング501とページ1の発話終了時刻である時刻512との差分である。
以上に示した第1の実施形態によれば、講演者側のコンテンツの表示時間および発話の継続時間に基づいて、聴講者用のコンテンツの表示を、聴講者に音声認識結果を提示してから第1期間経過したのちに切り替える。これによって、聴講者側で、講演者のコンテンツの切り替えに従って音声認識結果の表示前に先にコンテンツが切り替わってしまうなどの問題点が解消し、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、聴講者の講演内容の理解を支援することができる。すなわち、聴講者は、コンテンツと対応する字幕とを視聴することができるので、内容を理解しやすくなる。
(第2の実施形態)
第1の実施形態では、コンテンツがページの概念を持つ場合に、ページごとに発話が完結する場合を想定するが、第2の実施形態では、講演者が発話を継続しながらページを切り替える、すなわち、2つのページにまたがって発話が継続することを想定する。
第2の実施形態に係る対応記憶部206に記憶される対応関係テーブルについて図6を参照して説明する。
図6に示す対応関係テーブル600は、図3に示す対応関係テーブル300とほぼ同様であるが、発話終了時刻601に記録されるデータが異なる。
発話終了時刻601には、ページ切り替えの際に発話が終了している場合は、発話終了を示す「end」と、発話終了時刻とが記録される。一方、ページ切り替えの際に発話が係属中である場合は、発話係属中を示す「cont」と、表示終了時刻305とが記録される。
具体的に図6の例では、ページ切り替えの際に発話が終了している場合、発話終了時刻601「(end,1:59)」が記録され、ページ切り替えの際に発話が係属中である場合は、発話終了時刻601「(cont,4:30)」が記録される。
次に、第2の実施形態に係る講演支援装置の講演支援処理について図7Aおよび図7Bのフローチャートを参照して説明する。
ステップS701からステップS707まで以外は、図4Aおよび図4Bに示すフローチャートの処理と同様であるので、ここでの説明は省略する。
ステップS701では、提示制御部207が、ページ切り替えの際に講演者の発話が係属中であるかどうかを判定する。講演者の発話が係属中であれば、ステップS702に進み、講演者の発話が係属中でない、すなわち、ページ切り替えの際に講演者の発話が終了している場合は、ステップS409に進む。
ステップS702では、切替部202が、切り替え前にページに対応する発話終了時刻として、「(cont,表示終了時刻)」を記録するとともに、現在のページに対応する発話開始時刻として、表示終了時刻を記録する。
ステップS703では、音声取得部204が、対応記憶部206に、発話終了時刻として、「(end,発話の終端時刻)」を記録する。
ステップS704では、提示制御部207が、表示されているページに対応する発話終了時刻が(end,T)であるか、または(cont,T)であるかを判定する。ここでTは、時刻を表し、(end,T)の場合は発話の終端時刻、(cont,T)の場合は表示終了時刻である。発話終了時刻が(end,T)である場合、ステップS419に進み、発話終了時刻が(cont,T)である場合、ステップS705に進む。
ステップS705では、提示制御部207が、聴講者への音声認識結果の提示が完了してから第2期間経過したかどうかを判定する。第2期間経過している場合は、ステップS420に進み、第2期間経過していない場合は、第2期間を経過するまで本ステップS705の処理を繰り返す。第2期間は、ここでは、講演者の発話が2ページにまたがっているため、ページの切り替えを早く行うべく、第1期間よりも短い期間を想定するが、第1期間と同じ期間でもよい。
次に、第2の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図8を参照して説明する。
図8は、図5とほぼ同様であるが、時系列510において、ページ切り替えの際に講演者の発話が係属中である点が異なる。
提示制御部207は、聴講者に、時刻801の発話を含む音声認識結果802の出力が完了してから第2期間803を経過した後に、聴講者が視聴するコンテンツのページ1をページ2に切り替えるよう制御する(ページ切り替え804)。
なお、また、提示制御部207は、ページ切り替えの際に講演者の発話が係属中である場合、聴講者への音声認識結果の提示が完了してから、ページの切り替えに関し、いわゆるフェードアウトおよびフェードインを用いて切り替えるように、コンテンツの出力を制御してもよい。
以上に示した第2の実施形態によれば、講演者が発話を継続しながらページを切り替える場合でも、ページ切り替えの際に発話が係属中であるかどうかに応じて対応関係テーブルを生成し、対応関係テーブルを参照して提示制御を行うことにより、第1の実施形態と同様に、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、講演内容の理解を支援することができる。
(第3の実施形態)
第3の実施形態では、講演者の発話の機械翻訳結果を聴講者に提示する点が上述の実施形態とは異なる。
第3の実施形態に係る講演支援装置を図9のブロック図を参照して説明する。
第3の実施形態に係る講演支援装置900は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206、提示制御部207および機械翻訳部901を含む。
提示制御部207および機械翻訳部901以外は、図2と同様の動作を行うので、説明を省略する。
機械翻訳部901は、音声認識部205から音声認識結果を受け取り、音声認識結果を機械翻訳して、機械翻訳結果を得る。
提示制御部207は、上述の実施形態とほぼ同様の動作を行うが、機械翻訳部901から機械翻訳結果を受け取り、聴講者に機械翻訳結果を提示するように制御する点が異なる。なお、提示制御部207は、音声認識結果と機械翻訳結果とを提示するように制御してもよい。
以上に示した第3の実施形態によれば、講演者の第1言語から聴講者の第3言語に翻訳が必要な場合でも、音声認識結果を機械翻訳することにより、聴講者が講演の内容を理解でき、第1の実施形態と同様に、講演に関する聴講者の理解を支援することができる。
(第4の実施形態)
第4の実施形態では、講演者の発話の機械翻訳結果の合成音声を聴講者に提示する点が上述の実施形態とは異なる。
第4の実施形態に係る講演支援装置を図10のブロック図を参照して説明する。
第4の実施形態に係る講演支援装置1000は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206、提示制御部207、機械翻訳部901および音声合成部1001を含む。
提示制御部207および音声合成部1001以外は、図2と同様の動作を行うので、説明を省略する。
音声合成部1001は、機械翻訳部901から機械翻訳結果を受け取り、機械翻訳結果を音声合成して、合成音声を得る。
提示制御部207は、上述の実施形態とほぼ同様の動作を行うが、音声合成部1001から合成音声を受け取り、聴講者に合成音声を提示するように制御する点が異なる。なお、提示制御部207は、聴講者に、音声認識結果と機械翻訳結果と合成音声とを提示するように制御してもよいし、機械翻訳結果と合成音声とを提示するように制御してもよい。
以上に示した第4の実施形態によれば、講演者に合成音声を出力することができ、第1の実施形態と同様に、講演に関する聴講者の理解を支援することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した講演支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の講演支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・講演支援システム、101,200,900,1000・・・講演支援装置、102・・・ネットワーク、103・・・講演者用表示部、104−1,104−2・・・聴講者用表示部、150・・・講演者、151−1,151−2・・・聴講者、201・・・表示部、202・・・切替部、203・・・コンテンツバッファ、204・・・音声取得部、205・・・音声認識部、206・・・対応記憶部、207・・・提示制御部、300,600・・・対応関係テーブル、301・・・ページ番号、302・・・表示時間情報、303・・・発話時間情報、304・・・表示開始時刻、305・・・表示終了時刻、306・・・発話開始時刻、307,601・・・発話終了時刻、500,510,520,530・・・時系列、501,502,531,532・・・切り替えタイミング、511,512,513,514,801・・・時刻、521,522,523,524,525,802・・・音声認識結果、540,803・・・期間、901・・・機械翻訳部、1001・・・音声合成部。

Claims (10)

  1. 第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
    前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
    前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
    前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
  2. 前記制御部は、前記第1期間経過後に、前記第2コンテンツを該第2ユーザに提示するように制御することを特徴とする請求項1に記載の講演支援装置。
  3. 前記第1音声信号に関する発話開始時刻および該第1音声信号に関する発話終了時刻と、前記第1コンテンツの表示開始時刻および該第1コンテンツの表示終了時刻とをそれぞれ対応付けて記憶する記憶部をさらに具備し、
    前記第1期間は、前記表示終了時刻と前記発話終了時刻との差分の時間であることを特徴とする請求項1または請求項2に記載の講演支援装置。
  4. 前記記憶部は、前記第1コンテンツから前記第2コンテンツに切り換わる際に前記第1ユーザが継続して発話している場合、前記発話終了時刻として前記第1コンテンツの表示終了時刻を記憶し、
    前記制御部は、前記音声認識結果を前記第2ユーザに提示してから第2期間経過後に、前記第2コンテンツを該第2ユーザに提示するように制御することを特徴とする請求項3に記載の講演支援装置。
  5. 前記第1ユーザに前記第1コンテンツおよび前記第2コンテンツを表示する表示部をさらに具備することを特徴とする請求項1から請求項4のいずれか1項に記載の講演支援装置。
  6. 前記音声認識結果は、前記第1音声信号に関する音声認識結果の文字列であることを特徴とする請求項1から請求項5のいずれか1項に記載の講演支援装置。
  7. 第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
    前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
    前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
    前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
    前記第1コンテンツから前記第2コンテンツに切り替える場合、前記機械翻訳結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
  8. 第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
    前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
    前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
    前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
    前記機械翻訳結果を音声合成し、合成音声を得る音声合成部と、
    前記第1コンテンツから前記第2コンテンツに切り替える場合、前記合成音声を第2ユーザに提示第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
  9. 第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替えるステップと
    前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得するステップと
    前記第1音声信号に対して音声認識処理を行い、音声認識結果を得るステップと
    前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように切り替えタイミングを制御するステップとを備える、コンピュータが実行する講演支援方法。
  10. コンピュータを、
    第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替手段と、
    前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得手段と、
    前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識手段と、
    前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御手段として機能させるための講演支援プログラム。
JP2015055312A 2015-03-18 2015-03-18 講演支援装置、方法およびプログラム Active JP6392150B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015055312A JP6392150B2 (ja) 2015-03-18 2015-03-18 講演支援装置、方法およびプログラム
US15/064,987 US20160275967A1 (en) 2015-03-18 2016-03-09 Presentation support apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015055312A JP6392150B2 (ja) 2015-03-18 2015-03-18 講演支援装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016177013A JP2016177013A (ja) 2016-10-06
JP6392150B2 true JP6392150B2 (ja) 2018-09-19

Family

ID=56923958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015055312A Active JP6392150B2 (ja) 2015-03-18 2015-03-18 講演支援装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20160275967A1 (ja)
JP (1) JP6392150B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
CN117280696A (zh) * 2021-04-16 2023-12-22 松下知识产权经营株式会社 影像显示系统及影像显示方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
US6272461B1 (en) * 1999-03-22 2001-08-07 Siemens Information And Communication Networks, Inc. Method and apparatus for an enhanced presentation aid
JP2002271769A (ja) * 2001-03-08 2002-09-20 Toyo Commun Equip Co Ltd インターネットによる講演会のビデオ配信システム
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
US9116989B1 (en) * 2005-08-19 2015-08-25 At&T Intellectual Property Ii, L.P. System and method for using speech for data searching during presentations
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
US8290779B2 (en) * 2007-09-18 2012-10-16 Verizon Patent And Licensing Inc. System and method for providing a managed language translation service
JP5229209B2 (ja) * 2009-12-28 2013-07-03 ブラザー工業株式会社 ヘッドマウントディスプレイ
US9323756B2 (en) * 2010-03-22 2016-04-26 Lenovo (Singapore) Pte. Ltd. Audio book and e-book synchronization
JP5323878B2 (ja) * 2011-03-17 2013-10-23 みずほ情報総研株式会社 プレゼンテーション支援システム及びプレゼンテーション支援方法
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
KR102196671B1 (ko) * 2013-01-11 2020-12-30 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
US9699404B2 (en) * 2014-03-19 2017-07-04 Microsoft Technology Licensing, Llc Closed caption alignment
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
US20170053541A1 (en) * 2015-01-02 2017-02-23 Iryna Tsyrina Interactive educational system and method
US9460713B1 (en) * 2015-03-30 2016-10-04 Google Inc. Language model biasing modulation

Also Published As

Publication number Publication date
JP2016177013A (ja) 2016-10-06
US20160275967A1 (en) 2016-09-22

Similar Documents

Publication Publication Date Title
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
JP2015203835A (ja) テキスト編集装置、テキスト編集方法、及びプログラム
JP2005228178A (ja) 書き起こしテキスト作成支援システムおよびプログラム
JP6392150B2 (ja) 講演支援装置、方法およびプログラム
JP2014022758A (ja) 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP2013161205A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2012073396A (ja) 会議支援装置、方法およびプログラム
JP2006054027A (ja) ディスク再生装置
JP2018180519A5 (ja)
JP2005321706A (ja) 電子書籍の再生方法及びその装置
US10181312B2 (en) Acoustic system, communication device, and program
JP2007165959A (ja) 画像表示装置
JP2020140326A (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2004325905A (ja) 外国語学習装置および外国語学習プログラム
JP2010081149A (ja) 情報記録再生装置
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP2016012098A (ja) 電子図書再生装置及び電子図書再生プログラム
JP6821727B2 (ja) テキストデータ音声再生装置およびテキストデータ音声再生プログラム
EP1748433A2 (en) Information playback method using information recording medium
KR20090078198A (ko) 스크립트를 기반으로 하는 동영상 부가정보 처리 장치 및방법
JP5104135B2 (ja) 情報再生装置、情報処理装置、及びプログラム
JP2015049515A (ja) 言語学習プログラムおよびそれを記録したコンピュータで読み取り可能な記録媒体
JP5860575B1 (ja) 音声録音プログラム、音声録音端末装置、及び音声録音システム
KR20170052084A (ko) 외국어 말하기 학습 장치 및 방법
JP2022024453A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180822

R150 Certificate of patent or registration of utility model

Ref document number: 6392150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150