JP2012129950A

JP2012129950A - 会議支援装置および会議支援方法

Info

Publication number: JP2012129950A
Application number: JP2010282152A
Authority: JP
Inventors: Akitsugu Ueno; 晃嗣上野; Nobuhiro Shimogoori; 信宏下郡; Tomoo Ikeda; 朋男池田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2012-07-05
Anticipated expiration: 2030-12-17
Also published as: US20120154514A1; JP5727777B2; US8553855B2

Abstract

【課題】情報抽出処理によって会議の相手側に生じる遅延に関する情報を表示することによって、相手側の状況を分かりやすくし、会議の進行をスムーズにすることができる会議支援装置を提供することである。
【解決手段】実施形態の会議支援装置は、少なくとも２つ以上の端末間で行う会議を支援する会議支援装置であって、一方の端末が取得した第１の音声データに対する情報抽出処理によって生じた遅延を前記第１の音声データに適用する遅延手段と、当該遅延手段によって前記第１の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段とを備えている。
【選択図】図１

Description

本発明の実施形態は、会議支援装置および会議支援方法に関する。

参加者の発言から字幕データを生成することによって、発言内容の理解を支援する会議支援装置の開発が進められている。例えば、複数の話者の発言を音声認識することにより、自動的に字幕データを生成するシステムがある。また、映像／音声に対する字幕データの表示タイミングを補正することによって、音声認識などの情報抽出処理によって生じる字幕データの遅延をなくす方法が提案されている。さらに、話者の声を復唱者が復唱した音声を認識し、話者の映像に遅延を適用して字幕データとともに表示する方法や、データ通信によって生じる遅延量を画面で確認しながら会議を行う方法が提案されている。

しかしながら、これらの技術では、参加者が音声認識などの情報抽出処理によって会議の相手側に生じる遅延量を把握することができなかった。

特開２００５−２８６９６９号公報特開２００３−３４５３７９号公報特開２００８−６１０６０号公報

Mike Wald and Keith Bain, "Using Speech Recognition for Real-Time Captioning of Multiple Speakers," Multimedia, IEEE Computer Society, 2008 Oct.-Dec, Vol.15, No.4, p.56-57

発明が解決しようとする課題は、会議の相手側の状況を分かりやすくし、会議の進行をスムーズにすることができる会議支援装置を提供することである。

実施形態の会議支援装置は、少なくとも２つ以上の端末間で行う会議を支援する会議支援装置であって、一方の端末が取得した第１の音声データに対する情報抽出処理によって生じた遅延を前記第１の音声データに適用する遅延手段と、当該遅延手段によって前記第１の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段とを備えている。

第１の実施形態の会議システムの構成を示すブロック図。第１の実施形態の会議支援装置のハードウェア構成を示す図。第１の実施形態の会議システムの処理の流れを示すフローチャート。第１の実施形態の会議支援装置の第１の音声データを示す図。第１の実施形態の会議支援装置の音声認識部の処理結果を示す図。第１の実施形態の会議支援装置の遅延再生データを示す図。第１の実施形態の会議システムの処理の流れを示すフローチャート。第１の実施形態の会議支援装置の遅延情報を示す図。第１の実施形態の会議支援装置のカラオケ型の字幕形式の遅延情報映像を示す図。第１の実施形態の会議支援装置のタイムバー形式の遅延情報映像を示す図。第１の実施形態の会議支援装置のカラオケ型の字幕形式の遅延情報映像を示す図。第２の実施形態の会議システムの構成を示すブロック図。第２の実施形態の会議システムの処理の全体の流れを示すフローチャート。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
図１は、第１の実施形態にかかる会議システムの構成を示すブロック図である。第１の実施形態にかかる会議システムは、日本と米国の間で行う遠隔電話会議を想定している。この会議システムでは、米国側に設けられた端末１０と、日本側に設けられた端末１１とが、例えば日本側に設けられ会議支援装置１２を備える遠隔サーバーに、それぞれ通信回線を介して接続する。ここでは、米国側の参加者は英語を喋るものとし、会議支援装置１２が米国側での発言を音声認識して得た結果を英語の字幕データとして端末１１に表示させることで、日本側の参加者を支援している。このとき、会議支援装置１２は、音声認識によって生じた遅延の分だけ音声データに遅延を適用して端末１１に提供する。これにより、日本側端末での音声データと字幕データの同期ずれを補正できる。また、会議支援装置１２は、音声認識により生じた遅延量を示す映像を生成して端末１０へ提供し、端末１０は、米国側の音声データに適用された遅延に関する情報を映像で表示する。これにより、日本側で生じている遅延量などの情報を米国側の参加者が把握できるように支援している。なお、本実施形態では、日本側の参加者も英語を喋るものとし、米国側の端末１０では日本側の端末１１に入力された日本側の音声がそのまま再生される。

米国側の端末１０は、第１音声入力部１００と、第２音声再生部１０１と第２映像表示部１０２と、通信部１０３とを備える。日本側の端末１１は、第１音声再生部１１０と、第１映像表示部１１１と、第２音声入力部１１２と、通信部１１３とを備える。遠隔サーバーに備えられた会議支援装置１２は、音声認識部１２０と、遅延部１２１と、遅延情報映像生成部１２３と、通信部１２５と、通信部１２６とを備える。

米国側の端末１０、日本側の端末１１および会議支援装置１２は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部１３０と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部１３１と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部１３２と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部１３３と、外部装置との通信を制御する通信部１３４と、これらを接続するバス１３５とを備えている。さらに、端末１０および端末１１には、音声が入力されるマイクなどの音声入力部１３６と、音声を再生するスピーカなどの音声再生部１３７と、映像を表示するディスプレイなどの映像表示部１３９とが有線又は無線により各々接続されている。

このようなハードウェア構成において、制御部１３０がＲＯＭ等の記憶部１３１や外部記憶部１３２に記憶された各種プログラムを実行することにより以下の機能が実現される。

まず、米国側の音声データを字幕データとともに日本側の端末１１で再生する機能について説明する。図１において、米国側の端末１０の第１音声入力部１００は、マイク（図示せず）を有しており、米国側での参加者の発言を第１の音声データとして取得する。取得した第１の音声データは、通信部１０３を介して遠隔サーバーに備えられた会議支援装置１２に送信される。音声認識部１２０は、通信部１２６を介して得た第１の音声データに対して音声認識を行い、米国側での参加者の発言の英語の字幕データを生成する。音声認識部１２０が認識対象とする言語は、参加者が事前に設定できる。遅延部１２１は、音声認識によって生じた遅延を第１の音声データに適用して、字幕データと第１の音声データの同期ずれを補正する。遅延は、音声データを一旦バッファリングしておき、バッファリングされた音声データとこれに対応する字幕データとのペアを合成することで実現する。ここで、音声認識によって生じた遅延量は、音声認識部１２０の処理結果から計算する。同期ずれを補正した第１の音声データおよび字幕データは、通信部１２５を介して端末１１に送信される。そして、第１の音声データは第１音声再生部１１０のスピーカ（図示せず）から再生され、字幕データは第１映像表示部１１１のディスプレイ（図示せず）に表示される。なお、本実施形態では、各端末間の通信によって生じる遅延は考慮しない。

次に、米国側の端末１０に音声認識によって生じた遅延に関する情報（遅延情報）を表示する機能について説明する。遠隔サーバーに備えられた会議支援装置１２の遅延部１２１は、第１の音声データに適用した遅延量を含む遅延情報を抽出する。遅延情報映像生成部１２３は、遅延部１２１で抽出された遅延情報を視覚化した遅延情報映像を生成する。この遅延情報映像は、通信部１２６を介して端末１０に送信され、第２映像表示部１０２のディスプレイ（図示せず）に表示される。また、会議支援装置１２は、第２音声入力部１１２で取得して第２の音声データを端末１０に送信して、第２音声再生部１０１のスピーカ（図示せず）から再生させる。

このように構成された第１の実施形態にかかる会議システムの動作について説明する。本実施形態の会議システムは、米国側で発言された第１の音声データを音声認識して字幕データを生成する。そして、音声認識により生じる遅延を第１の音声データに適用して日本側で再生することにより、第１の音声データと字幕データとの同期ずれを補正する。また、第１の音声データに適用した遅延量を米国側に映像で表示することにより、日本側で生じている遅延量などの遅延情報を米国側の参加者に知らせる。

図３は、米国側の第１の音声データを字幕データとともに端末１１で再生する際の処理フローを表している。端末１０の第１音声入力部１００は、参加者の発言を第１の音声データとして取得する。ここで、第１の音声データは、アナログからディジタル形式に変換され、一定時間ごとに時刻情報が付与される（ステップＳ１）。図４に、時刻情報が付与された第１の音声データを示す。同図では、時刻情報として会議開始からの経過時間を用いており、１０秒ごとに区切って時刻情報を付与している。なお、時刻情報には標準時など任意の表現を用いることもできる。

音声認識部１２０は、第１音声入力部１００が取得した第１の音声データを音声認識して字幕データを生成する（ステップＳ２）。この音声認識部１２０は、認識結果の文字列である英語の字幕データと、認識された第１の音声データの発言開始時刻、発言終了時刻および認識終了時刻を処理結果として出力する。図５に、音声認識部１２０が生成した処理結果を示す。この処理結果には、字幕ID、発言開始時刻、発言終了時刻、認識終了時刻および字幕データ（認識結果を示す文字列）が含まれる。字幕IDは、字幕データを特定するためのユニークな識別番号である。発言開始時刻および発言終了時刻は、各字幕データに対応する発言の開始時刻と終了時刻を会議開始後からの経過時間で表している。字幕データは、発言の内容を認識した結果を表す文字列である。この例では、会議開始後３秒から８秒までの間に、「Ok, guys. Let's begin.」という発言が米国側で行われたことを表している。なお、発言開始時刻および発言終了時刻は、音声認識の音声区間検出機能によって特定できる。認識終了時刻は、各発言に対する認識処理が終了した時刻を会議開始後からの経過時間で表している。図５では、「Ok, guys. Let's begin.」という発話に対する認識処理が会議開始後９秒に終了したことを表している。

遅延部１２１は、第１の音声データと字幕データのペアを合成することによって、音声認識によって生じた第１の音声データと字幕データとの同期ずれを補正する（ステップＳ３）。より具体的には、遅延部１２１は、第１音声入力部１００で取得した第１の音声データと音声認識部１２０の処理結果（字幕ID、発言開始時刻、発言終了時刻、認識終了時刻および字幕データ）とを照合し、遅延再生データを合成する。図６に、合成された遅延再生データの例を示す。遅延再生データは、字幕IDに対応付けて、遅延部１２１に保持された第１の音声データと、音声認識部１２０で生成された字幕データとを含む。また、遅延再生データは、日本側で第１の音声データを再生する際の再生開始時刻および再生終了時を有する。再生開始時刻は、音声データの再生を開始する時刻を会議開始後からの経過時間で表している。本実施形態では、再生開始時刻を音声認識部１２０の処理結果に含まれる認識終了時刻と同じ値に設定する。つまり、各字幕IDに対応する音声データの再生を音声認識部１２０の認識処理終了直後に開始する。再生終了時刻は、各音声データの再生が終了する時刻を会議開始後からの経過時間で表している。再生速度を変換する場合を除き、再生終了時刻は、再生開始時刻に各字幕IDに対応する音声データの長さを加算した値となる。音声データの長さは、音声認識部１２０の処理結果の再生開始時刻と再生終了時刻との差分から計算できる。第１の音声データに遅延を適用する方法および再生速度の変換については後述する。図５と図６を比較すると、例えば、字幕ID1の「Mike, please tell us …」という発言は、米国側では会議開始後11秒から発言されているにも係わらず、日本側では会議開始後18秒から再生されることが分かる。

遅延部１２１における第１の音声データと字幕データの合成は、第１の音声データに遅延を適用することに相当する。合成は、第１の音声データを所定時間バッファリングすることで実現できる。まず、遅延部１２１は、音声認識部１２０から処理結果を取得するまで、取得した第１の音声データをバッファリングする。そして、音声認識部１２０から各発言に対する処理結果を取得後、処理結果に含まれる発言開始時刻および認識終了時刻を参照して再生開始時刻を計算する。そして、バッファリングされた音声データから各発言に対応する区間の音声データを切り出し、切り出された音声データと字幕データとを含む遅延再生データを合成し、その再生開始時刻を音声認識に要した時間を考慮して定める。本実施形態では、再生開始時刻は認識終了時刻と同時刻に設定されることから、音声認識部１２０の認識処理終了直後に各発言の遅延再生データが遅延部１２１から出力される。

次に、第１の音声データの再生速度の変換について説明する。遅延部１２１は、音声認識によって生じた遅延量を少なくするために、第１の音声データの再生速度を1.3倍速のように早くすることができる。再生速度の変換は、家庭用HDDレコーダのタイムシフト再生や追っかけ再生に用いられる話速変換技術で実現できる。例えば図６では、字幕ID2の発言は再生速度が11/9倍速に設定されており、日本側で再生される際、音声区間長が11秒（図５の発言開始時刻から発言終了時刻までの長さ）から9秒（図６の再生開始時刻から再生終了時刻までの長さ）に短縮される。また、遅延部１２１は、各発言の開始から終了までの区間に含まれる無音を削除することで遅延量を少なくすることもできる。無音区間の削除は、発言開始から発言終了までの区間における音声データのパワーを計算し、このパワーが閾値より小さくなる区間を削除することで実現できる。この他にも遅延部１２１は、第１の音声データの再生速度を0.8倍速のように遅くすることにより、日本側における英語の聴取性を向上させることもできる。

端末１１の第１音声再生部１１０は、遅延部１２１で合成された遅延再生データから第１の音声データを抽出してスピーカから再生する(ステップＳ４)。第１映像表示部１１１は、遅延部１２１で合成された遅延再生データから字幕データを抽出してディスプレイに表示する（ステップＳ４）。以上の処理により、第１の実施形態にかかる会議システムは、米国側の第１の音声データを字幕データとともに同期した状態で日本側の端末１１から再生できる。

図７は、米国側の端末１０に音声認識によって生じた遅延量を表示する際の処理フローを表している。遅延部１２１は、第１の音声データに適用した遅延量を含む遅延情報を抽出する（ステップＳ７）。図８に、遅延再生データから抽出された遅延情報の例を示す。ここで、遅延情報は、開始時遅延量、終了時遅延量を含み、さらに字幕ID、再生開始時刻、再生終了時刻、発言開始時刻、発言終了時刻および字幕データも含む。このうち、再生開始時刻および再生終了時刻は、遅延部１２１で合成された遅延再生データから直接得ることができる。字幕ID、字幕データ、発言開始時刻および発言終了時刻は、遅延部１２１に入力された音声認識部１２０の処理結果（図５）から得ることができる。また、開始時遅延量および終了時遅延量は、それぞれ下記の（１）式および（２）式から計算できる。

開始時遅延量＝再生開始時刻 − 発言開始時刻 …(1)
終了時遅延量＝再生終了時刻 − 発言終了時刻 …(2)
このような抽出方法をとることにより、音声認識による遅延量が字幕データごとに増減しても正しい値を計算できる。また、追っかけ再生など音声の再生速度を変換するような場合でも正しい値を計算できる。本実施形態では、遅延情報として遅延量以外の情報を含んでいる。しかし、後述するタイムバー形式の遅延情報映像の生成ように、遅延情報映像生成部１２３において遅延量以外の情報を必要としない場合は、遅延量のみを遅延情報として抽出すればよい。

遅延情報映像生成部１２３は、米国側の参加者向けに遅延部１２１で抽出した遅延情報を視覚化した遅延情報映像を生成する（ステップＳ８）。遅延情報映像は静止画像でも動画像でもよい。遅延情報映像生成部１２３の視覚化手法としては、例えば、図９に示すカラオケ型の字幕形式がある。これは米国側の参加者にとっては、「日本側で現在再生されている過去の自分の発言内容」を示している。より具体的には、音声認識部１２０の処理結果（字幕データ）の映像に第１の音声データの再生箇所を表示している。図９における境界線９００が、日本側で現在再生されている第１の音声データの再生箇所を表す。この境界線９００は、遅延情報に格納された字幕データと再生開始時刻と、再生終了時刻と、現在の時刻情報（会議開始時からの経過時間）とから容易に生成できる。各発話に対する境界線９００の表示箇所は、下記の（３）式で計算される音声データの再生割合に応じて制御する。

（現在の時刻情報−再生開始時刻）／（再生終了時刻−再生開始時刻）×１００ …(3)
例えば、図８のID1に対応する第１の音声データの再生中において、現在の時刻情報が２１秒である場合、表示した字幕文字列の左から下記の（４）式で示される割合の箇所に境界線９００が表示される。

（２１−１８）／（２３−１８）×１００＝６０．０％ …(4)
図９における境界線９００は、現在の時刻情報とともに右側にシフトする。同図では、境界線９００の左右で字幕データ中の文字列およびその背景の色を変えているが、境界線９００が無いもの、色を変えのないもの、境界線９００の左右で文字の大きさが異なるもの、などの視覚化手法も考えられる。このように、遅延情報映像生成部１２３は、遅延部１２１が各発言に対する遅延再生データを出力する毎に、その発言に対するカラオケ型の字幕形式の動画像を生成する。

また、別の視覚化手法として、図１０に示すタイムバー形式がある。同図のタイムバー１０００は、遅延情報のうち現在の遅延量をタイムバーの長さ（左辺から右辺までの長さ）で表している。タイムバーの左辺の位置は固定されており、遅延量の秒数に応じてタイムバーの長さが増減（右辺の位置が変化）する。現在の遅延量は、下記の（５）式により計算できる。

開始時遅延量−（（現在の時刻情報−再生開始時刻）／（再生終了時刻−再生開始時刻））×（開始時遅延量−終了時遅延量） …(5)
図８のID2に対応する第１の音声データの再生中において、現在の時刻情報が３８秒である場合、遅延量は下記の（６）式により計算できる。

１４−（（３８−３１）／（４０−３１））×（１４−１２）＝１２．４４…（秒）…(6)
図１０の文字列１００１は、現在の遅延量を秒数で表示したものである。

なお、本実施形態では、遅延情報映像生成部１２３が字幕データなどの音声認識の処理結果を遅延部１２１から取得しているが、これらの処理結果は音声認識部１２０から直接取得してもよい。

最後に、第２映像表示部１０２は、遅延情報映像生成部１２３によって生成された遅延量を表す遅延情報映像を米国側のディスプレイに表示する（ステップＳ９）。また、第２音声再生部１０１は、第２の音声データとして取得した日本側の参加者の発言を米国側のスピーカから再生する（ステップ９）。以上の処理により、第１の実施形態にかかる会議システムは、端末１０に音声認識によって生じた遅延量などの遅延情報を表示できる。

このように、第１の実施形態にかかる会議システムは、米国側の参加者が、音声認識によって日本側に生じる遅延量などの遅延情報を端末１０に表示された遅延情報映像から把握できる。これにより、日本側の状況を確認でき、会議をスムーズに進行できる。

また、第１の実施形態にかかる会議システムでは、日本側の参加者が現在聞いている発言の字幕データが端末１０に表示される。これにより、米国側の参加者は、自分のどの発言に対して日本側が反応しているのか等の遅延に関する情報を把握でき、会議をスムーズに進行できる。

（変形例１）
第１の実施形態の会議システムでは、情報抽出処理として音声認識を用いており、第１の音声データから字幕データを生成している。ここで、情報抽出処理は音声認識に限定されない。例えば、情報抽出処理として音声認識のみでなく英日の自動翻訳を用いて日本語の字幕データを生成してもよい。また、米国側の第１の音声データから感情を認識するための情報処理を適用し、喜怒哀楽や、否定肯定を示す画像を日本側に表示してもよい。この場合、遅延情報映像生成部１２３は、感情認識によって生じた遅延量などの遅延情報を視覚化する。

また、第１の実施形態の会議システムでは、遠隔サーバーに会議支援装置１２を備えているが、会議支援装置１２の機能を端末１０もしくは端末１１に持たせてもよい。この場合、遠隔サーバーは不要になり、米国側および日本側の端末が通信部を介して直接データのやり取りをすることになる。さらに、会議に参加する端末は３台以上であってもよい。

（変形例２）
第１の実施形態における視覚化手法の変形例について説明する。この変形例では、日本側の端末１１が参加者の映像を撮影する映像入力部（図示なし）を備える。そして、遅延情報映像生成部１２３は、映像入力部で撮影された映像に字幕データを重畳した映像を遅延情報映像として生成する。図１１に表示例を示す。人物映像１１００は日本側の参加者の映像であり、字幕データは前述したカラオケ型の字幕形式で表示される。また、タイムバー形式で遅延量も表示している。３台以上の端末で行う会議においては、端末によって遅延が異なる可能性がある。そのような場合には、カラオケ型の字幕形式において、同一の字幕データに複数の境界線が表示され、境界線ごとに端末を特定する名前が付加されるような視覚化手法も考えられる。さらに、タイムバーを複数個表示してもよい。

（第２の実施形態）
図１２は、第２の実施形態にかかる会議システムの構成を示すブロック図である。第２の実施形態が第１の実施形態と異なる点は、遠隔サーバーに備えられた会議支援装置１２に音量制御部１２４が追加されていることである。この音量制御部１２４は、遅延部１２１が出力する遅延情報に応じて、米国側に送信する日本側の音声データ（第２の音声データ）の音量を制御している。

このように構成された第２の実施形態にかかる会議システムの動作について説明する。

図１３は、第２の実施形態において、米国側の端末１０に音声認識によって生じた遅延量などの遅延情報を表示する際の処理フローを表している。ステップＳ２１、Ｓ２２およびＳ２４は、第１の実施形態にかかる会議システムにおけるステップＳ７、Ｓ８およびＳ９とそれぞれ同様なのでその説明を省略する。

音量制御部１２４は、遅延部１２１が出力する遅延情報を利用して、米国側に送信する第２の音声データの音量を制御する（ステップＳ２３）。日本側が著しく遅れた状態で米国側の第２の音声データを聞いているとき、これに対する日本側の参加人の無意識の反応（例えば、「ふむ」とか「ああ」などの相槌）を米国側に伝えると、米国側の参加者は混乱してしまう。そこで、音量制御部１２４は、遅延情報に含まれた現在の遅延量があらかじめ定められた秒数以上であれば、米国側に伝える第２の音声データの音量（大きさ）を０にすることにより、不要な音声データが米国側で再生されることを防止する。現在の遅延量は、前述のタイムバー形式による遅延量の表示で用いた（５）式で計算できる。例えば、遅延量が１０秒以上の時、第２の音声データの音量を０にするなどの制御が可能である。また、音量を０にするのではなく、遅延量に反比例して減少させるよう制御することもできる。

このように、第２の実施形態にかかる会議システムでは、音声認識によって日本側に生じる遅延量に応じて米国側に送信する第２の音声データの音量を制御している。これにより、遅延を伴った不要な音声データが端末１０から再生されることを防ぐことができ、会議をスムーズに進行できる。

以上述べた少なくとも一つの実施形態の会議支援装置によれば、会議の参加者が、情報抽出処理によって会議の相手側に生じる遅延量などの遅延情報を把握できる。これにより、会議の参加者が相手側の状況を確認でき、会議をスムーズに進行できる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０端末
１１端末
１２会議支援装置（遠隔サーバー）
１００第１音声入力部
１０１第２音声再生部
１０２第２映像表示部
１０３通信部
１１０第１音声再生部
１１１第１映像表示部
１１２第２音声入力部
１１３通信部
１２０音声認識部
１２１遅延部
１２３遅延情報映像生成部
１２５通信部
１２６通信部
１３０制御部
１３１記憶部
１３２外部記憶部
１３３操作部
１３４通信部
１３５バス
１３６音声入力部
１３７音声再生部
１３９映像表示部
９００境界線
１０００タイムバー
１００１文字列
１１００人物映像

Claims

少なくとも２つ以上の端末間で行う会議を支援する会議支援装置であって、
一方の端末が取得した第１の音声データに対する情報抽出処理によって生じた遅延を前記第１の音声データに適用する遅延手段と、
当該遅延手段によって前記第１の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段と、
を備える会議支援装置。
前記情報抽出処理が音声認識処理であり、
前記遅延手段が前記音声認識処理の字幕データの生成によって生じた遅延を前記第１の音声データに適用する請求項１記載の会議支援装置。
前記遅延情報映像生成手段が前記音声認識手段によって生成された字幕データを取得し、前記字幕データの映像に前記第１の音声データの再生箇所を表示する映像を遅延情報映像として生成する請求項２記載の会議支援装置。
前記遅延情報映像生成手段で生成された遅延情報映像が前記第１の音声データに加えられた遅延量の時間変化を表す映像である請求項１記載の会議支援装置。
前記遅延情報映像生成手段で生成された遅延情報映像が前記第１の音声データに適用された遅延量を所定区間の長さで表示する請求項４記載の会議支援装置。
前記第１の音声データを取得した端末とは異なる端末が取得した第２の音声データの音量を、前記第１の音声データに適用した遅延量に応じて減少させる音量制御手段を、さらに備える請求項１記載の会議支援装置。
少なくとも２つ以上の端末間で行う会議を支援する会議支援方法であって、
一方の端末が取得した第１の音声データに対する情報抽出処理によって生じた遅延を前記第１の音声データに適用する遅延工程と、
当該遅延工程によって前記第１の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成工程と、
を備える会議支援方法。