JP2012129950A - 会議支援装置および会議支援方法 - Google Patents

会議支援装置および会議支援方法 Download PDF

Info

Publication number
JP2012129950A
JP2012129950A JP2010282152A JP2010282152A JP2012129950A JP 2012129950 A JP2012129950 A JP 2012129950A JP 2010282152 A JP2010282152 A JP 2010282152A JP 2010282152 A JP2010282152 A JP 2010282152A JP 2012129950 A JP2012129950 A JP 2012129950A
Authority
JP
Japan
Prior art keywords
delay
data
information
conference
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010282152A
Other languages
English (en)
Other versions
JP5727777B2 (ja
Inventor
Akitsugu Ueno
晃嗣 上野
Nobuhiro Shimogoori
信宏 下郡
Tomoo Ikeda
朋男 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010282152A priority Critical patent/JP5727777B2/ja
Priority to US13/232,314 priority patent/US8553855B2/en
Publication of JP2012129950A publication Critical patent/JP2012129950A/ja
Application granted granted Critical
Publication of JP5727777B2 publication Critical patent/JP5727777B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/62Establishing a time schedule for servicing the requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】情報抽出処理によって会議の相手側に生じる遅延に関する情報を表示することによって、相手側の状況を分かりやすくし、会議の進行をスムーズにすることができる会議支援装置を提供することである。
【解決手段】実施形態の会議支援装置は、少なくとも2つ以上の端末間で行う会議を支援する会議支援装置であって、一方の端末が取得した第1の音声データに対する情報抽出処理によって生じた遅延を前記第1の音声データに適用する遅延手段と、当該遅延手段によって前記第1の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段とを備えている。
【選択図】図1

Description

本発明の実施形態は、会議支援装置および会議支援方法に関する。
参加者の発言から字幕データを生成することによって、発言内容の理解を支援する会議支援装置の開発が進められている。例えば、複数の話者の発言を音声認識することにより、自動的に字幕データを生成するシステムがある。また、映像/音声に対する字幕データの表示タイミングを補正することによって、音声認識などの情報抽出処理によって生じる字幕データの遅延をなくす方法が提案されている。さらに、話者の声を復唱者が復唱した音声を認識し、話者の映像に遅延を適用して字幕データとともに表示する方法や、データ通信によって生じる遅延量を画面で確認しながら会議を行う方法が提案されている。
しかしながら、これらの技術では、参加者が音声認識などの情報抽出処理によって会議の相手側に生じる遅延量を把握することができなかった。
特開2005−286969号公報 特開2003−345379号公報 特開2008−61060号公報
Mike Wald and Keith Bain, "Using Speech Recognition for Real-Time Captioning of Multiple Speakers," Multimedia, IEEE Computer Society, 2008 Oct.-Dec, Vol.15, No.4, p.56-57
発明が解決しようとする課題は、会議の相手側の状況を分かりやすくし、会議の進行をスムーズにすることができる会議支援装置を提供することである。
実施形態の会議支援装置は、少なくとも2つ以上の端末間で行う会議を支援する会議支援装置であって、一方の端末が取得した第1の音声データに対する情報抽出処理によって生じた遅延を前記第1の音声データに適用する遅延手段と、当該遅延手段によって前記第1の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段とを備えている。
第1の実施形態の会議システムの構成を示すブロック図。 第1の実施形態の会議支援装置のハードウェア構成を示す図。 第1の実施形態の会議システムの処理の流れを示すフローチャート。 第1の実施形態の会議支援装置の第1の音声データを示す図。 第1の実施形態の会議支援装置の音声認識部の処理結果を示す図。 第1の実施形態の会議支援装置の遅延再生データを示す図。 第1の実施形態の会議システムの処理の流れを示すフローチャート。 第1の実施形態の会議支援装置の遅延情報を示す図。 第1の実施形態の会議支援装置のカラオケ型の字幕形式の遅延情報映像を示す図。 第1の実施形態の会議支援装置のタイムバー形式の遅延情報映像を示す図。 第1の実施形態の会議支援装置のカラオケ型の字幕形式の遅延情報映像を示す図。 第2の実施形態の会議システムの構成を示すブロック図。 第2の実施形態の会議システムの処理の全体の流れを示すフローチャート。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態にかかる会議システムの構成を示すブロック図である。第1の実施形態にかかる会議システムは、日本と米国の間で行う遠隔電話会議を想定している。この会議システムでは、米国側に設けられた端末10と、日本側に設けられた端末11とが、例えば日本側に設けられ会議支援装置12を備える遠隔サーバーに、それぞれ通信回線を介して接続する。ここでは、米国側の参加者は英語を喋るものとし、会議支援装置12が米国側での発言を音声認識して得た結果を英語の字幕データとして端末11に表示させることで、日本側の参加者を支援している。このとき、会議支援装置12は、音声認識によって生じた遅延の分だけ音声データに遅延を適用して端末11に提供する。これにより、日本側端末での音声データと字幕データの同期ずれを補正できる。また、会議支援装置12は、音声認識により生じた遅延量を示す映像を生成して端末10へ提供し、端末10は、米国側の音声データに適用された遅延に関する情報を映像で表示する。これにより、日本側で生じている遅延量などの情報を米国側の参加者が把握できるように支援している。なお、本実施形態では、日本側の参加者も英語を喋るものとし、米国側の端末10では日本側の端末11に入力された日本側の音声がそのまま再生される。
米国側の端末10は、第1音声入力部100と、第2音声再生部101と第2映像表示部102と、通信部103とを備える。日本側の端末11は、第1音声再生部110と、第1映像表示部111と、第2音声入力部112と、通信部113とを備える。遠隔サーバーに備えられた会議支援装置12は、音声認識部120と、遅延部121と、遅延情報映像生成部123と、通信部125と、通信部126とを備える。
米国側の端末10、日本側の端末11および会議支援装置12は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部130と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部131と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部132と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部133と、外部装置との通信を制御する通信部134と、これらを接続するバス135とを備えている。さらに、端末10および端末11には、音声が入力されるマイクなどの音声入力部136と、音声を再生するスピーカなどの音声再生部137と、映像を表示するディスプレイなどの映像表示部139とが有線又は無線により各々接続されている。
このようなハードウェア構成において、制御部130がROM等の記憶部131や外部記憶部132に記憶された各種プログラムを実行することにより以下の機能が実現される。
まず、米国側の音声データを字幕データとともに日本側の端末11で再生する機能について説明する。図1において、米国側の端末10の第1音声入力部100は、マイク(図示せず)を有しており、米国側での参加者の発言を第1の音声データとして取得する。取得した第1の音声データは、通信部103を介して遠隔サーバーに備えられた会議支援装置12に送信される。音声認識部120は、通信部126を介して得た第1の音声データに対して音声認識を行い、米国側での参加者の発言の英語の字幕データを生成する。音声認識部120が認識対象とする言語は、参加者が事前に設定できる。遅延部121は、音声認識によって生じた遅延を第1の音声データに適用して、字幕データと第1の音声データの同期ずれを補正する。遅延は、音声データを一旦バッファリングしておき、バッファリングされた音声データとこれに対応する字幕データとのペアを合成することで実現する。ここで、音声認識によって生じた遅延量は、音声認識部120の処理結果から計算する。同期ずれを補正した第1の音声データおよび字幕データは、通信部125を介して端末11に送信される。そして、第1の音声データは第1音声再生部110のスピーカ(図示せず)から再生され、字幕データは第1映像表示部111のディスプレイ(図示せず)に表示される。なお、本実施形態では、各端末間の通信によって生じる遅延は考慮しない。
次に、米国側の端末10に音声認識によって生じた遅延に関する情報(遅延情報)を表示する機能について説明する。遠隔サーバーに備えられた会議支援装置12の遅延部121は、第1の音声データに適用した遅延量を含む遅延情報を抽出する。遅延情報映像生成部123は、遅延部121で抽出された遅延情報を視覚化した遅延情報映像を生成する。この遅延情報映像は、通信部126を介して端末10に送信され、第2映像表示部102のディスプレイ(図示せず)に表示される。また、会議支援装置12は、第2音声入力部112で取得して第2の音声データを端末10に送信して、第2音声再生部101のスピーカ(図示せず)から再生させる。
このように構成された第1の実施形態にかかる会議システムの動作について説明する。本実施形態の会議システムは、米国側で発言された第1の音声データを音声認識して字幕データを生成する。そして、音声認識により生じる遅延を第1の音声データに適用して日本側で再生することにより、第1の音声データと字幕データとの同期ずれを補正する。また、第1の音声データに適用した遅延量を米国側に映像で表示することにより、日本側で生じている遅延量などの遅延情報を米国側の参加者に知らせる。
図3は、米国側の第1の音声データを字幕データとともに端末11で再生する際の処理フローを表している。端末10の第1音声入力部100は、参加者の発言を第1の音声データとして取得する。ここで、第1の音声データは、アナログからディジタル形式に変換され、一定時間ごとに時刻情報が付与される(ステップS1)。図4に、時刻情報が付与された第1の音声データを示す。同図では、時刻情報として会議開始からの経過時間を用いており、10秒ごとに区切って時刻情報を付与している。なお、時刻情報には標準時など任意の表現を用いることもできる。
音声認識部120は、第1音声入力部100が取得した第1の音声データを音声認識して字幕データを生成する(ステップS2)。この音声認識部120は、認識結果の文字列である英語の字幕データと、認識された第1の音声データの発言開始時刻、発言終了時刻および認識終了時刻を処理結果として出力する。図5に、音声認識部120が生成した処理結果を示す。この処理結果には、字幕ID、発言開始時刻、発言終了時刻、認識終了時刻および字幕データ(認識結果を示す文字列)が含まれる。字幕IDは、字幕データを特定するためのユニークな識別番号である。発言開始時刻および発言終了時刻は、各字幕データに対応する発言の開始時刻と終了時刻を会議開始後からの経過時間で表している。字幕データは、発言の内容を認識した結果を表す文字列である。この例では、会議開始後3秒から8秒までの間に、「Ok, guys. Let's begin.」という発言が米国側で行われたことを表している。なお、発言開始時刻および発言終了時刻は、音声認識の音声区間検出機能によって特定できる。認識終了時刻は、各発言に対する認識処理が終了した時刻を会議開始後からの経過時間で表している。図5では、「Ok, guys. Let's begin.」という発話に対する認識処理が会議開始後9秒に終了したことを表している。
遅延部121は、第1の音声データと字幕データのペアを合成することによって、音声認識によって生じた第1の音声データと字幕データとの同期ずれを補正する(ステップS3)。より具体的には、遅延部121は、第1音声入力部100で取得した第1の音声データと音声認識部120の処理結果(字幕ID、発言開始時刻、発言終了時刻、認識終了時刻および字幕データ)とを照合し、遅延再生データを合成する。図6に、合成された遅延再生データの例を示す。遅延再生データは、字幕IDに対応付けて、遅延部121に保持された第1の音声データと、音声認識部120で生成された字幕データとを含む。また、遅延再生データは、日本側で第1の音声データを再生する際の再生開始時刻および再生終了時を有する。再生開始時刻は、音声データの再生を開始する時刻を会議開始後からの経過時間で表している。本実施形態では、再生開始時刻を音声認識部120の処理結果に含まれる認識終了時刻と同じ値に設定する。つまり、各字幕IDに対応する音声データの再生を音声認識部120の認識処理終了直後に開始する。再生終了時刻は、各音声データの再生が終了する時刻を会議開始後からの経過時間で表している。再生速度を変換する場合を除き、再生終了時刻は、再生開始時刻に各字幕IDに対応する音声データの長さを加算した値となる。音声データの長さは、音声認識部120の処理結果の再生開始時刻と再生終了時刻との差分から計算できる。第1の音声データに遅延を適用する方法および再生速度の変換については後述する。図5と図6を比較すると、例えば、字幕ID1の「Mike, please tell us …」という発言は、米国側では会議開始後11秒から発言されているにも係わらず、日本側では会議開始後18秒から再生されることが分かる。
遅延部121における第1の音声データと字幕データの合成は、第1の音声データに遅延を適用することに相当する。合成は、第1の音声データを所定時間バッファリングすることで実現できる。まず、遅延部121は、音声認識部120から処理結果を取得するまで、取得した第1の音声データをバッファリングする。そして、音声認識部120から各発言に対する処理結果を取得後、処理結果に含まれる発言開始時刻および認識終了時刻を参照して再生開始時刻を計算する。そして、バッファリングされた音声データから各発言に対応する区間の音声データを切り出し、切り出された音声データと字幕データとを含む遅延再生データを合成し、その再生開始時刻を音声認識に要した時間を考慮して定める。本実施形態では、再生開始時刻は認識終了時刻と同時刻に設定されることから、音声認識部120の認識処理終了直後に各発言の遅延再生データが遅延部121から出力される。
次に、第1の音声データの再生速度の変換について説明する。遅延部121は、音声認識によって生じた遅延量を少なくするために、第1の音声データの再生速度を1.3倍速のように早くすることができる。再生速度の変換は、家庭用HDDレコーダのタイムシフト再生や追っかけ再生に用いられる話速変換技術で実現できる。例えば図6では、字幕ID2の発言は再生速度が11/9倍速に設定されており、日本側で再生される際、音声区間長が11秒(図5の発言開始時刻から発言終了時刻までの長さ)から9秒(図6の再生開始時刻から再生終了時刻までの長さ)に短縮される。また、遅延部121は、各発言の開始から終了までの区間に含まれる無音を削除することで遅延量を少なくすることもできる。無音区間の削除は、発言開始から発言終了までの区間における音声データのパワーを計算し、このパワーが閾値より小さくなる区間を削除することで実現できる。この他にも遅延部121は、第1の音声データの再生速度を0.8倍速のように遅くすることにより、日本側における英語の聴取性を向上させることもできる。
端末11の第1音声再生部110は、遅延部121で合成された遅延再生データから第1の音声データを抽出してスピーカから再生する(ステップS4)。第1映像表示部111は、遅延部121で合成された遅延再生データから字幕データを抽出してディスプレイに表示する(ステップS4)。以上の処理により、第1の実施形態にかかる会議システムは、米国側の第1の音声データを字幕データとともに同期した状態で日本側の端末11から再生できる。
図7は、米国側の端末10に音声認識によって生じた遅延量を表示する際の処理フローを表している。遅延部121は、第1の音声データに適用した遅延量を含む遅延情報を抽出する(ステップS7)。図8に、遅延再生データから抽出された遅延情報の例を示す。ここで、遅延情報は、開始時遅延量、終了時遅延量を含み、さらに字幕ID、再生開始時刻、再生終了時刻、発言開始時刻、発言終了時刻および字幕データも含む。このうち、再生開始時刻および再生終了時刻は、遅延部121で合成された遅延再生データから直接得ることができる。字幕ID、字幕データ、発言開始時刻および発言終了時刻は、遅延部121に入力された音声認識部120の処理結果(図5)から得ることができる。また、開始時遅延量および終了時遅延量は、それぞれ下記の(1)式および(2)式から計算できる。
開始時遅延量 = 再生開始時刻 − 発言開始時刻 …(1)
終了時遅延量 = 再生終了時刻 − 発言終了時刻 …(2)
このような抽出方法をとることにより、音声認識による遅延量が字幕データごとに増減しても正しい値を計算できる。また、追っかけ再生など音声の再生速度を変換するような場合でも正しい値を計算できる。本実施形態では、遅延情報として遅延量以外の情報を含んでいる。しかし、後述するタイムバー形式の遅延情報映像の生成ように、遅延情報映像生成部123において遅延量以外の情報を必要としない場合は、遅延量のみを遅延情報として抽出すればよい。
遅延情報映像生成部123は、米国側の参加者向けに遅延部121で抽出した遅延情報を視覚化した遅延情報映像を生成する(ステップS8)。遅延情報映像は静止画像でも動画像でもよい。遅延情報映像生成部123の視覚化手法としては、例えば、図9に示すカラオケ型の字幕形式がある。これは米国側の参加者にとっては、「日本側で現在再生されている過去の自分の発言内容」を示している。より具体的には、音声認識部120の処理結果(字幕データ)の映像に第1の音声データの再生箇所を表示している。図9における境界線900が、日本側で現在再生されている第1の音声データの再生箇所を表す。この境界線900は、遅延情報に格納された字幕データと再生開始時刻と、再生終了時刻と、現在の時刻情報(会議開始時からの経過時間)とから容易に生成できる。各発話に対する境界線900の表示箇所は、下記の(3)式で計算される音声データの再生割合に応じて制御する。
(現在の時刻情報−再生開始時刻)/(再生終了時刻−再生開始時刻)×100 …(3)
例えば、図8のID1に対応する第1の音声データの再生中において、現在の時刻情報が21秒である場合、表示した字幕文字列の左から下記の(4)式で示される割合の箇所に境界線900が表示される。
(21−18)/(23−18)×100 = 60.0% …(4)
図9における境界線900は、現在の時刻情報とともに右側にシフトする。同図では、境界線900の左右で字幕データ中の文字列およびその背景の色を変えているが、境界線900が無いもの、色を変えのないもの、境界線900の左右で文字の大きさが異なるもの、などの視覚化手法も考えられる。このように、遅延情報映像生成部123は、遅延部121が各発言に対する遅延再生データを出力する毎に、その発言に対するカラオケ型の字幕形式の動画像を生成する。
また、別の視覚化手法として、図10に示すタイムバー形式がある。同図のタイムバー1000は、遅延情報のうち現在の遅延量をタイムバーの長さ(左辺から右辺までの長さ)で表している。タイムバーの左辺の位置は固定されており、遅延量の秒数に応じてタイムバーの長さが増減(右辺の位置が変化)する。現在の遅延量は、下記の(5)式により計算できる。
開始時遅延量−((現在の時刻情報−再生開始時刻)/(再生終了時刻−再生開始時刻))×(開始時遅延量−終了時遅延量) …(5)
図8のID2に対応する第1の音声データの再生中において、現在の時刻情報が38秒である場合、遅延量は下記の(6)式により計算できる。
14−((38−31)/(40−31))×(14−12)=12.44…(秒)…(6)
図10の文字列1001は、現在の遅延量を秒数で表示したものである。
なお、本実施形態では、遅延情報映像生成部123が字幕データなどの音声認識の処理結果を遅延部121から取得しているが、これらの処理結果は音声認識部120から直接取得してもよい。
最後に、第2映像表示部102は、遅延情報映像生成部123によって生成された遅延量を表す遅延情報映像を米国側のディスプレイに表示する(ステップS9)。また、第2音声再生部101は、第2の音声データとして取得した日本側の参加者の発言を米国側のスピーカから再生する(ステップ9)。以上の処理により、第1の実施形態にかかる会議システムは、端末10に音声認識によって生じた遅延量などの遅延情報を表示できる。
このように、第1の実施形態にかかる会議システムは、米国側の参加者が、音声認識によって日本側に生じる遅延量などの遅延情報を端末10に表示された遅延情報映像から把握できる。これにより、日本側の状況を確認でき、会議をスムーズに進行できる。
また、第1の実施形態にかかる会議システムでは、日本側の参加者が現在聞いている発言の字幕データが端末10に表示される。これにより、米国側の参加者は、自分のどの発言に対して日本側が反応しているのか等の遅延に関する情報を把握でき、会議をスムーズに進行できる。
(変形例1)
第1の実施形態の会議システムでは、情報抽出処理として音声認識を用いており、第1の音声データから字幕データを生成している。ここで、情報抽出処理は音声認識に限定されない。例えば、情報抽出処理として音声認識のみでなく英日の自動翻訳を用いて日本語の字幕データを生成してもよい。また、米国側の第1の音声データから感情を認識するための情報処理を適用し、喜怒哀楽や、否定肯定を示す画像を日本側に表示してもよい。この場合、遅延情報映像生成部123は、感情認識によって生じた遅延量などの遅延情報を視覚化する。
また、第1の実施形態の会議システムでは、遠隔サーバーに会議支援装置12を備えているが、会議支援装置12の機能を端末10もしくは端末11に持たせてもよい。この場合、遠隔サーバーは不要になり、米国側および日本側の端末が通信部を介して直接データのやり取りをすることになる。さらに、会議に参加する端末は3台以上であってもよい。
(変形例2)
第1の実施形態における視覚化手法の変形例について説明する。この変形例では、日本側の端末11が参加者の映像を撮影する映像入力部(図示なし)を備える。そして、遅延情報映像生成部123は、映像入力部で撮影された映像に字幕データを重畳した映像を遅延情報映像として生成する。図11に表示例を示す。人物映像1100は日本側の参加者の映像であり、字幕データは前述したカラオケ型の字幕形式で表示される。また、タイムバー形式で遅延量も表示している。3台以上の端末で行う会議においては、端末によって遅延が異なる可能性がある。そのような場合には、カラオケ型の字幕形式において、同一の字幕データに複数の境界線が表示され、境界線ごとに端末を特定する名前が付加されるような視覚化手法も考えられる。さらに、タイムバーを複数個表示してもよい。
(第2の実施形態)
図12は、第2の実施形態にかかる会議システムの構成を示すブロック図である。第2の実施形態が第1の実施形態と異なる点は、遠隔サーバーに備えられた会議支援装置12に音量制御部124が追加されていることである。この音量制御部124は、遅延部121が出力する遅延情報に応じて、米国側に送信する日本側の音声データ(第2の音声データ)の音量を制御している。
このように構成された第2の実施形態にかかる会議システムの動作について説明する。
図13は、第2の実施形態において、米国側の端末10に音声認識によって生じた遅延量などの遅延情報を表示する際の処理フローを表している。ステップS21、S22およびS24は、第1の実施形態にかかる会議システムにおけるステップS7、S8およびS9とそれぞれ同様なのでその説明を省略する。
音量制御部124は、遅延部121が出力する遅延情報を利用して、米国側に送信する第2の音声データの音量を制御する(ステップS23)。日本側が著しく遅れた状態で米国側の第2の音声データを聞いているとき、これに対する日本側の参加人の無意識の反応(例えば、「ふむ」とか「ああ」などの相槌)を米国側に伝えると、米国側の参加者は混乱してしまう。そこで、音量制御部124は、遅延情報に含まれた現在の遅延量があらかじめ定められた秒数以上であれば、米国側に伝える第2の音声データの音量(大きさ)を0にすることにより、不要な音声データが米国側で再生されることを防止する。現在の遅延量は、前述のタイムバー形式による遅延量の表示で用いた(5)式で計算できる。例えば、遅延量が10秒以上の時、第2の音声データの音量を0にするなどの制御が可能である。また、音量を0にするのではなく、遅延量に反比例して減少させるよう制御することもできる。
このように、第2の実施形態にかかる会議システムでは、音声認識によって日本側に生じる遅延量に応じて米国側に送信する第2の音声データの音量を制御している。これにより、遅延を伴った不要な音声データが端末10から再生されることを防ぐことができ、会議をスムーズに進行できる。
以上述べた少なくとも一つの実施形態の会議支援装置によれば、会議の参加者が、情報抽出処理によって会議の相手側に生じる遅延量などの遅延情報を把握できる。これにより、会議の参加者が相手側の状況を確認でき、会議をスムーズに進行できる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 端末
11 端末
12 会議支援装置(遠隔サーバー)
100 第1音声入力部
101 第2音声再生部
102 第2映像表示部
103 通信部
110 第1音声再生部
111 第1映像表示部
112 第2音声入力部
113 通信部
120 音声認識部
121 遅延部
123 遅延情報映像生成部
125 通信部
126 通信部
130 制御部
131 記憶部
132 外部記憶部
133 操作部
134 通信部
135 バス
136 音声入力部
137 音声再生部
139 映像表示部
900 境界線
1000 タイムバー
1001 文字列
1100 人物映像

Claims (7)

  1. 少なくとも2つ以上の端末間で行う会議を支援する会議支援装置であって、
    一方の端末が取得した第1の音声データに対する情報抽出処理によって生じた遅延を前記第1の音声データに適用する遅延手段と、
    当該遅延手段によって前記第1の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成手段と、
    を備える会議支援装置。
  2. 前記情報抽出処理が音声認識処理であり、
    前記遅延手段が前記音声認識処理の字幕データの生成によって生じた遅延を前記第1の音声データに適用する請求項1記載の会議支援装置。
  3. 前記遅延情報映像生成手段が前記音声認識手段によって生成された字幕データを取得し、前記字幕データの映像に前記第1の音声データの再生箇所を表示する映像を遅延情報映像として生成する請求項2記載の会議支援装置。
  4. 前記遅延情報映像生成手段で生成された遅延情報映像が前記第1の音声データに加えられた遅延量の時間変化を表す映像である請求項1記載の会議支援装置。
  5. 前記遅延情報映像生成手段で生成された遅延情報映像が前記第1の音声データに適用された遅延量を所定区間の長さで表示する請求項4記載の会議支援装置。
  6. 前記第1の音声データを取得した端末とは異なる端末が取得した第2の音声データの音量を、前記第1の音声データに適用した遅延量に応じて減少させる音量制御手段を、さらに備える請求項1記載の会議支援装置。
  7. 少なくとも2つ以上の端末間で行う会議を支援する会議支援方法であって、
    一方の端末が取得した第1の音声データに対する情報抽出処理によって生じた遅延を前記第1の音声データに適用する遅延工程と、
    当該遅延工程によって前記第1の音声データに適用された遅延に関する情報を視覚化した遅延情報映像を生成する遅延情報映像生成工程と、
    を備える会議支援方法。
JP2010282152A 2010-12-17 2010-12-17 会議支援装置および会議支援方法 Active JP5727777B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010282152A JP5727777B2 (ja) 2010-12-17 2010-12-17 会議支援装置および会議支援方法
US13/232,314 US8553855B2 (en) 2010-12-17 2011-09-14 Conference support apparatus and conference support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010282152A JP5727777B2 (ja) 2010-12-17 2010-12-17 会議支援装置および会議支援方法

Publications (2)

Publication Number Publication Date
JP2012129950A true JP2012129950A (ja) 2012-07-05
JP5727777B2 JP5727777B2 (ja) 2015-06-03

Family

ID=46233844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010282152A Active JP5727777B2 (ja) 2010-12-17 2010-12-17 会議支援装置および会議支援方法

Country Status (2)

Country Link
US (1) US8553855B2 (ja)
JP (1) JP5727777B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151533A (ja) * 2017-03-14 2018-09-27 株式会社リコー 通信端末、通信プログラム及び通信方法
JP2020017897A (ja) * 2018-07-26 2020-01-30 株式会社リコー 端末装置、会議システム、端末装置の制御方法、及びプログラム
WO2021255831A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 送信装置、コミュニケーション方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140076056A (ko) * 2012-12-12 2014-06-20 한국전자통신연구원 음성 기반 캡차 방법 및 장치
US10224057B1 (en) * 2017-09-25 2019-03-05 Sorenson Ip Holdings, Llc Presentation of communications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002010138A (ja) * 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
US20080077390A1 (en) * 2006-09-27 2008-03-27 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for translating speech, and terminal that outputs translated speech

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6816468B1 (en) * 1999-12-16 2004-11-09 Nortel Networks Limited Captioning for tele-conferences
JP2003345379A (ja) 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
JP2005286969A (ja) 2004-03-31 2005-10-13 Sharp Corp 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
JP2008061060A (ja) 2006-09-01 2008-03-13 Matsushita Electric Ind Co Ltd 会議システム
US7991801B2 (en) * 2008-06-10 2011-08-02 International Business Machines Corporation Real-time dynamic and synchronized captioning system and method for use in the streaming of multimedia data
US8330864B2 (en) * 2008-11-02 2012-12-11 Xorbit, Inc. Multi-lingual transmission and delay of closed caption content through a delivery system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002010138A (ja) * 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
US20080077390A1 (en) * 2006-09-27 2008-03-27 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for translating speech, and terminal that outputs translated speech
JP2008083376A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151533A (ja) * 2017-03-14 2018-09-27 株式会社リコー 通信端末、通信プログラム及び通信方法
JP2020017897A (ja) * 2018-07-26 2020-01-30 株式会社リコー 端末装置、会議システム、端末装置の制御方法、及びプログラム
JP7087779B2 (ja) 2018-07-26 2022-06-21 株式会社リコー 端末装置、会議システム、端末装置の制御方法、及びプログラム
WO2021255831A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 送信装置、コミュニケーション方法、及びプログラム
JPWO2021255831A1 (ja) * 2020-06-16 2021-12-23
JP7279861B2 (ja) 2020-06-16 2023-05-23 日本電信電話株式会社 送信装置、コミュニケーション方法、及びプログラム

Also Published As

Publication number Publication date
US20120154514A1 (en) 2012-06-21
JP5727777B2 (ja) 2015-06-03
US8553855B2 (en) 2013-10-08

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US20090150151A1 (en) Audio processing apparatus, audio processing system, and audio processing program
JP5727777B2 (ja) 会議支援装置および会議支援方法
JP2013521523A (ja) 聴覚障害者向けに音声言語を手話に翻訳するシステム
CN110740283A (zh) 一种基于视频通讯的语音转文字方法
WO2016202176A1 (zh) 一种媒体文件合成方法、装置和设备
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2016091057A (ja) 電子機器
JP2021090172A (ja) 字幕データ生成装置、コンテンツ配信システム、映像再生装置、プログラム及び字幕データ生成方法
TW202236084A (zh) 處理語音音頻流中斷的系統和方法
JP2013005423A (ja) 映像再生装置、映像再生方法およびプログラム
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5777233B1 (ja) 動画生成装置及び動画生成方法
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP6802264B2 (ja) 表示装置、出力装置、および情報表示方法
JP5391175B2 (ja) 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム
JP4662228B2 (ja) マルチメディア記録装置および発言録作成装置
JP7279861B2 (ja) 送信装置、コミュニケーション方法、及びプログラム
JP7051987B2 (ja) 出力装置および情報表示方法
JP2006157692A (ja) 映像再生方法及び装置及びプログラム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP2010093614A (ja) 映像信号再生装置
JP2010141754A (ja) 留守番電話システム、留守番電話サービスサーバ、受話者端末及び留守番電話サービス方法
JP2016170767A (ja) 動画生成装置及び動画生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141028

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150403

R151 Written notification of patent or utility model registration

Ref document number: 5727777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350