JP4271224B2

JP4271224B2 - 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム

Info

Publication number: JP4271224B2
Application number: JP2006263116A
Authority: JP
Inventors: 学永尾
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2009-06-03
Anticipated expiration: 2026-09-27
Also published as: JP2008083376A; US8078449B2; US20080077390A1; CN101155291A

Description

この発明は、複数の利用者の音声を翻訳して他の利用者に提供する音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置に関するものである。

近年の情報技術の進展に伴い、複数の参加者が会議や打合せなどのコミュニケーションを行う電子会議システムが広く利用されている。このような電子会議システムでは、音声によるコミュニケーションを中心とした電話会議システムのほか、参加者の映像を音声とともに提供可能なテレビ会議システムも利用されている。

また、国際会議などのように異なる言語を母語とする参加者が存在する場合は、参加者の発話を翻訳して他の参加者に提供するために、音声を認識して翻訳処理を行う音声翻訳技術が利用されている。

一方、テレビ会議システムに音声翻訳技術を適用した場合、音声処理に時間がかかることにより、出力する映像と音声との同期がとれなくなるという問題がある。

これに対し、特許文献１では、同時に入力された映像信号と音声信号のうち、音声信号に対して音声翻訳処理を行い、音声合成波形が生成されたときに、映像信号の時間長が音声合成波形の時間長に応じた長さになるように映像信号に対して時間軸圧縮伸長処理を行い、処理後の映像信号と、音声翻訳処理によって生成された音声合成波形とを同時に出力させる技術が提案されている。

特開２００１−２２４００２号公報

しかしながら、特許文献１の方法では、音声翻訳に伴う音声と動画の時間的なずれは解消されているが、遠隔会議に参加している参加者間のずれは解消されていない。すなわち、翻訳対象言語が複数存在する場合には、各言語で翻訳処理の進行状況や、翻訳結果の出力順序が異なるため、ある参加者の発話に対する翻訳結果の出力のタイミングが、出力相手となる参加者によって大きく異なる可能性がある。

さらに、言語が異なるため翻訳した音声を聴いている参加者と、発話者と同一の言語を母語とするため発話そのものを聴いている参加者との間では、発声内容を聴くまでの時間に特に大きなずれが生じうる。このため、翻訳した音声を聴いている参加者が会議の進行についていくことが困難となる場合があった。

本発明は、上記に鑑みてなされたものであって、各参加者に発話内容を出力する時間差を最小限にすることができる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、ネットワークを介して複数の端末装置に接続可能な音声翻訳装置であって、前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、前記端末装置から音声を受信する受信手段と、受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手段と、出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる音声翻訳方法および音声翻訳プログラムである。

本発明によれば、すべての言語の翻訳音声が揃った時点で各参加者の端末装置に音声を出力することができるため、各参加者に発話内容を出力する時間差を最小限にすることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置の最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声翻訳装置は、翻訳元の音声の任意の音声区間についての翻訳音声がすべて揃うまでは翻訳音声を記憶しておき、すべての言語の翻訳音声が揃った時点で音声を出力するものである。

ここで、翻訳音声とは、入力された音声を翻訳して音声合成して出力された音声をいう。また、音声区間とは、入力された音声または出力された翻訳音声の一部を表すための情報をいう。音声区間の始端と終端を定義するための時刻には、例えば音声翻訳装置が動作を始めてからの経過時刻を利用する。この他、世界標準時を用いるように構成してもよい。

音声区間は、“［ｘ、ｙ）”の形式で表す。これは、ｘを始端とし、ｙを終端とする音声区間を意味する。なお、記号“［”は、その後に記載されたｘを音声区間に含むことを意味し、記号“）”は、その前に記載されたｙを音声区間に含まないことを意味する。

また、音声区間に対して、非音声区間という用語を用いる場合がある。非音声区間とは、音声翻訳装置が受信した音声のうち、音声翻訳に使用されない音声の区間をいう。非音声区間は、主に無音や雑音が存在する区間である。

音声翻訳装置が受信した翻訳元の音声のうち、音声翻訳に使用された音声区間を特に入力音声区間といい、翻訳音声の音声区間を特に出力音声区間という場合がある。

また、受信した音声を上述のように「翻訳元の音声」という場合のほか、「出力音声の生成元の音声」という場合がある。これは、発話者と同一の言語を母語とする他の参加者に対して受信した音声をそのまま出力する場合のように、音声翻訳をせずに直接出力する音声を含ませるためである。したがって、出力音声には、翻訳音声と、生成元の音声をそのまま出力した音声とを含む。

図１は、第１の実施の形態にかかる音声翻訳装置１００を含む会議システムの構成を示す説明図である。同図に示すように、本会議システムは、音声翻訳装置１００と、複数の端末装置２００ａ、２００ｂ、２００ｚ（以下、端末装置２００という。）とが、ネットワーク３００を介して接続されている。

端末装置２００は、各参加者に対して設置される音声の入出力を行う装置である。ネットワーク３００は、音声データを伝送可能なネットワークであれば、電話回線、インターネット、無線ネットワークなどあらゆるネットワークを適用できる。

ここで、本実施の形態における音声翻訳処理の概要について説明する。本実施の形態では、音声と動画の時間的なずれを解消するだけでなく、参加者間の時間のずれについても解消することを目的としている。

なお、上記問題は次の条件でのみ発生する。（１）参加者が３人以上、（２）参加者のうち少なくとも１人は異なる言語を話す、（３）翻訳には言語的な制約や処理速度によって遅延が発生する、（４）各参加者間の声は音声翻訳装置１００を通してのみ聞くことができる。

例えば、参加者が３人であり、そのうち１人だけが異なる言語を母語とする場合を想定する。同じ言語を話す参加者をＡ１とＡ２とし、異なる言語を話す参加者をＢ１とする。Ａ１が端末装置２００ａを使用して話すと、音声がネットワーク３００を通じて音声翻訳装置１００に送信される。

音声翻訳の必要のないＡ２に対しては、すぐに音声を伝送せずに記憶しておく。Ｂ１へ伝送する音声は音声翻訳を実行し音声に変換する。この変換が完了した後、Ａ２に対して記憶していた元の音声を伝送し、Ｂ１には音声翻訳後の音声を伝送する。

全員が異なる言語を話す場合も同様である。例えば、３人ともが異なる言語Ａ，Ｂ，Ｃをそれぞれ母語とする場合を想定する。Ａが端末装置２００ａを使用して話すと、音声翻訳装置１００が発話した音声を受け取り、Ｂの言語とＣの言語に変換する。ただし、この変換が同時に終了するわけではない。したがって、翻訳元の音声が同じである翻訳音声がすべて揃うまでは出力する音声を記憶しておき、すべての言語について出力音声が揃った時点で翻訳した音声を出力する。

このように、ある参加者に対して音声が出力可能になった場合であっても、他のすべての参加者に対して出力すべき音声が揃ってから音声を出力する。これにより、各参加者に発話内容を出力する時間差を最小限にし、参加者が会議の進行についていくことが困難となる問題を回避できる。

図２は、第１の実施の形態にかかる端末装置２００の構成を示すブロック図である。同図に示すように、端末装置２００は、音声入力部２０１と、送信部２０２と、第１受信部２０３と、音声出力部２０４と、を備えている。

音声入力部２０１は、入力された音声を電気信号（音声データ）に変換し、音声データを送信部２０２に出力するものである。以下では、音声データを単に音声という。音声入力部２０１は、一般的に用いられているマイクロフォンなどにより実現することができる。

送信部２０２は、音声入力部２０１が入力した音声を音声翻訳装置１００に送信するものである。第１受信部２０３は、音声翻訳装置１００が生成した翻訳音声または翻訳元の音声を受信するものである。

音声出力部２０４は、第１受信部２０３が受信した音声を出力するものであり、一般的なスピーカなどにより構成することができる。なお、音声入力部２０１および音声出力部２０４は、電話やヘッドセットのように一体的に構成されるものを用いてもよい。

図３は、第１の実施の形態にかかる音声翻訳装置１００の構成を示すブロック図である。同図に示すように、音声翻訳装置１００は、音声記憶部１１０と、対応記憶部１２０と、受信部１３０と、生成部１４０と、出力制御部１５０と、送信部１６０と、を備えている。

音声記憶部１１０は、各端末装置から受信した音声を言語ごとに記憶するものである。音声記憶部１１０は、言語ごとに音声を記憶するため、言語ごとの記憶部（言語１記憶部１１１、言語２記憶部１１２、・・・、言語ｎ記憶部１１ｎ）を備えている。

対応記憶部１２０は、各端末装置で使用する使用言語を対応づけて記憶するものである。対応記憶部１２０には、端末装置を一意に識別する識別子と使用言語とを対応づけたマッピングテーブル１２１が記憶されている。

マッピングテーブル１２１には、端末装置２００がネットワーク３００を介して音声翻訳装置１００に接続されたときに端末装置２００側から送信された識別子と使用言語の情報が記憶される。

なお、音声記憶部１１０、および対応記憶部１２０は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

受信部１３０は、各端末装置２００からネットワーク３００を介して送信される音声を受信するものである。なお、受信部１３０は、音声と共に送信された端末装置２００の識別子も受信する。受信部１３０は、生成部１４０と出力制御部１５０とに受信した音声および識別子を渡す。出力制御部１５０に音声を渡すのは、当該音声と同一の言語を用いる端末装置２００に対して当該音声をそのまま送信する場合があるためである。

生成部１４０は、音声翻訳装置１００で使用されるすべての言語間で音声翻訳を行うものである。例えば、日本語、英語、中国語の３ヶ国語が使用される場合は、日本語と英語間、英語と中国語間、中国語と日本語間の音声翻訳を行う。

なお、生成部１４０は、受信した音声を認識して文字列を出力する音声認識処理、認識した文字列などの認識結果を用いて翻訳の対象言語で翻訳する機械翻訳処理、翻訳結果である対象言語の文字列を合成した音声を生成する音声合成処理を行うことにより、翻訳音声を生成する。

この際に行われる音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識技術を適用することができる。

また、機械翻訳処理では、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式などの、一般的に利用されているあらゆる翻訳技術を適用することができる。

また、音声合成処理では、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。

また、生成部１４０は、受信した音声の音声区間に関する情報を対応づけて翻訳した音声を出力する。なお、生成部１４０は、音量が予め定められた閾値より相対的に長い区間を音声区間とする方法など、従来から用いられているあらゆる音声区間検出技術を適用して音声区間を検出する。

図４は、生成部１４０が出力する出力情報の一例を示す説明図である。同図に示すように、出力情報には、翻訳元の音声が入力された端末の識別子を表す入力端末番号と、入力音声区間と、出力音声区間番号と、出力音声と、言語情報とが含まれている。

入力端末番号は受信部１３０から音声と共に受け取るので、受け取った入力端末番号をそのまま出力情報に設定する。出力音声区間番号とは、出力する翻訳音声の音声区間を識別する番号であり、言語ごとに、かつ入力端末番号ごとに連番が付与される。

同図の出力音声は、出力された音声のデータ自体を表すものであり、同図では波形により模式的に表している。言語情報とは、翻訳の対象言語として用いた言語を識別する情報をいい、同図では番号によって表しているが、言語名（英語など）により表すように構成してもよい。

ここで、入力音声と出力音声の音声区間の関係について説明する。まず、原則として、生成部１４０は入力音声と同じ長さの翻訳音声を出力する。これは、個々の入力音声区間と、当該入力音声区間に対応する出力音声区間の長さが一致しなければならないことを意味するものではない。すなわち、複数の入力音声区間に相当する入力音声と、当該複数の入力音声区間に対応する複数の出力音声区間に相当する翻訳音声の長さが一致すればよいことを意味する。

したがって、ある言語の翻訳元となる入力音声区間と、他の言語の翻訳元となる入力音声区間の長さが異なっていてもよい。ただし、全言語について入力音声区間の区切り位置がそろっている場所が存在する必要がある。

図５は、音声記憶部１１０に記憶された音声の一例を模式的に示した説明図である。同図では、言語ごとの音声の情報が、音声区間ごとに分けて記載された例を示している。同図の横方向の記号ｔ_n（ｎは整数）は音声の発声時刻を表し、数値は、各言語での出力音声区間の出力順序を表している。なお、Ｎは使用されている言語の総数を表す。

同図に示されるように、例えば、言語１用の出力順序が２番目の出力音声区間と言語２用の出力順序が４番目の出力音声区間は、対応する入力音声区間の始端位置が同一であるが（ｔ₂）、終端位置は異なっている（ｔ₃、ｔ₄）。一方、言語１用の出力順序が３番目の音声区間と言語２用の出力順序が３番目の音声区間のように終端位置が一致する音声区間も必ず存在する。

例えば、翻訳元の音声は同一であるから、元の音声のうち人が話している音声区間は全言語で共通になる。したがって、少なくとも話し始め（音声始端）と話し終わり（音声終端）の位置は全言語で一致する。これ以外にも、例えば文字にした場合に句読点が打つことができる位置でも終端位置が揃う場合がある。

生成部１４０は、非音声区間に対しては処理を行わず、出力制御部１５０にそのまま音声を送信する。生成部１４０は、非音声区間に対しても区間番号を割り当て、特に記述のない限り、以降の処理では音声翻訳により生成された音声と区別されない。非音声区間が長い場合、生成部１４０は、音声でないと判断された区間に対して１つだけ区間番号を割り当てるのではなく、十分に細かく非音声区間を分割し、それぞれに番号をつけていく。非音声区間をできる限り早く出力するためである。

上述のように、生成部１４０は、ある区間ごとに入力音声と同じ長さの翻訳音声を出力する。この制約が存在しない場合、ある端末装置２００では出力するべき音声がまだ残っているのにも関わらず、別の端末装置２００では出力が完了しているという状況が発生しうることになり、各参加者に対する音声出力のずれを回避できない。

なお、ある区間とは時間幅が固定された区間だけを指しているのではなく、例えば１つの音声区間であってもよいし、複数の音声区間であってもよい。

この制約を満たすため、生成部１４０は、翻訳後の音声を合成する音声合成処理で音声の長さを調整する。具体的には、合成する音声の発話速度を調整することにより、複数の出力音声の長さをそれぞれ同一にする。

また、生成部１４０は、音声の前方または後方に無音を挿入することで音声の長さを調整するように構成してもよい。例えば、音声合成によって生成した音声が短い場合には、生成部１４０は、生成した音声の前方または後方の少なくとも一方に無音を挿入する。また、音声合成によって生成した音声が長い場合には、生成部１４０は、非音声区間の部分の一部を入力音声区間に含めることで入力音声区間の範囲を広げることによって音声の長さを一致させる。

出力制御部１５０は、各音声の出力タイミングを制御するものであり、判定部１５１と、出力処理部１５２とを備えている。

判定部１５１は、生成部１４０により翻訳音声の出力情報が生成された場合に、各声区間に対してすべての言語で翻訳音声が生成されたか否かを判定することにより、翻訳音声が出力可能か否かを決定するものである。判定部１５１の判定処理の詳細については後述する。

出力処理部１５２は、判定部１５１によりすべての言語で翻訳音声が生成された音声区間について、翻訳音声と当該音声区間に相当する翻訳元の音声とを出力するものである。

送信部１６０は、出力処理部１５２により出力された音声を各端末装置２００に送信するものであり、送信先決定部１６１を備えている。

送信先決定部１６１は、マッピングテーブル１２１を参照して、各言語による音声をいずれの端末装置２００に送信するかを決定するものである。具体的には、送信先決定部１６１は、マッピングテーブル１２１から各言語に対応する端末装置２００の識別子を取得し、取得した識別子に対応する端末装置２００を送信先として決定する。

次に、このように構成された第１の実施の形態にかかる音声翻訳装置１００による音声翻訳処理について説明する。図６は、第１の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。

なお、同図では１つの端末装置２００と音声翻訳装置１００との間の音声の送受信について記載しているが、実際には複数の端末装置２００との間で同様の処理が実行される。

まず、端末装置２００の音声入力部２０１が、音声の入力を受付ける（ステップＳ６０１）。次に、送信部２０２が、入力された音声（入力音声）を音声翻訳装置１００に送信する（ステップＳ６０２）。

次に、音声翻訳装置１００の受信部１３０が、入力音声を受信する（ステップＳ６０３）。続いて、生成部１４０が、受信した入力音声に対して音声翻訳処理を行い、翻訳音声を生成する（ステップＳ６０４）。生成部１４０は、上述のような既存技術を用いて、入力音声の音声認識処理、機械翻訳処理、音声合成処理を実行することにより、翻訳音声を生成する。

次に、出力制御部１５０は、受信した入力音声に対する翻訳音声の出力タイミングを決定して出力可能と判断された音声を出力する音声出力処理を実行する（ステップＳ６０５）。音声出力処理の詳細については後述する。

次に、送信先決定部１６１は、マッピングテーブル１２１を参照して各言語の翻訳音声の送信先となる端末装置２００を決定する（ステップＳ６０６）。具体的には、送信先決定部１６１は、音声出力処理で出力された各言語の音声について、言語ごとにマッピングテーブル１２１から対応する端末装置２００の識別子を取得し、取得した識別子に対応する端末装置２００を送信先として決定する。

なお、同図は、音声出力処理で出力可能な音声区間が存在したことを前提として記載しているが、出力可能な音声区間が存在しなかった場合は、ステップＳ６０６以降の処理は実行されない。

次に、送信部１６０が、音声出力処理で出力可能と判断された音声を、各端末装置２００に送信する（ステップＳ６０７）。

端末装置２００の第１受信部２０３は、音声翻訳装置１００から音声を受信し（ステップＳ６０８）、音声出力部２０４は、受信した音声を出力する（ステップＳ６０９）。

このように、各端末装置２００は、入力された音声をすべて音声翻訳装置１００に送信し、音声翻訳装置１００で出力タイミングを調整された音声を受信して出力することができるため、同一の発話者に対する翻訳音声が各端末装置２００で時間的にずれて出力される可能性を低減することができる。

次に、ステップＳ６０５の音声出力処理の詳細について説明する。図７は、音声出力処理の全体の流れを示すフローチャートである。

まず、出力処理部１５２は、生成部１４０により出力された出力音声を音声記憶部１１０に保存するが、その際に、既に音声記憶部１１０内に記憶されている音声が存在する場合は、当該音声と混合した結果である混合音声を保存する（ステップＳ７０１）。複数の端末装置２００から同時に音声が入力される場合があるためである。

具体的には、出力処理部１５２は、出力音声の音声区間について音声記憶部１１０に音声が記憶されていない場合には、出力音声をそのまま保存する。出力音声の音声区間について音声記憶部１１０に音声が記憶されている場合には、出力処理部１５２は、記憶されている音声を取得し、出力音声と混合した混合音声を生成して、生成した混合音声を当該音声区間の音声として保存する。

出力処理部１５２は、音声が記憶されていない音声区間と、音声が記憶されている音声区間の両方にまたがる音声区間の出力音声に対しては、記憶されていない音声区間が無音であるとして混合処理を行う。

なお、出力処理部１５２は、出力情報に含まれる言語情報を参照して、当該言語情報に応じた言語ごとの記憶部１１ｎに音声を保存する。

次に、出力処理部１５２は、出力可能な音声区間を判定する出力判定処理を実行する（ステップＳ７０２）。出力判定処理の詳細については後述する。

次に、出力処理部１５２は、新たに出力可能な音声区間が存在するか否かを判断する（ステップＳ７０３）。出力可能な音声区間が存在しない場合は（ステップＳ７０３：ＮＯ）、音声出力処理を終了する。

出力可能な音声区間が存在する場合は（ステップＳ７０３：ＹＥＳ）、出力処理部１５２は、出力可能な最短区間を算出する（ステップＳ７０４）。出力可能な最短区間の算出とは、複数の端末装置で同時に音声が入力され、対応する出力音声が複数存在する場合に、複数の端末からの入力音声を元にした出力音声がすべて揃った区間から出力するための出力対象区間を算出することをいう。

出力処理部１５２による最短区間算出処理について、図８を参照しながら説明する。図８は、最短区間算出処理で用いる情報であって、端末ごとの出力可能な音声区間の情報の一例を示した説明図である。同図では、斜線部分が出力音声区間を表し、出力音声区間内の数値が出力音声区間番号を表している。なお、図５は、斜線部分が入力音声区間を表している点で図８と相違する。

端末装置２００ごとにユーザが異なるタイミングで発話するため、出力音声区間が一致することは稀である。したがって、音声区間の途中で遅延が挿入されるケースも発生しうる。しかしながら、非音声区間は翻訳処理が行われず、音声翻訳処理による遅延が発生しないため、２人以上が同時に話さない限り、音声区間の区切れ目以外のところで出力音声に遅延が挿入されることはない。したがって、この場合に限れば音声の出力が途切れることはない。

まず、出力音声区間番号が１の出力音声が、すべての端末装置２００について出力された状態を想定する。出力処理部１５２は、これらの出力音声のうち、終端時刻が最も過去である音声区間を算出し、最短区間とする。同図の例では、出力処理部１５２はｔ₀からｔ₁までの区間を最短区間として算出する。

次に、同図の送信元端末３に対応する端末装置２００の出力音声区間番号２の音声が出力された状態を想定する。しかし、この状態も、最も過去の終端時刻はｔ₁であるため、最短区間は変わらない。なお、後述するようにこの場合は出力可能な最短区間は存在しないと判断され、新たな音声は出力されない。

次に、同図の送信元端末２に対応する端末装置２００の出力音声区間番号が２の音声が出力された状態を想定する。この状態では、最も過去の終端時刻はｔ₂であるため、ｔ₂までの区間が最短区間として算出される。

ステップＳ７０４で最短区間を算出した後、出力処理部１５２は、出力可能な最短区間が存在するか否かを判断し（ステップＳ７０５）、存在しない場合は（ステップＳ７０５：ＮＯ）、音声出力処理を終了する。

出力可能な最短区間が存在する場合は（ステップＳ７０５：ＹＥＳ）、出力処理部１５２は、音声記憶部１１０から最短区間に対応する音声を取得して出力する（ステップＳ７０６）。

このようにして、出力音声がすべての端末装置２００の入力音声に対して生成された区間から順次出力することが可能となる。なお、すべての端末装置２００からの音声が揃うまで待つ必要があるため、音声の出力に遅延が生じる場合があるが、その場合は音声を出力しないようにする。音声を出力しない代わりに、音声データに無音データを付加して出力するように構成してもよい。逆に、音声出力中に次に出力する音声が生成された場合は、現在出力中の音声の出力が終了するまで待機し、出力終了後に次に出力する音声を出力する。

次に、ステップＳ７０３の出力判定処理の詳細について説明する。図９は、出力判定処理の全体の流れを示すフローチャートである。

まず、判定部１５１は、出力対象言語（以下、言語ｉという。）を１つ選択する（ステップＳ９０１）。次に、判定部１５１は、言語ｉで次に出力する音声区間（以下、区間Ｓｎｉという。）を取得する（ステップＳ９０２）。

例えば、図５に示すような音声が音声記憶部１１０に記憶され、言語２で出力順序が２番目の音声区間まで出力されていたとすると、次に出力する音声区間は、出力順序が３番目の音声区間（ｔ₃〜ｔ₅）となる。

次に、判定部１５１は、言語ｉ以外の言語ｊを選択し（ステップＳ９０３）、各言語ｊについてステップＳ９０８までの処理を繰り返す。

まず、判定部１５１は、Ｓｎｉに対応する区間の言語ｊの音声は翻訳済みか否かを判断する（ステップＳ９０４）。翻訳済みでない場合は（ステップＳ９０４：ＮＯ）、すべての言語で翻訳が完了していないと判断できるため、出力判定処理を終了する。

翻訳済みの場合は（ステップＳ９０４：ＹＥＳ）、判定部１５１は、言語ｊで次に出力する音声区間から、Ｓｎｉと重なる言語ｊの音声区間までの各音声区間の区間番号（出力音声区間番号）を取得し、集合Ｘとする（ステップＳ９０５）。

これは、Ｓｎｉと重なる言語ｊの音声区間の前に出力すべき音声区間が存在する場合に、出力すべき音声区間のそれぞれについて、他の言語による翻訳音声が生成済みか否かを判断するためである。これにより、Ｓｎｉと重なる音声区間が翻訳済みであってもその音声区間の前に出力すべき音声区間が翻訳済みでない場合には、Ｓｎｉと重なる音声区間は出力できないと判定することができる。

判定部１５１は、取得した集合Ｘから１つの区間番号を取得し、取得した区間番号に対応する音声区間Ｓｊを取得する（ステップＳ９０６）。次に、判定部１５１は、Ｓｊに対応する区間で、他のすべての言語の音声が翻訳済みか否かを判断する（ステップＳ９０７）。

翻訳済みでない言語が存在する場合は（ステップＳ９０７：ＮＯ）、すべての言語で翻訳が完了していないと判断できるため、出力判定処理を終了する。すべての言語で翻訳済みの場合は（ステップＳ９０７：ＹＥＳ）、判定部１５１は、すべての区間番号を処理したか否かを判断する（ステップＳ９０８）。

すべての区間番号を処理していない場合は（ステップＳ９０８：ＮＯ）、判定部１５１は、次の区間番号を取得して処理を繰り返す（ステップＳ９０６）。すべての区間番号を処理した場合は（ステップＳ９０８：ＹＥＳ）、判定部１５１は、言語ｉ以外のすべての言語を処理したか否かを判断する（ステップＳ９０９）。

言語ｉ以外のすべての言語を処理していない場合は（ステップＳ９０９：ＮＯ）、判定部１５１は、次の言語を言語ｊとして取得して処理を繰り返す（ステップＳ９０３）。

言語ｉ以外のすべての言語を処理した場合は（ステップＳ９０９：ＹＥＳ）、判定部１５１は、すべての出力対象言語を処理したか否かを判断する（ステップＳ９１０）。すべての出力対象言語を処理していない場合は（ステップＳ９１０：ＮＯ）、次の出力対象言語を言語ｉとして取得して処理を繰り返す（ステップＳ９０１）。

すべての出力対象言語を処理した場合は（ステップＳ９１０：ＹＥＳ）、判定部１５１は、各出力対象言語について、出力可能な音声区間の区間番号を出力し（ステップＳ９１１）、出力判定処理を終了する。

ここで、出力判定処理の具体例について説明する。図１０は、出力判定処理で行われる判定処理を表した擬似コードの一例を示す説明図である。また、図１１から図１４は、この例で説明する出力判定処理の各段階で出力される出力音声を格納した音声記憶部１１０の一例を示す説明図である。

例として端末装置２００から入力された音声が日本語であり、出力先の端末装置２００の言語が日本語と英語の場合を考える。また、日本語を言語１とし、英語を言語２とする。そして、「東京駅はどこですか」を意味する日本語が入力された場合を想定する。

入力された日本語の音声は、出力制御部１５０と生成部１４０に出力される。出力制御部１５０が入力音声を受け取った時点では、音声記憶部１１０には図１１に示すような出力音声が保存される。t_endは入力音声の音声区間の終端の時刻を示している。

なお、図１１では１区間だけを示しているが、出力判定処理の際には、十分に細かい区間に分かれているものとして処理を行う。十分に細かい区間とは、例えばサンプリングされた音声の１サンプルが占める区間をいう。具体的には、例えば１１ｋＨｚでサンプリングされているとするならば、１秒間当り１１０００個に等間隔で区切った区間が相当する。音声区間情報が生成部１４０から出力された時点で関連する区間をまとめる処理を行ってもよい。

生成部１４０は翻訳処理が完了し、合成音声が生成されるたびに出力制御部１５０に翻訳後の音声を出力する。ここではまず、生成部１４０が英語の翻訳音声の一部である「where is」を出力したとする。

この際、図４に示すように、「where is」を翻訳するために使用した翻訳元の音声の区間情報（入力音声区間）も出力されるため、出力処理部１５２は、当該入力音声区間に対応する区間に「where is」を保存する。図１２は、このときの音声記憶部１１０の格納状態を示したものである。

なお、日本語の区間は細かい区間のままでも処理できるが、ここでは英語の区間と同じ区間にまとめ、その区間に番号を付与している。上述のように、日本語の区間は十分に細かい区間であるため、区間の始終端がずれることなく、英語の区間と同じ区間にまとめることが可能である。

この状態では、まず、図９のステップＳ９０１で示すように、ｉ＝１、すなわち日本語（言語１）の出力判定処理が実行される。このときの出力判定処理を図１０の擬似コードにしたって以下に説明する。なお、図１０は、図９のフローチャートのステップＳ９０３からステップＳ９０９までの処理に対応する擬似コードを表している。

まず、言語は日本語と英語のみであるため、Ｌ＝｛１，２｝である。Ｌとは、すべての言語の番号の集合である。１行目はｉを除くすべてのＬについて２行目から１２行目までの処理を繰り返し行うということを意味する。

ここではｊ＝２の場合のみが実行されることになる。２行目では言語１（日本語）と言語２（英語）の区間が重なる部分の言語２の区間番号をＸに代入する。この場合はＸ＝｛｝、すなわちＸは空となる。

３行目ではＸに入っている番号の区間をＴに代入するが、これも空になる。４行目では、Ｔが空であるため、ｘ_i ^nextの区間とＴの共通部分も空になり、ｘ_i ^nextの区間とは異なるため、条件文が満たされる。したがって、５行目が実行され、出力できないと判定されて出力判定処理が終了する。

次に、生成部１４０が次の英語の翻訳音声である「Tokyo station」を出力したとする。この場合の音声記憶部１１０の格納状態は、図１３のようになる。

出力判定処理は、再度ｉ＝１、すなわち日本語（言語１）に対して開始される。擬似コードの１行目は図１２を使った前述の説明と同様である。

２行目では言語１（日本語）と言語２（英語）の区間が重なる部分の言語２の区間番号２が存在するため、Ｘ＝｛２｝となる。

３行目でＴに“［ｔ₀、ｔ₁）”の区間が代入される。ここで、ｉ＝１であるため、言語１で次に出力すべき区間ｘ_i ^nextは、ｘ₁ ^next＝１である。言語１ではまだ音声が出力されていないため、最初（ｉ＝１）の音声区間が次に出力すべき区間だからである。

言語１の１番目の区間Ｓ₁ ¹には“［ｔ₀、ｔ₁）”の区間が含まれるため、４行目の判定は偽になり、６行目に進む。６行目の処理でＸに含まれる番号の最大値が取得され、ここではｘ_max＝２になる。

７行目でＸの内容が更新されるが、ここでは、ｘ_j ^next＝ｘ₂ ^next＝１であるため、１＜ｘ≦２を満たす整数は２のみとなる。したがって、Ｘ＝｛２｝となる。

８行目は、Ｘ内のすべての番号について、９行目から１２行目までの処理を繰り返し実行することを意味する。ここでは、ｘ＝２についてのみ処理を実行すればよい。

９行目は言語ｊを除くすべての言語について１０行目から１２行目までの処理を繰り返し実行することを意味する。ここではｋ＝１についてのみ処理を実行すればよい。

１０行目では、言語ｋの区間をすべてＴに代入する。ここでは、Ｔに含まれる区間は“［ｔ₀、ｔ_end）”である。

１１行目では、言語ｊのｘ番目の区間をＴの区間が埋め尽くしているかを調べる。ここでは、ｊ＝２であり、ｘ＝２であるため、Ｓ_x ^j＝Ｓ₂ ²＝“［ｔ₀、ｔ₁）”である。一方、Ｔの区間は“［ｔ0、ｔ_end）”であるので、この区間の中に“［ｔ₀、ｔ₁）”の区間は完全に含まれており、１１行目の条件は満たされない。

すべてのループが完了するため、１３行目に移動しｔｒｕｅが返される。これでｉ＝１、すなわち言語１（日本語）に対する判定が完了したため、ｉに１加算して、ｉ＝２、すなわち言語２（英語）に対して同様の処理が実行される。

詳細は省略するが、言語２に対しても出力可能と判定され（ｔｒｕｅが返される）、図９のステップＳ９１１では、各言語について出力可能な出力音声区間番号が出力される。また、図７のステップＳ７０５で出力可能な音声区間が存在すると判定され、ステップＳ７０６で該当する音声が出力される。

この場合、出力先の端末装置２００のうち日本語を使用する端末装置２００に対しては日本語の１番目の区間が出力され、英語を使用する端末装置２００に対しては英語の１番目の区間が出力される。

そうすると、次の出力区間は、日本語、英語共に２番目の区間になる。擬似コードで用いる変数で表すと、ｘ₁ ^next＝２、ｘ₂ ^next＝２である。この状態で、さらに出力判定処理が繰り返し実行される。

この状態で出力判定処理を開始すると、ｉ＝１であり、擬似コードの１行目ではｊ＝２となる。２行目ではＸ＝｛１｝となり、３行目ではＴが“［ｔ1、t_end）”となる。４行目の条件は満たされないので、６行目に移動し、６行目ではｘ_max＝１となる。７行目でＸの内容が更新されるが、２＜ｘ≦２の条件を満たす整数は存在しないため、Ｘ＝｛｝となる。

したがって、８行目から１２行目は実行されず、１３行目に移動しｔｒｕｅが返される。次に、ｉに１加算して、ｉ＝２、すなわち言語２（英語）に対して同様の処理が実行される。

詳細は省略するが、言語２に対しても出力可能と判定され（ｔｒｕｅが返される）、図９のステップＳ９１１では、各言語について出力可能な出力音声区間番号（日本語の２番目と英語の２番目）が出力される。

擬似コードの７行目から１２行目の処理が必要な理由は、図１４のような状態になった場合を考えるとよい。言語１、２ともに次に出力する区間は１であるとする。ｉ＝１の場合に図１０の擬似コードが実行された場合を考える。

この場合、１行目ではｊ＝２となり、２行目ではＸ＝｛３｝となる。３行目ではＴが“［ｔ2、t_end）”となる。４行目の条件は満たされないので、６行目に進み、６行目でｘ_max＝３となる。

７行目でＸが更新され、Ｘ＝｛２，３｝となる。まず、８行目でｘ＝２となり、９行目でｋ＝１となる。１０行目でＴの区間は“［ｔ₀、ｔ₁）”と“［ｔ2、t_end）”とになる。Ｓ₂ ²＝“［ｔ1、t₂）”であるため、１１行目の条件が満たされ、１２行目が実行されてｆａｌｓｅが返される。すなわち、出力可能な音声区間はないと判定されて処理を終了する。

仮に、７行目から１２行目の処理が存在しない場合には、図１４のような状況では言語１、２共に区間番号１については出力可能と判定される。ところが、もし言語１の区間“［ｔ1、t₂）”の音声が出力されるまでの時間が区間１のそれぞれの音声が出力されるまでの時間よりも長い時間になった場合、言語１のユーザは元の音声の“［ｔ2、t_end）”の内容を聞いた状態で待つことになり、言語２のユーザは元の音声の“［ｔ₀、ｔ₁）”の内容を聞いた状態で待つことになる。

これでは、できるだけ同時に同じ内容をユーザに提示するために、音声の出力を遅延させるという目的を満たせなくなる。したがって、７行目から１２行目の処理が必要とされる。

次に、図５を用いて、その他の状況における出力判定処理について説明する。ここでは、図５で言語１と言語２のみが出力されている状況を想定し、それぞれの言語で音声区間番号１のみが生成済みであることを前提とする。すなわち、言語１は“［ｔ0、t₂）”の範囲の音声を元にした出力音声が作成済みであり、言語２は“［ｔ0、t₁）”の範囲の音声を元にした出力音声が作成済みであるとする。

この場合、擬似コードはｉ＝１で開始され、ｊ＝２であるため、２行目ではＸ＝｛１｝となる。Ｓ₁ ²∩Ｓ₁ ¹＝Ｓ₁ ²となり、空ではないためである。次に、３行目でＴがＳ₁ ²＝“［ｔ₀、ｔ₁）”となる。したがって、４行目の条件文は真となり、５行目で条件を満たさなかったとしてｆａｌｓｅが返される。

このように、言語１の音声区間（区間番号＝１）に対し、言語２の対応する音声区間のうち、区間番号＝２の音声区間の音声がまだ生成済みでないため、出力可能な音声が存在しないと判定される。

なお、始端と終端が揃う位置が全く存在しないとすると、いつまでも音声を出力できない場合が生じうる。しかし、上述したように、少なくとも１つの音声の発話の開始と終了の位置は全言語で一致するため、音声が出力できなくなることはない。

このように、第１の実施の形態にかかる音声翻訳装置では、翻訳元の音声が同じである翻訳音声がすべて揃うまでは翻訳音声を記憶しておき、すべての言語の翻訳音声が揃った時点で音声を出力するものである。このため、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。

（第２の実施の形態）
第１の実施の形態では、生成部１４０が出力した音声をすべて音声記憶部１１０の音声と混合して保存していた。この場合、音声を発話した本人の端末装置２００に対しても混合音声を出力するため、自分自身の発話した音声が遅れて出力される現象（エコー）が発生しうる。すなわち、発話の途中で自分の声が聞こえることにより、話し手が発話しにくくなるという欠点が存在する。

第２の実施の形態にかかる音声翻訳装置は、音声の入力元である端末装置に対しては、当該音声を送信しないことにより、当該音声が発話者自身に提供されることを回避するものである。

図１５は、第２の実施の形態にかかる音声翻訳装置１５００の構成を示すブロック図である。同図に示すように、音声翻訳装置１５００は、音声記憶部１５１０と、対応記憶部１２０と、受信部１３０と、生成部１４０と、出力制御部１５５０と、送信部１５６０と、を備えている。

第２の実施の形態では、音声記憶部１５１０のデータ構造、出力制御部１５５０の機能、および送信部１５６０の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

音声記憶部１５１０は、音声を端末装置２００ごとに記憶する端末Ｎ記憶部１５１ｎ（Ｎ、ｎは自然数）を備えている点が、第１の実施の形態と異なっている。そして、端末Ｎ記憶部１５１ｎ内に、言語ごとの出力音声を記憶している。

出力制御部１５５０は、第１の実施の形態と同様に、判定部１５１と、出力処理部１５５２とを備えているが、出力処理部１５５２の機能が第１の実施の形態と異なっている。

出力処理部１５５２は、生成部１４０から受け取った出力情報から出力音声の生成元の音声を送信した端末装置２００の入力端末番号を抽出するとともに、出力音声の言語を取得する。そして、出力処理部１５５２は、入力端末番号に対応する端末Ｎ記憶部１５１ｎの、取得した言語に対応する言語ごとの記憶部１１ｎに、出力音声を保存する。

また、第１の実施の形態と異なり、出力処理部１５５２は、音声記憶部１５１０への保存時に音声の混合処理を実行しない。保存した音声は、出力可能と判定されたときに送信部１５６０に出力され、送信部１５６０内で混合処理を行った後に各端末装置２００に送信される。

送信部１５６０は、端末装置２００に音声を出力する際に、音声を混合してから送信するものであり、送信先決定部１６１と、混合部１５６２とを備えている。送信先決定部１６１の機能は、第１の実施の形態と同様であるのでその説明は省略する。

混合部１５６２は、送信先決定部１６１から受け取った音声を、送信先とする端末装置２００から送信された音声を除いた音声分だけ混合して出力するものである。混合部１５６２は、送信先決定部１６１から受け取る入力端末番号と、送信先とする端末装置２００の識別子とを比較することによって、送信する音声が、送信先とする端末装置２００から送信されてきた音声か否かを判断する。

次に、このように構成された第２の実施の形態にかかる音声翻訳装置１５００による音声翻訳処理について説明する。図１６は、第２の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。

ステップＳ１６０１からステップＳ１６０４までの、音声入力処理、入力音声送受信処理、翻訳処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６０１からステップＳ６０４までと同様の処理なので、その説明を省略する。

ステップＳ１６０５では、出力制御部１５５０による音声出力処理が実行される。音声出力処理の詳細については後述する。

音声出力処理の後、送信先決定部１６１は、マッピングテーブル１２１を参照して各言語の翻訳音声の送信先となる端末装置２００を決定する（ステップＳ１６０６）。この処理も第１の実施の形態と同様である。

次に、混合部１５６２は、送信する音声の混合処理を行う（ステップＳ１６０７）。具体的には、混合部１５６２は、音声記憶部１５１０の音声を送信する端末の使用言語に対応する各端末Ｎ記憶部１１ｎから、出力音声の言語の音声を取得し、複数の音声が取得された場合は当該音声を混合する。その際、混合部１５６２は、送信先とする端末装置２００から送信された音声を除いた音声分だけ混合して出力する。

ステップＳ１６０８からステップＳ１６１０までの、出力音声送受信処理、音声出力処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６０７からステップＳ６０９までと同様の処理なので、その説明を省略する。

次に、ステップＳ１６０５の音声出力処理について説明する。図１７は、第２の実施の形態における音声出力処理の全体の流れを示すフローチャートである。

まず、出力処理部１５５２は、音声を入力した端末装置２００に対応する端末Ｎ記憶部１５１ｎを選択し、受信部１３０ないしは生成部１４０から受け取った音声の言語に対応する言語ｎ記憶部１１ｎを選択する（ステップＳ１７０１）。次に、出力処理部１５５２は、選択した端末Ｎ記憶部１５１ｎに、出力された音声を保存する（ステップＳ１７０２）。第２の実施の形態では、この際に音声の混合処理は実行しない。

ステップＳ１７０３からステップＳ１７０７までの、出力判定処理、最短区間算出処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ７０２からステップＳ７０６までと同様の処理なので、その説明を省略する。

このように、第２の実施の形態にかかる音声翻訳装置では、音声の入力元である端末装置に対しては、当該音声を送信しないため、当該音声が発話者自身に提供されてエコー現象が生じることを回避することができる。

（第３の実施の形態）
第３の実施の形態にかかる音声翻訳装置は、翻訳音声を翻訳処理完了後に直ちに端末装置に送信して端末装置側で音声情報を記憶することにより、ネットワークを原因とする遅延を回避するものである。

図１８は、第３の実施の形態にかかる端末装置１８００の構成を示すブロック図である。同図に示すように、端末装置１８００は、音声入力部２０１と、送信部２０２と、第１受信部２０３と、音声出力部２０４と、保存部１８０５と、第２受信部１８０６と、出力処理部１８０７と、音声記憶部１８１０とを備えている。

第３の実施の形態では、保存部１８０５と、第２受信部１８０６と、出力処理部１８０７と、音声記憶部１８１０とを追加したことが第１の実施の形態の端末装置２００と異なっている。その他の構成および機能は、第１の実施の形態にかかる端末装置２００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

音声記憶部１８１０は、第１の実施の形態で音声翻訳装置１００に備えられていた音声記憶部１１０の言語ｎ記憶部のうち、自装置で使用される言語に対応するもののみを備えたものである。すなわち、本実施の形態では、音声を記憶する記憶部が、端末装置１８００側に備えられている。

保存部１８０５は、後述する音声翻訳装置２０００から送信され、第１受信部２０３により受信された音声を、音声記憶部１８１０に保存するものである。図１９は、第１受信部２０３により受信される出力情報の一例を示す説明図である。同図に示すように、音声翻訳装置２０００からは、入力端末番号と、出力音声区間番号と、出力音声とを対応づけた出力情報が送信され、第１受信部２０３より受信される。

なお、保存部１８０５は、音声区間が重複する音声を受信した場合は、音声を混合した混合音声を生成して音声記憶部１８１０に保存する。第１の実施の形態の場合と同様、受信した音声の元の音声が複数の端末装置１８００から同時に入力されたものである場合があるためである。また、図８に示すような最短区間算出処理で用いる情報も、音声受信時に作成して音声記憶部１８１０に保存しておく。

第２受信部１８０６は、音声翻訳装置２０００から出力可能な区間の情報として送信される出力音声区間番号と入力端末番号とを受信するものである。

出力処理部１８０７は、第２受信部１８０６が受信した情報を参照し、出力可能な音声区間のうち、自装置以外のすべての端末装置２００からの音声が揃っている部分（最短区間）を音声記憶部１８１０から取得して出力するものである。なお、出力処理部１８０７は、出力済みの音声を音声記憶部１８１０から削除する。

図２０は、音声翻訳装置２０００の構成を示すブロック図である。同図に示すように、音声翻訳装置２０００は、対応記憶部１２０と、受信部２０３０と、生成部２０４０と、出力制御部２０５０と、送信部２０６０と、を備えている。

第３の実施の形態では、音声記憶部１１０を削除したこと、受信部２０３０、生成部２０４０、出力制御部２０５０、送信部２０６０の機能が第１の実施の形態の音声翻訳装置１００と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

受信部２０３０は、第１の実施の形態と異なり、受信した音声をそのまま送信部２０６０に対しても出力するとともに、受信した音声の音声区間に関する情報を含む出力情報を、出力制御部２０５０に出力する。

生成部２０４０は、第１の実施の形態と異なり、生成した翻訳音声を送信部２０６０に対しても出力するとともに、生成した翻訳音声は出力制御部２０５０には出力せず、出力音声の音声区間に関する情報を含む出力情報だけを出力制御部２０５０に出力する。

図２１は、受信部２０３０または生成部２０４０から送信部２０６０に送信される出力情報の一例を示す説明図である。同図に示すように、送信部２０６０に対する出力情報は、入力端末番号と、出力音声区間番号と、出力音声と、言語情報とを含んでいる。

図２２は、受信部２０３０または生成部２０４０から出力制御部２０５０に出力される出力情報の一例を示す説明図である。同図に示すように、出力制御部２０５０に対する出力情報は、入力端末番号と、入力音声区間と、出力音声区間番号と、言語情報とを含んでいる。

なお、受信部２０３０から出力制御部２０５０に送信される区間情報については、音声区間単位や単語の単位で区切られているわけではなく、区間として定義できる最小単位で区間情報が送信されると考える。例えば、サンプリング周波数が８ｋＨｚであれば、秒間８０００個の区間が生成されると考えてもよい。実際には、入力音声と同じ言語で音声を出力する場合は、入力音声と出力音声の順序が入れ替わることはないため、これまでに受け取った音声の最後の位置を出力制御部２０５０に送信するだけでよい。

出力制御部２０５０は、各音声の出力タイミングを制御するものであり、判定部１５１と、出力処理部２０５２とを備えている。判定部１５１の機能は、第１の実施の形態と同様であるのでその説明を省略する。

出力処理部２０５２は、判定部１５１によりすべての言語で翻訳音声が生成された音声区間について、当該音声区間の出力音声区間番号を含む出力情報を出力するものである。

図２３は、出力処理部２０５２から出力される出力情報の一例を示す説明図である。同図に示すように、出力処理部２０５２から出力される出力情報は、入力端末番号と、出力音声区間番号と、言語情報とを含んでいる。

次に、このように構成された第３の実施の形態にかかる音声翻訳装置２０００による音声翻訳処理について説明する。図２４は、第３の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。

ステップＳ２４０１からステップＳ２４０４までの、音声入力処理、入力音声送受信処理、翻訳処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６０１からステップＳ６０４までと同様の処理なので、その説明を省略する。

翻訳処理後、送信部２０６０が、生成部２０４０により生成された翻訳音声を含む図１９の情報を端末装置１８００に対して送信し（ステップＳ２４０５）、端末装置１８００の第１受信部２０３が翻訳音声を含む図１９の情報を受信する（ステップＳ２４０６）。次に、端末装置１８００の保存部１８０５が、受信した翻訳音声を音声記憶部１８１０に保存する（ステップＳ２４０７）。

音声翻訳装置２０００では、判定部１５１による出力区間判定処理が実行される（ステップＳ２４０８）。出力区間判定処理の詳細については後述する。

出力区間判定処理の後、送信部２０６０は、出力可能と判定された音声区間の番号である出力音声区間番号と入力端末番号を端末装置１８００に送信する（ステップＳ２４０９）。

端末装置１８００の第２受信部１８０６は、出力音声区間番号と入力端末番号を受信する（ステップＳ２４１０）。端末装置１８００の出力処理部１８０７は、受信した出力音声区間番号と入力端末番号を参照して図８に示すような情報を作成し、出力可能な最短区間を算出する（ステップＳ２４１１）。最短区間算出処理は第１の実施の形態と同様であるのでその説明を省略する。

次に、出力処理部１８０７は、音声記憶部１８１０から最短区間に対応する音声を取得して音声出力部２０４に出力し（ステップＳ２４１２）、音声出力部２０４により実際に音声が出力される（ステップＳ２４１３）。

次に、ステップＳ２４０８の出力区間判定処理について説明する。図２５は、第３の実施の形態における出力区間判定処理の全体の流れを示すシーケンス図である。

ステップＳ２５０１からステップＳ２５０２までの、出力判定処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ７０２からステップＳ７０３までと同様の処理なので、その説明を省略する。

ステップＳ２５０２で、出力可能な音声区間が存在しない場合は（ステップＳ２５０２：ＮＯ）、出力区間判定処理を終了する。

出力可能な音声区間が存在する場合は（ステップＳ２５０２：ＹＥＳ）、出力処理部２０５２は、図２３で示される情報を出力し（ステップＳ２５０３）出力区間判定処理を終了する。

このように、第３の実施の形態では、判定部１５１が出力可能な音声区間が存在すると判断した場合、出力可能な音声区間の情報（図２３で示される情報）を出力する点が、第１の実施の形態と異なっている。

以上ように、第３の実施の形態にかかる音声翻訳装置では、データ量の多い音声データを逐次端末装置に送信しておくことができるため、ネットワークが原因となる音声出力の遅延の発生を低減することができる。

（第４の実施の形態）
第１から第３の実施の形態は、クライアントサーバ型のシステム構成であり、翻訳処理をサーバ装置に相当する音声翻訳装置で実行し、クライアント装置に相当する端末装置では、翻訳処理結果の音声を出力するだけであった。

第４の実施の形態では、集中的に処理を行うサーバを備えず、参加者ごとに設置される装置が相互に情報を送受信して音声翻訳処理を行う。すなわち、第４の実施の形態にかかる音声翻訳装置は、他の参加者の音声翻訳装置（外部音声翻訳装置）から受信した情報をもとに、自装置内で翻訳した翻訳音声の出力タイミングを制御するものである。

図２６は、第４の実施の形態にかかる音声翻訳装置２６００を含む会議システムの構成を示す説明図である。同図に示すように、第４の実施の形態の会議システムは、複数の音声翻訳装置２６００ａ、２６００ｂ、・・・、２６００ｚ（以下、音声翻訳装置２６００という。）が、ネットワーク３００を介して相互に接続されている。

図２７は、第４の実施の形態にかかる音声翻訳装置２６００の構成を示すブロック図である。同図に示すように、音声翻訳装置２６００は、音声入力部２０１と、送信部２０２と、第１受信部２０３と、音声出力部２０４と、音声記憶部２６１０と、言語記憶部２６２０と、生成部２６５０と、出力制御部２６６０と、第２受信部２６７０と、を備えている。

音声入力部２０１と、送信部２０２と、第１受信部２０３と、音声出力部２０４とは、第１の実施の形態と同様の機能を有するため、ここでの説明は省略する。

音声記憶部２６１０は、他の音声翻訳装置２６００から受信した音声を装置ごとに記憶するものである。音声記憶部２６１０は、装置ごとに音声を記憶するため、装置ごとの記憶部（装置１記憶部２６１１、装置２記憶部２６１２、・・・、装置ｎ記憶部２６１ｎ）を備えている。

言語記憶部２６２０は、会議システムに参加している音声翻訳装置２６００が使用する言語を、各音声翻訳装置２６００の識別子と対応づけて記憶するものである。第１の実施の形態では音声翻訳装置１００に接続した際、または通話が開始されたときに端末装置２００から音声翻訳装置１００に使用言語を通知していたが、本実施の形態では各音声翻訳装置２６００が接続したときに、互いに使用している言語の情報を交換して言語記憶部２６２０に保存する。

生成部２６５０は、他の音声翻訳装置２６００から受信した音声を、自装置の使用言語へ翻訳した翻訳音声を生成するものである。例えば、使用言語が日本語の場合は、少なくとも受信した音声の言語から日本語へ変換する機能を有する必要があるが、日本語から他言語へ翻訳する機能は有する必要はない。生成した翻訳音声は出力制御部２６６０に出力される。

また、生成部２６５０は、第１の実施の形態の生成部１４０と異なり、出力端末番号を含む出力情報を出力制御部２６６０に出力する。また、この出力情報は各音声翻訳装置２６００間でも送受信される。図２８は、生成部２６５０が出力する出力情報の一例を示す説明図である。

同図に示すように、出力情報には、入力端末番号と、入力音声区間と、出力音声区間番号と、出力端末番号とが含まれている。第１の実施の形態の生成部１４０から出力される出力情報とは、出力音声および言語情報を削除し、音声を出力する音声翻訳装置２６００の番号である出力端末番号を追加した点が異なっている。

出力制御部２６６０は、各音声の出力タイミングを制御するものであり、判定部２６５１と、出力処理部２６５２とを備えている。

判定部２６５１は、各声区間に対してすべての音声翻訳装置２６００で翻訳音声が生成されたか否かを判定することにより、翻訳音声が出力可能か否かを決定するものである。

出力処理部２６５２は、判定部２６５１によりすべての音声翻訳装置２６００で翻訳音声が生成された音声区間について、翻訳音声と当該音声区間に相当する翻訳元の音声とを出力するものである。

このように、第１の実施の形態では言語ごとに翻訳音声が生成されたか否かを判定し、音声を出力していたのに対し、第４の実施の形態では、音声翻訳装置２６００ごとに判定して出力する点が異なっている。

これは、第１の実施の形態のように一括して音声翻訳を行っていた場合と異なり、同じ方向の翻訳が別々の音声翻訳装置２６００で動作するケースも考えられるためである。例えば、音声翻訳装置Ａおよび音声翻訳装置Ｂの使用言語が日本語で、音声翻訳装置Ｃの使用言語が英語だった場合、音声翻訳装置Ｃから入力された音声は音声翻訳装置Ａ、Ｂでそれぞれ別々に音声翻訳処理がなされる。

この場合、音声翻訳装置ＡとＢで音声翻訳処理が全く同時に開始され、全く同時に終了することはほとんどの場合起きることはなく、大きくずれることも十分に考えられる。したがって、ずれを最小限にするために、音声翻訳装置ごとに判定および音声出力処理を行う。なお、各区間を表す時刻については、音声翻訳装置間で同期が取れていることを前提とする。

次に、このように構成された第４の実施の形態にかかる音声翻訳装置２６００による音声翻訳処理について説明する。図２９は、第４の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。

まず、音声入力部２０１が、音声の入力を受付ける（ステップＳ２９０１）。次に、送信部２０２が、入力音声を他の音声翻訳装置２６００に送信する（ステップＳ２９０２）。

他の音声翻訳装置２６００から送信された音声については、第１受信部２０３が受信する（ステップＳ２９０３）。第１受信部２０３は、言語記憶部２６２０に記憶した装置ごとの使用言語を参照し、自装置と同一の言語を使用している音声翻訳装置２６００から受信した場合は、出力制御部２６６０に音声を出力する。さらに、図２８の情報を他の音声翻訳装置２６００に送信する。一方、第１受信部２０３は、異なる言語を使用している音声翻訳装置２６００から受信した場合は、生成部２６５０に音声を出力する。

生成部２６５０は、受け取った音声を自装置の使用言語を対象言語として翻訳して翻訳音声を生成し（ステップＳ２９０４）、図２８に示すような出力情報を出力制御部２６６０に出力する（ステップＳ２９０５）。また、送信部２０２が、他の音声翻訳装置２６００に対して出力情報を送信する（ステップＳ２９０６）。

一方、他の音声翻訳装置２６００から出力情報が送信された場合は、第２受信部２６７０によって受信される（ステップＳ２９０７）。出力制御部２６６０は、受信した出力情報を用いて、第１の実施の形態と同様の方法により、出力可能な音声区間の判定を行う音声出力処理を実行する（ステップＳ２９０８）。この際、上述のように言語ごとではなく、音声翻訳装置２６００ごとに判定を行う。

なお、出力制御部２６６０は、他の音声翻訳装置２６００から受信した音声を混合しながら音声記憶部２６１０に保存する。

音声出力処理で、出力可能な音声区間が判明した場合、当該音声区間の音声が音声記憶部２６１０から取得され、音声出力部２０４によって出力される（ステップＳ２９０９）。

なお、ステップＳ２９１０からステップＳ２９１８までは、他の音声翻訳装置２６００が実行する音声翻訳処理であるが、ステップＳ２９０１からステップＳ２９０９までと同様の処理となるため、説明は省略する。

このように、第４の実施の形態にかかる音声翻訳装置では、同様の機能を備えた他の音声翻訳装置との間で翻訳音声に関する情報を送受信し、ある参加者の音声に対する翻訳音声がすべての音声翻訳装置で揃った場合に、音声の出力を行うことができる。このため、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。

（第５の実施の形態）
第５の実施の形態にかかる音声翻訳装置は、所定の遅延時間を経過後に翻訳音声を出力することにより、音声の途切れを最小限に抑止するものである。

図３０は、第５の実施の形態にかかる音声翻訳装置３０００の構成を示すブロック図である。同図に示すように、音声翻訳装置３０００は、音声記憶部１１０と、対応記憶部１２０と、受信部１３０と、生成部１４０と、出力制御部３０５０と、送信部１６０と、を備えている。

第５の実施の形態では、出力制御部３０５０の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

出力制御部３０５０は、各音声の出力タイミングを制御するものであり、判定部１５１と、出力処理部１５２と、遅延部３０５３とを備えている。判定部１５１と、出力処理部１５２の機能は、第１の実施の形態と同様であるのでその説明を省略する。

遅延部３０５３は、所定の遅延時間経過後に音声が出力されるように、音声出力を遅延させるものである。遅延処理の詳細については後述する。

次に、このように構成された第５の実施の形態にかかる音声翻訳装置３０００による音声翻訳処理について説明する。第５の実施の形態の音声翻訳処理の全体の流れは、第１の実施の形態の図６と同様であるが、ステップＳ６０５の音声出力処理の詳細が異なっている。図３１は、第５の実施の形態における音声出力処理の全体の流れを示すフローチャートである。

ステップＳ３１０１からステップＳ３１０５までの、音声混合処理、出力判定処理、最短区間算出処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ７０１からステップＳ７０５までと同様の処理なので、その説明を省略する。

ステップＳ３１０５で、出力可能な最短区間が存在する場合は（ステップＳ３１０５：ＹＥＳ）、遅延部３０５３は、音声の出力を遅延させる遅延処理を実行する（ステップＳ３１０６）。遅延処理の詳細は後述する。

遅延処理が実行された後、出力処理部１５２は、音声記憶部１１０から最短区間に対応する音声を取得して出力する（ステップＳ３１０７）。

次に、ステップＳ３１０６の遅延処理について説明する。まず、図３２を参照して遅延処理の概念について説明する。図３２は、複数の出力可能な音声区間を遅延して出力するときの音声区間の関係を模式的に示した説明図である。

受信部１３０が入力音声を受信した時刻をそれぞれｔ_i1b、ｔ_i2b、ｔ_i3b、・・・とする。時刻には実際の世界標準時を用いてもよいし、システムが稼動してからの経過時間、ユーザがシステムの使用を開始してからの経過時刻を用いてもよい。

入力音声区間が「入力」行に長方形で表されており、この長方形はその区間に割り当てられている時刻順に並べられる。長方形の中に記述している番号は、音声を受信した順に付与した番号である。

実際に音声翻訳装置３０００に届く音声は連続的であるので、音声を受信した時点でこのような区間が定められているわけではない。第１の実施の形態で述べたように、生成部１４０が音声区間ごとに音声を区切る処理を行うため、生成部１４０により区切られた区間が同図の長方形に対応付けられている。この区間は音声区間であってもよいし、非音声区間であってもよい。

「出力」行は、判定部１５１により出力すると判定された時刻を表したものである。長方形内の番号は入力音声区間の番号に対応しており、例えば出力の１番の音声は入力の１番の音声を元に生成された音声であることを示している。ここで、「生成された音声」とは音声翻訳によって生成された音声だけでなく、入力言語と出力言語とが同一である場合に、入力音声がそのまま出力音声になる場合も含まれる。

「遅延出力」行は、遅延部３０５３により音声を出力すると判定された時刻を表したものである。遅延出力行のタイミングで音声が判定部１５１から出力される。所定の遅延時間ｔ_delayは最小の遅延時間を表している。すなわち、ｔ_delayよりも短い遅延時間で音声が出力されることはない。

次に、遅延処理の詳細について説明する。図３３は、遅延処理の全体の流れを示すフローチャートである。

まず、遅延部３０５３は、出力可能な音声区間の区間番号をｘとし（ステップＳ３３０１）、現在時刻（ｔ_current）を、出力開始時刻（ｔ_oxb）に代入する（ステップＳ３３０２）。

次に、遅延部３０５３は、出力開始時刻（ｔ_oxb）から、当該区間の入力音声を受信した時刻（ｔ_ixb）を減算した差分が、所定の遅延時間（ｔ_delay）より小さいか否かを判断する（ステップＳ３３０３）。

差分が所定の遅延時間より小さい場合は（ステップＳ３３０３：ＹＥＳ）、遅延部３０５３は、ｔ_oxb−ｔ_ixb≧ｔ_delayを満たす時刻まで待機する（ステップＳ３３０４）。

差分が所定の遅延時間より小さくない場合は（ステップＳ３３０３：ＮＯ）、既に所定の遅延時間を超えて遅延が発生していると判断できるため、遅延部３０５３は、遅延処理を終了する。

次に、図３２を用いて、遅延処理の具体例について説明する。まず、遅延部３０５３は、出力処理部１５２から区間番号を受け取ると遅延処理を開始する。ここでは、同図の最初の「入力」行の区間番号＝１を受信した場合を想定して説明する。

ステップＳ３３０１でｘに１が代入され、ステップＳ３３０２で現在時刻ｔ_currentを出力開始時刻ｔ_o1bに代入する。

同図の例では、ｔ_o1b−ｔ_i1bはｔ_delayより小さいため（ステップＳ３３０３：ＹＥＳ）、ｔ_oxb−ｔ_ixb≧ｔ_delayを満たす時刻まで待機する（ステップＳ３３０４）。

次に、区間番号＝２を受信した場合について説明する。区間番号＝２の場合、ｔ_o2b−ｔ_i2bはｔ_delayより小さいため（ステップＳ３３０３：ＹＥＳ）、区間番号＝１の場合と同様に遅延が行われる（ステップＳ３３０４）。この場合は、ｔ_d2b−ｔ_i2b＝ｔ_delayであるため、無音区間が挿入されることなく、区間番号１の音声区間の音声に続けて区番号２の音声区間の音声が出力される。

次に、区間番号＝３を受信した場合について説明する。区間番号＝３の場合、ｔ_o3b−ｔ_i3bはｔ_delayよりも大きい、すなわち、翻訳による遅延時間が所定の遅延時間ｔ_delayよりも大きいため、遅延を挿入する必要はない。

音声翻訳の結果、入力音声を元にした出力音声が、入力音声の入力された順に出力されるとは限らない。同図の区間番号＝４、５の区間がこのようなケースを表している。この例では、区間番号＝５の入力音声を元にした出力音声が区間番号＝４の入力音声を元にした出力音声よりも先に出力される。

そもそもｔ_delayだけ遅延させているのは、出力音声を途切れにくくするためである。したがって、区間番号＝５の「出力」行の音声区間の始端ｔ_o4bが、区間番号＝４の入力区間の始端ｔ_i4bにｔ_delayを加えた値を超えていなければ、遅延を挿入する必要はない。

区間番号＝５の音声区間の音声を出力した後で、区間番号＝４の音声区間の音声の出力が行われ、両者を合わせた結果、少なくともｔ_delayは遅延するからである。なお、同図に示すように、「出力」行の区間番号＝５の音声区間の始端時刻はｔ_o4bと記載しているため、ｔ_oxbのｘの部分は、必ず時刻の値の小さい順に並べられる。このようにすることで、入れ替わりが存在するかどうかをチェックすることなしに、遅延を挿入するかどうかの判断を行うことができる。

なお、本実施の形態では、第１の実施の形態を元に遅延処理を加えた例について説明したが、他の実施の形態に対しても適用可能である。

このように、第５の実施の形態にかかる音声翻訳装置では、所定の遅延時間を経過後に翻訳音声を出力することにより、音声の途切れを最小限に抑止することができる。

（第６の実施の形態）
第５の実施の形態では、遅延部により出力可能であると判定した場合であっても、先に出力すべき音声がまだ出力中であれば、その出力処理が終了するまで待つことになる。このため、一旦、所定の遅延時間（ｔ_delay）を超えて翻訳処理の遅延が発生すると、実質的にはその時間が遅延時間となるという問題がある。すなわち、ｔ_delay以上に翻訳処理が遅延した場合、遅延時間をｔ_delayにまで戻すことができない。

第６の実施の形態にかかる音声翻訳装置は、所定の遅延時間以上に翻訳処理が遅延した場合に、出力する翻訳音声の発声時間を短縮することにより、遅延時間を最小限に抑止するものである。

図３４は、第６の実施の形態にかかる音声翻訳装置３４００の構成を示すブロック図である。同図に示すように、音声翻訳装置３４００は、音声記憶部１１０と、対応記憶部１２０と、受信部１３０と、生成部１４０と、出力制御部３４５０と、送信部１６０と、を備えている。

第６の実施の形態では、出力制御部３４５０の機能が第５の実施の形態と異なっている。その他の構成および機能は、第５の実施の形態にかかる音声翻訳装置３０００の構成を表すブロック図である図３０と同様であるので、同一符号を付し、ここでの説明は省略する。

出力制御部３４５０は、各音声の出力タイミングを制御するものであり、判定部１５１と、出力処理部１５２と、遅延部３０５３と、短縮部３４５４とを備えている。判定部１５１、出力処理部１５２、および遅延部３０５３の機能は、第５の実施の形態と同様であるのでその説明を省略する。

短縮部３４５４は、出力音声の長さである発声時間を短縮して送信部１６０に出力するものである。具体的には、短縮部３４５４は、出力音声の速度を増加させることにより音声長を短くする。また、短縮部３４５４は、無音検出アルゴリズムやノイズ検出アルゴリズムを用いて、無音部分やノイズ部分を検出し、検出した部分を削除することにより音声長を短くするように構成してもよい。

さらに、短縮部３４５４は、生成部１４０から音声区間と非音声区間とを区別する情報を受け取り、この情報参照して、非音声区間を削除することにより音声長を短くするように構成してもよい。

次に、このように構成された第６の実施の形態にかかる音声翻訳装置３４００による音声翻訳処理について説明する。第６の実施の形態の音声翻訳処理の全体の流れは、第５の実施の形態、したがって第１の実施の形態の図６と同様であるが、ステップＳ６０５の音声出力処理の詳細が異なっている。図３５は、第６の実施の形態における音声出力処理の全体の流れを示すフローチャートである。

ステップＳ３５０１からステップＳ３５０７までの、音声混合処理、出力判定処理、最短区間算出処理、遅延処理、音声取得出力処理は、第５の実施の形態にかかる音声翻訳装置３０００におけるステップＳ３１０１からステップＳ３１０７までと同様の処理なので、その説明を省略する。

ステップＳ３１０７で出力処理部１５２から音声が出力された後、短縮部３４５４は、出力された音声の発声時間を短縮して出力する出力時間短縮処理を実行し（ステップＳ３５０８）、音声出力処理を終了する。

次に、ステップＳ３５０８の出力時間短縮処理の詳細について説明する。図３６は、第６の実施の形態における音声出力処理の全体の流れを示すフローチャートである。

まず、短縮部３４５４は、翻訳処理の遅延時間が、所定の遅延時間（ｔ_delay）より大きいか否か、すなわち、ｔ_dxb−ｔ_ixb＞ｔ_delayを満たすか否かを判断する（ステップＳ３６０１）。

ｔ_dxb−ｔ_ixb＞ｔ_delayを満たす場合は（ステップＳ３６０１：ＹＥＳ）、短縮部３４５４は、音声を短縮し（ステップＳ３６０２）、短縮した音声を出力する（ステップＳ３６０３）。具体的には、上述のように、出力音声の発声速度を速くすること、または出力音声に含まれる無音や雑音を削除することなどにより、音声の発声時間を短縮する。

ｔ_dxb−ｔ_ixb＞ｔ_delayを満たさない場合は（ステップＳ３６０１：ＮＯ）、短縮部３４５４は、短縮処理を実行せずに音声を出力する（ステップＳ３６０３）。

次に、短縮処理の具体例について説明する。図３７は、短縮処理を行った音声区間の一例を示した模式図である。

同図の「入力」行では、受信部１３０が入力音声を受信したときの時刻で区切られた入力音声区間と、当該入力音声区間の音声を受信した順に付与された番号とが示されている。
「出力」行では、音声が出力された時刻と対応づけられた出力音声区間が示されている。「短縮部の出力」行では、短縮部３４５４から音声が出力された時刻と対応づけられた区間が示されている。

「短縮部の出力」行の区間１の長さが、対応する「出力」行の区間よりも短くなっているが、これは短縮部３４５４が入力された音声を短くして出力したことを表している。

なお、第６の実施の形態では、以下に示すようなさまざまな変形が可能である。

（変形例１）
第６の実施の形態では、一定の遅延時間（ｔ_delay）を事前に設定しておき、少なくともその時間は遅延させて音声を出力していた。これに対し、遅延時間を固定とするのではなく、過去の翻訳処理の遅延を参照して動的に変動させた遅延時間を用いて遅延処理を行う変形例が考えられる。

まず、遅延部３０５３が処理を行う前の翻訳処理の遅延時間のうち、最近のものから、予め定められた個数（以下、ｎとする。）の遅延時間を取得する。ここで、最近に出力した遅延時間を１番目として、ｉ番目の遅延時間をＬ_iとする。過去に戻るほどｉは増えるとする。例えば、図３２の例で、区間番号＝３の音声区間を出力し終わったあとであれば、最近の遅延時間Ｌ₁はｔ_o3b−ｔ_i3bであり、Ｌ₂はｔ_o2b−ｔ_i2bとなる。遅延時間は以下の（１）式で算出される。

区間が存在せず、Ｌ_iが計算できない場合は、ゼロとして計算すればよい。

すなわち、過去ｎ個の遅延時間の平均値にαをかけたものをｔ_delayとして算出する。なお、単に平均値をｔ_delayとすると、過小評価される可能性があるため、一定の係数αとの積を算出している。αを大きくすれば、音声が途切れる頻度を減らすことができる。

このように、判定に用いる遅延時間を動的に変動させることによって、翻訳処理で発生する実際の遅延時間が、ｔ_delayよりも短くなる可能性を低減することができる。すなわち、事前に遅延時間（ｔ_delay）を設定する場合に比べ、音声出力の遅延時間を縮小することができる。

（変形例２）
質問に対する返事（「はい」、「いいえ」）などのような短い発声を元にして、上述の変形例１のように遅延時間の算出を行うと、所定の遅延時間ｔ_delayが過小となり、音声の途切れの発声や、出力速度の増加が頻繁に発生する可能性が高い。これを避けるため、短い発声をｔ_delayの算出に使用しない変形例が考えられる。すなわち、音声翻訳の元の音声の長さが所定の長さ以下の場合はｔ_delayの算出にその区間を使用しないようにする。

同様に、音声翻訳に使用していない無音や雑音の音声区間を、ｔ_delayの算出に使用すると、算出されるｔ_delayの値が過大または過小となる可能性がある。これに対しては、生成部１４０が、非音声区間であるか否かを表す情報を付与した出力情報を出力し、ｔ_delayの算出の際に、出力情報を参照して非音声区間である区間を遅延時間算出に使用しないようにする。

このように、第６の実施の形態にかかる音声翻訳装置では、所定の遅延時間以上に翻訳処理が遅延した場合に、出力する翻訳音声の発声時間を短縮することができるため、遅延時間が大きくなった状態が続くことを防止することができる。

（第７の実施の形態）
第７の実施の形態にかかる音声翻訳装置は、音声とともに動画を入力する端末装置から音声と動画を受信し、端末装置に対し、翻訳した音声と同期して動画を出力するものである。

図３８は、第７の実施の形態にかかる端末装置３８００の構成を示すブロック図である。同図に示すように、端末装置３８００は、音声入力部２０１と、送信部２０２と、第１受信部２０３と、音声出力部２０４と、撮像部３８０１と、第２受信部３８０２と、画像表示部３８０３と、を備えている。

第７の実施の形態では、撮像部３８０１と、第２受信部３８０２と、画像表示部３８０３とを追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる端末装置２００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

撮像部３８０１は、参加者の映像を撮像して動画を出力するものであり、一般的に利用されているカメラなどのあらゆる撮像装置により構成することができる。第２受信部３８０２は、音声翻訳装置３９００から送信された翻訳処理の遅延時間を受信するものである。画像表示部３８０３は、参加者に対して動画やテキストを画像表示する表示装置であり、ディスプレイ装置などの従来から用いられているあらゆる表示装置を適用できる。

このように、第７の実施の形態の端末装置３８００は、音声だけでなく動画を入出力するためのユーザインターフェースを備えている。

図３９は、第７の実施の形態にかかる音声翻訳装置３９００の構成を示すブロック図である。同図に示すように、音声翻訳装置３９００は、音声記憶部１１０と、対応記憶部１２０と、受信部３９３０と、生成部１４０と、出力制御部３９５０と、送信部３９６０と、動画記憶部３９７０と、を備えている。

第７の実施の形態では、動画記憶部３９７０を追加したこと、受信部３９３０、出力制御部３９５０、および送信部３９６０の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

動画記憶部３９７０は、各端末装置２００から受信した動画を記憶するものである。動画は、言語依存性が存在しないので、端末装置ごとの記憶部（端末１記憶部３９７１、端末２記憶部３９７２、・・・、端末ｎ記憶部３９７ｎ）に記憶する。

受信部３９３０は、各端末装置２００から音声だけでなく動画を受信するものである。受信部３９３０は、生成部１４０に対しては音声だけを出力し、出力制御部３９５０に対しては、音声と動画とを出力する。

出力制御部３９５０は、生成部１４０から翻訳音声を受け取るとともに、受信部３９３０から受信した音声および動画を受け取る。出力制御部３９５０は、受け取った動画を動画記憶部３９７０に保存する。また、出力制御部３９５０は、翻訳音声が出力可能と判定した場合に、受け取った音声と動画を音声記憶部１１０および動画記憶部３９７０から取得し、送信部３９６０に出力する。

この場合、出力制御部３９５０は、出力可能な音声区間の音声長と同じ長さの動画を、動画記憶部３９７０から取得する。入力音声の言語と同じ言語を使用する端末装置３８００が出力先に存在する場合は、出力可能な音声区間の出力順は元の音声と同一である。しかし、入力音声の言語と異なる言語の音声の場合には、出力音声の出力順序が元の音声の出力順序と異なる場合が発生しうる。このために、出力する音声長と同じ長さの動画を元の音声の出力順と同じ順に出力する。

なお、出力音声長が入力音声長よりも長くなった場合には、動画の出力速度を落とすことで対処できる。逆に短くなった場合には動画の出力速度を上げることで対処できる。

送信部３９６０は、音声と動画とを対応づけて端末装置３８００に送信するものである。

次に、このように構成された第７の実施の形態にかかる音声翻訳装置３９００による音声翻訳処理について説明する。図４０は、第７の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。

まず、端末装置３８００の撮像部３８０１が、動画を撮像し（ステップＳ４００１）、音声入力部２０１から入力された音声とともに（ステップＳ４００２）、送信部２０２によって音声翻訳装置３９００に送信される（ステップＳ４００３）。

音声翻訳装置３９００の受信部３９３０は、音声と動画を受信する（ステップＳ４００４）。次に、出力制御部３９５０は、翻訳による遅延時間を予測して端末装置３８００に送信する（ステップＳ４００５）。

端末装置３８００の第２受信部３８０２は、遅延時間を受信し（ステップＳ４００６）、画像表示部３８０３によって画面に表示される（ステップＳ４００７）。遅延時間の表示方法については後述する。

音声翻訳装置３９００では、第１の実施の形態のステップＳ６０４からステップＳ６０６までと同様の処理により、翻訳処理、音声出力処理、および送信先決定処理が実行される（ステップＳ４００８、ステップＳ４００９、ステップＳ４０１０）。

次に、送信部３９６０が、出力可能な音声と対応する動画を端末装置３８００に送信する（ステップＳ４０１１）。

端末装置３８００の第１受信部２０３は、送信された音声および動画を受信し（ステップＳ４０１２）、音声出力部２０４および画像表示部３８０３によってそれぞれ出力される（ステップＳ４０１３、ステップＳ４０１４）。

次に、遅延時間の表示方法について説明する。図４１は、端末装置３８００に表示される表示画面の一例を示した説明図である。

同図に示すように、表示画面４１００には、複数の参加者を表示する４つの表示領域の他に、自装置を使用している参加者の発声した音声の翻訳状況を表示するプログレスバー４１０１と、他の参加者が発声中であることを示す表示領域４１０２と、当該発声中の音声が自装置に出力されるまでの処理状況を表示するプログレスバー４１０３とが含まれている。

音声翻訳による遅延は数秒から数十秒にも渡る場合も起こりえるため、遅延の程度をユーザが把握できないと円滑に会議が進行できない場合がある。例えば相手の返事を待つ場合に、どのくらい待てばよいのかを判断することができない。この問題を回避するため、自分の発言が終了してから、その発言が相手に出力されるまでに必要な時間を明示するためのプログレスバーを表示している。なお、処理状況の表示方法は、プログレスバーに限られるものではなく、完了までの時間を数字でカウントダウンして表示する方法などのあらゆる方法を適用できる。

同図は、使用されている端末装置３８００の個数が５つの場合の画面例を表している。自装置のユーザの表示は必須ではないのでこの画面例では表示していないが、表示するように構成してもよい。

他の端末装置３８００のユーザが話し始めると、表示領域４１０２に話し中であることを示す表示を行い、ユーザに注意を促す。また、プログレスバー４１０３に、相手の声が出力されるまでの時間を表示することで、ユーザはあとどのくらい待てばよいのかを把握できる。

遅延時間の予想は、音声翻訳装置３９００の出力制御部３９５０が、過去の遅延時間の平均値を取ることなどによって計算する。また、発声中か否かは、生成部１４０で非音声区間から音声区間に変わったことで判断できる。

なお、第５の実施の形態および第６の実施の形態のように、所定の遅延時間を加えて音声および動画を出力するように構成することも可能である。

なお、遅延時間を短縮する場合は、音声を短縮するとともに、動画の出力時間である動画長も短くする必要がある。この場合は、例えば、動作を検出する技術を適用して動作していない部分を検出して削除する方法や、一定の割合で画像を間引くことで、動画の長さを短くする方法など、従来から用いられているあらゆる方法を適用できる。

このように、第７の実施の形態にかかる音声翻訳装置では、音声とともに動画を送受信することができるため、動画を用いたテレビ会議システムなどでも、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。また、遅延時間や発声中であることを画面に表示することができるため、ユーザは処理状況を把握することができ、会議を円滑に進行することが可能となる。

図４２は、第１〜第７の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

第１〜第７の実施の形態にかかる音声翻訳装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

第１〜第７の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、第１〜第７の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第７の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、第１〜第７の実施の形態の音声翻訳プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１〜第７の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、上述した各部（受信部、生成部、出力制御部、送信部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置は、複数の参加者の音声を翻訳して他の参加者に提供する電子会議システムにおける音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。

第１の実施の形態にかかる会議システムの構成を示す説明図である。第１の実施の形態にかかる端末装置の構成を示すブロック図である。第１の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。生成部が出力する出力情報の一例を示す説明図である。音声記憶部に記憶された音声の一例を模式的に示した説明図である。第１の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。音声出力処理の全体の流れを示すフローチャートである。端末ごとの出力可能な音声区間の情報の一例を示した説明図である。出力判定処理の全体の流れを示すフローチャートである。判定処理を表した擬似コードの一例を示す説明図である。出力音声を格納した音声記憶部の一例を示す説明図である。出力音声を格納した音声記憶部の一例を示す説明図である。出力音声を格納した音声記憶部の一例を示す説明図である。出力音声を格納した音声記憶部の一例を示す説明図である。第２の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。第２の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。第２の実施の形態における音声出力処理の全体の流れを示すフローチャートである。第３の実施の形態にかかる端末装置の構成を示すブロック図である。第１受信部により受信される出力情報の一例を示す説明図である。音声翻訳装置の構成を示すブロック図である。出力情報の一例を示す説明図である。出力情報の一例を示す説明図である。出力情報の一例を示す説明図である。第３の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。第３の実施の形態における出力区間判定処理の全体の流れを示すシーケンス図である。第４の実施の形態にかかる会議システムの構成を示す説明図である。第４の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。生成部が出力する出力情報の一例を示す説明図である。第４の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。第５の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。第５の実施の形態における音声出力処理の全体の流れを示すフローチャートである。音声区間の関係を模式的に示した説明図である。遅延処理の全体の流れを示すフローチャートである。第６の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。第６の実施の形態における音声出力処理の全体の流れを示すフローチャートである。第６の実施の形態における音声出力処理の全体の流れを示すフローチャートである。短縮処理を行った音声区間の一例を示した模式図である。第７の実施の形態にかかる端末装置の構成を示すブロック図である。第７の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。第７の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。端末装置に表示される表示画面の一例を示した説明図である。第１〜第７の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声翻訳装置
１１０音声記憶部
１１ｎ言語ｎ記憶部
１２０対応記憶部
１２１マッピングテーブル
１３０受信部
１４０生成部
１５０出力制御部
１５１判定部
１５２出力処理部
１６０送信部
１６１送信先決定部
２００端末装置
２０１音声入力部
２０２第１送信部
２０３受信部
２０４音声出力部
３００ネットワーク
１５００音声翻訳装置
１５１０音声記憶部
１５１ｎ端末Ｎ記憶部
１５５０出力制御部
１５５２出力処理部
１５６０送信部
１５６２混合部
１８００端末装置
１８０５保存部
１８０６第２受信部
１８０７出力処理部
１８１０音声記憶部
２０００音声翻訳装置
２０３０受信部
２０４０生成部
２０５０出力制御部
２０５２出力処理部
２０６０送信部
２６００音声翻訳装置
２６１０音声記憶部
２６１ｎ装置ｎ記憶部
２６２０言語記憶部
２６５０生成部
２６５１判定部
２６５２出力処理部
２６６０出力制御部
２６７０第２受信部
３０００音声翻訳装置
３０５０出力制御部
３０５３遅延部
３４００音声翻訳装置
３４５０出力制御部
３４５４短縮部
３８００端末装置
３８０１撮像部
３８０２第２受信部
３８０３画像表示部
３９００音声翻訳装置
３９３０受信部
３９５０出力制御部
３９６０送信部
３９７０動画記憶部
３９７ｎ端末ｎ記憶部
４１００表示画面
４１０１プログレスバー
４１０２表示領域
４１０３プログレスバー

Claims

ネットワークを介して複数の端末装置に接続可能な音声翻訳装置であって、
前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、
前記端末装置から音声を受信する受信手段と、
受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、
すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手段と、
出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手段と、
を備えたことを特徴とする音声翻訳装置。
さらに、前記出力処理手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記音声を出力し、
前記送信手段は、出力された前記音声を、前記対応記憶手段における前記原言語に対応する前記識別子で識別される前記端末装置に送信すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記判定手段は、任意の前記対象言語の前記翻訳音声が生成された場合に、生成された前記翻訳音声の前記対象言語である第１言語で次に出力すべき第１音声区間と、前記第１言語以外の前記対象言語で前記第１音声区間の終端時刻より前に出力すべき第２音声区間とに対して、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定し、
前記出力処理手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記第１音声区間と前記第２音声区間とに対応する前記翻訳音声と前記音声とを出力すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記生成手段は、複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記生成手段は、複数の前記対象言語間で前記翻訳音声の発声時間が略同一でない場合に、前記翻訳音声の発声速度を増減することにより複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
を特徴とする請求項４に記載の音声翻訳装置。
前記生成手段は、複数の前記対象言語間で前記翻訳音声の発声時間が略同一でない場合に、前記翻訳音声の前または後ろの少なくとも一方に無音の音声を付加することにより複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
を特徴とする請求項４に記載の音声翻訳装置。
前記対象言語ごとに前記翻訳音声または前記音声を混合した混合音声を記憶可能な音声記憶手段をさらに備え、
前記出力処理手段は、さらに前記音声記憶手段に記憶された前記混合音声と生成された前記翻訳音声または前記音声とを前記対象言語ごとに混合し、混合した前記混合音声を前記音声記憶手段に保存し、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に前記混合音声を出力すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記端末装置のそれぞれについて、前記対象言語ごとに前記翻訳音声または前記音声を記憶可能な音声記憶手段をさらに備え、
前記出力処理手段は、さらに生成された前記翻訳音声と前記音声とを前記音声記憶手段に保存し、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記対象言語の前記翻訳音声と前記音声とを前記音声記憶手段から取得して出力し、
前記送信手段は、前記音声の送信元である前記端末装置に対しては、前記音声記憶手段に記憶された前記端末装置に対応する前記対象言語の前記翻訳音声のみを前記対象言語ごとに混合して送信し、前記音声の送信元でない前記端末装置に対しては、前記音声記憶手段に記憶された前記端末装置に対応する前記対象言語の前記翻訳音声および前記音声を前記対象言語ごとに混合して送信すること、
を特徴とする請求項１に記載の音声翻訳装置。
すべての前記対象言語で前記翻訳音声が生成されたと判定された第１時刻から、前記音声が受信された第２時刻を減算した第１差分を算出し、算出した前記第１差分が予め定められた第１閾値より小さい場合に、前記第２時刻から前記第１閾値が経過するまで前記翻訳音声と前記音声との出力を遅延する遅延手段をさらに備え、
前記出力処理手段は、前記遅延手段による遅延後に、生成された前記翻訳音声と前記音声とを出力すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記第１差分が前記第１閾値より大きい場合に、前記出力処理手段によって出力された前記翻訳音声と前記音声との発声時間を、前記第１差分から前記第１閾値を減算した第２差分に相当する時間だけ短縮する短縮手段をさらに備えたこと、
を特徴とする請求項９に記載の音声翻訳装置。
前記短縮手段は、前記翻訳音声と前記音声との発声速度を増加させることにより前記翻訳音声と前記音声との発声時間を短縮すること、
を特徴とする請求項１０に記載の音声翻訳装置。
前記短縮手段は、前記翻訳音声と前記音声とのそれぞれに含まれる無音または雑音の少なくとも一方を検出し、検出した無音または雑音を削除することにより、前記翻訳音声と前記音声との発声時間を短縮すること、
を特徴とする請求項１０に記載の音声翻訳装置。
前記遅延手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された第１音声区間より前に前記翻訳音声と前記音声とが出力済みである予め定められた個数の第２音声区間のそれぞれについて、前記第１時刻から前記第２時刻を減算した第１差分を算出し、算出した前記第１差分の平均値と予め定められた係数との積を算出し、算出した前記積より前記第１差分が小さい場合に、前記第２時刻から前記第１閾値が経過するまで、前記第１音声区間の前記翻訳音声と前記音声との出力を遅延すること、
を特徴とする請求項９に記載の音声翻訳装置。
前記遅延手段は、前記第１音声区間より前に前に前記翻訳音声と前記音声とが出力済みであり、予め定められた第２閾値より大きい前記個数の前記第２音声区間を用いて前記積を算出すること、
を特徴とする請求項１３に記載の音声翻訳装置。
前記受信手段は、前記端末装置から前記音声と対応づけられた映像をさらに受信し、
前記送信手段は、前記翻訳音声または前記音声に前記映像をさらに対応づけて送信すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記生成手段は、受信した前記音声と発声時間が略同一である前記翻訳音声を生成すること、
を特徴とする請求項１５に記載の音声翻訳装置。
前記生成手段は、受信した前記音声の発声時間より前記翻訳音声の発声時間が短い場合に、前記翻訳音声の前または後ろの少なくとも一方に無音の音声を付加することにより、受信した前記音声と発声時間が略同一である前記翻訳音声を生成すること、
を特徴とする請求項１６に記載の音声翻訳装置。
複数の端末装置と、ネットワークを介して複数の前記端末装置に接続可能な音声翻訳装置とを備えたシステムであって、
前記音声翻訳装置は、
前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、
前記端末装置から音声を受信する第１受信手段と、
受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
生成された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信し、受信された前記音声を、前記対応記憶手段における前記原言語に対応する前記識別子で識別される前記端末装置に送信する第１送信手段と、
任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、
すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、判定された前記音声の区間である音声区間に関する区間情報を出力する第１出力処理手段と、を備え、
前記第１送信手段は、さらに出力された前記区間情報を前記端末装置に送信し、
前記端末装置それぞれは、
前記翻訳音声または前記音声を混合した混合音声を記憶可能な音声記憶手段と、
音声を入力する音声入力手段と、
入力された前記音声を前記音声翻訳装置に送信する第２送信手段と、
送信した前記音声の翻訳結果であって、前記翻訳音声を前記音声翻訳装置から受信する第２受信手段と、
前記音声記憶手段に記憶された前記混合音声に対して、受信した前記翻訳音声を混合し、混合した前記混合音声を前記音声記憶手段に保存する保存手段と、
前記音声翻訳装置から前記音声の区間である音声区間に関する区間情報を受信する第３受信手段と、
受信した前記区間情報で表される前記音声区間の前記混合音声を前記音声記憶手段から取得して出力する第２出力処理手段と、を備えたこと
を特徴とするシステム。
ネットワークを介して複数の外部音声翻訳装置に接続可能な音声翻訳装置であって、
使用言語を記憶する言語記憶手段と、
前記外部音声翻訳装置から音声を受信する第１受信手段と、
前記言語記憶手段に記憶された前記使用言語を対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
前記音声を前記外部音声翻訳装置の前記使用言語を対象言語として翻訳した翻訳音声を前記外部音声翻訳装置から受信する第２受信手段と、
任意の前記外部音声翻訳装置から前記翻訳音声を受信した場合に、すべての前記外部音声翻訳装置から前記翻訳音声を受信したか否かを判定する判定手段と、
すべての前記外部音声翻訳装置から前記翻訳音声を受信したと判定された場合に、生成手段により生成された前記翻訳音声を出力する出力処理手段と、
を備えたことを特徴とする音声翻訳装置。
ネットワークを介して複数の端末装置に接続可能な音声翻訳装置における音声翻訳方法であって、
受信手段によって、前記端末装置から音声を受信する受信ステップと、
生成手段によって、前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段から、受信した前記音声の言語である原言語と異なる前記使用言語を取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成ステップと、
判定手段によって、任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定ステップと、
出力処理手段によって、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理ステップと、
送信手段によって、出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信ステップと、
を備えたことを特徴とする音声翻訳方法。
ネットワークを介して複数の端末装置に接続可能な音声翻訳装置として機能するコンピュータに実行させるための音声翻訳プログラムであって、
前記端末装置から音声を受信する受信手順と、
前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段から、受信した前記音声の言語である原言語と異なる前記使用言語を取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手順と、
任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手順と、
すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手順と、
出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手順と、
を前記コンピュータに実行させるための音声翻訳プログラム。