JP4271224B2 - 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム - Google Patents

音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム Download PDF

Info

Publication number
JP4271224B2
JP4271224B2 JP2006263116A JP2006263116A JP4271224B2 JP 4271224 B2 JP4271224 B2 JP 4271224B2 JP 2006263116 A JP2006263116 A JP 2006263116A JP 2006263116 A JP2006263116 A JP 2006263116A JP 4271224 B2 JP4271224 B2 JP 4271224B2
Authority
JP
Japan
Prior art keywords
speech
output
voice
translated
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006263116A
Other languages
English (en)
Other versions
JP2008083376A (ja
Inventor
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006263116A priority Critical patent/JP4271224B2/ja
Priority to US11/723,409 priority patent/US8078449B2/en
Priority to CNA2007101472315A priority patent/CN101155291A/zh
Publication of JP2008083376A publication Critical patent/JP2008083376A/ja
Application granted granted Critical
Publication of JP4271224B2 publication Critical patent/JP4271224B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

この発明は、複数の利用者の音声を翻訳して他の利用者に提供する音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置に関するものである。
近年の情報技術の進展に伴い、複数の参加者が会議や打合せなどのコミュニケーションを行う電子会議システムが広く利用されている。このような電子会議システムでは、音声によるコミュニケーションを中心とした電話会議システムのほか、参加者の映像を音声とともに提供可能なテレビ会議システムも利用されている。
また、国際会議などのように異なる言語を母語とする参加者が存在する場合は、参加者の発話を翻訳して他の参加者に提供するために、音声を認識して翻訳処理を行う音声翻訳技術が利用されている。
一方、テレビ会議システムに音声翻訳技術を適用した場合、音声処理に時間がかかることにより、出力する映像と音声との同期がとれなくなるという問題がある。
これに対し、特許文献1では、同時に入力された映像信号と音声信号のうち、音声信号に対して音声翻訳処理を行い、音声合成波形が生成されたときに、映像信号の時間長が音声合成波形の時間長に応じた長さになるように映像信号に対して時間軸圧縮伸長処理を行い、処理後の映像信号と、音声翻訳処理によって生成された音声合成波形とを同時に出力させる技術が提案されている。
特開2001−224002号公報
しかしながら、特許文献1の方法では、音声翻訳に伴う音声と動画の時間的なずれは解消されているが、遠隔会議に参加している参加者間のずれは解消されていない。すなわち、翻訳対象言語が複数存在する場合には、各言語で翻訳処理の進行状況や、翻訳結果の出力順序が異なるため、ある参加者の発話に対する翻訳結果の出力のタイミングが、出力相手となる参加者によって大きく異なる可能性がある。
さらに、言語が異なるため翻訳した音声を聴いている参加者と、発話者と同一の言語を母語とするため発話そのものを聴いている参加者との間では、発声内容を聴くまでの時間に特に大きなずれが生じうる。このため、翻訳した音声を聴いている参加者が会議の進行についていくことが困難となる場合があった。
本発明は、上記に鑑みてなされたものであって、各参加者に発話内容を出力する時間差を最小限にすることができる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、ネットワークを介して複数の端末装置に接続可能な音声翻訳装置であって、前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、前記端末装置から音声を受信する受信手段と、受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手段と、出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる音声翻訳方法および音声翻訳プログラムである。
本発明によれば、すべての言語の翻訳音声が揃った時点で各参加者の端末装置に音声を出力することができるため、各参加者に発話内容を出力する時間差を最小限にすることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置の最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる音声翻訳装置は、翻訳元の音声の任意の音声区間についての翻訳音声がすべて揃うまでは翻訳音声を記憶しておき、すべての言語の翻訳音声が揃った時点で音声を出力するものである。
ここで、翻訳音声とは、入力された音声を翻訳して音声合成して出力された音声をいう。また、音声区間とは、入力された音声または出力された翻訳音声の一部を表すための情報をいう。音声区間の始端と終端を定義するための時刻には、例えば音声翻訳装置が動作を始めてからの経過時刻を利用する。この他、世界標準時を用いるように構成してもよい。
音声区間は、“[x、y)”の形式で表す。これは、xを始端とし、yを終端とする音声区間を意味する。なお、記号“[”は、その後に記載されたxを音声区間に含むことを意味し、記号“)”は、その前に記載されたyを音声区間に含まないことを意味する。
また、音声区間に対して、非音声区間という用語を用いる場合がある。非音声区間とは、音声翻訳装置が受信した音声のうち、音声翻訳に使用されない音声の区間をいう。非音声区間は、主に無音や雑音が存在する区間である。
音声翻訳装置が受信した翻訳元の音声のうち、音声翻訳に使用された音声区間を特に入力音声区間といい、翻訳音声の音声区間を特に出力音声区間という場合がある。
また、受信した音声を上述のように「翻訳元の音声」という場合のほか、「出力音声の生成元の音声」という場合がある。これは、発話者と同一の言語を母語とする他の参加者に対して受信した音声をそのまま出力する場合のように、音声翻訳をせずに直接出力する音声を含ませるためである。したがって、出力音声には、翻訳音声と、生成元の音声をそのまま出力した音声とを含む。
図1は、第1の実施の形態にかかる音声翻訳装置100を含む会議システムの構成を示す説明図である。同図に示すように、本会議システムは、音声翻訳装置100と、複数の端末装置200a、200b、200z(以下、端末装置200という。)とが、ネットワーク300を介して接続されている。
端末装置200は、各参加者に対して設置される音声の入出力を行う装置である。ネットワーク300は、音声データを伝送可能なネットワークであれば、電話回線、インターネット、無線ネットワークなどあらゆるネットワークを適用できる。
ここで、本実施の形態における音声翻訳処理の概要について説明する。本実施の形態では、音声と動画の時間的なずれを解消するだけでなく、参加者間の時間のずれについても解消することを目的としている。
なお、上記問題は次の条件でのみ発生する。(1)参加者が3人以上、(2)参加者のうち少なくとも1人は異なる言語を話す、(3)翻訳には言語的な制約や処理速度によって遅延が発生する、(4)各参加者間の声は音声翻訳装置100を通してのみ聞くことができる。
例えば、参加者が3人であり、そのうち1人だけが異なる言語を母語とする場合を想定する。同じ言語を話す参加者をA1とA2とし、異なる言語を話す参加者をB1とする。A1が端末装置200aを使用して話すと、音声がネットワーク300を通じて音声翻訳装置100に送信される。
音声翻訳の必要のないA2に対しては、すぐに音声を伝送せずに記憶しておく。B1へ伝送する音声は音声翻訳を実行し音声に変換する。この変換が完了した後、A2に対して記憶していた元の音声を伝送し、B1には音声翻訳後の音声を伝送する。
全員が異なる言語を話す場合も同様である。例えば、3人ともが異なる言語A,B,Cをそれぞれ母語とする場合を想定する。Aが端末装置200aを使用して話すと、音声翻訳装置100が発話した音声を受け取り、Bの言語とCの言語に変換する。ただし、この変換が同時に終了するわけではない。したがって、翻訳元の音声が同じである翻訳音声がすべて揃うまでは出力する音声を記憶しておき、すべての言語について出力音声が揃った時点で翻訳した音声を出力する。
このように、ある参加者に対して音声が出力可能になった場合であっても、他のすべての参加者に対して出力すべき音声が揃ってから音声を出力する。これにより、各参加者に発話内容を出力する時間差を最小限にし、参加者が会議の進行についていくことが困難となる問題を回避できる。
図2は、第1の実施の形態にかかる端末装置200の構成を示すブロック図である。同図に示すように、端末装置200は、音声入力部201と、送信部202と、第1受信部203と、音声出力部204と、を備えている。
音声入力部201は、入力された音声を電気信号(音声データ)に変換し、音声データを送信部202に出力するものである。以下では、音声データを単に音声という。音声入力部201は、一般的に用いられているマイクロフォンなどにより実現することができる。
送信部202は、音声入力部201が入力した音声を音声翻訳装置100に送信するものである。第1受信部203は、音声翻訳装置100が生成した翻訳音声または翻訳元の音声を受信するものである。
音声出力部204は、第1受信部203が受信した音声を出力するものであり、一般的なスピーカなどにより構成することができる。なお、音声入力部201および音声出力部204は、電話やヘッドセットのように一体的に構成されるものを用いてもよい。
図3は、第1の実施の形態にかかる音声翻訳装置100の構成を示すブロック図である。同図に示すように、音声翻訳装置100は、音声記憶部110と、対応記憶部120と、受信部130と、生成部140と、出力制御部150と、送信部160と、を備えている。
音声記憶部110は、各端末装置から受信した音声を言語ごとに記憶するものである。音声記憶部110は、言語ごとに音声を記憶するため、言語ごとの記憶部(言語1記憶部111、言語2記憶部112、・・・、言語n記憶部11n)を備えている。
対応記憶部120は、各端末装置で使用する使用言語を対応づけて記憶するものである。対応記憶部120には、端末装置を一意に識別する識別子と使用言語とを対応づけたマッピングテーブル121が記憶されている。
マッピングテーブル121には、端末装置200がネットワーク300を介して音声翻訳装置100に接続されたときに端末装置200側から送信された識別子と使用言語の情報が記憶される。
なお、音声記憶部110、および対応記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
受信部130は、各端末装置200からネットワーク300を介して送信される音声を受信するものである。なお、受信部130は、音声と共に送信された端末装置200の識別子も受信する。受信部130は、生成部140と出力制御部150とに受信した音声および識別子を渡す。出力制御部150に音声を渡すのは、当該音声と同一の言語を用いる端末装置200に対して当該音声をそのまま送信する場合があるためである。
生成部140は、音声翻訳装置100で使用されるすべての言語間で音声翻訳を行うものである。例えば、日本語、英語、中国語の3ヶ国語が使用される場合は、日本語と英語間、英語と中国語間、中国語と日本語間の音声翻訳を行う。
なお、生成部140は、受信した音声を認識して文字列を出力する音声認識処理、認識した文字列などの認識結果を用いて翻訳の対象言語で翻訳する機械翻訳処理、翻訳結果である対象言語の文字列を合成した音声を生成する音声合成処理を行うことにより、翻訳音声を生成する。
この際に行われる音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識技術を適用することができる。
また、機械翻訳処理では、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式などの、一般的に利用されているあらゆる翻訳技術を適用することができる。
また、音声合成処理では、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。
また、生成部140は、受信した音声の音声区間に関する情報を対応づけて翻訳した音声を出力する。なお、生成部140は、音量が予め定められた閾値より相対的に長い区間を音声区間とする方法など、従来から用いられているあらゆる音声区間検出技術を適用して音声区間を検出する。
図4は、生成部140が出力する出力情報の一例を示す説明図である。同図に示すように、出力情報には、翻訳元の音声が入力された端末の識別子を表す入力端末番号と、入力音声区間と、出力音声区間番号と、出力音声と、言語情報とが含まれている。
入力端末番号は受信部130から音声と共に受け取るので、受け取った入力端末番号をそのまま出力情報に設定する。出力音声区間番号とは、出力する翻訳音声の音声区間を識別する番号であり、言語ごとに、かつ入力端末番号ごとに連番が付与される。
同図の出力音声は、出力された音声のデータ自体を表すものであり、同図では波形により模式的に表している。言語情報とは、翻訳の対象言語として用いた言語を識別する情報をいい、同図では番号によって表しているが、言語名(英語など)により表すように構成してもよい。
ここで、入力音声と出力音声の音声区間の関係について説明する。まず、原則として、生成部140は入力音声と同じ長さの翻訳音声を出力する。これは、個々の入力音声区間と、当該入力音声区間に対応する出力音声区間の長さが一致しなければならないことを意味するものではない。すなわち、複数の入力音声区間に相当する入力音声と、当該複数の入力音声区間に対応する複数の出力音声区間に相当する翻訳音声の長さが一致すればよいことを意味する。
したがって、ある言語の翻訳元となる入力音声区間と、他の言語の翻訳元となる入力音声区間の長さが異なっていてもよい。ただし、全言語について入力音声区間の区切り位置がそろっている場所が存在する必要がある。
図5は、音声記憶部110に記憶された音声の一例を模式的に示した説明図である。同図では、言語ごとの音声の情報が、音声区間ごとに分けて記載された例を示している。同図の横方向の記号tn(nは整数)は音声の発声時刻を表し、数値は、各言語での出力音声区間の出力順序を表している。なお、Nは使用されている言語の総数を表す。
同図に示されるように、例えば、言語1用の出力順序が2番目の出力音声区間と言語2用の出力順序が4番目の出力音声区間は、対応する入力音声区間の始端位置が同一であるが(t2)、終端位置は異なっている(t3、t4)。一方、言語1用の出力順序が3番目の音声区間と言語2用の出力順序が3番目の音声区間のように終端位置が一致する音声区間も必ず存在する。
例えば、翻訳元の音声は同一であるから、元の音声のうち人が話している音声区間は全言語で共通になる。したがって、少なくとも話し始め(音声始端)と話し終わり(音声終端)の位置は全言語で一致する。これ以外にも、例えば文字にした場合に句読点が打つことができる位置でも終端位置が揃う場合がある。
生成部140は、非音声区間に対しては処理を行わず、出力制御部150にそのまま音声を送信する。生成部140は、非音声区間に対しても区間番号を割り当て、特に記述のない限り、以降の処理では音声翻訳により生成された音声と区別されない。非音声区間が長い場合、生成部140は、音声でないと判断された区間に対して1つだけ区間番号を割り当てるのではなく、十分に細かく非音声区間を分割し、それぞれに番号をつけていく。非音声区間をできる限り早く出力するためである。
上述のように、生成部140は、ある区間ごとに入力音声と同じ長さの翻訳音声を出力する。この制約が存在しない場合、ある端末装置200では出力するべき音声がまだ残っているのにも関わらず、別の端末装置200では出力が完了しているという状況が発生しうることになり、各参加者に対する音声出力のずれを回避できない。
なお、ある区間とは時間幅が固定された区間だけを指しているのではなく、例えば1つの音声区間であってもよいし、複数の音声区間であってもよい。
この制約を満たすため、生成部140は、翻訳後の音声を合成する音声合成処理で音声の長さを調整する。具体的には、合成する音声の発話速度を調整することにより、複数の出力音声の長さをそれぞれ同一にする。
また、生成部140は、音声の前方または後方に無音を挿入することで音声の長さを調整するように構成してもよい。例えば、音声合成によって生成した音声が短い場合には、生成部140は、生成した音声の前方または後方の少なくとも一方に無音を挿入する。また、音声合成によって生成した音声が長い場合には、生成部140は、非音声区間の部分の一部を入力音声区間に含めることで入力音声区間の範囲を広げることによって音声の長さを一致させる。
出力制御部150は、各音声の出力タイミングを制御するものであり、判定部151と、出力処理部152とを備えている。
判定部151は、生成部140により翻訳音声の出力情報が生成された場合に、各声区間に対してすべての言語で翻訳音声が生成されたか否かを判定することにより、翻訳音声が出力可能か否かを決定するものである。判定部151の判定処理の詳細については後述する。
出力処理部152は、判定部151によりすべての言語で翻訳音声が生成された音声区間について、翻訳音声と当該音声区間に相当する翻訳元の音声とを出力するものである。
送信部160は、出力処理部152により出力された音声を各端末装置200に送信するものであり、送信先決定部161を備えている。
送信先決定部161は、マッピングテーブル121を参照して、各言語による音声をいずれの端末装置200に送信するかを決定するものである。具体的には、送信先決定部161は、マッピングテーブル121から各言語に対応する端末装置200の識別子を取得し、取得した識別子に対応する端末装置200を送信先として決定する。
次に、このように構成された第1の実施の形態にかかる音声翻訳装置100による音声翻訳処理について説明する。図6は、第1の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。
なお、同図では1つの端末装置200と音声翻訳装置100との間の音声の送受信について記載しているが、実際には複数の端末装置200との間で同様の処理が実行される。
まず、端末装置200の音声入力部201が、音声の入力を受付ける(ステップS601)。次に、送信部202が、入力された音声(入力音声)を音声翻訳装置100に送信する(ステップS602)。
次に、音声翻訳装置100の受信部130が、入力音声を受信する(ステップS603)。続いて、生成部140が、受信した入力音声に対して音声翻訳処理を行い、翻訳音声を生成する(ステップS604)。生成部140は、上述のような既存技術を用いて、入力音声の音声認識処理、機械翻訳処理、音声合成処理を実行することにより、翻訳音声を生成する。
次に、出力制御部150は、受信した入力音声に対する翻訳音声の出力タイミングを決定して出力可能と判断された音声を出力する音声出力処理を実行する(ステップS605)。音声出力処理の詳細については後述する。
次に、送信先決定部161は、マッピングテーブル121を参照して各言語の翻訳音声の送信先となる端末装置200を決定する(ステップS606)。具体的には、送信先決定部161は、音声出力処理で出力された各言語の音声について、言語ごとにマッピングテーブル121から対応する端末装置200の識別子を取得し、取得した識別子に対応する端末装置200を送信先として決定する。
なお、同図は、音声出力処理で出力可能な音声区間が存在したことを前提として記載しているが、出力可能な音声区間が存在しなかった場合は、ステップS606以降の処理は実行されない。
次に、送信部160が、音声出力処理で出力可能と判断された音声を、各端末装置200に送信する(ステップS607)。
端末装置200の第1受信部203は、音声翻訳装置100から音声を受信し(ステップS608)、音声出力部204は、受信した音声を出力する(ステップS609)。
このように、各端末装置200は、入力された音声をすべて音声翻訳装置100に送信し、音声翻訳装置100で出力タイミングを調整された音声を受信して出力することができるため、同一の発話者に対する翻訳音声が各端末装置200で時間的にずれて出力される可能性を低減することができる。
次に、ステップS605の音声出力処理の詳細について説明する。図7は、音声出力処理の全体の流れを示すフローチャートである。
まず、出力処理部152は、生成部140により出力された出力音声を音声記憶部110に保存するが、その際に、既に音声記憶部110内に記憶されている音声が存在する場合は、当該音声と混合した結果である混合音声を保存する(ステップS701)。複数の端末装置200から同時に音声が入力される場合があるためである。
具体的には、出力処理部152は、出力音声の音声区間について音声記憶部110に音声が記憶されていない場合には、出力音声をそのまま保存する。出力音声の音声区間について音声記憶部110に音声が記憶されている場合には、出力処理部152は、記憶されている音声を取得し、出力音声と混合した混合音声を生成して、生成した混合音声を当該音声区間の音声として保存する。
出力処理部152は、音声が記憶されていない音声区間と、音声が記憶されている音声区間の両方にまたがる音声区間の出力音声に対しては、記憶されていない音声区間が無音であるとして混合処理を行う。
なお、出力処理部152は、出力情報に含まれる言語情報を参照して、当該言語情報に応じた言語ごとの記憶部11nに音声を保存する。
次に、出力処理部152は、出力可能な音声区間を判定する出力判定処理を実行する(ステップS702)。出力判定処理の詳細については後述する。
次に、出力処理部152は、新たに出力可能な音声区間が存在するか否かを判断する(ステップS703)。出力可能な音声区間が存在しない場合は(ステップS703:NO)、音声出力処理を終了する。
出力可能な音声区間が存在する場合は(ステップS703:YES)、出力処理部152は、出力可能な最短区間を算出する(ステップS704)。出力可能な最短区間の算出とは、複数の端末装置で同時に音声が入力され、対応する出力音声が複数存在する場合に、複数の端末からの入力音声を元にした出力音声がすべて揃った区間から出力するための出力対象区間を算出することをいう。
出力処理部152による最短区間算出処理について、図8を参照しながら説明する。図8は、最短区間算出処理で用いる情報であって、端末ごとの出力可能な音声区間の情報の一例を示した説明図である。同図では、斜線部分が出力音声区間を表し、出力音声区間内の数値が出力音声区間番号を表している。なお、図5は、斜線部分が入力音声区間を表している点で図8と相違する。
端末装置200ごとにユーザが異なるタイミングで発話するため、出力音声区間が一致することは稀である。したがって、音声区間の途中で遅延が挿入されるケースも発生しうる。しかしながら、非音声区間は翻訳処理が行われず、音声翻訳処理による遅延が発生しないため、2人以上が同時に話さない限り、音声区間の区切れ目以外のところで出力音声に遅延が挿入されることはない。したがって、この場合に限れば音声の出力が途切れることはない。
まず、出力音声区間番号が1の出力音声が、すべての端末装置200について出力された状態を想定する。出力処理部152は、これらの出力音声のうち、終端時刻が最も過去である音声区間を算出し、最短区間とする。同図の例では、出力処理部152はt0からt1までの区間を最短区間として算出する。
次に、同図の送信元端末3に対応する端末装置200の出力音声区間番号2の音声が出力された状態を想定する。しかし、この状態も、最も過去の終端時刻はt1であるため、最短区間は変わらない。なお、後述するようにこの場合は出力可能な最短区間は存在しないと判断され、新たな音声は出力されない。
次に、同図の送信元端末2に対応する端末装置200の出力音声区間番号が2の音声が出力された状態を想定する。この状態では、最も過去の終端時刻はt2であるため、t2までの区間が最短区間として算出される。
ステップS704で最短区間を算出した後、出力処理部152は、出力可能な最短区間が存在するか否かを判断し(ステップS705)、存在しない場合は(ステップS705:NO)、音声出力処理を終了する。
出力可能な最短区間が存在する場合は(ステップS705:YES)、出力処理部152は、音声記憶部110から最短区間に対応する音声を取得して出力する(ステップS706)。
このようにして、出力音声がすべての端末装置200の入力音声に対して生成された区間から順次出力することが可能となる。なお、すべての端末装置200からの音声が揃うまで待つ必要があるため、音声の出力に遅延が生じる場合があるが、その場合は音声を出力しないようにする。音声を出力しない代わりに、音声データに無音データを付加して出力するように構成してもよい。逆に、音声出力中に次に出力する音声が生成された場合は、現在出力中の音声の出力が終了するまで待機し、出力終了後に次に出力する音声を出力する。
次に、ステップS703の出力判定処理の詳細について説明する。図9は、出力判定処理の全体の流れを示すフローチャートである。
まず、判定部151は、出力対象言語(以下、言語iという。)を1つ選択する(ステップS901)。次に、判定部151は、言語iで次に出力する音声区間(以下、区間Sniという。)を取得する(ステップS902)。
例えば、図5に示すような音声が音声記憶部110に記憶され、言語2で出力順序が2番目の音声区間まで出力されていたとすると、次に出力する音声区間は、出力順序が3番目の音声区間(t3〜t5)となる。
次に、判定部151は、言語i以外の言語jを選択し(ステップS903)、各言語jについてステップS908までの処理を繰り返す。
まず、判定部151は、Sniに対応する区間の言語jの音声は翻訳済みか否かを判断する(ステップS904)。翻訳済みでない場合は(ステップS904:NO)、すべての言語で翻訳が完了していないと判断できるため、出力判定処理を終了する。
翻訳済みの場合は(ステップS904:YES)、判定部151は、言語jで次に出力する音声区間から、Sniと重なる言語jの音声区間までの各音声区間の区間番号(出力音声区間番号)を取得し、集合Xとする(ステップS905)。
これは、Sniと重なる言語jの音声区間の前に出力すべき音声区間が存在する場合に、出力すべき音声区間のそれぞれについて、他の言語による翻訳音声が生成済みか否かを判断するためである。これにより、Sniと重なる音声区間が翻訳済みであってもその音声区間の前に出力すべき音声区間が翻訳済みでない場合には、Sniと重なる音声区間は出力できないと判定することができる。
判定部151は、取得した集合Xから1つの区間番号を取得し、取得した区間番号に対応する音声区間Sjを取得する(ステップS906)。次に、判定部151は、Sjに対応する区間で、他のすべての言語の音声が翻訳済みか否かを判断する(ステップS907)。
翻訳済みでない言語が存在する場合は(ステップS907:NO)、すべての言語で翻訳が完了していないと判断できるため、出力判定処理を終了する。すべての言語で翻訳済みの場合は(ステップS907:YES)、判定部151は、すべての区間番号を処理したか否かを判断する(ステップS908)。
すべての区間番号を処理していない場合は(ステップS908:NO)、判定部151は、次の区間番号を取得して処理を繰り返す(ステップS906)。すべての区間番号を処理した場合は(ステップS908:YES)、判定部151は、言語i以外のすべての言語を処理したか否かを判断する(ステップS909)。
言語i以外のすべての言語を処理していない場合は(ステップS909:NO)、判定部151は、次の言語を言語jとして取得して処理を繰り返す(ステップS903)。
言語i以外のすべての言語を処理した場合は(ステップS909:YES)、判定部151は、すべての出力対象言語を処理したか否かを判断する(ステップS910)。すべての出力対象言語を処理していない場合は(ステップS910:NO)、次の出力対象言語を言語iとして取得して処理を繰り返す(ステップS901)。
すべての出力対象言語を処理した場合は(ステップS910:YES)、判定部151は、各出力対象言語について、出力可能な音声区間の区間番号を出力し(ステップS911)、出力判定処理を終了する。
ここで、出力判定処理の具体例について説明する。図10は、出力判定処理で行われる判定処理を表した擬似コードの一例を示す説明図である。また、図11から図14は、この例で説明する出力判定処理の各段階で出力される出力音声を格納した音声記憶部110の一例を示す説明図である。
例として端末装置200から入力された音声が日本語であり、出力先の端末装置200の言語が日本語と英語の場合を考える。また、日本語を言語1とし、英語を言語2とする。そして、「東京駅はどこですか」を意味する日本語が入力された場合を想定する。
入力された日本語の音声は、出力制御部150と生成部140に出力される。出力制御部150が入力音声を受け取った時点では、音声記憶部110には図11に示すような出力音声が保存される。tendは入力音声の音声区間の終端の時刻を示している。
なお、図11では1区間だけを示しているが、出力判定処理の際には、十分に細かい区間に分かれているものとして処理を行う。十分に細かい区間とは、例えばサンプリングされた音声の1サンプルが占める区間をいう。具体的には、例えば11kHzでサンプリングされているとするならば、1秒間当り11000個に等間隔で区切った区間が相当する。音声区間情報が生成部140から出力された時点で関連する区間をまとめる処理を行ってもよい。
生成部140は翻訳処理が完了し、合成音声が生成されるたびに出力制御部150に翻訳後の音声を出力する。ここではまず、生成部140が英語の翻訳音声の一部である「where is」を出力したとする。
この際、図4に示すように、「where is」を翻訳するために使用した翻訳元の音声の区間情報(入力音声区間)も出力されるため、出力処理部152は、当該入力音声区間に対応する区間に「where is」を保存する。図12は、このときの音声記憶部110の格納状態を示したものである。
なお、日本語の区間は細かい区間のままでも処理できるが、ここでは英語の区間と同じ区間にまとめ、その区間に番号を付与している。上述のように、日本語の区間は十分に細かい区間であるため、区間の始終端がずれることなく、英語の区間と同じ区間にまとめることが可能である。
この状態では、まず、図9のステップS901で示すように、i=1、すなわち日本語(言語1)の出力判定処理が実行される。このときの出力判定処理を図10の擬似コードにしたって以下に説明する。なお、図10は、図9のフローチャートのステップS903からステップS909までの処理に対応する擬似コードを表している。
まず、言語は日本語と英語のみであるため、L={1,2}である。Lとは、すべての言語の番号の集合である。1行目はiを除くすべてのLについて2行目から12行目までの処理を繰り返し行うということを意味する。
ここではj=2の場合のみが実行されることになる。2行目では言語1(日本語)と言語2(英語)の区間が重なる部分の言語2の区間番号をXに代入する。この場合はX={}、すなわちXは空となる。
3行目ではXに入っている番号の区間をTに代入するが、これも空になる。4行目では、Tが空であるため、xi nextの区間とTの共通部分も空になり、xi nextの区間とは異なるため、条件文が満たされる。したがって、5行目が実行され、出力できないと判定されて出力判定処理が終了する。
次に、生成部140が次の英語の翻訳音声である「Tokyo station」を出力したとする。この場合の音声記憶部110の格納状態は、図13のようになる。
出力判定処理は、再度i=1、すなわち日本語(言語1)に対して開始される。擬似コードの1行目は図12を使った前述の説明と同様である。
2行目では言語1(日本語)と言語2(英語)の区間が重なる部分の言語2の区間番号2が存在するため、X={2}となる。
3行目でTに“[t0、t1)”の区間が代入される。ここで、i=1であるため、言語1で次に出力すべき区間xi nextは、x1 next=1である。言語1ではまだ音声が出力されていないため、最初(i=1)の音声区間が次に出力すべき区間だからである。
言語1の1番目の区間S1 1には“[t0、t1)”の区間が含まれるため、4行目の判定は偽になり、6行目に進む。6行目の処理でXに含まれる番号の最大値が取得され、ここではxmax=2になる。
7行目でXの内容が更新されるが、ここでは、xj next=x2 next=1であるため、1<x≦2を満たす整数は2のみとなる。したがって、X={2}となる。
8行目は、X内のすべての番号について、9行目から12行目までの処理を繰り返し実行することを意味する。ここでは、x=2についてのみ処理を実行すればよい。
9行目は言語jを除くすべての言語について10行目から12行目までの処理を繰り返し実行することを意味する。ここではk=1についてのみ処理を実行すればよい。
10行目では、言語kの区間をすべてTに代入する。ここでは、Tに含まれる区間は“[t0、tend)”である。
11行目では、言語jのx番目の区間をTの区間が埋め尽くしているかを調べる。ここでは、j=2であり、x=2であるため、Sx j=S2 2=“[t0、t1)”である。一方、Tの区間は“[t0、tend)”であるので、この区間の中に“[t0、t1)”の区間は完全に含まれており、11行目の条件は満たされない。
すべてのループが完了するため、13行目に移動しtrueが返される。これでi=1、すなわち言語1(日本語)に対する判定が完了したため、iに1加算して、i=2、すなわち言語2(英語)に対して同様の処理が実行される。
詳細は省略するが、言語2に対しても出力可能と判定され(trueが返される)、図9のステップS911では、各言語について出力可能な出力音声区間番号が出力される。また、図7のステップS705で出力可能な音声区間が存在すると判定され、ステップS706で該当する音声が出力される。
この場合、出力先の端末装置200のうち日本語を使用する端末装置200に対しては日本語の1番目の区間が出力され、英語を使用する端末装置200に対しては英語の1番目の区間が出力される。
そうすると、次の出力区間は、日本語、英語共に2番目の区間になる。擬似コードで用いる変数で表すと、x1 next=2、x2 next=2である。この状態で、さらに出力判定処理が繰り返し実行される。
この状態で出力判定処理を開始すると、i=1であり、擬似コードの1行目ではj=2となる。2行目ではX={1}となり、3行目ではTが“[t1、tend)”となる。4行目の条件は満たされないので、6行目に移動し、6行目ではxmax=1となる。7行目でXの内容が更新されるが、2<x≦2の条件を満たす整数は存在しないため、X={}となる。
したがって、8行目から12行目は実行されず、13行目に移動しtrueが返される。次に、iに1加算して、i=2、すなわち言語2(英語)に対して同様の処理が実行される。
詳細は省略するが、言語2に対しても出力可能と判定され(trueが返される)、図9のステップS911では、各言語について出力可能な出力音声区間番号(日本語の2番目と英語の2番目)が出力される。
擬似コードの7行目から12行目の処理が必要な理由は、図14のような状態になった場合を考えるとよい。言語1、2ともに次に出力する区間は1であるとする。i=1の場合に図10の擬似コードが実行された場合を考える。
この場合、1行目ではj=2となり、2行目ではX={3}となる。3行目ではTが“[t2、tend)”となる。4行目の条件は満たされないので、6行目に進み、6行目でxmax=3となる。
7行目でXが更新され、X={2,3}となる。まず、8行目でx=2となり、9行目でk=1となる。10行目でTの区間は“[t0、t1)”と“[t2、tend)”とになる。S2 2=“[t1、t2)”であるため、11行目の条件が満たされ、12行目が実行されてfalseが返される。すなわち、出力可能な音声区間はないと判定されて処理を終了する。
仮に、7行目から12行目の処理が存在しない場合には、図14のような状況では言語1、2共に区間番号1については出力可能と判定される。ところが、もし言語1の区間“[t1、t2)”の音声が出力されるまでの時間が区間1のそれぞれの音声が出力されるまでの時間よりも長い時間になった場合、言語1のユーザは元の音声の“[t2、tend)”の内容を聞いた状態で待つことになり、言語2のユーザは元の音声の“[t0、t1)”の内容を聞いた状態で待つことになる。
これでは、できるだけ同時に同じ内容をユーザに提示するために、音声の出力を遅延させるという目的を満たせなくなる。したがって、7行目から12行目の処理が必要とされる。
次に、図5を用いて、その他の状況における出力判定処理について説明する。ここでは、図5で言語1と言語2のみが出力されている状況を想定し、それぞれの言語で音声区間番号1のみが生成済みであることを前提とする。すなわち、言語1は“[t0、t2)”の範囲の音声を元にした出力音声が作成済みであり、言語2は“[t0、t1)”の範囲の音声を元にした出力音声が作成済みであるとする。
この場合、擬似コードはi=1で開始され、j=2であるため、2行目ではX={1}となる。S1 2∩S1 1=S1 2となり、空ではないためである。次に、3行目でTがS1 2=“[t0、t1)”となる。したがって、4行目の条件文は真となり、5行目で条件を満たさなかったとしてfalseが返される。
このように、言語1の音声区間(区間番号=1)に対し、言語2の対応する音声区間のうち、区間番号=2の音声区間の音声がまだ生成済みでないため、出力可能な音声が存在しないと判定される。
なお、始端と終端が揃う位置が全く存在しないとすると、いつまでも音声を出力できない場合が生じうる。しかし、上述したように、少なくとも1つの音声の発話の開始と終了の位置は全言語で一致するため、音声が出力できなくなることはない。
このように、第1の実施の形態にかかる音声翻訳装置では、翻訳元の音声が同じである翻訳音声がすべて揃うまでは翻訳音声を記憶しておき、すべての言語の翻訳音声が揃った時点で音声を出力するものである。このため、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。
(第2の実施の形態)
第1の実施の形態では、生成部140が出力した音声をすべて音声記憶部110の音声と混合して保存していた。この場合、音声を発話した本人の端末装置200に対しても混合音声を出力するため、自分自身の発話した音声が遅れて出力される現象(エコー)が発生しうる。すなわち、発話の途中で自分の声が聞こえることにより、話し手が発話しにくくなるという欠点が存在する。
第2の実施の形態にかかる音声翻訳装置は、音声の入力元である端末装置に対しては、当該音声を送信しないことにより、当該音声が発話者自身に提供されることを回避するものである。
図15は、第2の実施の形態にかかる音声翻訳装置1500の構成を示すブロック図である。同図に示すように、音声翻訳装置1500は、音声記憶部1510と、対応記憶部120と、受信部130と、生成部140と、出力制御部1550と、送信部1560と、を備えている。
第2の実施の形態では、音声記憶部1510のデータ構造、出力制御部1550の機能、および送信部1560の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
音声記憶部1510は、音声を端末装置200ごとに記憶する端末N記憶部151n(N、nは自然数)を備えている点が、第1の実施の形態と異なっている。そして、端末N記憶部151n内に、言語ごとの出力音声を記憶している。
出力制御部1550は、第1の実施の形態と同様に、判定部151と、出力処理部1552とを備えているが、出力処理部1552の機能が第1の実施の形態と異なっている。
出力処理部1552は、生成部140から受け取った出力情報から出力音声の生成元の音声を送信した端末装置200の入力端末番号を抽出するとともに、出力音声の言語を取得する。そして、出力処理部1552は、入力端末番号に対応する端末N記憶部151nの、取得した言語に対応する言語ごとの記憶部11nに、出力音声を保存する。
また、第1の実施の形態と異なり、出力処理部1552は、音声記憶部1510への保存時に音声の混合処理を実行しない。保存した音声は、出力可能と判定されたときに送信部1560に出力され、送信部1560内で混合処理を行った後に各端末装置200に送信される。
送信部1560は、端末装置200に音声を出力する際に、音声を混合してから送信するものであり、送信先決定部161と、混合部1562とを備えている。送信先決定部161の機能は、第1の実施の形態と同様であるのでその説明は省略する。
混合部1562は、送信先決定部161から受け取った音声を、送信先とする端末装置200から送信された音声を除いた音声分だけ混合して出力するものである。混合部1562は、送信先決定部161から受け取る入力端末番号と、送信先とする端末装置200の識別子とを比較することによって、送信する音声が、送信先とする端末装置200から送信されてきた音声か否かを判断する。
次に、このように構成された第2の実施の形態にかかる音声翻訳装置1500による音声翻訳処理について説明する。図16は、第2の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。
ステップS1601からステップS1604までの、音声入力処理、入力音声送受信処理、翻訳処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS601からステップS604までと同様の処理なので、その説明を省略する。
ステップS1605では、出力制御部1550による音声出力処理が実行される。音声出力処理の詳細については後述する。
音声出力処理の後、送信先決定部161は、マッピングテーブル121を参照して各言語の翻訳音声の送信先となる端末装置200を決定する(ステップS1606)。この処理も第1の実施の形態と同様である。
次に、混合部1562は、送信する音声の混合処理を行う(ステップS1607)。具体的には、混合部1562は、音声記憶部1510の音声を送信する端末の使用言語に対応する各端末N記憶部11nから、出力音声の言語の音声を取得し、複数の音声が取得された場合は当該音声を混合する。その際、混合部1562は、送信先とする端末装置200から送信された音声を除いた音声分だけ混合して出力する。
ステップS1608からステップS1610までの、出力音声送受信処理、音声出力処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS607からステップS609までと同様の処理なので、その説明を省略する。
次に、ステップS1605の音声出力処理について説明する。図17は、第2の実施の形態における音声出力処理の全体の流れを示すフローチャートである。
まず、出力処理部1552は、音声を入力した端末装置200に対応する端末N記憶部151nを選択し、受信部130ないしは生成部140から受け取った音声の言語に対応する言語n記憶部11nを選択する(ステップS1701)。次に、出力処理部1552は、選択した端末N記憶部151nに、出力された音声を保存する(ステップS1702)。第2の実施の形態では、この際に音声の混合処理は実行しない。
ステップS1703からステップS1707までの、出力判定処理、最短区間算出処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS702からステップS706までと同様の処理なので、その説明を省略する。
このように、第2の実施の形態にかかる音声翻訳装置では、音声の入力元である端末装置に対しては、当該音声を送信しないため、当該音声が発話者自身に提供されてエコー現象が生じることを回避することができる。
(第3の実施の形態)
第3の実施の形態にかかる音声翻訳装置は、翻訳音声を翻訳処理完了後に直ちに端末装置に送信して端末装置側で音声情報を記憶することにより、ネットワークを原因とする遅延を回避するものである。
図18は、第3の実施の形態にかかる端末装置1800の構成を示すブロック図である。同図に示すように、端末装置1800は、音声入力部201と、送信部202と、第1受信部203と、音声出力部204と、保存部1805と、第2受信部1806と、出力処理部1807と、音声記憶部1810とを備えている。
第3の実施の形態では、保存部1805と、第2受信部1806と、出力処理部1807と、音声記憶部1810とを追加したことが第1の実施の形態の端末装置200と異なっている。その他の構成および機能は、第1の実施の形態にかかる端末装置200の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
音声記憶部1810は、第1の実施の形態で音声翻訳装置100に備えられていた音声記憶部110の言語n記憶部のうち、自装置で使用される言語に対応するもののみを備えたものである。すなわち、本実施の形態では、音声を記憶する記憶部が、端末装置1800側に備えられている。
保存部1805は、後述する音声翻訳装置2000から送信され、第1受信部203により受信された音声を、音声記憶部1810に保存するものである。図19は、第1受信部203により受信される出力情報の一例を示す説明図である。同図に示すように、音声翻訳装置2000からは、入力端末番号と、出力音声区間番号と、出力音声とを対応づけた出力情報が送信され、第1受信部203より受信される。
なお、保存部1805は、音声区間が重複する音声を受信した場合は、音声を混合した混合音声を生成して音声記憶部1810に保存する。第1の実施の形態の場合と同様、受信した音声の元の音声が複数の端末装置1800から同時に入力されたものである場合があるためである。また、図8に示すような最短区間算出処理で用いる情報も、音声受信時に作成して音声記憶部1810に保存しておく。
第2受信部1806は、音声翻訳装置2000から出力可能な区間の情報として送信される出力音声区間番号と入力端末番号とを受信するものである。
出力処理部1807は、第2受信部1806が受信した情報を参照し、出力可能な音声区間のうち、自装置以外のすべての端末装置200からの音声が揃っている部分(最短区間)を音声記憶部1810から取得して出力するものである。なお、出力処理部1807は、出力済みの音声を音声記憶部1810から削除する。
図20は、音声翻訳装置2000の構成を示すブロック図である。同図に示すように、音声翻訳装置2000は、対応記憶部120と、受信部2030と、生成部2040と、出力制御部2050と、送信部2060と、を備えている。
第3の実施の形態では、音声記憶部110を削除したこと、受信部2030、生成部2040、出力制御部2050、送信部2060の機能が第1の実施の形態の音声翻訳装置100と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
受信部2030は、第1の実施の形態と異なり、受信した音声をそのまま送信部2060に対しても出力するとともに、受信した音声の音声区間に関する情報を含む出力情報を、出力制御部2050に出力する。
生成部2040は、第1の実施の形態と異なり、生成した翻訳音声を送信部2060に対しても出力するとともに、生成した翻訳音声は出力制御部2050には出力せず、出力音声の音声区間に関する情報を含む出力情報だけを出力制御部2050に出力する。
図21は、受信部2030または生成部2040から送信部2060に送信される出力情報の一例を示す説明図である。同図に示すように、送信部2060に対する出力情報は、入力端末番号と、出力音声区間番号と、出力音声と、言語情報とを含んでいる。
図22は、受信部2030または生成部2040から出力制御部2050に出力される出力情報の一例を示す説明図である。同図に示すように、出力制御部2050に対する出力情報は、入力端末番号と、入力音声区間と、出力音声区間番号と、言語情報とを含んでいる。
なお、受信部2030から出力制御部2050に送信される区間情報については、音声区間単位や単語の単位で区切られているわけではなく、区間として定義できる最小単位で区間情報が送信されると考える。例えば、サンプリング周波数が8kHzであれば、秒間8000個の区間が生成されると考えてもよい。実際には、入力音声と同じ言語で音声を出力する場合は、入力音声と出力音声の順序が入れ替わることはないため、これまでに受け取った音声の最後の位置を出力制御部2050に送信するだけでよい。
出力制御部2050は、各音声の出力タイミングを制御するものであり、判定部151と、出力処理部2052とを備えている。判定部151の機能は、第1の実施の形態と同様であるのでその説明を省略する。
出力処理部2052は、判定部151によりすべての言語で翻訳音声が生成された音声区間について、当該音声区間の出力音声区間番号を含む出力情報を出力するものである。
図23は、出力処理部2052から出力される出力情報の一例を示す説明図である。同図に示すように、出力処理部2052から出力される出力情報は、入力端末番号と、出力音声区間番号と、言語情報とを含んでいる。
次に、このように構成された第3の実施の形態にかかる音声翻訳装置2000による音声翻訳処理について説明する。図24は、第3の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。
ステップS2401からステップS2404までの、音声入力処理、入力音声送受信処理、翻訳処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS601からステップS604までと同様の処理なので、その説明を省略する。
翻訳処理後、送信部2060が、生成部2040により生成された翻訳音声を含む図19の情報を端末装置1800に対して送信し(ステップS2405)、端末装置1800の第1受信部203が翻訳音声を含む図19の情報を受信する(ステップS2406)。次に、端末装置1800の保存部1805が、受信した翻訳音声を音声記憶部1810に保存する(ステップS2407)。
音声翻訳装置2000では、判定部151による出力区間判定処理が実行される(ステップS2408)。出力区間判定処理の詳細については後述する。
出力区間判定処理の後、送信部2060は、出力可能と判定された音声区間の番号である出力音声区間番号と入力端末番号を端末装置1800に送信する(ステップS2409)。
端末装置1800の第2受信部1806は、出力音声区間番号と入力端末番号を受信する(ステップS2410)。端末装置1800の出力処理部1807は、受信した出力音声区間番号と入力端末番号を参照して図8に示すような情報を作成し、出力可能な最短区間を算出する(ステップS2411)。最短区間算出処理は第1の実施の形態と同様であるのでその説明を省略する。
次に、出力処理部1807は、音声記憶部1810から最短区間に対応する音声を取得して音声出力部204に出力し(ステップS2412)、音声出力部204により実際に音声が出力される(ステップS2413)。
次に、ステップS2408の出力区間判定処理について説明する。図25は、第3の実施の形態における出力区間判定処理の全体の流れを示すシーケンス図である。
ステップS2501からステップS2502までの、出力判定処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS702からステップS703までと同様の処理なので、その説明を省略する。
ステップS2502で、出力可能な音声区間が存在しない場合は(ステップS2502:NO)、出力区間判定処理を終了する。
出力可能な音声区間が存在する場合は(ステップS2502:YES)、出力処理部2052は、図23で示される情報を出力し(ステップS2503)出力区間判定処理を終了する。
このように、第3の実施の形態では、判定部151が出力可能な音声区間が存在すると判断した場合、出力可能な音声区間の情報(図23で示される情報)を出力する点が、第1の実施の形態と異なっている。
以上ように、第3の実施の形態にかかる音声翻訳装置では、データ量の多い音声データを逐次端末装置に送信しておくことができるため、ネットワークが原因となる音声出力の遅延の発生を低減することができる。
(第4の実施の形態)
第1から第3の実施の形態は、クライアントサーバ型のシステム構成であり、翻訳処理をサーバ装置に相当する音声翻訳装置で実行し、クライアント装置に相当する端末装置では、翻訳処理結果の音声を出力するだけであった。
第4の実施の形態では、集中的に処理を行うサーバを備えず、参加者ごとに設置される装置が相互に情報を送受信して音声翻訳処理を行う。すなわち、第4の実施の形態にかかる音声翻訳装置は、他の参加者の音声翻訳装置(外部音声翻訳装置)から受信した情報をもとに、自装置内で翻訳した翻訳音声の出力タイミングを制御するものである。
図26は、第4の実施の形態にかかる音声翻訳装置2600を含む会議システムの構成を示す説明図である。同図に示すように、第4の実施の形態の会議システムは、複数の音声翻訳装置2600a、2600b、・・・、2600z(以下、音声翻訳装置2600という。)が、ネットワーク300を介して相互に接続されている。
図27は、第4の実施の形態にかかる音声翻訳装置2600の構成を示すブロック図である。同図に示すように、音声翻訳装置2600は、音声入力部201と、送信部202と、第1受信部203と、音声出力部204と、音声記憶部2610と、言語記憶部2620と、生成部2650と、出力制御部2660と、第2受信部2670と、を備えている。
音声入力部201と、送信部202と、第1受信部203と、音声出力部204とは、第1の実施の形態と同様の機能を有するため、ここでの説明は省略する。
音声記憶部2610は、他の音声翻訳装置2600から受信した音声を装置ごとに記憶するものである。音声記憶部2610は、装置ごとに音声を記憶するため、装置ごとの記憶部(装置1記憶部2611、装置2記憶部2612、・・・、装置n記憶部261n)を備えている。
言語記憶部2620は、会議システムに参加している音声翻訳装置2600が使用する言語を、各音声翻訳装置2600の識別子と対応づけて記憶するものである。第1の実施の形態では音声翻訳装置100に接続した際、または通話が開始されたときに端末装置200から音声翻訳装置100に使用言語を通知していたが、本実施の形態では各音声翻訳装置2600が接続したときに、互いに使用している言語の情報を交換して言語記憶部2620に保存する。
生成部2650は、他の音声翻訳装置2600から受信した音声を、自装置の使用言語へ翻訳した翻訳音声を生成するものである。例えば、使用言語が日本語の場合は、少なくとも受信した音声の言語から日本語へ変換する機能を有する必要があるが、日本語から他言語へ翻訳する機能は有する必要はない。生成した翻訳音声は出力制御部2660に出力される。
また、生成部2650は、第1の実施の形態の生成部140と異なり、出力端末番号を含む出力情報を出力制御部2660に出力する。また、この出力情報は各音声翻訳装置2600間でも送受信される。図28は、生成部2650が出力する出力情報の一例を示す説明図である。
同図に示すように、出力情報には、入力端末番号と、入力音声区間と、出力音声区間番号と、出力端末番号とが含まれている。第1の実施の形態の生成部140から出力される出力情報とは、出力音声および言語情報を削除し、音声を出力する音声翻訳装置2600の番号である出力端末番号を追加した点が異なっている。
出力制御部2660は、各音声の出力タイミングを制御するものであり、判定部2651と、出力処理部2652とを備えている。
判定部2651は、各声区間に対してすべての音声翻訳装置2600で翻訳音声が生成されたか否かを判定することにより、翻訳音声が出力可能か否かを決定するものである。
出力処理部2652は、判定部2651によりすべての音声翻訳装置2600で翻訳音声が生成された音声区間について、翻訳音声と当該音声区間に相当する翻訳元の音声とを出力するものである。
このように、第1の実施の形態では言語ごとに翻訳音声が生成されたか否かを判定し、音声を出力していたのに対し、第4の実施の形態では、音声翻訳装置2600ごとに判定して出力する点が異なっている。
これは、第1の実施の形態のように一括して音声翻訳を行っていた場合と異なり、同じ方向の翻訳が別々の音声翻訳装置2600で動作するケースも考えられるためである。例えば、音声翻訳装置Aおよび音声翻訳装置Bの使用言語が日本語で、音声翻訳装置Cの使用言語が英語だった場合、音声翻訳装置Cから入力された音声は音声翻訳装置A、Bでそれぞれ別々に音声翻訳処理がなされる。
この場合、音声翻訳装置AとBで音声翻訳処理が全く同時に開始され、全く同時に終了することはほとんどの場合起きることはなく、大きくずれることも十分に考えられる。したがって、ずれを最小限にするために、音声翻訳装置ごとに判定および音声出力処理を行う。なお、各区間を表す時刻については、音声翻訳装置間で同期が取れていることを前提とする。
次に、このように構成された第4の実施の形態にかかる音声翻訳装置2600による音声翻訳処理について説明する。図29は、第4の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。
まず、音声入力部201が、音声の入力を受付ける(ステップS2901)。次に、送信部202が、入力音声を他の音声翻訳装置2600に送信する(ステップS2902)。
他の音声翻訳装置2600から送信された音声については、第1受信部203が受信する(ステップS2903)。第1受信部203は、言語記憶部2620に記憶した装置ごとの使用言語を参照し、自装置と同一の言語を使用している音声翻訳装置2600から受信した場合は、出力制御部2660に音声を出力する。さらに、図28の情報を他の音声翻訳装置2600に送信する。一方、第1受信部203は、異なる言語を使用している音声翻訳装置2600から受信した場合は、生成部2650に音声を出力する。
生成部2650は、受け取った音声を自装置の使用言語を対象言語として翻訳して翻訳音声を生成し(ステップS2904)、図28に示すような出力情報を出力制御部2660に出力する(ステップS2905)。また、送信部202が、他の音声翻訳装置2600に対して出力情報を送信する(ステップS2906)。
一方、他の音声翻訳装置2600から出力情報が送信された場合は、第2受信部2670によって受信される(ステップS2907)。出力制御部2660は、受信した出力情報を用いて、第1の実施の形態と同様の方法により、出力可能な音声区間の判定を行う音声出力処理を実行する(ステップS2908)。この際、上述のように言語ごとではなく、音声翻訳装置2600ごとに判定を行う。
なお、出力制御部2660は、他の音声翻訳装置2600から受信した音声を混合しながら音声記憶部2610に保存する。
音声出力処理で、出力可能な音声区間が判明した場合、当該音声区間の音声が音声記憶部2610から取得され、音声出力部204によって出力される(ステップS2909)。
なお、ステップS2910からステップS2918までは、他の音声翻訳装置2600が実行する音声翻訳処理であるが、ステップS2901からステップS2909までと同様の処理となるため、説明は省略する。
このように、第4の実施の形態にかかる音声翻訳装置では、同様の機能を備えた他の音声翻訳装置との間で翻訳音声に関する情報を送受信し、ある参加者の音声に対する翻訳音声がすべての音声翻訳装置で揃った場合に、音声の出力を行うことができる。このため、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。
(第5の実施の形態)
第5の実施の形態にかかる音声翻訳装置は、所定の遅延時間を経過後に翻訳音声を出力することにより、音声の途切れを最小限に抑止するものである。
図30は、第5の実施の形態にかかる音声翻訳装置3000の構成を示すブロック図である。同図に示すように、音声翻訳装置3000は、音声記憶部110と、対応記憶部120と、受信部130と、生成部140と、出力制御部3050と、送信部160と、を備えている。
第5の実施の形態では、出力制御部3050の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
出力制御部3050は、各音声の出力タイミングを制御するものであり、判定部151と、出力処理部152と、遅延部3053とを備えている。判定部151と、出力処理部152の機能は、第1の実施の形態と同様であるのでその説明を省略する。
遅延部3053は、所定の遅延時間経過後に音声が出力されるように、音声出力を遅延させるものである。遅延処理の詳細については後述する。
次に、このように構成された第5の実施の形態にかかる音声翻訳装置3000による音声翻訳処理について説明する。第5の実施の形態の音声翻訳処理の全体の流れは、第1の実施の形態の図6と同様であるが、ステップS605の音声出力処理の詳細が異なっている。図31は、第5の実施の形態における音声出力処理の全体の流れを示すフローチャートである。
ステップS3101からステップS3105までの、音声混合処理、出力判定処理、最短区間算出処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS701からステップS705までと同様の処理なので、その説明を省略する。
ステップS3105で、出力可能な最短区間が存在する場合は(ステップS3105:YES)、遅延部3053は、音声の出力を遅延させる遅延処理を実行する(ステップS3106)。遅延処理の詳細は後述する。
遅延処理が実行された後、出力処理部152は、音声記憶部110から最短区間に対応する音声を取得して出力する(ステップS3107)。
次に、ステップS3106の遅延処理について説明する。まず、図32を参照して遅延処理の概念について説明する。図32は、複数の出力可能な音声区間を遅延して出力するときの音声区間の関係を模式的に示した説明図である。
受信部130が入力音声を受信した時刻をそれぞれti1b、ti2b、ti3b、・・・とする。時刻には実際の世界標準時を用いてもよいし、システムが稼動してからの経過時間、ユーザがシステムの使用を開始してからの経過時刻を用いてもよい。
入力音声区間が「入力」行に長方形で表されており、この長方形はその区間に割り当てられている時刻順に並べられる。長方形の中に記述している番号は、音声を受信した順に付与した番号である。
実際に音声翻訳装置3000に届く音声は連続的であるので、音声を受信した時点でこのような区間が定められているわけではない。第1の実施の形態で述べたように、生成部140が音声区間ごとに音声を区切る処理を行うため、生成部140により区切られた区間が同図の長方形に対応付けられている。この区間は音声区間であってもよいし、非音声区間であってもよい。
「出力」行は、判定部151により出力すると判定された時刻を表したものである。長方形内の番号は入力音声区間の番号に対応しており、例えば出力の1番の音声は入力の1番の音声を元に生成された音声であることを示している。ここで、「生成された音声」とは音声翻訳によって生成された音声だけでなく、入力言語と出力言語とが同一である場合に、入力音声がそのまま出力音声になる場合も含まれる。
「遅延出力」行は、遅延部3053により音声を出力すると判定された時刻を表したものである。遅延出力行のタイミングで音声が判定部151から出力される。所定の遅延時間tdelayは最小の遅延時間を表している。すなわち、tdelayよりも短い遅延時間で音声が出力されることはない。
次に、遅延処理の詳細について説明する。図33は、遅延処理の全体の流れを示すフローチャートである。
まず、遅延部3053は、出力可能な音声区間の区間番号をxとし(ステップS3301)、現在時刻(tcurrent)を、出力開始時刻(toxb)に代入する(ステップS3302)。
次に、遅延部3053は、出力開始時刻(toxb)から、当該区間の入力音声を受信した時刻(tixb)を減算した差分が、所定の遅延時間(tdelay)より小さいか否かを判断する(ステップS3303)。
差分が所定の遅延時間より小さい場合は(ステップS3303:YES)、遅延部3053は、toxb−tixb≧tdelayを満たす時刻まで待機する(ステップS3304)。
差分が所定の遅延時間より小さくない場合は(ステップS3303:NO)、既に所定の遅延時間を超えて遅延が発生していると判断できるため、遅延部3053は、遅延処理を終了する。
次に、図32を用いて、遅延処理の具体例について説明する。まず、遅延部3053は、出力処理部152から区間番号を受け取ると遅延処理を開始する。ここでは、同図の最初の「入力」行の区間番号=1を受信した場合を想定して説明する。
ステップS3301でxに1が代入され、ステップS3302で現在時刻tcurrentを出力開始時刻to1bに代入する。
同図の例では、to1b−ti1bはtdelayより小さいため(ステップS3303:YES)、toxb−tixb≧tdelayを満たす時刻まで待機する(ステップS3304)。
次に、区間番号=2を受信した場合について説明する。区間番号=2の場合、to2b−ti2bはtdelayより小さいため(ステップS3303:YES)、区間番号=1の場合と同様に遅延が行われる(ステップS3304)。この場合は、td2b−ti2b=tdelayであるため、無音区間が挿入されることなく、区間番号1の音声区間の音声に続けて区番号2の音声区間の音声が出力される。
次に、区間番号=3を受信した場合について説明する。区間番号=3の場合、to3b−ti3bはtdelayよりも大きい、すなわち、翻訳による遅延時間が所定の遅延時間tdelayよりも大きいため、遅延を挿入する必要はない。
音声翻訳の結果、入力音声を元にした出力音声が、入力音声の入力された順に出力されるとは限らない。同図の区間番号=4、5の区間がこのようなケースを表している。この例では、区間番号=5の入力音声を元にした出力音声が区間番号=4の入力音声を元にした出力音声よりも先に出力される。
そもそもtdelayだけ遅延させているのは、出力音声を途切れにくくするためである。したがって、区間番号=5の「出力」行の音声区間の始端to4bが、区間番号=4の入力区間の始端ti4bにtdelayを加えた値を超えていなければ、遅延を挿入する必要はない。
区間番号=5の音声区間の音声を出力した後で、区間番号=4の音声区間の音声の出力が行われ、両者を合わせた結果、少なくともtdelayは遅延するからである。なお、同図に示すように、「出力」行の区間番号=5の音声区間の始端時刻はto4bと記載しているため、toxbのxの部分は、必ず時刻の値の小さい順に並べられる。このようにすることで、入れ替わりが存在するかどうかをチェックすることなしに、遅延を挿入するかどうかの判断を行うことができる。
なお、本実施の形態では、第1の実施の形態を元に遅延処理を加えた例について説明したが、他の実施の形態に対しても適用可能である。
このように、第5の実施の形態にかかる音声翻訳装置では、所定の遅延時間を経過後に翻訳音声を出力することにより、音声の途切れを最小限に抑止することができる。
(第6の実施の形態)
第5の実施の形態では、遅延部により出力可能であると判定した場合であっても、先に出力すべき音声がまだ出力中であれば、その出力処理が終了するまで待つことになる。このため、一旦、所定の遅延時間(tdelay)を超えて翻訳処理の遅延が発生すると、実質的にはその時間が遅延時間となるという問題がある。すなわち、tdelay以上に翻訳処理が遅延した場合、遅延時間をtdelayにまで戻すことができない。
第6の実施の形態にかかる音声翻訳装置は、所定の遅延時間以上に翻訳処理が遅延した場合に、出力する翻訳音声の発声時間を短縮することにより、遅延時間を最小限に抑止するものである。
図34は、第6の実施の形態にかかる音声翻訳装置3400の構成を示すブロック図である。同図に示すように、音声翻訳装置3400は、音声記憶部110と、対応記憶部120と、受信部130と、生成部140と、出力制御部3450と、送信部160と、を備えている。
第6の実施の形態では、出力制御部3450の機能が第5の実施の形態と異なっている。その他の構成および機能は、第5の実施の形態にかかる音声翻訳装置3000の構成を表すブロック図である図30と同様であるので、同一符号を付し、ここでの説明は省略する。
出力制御部3450は、各音声の出力タイミングを制御するものであり、判定部151と、出力処理部152と、遅延部3053と、短縮部3454とを備えている。判定部151、出力処理部152、および遅延部3053の機能は、第5の実施の形態と同様であるのでその説明を省略する。
短縮部3454は、出力音声の長さである発声時間を短縮して送信部160に出力するものである。具体的には、短縮部3454は、出力音声の速度を増加させることにより音声長を短くする。また、短縮部3454は、無音検出アルゴリズムやノイズ検出アルゴリズムを用いて、無音部分やノイズ部分を検出し、検出した部分を削除することにより音声長を短くするように構成してもよい。
さらに、短縮部3454は、生成部140から音声区間と非音声区間とを区別する情報を受け取り、この情報参照して、非音声区間を削除することにより音声長を短くするように構成してもよい。
次に、このように構成された第6の実施の形態にかかる音声翻訳装置3400による音声翻訳処理について説明する。第6の実施の形態の音声翻訳処理の全体の流れは、第5の実施の形態、したがって第1の実施の形態の図6と同様であるが、ステップS605の音声出力処理の詳細が異なっている。図35は、第6の実施の形態における音声出力処理の全体の流れを示すフローチャートである。
ステップS3501からステップS3507までの、音声混合処理、出力判定処理、最短区間算出処理、遅延処理、音声取得出力処理は、第5の実施の形態にかかる音声翻訳装置3000におけるステップS3101からステップS3107までと同様の処理なので、その説明を省略する。
ステップS3107で出力処理部152から音声が出力された後、短縮部3454は、出力された音声の発声時間を短縮して出力する出力時間短縮処理を実行し(ステップS3508)、音声出力処理を終了する。
次に、ステップS3508の出力時間短縮処理の詳細について説明する。図36は、第6の実施の形態における音声出力処理の全体の流れを示すフローチャートである。
まず、短縮部3454は、翻訳処理の遅延時間が、所定の遅延時間(tdelay)より大きいか否か、すなわち、tdxb−tixb>tdelayを満たすか否かを判断する(ステップS3601)。
dxb−tixb>tdelayを満たす場合は(ステップS3601:YES)、短縮部3454は、音声を短縮し(ステップS3602)、短縮した音声を出力する(ステップS3603)。具体的には、上述のように、出力音声の発声速度を速くすること、または出力音声に含まれる無音や雑音を削除することなどにより、音声の発声時間を短縮する。
dxb−tixb>tdelayを満たさない場合は(ステップS3601:NO)、短縮部3454は、短縮処理を実行せずに音声を出力する(ステップS3603)。
次に、短縮処理の具体例について説明する。図37は、短縮処理を行った音声区間の一例を示した模式図である。
同図の「入力」行では、受信部130が入力音声を受信したときの時刻で区切られた入力音声区間と、当該入力音声区間の音声を受信した順に付与された番号とが示されている。
「出力」行では、音声が出力された時刻と対応づけられた出力音声区間が示されている。「短縮部の出力」行では、短縮部3454から音声が出力された時刻と対応づけられた区間が示されている。
「短縮部の出力」行の区間1の長さが、対応する「出力」行の区間よりも短くなっているが、これは短縮部3454が入力された音声を短くして出力したことを表している。
なお、第6の実施の形態では、以下に示すようなさまざまな変形が可能である。
(変形例1)
第6の実施の形態では、一定の遅延時間(tdelay)を事前に設定しておき、少なくともその時間は遅延させて音声を出力していた。これに対し、遅延時間を固定とするのではなく、過去の翻訳処理の遅延を参照して動的に変動させた遅延時間を用いて遅延処理を行う変形例が考えられる。
まず、遅延部3053が処理を行う前の翻訳処理の遅延時間のうち、最近のものから、予め定められた個数(以下、nとする。)の遅延時間を取得する。ここで、最近に出力した遅延時間を1番目として、i番目の遅延時間をLiとする。過去に戻るほどiは増えるとする。例えば、図32の例で、区間番号=3の音声区間を出力し終わったあとであれば、最近の遅延時間L1はto3b−ti3bであり、L2はto2b−ti2bとなる。遅延時間は以下の(1)式で算出される。
Figure 0004271224
区間が存在せず、Liが計算できない場合は、ゼロとして計算すればよい。
すなわち、過去n個の遅延時間の平均値にαをかけたものをtdelayとして算出する。なお、単に平均値をtdelayとすると、過小評価される可能性があるため、一定の係数αとの積を算出している。αを大きくすれば、音声が途切れる頻度を減らすことができる。
このように、判定に用いる遅延時間を動的に変動させることによって、翻訳処理で発生する実際の遅延時間が、tdelayよりも短くなる可能性を低減することができる。すなわち、事前に遅延時間(tdelay)を設定する場合に比べ、音声出力の遅延時間を縮小することができる。
(変形例2)
質問に対する返事(「はい」、「いいえ」)などのような短い発声を元にして、上述の変形例1のように遅延時間の算出を行うと、所定の遅延時間tdelayが過小となり、音声の途切れの発声や、出力速度の増加が頻繁に発生する可能性が高い。これを避けるため、短い発声をtdelayの算出に使用しない変形例が考えられる。すなわち、音声翻訳の元の音声の長さが所定の長さ以下の場合はtdelayの算出にその区間を使用しないようにする。
同様に、音声翻訳に使用していない無音や雑音の音声区間を、tdelayの算出に使用すると、算出されるtdelayの値が過大または過小となる可能性がある。これに対しては、生成部140が、非音声区間であるか否かを表す情報を付与した出力情報を出力し、tdelayの算出の際に、出力情報を参照して非音声区間である区間を遅延時間算出に使用しないようにする。
このように、第6の実施の形態にかかる音声翻訳装置では、所定の遅延時間以上に翻訳処理が遅延した場合に、出力する翻訳音声の発声時間を短縮することができるため、遅延時間が大きくなった状態が続くことを防止することができる。
(第7の実施の形態)
第7の実施の形態にかかる音声翻訳装置は、音声とともに動画を入力する端末装置から音声と動画を受信し、端末装置に対し、翻訳した音声と同期して動画を出力するものである。
図38は、第7の実施の形態にかかる端末装置3800の構成を示すブロック図である。同図に示すように、端末装置3800は、音声入力部201と、送信部202と、第1受信部203と、音声出力部204と、撮像部3801と、第2受信部3802と、画像表示部3803と、を備えている。
第7の実施の形態では、撮像部3801と、第2受信部3802と、画像表示部3803とを追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる端末装置200の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
撮像部3801は、参加者の映像を撮像して動画を出力するものであり、一般的に利用されているカメラなどのあらゆる撮像装置により構成することができる。第2受信部3802は、音声翻訳装置3900から送信された翻訳処理の遅延時間を受信するものである。画像表示部3803は、参加者に対して動画やテキストを画像表示する表示装置であり、ディスプレイ装置などの従来から用いられているあらゆる表示装置を適用できる。
このように、第7の実施の形態の端末装置3800は、音声だけでなく動画を入出力するためのユーザインターフェースを備えている。
図39は、第7の実施の形態にかかる音声翻訳装置3900の構成を示すブロック図である。同図に示すように、音声翻訳装置3900は、音声記憶部110と、対応記憶部120と、受信部3930と、生成部140と、出力制御部3950と、送信部3960と、動画記憶部3970と、を備えている。
第7の実施の形態では、動画記憶部3970を追加したこと、受信部3930、出力制御部3950、および送信部3960の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
動画記憶部3970は、各端末装置200から受信した動画を記憶するものである。動画は、言語依存性が存在しないので、端末装置ごとの記憶部(端末1記憶部3971、端末2記憶部3972、・・・、端末n記憶部397n)に記憶する。
受信部3930は、各端末装置200から音声だけでなく動画を受信するものである。受信部3930は、生成部140に対しては音声だけを出力し、出力制御部3950に対しては、音声と動画とを出力する。
出力制御部3950は、生成部140から翻訳音声を受け取るとともに、受信部3930から受信した音声および動画を受け取る。出力制御部3950は、受け取った動画を動画記憶部3970に保存する。また、出力制御部3950は、翻訳音声が出力可能と判定した場合に、受け取った音声と動画を音声記憶部110および動画記憶部3970から取得し、送信部3960に出力する。
この場合、出力制御部3950は、出力可能な音声区間の音声長と同じ長さの動画を、動画記憶部3970から取得する。入力音声の言語と同じ言語を使用する端末装置3800が出力先に存在する場合は、出力可能な音声区間の出力順は元の音声と同一である。しかし、入力音声の言語と異なる言語の音声の場合には、出力音声の出力順序が元の音声の出力順序と異なる場合が発生しうる。このために、出力する音声長と同じ長さの動画を元の音声の出力順と同じ順に出力する。
なお、出力音声長が入力音声長よりも長くなった場合には、動画の出力速度を落とすことで対処できる。逆に短くなった場合には動画の出力速度を上げることで対処できる。
送信部3960は、音声と動画とを対応づけて端末装置3800に送信するものである。
次に、このように構成された第7の実施の形態にかかる音声翻訳装置3900による音声翻訳処理について説明する。図40は、第7の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。
まず、端末装置3800の撮像部3801が、動画を撮像し(ステップS4001)、音声入力部201から入力された音声とともに(ステップS4002)、送信部202によって音声翻訳装置3900に送信される(ステップS4003)。
音声翻訳装置3900の受信部3930は、音声と動画を受信する(ステップS4004)。次に、出力制御部3950は、翻訳による遅延時間を予測して端末装置3800に送信する(ステップS4005)。
端末装置3800の第2受信部3802は、遅延時間を受信し(ステップS4006)、画像表示部3803によって画面に表示される(ステップS4007)。遅延時間の表示方法については後述する。
音声翻訳装置3900では、第1の実施の形態のステップS604からステップS606までと同様の処理により、翻訳処理、音声出力処理、および送信先決定処理が実行される(ステップS4008、ステップS4009、ステップS4010)。
次に、送信部3960が、出力可能な音声と対応する動画を端末装置3800に送信する(ステップS4011)。
端末装置3800の第1受信部203は、送信された音声および動画を受信し(ステップS4012)、音声出力部204および画像表示部3803によってそれぞれ出力される(ステップS4013、ステップS4014)。
次に、遅延時間の表示方法について説明する。図41は、端末装置3800に表示される表示画面の一例を示した説明図である。
同図に示すように、表示画面4100には、複数の参加者を表示する4つの表示領域の他に、自装置を使用している参加者の発声した音声の翻訳状況を表示するプログレスバー4101と、他の参加者が発声中であることを示す表示領域4102と、当該発声中の音声が自装置に出力されるまでの処理状況を表示するプログレスバー4103とが含まれている。
音声翻訳による遅延は数秒から数十秒にも渡る場合も起こりえるため、遅延の程度をユーザが把握できないと円滑に会議が進行できない場合がある。例えば相手の返事を待つ場合に、どのくらい待てばよいのかを判断することができない。この問題を回避するため、自分の発言が終了してから、その発言が相手に出力されるまでに必要な時間を明示するためのプログレスバーを表示している。なお、処理状況の表示方法は、プログレスバーに限られるものではなく、完了までの時間を数字でカウントダウンして表示する方法などのあらゆる方法を適用できる。
同図は、使用されている端末装置3800の個数が5つの場合の画面例を表している。自装置のユーザの表示は必須ではないのでこの画面例では表示していないが、表示するように構成してもよい。
他の端末装置3800のユーザが話し始めると、表示領域4102に話し中であることを示す表示を行い、ユーザに注意を促す。また、プログレスバー4103に、相手の声が出力されるまでの時間を表示することで、ユーザはあとどのくらい待てばよいのかを把握できる。
遅延時間の予想は、音声翻訳装置3900の出力制御部3950が、過去の遅延時間の平均値を取ることなどによって計算する。また、発声中か否かは、生成部140で非音声区間から音声区間に変わったことで判断できる。
なお、第5の実施の形態および第6の実施の形態のように、所定の遅延時間を加えて音声および動画を出力するように構成することも可能である。
なお、遅延時間を短縮する場合は、音声を短縮するとともに、動画の出力時間である動画長も短くする必要がある。この場合は、例えば、動作を検出する技術を適用して動作していない部分を検出して削除する方法や、一定の割合で画像を間引くことで、動画の長さを短くする方法など、従来から用いられているあらゆる方法を適用できる。
このように、第7の実施の形態にかかる音声翻訳装置では、音声とともに動画を送受信することができるため、動画を用いたテレビ会議システムなどでも、各参加者に発話内容を出力するときに生じうる時間差を最小限にすることができる。また、遅延時間や発声中であることを画面に表示することができるため、ユーザは処理状況を把握することができ、会議を円滑に進行することが可能となる。
図42は、第1〜第7の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。
第1〜第7の実施の形態にかかる音声翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
第1〜第7の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、第1〜第7の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第7の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、第1〜第7の実施の形態の音声翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1〜第7の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、上述した各部(受信部、生成部、出力制御部、送信部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置は、複数の参加者の音声を翻訳して他の参加者に提供する電子会議システムにおける音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。
第1の実施の形態にかかる会議システムの構成を示す説明図である。 第1の実施の形態にかかる端末装置の構成を示すブロック図である。 第1の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 生成部が出力する出力情報の一例を示す説明図である。 音声記憶部に記憶された音声の一例を模式的に示した説明図である。 第1の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。 音声出力処理の全体の流れを示すフローチャートである。 端末ごとの出力可能な音声区間の情報の一例を示した説明図である。 出力判定処理の全体の流れを示すフローチャートである。 判定処理を表した擬似コードの一例を示す説明図である。 出力音声を格納した音声記憶部の一例を示す説明図である。 出力音声を格納した音声記憶部の一例を示す説明図である。 出力音声を格納した音声記憶部の一例を示す説明図である。 出力音声を格納した音声記憶部の一例を示す説明図である。 第2の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 第2の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。 第2の実施の形態における音声出力処理の全体の流れを示すフローチャートである。 第3の実施の形態にかかる端末装置の構成を示すブロック図である。 第1受信部により受信される出力情報の一例を示す説明図である。 音声翻訳装置の構成を示すブロック図である。 出力情報の一例を示す説明図である。 出力情報の一例を示す説明図である。 出力情報の一例を示す説明図である。 第3の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。 第3の実施の形態における出力区間判定処理の全体の流れを示すシーケンス図である。 第4の実施の形態にかかる会議システムの構成を示す説明図である。 第4の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 生成部が出力する出力情報の一例を示す説明図である。 第4の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。 第5の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 第5の実施の形態における音声出力処理の全体の流れを示すフローチャートである。 音声区間の関係を模式的に示した説明図である。 遅延処理の全体の流れを示すフローチャートである。 第6の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 第6の実施の形態における音声出力処理の全体の流れを示すフローチャートである。 第6の実施の形態における音声出力処理の全体の流れを示すフローチャートである。 短縮処理を行った音声区間の一例を示した模式図である。 第7の実施の形態にかかる端末装置の構成を示すブロック図である。 第7の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 第7の実施の形態における音声翻訳処理の全体の流れを示すシーケンス図である。 端末装置に表示される表示画面の一例を示した説明図である。 第1〜第7の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声翻訳装置
110 音声記憶部
11n 言語n記憶部
120 対応記憶部
121 マッピングテーブル
130 受信部
140 生成部
150 出力制御部
151 判定部
152 出力処理部
160 送信部
161 送信先決定部
200 端末装置
201 音声入力部
202 第1送信部
203 受信部
204 音声出力部
300 ネットワーク
1500 音声翻訳装置
1510 音声記憶部
151n 端末N記憶部
1550 出力制御部
1552 出力処理部
1560 送信部
1562 混合部
1800 端末装置
1805 保存部
1806 第2受信部
1807 出力処理部
1810 音声記憶部
2000 音声翻訳装置
2030 受信部
2040 生成部
2050 出力制御部
2052 出力処理部
2060 送信部
2600 音声翻訳装置
2610 音声記憶部
261n 装置n記憶部
2620 言語記憶部
2650 生成部
2651 判定部
2652 出力処理部
2660 出力制御部
2670 第2受信部
3000 音声翻訳装置
3050 出力制御部
3053 遅延部
3400 音声翻訳装置
3450 出力制御部
3454 短縮部
3800 端末装置
3801 撮像部
3802 第2受信部
3803 画像表示部
3900 音声翻訳装置
3930 受信部
3950 出力制御部
3960 送信部
3970 動画記憶部
397n 端末n記憶部
4100 表示画面
4101 プログレスバー
4102 表示領域
4103 プログレスバー

Claims (21)

  1. ネットワークを介して複数の端末装置に接続可能な音声翻訳装置であって、
    前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、
    前記端末装置から音声を受信する受信手段と、
    受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
    任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、
    すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手段と、
    出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手段と、
    を備えたことを特徴とする音声翻訳装置。
  2. さらに、前記出力処理手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記音声を出力し、
    前記送信手段は、出力された前記音声を、前記対応記憶手段における前記原言語に対応する前記識別子で識別される前記端末装置に送信すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  3. 前記判定手段は、任意の前記対象言語の前記翻訳音声が生成された場合に、生成された前記翻訳音声の前記対象言語である第1言語で次に出力すべき第1音声区間と、前記第1言語以外の前記対象言語で前記第1音声区間の終端時刻より前に出力すべき第2音声区間とに対して、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定し、
    前記出力処理手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記第1音声区間と前記第2音声区間とに対応する前記翻訳音声と前記音声とを出力すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  4. 前記生成手段は、複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  5. 前記生成手段は、複数の前記対象言語間で前記翻訳音声の発声時間が略同一でない場合に、前記翻訳音声の発声速度を増減することにより複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
    を特徴とする請求項4に記載の音声翻訳装置。
  6. 前記生成手段は、複数の前記対象言語間で前記翻訳音声の発声時間が略同一でない場合に、前記翻訳音声の前または後ろの少なくとも一方に無音の音声を付加することにより複数の前記対象言語のそれぞれについて発声時間が略同一である前記翻訳音声を生成すること、
    を特徴とする請求項4に記載の音声翻訳装置。
  7. 前記対象言語ごとに前記翻訳音声または前記音声を混合した混合音声を記憶可能な音声記憶手段をさらに備え、
    前記出力処理手段は、さらに前記音声記憶手段に記憶された前記混合音声と生成された前記翻訳音声または前記音声とを前記対象言語ごとに混合し、混合した前記混合音声を前記音声記憶手段に保存し、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に前記混合音声を出力すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  8. 前記端末装置のそれぞれについて、前記対象言語ごとに前記翻訳音声または前記音声を記憶可能な音声記憶手段をさらに備え、
    前記出力処理手段は、さらに生成された前記翻訳音声と前記音声とを前記音声記憶手段に保存し、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、前記対象言語の前記翻訳音声と前記音声とを前記音声記憶手段から取得して出力し、
    前記送信手段は、前記音声の送信元である前記端末装置に対しては、前記音声記憶手段に記憶された前記端末装置に対応する前記対象言語の前記翻訳音声のみを前記対象言語ごとに混合して送信し、前記音声の送信元でない前記端末装置に対しては、前記音声記憶手段に記憶された前記端末装置に対応する前記対象言語の前記翻訳音声および前記音声を前記対象言語ごとに混合して送信すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  9. すべての前記対象言語で前記翻訳音声が生成されたと判定された第1時刻から、前記音声が受信された第2時刻を減算した第1差分を算出し、算出した前記第1差分が予め定められた第1閾値より小さい場合に、前記第2時刻から前記第1閾値が経過するまで前記翻訳音声と前記音声との出力を遅延する遅延手段をさらに備え、
    前記出力処理手段は、前記遅延手段による遅延後に、生成された前記翻訳音声と前記音声とを出力すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  10. 前記第1差分が前記第1閾値より大きい場合に、前記出力処理手段によって出力された前記翻訳音声と前記音声との発声時間を、前記第1差分から前記第1閾値を減算した第2差分に相当する時間だけ短縮する短縮手段をさらに備えたこと、
    を特徴とする請求項9に記載の音声翻訳装置。
  11. 前記短縮手段は、前記翻訳音声と前記音声との発声速度を増加させることにより前記翻訳音声と前記音声との発声時間を短縮すること、
    を特徴とする請求項10に記載の音声翻訳装置。
  12. 前記短縮手段は、前記翻訳音声と前記音声とのそれぞれに含まれる無音または雑音の少なくとも一方を検出し、検出した無音または雑音を削除することにより、前記翻訳音声と前記音声との発声時間を短縮すること、
    を特徴とする請求項10に記載の音声翻訳装置。
  13. 前記遅延手段は、すべての前記対象言語で前記翻訳音声が生成されたと判定された第1音声区間より前に前記翻訳音声と前記音声とが出力済みである予め定められた個数の第2音声区間のそれぞれについて、前記第1時刻から前記第2時刻を減算した第1差分を算出し、算出した前記第1差分の平均値と予め定められた係数との積を算出し、算出した前記積より前記第1差分が小さい場合に、前記第2時刻から前記第1閾値が経過するまで、前記第1音声区間の前記翻訳音声と前記音声との出力を遅延すること、
    を特徴とする請求項9に記載の音声翻訳装置。
  14. 前記遅延手段は、前記第1音声区間より前に前に前記翻訳音声と前記音声とが出力済みであり、予め定められた第2閾値より大きい前記個数の前記第2音声区間を用いて前記積を算出すること、
    を特徴とする請求項13に記載の音声翻訳装置。
  15. 前記受信手段は、前記端末装置から前記音声と対応づけられた映像をさらに受信し、
    前記送信手段は、前記翻訳音声または前記音声に前記映像をさらに対応づけて送信すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  16. 前記生成手段は、受信した前記音声と発声時間が略同一である前記翻訳音声を生成すること、
    を特徴とする請求項15に記載の音声翻訳装置。
  17. 前記生成手段は、受信した前記音声の発声時間より前記翻訳音声の発声時間が短い場合に、前記翻訳音声の前または後ろの少なくとも一方に無音の音声を付加することにより、受信した前記音声と発声時間が略同一である前記翻訳音声を生成すること、
    を特徴とする請求項16に記載の音声翻訳装置。
  18. 複数の端末装置と、ネットワークを介して複数の前記端末装置に接続可能な音声翻訳装置とを備えたシステムであって、
    前記音声翻訳装置は、
    前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段と、
    前記端末装置から音声を受信する第1受信手段と、
    受信した前記音声の言語である原言語と異なる前記使用言語を前記対応記憶手段から取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
    生成された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信し、受信された前記音声を、前記対応記憶手段における前記原言語に対応する前記識別子で識別される前記端末装置に送信する第1送信手段と、
    任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手段と、
    すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、判定された前記音声の区間である音声区間に関する区間情報を出力する第1出力処理手段と、を備え、
    前記第1送信手段は、さらに出力された前記区間情報を前記端末装置に送信し、
    前記端末装置それぞれは、
    前記翻訳音声または前記音声を混合した混合音声を記憶可能な音声記憶手段と、
    音声を入力する音声入力手段と、
    入力された前記音声を前記音声翻訳装置に送信する第2送信手段と、
    送信した前記音声の翻訳結果であって、前記翻訳音声を前記音声翻訳装置から受信する第2受信手段と、
    前記音声記憶手段に記憶された前記混合音声に対して、受信した前記翻訳音声を混合し、混合した前記混合音声を前記音声記憶手段に保存する保存手段と、
    前記音声翻訳装置から前記音声の区間である音声区間に関する区間情報を受信する第3受信手段と、
    受信した前記区間情報で表される前記音声区間の前記混合音声を前記音声記憶手段から取得して出力する第2出力処理手段と、を備えたこと
    を特徴とするシステム
  19. ネットワークを介して複数の外部音声翻訳装置に接続可能な音声翻訳装置であって、
    使用言語を記憶する言語記憶手段と、
    前記外部音声翻訳装置から音声を受信する第1受信手段と、
    前記言語記憶手段に記憶された前記使用言語を対象言語として前記音声を翻訳した翻訳音声を生成する生成手段と、
    前記音声を前記外部音声翻訳装置の前記使用言語を対象言語として翻訳した翻訳音声を前記外部音声翻訳装置から受信する第2受信手段と、
    任意の前記外部音声翻訳装置から前記翻訳音声を受信した場合に、すべての前記外部音声翻訳装置から前記翻訳音声を受信したか否かを判定する判定手段と、
    すべての前記外部音声翻訳装置から前記翻訳音声を受信したと判定された場合に、生成手段により生成された前記翻訳音声を出力する出力処理手段と、
    を備えたことを特徴とする音声翻訳装置。
  20. ネットワークを介して複数の端末装置に接続可能な音声翻訳装置における音声翻訳方法であって、
    受信手段によって、前記端末装置から音声を受信する受信ステップと、
    生成手段によって、前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段から、受信した前記音声の言語である原言語と異なる前記使用言語を取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成ステップと、
    判定手段によって、任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定ステップと、
    出力処理手段によって、すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理ステップと、
    送信手段によって、出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信ステップと、
    を備えたことを特徴とする音声翻訳方法。
  21. ネットワークを介して複数の端末装置に接続可能な音声翻訳装置として機能するコンピュータに実行させるための音声翻訳プログラムであって、
    前記端末装置から音声を受信する受信手順と、
    前記端末装置を識別する識別子と、前記端末装置で使用する使用言語とを対応づけて記憶する対応記憶手段から、受信した前記音声の言語である原言語と異なる前記使用言語を取得し、取得した前記使用言語のそれぞれを対象言語として前記音声を翻訳した翻訳音声を生成する生成手順と、
    任意の前記対象言語の前記翻訳音声が生成された場合に、すべての前記対象言語で前記翻訳音声が生成されたか否かを判定する判定手順と、
    すべての前記対象言語で前記翻訳音声が生成されたと判定された場合に、生成された前記翻訳音声を出力する出力処理手順と、
    出力された前記翻訳音声を、前記対応記憶手段における前記対象言語に対応する前記識別子で識別される前記端末装置に送信する送信手順と、
    前記コンピュータに実行させるための音声翻訳プログラム。
JP2006263116A 2006-09-27 2006-09-27 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム Active JP4271224B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006263116A JP4271224B2 (ja) 2006-09-27 2006-09-27 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US11/723,409 US8078449B2 (en) 2006-09-27 2007-03-19 Apparatus, method and computer program product for translating speech, and terminal that outputs translated speech
CNA2007101472315A CN101155291A (zh) 2006-09-27 2007-08-30 语音翻译设备、语音翻译方法以及输出经翻译的语音的终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006263116A JP4271224B2 (ja) 2006-09-27 2006-09-27 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム

Publications (2)

Publication Number Publication Date
JP2008083376A JP2008083376A (ja) 2008-04-10
JP4271224B2 true JP4271224B2 (ja) 2009-06-03

Family

ID=39226149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006263116A Active JP4271224B2 (ja) 2006-09-27 2006-09-27 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム

Country Status (3)

Country Link
US (1) US8078449B2 (ja)
JP (1) JP4271224B2 (ja)
CN (1) CN101155291A (ja)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
CN1937664B (zh) * 2006-09-30 2010-11-10 华为技术有限公司 一种实现多语言会议的系统及方法
US20080243475A1 (en) * 2007-03-16 2008-10-02 Steven Scott Everhart Web content translation system, method, and software
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
US8570373B2 (en) * 2007-06-08 2013-10-29 Cisco Technology, Inc. Tracking an object utilizing location information associated with a wireless device
US8355041B2 (en) * 2008-02-14 2013-01-15 Cisco Technology, Inc. Telepresence system for 360 degree video conferencing
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8319819B2 (en) * 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US8659637B2 (en) * 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8477175B2 (en) 2009-03-09 2013-07-02 Cisco Technology, Inc. System and method for providing three dimensional imaging in a network environment
US20100283829A1 (en) * 2009-05-11 2010-11-11 Cisco Technology, Inc. System and method for translating communications between participants in a conferencing environment
US8659639B2 (en) * 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US9225916B2 (en) * 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
USD628968S1 (en) 2010-03-21 2010-12-14 Cisco Technology, Inc. Free-standing video unit
USD628175S1 (en) 2010-03-21 2010-11-30 Cisco Technology, Inc. Mounted video unit
USD626103S1 (en) 2010-03-21 2010-10-26 Cisco Technology, Inc. Video unit with integrated features
USD626102S1 (en) 2010-03-21 2010-10-26 Cisco Tech Inc Video unit with integrated features
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US20120046933A1 (en) * 2010-06-04 2012-02-23 John Frei System and Method for Translation
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8433372B2 (en) * 2010-07-06 2013-04-30 Research In Motion Limited System and method for providing feedback to a caller in response to the modulation of an incoming voice communication
EP2405632B1 (en) * 2010-07-06 2012-10-24 Research In Motion Limited System and method for providing feedback to a caller in response to the modulation of an incoming voice communication
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
JP5704686B2 (ja) * 2010-09-28 2015-04-22 独立行政法人情報通信研究機構 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
USD682864S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen with graphical user interface
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
USD678308S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678320S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682293S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682294S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD678307S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
JP5727777B2 (ja) * 2010-12-17 2015-06-03 株式会社東芝 会議支援装置および会議支援方法
US9164988B2 (en) * 2011-01-14 2015-10-20 Lionbridge Technologies, Inc. Methods and systems for the dynamic creation of a translated website
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
US20140081618A1 (en) * 2012-09-17 2014-03-20 Salesforce.Com, Inc. Designing a website to be displayed in multiple languages
US9160967B2 (en) * 2012-11-13 2015-10-13 Cisco Technology, Inc. Simultaneous language interpretation during ongoing video conferencing
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
US9595271B2 (en) * 2013-06-27 2017-03-14 Getgo, Inc. Computer system employing speech recognition for detection of non-speech audio
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP2015060423A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP5958475B2 (ja) * 2014-01-17 2016-08-02 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
CN105786801A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种语音翻译方法、通讯方法及相关装置
JP6596903B2 (ja) * 2015-04-22 2019-10-30 ヤマハ株式会社 情報提供システムおよび情報提供方法
JP6470097B2 (ja) 2015-04-22 2019-02-13 株式会社東芝 通訳装置、方法およびプログラム
US20170060850A1 (en) * 2015-08-24 2017-03-02 Microsoft Technology Licensing, Llc Personal translator
CN106384589A (zh) * 2016-03-07 2017-02-08 陈勇 个性语音录入器
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN109478206B (zh) * 2017-01-17 2020-10-20 乐夫兰度株式会社 多语言沟通系统及多语言沟通提供方法
US10089305B1 (en) * 2017-07-12 2018-10-02 Global Tel*Link Corporation Bidirectional call translation in controlled environment
EP3474156A1 (en) * 2017-10-20 2019-04-24 Tap Sound System Real-time voice processing
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
US20190220520A1 (en) * 2018-01-16 2019-07-18 Chih Hung Kao Simultaneous interpretation system, server system, simultaneous interpretation device, simultaneous interpretation method, and computer-readable recording medium
CN111758264A (zh) 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音
CN109286725B (zh) * 2018-10-15 2021-10-19 华为技术有限公司 翻译方法及终端
CN118711577A (zh) 2018-12-14 2024-09-27 谷歌有限责任公司 用于联网系统的基于语音的接口
KR20210032809A (ko) * 2019-09-17 2021-03-25 삼성전자주식회사 동시 통역 방법 및 장치
JP6710818B1 (ja) * 2020-01-24 2020-06-17 日本電気株式会社 翻訳装置、翻訳方法、プログラム
WO2021236025A1 (en) * 2020-05-18 2021-11-25 Hamadi Fawaz Instant and autonomic translation system and method
US20230262283A1 (en) * 2020-06-16 2023-08-17 Nippon Telegraph And Telephone Corporation Transmission apparatus, communication method and program
KR20220029912A (ko) 2020-09-02 2022-03-10 삼성전자주식회사 통역 상황 정보를 제공하는 방법 및 장치
CN112233649B (zh) * 2020-10-15 2024-04-30 安徽听见科技有限公司 机器同声传译输出音频动态合成方法、装置以及设备
WO2022093192A1 (en) * 2020-10-27 2022-05-05 Google Llc Method and system for text-to-speech synthesis of streaming text
KR102264224B1 (ko) * 2020-12-30 2021-06-11 주식회사 버넥트 실시간 번역 서비스 기반의 원격 커뮤니케이션 방법 및 그 시스템
KR20230067321A (ko) * 2021-11-09 2023-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2773652B2 (ja) * 1994-08-04 1998-07-09 日本電気株式会社 機械翻訳装置
US5875422A (en) * 1997-01-31 1999-02-23 At&T Corp. Automatic language translation technique for use in a telecommunications network
JPH10283356A (ja) 1997-04-03 1998-10-23 Toshiba Corp ネットワークを用いた翻訳処理システム、翻訳処理方法および翻訳処理用記憶媒体
JP2001224002A (ja) 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
US6859778B1 (en) * 2000-03-16 2005-02-22 International Business Machines Corporation Method and apparatus for translating natural-language speech using multiple output phrases
JP2002320037A (ja) 2001-04-19 2002-10-31 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳電話システム
JP2002328921A (ja) 2001-05-01 2002-11-15 N B C Kk 通訳システムおよび通訳方法
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
JP2006524856A (ja) * 2003-04-14 2006-11-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動ダビングをオーディオ・ビジュアル・ストリームに対して行うシステム及び方法
US7406414B2 (en) * 2003-12-15 2008-07-29 International Business Machines Corporation Providing translations encoded within embedded digital information
JP2005295015A (ja) 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP4001133B2 (ja) 2004-07-16 2007-10-31 富士ゼロックス株式会社 自動翻訳装置および自動翻訳システム
JP2008546016A (ja) * 2005-05-31 2008-12-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号で自動的なダビングを実行する方法及び装置
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech

Also Published As

Publication number Publication date
US20080077390A1 (en) 2008-03-27
US8078449B2 (en) 2011-12-13
JP2008083376A (ja) 2008-04-10
CN101155291A (zh) 2008-04-02

Similar Documents

Publication Publication Date Title
JP4271224B2 (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
US10217466B2 (en) Voice data compensation with machine learning
US7490042B2 (en) Methods and apparatus for adapting output speech in accordance with context of communication
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20020111794A1 (en) Method for processing information
JP4884212B2 (ja) 音声合成装置
KR20120086287A (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
GB2291571A (en) Text to speech system; acoustic processor requests linguistic processor output
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
US20240221738A1 (en) Systems and methods for using silent speech in a user interaction system
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
KR101959439B1 (ko) 통역방법
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
US6501751B1 (en) Voice communication with simulated speech data
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JPH1152987A (ja) 話者適応機能を持つ音声合成装置
KR20220007490A (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
WO2021161841A1 (ja) 情報処理装置及び情報処理方法
JP7495220B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4271224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350