JP5564459B2

JP5564459B2 - ビデオ会議に翻訳を追加するための方法及びシステム

Info

Publication number: JP5564459B2
Application number: JP2011076604A
Authority: JP
Inventors: リバーマンドベブ; カプランアミール
Original assignee: ポリコム，インク．
Priority date: 2010-03-30
Filing date: 2011-03-30
Publication date: 2014-07-30
Anticipated expiration: 2031-03-30
Also published as: AU2011200857A1; CN102209227A; US20110246172A1; EP2373016A2; AU2011200857B2; JP2011209731A; JP2014056241A

Description

この発明は、ビデオ会議通信に関し、特に多言語多地点ビデオ会議の分野に関する。

ビデオ会議は多くの境界を取り除く。ビデオ会議が取り除く物理的境界の１つは、或る位置（エンドポイント／端末）から別の位置への物理的距離である。ビデオ会議は、世界中の種々の場所の会議出席者が１つの部屋にいるかのような体験を作り出す。ビデオ会議は、或る場所から別の場所へ旅行する必要なしに、世界中の人々が互いに簡単に話し合うことを可能とする。旅行は、費用がかかり、時間がかかり、また、大気を汚染する（車及び／又は飛行機を使う必要性のため）ものである。ビデオ会議は、物理的距離ばかりでなく時間要素も取り除く。種々のネットワークにわたり使用できるビデオ会議設備の多様性が増えるに従い、より多くの人々がビデオ会議を彼らのコミュニケーションツールとして使用している。

多くの場合、ビデオ会議は多言語会議であり、地球上のさまざまな場所の人々が、互いに多数の言語で話す必要がある。異なる言語を話す、異なる国に、エンドポイントが配置されている多地点ビデオ会議においては、幾人かの会議参加者はそのセッション中に、別の位置（エンドポイント）の会議参加者と話し合い、理解するために、彼らの母国語とは別の言語を話す必要があるだろう。時には、同じ言語を話すが異なるアクセントを持つ人々も、他の会議参加者の理解において問題を持ちうる。この状況は、不便、及び／又は、理解の間違いを引き起こしうる。

別のセッションにおいては、１又は複数の会議参加者は聴取に問題を持っているかもしれない（例えば聾又は聴覚障害者）。聾又は聴覚障害者は、話者の唇を読むことができるならば、ビデオ会議に事実上参加できる。しかし、話者の唇を読むことは、話している人がディスプレイに現れていない、又は、ズーム機能が有効でないならば、困難になるだろう。

聴覚障害を持つ、又は、外国語を話す会議参加者のために使用される手法の１つは、ミーティングの内容を伝達する通訳者に頼ることである。典型的には、人間の通訳者は、聴覚障害者が通訳者を見ることができるよう、聴覚障害者に対して会議室の前方付近に立つ。

別の手法は、１又は複数のエンドポイントにてクローズドキャプション（表示・非表示切り替え可能な字幕）エンジンを使用することである。１又は複数のクローズドキャプション入力装置は１又は複数のエンドポイントに組み込まれる。クローズドキャプション入力装置は、コンピュータ使用のリアルタイム翻訳機、携帯情報端末（ＰＤＡ）、一般的なパーソナルコンピュータなどの、コンピュータ使用のトランスクリプション装置である。クローズドキャプション機能を起動するために、クローズドキャプション入力装置のＷｅｂブラウザの入力フィールドに、キャプション入力者（キャプショナー)のエンドポイントのＩＰアドレスが入力される。そのエンドポイントに関連付けられたＷｅｂページが現れ、ユーザは関連付けられたクローズドキャプションページにアクセスできる。キャプション入力者はひとたびクローズドキャプションページを選択すれば、該キャプション入力者はカレントフィールドへのテキストの入力を開始できる。テキストは、ビデオ会議に参加している１又は複数のエンドポイントに表示される。例えば、テキストは、１番目のエンドポイント、コンピューティング装置、携帯情報端末（ＰＤＡ）などに表示される。

キャプション入力者は、クローズドキャプションテキストを誰に表示するかを選択できる。キャプション入力者は、例えば「場所２」と「場所３」を除いて会議に参加している全ての場所に、テキストを表示することを決定できる。別の例として、ユーザは、クローズドキャプションテキストを、「場所５」にのみ表示することを選択できる。言い換えれば、クローズドキャプションテキストは、キャプション入力者が選ぶ会議参加者と同数にマルチキャストされる。

前述の通り、キャプション入力者は、例えば特定のエンドポイントのＩＰアドレスを入力して、Ｗｅｂページにアクセスできる。クローズドキャプションテキスト入力ページは、クローズドキャプションテキストを受信するために表示される。キャプション入力者は、クローズドキャプション入力装置からカレントテキスト入力ボックスにテキストを入力する。キャプション入力者が、エンターキー又はそれに類するボタンを、画面上で又はクローズドキャプション入力装置で、押したとき、カレントテキスト入力ボックスに入力されたテキストが、当該ビデオ会議に組み込まれた１又は複数のエンドポイントに表示される。

多言語ビデオ会議においては、聴覚障害者の通訳者は複数の問題に直面する。１つの問題は、例えば、１人以上の人が話している状況で生じる。通訳者は、どの話者を聴覚障害者に通訳するか、及び、どのようにして現在通訳している話者を示すかを決めねばならない。

人間の通訳者に頼ることはビデオ会議の体験を低下させる。というのも、会議の音声ミックスにおいて、通訳者の声が通訳されている人の声と同時に聞こえてしまうからである。同時通訳のために１以上の通訳者が必要な場合、その害は耐え難い。さらには、長時間のセッションにおいて、人間の通訳者の注意力は低減し、そして、通訳者は間違いを犯し始めて、セッションの間に休むだろう。

更に、キャプション入力者によるクローズドキャプション機能が使用され、キャプション入力者が翻訳を表示すべきテキストとして入力するところでは、キャプション入力者は、誰がクローズドキャプションテキストを見るべきかを識別できなければならない。キャプション入力者は、当該ビデオ会議に組み込まれた１又は複数のエンドポイントにおいて表示すべきテキストを入力しなければならない。そのため、キャプション入力者は、常に注意深く在らねばらず、人的間違いを犯さないように努めるべきである。

多地点制御ユニット（ＭＣＵ）はビデオ通信セッション（すなわちビデオ会議）を管理するために使用される。ＭＣＵは、会議を制御するエンティティ（実体）であり、ネットワークのノード、端末あるいは他の場所に配置される。ＭＣＵは、所定の基準に従いアクセスポートから種々のメディアチャンネルを受信して処理し、そして、それらを別のポートを介して接続されたチャンネルに分配する。ＭＣＵの一例には、ポリコム株式会社（Polycom Inc.）から提供されているＭＧＣ−１００，ＲＭＸ２０００（登録商標）が含まれる（ＲＭＸ２０００はポリコム株式会社の登録商標である）。周知のＭＣＵは、例えば米国特許第6,300,973号、第6,496,216号、第5,600,646号、第5,838,664号、及び／又は、第7,542,068号など、種々の特許及び特許出願に開示されている。この引用によってその明細書に全体を組み込む。いくつかのＭＣＵは、２つの論理モジュール：メディアコントローラ（ＭＣ）とメディアプロセッサ（ＭＰ）により構成される。

端末（エンドポイントとも呼ばれる）は、ネットワーク上のエンティティ（実体）であり、他の端末又はＭＣＵとの、リアルタイム、双方向の、音声及び／又はオーディオヴィジュアル情報を提供できるものである。エンドポイント（端末）及びＭＣＵの、より徹底的な定義は、国際電気通信連合（"ＩＴＵ"）規格Ｈ．３２０、Ｈ．３２４、及びＨ．３２３規格などにあるが、これに限らない。

画面分割（コンティニュアス・プレゼンス（ＣＰ)）ビデオ会議は、端末の会議参加者が、当該会議における幾人かの別の会議参加者のサイトを、同時に見る視聴できるビデオ会議である。各サイトは、レイアウト上の異なるセグメント（区画）に表示され、各セグメントは、同じサイズ又は異なるサイズ又は１又は複数のディスプレイである。レイアウトのセグメントに表示され組み込まれたサイトの選択は、同じセッションに参加中の、異なる会議参加者の間で多様であってよい。画面分割（ＣＰ）レイアウトにおいて、サイトから受信したビデオ画像は、セグメントのサイズに合わせるように、縮小又は切り取られる。

以下に述べる実施形態は、前述した多言語ビデオ会議における幾つかの不備を解決するものである。しかし、前述したビデオ会議における不備は、いかなる方法でも本発明概念の範囲を限定しない。前記不備は単に例証として挙げたに過ぎない。

一実施形態において、新規のシステム及び方法は、多地点制御ユニット（ＭＣＵ）に実装され、周知のＭＣＵを全ての効能について、多言語翻訳ビデオ会議ＭＣＵ（ＭＬＴＶ−ＭＣＵ）に変容させる。

多言語翻訳ビデオ会議ＭＣＵ（ＭＬＴＶ−ＭＣＵ）の一実施形態において、ＭＬＴＶ−ＭＣＵは、多地点ビデオ会議において受信した１又は複数の音声ストリーム（オーディオストリーム）のいずれの音声ストリームが翻訳されるべきか、及び、種々の音声ストリームがどの言語に翻訳されるべきかを通知される。ＭＬＴＶ−ＭＣＵは、人間の干渉を要することなく、必要とされる各音声ストリームを所望の１又は複数の言語に翻訳する。ＭＬＴＶ−ＭＣＵは、１又は複数の音声ストリームの１又は複数の翻訳を、例えば字幕として、１又は複数のエンドポイントの画面に表示する。

一実施形態に係るＭＬＴＶ−ＭＣＵは各エンドポイントから個別の音声ストリームを受信するものである。従って、ＭＬＴＶ−ＭＣＵは、受信した各音声ストリームを、それらストリームを混合する前に個別に翻訳し、高品質な音声ストリームの翻訳を保証する。

会議参加者が多地点セッションに参加するとき、ＭＬＴＶ−ＭＣＵは翻訳が必要であるか尋ねる。一実施形態において、質問は音声自動応答（ＩＶＲ）セッションにより行われ、会議参加者は何らかの問いかけに応じて何らかのキーを押すよう指示される。一実施形態として、"クリックとビュー"（"click and view"）オプションが使用される場合には、前記会議参加者のエンドポイントにメニューが表示される。前記メニューは、種々の翻訳オプションを提供する。複数のオプションは、複数の言語及び関連する複数のサイトとに関連付けられており、例えば、会議参加者の言語、該会議参加者の発話を翻訳すべき複数の言語、音声が該会議参加者の言語に翻訳されるべきエンドポイント、該会議参加者が翻訳を望む複数の言語、字幕を用いた文字による翻訳又は音声の翻訳、音声の翻訳の場合、当該翻訳が女性又は男性の声のいずれにより行われるか、どの"なまり"（アクセント）により行われるか、などである。会議参加者は、例えばカーソルを用いて質問に答える。"クリックとビュー"方法の一例は、米国特許第7,542,068号に開示されている。この引用によってその明細書に全体を組み込む。

ＭＬＴＶ−ＭＣＵの一例は音声較正フェーズを用いるもので、そこにおいて、関連するサイトの会議参加者は、ＩＶＲ又は別の手法を用いて、画面分割（ＣＰ）ビデオ会議において一般的な手続きであるところの"名乗ること"に加えて、幾つかの予め決められた言葉を言うことを求められる。音声較正フェーズの間、ＭＬＴＶ−ＭＣＵは、翻訳されるべき音声の特徴（"なまり"）に関連する情報を集める。これは、会議参加者に所定数の言葉（例えば"おはよう"、"はい"、"いいえ"、"日"など）を発言させることで行われる。較正情報は、今後の使用に備えてデータベースに保存される。

いくつかの実施形態においては、較正フェーズは、受信した音声ストリームの言語を特定するために使用される。かかる実施形態において、受信機エンドポイントは、或る言語、例えば英語で話している何れのエンドポイントも、例えば中国語に翻訳するようＭＬＴＶ−ＭＣＵに通知する。かかるＭＬＴＶ−ＭＣＵは、受信した複数の較正語の音声列を、探索テーブル中の複数の収録項目と比較する。探索テーブルは、予め決められた複数の言葉の列を種々の言語で具備している。受信した音声列と、探索テーブル中の収録項目とも一致を受け取ったとき、ＭＬＴＶ−ＭＣＵは、受信した音声ストリームの言語を、自動的に決定できる。ＭＬＴＶ−ＭＣＵは、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。ＭＬＴＶ−ＭＣＵの別の実施形態は、受信している音声ストリームを自動的に特定できる市販品を使うことである。自動言語認識の情報は、１９９１年の音響・音声・信号処理国際会議で発行された、Ｍ. スギヤマ著、題名“Ａｕｔｏｍａｔｌａｎｇｕａｇｅｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓ，”という記事に記載されている。いくつかの実施例では、フィードバック機構が実装され、自身の言語を自動特定される会議参加者に対して通知を行い、自動決定を無効にできるようにする。指示と無効化の情報は、"クリックとビュー"オプションを用いて実行される。

ＭＬＴＶ−ＭＣＵは、複数の受信した音声ストリームを同時に翻訳し、且つ、字幕として表示する。翻訳されるべき複数の受信した音声ストリームは、一実施形態において、予め決められた数の音声ストリームであり、或る閾値よりも高い音声エネルギーを持つ。前記予め決められた数は例えば３〜５の範囲である。一実施形態において、翻訳される音声ストリームは、ユーザがＭＬＴＶ−ＭＣＵに翻訳するよう要求したエンドポイントからの音声ストリームである。各音声ストリームの翻訳は、異なるライン上に表示されるか、又は、異なる識別物により区別される。

一実施形態において、前記識別物は、音声ストリーム毎の異なる色と、当該字幕の先頭部に翻訳された会議参加者／エンドポイントの名前とを有する字幕とを含む。混合されるべく現在選択されている音声ストリームの字幕は、ボールド体（太字）で表示される。メイン話者が下線とボールド体で示されてよい。各音声ストリーム翻訳字幕毎に、それらの受信した／測定された信号エネルギーに従い、種々の文字サイズが使用される。一実施形態において、メイン話者とは、エネルギーレベルが或る期間の或る割合で他の会議参加者を上回っていた会議参加者である。メイン話者のビデオ画像は、画面分割（ＣＰ）ビデオ画像中で最も大きいウィンドウに表示される。いくつかの実施形態では、メイン話者のビデオ画像は色つき枠で示される。

ＭＬＴＶ−ＭＣＵは、翻訳する必要のある音声ストリームを特定すると、該音声ストリームの言語を特定し、該音声ストリームが、どの言語に翻訳されるべきかを特定して、該音声ストリームを文字テキストに変換する。この実施形態において、ＭＬＴＶ−ＭＣＵは、音声ストリームをテキストに変換する音声認識エンジン（ＳＴＴＥ）にアクセスできる。ＳＴＴＥは、例えばマイクロソフト (Microsoft Corporation)が提供するＭｉｃｒｏｓｏｆｔＳｐｅｅｃｈＳＤＫ、アイビーエム（International Business Machines Corporation）が提供するＩＢＭＥｍｂｅｄｄｅｄＶｉａＶｏｉｃｅあるいは、その他の市販のコンポーネントを使うことができる。

一実施形態に係るＭＬＴＶ−ＭＣＵは各エンドポイントから個別の音声ストリームを受信するものである。従って、ＭＬＴＶ−ＭＣＵは、要求された受信中の音声ストリームを、それぞれ、ストリームを混合する前に、個別にテキストに変換でき、音声ストリームをテキストへ変換する品質を向上させる。ＭＬＴＶ−ＭＣＵの一実施形態において、音声ストリームは、ＳＴＴＥに伝送される前に、１又は複数の周知のＭＣＵノイズフィルターを通過し、ＳＴＴＥの結果の品質が向上するよう音声ストリームにフィルタをかける。ＭＣＵ音声モジュールは、音声と非音声とを区別できる。それゆえ、一実施形態に係る前記ＭＣＵは、音声ストリームの非音声部分を除去し、さらに高品質の結果を保証する。

一実施形態において、ＭＬＴＶ−ＭＣＵは、更に、フィードバック機構を備え、会議参加者が、当該会議参加者の言葉に関する視覚的評価指標を受け取る。もしＳＴＴＥが会議参加者の発話を異なる２通りの方法で通訳しているならば、それは、例えば信頼度指標５０％のごとき信頼度指標としてリポートされる。ＳＴＴＥは、その信頼度評価をＭＬＴＶ−ＭＣＵに報告し、ＭＬＴＶ−ＭＣＵは、それを等級として会議参加者の画面に表示する。別の実施形態において、ＭＬＴＶ−ＭＣＵは、発話している会議参加者の画面上に、ＳＴＴＥが変換したテキストを（元の言語で）表示し、ＳＴＴＥ翻訳を確認させる話者へのフィードバックを可能とする。いくつかの実施形態では、ＳＴＴＥが或る音声区間の変換に失敗したときに、標示がスピーカ及び／又は字幕受信者に送信される。

音声ストリームがＳＴＴＥによってテキストに変換された後、一実施形態に係るＭＬＴＶ−ＭＣＵは、翻訳エンジン（ＴＥ）によりテキストを別の言語に翻訳する。種々の翻訳エンジン（ＴＥ）が種々の実施形態に使用される。いくつかの実施形態では、ＴＥは、Ｇｏｏｇｌｅ(登録商標)翻訳（Ｇｏｏｇｌｅはグーグル株式会社の登録商標）や、ＹＡＨＯＯ！（登録商標）Ｂａｂｅｌｆｉｓｈウェブサイト（ＹＡＨＯＯ！はヤフー株式会社の登録商標）などのウェブサイトである。別の実施形態は、例えばバビロン社が提供するもののごとき市販の翻訳エンジンを使用できる。翻訳エンジンがＭＬＴＶ−ＭＣＵの一部であるか、又は、別の実施形態では、ＭＬＴＶ−ＭＣＵが翻訳エンジンへのアクセスを有するか、又は、その両方である。

ＭＬＴＶ−ＭＣＵは、１又は複数の種々の言語のテキストを、１又は複数の種々の言語のテキストに、同時に翻訳できる。翻訳テキストは、適宜のフォーマットで、適宜のエンドポイントに、適宜のタイミングでＭＬＴＶ−ＭＣＵにより字幕として表示されるよう、経路制御（ルート）される。ＭＬＴＶ−ＭＣＵは、各エンドポイントの画面に、１又は複数の他の会議参加者の複数の字幕を、同時に表示できる。前記複数の字幕は、種々の音声ストリームの翻訳テキストであり、各音声ストリームは例えば種々の言語の音声ストリームである。

いくつかの実施形態において、ＭＣＵは、音声ストリームを遅延して、音声とビデオストリームを同期させる（というのも、ビデオ処理は音声処理よりも長い時間がかかるからである）。したがって、一実施形態に係るＭＬＴＶ−ＭＣＵは、前記遅延を発話からテキストへの変換及び翻訳に利用し、ビデオ及び音声との字幕の同期化を可能とする。

いくつかの実施形態において、ＭＬＴＶ−ＭＣＵは、受信した複数の種々の音声ストリームを同時に翻訳するが、所定値よりも音声エネルギーが高い音声ストリームのみを、字幕として表示するよう構成される。

更に別の実施形態において、会議参加者（参加者／エンドポイント）はテキストを書く、又は、文字テキストをＭＬＴＶ−ＭＣＵに送る。前記ＭＬＴＶ−ＭＣＵは、受信した文字テキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。文字テキストは、一例として、受信した音声ストリームの翻訳などである。更に別の実施形態において、前記ＭＬＴＶ−ＭＣＵは、テキストを別の言語に翻訳し、翻訳したテキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。前記ＭＬＴＶ−ＭＣＵは、テキストを音声ストリームに変換できる（音声合成エンジン）、又は、かかるコンポーネント又はＷｅｂサービスにアクセスできるか、又は、そのいずれの選択肢も有する。かかる実施形態において、その音声を翻訳されていない会議参加者の音声は、混合する前に遅延されて、翻訳されるストリームと音声を同期させる。

翻訳が発話に変換されるＭＬＴＶ−ＭＣＵの一実施形態において、発話の音量は、受信した音声ストリームの音声エネルギーに従う。

一実施形態において、テキストに変換され且つ翻訳された音声は、会議録として保存される。会議録は、例えば会議の要約として利用される。会議録は、テキストに変換された各音声のテキスト、又は、メイン話者の音声のテキストなどを含む。会議録は、異なる複数のエンドポイントに送信される。各エンドポイントは、会議参加者によって選択された言語の会議録を受信できる。会議録において、テキストがどの会議参加者により発言されたか、どのテキストが聴取されたか（会議通話に混合されたか）、どのテキストが全ての会議参加者によって聴かれていないか、などの標識があるとよい。標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。

本開示のこれら及びその他の側面は、参照図面の参照と詳細な説明により明らかになる。前述の概要は、各潜在的な実施形態又は本願発明の全ての側面を要約することをいとしておらず、本願発明のその他の特徴や利点は、添付図面と請求範囲とともに、以下の実施形態の詳細な説明を読むことで、明らかになる。

更に、詳細な実施形態は、当業者に発明概念を説明するために詳細に記述されており、かかる実施形態は、種々の変形や別の形態が可能である。したがって、図面と説明記述は、いかなる方法でも発明概念の範囲を限定することを意図していない。

本明細書に組み込まれ、本明細書の一部をなす添付図面は、本発明を構成する装置及び方法の実施例を描いており、本発明の利点と原則を説明するために用いる。
一実施形態に係る、マルチメディア多地点会議システムの一部分を描くブロック図。一実施形態に係る、多言語翻訳ビデオ会議ＭＣＵ（ＭＬＴＶ−ＭＣＵ）の一部分の関連要素を描くブロック図。一実施形態に係る、ＭＬＴＶ−ＭＣＵにおける音声モジュールの一部分の関連要素を描くブロック図。一実施形態に係る、ＭＬＴＶ−ＭＣＵのディスプレイレイアウトを字幕とともに描く図。一実施形態に係る、ＭＬＴＶ−ＭＣＵのディスプレイレイアウトを字幕とともに描く図。一実施形態に係る、音声翻訳制御の関連ステップを示すフローチャート。一実施形態に係る、メニュー生成制御の関連ステップを示すフローチャート。

以下の説明において、詳細な説明のために、この発明の完全な理解を提供するよう複数の具体的な詳細が記述される。当業者にとって、これら具体的な詳細なしにこの発明を実施できることは、明白である。別の例では、構造と装置は、発明を不明瞭にすることを避けるために、ブロック図の形式で示されている。添字のない番号への言及は、当該番号に対応する添字の全ての例示を言及することと理解されたい。さらに、この開示で使用される言語は、原則的に、読みやすさと、教唆の目的のために選択されており、発明の本質を叙述したり制限したりするよう選択されているのではなく、そのような発明の本質を定義するする必要がある請求項に頼るものである。明細書中の「一実施形態」又は「実施形態」との言及は、当該実施形態に関して記載した特定の特徴、構造、あるいは性質を意味しており、複数の「一実施形態」又は「実施形態」は、必要に応じて、全て同じ実施形態への言及と理解されるべきではない。

また、以下の記載のいくつかは、ソフトウェアマテャファームウェアに関連する用語で記載されているが、複数の実施形態は、ここに描かれた特徴及び機能を、所望のソフトウェア、ファームウェア又はハードウェアとして実装してよく、ソフトウェア、ファームウェア又はハードウェアのいずれの組み合わせをも含む。デーモン（Daemon）、ドライバー、エンジン、モジュール、或は、ルーティンへの言及は、いずれのタイプの実装でも、実施形態の限界の提示ともみなされるべきでない。

図面において同様な数字が同様な要素を表しており、図面により、開示された方法、システム及び装置の様々な視点、実施形態の例、外観、及び特徴が描かれている。便宜上、同じグループのいくつかの要素のみが、番号で示されている。図の目的は、実施形態の一例を記述することであり、限定のため、あるいは、製造に用いるためではない。図面に示された特徴は、図示の判りやすさと便宜のためにのみ選ばれている。

図１は、一実施形態に係るマルチメディア多地点会議システム１００の例示部分の関連要素を示すブロック図を描いている。システム１００は、ネットワーク１１０、１又は複数のＭＣＵ１２０Ａ〜Ｃ、及び、複数のエンドポイント１３０Ａ〜Ｎを含む。いくつかの実施形態では、ネットワークは、負荷分散装置（ＬＢ）１２２を含む。これは、全てのＭＣＵ１２０Ａ〜Ｃの有効な使用を促す。というのも、ＭＣＵ１２０Ａ〜Ｃは１地点から制御及び計画されるからである。加えて、ＭＣＵ１２０Ａ〜Ｃと１地点からそれらを制御することの組み合わせることにより、準備なしのビデオ会議を首尾よく計画立てすることの蓋然性が大いに向上する。一実施形態において、ＬＢ１２２は、ＰｏｌｙｃｏｍＤＭＡ７０００（ＤＭＡはポリコム株式会社の登録商標である）。ＬＢ１２２の更なる情報は、米国特許第7,174,365号にあり、その全体が明細書に組み込まれたものとする。

エンドポイントは、ネットワーク上の端末であり、リアルタイムの、他の端末又は多地点制御モジュール（ＭＣＵ、詳細は後述する）との双方向の音声／ヴィジュアル／データ情報を提供することができる。エンドポイントは、発話情報のみ、発話及びビデオ情報、あるいは、発話、データ及びビデオ情報などを提供できる。ビデオ会議のエンドポイントは、典型的には、１又は複数のリモートサイトからのビデオ画像が表示されるディスプレイモジュールを備える。エンドポイントの一例としては、ＰＯＬＹＣＯＭ（登録商標）ＶＳＸ（登録商標）及びＨＤＸ（登録商標）シリーズ（ＰＯＬＹＣＯＭ、ＶＳＸ，及びＨＤＸはポリコム株式会社の登録商標である）がある。複数のエンドポイント（ＥＰ）１３０Ａ〜Ｎは、ネットワーク１１０経由で、1又は複数のＭＣＵ１２０Ａ〜Ｃに接続される。ＬＢ１２２が存在する実施形態では、各ＥＰ１３０は、ＭＣＵ１２０Ａ〜Ｃの１つと接続される前にＬＢ１２２と通信する。

ＭＣＵ１２０Ａ〜Ｃは、会議制御エンティティ（実体）である。一実施形態において、ＭＣＵ１２０Ａ〜Ｃは、ネットワーク１１０のノードに、又はアクセスポートからの種々のチャンネルを受信する端末に配置され、或る判断基準に従い、オーディオヴィジュアル信号を処理し、接続されたチャンネルに分配する。ＭＣＵ１２０Ａ〜Ｃの実施形態は、ポリコム株式会社（ＰｏｌｙｃｏｍＩｎｃ.）の製品であるＭＧＣ−１００、ＲＭＸ２０００（ＲＭＸ２０００はポリコム株式会社の登録商標である）。一実施形態において、ＭＣＵ１２０Ａ〜Ｃは、ＩＰネットワーク上で動作するサーバーであるＩＰＭＣＵである。ＩＰＭＣＵ１２０Ａ〜Ｃは、種々の異なるネットワークサーバのいくつかのみであり、当該開示が教唆しているものを実装するネットワークサーバである。従って、当該開示は、ＩＰＭＣＵの実施形態に限定されない。

一実施形態において、１又は複数のＭＣＵ１２０Ａ〜Ｃは、ＭＬＴＶ−ＭＣＵ１２０である。ＬＢ１２２は、更に、１又は複数のＭＬＴＶ−ＭＣＵ１２０により、例えば翻訳能力など該ＭＬＴＶ−ＭＣＵ１２０の能力が通知される。したがって、エンドポイント１３０が字幕又は翻訳を要求するとき、ＬＢ１２２は、ＥＰ１３０に、ＭＬＴＶ−ＭＣＵであるＭＣＵを参照させる。

ネットワーク１１０は、サービス総合ディジタル網（ＩＳＤＮ）、公衆交換電話網（ＰＳＴＮ）、非同期転送モード（ＡＴＭ）、インターネット、回線交換ネットワーク、イントラネットなど、１つのネットワーク又は２以上のネットワークの組み合わせを表す。前記ネットワーク越しのマルチメディア通信は、国際電気通信連合（ＩＴＵ）規格Ｈ．３２０、Ｈ．３２４、及びＨ．３２３，ＳＩＰ規格など通信プロトコルに準拠する。

エンドポイント１３０Ａ〜Ｎは、ＥＰ１３０の会議参加者とＭＣＵ１２０Ａ−Ｃの間のインターフェースとして機能するユーザ操作装置（図示外）を備る。ユーザ操作装置は、ＤＴＭＦ（デュアルトーンマルチ周波数）信号を用いるダイアリングキーボード（例えば電話機のキーボード）と、ＤＴＭＦ信号に加えて他の信号に用いる専用の操作装置、及び、例えばＩＴＵ規格Ｈ．２２４及びＨ．２８１に準拠して信号処理するモジュールである遠隔カメラ操作（ＦＥＣＣ）を含む。

エンドポイント１３０Ａ〜Ｎは、そのエンドポイントの会議参加者に会議で発言させ、また、他の参加者に聴取される音とノイズに寄与するマイクロフォン（明りょうさのため図示されていない）と、該エンドポイント１３０Ａ〜Ｎにて該会議にライブビデオデータを入力するカメラと、会議を聴取するための１又は複数のスピーカと、該エンドポイント１３０Ａ〜Ｎにて会議を閲覧させるディスプレイとを備える。前記コンポーネントの１つを欠損しているエンドポイント１３０Ａ〜Ｎは、会議に参加する方法が制限される。

記述されたシステム１００の部分は、関連要素のみを備え且つ記述している。システム１００の他の部分は記述されていない。システムの構成及び必要に応じて、各システム１００が別の数のエンドポイント１３０、ネットワーク１１０、ＬＢ１２２及びＭＣＵ１２０を有することが、当業者によって認められうる。しかし、簡潔さと理解の目的で、４つのエンドポイント１３０と、３つのＭＣＵ１２０を有する１つのネットワーク１１０が示されている。

図２は、ＭＬＴＶ−ＭＣＵ２００の一実施形態の部分の関連要素に関するブロック図を描いている。ＭＬＴＶ−ＭＣＵ２００の別の実施形態は、別のコンポーネントを有する、及び／又は、図２に示されたコンポーネント全てを含むのではない。

ＭＬＴＶ−ＭＣＵ２００は、ネットワークインターフェース（ＮＩ）２１０を備える。ＮＩ２１０は、複数のエンドポイントと、ＭＬＴＶ−ＭＣＵ２００内部モジュールの間のインターフェースとして機能する。一方の方向において、ＮＩ２１０は、ネットワーク１１０経由で、複数のエンドポイント１３０Ａ〜Ｎからのマルチメディア情報を受信する。ＮＩ２１０は、受信したマルチメディア情報を、例えばＨ．３２０、Ｈ．３２３、Ｈ．３２１、Ｈ．３２４及びセッション確立プロトコル（ＳＩＰ）などのネットワーク通信規格に従って処理する。ＮＩ２１０は、受信したマルチメディア情報を処理した圧縮音声、圧縮ビデオ、データ、及び制御ストリームを、ＭＬＴＶ−ＭＣＵ２００の適宜のモジュールに、伝達する。いくつかの通信規格は、ＮＩ２１０の処理が、圧縮音声、圧縮ビデオ、データ、及び制御ストリームに入ってくるマルチメディア情報をデマルチプレクスすることを含むことを要求する。いくつかの実施形態では、メディアは、まず圧縮され、それからＭＬＴＶ−ＭＣＵ２００に送出する前に、暗号化される。

他方の方向では、ＮＩ２１０は、ネットワーク１１０経由で、ＭＬＴＶ−ＭＣＵ２００内部モジュールからのマルチメディア情報を、複数のエンドポイント１３０Ａ〜Ｎに、伝送する。ＮＩ２１０は、ＭＬＴＶ−ＭＣＵ２００の種々のモジュールからの独立したストリームを受信できる。ＮＩ２１０は、通信規格に従いストリームをマルチメディア情報にマルチプレクス(多重化)及び処理する。ＮＩ２１０は、マルチメディア情報を、前記ストリームを１又は複数のエンドポイント１３０Ａ〜Ｎに運ぶネットワーク１１０に伝送する。

複数の異なるネットワーク越しの複数のエンドポイント及び／又は複数のＭＣＵの間の通信に関する更なる情報、及び、信号処理、制御、圧縮及びビデオ通話をいかにセットするかを記載している情報は、例えばＩＴＵ規格Ｈ．３２０、Ｈ．３２１、Ｈ．３２３、Ｈ．２６１、Ｈ．２６３及びＨ．２６４にある。

ＭＬＴＶ−ＭＣＵ２００は、また、音声モジュール２２０を備える。音声モジュール２２０は、ＮＩ２１０経由で且つ音声リンク２２６を通じて、複数のエンドポイント１３０Ａ〜Ｎからの圧縮音声ストリームを受信する。音声モジュール２２０は、受信した圧縮音声ストリームを処理し、関連する音声ストリームを復元（デコード）及び混合し、エンコード（圧縮）して、圧縮、エンコード、混合された信号を、音声リンク２２６及びＮＩ２１０経由でエンドポイント１３０Ａ〜Ｎへ伝送する。

一実施形態において、各エンドポイント１３０Ａ〜Ｎに送信された音声ストリームは、各エンドポイント１３０Ａ〜Ｎそれぞれの要求に応じて異なっている。例えば、音声ストリームは、各エンドポイント毎の異なる通信規格に応じてフォーマットされる。更に、１つのエンドポイント１３０に送信された音声ストリームは、このエンドポイントに関連付けられた会議参加者の音声を含んでおらず、当該会議参加者の音声は混合された他の全ての音声ストリームには含まれる。

一実施形態において、音声モジュール２２０は、少なくとも１つのＤＴＭＦモジュール２２５を含む。ＤＴＭＦモジュール２２５は、受信した音声ストリームからＤＴＭＦ信号を検出し、取り出す。ＤＴＭＦモジュール２２５は、前記ＤＴＭＦ信号をＤＴＭＦ制御データに変換する。ＤＴＭＦモジュール２２５は、前記ＤＴＭＦ制御データをコントロールリンク２３２経由で制御モジュール２３０に伝送する。ＤＴＭＦ制御データは、当該会議の制御機能に使用される。ＤＴＭＦ制御データは、例えばクリックとビュー（click and view）機能経由で会議参加者により送信されるコマンドである。別の複数の実施形態は、モジュール２２５に加えて、又は、モジュール２２５に換えて、音声認識モジュール（図示しない）を用いる。これら実施形態において、音声認識モジュールは、音声コマンド及び会議参加者の応答を、ビデオ会議のパラメータ制御に用いる。

更なる実施形態は、視覚的メニューに加えて、又は、それに換えて、会議参加者に指示する音声自動応答（ＩＶＲ）モジュールを使用する又は持つ。例えば、音声モジュール２２０は、どうやって会議に参加するか、及び／又は、どうやって会議のパラメータを操作するかに関して、会議参加者に教えるための、音声メニューを生成する。ＩＶＲモジュールは、図２には示されていない。

典型的なＭＣＵの周知の動作に加えて、ＭＬＴＶ−ＭＣＵ２００の複数実施形態は、会議翻訳モジュール（ＣＴＭ）２２２を持つ結果として、追加的動作が可能である。ＣＴＭ２２２は、受信した音声ストリームのいずれが翻訳されるべきかを決定する。ＣＴＭ２２２は、特定した翻訳されるべき音声ストリームを、例えば音声認識エンジンと翻訳エンジンに伝送する。翻訳テキストは、メニュー生成部２５０に伝送される。ＣＴＭ２２２及び音声モジュール２２０の更なる情報は後述の図３と組み合わせ述べる。

典型的なＭＣＵの周知の動作に加えて、ＭＬＴＶ−ＭＣＵ２００は、制御モジュール２３０を持つ結果として、追加的動作が可能である。制御モジュール２３０は、ＭＬＴＶ−ＭＣＵ２００の動作、及び、音声モジュール２２０、メニュー生成部２５０、ビデオモジュール２４０などその内部モジュールの動作を制御する。制御モジュール２３０は、ＭＬＴＶ−ＭＣＵ２００の異なる内部モジュールから受信した指示を処理し、同様にＬＢ１２２又はＥＰ１３０など外部装置からの指示を処理する論理モジュールを含む。制御モジュール２３０は、制御リンク２３２経由でＤＴＭＦモジュール２２５から、及び／又は、制御リンク２３６経由でＣＴＭ２２２から受信した指示を処理する。制御信号は、例えばクリックとビュー（click and view）機能又は音声コマンド経由で会議参加者から受信した信号処理及び制御コマンド、表示すべき字幕に関してＣＴＭ２２２から受信したコマンドなどを含む。

制御モジュール２３０は、制御リンク２３２経由でメニュー生成部２５０を制御する。一実施形態において、制御モジュール２３０は、メニュー生成部２５０に、どの字幕を、どのサイトに、どの言語で、及び、どのフォーマットで表示するかを指示する。制御モジュール２３０は、ビデオモジュール２４０に例えば要求されるレイアウトに関して指示する。制御モジュール２３０のいくつかの特有の動作は、後述の図３，５及び６と組み合わせて述べる。

一実施形態において、メニュー生成部（ＭＧ）２５０は、エンドポイントのディスプレイに表示されるメニュー、及び／又は、字幕を生成する論理モジュールである。ＭＧ２５０は、ＭＬＴＶ−ＭＣＵ２００の異なる内部モジュールから、例えば、制御リンク２３９経由で制御モジュール２３０から、あるいは、制御リンク２５４経由で音声モジュール２２０から、コマンドを受信する。一実施形態において、ＭＧ２５０は、表示すべきテキストを受信し、同様に、テキストリンク２５２経由で音声モジュール２２０から、及び、バス２３９経由で制御モジュール２３０からグラフィク化指示を受信する。受信したテキストは、音声ミックス中に音声ストリームがある会議参加者の発言の翻訳である。ＭＧ２５０は、字幕、及び／又は、メニューフレームを生成する。前記字幕は、音声モジュールから受信したテキストの視覚的グラフィクスである。メニュー生成部の更なる情報は、米国特許７，５４２，０６８号にある。いくつかの実施形態において、市販のメニュー生成部を、“Ｑｔｏｐｉａ”との名前で知られるＱｔＥｘｔｅｎｄｅｄなどを、ＭＧ２５０として使用できる。

字幕は、一実施形態において、どの字幕がどの会議参加者の発言の翻訳であるかを簡単に識別できるような方法でフォーマットされる。字幕に関する更なる情報は、後述図４に組み合わせて述べる。前記メニューフレームは、会議参加者による選択のための適宜のオプションを含む。

字幕は、ビデオモジュール２４０が処理できるサイズ及びフォーマットのグラフィカル画像である。字幕は、ビデオリンク２４９経由でビデオモジュール２４０に送信される。字幕は、制御モジュール２３０及び／又はＭＧ２５０から受信した制御情報に従い、エンドポイント１３０Ａ〜Ｎのディスプレイに表示される。

字幕は、テキスト、グラフィック及び透過情報（ビデオ画像上の字幕の位置に関する情報、どの会議参加者にビデオ画像が、部分的に透過的な前面の字幕を通して、背景として見られるのか）を含む。字幕は、会議参加者の共通ビデオ画像の一部に、追加的に、又は、それに代えて、表示される。別の実施形態では、ＭＧ２５０は、ビデオモジュール２４０の一部である。ＭＧ２５０の更に詳しい動作は、後述図４に組み合わせて述べる。

ビデオモジュール２４０は、圧縮ビデオストリームを受信し、変更し、送信する論理モジュールである。ビデオモジュール２４０は、１又は複数の参加しているエンドポイント１３０Ａ〜Ｎから受信した圧縮入力音声ストリームを処理する１又は複数の入力モジュール２４２と、構成された圧縮出力ビデオストリームを生成する１又は複数の出力モジュール２４４を含む。圧縮出力ビデオストリームは、種々の入力ストリームと種々の字幕、及び／又は、メニューから構成され、複数のエンドポイント１３０Ａ〜Ｎのうちの指定された１又は複数のエンドポイント１３０Ａ〜Ｎのために会議を再現するビデオストリームを形成する。構成された圧縮出力ビデオストリームは、ビデオリンク２４６経由でＮＩ２１０に送信される。ＮＩ２１０は、１又は複数の構成された圧縮出力ビデオストリームを、関連する１又は複数のエンドポイント１３０Ａ〜Ｎに伝送する。

一実施形態において、各ビデオ入力モジュールは、１つのエンドポイント１３０に関連付けられる。各ビデオ出力モジュール２４４は、同じレイアウトの同じ圧縮パラメータを受信している１又は複数のエンドポイント１３０に関連付けられる。各ビデオ出力モジュール２４４は、１つのエディタモジュール２４５を備える。各ビデオ出力モジュール２４４は、個々のエンドポイント又はエンドポイント１３０Ａ〜Ｎのグループ毎に個別化されたレイアウトに従い、構成されたビデオ画像を作成する。各ビデオ出力モジュール２４４は、複数のエンドポイント１３０Ａ〜Ｎから、個々のエンドポイント又はエンドポイント１３０Ａ〜Ｎのグループ毎に個別化された字幕を表示する。

入力モジュール２４２から送られた非圧縮ビデオデータは、共通インターフェース２４８において、ビデオ出力モジュール２４４に共有される。共通インターフェース２４８は、時分割多重化（ＴＤＭ）インターフェース、パケットに基づくインターフェース、非同期転送モード（ＡＴＭ）及び／又は共有メモリを含む。共通インターフェース２４８上のデータは、全て非圧縮か又は部分的に非圧縮である。

一実施形態において、複数の出力モジュール２４４のそれぞれは、１つのエディタ２４５（編集部）を含む。ＭＧ２５０からのビデオデータは、例えば制御モジュール２３０から受信したコマンドに従い、共通インターフェース２４８から適宜の出力モジュール２４４に取り出される。適宜の出力モジュールのそれぞれは、エディタ２４５にビデオデータを送る。エディタ２４５は、種々のビデオソースから出力ビデオフレームを組み立てて、また、次フレームメモリに、暗号化すべきメニュー及び／又は字幕フレームを形成する。エディタ２４５は、各字幕を、共通インターフェース２４８経由で受信した、種々のビデオソースの１つとして処理する。エディタ２４５は、字幕のビデオデータを、矩形又はビデオイメージのウィンドウの１つとして、レイアウトに、加える。

画面レイアウト上の各矩形（セグメント（区画））又はウィンドウは、それぞれ異なるエンドポイント１３０から受信したビデオ画像を掲載しており、ビデオ画像は例えばそのエンドポイント１３０に関連付けられた会議参加者のビデオ画像である。一実施形態において、ＭＧ２５０からのビデオデータ（例えば字幕）は、表示される当該字幕を生成した会議参加者のビデオ画像を表示するウィンドウの上又は下に配置される。

別のエディタ２４５は、ＭＧ２５０からのビデオデータを特別なビデオソースとして処理し、字幕を部分的に透過的なものとして、関連する会議参加者のビデオ画像の前面に表示して、該ビデオ画像がメニューの背後に見えているようにする。ビデオモジュール２４０の動作の例は、既に引用した米国特許第６，３００，９７３号に記載されている。ビデオモジュール２４０の別の実施形態の例は、米国特許第７，５３５，４８５号、及び米国特許第７，５４２，０６８号に記載されている。

いくつかの実施形態において、ＭＧ２５０は、独立したモジュールであり、複数の出力モジュール２４４のうちの１つ以上への要求された字幕を生成する。別の実施形態では、ＭＧ２５０は、各出力モジュール２４４毎に１つのモジュールであり、出力モジュール２４４毎に個別にメニュー及び／又は字幕を生成する。

一実施形態において、字幕は完全に個別化される。例えば、字幕は、個々のエンドポイント１３０Ａ〜Ｎの要求に従い、姿、形及び外観において、個別化される。別の例では、字幕の形が、本質的には均一であり、字幕が現れるときに関しては個別化される。

一実施形態に係るエンドポイント１３０Ａ〜Ｎのヴィジュアル制御の表示は、会議のモデレータ（図示外）により選択されるオプションであり、モデレータが会議参加者のプロファイルを取っておき定義する。モデレータは、エンドポイント１３０Ａ〜Ｎの１つに関連付けられ、ユーザ制御装置（図示外）を使用して、選択を行い、会議参加者のプロファイルを定義する。モデレータは、（それぞれに対応するユーザ制御装置を使って）会議参加者が会議の設定（パラメータ）を会議の間に制御する能力を有するかどうか決定する。一致実施形態において、会議参加者に会議の設定を制御する能力を持つことを会議参加者に許可しているとき、モデレータは、当該会議プロファイルにおいて、対応するオプション「ＯＮ」を選択する。

制御リンク２３４，２３６，２３２，２３８及び２３９、ビデオリンク２４６及び２４９、音声リンク２２６は、それぞれ、制御信号、ビデオ信号、音声信号、及び、マルチメディア信号を運ぶよう、特別に設計され、且つ、専念するリンクである。これらリンクは、時分割多重化（ＴＤＭ）インターフェース、パケットに基づくインターフェース、非同期転送モード（ＡＴＭ）及び／又は共有メモリを含む。別の例として、これらリンクは一般的なケーブルにより構成される。別の実施形態では、これらリンクは、例えば、光学式であるか、あるいは、ラジオ波の経路であるか、あるいは、それらの組み合わせである。

図３は、一実施形態に係る、音声モジュール３００の部分の一例の関連要素を示すブロック図である。音声モジュール３００の別の実施形態は、別のコンポーネントを有する、及び／又は、図３に示されたコンポーネント全てを含むのではない。音声モジュール３００は、複数のセッション音声モジュール３０５Ａ〜Ｎを備えており、音声モジュール３００が処理する各セッション毎に１つのセッション音声モジュール３０５Ａ〜Ｎである。各セッション音声モジュール３０５Ａ〜Ｎは、１又は複数のからのポイント１３０Ａ〜Ｎからの複数の音声ストリームを、ＮＩ２１０経由で圧縮音声共通インターフェース３０２を通じて、受信する。各受信した音声ストリームは、音声デコーダ（ＡＤ）３１０Ａ〜Ｎにより、復元され、デコードされる。

一実施形態に係るＡＤ３１０は非音声信号を検出して、音声と非音声を区別する。例えば、ＤＴＭＦ信号として検出された音声ストリームは、ＤＴＭＦモジュール２２５に伝送され、デジタルデータに変換される。デジタルデータは、制御モジュール２３０に伝送される。デジタルデータは、例えば、エンドポイント１３０からＭＬＴＶ−ＭＣＵ１２０Ａ−Ｃに伝送されたコマンドである。

各音声ストリームは、ＡＤモジュール３１０Ａ〜Ｎにより、復元され、及び／又はデコードされる。デコードは、受信した圧縮音声ストリームで使用された圧縮規格に従い行われる。圧縮規格は、ＩＴＵ規格Ｇ．７１９，Ｇ．７２２などを含む。一実施形態に係るＡＤモジュール３１０Ａ〜Ｎは、音声を他の種類のノイズからフィルタする周知のスピーチフィルタを備える。ＡＤ３１０Ａ〜Ｎのスピーチフィルタは、オーディオ品質を向上する。ＡＤ３１０Ａ〜Ｎは、フィルタをかけて、復元及び／又はデコードした音声データを、１又は複数の音声リンク３１２経由で、出力する。

デコードされた音声データは、一実施形態において、信号エネルギー分析及び制御部（ＳＥＡＣ）３２０によりリンク３２２経由でサンプルされる。ＳＥＡＣ３２０は、最も高い信号エネルギーを持つ所定数の音声ストリーム（例えば３〜５ストリームの間）を特定する。検出した信号エネルギーに応じて、ＳＥＡＣ３２０は１又は複数の制御コマンドを、翻訳‐セレクタモジュール（ＴＳＭ）３６０と、１又は複数のミキシングセレクタ３３０Ａ〜Ｎに、制御リンク３２４経由で送信する。

ミキシングセレクタ３３０への制御コマンドは、例えば、どの音声ストリームを混合されるものとして選択するかを指示する。別の実施形態では、混合する音声ストリームに関連するコマンドは、制御モジュール２３０から、制御リンク３２６経由で受信される。別の実施形態では、決定は、ＳＥＡＣ３２０及び制御モジュール２３０からの制御コマンドの組み合わせである。ＳＥＡＣ３２０は、例えば、所定時間周期毎に及び／又は所定数のフレーム毎に、音声リンク３１２をサンプルする。

ＴＳＭ３６０は、音声リンク３１２経由でＡＤ３１０Ａ〜Ｎからデコードされた音声ストリームを受信する。加えて、ＴＳＭ３６０は、ＳＥＡＣ３２０から、どの音声ストリームが翻訳されるべきかを指示するコマンドを受信する。コマンドに応じて、ＴＳＭ３６０は、選択されたデコードされた音声ストリームを１又は複数のＳＴＴＥ３６５Ａ〜Ｘに伝送する。別の実施形態では、ＴＳＭ３６０は、翻訳されるべき音声ストリームを１つずつコピーして、該音声ストリームのコピーをＳＴＴＥ３６５Ａ〜Ｘに伝送し、オリジナルの音声ストリームをミキシングセレクタ３３０に伝送する。

一実施形態において、ＳＴＴＥ３６５Ａ〜Ｘは、音声ストリームを受信して、該音声ストリームをテキストのストリームに変換する。ＳＴＴＥ３６５Ａ〜Ｘは、例えばマイクロソフト (Microsoft Corporation)が提供するＭｉｃｒｏｓｏｆｔＳｐｅｅｃｈＳＤＫ、アイビーエム（International Business Machines Corporation）が提供するＩＢＭＥｍｂｅｄｄｅｄＶｉａＶｏｉｃｅ、及び、マックスピーチ株式会社(MacSpeech,Inc)のアイリッスン（ｉＬｉｓｔｅｎ）など、市販のコンポーネントである。一実施形態において、ＳＴＴＥ３６５は、Ｇｏｏｇｌｅ(登録商標)翻訳や、ＹＡＨＯＯ！（登録商標）Ｂａｂｅｌｆｉｓｈウェブサイトなどのウェブサイトである。別の実施形態は、ＳＴＴＥ３６５は、上記の組み合わせである。各ＳＴＴＥ３６５は、１又は複数の言語のために使用される。ＳＴＴＥ３６５がリモートサイトに配置されたいくつかの実施形態において、翻訳のために選択された音声ストリームは、ＳＴＴＥ３６５Ａ〜Ｘに送信される前に、圧縮される。

各ＳＴＴＥ３６５Ａ〜Ｘが幾つかの複数言語に使用される一実施形態において、ＴＳＭ３６０は、音声ストリームの言語に従い、どの音声ストリームをどのＳＴＴＥ３６５Ａ〜Ｘに伝送するかを決定する。ＴＳＭ３６０は、ＳＴＴＥ３６５Ａ〜Ｘに、音声ストリームとともに、コマンド情報を送信する。コマンド情報は、音声ストリームリの言語と、当該ストリームが翻訳されるべき言語の情報を含む。別の実施形態において、ＳＥＡＣ３２０は、その音声ストリームのために目的先言語を、各ＳＴＴＥ３６５Ａ〜Ｘに直接指示する。別の実施形態では、ＳＴＴＥ３６５Ａ〜Ｘは、音声ストリームの言語を特定でき、それ自身、受信した音声を必要とされる言語に翻訳できるようになっている。必要とされる言語は、一実施形態では、ＳＥＡＣ３２０によって定義される。係る実施形態は、言語を特定することができる市販品を使用でき、例えば、１９９１年の音響・音声・信号処理国際会議で発行された“Ａｕｔｏｍａｔｌａｎｇｕａｇｅｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓ，”という記事に記載されたものを使用できる。

別の実施形態は、音声ストリームの言語と、該ストリームが翻訳されるべき言語を決定するための別の方法を用いる。１つの手法は、音声ストリームのソースであるエンドポイント（サイト）と、音声ストリームが送信されるべきエンドポイントとを特定することによるものである。この情報は、ＮＩ２１０（図２）及び／又は制御モジュール２３０から受信され、ＳＥＡＣ３２０に送信される情報に含まれる。

別の実施形態は、トレーニングフェーズを使うものであり、ＭＬＴＶ−ＭＣＵ２００は音声較正フェーズを実行して、画面分割（ＣＰ）ビデオ会議において一般的な手続きであるところの"名乗ること"の要求に加えて、幾つかの予め決められた言葉を言うことを、会議参加者に要求する。

音声較正フェーズは、ビデオ会議セッションの開始時に行われるか、又は、会議参加者がセッションに参加するときに行われる。音声較正フェーズは、また、例えば会議参加者により開始される。音声較正フェーズの間、ＴＳＭ３６０は、どの会議参加者の音声が翻訳される必要があるかを学習する。これは、一実施形態において、例えば、音声較正フェーズの開始時に、会議参加者に所定数の言葉（例えば「おはよう」、「はい」、「いいえ」など）を発言させることにより実行される。ＴＳＭ３６０は、言葉の音声列を探索テーブル中の複数の収録項目と比較する。前記探索テーブルは、前記予め決められた複数の言葉の列を種々の言語で具備する。受信した音声列と、探索テーブル中の収録項目との一致が受信されたとき、ＴＳＭ３６０は、受信した音声ストリームの言語を決定する。一実施形態においてＴＳＭ３６０は、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。

一実施形態において、ＴＳＭ３６０は、クリックとビュー（ｃｌｉｋａｎｄｖｉｅｗ）機能を使って１又は複数のエンドポイントから言語の情報を受信する。会議参加者は、その会議参加者の言語及び／又はその会議参加者の言葉を翻訳したい言語、又は、その会議参加者の言語に翻訳して欲しいエンドポイント、その会議参加者がどの言語への翻訳を望むかなどの情報を入力する。別の実施形態では、受信している会議参加者は、その会議参加者が望む字幕取得元の言語、及び／又は、エンドポイントを定義する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばＤＴＭＦ信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。

更なる実施形態において、ＴＳＭ３６０は、発話された言語を特定してＴＳＭ３６０に言語に関する情報を伝えるモジュールにアクセスすることで言語を特定する。前記モジュールは、内部又は外部モジュールである。前記モジュールは、例えばアイリッスン（ｉＬｉｓｔｅｎ）又はＶｉａＶｏｉｃｅのごとき市販品である。ＴＳＭ３６０は、上述した手法又は言及されなかった手法の組み合わせにより実行する。

ＳＴＴＥ３６５Ａ〜Ｘが音声ストリームをテキストストリームに変換した後、ＳＴＴＥ３６５は、読点と句点を適宜の位置に持つよう該テキストを整理して、ＴＥ３６７Ａ〜Ｘが該テキストをより正確に翻訳することを援助する。ＳＴＴＥ３６５は、それから、翻訳テキストフレーズを、１又は複数のＴＥ３６７Ａ〜Ｘに転送する。ＴＥ３６７Ａ〜Ｘは、例えばシストランソフトウェア株式会社（systran software,Inc）が提供するシストラン（Systran）、バビロン社（Babylon Ltd.）が提供するバビロン（Babylon）及びマックスピーチ株式会社(MacSpeech,Inc)のアイリッスン（ｉＬｉｓｔｅｎ）など、市販品を用いる。別の実施形態では、ＴＥ３６７は、Ｇｏｏｇｌｅ翻訳やＹａｈｏｏ！Ｂａｂｅｌｆｉｓｈウェブサイトなどのウェブサイトにアクセスする。更に別の実施形態は、上記を組み合わせるものである。各ＴＥ３６７は、異なる言語又は複数の言語を受け持つ。

各テキストをどの言語に翻訳するかの決定は、どのエンドポイント（サイト）にテキストのストリームが字幕として表示されるかを特定することによって、又は、エンドポイント１３０の会議参加者に翻訳されるべきものと要求された言語の情報を受信することによって行われる。会議参加者は、目的先言語を特定するために、クリックとビュー機能を使う。会議参加者は、当該会議参加者の言語、及び／又は、翻訳されるべきエンドポイント、翻訳されるべき言語などの情報を、入力する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばＤＴＭＦ信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。

ＴＥ３６７は、翻訳テキストを、メニュー生成部２５０に、及び／又は、音声合成モジュール（ＴＴＳｓ）３６９Ａ〜Ｘ、及び／又は、会議録レコーダ３７０に出力する。メニュー生成部２５０は、翻訳テキストを受信して、該テキストをビデオフレームに変換する。メニュー生成部２５０は、例えば、テキスト文字とそのグラフィカルビデオ（字幕）とを照合する探索テーブルを持つ。メニュー生成部２５０は、制御モジュール２３０及び／又は音声モジュール３００からコマンドを受信する。コマンドは、一実施形態においては、どの字幕を表示するか、どのエンドポイントにどの字幕を表示するか、どのフォーマット（色、サイズなど）で各字幕を表示するかなどを含む。

メニュー生成部２５０は、受信したコマンドを実行し、字幕を変更し、そして、それらを適宜のビデオ出力モジュール２４４に伝送する。メニュー生成部２５０についての更なる情報は、前述の図２と後述の図６とに組み合わせて記述されている。

一実施形態において、ＴＥ３６７Ａ〜Ｘは、翻訳テキストを会議録レコーダ３７０に出力する。会議録レコーダ３７０は、会議の議論の記録として使用される。会議録レコーダ３７０に保存された内容は、全ての又は幾人かの会議参加者に、それぞれ会議参加者の言語で、送信される。会議録には、どのテキストがメイン話者によって発言されたのか、どのテキストが聴かれたのか（会議通話に混合されているか）、どのテキストが全ての会議参加者によって聴かれていないのかなどの標識がある。一実施形態において、標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。

一実施形態において、ＴＥ３６７Ａ〜Ｘは、翻訳テキストをＴＴＳ３６９Ａ〜Ｘに出力する。ＴＴＳ３６９Ａ〜Ｘは、受信した翻訳テキストを音声（テキストと同じ言語の音声）に変換する。ＴＴＳ３６９Ａ〜Ｘは、変換された音声をＴＳＭ３６０に伝送する。ＴＳＭ３６０は、一実施形態において、どのＴＴＳ３６９Ａ〜Ｘからのどの音声信号をどのミキシングセレクタ３３０Ａ〜Ｎに伝送するかに関するコマンドを受信する。ＴＳＭ３６０は、ＳＥＡＣ３２０から前記コマンドを受信する。ＴＴＳ３６９Ａ〜Ｘは、一実施形態において、マイクロソフト (ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ)が提供するＭｉｃｒｏｓｏｆｔＳＡＰＩ、エイティアンドティ（ＡＴ＆ＴＣｏｒｐｏｒａｔｉｏｎ）が提供するＮａｔｕｒａｌＶｏｉｃｅｓ（登録商標）（「ＮａｔｕｒａｌＶｏｉｃｅｓ」は、ＡＴ＆Ｔ知的財産IIリミテッドパートナーシップの登録商標）など、市販のコンポーネントである。

いくつかの実施形態において、ＴＳＭ３６０は、翻訳が不要な音声データのストリームを遅延するためのバッファを含み、混合された音声と字幕を同期できるようになっている。これらバッファは、音声とビデオを同期するためにも使用される。

混合されるよう選択された音声ストリーム（ＴＴＳ３６７Ａ〜Ｘからの選択された音声ストリームを含む）は、適宜の１又は複数のミキシングセレクタ３３０Ａ〜Ｎに出力される。一実施形態において、各受信側のエンドポイントイ１３０Ａ〜Ｎのために１つのミキシングセレクタ３３０がある。ミキシングセレクタ３３０Ａ〜Ｎは、受信した変更後音声ストリームを、適宜のミキサ３４０に転送する。別の実施形態では、１つのセレクタがＴＳＭ３６０とミキシングセレクタ３３０Ａ〜Ｎとの２つのセレクタの機能を備える。２つのセレクタ、ＴＳＭ３６０とミキシングセレクタ３３０Ａ〜Ｎが、本開示の説明を簡略化するために描かれている。

一実施形態において、各エンドポイント１３０Ａ〜Ｎ毎に１つのミキサがある。各ミキサ３４０Ａ〜Ｎは、選択された複数の入力音声ストリームを１つの混合された音声ストリームに混合する。混合された音声ストリームは、エンコーダ３５０Ａ〜Ｎに送信される。エンコーダ３５０Ａ〜Ｎは、受信した混合音声ストリームをエンコードして、エンコードされた混合音声ストリーム（出力音声ストリーム）をＮＩ２１０へ出力する。エンコードは、例えばＧ．７１９、Ｇ．７２２など要求された音声圧縮規格に従って行われる。

図４Ａ及び図４Ｂは、一実施形態に係る、多言語翻訳ビデオ会議の画面分割ビデオ画像のスナップショットを描いている。図４Ａ及び図４Ｂはスナップショット４００及び４２０を描いている。各スナップショットは、４つのセグメント（区画）を有する。スナップショット４００はセグメント４０１，４０２，４０３及び４０４を有し、スナップショット４２０はセグメント４２１，４２２，４２３及び４２４を有する（図中の翻訳テキストは例示的なものであり、単なる一例であり、オリジナル言語からの可能な最良の翻訳を意図しているのではない）。図４Ａは、日本のエンドポイントに表示されている。セグメント４０２及び４０３は、日本語以外の言語（この例においてはそれぞれロシア語と英語）を話す会議参加者に関連付けられており、従って、日本語に翻訳された字幕４１０及び４１２が追加されている。この実施形態において、字幕は、各翻訳されたセグメントの下側にある。別の実施形態としては、例えば全ての字幕が、１つのエリアに種々の色で表示される等、がある。セグメント４０１は、無音の（その信号エネルギーが他よりも低い）エンドポイント１３０に関連付けられており、その音声が聴こえて（混合されて）おらず、字幕も示されていない。セグメント４０４は、別のエンドポイントのセグメントであり、その話者が日本語を話しており、これが日本の端末（エンドポイント）１３０で閲覧されているのでその音声は翻訳されない。

図４Ｂは、例えば米国のエンドポイント（端末）に表示されたスナップショットである。セグメント４２２、４２３及び４２４は、英語以外の言語を話すエンドポイントからの音声及びビデオであり、従って、翻訳字幕４１４，４１６及び４１８がセグメント４２２、４２３及び４２４に追加される。セグメント４２１に関連付けられた会議参加者の音声信号エネルギーが他よりも低いので、その音声は聴こえず、字幕も示されていない。この実施形態では、各字幕は、当該字幕の翻訳元の言語の名前の表示から始まる。メイン話者（日本人の会議参加者）（例えば、或る期間で或る割合で最高の音声信号エネルギーを持つ者）の下の字幕４１８は、下線付き字幕で示される。

字幕は、テキスト、グラフィック及び透過情報（会議ビデオ画像が、部分的に透過的な前面画像を通して、背景として見られる範囲に関する情報）を含む。

図５は、一実施形態に係る音声翻訳手法５００の関連ステップを描くフローチャートである。一実施形態において、手法５００はＳＥＡＣ３２０に実装される。手法５００は、どの音声ストリームが混合される、又は、メイン話者として定義されるかを決定するための共通工程は含まない。手法５００は、翻訳工程を処理するためにのみ用いられる。会議を開始と同時に、ブロック５０２において手法５００は開始される。ブロック５０４において、手法５００は、会議に参加している種々の会議参加者（エンドポイント）によって使用される言語の情報を取得する。言語情報は、会議参加者によって使用される言語、及び、会議参加者に要求されている翻訳先の言語の情報を含む。種々の手法が、上述されなかった手法を含み、言語情報を決定するために使用される。

次に、手法５００は、ブロック５０６において、ＴＳＭ３６０に、取得した言語情報について通知する。ＴＳＭ３６０は、また、種々のパラメータについても通知を受け、そこには、各エンドポイントに設定された字幕色の情報、各エンドポイントのための音声ミキシング情報、及び、適宜の１又は複数のＳＴＴＥ３６５Ａ〜Ｘ及びＴＥ３６７Ａ〜Ｘへの音声経路制御（ルーティング）を含む。

ブロック５０８において、翻訳される必要がある音声ストリーム毎に（翻訳される会議参加者毎に）、複数の並列スレッドが開始される。図５は、ブロック５０８において開始された複数の並列スレッドの１つのみを描く。各スレッドは、ブロック５１０〜５２２又は５２４を含む。ブロック５１０において、決定サイクル毎に、ループ処理が開始される。ループ処理は、ブロック５１０において待機期間Ｄを待つことにより始まる。一実施形態において、Ｄは数十ミリ秒から数百ミリ秒の範囲である。待機期間Ｄの最後に、手法５００は、ブロック５１４で、関連する翻訳される会議参加者の音声ストリームが音声ミックスにあるかどうか確認する。音声ストリームが音声ミックスにあるか否かの決定は、例えばその音声エネルギーを他の音声ストリームの音声エネルギーと比較することに基づく。ブロック５１４において、関連する会議参加者の音声ストリームが音声ミックスにない場合には、手法５００はブロック５１０に戻り待機する。ブロック５１４において、関連する会議参加者の音声ストリームが音声ミックスにある場合には、手法５００はブロック５１６に進む。

ブロック５１６において、ＴＳＭは、関連する音声ストリームを適宜のＳＴＴＥ３６５Ａ〜Ｚ及びＴＥ３６７Ａ〜Ｘに伝送するよう指示される。適宜のＳＴＴＥ３６５Ａ〜Ｚ及びＴＥ３６７Ａ〜Ｘは、関連する翻訳される会議参加者の音声ストリームの話している言語と、それが翻訳されるべき言語に、それぞれ、基づいている。その後、ブロック５２０において、関連する翻訳される会議参加者がメイン話者かどうかの決定を行う。ブロック５２０の決定が肯定（ＹＥＳ）の場合、メニュー生成部２５０は、関連する翻訳される会議参加者と関連付けられた１又は複数のＴＥ３６７Ａ〜Ｘからテキストを取得するよう指示され（ブロック５２４）、ブロック５２４において、異なる色、異なるフォント、異なる文字サイズ、下線などを含むメイン話者フォーマットの字幕としてテキストを提示するよう指示される。次に、手法５００はブロック５１０に戻る。ブロック５２０において関連する翻訳される会議参加者がメイン話者ではない場合、手法５００はブロック５２２に進む。ブロック５２２において、メニュー生成部２５０は、ブロック５２２で、関連する１又は複数のＴＥ３６７Ａ〜Ｘからテキストを取得するよう指示され、且つ、ブロック５２２において、色、フォント、文字サイズ、下線などを含む通常フォーマットの字幕としてテキストを提示するよう指示される。次に、手法５００はブロック５１０に戻る。

図６は、一実施形態に係る、ＭＧ２５０によるメニュー生成手法６００の関連動作を描くフローチャートである。一実施形態において、手法５００はＳＥＡＣ３２０に実装される。手法６００は、会議を開始と同時に、ブロック６０２において開始される。手法６００は、ブロック６０４において、どのＴＥ３６７Ａ〜Ｘが字幕表示のためのエンドポイント１３０の要求に関連付けられているかを含む各会議参加者（エンドポイント）の情報、及び、ＴＥ３６７Ａ〜Ｘを出力モジュール２４４に関連付ける情報を取得する。

ブロック６０８において、翻訳を要求する受信側のエンドポイント１３０の出力モジュール２４４毎に１スレッドずつ、複数のスレッドが開始される。図６は、ブロック６０８において開始された複数の並列スレッドの１つのみを描く。次に、手法６００は、ブロック６１０において、指示を待つ。一実施形態において、指示は、手法５００のブロック５２２又は５２４により与えられる。ブロック６１０において指示が受信された場合、手法６００はブロック６１２に進む。ブロック６１２において、前記受信した指示における各ＴＥ３６７Ａ〜Ｘのために、関連するＴＥ３６７Ａ〜Ｘからのテキストストリームが収集される。前記テキストストリームは、ブロック６１２において、適宜の設定（色、ボールド体、下線、など）のビデオ情報に変換される。前記ビデオ情報は、ブロック６１２において、適宜の出力モジュールのエディタ２４５へ伝送される。次に、手法６００はブロック６１０に戻る。

この出願において、「モジュール」、「装置」、「コンポーネント」及び「モジュール」は、交換可能に使用されている。モジュールとして名指されたいかなるものも、スタンドアローン型のモジュールでもよいし、また、専用モジュールでもよい。モジュールは、取り外し、及び、他の同種のモジュールとの取り替えが簡単にできるように、モジュラ又はモジュラ態様であってよい。各モジュールは、ソフトウェア、ハードウェア及び／又はファームウェアのいずれか１つ、又は、いずれの組み合わせであってよい。論理モジュールのソフトウェアは、読み書き可能なハードディスク、ＣＤＲＯＭ、フラッシュメモリ、ＲＯＭなどコンピュータ読み取り可能な媒体に収録される。或るタスクを実行するために、ソフトウェアは、必要に応じて、適宜のプロセッサにロードされる。

本開示の詳細説明と特許請求範囲において、「備える」、「含む」、「持つ」及びそれらの変化（活用）は、動詞の対象が部材、コンポーネント、要素又は、又は、動詞の主体の部分を完全には列挙する必要がないことを示すよう使用されている。

上述した装置、システム、及び、方法は、ステップ順の変更、及び、正確な実施使用を含む、多くの方法で変更されうる。前述した実施形態は種々の特徴を含むが、本願の全実施形態の全てではない。更に、本開示の幾つか実施形態は、特徴の幾つか、又は、可能な特徴の組み合わせの幾つかのみ使用している。特徴の種々の組み合わせが、当業者に想到される。更に、本開示の幾つか実施形態は、本開示において異なる実施形態に関連した説明された特徴と要素の組み合わせによって実施されうる。発明の範囲は、特許請求範囲とその均等物によってのみ制限される。

いくつかの実施形態が詳細に説明されて、添付図面に示されたが、かかる実施形態は例示であり、特許請求範囲によって定義される基本範囲から出発することなしに考案されない。

１００マルチメディア多地点会議システム、１１０ネットワーク、１２０多地点制御ユニット（ＭＣＵ）、１２２負荷分散装置、１３０エンドポイント、２００多言語翻訳ビデオ会議多地点制御ユニット（ＭＬＴＶ−ＭＣＵ）、２１０ネットワークインターフェース（ＮＩ）、２２０音声モジュール、２２２会議翻訳モジュール（ＣＴＭ），２２５ＤＴＭＦモジュール（ＤＴＭＦ）、２３０制御モジュール２３０、２４０ビデオモジュール、２４II 入力モジュール、２４４出力モジュール、２４５エディタモジュール、２５０メニュー生成部、３００音声モジュール、３０２圧縮音声共通インターフェース、３０５セッション音声モジュール、３１０音声デコーダモジュール、３２０信号エネルギー分析及び制御部、３３０ミキシングセレクタ、３４０ミキサ、３５０エンコーダ、３６０翻訳セレクタモジュール（ＴＳＭ）、３６５音声認識エンジン（ＳＴＴＥ）、３６７翻訳エンジン（ＴＥ）、３６９音声合成モジュール（ＴＴＳ）、３７０会議録レコーダ、４００，４２０スナップショット、４０１〜４０４，４２１〜４２４セグメント、４１０，４１２字幕、４１４，４１６，４１８翻訳字幕

Claims

ビデオ会議多地点制御ユニットのためのリアルタイム音声翻訳機であって、
複数の音声ストリームを調べて、翻訳のために、前記複数の音声ストリームのサブセットを選択する制御部と、
前記音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースであって、
それぞれ、前記複数の音声ストリームの１又は複数の前記サブセットにおける発話を、１又は複数の言語のテキストに変換する複数の音声認識エンジンと、
前記複数の音声認識エンジンに接続され、それぞれ、テキストを１又は複数の言語から１又は複数の別の言語に翻訳する複数の翻訳エンジン
を備える前記複数の翻訳機リソースと、
前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタであって、会議出席者によって話された予め決められた言葉の音声に基づいて、前記複数の音声ストリーム中の或る音声ストリームの言語を選択する言語選択手段を備えた前記翻訳機リソースセレクタと
を備えることを特徴とするリアルタイム音声翻訳機。
前記複数の翻訳機リソースが、さらに、
前記複数の翻訳エンジンに接続され、それぞれ、１又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジン
を備えることを特徴とする請求項１に記載のリアルタイム音声翻訳機。
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、出力音声ストリームにミキシングするために、選択するミキシングセレクタを更に備え、
前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項２に記載のリアルタイム音声翻訳機。
前記複数の音声認識エンジンの１つが、１つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項１乃至３のいずれかに記載のリアルタイム音声翻訳機。
前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項１乃至４のいずれかに記載のリアルタイム音声翻訳機。
前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項１乃至５のいずれかに記載のリアルタイム音声翻訳機。
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、１つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
を更に備えることを特徴する請求項１乃至６のいずれかに記載のリアルタイム音声翻訳機。
前記コマンドが前記制御部により生成されることを特徴とする請求項７に記載のリアルタイム音声翻訳機。
前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項１乃至８のいずれかに記載のリアルタイム音声翻訳機。
複数の入力音声ストリームと複数の会議参加者からの複数の入力ビデオストリームとを受信して、複数の出力音声ストリームと複数の会議参加者への複数の出力ビデオストリームとを送信する多地点制御ユニットであって、
前記複数の入力音声ストリームと前記複数の会議参加者からの複数の入力ビデオストリームとを受信して、前記複数の出力音声ストリームと前記複数の会議参加者への複数の出力ビデオストリームとを送信するネットワークインターフェースと、
前記ネットワークインターフェースに接続され、少なくとも幾つかの前記複数の音声ストリームに含まれる発話を翻訳するリアルタイム翻訳モジュールを備える音声モジュールと
を備え、
前記リアルタイム翻訳モジュールが、
前記複数の入力音声ストリームを調べて、翻訳のために、該複数の入力音声ストリームのサブセットを選択する制御部と、
前記入力音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースであって、
それぞれ、前記複数の音声ストリームの１又は複数の前記サブセットにおける発話を、１又は複数の言語のテキストに変換する複数の音声認識エンジン、
前記複数の音声認識エンジンに接続され、それぞれ、テキストを１又は複数の言語から１又は複数の別の言語に翻訳する複数の翻訳エンジン、及び
前記複数の翻訳エンジンに接続され、それぞれ、１又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジン、を備える前記翻訳機リソースと、
前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタであって、会議参加者によって話された予め決められた言葉の音声に基づいて、前記複数の音声ストリーム中の或る音声ストリームの言語を選択する言語選択手段を備えた前記翻訳機リソースセレクタと
を備えることを特徴とする多地点制御ユニット。
前記音声モジュールに接続され、前記リアルタイム翻訳モジュールにより翻訳された前記発話に対応する字幕を生成するメニュー生成モジュールと、
前記複数の入力ビデオストリームのうち１つの入力ビデオストリームと、前記メニュー生成モジュールにより生成された字幕を組み合わせて、前記複数の出力ビデオストリームのうち１つの出力ビデオストリームを作成するビデオモジュール
を備えることを特徴とする請求項１０に記載の多地点制御ユニット。
前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項１０又は１１に記載の多地点制御ユニット。
前記複数の音声認識エンジンの１つが、１つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項１０乃至１２のいずれかに記載の多地点制御ユニット。
前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項１０乃至１３のいずれかに記載の多地点制御ユニット。
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、１つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
を更に備えることを特徴する請求項１０乃至１４のいずれかに記載の多地点制御ユニット。
前記コマンドが前記制御部により生成されることを特徴とする請求項１５に記載の多地点制御ユニット。
前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項１５に記載の多地点制御ユニット。
前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項１０乃至１７のいずれかに記載の多地点制御ユニット。
ビデオ会議における複数の会議参加者のためのリアルタイム音声翻訳方法であって、
前記複数の会議参加者からの複数の音声ストリームを、多地点制御ユニットで受信するステップと、
前記複数の会議参加者のうちの第１の会議参加者からの第１の音声ストリームを、前記複数の会議参加者のうちの第２の会議参加者のために翻訳されるべきものとして特定するステップであって、
前記第１の会議参加者によって話されている第１の言語を特定するステップと、ここで、第１の言語を特定するステップは、予め決められた複数の言葉を発言することを該第１の会議参加者に要求することと、該第１の会議参加者の該予め決められた複数の言葉の発言に応じて自動的に前記第１の言語を認識することを含み、
前記第２の会議参加者によって望まれる第２の言語を特定するステップと、
前記第１の音声ストリームが翻訳されるべき前記第１の言語の発話を含んでいるかどうか決定するステップと
を含む前記ステップと、
１以上の音声認識エンジン及び１以上の翻訳エンジンを具備する前記多地点制御ユニットの翻訳リソースに、前記第１の音声ストリームをルーティングするステップと、
発話をテキストに変換する１つの前記音声認識エンジンと該テキストを１つの言語から別の言語に翻訳する１つの前記翻訳エンジンとを用いる前記翻訳リソースによって、前記第１の音声ストリームを前記第１の言語から前記第２の言語に翻訳することに基づき、前記第１の音声ストリームの翻訳を生成するステップと、
前記第２の会議参加者へ前記翻訳を送信するステップと
を備えることを特徴とする方法。
前記第１の音声ストリームを翻訳リソースにルーティングする前記ステップが、
前記第１の音声ストリームを前記多地点制御ユニットの音声認識エンジンにルーティングするステップを備えることを特徴とする請求項１９に記載の方法。
前記第１の音声ストリームの翻訳を生成する前記ステップが、
前記第１の音声ストリームに含まれる発話を第１のテキストストリームに変換するステップと、
前記第１のテキストストリームを前記第２の言語の第２のテキストストリームに翻訳するステップ
を備えることを特徴とする請求項１９又は２０に記載の方法。
前記第１の音声ストリームの翻訳を生成する前記ステップが、更に、
前記第２のテキストストリームを第２の音声ストリームに変換するステップを備え、
前記第２の会議参加者へ前記翻訳を送信する前記ステップが、
前記第２の音声ストリームを前記複数の音声ストリームのサブセットとミキシングして、混合音声ストリームを作成するステップと、
前記混合音声ストリームを前記第２の会議参加者に送信するステップと
を備えることを特徴とする請求項２１に記載の方法。
前記第１の音声ストリームの翻訳を生成する前記ステップが、
会議録レコーダによって第１の音声ストリームの翻訳を記録するステップを備えることを特徴とする請求項１９乃至２２のいずれかに記載の方法。
前記第１の音声ストリームの翻訳を生成する前記ステップが、
前記第１の音声ストリームに含まれる発話を第１のテキストストリームに変換するステップと、
前記第１のテキストストリームを第２の言語の第２のテキストストリームに翻訳するステップと、
前記第２の言語の前記第２のテキストストリームを複数の字幕に変換するステップ
を備え、
前記第２の会議参加者へ前記翻訳を送信する前記ステップが、
ビデオストリームに前記複数の字幕を挿入するステップと、
前記ビデオストリームと前記複数の字幕を第２の会議参加者に送信するステップと
を備えることを特徴とする請求項１９又は２０に記載の方法。
前記第１の音声ストリームの翻訳を生成する前記ステップが、
前記第１の会議参加者をメイン会議参加者として特定するステップと、
前記第１の音声ストリームに含まれる発話を第１のテキストストリームに変換するステップと、
前記第１のテキストストリームを第２の言語の第２のテキストストリームに翻訳するステップと、
前記第２の言語の前記第２のテキストストリームを複数の字幕に変換するステップと、
前記第１の会議参加者が前記メイン会議参加者であることを示す識別物を前記複数の字幕と関連付けるステップと
を備えることを特徴とする請求項１９又は２０に記載の方法。