JP5564459B2 - ビデオ会議に翻訳を追加するための方法及びシステム - Google Patents

ビデオ会議に翻訳を追加するための方法及びシステム Download PDF

Info

Publication number
JP5564459B2
JP5564459B2 JP2011076604A JP2011076604A JP5564459B2 JP 5564459 B2 JP5564459 B2 JP 5564459B2 JP 2011076604 A JP2011076604 A JP 2011076604A JP 2011076604 A JP2011076604 A JP 2011076604A JP 5564459 B2 JP5564459 B2 JP 5564459B2
Authority
JP
Japan
Prior art keywords
audio
speech
stream
translation
streams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011076604A
Other languages
English (en)
Other versions
JP2011209731A (ja
Inventor
リバーマン ドベブ
カプラン アミール
Original Assignee
ポリコム,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ポリコム,インク. filed Critical ポリコム,インク.
Publication of JP2011209731A publication Critical patent/JP2011209731A/ja
Application granted granted Critical
Publication of JP5564459B2 publication Critical patent/JP5564459B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

この発明は、ビデオ会議通信に関し、特に多言語多地点ビデオ会議の分野に関する。
ビデオ会議は多くの境界を取り除く。ビデオ会議が取り除く物理的境界の1つは、或る位置(エンドポイント/端末)から別の位置への物理的距離である。ビデオ会議は、世界中の種々の場所の会議出席者が1つの部屋にいるかのような体験を作り出す。ビデオ会議は、或る場所から別の場所へ旅行する必要なしに、世界中の人々が互いに簡単に話し合うことを可能とする。旅行は、費用がかかり、時間がかかり、また、大気を汚染する(車及び/又は飛行機を使う必要性のため)ものである。ビデオ会議は、物理的距離ばかりでなく時間要素も取り除く。種々のネットワークにわたり使用できるビデオ会議設備の多様性が増えるに従い、より多くの人々がビデオ会議を彼らのコミュニケーションツールとして使用している。
多くの場合、ビデオ会議は多言語会議であり、地球上のさまざまな場所の人々が、互いに多数の言語で話す必要がある。異なる言語を話す、異なる国に、エンドポイントが配置されている多地点ビデオ会議においては、幾人かの会議参加者はそのセッション中に、別の位置(エンドポイント)の会議参加者と話し合い、理解するために、彼らの母国語とは別の言語を話す必要があるだろう。時には、同じ言語を話すが異なるアクセントを持つ人々も、他の会議参加者の理解において問題を持ちうる。この状況は、不便、及び/又は、理解の間違いを引き起こしうる。
別のセッションにおいては、1又は複数の会議参加者は聴取に問題を持っているかもしれない(例えば聾又は聴覚障害者)。聾又は聴覚障害者は、話者の唇を読むことができるならば、ビデオ会議に事実上参加できる。しかし、話者の唇を読むことは、話している人がディスプレイに現れていない、又は、ズーム機能が有効でないならば、困難になるだろう。
聴覚障害を持つ、又は、外国語を話す会議参加者のために使用される手法の1つは、ミーティングの内容を伝達する通訳者に頼ることである。典型的には、人間の通訳者は、聴覚障害者が通訳者を見ることができるよう、聴覚障害者に対して会議室の前方付近に立つ。
別の手法は、1又は複数のエンドポイントにてクローズドキャプション(表示・非表示切り替え可能な字幕)エンジンを使用することである。1又は複数のクローズドキャプション入力装置は1又は複数のエンドポイントに組み込まれる。クローズドキャプション入力装置は、コンピュータ使用のリアルタイム翻訳機、携帯情報端末(PDA)、一般的なパーソナルコンピュータなどの、コンピュータ使用のトランスクリプション装置である。クローズドキャプション機能を起動するために、クローズドキャプション入力装置のWebブラウザの入力フィールドに、キャプション入力者(キャプショナー)のエンドポイントのIPアドレスが入力される。そのエンドポイントに関連付けられたWebページが現れ、ユーザは関連付けられたクローズドキャプションページにアクセスできる。キャプション入力者はひとたびクローズドキャプションページを選択すれば、該キャプション入力者はカレントフィールドへのテキストの入力を開始できる。テキストは、ビデオ会議に参加している1又は複数のエンドポイントに表示される。例えば、テキストは、1番目のエンドポイント、コンピューティング装置、携帯情報端末(PDA)などに表示される。
キャプション入力者は、クローズドキャプションテキストを誰に表示するかを選択できる。キャプション入力者は、例えば「場所2」と「場所3」を除いて会議に参加している全ての場所に、テキストを表示することを決定できる。別の例として、ユーザは、クローズドキャプションテキストを、「場所5」にのみ表示することを選択できる。言い換えれば、クローズドキャプションテキストは、キャプション入力者が選ぶ会議参加者と同数にマルチキャストされる。
前述の通り、キャプション入力者は、例えば特定のエンドポイントのIPアドレスを入力して、Webページにアクセスできる。クローズドキャプションテキスト入力ページは、クローズドキャプションテキストを受信するために表示される。キャプション入力者は、クローズドキャプション入力装置からカレントテキスト入力ボックスにテキストを入力する。キャプション入力者が、エンターキー又はそれに類するボタンを、画面上で又はクローズドキャプション入力装置で、押したとき、カレントテキスト入力ボックスに入力されたテキストが、当該ビデオ会議に組み込まれた1又は複数のエンドポイントに表示される。
多言語ビデオ会議においては、聴覚障害者の通訳者は複数の問題に直面する。1つの問題は、例えば、1人以上の人が話している状況で生じる。通訳者は、どの話者を聴覚障害者に通訳するか、及び、どのようにして現在通訳している話者を示すかを決めねばならない。
人間の通訳者に頼ることはビデオ会議の体験を低下させる。というのも、会議の音声ミックスにおいて、通訳者の声が通訳されている人の声と同時に聞こえてしまうからである。同時通訳のために1以上の通訳者が必要な場合、その害は耐え難い。さらには、長時間のセッションにおいて、人間の通訳者の注意力は低減し、そして、通訳者は間違いを犯し始めて、セッションの間に休むだろう。
更に、キャプション入力者によるクローズドキャプション機能が使用され、キャプション入力者が翻訳を表示すべきテキストとして入力するところでは、キャプション入力者は、誰がクローズドキャプションテキストを見るべきかを識別できなければならない。キャプション入力者は、当該ビデオ会議に組み込まれた1又は複数のエンドポイントにおいて表示すべきテキストを入力しなければならない。そのため、キャプション入力者は、常に注意深く在らねばらず、人的間違いを犯さないように努めるべきである。
多地点制御ユニット(MCU)はビデオ通信セッション(すなわちビデオ会議)を管理するために使用される。MCUは、会議を制御するエンティティ(実体)であり、ネットワークのノード、端末あるいは他の場所に配置される。MCUは、所定の基準に従いアクセスポートから種々のメディアチャンネルを受信して処理し、そして、それらを別のポートを介して接続されたチャンネルに分配する。MCUの一例には、ポリコム株式会社(Polycom Inc.)から提供されているMGC−100,RMX 2000(登録商標)が含まれる(RMX 2000はポリコム株式会社の登録商標である)。周知のMCUは、例えば米国特許第6,300,973号、第6,496,216号、第5,600,646号、第5,838,664号、及び/又は、第7,542,068号など、種々の特許及び特許出願に開示されている。この引用によってその明細書に全体を組み込む。いくつかのMCUは、2つの論理モジュール:メディアコントローラ(MC)とメディアプロセッサ(MP)により構成される。
端末(エンドポイントとも呼ばれる)は、ネットワーク上のエンティティ(実体)であり、他の端末又はMCUとの、リアルタイム、双方向の、音声及び/又はオーディオヴィジュアル情報を提供できるものである。エンドポイント(端末)及びMCUの、より徹底的な定義は、国際電気通信連合("ITU")規格H.320、H.324、及びH.323規格などにあるが、これに限らない。
画面分割(コンティニュアス・プレゼンス(CP))ビデオ会議は、端末の会議参加者が、当該会議における幾人かの別の会議参加者のサイトを、同時に見る視聴できるビデオ会議である。各サイトは、レイアウト上の異なるセグメント(区画)に表示され、各セグメントは、同じサイズ又は異なるサイズ又は1又は複数のディスプレイである。レイアウトのセグメントに表示され組み込まれたサイトの選択は、同じセッションに参加中の、異なる会議参加者の間で多様であってよい。画面分割(CP)レイアウトにおいて、サイトから受信したビデオ画像は、セグメントのサイズに合わせるように、縮小又は切り取られる。
以下に述べる実施形態は、前述した多言語ビデオ会議における幾つかの不備を解決するものである。しかし、前述したビデオ会議における不備は、いかなる方法でも本発明概念の範囲を限定しない。前記不備は単に例証として挙げたに過ぎない。
一実施形態において、新規のシステム及び方法は、多地点制御ユニット(MCU)に実装され、周知のMCUを全ての効能について、多言語翻訳ビデオ会議MCU(MLTV−MCU)に変容させる。
多言語翻訳ビデオ会議MCU(MLTV−MCU)の一実施形態において、MLTV−MCUは、多地点ビデオ会議において受信した1又は複数の音声ストリーム(オーディオストリーム)のいずれの音声ストリームが翻訳されるべきか、及び、種々の音声ストリームがどの言語に翻訳されるべきかを通知される。MLTV−MCUは、人間の干渉を要することなく、必要とされる各音声ストリームを所望の1又は複数の言語に翻訳する。MLTV−MCUは、1又は複数の音声ストリームの1又は複数の翻訳を、例えば字幕として、1又は複数のエンドポイントの画面に表示する。
一実施形態に係るMLTV−MCUは各エンドポイントから個別の音声ストリームを受信するものである。従って、MLTV−MCUは、受信した各音声ストリームを、それらストリームを混合する前に個別に翻訳し、高品質な音声ストリームの翻訳を保証する。
会議参加者が多地点セッションに参加するとき、MLTV−MCUは翻訳が必要であるか尋ねる。一実施形態において、質問は音声自動応答(IVR)セッションにより行われ、会議参加者は何らかの問いかけに応じて何らかのキーを押すよう指示される。一実施形態として、"クリックとビュー"("click and view")オプションが使用される場合には、前記会議参加者のエンドポイントにメニューが表示される。前記メニューは、種々の翻訳オプションを提供する。複数のオプションは、複数の言語及び関連する複数のサイトとに関連付けられており、例えば、会議参加者の言語、該会議参加者の発話を翻訳すべき複数の言語、音声が該会議参加者の言語に翻訳されるべきエンドポイント、該会議参加者が翻訳を望む複数の言語、字幕を用いた文字による翻訳又は音声の翻訳、音声の翻訳の場合、当該翻訳が女性又は男性の声のいずれにより行われるか、どの"なまり"(アクセント)により行われるか、などである。会議参加者は、例えばカーソルを用いて質問に答える。"クリックとビュー"方法の一例は、米国特許第7,542,068号に開示されている。この引用によってその明細書に全体を組み込む。
MLTV−MCUの一例は音声較正フェーズを用いるもので、そこにおいて、関連するサイトの会議参加者は、IVR又は別の手法を用いて、画面分割(CP)ビデオ会議において一般的な手続きであるところの"名乗ること"に加えて、幾つかの予め決められた言葉を言うことを求められる。音声較正フェーズの間、MLTV−MCUは、翻訳されるべき音声の特徴("なまり")に関連する情報を集める。これは、会議参加者に所定数の言葉(例えば"おはよう"、"はい"、"いいえ"、"日"など)を発言させることで行われる。較正情報は、今後の使用に備えてデータベースに保存される。
いくつかの実施形態においては、較正フェーズは、受信した音声ストリームの言語を特定するために使用される。かかる実施形態において、受信機エンドポイントは、或る言語、例えば英語で話している何れのエンドポイントも、例えば中国語に翻訳するようMLTV−MCUに通知する。かかるMLTV−MCUは、受信した複数の較正語の音声列を、探索テーブル中の複数の収録項目と比較する。探索テーブルは、予め決められた複数の言葉の列を種々の言語で具備している。受信した音声列と、探索テーブル中の収録項目とも一致を受け取ったとき、MLTV−MCUは、受信した音声ストリームの言語を、自動的に決定できる。MLTV−MCUは、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。MLTV−MCUの別の実施形態は、受信している音声ストリームを自動的に特定できる市販品を使うことである。自動言語認識の情報は、1991年の音響・音声・信号処理国際会議で発行された、M. スギヤマ著、題名“Automat language recognition using acoustic features,”という記事に記載されている。いくつかの実施例では、フィードバック機構が実装され、自身の言語を自動特定される会議参加者に対して通知を行い、自動決定を無効にできるようにする。指示と無効化の情報は、"クリックとビュー"オプションを用いて実行される。
MLTV−MCUは、複数の受信した音声ストリームを同時に翻訳し、且つ、字幕として表示する。翻訳されるべき複数の受信した音声ストリームは、一実施形態において、予め決められた数の音声ストリームであり、或る閾値よりも高い音声エネルギーを持つ。前記予め決められた数は例えば3〜5の範囲である。一実施形態において、翻訳される音声ストリームは、ユーザがMLTV−MCUに翻訳するよう要求したエンドポイントからの音声ストリームである。各音声ストリームの翻訳は、異なるライン上に表示されるか、又は、異なる識別物により区別される。
一実施形態において、前記識別物は、音声ストリーム毎の異なる色と、当該字幕の先頭部に翻訳された会議参加者/エンドポイントの名前とを有する字幕とを含む。混合されるべく現在選択されている音声ストリームの字幕は、ボールド体(太字)で表示される。メイン話者が下線とボールド体で示されてよい。各音声ストリーム翻訳字幕毎に、それらの受信した/測定された信号エネルギーに従い、種々の文字サイズが使用される。一実施形態において、メイン話者とは、エネルギーレベルが或る期間の或る割合で他の会議参加者を上回っていた会議参加者である。メイン話者のビデオ画像は、画面分割(CP)ビデオ画像中で最も大きいウィンドウに表示される。いくつかの実施形態では、メイン話者のビデオ画像は色つき枠で示される。
MLTV−MCUは、翻訳する必要のある音声ストリームを特定すると、該音声ストリームの言語を特定し、該音声ストリームが、どの言語に翻訳されるべきかを特定して、該音声ストリームを文字テキストに変換する。この実施形態において、MLTV−MCUは、音声ストリームをテキストに変換する音声認識エンジン(STTE)にアクセスできる。STTEは、例えばマイクロソフト (Microsoft Corporation)が提供するMicrosoft Speech SDK、アイビーエム(International Business Machines Corporation)が提供するIBM Embedded ViaVoiceあるいは、その他の市販のコンポーネントを使うことができる。
一実施形態に係るMLTV−MCUは各エンドポイントから個別の音声ストリームを受信するものである。従って、MLTV−MCUは、要求された受信中の音声ストリームを、それぞれ、ストリームを混合する前に、個別にテキストに変換でき、音声ストリームをテキストへ変換する品質を向上させる。MLTV−MCUの一実施形態において、音声ストリームは、STTEに伝送される前に、1又は複数の周知のMCUノイズフィルターを通過し、STTEの結果の品質が向上するよう音声ストリームにフィルタをかける。MCU音声モジュールは、音声と非音声とを区別できる。それゆえ、一実施形態に係る前記MCUは、音声ストリームの非音声部分を除去し、さらに高品質の結果を保証する。
一実施形態において、MLTV−MCUは、更に、フィードバック機構を備え、会議参加者が、当該会議参加者の言葉に関する視覚的評価指標を受け取る。もしSTTEが会議参加者の発話を異なる2通りの方法で通訳しているならば、それは、例えば信頼度指標50%のごとき信頼度指標としてリポートされる。STTEは、その信頼度評価をMLTV−MCUに報告し、MLTV−MCUは、それを等級として会議参加者の画面に表示する。別の実施形態において、MLTV−MCUは、発話している会議参加者の画面上に、STTEが変換したテキストを(元の言語で)表示し、STTE翻訳を確認させる話者へのフィードバックを可能とする。いくつかの実施形態では、STTEが或る音声区間の変換に失敗したときに、標示がスピーカ及び/又は字幕受信者に送信される。
音声ストリームがSTTEによってテキストに変換された後、一実施形態に係るMLTV−MCUは、翻訳エンジン(TE)によりテキストを別の言語に翻訳する。種々の翻訳エンジン(TE)が種々の実施形態に使用される。いくつかの実施形態では、TEは、Google(登録商標)翻訳(Googleはグーグル株式会社の登録商標)や、YAHOO!(登録商標)Babel fishウェブサイト(YAHOO!はヤフー株式会社の登録商標)などのウェブサイトである。別の実施形態は、例えばバビロン社が提供するもののごとき市販の翻訳エンジンを使用できる。翻訳エンジンがMLTV−MCUの一部であるか、又は、別の実施形態では、MLTV−MCUが翻訳エンジンへのアクセスを有するか、又は、その両方である。
MLTV−MCUは、1又は複数の種々の言語のテキストを、1又は複数の種々の言語のテキストに、同時に翻訳できる。翻訳テキストは、適宜のフォーマットで、適宜のエンドポイントに、適宜のタイミングでMLTV−MCUにより字幕として表示されるよう、経路制御(ルート)される。MLTV−MCUは、各エンドポイントの画面に、1又は複数の他の会議参加者の複数の字幕を、同時に表示できる。前記複数の字幕は、種々の音声ストリームの翻訳テキストであり、各音声ストリームは例えば種々の言語の音声ストリームである。
いくつかの実施形態において、MCUは、音声ストリームを遅延して、音声とビデオストリームを同期させる(というのも、ビデオ処理は音声処理よりも長い時間がかかるからである)。したがって、一実施形態に係るMLTV−MCUは、前記遅延を発話からテキストへの変換及び翻訳に利用し、ビデオ及び音声との字幕の同期化を可能とする。
いくつかの実施形態において、MLTV−MCUは、受信した複数の種々の音声ストリームを同時に翻訳するが、所定値よりも音声エネルギーが高い音声ストリームのみを、字幕として表示するよう構成される。
更に別の実施形態において、会議参加者(参加者/エンドポイント)はテキストを書く、又は、文字テキストをMLTV−MCUに送る。前記MLTV−MCUは、受信した文字テキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。文字テキストは、一例として、受信した音声ストリームの翻訳などである。更に別の実施形態において、前記MLTV−MCUは、テキストを別の言語に翻訳し、翻訳したテキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。前記MLTV−MCUは、テキストを音声ストリームに変換できる(音声合成エンジン)、又は、かかるコンポーネント又はWebサービスにアクセスできるか、又は、そのいずれの選択肢も有する。かかる実施形態において、その音声を翻訳されていない会議参加者の音声は、混合する前に遅延されて、翻訳されるストリームと音声を同期させる。
翻訳が発話に変換されるMLTV−MCUの一実施形態において、発話の音量は、受信した音声ストリームの音声エネルギーに従う。
一実施形態において、テキストに変換され且つ翻訳された音声は、会議録として保存される。会議録は、例えば会議の要約として利用される。会議録は、テキストに変換された各音声のテキスト、又は、メイン話者の音声のテキストなどを含む。会議録は、異なる複数のエンドポイントに送信される。各エンドポイントは、会議参加者によって選択された言語の会議録を受信できる。会議録において、テキストがどの会議参加者により発言されたか、どのテキストが聴取されたか(会議通話に混合されたか)、どのテキストが全ての会議参加者によって聴かれていないか、などの標識があるとよい。標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。
本開示のこれら及びその他の側面は、参照図面の参照と詳細な説明により明らかになる。前述の概要は、各潜在的な実施形態又は本願発明の全ての側面を要約することをいとしておらず、本願発明のその他の特徴や利点は、添付図面と請求範囲とともに、以下の実施形態の詳細な説明を読むことで、明らかになる。
更に、詳細な実施形態は、当業者に発明概念を説明するために詳細に記述されており、かかる実施形態は、種々の変形や別の形態が可能である。したがって、図面と説明記述は、いかなる方法でも発明概念の範囲を限定することを意図していない。
本明細書に組み込まれ、本明細書の一部をなす添付図面は、本発明を構成する装置及び方法の実施例を描いており、本発明の利点と原則を説明するために用いる。
一実施形態に係る、マルチメディア多地点会議システムの一部分を描くブロック図。 一実施形態に係る、多言語翻訳ビデオ会議MCU(MLTV−MCU)の一部分の関連要素を描くブロック図。 一実施形態に係る、MLTV−MCUにおける音声モジュールの一部分の関連要素を描くブロック図。 一実施形態に係る、MLTV−MCUのディスプレイレイアウトを字幕とともに描く図。 一実施形態に係る、MLTV−MCUのディスプレイレイアウトを字幕とともに描く図。 一実施形態に係る、音声翻訳制御の関連ステップを示すフローチャート。 一実施形態に係る、メニュー生成制御の関連ステップを示すフローチャート。
以下の説明において、詳細な説明のために、この発明の完全な理解を提供するよう複数の具体的な詳細が記述される。当業者にとって、これら具体的な詳細なしにこの発明を実施できることは、明白である。別の例では、構造と装置は、発明を不明瞭にすることを避けるために、ブロック図の形式で示されている。添字のない番号への言及は、当該番号に対応する添字の全ての例示を言及することと理解されたい。さらに、この開示で使用される言語は、原則的に、読みやすさと、教唆の目的のために選択されており、発明の本質を叙述したり制限したりするよう選択されているのではなく、そのような発明の本質を定義するする必要がある請求項に頼るものである。明細書中の「一実施形態」又は「実施形態」との言及は、当該実施形態に関して記載した特定の特徴、構造、あるいは性質を意味しており、複数の「一実施形態」又は「実施形態」は、必要に応じて、全て同じ実施形態への言及と理解されるべきではない。
また、以下の記載のいくつかは、ソフトウェアマテャファームウェアに関連する用語で記載されているが、複数の実施形態は、ここに描かれた特徴及び機能を、所望のソフトウェア、ファームウェア又はハードウェアとして実装してよく、ソフトウェア、ファームウェア又はハードウェアのいずれの組み合わせをも含む。デーモン(Daemon)、ドライバー、エンジン、モジュール、或は、ルーティンへの言及は、いずれのタイプの実装でも、実施形態の限界の提示ともみなされるべきでない。
図面において同様な数字が同様な要素を表しており、図面により、開示された方法、システム及び装置の様々な視点、実施形態の例、外観、及び特徴が描かれている。便宜上、同じグループのいくつかの要素のみが、番号で示されている。図の目的は、実施形態の一例を記述することであり、限定のため、あるいは、製造に用いるためではない。図面に示された特徴は、図示の判りやすさと便宜のためにのみ選ばれている。
図1は、一実施形態に係るマルチメディア多地点会議システム100の例示部分の関連要素を示すブロック図を描いている。システム100は、ネットワーク110、1又は複数のMCU120A〜C、及び、複数のエンドポイント130A〜Nを含む。いくつかの実施形態では、ネットワークは、負荷分散装置(LB)122を含む。これは、全てのMCU120A〜Cの有効な使用を促す。というのも、MCU120A〜Cは1地点から制御及び計画されるからである。加えて、MCU120A〜Cと1地点からそれらを制御することの組み合わせることにより、準備なしのビデオ会議を首尾よく計画立てすることの蓋然性が大いに向上する。一実施形態において、LB122は、Polycom DMA 7000(DMAはポリコム株式会社の登録商標である)。LB122の更なる情報は、米国特許第7,174,365号にあり、その全体が明細書に組み込まれたものとする。
エンドポイントは、ネットワーク上の端末であり、リアルタイムの、他の端末又は多地点制御モジュール(MCU、詳細は後述する)との双方向の音声/ヴィジュアル/データ情報を提供することができる。エンドポイントは、発話情報のみ、発話及びビデオ情報、あるいは、発話、データ及びビデオ情報などを提供できる。ビデオ会議のエンドポイントは、典型的には、1又は複数のリモートサイトからのビデオ画像が表示されるディスプレイモジュールを備える。エンドポイントの一例としては、POLYCOM(登録商標)VSX(登録商標)及びHDX(登録商標)シリーズ(POLYCOM、VSX,及びHDXはポリコム株式会社の登録商標である)がある。複数のエンドポイント(EP)130A〜Nは、ネットワーク110経由で、1又は複数のMCU120A〜Cに接続される。LB122が存在する実施形態では、各EP130は、MCU120A〜Cの1つと接続される前にLB122と通信する。
MCU120A〜Cは、会議制御エンティティ(実体)である。一実施形態において、MCU120A〜Cは、ネットワーク110のノードに、又はアクセスポートからの種々のチャンネルを受信する端末に配置され、或る判断基準に従い、オーディオヴィジュアル信号を処理し、接続されたチャンネルに分配する。MCU120A〜Cの実施形態は、ポリコム株式会社(Polycom Inc.)の製品であるMGC−100、RMX 2000(RMX 2000はポリコム株式会社の登録商標である)。一実施形態において、MCU120A〜Cは、IPネットワーク上で動作するサーバーであるIP MCUである。IP MCU120A〜Cは、種々の異なるネットワークサーバのいくつかのみであり、当該開示が教唆しているものを実装するネットワークサーバである。従って、当該開示は、IP MCUの実施形態に限定されない。
一実施形態において、1又は複数の MCU120A〜Cは、MLTV−MCU120である。LB122は、更に、1又は複数のMLTV−MCU120により、例えば翻訳能力など該MLTV−MCU120の能力が通知される。したがって、エンドポイント130が字幕又は翻訳を要求するとき、LB122は、EP130に、MLTV−MCUであるMCUを参照させる。
ネットワーク110は、サービス総合ディジタル網(ISDN)、公衆交換電話網(PSTN)、非同期転送モード(ATM)、インターネット、回線交換ネットワーク、イントラネットなど、1つのネットワーク又は2以上のネットワークの組み合わせを表す。前記ネットワーク越しのマルチメディア通信は、国際電気通信連合(ITU)規格H.320、H.324、及びH.323,SIP規格など通信プロトコルに準拠する。
エンドポイント130A〜Nは、EP130の会議参加者とMCU120A−Cの間のインターフェースとして機能するユーザ操作装置(図示外)を備る。ユーザ操作装置は、DTMF(デュアルトーンマルチ周波数)信号を用いるダイアリングキーボード(例えば電話機のキーボード)と、DTMF信号に加えて他の信号に用いる専用の操作装置、及び、例えばITU規格H.224及びH.281に準拠して信号処理するモジュールである遠隔カメラ操作(FECC)を含む。
エンドポイント130A〜Nは、そのエンドポイントの会議参加者に会議で発言させ、また、他の参加者に聴取される音とノイズに寄与するマイクロフォン(明りょうさのため図示されていない)と、該エンドポイント130A〜Nにて該会議にライブビデオデータを入力するカメラと、会議を聴取するための1又は複数のスピーカと、該エンドポイント130A〜Nにて会議を閲覧させるディスプレイとを備える。前記コンポーネントの1つを欠損しているエンドポイント130A〜Nは、会議に参加する方法が制限される。
記述されたシステム100の部分は、関連要素のみを備え且つ記述している。システム100の他の部分は記述されていない。システムの構成及び必要に応じて、各システム100が別の数のエンドポイント130、ネットワーク110、LB122及びMCU120を有することが、当業者によって認められうる。しかし、簡潔さと理解の目的で、4つのエンドポイント130と、3つのMCU120を有する1つのネットワーク110が示されている。
図2は、MLTV−MCU200の一実施形態の部分の関連要素に関するブロック図を描いている。MLTV−MCU200の別の実施形態は、別のコンポーネントを有する、及び/又は、図2に示されたコンポーネント全てを含むのではない。
MLTV−MCU200は、ネットワークインターフェース(NI)210を備える。NI210は、複数のエンドポイントと、MLTV−MCU200内部モジュールの間のインターフェースとして機能する。一方の方向において、NI210は、ネットワーク110経由で、複数のエンドポイント130A〜Nからのマルチメディア情報を受信する。NI210は、受信したマルチメディア情報を、例えばH.320、H.323、H.321、H.324及びセッション確立プロトコル(SIP)などのネットワーク通信規格に従って処理する。NI210は、受信したマルチメディア情報を処理した圧縮音声、圧縮ビデオ、データ、及び制御ストリームを、MLTV−MCU200の適宜のモジュールに、伝達する。いくつかの通信規格は、NI210の処理が、圧縮音声、圧縮ビデオ、データ、及び制御ストリームに入ってくるマルチメディア情報をデマルチプレクスすることを含むことを要求する。いくつかの実施形態では、メディアは、まず圧縮され、それからMLTV−MCU200に送出する前に、暗号化される。
他方の方向では、NI210は、ネットワーク110経由で、MLTV−MCU200内部モジュールからのマルチメディア情報を、複数のエンドポイント130A〜Nに、伝送する。NI210は、MLTV−MCU200の種々のモジュールからの独立したストリームを受信できる。NI210は、通信規格に従いストリームをマルチメディア情報にマルチプレクス(多重化)及び処理する。NI210は、マルチメディア情報を、前記ストリームを1又は複数のエンドポイント130A〜Nに運ぶネットワーク110に伝送する。
複数の異なるネットワーク越しの複数のエンドポイント及び/又は複数のMCUの間の通信に関する更なる情報、及び、信号処理、制御、圧縮及びビデオ通話をいかにセットするかを記載している情報は、例えばITU規格H.320、H.321、H.323、H.261、H.263及びH.264にある。
MLTV−MCU200は、また、音声モジュール220を備える。音声モジュール220は、NI210経由で且つ音声リンク226を通じて、複数のエンドポイント130A〜Nからの圧縮音声ストリームを受信する。音声モジュール220は、受信した圧縮音声ストリームを処理し、関連する音声ストリームを復元(デコード)及び混合し、エンコード(圧縮)して、圧縮、エンコード、混合された信号を、音声リンク226及びNI210経由でエンドポイント130A〜Nへ伝送する。
一実施形態において、各エンドポイント130A〜Nに送信された音声ストリームは、各エンドポイント130A〜Nそれぞれの要求に応じて異なっている。例えば、音声ストリームは、各エンドポイント毎の異なる通信規格に応じてフォーマットされる。更に、1つのエンドポイント130に送信された音声ストリームは、このエンドポイントに関連付けられた会議参加者の音声を含んでおらず、当該会議参加者の音声は混合された他の全ての音声ストリームには含まれる。
一実施形態において、音声モジュール220は、少なくとも1つのDTMFモジュール225を含む。DTMFモジュール225は、受信した音声ストリームからDTMF信号を検出し、取り出す。DTMFモジュール225は、前記DTMF信号をDTMF制御データに変換する。DTMFモジュール225は、前記DTMF制御データをコントロールリンク232経由で制御モジュール230に伝送する。DTMF制御データは、当該会議の制御機能に使用される。DTMF制御データは、例えばクリックとビュー(click and view)機能経由で会議参加者により送信されるコマンドである。別の複数の実施形態は、モジュール225に加えて、又は、モジュール225に換えて、音声認識モジュール(図示しない)を用いる。これら実施形態において、音声認識モジュールは、音声コマンド及び会議参加者の応答を、ビデオ会議のパラメータ制御に用いる。
更なる実施形態は、視覚的メニューに加えて、又は、それに換えて、会議参加者に指示する音声自動応答(IVR)モジュールを使用する又は持つ。例えば、音声モジュール220は、どうやって会議に参加するか、及び/又は、どうやって会議のパラメータを操作するかに関して、会議参加者に教えるための、音声メニューを生成する。IVRモジュールは、図2には示されていない。
典型的なMCUの周知の動作に加えて、MLTV−MCU200の複数実施形態は、会議翻訳モジュール(CTM)222を持つ結果として、追加的動作が可能である。CTM222は、受信した音声ストリームのいずれが翻訳されるべきかを決定する。CTM222は、特定した翻訳されるべき音声ストリームを、例えば音声認識エンジンと翻訳エンジンに伝送する。翻訳テキストは、メニュー生成部250に伝送される。CTM222及び音声モジュール220の更なる情報は後述の図3と組み合わせ述べる。
典型的なMCUの周知の動作に加えて、MLTV−MCU200は、制御モジュール230を持つ結果として、追加的動作が可能である。制御モジュール230は、MLTV−MCU200の動作、及び、音声モジュール220、メニュー生成部250、ビデオモジュール240などその内部モジュールの動作を制御する。制御モジュール230は、MLTV−MCU200の異なる内部モジュールから受信した指示を処理し、同様にLB122又はEP130など外部装置からの指示を処理する論理モジュールを含む。制御モジュール230は、制御リンク232経由でDTMFモジュール225から、及び/又は、制御リンク236経由でCTM222から受信した指示を処理する。制御信号は、例えばクリックとビュー(click and view)機能又は音声コマンド経由で会議参加者から受信した信号処理及び制御コマンド、表示すべき字幕に関してCTM222から受信したコマンドなどを含む。
制御モジュール230は、制御リンク232経由でメニュー生成部250を制御する。一実施形態において、制御モジュール230は、メニュー生成部250に、どの字幕を、どのサイトに、どの言語で、及び、どのフォーマットで表示するかを指示する。制御モジュール230は、ビデオモジュール240に例えば要求されるレイアウトに関して指示する。制御モジュール230のいくつかの特有の動作は、後述の図3,5及び6と組み合わせて述べる。
一実施形態において、メニュー生成部(MG)250は、エンドポイントのディスプレイに表示されるメニュー、及び/又は、字幕を生成する論理モジュールである。MG250は、MLTV−MCU200の異なる内部モジュールから、例えば、制御リンク239経由で制御モジュール230から、あるいは、制御リンク254経由で音声モジュール220から、コマンドを受信する。一実施形態において、MG250は、表示すべきテキストを受信し、同様に、テキストリンク252経由で音声モジュール220から、及び、バス239経由で制御モジュール230からグラフィク化指示を受信する。受信したテキストは、音声ミックス中に音声ストリームがある会議参加者の発言の翻訳である。MG250は、字幕、及び/又は、メニューフレームを生成する。前記字幕は、音声モジュールから受信したテキストの視覚的グラフィクスである。メニュー生成部の更なる情報は、米国特許7,542,068号にある。いくつかの実施形態において、市販のメニュー生成部を、“Qtopia”との名前で知られるQt Extendedなどを、MG250として使用できる。
字幕は、一実施形態において、どの字幕がどの会議参加者の発言の翻訳であるかを簡単に識別できるような方法でフォーマットされる。字幕に関する更なる情報は、後述図4に組み合わせて述べる。前記メニューフレームは、会議参加者による選択のための適宜のオプションを含む。
字幕は、ビデオモジュール240が処理できるサイズ及びフォーマットのグラフィカル画像である。字幕は、ビデオリンク249経由でビデオモジュール240に送信される。字幕は、制御モジュール230及び/又はMG250から受信した制御情報に従い、エンドポイント130A〜Nのディスプレイに表示される。
字幕は、テキスト、グラフィック及び透過情報(ビデオ画像上の字幕の位置に関する情報、どの会議参加者にビデオ画像が、部分的に透過的な前面の字幕を通して、背景として見られるのか)を含む。字幕は、会議参加者の共通ビデオ画像の一部に、追加的に、又は、それに代えて、表示される。別の実施形態では、MG250は、ビデオモジュール240の一部である。MG250の更に詳しい動作は、後述図4に組み合わせて述べる。
ビデオモジュール240は、圧縮ビデオストリームを受信し、変更し、送信する論理モジュールである。ビデオモジュール240は、1又は複数の参加しているエンドポイント130A〜Nから受信した圧縮入力音声ストリームを処理する1又は複数の入力モジュール242と、構成された圧縮出力ビデオストリームを生成する1又は複数の出力モジュール244を含む。圧縮出力ビデオストリームは、種々の入力ストリームと種々の字幕、及び/又は、メニューから構成され、複数のエンドポイント130A〜Nのうちの指定された1又は複数のエンドポイント130A〜Nのために会議を再現するビデオストリームを形成する。構成された圧縮出力ビデオストリームは、ビデオリンク246経由でNI210に送信される。NI210は、1又は複数の構成された圧縮出力ビデオストリームを、関連する1又は複数のエンドポイント130A〜Nに伝送する。
一実施形態において、各ビデオ入力モジュールは、1つのエンドポイント130に関連付けられる。各ビデオ出力モジュール244は、同じレイアウトの同じ圧縮パラメータを受信している1又は複数のエンドポイント130に関連付けられる。各ビデオ出力モジュール244は、1つのエディタモジュール245を備える。各ビデオ出力モジュール244は、個々のエンドポイント又はエンドポイント130A〜Nのグループ毎に個別化されたレイアウトに従い、構成されたビデオ画像を作成する。各ビデオ出力モジュール244は、複数のエンドポイント130A〜Nから、個々のエンドポイント又はエンドポイント130A〜Nのグループ毎に個別化された字幕を表示する。
入力モジュール242から送られた非圧縮ビデオデータは、共通インターフェース248において、ビデオ出力モジュール244に共有される。共通インターフェース248は、時分割多重化(TDM)インターフェース、パケットに基づくインターフェース、非同期転送モード(ATM)及び/又は共有メモリを含む。共通インターフェース248上のデータは、全て非圧縮か又は部分的に非圧縮である。
一実施形態において、複数の出力モジュール244のそれぞれは、1つのエディタ245(編集部)を含む。MG250からのビデオデータは、例えば制御モジュール230から受信したコマンドに従い、共通インターフェース248から適宜の出力モジュール244に取り出される。適宜の出力モジュールのそれぞれは、エディタ245にビデオデータを送る。エディタ245は、種々のビデオソースから出力ビデオフレームを組み立てて、また、次フレームメモリに、暗号化すべきメニュー及び/又は字幕フレームを形成する。エディタ245は、各字幕を、共通インターフェース248経由で受信した、種々のビデオソースの1つとして処理する。エディタ245は、字幕のビデオデータを、矩形又はビデオイメージのウィンドウの1つとして、レイアウトに、加える。
画面レイアウト上の各矩形(セグメント(区画))又はウィンドウは、それぞれ異なるエンドポイント130から受信したビデオ画像を掲載しており、ビデオ画像は例えばそのエンドポイント130に関連付けられた会議参加者のビデオ画像である。一実施形態において、MG250からのビデオデータ(例えば字幕)は、表示される当該字幕を生成した会議参加者のビデオ画像を表示するウィンドウの上又は下に配置される。
別のエディタ245は、MG250からのビデオデータを特別なビデオソースとして処理し、字幕を部分的に透過的なものとして、関連する会議参加者のビデオ画像の前面に表示して、該ビデオ画像がメニューの背後に見えているようにする。ビデオモジュール240の動作の例は、既に引用した米国特許第6,300,973号に記載されている。ビデオモジュール240の別の実施形態の例は、米国特許第7,535,485号、及び米国特許第7,542,068号に記載されている。
いくつかの実施形態において、MG250は、独立したモジュールであり、複数の出力モジュール244のうちの1つ以上への要求された字幕を生成する。別の実施形態では、MG250は、各出力モジュール244毎に1つのモジュールであり、出力モジュール244毎に個別にメニュー及び/又は字幕を生成する。
一実施形態において、字幕は完全に個別化される。例えば、字幕は、個々のエンドポイント130A〜Nの要求に従い、姿、形及び外観において、個別化される。別の例では、字幕の形が、本質的には均一であり、字幕が現れるときに関しては個別化される。
一実施形態に係るエンドポイント130A〜Nのヴィジュアル制御の表示は、会議のモデレータ(図示外)により選択されるオプションであり、モデレータが会議参加者のプロファイルを取っておき定義する。モデレータは、エンドポイント130A〜Nの1つに関連付けられ、ユーザ制御装置(図示外)を使用して、選択を行い、会議参加者のプロファイルを定義する。モデレータは、(それぞれに対応するユーザ制御装置を使って)会議参加者が会議の設定(パラメータ)を会議の間に制御する能力を有するかどうか決定する。一致実施形態において、会議参加者に会議の設定を制御する能力を持つことを会議参加者に許可しているとき、モデレータは、当該会議プロファイルにおいて、対応するオプション「ON」を選択する。
制御リンク234,236,232,238及び239、ビデオリンク246及び249、音声リンク226は、それぞれ、制御信号、ビデオ信号、音声信号、及び、マルチメディア信号を運ぶよう、特別に設計され、且つ、専念するリンクである。これらリンクは、時分割多重化(TDM)インターフェース、パケットに基づくインターフェース、非同期転送モード(ATM)及び/又は共有メモリを含む。別の例として、これらリンクは一般的なケーブルにより構成される。別の実施形態では、これらリンクは、例えば、光学式であるか、あるいは、ラジオ波の経路であるか、あるいは、それらの組み合わせである。
図3は、一実施形態に係る、音声モジュール300の部分の一例の関連要素を示すブロック図である。音声モジュール300の別の実施形態は、別のコンポーネントを有する、及び/又は、図3に示されたコンポーネント全てを含むのではない。音声モジュール300は、複数のセッション音声モジュール305A〜Nを備えており、音声モジュール300が処理する各セッション毎に1つのセッション音声モジュール305A〜Nである。各セッション音声モジュール305A〜Nは、1又は複数のからのポイント130A〜Nからの複数の音声ストリームを、NI210経由で圧縮音声共通インターフェース302を通じて、受信する。各受信した音声ストリームは、音声デコーダ(AD)310A〜Nにより、復元され、デコードされる。
一実施形態に係るAD310は非音声信号を検出して、音声と非音声を区別する。例えば、DTMF信号として検出された音声ストリームは、DTMFモジュール225に伝送され、デジタルデータに変換される。デジタルデータは、制御モジュール230に伝送される。デジタルデータは、例えば、エンドポイント130からMLTV−MCU120A−Cに伝送されたコマンドである。
各音声ストリームは、ADモジュール310A〜Nにより、復元され、及び/又はデコードされる。デコードは、受信した圧縮音声ストリームで使用された圧縮規格に従い行われる。圧縮規格は、ITU規格G.719,G.722などを含む。一実施形態に係るADモジュール310A〜Nは、音声を他の種類のノイズからフィルタする周知のスピーチフィルタを備える。AD310A〜Nのスピーチフィルタは、オーディオ品質を向上する。AD310A〜Nは、フィルタをかけて、復元及び/又はデコードした音声データを、1又は複数の音声リンク312経由で、出力する。
デコードされた音声データは、一実施形態において、信号エネルギー分析及び制御部(SEAC)320によりリンク322経由でサンプルされる。SEAC320は、最も高い信号エネルギーを持つ所定数の音声ストリーム(例えば3〜5ストリームの間)を特定する。検出した信号エネルギーに応じて、SEAC320は1又は複数の制御コマンドを、翻訳‐セレクタモジュール(TSM)360と、1又は複数のミキシングセレクタ330A〜Nに、制御リンク324経由で送信する。
ミキシングセレクタ330への制御コマンドは、例えば、どの音声ストリームを混合されるものとして選択するかを指示する。別の実施形態では、混合する音声ストリームに関連するコマンドは、制御モジュール230から、制御リンク326経由で受信される。別の実施形態では、決定は、SEAC320及び制御モジュール230からの制御コマンドの組み合わせである。SEAC320は、例えば、所定時間周期毎に及び/又は所定数のフレーム毎に、音声リンク312をサンプルする。
TSM360は、音声リンク312経由でAD310A〜Nからデコードされた音声ストリームを受信する。加えて、TSM360は、SEAC320から、どの音声ストリームが翻訳されるべきかを指示するコマンドを受信する。コマンドに応じて、TSM360は、選択されたデコードされた音声ストリームを1又は複数のSTTE365A〜Xに伝送する。別の実施形態では、TSM360は、翻訳されるべき音声ストリームを1つずつコピーして、該音声ストリームのコピーをSTTE365A〜Xに伝送し、オリジナルの音声ストリームをミキシングセレクタ330に伝送する。
一実施形態において、STTE365A〜Xは、音声ストリームを受信して、該音声ストリームをテキストのストリームに変換する。STTE365A〜Xは、例えばマイクロソフト (Microsoft Corporation)が提供する Microsoft Speech SDK、アイビーエム(International Business Machines Corporation)が提供するIBM Embedded ViaVoice、及び、マックスピーチ株式会社(MacSpeech,Inc)のアイリッスン(iListen)など、市販のコンポーネントである。一実施形態において、STTE365は、Google(登録商標)翻訳や、YAHOO!(登録商標)Babel fishウェブサイトなどのウェブサイトである。別の実施形態は、STTE365は、上記の組み合わせである。各STTE365は、1又は複数の言語のために使用される。STTE365がリモートサイトに配置されたいくつかの実施形態において、翻訳のために選択された音声ストリームは、STTE365A〜Xに送信される前に、圧縮される。
各STTE365A〜Xが幾つかの複数言語に使用される一実施形態において、TSM360は、音声ストリームの言語に従い、どの音声ストリームをどのSTTE365A〜Xに伝送するかを決定する。TSM360は、STTE365A〜Xに、音声ストリームとともに、コマンド情報を送信する。コマンド情報は、音声ストリームリの言語と、当該ストリームが翻訳されるべき言語の情報を含む。別の実施形態において、SEAC320は、その音声ストリームのために目的先言語を、各STTE365A〜Xに直接指示する。別の実施形態では、STTE365A〜Xは、音声ストリームの言語を特定でき、それ自身、受信した音声を必要とされる言語に翻訳できるようになっている。必要とされる言語は、一実施形態では、SEAC320によって定義される。係る実施形態は、言語を特定することができる市販品を使用でき、例えば、1991年の音響・音声・信号処理国際会議で発行された“Automat language recognition using acoustic features,”という記事に記載されたものを使用できる。
別の実施形態は、音声ストリームの言語と、該ストリームが翻訳されるべき言語を決定するための別の方法を用いる。1つの手法は、音声ストリームのソースであるエンドポイント(サイト)と、音声ストリームが送信されるべきエンドポイントとを特定することによるものである。この情報は、NI210(図2)及び/又は制御モジュール230から受信され、SEAC320に送信される情報に含まれる。
別の実施形態は、トレーニングフェーズを使うものであり、MLTV−MCU200は音声較正フェーズを実行して、画面分割(CP)ビデオ会議において一般的な手続きであるところの"名乗ること"の要求に加えて、幾つかの予め決められた言葉を言うことを、会議参加者に要求する。
音声較正フェーズは、ビデオ会議セッションの開始時に行われるか、又は、会議参加者がセッションに参加するときに行われる。音声較正フェーズは、また、例えば会議参加者により開始される。音声較正フェーズの間、TSM360は、どの会議参加者の音声が翻訳される必要があるかを学習する。これは、一実施形態において、例えば、音声較正フェーズの開始時に、会議参加者に所定数の言葉(例えば「おはよう」、「はい」、「いいえ」など)を発言させることにより実行される。TSM360は、言葉の音声列を探索テーブル中の複数の収録項目と比較する。前記探索テーブルは、前記予め決められた複数の言葉の列を種々の言語で具備する。受信した音声列と、探索テーブル中の収録項目との一致が受信されたとき、TSM360は、受信した音声ストリームの言語を決定する。一実施形態においてTSM360は、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。
一実施形態において、TSM360は、クリックとビュー(clik and view)機能を使って1又は複数のエンドポイントから言語の情報を受信する。会議参加者は、その会議参加者の言語及び/又はその会議参加者の言葉を翻訳したい言語、又は、その会議参加者の言語に翻訳して欲しいエンドポイント、その会議参加者がどの言語への翻訳を望むかなどの情報を入力する。別の実施形態では、受信している会議参加者は、その会議参加者が望む字幕取得元の言語、及び/又は、エンドポイントを定義する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばDTMF信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。
更なる実施形態において、TSM360は、発話された言語を特定してTSM360に言語に関する情報を伝えるモジュールにアクセスすることで言語を特定する。前記モジュールは、内部又は外部モジュールである。前記モジュールは、例えばアイリッスン(iListen)又はViaVoiceのごとき市販品である。TSM360は、上述した手法又は言及されなかった手法の組み合わせにより実行する。
STTE365A〜Xが音声ストリームをテキストストリームに変換した後、STTE365は、読点と句点を適宜の位置に持つよう該テキストを整理して、TE367A〜Xが該テキストをより正確に翻訳することを援助する。STTE365は、それから、翻訳テキストフレーズを、1又は複数のTE367A〜Xに転送する。TE367A〜Xは、例えばシストランソフトウェア株式会社(systran software,Inc)が提供するシストラン(Systran)、バビロン社(Babylon Ltd.)が提供するバビロン(Babylon)及びマックスピーチ株式会社(MacSpeech,Inc)のアイリッスン(iListen)など、市販品を用いる。別の実施形態では、TE367は、Google翻訳やYahoo! Babel fishウェブサイトなどのウェブサイトにアクセスする。更に別の実施形態は、上記を組み合わせるものである。各TE367は、異なる言語又は複数の言語を受け持つ。
各テキストをどの言語に翻訳するかの決定は、どのエンドポイント(サイト)にテキストのストリームが字幕として表示されるかを特定することによって、又は、エンドポイント130の会議参加者に翻訳されるべきものと要求された言語の情報を受信することによって行われる。会議参加者は、目的先言語を特定するために、クリックとビュー機能を使う。会議参加者は、当該会議参加者の言語、及び/又は、翻訳されるべきエンドポイント、翻訳されるべき言語などの情報を、入力する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばDTMF信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。
TE367は、翻訳テキストを、メニュー生成部250に、及び/又は、音声合成モジュール(TTSs)369A〜X、及び/又は、会議録レコーダ370に出力する。メニュー生成部250は、翻訳テキストを受信して、該テキストをビデオフレームに変換する。メニュー生成部250は、例えば、テキスト文字とそのグラフィカルビデオ(字幕)とを照合する探索テーブルを持つ。メニュー生成部250は、制御モジュール230及び/又は音声モジュール300からコマンドを受信する。コマンドは、一実施形態においては、どの字幕を表示するか、どのエンドポイントにどの字幕を表示するか、どのフォーマット(色、サイズなど)で各字幕を表示するかなどを含む。
メニュー生成部250は、受信したコマンドを実行し、字幕を変更し、そして、それらを適宜のビデオ出力モジュール244に伝送する。メニュー生成部250についての更なる情報は、前述の図2と後述の図6とに組み合わせて記述されている。
一実施形態において、TE367A〜Xは、翻訳テキストを会議録レコーダ370に出力する。会議録レコーダ370は、会議の議論の記録として使用される。会議録レコーダ370に保存された内容は、全ての又は幾人かの会議参加者に、それぞれ会議参加者の言語で、送信される。会議録には、どのテキストがメイン話者によって発言されたのか、どのテキストが聴かれたのか(会議通話に混合されているか)、どのテキストが全ての会議参加者によって聴かれていないのかなどの標識がある。一実施形態において、標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。
一実施形態において、TE367A〜Xは、翻訳テキストをTTS369A〜Xに出力する。TTS369A〜Xは、受信した翻訳テキストを音声(テキストと同じ言語の音声)に変換する。TTS369A〜Xは、変換された音声をTSM360に伝送する。TSM360は、一実施形態において、どのTTS369A〜Xからのどの音声信号をどのミキシングセレクタ330A〜Nに伝送するかに関するコマンドを受信する。TSM360は、SEAC320から前記コマンドを受信する。TTS369A〜Xは、一実施形態において、マイクロソフト (Microsoft Corporation)が提供するMicrosoft SAPI、エイ ティ アンド ティ(AT&T Corporation)が提供するNatural Voices(登録商標)(「Natural Voices」は、AT&T知的財産IIリミテッドパートナーシップの登録商標)など、市販のコンポーネントである。
いくつかの実施形態において、TSM360は、翻訳が不要な音声データのストリームを遅延するためのバッファを含み、混合された音声と字幕を同期できるようになっている。これらバッファは、音声とビデオを同期するためにも使用される。
混合されるよう選択された音声ストリーム(TTS367A〜Xからの選択された音声ストリームを含む)は、適宜の1又は複数のミキシングセレクタ330A〜Nに出力される。一実施形態において、各受信側のエンドポイントイ130A〜Nのために1つのミキシングセレクタ330がある。ミキシングセレクタ330A〜Nは、受信した変更後音声ストリームを、適宜のミキサ340に転送する。別の実施形態では、1つのセレクタがTSM360とミキシングセレクタ330A〜Nとの2つのセレクタの機能を備える。2つのセレクタ、TSM360とミキシングセレクタ330A〜Nが、本開示の説明を簡略化するために描かれている。
一実施形態において、各エンドポイント130A〜N毎に1つのミキサがある。各ミキサ340A〜Nは、選択された複数の入力音声ストリームを1つの混合された音声ストリームに混合する。混合された音声ストリームは、エンコーダ350A〜Nに送信される。エンコーダ350A〜Nは、受信した混合音声ストリームをエンコードして、エンコードされた混合音声ストリーム(出力音声ストリーム)をNI210へ出力する。エンコードは、例えばG.719、G.722など要求された音声圧縮規格に従って行われる。
図4A及び図4Bは、一実施形態に係る、多言語翻訳ビデオ会議の画面分割ビデオ画像のスナップショットを描いている。図4A及び図4Bはスナップショット400及び420を描いている。各スナップショットは、4つのセグメント(区画)を有する。スナップショット400はセグメント401,402,403及び404を有し、スナップショット420はセグメント421,422,423及び424を有する(図中の翻訳テキストは例示的なものであり、単なる一例であり、オリジナル言語からの可能な最良の翻訳を意図しているのではない)。図4Aは、日本のエンドポイントに表示されている。セグメント402及び403は、日本語以外の言語(この例においてはそれぞれロシア語と英語)を話す会議参加者に関連付けられており、従って、日本語に翻訳された字幕410及び412が追加されている。この実施形態において、字幕は、各翻訳されたセグメントの下側にある。別の実施形態としては、例えば全ての字幕が、1つのエリアに種々の色で表示される等、がある。セグメント401は、無音の(その信号エネルギーが他よりも低い)エンドポイント130に関連付けられており、その音声が聴こえて(混合されて)おらず、字幕も示されていない。セグメント404は、別のエンドポイントのセグメントであり、その話者が日本語を話しており、これが日本の端末(エンドポイント)130で閲覧されているのでその音声は翻訳されない。
図4Bは、例えば米国のエンドポイント(端末)に表示されたスナップショットである。セグメント422、423及び424は、英語以外の言語を話すエンドポイントからの音声及びビデオであり、従って、翻訳字幕414,416及び418がセグメント422、423及び424に追加される。セグメント421に関連付けられた会議参加者の音声信号エネルギーが他よりも低いので、その音声は聴こえず、字幕も示されていない。この実施形態では、各字幕は、当該字幕の翻訳元の言語の名前の表示から始まる。メイン話者(日本人の会議参加者)(例えば、或る期間で或る割合で最高の音声信号エネルギーを持つ者)の下の字幕418は、下線付き字幕で示される。
字幕は、テキスト、グラフィック及び透過情報(会議ビデオ画像が、部分的に透過的な前面画像を通して、背景として見られる範囲に関する情報)を含む。
図5は、一実施形態に係る音声翻訳手法500の関連ステップを描くフローチャートである。一実施形態において、手法500はSEAC320に実装される。手法500は、どの音声ストリームが混合される、又は、メイン話者として定義されるかを決定するための共通工程は含まない。手法500は、翻訳工程を処理するためにのみ用いられる。会議を開始と同時に、ブロック502において手法500は開始される。ブロック504において、手法500は、会議に参加している種々の会議参加者(エンドポイント)によって使用される言語の情報を取得する。言語情報は、会議参加者によって使用される言語、及び、会議参加者に要求されている翻訳先の言語の情報を含む。種々の手法が、上述されなかった手法を含み、言語情報を決定するために使用される。
次に、手法500は、ブロック506において、TSM360に、取得した言語情報について通知する。TSM360は、また、種々のパラメータについても通知を受け、そこには、各エンドポイントに設定された字幕色の情報、各エンドポイントのための音声ミキシング情報、及び、適宜の1又は複数のSTTE365A〜X及びTE367A〜Xへの音声経路制御(ルーティング)を含む。
ブロック508において、翻訳される必要がある音声ストリーム毎に(翻訳される会議参加者毎に)、複数の並列スレッドが開始される。図5は、ブロック508において開始された複数の並列スレッドの1つのみを描く。各スレッドは、ブロック510〜522又は524を含む。ブロック510において、決定サイクル毎に、ループ処理が開始される。ループ処理は、ブロック510において待機期間Dを待つことにより始まる。一実施形態において、Dは数十ミリ秒から数百ミリ秒の範囲である。待機期間Dの最後に、手法500は、ブロック514で、関連する翻訳される会議参加者の音声ストリームが音声ミックスにあるかどうか確認する。音声ストリームが音声ミックスにあるか否かの決定は、例えばその音声エネルギーを他の音声ストリームの音声エネルギーと比較することに基づく。ブロック514において、関連する会議参加者の音声ストリームが音声ミックスにない場合には、手法500はブロック510に戻り待機する。ブロック514において、関連する会議参加者の音声ストリームが音声ミックスにある場合には、手法500はブロック516に進む。
ブロック516において、TSMは、関連する音声ストリームを適宜のSTTE365A〜Z及びTE367A〜Xに伝送するよう指示される。適宜のSTTE365A〜Z及びTE367A〜Xは、関連する翻訳される会議参加者の音声ストリームの話している言語と、それが翻訳されるべき言語に、それぞれ、基づいている。その後、ブロック520において、関連する翻訳される会議参加者がメイン話者かどうかの決定を行う。ブロック520の決定が肯定(YES)の場合、メニュー生成部250は、関連する翻訳される会議参加者と関連付けられた1又は複数のTE367A〜Xからテキストを取得するよう指示され(ブロック524)、ブロック524において、異なる色、異なるフォント、異なる文字サイズ、下線などを含むメイン話者フォーマットの字幕としてテキストを提示するよう指示される。次に、手法500はブロック510に戻る。ブロック520において関連する翻訳される会議参加者がメイン話者ではない場合、手法500はブロック522に進む。ブロック522において、メニュー生成部250は、ブロック522で、関連する1又は複数のTE367A〜Xからテキストを取得するよう指示され、且つ、ブロック522において、色、フォント、文字サイズ、下線などを含む通常フォーマットの字幕としてテキストを提示するよう指示される。次に、手法500はブロック510に戻る。
図6は、一実施形態に係る、MG250によるメニュー生成手法600の関連動作を描くフローチャートである。一実施形態において、手法500はSEAC320に実装される。手法600は、会議を開始と同時に、ブロック602において開始される。手法600は、ブロック604において、どのTE367A〜Xが字幕表示のためのエンドポイント130の要求に関連付けられているかを含む各会議参加者(エンドポイント)の情報、及び、TE367A〜Xを出力モジュール244に関連付ける情報を取得する。
ブロック608において、翻訳を要求する受信側のエンドポイント130の出力モジュール244毎に1スレッドずつ、複数のスレッドが開始される。図6は、ブロック608において開始された複数の並列スレッドの1つのみを描く。次に、手法600は、ブロック610において、指示を待つ。一実施形態において、指示は、手法500のブロック522又は524により与えられる。ブロック610において指示が受信された場合、手法600はブロック612に進む。ブロック612において、前記受信した指示における各TE367A〜Xのために、関連するTE367A〜Xからのテキストストリームが収集される。前記テキストストリームは、ブロック612において、適宜の設定(色、ボールド体、下線、など)のビデオ情報に変換される。前記ビデオ情報は、ブロック612において、適宜の出力モジュールのエディタ245へ伝送される。次に、手法600はブロック610に戻る。
この出願において、「モジュール」、「装置」、「コンポーネント」及び「モジュール」は、交換可能に使用されている。モジュールとして名指されたいかなるものも、スタンドアローン型のモジュールでもよいし、また、専用モジュールでもよい。モジュールは、取り外し、及び、他の同種のモジュールとの取り替えが簡単にできるように、モジュラ又はモジュラ態様であってよい。各モジュールは、ソフトウェア、ハードウェア及び/又はファームウェアのいずれか1つ、又は、いずれの組み合わせであってよい。論理モジュールのソフトウェアは、読み書き可能なハードディスク、CDROM、フラッシュメモリ、ROMなどコンピュータ読み取り可能な媒体に収録される。或るタスクを実行するために、ソフトウェアは、必要に応じて、適宜のプロセッサにロードされる。
本開示の詳細説明と特許請求範囲において、「備える」、「含む」、「持つ」及びそれらの変化(活用)は、動詞の対象が部材、コンポーネント、要素又は、又は、動詞の主体の部分を完全には列挙する必要がないことを示すよう使用されている。
上述した装置、システム、及び、方法は、ステップ順の変更、及び、正確な実施使用を含む、多くの方法で変更されうる。前述した実施形態は種々の特徴を含むが、本願の全実施形態の全てではない。更に、本開示の幾つか実施形態は、特徴の幾つか、又は、可能な特徴の組み合わせの幾つかのみ使用している。特徴の種々の組み合わせが、当業者に想到される。更に、本開示の幾つか実施形態は、本開示において異なる実施形態に関連した説明された特徴と要素の組み合わせによって実施されうる。発明の範囲は、特許請求範囲とその均等物によってのみ制限される。
いくつかの実施形態が詳細に説明されて、添付図面に示されたが、かかる実施形態は例示であり、特許請求範囲によって定義される基本範囲から出発することなしに考案されない。
100 マルチメディア多地点会議システム、110 ネットワーク、120 多地点制御ユニット(MCU)、122 負荷分散装置、130 エンドポイント、200 多言語翻訳ビデオ会議多地点制御ユニット(MLTV−MCU)、210 ネットワークインターフェース(NI)、220 音声モジュール、222 会議翻訳モジュール(CTM),225 DTMFモジュール(DTMF)、230 制御モジュール230、240 ビデオモジュール、24II 入力モジュール、244 出力モジュール、245 エディタモジュール、250 メニュー生成部、300 音声モジュール、302 圧縮音声共通インターフェース、305 セッション音声モジュール、310 音声デコーダモジュール、320 信号エネルギー分析及び制御部、330 ミキシングセレクタ、340 ミキサ、350 エンコーダ、360 翻訳セレクタモジュール(TSM)、365 音声認識エンジン(STTE)、367 翻訳エンジン(TE)、369 音声合成モジュール(TTS)、370 会議録レコーダ、400,420 スナップショット、401〜404,421〜424 セグメント、410,412 字幕、414,416,418 翻訳字幕

Claims (25)

  1. ビデオ会議多地点制御ユニットのためのリアルタイム音声翻訳機であって、
    複数の音声ストリームを調べて、翻訳のために、前記複数の音声ストリームのサブセットを選択する制御部と、
    前記音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースであって、
    それぞれ、前記複数の音声ストリームの1又は複数の前記サブセットにおける発話を、1又は複数の言語のテキストに変換する複数の音声認識エンジンと、
    前記複数の音声認識エンジンに接続され、それぞれ、テキストを1又は複数の言語から1又は複数の別の言語に翻訳する複数の翻訳エンジン
    を備える前記複数の翻訳機リソースと、
    前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタであって、会議出席者によって話された予め決められた言葉の音声に基づいて、前記複数の音声ストリーム中の或る音声ストリームの言語を選択する言語選択手段を備えた前記翻訳機リソースセレクタ
    を備えることを特徴とするリアルタイム音声翻訳機。
  2. 前記複数の翻訳機リソースが、さらに、
    前記複数の翻訳エンジンに接続され、それぞれ、1又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジン
    を備えることを特徴とする請求項1に記載のリアルタイム音声翻訳機。
  3. 前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、出力音声ストリームにミキシングするために、選択するミキシングセレクタを更に備え、
    前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項2に記載のリアルタイム音声翻訳機。
  4. 前記複数の音声認識エンジンの1つが、1つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項1乃至3のいずれかに記載のリアルタイム音声翻訳機。
  5. 前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項1乃至4のいずれかに記載のリアルタイム音声翻訳機。
  6. 前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項1乃至5のいずれかに記載のリアルタイム音声翻訳機。
  7. 前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、1つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
    を更に備えることを特徴する請求項1乃至6のいずれかに記載のリアルタイム音声翻訳機。
  8. 前記コマンドが前記制御部により生成されることを特徴とする請求項7に記載のリアルタイム音声翻訳機。
  9. 前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項1乃至8のいずれかに記載のリアルタイム音声翻訳機。
  10. 複数の入力音声ストリームと複数の会議参加者からの複数の入力ビデオストリームとを受信して、複数の出力音声ストリームと複数の会議参加者への複数の出力ビデオストリームとを送信する多地点制御ユニットであって、
    前記複数の入力音声ストリームと前記複数の会議参加者からの複数の入力ビデオストリームとを受信して、前記複数の出力音声ストリームと前記複数の会議参加者への複数の出力ビデオストリームとを送信するネットワークインターフェースと、
    前記ネットワークインターフェースに接続され、少なくとも幾つかの前記複数の音声ストリームに含まれる発話を翻訳するリアルタイム翻訳モジュールを備える音声モジュールと
    を備え、
    前記リアルタイム翻訳モジュールが、
    前記複数の入力音声ストリームを調べて、翻訳のために、該複数の入力音声ストリームのサブセットを選択する制御部と、
    前記入力音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースであって、
    それぞれ、前記複数の音声ストリームの1又は複数の前記サブセットにおける発話を、1又は複数の言語のテキストに変換する複数の音声認識エンジン、
    前記複数の音声認識エンジンに接続され、それぞれ、テキストを1又は複数の言語から1又は複数の別の言語に翻訳する複数の翻訳エンジン、及び
    前記複数の翻訳エンジンに接続され、それぞれ、1又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジン、を備える前記翻訳機リソースと、
    前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタであって、会議参加者によって話された予め決められた言葉の音声に基づいて、前記複数の音声ストリーム中の或る音声ストリームの言語を選択する言語選択手段を備えた前記翻訳機リソースセレクタ
    を備えることを特徴とする多地点制御ユニット。
  11. 前記音声モジュールに接続され、前記リアルタイム翻訳モジュールにより翻訳された前記発話に対応する字幕を生成するメニュー生成モジュールと、
    前記複数の入力ビデオストリームのうち1つの入力ビデオストリームと、前記メニュー生成モジュールにより生成された字幕を組み合わせて、前記複数の出力ビデオストリームのうち1つの出力ビデオストリームを作成するビデオモジュール
    を備えることを特徴とする請求項10に記載の多地点制御ユニット。
  12. 前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項10又は11に記載の多地点制御ユニット。
  13. 前記複数の音声認識エンジンの1つが、1つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項10乃至12のいずれかに記載の多地点制御ユニット。
  14. 前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項10乃至13のいずれかに記載の多地点制御ユニット。
  15. 前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、1つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
    を更に備えることを特徴する請求項10乃至14のいずれかに記載の多地点制御ユニット。
  16. 前記コマンドが前記制御部により生成されることを特徴とする請求項15に記載の多地点制御ユニット。
  17. 前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項15に記載の多地点制御ユニット。
  18. 前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項10乃至17のいずれかに記載の多地点制御ユニット。
  19. ビデオ会議における複数の会議参加者のためのリアルタイム音声翻訳方法であって、
    前記複数の会議参加者からの複数の音声ストリームを、多地点制御ユニットで受信するステップと、
    前記複数の会議参加者のうちの第1の会議参加者からの第1の音声ストリームを、前記複数の会議参加者のうちの第2の会議参加者のために翻訳されるべきものとして特定するステップであって、
    前記第1の会議参加者によって話されている第1の言語を特定するステップと、ここで、第1の言語を特定するステップは、予め決められた複数の言葉を発言することを該第1の会議参加者に要求することと、該第1の会議参加者の該予め決められた複数の言葉の発言に応じて自動的に前記第1の言語を認識することを含み、
    前記第2の会議参加者によって望まれる第2の言語を特定するステップと、
    前記第1の音声ストリームが翻訳されるべき前記第1の言語の発話を含んでいるかどうか決定するステップと
    を含む前記ステップと、
    1以上の音声認識エンジン及び1以上の翻訳エンジンを具備する前記多地点制御ユニットの翻訳リソースに、前記第1の音声ストリームをルーティングするステップと、
    発話をテキストに変換する1つの前記音声認識エンジンと該テキストを1つの言語から別の言語に翻訳する1つの前記翻訳エンジンとを用いる前記翻訳リソースによって、前記第1の音声ストリームを前記第1の言語から前記第2の言語に翻訳することに基づき、前記第1の音声ストリームの翻訳を生成するステップと、
    前記第2の会議参加者へ前記翻訳を送信するステップと
    を備えることを特徴とする方法。
  20. 前記第1の音声ストリームを翻訳リソースにルーティングする前記ステップが、
    前記第1の音声ストリームを前記多地点制御ユニットの音声認識エンジンにルーティングするステップを備えることを特徴とする請求項19に記載の方法。
  21. 前記第1の音声ストリームの翻訳を生成する前記ステップが、
    前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
    前記第1のテキストストリームを前記第2の言語の第2のテキストストリームに翻訳するステップ
    を備えることを特徴とする請求項19又は20に記載の方法。
  22. 前記第1の音声ストリームの翻訳を生成する前記ステップが、更に、
    前記第2のテキストストリームを第2の音声ストリームに変換するステップを備え、
    前記第2の会議参加者へ前記翻訳を送信する前記ステップが、
    前記第2の音声ストリームを前記複数の音声ストリームのサブセットとミキシングして、混合音声ストリームを作成するステップと、
    前記混合音声ストリームを前記第2の会議参加者に送信するステップと
    を備えることを特徴とする請求項21に記載の方法。
  23. 前記第1の音声ストリームの翻訳を生成する前記ステップが、
    会議録レコーダによって第1の音声ストリームの翻訳を記録するステップを備えることを特徴とする請求項19乃至22のいずれかに記載の方法。
  24. 前記第1の音声ストリームの翻訳を生成する前記ステップが、
    前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
    前記第1のテキストストリームを第2の言語の第2のテキストストリームに翻訳するステップと、
    前記第2の言語の前記第2のテキストストリームを複数の字幕に変換するステップ
    を備え、
    前記第2の会議参加者へ前記翻訳を送信する前記ステップが、
    ビデオストリームに前記複数の字幕を挿入するステップと、
    前記ビデオストリームと前記複数の字幕を第2の会議参加者に送信するステップと
    を備えることを特徴とする請求項19又は20に記載の方法。
  25. 前記第1の音声ストリームの翻訳を生成する前記ステップが、
    前記第1の会議参加者をメイン会議参加者として特定するステップと、
    前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
    前記第1のテキストストリームを第2の言語の第2のテキストストリームに翻訳するステップと、
    前記第2の言語の前記第2のテキストストリームを複数の字幕に変換するステップと、
    前記第1の会議参加者が前記メイン会議参加者であることを示す識別物を前記複数の字幕と関連付けるステップと
    を備えることを特徴とする請求項19又は20に記載の方法。
JP2011076604A 2010-03-30 2011-03-30 ビデオ会議に翻訳を追加するための方法及びシステム Expired - Fee Related JP5564459B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/749,832 US20110246172A1 (en) 2010-03-30 2010-03-30 Method and System for Adding Translation in a Videoconference
US12/749832 2010-03-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013196320A Division JP2014056241A (ja) 2010-03-30 2013-09-23 ビデオ会議に翻訳を追加するための方法及びシステム

Publications (2)

Publication Number Publication Date
JP2011209731A JP2011209731A (ja) 2011-10-20
JP5564459B2 true JP5564459B2 (ja) 2014-07-30

Family

ID=44310337

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011076604A Expired - Fee Related JP5564459B2 (ja) 2010-03-30 2011-03-30 ビデオ会議に翻訳を追加するための方法及びシステム
JP2013196320A Pending JP2014056241A (ja) 2010-03-30 2013-09-23 ビデオ会議に翻訳を追加するための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013196320A Pending JP2014056241A (ja) 2010-03-30 2013-09-23 ビデオ会議に翻訳を追加するための方法及びシステム

Country Status (5)

Country Link
US (1) US20110246172A1 (ja)
EP (1) EP2373016A2 (ja)
JP (2) JP5564459B2 (ja)
CN (1) CN102209227A (ja)
AU (1) AU2011200857B2 (ja)

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9510044B1 (en) * 2008-06-18 2016-11-29 Gracenote, Inc. TV content segmentation, categorization and identification and time-aligned applications
US8482593B2 (en) * 2010-05-12 2013-07-09 Blue Jeans Network, Inc. Systems and methods for scalable composition of media streams for real-time multimedia communication
US9124757B2 (en) 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
US20120143592A1 (en) * 2010-12-06 2012-06-07 Moore Jr James L Predetermined code transmission for language interpretation
EP3054699B1 (en) * 2011-04-21 2017-09-13 Shah Talukder Flow-control based switched group video chat and real-time interactive broadcast
US9369673B2 (en) 2011-05-11 2016-06-14 Blue Jeans Network Methods and systems for using a mobile device to join a video conference endpoint into a video conference
US9300705B2 (en) 2011-05-11 2016-03-29 Blue Jeans Network Methods and systems for interfacing heterogeneous endpoints and web-based media sources in a video conference
US9247157B2 (en) * 2011-05-13 2016-01-26 Lattice Semiconductor Corporation Audio and video data multiplexing for multimedia stream switch
US8719031B2 (en) * 2011-06-17 2014-05-06 At&T Intellectual Property I, L.P. Dynamic access to external media content based on speaker content
US8175244B1 (en) * 2011-07-22 2012-05-08 Frankel David P Method and system for tele-conferencing with simultaneous interpretation and automatic floor control
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8706473B2 (en) * 2011-09-13 2014-04-22 Cisco Technology, Inc. System and method for insertion and removal of video objects
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法
KR101830656B1 (ko) * 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
EP3367651A3 (en) * 2011-12-14 2018-11-14 ADC Technology Inc. Communication system and terminal device
JP5892021B2 (ja) * 2011-12-26 2016-03-23 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、会議サーバの制御方法、プログラムおよび記録媒体
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
US9007448B2 (en) * 2012-02-03 2015-04-14 Bank Of America Corporation Video-assisted customer experience
AU2013204970B2 (en) * 2012-03-14 2015-09-17 Google Llc Modifying an appearance of a participant during a video conference
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
US9256457B1 (en) * 2012-03-28 2016-02-09 Google Inc. Interactive response system for hosted services
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
CN102821259B (zh) * 2012-07-20 2016-12-21 冠捷显示科技(厦门)有限公司 具有多国语言语音翻译的tv系统及其实现方法
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
JP5889162B2 (ja) * 2012-10-23 2016-03-22 日本電信電話株式会社 会議支援装置、会議支援システム、その方法及びプログラム
US9160967B2 (en) * 2012-11-13 2015-10-13 Cisco Technology, Inc. Simultaneous language interpretation during ongoing video conferencing
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103873808B (zh) * 2012-12-13 2017-11-07 联想(北京)有限公司 数据处理的方法和装置
CA2799892C (en) * 2012-12-20 2016-11-22 Stenotran Services Inc. System and method for real-time multimedia reporting
US20140180671A1 (en) * 2012-12-24 2014-06-26 Maria Osipova Transferring Language of Communication Information
US9426415B2 (en) * 2012-12-28 2016-08-23 Ittiam Systems (P) Ltd. System, method and architecture for in-built media enabled personal collaboration on endpoints capable of IP voice video communication
IL225480A (en) * 2013-03-24 2015-04-30 Igal Nir A method and system for automatically adding captions to broadcast media content
CN104079861B (zh) * 2013-03-26 2017-07-25 联想(北京)有限公司 一种信息处理方法及电子设备
CA2913984C (en) * 2013-06-03 2019-05-07 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
KR102256291B1 (ko) * 2013-11-15 2021-05-27 삼성전자 주식회사 번역 상황을 인지하고 번역 기능을 수행하는 방법 및 이를 구현하는 전자장치
CN103686352A (zh) * 2013-11-15 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视媒体播放器及其字幕处理方法、智能电视
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US9542486B2 (en) 2014-05-29 2017-01-10 Google Inc. Techniques for real-time translation of a media feed from a speaker computing device and distribution to multiple listener computing devices in multiple different languages
US9477657B2 (en) * 2014-06-11 2016-10-25 Verizon Patent And Licensing Inc. Real time multi-language voice translation
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US10218754B2 (en) 2014-07-30 2019-02-26 Walmart Apollo, Llc Systems and methods for management of digitally emulated shadow resources
US20180013893A1 (en) * 2014-08-05 2018-01-11 Speakez Ltd. Computerized simultaneous interpretation system and network facilitating real-time calls and meetings
WO2016047818A1 (ko) * 2014-09-23 2016-03-31 (주)두드림 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법
CN104301562A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时打印功能的智能会议系统
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统
CN104301659A (zh) * 2014-10-24 2015-01-21 四川省科本哈根能源科技有限公司 一种多点视频汇聚识别系统
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
CN104539873B (zh) * 2015-01-09 2017-09-29 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
CN104780335B (zh) * 2015-03-26 2021-06-22 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
JP6507010B2 (ja) * 2015-03-30 2019-04-24 株式会社エヌ・ティ・ティ・データ ビデオ会議システムと音声認識技術を組み合わせた装置および方法
JP6068566B1 (ja) * 2015-07-08 2017-01-25 三菱電機インフォメーションシステムズ株式会社 画像送信システムおよび画像送信プログラム
CN105159891B (zh) * 2015-08-05 2018-05-04 焦点科技股份有限公司 一种构建多语言网站实时翻译的方法
CN106507021A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频处理方法及终端设备
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US20170092274A1 (en) * 2015-09-24 2017-03-30 Otojoy LLC Captioning system and/or method
US9641563B1 (en) 2015-11-10 2017-05-02 Ricoh Company, Ltd. Electronic meeting intelligence
US11120342B2 (en) 2015-11-10 2021-09-14 Ricoh Company, Ltd. Electronic meeting intelligence
US9525830B1 (en) 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
US9374536B1 (en) 2015-11-12 2016-06-21 Captioncall, Llc Video captioning communication system, devices and related methods for captioning during a real-time video communication session
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US9805029B2 (en) * 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
CN105791713A (zh) * 2016-03-21 2016-07-20 安徽声讯信息技术有限公司 一种智能语音文字字幕同步播音的装置
CN105721796A (zh) * 2016-03-23 2016-06-29 中国农业大学 一种视频字幕自动生成装置和方法
JPWO2017191711A1 (ja) * 2016-05-02 2019-03-07 ソニー株式会社 制御装置、制御方法およびコンピュータプログラム
CN106027505A (zh) * 2016-05-10 2016-10-12 国家电网公司 一种反事故演习观摩系统
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
US9836458B1 (en) 2016-09-23 2017-12-05 International Business Machines Corporation Web conference system providing multi-language support
JP7000671B2 (ja) 2016-10-05 2022-01-19 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
US10860985B2 (en) 2016-10-11 2020-12-08 Ricoh Company, Ltd. Post-meeting processing using artificial intelligence
US11307735B2 (en) 2016-10-11 2022-04-19 Ricoh Company, Ltd. Creating agendas for electronic meetings using artificial intelligence
US10510051B2 (en) 2016-10-11 2019-12-17 Ricoh Company, Ltd. Real-time (intra-meeting) processing using artificial intelligence
US10572858B2 (en) 2016-10-11 2020-02-25 Ricoh Company, Ltd. Managing electronic meetings using artificial intelligence and meeting rules templates
US10586527B2 (en) 2016-10-25 2020-03-10 Third Pillar, Llc Text-to-speech process capable of interspersing recorded words and phrases
US10375130B2 (en) 2016-12-19 2019-08-06 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances by an application using a wrapper application program interface
US10298635B2 (en) 2016-12-19 2019-05-21 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances using a wrapper application program interface
US10558861B2 (en) * 2017-08-02 2020-02-11 Oracle International Corporation Supplementing a media stream with additional information
CN107480146A (zh) * 2017-08-07 2017-12-15 中译语通科技(青岛)有限公司 一种识别语种语音的会议纪要快速翻译方法
US10923121B2 (en) * 2017-08-11 2021-02-16 SlackTechnologies, Inc. Method, apparatus, and computer program product for searchable real-time transcribed audio and visual content within a group-based communication system
CN107484002A (zh) * 2017-08-25 2017-12-15 四川长虹电器股份有限公司 智能翻译字幕的方法
CN107483872A (zh) * 2017-08-27 2017-12-15 张红彬 视频通话系统及视频通话方法
CN109587429A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 音频处理方法和装置
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10553208B2 (en) * 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances using multiple services
US10552546B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances in multi-language electronic meetings
US10956875B2 (en) 2017-10-09 2021-03-23 Ricoh Company, Ltd. Attendance tracking, presentation files, meeting services and agenda extraction for interactive whiteboard appliances
US11062271B2 (en) 2017-10-09 2021-07-13 Ricoh Company, Ltd. Interactive whiteboard appliances with learning capabilities
US11030585B2 (en) 2017-10-09 2021-06-08 Ricoh Company, Ltd. Person detection, person identification and meeting start for interactive whiteboard appliances
EP3474156A1 (en) * 2017-10-20 2019-04-24 Tap Sound System Real-time voice processing
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
US10984797B2 (en) * 2017-12-01 2021-04-20 Hewlett-Packard Development Company, L.P. Collaboration devices
JP6948934B2 (ja) * 2017-12-19 2021-10-13 日本放送協会 コンテンツ加工システム、端末装置、およびプログラム
CN108009161A (zh) * 2017-12-27 2018-05-08 王全志 信息输出方法、装置
CN109982010A (zh) * 2017-12-27 2019-07-05 广州音书科技有限公司 一种实时显示的会议字幕系统
US11308312B2 (en) 2018-02-15 2022-04-19 DMAI, Inc. System and method for reconstructing unoccupied 3D space
US20190371318A1 (en) * 2018-02-15 2019-12-05 DMAI, Inc. System and method for adaptive detection of spoken language via multiple speech models
US11455986B2 (en) 2018-02-15 2022-09-27 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US10757148B2 (en) 2018-03-02 2020-08-25 Ricoh Company, Ltd. Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices
CN110324723B (zh) * 2018-03-29 2022-03-08 华为技术有限公司 字幕生成方法及终端
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
KR102067446B1 (ko) * 2018-06-04 2020-01-17 주식회사 엔씨소프트 자막 생성 방법 및 시스템
US11847425B2 (en) * 2018-08-01 2023-12-19 Disney Enterprises, Inc. Machine translation system for entertainment and media
EP3618039B1 (en) * 2018-08-30 2023-02-15 Televic Education A system for recording an interpretation of a source media item
CN109104586B (zh) * 2018-10-08 2021-05-07 北京小鱼在家科技有限公司 特效添加方法、装置、视频通话设备以及存储介质
US11361168B2 (en) * 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
CN109348306A (zh) * 2018-11-05 2019-02-15 努比亚技术有限公司 视频播放方法、终端及计算机可读存储介质
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
KR102000282B1 (ko) * 2018-12-13 2019-07-15 주식회사 샘물정보통신 청각 기능 보조용 대화 지원 장치
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
CN109743529A (zh) * 2019-01-04 2019-05-10 广东电网有限责任公司 一种多功能视频会议系统
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11328131B2 (en) * 2019-03-12 2022-05-10 Jordan Abbott ORLICK Real-time chat and voice translator
US11392754B2 (en) 2019-03-15 2022-07-19 Ricoh Company, Ltd. Artificial intelligence assisted review of physical documents
US11080466B2 (en) 2019-03-15 2021-08-03 Ricoh Company, Ltd. Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11720741B2 (en) 2019-03-15 2023-08-08 Ricoh Company, Ltd. Artificial intelligence assisted review of electronic documents
US11270060B2 (en) 2019-03-15 2022-03-08 Ricoh Company, Ltd. Generating suggested document edits from recorded media using artificial intelligence
US11263384B2 (en) 2019-03-15 2022-03-01 Ricoh Company, Ltd. Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
US11573993B2 (en) 2019-03-15 2023-02-07 Ricoh Company, Ltd. Generating a meeting review document that includes links to the one or more documents reviewed
CN109889764A (zh) * 2019-03-20 2019-06-14 上海高屋信息科技有限公司 会议系统
CN109873973B (zh) * 2019-04-02 2021-08-27 京东方科技集团股份有限公司 会议终端和会议系统
US11082457B1 (en) * 2019-06-27 2021-08-03 Amazon Technologies, Inc. Media transport system architecture
RU192148U1 (ru) * 2019-07-15 2019-09-05 Общество С Ограниченной Ответственностью "Бизнес Бюро" (Ооо "Бизнес Бюро") Устройство для аудиовизуальной навигации слепоглухих людей
JP2021022836A (ja) * 2019-07-26 2021-02-18 株式会社リコー 通信システム、通信端末、通信方法およびプログラム
US11587561B2 (en) * 2019-10-25 2023-02-21 Mary Lee Weir Communication system and method of extracting emotion data during translations
KR102178174B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
KR102178175B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말 및 그 제어방법
KR102178176B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN111447397B (zh) * 2020-03-27 2021-11-23 深圳市贸人科技有限公司 一种基于视频会议的翻译方法、视频会议系统及翻译装置
US11776557B2 (en) 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof
KR102592613B1 (ko) * 2020-04-03 2023-10-23 한국전자통신연구원 자동 통역 서버 및 그 방법
US20210319189A1 (en) * 2020-04-08 2021-10-14 Rajiv Trehan Multilingual concierge systems and method thereof
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN113473238B (zh) * 2020-04-29 2022-10-18 海信集团有限公司 一种智能设备及视频通话时的同声翻译方法
CN113014853B (zh) 2020-04-30 2022-11-11 北京字节跳动网络技术有限公司 互动信息处理方法、装置、电子设备及存储介质
CN113630620A (zh) * 2020-05-06 2021-11-09 阿里巴巴集团控股有限公司 多媒体文件播放系统、相关方法、装置及设备
CN111787266A (zh) * 2020-05-22 2020-10-16 福建星网智慧科技有限公司 一种视讯ai实现方法及系统
CN111709253B (zh) * 2020-05-26 2023-10-24 珠海九松科技有限公司 一种将方言自动转换为字幕的ai翻译方法和系统
KR102390187B1 (ko) * 2020-05-27 2022-04-25 네이버 주식회사 회의보조용 번역 도구를 위한 방법 및 시스템
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN111787267A (zh) * 2020-07-01 2020-10-16 广州科天视畅信息科技有限公司 会议视频字幕合成系统和方法
US11924582B2 (en) * 2020-09-09 2024-03-05 Arris Enterprises Llc Inclusive video-conference system and method
CN111813998B (zh) * 2020-09-10 2020-12-11 北京易真学思教育科技有限公司 一种视频数据处理方法、装置、设备及存储介质
CN112153323B (zh) * 2020-09-27 2023-02-24 北京百度网讯科技有限公司 远程会议的同声传译方法、装置、电子设备和存储介质
CN113271429A (zh) * 2020-09-30 2021-08-17 常熟九城智能科技有限公司 一种视频会议信息处理方法、装置、电子设备及系统
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
JP6902302B1 (ja) * 2020-11-11 2021-07-14 祐次 廣田 自撮り顔動画が出勤するai電子勤務システム
CN114638237A (zh) * 2020-12-15 2022-06-17 华为云计算技术有限公司 一种实现同声传译的方法、装置及系统
TR202021891A2 (tr) * 2020-12-28 2021-02-22 Turkcell Technology Research And Development Co Vi̇deo konferans sunucusunda otomati̇k çevi̇ri̇ni̇n yapilmasini sağlayan bi̇r si̇stem
CN112738446B (zh) * 2020-12-28 2023-03-24 传神语联网网络科技股份有限公司 基于线上会议的同声传译方法及系统
CN112672099B (zh) * 2020-12-31 2023-11-17 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN112818703B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译系统与方法
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality
JP7284204B2 (ja) * 2021-03-03 2023-05-30 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN112684967A (zh) * 2021-03-11 2021-04-20 荣耀终端有限公司 一种用于字幕显示的方法及电子设备
US11627223B2 (en) * 2021-04-22 2023-04-11 Zoom Video Communications, Inc. Visual interactive voice response
CN113380247A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 多音区语音唤醒、识别方法和装置、设备、存储介质
US11715475B2 (en) * 2021-09-20 2023-08-01 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for evaluating and improving live translation captioning systems
WO2023049417A1 (en) * 2021-09-24 2023-03-30 Vonage Business Inc. Systems and methods for providing real-time automated language translations
CN114125358A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 云会议字幕显示方法、系统、装置、电子设备和存储介质
US20230153547A1 (en) * 2021-11-12 2023-05-18 Ogoul Technology Co. W.L.L. System for accurate video speech translation technique and synchronisation with the duration of the speech

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787472A (ja) * 1993-09-09 1995-03-31 Oki Electric Ind Co Ltd テレビ会議システム
US5457685A (en) * 1993-11-05 1995-10-10 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
EP1084580B1 (en) * 1998-06-04 2003-04-02 Roberto Trinca Process and apparatus for carrying out videoconferences with the simultaneous insertion of auxiliary information and films with television modalities
US6374224B1 (en) * 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
WO2001001353A1 (en) * 1999-06-24 2001-01-04 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
AU2001245534A1 (en) * 2000-03-07 2001-09-17 Oipenn, Inc. Method and apparatus for distributing multi-lingual speech over a digital network
JP2001282788A (ja) * 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US7221405B2 (en) * 2001-01-31 2007-05-22 International Business Machines Corporation Universal closed caption portable receiver
CA2446707C (en) * 2001-05-10 2013-07-30 Polycom Israel Ltd. Control unit for multipoint multimedia/audio system
US20030009342A1 (en) * 2001-07-06 2003-01-09 Haley Mark R. Software that converts text-to-speech in any language and shows related multimedia
US6771302B1 (en) * 2001-08-14 2004-08-03 Polycom, Inc. Videoconference closed caption system and method
KR100534409B1 (ko) * 2002-12-23 2005-12-07 한국전자통신연구원 자동 음성번역 서비스를 위한 전화망 사용자 인터페이스시스템 및 그 제어 방법
KR20050118733A (ko) * 2003-04-14 2005-12-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법
US20060227240A1 (en) * 2005-03-30 2006-10-12 Inventec Corporation Caption translation system and method using the same
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
CN1937664B (zh) * 2006-09-30 2010-11-10 华为技术有限公司 一种实现多语言会议的系统及方法
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
JP5119055B2 (ja) * 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
US8913188B2 (en) * 2008-11-12 2014-12-16 Cisco Technology, Inc. Closed caption translation apparatus and method of translating closed captioning

Also Published As

Publication number Publication date
JP2011209731A (ja) 2011-10-20
US20110246172A1 (en) 2011-10-06
AU2011200857A1 (en) 2011-10-20
EP2373016A2 (en) 2011-10-05
JP2014056241A (ja) 2014-03-27
AU2011200857B2 (en) 2012-05-10
CN102209227A (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
JP5564459B2 (ja) ビデオ会議に翻訳を追加するための方法及びシステム
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
CN110444196B (zh) 基于同声传译的数据处理方法、装置、系统和存储介质
US5815196A (en) Videophone with continuous speech-to-subtitles translation
US6100882A (en) Textual recording of contributions to audio conference using speech recognition
US10991380B2 (en) Generating visual closed caption for sign language
US20070285505A1 (en) Method and apparatus for video conferencing having dynamic layout based on keyword detection
US20080295040A1 (en) Closed captions for real time communication
CN107527623B (zh) 传屏方法、装置、电子设备及计算机可读存储介质
CN102422639A (zh) 用于在会议环境中翻译参与者之间的通信的系统和方法
WO2003079328A1 (fr) Appareil, procede et programme de conversion audio video
US20220414349A1 (en) Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages
JP2011065467A (ja) 会議中継装置及びコンピュータプログラム
KR20120073795A (ko) 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법
JPH10136327A (ja) ディスクトップ会議システム
WO2018001088A1 (zh) 一种交流信息展示方法、装置及设备、机顶盒
CN110189745A (zh) 一种智能会议系统与移动设备的链接方法
JP2009122989A (ja) 翻訳装置
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
KR20200050707A (ko) 그래픽 객체를 이용한 자막 생성 시스템
CN210091177U (zh) 一种实现同步翻译的会议系统
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
CN112511847A (zh) 视频图像叠加实时语音字幕的方法及装置
JP2013201505A (ja) テレビ会議システム及び多地点接続装置並びにコンピュータプログラム
CN113676691A (zh) 一种智能视频会议系统及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130325

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131107

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131114

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140616

R150 Certificate of patent or registration of utility model

Ref document number: 5564459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees