JP2001516890A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JP2001516890A
JP2001516890A JP2000511260A JP2000511260A JP2001516890A JP 2001516890 A JP2001516890 A JP 2001516890A JP 2000511260 A JP2000511260 A JP 2000511260A JP 2000511260 A JP2000511260 A JP 2000511260A JP 2001516890 A JP2001516890 A JP 2001516890A
Authority
JP
Japan
Prior art keywords
audio
signal
audio signal
uncompressed
sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000511260A
Other languages
English (en)
Inventor
スティーヴン シー ボツコ
ディヴィッド エム フランクリン
Original Assignee
ピクチャーテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクチャーテル コーポレイション filed Critical ピクチャーテル コーポレイション
Publication of JP2001516890A publication Critical patent/JP2001516890A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/20Circuits for coupling gramophone pick-up, recorder output, or microphone to receiver
    • H04B1/207Circuits for coupling gramophone pick-up, recorder output, or microphone to receiver with an audio or audio/video bus for signal distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 複数の音声源のうちの1つから1つの出力端へ音声信号を分散するための方法及び装置は、複数の音声源の各々からの圧縮済み音声信号(16a,16b,16d)を音声処理装置(12)に接続する。未圧縮音声信号(19a,19b,19d)が、圧縮済み音声信号から誘導される。複数の音声源のうちの1つからの圧縮済み音声信号は、未圧縮音声信号に基づいて出力端に選択的に結合される。好ましい一実施形態においては、複数の音声源の1つからの圧縮済み音声信号は、複数の音声源からの未圧縮音声信号内で検出されたスピーチ情報に従って選択的に出力端に結合される。該方法及び装置には、複数の音声源からの未圧縮音声信号を複合未圧縮音声信号の形に選択的にミキシングする段階、未圧縮複合信号を対応する圧縮済み複合信号へと圧縮する段階及び、未圧縮音声信号に従って選択的に圧縮済み複合信号又は圧縮済み音声信号のうちの選択されたものを結合する段階が含まれている。

Description

【発明の詳細な説明】
【0001】 本発明は、一般に音声処理装置により特定的には、音声又は音声/画像会議シ
ステムにおいて使用するための音声処理装置に関する。
【0002】 当該技術分野において知られているように、音声会議システム又は音声/画像 会議システムにおける主要なコンポーネントの1つは音声処理装置である。音声
処理装置は、会議システムに接続されたさまざまなサイトから音声を受信しその
音声をさまざまなサイトに配布することを担当している。
【0003】 音声処理装置には2つの古典的なタイプが存在する。すなわち、音声スイッチ
と音声ミキサーである。音声スイッチの場合、1つのサイトからの時間圧縮され
た音声データは、その他のいずれのサイトにも送られないか、又はそのうちの単
数又は複数のサイトに送られる。これらの音声スイッチは、例えば、「プッシュ
・ツー・トーク」方法を使用するサイトについて使用され、通信されるべきスピ
ーチ又は幾分かの可聴信号が存在する場合に時間圧縮済み音声を送る。いくつか
の音声スイッチにおいては、サイトでの「プッシュ・ツー・トーク」は自動であ
り、かくして、ユーザーが実際にボタンを「押す」必要性は削除されている。い
ずれにせよ、音声スイッチは実際に時間圧縮済み音声信号を復号しない。むしろ
、これは単純に、各サイトがどの音声源を受信するかを決定し、次に時間圧縮済
み音声を単数又は複数の適切なサイトにルーティングする。スイッチの動作は、
次のものの1つ又は組合せに基づくことができる:ユーザーが話すことを要求で
きるようにする制御プロトコル;特定のサイトを開くことをユーザーが要求でき
るようにする制御プロトコル;及び1つのサイトから他のサイトへ受信した音声
を転送する決定メカニズム。通常、音声スイッチは、いかなるサイトも自らが送
信している音声を受信しないように構成されている。
【0004】 音声スイッチは、時間圧縮済み音声信号を復号する必要がないため、実施効率
がきわめて良いものである。従って、単一の会議サーバーつまりブリッジが多数
のサイトをサポートできる。さらに音声スイッチは、単純に時間圧縮済み音声を
受信したままの状態でルーティングするだけであるため、コード変換(すなわち
展開とそれに続く展開信号の圧縮)又はその他の信号処理損失に起因して音声信
号を劣化させることがない。さらにその上、音声スイッチは、コード変換が必要
とされないことから、時間遅延が比較的低い。
【0005】 一方、音声スイッチは自らが受信した時間圧縮済み音声を復号せず、ただ単に
それを単数又は複数のサイトに渡すだけであることから、時間圧縮済み音声をい
かにルーティングするかの決定は制限されている。特に、スイッチに対する入力
は圧縮された音声であることから、スイッチは、ルーティング決定を行なう上で
音響エネルギー検出を使用することができない。さらに、1つ以上のサイトに話
をする参加者がいる場合、音声スイッチは、スイッチ内を通すべき音声の供給源
としてそれらのサイトのうちの1つだけを選択しなければならない。換言すると
スイッチは単にサイトから時間圧縮済み音声をルーティングするだけであるため
、さまざまなサイトにおける音声をミキシングすることはできない。
【0006】 音声ミキサーは、時間圧縮されていない、すなわち未圧縮音声で作動する。会
議システム内の各サイトについて、音声ミキサーは、選択されたその他のサイト
からの音声を組合せ、組合わされた音声を再符号化(すなわち時間圧縮)し、そ
れを受信サイトに時間圧縮ミキシング済みの音声として出力できるようにする。
サイトが多数の場合、サイトのうちのいくつかだけを選択し、選択されなかった
サイトを放棄しかくして雑音を低減させるため、セレクタが使用される。未圧縮
音声がセレクタで利用可能であることから、セレクタによりサイトから受信され
た音声の中の相対的量の音響エネルギーに基づいて選択を行なうことができる。
決定を行なうためにその他の信号処理技術も同様に使用可能である。音声ミキサ
ーの場合、複数のサイトにおいて参加者が話しているとき、その他のサイトにお
ける参加者が彼らの話を聞くことができる。他方では、音声ミキサーは、受信し
た音声を展開し、ミキシングし、次に再圧縮しなければならない。この3段階プ
ロセスは、オリジナル音声の質を劣化させ、単一の会合にサービス提供するべく
多数の会議サーバーがカスケードにされた場合、この影響は、特に好ましくない
ものとなり得る。さらに、信号処理は音声伝播に遅延を加える。その上さらに、
ひとたび音声信号がミキシングされると、これらをミキシング解除することはで
きず、かくして、分散形会議サーバのために利用可能なトポロジーは制限される
【0007】 本発明の1つの特長に従うと、複数の音声源の1つから1つの出力端に音声信
号を分散させるための方法が提供されている。この方法には、複数の音声源のう
ちの各々から音声処理装置に対し圧縮済み音声信号を供給する段階が含まれてい
る。処理装置は、受信した各々の音声信号を展開する。複数の音声源の1つから
の圧縮済み音声信号は、複数の音声源からの未圧縮音声信号に基づいて選択的に
出力端に結合される。好ましい一実施形態においては、複数の音声源の1つから
の圧縮済み音声信号は、複数の音声源からの未圧縮音声信号内に検出されたスピ
ーチ情報に基づいて選択的に出力端に結合される。
【0008】 本発明のもう1つの特長に従うと、この方法には、複数の音声源からの未圧縮
音声信号を未圧縮複合音声信号へと選択的にミキシングする段階;未圧縮複合信
号を対応する圧縮済み複合信号へと圧縮する段階;及び、未圧縮音声信号に基づ
き選択的に、圧縮済み複合信号又は圧縮済み音声信号のうちの選択されたものを
出力端に供給する段階が含まれる。本発明の好ましい一実施形態においては、圧
縮済み複合信号は、スピーチの音声信号が複数の供給源から検出されたとき、出
力端に供給され、スピーチがただ1つの供給源から検出された場合、圧縮済み音
声信号のうちの選択されたものが、出力端に結合される。
【0009】 本発明のさらにもう1つの特長に従うと、複数の音声源のうちの1つから音声
信号を配布させるための音声処理装置が提供されている。この処理装置は、複数
の圧縮済み音声信号のうちの1つを制御信号に従って選択的に出力端に結合させ
るため、複数の音声源のうちの各々からの圧縮済み音声信号による供給を受ける
スイッチを内含する。複数の音声源からの未圧縮音声信号に基づき制御信号を生
成するため、複数の音声源からの圧縮済み音声信号から誘導された未圧縮音声信
号による供給をセレクタが受けている。好ましい実施形態においては、セレクタ
は、複数の音声源からの未圧縮音声信号の中で検出されたスピーチ情報に基づい
て選択的に、複数の音声源のうちの1つからの圧縮済み音声信号を出力端に結合
する。
【0010】 本発明のもう1つの特長に従うと、処理装置には、複数の音声源からの未圧縮
音声信号を未圧縮複合音声信号の形に組合せるためのミキサーが含まれている。
符号器は、対応する圧縮済み複合信号を生成するため未圧縮複合信号による供給
を受ける。未圧縮音声信号に基づいて選択的に出力端に結合させるため圧縮済み
音声信号のうちの選択されたもの又は圧縮済み複合信号のいずれかを結合させる
ため、セレクタが具備されている。本発明の好ましい実施形態においては、セレ
クタは、複数の供給源からスピーチ音声信号が検出されたとき圧縮済み複合信号
を出力端に結合するか、又は供給源のうち1つだけからスピーチが検出されたと
き圧縮済み音声信号のうちの選択されたものを出力端に結合する。
【0011】 もう1つの態様においては、本発明は、複数の音声源のうちの1つから1つの
出力端に音声信号を配布するための方法に関する。本発明の特長は、複数の音声
源の各々から複数の第1レベルの音声ブリッジサーバーへと1つの音声信号を単
一投出する段階、各々の前記ブリッジサーバーから少なくとも1つの音声信号を
少なくとも1つの第2レベルの音声信号ブリッジサーバーへと単一投出する段階
;及び、各々の第2レベルのブリッジサーバーからまずは前記第1レベルのブリ
ッジサーバーのうちの少なくとも1つに、そして次に音声源に、出力信号を単一
投出する段階にある。一変形実施形態においては、最後の単一投出段階は、前記
第2レベルのブリッジサーバーからブリッジサーバー及び音声源のうちの少なく
とも1つに対して、選択された音声信号を出力として多重投出する段階によって
置換されうる。
【0012】 もう1つの態様においては、本発明は、複数の音声源の1つから1つの出力端
に音声信号を配布させるためのシステムに関する。このシステムは、複数の音声
源の各々から複数の第1レベルの音声ブリッジサーバーへと1つの音声信号を単
一投出する第1の送信機;各々の前記第1レベルのブリッジサーバーから少なく
とも1つの音声信号を少なくとも1つの第2レベルの音声信号ブリッジサーバー
へと単一投出する第2の送信機及び、 各々の前記第2レベルのブリッジサーバーから前記第1レベルのブリッジサー
バーに単一投出する第3の送信機;及び前記第1レベルのブリッジサーバーから
音声源に1つの出力信号を単一投出する第4の送信機をその特長として有してい
る。
【0013】 本発明のもう1つの態様においては、第3の送信機は前記第2レベルのブリッ
ジサーバーから第1レベルのブリッジサーバー及び音声源のうちの少なくとも1
つに対して、選択された音声信号を出力として多重投出する。
【0014】 本発明のこれらの及びその他の特長ならびに本発明自体は、添付図面と合わせ
て考慮される以下の詳細な記述からさらに容易に明らかになることだろう。
【0015】 ここで図1を参照すると、ここでは例えばサイト「A」,サイト「B」,サイ
ト「C」及びサイト「D」という4つのサイトである、複数のサイトが、1つの
サーバーすなわちブリッジ12を通して互いに接続されている音声会議システム
又は音声/画像会議システム10の音声部分が示されている。ブリッジ12内に
含まれているのは、例えばRTP/RTCP輸送回路を通して、図示されている ようにそれぞれサイト「A」,サイト「B」,サイト「C」及びサイト「D」と
いうサイトのうちの対応する1つに結合された複数の音声処理装置14a,14
b,14c及び14d(図2)である。さまざまな遠隔サイトA,B,C及びD
から受信される及びブリッジ12からこれらのサイトに送られる音声データは、
圧縮された音声、標準的には圧縮済み音声パケットである。ブリッジ12は、各
サイトが会議に参加できるように、さまざまなサイトからの音声を選択的に転送
しかつ/又はミキシングするように作動する。例示されたこの実施形態では4つ のサイトが示されているが、これ以上の又はこれより少ないサイトを取り扱うこ
とも可能である。さらに、本発明の例示された実施形態におけるブリッジ12は
、まず第1にソフトウェア内で作動するものの、このブリッジは、ハードウェア
、ソフトウェア又はその両方の組合せの形で実施することもできる(但し、当然
のことながら、以下で記述するアナログ動作についてはこのかぎりではない)。
サイトは、直接的接続として例示されているものの、サイトを数多くの異なる方
法、例えば公衆交換電話回線網を通して、ワイヤレスで、直接接続で又は例えば
ローカルエリアネットワークを含めたさまざまな通信経路のその他の任意の組合
わせの形で、ブリッジに接続することが可能である。
【0016】 ここで図2を参照すると、本発明の第1の特定の実施形態においては、音声処
理装置14a−14dのうちの各々は構造上同一である。その1つの例、つまり
ここでは音声処理装置14cが詳細に示されている。本発明のこの実施形態にお
いては、音声処理装置14a−14dの各々は、その1つの接続されたサイトに
、複数のサイトのうちのその他のものからの音声信号を配布させる。かくして、
サイト「C」を考慮すると、対応する音声処理装置14cは、サイト「A」,「
B」及び「D」の1つからサイト「C」に音声信号を配布させる。
【0017】 より特定的に言うと、サイト「A」〜「D」の各々は、ここでは例えばRTP
/RTCP輸送を通して時間圧縮済み音声パケットを送受信する。しかしながら 、その他の輸送も使用できることそしてサイトへ及びサイトからの音声信号がパ
ケットベースである必要がないことも理解すべきである。サイト「A」〜「D」
における音声源からの時間圧縮済み音声信号は、図示されているとおりそれぞれ
ライン16a〜16d上でブリッジ12の音声処理区分15へと供給される。ラ
イン16a−16d上の時間圧縮済み音声信号は同様に、図示されているように
それぞれ時間展開器又は復号器18a−18dに渡される。復号器18a−18
dは、ライン19a−19d上でそれぞれ、展開された又は未圧縮の音声信号を
生成する。それぞれライン16a−16d及び19a−19d上の時間圧縮済み
及び未圧縮の音声信号は両方共、図示されているように音声処理装置区分15に
供給される。ブリッジ12からサイト「A」,「B」,「C」及び「D」に供給
された音声信号は、図示されているように音声処理装置区分15からそれぞれラ
イン20a−20d上で時間圧縮済み音声信号としてかかるサイトに供給される
【0018】 より詳細に音声処理装置例14cを参照すると、この音声処理装置14cは、
それぞれ複数のサイト「A」,「B」及び「D」のうちの各々からライン16a
,16b及び16d上で圧縮済み音声信号を受信するためのスイッチ22を内含
する。スイッチ22は、ライン24上の制御信号に従ってかつこれに基づいて、
選択的に、ライン14a,14b,14d上の複数の圧縮済み音声信号の1つを
サイト「C」へと結合する。セレクタ26は、それぞれサイト「A」,「B」及
び「D」からライン19a,19b及び19d上で未圧縮音声信号による供給を
受ける。セレクタ26は、スピーチ確率検出器を内含し、最高のスピーチ確率を
もつサイト「A」,「B」又は「D」のうちの1つを決定し、かくしてライン2
4上で対応する制御記号を生成する。最高のスピーチ確率をもつサイト「A」,
「B」,又は「D」のうちの1つは、かくしてサイト「C」に結合される。サイ
ト「C」が多数の音声ストリームを受信する可能性のあるアプリケーションにお
いては、セレクタ26を、サイト「C」への結合のためサイト「A」,「B」,
又は「D」のうち複数のものを選択するように適切に修正することができる。セ
レクタ26のための等価の代替案として、音響エネルギー検出器又はその他のデ
バイスを使用することが可能であるということに留意すべきである。
【0019】 音声処理装置14a−14dの計算効率は、純粋な音声スイッチと音声ミキサ
ーの効率の間にある。音声処理装置14a−14dは、自らが受信する全ての音
声信号を復号するが、ミキシングも再時間圧縮も行なわない。復号された、すな
わち未圧縮の音声は、セレクタ26内のスピーチ検出器22aを用いて圧縮済み
音声信号の配布を可能にするようスイッチ22を操作するセレクタ26に対する
駆動情報を提供するためにのみ用いられる。又、処理装置14a−14d内の遅
延は同様に、純粋な音声スイッチと音声ミキサーの遅延の間にある。
【0020】 さらに、音声処理装置14a−14dは、圧縮済み信号を処理することなく(
すなわちそれらを展開することなく)時間圧縮済み音声信号を切換えることから
、オリジナルの音声信号ストリームの音声品質は劣化しない。このことは、セレ
クタ26に対する制御信号が未圧縮音声を表わす場合でさえ起こる。ブリッジに
接続されたサイトが、そのスピーカーの外で音を出すよう1つの音声ストリーム
を受信することのできる正規のエンドポイントである場合、サイトは、純粋音声
スイッチに比べて改善された会合の動的性を提供する。セレクタは、1番大きい
声が2番目に大きい声を聴くことを除いて、1番大きい声が全てのサイト「A」 −「D」にいる全ての人に聞かれるような形で作動する。(最も大きい声のサイ
トにあるセレクタ26がその最も声高の入力を選択したときその入力はブリッジ
に対する「2番目に声高の」入力である、という点に留意されたい。)。2つの
異なるサイトにいる2人の参加者が討論をしている場合、彼らは各々互いの言う
ことを聞いている。彼らが互いに割り込みをしない場合、全ての人が会話全体を
聞くことになる。この挙動は、エンドポイントサイトにおける検出器又は「プッ
シュ・トゥー・トーク」ボタンといったいかなる特別な特徴にも依存していない
という点に留意されたい。
【0021】 いくつかのエンドポイントサイトは、複数の音声ストリームを受理しその独自
の局所的ミキシングを行なうことができる。エンドポイントサイトにおけるこの
機能を用いると、従来の音声ミキサー上で改善されたサービス品質を達成するこ
とができる。まず第1に、エンドポイントサイトでミキシングが行なわれた場合
、音声処理装置12における追加の符号器(ミキシング)段階は必要とされない
。こうして遅延及び信号劣化が低減される。しかしながら、追加のスイッチ22
及びより複雑なセレクタが必要とされる可能性がある。同様にエンドポイントサ
イトは、標準的に、比較的少数の音声ストリームのみを受信(及びミキシング)
することができる。この制約条件は、このエンドポイントの多重ストリーム機能
を使用する会議ブリッジの能力を制限し、大きな会議においては、エンドポイン
トは急速に過負荷状態となる。
【0022】 音声処理装置14a−14dは、この問題に対する解決法を提供することがで
きる。かくして、セレクタ26/スイッチ(単複)22は、局所的ミキシングエ ンドポイントサイトに対し別々のストリーム内で最も声高の話者(2人以上)を
出力することになる。システムは、自らが出力するストリームの数を、1つのサ
イトが受信できる数に制限することができる。エンドポイントサイトのために最
も声高の話者を自動的に選択することにより、処理装置14a−14dは、考え
られる最高の信号品質を提供し、エンドポイントサイトの過負荷を避けることが
できる。
【0023】 本発明のもう1つの態様においては、最も声高のストリームは、複数のサイト
に多重投出され得る。すなわち、全音声区分15を選択するだけで、全てのサイ
ト音声を受理し、全てのサイトに出力が多重投出される多重スイッチ14を制御
することができる。このモードでは、各々のエンドポイントサイトは自動的にそ
れ自体の伝送されたストリームを自動的に無視しなければならない。同様に、会
議ブリッジ12は、多重投出されたストリームの合計数が必ず、それらを受理す
るように命令されているいずれかのサイトの能力を上回らないようにしなければ
ならない。
【0024】 かくして、音声処理装置14a−14dが、エンドポイントサイトと通信して
いるとき、これらにとって有用なアプリケーションは少なくとも3つある。まず
第1に各々のエンドポイントサイトは、会議ブリッジ12に対しその音声ストリ
ームを単一投出する。ブリッジ12は、セレクタ26を用いて、各エンドポイン
トサイトに単一投出で戻すべくスイッチ22a,…22nにおいて単数又は複数
のストリームを選択する。(図2A参照)。第2に、各々のエンドポイントサイ
トはその音声ストリーム(単複)を会議ブリッジ12に単一投出する。ブリッジ
12は、セレクタ26を用いてスイッチ22a,…22nにおいて単数又は複数
のストリームを選択し、選択されたストリームを全てのサイトに多重投出する(
図2B参照)。第3に、各々のエンドポイントサイトはその音声ストリーム(単
複)を多重投出する。これらのブリッジ12によってと同様にその他の接続され
たサイトによっても受信され得る。ブリッジは、単数又は複数のストリームを選
択し、これらを別々の多重投出アドレス上で多重投出する。これらのアプローチ
の組合せは確かに、例えばいくつかのサイトのみが多重投出伝送を受信できるよ
うな状況において可能である。
【0025】 音声処理装置14a−14dのもう1つのアプリケーションは、分散形会議の
サポート向けアプリケーションである。分散形(又はカスケード形)会議は、多
重ブリッジ上で実行される(図2c参照)。これは時として、会議が大規模であ
ることを理由として発生する。その他の状況では、会議は、帯域幅の利用を最適
化するために分散される。例えば、汎大西洋会議では、海洋を横断して実際に走
行するトラヒックの量を最小限におさえることが有利である。2つの会議ブリッ
ジ12a及び12b(例えば1つは欧州、1つは北米にある)を用いることによ
り、この最終目的が達成される。各ブリッジは、もう1つのブリッジに対し1つ
のサイトとして作用する。音声を劣化させることなくストリーム全体からのスピ
ーチを包含するような音声ストリームを選択できる音声処理装置14a−14d
の能力は、分散形会議において非常に有用である。例えば、図2Dを参照すると
、会議におけるエンドポイントサイト90は、自らの音声をそのブリッジ92に
ユニキャストすることになる。このとき、各ブリッジは、「活動状態」の音声ス
トリームを多重投出グループ96に多重投出することができる。次に、第2レベ
ルのブリッジ98が、第1レベルのブリッジからの活動状態の音声を再検査し、
さらにストリームの数を低減させることができる。必要とされる場合、ブリッジ
階層におけるより高いレベルを付加することもできる。エンドポイントサイトは
、単に、ここではブリッジ98である最上レベルのブリッジから多重投出音声1
00を受理することができる。その他のトポロジーも同様に可能である(例えば
、図2Eに例示されているように単一投出伝送のみを使用して)。
【0026】 ここで図3を参照すると、図2内の音声処理装置を置き換えることのできる代
替的音声処理装置14'Cが示されている。この音声処理装置14'Cは、ミキサ
ーとして作動し、例えば、1つの音声ストリームのみを受信できるエンドポイン
トサイトと共に作動するよう適合されている。これは、帯域幅が非常に臨界的で
あるため、たとえエンドポイントサイトが複数の音声ストリームを受信できると
しても1つの音声ストリームしか1つのエンドポイントサイトに伝送されないよ
うな状況下でもあてはまる。
【0027】 まず最初に、圧縮された音声が例えばサイトCについてどのように作り出され
るかを考えると、音声処理装置14'Cには、前出の場合と同様それぞれサイト 「A」,「B」及び「D」からライン16a,16b及び16d上で圧縮済み音
声信号に接続されたスイッチ22'が内含されている(図1)。スイッチ22'は
、ライン24'上の制御信号に従って、選択的に、セレクタ(又はスイッチ)3 4の入力端32にライン16a,16b,16d上の複数の圧縮済み音声信号の
1つを結合させる。セレクタ26'が、それぞれサイト「A」,「B」及び「D 」からの圧縮済み信号から復号されたライン19a,19b及び19d上の未圧
縮音声信号に接続する。セレクタ26'は、スピーチ確率検出器を含み、ライン 24'上で制御信号を生成するため最高の(又は最も声高の)スピーチ確率をも つサイト「A」,「B」又は「D」の1つを決定する。最高の(又は最も声高の
)スピーチ確率をもつサイト「A」,「B」又は「D」のうちの1つは、入力端
32でセレクタ34に結合される。
【0028】 サイト「A」,「B」及び「D」からのライン19a,19b及び19d上の
未圧縮音声信号は同様に、音声ミキサー28に供給されて、ライン35上で未圧
縮複合音声信号を生成する。ミキシングされた未圧縮音声信号は、時間圧縮符号
器29に供給されて、ライン31上で対応する圧縮済み複合音声信号を生成する
。符号器29により生成された圧縮済み複合音声信号は、ここでは入力端30で
ある、セレクタ34の入力端対30,32のうちのもう1方のものに供給される
。上述したとおり、スイッチ22'の出力端は、セレクタ34の入力端32に供 給される。かくして、セレクタ34は、1つの入力端32において、最も確率の
高い(又は最も声高の)話者がいるサイト「A」,「B」及び「D」からの圧縮
済み音声信号の1つの供給を受け、もう1方の入力端30は、符号器29により
生成された時間圧縮済み複合(ミキシング済み)音声信号の供給を受ける。
【0029】 サイト「A」,「B」及び「D」の各々でスピーチ確率を決定することに加え
て、セレクタ26'は同様に、同時にそれらのサイトで複数の人が話をしている か否かをも決定する。複数の人物が同時に話している場合(2重トーク、3重ト
ーク等々の条件)、論理「1」信号がライン36に供給される。そうでなければ
、セレクタ26'は、論理「0」信号を生成する。ミキサー28及び符号器29 の有効化端末(EN)と同様セレクタ34にもライン36が供給される。ライン
36上の論理信号36が論理「1」であり、複数の人物が同時に話していること
を示した場合、ミキサー28及び符号器29は有効化され、セレクタ34は、セ
レクタ34を通して符号器29により生成された時間圧縮済み複合音声源Nをラ
イン20c上でサイト「C」に結合する。そうでなければ、1人の人物だけが話
をしている場合すなわち、ライン36上の論理信号が論理「0」である場合、ミ
キサー28及び符号器29は有効化されず、セレクタ34は、セレクタ34を通
してライン20c上でサイト「C」に対して、最高のスピーチ確率をもつライン
16a,16b,16d上の圧縮済み音声信号のうちの選択されたものを結合す
る。
【0030】 かくして、音声制御機構14'Cを用いた場合、接続された異なるサイトで2 人以上の人物が一度に話しているとき(すなわち例えば「2重トーク」)、セレ
クタ26'内でスピーチ検出のために用いられる未圧縮音声は、ミキサー28内 で(以下で記述した通り)選択的にミキシングされ、その後、符号器29内で符
号化すなわち時間圧縮される。このミキシングされた圧縮済み複合音声は、セレ
クタ34を通してエンドポイントサイトつまり、ここではサイト「C」へと伝送
される。「2重トーク」が起こっていないとき、ミキサー28及び符号器29は
必要とされず、従って有効化されず、こうして、それらがソフトウェアで実施さ
れていない場合、かくしてブリッジ内の多大な計算資源が節約されることになる
。さらに、音声処理装置がミキシングモードにある場合を除いて、コード変換損
失は全くなくなる。
【0031】 セレクタ26'により2人以上の話者が存在することが見極められた場合、検 出器は、ライン37上でミキサー28に対し、どの入力ライン上に話者が発見で
きるかを識別する信号情報を提供する。ミキサー28は、その構成に応じて、ラ
イン35上でそのミキシング済み出力を生成するため、2つ、3つ又はそれ以上
の入力をミキシングすることができる。ミキシングレベルは、特に接続されたサ
イトの数及び同時に2〜3人以上の話者の話を聞くことの望ましさを含めたブリ
ッジ構成によって左右されることになる。選択される話者は同様に、スピーチの
或る最小しきい値レベルにも左右され、標準的にはこのレベルをもつサイトの中
から選定されることになる。代替的には、2人又は3人の最も声高の話者を選択
することができる。
【0032】 スイッチ22'及びセレクタ26'に先立って、それぞれアライナー40a,4
0b,40dに対しライン16a,16b及び16d上の圧縮済み音声信号の両
方を供給することができる、という点に留意すべきである。標準的には、各サイ
トについて1つのアライナのみが存在する。このアライナーの目的は、サイト「
A」,「B」,「C」及び「D」からの入ストリーム間のあらゆる遅延を等化す
ることにある(この実施形態において)。数多くのケースにおいて、音声ストリ
ームはすでに同期化されていることから、アライナーの使用は任意である。
【0033】 1つの会議あたり1つのミキサー/符号器しか必要とされないという点を理解
すべきである。この構成においては、例えば2重トークの間、最も声高の話者は
2番目に声高の話者を聞くことになる。2番目に声高の話者は、最も声高の話者
を聞く。その他全ての人は、2つの最も声高の話者のミックスを聞くことになる
。システムは、2人以上の最も声高の話者をミキシングするように拡大すること
ができる。これらのケースでは、複数の符号器が必要とされる。例えば、ミック
ス内に3人の話者が必要とされる場合には、4台の符号器が必要とされる(接続
されているサイトの数とは無関係に)。こうして最も声高の話者は、次に声高の
2人の話者を聞くことができ、2番目に声高の話者は最も声高の話者及び3番目
に声高の話者を聞くことができる。3番目に声高の話者は、2人の最も声高の話
者のミックスを聞く。その他全ての人は3人の最も声高の話者のミックスを聞く
。ここで「3重トーク」は「2重トーク」よりもさらに一層稀であることから、
サポートする多数の符号器の計算上の必要条件はさほど厳しいものではないとい
うことに留意されたい。
【0034】 最高3人の話者を合わせてミキシングできる本発明に従ったブリッジ12の代
表的実施においては、ブリッジは、先のものと同様、4つのサイトつまりサイト
A,サイトB,サイトC及びサイトDに接続される。サイトからの圧縮された音
声は、RTD/RTCP輸送を通してそれぞれのアライナー40a,40b,4 0c及び40dに、そして次にそれぞれの符号器18a,18b,18c及び1
8dへと渡される。アライナの圧縮された出力は、4つのミキサー28a,28
b,28c及び28dの各々に送られ、未圧縮音声出力はセレクタ26'に送ら れる。セレクタは、ライン37上のミキサーの各々を制御し、各ミキサーは、有
効化された時点で、サイトA,B,C及びDのための適切な出力信号を生成する
それぞれの符号器29a,29b,29c,29dに対するミキシングされた出
力を生成する。符号器の出力は、クロスポイントスイッチ100に導かれる。ク
ロスポイントスイッチは同様に、ライン16a,16b,16c,16d上でア
ライナにより出力されるサイトからの圧縮された入力をも受信し、ライン19a
,19b,19c及び19d上でのセレクタに対する入力の相対的な声高さ及び
スピーチの内容に応じて、セレクタの出力によって制御される。セレクタの出力
は、A,B,C及びDとラベル付けされたライン上のさまざまなサイトへの提示
のため、ライン16上の圧縮済み音声又は符号器29の出力のいずれかを選択す
るべくクロスポイントスイッチを制御する。この要領で、4つのミキサー、4つ
の符号器、ただし唯一のセレクタ及び1つのクロスポイントスイッチを用いて、
最高3人の話者のミックスを提供することができる。本発明の好ましい実施形態
においては、ミキサー/符号器及びセレクターならびにアライナー及び符号器は 全て、ソフトウェアの形で実施される。かくして、ミキサーの使用が必要でない
場合で別コード変換が利用されない場合、音声品質が高まるばかりでなく、計算
の節約は多大である。
【0035】 以下の表は、さまざまな割込み率についての結果を例示している。この表は、
各々の割込みが2秒間持続すること及び考えられる話者が5人いることを仮定し
ている。高い割込み確率がある場合でさえ、一会議あたりの平均符号負荷は、非
常に低く、ここでは一会議あたり1符号器未満である。ここで従来の音声ミキサ
ーにおいては、エンドポイントサイトあたり1つの符号器が存在するという点に
留意されたい。 <表>
【0036】 図2に示されているシステムは、上述のとおり、1つの音声ストリームのみを
受信しているエンドポイントサイトと共に使用することができる。エンドポイン
トサイトは、完全音声ミキシングの利点の全てを有し、ブリッジ12上の計算負
荷ははるかに少ない。さらに、割込み無しのスピーチの間の音声の質は、別コー
ド変換がこの時間中全く行なわれないことから、音声ミキサーよりも優れている
。これは、図2Cのブリッジ同士の接続において特に有利である。従来のミキサ
ーが使用される場合、コード変換損失が、カスケード化できるサーバーの数を制
限する。3ブリッジが標準的に推奨される限界である。処理装置14'Cといっ たような音声処理装置の場合、コード変換損失は割込み中のみに発生する。この
ような状況下ではいずれにせよ会合は通常フォローし難いものであることから、
別コード変換損失はさほど関心の対象とならない。従って、本発明はカスケード
化しうるブリッジ数を増大させる。
【0037】 その他の特長は、添付のクレームの精神及び範囲内に入るものである。
【図面の簡単な説明】
【図1】 ブリッジ形音声/画像会議システムのブロック図である。
【図2】 本発明に従った音声処理装置をもつ会議システムのブロック図である。
【図2A】 音声処理装置の1つの特定の構成のブロック図である。
【図2B】 音声処理装置の第2の好ましい構成のブロック図である。
【図2C】 本発明に従ったカスケード形ブリッジ接続の概略的ブロック図である。
【図2D】 本発明に従った多重レベルブリッジトポロジーの概略的ブロック図である。
【図2E】 本発明に従った多重レベルブリッジトポロジーの概略的ブロック図である。
【図3】 図1の会議システム内で使用するように適合された音声処理装置の一変形実施
形態のブロック図である。
【図3A】 最高3人の話者をミキシングするための特定の代替的ブリッジ構成のブロック
図である。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D020 BB01 5D045 DA00 DA20

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声源の1つから1つの出力端に音声信号を配布する
    ための方法において、 − 音声処理装置において複数の音声源のうちの各々の音声源から圧縮された
    音声信号を受信する段階; − 圧縮された受信済み音声信号を展開する段階;及び − 複数の音声源からの未圧縮音声信号内で検出されたスピーチ情報に基づい
    て選択的に、複数の音声源の1つからの圧縮済み音声信号を該出力端に結合する
    段階; を含んで成る方法。
  2. 【請求項2】 − 複数の音声源から1つの未圧縮複合音声信号へと、前記
    スピーチ情報に基づいて、未圧縮音声信号のうちの選択された信号をミキシング
    する段階; − 未圧縮複合信号を対応する圧縮複合信号へと圧縮する段階;及び − 複数の供給源からスピーチ音声信号が検出されたとき圧縮済み複合信号を
    出力端に結合し、スピーチがただ1つの供給源から検出された時点で圧縮済み音
    声信号のうちの選択されたものを出力端に結合する段階; をさらに含んで成る、請求項1に記載の方法。
  3. 【請求項3】 複数の音声源の1つから1つの出力端に音声信号を分散する
    ための方法において、 − 音声処理装置において複数の音声源のうちの各々の音声源から圧縮された
    音声信号を受信する段階; − 圧縮された受信済み音声信号を展開する段階;及び − 複数の音声源からの未圧縮音声信号に基づいて、選択的に、複数の音声源
    の1つからの複数の圧縮済み音声信号の1つを該出力端に結合する段階、 を含んで成る方法。
  4. 【請求項4】 − 少なくとも2つの音声源が活動状態にあるときつねに未
    圧縮複合音声信号を生成するべく、複数の音声源から未圧縮音声信号を選択的に
    ミキシングする段階;及び − 未圧縮音声信号に基づいて選択的に該出力端に対して未圧縮複合信号又は
    圧縮済み音声信号のうちの選択された音声信号のいずれかを接続する段階; をさらに含んで成る、請求項3に記載の方法。
  5. 【請求項5】 − 未圧縮音声信号から、予め定められたタイプの音声信号
    を生成する音声源の数を決定する段階をさらに含んで成り; − 前記接続段階には、未圧縮複合信号又は圧縮済み音声信号のうちの選択さ
    れた1つの音声信号のいずれかを、決定された音声源数に基づいて選択的に出力
    端に接続する段階が含まれている; 請求項4に記載の方法。
  6. 【請求項6】 予め定められた音声信号タイプがスピーチである、請求項5
    に記載の方法。
  7. 【請求項7】 圧縮済み音声信号のうちの選択された音声信号は、決定され
    たスピーチ生成源の数が1であるときに出力端に結合される、請求項6に記載の
    方法。
  8. 【請求項8】 複数の音声源のうちの1つから1つの出力端に音声信号を配
    布するための音声処理装置において、 − 複数の圧縮済み音声信号のうちの1つを、制御信号に従って選択的に出力
    端に結合させるため、複数の音声源の各々からの圧縮音声信号に接続されたスイ
    ッチ;及び − 複数の音声源からの未圧縮音声信号内に検出されたスピーチ情報に基づい
    て制御信号を生成するため、複数の音声源からの圧縮済み音声信号から誘導され
    た未圧縮音声信号に接続されたセレクタ;を含んで成る音声処理装置。
  9. 【請求項9】 − 複数の音声源からの未圧縮音声信号を1つの未圧縮複合
    音声信号の形で選択的に組合せるためのミキサー; − 対応する圧縮済み複合信号を生成するため、未圧縮複合信号に接続された
    符号器;及び − 複数の供給源からスピーチ音声信号が検出されたとき圧縮済み複合信号を
    出力端に結合し、スピーチがただ1つの供給源から検出された時点で圧縮済み音
    声信号のうちの選択されたものを出力端に結合するためのセレクタ; をさらに含んで成る、請求項8に記載の処理装置。
  10. 【請求項10】 複数の音声源のうちの1つから1つの出力端に音声信号を
    分散するための音声処理装置において、 − 複数の圧縮済み音声信号のうちの1つを、制御信号に従って選択的に出力
    端に結合させるため、複数の音声源の各々からの圧縮音声信号に接続されたスイ
    ッチ;及び − 複数の音声源からの未圧縮音声信号に基づいて制御信号を生成するため、
    複数の音声源からの圧縮済み音声信号から誘導された未圧縮音声信号による供給
    を受けるセレクタ; を含んで成る音声処理装置。
  11. 【請求項11】 − 複数の音声源からの未圧縮音声信号を1つの未圧縮複
    合音声信号の形で選択的に組合せるためのミキサー; − 対応する圧縮済み複合信号を生成するため、未圧縮複合信号に接続された
    符号器;及び − 未圧縮音声信号に基づいて、圧縮済み音声信号のうちの選択されたものか
    又は圧縮済み複合信号のいずれかを出力端に結合するための第2のセレクタ; をさらに含んで成る、請求項10に記載のプロセッサ。
  12. 【請求項12】 − 複数の音声源からの未圧縮音声信号を1つの未圧縮複
    合音声信号の形で選択的に組合せるためのミキサー; − 対応する圧縮済み複合信号を生成するため、未圧縮複合信号に接続された
    符号器;及び − 未圧縮音声信号から予め定められたタイプの音声信号を生成する音声源数
    を決定し、予め定められた音声信号のタイプに基づいて選択的に、圧縮済み音声
    信号のうちの選択されたものか又は圧縮済み複合信号のいずれかを出力端に結合
    するための第2のセレクタ; をさらに含んで成る、請求項10に記載のプロセッサ。
  13. 【請求項13】 − 複数の音声源からの未圧縮音声信号を1つの未圧縮複
    合音声信号の形で選択的に組合せるためのミキサー; − 対応する圧縮済み複合信号を生成するため、未圧縮複合信号に接続された
    符号器;及び − 未圧縮音声信号から予め定められたタイプの音声信号を生成する音声源数
    を決定し、予め定められた音声信号のタイプに基づいて選択的に、圧縮済み音声
    信号のうちの選択されたものか又は圧縮済み複合信号のいずれかを出力端に結合
    するための第2のセレクタ; をさらに含んで成り、 予め定められたタイプの音声信号がスピーチである、請求項10に記載の処理
    装置。
  14. 【請求項14】 − 複数の音声源からの未圧縮音声信号を1つの未圧縮複
    合音声信号の形で選択的に組合せるためのミキサー; − 対応する圧縮済み複合信号を生成するため、未圧縮複合信号に接続された
    符号器;及び − 未圧縮音声信号から予め定められたタイプの音声信号を生成する音声源数
    を決定し、予め定められた音声信号のタイプに従って選択的に、かつかかる予め
    定められたタイプの音声信号を生成する音声源の数によって定められるように、
    圧縮済み音声信号のうちの選択されたものか又は圧縮済み複合信号のいずれかを
    出力端に結合するための第2のセレクタ; をさらに含んで成る、請求項10に記載のプロセッサ。
  15. 【請求項15】 複数の音声源の1つから1つの出力端に音声信号を配布す
    るための方法において、 − 複数の音声源の各々から複数の第1レベルの音声ブリッジサーバーへと1
    つの音声信号を単一投出する段階; − 各々の前記第1レベルのブリッジサーバーから少なくとも1つの音声信号
    を少なくとも1つの第2レベルの音声信号ブリッジサーバーへと単一投出する段
    階;及び − 各々の前記第2レベルの音声信号ブリッジサーバーからまずは前記第1レ
    ベルのブリッジサーバーに、そして次に前記音声源に、出力音声信号を単一投出
    する段階; を含んで成る方法。
  16. 【請求項16】 複数の音声源の1つから1つの出力端に音声信号を配布す
    るための方法において、 − 複数の音声源の各々から複数の第1レベルの音声ブリッジサーバーへと1
    つの音声信号を単一投出する段階; − 各々の前記第1レベルのブリッジサーバーから少なくとも1つの音声信号
    を少なくとも1つの第2レベルのブリッジサーバーへと単一投出する段階;及び
    、 − 前記第2レベルのブリッジサーバーから前記第1レベルのブリッジサーバ
    ー及び前記音声源のうちの少なくとも1つに対して、選択された音声信号を出力
    として多重投出する段階; を含んで成る方法。
  17. 【請求項17】 複数の音声源の1つから1つの出力端に音声信号を配布す
    るためのシステムにおいて、 − 複数の音声源の各々から複数の第1レベルの音声ブリッジサーバーへと1
    つの音声信号を単一投出する第1の送信機; − 各々の前記第1レベルのブリッジサーバーから少なくとも1つの音声信号
    を少なくとも1つの第2レベルの音声信号ブリッジサーバーへと単一投出する第
    2の送信機;及び − 各々の前記第2レベルのブリッジサーバーから前記第1レベルのブリッジ
    サーバーに単一投出する第3の送信機; − 及び前記第1レベルのブリッジサーバーから前記音声源に出力信号を単一
    投出する第4の送信機; を含んで成るシステム。
  18. 【請求項18】 複数の音声源の1つから1つの出力端に音声信号を配布す
    るためのシステムにおいて、 − 複数の音声源の各々から複数の第1レベルの音声ブリッジサーバーへと1
    つの音声信号を単一投出する第1の送信機; − 各々の前記第1レベルのブリッジサーバーから少なくとも1つの音声信号
    を少なくとも1つの第2レベルのブリッジサーバーへと単一投出する第2の送信
    機;及び − 前記第2レベルのブリッジサーバーから前記第1レベルのブリッジサーバ
    ー及び前記音声源のうちの少なくとも1つに対して、選択された音声信号を出力
    として多重投出する第3の送信機; を含んで成るシステム。
JP2000511260A 1997-09-08 1998-08-26 音声処理装置 Pending JP2001516890A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/925,309 US6141597A (en) 1997-09-08 1997-09-08 Audio processor
US08/925,309 1997-09-08
PCT/US1998/017642 WO1999013589A1 (en) 1997-09-08 1998-08-26 Audio processor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003389384A Division JP2004140850A (ja) 1997-09-08 2003-11-19 音声信号を配布するための方法及びシステム

Publications (1)

Publication Number Publication Date
JP2001516890A true JP2001516890A (ja) 2001-10-02

Family

ID=25451538

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000511260A Pending JP2001516890A (ja) 1997-09-08 1998-08-26 音声処理装置
JP2003389384A Pending JP2004140850A (ja) 1997-09-08 2003-11-19 音声信号を配布するための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2003389384A Pending JP2004140850A (ja) 1997-09-08 2003-11-19 音声信号を配布するための方法及びシステム

Country Status (3)

Country Link
US (2) US6141597A (ja)
JP (2) JP2001516890A (ja)
WO (1) WO1999013589A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533221A (ja) * 2009-07-10 2012-12-20 クアルコム,インコーポレイテッド 無線通信システムにおけるグループ通信セッションのためのメディア転送
US9088630B2 (en) 2009-07-13 2015-07-21 Qualcomm Incorporated Selectively mixing media during a group communication session within a wireless communications system

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6373954B1 (en) * 1997-10-14 2002-04-16 Cirrus Logic, Inc. Single-chip audio circuitry, method, and systems using the same
US6052391A (en) * 1998-02-27 2000-04-18 Lucent Technologies Inc. Dynamic assignment of subrate voice channels in telecommunication networks
US6240070B1 (en) * 1998-10-09 2001-05-29 Siemens Information And Communication Networks, Inc. System and method for improving audio quality on a conferencing network
WO2000030103A1 (fr) * 1998-11-13 2000-05-25 Sony Corporation Procede et dispositif de traitement de signal audio
US7385940B1 (en) * 1999-12-15 2008-06-10 Cisco Technology, Inc. System and method for using a plurality of processors to support a media conference
US6940826B1 (en) * 1999-12-30 2005-09-06 Nortel Networks Limited Apparatus and method for packet-based media communications
US7039178B2 (en) * 2000-10-19 2006-05-02 Qwest Communications International Inc. System and method for generating a simultaneous mixed audio output through a single output interface
US7221663B2 (en) * 2001-12-31 2007-05-22 Polycom, Inc. Method and apparatus for wideband conferencing
US8964604B2 (en) 2000-12-26 2015-02-24 Polycom, Inc. Conference endpoint instructing conference bridge to dial phone number
US9001702B2 (en) * 2000-12-26 2015-04-07 Polycom, Inc. Speakerphone using a secure audio connection to initiate a second secure connection
US8977683B2 (en) * 2000-12-26 2015-03-10 Polycom, Inc. Speakerphone transmitting password information to a remote device
US7339605B2 (en) 2004-04-16 2008-03-04 Polycom, Inc. Conference link between a speakerphone and a video conference unit
US8948059B2 (en) 2000-12-26 2015-02-03 Polycom, Inc. Conference endpoint controlling audio volume of a remote device
US7864938B2 (en) * 2000-12-26 2011-01-04 Polycom, Inc. Speakerphone transmitting URL information to a remote device
US6956828B2 (en) * 2000-12-29 2005-10-18 Nortel Networks Limited Apparatus and method for packet-based media communications
EP1360798B1 (en) * 2001-02-06 2014-10-01 Polycom Israel Ltd. Control unit for multipoint multimedia/audio conference
GB2374241B (en) * 2001-04-03 2004-07-07 Trilogy Broadcast Management internet protocol unicast and multicast communications
US6804340B2 (en) * 2001-05-03 2004-10-12 Raytheon Company Teleconferencing system
US6804565B2 (en) 2001-05-07 2004-10-12 Harman International Industries, Incorporated Data-driven software architecture for digital sound processing and equalization
US7451006B2 (en) 2001-05-07 2008-11-11 Harman International Industries, Incorporated Sound processing system using distortion limiting techniques
US7447321B2 (en) 2001-05-07 2008-11-04 Harman International Industries, Incorporated Sound processing system for configuration of audio signals in a vehicle
CA2446707C (en) 2001-05-10 2013-07-30 Polycom Israel Ltd. Control unit for multipoint multimedia/audio system
US8976712B2 (en) * 2001-05-10 2015-03-10 Polycom, Inc. Speakerphone and conference bridge which request and perform polling operations
US8934382B2 (en) 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
US20020194606A1 (en) * 2001-06-14 2002-12-19 Michael Tucker System and method of communication between videoconferencing systems and computer systems
US6947417B2 (en) * 2001-06-29 2005-09-20 Ip Unity Method and system for providing media services
US7161939B2 (en) 2001-06-29 2007-01-09 Ip Unity Method and system for switching among independent packetized audio streams
US7028074B2 (en) * 2001-07-03 2006-04-11 International Business Machines Corporation Automatically determining the awareness settings among people in distributed working environment
US7668907B1 (en) * 2001-08-16 2010-02-23 Microsoft Corporation Method and system for selectively viewing participants of a multimedia network conference
US7016348B2 (en) 2001-08-28 2006-03-21 Ip Unity Method and system for direct access to web content via a telephone
US7428223B2 (en) * 2001-09-26 2008-09-23 Siemens Corporation Method for background noise reduction and performance improvement in voice conferencing over packetized networks
KR100794424B1 (ko) * 2001-11-01 2008-01-16 엘지노텔 주식회사 오디오 패킷 스위칭 시스템 및 방법
US8144854B2 (en) * 2001-12-31 2012-03-27 Polycom Inc. Conference bridge which detects control information embedded in audio information to prioritize operations
US8102984B2 (en) * 2001-12-31 2012-01-24 Polycom Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
US7978838B2 (en) 2001-12-31 2011-07-12 Polycom, Inc. Conference endpoint instructing conference bridge to mute participants
US20050213726A1 (en) * 2001-12-31 2005-09-29 Polycom, Inc. Conference bridge which transfers control information embedded in audio information between endpoints
US7742588B2 (en) * 2001-12-31 2010-06-22 Polycom, Inc. Speakerphone establishing and using a second connection of graphics information
US7787605B2 (en) 2001-12-31 2010-08-31 Polycom, Inc. Conference bridge which decodes and responds to control information embedded in audio information
US8023458B2 (en) 2001-12-31 2011-09-20 Polycom, Inc. Method and apparatus for wideband conferencing
US8223942B2 (en) 2001-12-31 2012-07-17 Polycom, Inc. Conference endpoint requesting and receiving billing information from a conference bridge
US8947487B2 (en) * 2001-12-31 2015-02-03 Polycom, Inc. Method and apparatus for combining speakerphone and video conference unit operations
US8885523B2 (en) 2001-12-31 2014-11-11 Polycom, Inc. Speakerphone transmitting control information embedded in audio information through a conference bridge
US8934381B2 (en) 2001-12-31 2015-01-13 Polycom, Inc. Conference endpoint instructing a remote device to establish a new connection
US8705719B2 (en) 2001-12-31 2014-04-22 Polycom, Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
CA2483609C (en) * 2002-05-03 2012-09-18 Harman International Industries, Incorporated Sound detection and localization system
US6804504B1 (en) 2002-08-23 2004-10-12 Innovative Electronic Designs, Inc. Audio processing system
JP4062042B2 (ja) * 2002-10-03 2008-03-19 ヤマハ株式会社 信号切換装置
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
US7292564B2 (en) * 2003-11-24 2007-11-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for use in real-time, interactive radio communications
US7760721B2 (en) * 2004-09-01 2010-07-20 Scott Stogel Method and system for computer based intercom control and management
US20070019571A1 (en) * 2004-09-01 2007-01-25 Scott Stogel Apparatus and method for audio communications
US7903137B2 (en) * 2004-10-15 2011-03-08 Lifesize Communications, Inc. Videoconferencing echo cancellers
US8116500B2 (en) * 2004-10-15 2012-02-14 Lifesize Communications, Inc. Microphone orientation and size in a speakerphone
US7760887B2 (en) * 2004-10-15 2010-07-20 Lifesize Communications, Inc. Updating modeling information based on online data gathering
US20060132595A1 (en) * 2004-10-15 2006-06-22 Kenoyer Michael L Speakerphone supporting video and audio features
US7720232B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
US7720236B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Updating modeling information based on offline calibration experiments
US20060209730A1 (en) * 2005-03-19 2006-09-21 Richard Bautista Bi-directional audio bridge
US7970150B2 (en) * 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US7593539B2 (en) * 2005-04-29 2009-09-22 Lifesize Communications, Inc. Microphone and speaker arrangement in speakerphone
US8126029B2 (en) * 2005-06-08 2012-02-28 Polycom, Inc. Voice interference correction for mixed voice and spread spectrum data signaling
US8199791B2 (en) * 2005-06-08 2012-06-12 Polycom, Inc. Mixed voice and spread spectrum data signaling with enhanced concealment of data
US7796565B2 (en) 2005-06-08 2010-09-14 Polycom, Inc. Mixed voice and spread spectrum data signaling with multiplexing multiple users with CDMA
US20070067387A1 (en) * 2005-09-19 2007-03-22 Cisco Technology, Inc. Conferencing system and method for temporary blocking / restoring of individual participants
US7698437B2 (en) * 2006-01-18 2010-04-13 Digital Acoustics L.L.C. Method and apparatus for multiple audio connections over networks
US7643436B2 (en) * 2006-02-01 2010-01-05 Sun Microsystems, Inc. Apparatus and method for combining network conferences that are not co-located
US7707247B2 (en) * 2006-04-20 2010-04-27 Cisco Technology, Inc. System and method for displaying users in a visual conference between locations
DE602006020435D1 (de) * 2006-08-01 2011-04-14 Alcatel Lucent Konferenzserver
US8266535B2 (en) 2006-09-11 2012-09-11 Broadnet Teleservices, Llc Teleforum apparatus and method
US7899161B2 (en) 2006-10-11 2011-03-01 Cisco Technology, Inc. Voicemail messaging with dynamic content
US20080109517A1 (en) * 2006-11-08 2008-05-08 Cisco Technology, Inc. Scheduling a conference in situations where a particular invitee is unavailable
US8116236B2 (en) * 2007-01-04 2012-02-14 Cisco Technology, Inc. Audio conferencing utilizing packets with unencrypted power level information
US7720919B2 (en) * 2007-02-27 2010-05-18 Cisco Technology, Inc. Automatic restriction of reply emails
US8706091B2 (en) * 2007-03-23 2014-04-22 Cisco Technology, Inc. Attachment of rich content to a unified message left as a voicemail
US8620654B2 (en) * 2007-07-20 2013-12-31 Cisco Technology, Inc. Text oriented, user-friendly editing of a voicemail message
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
JP5267060B2 (ja) * 2008-11-10 2013-08-21 ヤマハ株式会社 音響信号処理システム
US8228363B2 (en) * 2009-01-30 2012-07-24 Polycom, Inc. Method and system for conducting continuous presence conferences
US9268398B2 (en) * 2009-03-31 2016-02-23 Voispot, Llc Virtual meeting place system and method
JP5075279B2 (ja) * 2010-04-20 2012-11-21 パナソニック株式会社 入出力切替装置および入出力切替方法
WO2013142650A1 (en) * 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
US20140028788A1 (en) 2012-07-30 2014-01-30 Polycom, Inc. Method and system for conducting video conferences of diverse participating devices
US9237238B2 (en) 2013-07-26 2016-01-12 Polycom, Inc. Speech-selective audio mixing for conference
US20150092615A1 (en) * 2013-10-02 2015-04-02 David Paul Frankel Teleconference system with overlay aufio method associate thereto
US11089163B2 (en) * 2019-03-18 2021-08-10 Avaya Inc. Automated queuing system and queue management

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03274941A (ja) * 1990-03-26 1991-12-05 Meidensha Corp ローカルエリアネットワークの同報伝送方式
US5309517A (en) * 1991-05-17 1994-05-03 Crown International, Inc. Audio multiplexer
GB2276796B (en) * 1993-04-01 1997-12-10 Sony Corp Audio data communications
US5533112A (en) * 1994-03-31 1996-07-02 Intel Corporation Volume control in digital teleconferencing
US5530699A (en) * 1994-05-17 1996-06-25 Motorola, Inc. Method for distributed voice conferencing in a fast packet network
JP2626575B2 (ja) * 1994-08-22 1997-07-02 日本電気株式会社 分散会議システムにおける同報データ配信方式
US5483528A (en) * 1994-10-11 1996-01-09 Telex Communications, Inc. TDM digital matrix intercom system
US5647008A (en) * 1995-02-22 1997-07-08 Aztech Systems Ltd. Method and apparatus for digital mixing of audio signals in multimedia platforms
JPH08256218A (ja) * 1995-03-16 1996-10-01 Fujitsu Ltd マルチメディア会議システム
JP2720857B2 (ja) * 1995-11-21 1998-03-04 日本電気株式会社 多地点テレビ会議制御装置
JP3688830B2 (ja) * 1995-11-30 2005-08-31 株式会社東芝 パケット転送方法及びパケット処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533221A (ja) * 2009-07-10 2012-12-20 クアルコム,インコーポレイテッド 無線通信システムにおけるグループ通信セッションのためのメディア転送
US9025497B2 (en) 2009-07-10 2015-05-05 Qualcomm Incorporated Media forwarding for a group communication session in a wireless communications system
US9088630B2 (en) 2009-07-13 2015-07-21 Qualcomm Incorporated Selectively mixing media during a group communication session within a wireless communications system

Also Published As

Publication number Publication date
US6141597A (en) 2000-10-31
US5983192A (en) 1999-11-09
JP2004140850A (ja) 2004-05-13
WO1999013589A1 (en) 1999-03-18

Similar Documents

Publication Publication Date Title
JP2001516890A (ja) 音声処理装置
US6940826B1 (en) Apparatus and method for packet-based media communications
US7200214B2 (en) Method and system for participant control of privacy during multiparty communication sessions
US7054820B2 (en) Control unit for multipoint multimedia/audio conference
US7180997B2 (en) Method and system for improving the intelligibility of a moderator during a multiparty communication session
JP4231698B2 (ja) 多地点マルチメディア/音声システムの制御ユニット
US6956828B2 (en) Apparatus and method for packet-based media communications
US6404745B1 (en) Method and apparatus for centralized multipoint conferencing in a packet network
US7689568B2 (en) Communication system
US7558224B1 (en) Management of packet-based audio devices within acoustic spaces
US20130064387A1 (en) Audio processing method, system, and control server
CN101997866A (zh) Ip网络中的分布式媒体混合和会议
JPH0870322A (ja) 改良されたマルチポイント制御ユニット及び改良されたエンドポイントデバイスを使用するシームレスマルチメディア会議システム
JP2006018809A (ja) リアルタイムマルチメディア情報の効率的なルーティング
US8121057B1 (en) Wide area voice environment multi-channel communications system and method
US20140160996A1 (en) System and method for decentralized voice conferencing over dynamic networks
US20210218932A1 (en) Video conference server capable of providing video conference by using plurality of terminals for video conference, and method for removing audio echo therefor
KR100426752B1 (ko) 무선 통신 시스템 내에서의 전송
US7058026B1 (en) Internet teleconferencing
JPH0537655A (ja) 音声多地点通信方式
JP2007013764A (ja) 映像音声配信システムおよび方法およびプログラム
EP1323286A2 (en) Packet-based conferencing
JP2006060473A (ja) データ通信方法、クライアント、および、データ通信プログラム
JPH09270792A (ja) 多地点テレビ会議システム
KR20020014067A (ko) 압축된 음성 데이터를 이용한 회의 통화 시스템과 이를위한 통화 환경 구축 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040517

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20040817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109