JPH07200424A

JPH07200424A - 音声会議システム及びその制御方法

Info

Publication number: JPH07200424A
Application number: JP6256409A
Authority: JP
Inventors: Keith Barraclough; キース・バーラクロー; Peter R Cripps; ピーター・リチャード・クリップス; Adrian Gay; エイドリアン・ガイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-12-18
Filing date: 1994-10-21
Publication date: 1995-08-04
Anticipated expiration: 2011-09-25
Also published as: JP2537024B2; KR950022401A; TW366633B; KR0133416B1; GB2284968A; EP0659006A2; IN190028B; CN1097231C; GB9325924D0; EP0659006A3; US5539741A; CN1111775A

Abstract

(57)【要約】【目的】ネットワークに接続されて、ネットワークか
ら各々がデジタル音声サンプルのシーケンスを含む多重
音声入力ストリームを受信するコンピュータ・ワークス
テーションを提供する。【構成】コンピュータ・ワークステーションが音声会
議において、ネットワークを介して多重音声入力ストリ
ームを受信する。音声入力ストリームが異なるキューに
記憶され、別々に保持される。各キューからのデジタル
・サンプルは音声アダプタ・カード２８に転送されて出
力される。音声アダプタ・カード２８上のデジタル信号
プロセッサ４６は、各音声ストリームをその固有の重み
パラメータにより乗算し、その後音声ストリームが合計
されて出力される。ユーザは各音声入力ストリームのボ
リュームを独立に見ることができ、重みパラメータの調
整により相対ボリュームを変更することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はネットワーク上で受信さ
れる音声データの多重ストリームのコンピュータ・ワー
クステーションによる処理に関する。

【０００２】

【従来の技術】従来、音声信号は標準のアナログ電話回
線を介して伝送された。しかしながら、ローカル・エリ
ア・ネットワーク（ＬＡＮ）により提供されるロケーシ
ョンの増加及びマルチメディア通信の重要性の増大に伴
い、音声信号を伝送するためにＬＡＮの使用が大きく注
目されている。この作業は例えばD Cohenによる"UsingL
ocal Area Networks for Carrying Online Voice"（pag
e 13-21）及びP Ravasio、R Marcogliese及びR Novares
eによる"Voice Transmission over an EthernetBackbon
e"（page 39-65）で述べられている（両方とも"Local C
omputer Networks"（P Ravasio、G Hopkins及びN Naffa
h編集；北オランダ、１９８２年）に記載）。こうした
方法の基本原理は、第１の端末またはワークステーショ
ンが音声入力信号を規定レート（例えば８ｋＨｚ）によ
りデジタル信号にサンプリングする。多数のサンプリン
グされたデジタル信号（以下単にサンプルという）が次
にデータ・パケットにアセンブルされ、第２の端末にネ
ットワークを介して伝送され、これが次に再度一定のレ
ートにより、サンプルをラウドスピーカその他の再生装
置に供給する。

【０００３】音声データを伝送するためにＬＡＮを使用
する１つの問題は、ネットワークを横断する伝送時間が
変動することである。宛先ノードにおけるパケットの到
来は遅延され不規則である。パケットが不規則に再生さ
れると、これは音声信号の理解度に著しい悪影響を及ぼ
す。従って、ＬＡＮによる音声伝送方式では、受信側に
おいてある程度のバッファリングを使用し、こうした不
規則性を吸収する。オリジナル音声信号と宛先側におけ
る音声出力との間に、自然な対話式双方向通信を困難に
するような余りに大きな遅延を招かないように注意が必
要である（大西洋を横断する従来の電話呼出しの過度な
遅延が聞きずらかったように）。最大許容値よりも遅く
到来するパケットが捨てられるシステムが、B Aldred、
R Bowater及びS Woodmanによる"Adaptive Audio Playou
t Algorithm for Shared PacketNetworks"（IBM Techni
cal Disclosure Bulletine、p 255-257、Vol 36 No 4、
１９９３年４月）で述べられている。バッファリングの
量は捨てられるパケットの数に依存して適切に制御され
る（任意の他の適切な遅延測定が使用可能である）。捨
てられるパケットの数が大きいとバッファリングの度合
いが増加し、捨てられるパケットの数が小さいとバッフ
ァリングの度合いが減少する。バッファのサイズは、再
生レートを一時的に変更することにより変更される（こ
れはピッチに影響し、簡易な技術では無音の期間を検出
し、人為的にそれらを適度に増減する）。

【０００４】音声通信の別の重要な態様は、双方向また
はポイント間の通信とは対照的なマルチポイント通信を
含む会議である。従来のアナログ電話回線上で実施され
る場合、音声会議は各参加者が音声信号を中央ハブに送
信することを要求する。中央ハブは入力信号を混合し、
可能であれば異なるレベル間を調整し、各参加者に他の
全ての参加者からの信号の合計（その参加者のノードか
らの信号を除く）を送信する。米国特許第４６５０９２
９号は、個人が他の参加者の相対ボリュームを調整可能
な集中型ビデオ／音声会議システムを開示する。

【０００５】集中型混合ノードの使用は、しばしばマル
チポイント制御ユニット（ＭＣＵ）として参照され、幾
つかのマルチメディア（音声並びにビデオ）・ワークス
テーション会議システムに組込まれる。例えば、米国特
許第４７１０９１７号は、各参加者が中央混合ユニット
に音声を送信し、そこから音声を受信するマルチメディ
ア会議システムについて述べている。他のマルチメディ
ア会議システムが、KWatabe、S Sakata、K Maeno、H Fu
kuoka及びT Ohmoriによる"Distributed Multiparty Des
ktop Conferencing System：MERMAID"（CSCW '90（Proc
eeding of theconference on Computer-Supported Coop
erative Work、１９９０年、Los Angeles）、p27-38）
及びE Addeo、A Gelman及びA Dayaoによる"Personal Mu
ltimedia Multipoint Communications Services for Br
oadband Networks"（Vol 1、IEEE GLOBECOM、１９８８
年）で述べられている。

【０００６】しかしながら、集中型ＭＣＵまたは合計ノ
ードの使用は幾つかの欠点を有する。第１に、ほとんど
のＬＡＮのアーキテクチャはピア・ツー・ピアの構成を
基本とするので、明らかな中央ノードが存在しない。更
にシステムは、会議を動作するために指定される中央ノ
ードの継続的使用可能性に総合的に依存する。エコー抑
制の問題も存在する（中央ノードはあるノードにプレイ
バックされる合計信号内に、そのノードからの音声信号
を含まないように注意しなければならない）。

【０００７】これらの問題は分散音声会議システムの使
用により回避され、そこでは各ノードは会議に参加する
あらゆる他のノードから、別々の音声信号を受信する。
米国特許第５１２７００１号はこうした分散システムに
ついて述べており、ネットワークを横断するパケットの
変動する通過時間により生じる同期問題に触れている。
米国特許第５１２７００１号は、各出所ノードからの入
力音声パケットの別々のキューを保持することにより、
この問題を克服する。これらはポイント間通信において
上述されたのと同様の方法により、到来時刻におけるジ
ッタ（遅れ）を効果的に吸収する。規則的な間隔におい
て、各キューから１パケットが読出されることにより音
声パケットのセットが読出され、再生のために合計され
る。

【０００８】音声会議システムの１つの問題は、上述の
MERMAID システムにおいて発見されるように、任意の瞬
間において誰が話しているかを決定することである。米
国特許第４８９３３２６号は、各ワークステーションが
そのユーザが話しているかどうかを自動的に検出するマ
ルチメディア会議システムについて述べている。この情
報は次に中央制御ノードに供給され、中央制御ノードは
各参加者が現話し手を彼らの画面上で見ることができる
ようにビデオを交換する。こうしたシステムはビデオ及
び音声機能の両方の動作を要求し、更に中央ビデオ交換
ノードに頼るため、完全な分散システムでは使用するこ
とができない。

【０００９】分散マルチメディア会議システムが、H Ta
nigawa、T Arikawa、S Masaki 及びK Shimamuraによる"
Personal Multimedia-Multipoint Teleconference Syst
em"（IEEE INFOCOM 91、Proceedings Vol 3、p1127-113
4）で述べられている。このシステムは、会議参加者か
らのビデオ信号を含むウィンドウが画面を横断して右か
ら左に移動される時、対応する音声信号の見掛けの出所
が同様に移動するというステレオ・ワークステーション
のための音の局所化を実現する。このアプローチは、話
し手の識別に対する限られた支援を提供する。より包含
的な機構が特開平０２−第１２３８８６号で述べられて
おり、そこでは音の出所のビデオを含む近傍のウィンド
ウに関連する出力音声レベルを示すために、棒グラフが
使用される。

【００１０】

【発明が解決しようとする課題】この様に、従来技術は
様々な音声会議システムについて述べている。従来の集
中型電話音声会議は普及しており、技術的観点からはよ
く理解されているが、デスク・トップ環境における音声
会議の性能を向上させるためには、実施されなければな
らない多くの課題が残っている。

【００１１】

【課題を解決するための手段】従って、本発明はネット
ワークに接続し、ネットワークから各々がデジタル音声
サンプルのシーケンスを含む多重音声入力ストリームを
受信するコンピュータ・ワークステーションを提供す
る。このワークステーションは各音声入力ストリームか
らのデジタル音声サンプルを別々のキューに記憶する手
段、各キューから１つずつのデジタル音声サンプルを含
むセットのシーケンスを形成する手段、各音声入力スト
リームが関連する重みパラメータを有し、デジタル音声
サンプルの各セットの加重合計を生成する手段、加重合
計のシーケンスから音声出力を生成する手段を含み、ユ
ーザ入力に応答して多重音声ストリームの音声出力内の
相対ボリュームを制御するために、前記重みパラメータ
を調整する手段により特徴化される。

【００１２】本発明は、各ノードが他の全ての参加者か
ら別々の音声ストリームを受信する分散ネットワーク上
の音声会議の提供が、従来の集中型会議システムにおい
て大きな困難とコストを費やして達成された付加的機能
を、自然に可能とすることを認識する。特に各ユーザは
自身の好みにより、他の全ての参加者の相対ボリューム
を調整可能である。これは例えば会議の特定の局面に注
目する場合、或いは言語問題などにおいて非常に有望で
ある（例えば、ある人間が他人が理解できないような強
いアクセントを有していたり、会議が同時通訳を有する
場合など）。更に会議中にも、本システムはユーザ入力
に応答して異なる参加者の相対ボリュームを変更する。
この制御を可能とするために、入力音声信号が別々に保
持され、それらの出所に従い異なるキューに配置され
（キューは物理的には隣接していたり結合されたりする
が、論理的には別々の記憶である）、その後、適切なボ
リューム制御ファクタにより重み付けされる。次にそれ
らは最終音声出力を生成するために結合される。本発明
は、分散音声会議システムが相対ボリュームの個々の制
御の提供に特に好適であることを認識する。

【００１３】好適には、ワークステーションは更に、各
前記音声入力ストリームが現在無音かどうかを示すビジ
ュアル指示を提供する手段を含む。これは音声会議にお
いて認識される１つの問題、すなわち誰が話しているか
を特定する問題を克服する。ビジュアル指示は単に、点
灯または等価機構によるオン／オフ標識の特定の形態や
音声入力ストリームの起点のビジュアル表現（例えば参
加者の肖像）の輝度を変化させる（例えば低輝度に切換
える）ことも考えられるが、好適な実施例では、各前記
音声入力ストリームに対して、その音声ストリーム内の
瞬時音響ボリュームを示す表示により実現される。換言
すると、表示は関連する参加者のボリュームの完全な指
示を提供する。ボリューム出力はデジタル音声サンプル
のシーケンスからの２乗平均平方根値（ｒｍｓ：root-m
ean-square）にもとづき計算されるか、プロセッサ能力
が限られている場合には、所定サンプル数内の最大デジ
タル音声値などの単純なアルゴリズムが使用される。一
般に、入力音声データは各々が所定数のデジタル音声サ
ンプルを含むブロック単位で到来し、前記ビジュアル指
示が音声データの各新たなブロックに対応して更新され
る。ボリューム値は通常、ブロック単位で計算される。

【００１４】前記ビジュアル指示が、ビデオ画像または
静止画像などのその音声入力ストリームの起点のビジュ
アル表現の近傍に表示されることが望ましい。前者は完
全なマルチメディア会議ネットワークを要求し、後者は
ビデオ信号の伝送をサポートすることのできない低い帯
域幅ネットワーク上で提供される。こうしたビジュアル
指示は、静的或いは動的に関わらず、任意の音声の出所
の識別を容易にする。

【００１５】好適には、ワークステーションは更に、ユ
ーザに前記重みパラメータの値のビジュアル指示を提供
する手段を含み、該手段はユーザのマウス・オペレーシ
ョンに応答して前記重みパラメータを調整する。これは
スクロール・バーなどとして実現され、各音声入力スト
リームに対して１つのスクロール・バーが対応し、その
ストリームの出力ボリュームのビジュアル指示の近傍に
配置される。更にコンピュータ・ワークステーション
が、前記多重音声入力ストリームの任意のストリームか
らの音声出力を禁止する手段を含むことが便利である。
これによりユーザは、各音声入力ストリームに対するボ
リューム制御の完全なセットを効果的に提供される。

【００１６】本発明は更に、各々がデジタル音声サンプ
ルのシーケンスを含む多重音声入力ストリームを受信す
るためにネットワークに接続されるコンピュータ・ワー
クステーションを動作する方法を提供する。この方法
は、各音声入力ストリームからのデジタル音声サンプル
を別々のキューに記憶するステップ、各キューから１つ
ずつのデジタル音声サンプルを含むセットのシーケンス
を形成するステップ、各音声入力ストリームが関連する
重みパラメータを有し、そのパラメータからデジタル音
声サンプルの各セットの加重合計を生成するステップ、
加重合計のシーケンスから音声出力を生成するステップ
を含み、ユーザ入力に応答して多重音声ストリームの音
声出力における相対ボリュームを制御するために、前記
重みパラメータを調整するステップにより特徴化され
る。

【００１７】

【実施例】図１はコンピュータ・ワークステーションＡ
乃至Ｅがローカル・エリア・ネットワーク（ＬＡＮ）２
内でリンクされる様子を示す。これらのワークステーシ
ョンは多方向会議に参加し、それにより各ワークステー
ションがその音声信号を、会議に参加する全ての他のワ
ークステーションに同報通信する。各ワークステーショ
ンはあらゆる他のワークステーションから別々の音声信
号を受信する。図１に示されるネットワークはトークン
・リング・アーキテクチャを有し、そこではトークンが
ワークステーションを循環する。現在トークンを所持す
るワークステーションだけが、メッセージを別のワーク
ステーションに伝送することを許可される。リングを循
環してメッセージを伝送する物理伝送時間は極めて短
い。換言すると、例えばＡにより伝送されるメッセージ
は、他の全ての端末によりほぼ同時に受信される。これ
はトークン・システムが同時にメッセージを伝送しよう
とする２つのノードから生じる衝突を阻止するために使
用されるからである。

【００１８】以降で詳述されるように、ＬＡＮ上におけ
る単方向音声通信は、通常、６４ｋＨｚの帯域幅を必要
とする。図１の会議では、各ノードはその音声信号を他
の４つのノードに同報通信し、これは全体で１．２８Ｍ
Ｈｚ（５×４×６４ｋＨｚ）の帯域幅を要求することを
意味する。これはたまたま、４Ｍｂｉｔ／秒または１６
Ｍｂｉｔ／秒の伝送レートをサポートする標準のトーク
ン・リングの能力内に入るが、より大きな会議では帯域
幅要求が問題となり、より高い帯域幅の提供が期待され
る将来のネットワークに対応することができない。

【００１９】本発明は音声会議をサポートするために必
要な帯域幅、待ち時間などに関する技術的要求が満足さ
れれば、トークン・リング以外の多くの異なるネットワ
ーク・アーキテクチャまたは構成において実現される。

【００２０】図２は、図１のネットワークにおいて使用
されるコンピュータ・システムを単純化して表す図であ
る。コンピュータはシステム・ユニット１０、表示画面
１２、キーボード１４及びマウス１６を有する。システ
ム・ユニット１０はマイクロプロセッサ２２、半導体メ
モリ（ＲＯＭ／ＲＡＭ）２４、及びデータが転送される
バス２６を含む。図２のコンピュータは、例えばＩＢＭ
ＰＳ／２コンピュータなどの任意の従来のワークステ
ーションである。

【００２１】図２のコンピュータには２つのアダプタ・
カードが装備される。１つはトークン・リング・アダプ
タ・カード３０である。このカードは付随のソフトウェ
アと共に、図１に示されるトークン・リング・ネットワ
ークとの間のデータの送受信を可能とする。トークン・
リング・カードのオペレーションは既知であり、ここで
は詳細に述べない。第２のカードは音声カード２８であ
り、これは音声入力及び出力のために、マイクロフォン
及びラウドスピーカ（図示せず）に接続される。

【００２２】音声カードが図３に詳細に示される。図示
され、この特定の実施例で使用されるカードは、ＩＢＭ
から提供されるＭ−ウェーブ・カード（M-Wave card ）
であるが、類似の機能を実行する他のカードも使用可能
である。このカードは、接続されるマイクロフォン４０
からの入力音声信号をデジタル化するＡ／Ｄ変換器４２
を含む。Ａ／Ｄ変換器はＣＯＤＥＣ４４に接続され、こ
れは入力音声信号を４４．１ｋＨｚのレートで１６ビッ
ト・サンプルにサンプリングする（コンパクト・ディス
クの標準サンプリング・レート／サイズに対応）。デジ
タル化されたサンプルは次にダブル・バッファ４８を介
して、カード上のデジタル信号プロセッサ（ＤＳＰ）４
６にパスされる（すなわちＣＯＤＥＣがサンプルをダブ
ル・バッファの一方にロードし、その間に他方のバッフ
ァから以前のサンプルを読出す）。ＤＳＰはカード上の
半導体メモリ５２に記憶される１つ以上のプログラムに
より制御される。データはＤＳＰにより主ＰＣバスとの
間で転送される。

【００２３】プレイアウトされる音声信号は、ＤＳＰ４
６によりＰＣバス２６から受信され、マイクロフォンか
らの音声入力とは逆に処理される。すなわち、出力音声
信号がＤＳＰ４６及びダブル・バッファ５０を介してＣ
ＯＤＥＣ４４にパスされ、そこからＤ／Ａ変換器５４
に、そして最後にラウドスピーカ５６または他の適切な
出力装置にパスされる。

【００２４】図示の特定の実施例では、ＤＳＰは標準の
再サンプリング技術を使用することにより、ＣＯＤＥＣ
からの１６ビット、４４．１ｋＨｚサンプリング・レー
トのサンプルをＣＣＩＴＴ標準Ｇ．７１１に対応する８
ｋＨｚサンプリング・レート、及びμ法則スケール（μ
−law scale ）（実際には対数）による８ビット・サン
プルを有する新たなデジタル信号に変換するようにプロ
グラムされる。他の端末への伝送のためにワークステー
ションにパスされる信号の総帯域幅は、従って６４ｋＨ
ｚである。ＤＳＰはまたＰＣから受信される入力信号に
対して、逆の変換を実行する。すなわち再度既知の再サ
ンプリング技術により、信号を８ビット、８ｋＨｚから
１６ビット、４４．１ｋＨｚに変換する。２つのサンプ
リング形式間のこの変換は、ハードウェアの特定の選択
のためにのみ必要であり、本発明には直接的な関係を有
さない。例えば、多くの他の音声カードが８ｋＨｚ形式
の固有のサポートを含み、それによりＣＯＤＥＣがＧ．
７１１形式に従い８ｋＨｚで動作可能となる。（代わり
に、４４．１ｋＨｚのサンプルがネットワーク上の伝送
のために保持されてもよい。しかしながら、伝送される
音声信号に対してＣＤ品質を要求する特定のニーズが存
在しない場合、より高い帯域幅及び多大な処理スピード
の向上に対する要求が、これを非現実的なものとする。
通常の音声通信では、Ｇ．７１１形式の６４ｋＨｚの帯
域幅信号で十分である。）

【００２５】データは音声アダプタ・カードとワークス
テーションとの間で、６４バイトのブロックにより転送
される。すなわち、これは８ｋＨｚでサンプリングされ
る８ビット・データの８ｍｓ間の音声データに対応す
る。ワークステーションは次にデータの全体ブロックだ
けを処理し、ワークステーションにより送受信される各
データ・パケットは、通常、単一の６４バイト・ブロッ
ク・データを含む。ブロック・サイズに対する６４バイ
トの選択は、システムの細分性（遅延を導出する）の最
小化と、ワークステーションにおける内部処理及びネッ
トワーク上の伝送の両者における効率維持との間の妥協
点である。他のシステムでは、例えば３２バイトまたは
１２８バイトのブロック・サイズがより好適であったり
する。

【００２６】音声データの伝送に関するコンピュータ・
ワークステーションのオペレーションは、従来技術にお
いて既知であり、ここでは詳細には述べない。実質的
に、音声カードがマイクロフォンまたは、例えばコンパ
クト・ディスク・プレーヤなどの他の音声源からアナロ
グ形式で入力信号を受信し、デジタル音声データのブロ
ックを生成する。これらのブロックが次にワークステー
ションの主メモリに転送され、そこからＬＡＮアダプタ
・カードに転送される（幾つかのアーキテクチャでは、
ワークステーション・メモリを介さずにブロックを音声
アダプタ・カードから直接ＬＡＮアダプタ・カードに転
送することが可能である）。ＬＡＮアダプタ・カード
は、出所ノード及び宛先ノードを識別するヘッダ情報と
一緒に、デジタル音声データを含むデータ・パケットを
生成し、このパケットが次にネットワークを介して所望
の受信側に伝送される。任意の双方向通信または多方向
通信において、この伝送処理は以下で述べられる受信処
理と同時に、ワークステーションにおいて実行されるこ
とが理解されよう。

【００２７】音声データ・パケットの受信に関するコン
ピュータ・ワークステーションによる処理が、図４に表
される。新たなパケットが到来する度に（ステップ４０
２）、ＬＡＮアダプタ・カードはワークステーション内
のマイクロプロセッサ上で実行されるプログラムに通知
し、データ・パケットの出所を識別するプログラムに情
報を提供する。プログラムは次に入力６４バイト音声ブ
ロックを主メモリ内のキューに転送する（ステップ４０
４）。図５に示されるように、主メモリ５００内のキュ
ーは、実際には各異なる出所ノードからの音声ブロック
を含む別々のサブキューのセットから構成される。１つ
のキューはある出所ノードからの音声ブロックを含み、
別のキューは別の出所ノードからの音声ブロックを含
む。図５では３つのサブキュー５０１、５０２、５０３
が存在し、それぞれノードＢ、Ｃ及びＤからの音声デー
タに対応する。サブキューの数は、もちろん音声会議の
参加者数に従い変化する。プログラムは各受信パケット
内の出所ノード識別情報を使用し、入力音声データのブ
ロックを正しいキューに割当てる。ポインタＰ_B、Ｐ_C及
びＰ_D はキューの終りの位置を示し、新たなパケットが
追加される度に更新される。パケットはその後の処理の
ために、サブキューのボトム（図５では"出力"と示され
る）から取り出される。図５のサブキューは、従って実
質的には標準の先入れ先出し（ＦＩＦＯ）キューであ
り、従来のプログラミング技術により実現される。多重
（並列）キューのサポートを除いては、これまでに述べ
てきた入力音声ブロックの処理は以前の方法と類似であ
り、必要に応じて個々のサブキューまたは結合キュー全
体として、等価のバッファリング技術の使用を可能とす
る。

【００２８】音声アダプタ・カード上のＤＳＰにより実
行されるオペレーションが図６に表される。ＤＳＰはサ
イクル実行され、連続音声出力信号を保証するために、
８ミリ秒（ｍｓ）毎に音声ブロックの新たなセットを処
理する。ＤＳＰは８ｍｓ毎にＤＭＡアクセスにより、異
なるノードに対応する各サブキューから１つずつの音声
ブロックを読出す。すなわち、図５に示されるキュー
Ｂ、Ｃ及びＤのボトムから１ブロックが読出される（ス
テップ６０２：すなわちこの場合はＭ＝３）。これらの
ブロックは同時時間間隔を表すものとして処理され、最
終出力では、その時間間隔に対応する単一音声出力を生
成するために一緒に加算される。ＤＳＰは従って、多重
音声入力ストリームに対して、デジタル混合機能を効率
的に実行する。ルックアップ・テーブルを使用すること
により、６４バイト・ブロック内の個々のサンプルが、
次にＧ．７１１形式（実質的には対数）からリニア・ス
ケールに変換される（ステップ６０４）。各個々のサン
プルは次に重みパラメータにより乗算される（ステップ
６０６）。各受信音声データ・ストリームに対して、別
々の重みパラメータが存在する。すなわち、図５の３つ
のサブキューに対して、ノードＢからの音声ストリーム
に対して１個、ノードＣからの音声ストリームに対して
１個、またノードＤからの音声ストリームに対して１個
の重みパラメータが存在する。重みパラメータは異なる
出所からの音声信号の相対ラウドネス（音の大きさ）を
制御するために使用される。

【００２９】ＤＳＰは各音声ストリームの２乗平均平方
根値（ｒｍｓ）の記録を保持する（ステップ６０８）。
通常、こうしたｒｍｓ値は、音声データの各ブロック
（すなわち８ｍｓ毎）に対して、そのブロック内の値の
２乗の合計を生成することにより求められる。ｒｍｓ値
は個々の音声入力ストリームのボリュームを表し、後述
のように、ユーザにボリューム情報を提供するために使
用される。

【００３０】デジタル音声サンプルが適切な重みパラメ
ータにより乗算されると（ステップ６０６）、それらは
合計される（ステップ６１０；これはステップ６０６の
処理と並列に効果的に発生する）。こうして多重入力音
声ストリームの加重合計を表すデジタル音声サンプルの
単一のシーケンスが生成される。デジタル音声サンプル
のこのシーケンスは、次に最大４４．１ｋＨｚで再サン
プリングされ（ステップ６１２；上述したように、これ
はハードウェア依存であり、本発明には直接関係しな
い）、その後、ラウドスピーカに供給するためにＣＯＤ
ＥＣにパスされる（ステップ６１４）。

【００３１】ボリューム調整信号を生成するために使用
される実際のＤＳＰ処理は、図６に示される処理と結果
としては類似であるが、多少異なった形態を有する。こ
うした変更は通常、計算効率を最大化するために、或い
はＤＳＰに対する要求を低減するために導入される。例
えばプロセッサ能力が限られている場合、ボリューム制
御はμ法則形式からの変換において実行される。正しい
ルックアップ値が探し出された後（ステップ６０４）、
信号のボリュームがその通常の値から増加または減少さ
れるかに従い、テーブルを所定箇所数、上下に移動する
ことにより、実際の読出し値が決定される。この場合、
重みパラメータは事実上、ルックアップ・テーブルを調
整するために上下に移動するステップ数に相当する（こ
れは明らかに、Ｇ．７１１形式がオリジナル振幅の正負
に従いそれらを分離し、ボリューム調整が逆の極性に変
換できない事実を考慮する）。前記アプローチは計算的
に単純であるが、連続的なボリューム制御ではなく、連
続的でないボリューム制御だけを提供する。代わりにμ
法則値にボリューム制御値または重みパラメータの対数
を加算することも可能である。このアプローチはステッ
プ６０４のスケール変換に先立ち、ステップ６０６の乗
算を対数加算により効果的に実行する。加算はほとんど
のプロセッサにおいて、乗算よりも計算機使用上安価で
ある。そして、この結果が次に、他の音声ストリームと
の混合のために、リニア・スケールに変換し戻される
（ステップ６０４）。このアプローチは、ルックアップ
・テーブルが十分に詳細に作成されれば、精密なボリュ
ーム制御を可能とする（但し、出力は１６ビットに制限
される）。通常、重みパラメータの対数がルックアップ
・テーブルから獲得されるか、制御アプリケーションに
より既に対数の形式で提供される。もちろん、ボリュー
ム制御の調整時に新たな数値の計算が必要となるだけで
あり、この計算は比較的稀である。

【００３２】同様に、使用可能な処理能力が連続的ｒｍ
ｓボリューム測定を実行するのに不十分な場合には、処
理はあらゆる他のデータ・ブロックに対して実行される
か、例えば連続サンプル間の差の絶対値を合計するよう
な計算的に単純なアルゴリズムが使用される。ここで２
乗値の合計はステップ６０４に先立ち（すなわちスケー
ル変換以前に）、対数加算により実行される。より単純
なアプローチでは、単に任意の音声ブロック内の最大サ
ンプル値をボリューム標識として使用する。

【００３３】図７は、音声会議に参加するユーザのワー
クステーションに提供される画面７００を示す。今まで
述べてきたように、これは３つの異なる音声データ・ス
トリームの受信を含む。但し、本発明が３人の参加者に
限るものではないことは明らかである。図７の画面は破
線により３つの領域７０１、７０２、７０３に分割さ
れ、各領域が１人の参加者を表す。しかしながら、実際
にはこれらの破線は画面上には現れない。各参加者に関
連して、参加者の名前（この例では単純にＢ、Ｃ、Ｄと
する）を含むボックス７２４が存在する。また音声と共
にネットワーク上を伝送される音声源のビデオ画像、或
いは静止ビット・マップ（いずれも会議の開始時に音声
源により提供されるか、既にワークステーションに局所
的に存在し、その参加者の名前に応答して表示される）
を含むためのイメージ・ウィンドウ７２０が存在する。
参加者Ｄの場合には、ビデオ画像または静止画像が有効
でなく、空白ウィンドウが示される。イメージ・ウィン
ドウ内の表示の選択（空白、静止画像またはビデオ画
像）は、ワークステーションにおいて使用可能なハード
ウェア、ネットワークの帯域幅、及び関連情報の使用可
能性に依存する。

【００３４】イメージ・ウィンドウの下方にはボリュー
ム表示７２１（ＶＵメータ）が存在し、その音声ストリ
ームの瞬時ボリューム（図６のブロック６０８で計算さ
れる）を示す。この表示内の実線の長さは、音声ストリ
ームのボリュームを示す。その参加者からの音声信号が
存在しない場合、実線は０長を有する（すなわち表示さ
れない）。ユーザは従って、誰のＶＵメータがアクティ
ブかを見ることにより、会議で発言している人間を判断
することができる。

【００３５】ボリューム表示の下には、ボリューム制御
バー７２２が存在し、ユーザはその参加者の相対ボリュ
ームを調整することができる。これはボリュームを増加
または減少するために、ユーザがバーの端に位置する"
＋"または"−"ボタンをそれぞれ押すことにより達成さ
れる。これはデジタル混合において使用される重みパラ
メータを増減する効果を有する。ボリューム制御バーの
中央の標識は、現在のボリューム設定（すなわち重みパ
ラメータの現在値）を表す。

【００３６】最後に、名前ボックス７２４の隣にはマウ
ス・ボタン７２３が存在する。このボタンを押すと、そ
の参加者からの音声出力を交互に許可及び禁止する。音
声出力が禁止されると重みパラメータが０にセットさ
れ、許可されると重みパラメータがその以前の値に復元
される（すなわちボリューム制御バー上に示される）。
参加者からの音声が現在禁止状態であると、これが無音
ボタン上にスーパインポーズされる十字形により示され
る（図７では３つの全ての音声出力が現在許可されてい
る）。ここで上述のＤＳＰ処理によれば、音声出力が禁
止されて無音ボタンがオンの時、ＶＵメータは０を示
す。必要に応じＶＵメータが音声出力が実際に許可され
ている時に生成される信号レベルを示すように、システ
ムを変更することが、より直接的である。

【００３７】図８は、図７のユーザ・インタフェースを
提供するために、図２のワークステーション上で実行さ
れる主ソフトウェア・コンポーネントを表す。ワークス
テーションは、例えばマイクロソフト社から提供される
ウィンドウズなどのオペレーティング・システム８１４
により制御される。ワークステーション上には更に、Ｌ
ＡＮ通信を可能とする適切な通信ソフトウェア８１６が
存在する（幾つかの場合では、通信ソフトウェアがオペ
レーティング・システムに効果的に含まれる）。オペレ
ーティング・システム及び通信ソフトウェアは既知のよ
うに、デバイス・ドライバ８１８を介して、２つのアダ
プタ・カード、すなわちトークン・リング・アダプタ・
カード及び音声アダプタ・カードと対話する。音声の全
体処理はアプリケーション８１０により制御される。こ
れはアプリケーション・サポート層８１２の機能を使用
し、こうした１例にマイクロソフト社から提供されるビ
ジュアル・ベーシック（Visual Basic）がある。アプリ
ケーション・サポート層の目的は特にユーザ・インタフ
ェースに関し、アプリケーションの開発を容易にするこ
とであるが、もちろんアプリケーションが直接オペレー
ティング・システムと共に動作することも可能である。

【００３８】アプリケーションは既知のプログラミング
技術により、ウィンドウ・ボックス７２０内の内容を制
御する。例えば、ＶＵメータ７２１はビジュアル・ベー
シックにより提供される機能を使用して提供される。ビ
ジュアル・ベーシックはメータに関連する全てのグラフ
ィックスの役割を効果的に担う。すなわち、アプリケー
ションが実行すべきことは、関連する数値を供給するこ
とだけである。ビジュアル・ベーシックは割込み駆動で
あるので、これはＤＳＰが音声ブロックに対応する出力
ボリュームをワークステーションにコピーし、次に割込
みを呼出すことにより容易に達成される。割込みはアプ
リケーションにイベントを生成し、それに対してＶＵメ
ータにコピーされる新たな出力ボリュームを通知する。
実際に、割込みは音声ブロックのセットに対するボリュ
ーム読出しの完全なセット、すなわち各音声ストリーム
に対して１つのボリュームの読出しの使用可能性を伝え
るために使用される。（ＤＳＰはネットワークへの伝送
のためにそのワークステーションにおいて生成される出
力音声信号に関連して、既に１音声ブロック当たり１割
込みを実行する。）同様にボリューム制御バー７２２も
またビジュアル・ベーシックにおいて提供される機構で
ある（"スクロール・バー"と称される）。ビジュアル・
ベーシックは制御バーに関連する全てのグラフィックス
を扱い、そうしたものの中にはセレクタの位置が含ま
れ、またボリュームがユーザにより更新される度に、ア
プリケーションに更新されたボリューム値をパスする。
アプリケーションは次にこの更新値をＤＳＰに書込み、
それに従いボリュームが変更される。無音ボタン７２３
はビジュアル・ベーシックにより提供される別の表示機
構であり、各音声ストリームの単純なオン／オフ制御を
可能とする。無音ボタンが活動化される度に、アプリケ
ーションは重みパラメータの前の値を記憶する必要があ
る。それにより、無音ボタンが次に押される時にこの値
が復元される。

【００３９】上述のユーザ・インタフェースに関する多
くの変更が可能であることが理解されよう。例えばＶＵ
メータがセグメント化されたり、アナログ・レベル・メ
ータにより置換される。より単純なアプローチでは、参
加者からの音声出力の有無に応答して、色を変えるだけ
のオン／オフ標識であったりする。ボリューム制御機能
はダイアルを用いて、或いは２つのプッシュ・ボタンで
はなく、ドラッグ・アンド・ドロップ・スライダにより
実現される。無音ボタンがボリューム制御バーに組込ま
れてもよい。こうした変更は当業者のプログラミング能
力の範囲内において可能である。

【００４０】上述のシステムでは、ユーザは各音声入力
ストリームのボリューム制御を効果的に制限されるが、
他のシステムでは、ユーザは頻繁な周波数制御（すなわ
ち高音部及び基本調整）などのより高度な制御を提供さ
れる。これはＤＳＰが時間領域内の音声信号をＦＩＲま
たはＩＩＲフィルタにより乗じることにより、比較的容
易に実現される。周波数制御は図７のボリューム制御バ
ーに類似の方法によりユーザに表現され、周波数制御の
変更はＦＩＲまたはＩＩＲフィルタ係数の適切な変化を
生成する。これらの高度な制御は、例えばＧ．７１１で
はなくＧ．７２１音声伝送標準を使用するシステムの場
合のように、ネットワーク上を伝送される音声信号の品
質が向上するにつれ、ますます要望される。

【００４１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４２】（１）ネットワークに接続されて、該ネッ
トワークから各々がデジタル音声サンプルのシーケンス
を含む多重音声入力ストリームを受信するコンピュータ
・ワークステーションであって、各音声入力ストリーム
からのデジタル音声サンプルを別々のキューに記憶する
手段と、各キューから１つずつのデジタル音声サンプル
を含むセットのシーケンスを形成する手段と、各音声入
力ストリームが関連する重みパラメータを有し、デジタ
ル音声サンプルの各セットの加重合計を生成する手段
と、加重合計のシーケンスから音声出力を生成する手段
とユーザ入力に応答して、多重音声ストリームの音声出
力内の相対ボリュームを制御するために、前記重みパラ
メータを調整する手段と、を含む、コンピュータ・ワー
クステーション。（２）各前記音声入力ストリームが現在無音かどうかを
示すビジュアル指示を提供する手段を含む、前記（１）
記載のコンピュータ・ワークステーション。（３）前記ビジュアル指示が各前記音声入力ストリーム
の瞬時音響ボリュームを示す、前記（２）記載のコンピ
ュータ・ワークステーション。（４）前記ビジュアル指示が、各前記音声入力ストリー
ムの起点のビジュアル表現の近傍に表示される、前記
（２）または（３）記載のコンピュータ・ワークステー
ション。（５）各前記音声入力ストリームに対して、デジタル音
声サンプルのシーケンスから走行２乗平均平方根値を生
成する手段を含む、前記（３）または（４）記載のコン
ピュータ・ワークステーション。（６）入力音声データが各々が所定数のデジタル音声サ
ンプルを含むブロック単位で到来し、前記ビジュアル指
示が音声データの各新たなブロックに対応して更新され
る、前記（２）乃至（５）のいずれかに記載のコンピュ
ータ・ワークステーション。（７）前記多重音声入力ストリームの任意のストリーム
からの音声出力を禁止する手段を含む、前記（１）乃至
（６）のいずれかに記載のコンピュータ・ワークステー
ション。（８）ユーザに前記重みパラメータの値のビジュアル指
示を提供する手段を含み、該手段はユーザのマウス・オ
ペレーションに応答して、前記重みパラメータを調整す
る、前記（１）乃至（７）のいずれかに記載のコンピュ
ータ・ワークステーション。（９）ネットワークに接続されて、各々がデジタル音声
サンプルのシーケンスを含む多重音声入力ストリームを
受信するコンピュータ・ワークステーションを動作する
方法であって、各音声入力ストリームからのデジタル音
声サンプルを別々のキューに記憶するステップと、各キ
ューから１つずつのデジタル音声サンプルを含むセット
のシーケンスを形成するステップと、各音声入力ストリ
ームが関連する重みパラメータを有し、デジタル音声サ
ンプルの各セットの加重合計を生成するステップと、加
重合計のシーケンスから音声出力を生成するステップ
と、ユーザ入力に応答して、多重音声ストリームの音声
出力における相対ボリュームを制御するために、前記重
みパラメータを調整するステップと、を含む、動作方
法。（１０）各前記音声入力ストリームに対して、該音声ス
トリームの瞬時音響ボリュームを示すビジュアル指示を
提供するステップを含む、前記（９）記載の動作方法。

【００４３】

【発明の効果】以上説明したように、本発明によれば、
ネットワークを介して行われる音声会議において各参加
者はその他の参加者の音声を特定し、コントロールする
ことが可能なコンピュータ・ワークステーションを提供
することができる。

【図面の簡単な説明】

【図１】コンピュータ・ネットワークを表す図である。

【図２】音声会議において使用されるコンピュータ・ワ
ークステーションの単純化したブロック図である。

【図３】図２のコンピュータ・ワークステーション内の
音声アダプタ・カードの単純化したブロック図である。

【図４】入力音声パケットに対して実行される処理を表
す流れ図である。

【図５】プレイアウト待機中の入力音声パケットのキュ
ーを表す図である。

【図６】音声アダプタ・カード上のデジタル信号プロセ
ッサにより実行される処理を表す流れ図である。

【図７】図２のワークステーションのユーザに提供され
る典型的な画面インタフェースを示す図である。

【図８】図２のワークステーション上で実行される主ソ
フトウェア・コンポーネントを示す図である。

【符号の説明】

２ローカル・エリア・ネットワーク（ＬＡＮ）１０システム・ユニット１２表示画面１４キーボード１６マウス２２マイクロプロセッサ２４、５２半導体メモリ２６ＰＣバス２８音声カード３０トークン・リング・アダプタ・カード４２、５４Ａ／Ｄ変換器４４ＣＯＤＥＣ４６デジタル信号プロセッサ（ＤＳＰ）４８、５０ダブル・バッファ５６ラウドスピーカ５００主メモリ５０１、５０２、５０３サブキュー７００画面７２０イメージ・ウィンドウ７２１ボリューム表示ＶＵメータ７２２ボリューム制御バー７２３マウス・ボックス無音ボタン７２４名前ボックス８１０アプリケーション８１２アプリケーション・サポート層８１４オペレーティング・システム８１６通信ソフトウェア８１８デバイス・ドライバ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・リチャード・クリップスイギリス、エス・オー３６ユー・ユー、ハンプシャー、サウスプトン、ロックス・ヒース、メドウ・アベニュー 31 (72)発明者エイドリアン・ガイイギリス、ピィ・オー15 ６エル・イー、ハンプシャー、フェアハム、フェアハム・パーク・ロード 29

Claims

【特許請求の範囲】

【請求項１】ネットワークに接続されて、該ネットワー
クから各々がデジタル音声サンプルのシーケンスを含む
多重音声入力ストリームを受信するコンピュータ・ワー
クステーションであって、各音声入力ストリームからのデジタル音声サンプルを別
々のキューに記憶する手段と、各キューから１つずつのデジタル音声サンプルを含むセ
ットのシーケンスを形成する手段と、各音声入力ストリームが関連する重みパラメータを有
し、デジタル音声サンプルの各セットの加重合計を生成
する手段と、加重合計のシーケンスから音声出力を生成する手段とユ
ーザ入力に応答して、多重音声ストリームの音声出力内
の相対ボリュームを制御するために、前記重みパラメー
タを調整する手段と、を含む、コンピュータ・ワークステーション。
【請求項２】各前記音声入力ストリームが現在無音かど
うかを示すビジュアル指示を提供する手段を含む、請求
項１記載のコンピュータ・ワークステーション。
【請求項３】前記ビジュアル指示が各前記音声入力スト
リームの瞬時音響ボリュームを示す、請求項２記載のコ
ンピュータ・ワークステーション。
【請求項４】前記ビジュアル指示が、各前記音声入力ス
トリームの起点のビジュアル表現の近傍に表示される、
請求項２または３記載のコンピュータ・ワークステーシ
ョン。
【請求項５】各前記音声入力ストリームに対して、デジ
タル音声サンプルのシーケンスから２乗平均平方根値を
生成する手段を含む、請求項３または４記載のコンピュ
ータ・ワークステーション。
【請求項６】入力音声データが各々が所定数のデジタル
音声サンプルを含むブロック単位で到来し、前記ビジュ
アル指示が音声データの各新たなブロックに対応して更
新される、請求項２乃至５のいずれかに記載のコンピュ
ータ・ワークステーション。
【請求項７】前記多重音声入力ストリームの任意のスト
リームからの音声出力を禁止する手段を含む、請求項１
乃至６のいずれかに記載のコンピュータ・ワークステー
ション。
【請求項８】ユーザに前記重みパラメータの値のビジュ
アル指示を提供する手段を含み、該手段はユーザのマウ
ス・オペレーションに応答して、前記重みパラメータを
調整する、請求項１乃至７のいずれかに記載のコンピュ
ータ・ワークステーション。
【請求項９】ネットワークに接続されて、各々がデジタ
ル音声サンプルのシーケンスを含む多重音声入力ストリ
ームを受信するコンピュータ・ワークステーションを動
作する方法であって、各音声入力ストリームからのデジタル音声サンプルを別
々のキューに記憶するステップと、各キューから１つずつのデジタル音声サンプルを含むセ
ットのシーケンスを形成するステップと、各音声入力ストリームが関連する重みパラメータを有
し、デジタル音声サンプルの各セットの加重合計を生成
するステップと、加重合計のシーケンスから音声出力を生成するステップ
と、ユーザ入力に応答して、多重音声ストリームの音声出力
における相対ボリュームを制御するために、前記重みパ
ラメータを調整するステップと、を含む、動作方法。
【請求項１０】各前記音声入力ストリームに対して、該
音声ストリームの瞬時音響ボリュームを示すビジュアル
指示を提供するステップを含む、請求項９記載の動作方
法。