JP3400064B2

JP3400064B2 - 音声符号復号化装置、音声符号化装置及び音声復号化装置

Info

Publication number: JP3400064B2
Application number: JP02933694A
Authority: JP
Inventors: 重信南
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-02-28
Filing date: 1994-02-28
Publication date: 2003-04-28
Anticipated expiration: 2018-04-28
Also published as: JPH07240722A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えばテレビ会議シス
テムやマルチメディア端末の音声系に適用される音声符
号復号化装置、音声符号化装置及び音声復号化装置に関
する。

【０００２】

【従来の技術】図１４に示すテレビ会議システムや図１
５に示すマルチメディア端末の音声系においては、通話
品質の向上やスムーズな通話を実現することが要請され
ている。そのためには、発言者の顔位置に音像を定位
するステレオ音声技術や複数マイクロフォン出力を合成
することにより背景雑音を抑圧するマイクロフォンアレ
イ技術、スピーカ出力がマイクロフォンに入力すること
により発生するエコー感やハウリングを抑圧するエコー
キャンセラ（ＥＣ）の採用等が有効である。

【０００３】ところで、ステレオ音声を実現するシステ
ムとしては、従来の完全ステレオ音声系の他にいわゆる
疑似ステレオ音声系のものがあるが、まず完全ステレオ
音声系のシステムに上述したＥＣの技術を採用した例を
図１６に示す。

【０００４】同図において、１_Rは右チャネルスピー
カ、１_Lは左チャネルスピーカ、２_Rは右チャネルマイ
ク、２_Lは左チャネルマイクをそれぞれ示している。右
チャネルスピーカ１_Rから出力される受信信号は、エコ
ーキャンセラＥＣ_RR及びエコーキャンセラＥＣ_RLに入力
され、左チャネルスピーカＳ_Lから出力される受信信号
は、エコーキャンセラＥＣ_LR及びエコーキャンセラＥＣ
_LLに入力される。加算器３ａにおいて、エコーキャンセ
ラＥＣ_RRの出力とエコーキャンセラＥＣ_LRの出力とが合
成され、減算器４ａにおいて、右チャネルマイク２_Rよ
り入力された送信信号からこの合成信号が差し引かれ
る。また、加算器３ｂにおいて、エコーキャンセラＥＣ
_LLの出力とエコーキャンセラＥＣ_RLの出力とが合成さ
れ、減算器４ｂにおいて、左チャネルマイク２_Lより入
力された送信信号からこの合成信号が差し引かれる。

【０００５】このようなシステムでは、通常のステレオ
音声のサービスをエコー感やハウリングの抑圧を実現し
つつ完全に提供できるが、次のような問題点がある。

【０００６】（１）マイクロフォンの数（＝スピーカの
数）だけの伝送路を必要とするため、ステレオのチャン
ネル数が増大すると、通信コストが増加する。

【０００７】（２）複数のスピーカ・マイクロフォンを
用いているため、反響路の数が複数となり、これにより
エコーキャンセラがマイクロフォンの数とスピーカの数
とを乗算した数だけ必要になり、処理量が増加する。

【０００８】（３）エコーキャンセラが上述した数だけ
必要になるため、決定すべき未知数が増加し、また入力
信号間の相関も増大する。このため、エコーキャンセラ
の収束速度が低下する。

【０００９】一方、疑似ステレオ音声系は例えば図１７
に示すように構成される。

【００１０】同図に示す疑似ステレオ音声系の受信側で
は、受信したモノラル音声信号Ｘ_Rを、左右で特性の独
立な伝達関数（音像定位関数と呼ぶ。）Ｇ_R（Ｚ）及び
Ｇ_L（Ｚ）を介して右チャネルスピーカ１_R及び左チャ
ネルスピーカ１_Lより出力する。音像定位関数Ｇ
_R（Ｚ）及びＧ_L（Ｚ））は、モノラル音声信号Ｘ_Rと
同時に受信した付加情報ｄ_R及び予め指定された情報も
しくはマウス等によりユーザによって指定された情報に
基づいて、聴者に適切なステレオ感を与える（これを疑
似ステレオ音像合成処理と呼ぶ。）。

【００１１】また、送信側では、発言者位置を推定する
ことにより、音源位置情報を得て付加情報ｄ_Sとして送
信モノラル音声Ｘ_sとともに送信する（これを音源位置
推定処理と呼ぶ。）。なお、この音源位置情報を用いて
発言者の口元に指向性を向けるマイクアレイ処理も容易
に併用することができる。

【００１２】上述した疑似ステレオ音像合成処理は、
（１）式に示す音像定位関数Ｇ_R（Ｚ）及びＧ_L（Ｚ）
により左右の耳に到達する直接波音声の利得差・遅延差
を合成して聴者に特定の音像定位を与えるものである。

【００１３】

【数１】また、マイクアレイ処理は、左右の各マイク２_R、２_L
の出力を特性の独立な伝達関数（マイク出力合成関数と
呼ぶ。）Ｆ_Ri（Ｚ）及びＦ_Li（Ｚ）を介した後に合成す
ることにより、特定の発言者から到達する音声のみを強
調して雑音を抑圧する。ここで、マイク出力合成関数Ｆ
_Ri（Ｚ）及びＦ_Li（Ｚ）は、通常、（２）式を用いて左
右のマイクの出力に適切な利得、遅延を与えることによ
り特定の音源位置から到達する音声を強調するように設
定する。

【００１４】

【数２】ここで、疑似ステレオ音声系に適用する音響用エコーキ
ャンセラは、従来のモノラル音声用エコーキャンセラを
用いることができる。

【００１５】この場合、エコーキャンセラＥＣは、図１
７に示すように、受信音声Ｘ_Rの伝送路と送信音声Ｘ_S
の伝送路との間にに挿入される。

【００１６】また、エコーキャンセラから見た総合的な
反響路特性Ｈ(z) は、

【数３】となる。

【００１７】（３）式から明らかなように、スピーカ・
マイク間伝達関数Ｈ_RR（ｚ）、Ｈ_LL（ｚ）、Ｈ
_RL（ｚ）、Ｈ_LR（ｚ）は、音響特性が定常な限り一定で
あるが、音像定位関数や音声合成関数は、音像や発言者
位置が変化すると、その都度変動する。ここで、図１
７に示したように単一のエコーキャンセラＥＣを適用す
ると、反響路特性が頻繁に変動することになり、打ち消
し量が劣化する。

【００１８】本発明者は、この問題点を改善する手法と
して、いわゆる分解合成形エコーキャンセラを提唱し
た。この分解合成形エコーキャンセラの概略を図１８に
基づいて説明する。

【００１９】まず、この分解合成形エコーキャンセラで
は、音像定位関数・マイク出力合成関数の両方が定常な
区間を単位としたｉth区間を考える。

【００２０】ここで、過去４区間のエコーキャンセラＥ
Ｃ（図１８）の推定伝達関数を

【数４】とすると、反響路が定常で、推定が正確であると仮定す
れば、この推定特性は、音像定位関数・マイク出力合成
関数とは独立なスピーカ・マイク間伝達関数

【数５】を用いて以下のように表わすことができる。

【００２１】

【数６】本方式は、このような関係を利用して、単一のエコーキ
ャンセラＥＣで得た複数過去の推定伝達関数をもとに
（５）式に示すスピーカ・マイク間伝達関数を得る。

【００２２】

【数７】なる演算により、ｉ＋１区間のエコーキャンセラＥＣの
係数の初期値を得ることができる。

【００２３】

【発明が解決しようとする課題】このように疑似ステレ
オ音声系には多くの利点があるが、実際のテレビ会議シ
ステムやマルチメディア端末に応用するためには以下の
ような課題が依然として残っている。

【００２４】（１）疑似ステレオ方式は単独発言を前提
としているため、ポイント・ポイント接続のテレビ会議
システムやマルチメディア端末では複数の話者が同時に
発言したときに、またマルチポイント接続のテレビ会議
システムやマルチメディア端末では複数端末で発言が同
時に行われたときに、音像の乱れが発生する。

【００２５】また、本発明者が提唱した分解合成形エコ
ーキャンセラも、疑似ステレオを前提としているため、
複数発言時の対応がなされていない。

【００２６】（２）通常の使用条件では相手端末が疑似
ステレオ方式を採用しているとは限らないため、この場
合は相互接続が困難になる。

【００２７】すなわち、疑似ステレオ、完全ステレオの
両方に柔軟に対応できる音声系の採用が望ましい。

【００２８】（３）上述した分解合成形エコーキャンセ
ラにおいては、（５）式及び（６）式の係数分解・合成
処理は利得制御のみの場合は容易であるが、遅延制御の
場合には一種のフィルタ処理になるため、系の安定性や
実現性が困難になる場合がある。（４）音像定位関数の
変化はマイク合成関数の変化とは異なり、反響路特性の
遅延成分により、過渡的な状態を生成する。このとき、
エコーキャンセラの打ち消し量が一時的に劣化する。

【００２９】そこで、本発明は、上述の課題を解決する
ため、完全ステレオ・疑似ステレオ両面の利点を生かし
た柔軟なテレビ電話・マルチメディア端末等の音声系を
提供することを目的としている。

【００３０】より具体的には、本発明の第１の目的は、
音源が複数発言の場合にも効率的なステレオ音声符号化
を実現できる音声符号復号化装置、音声符号化装置及び
音声復号化装置を提供することにある。

【００３１】本発明の第２の目的は、疑似ステレオ、完
全ステレオの両方に柔軟に対応できる音声符号復号化装
置、音声符号化装置及び音声復号化装置を提供すること
にある。

【００３２】本発明の第３の目的は、分解合成形エコー
キャンセラにおいて系の安定性や実現性を容易にするこ
とができる音声符号復号化装置を提供することにある。

【００３３】本発明の第４の目的は、エコーキャンセラ
の打ち消し量の一時的な劣化を防止することができる音
声符号復号化装置を提供することにある。

【００３４】

【課題を解決するための手段】かかる課題を解決するた
め、請求項１記載の本発明は、相手端末において少なく
とも２チャンネルの音声より得られた第１の複数音声間
の伝達関数の近似情報または発言者位置情報のうち少な
くとも一方である第１の付加情報と、前記第１の複数音
声の和または前記第１の複数音声に遅延もしくは利得を
与えた後の和成分のいずれかである第１のモノラル音声
と、前記第１の複数音声の差または前記第１の複数音声
に遅延もしくは利得を与えた後の差成分のいずれかであ
る第２のモノラル音声とを受信し、前記第１のモノラル
音声と前記第１の付加情報より疑似ステレオ音声を合成
する手段と、前記疑似ステレオ音声と前記第２のモノラ
ル音声より完全ステレオ音声を合成する手段とを有する
復号化部と、少なくとも２チャンネルのマイクより集音
した自端末の第２の複数音声を用い、第２の複数音声間
の伝達関数の近似情報と発言者位置情報のうち少なくと
も一方である第２の付加情報と、前記複数音声の和また
は前記複数音声に遅延もしくは利得を与えた後の和成分
のいずれかである第３のモノラル音声と、前記複数音声
の差または前記複数音声に遅延もしくは利得を与えた後
の差成分のいずれかである第４のモノラル音声を生成す
る符号化部と、前記第１のモノラル音声と前記第３のモ
ノラル音声より前記第３のモノラル音声に含まれる前記
第１モノラル音声のエコー成分を抑圧する第１のエコー
抑圧手段と、前記第２のモノラル音声と前記第４のモノ
ラル音声より前記第４のモノラル音声に含まれる前記第
２のモノラル音声のエコー成分を抑圧する第２のエコー
抑圧手段とを具備する。

【００３５】請求項２記載の本発明は、請求項１記載の
音声符号復号化装置において、前記第１のエコー抑圧手
段は、付加情報を用い過去の複数の推定伝達関数より新
たな付加情報に対応する推定伝達関数の初期値を設定す
る疑似ステレオ用エコーキャンセラ方式が用いられてい
る。

【００３６】請求項３記載の本発明は、請求項１記載の
音声符号復号化装置において、前記第２のエコー抑圧手
段は、付加情報を用い過去の複数の推定伝達関数より新
たな付加情報に対応する推定伝達関数の初期値を設定す
る疑似ステレオ用エコーキャンセラ方式が用いられてい
る。

【００３７】請求項４記載の本発明は、少なくとも２チ
ャンネルの音声より前記音声間の伝達関数の近似情報ま
たは発言者位置情報のうち少なくとも一方を得る手段
と、前記各音声間の伝達関数の近似情報または発言者位
置情報のうち少なくとも一方の情報を用いて左右の音声
に利得または遅延のうち少なくとも一方を与えるマイク
アレイ手段と、前記マイクアレイ手段により出力された
音声を加算する手段と、前記マイクアレイ手段により出
力された音声を減算する手段とを具備する。

【００３８】請求項５記載の本発明は、少なくとも２チ
ャンネルの音声より得られた複数音声間の伝達関数の近
似情報と発言者位置情報の少なくともいずれか一方であ
る付加情報と、前記複数音声の和または前記複数音声に
遅延もしくは利得を与えた後の和成分のいずれかである
第１のモノラル音声より疑似ステレオ音声を合成する手
段と、前記複数音声の差または前記複数音声に遅延もし
くは利得を与えた後の差成分のいずれかである第２のモ
ノラル音声を用いて完全なステレオ音声を合成する手段
とを具備する。

【００３９】請求項６記載の本発明は、少なくとも２チ
ャンネルのステレオ音声を入力し、各ステレオ音声の和
成分、差成分、およびステレオ音声間の相関情報もしく
は、その近似情報を送出することを特徴とする。

【００４０】請求項７記載の本発明は、請求項６記載の
ステレオ音声符号化方式において、少なくとも２チャン
ネルのステレオ音声を入力し、各ステレオ音声の相関情
報に基づいて各ステレオ音声に遅延差・利得差の少なく
とも一方の処理を施した後、処理後の各ステレオ音声の
和成分、差成分、およびステレオ音声間の相関情報もし
くは、その近似情報を送出することを特徴とする。

【００４１】請求項８記載の本発明は、受信した各ステ
レオ音声の和成分、差成分、およびステレオ音声間の相
関情報もしくは、その近似情報をもとにステレオ音声を
合成することを特徴とする。

【００４２】請求項９記載の本発明は、各ステレオ音声
の相関情報に基づいて各ステレオ音声に遅延差・利得差
の少なくとも一方の処理を施したステレオ音声の和成
分、差成分、およびステレオ音声間の相関情報もしく
は、その近似情報を受信し、これらの情報をもとにステ
レオ音声を合成することを特徴とする。

【００４３】

【作用】本発明では、疑似ステレオ音声情報を構成する
左右各チャンネルの和情報と付加情報に加えて、必要に
応じて新たに左右各チャンネル音声の差情報を符号伝送
することで、音源が複数発言の場合にも効率的なステレ
オ音声符号化を実現し、また疑似ステレオ、完全ステレ
オの両方に柔軟に対応できる音声系を実現している。

【００４４】また、本発明では、推定係数分解処理にお
いて、過去の複数の推定伝達関数からスピーカ・マイク
間伝達関数を推定する処理が必要となるが、このとき、
推定係数分解用のフィルタに入力する推定伝達関数のイ
ンパルス応答を遅延量の大きい応答から少ない応答の順
に処理することにより、推定係数分解用のフィルタの安
定条件を満たし、これにより分解合成形エコーキャンセ
ラにおいて系の安定性や実現性を容易にすることを可能
にしている。

【００４５】さらに、本発明では、推定伝達関数分解合
成処理により得た新たな伝達関数のインパルス応答を疑
似ステレオの音像制御情報とマイクアレイ情報の変化時
点で同時にエコーキャンセラの初期値としてセットする
のでなく、遅延量の少ない係数より順次、置き換えるこ
とにより、エコーキャンセラの打ち消し量の一時的な劣
化を防止している。

【００４６】

【実施例】以下、発明の実施例の詳細を図面に基づき説
明する。

【００４７】図１は本発明が適用されるマルチメディア
会議システムの構成を示す図である。同図に示すシス
テムでは、複数のマルチメディア端末ＴＥ、…がローカ
ルエリアネットワークＬＡＮを介して接続されている。

【００４８】マルチメディア端末ＴＥは、大別すると音
声系と映像系と静止画像系と伝送系とから構成される。

【００４９】これら各系は、以下のように実現される。

【００５０】（１）音声系音声系は、疑似ステレオを基本としたマルチポイント音
声会議を可能にするものである。

【００５１】また、複数のウィンドウに応じた音像制
御、すなわち各端末に応じたウィンドウ及びウィンドウ
内の発言者口元に音像を定位することを可能にする。

【００５２】マルチポイント音声制御は、各端末から伝
送された音声パケットを自端末で合成する分散制御形と
する。

【００５３】（２）映像系ＬＡＮから送られてきた映像パケットを対応するウィン
ドウに表示する。

【００５４】パケットには映像符号化方式の種類が付与
されているため、これに対応する復号方式を適用する。

【００５５】また、対応する音声パケットへのポインタ
を付与することにより、音声と映像の同期も確保する。

【００５６】さらに、疑似ステレオ情報が発言者の位置
情報も含んでいるため、符号化側では、発言者にズーム
を向けるカメラ制御や発言者のみ高品質に符号化する映
像符号化制御が可能になり、復号側では発言者のみカラ
ー表示したり動画像符号化することにより符号化処理の
簡略化が可能になる。

【００５７】（３）静止画像系図２に示すように書類は画像スキャナで読み取るととも
に、必要に応じて計算機のファイルとして蓄積する。

【００５８】また、処理した書類は書類処理部で廃棄す
るか書類としてファイリングするか決定し、各々の書類
蓄積ＢＯＸに出力する。

【００５９】計算機上の書類は、プリンタにより紙書類
として出力される。

【００６０】（４）伝送系伝送はパケットまたはセル形式を基本とする。

【００６１】ここで音声および映像のパケット（セル）
は映像、音声情報及び宛先情報以外に自端末の識別番
号、発言者の位置情報及び画像、音声の時間関係を規程
するタイミング情報を含む。

【００６２】さて、このように構成されたマルチメディ
ア会議システムにおいて、本発明は以下のように適用さ
れる。

【００６３】まず、ステレオ−疑似ステレオ−モノラル
音声間の通信互換性を確保する一実施例について説明す
る。

【００６４】図３はその実施例に係る音声系の構成を示
す図であり、左右の音声の和情報である主情報と遅延差
・利得差ある付加情報からなる疑似ステレオ音声情報に
加えて、左右の音声の差情報である第２の付加情報を用
いることにより、かかる通信互換性を確保している。

【００６５】これは、まず遅延推定部108 において、左
右のマイク101-1 、101-2 の出力音声Ｙ_R（ｚ）、Ｙ_L
（ｚ）から左右音声間の遅延差τ_L−τ_Rを推定して発
言者の位置情報LOCTを得る。

【００６６】同時に、マイクアレイ処理を行う。これ
は、遅延・利得付与部102-1 、102-2において、遅延推
定部108 で得られた遅延差τ_L−τ_Rに基づき左右のマ
イク101-1 、101-2 の出力音声Ｙ_R（ｚ）、Ｙ_L（ｚ）
のタイミングを合わし、遅延・利得付与部102-1 、102-
2 の各出力Ｙ_RD（ｚ）、Ｙ_LD（ｚ）を加算器103 におい
て加算し、相関成分を強調する。つまり、加算器103 の
出力をＹ_add（ｚ）とすると、Ｙ_add（ｚ）＝Ｙ_RD（ｚ）＋Ｙ_LD（ｚ）となる。

【００６７】そして、減算器105 において、加算器103
の出力（モノラル音声）Ｙ_add（ｚ）から音響用エコー
キャンセラ107 の出力が減算され、エコー成分が除去さ
れる。この減算器105 の出力Ｅ_add（ｚ）は、端末識
別子TermIdent と発言者位置情報LOCTから付加情報処理
部106 で生成される端末識別情報Ｔinf とともに疑似ス
テレオ音声の送信情報ＴＸＤとなる。

【００６８】本発明では、このような疑似ステレオ音声
符号化処理に加え、第２の付加情報Ｔ_sub（ｚ）を生成
して送出している。この第２の付加情報Ｔ_sub（ｚ）は
次のように生成される。

【００６９】まず、減算器104 において、遅延・利得付
与部102-1 、102-2 の各出力Ｙ_RD（ｚ）、Ｙ_LD（ｚ）の
差分が求められる。つまり、減算器104 の出力Ｙ
_sub（ｚ）とすると、Ｙ_sub（ｚ）＝Ｙ_RD（ｚ）−Ｙ_LD（ｚ）となる。

【００７０】この減算器104 の出力Ｙ_sub（ｚ）は、第
２のエコー除去部113 を経由し完全ステレオ音声用の第
２の付加情報Ｔ_sub（ｚ）として送出される。

【００７１】但し、Ｙ_RD（ｚ）、Ｙ_LD（ｚ）の差成分の
電力は、電力検出器115 により検出されており、その差
成分の電力が小さい場合、すなわち、左右のマイク出力
音声間の相関が強い場合には、送信制御部114 により、
この第２の付加情報の送出が禁止されるようになってい
る。

【００７２】なお、上述した遅延・利得付与を省略する
こともでき、これにより構成の簡略化が可能である。

【００７３】一方、受信側では、送られて来た疑似ステ
レオ情報であるモノラル音声Ｙ_add（ｚ）と付加情報Ｒi
nf とにより音像を与える疑似ステレオ音声を合成す
る。

【００７４】また、第２の付加情報である差成分を用い
ることにより完全ステレオ音声を合成できる。

【００７５】すなわち、加算器110-1 において、Ｘ_R（ｚ）＝Ｙ_add（ｚ）＋Ｙ_sub（ｚ）を求め、減算器110-2 において、Ｘ_L（ｚ）＝Ｙ_add（ｚ）−Ｙ_sub（ｚ）を求める。

【００７６】ここで、Ｙ_sub（ｚ）の電力が小さいと
き、またはＹ_sub（ｚ）を受信しなかったときには、Ｙ_R（ｚ）＝Ｙ_L（ｚ）となり完全ステレオ音声となる。

【００７７】疑似ステレオ合成部111-1 、111-2 では、
受信付加情報Ｒinf より得た発言者位置情報LOCRを用い
てモノラル音声に利得・遅延を与えて疑似ステレオ音声
を合成する。また、完全ステレオ入力時にはマイクアレ
イ処理で調整した利得・遅延を元に戻す。

【００７８】従って、本発明によれば、受信音声情報が
モノラル音声の場合には疑似ステレオ化しないことによ
りモノラル音声として再生できる。また、付加情報が得
られたときには通常の疑似ステレオ音声が合成でき、さ
らに第２の付加情報が得られたときには、完全ステレオ
音声として合成できる。

【００７９】ところで、図３に示した推定関数分解・合
成形エコーキャンセラ107 は、すでに明らかなようにモ
ノラル音声を用いる疑似ステレオ方式を前提としてい
る。このため、完全ステレオ性が強い場合、すなわちＸ
_sub（ｚ）の信号電力が大きい場合にはこの信号成分の
エコーを除去することができない。

【００８０】そこで、本発明では、完全ステレオ用の付
加情報、すなわちマイク出力の差成分であるＸ
_sub（ｚ）、Ｙ_sub（ｚ）に第２のエコー除去部113 を
適用し、この成分のエコーを除去する。

【００８１】第２のエコー除去部113 としては、図４に
示すような音声スイッチ方式を用いても良いし、図５に
示すような推定関数分解・合成形エコーキャンセラを用
いても良い。

【００８２】次に、分解合成形エコーキャンセラにおい
て系の安定性や実現性を容易にする一実施例について説
明する。

【００８３】従来の技術で説明した（５）（６）式の係
数分解・合成処理は利得制御のみの場合は容易である
が、遅延制御の場合には一種のフィルタ処理になるた
め、系の安定性及び実現性に留意する必要がある。ここ
では、図６に示すようにマイクアレイに遅延制御を適用
する場合を想定して説明する。

【００８４】マイク出力制御関数Ｆ_Ri（ｚ）、Ｆ
_Li（ｚ）は、例えば遅延推定(Delay Est.)による発言者
位置検出で得たith.定常区間の左右のマイク出力信号の
利益差ｌ_i（＝σ_R／σ_L、但しσ_R、σ_Lは各々左右
マイク出力信号のレベル）遅延（位相）差τ_i（＝τ_R
−τ_L、但しτ_R、τ_Lは発言者の口元から左右のマイ
クまでの遅延量(sample)）を用いＦ_Ri（ｚ）＝ｌ_RiＺ^-τRi Ｆ_Li（ｚ）＝ｌ_LiＺ^-τLi……（７）なる演算を行う。

【００８５】このような演算処理により、特定位置の発
言者音声を効率良く合成できる。

【００８６】ここで、i 、i-1 th. 定常区間の推定伝達
関数を用いてスピーカ・マイク間の伝達関数を（５）式
に基づいて求めると以下の結果を得る。

【００８７】

【数８】これらの結果より、図７に示すように、スピーカ・マイ
ク間伝達関数は過去２定常区間i 、i-1 のエコーキャン
セラの推定伝達関数をＦ_Ai（ｚ）、Ｆ_Bi（ｚ）なる特性
を有するフィルタに通すことにより得られることが分
る。

【００８８】図７よりＦ_Ai（ｚ）、Ｆ_Bi（ｚ）は、

【数９】ここで、分解フィルタＦ_Ai（ｚ）、Ｆ_Bi（ｚ）が安定で
ある条件は、αＡ_i＜１であり、ＣＡＳＥ-1では利得差
がi-1 定常区間からi 定常区間で減少する必要がある。
また、ＣＡＳＥ-2では利得差が増加する必要がある。一
方、マイクアレイではマイク出力レベルに比例して利得
を上げる必要がある。従って、遅延差が大きい場合には
左右のマイク出力レベル比も大きいことより、遅延差と
利得差は比例すると考えられる。このとき、ＣＡＳＥ-
1、ＣＡＳＥ-2ともＴ_Aiは負になるため、図７のフィル
タはそのままでは実現不可能になる。これを解決するた
め、フィルタＦ_Ai（ｚ）、Ｆ_Bi（ｚ）に入力するインパ
ルス応答の時間方向を逆に処理する。すなわち、推定伝
達関数、分解フィルタの特性

【数１０】なる特性にした後、通常のフィルタ処理を施する。この
処理は、図８に示すように入力する推定伝達関数の時間
順序を逆にするだけで、図７と同一構成のフィルタ処理
で実現できる。

【００８９】次に、過渡時の打ち消し量劣化の防止に関
する一実施例について説明する。

【００９０】音像定位関数の変化は、マイク合成関数の
変化とは異なり、反響路特性の遅延成分により、過渡的
な状態を生成する。すなわち、音像定位関数の変化から
j サンプル後（j ＜ＮＮはエコーキャンセラのタップ
数）では、例えば右スピーカ・右マイク間の反響路特性
をＮタップのＦＩＲフィルタでモデル化して考えると、
その前半j タップ分のデータは変化後の音像定位関数Ｇ
_Ri（ｚ）の出力であり、後半Ｎ-j＋１タップ分は変化以
前のＧ_Ri（ｚ）の出力データが残っていることになる。
従って、マイク合成関数の変化と同時にエコーキャンセ
ラの全係数を置き換えると、反響路特性インパルス応答
の後半は変化以前の特性であるため、一時的な打ち消し
量の劣化をきたす。これを防止するには、音像定位関数
の変化時に以下に示すようなエコーキャンセラのタップ
係数の前半・後半で異なる係数置き換え処理を適用す
る。例えば（９）式に示すように、音像定位関数の変化
からj サンプルにおけるk 番目のエコーキャンセラのタ
ップ係数を考える。

【００９１】

【数１１】以上のもとで、i+1 定常区間、j サンプル目のエコーキ
ャンセラの伝達関数を、

【数１２】で与えることにより、音像定位関数の変化時点の一時的
な打ち消し量の劣化を防ぐことができる。

【００９２】ところで、広帯域ステレオ音声は将来のマ
ルテメディア通信において臨場感・自然感の向上に有効
である。この場合、通信路のＢ−ＩＳＤＮ網は、セルと
呼ばれる固定長パケットを用いるため、広帯域ステレオ
音声を効率良くパケット符号化する必要が有る。一方、
ステレオ音声は上述したように左右の音声間の相関成分
を利用して効率良く符号化できる。このような背景か
ら、以下に広帯域ステレオ音声パケット符号化方式およ
びシステムを提案する。

【００９３】ステレオ音声は左右の音声間の相関成分を
利用して効率よく符号化できる（S.MINAMI. “A Stereo
phonic Voice Coding Method ForTeleconferencing. ”
IEEE ICC ’86 46.6, June 1986及びS.MINAMI. “Stre
ophonic ADPCM Speech Coding Method” IEEE ICASSP
90. April 1990参照）。図９に示すように左右各チャン
ネルの信号に利得差，遅延差を与えた後、加算・減算し
て相関成分・相関差成分を生成する。これらはＣＥＬＰ
等のモノラル音声符号化を施した後、利得差，遅延差か
らなる相関付加成分とともにパケット伝送する。

【００９４】復号側では、図１０に示すように相関和成
分・相関差成分を各々復号した後、加算・減算を行い、
付加情報として伝送された相関成分を用いて利得・遅延
を復元して左右の信号を生成する。

【００９５】システム面から検討する。

【００９６】臨場感通信においては７ＫＨｚ以上の広帯
域音声が望ましい。そこで、図１１に示すように帯域分
割処理は例えば４ＫＨｚ毎のサブ帯域に分割して処理す
る。各帯域の和成分は通常モノラル音声であるため固定
レートで符号化し、差成分は複数発言時にのみ情報量が
増大するため可変レートで符号化する。付加情報は和成
分とともに伝送する。また、受話器をもたずに通話でき
る拡声通話は臨場感通信において重要な機能である。こ
の場合、エコーキャンセラはスイッチ感のない自然な双
方向通話が実現できる反面、処理量が大きい。特に、ス
テレオ系にそのまま適用するとモノラルの４倍の処理量
が必要になりコスト上不利である。そこで、図１２に示
すように推定伝達関数分解・合成型エコーキャンセラ
（S.MINAMI. “An Acoustic Echo Canceller For Pseud
o-Streophonic Voice ” IEEE GLOBCOM ’87 35.1 Nov.
1987 及び南重信．“テレビ会議・マルチメディア端
末音声系に適用する推定伝達関数分解合成型エコーキャ
ンセラ”．電子情報通信学会第６回回路とシステ
ムワークショップ pp.333.338 参照）を左右の相関和
成分に適用し、比較的電力の低い相関差成分に音声スイ
ッチ方式を適用してモノラル並の処理量で実現できる。

【００９７】通信互換性・セルロスを検討する。

【００９８】広帯域音声端末と狭帯域音声端末との通
信，ステレオ端末とモノラル端末との通信等、多様な端
末間の相互通信を可能にする通信互換性の確保はマルチ
メディア通信における重要な課題の一つである。また、
トラフィック時に発生するセルロス対策も考慮する必要
がある。そこで、図１３に示すように例えば通常のモノ
ラル端末は伝送されたパケットのうち相関和成分をその
まま復号すれば通常のモノラル音声を生成できる。ま
た、相関和成分と相関付加情報を優先パケットとして伝
送し差成分を非優先とすると、差成分が輻輳等で消失し
ても、最低限、疑似ステレオ音声として生成できる。

【００９９】映像符号化との連動を検討する。

【０１００】本発明を適用したシステムでは、検出した
チャンネル間相関より発言者位置が検出でき、発言者を
より高精細に符号化したり発言者のウインドウを抽出し
たりできる。

【０１０１】以上、チャンネル間相関を利用した広帯域
ステレオ音声符号化方式、および本方式を用いた音声系
のシステム構成について述べた

【０１０２】

【発明の効果】本発明によれば、音源が単独発言の時は
伝送情報量の少ない疑似ステレオ音声符号化を、音源が
複数発言の場合には従来通りの完全ステレオ音声符号化
が適用でき、効率的なステレオ音声符号化が実現でき
る。また、復号側では送られてきた情報が疑似ステレオ
音声でも、完全ステレオ音声でも最適な復号ができる。

【０１０３】さらに、従来、処理量がモノラルの４倍必
要であったステレオ音声用ＥＣも疑似ステレオ用の推定
伝達関数分解・合成形ＥＣを用いることで、モノラルの
２ないし４倍の処理量で効率的に実現できる。

【０１０４】このように本発明を用いれば、従来、困難
であったステレオ音声を遠隔会議システムやマルチメデ
ィア端末にローコストで導入でき、臨場感や発言者の識
別の向上に大きく貢献する。

【図面の簡単な説明】

【図１】本発明が適用されるマルチメディア会議システ
ムの構成を示す図。

【図２】マルチメディア会議システムにおける書類の流
れを示す図。

【図３】ステレオ−疑似ステレオ−モノラル音声間の通
信互換性を確保する一実施例を示す図。

【図４】図３に示す第２のエコー抑圧手段の具体例を示
す図。

【図５】図３に示す第２のエコー抑圧手段の他の具体例
を示す図。

【図６】マイクアレイに遅延制御を適用した場合の構成
例を示す図。

【図７】推定伝達関数分解フィルタの構成例を示す図。

【図８】安定性を保証した処理の構成例を示す図。

【図９】他の実施例に係る符合化装置の構成例。

【図１０】他の実施例に係る復合化装置の構成例。

【図１１】他の実施例に係る符合化方式を示す図。

【図１２】他の実施例に係るＥＣの構成例。

【図１３】他の実施例に係るセルロス対策の説明図。

【図１４】テレビ会議システムの概略図。

【図１５】マルチメディア端末の概略図。

【図１６】完全ステレオ音声系のシステムにＥＣの技術
を採用した例を示す図。

【図１７】疑似ステレオ音声系にＥＣの技術を採用した
例を示す図。

【図１８】分解合成形エコーキャンセラの概略を示す
図。

【符号の説明】

101-1 、101-2 …マイク、102-1 、102-2 …遅延・利得
付与部、103 、104 、110-1 …加算器、105 、110-2 …
減算器、107 …音響用エコーキャンセラ、108…遅延推
定部、111-1 、111-2 …疑似ステレオ合成部、113 …第
２のエコー除去部、114 …送信制御部、115 …電力検出
器。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) H04B 14/04 G10K 15/00 H04B 3/20 H04N 5/60 H04S 5/00

Claims

(57)【特許請求の範囲】

【請求項１】相手端末において少なくとも２チャンネ
ルの音声より得られた第１の複数音声間の伝達関数の近
似情報または発言者位置情報のうち少なくとも一方であ
る第１の付加情報と、前記第１の複数音声の和または前
記第１の複数音声に遅延もしくは利得を与えた後の和成
分のいずれかである第１のモノラル音声と、前記第１の
複数音声の差または前記第１の複数音声に遅延もしくは
利得を与えた後の差成分のいずれかである第２のモノラ
ル音声とを受信し、前記第１のモノラル音声と前記第１
の付加情報より疑似ステレオ音声を合成する手段と、前
記疑似ステレオ音声と前記第２のモノラル音声より完全
ステレオ音声を合成する手段とを有する復号化部と、少なくとも２チャンネルのマイクより集音した自端末の
第２の複数音声を用い、第２の複数音声間の伝達関数の
近似情報と発言者位置情報のうち少なくとも一方である
第２の付加情報と、前記複数音声の和または前記複数音
声に遅延もしくは利得を与えた後の和成分のいずれかで
ある第３のモノラル音声と、前記複数音声の差または前
記複数音声に遅延もしくは利得を与えた後の差成分のい
ずれかである第４のモノラル音声を生成する符号化部
と、前記第１のモノラル音声と前記第３のモノラル音声より
前記第３のモノラル音声に含まれる前記第１モノラル音
声のエコー成分を抑圧する第１のエコー抑圧手段と、前記第２のモノラル音声と前記第４のモノラル音声より
前記第４のモノラル音声に含まれる前記第２のモノラル
音声のエコー成分を抑圧する第２のエコー抑圧手段とを
具備することを特徴とする音声符号復号化装置。
【請求項２】第１のエコー抑圧手段は、付加情報を用
い過去の複数の推定伝達関数より新たな付加情報に対応
する推定伝達関数の初期値を設定する疑似ステレオ用エ
コーキャンセラ方式が用いられていることを特徴とする
請求項１記載の音声符号復号化装置。
【請求項３】第２のエコー抑圧手段は、付加情報を用
い過去の複数の推定伝達関数より新たな付加情報に対応
する推定伝達関数の初期値を設定する疑似ステレオ用エ
コーキャンセラ方式が用いられていることを特徴とする
請求項１記載の音声符号復号化装置。
【請求項４】少なくとも２チャンネルの音声より前記
音声間の伝達関数の近似情報または発言者位置情報のう
ち少なくとも一方を得る手段と、前記各音声間の伝達関
数の近似情報または発言者位置情報のうち少なくとも一
方の情報を用いて左右の音声に利得または遅延のうち少
なくとも一方を与えるマイクアレイ手段と、前記マイク
アレイ手段により出力された音声を加算する手段と、前
記マイクアレイ手段により出力された音声を減算する手
段とを具備することを特徴とする音声符号化装置。
【請求項５】少なくとも２チャンネルの音声より得ら
れた複数音声間の伝達関数の近似情報と発言者位置情報
の少なくともいずれか一方である付加情報と、前記複数
音声の和または前記複数音声に遅延もしくは利得を与え
た後の和成分のいずれかである第１のモノラル音声より
疑似ステレオ音声を合成する手段と、前記複数音声の差
または前記複数音声に遅延もしくは利得を与えた後の差
成分のいずれかである第２のモノラル音声を用いて完全
なステレオ音声を合成する手段とを具備することを特徴
とする音声復号化装置。
【請求項６】少なくとも２チャンネルのステレオ音声
を入力し、各ステレオ音声の和成分、差成分、およびス
テレオ音声間の相関情報もしくは、その近似情報を送出
することを特徴とするステレオ音声符号化方式。
【請求項７】少なくとも２チャンネルのステレオ音声
を入力し、各ステレオ音声の相関情報に基づいて各ステ
レオ音声に遅延差・利得差の少なくとも一方の処理を施
した後、処理後の各ステレオ音声の和成分、差成分、お
よびステレオ音声間の相関情報もしくは、その近似情報
を送出することを特徴とする請求項６記載のステレオ音
声符号化方式。
【請求項８】受信した各ステレオ音声の和成分、差成
分、およびステレオ音声間の相関情報もしくは、その近
似情報をもとにステレオ音声を合成することを特徴とす
るステレオ音声復合方式。
【請求項９】各ステレオ音声の相関情報に基づいて各
ステレオ音声に遅延差・利得差の少なくとも一方の処理
を施したステレオ音声の和成分、差成分、およびステレ
オ音声間の相関情報もしくは、その近似情報を受信し、
これらの情報をもとにステレオ音声を合成することを特
徴とするステレオ音声復合方式。