JP3400064B2 - 音声符号復号化装置、音声符号化装置及び音声復号化装置 - Google Patents

音声符号復号化装置、音声符号化装置及び音声復号化装置

Info

Publication number
JP3400064B2
JP3400064B2 JP02933694A JP2933694A JP3400064B2 JP 3400064 B2 JP3400064 B2 JP 3400064B2 JP 02933694 A JP02933694 A JP 02933694A JP 2933694 A JP2933694 A JP 2933694A JP 3400064 B2 JP3400064 B2 JP 3400064B2
Authority
JP
Japan
Prior art keywords
stereo
voices
information
sound
monaural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02933694A
Other languages
English (en)
Other versions
JPH07240722A (ja
Inventor
重信 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP02933694A priority Critical patent/JP3400064B2/ja
Publication of JPH07240722A publication Critical patent/JPH07240722A/ja
Application granted granted Critical
Publication of JP3400064B2 publication Critical patent/JP3400064B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えばテレビ会議シス
テムやマルチメディア端末の音声系に適用される音声符
号復号化装置、音声符号化装置及び音声復号化装置に関
する。
【0002】
【従来の技術】図14に示すテレビ会議システムや図1
5に示すマルチメディア端末の音声系においては、通話
品質の向上やスムーズな通話を実現することが要請され
ている。 そのためには、発言者の顔位置に音像を定位
するステレオ音声技術や複数マイクロフォン出力を合成
することにより背景雑音を抑圧するマイクロフォンアレ
イ技術、スピーカ出力がマイクロフォンに入力すること
により発生するエコー感やハウリングを抑圧するエコー
キャンセラ(EC)の採用等が有効である。
【0003】ところで、ステレオ音声を実現するシステ
ムとしては、従来の完全ステレオ音声系の他にいわゆる
疑似ステレオ音声系のものがあるが、まず完全ステレオ
音声系のシステムに上述したECの技術を採用した例を
図16に示す。
【0004】同図において、1R は右チャネルスピー
カ、1L は左チャネルスピーカ、2Rは右チャネルマイ
ク、2L は左チャネルマイクをそれぞれ示している。右
チャネルスピーカ1R から出力される受信信号は、エコ
ーキャンセラECRR及びエコーキャンセラECRLに入力
され、左チャネルスピーカSL から出力される受信信号
は、エコーキャンセラECLR及びエコーキャンセラEC
LLに入力される。加算器3aにおいて、エコーキャンセ
ラECRRの出力とエコーキャンセラECLRの出力とが合
成され、減算器4aにおいて、右チャネルマイク2R
り入力された送信信号からこの合成信号が差し引かれ
る。また、加算器3bにおいて、エコーキャンセラEC
LLの出力とエコーキャンセラECRLの出力とが合成さ
れ、減算器4bにおいて、左チャネルマイク2L より入
力された送信信号からこの合成信号が差し引かれる。
【0005】このようなシステムでは、通常のステレオ
音声のサービスをエコー感やハウリングの抑圧を実現し
つつ完全に提供できるが、次のような問題点がある。
【0006】(1)マイクロフォンの数(=スピーカの
数)だけの伝送路を必要とするため、ステレオのチャン
ネル数が増大すると、通信コストが増加する。
【0007】(2)複数のスピーカ・マイクロフォンを
用いているため、反響路の数が複数となり、これにより
エコーキャンセラがマイクロフォンの数とスピーカの数
とを乗算した数だけ必要になり、処理量が増加する。
【0008】(3)エコーキャンセラが上述した数だけ
必要になるため、決定すべき未知数が増加し、また入力
信号間の相関も増大する。このため、エコーキャンセラ
の収束速度が低下する。
【0009】一方、疑似ステレオ音声系は例えば図17
に示すように構成される。
【0010】同図に示す疑似ステレオ音声系の受信側で
は、受信したモノラル音声信号XRを、左右で特性の独
立な伝達関数(音像定位関数と呼ぶ。)GR (Z)及び
L(Z)を介して右チャネルスピーカ1R 及び左チャ
ネルスピーカ1L より出力する。音像定位関数G
R (Z)及びGL (Z))は、モノラル音声信号XR
同時に受信した付加情報dR 及び予め指定された情報も
しくはマウス等によりユーザによって指定された情報に
基づいて、聴者に適切なステレオ感を与える(これを疑
似ステレオ音像合成処理と呼ぶ。)。
【0011】また、送信側では、発言者位置を推定する
ことにより、音源位置情報を得て付加情報dS として送
信モノラル音声Xs とともに送信する(これを音源位置
推定処理と呼ぶ。)。なお、この音源位置情報を用いて
発言者の口元に指向性を向けるマイクアレイ処理も容易
に併用することができる。
【0012】上述した疑似ステレオ音像合成処理は、
(1)式に示す音像定位関数GR (Z)及びGL (Z)
により左右の耳に到達する直接波音声の利得差・遅延差
を合成して聴者に特定の音像定位を与えるものである。
【0013】
【数1】 また、マイクアレイ処理は、左右の各マイク2R 、2L
の出力を特性の独立な伝達関数(マイク出力合成関数と
呼ぶ。)FRi(Z)及びFLi(Z)を介した後に合成す
ることにより、特定の発言者から到達する音声のみを強
調して雑音を抑圧する。ここで、マイク出力合成関数F
Ri(Z)及びFLi(Z)は、通常、(2)式を用いて左
右のマイクの出力に適切な利得、遅延を与えることによ
り特定の音源位置から到達する音声を強調するように設
定する。
【0014】
【数2】 ここで、疑似ステレオ音声系に適用する音響用エコーキ
ャンセラは、従来のモノラル音声用エコーキャンセラを
用いることができる。
【0015】この場合、エコーキャンセラECは、図1
7に示すように、受信音声XR の伝送路と送信音声XS
の伝送路との間にに挿入される。
【0016】また、エコーキャンセラから見た総合的な
反響路特性H(z) は、
【数3】 となる。
【0017】(3)式から明らかなように、スピーカ・
マイク間伝達関数HRR(z)、HLL(z)、H
RL(z)、HLR(z)は、音響特性が定常な限り一定で
あるが、音像定位関数や音声合成関数は、音像や発言者
位置が変化すると、その都度変動する。 ここで、図1
7に示したように単一のエコーキャンセラECを適用す
ると、反響路特性が頻繁に変動することになり、打ち消
し量が劣化する。
【0018】本発明者は、この問題点を改善する手法と
して、いわゆる分解合成形エコーキャンセラを提唱し
た。この分解合成形エコーキャンセラの概略を図18に
基づいて説明する。
【0019】まず、この分解合成形エコーキャンセラで
は、音像定位関数・マイク出力合成関数の両方が定常な
区間を単位としたith区間を考える。
【0020】ここで、過去4区間のエコーキャンセラE
C(図18)の推定伝達関数を
【数4】 とすると、反響路が定常で、推定が正確であると仮定す
れば、この推定特性は、音像定位関数・マイク出力合成
関数とは独立なスピーカ・マイク間伝達関数
【数5】 を用いて以下のように表わすことができる。
【0021】
【数6】 本方式は、このような関係を利用して、単一のエコーキ
ャンセラECで得た複数過去の推定伝達関数をもとに
(5)式に示すスピーカ・マイク間伝達関数を得る。
【0022】
【数7】 なる演算により、i+1区間のエコーキャンセラECの
係数の初期値を得ることができる。
【0023】
【発明が解決しようとする課題】このように疑似ステレ
オ音声系には多くの利点があるが、実際のテレビ会議シ
ステムやマルチメディア端末に応用するためには以下の
ような課題が依然として残っている。
【0024】(1)疑似ステレオ方式は単独発言を前提
としているため、ポイント・ポイント接続のテレビ会議
システムやマルチメディア端末では複数の話者が同時に
発言したときに、またマルチポイント接続のテレビ会議
システムやマルチメディア端末では複数端末で発言が同
時に行われたときに、音像の乱れが発生する。
【0025】また、本発明者が提唱した分解合成形エコ
ーキャンセラも、疑似ステレオを前提としているため、
複数発言時の対応がなされていない。
【0026】(2)通常の使用条件では相手端末が疑似
ステレオ方式を採用しているとは限らないため、この場
合は相互接続が困難になる。
【0027】すなわち、疑似ステレオ、完全ステレオの
両方に柔軟に対応できる音声系の採用が望ましい。
【0028】(3)上述した分解合成形エコーキャンセ
ラにおいては、(5)式及び(6)式の係数分解・合成
処理は利得制御のみの場合は容易であるが、遅延制御の
場合には一種のフィルタ処理になるため、系の安定性や
実現性が困難になる場合がある。(4)音像定位関数の
変化はマイク合成関数の変化とは異なり、反響路特性の
遅延成分により、過渡的な状態を生成する。このとき、
エコーキャンセラの打ち消し量が一時的に劣化する。
【0029】そこで、本発明は、上述の課題を解決する
ため、完全ステレオ・疑似ステレオ両面の利点を生かし
た柔軟なテレビ電話・マルチメディア端末等の音声系を
提供することを目的としている。
【0030】より具体的には、本発明の第1の目的は、
音源が複数発言の場合にも効率的なステレオ音声符号化
を実現できる音声符号復号化装置、音声符号化装置及び
音声復号化装置を提供することにある。
【0031】本発明の第2の目的は、疑似ステレオ、完
全ステレオの両方に柔軟に対応できる音声符号復号化装
置、音声符号化装置及び音声復号化装置を提供すること
にある。
【0032】本発明の第3の目的は、分解合成形エコー
キャンセラにおいて系の安定性や実現性を容易にするこ
とができる音声符号復号化装置を提供することにある。
【0033】本発明の第4の目的は、エコーキャンセラ
の打ち消し量の一時的な劣化を防止することができる音
声符号復号化装置を提供することにある。
【0034】
【課題を解決するための手段】かかる課題を解決するた
め、請求項1記載の本発明は、相手端末において少なく
とも2チャンネルの音声より得られた第1の複数音声間
の伝達関数の近似情報または発言者位置情報のうち少な
くとも一方である第1の付加情報と、前記第1の複数音
声の和または前記第1の複数音声に遅延もしくは利得を
与えた後の和成分のいずれかである第1のモノラル音声
と、前記第1の複数音声の差または前記第1の複数音声
に遅延もしくは利得を与えた後の差成分のいずれかであ
る第2のモノラル音声とを受信し、前記第1のモノラル
音声と前記第1の付加情報より疑似ステレオ音声を合成
する手段と、前記疑似ステレオ音声と前記第2のモノラ
ル音声より完全ステレオ音声を合成する手段とを有する
復号化部と、少なくとも2チャンネルのマイクより集音
した自端末の第2の複数音声を用い、第2の複数音声間
の伝達関数の近似情報と発言者位置情報のうち少なくと
も一方である第2の付加情報と、前記複数音声の和また
は前記複数音声に遅延もしくは利得を与えた後の和成分
のいずれかである第3のモノラル音声と、前記複数音声
の差または前記複数音声に遅延もしくは利得を与えた後
の差成分のいずれかである第4のモノラル音声を生成す
る符号化部と、前記第1のモノラル音声と前記第3のモ
ノラル音声より前記第3のモノラル音声に含まれる前記
第1モノラル音声のエコー成分を抑圧する第1のエコー
抑圧手段と、前記第2のモノラル音声と前記第4のモノ
ラル音声より前記第4のモノラル音声に含まれる前記第
2のモノラル音声のエコー成分を抑圧する第2のエコー
抑圧手段とを具備する。
【0035】請求項2記載の本発明は、請求項1記載の
音声符号復号化装置において、前記第1のエコー抑圧手
段は、付加情報を用い過去の複数の推定伝達関数より新
たな付加情報に対応する推定伝達関数の初期値を設定す
る疑似ステレオ用エコーキャンセラ方式が用いられてい
る。
【0036】請求項3記載の本発明は、請求項1記載の
音声符号復号化装置において、前記第2のエコー抑圧手
段は、付加情報を用い過去の複数の推定伝達関数より新
たな付加情報に対応する推定伝達関数の初期値を設定す
る疑似ステレオ用エコーキャンセラ方式が用いられてい
る。
【0037】請求項4記載の本発明は、少なくとも2チ
ャンネルの音声より前記音声間の伝達関数の近似情報ま
たは発言者位置情報のうち少なくとも一方を得る手段
と、前記各音声間の伝達関数の近似情報または発言者位
置情報のうち少なくとも一方の情報を用いて左右の音声
に利得または遅延のうち少なくとも一方を与えるマイク
アレイ手段と、前記マイクアレイ手段により出力された
音声を加算する手段と、前記マイクアレイ手段により出
力された音声を減算する手段とを具備する。
【0038】請求項5記載の本発明は、少なくとも2チ
ャンネルの音声より得られた複数音声間の伝達関数の近
似情報と発言者位置情報の少なくともいずれか一方であ
る付加情報と、前記複数音声の和または前記複数音声に
遅延もしくは利得を与えた後の和成分のいずれかである
第1のモノラル音声より疑似ステレオ音声を合成する手
段と、前記複数音声の差または前記複数音声に遅延もし
くは利得を与えた後の差成分のいずれかである第2のモ
ノラル音声を用いて完全なステレオ音声を合成する手段
とを具備する。
【0039】請求項6記載の本発明は、少なくとも2チ
ャンネルのステレオ音声を入力し、各ステレオ音声の和
成分、差成分、およびステレオ音声間の相関情報もしく
は、その近似情報を送出することを特徴とする。
【0040】請求項7記載の本発明は、請求項6記載の
ステレオ音声符号化方式において、少なくとも2チャン
ネルのステレオ音声を入力し、各ステレオ音声の相関情
報に基づいて各ステレオ音声に遅延差・利得差の少なく
とも一方の処理を施した後、処理後の各ステレオ音声の
和成分、差成分、およびステレオ音声間の相関情報もし
くは、その近似情報を送出することを特徴とする。
【0041】請求項8記載の本発明は、受信した各ステ
レオ音声の和成分、差成分、およびステレオ音声間の相
関情報もしくは、その近似情報をもとにステレオ音声を
合成することを特徴とする。
【0042】請求項9記載の本発明は、各ステレオ音声
の相関情報に基づいて各ステレオ音声に遅延差・利得差
の少なくとも一方の処理を施したステレオ音声の和成
分、差成分、およびステレオ音声間の相関情報もしく
は、その近似情報を受信し、これらの情報をもとにステ
レオ音声を合成することを特徴とする。
【0043】
【作用】本発明では、疑似ステレオ音声情報を構成する
左右各チャンネルの和情報と付加情報に加えて、必要に
応じて新たに左右各チャンネル音声の差情報を符号伝送
することで、音源が複数発言の場合にも効率的なステレ
オ音声符号化を実現し、また疑似ステレオ、完全ステレ
オの両方に柔軟に対応できる音声系を実現している。
【0044】また、本発明では、推定係数分解処理にお
いて、過去の複数の推定伝達関数からスピーカ・マイク
間伝達関数を推定する処理が必要となるが、このとき、
推定係数分解用のフィルタに入力する推定伝達関数のイ
ンパルス応答を遅延量の大きい応答から少ない応答の順
に処理することにより、推定係数分解用のフィルタの安
定条件を満たし、これにより分解合成形エコーキャンセ
ラにおいて系の安定性や実現性を容易にすることを可能
にしている。
【0045】さらに、本発明では、推定伝達関数分解合
成処理により得た新たな伝達関数のインパルス応答を疑
似ステレオの音像制御情報とマイクアレイ情報の変化時
点で同時にエコーキャンセラの初期値としてセットする
のでなく、遅延量の少ない係数より順次、置き換えるこ
とにより、エコーキャンセラの打ち消し量の一時的な劣
化を防止している。
【0046】
【実施例】以下、発明の実施例の詳細を図面に基づき説
明する。
【0047】図1は本発明が適用されるマルチメディア
会議システムの構成を示す図である。 同図に示すシス
テムでは、複数のマルチメディア端末TE、…がローカ
ルエリアネットワークLANを介して接続されている。
【0048】マルチメディア端末TEは、大別すると音
声系と映像系と静止画像系と伝送系とから構成される。
【0049】これら各系は、以下のように実現される。
【0050】(1)音声系 音声系は、疑似ステレオを基本としたマルチポイント音
声会議を可能にするものである。
【0051】また、複数のウィンドウに応じた音像制
御、すなわち各端末に応じたウィンドウ及びウィンドウ
内の発言者口元に音像を定位することを可能にする。
【0052】マルチポイント音声制御は、各端末から伝
送された音声パケットを自端末で合成する分散制御形と
する。
【0053】(2)映像系 LANから送られてきた映像パケットを対応するウィン
ドウに表示する。
【0054】パケットには映像符号化方式の種類が付与
されているため、これに対応する復号方式を適用する。
【0055】また、対応する音声パケットへのポインタ
を付与することにより、音声と映像の同期も確保する。
【0056】さらに、疑似ステレオ情報が発言者の位置
情報も含んでいるため、符号化側では、発言者にズーム
を向けるカメラ制御や発言者のみ高品質に符号化する映
像符号化制御が可能になり、復号側では発言者のみカラ
ー表示したり動画像符号化することにより符号化処理の
簡略化が可能になる。
【0057】(3)静止画像系 図2に示すように書類は画像スキャナで読み取るととも
に、必要に応じて計算機のファイルとして蓄積する。
【0058】また、処理した書類は書類処理部で廃棄す
るか書類としてファイリングするか決定し、各々の書類
蓄積BOXに出力する。
【0059】計算機上の書類は、プリンタにより紙書類
として出力される。
【0060】(4)伝送系 伝送はパケットまたはセル形式を基本とする。
【0061】ここで音声および映像のパケット(セル)
は映像、音声情報及び宛先情報以外に自端末の識別番
号、発言者の位置情報及び画像、音声の時間関係を規程
するタイミング情報を含む。
【0062】さて、このように構成されたマルチメディ
ア会議システムにおいて、本発明は以下のように適用さ
れる。
【0063】まず、ステレオ−疑似ステレオ−モノラル
音声間の通信互換性を確保する一実施例について説明す
る。
【0064】図3はその実施例に係る音声系の構成を示
す図であり、左右の音声の和情報である主情報と遅延差
・利得差ある付加情報からなる疑似ステレオ音声情報に
加えて、左右の音声の差情報である第2の付加情報を用
いることにより、かかる通信互換性を確保している。
【0065】これは、まず遅延推定部108 において、左
右のマイク101-1 、101-2 の出力音声YR (z)、YL
(z)から左右音声間の遅延差τL −τR を推定して発
言者の位置情報LOCTを得る。
【0066】同時に、マイクアレイ処理を行う。これ
は、遅延・利得付与部102-1 、102-2において、遅延推
定部108 で得られた遅延差τL −τR に基づき左右のマ
イク101-1 、101-2 の出力音声YR (z)、YL (z)
のタイミングを合わし、遅延・利得付与部102-1 、102-
2 の各出力YRD(z)、YLD(z)を加算器103 におい
て加算し、相関成分を強調する。つまり、加算器103 の
出力をYadd (z)とすると、 Yadd (z)=YRD(z)+YLD(z) となる。
【0067】そして、減算器105 において、加算器103
の出力(モノラル音声)Yadd (z)から音響用エコー
キャンセラ107 の出力が減算され、エコー成分が除去さ
れる。 この減算器105 の出力Eadd (z)は、端末識
別子TermIdent と発言者位置情報LOCTから付加情報処理
部106 で生成される端末識別情報Tinf とともに疑似ス
テレオ音声の送信情報TXDとなる。
【0068】本発明では、このような疑似ステレオ音声
符号化処理に加え、第2の付加情報Tsub (z)を生成
して送出している。この第2の付加情報Tsub (z)は
次のように生成される。
【0069】まず、減算器104 において、遅延・利得付
与部102-1 、102-2 の各出力YRD(z)、YLD(z)の
差分が求められる。つまり、減算器104 の出力Y
sub (z)とすると、 Ysub (z)=YRD(z)−YLD(z) となる。
【0070】この減算器104 の出力Ysub (z)は、第
2のエコー除去部113 を経由し完全ステレオ音声用の第
2の付加情報Tsub (z)として送出される。
【0071】但し、YRD(z)、YLD(z)の差成分の
電力は、電力検出器115 により検出されており、その差
成分の電力が小さい場合、すなわち、左右のマイク出力
音声間の相関が強い場合には、送信制御部114 により、
この第2の付加情報の送出が禁止されるようになってい
る。
【0072】なお、上述した遅延・利得付与を省略する
こともでき、これにより構成の簡略化が可能である。
【0073】一方、受信側では、送られて来た疑似ステ
レオ情報であるモノラル音声Yadd(z)と付加情報Ri
nf とにより音像を与える疑似ステレオ音声を合成す
る。
【0074】また、第2の付加情報である差成分を用い
ることにより完全ステレオ音声を合成できる。
【0075】すなわち、加算器110-1 において、 XR (z)=Yadd (z)+Ysub (z) を求め、減算器110-2 において、 XL (z)=Yadd (z)−Ysub (z) を求める。
【0076】ここで、Ysub (z)の電力が小さいと
き、またはYsub (z)を受信しなかったときには、 YR (z)=YL (z) となり完全ステレオ音声となる。
【0077】疑似ステレオ合成部111-1 、111-2 では、
受信付加情報Rinf より得た発言者位置情報LOCRを用い
てモノラル音声に利得・遅延を与えて疑似ステレオ音声
を合成する。また、完全ステレオ入力時にはマイクアレ
イ処理で調整した利得・遅延を元に戻す。
【0078】従って、本発明によれば、受信音声情報が
モノラル音声の場合には疑似ステレオ化しないことによ
りモノラル音声として再生できる。また、付加情報が得
られたときには通常の疑似ステレオ音声が合成でき、さ
らに第2の付加情報が得られたときには、完全ステレオ
音声として合成できる。
【0079】ところで、図3に示した推定関数分解・合
成形エコーキャンセラ107 は、すでに明らかなようにモ
ノラル音声を用いる疑似ステレオ方式を前提としてい
る。このため、完全ステレオ性が強い場合、すなわちX
sub (z)の信号電力が大きい場合にはこの信号成分の
エコーを除去することができない。
【0080】そこで、本発明では、完全ステレオ用の付
加情報、すなわちマイク出力の差成分であるX
sub (z)、Ysub (z)に第2のエコー除去部113 を
適用し、この成分のエコーを除去する。
【0081】第2のエコー除去部113 としては、図4に
示すような音声スイッチ方式を用いても良いし、図5に
示すような推定関数分解・合成形エコーキャンセラを用
いても良い。
【0082】次に、分解合成形エコーキャンセラにおい
て系の安定性や実現性を容易にする一実施例について説
明する。
【0083】従来の技術で説明した(5)(6)式の係
数分解・合成処理は利得制御のみの場合は容易である
が、遅延制御の場合には一種のフィルタ処理になるた
め、系の安定性及び実現性に留意する必要がある。ここ
では、図6に示すようにマイクアレイに遅延制御を適用
する場合を想定して説明する。
【0084】マイク出力制御関数FRi(z)、F
Li(z)は、例えば遅延推定(Delay Est.)による発言者
位置検出で得たith.定常区間の左右のマイク出力信号の
利益差li(=σR /σL 、但しσR 、σL は各々左右
マイク出力信号のレベル)遅延(位相)差τi (=τR
−τL 、但しτR 、τL は発言者の口元から左右のマイ
クまでの遅延量(sample))を用い FRi(z)=lRi -τRiLi(z)=lLi -τLi……(7) なる演算を行う。
【0085】このような演算処理により、特定位置の発
言者音声を効率良く合成できる。
【0086】ここで、i 、i-1 th. 定常区間の推定伝達
関数を用いてスピーカ・マイク間の伝達関数を(5)式
に基づいて求めると以下の結果を得る。
【0087】
【数8】 これらの結果より、図7に示すように、スピーカ・マイ
ク間伝達関数は過去2定常区間i 、i-1 のエコーキャン
セラの推定伝達関数をFAi(z)、FBi(z)なる特性
を有するフィルタに通すことにより得られることが分
る。
【0088】図7よりFAi(z)、FBi(z)は、
【数9】 ここで、分解フィルタFAi(z)、FBi(z)が安定で
ある条件は、αAi <1であり、CASE-1では利得差
がi-1 定常区間からi 定常区間で減少する必要がある。
また、CASE-2では利得差が増加する必要がある。一
方、マイクアレイではマイク出力レベルに比例して利得
を上げる必要がある。従って、遅延差が大きい場合には
左右のマイク出力レベル比も大きいことより、遅延差と
利得差は比例すると考えられる。このとき、CASE-
1、CASE-2ともTAiは負になるため、図7のフィル
タはそのままでは実現不可能になる。これを解決するた
め、フィルタFAi(z)、FBi(z)に入力するインパ
ルス応答の時間方向を逆に処理する。すなわち、推定伝
達関数、分解フィルタの特性
【数10】 なる特性にした後、通常のフィルタ処理を施する。この
処理は、図8に示すように入力する推定伝達関数の時間
順序を逆にするだけで、図7と同一構成のフィルタ処理
で実現できる。
【0089】次に、過渡時の打ち消し量劣化の防止に関
する一実施例について説明する。
【0090】音像定位関数の変化は、マイク合成関数の
変化とは異なり、反響路特性の遅延成分により、過渡的
な状態を生成する。すなわち、音像定位関数の変化から
j サンプル後(j <N Nはエコーキャンセラのタップ
数)では、例えば右スピーカ・右マイク間の反響路特性
をNタップのFIRフィルタでモデル化して考えると、
その前半j タップ分のデータは変化後の音像定位関数G
Ri(z)の出力であり、後半N-j+1タップ分は変化以
前のGRi(z)の出力データが残っていることになる。
従って、マイク合成関数の変化と同時にエコーキャンセ
ラの全係数を置き換えると、反響路特性インパルス応答
の後半は変化以前の特性であるため、一時的な打ち消し
量の劣化をきたす。これを防止するには、音像定位関数
の変化時に以下に示すようなエコーキャンセラのタップ
係数の前半・後半で異なる係数置き換え処理を適用す
る。例えば(9)式に示すように、音像定位関数の変化
からj サンプルにおけるk 番目のエコーキャンセラのタ
ップ係数を考える。
【0091】
【数11】 以上のもとで、i+1 定常区間、j サンプル目のエコーキ
ャンセラの伝達関数を、
【数12】 で与えることにより、音像定位関数の変化時点の一時的
な打ち消し量の劣化を防ぐことができる。
【0092】ところで、広帯域ステレオ音声は将来のマ
ルテメディア通信において臨場感・自然感の向上に有効
である。この場合、通信路のB−ISDN網は、セルと
呼ばれる固定長パケットを用いるため、広帯域ステレオ
音声を効率良くパケット符号化する必要が有る。一方、
ステレオ音声は上述したように左右の音声間の相関成分
を利用して効率良く符号化できる。このような背景か
ら、以下に広帯域ステレオ音声パケット符号化方式およ
びシステムを提案する。
【0093】ステレオ音声は左右の音声間の相関成分を
利用して効率よく符号化できる(S.MINAMI. “A Stereo
phonic Voice Coding Method ForTeleconferencing. ”
IEEE ICC ’86 46.6, June 1986及びS.MINAMI. “Stre
ophonic ADPCM Speech Coding Method” IEEE ICASSP
90. April 1990参照)。図9に示すように左右各チャン
ネルの信号に利得差,遅延差を与えた後、加算・減算し
て相関成分・相関差成分を生成する。これらはCELP
等のモノラル音声符号化を施した後、利得差,遅延差か
らなる相関付加成分とともにパケット伝送する。
【0094】復号側では、図10に示すように相関和成
分・相関差成分を各々復号した後、加算・減算を行い、
付加情報として伝送された相関成分を用いて利得・遅延
を復元して左右の信号を生成する。
【0095】システム面から検討する。
【0096】臨場感通信においては7KHz以上の広帯
域音声が望ましい。そこで、図11に示すように帯域分
割処理は例えば4KHz毎のサブ帯域に分割して処理す
る。各帯域の和成分は通常モノラル音声であるため固定
レートで符号化し、差成分は複数発言時にのみ情報量が
増大するため可変レートで符号化する。付加情報は和成
分とともに伝送する。また、受話器をもたずに通話でき
る拡声通話は臨場感通信において重要な機能である。こ
の場合、エコーキャンセラはスイッチ感のない自然な双
方向通話が実現できる反面、処理量が大きい。特に、ス
テレオ系にそのまま適用するとモノラルの4倍の処理量
が必要になりコスト上不利である。そこで、図12に示
すように推定伝達関数分解・合成型エコーキャンセラ
(S.MINAMI. “An Acoustic Echo Canceller For Pseud
o-Streophonic Voice ” IEEE GLOBCOM ’87 35.1 Nov.
1987 及び南 重信.“テレビ会議・マルチメディア端
末音声系に適用する推定伝達関数分解合成型エコーキャ
ンセラ”. 電子情報通信学会 第6回 回路とシステ
ムワークショップ pp.333.338 参照)を左右の相関和
成分に適用し、比較的電力の低い相関差成分に音声スイ
ッチ方式を適用してモノラル並の処理量で実現できる。
【0097】通信互換性・セルロスを検討する。
【0098】広帯域音声端末と狭帯域音声端末との通
信,ステレオ端末とモノラル端末との通信等、多様な端
末間の相互通信を可能にする通信互換性の確保はマルチ
メディア通信における重要な課題の一つである。また、
トラフィック時に発生するセルロス対策も考慮する必要
がある。そこで、図13に示すように例えば通常のモノ
ラル端末は伝送されたパケットのうち相関和成分をその
まま復号すれば通常のモノラル音声を生成できる。ま
た、相関和成分と相関付加情報を優先パケットとして伝
送し差成分を非優先とすると、差成分が輻輳等で消失し
ても、最低限、疑似ステレオ音声として生成できる。
【0099】映像符号化との連動を検討する。
【0100】本発明を適用したシステムでは、検出した
チャンネル間相関より発言者位置が検出でき、発言者を
より高精細に符号化したり発言者のウインドウを抽出し
たりできる。
【0101】以上、チャンネル間相関を利用した広帯域
ステレオ音声符号化方式、および本方式を用いた音声系
のシステム構成について述べた
【0102】
【発明の効果】本発明によれば、音源が単独発言の時は
伝送情報量の少ない疑似ステレオ音声符号化を、音源が
複数発言の場合には従来通りの完全ステレオ音声符号化
が適用でき、効率的なステレオ音声符号化が実現でき
る。また、復号側では送られてきた情報が疑似ステレオ
音声でも、完全ステレオ音声でも最適な復号ができる。
【0103】さらに、従来、処理量がモノラルの4倍必
要であったステレオ音声用ECも疑似ステレオ用の推定
伝達関数分解・合成形ECを用いることで、モノラルの
2ないし4倍の処理量で効率的に実現できる。
【0104】このように本発明を用いれば、従来、困難
であったステレオ音声を遠隔会議システムやマルチメデ
ィア端末にローコストで導入でき、臨場感や発言者の識
別の向上に大きく貢献する。
【図面の簡単な説明】
【図1】本発明が適用されるマルチメディア会議システ
ムの構成を示す図。
【図2】マルチメディア会議システムにおける書類の流
れを示す図。
【図3】ステレオ−疑似ステレオ−モノラル音声間の通
信互換性を確保する一実施例を示す図。
【図4】図3に示す第2のエコー抑圧手段の具体例を示
す図。
【図5】図3に示す第2のエコー抑圧手段の他の具体例
を示す図。
【図6】マイクアレイに遅延制御を適用した場合の構成
例を示す図。
【図7】推定伝達関数分解フィルタの構成例を示す図。
【図8】安定性を保証した処理の構成例を示す図。
【図9】他の実施例に係る符合化装置の構成例。
【図10】他の実施例に係る復合化装置の構成例。
【図11】他の実施例に係る符合化方式を示す図。
【図12】他の実施例に係るECの構成例。
【図13】他の実施例に係るセルロス対策の説明図。
【図14】テレビ会議システムの概略図。
【図15】マルチメディア端末の概略図。
【図16】完全ステレオ音声系のシステムにECの技術
を採用した例を示す図。
【図17】疑似ステレオ音声系にECの技術を採用した
例を示す図。
【図18】分解合成形エコーキャンセラの概略を示す
図。
【符号の説明】
101-1 、101-2 …マイク、102-1 、102-2 …遅延・利得
付与部、103 、104 、110-1 …加算器、105 、110-2 …
減算器、107 …音響用エコーキャンセラ、108…遅延推
定部、111-1 、111-2 …疑似ステレオ合成部、113 …第
2のエコー除去部、114 …送信制御部、115 …電力検出
器。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) H04B 14/04 G10K 15/00 H04B 3/20 H04N 5/60 H04S 5/00

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 相手端末において少なくとも2チャンネ
    ルの音声より得られた第1の複数音声間の伝達関数の近
    似情報または発言者位置情報のうち少なくとも一方であ
    る第1の付加情報と、前記第1の複数音声の和または前
    記第1の複数音声に遅延もしくは利得を与えた後の和成
    分のいずれかである第1のモノラル音声と、前記第1の
    複数音声の差または前記第1の複数音声に遅延もしくは
    利得を与えた後の差成分のいずれかである第2のモノラ
    ル音声とを受信し、前記第1のモノラル音声と前記第1
    の付加情報より疑似ステレオ音声を合成する手段と、前
    記疑似ステレオ音声と前記第2のモノラル音声より完全
    ステレオ音声を合成する手段とを有する復号化部と、 少なくとも2チャンネルのマイクより集音した自端末の
    第2の複数音声を用い、第2の複数音声間の伝達関数の
    近似情報と発言者位置情報のうち少なくとも一方である
    第2の付加情報と、前記複数音声の和または前記複数音
    声に遅延もしくは利得を与えた後の和成分のいずれかで
    ある第3のモノラル音声と、前記複数音声の差または前
    記複数音声に遅延もしくは利得を与えた後の差成分のい
    ずれかである第4のモノラル音声を生成する符号化部
    と、 前記第1のモノラル音声と前記第3のモノラル音声より
    前記第3のモノラル音声に含まれる前記第1モノラル音
    声のエコー成分を抑圧する第1のエコー抑圧手段と、 前記第2のモノラル音声と前記第4のモノラル音声より
    前記第4のモノラル音声に含まれる前記第2のモノラル
    音声のエコー成分を抑圧する第2のエコー抑圧手段とを
    具備することを特徴とする音声符号復号化装置。
  2. 【請求項2】 第1のエコー抑圧手段は、付加情報を用
    い過去の複数の推定伝達関数より新たな付加情報に対応
    する推定伝達関数の初期値を設定する疑似ステレオ用エ
    コーキャンセラ方式が用いられていることを特徴とする
    請求項1記載の音声符号復号化装置。
  3. 【請求項3】 第2のエコー抑圧手段は、付加情報を用
    い過去の複数の推定伝達関数より新たな付加情報に対応
    する推定伝達関数の初期値を設定する疑似ステレオ用エ
    コーキャンセラ方式が用いられていることを特徴とする
    請求項1記載の音声符号復号化装置。
  4. 【請求項4】 少なくとも2チャンネルの音声より前記
    音声間の伝達関数の近似情報または発言者位置情報のう
    ち少なくとも一方を得る手段と、前記各音声間の伝達関
    数の近似情報または発言者位置情報のうち少なくとも一
    方の情報を用いて左右の音声に利得または遅延のうち少
    なくとも一方を与えるマイクアレイ手段と、前記マイク
    アレイ手段により出力された音声を加算する手段と、前
    記マイクアレイ手段により出力された音声を減算する手
    段とを具備することを特徴とする音声符号化装置。
  5. 【請求項5】 少なくとも2チャンネルの音声より得ら
    れた複数音声間の伝達関数の近似情報と発言者位置情報
    の少なくともいずれか一方である付加情報と、前記複数
    音声の和または前記複数音声に遅延もしくは利得を与え
    た後の和成分のいずれかである第1のモノラル音声より
    疑似ステレオ音声を合成する手段と、前記複数音声の差
    または前記複数音声に遅延もしくは利得を与えた後の差
    成分のいずれかである第2のモノラル音声を用いて完全
    なステレオ音声を合成する手段とを具備することを特徴
    とする音声復号化装置。
  6. 【請求項6】 少なくとも2チャンネルのステレオ音声
    を入力し、各ステレオ音声の和成分、差成分、およびス
    テレオ音声間の相関情報もしくは、その近似情報を送出
    することを特徴とするステレオ音声符号化方式。
  7. 【請求項7】 少なくとも2チャンネルのステレオ音声
    を入力し、各ステレオ音声の相関情報に基づいて各ステ
    レオ音声に遅延差・利得差の少なくとも一方の処理を施
    した後、処理後の各ステレオ音声の和成分、差成分、お
    よびステレオ音声間の相関情報もしくは、その近似情報
    を送出することを特徴とする請求項6記載のステレオ音
    声符号化方式。
  8. 【請求項8】 受信した各ステレオ音声の和成分、差成
    分、およびステレオ音声間の相関情報もしくは、その近
    似情報をもとにステレオ音声を合成することを特徴とす
    るステレオ音声復合方式。
  9. 【請求項9】 各ステレオ音声の相関情報に基づいて各
    ステレオ音声に遅延差・利得差の少なくとも一方の処理
    を施したステレオ音声の和成分、差成分、およびステレ
    オ音声間の相関情報もしくは、その近似情報を受信し、
    これらの情報をもとにステレオ音声を合成することを特
    徴とするステレオ音声復合方式。
JP02933694A 1994-02-28 1994-02-28 音声符号復号化装置、音声符号化装置及び音声復号化装置 Expired - Fee Related JP3400064B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02933694A JP3400064B2 (ja) 1994-02-28 1994-02-28 音声符号復号化装置、音声符号化装置及び音声復号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02933694A JP3400064B2 (ja) 1994-02-28 1994-02-28 音声符号復号化装置、音声符号化装置及び音声復号化装置

Publications (2)

Publication Number Publication Date
JPH07240722A JPH07240722A (ja) 1995-09-12
JP3400064B2 true JP3400064B2 (ja) 2003-04-28

Family

ID=12273402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02933694A Expired - Fee Related JP3400064B2 (ja) 1994-02-28 1994-02-28 音声符号復号化装置、音声符号化装置及び音声復号化装置

Country Status (1)

Country Link
JP (1) JP3400064B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2372666B (en) * 1998-05-08 2002-11-27 Orange Personal Comm Serv Ltd Mobile communications
JP3693588B2 (ja) 2000-11-01 2005-09-07 富士通株式会社 エコー抑制システム
JP3727258B2 (ja) 2001-08-13 2005-12-14 富士通株式会社 エコー抑制処理システム
JP4330302B2 (ja) 2001-09-27 2009-09-16 日産自動車株式会社 音声入出力装置
US7720232B2 (en) 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US7720236B2 (en) 2004-10-15 2010-05-18 Lifesize Communications, Inc. Updating modeling information based on offline calibration experiments
US8116500B2 (en) 2004-10-15 2012-02-14 Lifesize Communications, Inc. Microphone orientation and size in a speakerphone
US7760887B2 (en) 2004-10-15 2010-07-20 Lifesize Communications, Inc. Updating modeling information based on online data gathering
US7903137B2 (en) 2004-10-15 2011-03-08 Lifesize Communications, Inc. Videoconferencing echo cancellers
US7593539B2 (en) 2005-04-29 2009-09-22 Lifesize Communications, Inc. Microphone and speaker arrangement in speakerphone
US7970150B2 (en) 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
JP4552876B2 (ja) * 2006-03-14 2010-09-29 ヤマハ株式会社 音声信号送受信装置及び音声会議装置
WO2009081567A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2009212945A (ja) * 2008-03-05 2009-09-17 Mitsubishi Electric Corp エコー消去装置
US8504378B2 (en) 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8898053B2 (en) 2009-05-22 2014-11-25 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therein

Also Published As

Publication number Publication date
JPH07240722A (ja) 1995-09-12

Similar Documents

Publication Publication Date Title
JP3400064B2 (ja) 音声符号復号化装置、音声符号化装置及び音声復号化装置
CA1268546A (en) Stereophonic voice signal transmission system
US6931123B1 (en) Echo cancellation
JP3405512B2 (ja) 音響エコーキャンセル方法とそのシステム
JP5177820B2 (ja) 強調された主観的ステレオオーディオのためのシステムと方法
US5555310A (en) Stereo voice transmission apparatus, stereo signal coding/decoding apparatus, echo canceler, and voice input/output apparatus to which this echo canceler is applied
US8194851B2 (en) Voice processing apparatus, voice processing system, and voice processing program
US7062041B2 (en) Device and method for carrying out multichannel acoustic echo cancellation with a variable number of channels
JP5034607B2 (ja) 音響エコーキャンセラシステム
Gänsler et al. Stereophonic acoustic echo cancellation and two‐channel adaptive filtering: an overview
JPH0974446A (ja) 音声通信制御装置
JP3625325B2 (ja) 拡声通話装置およびエコーキャンセラ
JPH0813012B2 (ja) 擬似ステレオ音声用エコーキャンセラ
JP3486140B2 (ja) 多チャネル音響結合利得低減装置
JPS62239631A (ja) ステレオ音声伝送蓄積方式
JP2588793B2 (ja) 会議通話装置
JP3207281B2 (ja) ステレオ音声符号化・復号化方式、ステレオ音声復号化装置及び単独発言/複数同時発言判別装置
Beracoechea et al. On building immersive audio applications using robust adaptive beamforming and joint audio-video source localization
JP3207284B2 (ja) ステレオ音声伝送装置
JP2945677B2 (ja) 反響打ち消し装置
JPS6276938A (ja) ステレオ信号伝送方法、符号化装置および復号化装置
JPS6251844A (ja) ステレオ信号伝送符号化・復号化方法、符号化装置および復号化装置
Yensen et al. Synthetic stereo acoustic echo cancellation structure with microphone array beamforming for VoIP conferences
Chiucchi et al. A virtual stereo approach to stereophonic acoustic echo cancellation
JPH01303852A (ja) ステレオ音声伝送システム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110221

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120221

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120221

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130221

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees