JP2003273782A

JP2003273782A - 音声処理装置、コンピュータプログラム、及び記録媒体

Info

Publication number: JP2003273782A
Application number: JP2002070869A
Authority: JP
Inventors: Yasuo Nomura; 康雄野村; Yoshinobu Kajikawa; 嘉延梶川
Original assignee: Osaka Industrial Promotion Organization
Current assignee: Osaka Industrial Promotion Organization
Priority date: 2002-03-14
Filing date: 2002-03-14
Publication date: 2003-09-26

Abstract

(57)【要約】【課題】音響エコー信号の非線形成分を速やかに除去
することができる音声処理装置、コンピュータプログラ
ム、及び該コンピュータプログラムが記録されているコ
ンピュータでの読取りが可能な記録媒体の提供。【解決手段】通信先からの音声信号が入力される音声
信号入力端子１と、入力された音声信号を音声として出
力する拡声部３と、外部の音声を入力して音声信号を生
成する受音部４と、生成した音声信号を通信先に送信す
る音声信号出力端子２とを備え、音声信号入力端子１か
ら音声信号出力端子２に至る経路にて音響エコー信号の
線形成分及び分割した周波数帯域毎に音響エコー信号の
非線形成分を推定するサブバンド適応フィルタ５を備
え、受音部４にて発生した音響エコー信号から推定した
音響エコー信号の線形成分及び非線形成分を差引くよう
にしている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声の双方向通信で
発生する音響エコー信号を低減するための音声処理装
置、入力された音声信号に基づき音響エコー信号を低減
させる処理を行うコンピュータプログラム、及び該コン
ピュータプログラムが記録されているコンピュータでの
読取りが可能な記録媒体に関する。

【０００２】

【従来の技術】拡声機能付き携帯電話機、自動車電話等
の装置にあっては、テレビ会議システム、ハンズフリー
フォン等と同様に、ハンドセットを用いることなく、ス
ピーカとマイクロホンとを利用して通話先の遠端話者と
通話することが可能である。

【０００３】拡声機能付き携帯電話機、自動車電話等で
は携帯電話網のような通信回線を通じて音声信号の送受
信を行う。このとき、通話先から送信された音声信号
は、スピーカによって拡声されて話者の耳に届くととも
に、拡声された音声がマイクロホンに回込み、拡声音が
重畳された音声信号が通話先に送信されることになる。
すなわち、通話先の遠端話者がマイクロホンに向かって
発した音声が、その遠端話者の耳に遅れて戻ってくると
いうフィードバック現象が生じることになり、いわゆる
音響エコーが発生する。

【０００４】このような音響エコーは自然な通話を妨害
するため、抑制する必要がある。従来、音響エコーを抑
制するために、スピーカからマイクロホンに至るスピー
カ出力の伝搬路（音響エコー経路）における音響エコー
信号を適応フィルタにより推定することによって、疑似
音響エコー信号を生成し、生成した疑似音響エコー信号
を差引くことによって音響エコーを抑制する音響エコー
キャンセラ装置が開発されている。

【０００５】前述の適応フィルタには、ＦＩＲ（finite
impulse response）フィルタに代表される線形適応フ
ィルタを用いることが一般的である。適応フィルタとし
て線形適応フィルタを用いた場合、音響エコー経路に非
線形の要因が存在するときにはその性能が劣化すること
が知られている。ところで、拡声通話で用いられるスピ
ーカは非線形性を有するため、従来の音響エコーキャン
セラ装置では十分に音響エコー信号を低減することがで
きないという問題点を有していた。特に、拡声機能付き
携帯電話機で利用されるスピーカは安価であり、しかも
小型のものであることが多く、非線形性が強くなるため
性能の劣化が著しいという問題点を有していた。

【０００６】そこで、前述の問題点を解決するために、
非線形適応フィルタを利用した音響エコーキャンセラ装
置が開発されている。図９は従来の音響エコーキャンセ
ラ装置を説明するブロック図である。音響エコーキャン
セラ装置は、例えば、拡声機能付き携帯電話機、自動車
電話等に内蔵されている。通話相手からデジタル信号に
よって送信された音声信号は、公衆電話回線網、携帯電
話網等の通信回線を通じて音声信号入力端子１に入力さ
れた後、スピーカのような拡声部３によって外部に音声
として出力される。また、話者の音声はマイクロホンの
ような受音部４から入力された後、音声信号出力端子２
から通信回線を通じて通話先に送信される。

【０００７】線形適応フィルタ５ａは、音声信号入力端
子１から入力された音声信号に基づいて、受音部４に生
じる音響エコー信号の線形成分を推定して、疑似音響エ
コー信号の線形成分を生成するようになっており、非線
形適応フィルタ５ａは、同様に、受音部４に生じる音響
エコー信号の非線形成分を推定して、疑似音響エコー信
号の非線形成分を生成するようになっている。生成され
た疑似音響エコー信号の線形成分と非線型成分とは演算
処理部５ｃによって加算されて出力される。

【０００８】そして、線形成分と非線形成分とを加算し
て生成した疑似音響エコー信号は演算処理部７に入力さ
れる。演算処理部７は、受音部４にて発生した音響エコ
ー信号から疑似音響エコー信号を差引く処理を行う。し
たがって、受音部４で発生した音響エコー信号は、演算
処理部７にて消去されることになる。

【０００９】

【発明が解決しようとする課題】しかしながら、従来の
音響エコーキャンセラ装置では、Volterraフィルタと呼
ばれる非線形適応フィルタが利用されているが、Volter
raフィルタの収束速度（音響エコー経路の同定速度）は
一般的に遅く、また、達成されるエコー消去量が劣化す
る等の問題点を含んでいるため、実用化の面で克服すべ
き多くの課題が残されていた。とりわけ、拡声機能付き
携帯電話機で利用されるスピーカは安価であり、しかも
小型のものであることが多く、このようなスピーカから
出力される音声は非線形性が強くなるため音響エコー信
号の非線形成分を確実かつ速やかに低減することができ
る音響エコーキャンセラ装置の開発が望まれていた。

【００１０】本発明は斯かる事情に鑑みてなされたもの
であり、受信した音声信号に基づき、音響エコー信号の
線形成分を推定する手段と、音響エコー信号の非線形成
分を周波数帯域毎に推定する手段とを備え、推定した音
響エコー信号の線形成分及び各周波数帯域毎の非線形成
分を除去する構成とすることにより、速やかに音響エコ
ー信号の非線形成分を算出することができる音声処理装
置及びコンピュータプログラム、並びに該コンピュータ
プログラムが記録されているコンピュータでの読取りが
可能な記録媒体を提供することを目的とする。

【００１１】

【課題を解決するための手段】第１発明に係る音声処理
装置は、通信機器から送信された音声信号を受信する受
信手段と、該受信手段にて受信した音声信号に基づいて
外部に音声を出力する音声出力手段と、外部の音声を受
音部して音声信号を生成する音声入力手段と、該音声入
力手段にて生成された音声信号を前記通信機器へ送信す
る送信手段とを備え、前記音声出力手段から出力された
音声が前記音声入力手段に入力されることにより生じる
音響エコー信号を低減すべくなしてある音声処理装置に
おいて、前記受信手段にて受信した音声信号に基づき、
音響エコー信号の線形成分を推定する手段と、前記音声
信号を予め定められた複数の周波数帯域に分割する手段
と、分割した音声信号に基づき、音響エコー信号の非線
形成分を各周波数帯域毎に推定する手段と、推定した音
響エコー信号の線形成分及び各周波数帯域毎の非線形成
分を前記音声入力手段に生じた音響エコー信号から除去
する手段とを備えることを特徴とする。

【００１２】第２発明に係る音声処理装置は、第１発明
に係る音声処理装置において、音響エコー信号の非線形
成分を推定する際、Volterra級数と周波数帯域毎に分割
した音声信号との畳込み演算処理を行うべくなしてある
ことを特徴とする。

【００１３】第３発明に係る音声処理装置は、第１発明
又は第２発明に係る音声処理装置において、周波数帯域
毎に分割した音声信号の大きさを算出する手段と、算出
した音声信号の大きさに基づいて前記畳込み演算処理に
用いるVolterra級数のタップ数を算出する手段とを備え
ることを特徴とする。

【００１４】第４発明に係るコンピュータプログラム
は、コンピュータに、入力された音声信号に基づいて音
響エコー信号の線形成分を推定させるステップと、コン
ピュータに、入力された音声信号を複数の周波数帯域毎
に分割させるステップと、コンピュータに、分割した音
声信号に基づき音響エコー信号の非線形成分を前記周波
数帯域毎に推定させるステップと、コンピュータに、推
定した音響エコー信号の線形成分及び非線形成分を送信
すべき音声信号から除去させるステップと、コンピュー
タに、音響エコー信号の線形成分及び非線形成分を除去
した音声信号を送信させるステップとを有することを特
徴とする。

【００１５】第５発明に係るコンピュータでの読取りが
可能な記録媒体は、コンピュータに、入力された音声信
号に基づいて音響エコー信号の線形成分を推定させるス
テップと、コンピュータに、入力された音声信号を複数
の周波数帯域毎に分割させるステップと、コンピュータ
に、分割した音声信号に基づき音響エコー信号の非線形
成分を前記周波数帯域毎に推定させるステップと、コン
ピュータに、推定した音響エコー信号の線形成分及び非
線形成分を送信すべき音声信号から除去させるステップ
と、コンピュータに、音響エコー信号の線形成分及び非
線形成分を除去した音声信号を送信させるステップとを
有するコンピュータプログラムが記録されていることを
特徴とする。

【００１６】第１発明、第４発明、及び第５発明にあっ
ては、受信した音声信号に基づき、音響エコー信号の線
形成分を推定する手段と、音響エコー信号の非線形成分
を周波数帯域毎に推定する手段とを備え、前記音声入力
手段に発生した音響エコー信号から推定した音響エコー
信号の線形成分及び各周波数帯域毎の非線形成分を除去
するようにしている。したがって、例えば、音響エコー
信号の非線形成分を算出する際、Volterraフィルタを用
いることによって、高周波数帯域での演算量を特に削減
することが可能となり、全体として音響エコー信号の非
線形成分を速やかに算出することが可能となる。

【００１７】第２発明にあっては、音響エコー信号の非
線形成分を推定する際、Volterra級数と周波数帯域毎に
分割した音声信号との畳込み演算処理を行うようにして
いる。例えば、Volterra級数の２次の項は、その係数が
４点に３点が零値になっているため、畳込み演算処理を
行う際の冗長性を排除することができ、演算量をおよそ
１／４に削減することができるため、音響エコー信号の
非線形成分を速やかに算出することが可能である。

【００１８】第３発明にあっては、算出した周波数帯域
毎の音声信号の大きさに基づいてVolterra級数のタップ
数を算出するようにしている。したがって、各周波数帯
域毎に不必要な演算処理を行わずに済むため、演算量を
低減することができ、速やかに音響エコー信号の非線形
成分を算出することが可能である。

【００１９】

【発明の実施の形態】以下、本発明の音声処理装置を具
体化した音響エコーキャンセラ装置についてその実施の
形態を示す図面を用いて具体的に説明する。音響エコー
キャンセラ装置は、例えば、拡声機能付き携帯電話機、
自動車電話機等に備えられており、スピーカのような音
声出力手段から出力された音声がマイクロホンのような
音声入力手段に入力されることによって生じる音響エコ
ーを抑制する機能を有する。

【００２０】実施の形態１．図１は本実施の形態に係る
音響エコーキャンセラ装置を説明するブロック図であ
る。図中１は、通話相手の遠端話者が持つ電話機、携帯
電話機等の通信端末装置（不図示）から送信される音声
信号を公衆電話回線網、携帯電話網等の通信回線（不図
示）を介して受信するための音声信号入力端子であり、
該音声信号入力端子１に入力された音声信号は拡声部３
から音声として外部に出力される。また、話者から発せ
られる音声は、受音部４から入力された後、音声信号出
力端子２から音声信号として出力され、遠端話者の通信
端末装置に送信される。

【００２１】なお、前記通信回線を通じて送受信がされ
る音声信号はデジタル信号であることが望ましい。しか
し、アナログ信号によって音声信号を送受信することも
可能であり、その場合には、音声信号入力端子１に入力
された音声信号をデジタル信号に変換するＡ／Ｄ変換
器、及び音声信号出力端子２から送信する信号をアナロ
グ信号に変換するＤ／Ａ変換器を備えている必要があ
る。

【００２２】拡声部３は、図に示していないＤ／Ａ変換
器、増幅器、スピーカを備えており、音声信号入力端子
１に入力された音声信号が音声として出力される。受音
部４は、図に示していないマイクロホン、増幅器、Ａ／
Ｄ変換器を備えており、外部の音声を受音してデジタル
信号による音声信号を生成する。

【００２３】前述したように、拡声部３が有するスピー
カは非線形性が強く、音声信号の入出力関係は次式のよ
うなVolterra級数展開によって表すことが可能である。

【００２４】

【数１】

【００２５】ここで、ｘ（ｎ）及びｙ（ｎ）は、それぞ
れ入力信号および出力信号であり、ｈ₁ （ｋ₁ ）は１次
のVolterra核、ｈ₂ （ｋ₁ ，ｋ₂ ）は２次のVolterra核
を表している。本実施の形態では、簡易化のために２次
のVolterra核まで採用し、また、Volterra核が有限のタ
ップ数Ｎを持つとして音声信号の伝達経路における非線
形性を表現する。

【００２６】本発明では出力の音声信号を算出する際に
エリアジングが発生することを回避するために２次Volt
erraフィルタの係数を２次元でアップサンプリングして
おく。この場合、２次Volterraフィルタの時間領域の係
数のうちｋ₁ ，ｋ₂ が共に偶数である係数以外の係数は
零値で表現され、その２次Volterraフィルタの時間領域
の係数ｈ₂ ′（ｋ₁ ，ｋ₂ ）、及び周波数領域の係数Ｈ
₂ ′（ｍ₁ ，ｍ₂ ）は、以下のように表すことができ
る。

【００２７】

【数２】

【００２８】

【数３】

【００２９】式（３）による場合、入力の音声信号をサ
ンプリング周波数の１／４に帯域制限し、出力信号を４
倍にしたとき、元の２次Volterraフィルタと同様の畳込
み演算の結果を算出できることが分かる。なお、この２
次Volterraフィルタの係数は４点に３点が零値であり、
畳込み演算処理を行う際には、零値の係数のところを計
算する必要がなくなる。そこで、アップサンプリングさ
れた２次VolterraフィルタＨ₂ ^'における冗長性を排除す
ることができ、演算量が多い２次Volterraフィルタにお
ける演算量をおよそ１／４に削減することが可能であ
る。

【００３０】そこで、本発明では音声信号入力端子１に
入力された音声信号を複数の周波数帯域に分割し、夫々
の周波数帯域にてVolterra級数と音声信号との畳込み演
算処理を行うことにより演算量を削減している。

【００３１】また、式（１）から理解されるように、Vo
lterra級数の１次の項の演算量は、およそタップ数Ｎに
比例するのに対し、Volterra級数の２次の項の演算量は
タップ数Ｎの二乗に比例する。したがって、タップ数Ｎ
を適切に定める必要があり、本発明では、音声信号が持
つ信号パワー及びVolterra級数の係数パワーに基づきタ
ップ数Ｎを算出している。

【００３２】これらの演算処理は、図１において音声信
号入力端子１から音声信号出力端子２に至る経路に設け
られたサブバンド適応フィルタ５及びタップ数制御部６
が担っている。

【００３３】サブバンド適応フィルタ５では、音声信号
入力端子１に入力された音声信号に基づきVolterra級数
の１次の項を算出して音響エコー信号の線形成分を模擬
した信号を生成すると共に、前記音声信号を複数の周波
数帯域に分割して、各周波数帯域毎にVolterra級数の２
次の項を算出して音響エコー信号の非線形成分を模擬し
た信号を生成する。

【００３４】また、タップ数制御部６では、各周波数帯
域の音声信号が持つ信号パワー及びVolterra係数が持つ
係数パワーに基づいてタップ数を算出しており、算出し
た結果がサブバンド適応フィルタ５に出力される。算出
されたタップ数は、サブバンド適応フィルタ５で各周波
数帯域毎にVolterra級数の２次の項を算出する際のタッ
プ数として利用される。

【００３５】そして、サブバンド適応フィルタ５にて生
成された疑似音響エコー信号の線形成分及び各周波数帯
域の非線形成分はサブバンド適応フィルタ５の内部で加
算された後、演算処理部７に出力される。演算処理部７
では受音部４に発生した音響エコー信号から疑似音響エ
コー信号を差引くようになっている。したがって、受音
部４に発生した音響エコー信号は演算処理部７で消去さ
れ、音声信号出力端子２から出力される音響エコー信号
を低減している。

【００３６】図２は、サブバンド適応フィルタ５の内部
構成を示すブロック図である。図２に示した如く、線形
フィルタ５１によりVolterra級数の１次の項と入力され
た音声信号との畳込み演算処理が行われて、音響エコー
信号の線形成分が算出される。また、サブバンド適応フ
ィルタ５に入力された音声信号は、ローパスフィルタ５
２及びハイパスフィルタ５３によって、２つの周波数帯
域に分割され、それぞれから出力された音声信号が低域
フィルタ５４、低・高域フィルタ５５、及び高域フィル
タ５６の各帯域フィルタに入力される。そして、各周波
数帯域の音声信号とVolterra級数の２次の項との畳込み
演算処理が行われて、音響エコー信号の非線形成分が算
出される。

【００３７】そして、線形フィルタ５１及び各帯域フィ
ルタで算出された音響エコー信号の線形成分及び非線形
成分は演算処理部５７にて足合わされ、サブバンド適応
フィルタ５の外部に出力される。

【００３８】なお、図２においては、入力された音声信
号の周波数帯域をローパスフィルタ５２とハイパスフィ
ルタ５３とにより２つに分割する構成としたが、分割す
る数は２に限定されるものではなく、複数の帯域フィル
タを設けることによって２以上の周波数帯域に分割する
ことが可能である。

【００３９】図３は、各帯域フィルタでの演算量を模式
的に示したグラフである。前述したように本発明にあっ
ては、各周波数帯域の音声信号が持つ信号パワー及びフ
ィルタ係数が持つ係数パワーに基づいてタップ数を算出
している。すなわち、信号パワーの小さい部分、及びVo
lterraフィルタのフィルタ係数が小さい部分を削り取る
ことによって、全体の演算量を削減することができる。
とくに、音響エコー信号を周波数帯域別に着目した場
合、低域より高域の方が早く振幅が減衰することを利用
することができる。

【００４０】したがって、図３（ａ）に示した如く、低
域フィルタ５４では２次元でアップサンプリングしたフ
ィルタ係数をすべて利用して畳込み演算処理を行う必要
があるのに対し、低域・高域フィルタ５５では、図３
（ｂ）に示した如く、例えば１／３の演算量で済み、高
域フィルタ５６では、図３（ｃ）に示した如く、例えば
１／６の演算量で済む。

【００４１】図４は、本実施の形態に係る音響エコーキ
ャンセラ装置のエコー消去特性を示すグラフである。横
軸には時間をとり、縦軸にはエコー消去量をとる。ここ
で、エコー消去量は、ある入力信号（例えば、有色雑音
または白色雑音）ｙ₀ （ｋ）と、該入力信号ｙ₀ （ｋ）
を入力した場合に推定される音響エコー信号ｙ₁ （ｋ）
とを用いて、

【００４２】

【数４】

【００４３】のように表すことができる。

【００４４】図４では、本実施の形態の音響エコーキャ
ンセラ装置によるエコー消去特性をグラフ４ａに示して
おり、比較の対象として、従来の非線形適応フィルタを
用いた結果（グラフ４ｂ）、Stengerの手法を用いたシ
ュミレーションの結果（グラフ４ｃ）、Sicuranzaの手
法を用いたシュミレーションの結果（グラフ４ｄ）、及
び従来の線形適応フィルタを用いた結果（グラフ４ｅ）
を示している。

【００４５】図４に示した如く、本実施の形態の音響エ
コーキャンセラ装置による場合、比較的短時間でエコー
消去量がおよそ３５［ｄＢ］に達していることが分か
る。従来の非線形適応フィルタを利用した場合（グラフ
４ｂ）、エコー消去量が最終的には３５［ｄＢ］に達し
ているが、立上がりが緩やかであり、非線形成分の同定
速度が遅いという問題点を有していることがグラフから
読取ることができる。また、Stengerの手法およびSicur
anzaの手法は、いずれも２次Volterraフィルタの係数を
２次元でアップサンプリングした際に、フィルタ係数が
小さい部分を手動により取り除いて演算量を減じた手法
であるため、比較的速く音響エコー信号を消去すること
が可能であるが、本発明のものと比較した場合、それら
のエコー消去量は十分であるとは言えない（グラフ４
ｃ，４ｄ）。また、従来の線形適応フィルタを用いた場
合、伝達経路の非線形性が外乱として影響を及ぼすた
め、非線形適応フィルタを用いた何れの結果と比較して
エコー消去量が著しく劣化していることが分かる（グラ
フ４ｅ）。

【００４６】このように、本実施の形態に係る音響エコ
ーキャンセラ装置では、非線形適応フィルタを利用した
従来の音響エコーキャンセラ装置と比較して演算量が大
幅に削減され、エコー消去量の改善が見られる。発明者
らのシュミレーションの結果による場合、従来の非線形
適応フィルタと比較しておよそ１／４の演算量に削減で
きていることが分かった。

【００４７】なお、本実施の形態に係る音響エコーキャ
ンセラ装置を携帯電話機のような小型の装置に組込む場
合、タップ数制御部６及びサブバンド適応フィルタ５は
ＤＳＰ（デジタルシグナルプロセッサ）、専用ＬＳＩ等
を利用することにより実現することができ、また、タッ
プ数制御部６及びサブバンド適応フィルタ５を一体化し
たＤＳＰ又は専用ＬＳＩを用いることも可能である。

【００４８】また、本実施の形態では、Volterra級数の
２次の項まで用いて音声信号の非線形成分を算出してい
るが、３次以上の高次の項を用いて非線形成分を算出す
ることもできることは、勿論のことである。

【００４９】実施の形態２．前述の音響エコーキャンセ
ラ装置は、拡声機能付き携帯電話機、自動車電話機等に
適用されるだけでなく、テレビ会議システム、電話会議
システム等の音声信号の双方向通信が利用されるシステ
ムにも適用することが可能である。本実施の形態では、
テレビ会議システムに適用した実施の形態について説明
する。

【００５０】図５は、本実施の形態に係るテレビ会議シ
ステムを説明する模式図である。図中１００は、テレビ
会議システムで利用される通信装置であり、該通信装置
１００は、公衆電話回線網のような通信ネットワークＮ
を介して通信先の通信装置１００に接続されている。

【００５１】各通信装置１００は、後述するようにスピ
ーカ及びマイクロホンを備えており、通信ネットワーク
Ｎを介して音声信号の送受信を行うことが可能であり、
また、ＣＣＤカメラ、ビデオカメラのような撮像装置、
液晶ディスプレイのような表示装置を備えており、通信
ネットワークＮを介して映像データの送受信を行うこと
が可能である。なお、音声信号及び映像データを送信す
る際、それらを同期して送信することが望ましいが、本
発明にあっては必ずしも必須の要件ではない。

【００５２】本実施の形態では、通信ネットワークＮを
介して音声信号を受信した場合、受信した音声信号に基
づいてコンピュータプログラムの演算処理により音響エ
コー信号の線形成分を算出する。更に、コンピュータプ
ログラムの演算処理により受信した音声信号を複数の周
波数帯域に分割し、それぞれの周波数帯域で適切なタッ
プ数を算出すると共に、音響エコー信号の非線形成分を
各周波数帯域毎に算出する。そして、スピーカにて発生
した音響エコー信号の線形成分及び非線形成分を除去す
るようにしている。

【００５３】図６は、テレビ会議システムで利用される
通信装置１００の内部構成を示すブロック図である。通
信装置１００は、ＣＰＵを有する制御部１０１を備えて
おり、バス１０２を介して、ＲＯＭ１０３、ＲＡＭ１０
４、操作部１０５、表示部１０６、通信部１０７、拡声
部１０８、受音部１０９、撮像部１１０、及び補助記憶
装置１１１等の各ハードウェアに接続されている。制御
部１０１は、ＲＯＭ１０３に格納された本発明のプログ
ラム、演算処理プログラム、キー入力処理プログラム等
の各種制御プログラムに従って、それらのハードウェア
を制御する。ＲＡＭ１０４はＳＲＡＭ又はフラッシュメ
モリ等で構成され、ＲＯＭ１０３に格納された各種制御
プログラムの実行時に発生するデータ、通信部１０７に
て送受信する映像データ等を一時的に記憶する。

【００５４】操作部１０５は、通信装置１００を操作す
るために必要なテンキー、ファンクションキー等のハー
ドウェアキー又はソフトウェアキーを備えている。表示
部１０６は、液晶ディスプレイのような表示装置を備え
ており、通信部１０７にて受信した映像データ等を表示
する。

【００５５】通信部１０７は、モデムのような回線終端
装置を備えており、拡声部１０８及び受音部１０９に入
力された音声信号、並びに撮像部１１０に入力された映
像データ等を通信ネットワークＮを通じて送受信する際
の制御を行う。

【００５６】拡声部１０８は、図に示していないＤ／Ａ
変換器、増幅器、スピーカを備えており、制御部１０１
により信号処理が施された後、音声信号が音声として出
力される。受音部４は、図に示していないマイクロホ
ン、増幅器、Ａ／Ｄ変換器を備えており、外部の音声を
受音してデジタル信号としての音声信号を生成する。

【００５７】撮像部１１０は、ＣＣＤカメラ、又はビデ
オカメラのような撮像装置を有しており、話者を撮像し
て映像データを取得して、通信ネットワークＮを通じて
通信先の通信装置１００に送信する。

【００５８】補助記憶部１１１は、本発明のコンピュー
タプログラム及びデータを記録したＣＤ−ＲＯＭ等の記
録媒体１１２からコンピュータプログラム及びデータを
読取るＣＤ−ＲＯＭドライブ等からなり、読取られたコ
ンピュータプログラム及びデータは、ＲＯＭ１０３に記
憶される。なお、本発明のコンピュータプログラムは、
必ずしも記録媒体１１２により提供される形態である必
要はなく、ＲＯＭ１０３に予め記憶されている形態であ
ってもよい。

【００５９】図７は、通信装置１００による音声信号の
処理手順を示すフローチャートである。制御部１０１
は、まず、通信部１０７にて音声信号を受信したか否か
を判断する（ステップＳ１）。音声信号を受信していな
い場合（Ｓ１：ＮＯ）、音声信号を受信するまで待機す
る。

【００６０】音声信号を受信した場合（Ｓ１：ＹＥ
Ｓ）、通信部１０７を通じて入力された音声信号に基づ
いて音響エコー信号の線形成分を算出する（ステップＳ
２）。音響エコー信号の線形成分を算出する際、Volter
ra級数の１次の項と音声信号との畳込み演算処理を行
う。

【００６１】次いで、制御部１０１は、通信部１０７を
通じて入力された音声信号を予め定めた各周波数帯域毎
に分割する（ステップＳ３）。そして、タップ数の更新
処理を行うことにより（ステップＳ４）、音響エコー信
号の非線形成分を算出する際のタップ数を各周波数帯域
毎に算出する。

【００６２】そして、ステップＳ４で算出したタップ数
を用いて、各周波数帯域毎に音響エコー信号の非線形成
分を算出する（ステップＳ５）。音響エコー信号の非線
形成分を算出する際、Volterraフィルタの２次の項と各
周波数帯域に分割した音声信号との畳込み演算処理を行
う。

【００６３】次いで、制御部１０１は、通信部１０７に
て受信した周波数帯域に分割する前の音声信号を拡声部
１０８から音声として出力する（ステップＳ６）。そし
て、ステップＳ２及びステップＳ５にて算出された音響
エコー信号の線形成分および非線形成分を受音部１０９
で発生した音響エコー信号から除去する（ステップＳ
７）。

【００６４】そして、音響エコー信号を除去した後、通
信部１０７を通じて通信先の通信装置１００に音声信号
を送信する（ステップＳ８）。

【００６５】図８は、タップ数の更新処理の手順を説明
したフローチャートである。まず、制御部１０１は初期
値の設定を行い（ステップＳ１１）、２つのカウンタの
値をｍ＝１、ｐ＝１に設定する（ステップＳ１２）。設
定すべき初期値は、タップ再分配におけるタップ数Ｒ、
サンプル数Ｓ、係数パワーを算出する際に取込むフィル
タ係数の数Ｐ、分割する周波数帯域の数Ｍ等である。こ
れらの初期値の値は、拡声部３の特性、音声信号の伝達
経路の特性を考慮して予め内部的な値としてＲＯＭ１０
３に記憶してあることが望ましい。

【００６６】次いで、制御部１０１は、各周波数帯域に
おける音声信号の信号パワーを算出し（ステップＳ１
３）、また、フィルタ係数の係数パワーを算出する（ス
テップＳ１４）。各周波数帯域における信号パワー及び
係数パワーは、それぞれ式（５）及び式（６）によって
表現することができる。なお、係数パワーを算出する
際、テイル部分のＰ個のフィルタ係数を用いて係数パワ
ーを算出する。

【００６７】

【数５】

【００６８】

【数６】

【００６９】ここで、ｘ_i,k はｋ番目の更新回数、ｉ番
目の周波数帯域における入力信号ベクトルであり、ｃ
_i,k はｋ番目の更新回数、ｉ番目の周波数帯域における
係数ベクトルである。

【００７０】次いで、ステップＳ１３にて算出した各周
波数帯域での信号パワーに基づき、全周波数帯域での信
号パワーを算出し（ステップＳ１５）、ステップＳ１４
にて算出した各周波数帯域での係数パワーに基づき、全
周波数帯域での係数パワーを算出する（ステップＳ１
６）。

【００７１】次いで、制御部１０１は、ｐ＝ｍＳである
か否かを判断する（ステップＳ１７）。ｐ＝ｍＳでない
場合（Ｓ１７：ＮＯ）、カウンタｐを１だけ増加させ
（ステップＳ１８）、処理をステップＳ１３へ戻す。

【００７２】ｐ＝ｍＳである場合（Ｓ１７：ＹＥＳ）、
各周波数帯域における累積パワーを算出し（ステップＳ
１９）、次いで、全周波数領域での累積パワーを算出す
る（ステップＳ２０）。ここで、累積パワーとは音声信
号の信号パワーとフィルタ係数の係数パワーの積算値で
あり、各周波数帯域における累積パワーは式（７）によ
って表すことができ、また、全周波数帯域での累積パワ
ーは式（８）によって表すことが可能である。

【００７３】

【数７】

【００７４】

【数８】

【００７５】次いで、制御部１０１は、各周波数帯域で
の累積パワーを全周波数帯域の累積パワーで除算した値
Ψ_i,mSを算出し（ステップＳ２１）、各周波数帯域のタ
ップ数の更新量を算出する（ステップＳ２２）。タップ
数の更新量は、ステップＳ２１で求めたΨ_i,mSを用い
て、

【００７６】

【数９】

【００７７】と表すことができる。そして、各周波数帯
域でのタップ数Ｎ_i,mSを

【００７８】

【数１０】

【００７９】により算出する（ステップＳ２３）。算出
したタップ数Ｎ_i,mSは、おおよそ音声信号の信号パワー
とフィルタ係数の係数パワーとの積算値に比例している
ことが式（１０）により分かる。ところが、前述したよ
うに、高周波数帯域では、低周波数帯域と比較して信号
パワーが減衰しているため、タップ数Ｎ_i,mSが小さくな
り、Volterra級数の２次の項と音声信号との畳込み演算
処理に要する演算量を削減することが可能となる。

【００８０】なお、本実施の形態では、コンピュータプ
ログラムの処理により音響エコー信号の線形成分と非線
形成分とを除去することとしたが、実施の形態１で説明
したようなＤＳＰ、専用ＬＳＩを用いて実現することも
可能である。

【００８１】

【発明の効果】以上、詳述したように、第１発明、第４
発明、及び第５発明による場合は、受信した音声信号に
基づき、音響エコー信号の線形成分を推定する手段と、
音響エコー信号の非線形成分を周波数帯域毎に推定する
手段とを備え、前記音声入力手段に発生した音響エコー
信号から推定した音響エコー信号の線形成分及び各周波
数帯域毎の非線形成分を除去するようにしている。した
がって、例えば、音響エコー信号の非線形成分を算出す
る際、Volterraフィルタを用いることによって、高周波
数帯域での演算量を特に削減することが可能となり、全
体として音響エコー信号の非線形成分を速やかに算出す
ることが可能となる。

【００８２】第２発明による場合は、音響エコー信号の
非線形成分を推定する際、Volterra級数と周波数帯域毎
に分割した音声信号との畳込み演算処理を行うようにし
ている。例えば、Volterra級数の２次の項は、その係数
が４点に３点が零値になっているため、畳込み演算処理
を行う際の冗長性を排除することができ、演算量をおよ
そ１／４に削減することができるため、音響エコー信号
の非線形成分を速やかに算出することが可能である。

【００８３】第３発明による場合は、算出した周波数帯
域毎の音声信号の大きさに基づいてVolterra級数のタッ
プ数を算出するようにしている。したがって、各周波数
帯域毎に不必要な演算処理を行わずに済むため、演算量
を低減することができ、速やかに音響エコー信号の非線
形成分を算出することが可能である等、本発明は優れた
効果を奏する。

【図面の簡単な説明】

【図１】本実施の形態に係る音響エコーキャンセラ装置
を説明するブロック図である。

【図２】サブバンド適応フィルタの内部構成を示すブロ
ック図である。

【図３】各帯域フィルタの演算量を模式的に示したグラ
フである。

【図４】本実施の形態に係る音響エコーキャンセラ装置
のエコー消去特性を示すグラフである。

【図５】本実施の形態に係るテレビ会議システムを説明
する模式図である。

【図６】テレビ会議システムで利用される通信装置の内
部構成を示すブロック図である。

【図７】通信装置による音声信号の処理手順を示すフロ
ーチャートである。

【図８】タップ数の更新処理の手順を説明したフローチ
ャートである。

【図９】従来の音響エコーキャンセラ装置を説明するブ
ロック図である。

【符号の説明】

１音声信号入力端子２音声信号出力端子３拡声部４受音部５サブバンド適応フィルタ６タップ数制御部

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D020 CC00 5K027 AA11 DD07 DD10 HH03 5K046 BB01 CC29 HH24 HH30 HH54 HH59 HH79 HH80

Claims

【特許請求の範囲】

【請求項１】通信機器から送信された音声信号を受信
する受信手段と、該受信手段にて受信した音声信号に基
づいて外部に音声を出力する音声出力手段と、外部の音
声を受音部して音声信号を生成する音声入力手段と、該
音声入力手段にて生成された音声信号を前記通信機器へ
送信する送信手段とを備え、前記音声出力手段から出力
された音声が前記音声入力手段に入力されることにより
生じる音響エコー信号を低減すべくなしてある音声処理
装置において、前記受信手段にて受信した音声信号に基づき、音響エコ
ー信号の線形成分を推定する手段と、前記音声信号を予
め定められた複数の周波数帯域に分割する手段と、分割
した音声信号に基づき、音響エコー信号の非線形成分を
各周波数帯域毎に推定する手段と、推定した音響エコー
信号の線形成分及び各周波数帯域毎の非線形成分を前記
音声入力手段に生じた音響エコー信号から除去する手段
とを備えることを特徴とする音声処理装置。
【請求項２】音響エコー信号の非線形成分を推定する
際、Volterra級数と周波数帯域毎に分割した音声信号と
の畳込み演算処理を行うべくなしてあることを特徴とす
る請求項１に記載の音声処理装置。
【請求項３】周波数帯域毎に分割した音声信号の大き
さを算出する手段と、算出した音声信号の大きさに基づ
いて前記畳込み演算処理に用いるVolterra級数のタップ
数を算出する手段とを備えることを特徴とする請求項２
に記載の音声処理装置。
【請求項４】コンピュータに、入力された音声信号に
基づいて音響エコー信号の線形成分を推定させるステッ
プと、コンピュータに、入力された音声信号を複数の周
波数帯域毎に分割させるステップと、コンピュータに、
分割した音声信号に基づき音響エコー信号の非線形成分
を前記周波数帯域毎に推定させるステップと、コンピュ
ータに、推定した音響エコー信号の線形成分及び非線形
成分を送信すべき音声信号から除去させるステップと、
コンピュータに、音響エコー信号の線形成分及び非線形
成分を除去した音声信号を除去させるステップとを有す
ることを特徴とするコンピュータプログラム。
【請求項５】コンピュータに、入力された音声信号に
基づいて音響エコー信号の線形成分を推定させるステッ
プと、コンピュータに、入力された音声信号を複数の周
波数帯域毎に分割させるステップと、コンピュータに、
分割した音声信号に基づき音響エコー信号の非線形成分
を前記周波数帯域毎に推定させるステップと、コンピュ
ータに、推定した音響エコー信号の線形成分及び非線形
成分を送信すべき音声信号から除去させるステップと、
コンピュータに、音響エコー信号の線形成分及び非線形
成分を除去した音声信号を除去させるステップとを有す
るコンピュータプログラムが記録されていることを特徴
とするコンピュータでの読取りが可能な記録媒体。