JP2000295338A - 通信装置 - Google Patents

通信装置

Info

Publication number
JP2000295338A
JP2000295338A JP11096613A JP9661399A JP2000295338A JP 2000295338 A JP2000295338 A JP 2000295338A JP 11096613 A JP11096613 A JP 11096613A JP 9661399 A JP9661399 A JP 9661399A JP 2000295338 A JP2000295338 A JP 2000295338A
Authority
JP
Japan
Prior art keywords
echo
signal
detecting
image
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11096613A
Other languages
English (en)
Inventor
Takehiko Isaka
岳彦 井阪
Takayuki Taniguchi
隆行 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11096613A priority Critical patent/JP2000295338A/ja
Publication of JP2000295338A publication Critical patent/JP2000295338A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】音声レベルの閾値処理だけではダブルトーク検
出が難しい場合でも正確にその検出を行うことが可能な
通信装置を提供する。 【解決手段】 カメラ13から得られた画像信号から口
許特徴抽出器24によりユーザの口の動きを検出し、ダ
ブルトーク判定器(DT判定器)23において、この検
出結果と、送受信信号x,yのレベル比C1(=Ly/
Lx)から、ダブルトークを検出する。このように、カ
メラ13の画像信号を用いてユーザの口の動きを検出
し、音声検出するので、音声レベルの閾値処理だけでは
送話音声の有無の判定が困難な場合でも、正確なダブル
トーク検出が可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
【従来の技術】本発明は、テレビ電話システムやテレビ
会議システム等で用いられる拡声電話機等の通信装置に
関し、特にその通信装置に装備されるエコーキャンセラ
に関する。
【0002】
【従来の技術】テレビ電話システム等で用いられる拡声
電話機では、スピーカから出力音が直接、あるいは部屋
の壁等に反射して残響となってマイクロホンに回り込む
ことによってエコーが生じ、このエコーが快適な通話を
妨げる。エコーキャンセラはかかるエコーを除去するた
めに用いられる。拡声電話機に用いられるエコーキャン
セラの従来例を図10に示す。図10において、相手側
から受信された受信信号xはスピーカ11から受信音と
して放音される。この受信音の一部はエコーパスを経て
送信側のマイクロホン12に回り込み、エコーとなって
送話音声に重畳するが、この送話音声に重畳したエコー
はエコーキャンセル部3によって除去される。エコーキ
ャンセル部3はエコー信号に等しい大きさの擬似エコー
信号yhatを生成し、これを送信信号yから差し引くこ
とによってエコーを消去する回路であり、データメモリ
31、係数更新回路32、係数メモリ33、フィルタ演
算回路34等で構成される。擬似エコー信号yhatは受
信信号xを、エコーパスのインパルス応答と等しい特性
をもつ適応フィルタを通すことによって得られる。適応
フィルタはエコーパスの特性を推定し、フイルタ係数が
それと等しい特性をもつように適応的に制御されるが、
この制御はエコーキャンセラから出力される送信信号が
最小になるように適応フィルタの係数を更新することに
よって行われる。このような更新を行う適応アルゴリズ
ムとしては、例えば「学習同定法」がある。
【0003】ところで、このようなエコーパスの推定中
に(このとき受話音声は存在している)、送話音声が存
在すると(いわゆるダブルトーク状態)、適応フィルタ
にとっては外乱となり、推定精度は著しく劣化する。そ
の結果、エコーキャンセラの出力には消去しきれないエ
コー、すなわち残留エコーが合まれる。そこで、かかる
ダブルトーク状態においては、これを検出してその間は
エコーキャンセル部3での適応制御すなわち係数更新制
御を停止することによって推定精度の劣化を防止する必
要がある。ダブルトーク検出部(DT検出部)2は、こ
のようなダブルトーク状態を検出するための回路であ
る。このダブルトーク検出部(DT検出部)2は、受信
信号xのレベルLxを算出するレベル算出器21と、送
信信号yのレベルLyを算出するレベル算出器21’
と、レベルLxとレベルLyとのレベル比Cl(=Ly
/Lx)を算出するレベル比算出器22と、このレベル
比C1を所定の閾値K1と比較してダブルトーク検出信
号DTを出力するダブルトーク判定器(DT判定器)2
3とで構成される。このダブルトーク判定器(DT判定
器)23がダブルトークを検出する方法としては、以下
の2つの方法がある。
【0004】すなわち、送話音声が存在しない場合に
は、送信信号yのレベルLyは受信信号xのレベルLx
とエコーパスの利得G1によって決まり、 Ly=Lx×G1…(1) となる。一方、送話音声が存在する場合には、その分だ
け送信信号yのレベルLyが高くなるので、 Ly>Lx×G1…(2) となる。そこで、レベル比Cl(=Ly/Lx)とエコ
ーパスの利得G1に相当する閾値K1とを比較し、 C1>K1…(3) であればダブルトークと判断し、適応フィルタの係数更
新回路32における係数更新を停止する。一方、送信信
号yから擬似エコー信号yhatを差し引いた残差信号 e=y−yhat …(4) のレベルLeは、送話音声が存在しない場合には、受信
信号xのレベルLx、エコーパスの利得G1およびエコ
ーキャンセラの打消し量D(=Le/Ly)によって決
まり、 Le=Lx×G1×D…(5) となる。一方、送話音声が存在する場合には、その分だ
け残差信号eのレベルLeが高くなるので、 Le>Lx×G1×D…(6) となる。そこで、レベル比C2(=Le/Lx)とG1
×Dに相当する閾値K2とを比較し、 C2>K2…(7) であればダブルトークと判断し、適応フィルタの係数更
新回路32における係数更新を停止する。
【0005】
【発明が解決しようとする課題】拡声電話機では、マイ
クロホン12がスピーカ11から近い位置にあったり、
スピーカ11のボリュームを上げて大音量で使用したり
する場合が多い。このような使用環境では、スピーカ1
1からマイクロホン12ヘ回り込む音量が大きくなる結
果、送話音声のレベルに比べてエコーのレベルが相対的
に大きくなり、送話音声の有無に対するレベル比C1の
変化は小さくなる。このため、送受信信号のレベルを比
較してダブルトークを検出することは困難になる。ま
た、受信信号xと残差信号eのレベルを比較してダブル
トークを検出する方法では、エコーパスの変動が生じた
直後はエコーキャンセル部3により推定される擬似エコ
ー信号yhatの精度がよくないので、残差信号eのレベ
ルLeが大きくなり、それがエコーパス変動によるもの
か、ダブルトーク状態によるものかを区別することがで
きない。エコーパス変動が生じた場合には、その後ただ
ちにエコーキャンセル部3での係数更新を開始しなけれ
ばならないが、ダブルトーク状態の場合には、ただちに
係数更新を停止しなければならない。従って、エコーパ
ス変動とダブルトーク状態を区別して検出できないこと
は係数更新の制御上、問題となる。
【0006】本発明は、かかる問題点に鑑みてなされた
ものであり、音声レベルの閾値処理だけではダブルトー
ク検出が難しい場合でも正確にその検出を行うこと、お
よびエコーパス変動とダブルトーク状態を区別して検出
することが可能な通信装置を提供することを目的とす
る。
【0007】
【課題を解決するための手段】かかる課題を解決するた
めに、本発明に係る通信装置は、受信信号と、送信信号
に混入された前記受信信号のエコーとの関係を学習して
受信信号から推定される擬似エコー信号を発生させ、こ
の擬似エコー信号を送信信号から差し引くことによりエ
コーを打ち消すエコーキャンセル手段と、ユーザの顔部
分を撮像する撮像手段と、この撮像手段により得られた
画像信号からユーザの口の動きを検出する動き検出手段
と、受信信号、送信信号、送信信号から擬似エコー信号
を差し引いた残差信号のうちの少なくとも1つの信号
と、動き検出手段により得られたユーザの口の動きの検
出結果とから、送話と受話が同時に行われているかどう
かを検出するダブルトーク検出手段とを具備することを
特徴とする。このような構成によれば、撮像手段により
得られた画像信号を用いてユーザの口の動きを検出し、
音声検出を行うので、音声レベルの閾値処理だけでは送
話音声の有無の判定が困難な場合でもかかる判定が容易
となり、正確なダブルトーク検出が可能となる。ここ
で、動き検出手段が、撮像手段により得られた画像信号
の画像フレームから口の領域を抽出する口領域抽出手段
と、口領域抽出手段により抽出された口の領域を複数の
ブロックに分け、各ブロック毎に動きベクトルを求め、
この動きベクトルの大きさの累計値を求めて、この累計
値が所定値より大きいかどうかを判定する手段とを具備
するものであってもよい。
【0008】また、動き検出手段が、撮像手段により得
られた画像信号の画像フレームから口の領域を抽出する
口領域抽出手段と、口領域抽出手段により抽出された口
の領域を複数のブロックに分け、各ブロック毎に輝度値
のフレーム間差分を求め、この輝度値のフレーム間差分
の累計値を求めて、この累計値が所定値より大きいかど
うかを判定する手段とを具備するものであってもよい。
また、動き検出手段が、撮像手段により得られた画像信
号の画像フレームを複数のブロックに分け、各ブロック
毎に動きベクトルを求め、全ブロックに対して動きベク
トルの大きさの累計値を求めて、この累計値が所定値よ
り大きいかどうかを判定する手段を具備するものであっ
てもよい。更に、動き検出手段が、撮像手段により得ら
れた画像信号の画像フレームを複数のブロックに分け、
各ブロック毎に輝度値のフレーム間差分を求め、全ブロ
ックに対して輝度値のフレーム間差分の累計値を求め
て、この累計値が所定値より大きいかどうかを判定する
手段を具備するものであってもよい。更にまた、動き検
出手段が、撮像手段により得られた画像信号の画像フレ
ームから口の領域を抽出する口領域抽出手段と、口領域
抽出手段により抽出された口の領域の面積を求め、この
面積が所定値より大きいかどうかを判定する手段とを具
備するものであってもよい。
【0009】また、本発明に係る通信装置は、受信信号
と、送信信号に混入された受信信号のエコーとの関係を
学習して受信信号から推定される擬似エコー信号を発生
させ、この擬似エコー信号を送信信号から差し引くこと
によりエコーを打ち消すエコーキャンセル手段と、ユー
ザの顔部分に赤外線を照射する赤外線照射手段と、赤外
線照射手段により照射されユーザの顔部分から反射して
戻ってきた赤外線の変動量と受信信号とから、送話と受
話が同時に行われているかどうかを検出するダブルトー
ク検出手段とを具備することを特徴とする。このような
構成によれば、ユーザの顔部分から反射して戻ってきた
赤外線の変動量を用いてユーザの口の動きを検出し、音
声検出を行うので、音声レベルの閾値処理だけでは送話
音声の有無の判定が困難な場合でもかかる判定が容易と
なり、正確なダブルトーク検出が可能となる。また、本
発明に係る通信装置は、受信信号と、送信信号に混入さ
れた受信信号のエコーとの関係を学習して受信信号から
推定される擬似エコー信号を発生させ、この擬似エコー
信号を送信信号から差し引くことによりエコーを打ち消
すエコーキャンセル手段と、ユーザの顔部分を撮像する
撮像手段と、この撮像手段により得られた画像信号から
ユーザの口の動きを検出する第1の動き検出手段と、受
信した画像信号から相手方の口の動きを検出する第2の
動き検出手段と、第1及び第2の動き検出手段の検出結
果から送話と受話が同時に行われているかどうかを検出
するダブルトーク検出手段とを具備することを特徴とす
る。
【0010】このような構成によれば、撮像手段により
得られた画像信号及び受信した画像信号を用いてユーザ
及び相手方の口の動きを検出し、音声検出を行うので、
音声レベルの閾値処理だけでは音声の有無の判定が困難
な場合でもかかる判定が容易となり、正確なダブルトー
ク検出が可能となる。更にまた、本発明に係る通信装置
は、受信信号と、送信信号に混入された受信信号のエコ
ーとの関係を学習して受信信号から推定される擬似エコ
ー信号を発生させ、この擬似エコー信号を送信信号から
差し引くことによりエコーを打ち消すエコーキャンセル
手段と、ユーザの顔部分を撮像する撮像手段と、この撮
像手段により得られた画像信号からユーザと通信装置の
相対位置が変動したかどうかを検出し、この検出結果か
らエコーパスが変動したかどうかを検出するエコーパス
変動検出手段とを具備することを特徴とする。このよう
な構成によれば、カメラの画像信号からユーザと通信装
置との相対位置の変動を検出することができるので、残
差信号が大きい場合、それがエコーパス変動によるもの
なのかダブルトーク状態によるものなのかの区別をする
ことができる。
【0011】ここで、エコーパス変動検出手段が、撮像
手段により得られた画像信号の画像フレームを複数のブ
ロックに分け、各ブロック毎に動きベクトルを求め、こ
の動きベクトルの大きさが閾値より大きいブロックを動
領域として検出し、この動領域が所定の面積より大きい
かどうかを判定する手段を具備するものであってもよ
い。また、エコーパス変動検出手段が、撮像手段により
得られた画像信号の画像フレームを複数のブロックに分
け、各ブロック毎に輝度値のフレーム間差分を求め、こ
の輝度値のフレーム間差分が閾値より大きいブロックを
動領域として検出し、この動領域が所定の面積より大き
いかどうかを判定する手段を具備するものであってもよ
い。また、エコーパス変動検出手段が、撮像手段により
得られた画像信号の画像フレームを複数のブロックに分
け、各ブロック毎に動きベクトルを求め、全ブロックに
対して動きベクトルの大きさの累計値を求めて、この累
計値が所定値より大きいかどうかを判定する手段を具備
するものであってもよい。更に、エコーパス変動検出手
段が、撮像手段により得られた画像信号の画像フレーム
を複数のブロックに分け、各ブロック毎に輝度値のフレ
ーム間差分を求め、全ブロックに対して輝度値のフレー
ム間差分の累計値を求めて、この累計値が所定値より大
きいかどうかを判定する手段を具備するものであっても
よい。
【0012】更にまた、エコーパス変動検出手段が、撮
像手段により得られた画像信号の画像フレームを複数の
ブロックに分け、各ブロック毎に動きベクトルを求め、
全ブロックに対して動きベクトルの大きさ、方向の少な
くとも一方の分散値を求め、この分散値が所定値より大
きいかどうかを判定する手段を具備するものであっても
よい。また、本発明に係る通信装置は、受信信号と、送
信信号に混入された受信信号のエコーとの関係を学習し
て受信信号から推定される擬似エコー信号を発生させ、
この擬似エコー信号を送信信号から差し引くことにより
エコーを打ち消すエコーキャンセル手段と、ユーザの顔
部分に赤外線を照射する赤外線照射手段と、赤外線照射
手段により照射されユーザの顔部分から反射して戻って
きた赤外線の量からユーザの瞳の位置を検出し、フレー
ム間で瞳の位置の差分をとり、この差分が所定値より大
きいかどうかを判定して、エコーパスが変動したかどう
かを検出するエコーパス変動検出手段とを具備すること
を特徴とする。このような構成によれば、フレーム間の
瞳の位置の差分からユーザと通信装置との相対位置の変
動を検出することができるので、残差信号が大きい場
合、それがエコーパス変動によるものなのかダブルトー
ク状態によるものなのかの区別をすることができる。
【0013】
【発明の実施の形態】以下、テレビ電話システムを例に
とり、図面を参照しながら本発明の実施形態を説明す
る。なお、以下に説明する各図を通じて同じ回路要素に
は同じ参照番号を付するものとする。図1は本発明の実
施形態に係るテレビ電話システムの概略構成を示す斜視
図である。図1のテレビ電話システムは、本体10、ス
ピーカ11、マイクロホン12、カメラ13、パネル1
4、表示デイスプレイ15、ボタン操作部16から構成
される。なお、カメラ13の付近に赤外カメラと赤外線
LEDとを設けることも出来る。図1において、ユーザ
がボタン操作部16で相手の電話番号を入力すると、相
手の連絡先に回線が接続され、表示デイスプレイ15に
相手の顔が表示され、スピーカ11から受信音が放音さ
れる。ユーザはマイクロホン12とカメラ13を介して
相手と会話する。図2は本発明の第1の実施形態におけ
るエコーキャンセラの構成図である。図2において、1
1はスピーカ、12はマイクロホン、13はカメラ、2
はダブルトーク検出部(DT検出部)、3はエコーキャ
ンセル部である。また、ダブルトーク検出部(DT検出
部)2において、21,21’はレベル算出器、22は
レベル比算出器、23はダブルトーク判定器(DT判定
器)、24は口許特徴抽出器であり、エコーキャンセル
部3において、31はデータメモリ、32は係数更新回
路、33は係数メモリ、34はフィルタ演算回路であ
る。
【0014】次に、この実施形態の動作について説明す
る。受信入力端子Rinから入力された受信信号xは受
信出力端子Routを経て、スピーカ11から受信音と
して放音される。この受信音の一部はエコーパスを経て
送信側のマイクロホン12に回り込み、エコーとなって
送話音声に重畳する。エコーの重畳した送話音声はマイ
クロホン12から送信入力端子Sinに送信信号yとし
て入力される。ダブルトーク検出部(DT検出部)2は
これら送受信信号と、カメラ13で拡声電話機のユーザ
の口許を撮像して得られた画像信号を用いてダブルトー
ク検出を行う。エコーキャンセル部3はダブルトーク検
出部2の検出結果に基づいて、係数更新回路32により
係数メモリ33に記憶された適応フィルタの係数を更新
し、擬似エコー信号yhatを推定する。最終的に、送信
信号yからこの擬似エコー信号yhatを差し引いた残差
信号eをSout端子から出力する。ダブルトーク検出
部(DT検出部)2は、送受信信号x,yおよびカメラ
13からの画像信号を用いてダブルトーク検出を行う。
検出方法としては、まずレベル算出器21で受信信号x
のレベルLxを算出し、レベル算出器21’で送信信号
yのレベルLyを算出し、レベル比算出器22でレベル
LxとレベルLyとのレベル比C1(=Ly/Lx)を
算出する。一方、カメラ13からの画像信号を用いて口
許特徴抽出器24でユーザが発声しているかどうかを表
す特徴量を抽出する。ここで特徴量としては、例えば、
口を中心とした所定範囲で検出された動きベクトルある
いは輝度値のフレーム間差分等を用いればよい。
【0015】画像フレーム中で口の領域を特定する方法
としては、図6に示すように赤外線LED17等で赤外
線をユーザに照射して赤外カメラ18で撮像し、瞳位置
検出部25でユーザの瞳の位置を検出し、この結果を用
いて口領域抽出部26で口領域を抽出する方法がある。
即ち、赤外線をユーザに照射すると、図7に示すように
顔の皮膚部分に比べて瞳孔部分だけ高輝度で撮像される
ので、反射してきた赤外線の量が所定の閾値を越えたこ
とを検出することによりユーザの瞳の位置を検出し(例
えば、特開平9−175224号参照)、検出された瞳
の位置から統計的に口の範囲を予測し、この範囲内でパ
ターンマッチング法により口の領域を特定すればよい。
また、動きベクトルの検出方法としては、例えば特開平
6−284328号に開示されている。口の領域を抽出
したとき、口の領域を複数のブロックに分け、その領域
内でブロック毎に動きベクトルを求め、この動きベクト
ルの大きさの累計値を求めればよい。そして、この動き
ベクトルの大きさの累計値が、所定の閾値より大きいか
どうかを判定し、所定の閾値より大きければ、ユーザが
発声していると判定する。口の領域が抽出できなければ
画像フレーム全体を複数のブロックに分け、各ブロック
毎に動きベクトルを求め、全ブロックに対して動きベク
トルの大きさの累計値を求めればよい。そして、この動
きベクトルの大きさの累計値が、所定の閾値より大きい
かどうかを判定し、所定の閾値より大きければ、ユーザ
が発声していると判定する。
【0016】この動きベクトルの代わりに、輝度値のフ
レーム間差分を用いる場合も、口の領域が抽出できると
きは口の領域内でブロック毎に輝度値のフレーム間差分
を求め、口の領域が抽出できなければフレームの全領域
で輝度値のフレーム間差分を求め、この輝度値のフレー
ム間差分の累計値が、所定の閾値より大きいかどうかを
判定し、所定の閾値より大きければ、ユーザが発声して
いると判定すればよい。また別の特徴量として、上記の
方法により画像フレームから抽出された口の領域の面積
を用いてもよい。この場合、口の領域の面積が、所定の
閾値より大きいかどうかを判定し、所定の閾値より大き
ければ、ユーザが発声していると判定すればよい。更に
別の特徴量として、特開平10−11089号に開示さ
れているように、赤外線LED等で赤外線をユーザの口
許に照射し、反射してくる赤外線の変動量を用いてもよ
い。この場合、赤外線の変動量が、所定の閾値より大き
いかどうかを判定し、所定の閾値より大きければ、ユー
ザが発声していると判定すればよい。ダブルトーク判定
器(DT判定器)23は、送受信信号のレベル比C1
(=Ly/Lx)が所定の閾値K1より大きい条件と、
口許の特徴量が所定の閾値K3より大きい条件の内、ど
ちらか一方、あるいは両方の条件が成り立つときにダブ
ルトーク状態と判定する。判定結果DTはエコーキャン
セル部3に送出される。
【0017】このように音声信号と画像信号を併用して
ダブルトークを検出することにより、音声レベルの閾値
処理だけでは送話音声の有無の判定が困難な場合でもか
かる判定が容易となり、正確なダブルトーク検出が可能
となる。エコーキャンセル部3では、受信信号xをフィ
ルタ処理して擬似エコー信号y hatを推定する。擬似エ
コー信号yhatは受信信号xをエコーパスのインパルス
応答と等しい特性をもつ適応フィルタに通すことによっ
て求められる。すなわち、データメモリ31に格納され
た受信信号xと、係数メモリ33に格納されたフィルタ
係数との畳み込み演算をフィルタ演算回路34で行うこ
とによって、擬似エコー信号yhatを得る。係数メモリ
33に格納されているフィルタ係数は、次に示す学習同
定法によってエコーパスと等しい特性をもつように係数
更新回路32で適応的に更新される。
【0018】
【数1】 ここで、h(n)は時刻nにおけるk番目のタップの
フィルタ係数値、μはステップサイズ、e(n)は時刻
nにおける残差信号、x(n)は時刻nにおける受信信
号、Nはフィルタのタップ数を表す。係数更新回路32
は、ダブルトーク検出部2においてダブルトーク状態と
判定されたときは係数更新を行わず、ダブルトーク状態
でないと判定されたときは式(8)に従って係数更新を
行う。なお、上記説明では、ダブルトーク状態の判定に
おいて音声信号として送受信信号x,yを用いたが、代
わりに図3に示すように受信信号xと残差信号eを用い
てもよいし、あるいは、図4に示すように単に受信信号
xと閾値を比較する構成としてもよい。また、これらを
組み合わせて判定を行ってもよい。更に、図5に示すよ
うに音声信号を用いずに画像信号のみを用いてダブルト
ーク検出を行う構成としてもよい。この場合は、口許特
徴抽出器24’において、口許特徴抽出器24における
処理と同様にして、受信画像入力端子Rvinから入力
された受信画像から口許の特徴量を抽出し、相手方の発
声を判定することができる。図3に示すように受信信号
xと残差信号e、およびカメラ13からの画像信号を用
いてダブルトーク検出を行う構成では、受信信号のレベ
ルLxと残差信号Leのレベルとのレベル比C2(=L
e/Lx)が閾値K2より大きい場合、係数更新制御
上、かかる現象がエコーパス変動に基づくものかダブル
トーク状態に基づくものか区別をする必要がある。
【0019】そこで、口許特徴抽出器24で得られる特
徴量によりカメラ13とユーザの相対位置の変動を検出
してこの区別を行う。例えば、動きベクトルを特徴量と
して用いた場合、ユーザが発声しているときは、図8に
示すように口許のみに動きベクトルが検出され、一方、
エコーパス変動が生じたときはユーザとカメラ13の相
対位置が変化するので、図9に示すように画面全体また
はユーザの顔全体に動きベクトルが検出される。図8と
図9に示す状態を区別する第1の方法としては、画像フ
レームを複数のブロックに分け、ブロック毎に動きベク
トルを求め、全ブロックに対して動きベクトルの大きさ
の累計値を求め、この累計値が閾値より大きければエコ
ーパス変動とし、累計値が閾値より小さければダブルト
ーク状態とすればよい。図8と図9に示す状態を区別す
る第2の方法として、各ブロック毎に動きベクトルを求
め、この動きベクトルの大きさが閾値より大きいブロッ
クを動領域とし、この動領域が閾値より大きいときはエ
コーパス変動とし、動領域が閾値より小さいときはダブ
ルトーク状態としてもよい。ここで、ブロック毎に動領
域検出のための動きベクトルの大きさの閾値を決め、例
えば、口の領域付近では大きめに設定し、それ以外の領
域では閾値を小さめに設定する等の工夫をすればより一
層検出精度が向上する。
【0020】図8と図9に示す状態を区別する第1およ
び第2の方法では、動きベクトルの代わりに輝度値のフ
レーム間差分を特徴量として用いてもよい。即ち、第1
の方法では、画像フレームを複数のブロックに分け、ブ
ロック毎に輝度値のフレーム間差分を求め、全ブロック
に対して輝度値のフレーム間差分の累計値を求め、この
累計値が閾値より大きければエコーパス変動とし、累計
値が閾値より小さければダブルトーク状態とすればよ
い。また、第2の方法では、各ブロック毎に輝度値のフ
レーム間差分を求め、この輝度値のフレーム間差分が閾
値より大きいブロックを動領域とし、この動領域が閾値
より大きいときはエコーパス変動とし、動領域が閾値よ
り小さいときはダブルトーク状態とすればよい。図8と
図9に示す状態を区別する第3の方法として、各ブロッ
ク毎に動きベクトルを求め、全ブロックに対して動きベ
クトルの大きさまたは方向の分散値
【数2】 を求め、この分散値が閾値より大きければダブルトーク
状態とし、分散値が閾値より小さければエコーパス変動
としてもよい。ここで、σは動きベクトルの大きさの
分散値、zはi番目のブロックの動きベクトルの大き
さ、zaveは全ブロックの動きベクトルの大きさの平均
値、σθは動きベクトルの一方向の分散値、θはi番
目のブロックの動きベクトルの方向、θaveは全ブロッ
クの動きベクトルの方向の平均値、Mはブロックの総数
である。
【0021】図8と図9に示す状態を区別する第4の方
法として、赤外線LED等で赤外線をユーザに照射し、
反射してきた赤外線の量により瞳の位置を検出し、フレ
ーム間で瞳の位置の差分をとり、この差分が閾値より大
きければエコーパス変動とし、差分値が閾値より小さけ
ればダブルトーク状態としてもよい。以上のように、受
信信号xと残差信号eからダブルトーク検出を行う方法
で残差信号eが大きい場合、カメラ13の画像信号から
ユーザとカメラ13の相対位置の変動を検出すること等
によって、かかる現象がエコーパス変動に基づくものか
ダブルトーク状態に基づくものか区別することができ、
より正確な係数更新制御が可能となる。また、上述の実
施形態では、学習同定法により係数更新を行う適応フィ
ルタの例について説明したが、本発明の実現形態はこれ
に限定されるものではなく、例えば、LMS法、RLS
法、またアフィン射影法等を用いて係数更新制御を行う
ことも可能であり、そのような実現形態も本発明の趣旨
の範囲内である。
【0022】
【発明の効果】以上説明したように、本発明によれば、
カメラからの画像信号等を用いてユーザの口の動きを検
出し、音声検出を行うので、音声レベルの閾値処理だけ
では送話音声の有無の判定が困難な場合でもかかる判定
が容易となる。また、受信信号と残差信号を用いてダブ
ルトーク検出を行う方法では、残差信号が大きい場合、
かかる現象がエコーパス変動に基づくものかダブルトー
ク状態に基づくものか区別できないが、本発明では、カ
メラの画像信号等から動きベクトル等の特徴量を抽出
し、ユーザとカメラ等の相対位置の変動を検出すること
によって、かかる現象の要因を区別することができるの
で、係数更新制御を正確に行える等の実用上多大な効果
が奏せられる。
【図面の簡単な説明】
【第1図】 本発明の一実施形態に係るテレビ電話シス
テムの概略構成を示す斜視図。
【第2図】 本発明の第1の実施形態としてのエコーキ
ャンセラの構成を示すブロック図。
【第3図】 本発明の第2の実施形態としてのエコーキ
ャンセラの構成を示すブロック図。
【第4図】 本発明の第3の実施形態としてのエコーキ
ャンセラの構成を示すブロック図。
【第5図】 本発明の第4の実施形態としてのエコーキ
ャンセラの構成を示すブロック図。
【第6図】 赤外線による口領域の抽出方法を説明する
ためのブロック図。
【第7図】 赤外線による瞳孔部分の検出動作を説明す
るための図。
【第8図】 ダブルトーク時の動きベクトルの検出例を
示す図。
【第9図】 エコーパス変動時の動きベクトルの検出例
を示す図。
【第10図】従来例のエコーキャンセラを示すブロック
図。
【符号の説明】
10…本体 11…スピーカ 12…マイクロホン 13…カメラ 14…パネル 15…表示ディスプレイ 16…ボタン操作部 17…赤外線LED 18…赤外カメラ 2…ダブルトーク検出部(DT検出部) 21,21’…レベル算出器 22…レベル比算出器 23…ダブルトーク判定器(DT判定器) 24,24’…口許特徴抽出器 25…瞳位置検出部 26…口領域抽出部 3…エコーキャンセル部 31…データメモリ 32…係数更新回路 33…係数メモリ 34…フィルタ演算回路
フロントページの続き Fターム(参考) 5B057 BA02 DA08 DC02 DC30 5C064 AA01 AA02 AC04 AC06 AC13 AC16 AC22 5K027 AA07 BB03 BB04 DD10 DD11 DD14 DD18 FF22 HH00 HH01 5K101 KK04 LL01 NN06 NN18 NN36 NN37

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】受信信号と、送信信号に混入された前記受
    信信号のエコーとの関係を学習して前記受信信号から推
    定される擬似エコー信号を発生させ、この擬似エコー信
    号を前記送信信号から差し引くことによりエコーを打ち
    消すエコーキャンセル手段と、 ユーザの顔部分を撮像する撮像手段と、 この撮像手段により得られた画像信号からユーザの口の
    動きを検出する動き検出手段と、 前記受信信号、前記送信信号、前記送信信号から前記擬
    似エコー信号を差し引いた残差信号のうちの少なくとも
    1つの信号と、前記動き検出手段により得られたユーザ
    の口の動きの検出結果とから、送話と受話が同時に行わ
    れているかどうかを検出するダブルトーク検出手段とを
    具備することを特徴とする通信装置。
  2. 【請求項2】前記動き検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムから口の領域を抽出する口領域抽出手段と、 前記口領域抽出手段により抽出された口の領域を複数の
    ブロックに分け、各ブロック毎に動きベクトルを求め、
    この動きベクトルの大きさの累計値を求めて、この累計
    値が所定値より大きいかどうかを判定する手段とを具備
    することを特徴とする請求項1に記載の通信装置。
  3. 【請求項3】前記動き検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムから口の領域を抽出する口領域抽出手段と、 前記口領域抽出手段により抽出された口の領域を複数の
    ブロックに分け、各ブロック毎に輝度値のフレーム間差
    分を求め、この輝度値のフレーム間差分の累計値を求め
    て、この累計値が所定値より大きいかどうかを判定する
    手段とを具備することを特徴とする請求項1に記載の通
    信装置。
  4. 【請求項4】前記動き検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に動きベクト
    ルを求め、全ブロックに対して動きベクトルの大きさの
    累計値を求めて、この累計値が所定値より大きいかどう
    かを判定する手段を具備することを特徴とする請求項1
    に記載の通信装置。
  5. 【請求項5】前記動き検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に輝度値のフ
    レーム間差分を求め、全ブロックに対して輝度値のフレ
    ーム間差分の累計値を求めて、この累計値が所定値より
    大きいかどうかを判定する手段を具備することを特徴と
    する請求項1に記載の通信装置。
  6. 【請求項6】前記動き検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムから口の領域を抽出する口領域抽出手段と、 前記口領域抽出手段により抽出された口の領域の面積を
    求め、この面積が所定値より大きいかどうかを判定する
    手段とを具備することを特徴とする請求項1に記載の通
    信装置。
  7. 【請求項7】受信信号と、送信信号に混入された前記受
    信信号のエコーとの関係を学習して前記受信信号から推
    定される擬似エコー信号を発生させ、この擬似エコー信
    号を前記送信信号から差し引くことによりエコーを打ち
    消すエコーキャンセル手段と、ユーザの顔部分に赤外線
    を照射する赤外線照射手段と、 前記赤外線照射手段により照射されユーザの顔部分から
    反射して戻ってきた赤外線の変動量と前記受信信号とか
    ら、送話と受話が同時に行われているかどうかを検出す
    るダブルトーク検出手段とを具備することを特徴とする
    通信装置。
  8. 【請求項8】受信信号と、送信信号に混入された前記受
    信信号のエコーとの関係を学習して前記受信信号から推
    定される擬似エコー信号を発生させ、この擬似エコー信
    号を前記送信信号から差し引くことによりエコーを打ち
    消すエコーキャンセル手段と、 ユーザの顔部分を撮像する撮像手段と、 この撮像手段により得られた画像信号からユーザの口の
    動きを検出する第1の動き検出手段と、 受信した画像信号から相手方の口の動きを検出する第2
    の動き検出手段と、 前記第1及び第2の動き検出手段の検出結果から送話と
    受話が同時に行われているかどうかを検出するダブルト
    ーク検出手段とを具備することを特徴とする通信装置。
  9. 【請求項9】受信信号と、送信信号に混入された前記受
    信信号のエコーとの関係を学習して前記受信信号から推
    定される擬似エコー信号を発生させ、この擬似エコー信
    号を前記送信信号から差し引くことによりエコーを打ち
    消すエコーキャンセル手段と、 ユーザの顔部分を撮像する撮像手段と、 この撮像手段により得られた画像信号からユーザと通信
    装置の相対位置が変動したかどうかを検出し、この検出
    結果からエコーパスが変動したかどうかを検出するエコ
    ーパス変動検出手段とを具備することを特徴とする通信
    装置。
  10. 【請求項10】前記エコーパス変動検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に動きベクト
    ルを求め、この動きベクトルの大きさが閾値より大きい
    ブロックを動領域として検出し、この動領域が所定の面
    積より大きいかどうかを判定する手段を具備することを
    特徴とする請求項9に記載の通信装置。
  11. 【請求項11】前記エコーパス変動検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に輝度値のフ
    レーム間差分を求め、この輝度値のフレーム間差分が閾
    値より大きいブロックを動領域として検出し、この動領
    域が所定の面積より大きいかどうかを判定する手段を具
    備することを特徴とする請求項9に記載の通信装置。
  12. 【請求項12】前記エコーパス変動検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に動きベクト
    ルを求め、全ブロックに対して動きベクトルの大きさの
    累計値を求めて、この累計値が所定値より大きいかどう
    かを判定する手段を具備することを特徴とする請求項9
    に記載の通信装置。
  13. 【請求項13】前記エコーパス変動検出手段が、 前記撮像手段により得られた前記画像信号の画像フレー
    ムを複数のブロックに分け、各ブロック毎に輝度値のフ
    レーム間差分を求め、全ブロックに対して輝度値のフレ
    ーム間差分の累計値を求めて、この累計値が所定値より
    大きいかどうかを判定する手段を具備することを特徴と
    する請求項9に記載の通信装置。
  14. 【請求項14】前記エコーパス変動検出手段が、 前記撮像手段により得られた画像信号の画像フレームを
    複数のブロックに分け、各ブロック毎に動きベクトルを
    求め、全ブロックに対して動きベクトルの大きさ、方向
    の少なくとも一方の分散値を求め、この分散値が所定値
    より大きいかどうかを判定する手段を具備することを特
    徴とする請求項9に記載の通信装置。
  15. 【請求項15】受信信号と、送信信号に混入された前記
    受信信号のエコーとの関係を学習して前記受信信号から
    推定される擬似エコー信号を発生させ、この擬似エコー
    信号を前記送信信号から差し引くことによりエコーを打
    ち消すエコーキャンセル手段と、 ユーザの顔部分に赤外線を照射する赤外線照射手段と、 前記赤外線照射手段により照射されユーザの顔部分から
    反射して戻ってきた赤外線の量からユーザの瞳の位置を
    検出し、フレーム間で瞳の位置の差分をとり、この差分
    が所定値より大きいかどうかを判定して、エコーパスが
    変動したかどうかを検出するエコーパス変動検出手段と
    を具備することを特徴とする通信装置。
JP11096613A 1999-04-02 1999-04-02 通信装置 Pending JP2000295338A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11096613A JP2000295338A (ja) 1999-04-02 1999-04-02 通信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11096613A JP2000295338A (ja) 1999-04-02 1999-04-02 通信装置

Publications (1)

Publication Number Publication Date
JP2000295338A true JP2000295338A (ja) 2000-10-20

Family

ID=14169718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11096613A Pending JP2000295338A (ja) 1999-04-02 1999-04-02 通信装置

Country Status (1)

Country Link
JP (1) JP2000295338A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2006115476A (ja) * 2004-10-12 2006-04-27 Microsoft Corp モバイル装置における多感覚応用の音声強調のための方法および装置
JP2015506129A (ja) * 2011-11-23 2015-02-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated 超音波動き検出に基づく音響エコー消去
KR20180128493A (ko) * 2016-05-11 2018-12-03 코그니티브 시스템스 코퍼레이션 기준 신호 송신에 기초한 동작 감지

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2006115476A (ja) * 2004-10-12 2006-04-27 Microsoft Corp モバイル装置における多感覚応用の音声強調のための方法および装置
KR101176732B1 (ko) 2004-10-12 2012-08-23 마이크로소프트 코포레이션 이동장치 상의 음성 향상 복합 센서에 대한 방법 및 장치
JP2015506129A (ja) * 2011-11-23 2015-02-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated 超音波動き検出に基づく音響エコー消去
US9363386B2 (en) 2011-11-23 2016-06-07 Qualcomm Incorporated Acoustic echo cancellation based on ultrasound motion detection
KR20180128493A (ko) * 2016-05-11 2018-12-03 코그니티브 시스템스 코퍼레이션 기준 신호 송신에 기초한 동작 감지
KR101999697B1 (ko) 2016-05-11 2019-07-12 코그니티브 시스템스 코퍼레이션 기준 신호 송신에 기초한 동작 감지

Similar Documents

Publication Publication Date Title
US6483532B1 (en) Video-assisted audio signal processing system and method
WO2020168873A1 (zh) 语音处理方法、装置、电子设备及存储介质
US8433061B2 (en) Reducing echo
US7957542B2 (en) Adaptive beamformer, sidelobe canceller, handsfree speech communication device
CN107067414B (zh) 电子设备定向音频视频采集
US8219387B2 (en) Identifying far-end sound
US8842851B2 (en) Audio source localization system and method
US8744069B2 (en) Removing near-end frequencies from far-end sound
US10904658B2 (en) Electronic device directional audio-video capture
US8600037B2 (en) Audio quality and double talk preservation in echo control for voice communications
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
CN111970610B (zh) 回声路径检测方法、音频信号处理方法及系统、存储介质、终端
JP2000295338A (ja) 通信装置
US6816591B2 (en) Voice switching system and voice switching method
CN112929506B (zh) 音频信号的处理方法及装置,计算机存储介质及电子设备
KR20050105693A (ko) 동시통화구간 검출에 따른 음향 반향 제거 방법 및 장치
JP4244416B2 (ja) 情報処理装置および方法、並びに記録媒体
CN112217948B (zh) 语音通话的回声处理方法、装置、设备及存储介质
Gazziro et al. Multi-modal acoustic echo canceller for video conferencing systems
CN111292760B (zh) 发声状态检测方法及用户设备
JPH0766756A (ja) 音響エコーキャンセラ
JP2007151047A (ja) 音声スイッチ方法、音声スイッチ装置、音声スイッチプログラム及びそのプログラムを記録した記録媒体
CN111383648B (zh) 一种回波消除方法和装置
JP2001189795A (ja) 通信装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414