JP2007214976A

JP2007214976A - エコーキャンセル装置、テレビ電話端末、及びエコーキャンセル方法

Info

Publication number: JP2007214976A
Application number: JP2006033740A
Authority: JP
Inventors: Masafumi Takahashi; 雅史高橋
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-02-10
Filing date: 2006-02-10
Publication date: 2007-08-23

Abstract

【課題】ＴＶ内の音声遅延時間に応じて、エコーキャンセラへ基準入力として与える音声信号の遅延量（遅延時間）を可変にする。
【解決手段】エコーキャンセル装置２は、音声遅延機能を備えたＴＶ１と接続され、ＴＶ１が備えるスピーカ１２から出力される音声の反響音を収音し該反響音を反響音声信号に変換するマイクロホン２０６と、マイクロホン２０６からの反響音声信号を除去するエコーキャンセラ２０５ａとを備える。エコーキャンセル装置２は、入力信号を映像信号と音声信号に復号し、復号した音声信号をＴＶ１とエコーキャンセラ２０５ａへ出力する動画像デコーダ２０１と、エコーキャンセラ２０５ａへの音声信号の入力をＴＶ１の音声遅延時間に応じて遅延させる遅延回路２０５ｃとを備える。エコーキャンセラ２０５ａは、マイクロホン２０６から入力された反響音声信号から、遅延回路２０５ｃでＴＶ１の音声遅延時間だけ遅延させた音声信号を減算する。
【選択図】図１

Description

本発明は、エコーキャンセル装置、テレビ電話端末、及びエコーキャンセル方法、より詳細には、テレビジョン装置等の音声出力装置内の音声遅延時間に応じて、エコーキャンセラへ基準入力として与える音声信号の遅延量（遅延時間）を可変にしたエコーキャンセル装置、テレビ電話端末、及びエコーキャンセル方法に関する。

通信回線を介して映像と音声を送受信可能なテレビ電話機や、テレビ電話端末を用いたテレビ電話システムにおいては、ＬＣＤ等の表示装置に通話相手の映像を表示させながら、受話用のスピーカと送話用のマイクロホンにより双方向の通話を行うようになっている。この受話者側において、送話者から送られてくる音声がスピーカから出力され、この送話者の音声が直接、もしくは受話者を含む受話者周辺の物体等に反射してマイクロホンに入力される。マイクロホンに入力された送話者の音声はエコーとなって、送話者側のスピーカから送話者の耳に遅れて戻ってきてしまい、通話品質を劣化させていた。なお、以下ではスピーカから直接、もしくは反射してマイクロホンに入力される音をまとめて反響音と表記する。

従来、このようなエコー障害を抑制するために、エコーキャンセラを備えたテレビ電話端末が知られている（例えば、特許文献１を参照）。この特許文献１に記載のエコーキャンセラ及び該エコーキャンセラを備えたテレビ電話端末は、周囲騒音が存在するときでも、残留エコーを増加させることなく、エコー成分を短時間で抑制できるようにしたものである。

一般に、エコーキャンセラは、受話用のスピーカから出力された通話相手の音声の反響音（エコー）が送話用のマイクロホンで拾われ、通話相手側へ戻ることを防止することを目的とし、自然な会話の実現やハウリングの防止に有効である。

図１５は、従来のエコーキャンセラの概略構成を示すブロック図で、図中、１０１はエコーキャンセラ、１０２はスピーカ、１０３はマイクを示す。エコーキャンセラは、マイク入力と基準信号入力の２つの入力と、１つの出力とを備える。マイク入力にはマイク１０３が接続され、基準信号入力にはスピーカ１０２から出力される音声に相当する音声信号が入力される。マイク入力の反響音声信号から、環境の音響特性に合わせてゲイン、遅延、周波数特性等が調整された基準信号を減算して、スピーカ１０２から出力された音声の反響音を取り除くことができる。

従来のエコーキャンセラでは、室内で起こり得る反響音を除去するために、通常、基準信号より５０ｍｓｅｃ程度以下の遅延した音声を取り除くことができるように構成されている。また、上述のようなアルゴリズムのため、基準音声信号を０（無音）に固定すると、マイク１０３からの入力音声が加工されずそのまま出力されることになる。

一方、最近のテレビジョン装置は、ハイビジョン映像にも対応し、高画質化のために映像信号をデジタル処理（３次元ＹＣ分離やＩＰ変換など）するものが一般的になってきたが、このデジタル処理に時間がかかり、映像表示が音声出力よりも遅延してしまうという問題があった。そのため、テレビジョン装置に音声遅延回路を内蔵し、音声を遅延させて映像と音声を同期させるようにしている。

また、デジタル映像処理機能を備えたテレビジョン装置には、高画質，大画面なだけではなく、高音質なスピーカを備えたものが存在する。そこで、一般に普及してきた、このような高画質，高音質なテレビジョン装置を画像表示と音声出力に利用することで、特殊な装置を要しないテレビ電話システムを構築したいという要望がある。
特開２００３−２６４４８３号公報

しかしながら、映像をデジタル処理するテレビジョン装置で起こり得る音声遅延時間は、約１００ｍｓｅｃ以上になることがあり、通常のエコーキャンセラが想定する音声遅延時間（数十ｍｓｅｃ程度）を超えている。このため、一般のテレビジョン装置にエコーキャンセラを外部接続し、テレビジョン装置のスピーカを音声出力用に利用すると、エコーキャンセラが正しく動作しないという問題がある。また、遅延時間が通常のエコーキャンセラの想定する音声遅延時間内であったとしても、これは本来残響音を取り除くための時間であるため、テレビジョン装置内部で遅延が増加することにより、除去しきれない残響音が増加して、音声品質が劣化することになる。

エコーキャンセラを正しく動作させるためには、テレビジョン装置内の音声遅延と同じだけ遅延させた音声を基準入力として与える必要がある。このため、テレビジョン装置の音声遅延時間を知る必要があるが、この音声遅延時間を測定する機能は従来のエコーキャンセラでは実現されていない。

また、独立したユニットとして設計されている通常のエコーキャンセラは一般的な音声遅延対応のアルゴリズムが固定されており、この内部アルゴリズムに手を入れて音声遅延時間を変更することは困難である。さらに、この内部アルゴリズムは動的に遅延時間に適応するためのアルゴリズムであり、テレビジョン装置内部で発生するような固定的で大きな音声遅延時間に対応させるのは、演算処理量が非常に大きくなり、非効率である。

本発明は、上述のごとき実情に鑑みてなされたものであり、テレビジョン装置等の音声出力装置内の音声遅延時間に応じて、エコーキャンセラへ基準入力として与える音声信号の遅延量（遅延時間）を可変にしたエコーキャンセル装置、テレビ電話端末、及びエコーキャンセル方法を提供すること、を目的とする。

上記課題を解決するために、本発明の第１の技術手段は、遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置において、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて前記出力音声信号を遅延させる遅延手段を備え、該遅延手段の出力を前記エコーキャンセラに入力することを特徴としたものである。

第２の技術手段は、第１の技術手段において、前記音声遅延時間を測定する遅延測定手段と、所定の基準音声信号を前記音声出力装置と前記遅延測定手段へ出力する基準音声信号出力手段とを備え、前記遅延測定手段は、前記基準音声信号出力手段からの基準音声信号と前記マイクロホンからの入力音声信号とに基づいて前記音声遅延時間を測定し、該測定した音声遅延時間に応じて遅延時間を前記遅延手段に設定することを特徴としたものである。

第３の技術手段は、第２の技術手段において、前記基準音声信号は、Ｍ系列で変調したトーン信号であることを特徴としたものである。

第４の技術手段は、第２の技術手段において、入力映像情報の映像モードを検出する映像モード検出手段を備え、前記遅延測定手段は、前記映像モード検出手段により検出された映像モードが変化したときに、前記音声遅延時間を測定することを特徴としたものである。

第５の技術手段は、第１の技術手段において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声遅延時間を映像モード毎に記憶した記憶手段とを備え、
前記映像モード検出手段により検出された映像モードに応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴としたものである。

第６の技術手段は、第２の技術手段において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段を備え、前記遅延測定手段は、前記機種検出手段により検出された機種の少なくとも一方が変化したときに、前記音声遅延時間を測定することを特徴としたものである。

第７の技術手段は、第１の技術手段において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段と、前記音声遅延時間を機種毎に記憶した記憶手段とを備え、前記機種検出手段により検出された機種に応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴としたものである。

第８の技術手段は、第２の技術手段において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段とを備え、前記遅延測定手段は、前記映像モード検出手段により検出された映像モードあるいは前記機種検出手段により検出された機種の少なくとも一方が変化したときに、前記音声遅延時間を測定することを特徴としたものである。

第９の技術手段は、第１の技術手段において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段と、前記音声遅延時間を、映像モード及び機種の組み合わせ毎に記憶した記憶手段とを備え、前記映像モード検出手段により検出された映像モード及び前記機種検出手段により検出された機種の組み合わせに応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴としたものである。

第１０の技術手段は、第２の技術手段において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の着脱を検出する接続状態検出手段を備え、前記遅延測定手段は、前記接続状態検出手段により前記音声出力装置と前記マイクロホンとの両方の接続が検出されたときに、前記音声遅延時間を測定することを特徴としたものである。

第１１の技術手段は、第１乃至第１０のいずれか１の技術手段において、前記エコーキャンセラは、前記マイクロホンから入力された入力音声信号から、前記遅延手段で遅延させた出力音声信号を減算することを特徴としたものである。

第１２の技術手段は、遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置において、入力音声情報を少なくとも２つの音声信号に復号し、該復号した一方の音声信号を前記音声出力装置へ、他方の音声信号を前記エコーキャンセラへ出力するデコーダと、該デコーダが出力する前記２つの音声信号の出力タイミングを制御する制御手段とを備え、前記制御手段は、前記デコーダを制御して、前記エコーキャンセラに出力する音声信号を、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて遅延させることを特徴としたものである。

第１３の技術手段は、第１２の技術手段において、前記デコーダからの音声信号と前記マイクロホンからの入力音声信号とを入力とするエンコーダを備え、前記制御手段は、前記エンコーダに入力された音声信号と入力音声信号との時間差を求めることにより、音声遅延時間を測定し、該測定された音声遅延時間に応じて音声信号を遅延させることを特徴としたものである。

第１４の技術手段は、第１３の技術手段において、前記制御手段は、前記音声遅延時間を測定する際に、前記デコーダから出力されて前記エコーキャンセラに入力される音声信号を無音に固定することを特徴としたものである。

第１５の技術手段は、第１２乃至第１４のいずれか１の技術手段において、前記エコーキャンセラは、前記マイクロホンから入力された入力音声信号から、前記デコーダで遅延させた音声信号を減算することを特徴としたものである。

第１６の技術手段は、第１乃至第１５のいずれか１の技術手段において、前記音声出力装置は、テレビジョン装置であることを特徴としたものである。

第１７の技術手段は、第１乃至第１６のいずれか１の技術手段におけるエコーキャンセル装置と、ネットワークに接続するためのインタフェース手段と、利用者を撮影して映像信号を入力するための撮像手段と、映像信号を出力する映像出力手段とを備えていることを特徴としたものである。

第１８の技術手段は、遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置のエコーキャンセル方法において、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて前記出力音声信号を遅延させるステップと、該遅延させた音声信号を前記エコーキャンセラに入力するステップとを有することを特徴としたものである。

第１９の技術手段は、第１８の技術手段において、所定の基準音声信号を前記音声出力装置に出力すると共に、前記音声遅延時間を測定する音声遅延手段へ出力するステップと、該基準音声信号と前記マイクロホンからの入力音声信号とに基づいて前記音声遅延時間を測定するステップと、該測定された音声遅延時間に応じて遅延時間を設定するステップとを有することを特徴としたものである。

第２０の技術手段は、第１９の技術手段において、前記基準音声信号は、Ｍ系列で変調したトーン信号であることを特徴としたものである。

第２１の技術手段は、遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置のエコーキャンセル方法において、デコーダに入力された入力音声情報を少なくとも２つの音声信号に復号し、該復号した一方の音声信号を前記音声出力装置へ、他方の音声信号を前記エコーキャンセラへ出力する際に、前記２つの音声信号の出力タイミングを制御して、前記エコーキャンセラに出力する音声信号を、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて遅延させるステップを有することを特徴としたものである。

第２２の技術手段は、第２１の技術手段において、前記デコーダからの音声信号と前記マイクロホンからの入力音声信号とを入力するステップと、該入力された音声信号と入力音声信号との時間差を求めることにより、音声遅延時間を測定するステップとを有することを特徴としたものである。

第２３の技術手段は、第２２の技術手段において、前記音声遅延時間を測定する際に、前記デコーダから出力されて前記エコーキャンセラに入力される音声信号を無音に固定することを特徴としたものである。

第２４の技術手段は、第１８乃至第２３のいずれか１の技術手段において、前記音声出力装置は、テレビジョン装置であることを特徴としたものである。

本発明によれば、テレビジョン装置等の音声出力装置内の音声遅延時間に応じて、エコーキャンセラへ基準入力として与える音声信号の遅延時間を可変にしたため、特殊なエコーキャンセラを使うことなく、一般的なテレビジョン装置を映像表示及び音声出力に利用したテレビ電話システムを構築することができる。

また、一般的なテレビジョン装置を映像表示と音声出力に利用することができるため、大画面，高画質，高音質なテレビ電話システムを容易に実現することができる。

さらには、画像伝送を伴わないようなシステムであっても、音声出力からスピーカ、マイクを経由して音声入力に至る経路上に、例えば無線区間のような遅延を伴う区間があったとしても正しく動作するエコーキャンセル装置を実現できる。

以下、添付図面を参照しながら、本発明に係るエコーキャンセル装置、該装置を備えたテレビ電話端末、及びエコーキャンセル方法の各実施形態について説明する。なお、図１乃至図５において、同じ機能を有する部分については同じ符号を付し、繰り返しの説明は省略する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係るエコーキャンセル装置の要部構成例を示すブロック図で、図中、１は音声出力装置の一例であるテレビジョン装置（以下、ＴＶという）、２はエコーキャンセル装置を示す。なお、図中の破線は制御信号の流れ、実線は映像信号や音声信号の流れを示す。

ＴＶ１は、一般的なテレビであって、映像信号を表示するためのＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：液晶ディスプレイ）などの表示部１１と、音声信号を出力するためのスピーカ１２と、映像信号に対して３次元ＹＣ分離やＩＰ変換などのデジタル処理を行う映像処理回路１３と、映像信号に合わせて音声信号を遅延させる処理を行う遅延回路１４と、を備えて構成される。

このＴＶ１では、映像処理回路１３によるデジタル処理のために、映像に対して約１００ｍｓｅｃ程度の音声遅延が常に発生する。このため、遅延回路１４により音声信号を遅延させて映像と音声を同期させている。

エコーキャンセル装置２は、動画像デコーダ２０１、映像ＤＡＣ（デジタル・アナログコンバータ）２０２ａ、音声ＤＡＣ２０２ｂ、動画像エンコーダ２０３、映像ＡＤＣ（アナログ・デジタルコンバータ）２０４ａ、音声ＡＤＣ２０４ｂ、エコーキャンセル手段２０５、マイクロホン２０６、制御部２０７、基準信号発生回路２０８、及び操作入力部２０９を備えて構成される。ここでは、エコーキャンセル装置２とＴＶ１との間がアナログで接続される構成を示したが、デジタルによる接続であっても本発明は適応可能である。同様に、エコーキャンセル手段２０５内に音声を扱うＡＤＣ、ＤＡＣが内蔵されているような構成であっても本発明は適応可能である。

また、エコーキャンセル装置２は、ＴＶ１と接続するための外部端子Ｐ１（映像）、Ｐ２（音声）を備え、ＴＶ１とケーブル等を介して着脱可能に接続される。なお、上記各部の動作は、マイクロコンピュータ（マイコン）からなる制御部２０７により制御される。リモコンや本体操作部などの操作入力部２０９は、エコーキャンセル装置２を操作するための手段であって、操作入力部２０９からの操作信号が制御部２０７に入力され、エコーキャンセル装置２の各部が制御される。

ここで、エコーキャンセル装置２をテレビ電話端末に内蔵して利用する場合、動画像デコーダ２０１及び動画像エンコーダ２０３には、後述の図５に示すように、ネットワークインタフェース及びネットワークプロトコル処理部が接続される。

このネットワークインタフェースは、図示しない通信ネットワークに接続するための手段であって、通信ネットワークを介して通話相手のテレビ電話端末（図示せず）と映像信号及び音声信号を含む動画像データを送受信する。ネットワークプロトコル処理部は、ネットワークインタフェースと接続され、テレビ電話端末間で接続を確立し、データ通信を可能な状態にする。

テレビ電話システムで利用可能なプロトコルには、例えば、ＶｏＩＰ（Ｖｏｉｃｅ-ｏｖｅｒＩｎｔｅｒｎｅｔ-Ｐｒｏｔｏｃｏｌ）でも利用されている、ＳＩＰ（Ｓｅｓｓｉｏｎ-Ｉｎｔｉａｔｉｏｎ-Ｐｒｏｔｏｃｏｌ）などがある。また、動画像データのデータ形式は特に限定するものではないが、例えば、ＭＰＥＧ形式などの符号化（圧縮）データを利用することができる。

図１において、エコーキャンセル手段２０５は、マイクロホン２０６から入力される反響音声信号を除去するエコーキャンセラ２０５ａと、基準音声信号出力手段である基準信号発生回路２０８から出力される基準音声信号とマイクロホン２０６からの反響音声信号に基づいてＴＶ１の音声遅延時間を測定する遅延測定手段に相当する遅延測定回路２０５ｂと、エコーキャンセラ２０５ａへの音声信号の入力をＴＶ１の音声遅延時間に応じて遅延させる遅延手段に相当する遅延回路２０５ｃと、を備えて構成される。

エコーキャンセラ２０５ａは、マイクロホン２０６から入力された反響音声信号から、遅延回路２０５ｃでＴＶ１の音声遅延時間だけ遅延させた音声信号を減算することにより、反響音声信号を除去する。

遅延回路２０５ｃには、ＴＶ１の音声遅延時間に応じて、音声遅延時間が可変設定される。ＴＶ１の音声遅延時間を測定する場合、操作入力部２０９からの測定指示に従って、制御部２０７がスイッチＳを基準信号発生回路２０８側に切り換えて測定モードにし、基準信号発生回路２０８及び遅延測定回路２０５ｂによりＴＶ１の音声遅延時間を測定する。基準音声信号としては、例えば、位相が一致したときにだけ高い相関値を示すＭ系列のトーン信号などを用いることができる。その測定値は遅延回路２０５ｃに設定される。なお、具体的な音声遅延時間の測定・設定方法については後述する。

遅延回路２０５ｃに設定された音声遅延時間は、再測定を指示しない限りそのまま保持されるため、以後の通話においてはＴＶ１の音声遅延時間が反映されたエコーキャンセル処理が実行される。なお、エコーキャンセル装置２に別のＴＶを接続することも想定されるため、電源投入の都度、音声遅延時間を測定するようにしてもよい。

また、予めＴＶ１の音声遅延時間がわかっている場合、ユーザ入力により設定するようにしてもよい。この場合、ユーザが、操作入力部２０９等からＴＶ１の音声遅延時間を入力指定することで、ＴＶ１の音声遅延時間が遅延回路２０５ｃに設定される。

このように、エコーキャンセラ２０５ａに対して、基準入力となる音声信号を、ＴＶ１の音声遅延時間に合わせて与えることができるため、ＴＶ１内で大きな音声遅延があった場合でもエコーキャンセラ２０５ａを正しく動作させることができる。

遅延回路２０５ｃにＴＶ１の音声遅延時間を設定する際のエコーキャンセル装置２の動作例について説明する。この場合、まず、ユーザが操作入力部２０９を操作して、操作入力部２０９からの測定指示に従って、制御部２０７がスイッチＳを基準信号発生回路２０８側に切り換えて、測定モードにする。

測定モードにおいて、基準信号発生回路２０８は、Ｍ系列のトーン信号などの基準音声信号をＴＶ１とエコーキャンセル手段２０５（エコーキャンセラ２０５ａ）へ出力する。ＴＶ１へ出力された基準音声信号は、遅延回路１４で所定時間遅延してスピーカ１２から出力される。マイクロホン２０６は、スピーカ１２から出力された基準音声の反響音を収音し、その反響音を反響音声信号に変換する。

遅延測定回路２０５ｂは、基準信号発生回路２０８からの基準音声信号とマイクロホン２０６からの反響音声信号とを比較することにより、ＴＶ１の音声遅延時間を測定する。すなわち、基準音声信号とマイク入力された反響音声信号とのずれを測定することで音声遅延時間を測定する。遅延測定回路２０５ｂにより測定された音声遅延時間は、遅延回路２０５ｃに設定される。

次に、遅延回路２０５ｃにＴＶ１の音声遅延時間が設定された後のエコーキャンセル装置２の動作例について説明する。この場合、操作入力部２０９からの通話指示に従って、制御部２０７がスイッチＳを音声ＤＡＣ２０２ｂ側に切り換えて、通話モードにする。

通話モードにおいて、動画像デコーダ２０１は、通話相手のテレビ電話端末から送られてくる動画像データを復号（デコード）してデジタル映像信号とデジタル音声信号に分離する。映像ＤＡＣ２０２ａは、動画像デコーダ２０１により復号されたデジタル映像信号をアナログ映像信号へ変換する。また、音声ＤＡＣ２０２ｂは、動画像デコーダ２０１により復号されたデジタル音声信号をアナログ音声信号へ変換する。

映像ＤＡＣ２０２ａで変換されたアナログ映像信号は外部端子Ｐ１からＴＶ１へ出力される。また、音声ＤＡＣ２０２ｂで変換されたアナログ音声信号は外部端子Ｐ２からＴＶ１へ出力され、同時に、エコーキャンセル手段２０５へ出力される。ＴＶ１では、映像処理回路１３でデジタル処理を施した映像信号を表示部１１に表示すると共に、遅延回路１４で所定時間遅延させた音声信号をスピーカ１２から出力する。

マイクロホン２０６は、利用者等の音声を変換したアナログ音声信号をエコーキャンセル手段２０５へ出力する。また、マイクロホン２０６は、スピーカ１２から出力される送話者の音声の反響音を収音し、その反響音を変換した反響音声信号をエコーキャンセル手段２０５へ出力する。

遅延回路２０５ｃは、音声ＤＡＣ２０２ｂからのアナログ音声信号をＴＶ１の音声遅延時間だけ遅延させてエコーキャンセラ２０５ａへ基準入力として与える。エコーキャンセラ２０５ａは、マイクロホン２０６から入力された反響音声信号から、遅延回路２０５ｃにより基準入力として与えられたアナログ音声信号を減算する。

エコーキャンセラ２０５ａは、上記のように、マイクロホン２０６からの反響音声信号を除去すると共に、利用者等の音声であるアナログ音声信号を音声ＡＤＣ２０４ｂへ出力する。また、図示しない撮像手段（カメラ）から入力されるアナログ映像信号が映像ＡＤＣ２０４ａへ入力される。

映像ＡＤＣ２０４ａは、撮像手段からのアナログ映像信号をデジタル映像信号へ変換し、音声ＡＤＣ２０４ｂは、エコーキャンセラ２０５ａからのアナログ音声信号をデジタル音声信号へ変換する。映像ＡＤＣ２０４ａで変換したデジタル映像信号及び音声ＡＤＣ２０４ｂで変換したデジタル音声信号は、動画像エンコーダ２０３へ出力される。動画像エンコーダ２０３は、映像ＡＤＣ２０４ａからのデジタル映像信号及び音声ＡＤＣ２０４ｂからのデジタル音声信号を符号化（エンコード）し、符号化した動画像データを出力する。

このように、本実施形態によれば、テレビジョン装置内の音声遅延時間の測定回路を備え、エコーキャンセラへの基準入力の遅延時間を可変にしたため、特殊なエコーキャンセラを使うことなく、一般的なテレビジョン装置を画像表示及び音声出力に利用したテレビ電話システムを構築することができる。なお、遅延回路２０５ｃに設定する音声遅延時間は遅延測定回路２０５ｂで測定した結果よりも５ｍｓｅｃから１０ｍｓｅｃ小さく設定することが望ましい。これにより、遅延測定回路２０５ｂの測定結果に遅延時間が小さくなるような測定誤差が含まれていたとしても、エコーキャンセラ２０５ａの動的な遅延時間の適応アルゴリズムで吸収することができる。

（第２の実施形態）
ＴＶ１の映像処理による音声遅延時間は、映像モード（解像度など）やＴＶ機種によって変化する。そこで、本実施形態のエコーキャンセル装置は、映像信号の映像モード及び／又はＴＶ機種を検出し、映像モード及び／又はＴＶ機種が変化したときに、音声遅延時間を測定するように構成したものである。

図２は、本発明の第２の実施形態に係るエコーキャンセル装置２の要部構成例を示すブロック図で、エコーキャンセル装置２は、第１の実施形態に示した構成に加えて、モード・遅延時間テーブル２０７ａ、ケーブル接続状態・ＴＶ機種検出回路２１０を備えて構成される。なお、図中の破線は制御信号の流れ、実線は映像信号や音声信号の流れを示す。

本実施形態のエコーキャンセル装置２は、映像信号の映像モードを検出する映像モード検出手段に相当する動画像デコーダ２０１を備える。動画像デコーダ２０１は、動画像データが入力されると、これを映像信号と音声信号に復号する。この際、映像信号の映像モードを検出する。映像モードとは、例えば、５２５ｉ（ｉはインターレース），５２５ｐ（ｐはプログレッシブ），１１２５ｉ，７５０ｐなどの映像信号の解像度や画面の更新頻度（リフレッシュレート）などである。

動画像デコーダ２０１で検出された映像モード情報は制御部２０７へ入力され、制御部２０７は、この映像モード情報に基づいて映像モードが変化したかどうかを判断する。映像モードが変化したと判断した場合、基準信号発生回路２０８へ測定指示を行う。以後の測定処理は第１の実施形態と同様に、基準信号発生回路２０８及び遅延測定回路２０５ｂによりＴＶ１の音声遅延時間を測定し、その測定値を遅延回路２０５ｃに設定する。なお、映像モードが変化した際に突然、測定用の基準信号が出力されてユーザを驚かせないよう、表示部１１に警告メッセージを出力してから測定するよう構成しても良い。

また、一度測定した後は映像モード毎に音声遅延時間を記憶しておき、再測定することなく、音声遅延時間を調整する構成としてもよい。この場合、遅延測定回路２０５ｂにより測定された音声遅延時間を映像モード毎に記憶するためのモード・遅延時間テーブル２０７ａが不揮発性メモリ等に格納される。このテーブルデータの例を後述の図３に示す。

制御部２０７は、動画像デコーダ２０１からの映像モード情報により映像モードが変化したと判断した場合、モード・遅延時間テーブル２０７ａを参照し、該当する映像モードに応じた音声遅延時間が既に記憶されていれば、その映像モードに応じた音声遅延時間をモード・遅延時間テーブル２０７ａから選択し、選択した音声遅延時間を遅延回路２０５ｃに設定する。これにより、再測定することなく、音声遅延時間を再設定することができる。

また、制御部２０７は、モード・遅延時間テーブル２０７ａを参照し、該当する映像モードに応じた音声遅延時間が記憶されていなければ、基準信号発生回路２０８へ測定指示を行い、遅延測定回路２０５ｂで測定した測定結果をモード・遅延時間テーブル２０７ａに記憶する。

また、他の実施形態として、エコーキャンセル装置２は、エコーキャンセル装置２と接続されたＴＶの機種を検出する機種検出手段に相当するケーブル接続状態・ＴＶ機種検出回路２１０（以下、ＴＶ機種検出回路２１０）を備えるようにしてもよい。

ＴＶ機種検出回路２１０で検出されたＴＶ機種の情報は制御部２０７へ入力され、制御部２０７は、このＴＶ機種情報に基づいてＴＶ機種が変化したかどうかを判断する。ＴＶ機種が変化したと判断した場合、基準信号発生回路２０８へ測定指示を行う。以後の測定処理は第１の実施形態と同様に、基準信号発生回路２０８及び遅延測定回路２０５ｂによりＴＶ１の音声遅延時間を測定し、その測定値を遅延回路２０５ｃに設定する。

また、一度測定した後はＴＶ機種毎に音声遅延時間を記憶しておき、再測定することなく、音声遅延時間を調整する構成としてもよい。この場合、遅延測定回路２０５ｂにより測定された音声遅延時間をＴＶ機種毎に記憶するためのモード・遅延時間テーブル２０７ａが不揮発性メモリ等に格納される。このテーブルデータの例を後述の図３に示す。

制御部２０７は、ＴＶ機種検出回路２１０からのＴＶ機種情報によりＴＶ機種が変化したと判断した場合、モード・遅延時間テーブル２０７ａを参照し、該当するＴＶ機種に応じた音声遅延時間が既に記憶されていれば、そのＴＶ機種に応じた音声遅延時間をモード・遅延時間テーブル２０７ａから選択し、選択した音声遅延時間を遅延回路２０５ｃに設定する。これにより、再測定することなく、音声遅延時間を再設定することができる。

また、制御部２０７は、モード・遅延時間テーブル２０７ａを参照し、該当するＴＶ機種に応じた音声遅延時間が記憶されていなければ、基準信号発生回路２０８へ測定指示を行い、遅延測定回路２０５ｂで測定した測定結果をモード・遅延時間テーブル２０７ａに記憶する。

また、さらに、他の実施形態として、エコーキャンセル装置２に、上述した動画像デコーダ２０１とＴＶ機種検出回路２１０の両方を備えるようにしてもよい。

動画像デコーダ２０１で検出された映像モードの情報及びＴＶ機種検出回路２１０で検出されたＴＶ機種の情報は制御部２０７へ入力され、制御部２０７は、この映像モード情報及びＴＶ機種情報に基づいて、映像モードあるいはＴＶ機種が変化したかどうかを判断する。映像モードあるいはＴＶ機種が変化したと判断した場合、基準信号発生回路２０８へ測定指示を行う。以後の測定処理は第１の実施形態と同様に、基準信号発生回路２０８及び遅延測定回路２０５ｂによりＴＶ１の音声遅延時間を測定し、その測定値を遅延回路２０５ｃに設定する。

また、一度測定した後は映像モード及びＴＶ機種の組み合わせ毎に音声遅延時間を記憶しておき、再測定することなく、音声遅延時間を調整する構成としてもよい。この場合、遅延測定回路２０５ｂにより測定された音声遅延時間を組み合わせ（映像モード及びＴＶ機種）毎に記憶するためのモード・遅延時間テーブル２０７ａが不揮発性メモリ等に格納される。このテーブルデータの例を後述の図３に示す。

制御部２０７は、映像モードあるいはＴＶ機種が変化したと判断した場合、モード・遅延時間テーブル２０７ａを参照し、該当する組み合わせに応じた音声遅延時間が既に記憶されていれば、その組み合わせに応じた音声遅延時間をモード・遅延時間テーブル２０７ａから選択し、選択した音声遅延時間を遅延回路２０５ｃに設定する。これにより、再測定することなく、音声遅延時間を再設定することができる。

また、制御部２０７は、モード・遅延時間テーブル２０７ａを参照し、該当する組み合わせに応じた音声遅延時間が記憶されていなければ、基準信号発生回路２０８へ測定指示を行い、遅延測定回路２０５ｂで測定した測定結果をモード・遅延時間テーブル２０７ａに記憶する。

図３は、モード・遅延時間テーブル２０７ａの一例を示す図である。ここでは、ＴＶ機種と映像モードの組み合わせに対して、音声遅延時間が登録されている例を示しているが、ＴＶ機種と音声遅延時間の対応関係、あるいは、映像モードと音声遅延時間との対応関係を登録するようにしてもよい。なお、映像モードのＤ１は５２５ｉの解像度、Ｄ２は５２５ｐの解像度、Ｄ３は１１２５ｉの解像度、Ｄ４は７５０ｐの解像度、Ｄ５は１１２５ｐの解像度に対応する。また、ＴＶ機種情報は、例えば、ＴＶの型番などである。ＴＶ機種情報を扱うための仕組には、例えばＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）が定める各種規格が利用できる。

エコーキャンセル装置２は、接続したＴＶのＴＶ機種情報が取得できない場合、当該ＴＶとの接続が解除されとときに、モード・遅延時間テーブル２０７ａから測定結果を消去するようにしてもよい。

また、エコーキャンセル装置２は、ＴＶが接続されているかどうかを検出する接続状態検出手段に相当するケーブル接続状態・ＴＶ機種検出回路２１０（以下、ケーブル接続状態検出回路２１０）を備えるようにしてもよい。

ケーブル接続状態検出回路２１０で検出された接続状態の情報は制御部２０７へ入力され、制御部２０７は、この接続状態情報に基づいて、ＴＶとの接続ケーブルが装着されたかどうかを判断する。ＴＶとの接続ケーブルが装着されたと判断した場合、基準信号発生回路２０８へ測定指示を行う。以後の測定処理は第１の実施形態と同様に、基準信号発生回路２０８及び遅延測定回路２０５ｂによりＴＶ１の音声遅延時間を測定し、その測定値を遅延回路２０５ｃに設定する。

また、制御部２０７は、ＴＶとの接続ケーブルが取り外されたと判断した場合、ＴＶが交換された可能性があるため、モード・遅延時間テーブル２０７ａに記憶されている音声遅延時間を消去するようにしてもよい。

このように、本実施形態によれば、映像信号の映像モード及び／又はＴＶ機種を検出し、映像モード及び／又はＴＶ機種が変化したときに、音声遅延時間を測定することができるため、各種の映像モード及び／又はＴＶ機種に応じて、適切な音声遅延時間を設定することができる。

（第３の実施形態）
本実施形態のエコーキャンセル装置は、ＳＴＢ（ＳｅｔＴｏｐＢｏｘ）モードと通話（コミュニケーション）モードを備え、ステレオの音声入出力回路を利用して、音声遅延測定処理と音声遅延処理をマイコンによるソフトウェア制御で実行するように構成したものである。

図４は、本発明の第３の実施形態に係るエコーキャンセル装置２の要部構成例を示すブロック図である。ＴＶ１は、表示部１１と、左右のスピーカ（１２Ｌ，１２Ｒ）と、映像処理回路１３と、スピーカ１２Ｌに対応する遅延回路１４Ｌと、スピーカ１２Ｒに対応する遅延回路１４Ｒと、を備えて構成される。エコーキャンセル装置２は、ＴＶ１と接続するための外部端子Ｐ１（映像）、Ｐ２（左音声）、Ｐ３（右音声）を備え、ＴＶ１とケーブル等を介して着脱可能に接続される。

本実施形態においては、エコーキャンセル装置２が備える音声ＤＡＣ２０２ｂと音声ＡＤＣ２０４ｂがステレオ対応となっている。前述の第１の実施形態や第２の実施形態に示したエコーキャンセル装置２の基準信号発生回路２０８、遅延測定回路２０５ｂ、及び遅延回路２０５ｃを不要とし、音声遅延測定処理と音声遅延処理をマイコンである制御部２０７によるソフトウェア制御で実行する。上記の音声遅延測定処理と音声遅延処理を実行するための制御プログラムは、制御部２０７内のメモリに格納される。

ＳＴＢモードではスイッチＳを音声ＤＡＣ２０２ｂの右（Ｒ）チャンネル側へ、通話モードではスイッチＳを音声ＤＡＣ２０２ｂの左（Ｌ）チャンネル側へ切り替えられる。図４に示すスイッチＳは、ＳＴＢモードの位置にある。ＳＴＢモードでは動画像デコーダ２０１のステレオ出力がそのままＴＶ１のスピーカ１２Ｌ及びスピーカ１２Ｒへ入力され、スピーカ１２Ｌ及びスピーカ１２Ｒからステレオ音声で出力される。

ＴＶ１の音声遅延時間を測定する場合、まず、スイッチＳを音声ＤＡＣ２０２ｂのＬチャンネル側へ切り替えて通話モードにする。動画像デコーダ２０１は、入力信号を映像信号と２つの音声信号に復号し、復号した一方の音声信号を音声ＤＡＣ２０２ｂのＬチャンネルからＴＶ１の遅延回路１４Ｌ及び遅延回路１４Ｒへ、他方の音声信号を音声ＤＡＣ２０２ｂのＲチャンネルからエコーキャンセラ２０５ａへ出力する。

ＴＶ１において、スピーカ１２Ｌは、遅延回路１４Ｌで所定時間遅延された音声を出力し、スピーカ１２Ｒは、遅延回路１４Ｒで所定時間遅延された音声を出力する。

マイクロホン２０６は、スピーカ１２Ｌ及びスピーカ１２Ｒから出力された音声の反響音を収音し、その反響音を反響音声信号に変換し、エコーキャンセラ２０５ａへ出力する。制御部２０７は、ＴＶ１の音声遅延時間を測定する際に、動画像デコーダ２０１に入力する音声信号のＲチャンネルを０に固定する。その結果、音声ＤＡＣ２０２ｂのＲチャンネルから出力され、エコーキャンセラ２０５ａに入力される音声信号が無音に固定される。これにより、エコーキャンセラ２０５ａの動作を一時的に停止させ、マイクロホン２０６からの反響音声信号がそのまま動画像エンコーダ２０３へ入力される。

このようにして、動画像デコーダ２０１（本例では音声ＤＡＣ２０２ｂのＬチャンネル）からの音声信号が音声ＡＤＣ２０４ｂのＬチャンネルへ、マイクロホン２０６からの反響音声信号が音声ＡＤＣ２０４ｂのＲチャンネルへ入力され、動画像エンコーダ２０３に取り込まれる。

制御部２０７は、動画像エンコーダ２０３に入力された音声信号と反響音声信号との時間差を求めることにより、ＴＶ１の音声遅延時間を測定することができる。制御部２０７は、上記のように測定した音声遅延時間に基づいて、動画像デコーダ２０１を制御して、エコーキャンセラ２０５ａへの音声信号の入力をＴＶ１の音声遅延時間に応じて遅延させる。

上記のように、マイク入力のチャンネル（本例ではＲチャンネル）と異なるチャンネル(本例ではＬチャンネル)にスピーカ１２Ｌ及び１２Ｒへの出力信号と同じ信号をループバックさせるようにすれば、動画像エンコーダ２０３で録音された音声の左右の時間差を測定するだけで遅延時間を測定することができるようになる。この構成によれば、動画像デコーダ２０１での再生開始タイミングと動画像エンコーダ２０３での録音開始タイミングを厳密に一致させなくとも音声遅延時間を厳密に測定することができる。

このように、本実施形態によれば、左右のスピーカから同じ音声(動画像デコーダの左チャンネル)が出力され、動画像デコーダの右チャンネルはエコーキャンセラに入力されている。このため、制御部（マイコン）で動画像デコーダの左右チャンネルからの音声信号の出力タイミングを調整することにより、前述の遅延回路と同等の機能を実現することができ、ハードウェア構成が簡単になる。

図５は、本発明に係るエコーキャンセル装置２を備えたテレビ電話端末の概略構成例を示すブロック図である。図中、３はインターネットやイントラネットなどの通信ネットワーク、２０はエコーキャンセル装置２を備えたテレビ電話端末を示す。

テレビ電話端末２０は、エコーキャンセル装置２と、通信ネットワーク３に接続するためのネットワークインタフェース２１１と、ネットワークプロトコル処理部２１２と、利用者を撮影して映像信号を入力するための撮像手段２１３と、を備えて構成される。なお、エコーキャンセル装置２は、前述の第１の実施形態〜第３の実施形態に示したいずれかの構成を備えているが、ここでは主要部（動画像デコーダ２０１、ＤＡＣ２０２、動画像エンコーダ２０３、ＡＤＣ２０４、エコーキャンセル手段２０５、マイクロホン２０６）のみを記載している。

ネットワークインタフェース２１１は、通信ネットワーク３に接続するための手段であって、通信ネットワーク３を介して通話相手のテレビ電話端末（図示せず）と映像信号及び音声信号を含む動画像データを送受信する。ネットワークプロトコル処理部２１２は、ネットワークインタフェース２１１と接続され、テレビ電話端末間でプロトコルを確立し、データ通信を可能な状態にする。撮像手段２１３は、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）などの撮像素子で構成され、その映像信号はＡＤＣ２０４へ入力される。

このように、テレビ電話端末間を通信ネットワークを介して接続することにより、テレビ電話システムが実現され、テレビ電話端末間において映像信号と音声信号を双方向でやり取りすることが可能となる。

第１の実施形態（図１）及び第２の実施形態（図２）に示したエコーキャンセル装置２によるエコーキャンセル方法について説明する。
まず、動画像デコーダ２０１が、動画像データを映像信号と音声信号に復号し、復号した音声信号をＴＶ１とエコーキャンセル手段２０５（エコーキャンセラ２０５ａ）へ出力する。次に、遅延回路２０５ｃが、エコーキャンセラ２０５ａへの音声信号の入力をＴＶ１の音声遅延時間に応じて遅延させる。そして、エコーキャンセラ２０５ａが、マイクロホン２０６から入力された反響音声信号から、遅延回路２０５ｃで遅延させた基準入力となる音声信号を減算する。

ＴＶ１の音声遅延時間を測定する場合、基準信号発生回路２０８が、Ｍ系列で変調したトーン信号などの基準音声信号をＴＶ１とエコーキャンセル手段２０５（エコーキャンセラ２０５ａ）へ出力する。次に、遅延測定回路２０５ｂが、エコーキャンセラ２０５ａへの基準音声信号とマイクロホン２０６からの反響音声信号とに基づいてＴＶ１の音声遅延時間を測定する。そして、遅延測定回路２０５ｂで測定した音声遅延時間は遅延回路２０５ｃに設定される。

第３の実施形態（図４）に示したエコーキャンセル装置２によるエコーキャンセル方法について説明する。
この場合、動画像デコーダ２０１が、動画像データを映像信号と少なくとも２つの音声信号に復号し、復号した一方の音声信号をＴＶ１へ、他方の音声信号をエコーキャンセラ２０５ａへ出力する際に、制御部２０７が、２つの音声信号の出力タイミングを制御し、エコーキャンセラ２０５ａへの音声信号の入力をＴＶ１の音声遅延時間に応じて遅延させる。そして、エコーキャンセラ２０５ａが、マイクロホン２０６から入力された反響音声信号から、動画像デコーダ２０１で遅延させた基準入力となる音声信号を減算する。

ＴＶ１の音声遅延時間を測定する場合、ＴＶ１への音声信号とマイクロホン２０６からの反響音声信号とが動画像エンコーダ２０３に入力される。次に、制御部２０７が、動画像エンコーダ２０３に入力された音声信号と反響音声信号との時間差を求めることにより、ＴＶ１の音声遅延時間を測定する。なお、ＴＶ１の音声遅延時間を測定する際には、エコーキャンセラ２０５ａへ入力される音声信号が一時的に無音に固定される。

次に、エコーキャンセル装置２による音声遅延時間の測定方法について説明する。
図６に示すように、基準信号とマイクから入力された反響音声信号とのずれを測定することで音声遅延時間を測定する。

よく利用されるインパルスや単純なトーンパルスによる測定では、０から１００ｍｓｅｃ以上の広い範囲での遅延時間の変化に適応させる場合、信頼性が低下する。そこで、３１ビット長のＭ系列で変調した１ｋＨｚのトーンを利用することで、雑音の多い環境でも高精度に信頼できる遅延時間を測定することが可能となる。ここで、最小パルス長を１０ｍｓｅｃとしたため、信号の長さは３１０ｍｓｅｃとなる。なお、Ｍ系列は位相が一致したときにだけ高い相関値を示すほかのパターンでも代替できる。

音声遅延時間の測定手順の一例を下記に示す。
（１）マイク入力を１ｓｅｃ録音する。この場合、最大６９０ｍｓｅｃまでの遅延を測定できる(＝１ｓｅｃ−３１０ｍｓｅｃ)。
（２）基準信号とマイク入力とをそれぞれの包絡線に変換する。ここでは、信号を０.５ｍｓｅｃごとに区切り、その範囲のエネルギーを求め包絡線の代わりとした。
（３）マイク入力の最大値が極端に小さい場合(例えば適正レベルの１／１０以下)、接続あるいは音量調整を確認するようユーザへの告知を行う。
（４）マイク入力の先頭から０.５ｍｓｅｃ×ｎ〜０.５ｍｓｅｃ×ｎ＋３１０ｍｓｅｃの信号の包絡線と基準信号の包絡線との相関値を、ｎの値を０から１３８０（＝（１ｓｅｃ − ３１０ｍｓｅｃ）／０.５ｍｓｅｃ）の範囲について変化させながら求める。相関値が最大となるnをｎｍａｘとする。包絡線に変換することで相関値の演算量を大きく削減することができる。Ｍ系列を用いることで、包絡線に変換しても相関値の変化は元の信号の相関値の変化に一致する。
（５）マイク入力の先頭からｍ／８ｋＨｚ〜ｍ／８ｋＨｚ＋３１０ｍｓｅｃの信号と基準信号との相関値を、ｍの値を（ｎｍａｘ−２）×０.５ｍｓｅｃ×８ｋＨｚ〜（ｎｍａｘ＋２）×０.５ｍｓｅｃ×８ｋＨｚの範囲について変化させながら求める。相関値が最大となるｍをｍｍａｘとする。ｍｍａｘ／８ｋＨｚを測定結果とする。ここで８ｋＨｚはサンプリングレートである。
（６）上記（５）で求めた相関値が基準に満たない場合、例えば０.７以下の場合は測定が失敗したとみなし、ユーザへの告知、あるいは再測定を行う。

以上のような手順で求めた反響音の遅延時間は、もっとも大きな反響成分、すなわち、スピーカからマイクに直接伝わった音の遅延時間に相当し、これは遅延回路１４における遅延時間とほぼ一致する。なお、上記各値は説明のための値でこれ以外の値であっても良いが、実験的に良い結果を与えることが確認されている。

図７は、エコーキャンセル装置２による音声遅延時間測定方法の一例を説明するためのフロー図である。まず、エコーキャンセル装置２は、基準信号を生成し（ステップＳ１）、基準信号の再生（ステップＳ２）と、マイク入力の録音（ステップＳ３）を同時に開始する。次に、エコーキャンセル装置２は、録音信号を解析して音声遅延時間を求める。計算時間を短縮するために、解析は粗解析（ステップＳ４）と解析（ステップＳ５）の２つの段階に分けて行う。

基準信号は、図８（Ａ）に示すように、トーン信号を３１ビット長のＭ系列で変調した信号である。図８（Ｂ）は、図８（Ａ）に示すトーン信号を拡大した図である。

図９は、図７に示したステップＳ４における粗解析の手順の一例を説明するためのフロー図である。粗解析では基準信号と録音信号をそれぞれエネルギーに変換して処理を行う。
まず、エコーキャンセル装置２は、基準信号をトーン信号の４サイクル程度の間隔(以下、変換区間（ｓｔｅｐ）)に区切り、それぞれの区間の実効値を求める（ステップＳ１１）。同様に、録音信号をトーン信号の４サイクル程度の間隔（ｓｔｅｐ）に区切り、それぞれの区間の実効値を求める（ステップＳ１２）。ここで、ｎは粗解析の結果、基準信号ｒｍｓは基準信号の実効値、録音信号ｒｍｓは録音信号の実効値、ｒｅｃｌｅｎは録音信号のサンプル数、ｌｅｎは基準信号のサンプル数、ｒは相関値、ｒｍａｘは相関値の最大値とする。相関値ｒは下記の式（１）により求める。

図１０は、基準信号の実効値への変換例を示す図である。図１０（Ａ）は基準信号を示し、図１０（Ｂ）は図１０（Ａ）に示す基準信号の区間毎の実効値を示す。
また、図１１は、録音信号の実効値への変換例を示す図である。図１１（Ａ）は録音信号を示し、図１１（Ｂ）は図１１（Ａ）に示す録音信号の区間毎の実効値を示す。通常、録音信号は環境により図１１（Ａ）のようにひずむ。

図９において、ｒｍａｘ＝０、ｎ＝０とし（ステップＳ１３）、ｉ＝０，１，・・・，（ｒｅｃｌｅｎ−ｌｅｎ）／ｓｔｅｐ−１とし、ループ開始する（ステップＳ１４）。まず、エコーキャンセル装置２は、図１２に示すように、録音信号ｒｍｓの区間（ｉ，ｉ＋ｌｅｎ／ｓｔｅｐ−１）を切り出す（ステップＳ１５）。

次に、エコーキャンセル装置２は、基準信号ｒｍｓと切り出した録音信号ｒｍｓとの相関値ｒを式（１）により算出し（ステップＳ１６）、ｒｍａｘ＜ｒであるかどうかを判定する（ステップＳ１７）。ｒｍａｘ＜ｒの場合（ＹＥＳの場合）、ｒｍａｘ＝ｒ、ｎ＝ｉとし（ステップＳ１８）、ループ終了する（ステップＳ１９）。また、ステップＳ１７において、ｒｍａｘ＜ｒでない場合（ＮＯの場合）、ステップＳ１９に移行し、ループ終了する。

相関値が最大となる遅延量を求める処理の演算量は、データ量の自乗に比例するため、このようにデータを間引いて処理することで処理量を大幅に削減することができる。また、M系列で変調したトーン信号を用いることにより、相関値の変化が大きく現れ、ノイズやひずみの大きな環境であっても正確な測定が行える。

図１３は、図７に示したステップＳ５における解析の手順の一例を説明するためのフロー図である。図９に示した粗解析で範囲を絞り込んだ範囲について最終的な解析を行う。ここで、ｍは最終的な結果であり、m×(サンプリング周期)が求める遅延量である。最大の相関値ｒｍａｘは処理の信頼度であり、通常０.８程度以上になる。

まず、ｒｍａｘ＝０、ｍ＝０とし（ステップＳ２１）、ｉ＝（ｎ−２）＊ｓｔｅｐ，（ｎ−２）＊ｓｔｅｐ＋１，・・・，（ｎ＋２）＊ｓｔｅｐとし、ループ開始する（ステップＳ２２）。まず、エコーキャンセル装置２は、録音信号の区間（ｉ，ｉ＋ｌｅｎ−１）を切り出す（ステップＳ２３）。

次に、エコーキャンセル装置２は、基準信号と切り出した録音信号との相関値ｒを式（１）により算出し（ステップＳ２４）、ｒｍａｘ＜ｒであるかどうかを判定する（ステップＳ２５）。ｒｍａｘ＜ｒの場合（ＹＥＳの場合）、ｒｍａｘ＝ｒ、ｍ＝ｉとし（ステップＳ２６）、ループ終了する（ステップＳ２７）。また、ステップＳ２５において、ｒｍａｘ＜ｒでない場合（ＮＯの場合）、ステップＳ２７に移行し、ループ終了する。

（第４の実施形態）
図１４は、本発明の第４の実施形態に係るエコーキャンセル装置を備えたＩＰ（Ｉｎｔｅｒｎｅｔ−Ｐｒｏｔｏｃｏｌ）電話端末の概略構成例を示すブロック図である。以下、前述の図５に示したテレビ電話端末の構成との相違点についてのみ説明する。

ＩＰ電話端末２１は、エコーキャンセル装置２２と、通信ネットワーク３に接続するためのネットワークインタフェース２１１と、ネットワークプロトコル処理部２１２と、これらをユーザが操作するための操作入力部２０９とを備えて構成される。また、エコーキャンセル装置２２は、音声情報をデコードする音声デコーダ２１４と、音声をアナログ信号に変換するＤＡＣ２１５と、音声情報をエンコードする音声エンコーダ２１６と、音声をデジタル信号に変換するＡＤＣ２１７と、エコーキャンセル手段２０５と、外部に接続された無線伝送装置の接続状態や機種を検出する接続・機種検出回路２２２とから構成される。

ここで、エコーキャンセル手段２０５は、前述の第１の実施形態〜第３の実施形態に示したいずれかの構成を備えているが、第２の実施形態の映像モードによる遅延時間の設定変更機能は持たないものとする。ただし、接続・機種検出回路２２２からの情報に基づきケーブル接続状態や外部に接続された機器の機種判別により遅延時間を設定する機能は同様に備える。なお、２つのケーブルがともに接続されているか、いずれか一方でも取り外されているかという判定が、第２の実施形態におけるケーブルが装着されているか否かの判定に相当する。

本実施形態においては、無線伝送装置２１８と２１９、ならびに無線伝送装置２２０と２２１はそれぞれ組で音声信号を無線伝送する。一般に無線伝送では所定の遅延時間が発生するため、音声遅延が発生するＴＶ１が接続された場合と同様に本発明の有効性が発揮される。

以上説明したように、本発明によれば、テレビジョン装置等の音声出力装置内の音声遅延時間に応じて、エコーキャンセラへ基準入力として与える音声信号の遅延時間を可変にしたため、特殊なエコーキャンセラを使うことなく、一般的なテレビジョン装置を映像表示及び音声出力に利用したテレビ電話システムを構築することができる。

本発明の第１の実施形態に係るエコーキャンセル装置の要部構成例を示すブロック図である。本発明の第２の実施形態に係るエコーキャンセル装置の要部構成例を示すブロック図である。モード・遅延時間テーブルの一例を示す図である。本発明の第３の実施形態に係るエコーキャンセル装置の要部構成例を示すブロック図である。本発明に係るエコーキャンセル装置を備えたテレビ電話端末の概略構成例を示すブロック図である。基準信号とマイクから入力された反響音声信号とのずれの様子を示す図である。エコーキャンセル装置による音声遅延時間測定方法の一例を説明するためのフロー図である。トーン信号を３１ビット長のＭ系列で変調した基準信号の一例を示す図である。図７に示したステップＳ４における粗解析の手順の一例を説明するためのフロー図である。基準信号の実効値への変換例を示す図である。録音信号の実効値への変換例を示す図である。録音信号ｒｍｓの区間を切り出した様子を示す図である。図７に示したステップＳ５における解析の手順の一例を説明するためのフロー図である。本発明の第４の実施形態に係るエコーキャンセル装置を備えたテレビ電話端末の概略構成例を示すブロック図である。従来のエコーキャンセラの概略構成を示すブロック図である。

符号の説明

１…テレビジョン装置（ＴＶ）、２，２２…エコーキャンセル装置、３…通信ネットワーク、１１…表示部、１２，１２Ｌ，１２Ｒ…スピーカ、１３…映像処理回路、２０…テレビ電話端末、２１…ＩＰ電話端末、２０１…動画像デコーダ（映像モード検出手段）、２０２，２１５…ＤＡＣ、２０２ａ…映像ＤＡＣ、２０２ｂ…音声ＤＡＣ、２０３…動画像エンコーダ、２０４，２１７…ＡＤＣ、２０４ａ…映像ＡＤＣ、２０４ｂ…音声ＡＤＣ、２０５…エコーキャンセル手段、２０５ａ…エコーキャンセラ、２０５ｂ…遅延測定回路、１４，１４Ｌ，１４Ｒ，２０５ｃ…遅延回路、２０６…マイクロホン、２０７…制御部、２０７ａ…モード・遅延時間テーブル、２０８…基準信号発生回路、２０９…操作入力部、２１０…ケーブル接続状態・ＴＶ機種検出回路、２１１…ネットワークインタフェース、２１２…ネットワークプロトコル処理部、２１３…撮像手段、２１４…音声デコーダ、２１６…音声エンコーダ、２１８，２１９，２２０，２２１…無線伝送装置、２２２…接続・機種検出回路。

Claims

遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置において、
前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて前記出力音声信号を遅延させる遅延手段を備え、該遅延手段の出力を前記エコーキャンセラに入力することを特徴とするエコーキャンセル装置。
請求項１に記載のエコーキャンセル装置において、前記音声遅延時間を測定する遅延測定手段と、所定の基準音声信号を前記音声出力装置と前記遅延測定手段へ出力する基準音声信号出力手段とを備え、
前記遅延測定手段は、前記基準音声信号出力手段からの基準音声信号と前記マイクロホンからの入力音声信号とに基づいて前記音声遅延時間を測定し、該測定した音声遅延時間に応じて遅延時間を前記遅延手段に設定することを特徴とするエコーキャンセル装置。
請求項２に記載のエコーキャンセル装置において、前記基準音声信号は、Ｍ系列で変調したトーン信号であることを特徴とするエコーキャンセル装置。
請求項２に記載のエコーキャンセル装置において、入力映像情報の映像モードを検出する映像モード検出手段を備え、
前記遅延測定手段は、前記映像モード検出手段により検出された映像モードが変化したときに、前記音声遅延時間を測定することを特徴とするエコーキャンセル装置。
請求項１に記載のエコーキャンセル装置において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声遅延時間を映像モード毎に記憶した記憶手段とを備え、
前記映像モード検出手段により検出された映像モードに応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴とするエコーキャンセル装置。
請求項２に記載のエコーキャンセル装置において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段を備え、
前記遅延測定手段は、前記機種検出手段により検出された機種の少なくとも一方が変化したときに、前記音声遅延時間を測定することを特徴とするエコーキャンセル装置。
請求項１に記載のエコーキャンセル装置において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段と、前記音声遅延時間を機種毎に記憶した記憶手段とを備え、
前記機種検出手段により検出された機種に応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴とするエコーキャンセル装置。
請求項２に記載のエコーキャンセル装置において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段とを備え、
前記遅延測定手段は、前記映像モード検出手段により検出された映像モードあるいは前記機種検出手段により検出された機種の少なくとも一方が変化したときに、前記音声遅延時間を測定することを特徴とするエコーキャンセル装置。
請求項１に記載のエコーキャンセル装置において、入力映像情報の映像モードを検出する映像モード検出手段と、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の機種を検出する機種検出手段と、前記音声遅延時間を、映像モード及び機種の組み合わせ毎に記憶した記憶手段とを備え、
前記映像モード検出手段により検出された映像モード及び前記機種検出手段により検出された機種の組み合わせに応じた音声遅延時間を前記記憶手段から選択し、該選択した音声遅延時間に応じた遅延時間を前記遅延手段に設定することを特徴とするエコーキャンセル装置。
請求項２に記載のエコーキャンセル装置において、前記音声出力装置あるいは前記マイクロホンの少なくとも一方の着脱を検出する接続状態検出手段を備え、
前記遅延測定手段は、前記接続状態検出手段により前記音声出力装置と前記マイクロホンとの両方の接続が検出されたときに、前記音声遅延時間を測定することを特徴とするエコーキャンセル装置。
請求項１乃至１０のいずれか１項に記載のエコーキャンセル装置において、前記エコーキャンセラは、前記マイクロホンから入力された入力音声信号から、前記遅延手段で遅延させた出力音声信号を減算することを特徴とするエコーキャンセル装置。
遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置において、
入力音声情報を少なくとも２つの音声信号に復号し、該復号した一方の音声信号を前記音声出力装置へ、他方の音声信号を前記エコーキャンセラへ出力するデコーダと、該デコーダが出力する前記２つの音声信号の出力タイミングを制御する制御手段とを備え、
前記制御手段は、前記デコーダを制御して、前記エコーキャンセラに出力する音声信号を、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて遅延させることを特徴とするエコーキャンセル装置。
請求項１２に記載のエコーキャンセル装置において、前記デコーダからの音声信号と前記マイクロホンからの入力音声信号とを入力とするエンコーダを備え、
前記制御手段は、前記エンコーダに入力された音声信号と入力音声信号との時間差を求めることにより、音声遅延時間を測定し、該測定された音声遅延時間に応じて音声信号を遅延させることを特徴とするエコーキャンセル装置。
請求項１３に記載のエコーキャンセル装置において、前記制御手段は、前記音声遅延時間を測定する際に、前記デコーダから出力されて前記エコーキャンセラに入力される音声信号を無音に固定することを特徴とするエコーキャンセル装置。
請求項１２乃至１４のいずれか１項に記載のエコーキャンセル装置において、前記エコーキャンセラは、前記マイクロホンから入力された入力音声信号から、前記デコーダで遅延させた音声信号を減算することを特徴とするエコーキャンセル装置。
請求項１乃至１５のいずれか１項に記載のエコーキャンセル装置において、前記音声出力装置は、テレビジョン装置であることを特徴とするエコーキャンセル装置。
請求項１乃至１６のいずれか１項に記載のエコーキャンセル装置と、ネットワークに接続するためのインタフェース手段と、利用者を撮影して映像信号を入力するための撮像手段と、映像信号を出力する映像出力手段とを備えていることを特徴とするテレビ電話端末。
遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置のエコーキャンセル方法において、
前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて前記出力音声信号を遅延させるステップと、該遅延させた音声信号を前記エコーキャンセラに入力するステップとを有することを特徴とするエコーキャンセル方法。
請求項１８に記載のエコーキャンセル方法において、所定の基準音声信号を前記音声出力装置に出力すると共に、前記音声遅延時間を測定する音声遅延手段へ出力するステップと、前記基準音声信号と前記マイクロホンからの入力音声信号とに基づいて前記音声遅延時間を測定するステップと、該測定された音声遅延時間に応じて遅延時間を設定するステップとを有することを特徴とするエコーキャンセル方法。
請求項１９に記載のエコーキャンセル方法において、前記基準音声信号は、Ｍ系列で変調したトーン信号であることを特徴とするエコーキャンセル方法。
遅延時間を持ち音声を出力する音声出力装置に入力される出力音声信号と、遅延時間を持ち音声を入力するマイクロホンから入力される入力音声信号とを入力とし、前記入力音声信号から前記出力音声信号成分を除去した音声信号をエコーキャンセル出力信号として出力するエコーキャンセラを備えたエコーキャンセル装置のエコーキャンセル方法において、
デコーダに入力された入力音声情報を少なくとも２つの音声信号に復号し、該復号した一方の音声信号を前記音声出力装置へ、他方の音声信号を前記エコーキャンセラへ出力する際に、前記２つの音声信号の出力タイミングを制御して、前記エコーキャンセラに出力する音声信号を、前記音声出力装置の遅延時間と、前記マイクロホンの遅延時間とを加えた音声遅延時間に応じて遅延させるステップを有することを特徴とするエコーキャンセル方法。
請求項２１に記載のエコーキャンセル方法において、前記デコーダからの音声信号と前記マイクロホンからの入力音声信号とを入力するステップと、該入力された音声信号と入力音声信号との時間差を求めることにより、音声遅延時間を測定するステップとを有することを特徴とするエコーキャンセル方法。
請求項２２に記載のエコーキャンセル方法において、前記音声遅延時間を測定する際に、前記デコーダから出力されて前記エコーキャンセラに入力される音声信号を無音に固定することを特徴とするエコーキャンセル方法。
請求項１８乃至２３のいずれか１項に記載のエコーキャンセル方法において、前記音声出力装置は、テレビジョン装置であることを特徴とするエコーキャンセル方法。