JP2012216998A

JP2012216998A - 信号処理装置及び信号処理方法

Info

Publication number: JP2012216998A
Application number: JP2011080786A
Authority: JP
Inventors: Takashi Sudo; 隆須藤; Takehiko Isaka; 岳彦井阪
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2012-11-08
Anticipated expiration: 2031-03-31
Also published as: US20120249785A1; JP5060631B1; US8711219B2

Abstract

【課題】外乱信号を効率的に低減させることが可能な信号処理装置及び信号処理方法を提供する。
【解決手段】複数チャネルの音を再生する複数のスピーカと、複数チャネルの音を収音する複数のマイクロフォンと、前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出手段と、前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理手段と、を備える。
【選択図】図１

Description

本発明の実施形態は、信号処理装置及び信号処理方法に関するものである。

従来、ＤＳＰ（Digital Signal Processor）等を用いてノイズキャンセラやエコーキャンセラなどにより音響信号の特性を変化させることで、当該音響信号に含まれたノイズ成分やエコー成分等の外乱信号を低減させることが行われている。また、従来、複数のマイクロフォン（マイクロフォンアレイ）を用いることにより、収音して得られる収音信号に含まれたノイズ成分や残響成分等の外乱信号を低減して、出力信号として出力する技術が提案されている。また従来、複数のマイクロフォンを用いて収音する際に、発話しているユーザの方向に指向性を向け、指向性を適応的に変化されることでノイズ成分等の外乱信号を低減する技術（話者追尾マイクロフォンアレイ）も提案されている。

特開２０１０−２８６５３号公報

ところで、話者追尾マイクロフォンアレイを用いて収音する際に併せて複数のスピーカを用いて音響信号を出力するような場合には、この音響信号が出力される空間内をユーザが移動すると、収音における指向性が変化するために、話者の存在位置に応じてエコーの要因となるスピーカが切り換わる。しかしながら、従来の技術では、外乱信号の低減に関し、スピーカとユーザとの相対方向（相対位置）については考慮されていないため、ユーザの存在位置に関係して生じた外乱信号を効率的に低減することができないという問題があった。

本発明は、上記に鑑みてなされたものであって、外乱信号を効率的に低減させることが可能な信号処理装置及び信号処理方法を提供することを目的とする。

実施の形態の信号処理装置は、複数のスピーカと、複数のマイクロフォンと、検出手段と、信号処理手段とを備える。複数のスピーカは、複数チャネルの音を再生する。複数のマイクロフォンは、複数チャネルの音を収音する。検出手段は、複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する。信号処理手段は、複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える。

図１は、本実施形態に係る記憶装置の構成を模式的に示す図。図２は、視線検出部の動作を説明するための図。図３は、エコーキャンセラ部の構成の一例を模式的に示す図。図４は、ノイズキャンセラ部の構成の一例を模式的に示す図。図５は、ノイズキャンセラ部２９の動作を説明するための図。図６は、振幅ベクトルに含まれたノイズレベルの一例を示す図。図７は、エコーリダクション部の構成の一例を模式的に示す図。図８は、エコーリダクション部の動作を説明するための図。図９は、振幅ベクトルに含まれたエコーレベルの一例を示す図である。図１０は、本実施形態の変形例１に係る信号処理部の構成を模式的に示す図。図１１は、本実施形態の変形例２に係る信号処理部の構成を模式的に示す図。図１２は、本実施形態の変形例３に係る信号処理部の構成を模式的に示す図。図１３は、変形例２及び３に係るエコーリダクション部の構成の一例を模式的に示す図。

図１は、本実施形態に係る信号処理装置の構成を模式的に示す図である。同図に示すように、信号処理装置１００は、音響出力部１０と、信号処理部２０とを備えている。

ここで、音響出力部１０は、ボリューム部１１Ｌ及び１１Ｒと、Ｄ／Ａ変換部１２Ｌ及び１２Ｒと、スピーカ１３Ｌ及び１３Ｒとを有している。

ボリューム部１１Ｌは、入力端子１４Ｌから入力される左チャネル（以下、Ｌｃｈと表記する）用の音響信号の音量を、図示しない音量調節スイッチの操作量に応じて調整する。ボリューム部１１Ｒは、入力端子１４Ｒから入力される右チャネル（以下、Ｒｃｈと表記する）用の音響信号の音量を、図示しない音量調節スイッチの操作量に応じて調整する。

Ｄ／Ａ変換部１２Ｌは、ボリューム部１１Ｌで音量調整されたデジタルの音響信号をアナログ信号に変換し、スピーカ１３Ｌに出力する。Ｄ／Ａ変換部１２Ｒは、ボリューム部１１Ｒで音量調整されたデジタルの音響信号をアナログ信号に変換し、スピーカ１３Ｒに出力する。

スピーカ１３Ｌ、スピーカ１３Ｒは、ステレオスピーカであって、信号処理装置１００が置かれた空間内に音（再生音）を出力する。スピーカ１３Ｌは、Ｄ／Ａ変換部１２Ｌから入力されたアナログ信号を物理振動に変え、音として出力する。スピーカ１３Ｒは、Ｄ／Ａ変換部１２Ｒから入力されたアナログ信号を物理振動に変え、音（再生音）として出力する。

一方、信号処理部２０は、マイクロフォン２１Ｌ及び２１Ｒと、Ａ／Ｄ変換部２２Ｌ及び２２Ｒと、遅延部２３Ｌ及び２３Ｒと、モノラル化部２４と、カメラ部２５と、視線検出部２６と、エコーキャンセラ部２７と、アレイ処理部２８と、ノイズキャンセラ部２９と、遅延部３０と、エコーリダクション部３１とを有している。

マイクロフォン２１Ｌ及び２１Ｒは、ステレオマイクであって、信号処理装置１００が置かれた空間内に伝わる音を収音する。マイクロフォン２１Ｌは、収音した音をアナログの収音信号（以下、Ｌｃｈ収音信号という）としてＡ／Ｄ変換部２２Ｌに出力する。また、マイクロフォン２１Ｒは、収音した音をアナログの収音信号（以下、Ｒｃｈ収音信号という）としてＡ／Ｄ変換部２２Ｒに出力する。

Ａ／Ｄ変換部２２Ｌは、マイクロフォン２１Ｌで収音されたＬｃｈ収音信号をデジタル信号に変換し、エコーキャンセラ部２７に出力する。Ａ／Ｄ変換部２２Ｒは、マイクロフォン２１Ｒで収音されたＲｃｈ収音信号をデジタル信号に変換し、エコーキャンセラ部２７に出力する。

遅延部２３Ｌ及び遅延部２３Ｒは、遅延回路等である。遅延部２３Ｌは、ボリューム部１１Ｌで音量調整されたデジタルの音響信号を所定時間遅延させ、モノラル化部２４に出力する。また、遅延部２３Ｒは、ボリューム部１１Ｒで音量調整されたデジタルの音響信号を所定時間遅延させ、モノラル化部２４に出力する。

モノラル化部２４は、遅延部２３Ｌ及び遅延部２３Ｒの各々から入力される音響信号の線形和を下記式（１）に基づいて算出し、この算出結果となる信号をエコーキャンセラ部２７及び遅延部３０に出力する。なお、下記式（１）において、“Ｌ”は遅延部２３Ｌから入力される音響信号、“Ｒ”は遅延部２３Ｒから入力される音響信号を意味する。また、“α”は、後述する指向特性情報に応じて定まる係数である（ただし、０≦α≦１）。
α・Ｌ＋（１−α）・Ｒ（１）

具体的に、モノラル化部２４は、視線検出部２６から入力される指向特性情報に応じて、上記式（１）の係数αの値を調整することで、音響信号“Ｌ”及び“Ｒ”に対する重みを変更する。ここで、指向特性情報が、後述する「エリアＬ」を示す場合、係数αの値を大きくすることで、音響信号“Ｌ”に対する重みを増加させる。また、指向特性情報が、後述する「エリアＲ」を示す場合、係数αの値を小さくすることで、音響信号“Ｒ”に対する重みを増加させる。なお、指向特性情報が、後述する「エリアＣ」を示す場合には、係数αを１／２とすることで、音響信号“Ｌ”及び“Ｒ”に対する重みを等しくさせる。

カメラ部２５は、撮像装置であって、マイクロフォン２１Ｌ及び２１Ｒによって収音する空間方向、つまりスピーカ１３Ｌ及び１３Ｒの出力方向に向けて配置されている。カメラ部２５は、撮像した撮像データを視線検出部２６に出力する。

視線検出部２６は、カメラ部２５から入力される撮像データを解析することで、撮像データの画像から、スピーカ１３Ｌ及び１３Ｒの出力方向に存在する話者を検出すると、当該画像中における話者の存在位置を、スピーカ１３Ｌ及び１３Ｒに対する相対方向（相対位置）で示した指向特性情報を生成し、モノラル化部２４、エコーキャンセラ部２７、アレイ処理部２８、ノイズキャンセラ部２９及びエコーリダクション部３１に出力する。ここで、話者の検出方法としては、例えば、撮像データの画像に含まれた人の顔や視線を検出し、この顔や視線が正面方向、すなわちカメラ部２５に向いている場合に、その人を話者として検出する。なお、撮像データから顔や視線を検出する解析方法は、公知・公用の技術を用いるものとする。ただし、複数のスピーカに対する前記話者（利用者）の相対方向を示した指向特性情報は、複数のスピーカの配置と複数のマイクの配置の位置情報によって決まる。ひいては、マイク配置によって設定されるマイクロフォンアレイの収音指向性と、その指向性ごとにどのスピーカからどのマイクにエコーが回り込むのかという情報で決まる。

図２は、視線検出部２６の動作を説明するための図である。同図では、上面から見たスピーカ１３Ｌ及び１３Ｒと、マイクロフォン２１Ｌ及び２１Ｒと、カメラ部２５との配置関係の一例を示している。同図に示すように、スピーカ１３Ｌ及び１３Ｒは、所定の離間距離を有して設けられ、リスニングポイントＰから見て、左側にスピーカ１３Ｌ、右側にスピーカ１３Ｒが配置されている。また、マイクロフォン２１Ｌ及び２１Ｒは、それぞれ、スピーカ１３Ｌとスピーカ１３Ｒとの間に設けられ、リスニングポイントＰから見て、左側にマイクロフォン２１Ｌ、右側にマイクロフォン２１Ｒが配置されている。また、カメラ部２５は、マイクロフォン２１Ｌとマイクロフォン２１Ｒとの間に設けられ、音が出力される空間Ａを撮像する。これら、スピーカ１３Ｌ及びスピーカ１３Ｒ、マイクロフォン２１Ｌ及び２１Ｒの取り付け位置は、カメラ部２５の撮像方向を対象軸とする対象形となっている。

また、視線検出部２６において、空間Ａは複数の領域（エリア）に分割されて定義されており、話者が存在するエリアを示した指向特性情報を出力する。例えば、視線検出部２６は、カメラ部２５が撮像した撮像データに基づき、空間Ａ内でのスピーカ１３Ｌ寄りのエリアＬにおいて話者ＳＰの存在を検出すると、このエリアＬを示す指向特性情報を出力する。この図２の例では、複数のスピーカに対する前記話者（利用者）の相対方向を示した指向特性情報は、スピーカＲから何度の方向、スピーカＬから何度の方向、どこのエリアに居るかというように与えられる。なお、図２では、カメラ部２５の撮像位置を基準に、この撮像位置から撮像方向にかけて±２２．５度の広がりもつ空間を「エリアＣ」とし、空間ＡからエリアＣを除いたスピーカ１３Ｌ寄りの空間を「エリアＬ」、スピーカ１３Ｒ寄りの空間を「エリアＲ」とした例を示しているが、エリアの分割数やエリアの大きさはこれに限らないものとする。また、スピーカ１３Ｌ及び１３Ｒ、マイクロフォン２１Ｌ及び２１Ｒ、カメラ部２５の配置関係は、図２の例に限定されないものとする。

図１に戻り、エコーキャンセラ部２７は、視線検出部２６から入力される指向特性情報に基づいて、Ａ／Ｄ変換部２２Ｌ及び２２Ｒからの収音信号に含まれたエコー成分を除去する。以下、図３を参照して、エコーキャンセラ部２７の構成について説明する。

図３は、エコーキャンセラ部２７の構成の一例を模式的に示す図である。エコーキャンセラ部２７は、視線検出部２６から入力される指向特性情報に応じて、切替部２７１を切り替える。具体的に、エコーキャンセラ部２７は、指向特性情報が“エリアＬ”又は“エリアＲ”を示す場合に、切替部２７１の切り替えによって第１処理部２７２を動作させ、指向特性情報が“エリアＣ”を示す場合に、切替部２７１の切り替えによって第２処理部２７３を動作させる。

ここで、第１処理部２７２は、減算部２７２１Ｌ及び２７２１Ｒと、適応フィルタ学習部２７２２Ｌ及び２７２２Ｒと、疑似エコー生成部２７２３Ｌ及び２７２３Ｒとを有している。

減算部２７２１Ｌは、Ａ／Ｄ変換部２２Ｌから入力されるＬｃｈ収音信号から、疑似エコー生成部２７２３Ｌで生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部２７２２Ｌ及びアレイ処理部２８に出力する。適応フィルタ学習部２７２２Ｌは、切替部２７１を介しモノラル化部２４から入力された信号を参照信号とし、この参照信号と、減算部２７２１Ｌから出力された残留エコー信号とに基づいて、スピーカ１３Ｌとマイクロフォン２１Ｌとの間の伝達関数を推定学習する。疑似エコー生成部２７２３Ｌは、切替部２７１を介してモノラル化部２４から入力された信号と、適応フィルタ学習部２７２２Ｌで推定学習された伝達関数とを乗算することで疑似エコー信号を生成し、減算部２７２１Ｌに出力する。

減算部２７２１Ｒは、Ａ／Ｄ変換部２２Ｒから入力されるＲｃｈ収音信号から、疑似エコー生成部２７２３Ｒで生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部２７２２Ｒ及びアレイ処理部２８に出力する。適応フィルタ学習部２７２２Ｒは、切替部２７１を介しモノラル化部２４から入力された信号を参照信号とし、この参照信号と、減算部２７２１Ｒから出力された残留エコー信号とに基づいて、スピーカ１３Ｒとマイクロフォン２１Ｒとの間の伝達関数を推定学習する。疑似エコー生成部２７２３Ｒは、切替部２７１を介してモノラル化部２４から入力された信号と、適応フィルタ学習部２７２２Ｒで推定学習された伝達関数とを乗算する（入力された信号とフィルタ係数との畳み込みをする）ことで疑似エコー信号を生成し、減算部２７２１Ｒに出力する。

また、第２処理部２７３は、モノラル化部２７３１と、減算部２７３２と、適応フィルタ学習部２７３３と、疑似エコー生成部２７３４と、減算部２７３５Ｌ及び２７３５Ｒとを有している。

モノラル化部２７３１は、Ａ／Ｄ変換部２２Ｌ及びＡ／Ｄ変換部２２Ｒの各々から入力されたＬｃｈ収音信号及びＲｃｈ収音信号の平均値を算出し、この算出結果を減算部２７３２に出力する。ここで、平均値の算出方法は特に問わず、例えば、各信号値の線形和を２で除算する形態としてもよい。

減算部２７３２は、モノラル化部２７３１から入力される信号から、疑似エコー生成部２７３４で生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部２７３３に出力する。適応フィルタ学習部２７３３は、切替部２７１を介してモノラル化部２４から入力された信号と、減算部２７３２から出力された残留エコー信号とに基づいて、スピーカ群（スピーカ１３Ｌ、１３Ｒ）とマイクロフォン群（マイクロフォン２１Ｌ、２１Ｒ）との間の伝達関数を推定学習する。疑似エコー生成部２７３４は、切替部２７１を介してモノラル化部２４から入力された信号と、適応フィルタ学習部２７３３で推定学習された伝達関数とを用いて疑似エコー信号を生成し、減算部２７３２、減算部２７３５Ｌ及び２７３５Ｒに出力する。

減算部２７３５Ｌは、Ａ／Ｄ変換部２２Ｌから入力された信号から、疑似エコー生成部２７３４で生成された疑似エコー信号を減じ、その結果となる残留エコー信号をアレイ処理部２８に出力する。減算部２７３５Ｒは、Ａ／Ｄ変換部２２Ｒから入力された信号から、疑似エコー生成部２７３４で生成された疑似エコー信号を減じ、その結果となる残留エコー信号をアレイ処理部２８に出力する。

このように、エコーキャンセラ部２７では、指向特性情報が“エリアＣ”を示す場合に、Ｌｃｈ収音信号とＲｃｈ収音信号との平均を算出し、両収音信号の共通成分に基づいてエコー成分の除去を行うため、指向特性情報が“エリアＬ”又は“エリアＲ”の場合と比較し、エコー成分の除去に係る負荷を軽減することができる。

図１に戻り、アレイ処理部２８は、視線検出部２６から入力される指向特性情報を用いて、エコーキャンセラ部２７から入力される信号から、指向特性情報が示す音源方向（話者）からの信号を選択的に抽出し、ノイズキャンセラ部２９に出力する。具体的に、アレイ処理部２８は、エコーキャンセラ部２７を介して入力されるマイクロフォン２１Ｌ及び２１Ｒが収音した収音信号に対して遅延処理等を行い、それぞれ異なる方向を指向性の軸方向とした複数の収音ビーム信号を生成する。そして、複数の収音ビーム信号の中から、視線検出部２６から入力された指向特性情報が示す方向に対応する収音ビーム信号を選択し、この選択した収音ビーム信号からエコーを除去して、ノイズキャンセラ部２９に送信する。

なお、アレイ処理部２８では、音源方向を追尾することで、話者が存在する各方向（エリアＬ、Ｒ、Ｃ）からの信号を選択的に抽出する形態としてもよいし、特定の音源方向（例えば、エリアＣ）に存在する話者からの信号を選択的に抽出する形態としてもよい。また、収音ビーム信号からの信号抽出方法、エコー除去方法は公知の技術を用いるものとする。

ノイズキャンセラ部２９は、アレイ処理部２８による処理後の信号に含まれた雑音成分を抑圧する機能部である。以下、図４を参照して、ノイズキャンセラ部２９の構成について説明する。

図４は、ノイズキャンセラ部２９の構成の一例を模式的に示す図である。同図に示すように、ノイズキャンセラ部２９は、周波数領域変換部２９１と、雑音区間推定部２９２と、雑音特性推定部２９３と、抑圧ゲイン算出部２９４と、雑音抑圧部２９５と、時間領域変換部２９６とを有している。

周波数領域変換部２９１は、アレイ処理部２８から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルを雑音抑圧部２９５に出力するとともに、位相スペクトルを時間領域変換部２９６に出力する。

雑音区間推定部２９２は、アレイ処理部２８から入力された信号のうち、そのパワーが最も小さい区間（例えば、パワーが最小の時を中心にした微小時間）、を雑音区間であると推定し、その区間分の信号（波形）を雑音特性推定部２９３に出力する。

雑音特性推定部２９３は、最尤法等を用いることで、雑音区間推定部２９２から入力された雑音区間の信号から周囲環境雑音の特性値（雑音特性）を逐次推定し、推定した雑音特性を抑圧ゲイン算出部２９４に出力する。

また、雑音特性推定部２９３は、視線検出部２６から出力される指向特性情報を入力とし、この指向特性情報が示す方向が変化したときには、特性値を逐次推定更新する時間間隔を短くするか、あるいは更新量を多くするように変更する。そして、その後一定時間、指向特性情報が示す方向が固定であった場合には、特性値を逐次推定更新する時間間隔を長くして元に戻すか、あるいは更新量少なくして元に戻すように変更する。このように、異なるエリアに切り替わった際に雑音特性の追従速度を速めることで、切り替わった後のエリアにおける雑音特性を模擬することが高速にでき、雑音抑圧量が低下することを防げる。また、各エリアに応じて雑音特性を複数格納できるようにしておき、入力された指向特性情報が示すエリアに対応する雑音特性を１つ読み出して更新し、その音響特性を、抑圧ゲイン算出部２９４に出力してもよい。

抑圧ゲイン算出部２９４は、雑音特性推定部２９３から入力される雑音特性に応じて、音抑圧処理のための抑圧ゲインを算出する。

雑音抑圧部２９５は、抑圧ゲイン算出部２９４で算出された抑圧ゲインを用いて、領域変換部２９１から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれた有色雑音を抑圧し、この抑圧処理後の振幅スペクトルを時間領域変換部２９６に出力する。

また、雑音抑圧部２９５は、視線検出部２６から入力される指向特性情報、アレイ処理部から入力される振幅スペクトルに含まれたノイズレベルから特定されるノイズ源の方向に応じて、抑圧処理のオン／オフを切り換える。具体的に、雑音抑圧部２９５は、アレイ処理部２８が音源追尾を行うよう設定されている場合、指向特性情報が示す音源方向とノイズ源の方向とが一致すると抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。また、アレイ処理部２８が特定の音源方向からの信号を抽出するよう設定されている場合、指向特性情報が示す音源方向と特定の音源方向とが一致すると抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。

ここで、図５は、ノイズキャンセラ部２９（雑音抑圧部２９５）の動作を説明するための図である。同図では、図３と同様、上面から見たスピーカ１３Ｌ及び１３Ｒ、マイクロフォン２１Ｌ及び２１Ｒ、カメラ部２５の配置関係の一例を示している。

図５に示すように、話者がエリアＣに存在するとし、ノイズ源Ｎが時間経過とともにエリアＲ→エリアＣ→エリアＬの順に移動しているものとする。このとき、アレイ処理部２８が音源追尾を行うよう設定されていると、雑音抑圧部２９５は、指向特性情報が示す音源方向の方向、つまり話者ＳＰが存在するエリアＣと、アレイ処理部２８からの振幅スペクトルに含まれたノイズレベルから特定されるノイズ源Ｎの出現方向とが一致した場合に抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。

例えば、図５の場合、ノイズ源ＮがエリアＲに存在する時刻Ｔ０〜Ｔ１の期間では、話者ＳＰが存在するエリアＣと、ノイズ源Ｎの方向（エリアＲ）とが一致しないため、抑圧処理のオフとする。また、ノイズ源ＮがエリアＣに存在する時刻Ｔ１〜Ｔ２の期間では、話者ＳＰが存在するエリアＣと、ノイズ源Ｎの方向（エリアＣ）とが一致するため、抑圧処理のオンとする。また、ノイズ源ＮがエリアＬに存在する時刻Ｔ２〜Ｔ３の期間では、話者ＳＰが存在するエリアＬと、ノイズ源Ｎの方向（エリアＲ）とが一致しないため抑圧処理のオフとする。

また、アレイ処理部２８が特定の音源方向からの信号を抽出するよう設定されていると、雑音抑圧部２９５は、指向特性情報が示す音源方向の方向が、その特定の音源方向と一致した場合に抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。この場合、アレイ処理部２８からの振幅スペクトルに含まれるノイズレベルは、図６に示す状態となる。

ここで、図６は、アレイ処理部２８が、特定の音源方向（エリアＣ）からの信号を抽出する場合での、振幅ベクトルに含まれたノイズレベルの一例を示す図である。この場合、同図に示すように、音源方向がエリアＣのときのノイズレベルが、他のエリアでのノイズレベルよりも顕著となる。そのため、雑音抑圧部２９５は、指向特性情報がエリアＣを示す場合に抑圧処理をオンとし、他のエリアを示す場合に抑圧処理をオフとする。

なお、本実施形態では、雑音抑圧部２９５にて抑圧処理のオン／オフを制御する形態としたが、これに限らず、抑圧ゲイン算出部２９４において、雑音抑圧部２９５と同様の切り換え条件に基づき、抑圧処理をオフとする場合に抑圧ゲインを０とする形態としてもよい。

図４に戻り、時間領域変換部２９６は、雑音抑圧部２９５から入力された振幅スペクトルと、周波数領域変換部２９１から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号をエコーリダクション部３１に出力する。

図１に戻り、遅延部３０は、遅延部２３Ｌ及び２３Ｒと同様の遅延回路等であって、モノラル化部２４から入力された信号を所定時間遅延させ、エコーリダクション部３１に出力する。遅延部３０での遅延処理により、モノラル化部２４から出力された信号のうち、エコーキャンセラ部２７、アレイ処理部２８及びノイズキャンセラ部２９を経由してエコーリダクション部３１に入力される信号と、遅延部３０を経由してエコーリダクション部３１に入力される信号とが同期される。

エコーリダクション部３１は、ノイズキャンセラ部２９による処理後の信号に含まれたエコー成分を除去する機能部である。以下、図７を参照して、エコーリダクション部３１の構成について説明する。

図７は、エコーリダクション部３１の構成の一例を模式的に示す図である。同図に示すように、エコーリダクション部３１は、第１周波数領域変換部３１１と、第２周波数領域変換部３１２と、エコー区間推定部３１３と、音響特性推定部３１４と、抑圧ゲイン算出部３１５と、エコー抑圧部３１６と、時間領域変換部３１７とを有している。

第１周波数領域変換部３１１は、遅延部３０から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部３１３、音響特性推定部３１４及び抑圧ゲイン算出部３１５に出力する。第２周波数領域変換部３１２は、ノイズキャンセラ部２９から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部３１３、音響特性推定部３１４及びエコー抑圧部３１６に出力するとともに、位相スペクトルを時間領域変換部３１７に出力する。

エコー区間推定部３１３は、ノイズキャンセラ部２９からの信号と、遅延部３０からの信号と、第１周波数領域変換部３１１からの振幅スペクトルと、第２周波数領域変換部３１２からの振幅スペクトルを入力とする。エコー区間推定部３１３は、ノイズキャンセラ部２９からの信号と、遅延部３０からの信号との差分値や、振幅スペクトル間の差分値等に基づき、エコーが発生していると推定されるエコー区間を音響特性推定部３１４に通知する。

音響特性推定部３１４は、第１周波数領域変換部３１１からの振幅スペクトルと、第２周波数領域変換部３１２からの振幅スペクトルと、エコー区間推定部３１３から通知されるエコー区間とを入力とする。音響特性推定部３１４は、エコー区間推定部３１３から通知されたエコー区間における、両振幅スペクトルの差分からエコー成分の音響特性を推定し、推定した音響特性を抑圧ゲイン算出部３５に出力する。

また、音響特性推定部３１４は、視線検出部２６から出力される指向特性情報を入力とし、この指向特性情報が示す方向が変化したときには、音響特性を逐次推定更新する時間間隔を短くするか、あるいは更新量多くするように変更する。そしてその後一定時間、指向特性情報が示す方向が固定であった場合には、音響特性を逐次推定更新する時間間隔を長くして元に戻すか、あるいは更新量少なくして元に戻すように変更する。このように、異なるエリアに切り替わった際に音響特性の追従速度を速めることで、切り替わった後のエリアにおける音響特性を模擬することが高速にでき、エコー抑圧量が低下することを防げる。また、各エリアに応じて音響特性を複数格納できるようにしておき、入力された指向特性情報が示すエリアに対応する音響特性を１つ読み出して更新し、その音響特性を、抑圧ゲイン算出部３５に出力してもよい。

抑圧ゲイン算出部３１５は、音響特性推定部３１４から入力される音響特性に応じて、エコー抑圧処理のための抑圧ゲインを算出し、エコー抑圧部３１６に出力する。

エコー抑圧部３１６は、抑圧ゲイン算出部３５で算出された抑圧ゲインを用いて、第２周波数領域変換部３１２から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを時間領域変換部２９６に出力する。

また、エコー抑圧部３１６は、視線検出部２６から入力される指向特性情報、ノイズキャンセラ部２９での信号抽出設定に応じて、抑圧処理のオン／オフを切り換える。具体的に、エコー抑圧部３１６は、アレイ処理部２８が特定の音源方向（例えば、エリアＣ）からの信号を抽出するよう設定されていると、指向特性情報が示す音源方向と特定の音源方向とが一致した場合に抑圧処理をオフとし、不一致の場合に抑圧処理をオンとする。なお、アレイ処理部２８が音源追尾を行うよう設定されている場合には、全ての音源方向に対して抑圧処理を行うものとする。

ここで、図８は、エコーリダクション部３１（エコー抑圧部３１６）の動作を説明するための図である。同図では、図３と同様、上面から見たスピーカ１３Ｌ及び１３Ｒ、マイクロフォン２１Ｌ及び２１Ｒ、カメラ部２５の配置関係の一例を示している。

図８に示すように、話者ＳＰが時間経過とともにエリアＲ→エリアＣ→エリアＬの順に移動しているものとする。このとき、アレイ処理部２８が特定の音源方向として、エリアＣからの信号を抽出するよう設定されていたとすると、第２周波数領域変換部３１２からの振幅スペクトルに含まれるエコーレベルは、図９に示す状態となる。

ここで、図９は、アレイ処理部２８が、特定の音源方向（エリアＣ）からの信号を抽出する場合での、振幅ベクトルに含まれたエコーレベルの一例を示す図である。同図に示すように、音源方向がエリアＣのときのエコーレベルは、アレイ処理部２８での処理により、他のエリアでのエコーレベルと比較し低減される。そのため、雑音抑圧部２９５は、指向特性情報がエリアＣを示す場合に抑圧処理をオフとし、他のエリアを示す場合に抑圧処理をオンとする。

なお、本実施形態では、エコー抑圧部３１６にて抑圧処理のオン／オフを制御する形態としたが、これに限らず、抑圧ゲイン算出部３５において、エコー抑圧部３１６と同様の切り換え条件に基づき、抑圧処理をオフとする場合に抑圧ゲインを０とする形態としてもよい。

そして、信号処理部２０では、エコーリダクション部３１で抑圧処理が施された信号を、図示しない外部装置に出力する。このように、信号処理部２０では、信号処理装置１００に対する話者の存在方向を指向特性情報として特定し、この指向特性情報が示す方向に応じてエコー・ノイズ等の外乱信号を除去・抑圧するため、話者が発話した音声をより効率的にクリア化することが可能となる。

以上、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、追加等を行うことができる。また、上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

例えば、上記実施形態では、カメラ部２５及び視線検出部２６の機能により、話者が存在する方向を特定する構成としたが、これに限らず、マイクロフォン２１Ｌ及び２１Ｒで収音された収音信号から、話者が存在する方向を特定する構成としてもよい。以下、この構成を本実施形態の変形例１として説明する。

図１０は、上記実施形態の変形例１に係る信号処理部２０Ａの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。

同図に示すように、信号処理部２０Ａは、マイクロフォン２１Ｌ及び２１Ｒと、Ａ／Ｄ変換部２２Ｌ及び２２Ｒと、遅延部２３Ｌ及び２３Ｒと、モノラル化部２４と、エコーキャンセラ部２７と、アレイ処理部２８と、ノイズキャンセラ部２９と、遅延部３０と、エコーリダクション部３１と、到来方向推定部３２を有している。

到来方向推定部３２は、Ａ／Ｄ変換部２２Ｌ及び２２Ｒから出力されるＬｃｈ収音信号及びＲｃｈ収音信号を入力とする。到来方向推定部３２は、マイクロフォン２１Ｌ及び２１Ｒが収音した各収音信号に対して遅延処理等を行い、それぞれ異なる方向を指向性の軸方向とした複数の収音ビーム信号を生成する。そして、複数の収音ビーム信号の中から、最も信号レベルが高い収音ビーム信号を選択し、この収音ビーム信号に対応する方向を話者の存在方向として特定し、この存在方向を示す指向特性情報をモノラル化部２４、エコーキャンセラ部２７、アレイ処理部２８、ノイズキャンセラ部２９及びエコーリダクション部３１に出力する。

このように、上記実施形態のカメラ部２５及び視線検出部２６に代えて、到来方向推定部３２を備えることで、マイクロフォン２１Ｌ及び２１Ｒが収音した音から話者の存在方向を特定することができるため、上記実施形態と同様の効果を奏することができるとともに、装置構成を簡易化することができる。

また、上記実施形態では、マイクロフォン２１Ｌ及び２１Ｒで収音された音に含まれる外乱信号を除去・抑圧するため、エコーキャンセラ部２７、アレイ処理部２８、ノイズキャンセラ部２９、エコーリダクション部３１の順に信号処理を行う構成としたが、これに限らず、信号処理を行う順序を変えたり、機能統合を行う等によって特定の信号処理を省く等することで、信号処理部２０の構成を変形してもよい。以下、上記した信号処理部２０の構成の変形例２、３として、信号処理部２０の構成を変形した２例について説明する。

図１１は、上記実施形態の変形例２に係る信号処理部２０Ｂの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。

信号処理部２０Ｂは、マイクロフォン２１Ｌ及び２１Ｒと、Ａ／Ｄ変換部２２Ｌ及び２２Ｒと、遅延部２３Ｌ及び２３Ｒと、モノラル化部２４と、カメラ部２５と、視線検出部２６と、エコーキャンセラ部２７と、エコーリダクション部３１Ｂと、アレイ処理部２８と、ノイズキャンセラ部２９とを有している。ここで、遅延部３０を除去したことと、エコーキャンセラ部２７に続く、エコーリダクション部３１Ｂ、アレイ処理部２８及びノイズキャンセラ部２９の処理順序とが、図１に示した信号処理部２０の構成と異なっている。

また、図１２は、上記実施形態の変形例３に係る信号処理部２０Ｃの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。

信号処理部２０Ｃは、マイクロフォン２１Ｌ及び２１Ｒと、Ａ／Ｄ変換部２２Ｌ及び２２Ｒと、遅延部２３Ｌ及び２３Ｒと、モノラル化部２４と、カメラ部２５と、視線検出部２６と、エコーリダクション部３１Ｃと、アレイ処理部２８と、ノイズキャンセラ部２９とを有している。ここで、遅延部３０及びエコーキャンセラ部２７を除去したことと、エコーリダクション部３１Ｃ、アレイ処理部２８及びノイズキャンセラ部２９の処理順序とが、図１に示した信号処理部２０の構成と異なっている。

上記した信号処理部２０Ｂ及び２０Ｃの構成を採用する場合、エコーリダクション部３１Ｂ、３１Ｃへの入力は、Ｌｃｈ及びＲｃｈの２系統となる。そのため、図７で説明した構成に代えて、図１３に示す構成を採用する。

ここで、図１３は、変形例２及び３に係るエコーリダクション部３１Ｂ、３１Ｃの構成の一例を模式的に示す図である。同図に示すように、エコーリダクション部３１Ｂ、３１Ｃは、第１周波数領域変換部４１１と、第１モノラル化部４１２と、第２周波数領域変換部４１３と、第３周波数領域変換部４１４と、第２モノラル化部４１５と、エコー区間推定部４１６と、音響特性推定部４１７と、抑圧ゲイン算出部４１８と、第１エコー抑圧部４１９と、第１時間領域変換部４２０と、第２エコー抑圧部４２１と、第２時間領域変換部４２２とを有している。

第１周波数領域変換部４１１は、モノラル化部２４から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部４１６、音響特性推定部４１７及び抑圧ゲイン算出部４１８に出力する。

第１モノラル化部４１２は、Ａ／Ｄ変換部２２Ｌ及びＡ／Ｄ変換部２２Ｒの各々から入力されたＬｃｈ収音信号及びＲｃｈ収音信号の平均値を算出し、この算出結果をエコー区間推定部４１６に出力する。

第２周波数領域変換部４１３は、Ａ／Ｄ変換部２２Ｌから入力されたＬｃｈ収音信号を時間領域から周波数領域に変換し、その振幅スペクトルを第２モノラル化部４１５及び第１エコー抑圧部４１９に出力するとともに、位相スペクトルを第１時間領域変換部４２０に出力する。第３周波数領域変換部４１４は、Ａ／Ｄ変換部２２Ｒから入力されたＲｃｈ収音信号を時間領域から周波数領域に変換し、その振幅スペクトルを第２モノラル化部４１５及び第２エコー抑圧部４２１に出力するとともに、位相スペクトルを第２時間領域変換部４２２に出力する。

第２モノラル化部４１５は、第２周波数領域変換部４１３及び第３周波数領域変換部４１４の各々から入力された振幅スペクトルの平均値を算出し、この算出結果をエコー区間推定部４１６及び音響特性推定部４１７に出力する。

エコー区間推定部４１６は、モノラル化部２４からの信号と、第１周波数領域変換部４１１からの振幅スペクトルと、第１モノラル化部４１２からの信号と、第２モノラル化部４１５からの振幅スペクトルとを入力とする。エコー区間推定部４１６は、エコー区間推定部３１３と同様の機能により、第１モノラル化部４１２からの信号とモノラル化部２４からの信号との差分値や、振幅スペクトル間の差分値等に基づき、エコーが発生していると推定されるエコー区間を音響特性推定部４１７に通知する。

音響特性推定部４１７は、第１周波数領域変換部４１１からの振幅スペクトルと、第２モノラル化部４１５からの振幅スペクトルと、エコー区間推定部４１６から通知されるエコー区間とを入力とする。音響特性推定部４１７は、音響特性推定部３１４と同様の機能により、エコー区間推定部４１６から通知されたエコー区間における、両振幅スペクトルの差分からエコー成分の音響特性を推定し、推定した音響特性を抑圧ゲイン算出部４１８に出力する。

また、音響特性推定部４１７は、視線検出部２６から出力される指向特性情報を入力とし、この指向特性情報が示す方向に応じて、音響特性を推定する時間間隔を変更する。具体的に、音響特性推定部４１７は、指向特性情報が“エリアＣ”を示す時の時間間隔を、“エリアＬ”又は“エリアＲ”の時の時間間隔よりも短くすることで、話者が“エリアＣ”に存在する場合での音響特性の推定速度を、他のエリアに存在する場合と比較し上昇させる。なお、本実施形態では、雑音特性を逐次推定する形態としたが、これに限らず、例えば、各エリアに応じた音響特性を予め保持しておき、入力された指向特性情報に対応する方向の音響特性を、抑圧ゲイン算出部４１８に出力する形態としてもよい。

抑圧ゲイン算出部４１８は、音響特性推定部４１７から入力される音響特性に応じて、エコー抑圧処理のための抑圧ゲインを算出し、第１エコー抑圧部４１９及び第２エコー抑圧部４２１に出力する。

第１エコー抑圧部４１９は、抑圧ゲイン算出部４１８で算出された抑圧ゲインを用いて、第２周波数領域変換部４１３から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを第１時間領域変換部４２０に出力する。なお、上述したエコー抑圧部３１６と同様に、指向特性情報に応じた処理を施すこととしてもよい。

第１時間領域変換部４２０は、第１エコー抑圧部４１９から入力された振幅スペクトルと、第２周波数領域変換部４１３から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号を、Ｌｃｈ収音信号としてアレイ処理部２８に出力する。

第２エコー抑圧部４２１は、抑圧ゲイン算出部４１８で算出された抑圧ゲインを用いて、第３周波数領域変換部４１４から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを第２時間領域変換部４２２に出力する。なお、上述したエコー抑圧部３１６と同様に、指向特性情報に応じた処理を施すこととしてもよい。

第２時間領域変換部４２２は、第２エコー抑圧部４２１から入力された振幅スペクトルと、第３周波数領域変換部４１４から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号を、Ｒｃｈ収音信号としてアレイ処理部２８に出力する。

上記構成のエコーリダクション部３１Ｂ及び３１Ｃを用いることで、信号処理部２０Ｂ及び２０Ｃを実現することができる。また、上記構成のエコーリダクション部３１Ｂ及び３１Ｃでは、Ｌｃｈ収音信号とＲｃｈ収音信号との平均を算出し、両収音信号の共通成分に基づいてエコー成分の抑圧を行うため、エコー成分の抑圧に係る負荷を軽減することができる。

なお、上記変形例２及び３を用いて、信号処理部２０の他の構成例を説明したが、更なる他の構成として、エコーキャンセラ部２７、エコーリダクション部３１Ｂ（３１Ｃ）及びアレイ処理部２８の三つの処理部を用いて、その順序で外乱信号を除去・抑圧する構成としてもよいし、エコーリダクション部３１Ｂ（３１Ｃ）及びアレイ処理部２８の二つの処理部を用いて、その順序で外乱信号を除去・抑圧する構成としてもよい。

また、上記実施形態では、二つのスピーカ（スピーカ１３Ｌ及び１３Ｒ）を用いることとしたが、これに限らず、三つ以上のスピーカを用いてもよい。また、上記実施形態では、二つのマイクロフォン（マイクロフォン２１Ｌ及び２１Ｒ）を用いることとしたが、これに限らず、三つ以上のマイクロフォンを用いてもよい。

また、上記実施形態の信号処理装置の適応先は特に問わず、例えば、携帯電話機、ノートＰＣ、タブレット端末等、各種デバイスにおいて、音声認識等の前処理装置として適用することが可能である。

１００信号処理装置
１０音響出力部
１１Ｌ、１１Ｒボリューム部
１２Ｌ、１２ＲＤ／Ａ変換部
１３Ｌ、１３Ｒスピーカ
１４Ｌ、１４Ｒ入力端子
２０、２０Ａ、２０Ｂ信号処理部
２１Ｌ、２１Ｒマイクロフォン
２２Ｌ、２２ＲＡ／Ｄ変換部
２３Ｌ、２３Ｒ遅延部
２４モノラル化部
２５カメラ部
２６視線検出部
２７エコーキャンセラ部
２７１切替部
２７２第１処理部
２７２１Ｌ、２７２１Ｒ減算部
２７２２Ｌ、２７２２Ｒ適応フィルタ学習部
２７２３Ｌ、２７２３Ｒ疑似エコー生成部
２７３第２処理部
２７３１モノラル化部
２７３２減算部
２７３３適応フィルタ学習部
２７３４疑似エコー生成部
２８アレイ処理部
２９ノイズキャンセラ部
２９１領域変換部
２９２雑音区間推定部
２９３雑音特性推定部
２９４抑圧ゲイン算出部
２９５雑音抑圧部
２９６時間領域変換部
３０遅延部
３１、３１Ｂ、３１Ｃエコーリダクション部
３１１第１周波数領域変換部
３１２第２周波数領域変換部
３１３エコー区間推定部
３１４音響特性推定部
３１５抑圧ゲイン算出部
３１６エコー抑圧部
３１７時間領域変換部
３２到来方向推定部
４１１第１周波数領域変換部
４１２第１モノラル化部
４１３第２周波数領域変換部
４１４第３周波数領域変換部
４１５第２モノラル化部
４１６エコー区間推定部
４１７音響特性推定部
４１８抑圧ゲイン算出部
４１９第１エコー抑圧部
４２０第１時間領域変換部
４２１第２エコー抑圧部
４２２第２時間領域変換部

実施の形態の信号処理装置は、複数のスピーカと、複数のマイクロフォンと、検出手段と、信号処理手段とを備える。複数のスピーカは、複数チャネルの音を再生する。複数のマイクロフォンは、複数チャネルの音を収音する。検出手段は、複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する。信号処理手段は、複数のマイクロフォンが収音して得られた収音信号に対し、エコー低減化処理及びノイズ低減化処理を少なくとも含む信号処理を施す。また、信号処理手段は、指向特性情報が示す前記相対方向に応じて、前記エコー低減化処理及び前記ノイズ低減化処理のうち、少なくとも一方の処理内容を変更する。

Claims

複数チャネルの音を再生する複数のスピーカと、
複数チャネルの音を収音する複数のマイクロフォンと、
前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出手段と、
前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理手段と、
を備えたことを特徴とする信号処理装置。
前記検出手段は、前記複数のスピーカの出力方向に存在する利用者を撮像する撮像手段で取得された撮像データから前記利用者を検出し、当該撮像データ中における前記利用者の存在位置を前記相対方向で示した前記指向特性情報を出力することを特徴とする請求項１に記載の信号処理装置。
前記検出手段は、前記複数のマイクロフォンが前記再生音を収音して得られた収音信号から、それぞれ異なる方向を指向性の軸とした複数のビーム信号を生成し、当該ビーム信号のうち、最も信号レベルが高いビーム信号に対応する方向を前記利用者の存在方向として特定し、当該存在方向を前記相対方向で示した前記指向特性情報を出力することを特徴とする請求項１に記載の信号処理装置。
前記信号処理手段は、前記再生音の収音方向に応じて異なる感度を持つようにアレイ処理を行うアレイ処理手段を有し、
前記アレイ処理手段は、前記指向特性情報が示す前記相対方向に対応する収音方向に対す感度を、当該収音方向以外の収音方向に対する感度より高くすることを特徴とする請求項１〜３の何れか一項に記載の信号処理装置。
前記信号処理手段は、前記再生音を参照信号とし、当該参照信号と前記複数のマイクロフォンが前記再生音を収音して得られた前記収音信号との差分に基づいて、前記収音信号に含まれたエコー成分を除去するエコー成分除去手段を有し、
前記エコー成分除去手段は、前記指向特性情報が示す前記相対方向に応じて、前記複数のチャネルの収音信号を単一化することを特徴とする請求項１〜４の何れか一項に記載の信号処理装置。
前記複数のチャネルの再生音を単一化する単一化手段を更に備え、
前記エコー成分除去手段は、前記単一化手段で単一化された再生音を前記参照信号として用いることを特徴とする請求項５に記載の信号処理装置。
前記単一化手段は、前記指向特性情報が示す前記相対方向に応じて、各チャネルの再生音を単一化する際の重み係数を変更することを特徴とする請求項６に記載の信号処理装置。
前記信号処理手段は、前記収音信号に含まれたノイズ成分のノイズ特性を推測し、当該推測したノイズ特性に応じたゲインを与えることで前記ノイズ成分を抑圧するノイズ成分抑圧手段を更に備え、
前記ノイズ成分抑圧手段は、前記指向特性情報が示す前記相対方向に応じて、前記ノイズ特性を推測する効率を変更することを特徴とする請求項１〜７の何れか一項に記載の信号処理装置。
前記ノイズ成分抑圧手段は、前記指向特性情報が示す前記相対方向が、所定の方向と一致した場合に、前記ノイズ成分を抑圧することを特徴とする請求項８に記載の信号処理装置。
前記ノイズ成分抑圧手段は、前記収音信号に含まれノイズ成分から、前記複数のスピーカの出力方向に存在するノイズ源の出現方向を特定し、当該出現方向と前記指向特性情報が示す前記相対方向とが一致した場合に、前記ノイズ成分を抑圧することを特徴とする請求項８又は９に記載の信号処理装置。
前記信号処理手段は、前記収音信号に含まれたエコー成分の音響特性を推測し、当該音響特性に応じたゲインを与えることで前記エコー成分を抑圧するエコー成分抑圧手段を更に備え、
前記エコー成分抑圧手段は、前記指向特性情報が示す前記相対方向に応じて、前記音響特性を推測する効率を変更することを特徴とする請求項１〜１０の何れか一項に記載の信号処理装置。
前記エコー成分抑圧手段は、前記指向特性情報が示す前記相対方向が、所定の方向と一致した場合に、前記エコー成分を抑圧することを特徴とする請求項１１に記載の信号処理装置。
前記エコー成分除去手段は、前記指向特性情報が示す前記相対方向に応じて、前記複数のチャネルの収音信号を単一化することを特徴とする請求項１１又は１２に記載の信号処理装置。
複数チャネルの音を再生する複数のスピーカと、複数チャネルの音を収音する複数のマイクロフォンとを備えた信号処理装置で実行される信号処理方法であって、
検出手段が、前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出工程と、
信号処理手段が、前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理工程と、
を含むことを特徴とする信号処理方法。