JP2008172615A

JP2008172615A - 音声信号処理装置

Info

Publication number: JP2008172615A
Application number: JP2007004845A
Authority: JP
Inventors: Shota Morikawa; 将太森川
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2008-07-24

Abstract

【課題】インパルス応答の畳み込み演算における演算量を削減するために、インパルス応答のうち畳み込み演算に用いる部分を選択する際に、妥当性をもってインパルス応答の特徴的部分を選択し、効果的な音像定位を行うことができる音声信号処理装置を提供する。
【解決手段】インパルス応答特徴量抽出部２は、インパルス応答の中から選択される直接音フレームと相関の高い部分の位置を示す特徴的サンプル点位置と、特徴的サンプル点位置からの１フレームと直接音フレームとのパワー比率とを求め、再生処理部３は、入力音声信号と直接音フレームとの畳み込み演算を行い、得られた畳み込み演算結果に対して、特徴的サンプル点位置とパワー比率とに応じた遅延処理および積和演算を行う。
【選択図】図１

Description

本発明は、音声信号処理装置に係り、特に多チャンネルで供給される音声信号を２チャンネルステレオ再生する場合に仮想的な音像定位を実現する音声信号処理装置に関する。

従来、ＤＶＤビデオのマルチチャンネル音声に代表される２チャンネル以上の音声ソースを２チャンネルステレオ再生する場合、マルチチャンネルの各々のスピーカ位置に音源があるとして、モデルとなる室の反射音をシミュレーションによって導出し、インパルス応答をモデル化して畳み込み演算を行い、再生系のクロストークをキャンセル処理することで仮想的な音像定位を実現していた。この畳み込み演算に必要な係数であるインパルス応答のモデル化の際には、室の寸法を考慮して計算およびシミュレーションを行い、直接音に対応する、その室の壁、天井、床からの反射音を付加する手法が用いられている。

このようにインパルス応答の畳み込み演算を行う音像定位技術においては、畳み込み演算に用いる係数長を長くすればするほど再生時に遅延が生じ、かつ全体で１つの畳み込み演算と捉えられるため、その分だけ演算量が増大していた。

そこで、測定したインパルス応答を間引くことにより、そのままのインパルス応答を畳み込み演算のために用いる場合より演算量を削減する技術が特許文献１に提案されている。
特開平１−１３５２２２号公報

しかしながら、特許文献１に開示された技術では、インパルス応答をどの程度間引くかをプロセッサ側の演算量の制約からのみ決める他なく、その程度は作為的にならざるを得なかった。

本発明は上記に鑑みてなされたもので、インパルス応答の畳み込み演算における演算量を削減するために、インパルス応答のうち畳み込み演算に用いる部分を選択する際に、妥当性をもってインパルス応答の特徴的部分を選択し、効果的な音像定位を行うことができる音声信号処理装置を提供することを目的とする。

上記目的を達成するため、本発明の音声信号処理装置は、複数チャンネルの音声信号からなる音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部と、前記各インパルス応答について抽出された前記特徴量を用いて前記各チャンネルの入力音声信号を処理して、前記各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部と、この空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて左チャンネルの出力音声信号を生成する第１の加算器と、前記空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて右チャンネルの出力音声信号を生成する第２の加算器と、前記左チャンネルの出力音声信号と前記右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部とを備え、前記インパルス応答特徴量抽出部は、前記各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を１サンプルごとに計算する相関計算部と、この相関計算部の計算結果に基づいて、当該インパルス応答において前記直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部と、この特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの１フレームと前記直接音フレームとのパワー比率を計算するパワー比率計算部と、このパワー比率計算部で計算した前記パワー比率を記憶するパワー比率記憶部とを備え、前記空間特性付加処理部は、前記各インパルス応答について、当該インパルス応答における前記直接音フレームと、当該インパルス応答に対応するチャンネルの入力音声信号との畳み込み演算を、前記入力音声信号のブロック単位で行う畳み込み演算部と、この畳み込み演算部による畳み込み演算結果を格納する畳み込み演算結果格納部と、この畳み込み演算結果格納部に格納された前記入力音声信号のブロック単位の畳み込み演算結果に対して、前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置に対応した遅延処理を施す遅延処理部と、前記パワー比率記憶部に記憶された前記パワー比率に基づいて、前記遅延処理部から出力される、前記入力音声信号の１ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号をそれぞれ増幅して出力する増幅部と、前記畳み込み演算部により得られた前記畳み込み演算結果と、前記増幅部からの増幅信号を格納し、格納した信号を時分割的に先頭の１ブロックごとに空間特性付加信号として出力する出力待機バッファ部とを備えることを特徴とする。

また、本発明の音声信号処理装置に係る前記相関計算部は、所定のフレーム幅ごとに前記インパルス応答のパワーを計算し、パワーの最大値をとるフレームを前記直接音フレームとして決定することを特徴とする。

また、本発明の音声信号処理装置に係る前記相関計算部は、前記インパルス応答の波形の瞬時パワーを時間振幅値の２乗として計算し、前記瞬時パワーの最大値をとる時刻的ポイントを含むフレームを前記直接音フレームとして決定することを特徴とする。

本発明によれば、インパルス応答の中から選択される直接音フレームと相関の高い部分の位置を示す特徴的サンプル点位置と、特徴的サンプル点位置からの１フレームと直接音フレームとのパワー比率とを求め、入力音声信号と直接音フレームとの畳み込み演算を行い、得られた畳み込み演算結果に対して、特徴的サンプル点位置とパワー比率とに応じた遅延処理および積和演算を行うので、妥当性をもってインパルス応答の畳み込み演算に用いる特徴的部分を選択し、かつ少ない演算量で効果的な音像定位を行うことができる。

以下、本発明を実施するための最良の形態について、図面を参照して説明する。本実施の形態では、入力する音声ソースがＤＶＤの５チャンネルソースである場合を例にとって説明する。

図１は本発明の実施の形態に係る音声信号処理装置の構成を示すブロック図である。図１に示すように本実施の形態に係る音声信号処理装置１は、音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部２と、インパルス応答特徴量抽出部２で抽出された各インパルス応答の特徴量を用いて５チャンネルの入力音声信号を処理し、左右チャンネルの出力音声信号を出力する再生処理部３とを備える。

図２は図１に示す音声信号処理装置１のインパルス応答特徴量抽出部２の構成を示すブロック図である。図２に示すようにインパルス応答特徴量抽出部２は、入力される各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を１サンプルごとに計算する相関計算部２１と、相関計算部２１の計算結果に基づいて、当該インパルス応答において直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部２２と、特徴的サンプル点位置記憶部２２に記憶された各特徴的サンプル点位置について、当該特徴的サンプル点位置からの１フレームと直接音フレームとのパワー比率を計算するパワー比率計算部２３と、パワー比率計算部２３で計算したパワー比率を記憶するパワー比率記憶部２４とを備える。

図３は図１に示す音声信号処理装置１の再生処理部３の構成を示すブロック図である。図３に示すように再生処理部３は、各インパルス応答について抽出された特徴量を用いて、対応する各チャンネルの入力音声信号を処理して、各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部３１Ａ〜３５Ａ，３１Ｂ〜３５Ｂと、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号を生成する空間特性付加処理部３１Ａ〜３５Ａの出力信号を足し合わせて左チャンネルの出力音声信号を生成する加算器４１Ａと、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号を生成する空間特性付加処理部３１Ｂ〜３５Ｂの出力信号を足し合わせて右チャンネルの出力音声信号を生成する加算器４１Ｂと、左チャンネルの出力音声信号と右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部４２と、クロストークキャンセル処理後の左チャンネルの出力音声信号を音声として出力するスピーカ４３Ａと、クロストークキャンセル処理後の右チャンネルの出力音声信号を音声として出力するスピーカ４３Ｂとを備える。

空間特性付加処理部３１Ａは、音声ソースのセンタチャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、センタチャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ａに供給する。

空間特性付加処理部３１Ｂは、音声ソースのセンタチャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、センタチャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ｂに供給する。

空間特性付加処理部３２Ａは、音声ソースの左チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ａに供給する。

空間特性付加処理部３２Ｂは、音声ソースの左チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ｂに供給する。

空間特性付加処理部３３Ａは、音声ソースの右チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ａに供給する。

空間特性付加処理部３３Ｂは、音声ソースの右チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ｂに供給する。

空間特性付加処理部３４Ａは、音声ソースのサラウンド左チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、サラウンド左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ａに供給する。

空間特性付加処理部３４Ｂは、音声ソースのサラウンド左チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、サラウンド左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ｂに供給する。

空間特性付加処理部３５Ａは、音声ソースのサラウンド右チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、サラウンド右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ａに供給する。

空間特性付加処理部３５Ｂは、音声ソースのサラウンド右チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部２で抽出された特徴量を用いて、サラウンド右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器４１Ｂに供給する。

図４は図３に示す再生処理部３における空間特性付加処理部３１Ａの構成を示すブロック図である。空間特性付加処理部３１Ａ〜３５Ａ，３１Ｂ〜３５Ｂはそれぞれ同様の構成であるため、空間特性付加処理部３１Ａを例にその構成を説明する。

図４に示すように空間特性付加処理部３１Ａは、インパルス応答の直接音フレームと入力音声信号との畳み込み演算を、入力音声信号のブロック単位で行う畳み込み演算部５１と、畳み込み演算部５１による畳み込み演算結果を格納する畳み込み演算結果格納バッファ５２と、畳み込み演算結果格納バッファ５２に記憶された入力音声信号のブロック単位の畳み込み演算結果に対して、特徴的サンプル点位置記憶部２２に記憶された各特徴的サンプル点位置に対応した遅延処理を施す遅延回路５３Ａ〜５３Ｅと、パワー比率記憶部２４に記憶されたパワー比率に基づいて、遅延回路５３Ａ〜５３Ｅから出力される信号をそれぞれ増幅して出力するアンプ５４Ａ〜５４Ｅと、畳み込み演算結果格納バッファ５２に格納された畳み込み演算結果と、アンプ５４Ａ〜５４Ｅから出力された特徴的サンプル点位置の数分のブロックの増幅信号を格納し、格納した信号を時分割的に先頭の１ブロックごとに空間特性付加信号として出力する出力待機バッファ５５とを備える。

遅延回路およびアンプはそれぞれ、特徴的サンプル点位置記憶部２２に記憶された、空間特性付加処理部３１Ａに対応するインパルス応答についての特徴的サンプル点位置の数と同じ数だけ設けられる。特徴的サンプル点位置の数は、処理プロセッサとの関係性から決定され、図４では、特徴的サンプル点位置の数が５つであり、遅延回路およびアンプが５つずつ設けられる場合を示している。

遅延回路５３Ａ〜５３Ｅには、特徴的サンプル点位置記憶部２２に記憶された各特徴的サンプル点位置に対応した遅延時間Ｄ１〜Ｄ５が設定される。また、アンプ５４Ａ〜５４Ｅには、パワー比率記憶部２４に記憶されたパワー比率に対応した係数値Ｐ１〜Ｐ５が設定される。

次に、本実施の形態に係る音声信号処理装置においてインパルス応答の特徴量を抽出する手順を説明する。図５は図２に示すインパルス応答特徴量抽出部２においてインパルス応答の特徴量を抽出する手順を示すフローチャートである。

相関計算部２１には、再生空間となる室にて音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答が入力される。本実施の形態では音声ソースは５チャンネルであるので、相関計算部２１には合計１０個のインパルス応答が入力され、それぞれのインパルス応答について、以下の処理によりその特徴量として特徴的サンプル点位置およびパワー比率が抽出される。

まず、ステップＳ１０において、相関計算部２１は、図６に示すようなインパルス応答の波形情報が入力されると、所定のフレーム幅ごとにインパルス応答のパワーを計算する。次いで、ステップＳ２０では、相関計算部２１は、図７に示すように、すべてのフレームの中でパワーが最大値をとるフレームを直接音フレームとして決定する。

なお、上記のようにフレームごとのインパルス応答のパワーを計算して直接音フレームを決定するかわりに、インパルス応答の瞬時パワーを計算して直接音フレームを決定してもよい。この場合、相関計算部２１は、ステップＳ１０では、所定のフレーム幅ごとにインパルス応答の波形の瞬時パワーを時間振幅値の２乗として計算し、ステップＳ２０では、瞬時パワーの最大値の時刻的ポイントから前後を調整して１フレーム長が所定のサンプル数となるようにしたフレームを直接音フレームとして決定する。

次いで、ステップＳ３０において、相関計算部２１は、ステップＳ２０で決定した直接音フレームと元のインパルス応答との相関値を１サンプルごとに計算していき、時刻的ポイントに対する相関値を計算する。算出した相関値の一例を図８に示す。

ここで、相関値の計算には様々な方法が可能性としてあり得るが、ここでは一例として基本的な式を以下の（数式１）に示す。

次いで、ステップＳ４０において、相関計算部２１は、ステップＳ３０で算出した相関値が高い順に所定の数だけ、その時刻的ポイントに相当する時間軸位置情報を特徴的サンプル点位置として特徴的サンプル点位置記憶部２２に格納する。

次いで、ステップＳ５０において、パワー比率計算部２３は、特徴的サンプル点位置記憶部２２に格納された特徴的サンプル点位置を参照して、それぞれの特徴的サンプル点位置からの１フレームについて、直接音フレームとのパワー比率を計算する。

そして、ステップＳ６０において、パワー比率計算部２３は、計算したパワー比率を、対応する特徴的サンプル点位置の相関値の高い順でパワー比率記憶部２４に格納する。

このようにインパルス応答特徴量抽出部２で特徴量として抽出する各インパルス応答についての特徴的サンプル点位置およびパワー比率は、再生空間と聴取者位置が変わらない限り、１回だけ抽出しておけばよい。

次に、本実施の形態に係る音声信号処理装置における入力音声信号に対する空間特性付加処理の手順を説明する。以下、空間特性付加処理部３１Ａにおいてセンタチャンネルの入力音声信号を処理する手順について説明するが、空間特性付加処理部３２Ａ〜３５Ａ，３１Ｂ〜３５Ｂにおいても、それぞれに対応するチャンネルの入力音声信号に対して同様の処理を行う。

図９は図４に示す空間特性付加処理部３１Ａにおける空間特性付加処理の手順を示すフローチャートである。まず、ステップＳ１１０において、畳み込み演算部５１は、インパルス応答の直接音フレームと入力音声信号との畳み込み演算を、入力音声信号のブロック単位で行い、得られた畳み込み演算結果を畳み込み演算結果格納バッファ５２に格納する。

次に、ステップＳ１２０において、遅延回路５３Ａ〜５３Ｅは、畳み込み演算結果格納バッファ５２に格納された入力音声信号の各ブロックの畳み込み演算結果に対して、遅延時間Ｄ１〜Ｄ５により遅延処理を施す。

次に、ステップＳ１３０において、アンプ５４Ａ〜５４Ｅは、遅延回路５３Ａ〜５３Ｅから出力される信号にそれぞれ係数値Ｐ１〜Ｐ５を乗算して増幅し、増幅された信号を出力する。

そして、ステップＳ１４０において、畳み込み演算部５１で得られた畳み込み演算結果と、アンプ５４Ａ〜５４Ｅで増幅された信号とが、出力待機バッファ５５内に加算される。

その後、出力待機バッファ５５は、格納した信号を時分割的に先頭の１ブロックごとに空間特性付加信号として加算器４１Ａに出力する。ここで、図４に示すように、出力待機バッファ５５から出力される１ブロックの長さＬ１は、遅延時間Ｄ１〜Ｄ５に依存しない。１ブロックの出力後、出力待機バッファ５５内の信号は１ブロック分前詰めされる。

そして、空間特性付加処理部３１Ａから加算器４１Ａに供給された空間特性付加信号は、加算器４１Ａにおいて空間特性付加処理部３２Ａ〜３５Ａからの空間特性付加信号と加算される。また、空間特性付加処理部３１Ｂ〜３５Ｂからの空間特性付加信号は加算器４１Ｂにおいて足し合わされる。

クロストークキャンセル処理部４２は、加算器４１Ａで生成された左チャンネルの出力音声信号と、加算器４１Ｂで生成された右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行う。そして、クロストークキャンセル処理後の左右チャンネルの出力音声信号は、それぞれスピーカ４３Ａ，４３Ｂにおいて音声として出力される。

上記説明のように、畳み込み演算部５１で必要なタップ数は直接音フレーム長のみであり、直接音フレームの定義上、例えばサンプリング周波数４８ｋＨｚにおいて長くともおよそ２５６サンプルというサンプルオーダーである。その他の特徴的サンプル点位置に対応した畳み込み演算は必要なく、出力待機バッファ５５に対して特定の位置に積和して格納するのみである。

また、ある長さのブロック単位で一括の積和が可能であるようなアーキテクチャのプロセッサにおいては、出力待機バッファ５５の格納までの処理が１サンプルごとではなく１ブロックごとに可能となり、さらなる演算量の削減を見込むことができる。

また、ＤＳＰ（Digital Signal Processor）を用いた実装時には、図４における出力待機バッファ５５の要するメモリ容量と再生の１サイクル（入力音声信号の１ブロック単位分の時間長）に演算可能な量にて、特徴的サンプル点位置の数を決めることができる。特徴量抽出時に、用いるべきポイントの順序を基となるインパルス応答の直接音フレームとの相関値の高い順としたため、決定した数に対しても自動的にすべての段の遅延回路における遅延時間、およびアンプの係数値の値は定まる。

なお、上記のパラメータの値は一例であり、サンプリング周波数は４８ｋＨｚ以外にも４４．１ｋＨｚ、９６ｋＨｚなどでもよい。直接音フレーム長も同様に、例えば１２８サンプルでもよいし、上記の例より長い５１２サンプルなどに設定してもよい。

このように本実施の形態によれば、インパルス応答の中から選択される直接音フレームと相関の高い部分の位置を示す特徴的サンプル点位置と、特徴的サンプル点位置からの１フレームと直接音フレームとのパワー比率とを求め、入力音声信号と直接音フレームとの畳み込み演算を行い、得られた畳み込み演算結果に対して、特徴的サンプル点位置とパワー比率とに応じた遅延処理および積和演算を行うので、妥当性をもってインパルス応答の畳み込み演算に用いる特徴的部分を選択し、かつ少ない演算量で効果的な音像定位を行うことができる。

なお、上記音声信号処理装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読みとられてコンピュータに取り込まれてもよいし、通信ネットワークを介して伝送されてコンピュータに取り込まれてもよい。

本発明の実施の形態に係る音声信号処理装置の構成を示すブロック図である。図１に示す音声信号処理装置のインパルス応答特徴量抽出部の構成を示すブロック図である。図１に示す音声信号処理装置の再生処理部の構成を示すブロック図である。図３に示す再生処理部における空間特性付加処理部の構成を示すブロック図である。インパルス応答の特徴量を抽出する手順を示すフローチャートである。インパルス応答の波形の一例を示す図である。インパルス応答の直接音フレームを説明するための図である。相関値の一例を図８に示す図である。空間特性付加処理の手順を示すフローチャートである。

符号の説明

１音声信号処理装置
２インパルス応答特徴量抽出部
３再生処理部
２１相関計算部
２２特徴的サンプル点位置記憶部
２３パワー比率計算部
２４パワー比率記憶部
３１Ａ〜３５Ａ３１Ｂ〜３５Ｂ空間特性付加処理部
４１Ａ，４１Ｂ加算器
４２クロストークキャンセル処理部
４３Ａ，４３Ｂスピーカ
５１畳み込み演算部
５２畳み込み演算結果格納バッファ
５３Ａ〜５３Ｅ遅延回路
５４Ａ〜５４Ｅアンプ
５５出力待機バッファ

Claims

複数チャンネルの音声信号からなる音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部と、
前記各インパルス応答について抽出された前記特徴量を用いて前記各チャンネルの入力音声信号を処理して、前記各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部と、
この空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて左チャンネルの出力音声信号を生成する第１の加算器と、
前記空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて右チャンネルの出力音声信号を生成する第２の加算器と、
前記左チャンネルの出力音声信号と前記右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部とを備え、
前記インパルス応答特徴量抽出部は、
前記各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を１サンプルごとに計算する相関計算部と、
この相関計算部の計算結果に基づいて、当該インパルス応答において前記直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部と、
この特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの１フレームと前記直接音フレームとのパワー比率を計算するパワー比率計算部と、
このパワー比率計算部で計算した前記パワー比率を記憶するパワー比率記憶部とを備え、
前記空間特性付加処理部は、
前記各インパルス応答について、当該インパルス応答における前記直接音フレームと、当該インパルス応答に対応するチャンネルの入力音声信号との畳み込み演算を、前記入力音声信号のブロック単位で行う畳み込み演算部と、
この畳み込み演算部による畳み込み演算結果を格納する畳み込み演算結果格納部と、
この畳み込み演算結果格納部に格納された前記入力音声信号のブロック単位の畳み込み演算結果に対して、前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置に対応した遅延処理を施す遅延処理部と、
前記パワー比率記憶部に記憶された前記パワー比率に基づいて、前記遅延処理部から出力される、前記入力音声信号の１ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号をそれぞれ増幅して出力する増幅部と、
前記畳み込み演算部により得られた前記畳み込み演算結果と、前記増幅部からの増幅信号を格納し、格納した信号を時分割的に先頭の１ブロックごとに空間特性付加信号として出力する出力待機バッファ部と
を備えることを特徴とする音声信号処理装置。
前記相関計算部は、所定のフレーム幅ごとに前記インパルス応答のパワーを計算し、パワーの最大値をとるフレームを前記直接音フレームとして決定することを特徴とする請求項１に記載の音声信号処理装置。
前記相関計算部は、前記インパルス応答の波形の瞬時パワーを時間振幅値の２乗として計算し、前記瞬時パワーの最大値をとる時刻的ポイントを含むフレームを前記直接音フレームとして決定することを特徴とする請求項１に記載の音声信号処理装置。