JP2013201722A

JP2013201722A - 多チャネル信号処理装置、方法、及びプログラム

Info

Publication number: JP2013201722A
Application number: JP2012070301A
Authority: JP
Inventors: Tsukuru Tanabe; 造田邉; Toshihiro Furukawa; 利博古川; Takahiro Natori; 隆廣名取
Original assignee: Tokyo University of Science
Current assignee: Tokyo University of Science
Priority date: 2012-03-26
Filing date: 2012-03-26
Publication date: 2013-10-03
Anticipated expiration: 2032-03-26
Also published as: JP5971646B2

Abstract

【課題】多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良いステレオ信号を出力する。
【解決手段】周波数領域変換部１４Ｌ，１４Ｒで観測信号を周波数領域の信号である観測スペクトルに変換し、スペクトル比演算部１６で、観測スペクトルの比を演算し、ボーカル信号抽出部１８で、スペクトル比が閾値以上の信号を楽曲信号とみなして抑圧した推定ボーカルスペクトルを抽出し、時間領域変換部２０で、時間領域の信号である推定ボーカル信号に変換する。楽曲信号推定部２２で、推定ボーカル信号の分散値、観測信号の分散値から推定ボーカル信号の分散値を差し引いた楽曲信号の分散値、並びに観測信号を有色駆動源付カルマンフィルタに適用し、状態量の最適推定値ベクトルとして推定された推定楽曲信号を抽出する。
【選択図】図１

Description

本発明は、多チャネル信号処理装置、方法、及びプログラムに係り、特に、多チャネル信号に含まれる特定の信号を抽出または抑圧する多チャネル信号処理装置、方法、及びプログラムに関する。

従来、ステレオ信号をチャネル毎に複数の周波数帯域に分割し、周波数帯域毎のチャネル間の類似度を計算し、類似度から中央付近に定位する音源信号を抑圧、もしくは強調するための減衰係数を計算し、その減衰係数を各周波数帯域信号に乗算し、チャネル毎の各周波数帯域信号を再合成して出力するステレオ音響信号処理装置が提案されている（例えば、特許文献１参照）。

特許文献１に記載のステレオ音響信号処理装置は、ステレオ信号入力部に入力される音響信号が、強調、もしくは抑圧したい目的音源信号が中央付近に定位するように収音されているステレオ信号である場合に有効である。詳細には、ステレオ信号入力部に入力されたステレオ信号（左チャネルの信号ｓＬ、右チャネルの信号ｓＲ）の各々を帯域分割数Ｎの周波数領域の信号（ｆＬ(ｋ)及びｆＲ(ｋ)、ｋ＝０，・・・，Ｎ−１）に変換し、同じ周波数帯域毎にｆＬ(ｋ)とｆＲ(ｋ)との類似度ａ(ｋ)を計算する。周波数帯域毎に計算された類似度ａ(ｋ)に基づき周波数帯域毎に減衰係数ｇ(ｋ)を算出し、同一周波数帯域において、左右チャネル間で同一の減衰係数ｇ(ｋ)が各周波数帯域信号ｆＬ(ｋ)に乗算し再合成することで、チャネル間の類似度の大きな成分だけの成分集合ｓＬ'、ｓＲ'が出力され、その結果、中央付近に定位する音源信号だけが残る。

このように、特許文献１に記載のステレオ音響信号処理装置では、全ての帯域に対して処理を行って、目的音源信号が中央付近に定位する音源信号を得ている。

また、２チャネルの入力音響信号各々のスペクトルデータを生成し、そのスペクトルデータにおける特定の音響信号（ボーカル信号の音声）に対応する設定周波数帯域に属する複数の周波数ビン各々のデータが、２チャネル相互間で所定の近似条件を満たす場合に、その周波数ビンのデータのパワーを縮減補正し、補正後のスペクトルデータに基づく時間領域の補正後音響信号と、２チャネル各々における他チャネルに対する差信号とを合成することによりステレオ音響信号を構成する２チャネルの出力音響信号を生成する音響信号処理装置が提案されている（例えば、特許文献２参照）。

特許文献２に記載の音響信号処理装置では、Ｌ及びＲの２チャンネル各々について、他方のチャンネルに対する入力音響信号の差分を計算した結果である差信号（ΔＸＬ(t)＝ＸＬ(t)−ＸＲ(t)とΔＸＲ(t)＝ＸＲ(t)−ＸＬ(t)）を生成する。そして、Ｌ及びＲの２チャンネル各々について、時間領域の補正後音響信号ＸＬ'(t)及びＸＲ'(t)と、差信号ΔＸＬ(t)及びΔＸＲ(t)とを、例えば重み付け加算により合成することにより、ステレオ音響信号を構成する２チャンネルの出力音響信号ＹＬ(t)、ＹＲ(t)を生成する。

特開２００２−７８１００号公報特開２００８−７２６００号公報

しかしながら、特許文献１に記載の技術では、特定の周波数成分を抑圧することにより、周波数スペクトルが孤立する箇所が発生し、時間領域の信号に変換した際にトーン性のミュージカルノイズとして聞こえてしまう、という問題がある。

また、特許文献２に記載の技術では、差信号を合成して失われた周波数帯域の信号を補完することで、ミュージカルノイズの発生を防止している。特許文献１に記載の技術に比べ演算量が軽減されているものの、左右の信号に同一の差信号を合成して補正するため、生成される音響信号のステレオ感が減少し、音源信号の臨場感が損なわれる。また、抽出する信号がボーカル信号のような中央付近に定位する音源信号の場合には、その信号がモノラル信号となるため、その信号を補正するための差信号を生成することができない。

このように、特許文献１及び２に記載の技術では、ステレオ感が無くなり、再現性が悪くなる、という問題がある。

本発明は、上記問題点に鑑みてなされたものであり、ステレオ及び２チャネルを含む多チャネルの入力信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良い多チャネル信号を出力することができる多チャネル信号処理装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第１信号のスペクトル信号と推定される推定第１スペクトル信号を抽出し、周波数領域の信号である前記推定第１スペクトル信号を時間領域の信号に変換して前記第１信号と推定される時間領域の推定第１信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第１信号の分散値、前記観測信号の分散値から前記推定第１信号の分散値を差し引いて得られる前記第２信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、を含んで構成されている。

第１の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて第１信号のスペクトル信号と推定される推定第１スペクトル信号を抽出し、周波数領域の信号である推定第１スペクトル信号を時間領域の信号に変換して第１信号と推定される時間領域の推定第１信号を抽出する。そして、抽出手段で抽出された時間領域の推定第１信号の分散値、観測信号の分散値から推定第１信号の分散値を差し引いて得られる第２信号の分散値、並びに複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、第１信号または第２信号を推定する。

有色駆動源付カルマンフィルタとは、駆動源が有色信号の場合にも適用可能なカルマンフィルタであり、観測信号から目的の状態量（ここでは、第１信号または第２信号）を推定するためのカルマンフィルタである。

これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、各チャネルに対して同一の差信号で補完するような場合に比べて、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。また、時間領域から周波数領域への変換、または周波数領域から時間領域への逆変換処理が１回軽減される。

また、第１の発明の多チャネル信号処理装置は、前記推定手段により推定された前記第１信号または前記第２信号を含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出する後段抽出手段と、前記後段抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する後段推定手段と、をさらに含んで構成することができる。

また、第１の発明の多チャネル信号処理装置は、前記推定手段により推定された前記第１信号または前記第２信号を含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、スペクトル信号から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出する後段抽出手段と、前記後段抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する後段推定手段と、をさらに含んで構成することができる。

また、第２の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、を含んで構成されている。

第２の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、第２信号と推定される時間領域の推定第２信号を抽出する。推定第１信号を抽出した第１の発明の抽出手段と異なり、第２の発明の抽出手段は推定第２信号を抽出する。そして、抽出手段で抽出された時間領域の推定第２信号の分散値、観測信号の分散値から推定第２信号の分散値を差し引いて得られる第１信号の分散値、並びに複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、第１信号または第２信号を推定する。

これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。また、時間領域のみの信号処理となるため、第１の発明に比べて演算量が軽減される。

また、第３の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、を含んで構成されている。

第３の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である推定第２スペクトル信号を時間領域の信号に変換して第２信号と推定される時間領域の推定第２信号を抽出する。推定第１信号を抽出した第１の発明の抽出手段と異なり、第２の発明の抽出手段は推定第２信号を抽出する。そして、抽出手段で抽出された時間領域の推定第２信号の分散値、観測信号の分散値から推定第２信号の分散値を差し引いて得られる第１信号の分散値、並びに複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、第１信号または第２信号を推定する。

これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。

また、第４の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第１信号のスペクトル信号と推定される推定第１スペクトル信号を抽出し、周波数領域の信号である前記推定第１スペクトル信号を時間領域の信号に変換して前記第１信号と推定される時間領域の推定第１信号を抽出し、抽出された前記時間領域の推定第１信号の分散値、前記観測信号の分散値から前記推定第１信号の分散値を差し引いて得られる前記第２信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する方法である。

また、第５の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出し、抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する方法である。

また、第６の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出し、抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する方法である。

また、第７の発明に係る多チャネル信号処理プログラムは、コンピュータを、上記の多チャネル信号処理装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の多チャネル信号処理装置、方法、及びプログラムによれば、ステレオ及び２チャネルを含む多チャネルの入力信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良い多チャネル信号を出力することができる、という効果が得られる。

第１の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。観測信号の観測状況を説明するための概略図である。周波数領域変換部の処理を説明するための図である。ボーカル信号抽出部の処理を説明するための図である。時間領域変換部の処理を説明するための図である。状態空間モデルを表すブロック図である。第１の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。有色駆動原付カルマンアルゴリズムの内容を示すフローチャートである。第２の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。第２の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。第３の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。自己相関処理部の処理を説明するための図である。ピーク値検出部の処理を説明するための図である。第３の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。第４の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。第４の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。演算軽減型有色駆動原付カルマンアルゴリズムの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。
＜第１の実施の形態＞
第１の実施の形態では、本発明の第１信号の一例を、例えばＬチャネルマイクとＲチャネルマイクとの中央付近を音源位置とするボーカル信号とし、本発明の第２信号の一例を、例えば楽器等を音源とする楽曲信号とする場合について説明する。

図１に示すように、第１の実施の形態に係るステレオ信号処理装置１０は、Ａ／Ｄ変換部１２Ｌ，１２Ｒと、周波数領域変換部１４Ｌ，１４Ｒと、スペクトル比演算部１６と、ボーカル信号抽出部１８と、時間領域変換部２０と、楽曲信号推定部２２と、Ｄ／Ａ変換部２４Ｌ，２４Ｒとを含んで構成されている。ステレオ信号処理装置１０は、ＡＳＩＣ（Application Specific Integrated Circuit）等の半導体集積回路により構成することができる。

Ａ／Ｄ変換部１２Ｌ，１２Ｒは、外部から入力されたアナログ信号である観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)（図１中では観測信号Ｌ，観測信号Ｒと表記。以下、図９、１１、１５においても同様）を各々ディジタル信号に変換し、ディジタル信号に変換した観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々周波数領域変換部１４Ｌ，１４Ｒへ出力する。

ここで、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)は、図２に示すように、楽曲信号（Ｌチャネル信号ｉ_Ｌ(ｎ)，Ｒチャネル信号ｉ_Ｒ(ｎ)）と、ボーカル信号ｄ(ｎ)とを観測した信号である。時刻ｎにおいて、Ｌチャネルマイクで観測されたＬチャネルの観測信号がｘ_Ｌ(ｎ)、Ｒチャネルマイクで観測されたＲチャネルの観測信号がｘ_Ｒ(ｎ)である。観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)は、下記（１）式及び（２）式で表される。

ｘ_Ｌ(ｎ)＝ｄ(ｎ)＋ｉ_Ｌ(ｎ) （１）
ｘ_Ｒ(ｎ)＝ｄ(ｎ)＋ｉ_Ｒ(ｎ) （２）
周波数領域変換部１４Ｌ，１４Ｒは、Ａ／Ｄ変換部１２Ｌ，１２Ｒから入力された時間領域の信号である観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々周波数領域の観測信号Ｘ_Ｌ(ｌ，ｋ)，Ｘ_Ｒ(ｌ，ｋ)に変換し、スペクトル比演算部１６及びボーカル信号抽出部１８へ出力する。具体的には、周波数領域変換部１４Ｌ，１４Ｒは、図３に示すように、所定フレーム長のフレーム内の観測信号ｘ_Ｌ(ｌ，ｎ)，ｘ_Ｒ(ｌ，ｎ)各々を、下記（３）式及び（４）式によりフーリエ変換して、各周波数ビンのスペクトルに変換する。ここで、２Ｍは１フレーム当たりのサンプル数、ｌはフレーム番号、ｋは周波数ビン番号である。また、以下では、周波数領域の信号に変換された観測信号を「観測スペクトル」ともいう。

スペクトル比演算部１６は、周波数領域変換部１４Ｌ，１４Ｒから入力された観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜と｜Ｘ_Ｒ(ｌ，ｋ)｜とのスペクトル比を演算し、ボーカル信号抽出部１８に出力する。ボーカル信号は、（１）式及び（２）式に示すようにＬチャネルの観測信号ｘ_Ｌ(ｎ)とＲチャネルの観測信号ｘ_Ｒ(ｎ)とに同等に含まれる。そのため、観測スペクトルにおいても、下記（５）式及び（６）式に示すように、Ｌチャネルの観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜とＲチャネルの観測スペクトル｜Ｘ_Ｒ(ｌ，ｋ)｜とに、ボーカル信号のスペクトル｜Ｄ(ｌ，ｋ)｜が同等に含まれる。なお、｜Ｉ_Ｌ(ｌ，ｋ)｜及び｜Ｉ_Ｒ(ｌ，ｋ)｜はＬチャネルの楽曲信号のスペクトル及びＲチャネルの楽曲信号のスペクトルである。

｜Ｘ_Ｌ(ｌ，ｋ)｜＝｜Ｄ(ｌ，ｋ)｜＋｜Ｉ_Ｌ(ｌ，ｋ)｜（５）
｜Ｘ_Ｒ(ｌ，ｋ)｜＝｜Ｄ(ｌ，ｋ)｜＋｜Ｉ_Ｒ(ｌ，ｋ)｜（６）
このことから、Ｌチャネル観測スペクトルとＲチャネル観測スペクトルとのスペクトル比が小さい場合には、その信号をボーカル信号と判定し、スペクトル比が大きい場合には、その信号を楽曲信号と判定することができる。そこで、スペクトル比演算部１６は、Ｌチャネル観測スペクトルとＲチャネル観測スペクトルとのスペクトル比を演算する。特許文献１及び２では、同じ周波数帯域毎に周波数領域の信号に変換された左チャネル信号と右チャネル信号との類似度を計算するが、本実施の形態では、下記（７）式により、Ｌチャネル観測スペクトルとＲチャネル観測スペクトルとのスペクトル比Ａ_ｅ(ｌ，ｋ)を演算する。

ボーカル信号抽出部１８は、スペクトル比演算部１６から入力されたスペクトル比Ａ_ｅ(ｌ，ｋ)に基づいて、周波数領域変換部１４Ｌ，１４Ｒから入力された観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜，｜Ｘ_Ｒ(ｌ，ｋ)｜からボーカル信号と推定される信号（以下、「推定ボーカル信号」という）のスペクトル（以下、「推定ボーカルスペクトル」という）を抽出し、時間領域変換部２０へ出力する。具体的には、スペクトル比Ａ_ｅ(ｌ，ｋ)に基づいて、各フレームの観測スペクトルの周波数ビン毎にボーカル信号か楽曲信号かを判定する。そして、下記（８）式に示すように、ボーカル信号と判定された場合には観測スペクトルをそのまま抽出し、楽曲信号と判定された場合にはその観測スペクトルを抑圧することで、推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜を抽出する。なお、特許文献２では、目的音源信号である楽曲信号を抽出しているが、ここでは、最終的な抽出対象である楽曲信号ではなく推定ボーカルスペクトルを抽出する。

ここで、αはＬチャネルマイクとＲチャネルマイクとの中央付近に定位している音源信号（ここではボーカル信号）以外の音源信号（ここでは楽曲信号）をどの程度許容するかを決定する閾値であり、０≦α≦１である。またｋ_０は楽曲信号の抑圧度を調節するための係数で、０≦ｋ_０≦１である。図４に示すように、ｋ_０＝０の場合、楽曲信号は完全に抑圧される。なお、（８）式では観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜から推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜を抽出する場合を示しているが、観測スペクトル｜Ｘ_Ｒ(ｌ，ｋ)｜を用いてもよい。

なお、上記処理を図４に示すように、ボーカル帯域Ｗ_０に対してのみ行うようにしてもよい。Ｗ_０は観測信号に含まれるボーカル信号の帯域を指定する係数である。男性ボーカルの場合ボーカル信号は低い帯域に集中し、女性ボーカルの場合ボーカル信号は高い帯域に集中する。そのことより、Ｗ_０のような処理帯域を設けることで、特許文献１の手法のように観測信号の全帯域に渡って処理をするような場合と比較して、演算量を軽減することができる。また、本実施の形態では、第１信号をボーカル信号としているため、ボーカル信号の特性に応じた処理帯域Ｗ_０を設定しているが、第１信号をどのような信号とするかに応じて、その信号の特性に応じた処理帯域Ｗ_０を設定すればよい。

時間領域変換部２０は、ボーカル信号抽出部１８から入力された推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜を、下記（９）式により逆フーリエ変換して、時間領域の推定ボーカル信号ｄ^(ｌ，ｎ)に変換する（図５も参照）。なお、特許文献１及び２の手法と比較して、逆フーリエ変換の回数が１回でよい。

次いで、オーバーラップアド法により１フレーム前の後半Ｍサンプルを用いた時間領域推定ボーカル信号ｄ^(ｌ−１，ｎ＋Ｍ)と現フレームの前半Ｍサンプルを用いた時間領域推定ボーカル信号ｄ^(ｌ，ｎ)とを足し合わせて、現フレームのＭサンプル時間領域推定ボーカル信号ｄ^(ｎ)（１≦ｎ≦Ｍ）を得る。オーバーラップアド法を数式で表現すると下記のように表わすことができる。

楽曲信号推定部２２は、時間領域変換部２０から入力された推定ボーカル信号ｄ^(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、楽曲信号と推定される信号（以下、「推定楽曲信号」という）を抽出する。本実施の形態では、ＡＲ係数の推定を用いない有色駆動源付カルマンフィルタにより、観測信号に含まれる特定の信号（ここでは楽曲信号）を抽出する。

具体的には、観測信号を、下記（１０）式に示す楽曲信号のみから構成される状態方程式、及びボーカル信号と楽曲信号とから構成される観測方程式で表される状態空間モデルに置き換える。

ただし、（１０）式中のベクトルｘ_ｐ２、δ_ｐ２、ｙ_ｐ２、ε_ｐ２、Φ_ｐ２及びＭ_ｐ２は、下記（１１）式でそれぞれ定義される。ベクトルｘ_ｐ２は所望の楽曲信号からなる２Ｌ_ｐ２×１次の状態ベクトル、ベクトルδ_ｐ２は２Ｌ_ｐ２×１次の駆動源ベクトル、ベクトルｙ_ｐ２は２×１次の観測信号ベクトル、ベクトルε_ｐ２は２×１次のボーカル信号ベクトルである。行列Φ_ｐ２は０及び１のみで構成される状態遷移行列、行列Ｍ_ｐ２は２×２Ｌ_ｐ２次の観測遷移行列である。また、図６は、この状態空間モデルを表すブロック図である。なお、２Ｌ_ｐ２は、状態遷移行列のサイズである。また、ｐ２は有色駆動原付カルマンフィルタが適用される状態方程式及び観測方程式の変数であることを表す添え字である。

（１０）式における状態方程式は、推定対象（ここでは楽曲信号）のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数（ここでは、状態ベクトルｘ_ｐ２）の時間変化を表している。また、（１０）式における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果（ここでは、観測信号ベクトルｙ_ｐ２）が、被観測量つまり入力（ここでは、状態ベクトルｘ_ｐ２）に依存して時間発展する様子を示している。なお、「時刻ｎにおける状態ベクトルｘ_ｐ２(ｎ)」とは、時刻ｎまでの楽曲信号からなる状態ベクトルを意味する。

（１０）式に示す状態方程式及び観測方程式により、下記に示すＬ・Ｒチャネル結合型カルマンアルゴリズムを導出する。

上記のアルゴリズムは、初期設定の過程［Initialization］と反復の過程［Iteration］とに大別され、反復の過程では、１〜５の手順を逐次繰り返す。なお、各過程及び手順の詳細な処理フローは後述し、ここでは、各過程及び手順の概略について説明する。

初期設定の過程では、推定する楽曲信号を示す状態ベクトルの最適推定値（以下、「最適推定値ベクトル」という）の初期値ｘ^_ｐ２(０｜０)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Ｐ_ｐ２(０｜０)、ボーカル信号の分散値Ｒ_εｐ２(ｎ)[ｉ，ｊ]、及び楽曲信号の分散値Ｒ_δｐ２(ｎ)[ｉ，ｊ]の値を、上記のようにそれぞれ設定する。なお、楽曲信号の分散値は、観測信号の分散値からボーカル信号の分散値を差し引いたものである。また、＊[ｉ，ｊ]は、変数名＊のｉ行ｊ列の要素、Ｉは単位行列を示す。

また、反復の過程では、手順１において、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)を計算する。次に、手順２において、観測信号ベクトルの推定誤差にカルマンゲイン行列をかけて、時刻ｎまでの情報による時刻ｎ＋１での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ)を加えたものが、時刻ｎ＋１までの情報によるその時刻での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)になるようなカルマンゲイン行列Ｋ_ｐ２(ｎ＋１)を計算する。

次に、手順３において、時刻ｎまでの情報による時刻ｎ＋１での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ)を計算する。次に、手順４において、時刻ｎ＋１までの情報によるその時刻での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)を計算する。手順３及び４で、状態量の更新が行われる。次に、手順５において、時刻ｎ＋１までの情報によりその時刻の共分散行列を更新する。

楽曲信号推定部２２は、上記の反復過程を所定回数繰り返して、手順４により得られた最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)の１行１列目をＬチャネルの推定楽曲信号ｉ^_Ｌ(ｎ)として、（Ｌ_ｐ２＋１）行１列目をＲチャネルの推定楽曲信号ｉ^_Ｒ(ｎ)として、各々をＤ／Ａ変換部２４Ｌ，２４Ｒへ出力する。

Ｄ／Ａ変換部２４Ｌ，２４Ｒは、楽曲信号推定部２２から入力されたディジタル信号である推定楽曲信号ｉ^_Ｌ(ｎ)及びｉ^_Ｒ(ｎ)を各々アナログ信号に変換して、最終的な出力信号Ｌ，Ｒとして出力する。

次に、図７を参照して、第１の実施の形態に係るステレオ信号処理装置１０の作用について説明する。

ステップ１００で、Ａ／Ｄ変換部１２Ｌ，１２Ｒが、外部から入力されたアナログ信号である観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々ディジタル信号に変換する。次に、ステップ１０２で、周波数領域変換部１４Ｌ，１４Ｒが、上記ステップ１００でディジタル信号に変換された時間領域の信号である観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々周波数領域の信号である観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜，｜Ｘ_Ｒ(ｌ，ｋ)｜に変換する。

次に、ステップ１０４で、スペクトル比演算部１６が、上記ステップ１０２で変換された観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜と｜Ｘ_Ｒ(ｌ，ｋ)｜とのスペクトル比Ａ_ｅ(ｌ，ｋ)を演算する。次に、ステップ１０６で、ボーカル信号抽出部１８が、上記ステップ１０４で演算されたスペクトル比Ａ_ｅ(ｌ，ｋ)が予め定めた閾値αより大きいか否かを判定する。Ａ_ｅ(ｌ，ｋ)＞αの場合には、ステップ１０８へ移行し、その信号を楽曲信号とみなして、楽曲信号の抑圧度を調節するための係数ｋ_０（０≦ｋ_０≦１）を例えばｋ_０＝０として観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜または｜Ｘ_Ｒ(ｌ，ｋ)｜に乗算することにより楽曲信号を抑圧する。一方、Ａ_ｅ(ｌ，ｋ)≦αの場合には、ステップ１１０へ移行し、その信号をボーカル信号とみなして、例えばｋ_０＝１として、観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜または｜Ｘ_Ｒ(ｌ，ｋ)｜を推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜として抽出する。

次に、ステップ１１２で、時間領域変換部２０は、上記ステップ１０８及び１１０の処理を経て抽出された推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜を、（９）式により逆フーリエ変換して、時間領域の推定ボーカル信号ｄ^(ｌ，ｎ)に変換する。次いで、オーバーラップアド法により１フレーム前の後半Ｍサンプルを用いた時間領域推定ボーカル信号ｄ^(ｌ−１，ｎ＋Ｍ)と現フレームの前半Ｍサンプルを用いた時間領域推定ボーカル信号ｄ^(ｌ，ｎ)とを足し合わせて、現フレームのＭサンプル時間領域推定ボーカル信号ｄ^(ｎ)（１≦ｎ≦Ｍ）を得る。

次に、ステップ１１４で、楽曲信号推定部２２が、推定ボーカル信号ｄ^(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、楽曲信号推定処理を実行することにより、推定楽曲信号を抽出する。楽曲信号推定処理は、図８に示す有色駆動原付カルマンアルゴリズムに相当する。ここで、図８を参照して、有色駆動原付カルマンアルゴリズムのフローについて説明する。

ステップ１１４０で、（１０）式に示す状態方程式及び観測方程式により状態空間モデルを定義し、最適推定値ベクトルの初期値ｘ^_ｐ２(０｜０)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Ｐ_ｐ２(０｜０)、ボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]、及び楽曲信号の分散値Ｒ_δｐ２(ｎ)[ｉ，ｊ]を、上述の初期設定の過程［Initialization］に示した初期状態に設定する。また、時刻を示す変数ｎを０に設定する。

次に、ステップ１１４２で、上記ステップ１１４０で定義した状態空間モデルにおける状態遷移行列Φ_ｐ２、設定した状態ベクトルの共分散行列の初期値Ｐ_ｐ２(０｜０)（ｎ＝０の場合）、または１時刻前に後述するステップ１１５０で更新された共分散行列Ｐ_ｐ２(ｎ｜ｎ) （ｎ≧１の場合）、及び楽曲信号の分散値Ｒ_δｐ２(ｎ＋１)[ｉ，ｊ]の値を用いて、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)を計算する（上述の反復の過程［Iteration］の手順１）。

次に、ステップ１１４４で、上記ステップ１１４２で計算した共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)、上記ステップ１１４０で定義した状態空間モデルにおける観測遷移行列Ｍ_ｐ２、及びボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]を用いて、カルマンゲイン行列Ｋ_ｐ２(ｎ＋１)を計算する（同手順２）。

次に、ステップ１１４６で、状態遷移行列Φ_ｐ２、及び上記ステップ１１４０で設定した最適推定値ベクトルの初期値ｘ^_ｐ２(０｜０) （ｎ＝０の場合）、または１時刻前に本ステップで得られた最適推定値ベクトルｘ^_ｐ２(ｎ｜ｎ) （ｎ≧１の場合）を用いて、時刻ｎまでの情報による時刻ｎ＋１での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ)を計算する（同手順３）。そして、計算した最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ)、上記ステップ１１４４で計算したカルマンゲイン行列Ｋ_ｐ２(ｎ＋１)、観測ベクトルｙ_ｐ２(ｎ＋１)、及び観測遷移行列Ｍ_ｐ２を用いて、時刻ｎ＋１までの情報によるその時刻での最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)を計算する（同手順４）。

次に、ステップ１１４８で、処理を終了するか否かを判定する。この判定は、時刻ｎが所定のサンプル数Ｎに達した場合を処理終了と判定してもよいし、サンプルがなくなった時点で処理終了と判定してもよい。処理を終了しない場合には、ステップ１１５０へ移行し、処理を終了する場合には、ステップ１１５４へ移行する。

ステップ１１５０では、単位行列Ｉ、カルマンゲイン行列Ｋ_ｐ２(ｎ＋１)、観測遷移行列Ｍ_ｐ２、及び上記ステップ１１４２で計算された共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)を用いて、時刻ｎ＋１までの情報によるその時刻での共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ＋１)を更新する。次に、ステップ１１５２で、ｎを１インクリメントして、ステップ１１４２へ戻る。

一方、ステップ１１５４では、上記ステップ１１４６で計算された最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１) の１行１列目をＬチャネルの推定楽曲信号ｉ^_Ｌ(ｎ)として、（Ｌ_ｐ２＋１）行１列目をＲチャネルの推定楽曲信号ｉ^_Ｒ(ｎ)として出力し、図７の処理へリターンする。

次に、ステップ１１６で、Ｄ／Ａ変換部２４Ｌ，２４Ｒが、上記ステップ１１４の処理により出力されたディジタル信号である推定楽曲信号ｉ^_Ｌ(ｎ)及びｉ^_Ｒ(ｎ)を各々アナログ信号に変換して、最終的な出力信号Ｌ，Ｒとして出力し、処理を終了する。

以上説明したように、第１の実施の形態のステレオ信号処理装置によれば、Ｌチャネル及びＲチャネルの観測スペクトルの比に基づいて抽出した推定ボーカル信号と観測信号とに、有色駆動源付カルマンフィルタを適用して推定楽曲信号を抽出するため、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。

また、抽出したボーカルスペクトルを時間領域の信号に変換するための逆フーリエ変換が１回でよい。
＜第２の実施の形態＞
第２の実施の形態では、本発明の第１信号の一例を、例えばＬチャネルマイクとＲチャネルマイクとの中央付近を音源位置とするボーカル信号とし、本発明の第２信号の一例を、例えば楽器等を音源とする楽曲信号とする場合について説明する。

第２の実施の形態では、ボーカル信号または楽曲信号を選択的に抽出する場合について説明する。なお、第２の実施の形態のステレオ信号処理装置について、第１の実施の形態のステレオ信号処理装置１０と同一の部分については、同一符号を付して詳細な説明を省略する。

図９に示すように、第２の実施の形態に係るステレオ信号処理装置２１０は、Ａ／Ｄ変換部１２Ｌ，１２Ｒと、周波数領域変換部１４Ｌ，１４Ｒと、スペクトル比演算部１６と、ボーカル信号抽出部１８と、時間領域変換部２０と、特定信号推定部２２２と、Ｄ／Ａ変換部２４Ｌ，２４Ｒとを含んで構成されている。

特定信号推定部２２２は、楽曲信号またはボーカル信号のいずれを抽出するかを選択するための選択信号に従って、時間領域変換部２０から入力された推定ボーカル信号ｄ^(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、推定楽曲信号または推定ボーカル信号を抽出する。選択信号が楽曲信号を抽出することを示すものである場合には、特定信号推定部２２２は、第１の実施の形態の楽曲信号推定部２２と同様の処理により、推定楽曲信号を抽出する。

一方、選択信号がボーカル信号を抽出することを示すものである場合には、下記に示すＬ・Ｒチャネル結合型有色駆動原付カルマンアルゴリズムにより、推定ボーカル信号を抽出する。なお、初期設定の過程［Initialization］については、第１の実施の形態と同様であるため記載を省略する。

推定ボーカル信号を抽出する場合には、第１の実施の形態における反復の過程［Iteration］の手順１の楽曲信号の分散値Ｒ_δｐ２(ｎ＋１) [ｉ，ｊ]と、手順２のボーカル信号の分散値Ｒ_εｐ２(ｎ＋１) [ｉ，ｊ]とを入れ替える。これにより、手順４において計算される最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)の１行１列目または（Ｌ_ｐ２＋１）行１列目を、推定ボーカル信号ｄ'^_ｐ２(ｎ)として得ることができる。ここで得られる推定ボーカル信号は、ミュージカルノイズのない信号となる。

次に、図１０を参照して、第２の実施の形態に係るステレオ信号処理装置１０の作用について説明する。なお、第１の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

ステップ１００〜１１２を経て、スペクトル比に基づいて抽出された推定ボーカルスペクトル｜Ｄ^(ｌ，ｋ)｜を、時間領域の推定ボーカル信号ｄ^(ｎ)に変換する。

次に、ステップ２００で、特定信号推定部２２２が、選択信号に基づいて楽曲信号またはボーカル信号のいずれを抽出するかを判定する。楽曲信号を抽出すると判定された場合には、ステップ１１４へ移行して、楽曲信号推定部２２が、推定ボーカル信号ｄ^(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、楽曲信号推定処理を実行することにより、推定楽曲信号を抽出する。

一方、ボーカル信号を抽出すると判定された場合には、ステップ２０２へ移行し、楽曲信号推定部２２が、推定ボーカル信号ｄ^(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、ボーカル信号推定処理を実行することにより、推定ボーカル信号を抽出する。

ボーカル信号推定処理は、第１の実施の形態と同様に、図８に示す有色駆動原付カルマンアルゴリズムに相当する。ここでは、楽曲信号推定処理として実行される有色駆動原付カルマンアルゴリズムのフローと異なる処理について説明する。

ボーカル信号推定処理として実行されるカルマンアルゴリズムでは、ステップ１１４２で、楽曲信号の分散値Ｒ_δｐ２(ｎ＋１) [ｉ，ｊ]を、ボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]に入れ替えて、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)を計算する（上述の反復の過程［Iteration］の手順１）。

また、ステップ１１４４で、ボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]を、楽曲信号の分散値Ｒ_δｐ２(ｎ＋１)に入れ替えて、カルマンゲイン行列Ｋ_ｐ２(ｎ＋１)を計算する（同手順２）。

また、ステップ１１５４では、上記ステップ１１４６で計算された最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１) の１行１列目または（Ｌ_ｐ２＋１）行１列目を推定ボーカル信号ｄ'^_ｐ２(ｎ)として出力し、図１０の処理へリターンする。ここで得られる推定ボーカル信号は、ミュージカルノイズのない信号となる。

以上説明したように、第２の実施の形態のステレオ信号処理装置によれば、第１の実施の形態の効果に加え、所望の信号（ボーカル信号または楽曲信号）を選択的に抽出することができる。
＜第３の実施の形態＞
第３の実施の形態では、本発明の第１信号の一例を、例えばＬチャネルマイクとＲチャネルマイクとの中央付近を音源位置とするボーカル信号（音声信号）とし、本発明の第２信号の一例を、例えば白色雑音に近い雑音信号とする場合について説明する。

第３の実施の形態では、図２に示すような状況において観測された観測信号から、雑音信号を抑圧する場合について説明する。なお、第３の実施の形態のステレオ信号処理装置について、第１の実施の形態のステレオ信号処理装置１０と同一の部分については、同一符号を付して詳細な説明を省略する。

図１１に示すように、第３の実施の形態に係るステレオ信号処理装置３１０は、Ａ／Ｄ変換部１２Ｌ，１２Ｒと、自己相関処理部２６Ｌ，２６Ｒと、ピーク値検出部２８Ｌ，２８Ｒと、雑音判定部３０Ｌ，３０Ｒと、雑音抑圧部３２２と、Ｄ／Ａ変換部２４Ｌ，２４Ｒとを含んで構成されている。

自己相関処理部２６Ｌ，２６Ｒは、Ａ／Ｄ変換部１２Ｌ，１２Ｒから入力された時間領域の信号である観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)各々の自己相関関数を計算し、ピーク値検出部２８Ｌ，２８Ｒへ各々出力する。具体的には、自己相関処理部２６Ｌ，２６Ｒは、図１２に示すように、観測信号をＬサンプルでフレーム分割する。ｌフレーム目のｉ番目のサンプルに関する観測信号ｘ_Ｌ(ｌ，ｉ)，ｘ_Ｒ(ｌ，ｉ)は、下記（１２）式及び（１３）式で表される。

ｘ_Ｌ(ｌ，ｉ)＝ｄ(ｌ，ｉ)＋ｉ_Ｌ(ｌ，ｉ) （１２）
ｘ_Ｒ(ｌ，ｉ)＝ｄ(ｌ，ｉ)＋ｉ_Ｒ(ｌ，ｉ) （１３）
自己相関処理部２６Ｌ，２６Ｒは、遅れ時間をτとして、下記（１４）式及び（１５）式により、Ｌチャネル及びＲチャネル観測信号各々の自己相関関数Ｒ_ｘＬ(ｌ，τ)，Ｒ_ｘＲ(ｌ，τ)（τ＝０，・・・，Ｌ−１）を計算する。

ピーク値検出部２８Ｌ，２８Ｒは、自己相関処理部２６Ｌ，２６Ｒから各々入力された自己相関関数Ｒ_ｘＬ(ｌ，τ)，Ｒ_ｘＲ(ｌ，τ)におけるピーク値を検出し、各々雑音判定部３０Ｌ，３０Ｒへ出力する。具体的には、自己相関関数Ｒ_ｘＬ(ｌ，τ)，Ｒ_ｘＲ(ｌ，τ)において、τ＝０以外におけるピーク値を、下記（１６）式及び（１７）式により検出する（図１３も参照）。なお、ｍａｘ{＊}は、関数＊の最大値を見つける処理である。

雑音判定部３０Ｌ，３０Ｒは、ピーク値検出部２８Ｌ，２８Ｒから入力されたピーク値ｐ_Ｌ(ｌ)，ｐ_Ｒ(ｌ)各々に基づいて、フレーム毎に雑音信号と推定される信号（以下、「推定雑音信号」という）を各々判定して、雑音抑圧部３２２へ出力する。具体的には、下記（１８）式及び（１９）式に従って、ピーク値ｐ_Ｌ(ｌ)，ｐ_Ｒ(ｌ)各々と閾値σ_１とを比較し、ピーク値が閾値σ_１より大きい場合には、フレームｌをボーカル信号（音声信号）と判定し、１フレーム前の推定雑音信号をコピーして、フレームｌの推定雑音信号ｉ^_Ｌ(ｌ，ｉ)，ｉ^_Ｒ(ｌ，ｉ)とする。一方、ピーク値が閾値σ_１より小さい場合には、フレームｌを雑音信号と判定し、そのまま推定雑音信号ｉ^_Ｌ(ｌ，ｉ) ，ｉ^_Ｒ(ｌ，ｉ)とする。なお、閾値σ_１は観測信号のＳＮＲによって決まる値である。

雑音抑圧部３２２は、雑音判定部３０Ｌ，３０Ｒから入力された推定雑音信号ｉ^_Ｌ(ｌ，ｉ)，ｉ^_Ｒ(ｌ，ｉ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、雑音信号を抑圧する。具体的には、下記に示すＬ・Ｒチャネル結合型有色駆動原付カルマンアルゴリズムにより、雑音信号を抑圧する。なお、反復の過程［Iteration］については、第１の実施の形態と同様であるため記載を省略する。

初期設定の過程では、最適推定値ベクトルの初期値ｘ^_ｐ２(０｜０)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Ｐ_ｐ２(０｜０)、雑音信号の分散値行列Ｒ_δｐ２(ｎ)のｉ行ｊ列の要素Ｒ_δｐ２(ｎ)[ｉ，ｊ]、及びボーカル信号の分散値行列Ｒ_εｐ２(ｎ)の値を、上記のようにそれぞれ設定する。なお、ボーカル信号の分散値は、観測信号の分散値から雑音信号の分散値を差し引いたものである。以下、第１の実施の形態と同様に、反復の過程を実行し、反復の過程の手順４において計算される最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)の１行１列目または（Ｌ_ｐ２＋１）行１列目を、推定ボーカル信号ｄ^(ｎ)として得ることができる。すなわち、観測信号において雑音信号が抑圧された信号が得られる。

次に、図１４を参照して、第３の実施の形態に係るステレオ信号処理装置３１０の作用について説明する。なお、第１の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

ステップ１００で、Ａ／Ｄ変換部１２Ｌ，１２Ｒが、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々ディジタル信号に変換する。次に、ステップ３００で、自己相関処理部２６Ｌ，２６Ｒが、遅れ時間をτとして、（１４）式及び（１５）式により、Ｌチャネル及びＲチャネル各々の自己相関関数Ｒ_ｘＬ(ｌ，τ)，Ｒ_ｘＲ(ｌ，τ)（τ＝０，・・・，Ｌ−１）を計算する。

次に、ステップ３０２で、ピーク値検出部２８Ｌ，２８Ｒが、上記ステップ３００で計算された自己相関関数Ｒ_ｘＬ(ｌ，τ)，Ｒ_ｘＲ(ｌ，τ)各々のτ＝０以外におけるピーク値ｐ_Ｌ(ｌ)，ｐ_Ｒ(ｌ)を検出する。

次に、ステップ３０４で、雑音判定部３０Ｌが、ピーク値ｐ_Ｌ(ｌ)が閾値σ_１より大きいか否かを判定する。ｐ_Ｌ(ｌ)＞σ_１の場合には、ステップ３０６へ移行し、フレームｌをボーカル信号と判定し、１フレーム前の推定雑音信号をコピーして、フレームｌの推定雑音信号ｉ^_Ｌ(ｌ，ｉ)とする。一方、ｐ_Ｌ(ｌ)≦σ_１の場合には、ステップ３０８へ移行し、フレームｌを雑音信号と判定し、そのまま推定雑音信号ｉ^_Ｌ(ｌ，ｉ)とする。

Ｒチャネルについても同様に、雑音判定部３０Ｒが、ステップ３０４〜３０８を実行して、フレームｌの推定雑音信号ｉ^_Ｒ(ｌ，ｉ)を判定する。

次に、ステップ３１０で、雑音抑圧部３２２が、推定雑音信号ｉ^_Ｌ(ｌ，ｉ)，ｉ^_Ｒ(ｌ，ｉ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、雑音抑圧処理を実行することにより、雑音信号を抑圧する。

雑音抑圧処理は、第１の実施の形態と同様に、図８に示す有色駆動原付カルマンアルゴリズムに相当する。ここでは、第１の実施の形態の楽曲信号推定処理として実行される有色駆動原付カルマンアルゴリズムのフローと異なる処理について説明する。

雑音抑圧処理として実行される有色駆動原付カルマンアルゴリズムでは、ステップ１１４０で、最適推定値ベクトルの初期値ｘ^_ｐ２(０｜０)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Ｐ_ｐ２(０｜０)、雑音信号の分散値行列Ｒ_δｐ２(ｎ)のｉ行ｊ列の要素Ｒ_δｐ２(ｎ)[ｉ，ｊ]、及びボーカル信号の分散値行列Ｒ_εｐ２(ｎ)の値を、上記のようにそれぞれ設定する。

また、ステップ１１５４では、上記ステップ１１４６で計算された最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１) の１行１列目または（Ｌ_ｐ２＋１）行１列目を推定ボーカル信号ｄ^(ｎ)、すなわち、観測信号において雑音信号が抑圧された推定音声信号として出力し、図１４の処理へリターンする。

以上説明したように、第３の実施の形態のステレオ信号処理装置によれば、第１の実施の形態の効果に加え、自己相関を用いて推定された推定雑音信号を用いて有色駆動源型のカルマンフィルタを適用することにより、白色性の雑音に対して抑圧効果を高めることができる。また、時間領域の信号処理のみであるため、演算量を削減できる。
＜第４の実施の形態＞
第４の実施の形態では、本発明の第１信号の一例を、例えばＬチャネルマイクとＲチャネルマイクとの中央付近を音源位置とするボーカル信号（音声信号）とし、本発明の第２信号の一例を、例えば雑音信号とする場合について説明する。

第４の実施の形態について説明する。第４の実施の形態では、図２に示すような状況において観測された観測信号から、雑音信号を抑圧する場合について説明する。なお、第４の実施の形態のステレオ信号処理装置について、第１の実施の形態のステレオ信号処理装置１０及び第３の実施の形態のステレオ信号処理装置３１０と同一の部分については、同一符号を付して詳細な説明を省略する。

図１５に示すように、第４の実施の形態に係るステレオ信号処理装置４１０は、Ａ／Ｄ変換部１２Ｌ，１２Ｒと、周波数領域変換部１４Ｌ，１４Ｒと、スペクトル密度演算部３２Ｌ，３２Ｒと、スペクトルエントロピー演算部３４Ｌ，３４Ｒと、雑音判定部４３０Ｌ，４３０Ｒと、時間領域変換部２０Ｌ，２０Ｒと、雑音抑圧部３２２と、Ｄ／Ａ変換部２４Ｌ，２４Ｒとを含んで構成されている。

スペクトル密度演算部３２Ｌ，３２Ｒは、周波数領域変換部１４Ｌ，１４Ｒから入力された観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜，｜Ｘ_Ｒ(ｌ，ｋ)｜に基づいて、下記（２０）式及び（２１）式により、Ｌチャネル及びＲチャネル観測信号各々のパワースペクトル密度Ｐ_Ｌ(ｌ，ｋ)，Ｐ_Ｒ(ｌ，ｋ)を演算し、スペクトルエントロピー演算部３４Ｌ，３４Ｒへ入力する。ｌはフレーム番号、ｋは周波数ビン番号である。

ここで、ボーカル信号（音声信号）のスペクトルは、２５０〜４０００Ｈｚの周波数帯域内に存在することを考慮し、ｋ≦２５０Ｈｚまたはｋ≧４０００Ｈｚの場合には、｜Ｘ_Ｌ(ｌ，ｋ)｜＝｜Ｘ_Ｒ(ｌ，ｋ)｜＝０とする。

スペクトルエントロピー演算部３４Ｌ，３４Ｒは、スペクトル密度演算部３２Ｌ，３２Ｒから入力されたスペクトル密度Ｐ_Ｌ(ｌ，ｋ)，Ｐ_Ｒ(ｌ，ｋ)に基づいて、下記（２２）式及び（２３）式により、Ｌチャネル及びＲチャネル観測信号各々のスペクトルエントロピーＨ_Ｌ(ｌ)，Ｈ_Ｒ(ｌ)を演算し、雑音判定部４３０Ｌ，４３０Ｒへ入力する。

雑音判定部４３０Ｌ，４３０Ｒは、スペクトルエントロピー演算部３４Ｌ，３４Ｒから入力されたスペクトルエントロピーＨ_Ｌ(ｌ)，Ｈ_Ｒ(ｌ)各々に基づいて、フレーム毎に推定雑音信号のスペクトル（以下、「推定雑音スペクトル」という）を各々判定して、時間領域変換部２０Ｌ，２０Ｒへ出力する。具体的には、下記（２４）式及び（２５）式に従って、スペクトルエントロピーＨ_Ｌ(ｌ)，Ｈ_Ｒ(ｌ)各々と閾値σ_２とを比較し、スペクトルエントロピーが閾値σ_２より小さい場合には、フレームｌをボーカル信号（音声信号）と判定し、１フレーム前の推定雑音スペクトルをコピーして、フレームｌの推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜，｜Ｉ^_Ｒ(ｌ，ｋ)｜とする。一方、スペクトルエントロピーが閾値σ_２より大きい場合には、フレームｌを雑音信号と判定し、そのまま推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜，｜Ｉ^_Ｒ(ｌ，ｋ)｜とする。

ここで、閾値σ_２は以下のようにして決定する。まずＮフレーム分のスペクトルエントロピーの平均値を用いて閾値σ’_２(ｌ)を下式のように導出する。

次に閾値σ’_２(ｌ)と現フレームのスペクトルエントロピーとを比較し、閾値σ’_２(ｌ)よりも現フレームのスペクトルエントロピーの方が小さい場合は閾値σ’_２(ｌ)をα倍する。

そして過去３フレームが連続して音声信号か否かを判定した後に最終的な閾値σ_２(ｌ)を得る。

もし音声信号が連続していない場合は、過去３フレーム雑音信号が連続したか否かを判定した後に最終的な閾値σ_２（ｌ）を得る。

時間領域変換部２０Ｌ，２０Ｒは、雑音判定部４３０Ｌ，４３０Ｒから入力された周波数領域の信号である推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜，｜Ｉ^_Ｒ(ｌ，ｋ)｜を逆フーリエ変換して、時間領域の信号である推定雑音信号ｉ^_Ｌ(ｌ，ｎ)，ｉ^_Ｒ(ｌ，ｎ)に変換する。次いで、オーバーラップアド法を用いて１フレーム前の後半Ｍサンプルを用いた時間領域推定楽曲信号ｉ^_Ｌ(ｌ−１，ｎ＋Ｍ)，ｉ^_Ｒ(ｌ−１，ｎ＋Ｍ)と現フレームの前半Ｍサンプルを用いた時間領域推定楽曲信号ｉ^_Ｌ(ｌ，ｎ)，ｉ^_Ｒ(ｌ，ｎ)とを足し合わせて、現フレームのＭサンプル時間領域推定楽曲信号ｉ^_Ｌ(ｎ)，ｉ^_Ｒ(ｎ)（１≦ｎ≦Ｍ）を得る。

次に、図１６を参照して、第４の実施の形態に係るステレオ信号処理装置４１０の作用について説明する。なお、第１の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

ステップ１００で、Ａ／Ｄ変換部１２Ｌ，１２Ｒが、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)を各々ディジタル信号に変換し、次に、ステップ１０２で、周波数領域変換部１４Ｌ，１４Ｒが、周波数領域の信号である観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜，｜Ｘ_Ｒ(ｌ，ｋ)｜に変換する。

次に、ステップ４００で、スペクトル密度演算部３２Ｌ，３２Ｒ、観測スペクトル｜Ｘ_Ｌ(ｌ，ｋ)｜，｜Ｘ_Ｒ(ｌ，ｋ)｜に基づいて、Ｌチャネル及びＲチャネル観測信号各々のパワースペクトル密度Ｐ_Ｌ(ｌ，ｋ)，Ｐ_Ｒ(ｌ，ｋ)を演算する。

次に、ステップ４０２で、スペクトルエントロピー演算部３４Ｌ，３４Ｒが、上記ステップ４００で演算されたパワースペクトル密度Ｐ_Ｌ(ｌ，ｋ)，Ｐ_Ｒ(ｌ，ｋ)に基づいて、Ｌチャネル及びＲチャネル観測信号各々のスペクトルエントロピーＨ_Ｌ(ｌ)，Ｈ_Ｒ(ｌ)を演算する。

次に、ステップ４０４で、雑音判定部４３０Ｌが、上述のように閾値σ_２を決定し、決定した閾値σ_２を用いて、スペクトルエントロピーＨ_Ｌ(ｌ)が閾値σ_２より小さいか否かを判定する。Ｈ_Ｌ(ｌ)＜σ_２の場合には、ステップ４０６へ移行し、フレームｌをボーカル信号と判定し、１フレーム前の推定雑音スペクトルをコピーして、フレームｌの推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜とする。一方、Ｈ_Ｌ(ｌ)≧σ_２の場合には、ステップ４０８へ移行し、フレームｌを雑音信号と判定し、そのまま推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜とする。

Ｒチャネルについても同様に、雑音判定部４３０Ｒが、ステップ４０４〜４０８を実行して、フレームｌの推定雑音スペクトル｜Ｉ^_Ｒ(ｌ，ｋ)｜を判定する。

次に、ステップ１１２で、時間領域変換部２０Ｌ，２０Ｒが、推定雑音スペクトル｜Ｉ^_Ｌ(ｌ，ｋ)｜，｜Ｉ^_Ｒ(ｌ，ｋ)｜を、フーリエ逆変換を用いて時間領域の信号である推定雑音信号ｉ^_Ｌ(ｌ，ｎ)，ｉ^_Ｒ(ｌ，ｎ)に変換する。次いで、オーバーラップアド法を用いて１フレーム前の後半Ｍサンプルを用いた時間領域推定楽曲信号ｉ^_Ｌ(ｌ−１，ｎ＋Ｍ)，ｉ^_Ｒ(ｌ−１，ｎ＋Ｍ)と現フレームの前半Ｍサンプルを用いた時間領域推定楽曲信号ｉ^_Ｌ(ｌ，ｎ)，ｉ^_Ｒ(ｌ，ｎ)とを足し合わせて、現フレームのＭサンプル時間領域推定楽曲信号ｉ^_Ｌ(ｎ)，ｉ^_Ｒ(ｎ)（１≦ｎ≦Ｍ）を得る。

次に、ステップ４１０で、雑音抑圧部３２２が、推定雑音信号ｉ^_Ｌ(ｎ)，ｉ^_Ｒ(ｎ)と、観測信号ｘ_Ｌ(ｎ)，ｘ_Ｒ(ｎ)とに基づいて、雑音抑圧処理を実行することにより、雑音信号を抑圧する。雑音抑圧処理は、第３の実施の形態と同様である。

以上説明したように、第４の実施の形態のステレオ信号処理装置によれば、第１の実施の形態の効果に加え、スペクトルエントロピーを用いて推定された推定雑音信号を用いて有色駆動源型のカルマンフィルタを適用することにより、白色性及び有色性の様々な雑音に対して抑圧効果を高めることができる。

なお、上記第１〜第４の実施の形態で用いた有色駆動源付カルマンフィルタの演算量を軽減した演算量軽減型有色駆動源付カルマンフィルタを用いてもよい。演算量軽減型有色駆動源付カルマンフィルタでは、所望の信号の推定に必要な処理だけを取り出す。

詳細には、図１７に示すように、手順４の状態量の更新において、Ｌチャネル及びＲチャネルの推定楽曲信号を示す部分のみ取り出すと、手順２におけるカルマンゲイン行列の４つの要素が必要であることがわかる。そこで、図１８に示すように、この必要な４つの要素の部分のみを取り出すと、手順１における共分散行列の４つの要素が必要であることがわかる。そこで、図１９に示すように、この必要な４つの要素の部分のみを取り出すと、楽曲信号の分散値が必要であることがわかる。

以上をまとめると、演算量軽減型有色駆動源付カルマンアルゴリズムは、下記に示すとおりとなり、ステップが減ったことにより演算量が軽減できる。なお、ｐ３は演算量軽減型有色駆動原付カルマンフィルタが適用される状態方程式及び観測方程式の変数であることを表す添え字である。

ここで、第１の実施の形態における楽曲信号推定処理（図７のステップ１１４）に、上記の演算量軽減型有色駆動原付カルマンフィルタを適用した場合に実行される演算量軽減型有色駆動原付カルマンアルゴリズムのフローについて、図２０を参照して説明する。

ステップ２１４０で、（１０）式に示す状態方程式及び観測方程式により状態空間モデルを定義し、最適推定値ベクトルの初期値ｘ^_ｐ３(０｜０)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Ｐ_ｐ３(０｜０)、ボーカル信号の分散値Ｒ_εｐ３(ｎ) [ｉ，ｊ]、及び楽曲信号の分散値Ｒ_δｐ３(ｎ)[ｉ，ｊ]を、上述の初期設定の過程［Initialization］に示した初期状態に設定する。また、時刻を示す変数ｎを０に設定する。

次に、ステップ２１４２で、楽曲信号の分散値Ｒ_δｐ３(ｎ＋１)[ｉ，ｊ]の値を用いて、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ３(ｎ＋１｜ｎ)を計算する（上述の反復の過程［Iteration］の手順１）。

次に、ステップ２１４４で、上記ステップ２１４２で計算した共分散行列Ｐ_ｐ３(ｎ＋１｜ｎ)、及びボーカル信号の分散値Ｒ_εｐ３(ｎ) [ｉ，ｊ]を用いて、カルマンゲイン行列Ｋ_ｐ３(ｎ＋１)を計算する（同手順２）。

次に、ステップ２１４６で、上記ステップ２１４４で計算したカルマンゲイン行列Ｋ_ｐ３(ｎ＋１)、及び観測ベクトルｙ_ｐ３(ｎ＋１)を用いて、時刻ｎ＋１までの情報によるその時刻での最適推定値ベクトルｘ^_ｐ３(ｎ＋１｜ｎ＋１)を計算する（同手順３）。

次に、ステップ２１４８で、処理を終了するか否かを判定する。この判定は、時刻ｎが所定のサンプル数Ｎに達した場合を処理終了と判定してもよいし、サンプルがなくなった時点で処理終了と判定してもよい。処理を終了しない場合には、ステップ２１５２へ移行し、ｎを１インクリメントして、ステップ１１４２へ戻る。処理を終了する場合には、ステップ２１５４へ移行し、上記ステップ２１４６で計算された最適推定値ベクトルｘ^_ｐ３(ｎ＋１｜ｎ＋１) の１行１列目をＬチャネルの推定楽曲信号ｉ^_Ｌ(ｎ)として、（Ｌ_ｐ３＋１）行１列目をＲチャネルの推定楽曲信号ｉ^_Ｒ(ｎ)として出力し、図７の処理へリターンする。

また、第３及び第４の実施の形態では、雑音信号を抑圧する場合について説明したが、第２の実施の形態と同様に、有色駆動原付カルマンアルゴリズムにおいて、雑音信号の分散値とボーカル信号の分散値とを入れ替えることにより、ボーカル信号を抑圧した信号、すなわち推定雑音信号を抽出するようにしてもよい。具体的には、有色駆動原付カルマンアルゴリズムの反復の過程［Iteration］の手順１において、雑音信号の分散値Ｒ_δｐ２(ｎ＋１) [ｉ，ｊ]を、ボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]とを入れ替えて、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ２(ｎ＋１｜ｎ)を計算する。また、同手順２において、ボーカル信号の分散値Ｒ_εｐ２(ｎ) [ｉ，ｊ]を、雑音信号の分散値Ｒ_δｐ２(ｎ＋１) [ｉ，ｊ]に入れ替えて、カルマンゲイン行列Ｋ_ｐ２(ｎ＋１)を計算する。そして、同手順４において計算される最適推定値ベクトルｘ^_ｐ２(ｎ＋１｜ｎ＋１)の１行１列目及び（Ｌ_ｐ２＋１）行１列目を、推定雑音信号ｉ'^_Ｌ(ｌ，ｉ)，ｉ'^_Ｒ(ｌ，ｉ)として得ることができる。

また、上記の演算量軽減型カルマンアルゴリズムを第１の実施の形態に適用した場合（または第３及び第４の実施の形態に適用した場合）においても、第２の実施の形態と同様に、楽曲信号（または雑音信号）の分散値とボーカル信号の分散値とを入れ替えることにより、ボーカル信号を抑圧した信号、すなわち推定楽曲信号（または推定雑音信号）を抽出することができる。具体的には、演算量軽減型有色駆動原付カルマンアルゴリズムの反復の過程［Iteration］の手順１において、楽曲信号（または雑音信号）の分散値Ｒ_δｐ３(ｎ＋１) [ｉ，ｊ]を、ボーカル信号の分散値Ｒ_εｐ３(ｎ) [ｉ，ｊ]と入れ替えて、時刻ｎまでの情報により時刻ｎ＋１の状態ベクトルを推定した場合の誤差である共分散行列Ｐ_ｐ３(ｎ＋１｜ｎ)を計算する。また、同手順２において、ボーカル信号の分散値Ｒ_εｐ３(ｎ) [ｉ，ｊ]を、楽曲信号（または雑音信号）の分散値Ｒ_δｐ３(ｎ＋１) [ｉ，ｊ]に入れ替えて、カルマンゲイン行列Ｋ_ｐ３(ｎ＋１)を計算する。そして、同手順３において計算される最適推定値ベクトルｘ^_ｐ３(ｎ＋１｜ｎ＋１)の１行１列目及び（Ｌ_ｐ３＋１）行１列目を、推定雑音信号ｉ'^_Ｌ(ｌ，ｉ)，ｉ'^_Ｒ(ｌ，ｉ)として得ることができる。

また、上記各実施の形態は、適宜組み合わせて適用可能である。例えば、第１または第２の実施の形態により所望の信号を抽出した上で、第３または第４の実施の形態により雑音を抑圧するようにすることができる。

また、第１及び第２の実施の形態では、第１信号をボーカル信号、第２信号を楽曲信号とする場合について、第３及び第４の実施の形態では、第１信号をボーカル信号（音声信号）、第２信号を雑音信号とする場合について説明したが、これに限定されない。複数チャネルの入力信号において、第１信号各はチャネル間で共通に含まれる信号であり、第２信号はチャネル毎に異なる信号であればよい。

また、上記実施の形態では、各部をハードウエアにより構成する場合について説明したが、コンピュータに各部の処理を実行させるためのプログラムとすることもできる。プログラムは、予め装置にインストールされていてもよいし、コンピュータ読み取り可能な記録媒体に格納して提供してもよいし、ネットワークを介して提供してもよい。

１０、２１０、３１０、４１０ステレオ信号処理装置
１２Ｌ，１２ＲＡ／Ｄ変換部
１４Ｌ，１４Ｒ周波数領域変換部
１６スペクトル比演算部
１８ボーカル信号抽出部
２０、２０Ｌ，２０Ｒ時間領域変換部
２２楽曲信号推定部
２４Ｌ，２４ＲＤ／Ａ変換部
２６Ｌ，２６Ｒ自己相関処理部
２８Ｌ，２８Ｒピーク値検出部
３０Ｌ，３０Ｒ、４３０Ｌ，４３０Ｒ雑音判定部
３２Ｌ，３２Ｒスペクトル密度演算部
３４Ｌ，３４Ｒスペクトルエントロピー演算部
２２２特定信号推定部
３２２雑音抑圧部

Claims

各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第１信号のスペクトル信号と推定される推定第１スペクトル信号を抽出し、周波数領域の信号である前記推定第１スペクトル信号を時間領域の信号に変換して前記第１信号と推定される時間領域の推定第１信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第１信号の分散値、前記観測信号の分散値から前記推定第１信号の分散値を差し引いて得られる前記第２信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、
を含む多チャネル信号処理装置。
前記推定手段により推定された前記第１信号または前記第２信号を含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出する後段抽出手段と、
前記後段抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する後段推定手段と、
を含む請求項１記載の多チャネル信号処理装置。
前記推定手段により推定された前記第１信号または前記第２信号を含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、スペクトル信号から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出する後段抽出手段と、
前記後段抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する後段推定手段と、
を含む請求項１記載多チャネル信号処理装置。
各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、
を含む多チャネル信号処理装置。
各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する推定手段と、
を含む多チャネル信号処理装置。
前記抽出手段は、前記観測信号を所定フレーム長のフレーム毎に前記周波数領域のスペクトル信号に変換し、フレーム毎に前記スペクトルエントロピーを求め、第１所定フレーム数分のスペクトルエントロピーの平均σ’が、現フレームのスペクトルエントロピーより小さい場合にはσ’、大きい場合にはσ’に所定の係数αを乗算したασ’となる値σ”を得、前記第１信号が過去第２所定フレーム数連続している場合はσ”、前記第１信号が過去第２所定フレーム数連続しておらず、かつ前記第２信号が過去第２所定フレーム数連続している場合はσ’、前記第１信号が過去第２所定フレーム数連続しておらず、かつ前記第２信号が過去第２所定フレーム数連続していない場合はσ”を閾値σとし、原フレームのスペクトルエントロピーが閾値σより小さい場合には、現フレームを第１信号と判定し、原フレームのスペクトルエントロピーが閾値σ以上の場合には、現フレームを第２信号と判定する請求項５記載の多チャネル信号処理装置。
前記有色駆動原付カルマンフィルタを、前記第１信号または前記第２信号の推定に必要な処理のみを取り出した演算量軽減型有色駆動原付カルマンフィルタとした請求項１〜請求項６のいずれか１項記載の多チャネル信号処理装置。
各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第１信号のスペクトル信号と推定される推定第１スペクトル信号を抽出し、周波数領域の信号である前記推定第１スペクトル信号を時間領域の信号に変換して前記第１信号と推定される時間領域の推定第１信号を抽出し、
抽出された前記時間領域の推定第１信号の分散値、前記観測信号の分散値から前記推定第１信号の分散値を差し引いて得られる前記第２信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する
多チャネル信号処理方法。
各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第２信号と推定される時間領域の推定第２信号を抽出し、
抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する
を含む多チャネル信号処理方法。
各チャネル間で共通に含まれる第１信号と、チャネル毎に異なる第２信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第２信号のスペクトル信号と推定される推定第２スペクトル信号を抽出し、周波数領域の信号である前記推定第２スペクトル信号を時間領域の信号に変換して前記第２信号と推定される時間領域の推定第２信号を抽出し、
抽出された前記時間領域の推定第２信号の分散値、前記観測信号の分散値から前記推定第２信号の分散値を差し引いて得られる前記第１信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第１信号または前記第２信号を推定する
多チャネル信号処理方法。
コンピュータを、請求項１〜請求項７のいずれか１項記載のステレオ信号処理装置を構成する各手段として機能させるための多チャネル信号処理プログラム。