JP4274418B2

JP4274418B2 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Info

Publication number: JP4274418B2
Application number: JP2003410957A
Authority: JP
Inventors: 真孝後藤; 安優中田; 智之岡村; 裕信高橋
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2003-12-09
Filing date: 2003-12-09
Publication date: 2009-06-10
Anticipated expiration: 2023-12-09
Also published as: WO2005057552A1; JP2005173054A

Description

本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、コンテンツ中に混合されたＢＧＭや音声等の音響を除去する音響信号除去装置、音響信号除去方法及び音響信号除去プログラムに関する。

近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が混合している映像素材から、使用されている音楽だけを消去することで、新たな素材として活用することがある。このように、既存の混合音響から特定の音声を減算する技術としては、例えば特許文献１に開示された技術がある。
特開２０００−３１２３９５号公報

しかしながら、放送番組の音声作成時には、製作意図にあわせて周波数特性や音量を調整する場合が多い。このため、音の位相が予測不能な変化をしているために、単に電子的な減算処理を行ったのみでは、適切に消去することはできない。

詳述すると、除去しようとする音響が、例えば番組のＢＧＭのような既知の音楽であっても、番組作成時に、番組効果のためにBGMの低音や高音の強調や減衰を行ったり、録音・再生を繰り返したりする過程で、BGMの周波数特性が変化している場合もあり、単純に減算処理をすることはできない。

また、既知の音源と、混合音内におけるＢＧＭの時間的な位置ずれがあり、混合音とBGMの時刻を正確にあわせることが困難である。さらには、混合音、BGMのそれぞれの音量が不明であるとともに、サウンドエンジニアがフェーダー等を操作して音量を変化させて効果を加えているために、各々の音量が時間経過によって変化している場合も多い。

また、音声ファイルの一部のみを消去した場合には、消去した部分とそれ以外の部分との間で音量の変化が生じるという問題がある。

さらには、音声と既知音響を加えた混合音の振幅は正確には、その合計にはならないため、誤処理を生じるという問題がある。すなわち、同じ周波数の振幅を加えた場合には、同じ位相であればその2倍の振幅になるが、180度反転した位相であれば振幅はゼロになる。位相差が何度あるかで、混合音の振幅は異なったものとなる。

例えば、音声と既知音響が１の振幅であった場合には、混合音の振幅は約１．２７となるが、実際は、１．０とならなければならないところ、従来の通常の解析的な計算方法によると、混合音の振幅が１．２７で、既知音響が１の場合は引き算をして、音声の振幅を０．２７と計算してしまう。この問題のために、混合音に対して既知音響が大きな場合は過剰に引きすぎてしまい、「痩せた」音やエコーがひどくかかった音になってしまうという問題がある。

本発明は、上記問題を解決すべくなされたものであり、混合音響中から既知の音響を消去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しようとする音響の変化を自動的かつ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プログラムを提供することを目的とする。

上記課題を解決するために、本発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、混合音響信号と既知音響信号との位相のずれが、０〜３６０度の範囲で一様な確率で分布しているとして、既知信号の除去強度を設定し、この設定に基づいて、既知音響振幅スペクトルを変換し、混合音響振幅スペクトルから既知音響振幅スペクトルを除去する。

上記発明では、他の音響信号の振幅を所定値とし、これに対する既知音響信号の振幅の位相差を０〜３６０度の範囲で変化させて合成して得られた混合音響信号の振幅の平均値を算出し、この平均値に対する既知音響信号の振幅の割合から、平均値に対する他の音響信号の振幅の割合の近似値を算出し、この近似値に平均値を積算することによって得られた他の音響信号の振幅に基づいて、既知信号の除去強度を設定することが好ましい。

具体的には、位相差非依存減算関数を用いて、既知信号の除去強度を設定する。以下に、位相差非依存減算関数の導出について説明する。

先ず、本発明では、周波数チャンネル毎に演算を行い、その周波数をｆ（Hz）とすると、混合音響、既知音響、消去後の音声出力（他の音響）の信号の関係は、
「混合音響」＝「消去後の音声出力」+「既知音響」
と表される。そして、上記の各音響は、それぞれ

と表される。ここで、混合音響と、既知音響及び消去後の音声出力の関係から、

となる。如何なる時刻ｔにおいても、上式（数２）は成立するため、Sin(ωt)とcos(ωt)の係数はそれぞれ等しくなる。したがって、

が成立する。この関係から、以下のように、Ｍは、ＡとＢと、既知音響と音声出力の位相差（θａ・θｂ）で表すことができる。

ここで、既知音響と音声出力の位相差（θａ・θｂ）を、位相差θδで置き換えると、

となる。

本発明では、この位相差θδが一様な確率で発生すると考え、実際に測定されるＭの値の平均値を、次式のように、θδを０ラジアンから２πラジアンまで積分して算出する。

例えば、Ａ＝１．０として、ｂが様々な値を取った場合をシミュレーションすることにより、以下のような表を得る。

ここで、

を正規化し、

とする。上記数６からも明らかなように、Ａ及びＢに定数をかけると、Ｎも定数倍になるため、表１の値を全て

で割っても（

の逆数倍しても）、下表のように、上記関係は維持される。

本発明の除去処理では、混合音響の振幅（Ｍ）と既知音響の振幅（Ｂ）が取得されるため、ＢをＭで除した値であるＲｂを求めることができる。そこで、上記表２に相当するテーブルデータ、若しくはその近似式によって、Ｒａを求めることができる。

次に、

により、他の音響の振幅Ａを求めることができる。

なお、実際の適用としては、上記Ｂを０から１００まで０．０１刻みで変化させ、表の値に対して以下のような近似式を生成し、Ｍの平均値

からＡを算出する。

なお、理論上は、混合音の振幅を既知音響の振幅を上回ることはないが、実際には、推定ミスや消去強度を１より大きくする等により発生するため、このような場合（Ｒｂが１より大きい場合）には、Ｒａを０とする。

このような本発明によれば、音響信号において振幅スペクトルは、位相に依存しないため、位相が変化してもその影響を受けることなく、混合音響信号中の既知音響信号の周波数特性や音量変化を、適切に推定することができる。この結果、本発明によれば、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを的確に消去することができる。なお、本発明は、音楽に限らず、番組作成時に混入した背景雑音等も、雑音のみが同時に録音された音のデータを使って消去することができる。

また、本発明では、混合音響と既知音の位相差について、0度から360度まで位相が一様に確率分布しているとして、シミュレーションを行い、このシミュレーション結果に一致させる関数である上記「位相非依存減算関数」を用いることにより、位相差分布の偏りによる誤処理を回避し、既知音を過剰に引きすぎたり、エコーがかかった音になってしまうのを防止することができる。

［既知音響除去システムの構成］
本発明の実施形態について図面を参照しながら説明する。図１は、本実施形態に係る既知音響除去システムの全体構成を示すブロック図である。

図１に示すように、本実施形態に係る既知音響除去システムは、混合音響や既知音響を入力する入力I/F１及びＤＶキャプチャー２を備えている。これら入力I/F１及びＤＶキャプチャー２から入力されたファイル（例えば、ＡＶＩファイルやＷＡＶファイル）は、記憶装置５に蓄積される。入力I/F１は、ＣＤプレーヤーやＭＤプレーヤー等の再生装置から音響信号を取り込むインターフェースである。また、ＤＶキャプチャー２は、映像や音声が混合した混合音響信号である消去対象用のＭＩＸ音声を取り出すインターフェースである。

また、既知音響除去システムは、記憶装置５に蓄積された各種データに対して音声データ抽出処理や音声変換処理を行う音声変換部（PreWav/PostWav）３及び音声データ抽出部（DVReMix）４とを備えている。これら音声変換部（PreWav/PostWav）３及び音声データ抽出部（DVReMix）４は、指定されたファイル（ＡＶＩファイルやＷＡＶファイル）を記憶装置５から読み出し、所定の処理を施した後、処理後のファイル（ＷＡＶファイル）を記憶装置５に蓄積する。

音声変換部（PreWav）３は、周波数変換、及びステレオからモノラルの分離を行う。すなわち、音響除去エンジンプログラム１００のフォーマットに合うように、ＷＡＶファイルを左右２チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、２つのＷＡＶファイル（出力ファイル名：左チャンネルがＭＩＸ-L.ＷＡＶ、右チャンネルがＭＩＸ-R.ＷＡＶ）として生成し、記憶装置５に蓄積する。

音声データ抽出部（DVReMix）３は、映像データ及び音声データから構成されるコンテンツから音声データのみを抽出するモジュールであり、本実施形態では、ＡＶＩファイルから音声データをＷＡＶ形式で抽出する。ここでのＷＡＶファイルは、ステレオ形式であり、そのサンプリングレートはＤＶの音声と同じ32kHz又は48kHzである。この抽出されたＷＡＶファイルは、記憶装置５に蓄積される。

そして、既知音響除去システムは、混合音響信号から既知音響信号を除去する音響除去エンジンプログラム１００を備えている。この音響除去エンジンプログラム１００は、記憶装置５に蓄積された各音声ファイル（ＷＡＶファイル）を読み出し、除去したデータや除去処理に係る各種データを、一時メモリ７を介して、記憶装置５に蓄積したり、出力I/F８を通じて、モニタ１０やスピーカー１１から出力する。モニタ１０は、ユーザーインターフェース６による操作や処理結果を表示するＧＵＩであるエディタ４００を表示し、スピーカー１１は、ユーザーインターフェース６によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する。

また、音響除去エンジンプログラム１００は、キーボード６ａやマウス６ｂ等の入力デバイスによるユーザー操作に基づく操作信号を、ユーザーインターフェース６を通じて取得し、この操作信号に基づいて、各種処理を行う。この音響除去エンジンプログラム１００による既知音響除去処理については、後述する。

また、既知音響除去システムは、同期制御部９を備えており、これにより記憶装置５からのデータの読み出し、音響除去エンジンプログラム１００による除去処理、メモリ７や出力I/F８によるデータの入出力を同期させる。これにより、エディタ４００に表示される映像と、スピーカー１１から出力される音声を、音響除去エンジンプログラム１００による処理やユーザーインターフェース６におけるユーザー操作に同期させることができる。

さらに、音響除去エンジンプログラム１００は、パラメータの設定に際し、そのデフォルト値をシミュレーションにより設定し、ユーザーの作業を支援するシミュレーション部１４を備えている。このシミュレーション部１４は、上述した「位相非依存減算関数」により、混合音響と既知音響の位相差が、0度から360度まで一様に確率分布しているとして、シミュレーションを行う。また、シミュレーション部１４は、一定振幅の単音（480Hz）を合成して混合音として入力し、既知音響の引く量をゼロとして除去処理を行い、出力される音量の違いを計測し、その値が一致するようにユーザーインターフェース６におけるデフォルト値を設定する。

［既知音響除去システムの動作］
以上説明した構成を有する既知音響除去システムは、以下のように動作する。図２は、既知音響除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声がステレオで記録された映像ファイル（ＤＶ）を混合音響（ＭＩＸ音声）とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中にＢＧＭとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、（１）前処理、（２）音楽消去処理、（３）後処理に大別される。以下、各処理について詳述する。

（１）前処理
前処理では、ＤＶから消去対象用のＭＩＸ音声を取り出すとともに、ＢＧＭ用音声（オリジナル曲）を用意する。具体的には、ＤＶキャプチャー２からＤＶ用のビデオ編集ソフトを使用して動画をキャプチャーし（Ｓ１０１）、このキャプチャーしたファイルを、タイプ１のＡＶＩファイル（出力ファイル名：ＭＩＸ.ＡＶＩ）として、記憶装置５に蓄積する。

次いで、音声データ抽出部（DVReMix）３により、ＡＶＩファイルから音声データをＷＡＶ形式（出力ファイル名：ＭＩＸ.ＷＡＶ）で抽出する（Ｓ１０２）。ここでのＷＡＶファイルは、ステレオ形式であり、そのサンプリングレートはＤＶの音声と同じ32kHz又は48kHzである。この抽出されたＷＡＶファイルは、記憶装置５に蓄積される。

その後、音声変換部（PreWav）４により、周波数変換及び、ステレオからモノラルの分離を行う（Ｓ１０３）。すなわち、音響除去エンジンプログラム１００のフォーマットに合うように、ＷＡＶファイルを左右２チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、２つのＷＡＶファイル（出力ファイル名：左チャンネルがＭＩＸ-L.ＷＡＶ、右チャンネルがＭＩＸ-R.ＷＡＶ）として生成し、記憶装置５に蓄積する。また、このステップＳ１０３では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル（ファイル名：ＭＩＸ.time）に出力し、記憶装置５に蓄積する。

これらステップＳ１０１〜Ｓ１０３と並行して、オリジナル曲の取り込みを行う（Ｓ１０４）。具体的には、オリジナル曲（ＢＧＭ曲）をＣＤなどから取り込み、44.1kHzステレオのＷＡＶファイル（出力ファイル名：ＢＧＭ.ＷＡＶ）として、記憶装置５に蓄積する。次いで、音声変換部（PreWav）３により、周波数変換、ステレオからモノラルの分離を行う（Ｓ１０５）。すなわち、音響除去エンジンプログラム１００のフォーマットに合うように、ステップＳ１０４で取り込んだＷＡＶファイルを、左右２チャンネルに分離し、サンプリングレートを48kHzに変換し２つのＷＡＶファイル（出力ファイル名：左チャンネルがＢＧＭ-L.ＷＡＶ、右チャンネルがＢＧＭ-R.ＷＡＶ）として、記憶装置５に蓄積する。

（２）音楽消去処理
音楽消去処理では、除去エンジンプログラム（GEQ）１００により、ＭＩＸ音声からＢＧＭ音声を消去する（Ｓ１０６）。この消去後出力される音声ファイルは、左右チャンネルともにモノラル48kHzのＷＡＶファイル（出力ファイル名：左チャンネルがERASE-L.ＷＡＶ、右チャンネルがERASE-R.ＷＡＶ）として、メモリ７又は記憶装置５に蓄積される。

（３）後処理
後処理では、除去エンジンプログラムで消去した音声を、ＤＶ用の音声に変換し、ＤＶ（ＡＶＩファイル）に復元する。先ず、音声変換部（PostWav）３により、周波数変換、及びモノラルからステレオへの変換を行う（Ｓ１０７)。すなわち、音響除去エンジンプログラム１００から出力された左右２チャンネルのＷＡＶファイルをステレオに合成し、必要ならば元のＤＶの音声と同じサンプリングレートに変換し、ＷＡＶファイル（ファイル名：ERASE.ＷＡＶ）として、記憶装置５に蓄積する。次いで、音声データ抽出部（DVReMix）４において、キャプチャーしたＡＶＩファイル（ＢＧＭ.ＡＶＩ）の音声を、消去後の音声(ERASE.ＷＡＶ)と入れ替え、除去後音響ファイル（ファイル名：ERASE.ＡＶＩ）として、記憶装置５に蓄積する。

なお、例えば、１回目の作業で、ステレオ放送の左音声（Ｌ）について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース６におけるデフォルト値として設定する。

［音響除去処理の理論］
次いで、上述した音響除去エンジンプログラム１００について詳述する。先ず、この音響除去エンジンプログラム１００による音響除去処理の理論について説明する。

（基本概念）
所望の音声や物音等の音響信号ｓ（ｔ）(ｔは時間軸)に、ＢＧＭ等の非定常音響信号ｂ（ｔ）が混合された、混合音響信号ｍ（ｔ）が観測されるものとする。

ここでは、ｂ（ｔ）の元となる音源の音響信号ｂ’（ｔ）が既知という条件下で、ｍ（ｔ）が与えられたときに、未知のｓ（ｔ）を求める。例えば、人間の声や物音と共にＢＧＭが鳴っているテレビ番組等の音響信号ｍ（ｔ）を入力とし、そのＢＧＭの楽曲が既知でその音響信号ｂ’（ｔ）が別途用意できるときに、そのＢＧＭの音楽音響信号を用いて番組中のＢＧＭを除去し、人間の声や物音だけの音響信号ｓ（ｔ）を得る処理を実現する。

ここで、ｂ（ｔ）とｂ’（ｔ）は完全には一致しないため、

の減算に相当する処理では、ｂ’（ｔ）からｂ（ｔ）に相当する成分を推定して、ｓ（ｔ）を求める必要がある。具体的には、既知の音響信号ｂ’（ｔ）は、混合音ｍ（ｔ）中では、以下のような変形に対する補正を行うことでｂ（ｔ）に相当する成分を推定する。

・時間的な位置のずれ
混合音ｍ（ｔ）中で既知の音響信号ｂ’（ｔ）が鳴っている位置は先頭からとは限らない。そこで、既知の音響信号ｂ’（ｔ）を時間軸方向にずらし、両者の相対位置を合わせて、混合音から既知音響信号を減算する。

・周波数特性の時間変化
混合音ｍ（ｔ）中で既知の音響信号ｂ’（ｔ）が鳴る際には、グラフィックイコライザ等の影響で周波数特性が変化することが多い。例えば、低域や高域が強調・減衰されることがある。そこで、ｂ’（ｔ）の周波数特性を同様に変化させて補正し、混合音から既知音響信号を減算する。

・音量の時間変化
混合音ｍ（ｔ）中で既知の音響信号ｂ’（ｔ）が鳴る際には、混合音作成時におけるミキサーのフェーダー等の操作で混合比率が変更され、音量が時間変化することが多い。そこで、ｂ’（ｔ）の音量を同様に時間変化させて補正し、混合音から既知音響信号を減算する。

本プログラムの処理の流れを図３に示す。本プログラムでは、時間領域での波形を減算処理をせずに、時間周波数領域での振幅スペクトル上で減算処理を行う。音響信号ｍ（ｔ），ｂ’（ｔ）に対する窓関数ｈ（ｔ）を用いた時刻ｔにおける短時間フーリエ変換（ＳＴＦＴ）Ｘ_ｍ(ω，ｔ)、Ｘ_ｂ(ω，ｔ)が、

で定義されるとき、それらの振幅スペクトルＭ(ω，ｔ)，Ｂ’(ω，ｔ)は、

で求まる。

本実施形態では、音響信号を標本化周波数48kHz、量子化ビット数16bitでA/D変換し、窓関数ｈ（ｔ）として窓幅8192点のハニング窓を用いたＳＴＦＴを、高速フーリエ変換(FFT)によって計算する。その際、FFTのフレームを480点ずつシフトするため、フレームシフト時間(1フレームシフト)は10msとなる。このフレームシフトを、処理の時間単位とする。なお、本プログラムは、他の標本化周波数(16kHz、44kHz等)や窓幅、フレームシフトにも容易に対応できるようになっている。

既知音響信号除去後の所望の音響信号ｓ（ｔ）の振幅スペクトルＳ(ω，ｔ)は、振幅スペクトルＭ(ω，ｔ)，Ｂ’(ω，ｔ)から以下のように求める。

上記の式における各種パラメータ関数ａ(ｔ)，ｇ(ω，ｔ)，ｒ(ｔ) ，ｃ(ω，ｔ)を順に説明する。

・ａ(ｔ)は混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための任意の形状の関数であり、通常、ａ(ｔ)≧1とする。これが大きいほど、減算量が大きくなる。

・ｇ(ω，ｔ)は、周波数特性の時間変化と音量の時間変化を補正するための関数であり、

により求める。ここで、ｇω(ω，ｔ)は、周波数特性の時間変化を表し、周波数特性の変化がないときはｇω(ω，ｔ)＝１となる。一方、Ｍ(ω，ｔ)，Ｂ’(ω，ｔ)は、音量の時間変化を表し、音量の変化がないときは定数となる。Ｍ(ω，ｔ)とＢ’(ω，ｔ)との音量差は、基本的にｇｔ(ｔ)で補正される。ｇｒ(ｔ)は、主にｇ(ω，ｔ)の値を全体的に持ち上げるための関数で、補正時の微調整に使用される。使用しない場合には、ｇｒ(ｔ)＝０とする。

・ｒ(ｔ)は、時間的な位置のずれを補正するための関数であり、通常は定数を設定することで、一定のずれ幅を補正する(本プログラムでは、定数にのみ対応している)。

・ｃ(ω，ｔ)は、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数である。ω方向の形状により、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整することができる。また、ｔ方向の形状により、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。使用しない場合には、ｃ(ω，ｔ)＝１とする。なお、本プログラムでは、ｃ(ω，ｔ)＝１にのみ対応しているが、ｃ(ω，ｔ)の処理を追加してもよい。

こうして求めた振幅スペクトルＳ(ω，ｔ)と、混合音ｍ(ｔ)の位相θｍ(ω，ｔ) を用いてＸｓ(ω，ｔ)を求め、それを逆フーリエ変換(IFFT)することで、単位波形を得る。

この単位波形を、Overlap Add法によって配置することにより、既知音響信号除去後の所望の音響信号ｓ（ｔ）を合成する。

（各種パラメータ関数の設定）
上記の処理を実行する際に、上記数５及び数６の各種パラメータ関数ａ(ｔ)，ｇ(ω，ｔ)（ｇω(ω，ｔ)，ｇｔ(ｔ)，ｇｒ(ｔ)），ｒ(ｔ) ，ｃ(ω，ｔ)の形状は、ユーザーが手作業で設定してもよいし、可能なものは自動推定してもよい。あるいは、自動推定後にユーザーが修正してもよい。本プログラムでは式(11)、式(12)、式(13)の各種パラメータ関数ｇ(ω，ｔ)（ｇω(ω，ｔ)，ｇｔ(ｔ)），ｒ(ｔ)の一部の形状の自動推定にのみ対応しているため、実装されている具体的な自動推定方法を以下に述べる。

・ｇ(ω，ｔ)の推定では、先ず、周波数特性の時間変化ｇω(ω，ｔ)を推定し、次に、音量の時間変化ｇｔ(ｔ)を推定する。ただし、ｇ(ω，ｔ)の推定に先立ち、ｒ(ｔ)は決定されている必要がある。ここでは便宜上、Ｂ’(ω，ｔ＋ｒ(ｔ))をＢ’(ω，ｔ)と記述する。

周波数特性の時間変化ｇω(ω，ｔ)の推定では、原則として、人間の声や物音だけの音響信号ｓ(ｔ)がほとんど含まれていない区間(以下、ＢＧＭ区間と呼ぶ)を用いる。ＢＧＭ区間は、複数用いてもよい。ＢＧＭ区間では、混合音ｍ(ｔ)の振幅スペクトルＭ(ω，ｔ)は、既知の音響信号ｂ’(ｔ)によるＢＧＭに相当する振幅スペクトルＢ’(ω，ｔ)に由来の成分がほとんどとなる。そこで、周波数特性が時間変化せずに定常、すなわち、ｇω(ω，ｔ)＝ｇ’ω(ω)と仮定できるときには、ｇ’ω(ω)を

により推定する。ただし、ψは一つのＢＧＭ区間(時問軸上の領域)を表し、Ψは、ψの集合とする。一方、周波数特性が時間変化していくときには、ｇω(ω，ｔ)の時刻ｔに近いＢＧＭ区間ψから

を求め、補間(内挿あるいは外挿)することによりｇω(ω，ｔ)を推定する。最後に、ｇω(ω，ｔ)を周波数軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。

音量の時間変化ｇｔ(ｔ)の推定では、Ｍ(ω，ｔ)と、周波数特性補正後のｇω(ω，ｔ) Ｂ’(ω，ｔ)の各時刻における振幅を比較する。しかし、Ｍ(ω，ｔ)には、Ｂ’(ω，ｔ)に由来の成分以外に、ｓ（ｔ）に由来の成分も含まれる。そこで、周波数軸ωを複数の周波数帯域Φに分割し、各帯域φ(φ∈Φ)毎に

を求める(Φはφの集合を表す)。Φとして任意の分割が適用できるが、例えば、音楽で用いる平均律の１オクターブ毎に分割(対数周波数軸上で等間隔に分割)するとよい。そして、ｇｔ(ｔ)は、ｍｉｎ（ｇ’ｔ(φ，ｔ)）あるいは、数１１により推定する。

最後に、ｇｔ(ｔ)を時間軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。

・ｒ(ｔ)の推定では、原則として、ＢＧＭ区間ψの集合Ψを用いて、それらの区間におけるＭ(ω，ｔ)とＢ(ω，ｔ)との対応関係の時間軸を合わせるように、ｒ(ｔ)を求める。本プログラムでは、ｒ(ｔ)の推定のためのＢＧＭ区間の集合Ψの要素は一つに限定され、ｒ(ｔ)は定数のみに対応している。

上記のｇ(ω，ｔ)やｒ(ｔ)等の推定では、ＢＧＭ区間ψの集合Ψを用いていた。これは、ユーザーが手作業で指定してもよいし、以下のように自動推定してもよい。Ψの自動推定では、基本的に、どこか一箇所のＢＧＭ区間ψ1を手掛かりとして、残りのＢＧＭ区間の集合を求める。先ず、ψ1に基づいて、Ｂ(ω，ｔ)の各種パラメータ関数を推定して仮に決定し、そのときのψ1の区間内におけるＭ(ω，ｔ)とＢ(ω，ｔ)との振幅スペクトル間の距離を求め、その最大値(本プログラムでは最大値を用いたが平均値を用いる実装も可能である)の定数倍をＢＧＭ区間判定用閾値とする。そして、全区間に対して、Ｍ(ω，ｔ)とＢ(ω，ｔ)との振幅スペクトル間の距離を求め、ＢＧＭ区間判定用閾値以下の区間を検出し、新たにΨに加える。本プログラムではこの推定は繰り返さないが、この推定を繰り返してΨを求めてもよい。ここで、Ｍ(ω，ｔ)とＢ(ω，ｔ)との距離としては、例えば、二乗平均対数スペクトル距離

が有効である。なお、最初のψ₁は、ユーザーが手作業で指定する。

（既知音響の伸縮推定）
本実施形態では、上記数５及び６の枠組みを拡張することにより、以下の変形に対応することができる。

時間軸あるいは周波数軸方向の伸縮混合音ｍ(ｔ)中で既知の音響信号ｂ’(ｔ)が鳴る際には、レコード等の回転数の違いにより、時間軸あるいは周波数軸方向に伸縮されることがある。そこで、ｂ’(ｔ)を時間軸あるいは周波数軸方向に伸縮して補正し、混合音から既知音響信号を減算する必要がある。

これに対応するには、数５中の第２式を以下のように定義する。

上記の式におけるパラメータ関数ｐ（ω）、ｑ（ｔ) を説明する。

・ｐ（ω）は、周波数軸方向の伸縮を補正するための関数であり、振幅スペクトルＢ’(ω，ｔ)の周波数軸ωを変換することで、周波数軸方向の線形・非線型な伸縮を可能にする。なお、Ｂ’(ω，ｔ)は本来のωの定義域外では０をとり、離散化して実装する際には適宜補間することとする。

・ｑ（ｔ) は、時間軸方向の伸縮を補正するための関数であり、振幅スペクトルＢ’(ω，ｔ)の時間軸ｔを変換することで、時間軸方向の線形・非線型な伸縮を可能にする。なお、Ｂ’(ω，ｔ)は本来のｔの定義域外では０をとり、離散化して実装する際には適宜補間することとする。ｑ（ｔ)とｒ（ｔ)を統合した一つの関数で表現することも可能だが、ここでは、ｑ（ｔ)は連続的な伸縮を表す目的で設定し、ｒ（ｔ)は不連続な位置のずれを表す目的で設定することとする。

・上記の数１３で新たに導入されたパラメータ関数ｐ（ω）、ｑ（ｔ)の形状を自動推定する方法を以下に述べる。

・ｐ（ω）、ｑ（ｔ)の推定では、Ｍ(ω，ｔ)とＢ(ω，ｔ)との距離(例えば、対数スペクトル距離等)が最小となるように、ｐ（ω）とｑ（ｔ)を変更する。その際、Ｂ(ω，ｔ)＝ａ(ｔ)ｇ(ω，ｔ) Ｂ’（ｐ（ω），ｑ（ｔ)＋ｒ(ｔ)）の右辺のうち、ａ(ｔ)＝１とし、
１．(推定途中の) ｐ（ω）とｑ（ｔ)を仮に固定した上で、ｇ(ω，ｔ)とｒ(ｔ)を推定
２．(推定途中の) ｇ(ω，ｔ)とｒ(ｔ)を仮に固定した上で、ｐ（ω）とｑ（ｔ)を推定
の二つを反復的に繰り返して、適切なｐ（ω），ｑ（ｔ)を推定する。これは、音響信号の全区間に対して一度に実行せず、時間軸を分割して、区分的に行うとよい。初期値は前後の区間の連続性を考慮して定める。また、ＢＧＭ区間ψの集合Ψを用いて、それらの複数の区間におけるＭ(ω，ｔ)とＢ(ω，ｔ)との対応関係の時間軸を合わせるように、ｐ（ω），ｑ（ｔ)を推定するとよい。なお、既知の音響信号ｂ’ （ｔ)の一部区間が使われずに、飛び飛びで混ざっていたとき等には、その区間を飛ばすようにｒ(ｔ)が不連続関数となるようにする。

ここで、ＢＧＭ区間ψの集合Ψを自動推定する際に、本プログラムでは最初のψ₁は、ユーザーが手作業で指定する必要があるが、音響信号の時間軸を細かく分割して、それらの短い分割区間同士の対応関係を調査して求める方法もある。

（複数の既知音響信号への対応等）
本プログラムでは、混合音響信号ｍ（ｔ)の中に、既知音響信号ｂ’ （ｔ)が一種類含まれている場合に対応している。ｂ’_１（ｔ)，ｂ’_２（ｔ)…ｂ’_Ｎ（ｔ)のように複数含まれている場合には、それらの振幅スペクトルＢ’_１(ω，ｔ)，Ｂ’_２(ω，ｔ)…Ｂ’_Ｎ (ω，ｔ) から、上記数５第２式で求めたＢ_１(ω，ｔ)，Ｂ_２(ω，ｔ)…Ｂ_Ｎ (ω，ｔ)を用いて、

のようにＳ(ω，ｔ)を求める処理へ拡張できる。その際には、Ｂｎ (ω，ｔ)の各種パラメータ関数を順に設定するか、全体のバランスを取りながら、複数のＢｎ (ω，ｔ)の各種パラメータ関数を平行して設定する。

また、本プログラムはモノラル信号を対象にしているが、ステレオ信号は、左右を混合してモノラル信号に変換して適用してもよいし、ステレオ信号の左右の各信号に対して適用してもよい。また、ステレオ信号中の音源方向を利用して適用するように拡張してもよい。

（実験結果）
このような本実施形態に係る音響除去エンジンプログラムの実験結果を以下に示す。ここでは、音声や物音等の音響信号ｓ(ｔ)にＢＧＭ等の音響信号ｂ(ｔ)が加えられている混合において、音響信号ｍ(ｔ)が観測されたときに、ｂ(ｔ)の元となる音源の音響信号ｂ’(ｔ)が既知という条件下で、未知のｓ(ｔ)を求めた。ｍ(ｔ)とｂ’(ｔ)が収録されたオーディオファイルを与えると、ｓ(ｔ)のオーディオファイルを得ることができる。

人間の音声にバックグラウンドミュージック(ＢＧＭ)が加えられた混合音に対して実験した結果、そのＢＧＭの原曲の音響信号を用いて、混合音中のＢＧＭを除去し、人間の音声や物音が得られることを確認した。

実験結果の例として、二人の男女の対話のＢＧＭにクラシック音楽が鳴っている混合音を実際に処理した結果を図４（ａ）〜（ｆ）に示す。図４（ａ）及び（ｂ）に示す混合音ｍ（ｔ）を入力として、図４（ｃ）及び（ｄ）に示す元音源の既知音響信号ｂ’（ｔ）を用いてＢＧＭ成分を除去した結果、図４（ｅ）及び（ｆ）に示す既知音響信号除去後の音響信号ｓ(ｔ)が得られた。

以上から、人間の声や物音の背景にＢＧＭが鳴っているテレビ番組や映画等の音響信号を入力とすると、別途用意したＢＧＭの音楽音響信号を用いて番組中のＢＧＭを除去し、人間の声や物音だけの音響信号を得ることができる。なお、ＢＧＭ除去後の音響信号に対して、別の音楽をＢＧＭとして付与するようにしてもよい。

［音響除去エンジンの構成］
以上説明した理論に基づく音響除去エンジンプログラム１００の構成について説明する。図５は、音響除去エンジンプログラム１００の機能を示すブロック図である。

図５に示すように、音響除去エンジンプログラム１００は、信号入力手段として、混合音響信号が入力される混合音響入力部１０１と、除去しようとする既知音響信号を入力する既知音響信号入力部１０２とを有し、除去処理が施された音響信号の出力手段として除去後音響信号出力部１０７を有している。

また、音響除去エンジンプログラム１００は、入力された音響信号から振幅スペクトルを抽出する振幅スペクトル抽出部２００を備えている。具体的に、この振幅スペクトル抽出部２００は、データ分割部２０１と、窓関数処理部２０２と、フーリエ変換部２０３とを備えている。

データ分割部２０１は、混合音響信号を、特定の長さ（窓サイズ）の区間に分割する。一般の音声認識等では、一区間の長さを２0ミリ秒程度とするが、音声に比べて、音楽では同じ音が長く継続することから、本実施形態では、これよりも10倍程度長い、２のべき乗である8192サンプル（8192÷48,000=0.170約170ミリ秒）としている。

窓関数処理部２０２は、データ分割部２０１により分割された窓サイズ区間（170m秒）の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分において、なだらかにゼロに収束させる信号波形に変換する。

フーリエ変換部２０３は、混合音響信号及び既知音響信号それぞれのデータをフーリエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。なお、振幅スペクトルのみからなるデータは「時間周波数データ」として出力される。

詳述すると、このフーリエ変換部２０３は、ハニング関数処理された音声データに対して、高速フーリエ変換（FFT）を行う。なお、入力される音声データは実数のみで、虚数部が含まれ、このFFTでは入出力を複素数で計算することから、2回の窓の変換を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関係を使って分離して2倍の速度向上を実現している。なお、本システムではインテル社のPentium４（登録商標）プロセッサ等で利用できるSSE2命令を使用し、処理の高速化を図っている。

そして、振幅スペクトル抽出部２００では、フーリエ変換する区間を480サンプル（480÷48,000=0.01：10ミリ秒）単位で移動させ、窓関数処理部２０２及びフーリエ変換部２０３によるハニング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅のみ」を表すデータである「時間周波数データ」を取得する。このようにして得られた周波数チャンネルは、0Hz,5.86Hz,11,72Hz,17.57Hz….23,994.14Hzというように、０Hz（直流）から約5.86Hz毎に約24kHzまでの4096チャンネルとなる。

なお、振幅スペクトル抽出部２００は、入力された信号が混合音響信号であるときには、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部として機能し、入力された信号が除去しようとする既知音響信号であるときには、この除去し音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。

また、音響除去エンジンプログラム１００は、振幅スペクトル抽出部２００から抽出された既知音響の振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動推定結果をユーザー操作により修正するパラメータ推定部３００を備えている。

このパラメータ推定部３００は、振幅スペクトル抽出部２００から抽出された「時間周波数データ」の周波数チャンネル毎のデータに基づいて、上述した数５及び数６のすべてのパラメータ関数ａ(ｔ)，ｇ(ω，ｔ)（ｇω(ω，ｔ)，ｇｔ(ｔ)，ｇｒ(ｔ)），ｐ(ω) ，ｑ(ω) ，ｒ(ｔ) ，ｃ(ω，ｔ)の形状を自動で推定したり、若しくはユーザーの操作で設定したりする。なお、ユーザーは、最初から任意の関数形状を描いて指定してもよいし、最初に先ず自動推定をして、その結果を修正してもよい。

パラメータ推定部３００は、混合音響及び既知音響のキャリブレーションを行うキャリブレーション部３０４を備えている。このキャリブレーション部３０４は、人間の声や物音だけの音響信号ｓ(ｔ)がほとんど含まれていない区間(ＢＧＭ区間)を用いて、上記数５及び数６の各種パラメータ関数ｇ(ω，ｔ)，（ｇω(ω，ｔ)，ｇｔ(ｔ)），ｒ(ｔ)の一部の形状の自動推定する。

具体的には、ユーザーの手動操作により、混合音の中で、既知音響のみが出力されている1秒から数秒の区間を選択するとともに、既知音響に対してもほぼ同じ部分を選択する。そして、キャリブレーション部３０４は、この選択された区間内で周波数チャンネル毎の音量を合計して、混合音と除去音から得られる値を比較する。この区間では混合音には既知音響のみが含まれていることから、その比が周波数特性となる。

さらに、パラメータ推定部３００は、周波数特性変化補正部３０１と、音量変化補正部３０２と、時間位置補正部３０３とを備え、これらにより(1)混合音響と既知音響の時間的な位置ずれ、(2)既知音響の周波数特性、及び(3)既知音響の音量の時間変化を推定する。

周波数特性変化補正部３０１は、周波数分布の推定を行うモジュールであり、この周波数分布の推定に際し、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数であるｃ(ω，ｔ)について、ω方向の形状を変化させることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整する。

また、周波数特性変化補正部３０１は、音声チャンネルのうちＢＧＭの音量が小さい部分ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。

詳述すると、推定したい各周波数チャンネルに既知音響の音がなければ推定が不可能なことから、周波数分布の推定にあたっては既知音響に低音から高音まで含まれている、いわゆる「リッチ」な部分を用いることが望ましい。

しかしながら、4096チャンネルといった非常に細分化されている場合には、すべてのチャンネルに音が含まれていることはむしろ不可能に近いと考えられ、また、既知音響の音が小さく、対して混合音側にノイズがあった場合は、割り算の結果として非常識な推定値となることがある。

これに対して、本実施形態では、周波数分布の平滑化を行う。この平滑化は、前後のチャンネルの平均値をとってなめらかにすることによって実現される。本実施形態では、このチャンネル数がエディタ４００のスライダ「SmoothingFreq.Weight」で、この値を大きくするほどなめらかにすることができる。

また、本実施形態では、別の平滑化の機構（Blur_freq_mode）が、エディタ４００のボタン「BAFAM」により実装されている。音がない周波数チャンネルでは推定ができず、隣接する周波数チャンネルに比べて極端に落ち込んでいる場合があるため、隣接した周波数チャンネルと同じ値に持ち上げることにより、こうした予測不能の場合を回避することができる。

さらに、本実施形態では、全くゼロとなる周波数チャンネルが、推定処理に影響を及ぼすのを避けるために、エディタ４００のスライダ「ShiftFreqWeight」で実装されている。

また、本実施形態に係る周波数特性変化補正部３０１は、アナログテープレコーダーによるヒスや各種のビート音といった特定周波数の定常的な雑音を無視して、処理を行う定常音処理機能を備えている。映像データに含まれる水平周波数(15.75kHz)などの定常音が混合音に含まれていると、この周辺の周波数チャンネルで大きく推定を誤ってしまうという問題があった。すなわち、定常音は、既知音響側には全く含まれない音であることから、周波数特性の推定を誤る原因となる。

音量変化補正部３０２は、音量の時間変化の推定と平滑化とを行う。この音量の時間変化の推定に際しては、ｃ(ω，ｔ)のｔ方向の形状を補正することにより、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。

詳述すると、時間方向の音量推定において、時刻によって混合音側があらゆる周波数領域を含むような場合、実際より既知音響が大きいと推定をする傾向がある。この場合に単純に引いてしまうと、本来消すべきではない音まで引いてしまい、聴感上は「痩せた」音になる惧れがある。

本実施形態において音量変化補正部３０２は、混合音全時間域にわたって、既知音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを１オクターブ毎（周波数で2倍毎）にまとめて合計する。同じ時刻毎に比較し、既知音響に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させることができる。これをその時刻での既知音響と混合音の音量比とする。

なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなることを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計的手法など自動的に判断する方法を採用してもよい。

また、音量変化補正部３０２は、時間変化の推定でも平滑化を行い、時間前後の既知音響の音量の平均値をとってなめらかにする。この値がエディタ４００中のスライダ「SmoothingTimeWeight」として実装されているで、この値を大きくすることによりなめらかにすることができる。

また、本実施形態では、別の平滑化の機構（Blur_time_mode）が、「BATAM」ボタンで実装している。音がない時間に推定ができず、隣接する時間に比べて極端に落ち込んでいる場合に、隣接した時刻と同じ値に持ち上げることで、こうした予測不能の場合を回避する。

なお、既知音響の音がない時刻には、音量をゼロと推定してしまうことから、これを防ぐためにエディタ４００中のスライダ「ShiftTimeWeight」を実装している。

さらに、混合音と消去後の音の音量の調整について、特定の音声ファイルの一部のみを消去した場合には、それぞれの音量を同一に維持する必要がある。このため、本実施形態では、一定振幅の単音（480Hz）を合成して混合音として入力し、既知音響の引く量をゼロとして除去処理を行い、出力される音量の違いを計測し、その値が一致するように設定する。

時間位置補正部３０３は、混合音響の開始点と、既知音響の開始点の時間的な位置ずれを推定するものであり、上述した関数ｒ(ｔ)の定数を設定することで、一定のずれ幅を補正する。詳述すると、指定した混合音と既知音響が時間的に位置ずれしている場合に、既知音響を混合音に対して、１ミリ秒毎に前後に最大１００ミリ秒ずらして、上記各補正部３０１及び３０２による処理を繰り返す。指定区間における混合音響と既知音響との音量の差を求めて、この差が最小となる時刻に最も一致していると判断し、この混合音と既知音響の時間的な位置ずれとする。

なお、本システムでは、上記手順を実行して自動推定することも、あらかじめ決めた時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもよい。

さらに、音響除去エンジンプログラム１００は、振幅スペクトル抽出部２００によって抽出された混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部１０４と、逆フーリエ変換して、除去後の音響を復元する逆フーリエ変換部１０５及び配置処理部１０６を備えている。

除去処理部１０４は、既知音響をパラメータ推定部３００で生成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数データ」から、消去する。なお、この消去にあたって本実施形態では、シミュレーション部１４による「位相非依存減算アルゴリズム」も実装している。すなわち、本実施形態では、上述した「位相非依存減算関数」によって、0度から360度まで位相が一様に確率分布しているとして、シミュレーションを行い、このシミュレーション結果に一致させるように消去強度を自動設定する。

前記逆フーリエ変換部１０５は、差し引き計算によって得られた「時間周波数データ」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを逆フーリエ変換により復元する。具体的に、逆フーリエ変換部１０５では、音響除去エンジンプログラム１００で求めた振幅スペクトルＳ(ω，ｔ)と、混合音ｍ(ｔ)の位相θｍ(ω，ｔ) を用いてＸｓ(ω，ｔ)を求め、それを逆フーリエ変換(IFFT)することで、単位波形を得る。

なお、ここでは、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換するが、このときの各チャンネルの音声の位相は、消去する前の既知音響又は混合音響の位相と同じ値を取るようにする。この操作によって、消去前の音声の位相が維持でき、また区間毎に「ブチブチ」というノイズが発生するのを防ぐことができる。なお、IFFTの高速化については時間周波数データを作成する場合と同じ手法を用いている。

配置処理部１０６は、ハニング窓の幅である170ミリセカンドの幅をもつ各時刻の音声について、同じ幅の窓の出力をOverlapAdd法で重ね合わせて、最終的に音楽が消去された音声を復元する。

［音響除去エンジンの動作］
上述した構成を有する音響除去エンジンプログラム１００は、以下のように動作する。図６は、かかる動作を示すフロー図である。

同図に示すように、既知音響（オリジナル曲）と混合音響のデータが入力されると（ステップＳ３０１）、先ず、データ分割部２０１により、混合音響信号を、特定の長さ（窓サイズ）の区間に分割する。ここでは、２のべき乗である8192サンプル（8192÷48,000=0.170約170ミリ秒）とする。

次いで、ステップＳ３０２により、時間周波数データの取得を行う。具体的には、窓関数処理部２０２により、窓サイズ区間（170m秒）の音声信号データに対し、ハニング関数を掛け（Ｓ３０２ａ）、フーリエ変換部２０３により、高速フーリエ変換（FFT）を行う（Ｓ３０２ｂ）。そして、フーリエ変換する区間を480サンプル（480÷48,000=0.01：10ミリ秒）単位で移動し（Ｓ３０２ｃ）、これらのステップＳ３０２ａ〜ｃをループ処理により繰り返す。

このようにして10ミリセカンド毎に得られた「時間周波数データ」に対して各種パラメータの推定を行う。具体的には、パラメータ推定部３００において、ユーザー操作に基づいて、混合音の中で、音楽（ＢＧＭ）のみが鳴っている１秒から数秒の区間（上述した「ＢＧＭ区間」）を選択してキャリブレーション（Ｓ３０４）を行う。オリジナル曲に対してもほぼ同じ部分を選択する。

次に、この区間内で周波数チャンネル毎に合計して、混合音と除去音（オリジナル曲）から得られる値を比較し、その比から周波数特性を取得する（Ｓ３０５）とともに、平滑化を行う（Ｓ３０６）。

その後、混合音全時間域にわたって、ＢＧＭの音量の時間変化を検出し、周波数毎の混合音に対するＢＧＭの音量比を取得し（Ｓ３０７）、これに基づいて、混合音中のＢＧＭと、オリジナル曲が時間的に位置ずれしているかを判断する（Ｓ３０９）。

上記ステップＳ０１で指定した混合音中のＢＧＭとオリジナル曲が時間的に位置ずれしている場合は、オリジナル曲を混合音に対して、１ミリ秒毎に前後に最大１００ミリ秒ずらして（Ｓ３１０）、ステップＳ３０５〜ステップＳ３０８までの処理を繰り返す。この区間での音量の差を求めて、この差が最小となる時刻に最も一致していると考えられるので、それが混合音中のＢＧＭとオリジナル曲の時間的な位置ずれとなる。

位置ずれが補正された後、除去処理部１０４では、混合音響から推定した既知音響の差し引き演算を行い（Ｓ３１１）、フーリエ変換部２０３において、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換する（Ｓ３１２）。このときの各チャンネルの音声の位相は、消去する前の混合音響中のＢＧＭの位相と同じ値を取るようにする。そして、逆フーリエ変換された各窓サイズのデータを、配置処理部において、OverlapAdd法により重ね合わせて（Ｓ３１３）、最終的に音楽が消去された音声を復元し、データの出力を行う（Ｓ３１４）。

［エディタ］
（エディタの構成）
次いで、既知音響除去システムのＧＵＩであるエディタ４００について説明する。図７は、エディタ４００の画面構成を示す説明図である。

同図に示すように、エディタ４００は、ＭＩＸファイルの波形表示をするウインドウ４０１、ＢＧＭファイルの波形表示をするウインドウ４０２と、ＭＩＸファイルのスペクトル表示をするウインドウ４０３と、ＢＧＭファイルのスペクトル表示をするウインドウ４０４と、消去後音声と周波数-時間特性のスペクトル表示をするウインドウ４０５と、消去強度等を表示・操作するウインドウ４０６とを備えている。これらの各ウインドウは、除去処理の対象となる混合音響信号の範囲を設定する範囲設定部として、機能する。

ウインドウ４０１及びウインドウ４０２では、ミックスファイル及びＢＧＭファイルの波形が表示され、マウスの右ボタンを押しながら上下に移動することにより、拡大・縮小（下・上）でき、右ボタンを押しながら左右に移動することにより左右にスクロールさせることができる。さらに、このウインドウ上で、左ボタンを押しながら左右に移動することにより区間を選択することができ、選択された区間は色が変わり、選択時間の最初と最後の時間が表示される。なお、これらの操作は、キーボードの方向キーによっても可能となっている。

また、右端の操作ボタン４０１ａ又は４０２ａを操作することにより、時間軸方向のスクロール、選択区間の再生・再生停止、選択区間のスペクトル表示を実行することができる。

ウインドウ４０３及び４０４では、上記ウインドウ４０１又は４０２で選択された区間における、ＭＩＸファイルやＢＧＭファイルのスペクトル表示がなされ、上記ウインドウ４０１と４０２とほぼ同様の操作を行うことができる。なお、ここでのスペクトル表示において、スペクトルは、その強さを１６段階の色で表示され、横軸は時間、縦軸は周波数を示す。

特に、ウインドウ４０３では、キャリブレーション処理における周波数分布の推定の際、このウインドウ上で、ＢＧＭだけが聞こえる区間を選択し、「ＳＲ」ボタンを押すことにより、選択された区間の開始位置及び終了位置が、テキストボックス部４０７ｂのCalibrationStartTime(ＢＧＭのみ区間スタート位置)、CalibrationEndTime(ＢＧＭのみ区間終了位置)の欄に入力される。なお、このテキストボックス部４０７ｂへの入力としては、数値の直接入力がある。

ウインドウ４０５は、音響信号の時間毎の周波数分布（周波数特性や振幅）を線又は図形で表示するとともに、周波数の信号強度（音量）を、線又は図形を段階的に色分けすることによりサーモグラフ形式で表示する表示部であり、ラジオボタン部４０７ｅをチェックすることによって、図１０に示すような、消去後のスペクトル表示と周波数-時間特性のスペクトル表示とを切り替える。図１０（ａ）は、消去後のスペクトル表示であり、同図（ｂ）は、時間-周波数特性を正規化したスペクトル表示である。このウインドウ４０５においても、上述したウインドウ４０１〜４０４と同様のマウスやキーボード操作を行うことができる。

ウインドウ４０６では、ラジオボタン部４０７ｄをチェックすることによって、図９に示すような、消去強度曲線（同図（ａ））、周波数特性曲線（同図（ｂ））、時間特性曲線（同図（ｃ））及び時間−周波数特性（同図（ｄ））を切り替えて表示する。このウインドウ４０６は、曲線を変形させることにより、対応する時間において除去される既知音響振幅スペクトルの信号強度などを設定する設定部として機能し、左ボタンを押しながら右方向に移動することで、曲線を変形することができ、関数曲線を細かく且つ任意に調整することができる。なお、マウスを左方向に移動しても変更できないようになっている。

なお、これらの各ウインドウには、時間軸としてタイムコードが記述されており、このタイムコードでは、混合音響信号から検出された所定周波数（ここでは、カラーバーの１kHz）の音響信号終了時刻から１５秒後を０となるように自動調整されている。

また、エディタ４００は、その下部に、ファイルの表示をしたり、各種パラメータを設定したりする左右２つの操作パネル４０７及び４０８を備えている。

左側の操作パネル４０７は、ＭＩＸファイルを表示するウインドウ４０７ａと、パラメータの設定をするテキストボックス部４０７ｂと、チェックボックス部４０７ｃと、ラジオボタン部４０７ｄ，４０７ｅと、消去実行用のボタン４０７ｄとが設けられている。一方、右側の操作パネル４０８は、ＢＧＭファイルを表示するウインドウ４０８ａと、パラメータの設定をするスライダ部４０８ｂとを備えている。

ウインドウ４０７ａ及び４０８ａでは、ＭＩＸファイルやＢＧＭファイルをここにドラッグすることによってウインドウ４０１や４０２に、ＭＩＸファイル又はＢＧＭファイルの波形が表示され、ドラッグされたファイルが動画ファイルであればこのウインドウ内に映像が表示される。これらのウインドウ４０７ａ及び４０８ａの下方には、スライドバーが配置され、これをスライドさせることによってＭＩＸファイルの再生開始位置を変えることができる。本実施形態において波形表示される区間は再生開始位置から5分に設定されている。さらにこのスライドバーの下方には、再生ボタン、再生一時停止ボタン、再生停止ボタン、音量調整バー、再生開始位置を数値入力するテキストボックスが配置されている。

テキストボックス部４０７ｂは、図８（ａ）に示すように、消去するＢＧＭの消去強度の入力欄である「EraseRatio」と、周波数分布の推定のためにＭＩＸファイルのＢＧＭのみ区間の開始位置及び終了位置を入力する欄である「Calibration Start Time」、「Calibration Start Time」と、ＭＩＸファイルとＢＧＭファイルの選択区間の開始位置のずれを入力する欄である「Offset Between Target and ＢＧＭ」とを備えている。「EraseRatio」では、基本の値は１であり、０．１〜５までを設定することができる。また、「Offset Between Target and ＢＧＭ」では、−１を設定すると、自動位置合わせを計算するモードとなる。

チェックボックス部４０７ｃでは、図８（ｂ）に示すように、周波数分布の推定精度を向上させるために、ユーザーが指定した区間に加えて、他のＢＧＭだけの部分を探して自動的に探し出してデータに加える再推定モード「PEM」と、推定を誤って小さな値となった周波数チャンネルについて、隣接するチャンネルの値から推定して補正する周波数ぼかしモード「BAFAM」と、推定を誤って小さな値となった時刻について、前後の時刻の値から推定して補正する時間軸ぼかしモード「BATAM」とを選択できるようになっている。

ラジオボタン部４０７ｄでは、図８（ｃ）に示すように、択一的にチェックを入れることにより、図９（ａ）〜（ｄ）に示すような、ウインドウ４０６におけるEraseRatio(強度曲線)、FreqWeight(周波数特性曲線)、TimeWeight(時間特性曲線)、BGMWeight(時間-周波数特性曲線)の表示を切り替えることができる。なお、このラジオボタン部４０７ｄにおいて、「ｅ」をチェックすると強度曲線が、「ｆ」をチェックすると周波数特性曲線が、「ｔ」をチェックすると時間特性曲線が、「ＢＧＭ」をチェックすると時間-周波数特性曲線が、ウインドウ４０６に表示され、これらの各表示上において、パラメータの再設定することができる。

ラジオボタン部４０７ｅでは、図８（ｄ）に示すように、択一的にチェックを入れることにより、図１０（ａ）及び（ｂ）に示すような、ウインドウ４０５における、消去後のスペクトルと時間-周波数特性のスペクトルとの表示を切り替えることができる。すなわち、このラジオボタン部４０７ｅにおいて、「Res」をチェックすると消去後のデータのスペクトルが、「ＢＧＭ」をチェックすると時間-周波数特性のスペクトルが、ウインドウ４０５に表示される。

スライダ部４０８ｂでは、バーを左右にスライドさせることによって、「Shift Freq Weight」で周波数特性曲線のバイアス量を、「Shift Time Weight」で時間特性曲線のバイアス量を、「Shift Global Weight」で時間-周波数特性のバイアス量を、「Smoothing Time Weight」で周波数方向のスムージング幅を変更することができる。なお、本実施形態では、これらのでパラメータを変更するとTimeWeightの設定がリセットされる。

ボタン部４０７ｆでは、「DEL_Music」ボタンをクリックすることにより、音楽消去処理を実行し、「RDEL_Music」ボタンをクリックすることにより、音楽の消去後、再調整された特性での音楽消去処理処理を実行する。

（エディタの変更例）
上述したＧＵＩであるエディタ４００は、以下のような形態とすることができる。図１１は、エディタ４００の変更例を示す構成図である。

この変更例に係るエディタも、上述したエディタ４００と同様に、音響除去エンジンプログラム１００の一部機能を、ユーザーの操作によって呼び出して、上記数５及び数６のすべてのパラメータ関数ａ（ｔ），ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ），ｇｒ（ｔ）），ｐ（ω），ｑ（ω），ｒ（ｔ），ｃ（ω，ｔ）の形状を、ユーザーが手作業で設定することができる。エディタのユーザーは、最初から任意の関数形状を描いて指定してもよいし、最初は先ず自動推定をして、その結果を修正してもよい。

本エディタは、大別して、混合音響信号ｍ（ｔ）操作用のサブウインドウＷ１、既知音響信号ｂ’（ｔ）操作用のサブウインドウＷ２、既知音響信号除去後の所望の音響信号ｓ（ｔ）操作用のサブウインドウＷ３の三つで構成されている。既知音響信号ｂ’（ｔ）が複数ある場合には、切り替えスイッチＷ２Ｓにより、サブウインドウＷ２で操作する既知音響信号ｂ’（ｔ）を切り替えることができる。

先ず、全サブウインドウに共通の機能を述べる。操作範囲スライダＰ１は、音響信号中のどこを現在表示しているかを表す。カーソルＰ２は、現在の操作対象の時間軸上の位置を表すアイコン化（折り畳み）ボタンＰ３は、これを押すと一時的にそのボタンの属するサブウインドウが折り畳まれ、小さくなる現在操作対象以外の未使用のサブウインドウを隠して、狭い画面を有効活用できる。フロート化（拡大）ボタンＰ４は、これを押すと一時的にそのボタンの属するサブウインドウが、親ウインドウから切り離され（フロート化）、さらに拡大されて操作・編集が容易になる、フロート化（拡大）ボタンＰ４しか描かれていない場合には、このボタンを押すと、それに関連づけられたサブウインドウがフロート化されて出現する。再生制御パネルＰ５には、人間が聞いて確認するために、音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。

サブウインドウＷ１、Ｗ２、Ｗ３には、混合音響信号ｍ（ｔ）のパワーのグラフＥ１とその振幅スペクトルＭ（ω，ｔ）のグラフＥ２、既知音響信号ｂ’（ｔ）のパワーのグラフＥ３とその振幅スペクトルＢ’（ω，ｔ）のグラフＥ４、既知音響信号除去後の音響信号ｓ（ｔ）のパワーのグラフＥ５とその振幅スペクトルＳ（ω，ｔ）のグラフＥ６が表示されている。各振幅スペクトルでは、左側に濃淡で振幅が描かれ（横軸が時間軸、縦軸が周波数軸）、右側にカーソル位置での振幅が描かれている（横軸がパワー、縦軸が周波数軸）。

既知音響信号ｂ’（ｔ）操作用のサブウインドウＷ２が操作の中心となるウインドウであり、数５及び数６のすべてのパラメータ関数ａ（ｔ），ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ），ｇｒ（ｔ）），ｐ（ω），ｑ（ｔ），ｒ（ｔ）の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。

１．周波数特性の時間変化の補正用操作パネルＣ１（Ｅ７の右側）
ｇω（ω，ｔ）を表示・操作するためのパネルで、カーソル位置の時刻ｔでのｇω（ω，ｔ）が描かれている（横軸が大きさ、縦軸が周波数軸）。設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される。Ｅ７には、濃淡でｇ（ω，ｔ）の値の大きさが描かれている（横軸が時間軸、縦軸が周波数軸）。

２．音量の時間変化の補正用操作パネルＣ２（Ｅ７の下側）
ｇｔ（ｔ）を表示・操作するためのパネルで、設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される。

３．ｇ（ω，ｔ）の値を全体的に持ち上げるための操作パネルＣ３（Ｅ７の下側）
ｇｒ（ｔ）を表示・操作するためのパネルで、設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される。

４．混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための操作パネルＣ４
ａ（ｔ）を表示・操作するためのパネルである。

５．周波数軸方向の伸縮を補正するための操作パネルＣ５
ｐ（ω）を表示・操作するためのパネルである。

６．時間軸方向の伸縮を補正するための操作パネルＣ６
ｑ（ｔ）を表示・操作するためのパネルである。

７．時間的な位置のずれを補正するための操作パネルＣ７
ｒ（ｔ）を表示・操作するためのパネルである。

既知音響信号除去後の音響信号ｓ（ｔ）操作用のサブウインドウＷ３では、数５中のパラメータ関数ｃ（ω，ｔ）の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。

１．グラフィックイコライザ（ＧＥＱ）操作パネルＣ８（Ｅ８の右側）
ｃ（ω，ｔ）のω方向の形状を表示操作するためのパネルで、カーソル位置の時刻ｔでのｃ（ω，ｔ）が描かれている（横軸が大きさ、縦軸が周波数軸）。設定操作結果は、ｃ（ω，ｔ）の表示パネルＥ８に即座に反映される。Ｅ８には、濃淡でｃ（ω，ｔ）の値の大きさが描かれている（横軸が時間軸、縦軸が周波数軸）。

２．ボリュームフェーダー操作パネルＣ９（Ｅ８の下側）
ｃ（ω，ｔ）のｔ方向の形状を表示・操作するためのパネルで、設定操作結果は、ｃ（ω，ｔ）の表示パネルＥ８に即座に反映される。

本エディタでは、オーディオファイルを入出力するだけでなく、各種パラメータ関数の形状もファイルに入出力できるようにする。これにより、除去作業の中断・再開を可能にする。また、ユーザーに対して高速なレスポンスを達成するために、マルチスレッドに基づいてＧＵＩと信号処理、音響再生を異なるスレッドとして実装し、時間のかかる信号処理等の待ち時間を隠蔽するとよい。

［プログラムを記録したコンピュータ読み取り可能な記録媒体］
なお、上述した実施形態及びその変更例に係る既知音響除去プログラムでは、ユーザー端末やWebサーバ等のコンピュータやＩＣチップにインストールすることにより、上述した各機能を有する装置やシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

そして、このようなプログラムは、図１２に示すような、汎用コンピュータ１２０で読み取り可能な記録媒体１１６〜１１９に記録することができる。具体的には、同図に示すような、フレキシブルディスク１１６やカセットテープ１１９等の磁気記録媒体、若しくはＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ１１７等の光ディスクの他、ＲＡＭカード１１８など、種々の記録媒体に記録することができる。

そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述したコンテンツ表示システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

［実施形態における作用・効果］
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらないので、位相に依存しない処理が可能となる。従って、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽ＣＤ等の音のデータを使って、音楽だけを消去することができる。

特に、番組音声作成時において、製作意図にあわせて周波数特性や音量が調整され、音の位相が予測不能な変化をしている場合であっても、混合音響中における音楽の変化を自動的且つ高精度に予測し、位相に依存せず消去することができる。

本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部９により、映像と音声とを同期させてモニタ１０及びスピーカー１１から出力するため、音楽消去前、音楽消去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながらの操作が可能となり、作業効率を向上させることができる。

本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローイングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するなどユーザーの意図に基づいて、音楽消去の効果を調節することができる。

実施形態に係る既知音響除去システムの構成を示すブロック図である。実施形態に係る既知音響除去システムの動作を示すフロー図である。実施形態に係る既知音響除去方法の基本理論を示すフロー図である。実施形態に係る既知音響除去方法による効果を示す説明図である。実施形態に係る音響除去エンジンプログラムの機能ブロック図である。実施形態に係る音響除去エンジンプログラムの動作を示すフロー図である。実施形態に係るエディタの構成を示す説明図である。実施形態に係るエディタの操作パネルを示す説明図である。実施形態に係るエディタのウインドウを示す説明図である。実施形態に係るエディタのウインドウを示す説明図である。変更例に係るエディタの構成を示す説明図である。実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。

符号の説明

１…入力I/F、２…ＤＶキャプチャー、３…音声データ抽出部、４…音声変換部、５…記憶装置、６…ユーザーインターフェース、６ａ…キーボード、６ｂ…マウス、７…メモリ、８…出力I/F、９…同期制御部、１０…モニタ、１１…スピーカー、１４…シミュレーション部、１００…音響除去エンジンプログラム、１０１…混合音響入力部、１０２…既知音響信号入力部、１０３…制御部、１０４…除去処理部、１０５…逆フーリエ変換部、１０６…配置処理部、１０７…除去後音響信号出力部、１１６〜１１９…記録媒体、１２０…汎用コンピュータ、２００…振幅スペクトル抽出部、２０１…データ分割部、２０２…窓関数処理部、２０３…フーリエ変換部、３００…パラメータ推定部、３０１…周波数特性変化補正部、３０２…音量変化補正部、３０３…時間位置補正部、３０４…キャリブレーション部、４００…エディタ

Claims

除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記混合音響信号と既知音響信号との位相のずれが、０〜３６０度の範囲で一様な確率で分布しているとして、前記既知信号の除去強度を設定する除去強度設定部と、
前記除去強度設定部における設定に基づいて、該既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去する除去処理部と、
を備えたことを特徴とする音響信号除去装置。
前記除去強度設定部は、前記他の音響信号の振幅を所定値とし、これに対する前記既知音響信号の振幅の位相差を０〜３６０度の範囲で変化させて合成して得られた混合音響信号の振幅の平均値を算出し、
この平均値に対する前記既知音響信号の振幅の割合から、該平均値に対する前記他の音響信号の振幅の割合の近似値を算出し、
この近似値に前記平均値を積算することによって得られた前記他の音響信号の振幅に基づいて、前記既知信号の除去強度を設定する
ことを特徴とする請求項１に記載の音響信号除去装置。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記混合音響信号と既知音響信号との位相のずれが、０〜３６０度の範囲で一様な確率で分布しているとして、前記既知信号の除去強度を設定するステップ（２）と、
前記ステップ（２）における設定に基づいて、該既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップ（３）と、
を備えたことを特徴とする音響信号除去方法。
前記ステップ（２）では、前記他の音響信号の振幅を所定値とし、これに対する前記既知音響信号の振幅の位相差を０〜３６０度の範囲で変化させて合成して得られた混合音響信号の振幅の平均値を算出し、
この平均値に対する前記既知音響信号の振幅の割合から、該平均値に対する前記他の音響信号の振幅の割合の近似値を算出し、
この近似値に前記平均値を積算することによって得られた前記他の音響信号の振幅に基づいて、前記既知信号の除去強度を設定する
ことを特徴とする請求項３に記載の音響信号除去方法。
コンピュータに、
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記混合音響信号と既知音響信号との位相のずれが、０〜３６０度の範囲で一様な確率で分布しているとして、前記既知信号の除去強度を設定するステップ（２）と、
前記ステップ（２）における設定に基づいて、該既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップ（３）と、
を備えた処理を実行させることを特徴とする音響信号除去プログラム。
前記ステップ（２）では、前記他の音響信号の振幅を所定値とし、これに対する前記既知音響信号の振幅の位相差を０〜３６０度の範囲で変化させて合成して得られた混合音響信号の振幅の平均値を算出し、
この平均値に対する前記既知音響信号の振幅の割合から、該平均値に対する前記他の音響信号の振幅の割合の近似値を算出し、
この近似値に前記平均値を積算することによって得られた前記他の音響信号の振幅に基づいて、前記既知信号の除去強度を設定する
ことを特徴とする請求項５に記載の音響信号除去プログラム。