JP4608650B2

JP4608650B2 - 既知音響信号除去方法及び装置

Info

Publication number: JP4608650B2
Application number: JP2003167118A
Authority: JP
Inventors: 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2003-05-30
Filing date: 2003-06-11
Publication date: 2011-01-12
Anticipated expiration: 2023-06-11
Also published as: WO2004107319A1; KR101008250B1; GB2418577B; JP2005049364A; GB0526570D0; US20070021959A1; GB2418577A; KR20060034637A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の音響信号が混合された混合音響信号の中から、既知の音響信号の成分を除去する方法及び装置、該装置に用いるインタフェース並びにプログラムに関するものである。
【０００２】
【従来の技術】
従来よりスペクトルサブトラクション法（非特許文献１）と呼ばれる方法が知られている。従来のスペクトルサブトラクション法とは、定常雑音（スペクトルが時間的に変化せず、周波数特性や音量等がほぼ一定な雑音）と所望の音（ターゲット音）が混合された音響信号（混合音）から定常雑音を除去してターゲット音を得る方法である。この方法では、事前に定常なスペクトルの平均を求める等の簡易な方法で定常雑音のスペクトルを学習しておき、入力された混合音のスペクトルから定常雑音のスペクトルを引き去る処理を行う（つまり雑音の平均を引き去る処理を行う）。また、一般に音響信号除去に関しては、複数のマイクロホンからの入力を用いる方法も多数提案されている。またスペクトルサブトラクション法には様々な改良もなされている（特許文献）。
【０００３】
【非特許文献１】
ＳｔｅｖｅｎＢｏｌｌ，“ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈＵｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−２７，Ｎｏ．２，Ａｐｒｉｌ１９７９．
【０００４】
【特許文献１】
特開２００２−１７５０９９号「雑音抑制方法および雑音抑制装置」
【０００５】
【特許文献２】
特開２００２−０１４６９４号「音声認識装置」
【０００６】
【特許文献３】
特開２００１−２２８８９２号「ノイズ除去装置およびノイズ除去方法並びに記録媒体」
【０００７】
【特許文献４】
特開２００１−２１５９９２号「音声認識装置」
【０００８】
【特許文献５】
特開平１１−００３０９４号「ノイズ除去装置」
【０００９】
【特許文献６】
特開平１０−２４０２９４号「雑音軽減方法及び雑音軽減装置」
【００１０】
【特許文献７】
特開平０８−２２１０９２号「スペクトルサブトラクションを用いた雑音除去システム」）
【００１１】
【発明が解決しようとする課題】
しかし、従来のスペクトルサブトラクション法は、定常雑音を前提としており、非定常雑音（スペクトルが時間的に大きく変化し、周波数特性や音量等も変化する雑音）には適用できなかった。特に、音楽のような時間的に大きく変化する非定常雑音を除去することは不可能であった。これは非定常雑音のスペクトルの変化が大きすぎて学習ができないからである。また、仮に従来の方法で非定常雑音が事前に与えられた条件を扱おうとしても、非定常雑音の周波数特性、音量、振幅スペクトルの時間軸方向の伸縮及び周波数軸方向の伸縮等の変化の影響で、引き去る処理を適切に行うことはできなかった。また、複数のマイクロホンからの入力を用いる方法は、モノラル音響信号には適用することができなかった。また改良された従来のスペクトルサブトラクション法のいずれの方法も、主に音声認識の前処理を目的としている。そのため、非定常雑音が事前に与えられ、その非定常雑音を除去する用途には利用できなかった。
【００１２】
本発明の目的は、複数の音響信号が混合された混合音響信号の中から、既知の音響信号（非定常でも定常でもよい）の成分を、それに対応する元音源の既知音響信号を用いて除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００１３】
本発明の他の目的は、既知の音響信号が音楽であり、その音楽音響信号が、人間の音声や物音に対するバックグラウンドミュージック（ＢＧＭ）として使用されている混合音から、既知の音響信号に対応する元音源の既知音響信号（ＣＤやレコード等から同一音楽の音響信号を別途入手したもの）を用いてＢＧＭを除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００１４】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中での既知の音響信号の正確な位置を自動推定し、その位置の既知の音響信号を除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００１５】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中での既知の音響信号の正確な位置を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【００１６】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号の周波数特性や音量が時間的に変化しているときに、それらの変化を自動推定して補正しながら除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００１７】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号の周波数特性や音量が時間的に変化しているときに、それらの変化を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【００１８】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号が時間軸あるいは周波数軸方向に伸縮しているときに、それらの伸縮を自動推定して補正しながら除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００１９】
本発明の他の目的は、複数の音響信号が混合された音響信号（混合音）の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号が時間軸あるいは周波数軸方向に伸縮しているときに、それらの伸縮を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【００２０】
本発明の他の目的は、複数の音響信号が混合された音響信号の中から、複数の既知の音響信号の成分を除去する際に、既知の音響信号を一つずつ繰り返し除去できるようにした既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【００２１】
【課題を解決するための手段】
本発明は、複数の音響信号が混合された混合音響信号から、既知の音響信号（非定常でも定常でもよい）の成分を、それに対応する元音源の既知音響信号を用いて除去するために下記の各ステップをコンピュータで実施する既知音響信号除去方法を対象とする。本発明の方法では、まず混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める（混合音響信号変換ステップ）。音響信号を時間周波数表現に変換する方法としては、フーリエ変換やウェーブレット変換など公知の変換方法を用いることができる。次に、混合音響信号中に含まれている既知の音響信号に対応（類似）している既知音響信号（ＣＤやレコード等から同一音楽の音響信号を別途入手したもの）を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める（既知音響信号変換ステップ）。そして混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した前記既知音響信号の補正振幅スペクトルを求める（補正ステップ）。次に、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する（除去ステップ）。この除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める（逆変換ステップ）。最後に、単位波形をオーバーラップ・アド法等の各種の合成方法を用いて合成して既知の音響信号の成分を除去した音響信号を得る（合成ステップ）。
【００２２】
本発明では、補正ステップにより、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した既知音響信号の補正振幅スペクトルを求め、この補正振幅スペクトルを混合音響信号の振幅スペクトルから除去するため、混合音響信号中に非定常雑音として含まれている既知音響信号を高い精度で除去することができる。理想的には、既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の中で、実際に混合音響信号中でその現象または変化が起きていたものを全て補正するのが好ましい。しかしながら何も補正しない場合よりも、実際に混合音響信号中でその現象または変化が起きているものの１つでも補正すれば、既知音響信号の除去精度を高めることができるので、必要な補正のすべてを行わなくてもよい。もちろん必要な補正のすべてを行ってもよいのは当然である。
【００２３】
補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の時間的な位置を推定し、推定した時間的な位置に基づいて既知音響信号の振幅スペクトルの時間的な位置のずれを補正することができる。推定方法は、例えば、混合音響信号の振幅スペクトルの所定の区間と既知音響信号の振幅スペクトルの所定の区間の距離（類似度）を求め、距離が最も近い区間を混合音響信号に含まれる既知の音響信号の時間的な位置と推定することができる。なお推定手法は、任意である。
【００２４】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの周波数特性の変化を推定し、推定した周波数特性の時間変化に基づいて既知音響信号の振幅スペクトルの周波数特性の時間変化を補正することができる。この周波数特性の変化の推定は、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間の周波数特性とこの区間に対応する既知音響信号の周波数特性との対比から、混合音響信号に含まれる既知の音響信号の周波数特性の変化を推定することができる。なおこの推定手法は、任意である。
【００２５】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの音量の時間変化を推定し、推定した音量の時間変化に基づいて既知音響信号の振幅スペクトルの音量の時間変化を補正することができる。音量の時間変化の推定は、周波数特性の補正を行った後に、例えば、混合音響信号に含まれる既知音響信号に相当する振幅を持つ周波数帯域を各時刻において特定し、その周波数帯域における混合音響信号の振幅と既知音響信号の振幅との対比から推定することができる。なおこの推定手法は、任意である。
【００２６】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の時間軸方向の伸縮を推定し、推定した時間軸方向の伸縮に基づいて既知音響信号の振幅スペクトルの時間軸方向の伸縮を補正することができる。時間軸方向の伸縮の推定には、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間に対応する既知音響信号の区間との時間軸の対比により、時間軸方向の伸縮を推定することができる。あるいは、時間軸を短い区間に分割した全区間の対比によって推定してもよい。なおこの推定手法は、任意である。
【００２７】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの周波数軸方向の伸縮を推定し、推定した周波数軸方向の伸縮に基づいて既知音響信号の振幅スペクトルの周波数軸方向の伸縮を補正することができる。周波数軸方向の伸縮の推定には、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間に対応する既知音響信号の区間との周波数軸の対比により、周波数軸方向の伸縮を推定することができる。なおこの推定手法は、任意である。
【００２８】
また本発明の方法では、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルを視覚により認識できるように画像表示する画像表示ステップを更に備えることができる。この場合には、画像表示に基づいて人間が混合音響信号中における既知の音響信号が含まれている区間を定め、この区間について補正ステップ、除去ステップ、逆変換ステップまたは合成ステップを実行する。
【００２９】
本発明の方法では、混合音響信号、既知音響信号及び合成ステップの出力信号を音響として再生する音響再生ステップを更に備えることができる。この場合には、音響再生ステップからの再生音に基づいて人間が混合音響信号中における既知の音響信号が含まれている区間を定め、この区間について補正ステップ、除去ステップ、逆変換ステップ及び合成ステップを実行する。
【００３０】
また混合音響信号の振幅スペクトルに基づいて混合音響信号中における既知の音響信号が含まれている区間を自動推定し、この区間について補正ステップ、除去ステップ、逆変換ステップ及び合成ステップを実行することができる。混合音響信号中に比較的はっきりと既知の音響信号が含まれている場合（例えば、混合音響信号中で既知の音響信号が単独で鳴っている区間がある場合）には、自動推定により区間を特定することが可能である。自動推定を利用できれば、既知の音響信号の除去作業を速く実施できる。なお混合音響信号中に含まれる既知の音響信号の存在があまりはっきりとしていない場合には、人間が区間を指定するようにしてもよいのは勿論である。
【００３１】
更に混合音響信号中に含まれている音響信号に相当する既知音響信号が複数種類存在する場合には、それら複数の既知音響信号のすべてに関して既知音響信号変換ステップ及び補正ステップを実行し、混合音響信号の振幅スペクトルから複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップを実行して得た除去後振幅スペクトルを用いて、逆変換ステップ及び合成ステップを実行すればよい。このようにすれば混合音響信号中から複数種類のすべての既知音響信号を除去することができる。
【００３２】
また補正ステップを実行する際に、時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つの補正を指定することを可能にする操作パネルを備えたインタフェースを用いることができる。
【００３３】
このインタフェースは、複数の音響信号が混合された混合音響信号の中から、既知の音響信号の成分を除去する際に、混合音響信号中での既知の音響信号の正確な位置を指定できる操作パネルを備えている。
【００３４】
またこのインタフェースは、混合音響信号中で既知の音響信号の周波数特性が時間的に変化しているときに、それらの変化を指定できるように構成することができる。またこのインタフェースは、混合音響信号中で既知の音響信号の音量が時間的に変化しているときに、それらの変化を指定する操作パネルを備えている。
【００３５】
更にこのインタフェースは、混合音響信号中で既知の音響信号が時間軸または周波数軸方向に伸縮しているときに、それらの伸縮を指定する操作パネルを備えている。
【００３６】
またこのインタフェースは、混合音響信号と既知音響信号の対応する区間を指定できるように構成することができる。
【００３７】
本発明の既知音響信号除去装置は、混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める混合音響信号変換手段と、混合音響信号中に含まれている音響信号に相当する既知音響信号を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める既知音響信号変換手段と、混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した既知音響信号の補正振幅スペクトルを求める補正手段と、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する除去手段と、除去手段により得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換手段と、単位波形を合成して既知の音響信号の成分を除去した音響信号を得る合成手段とから構成される。
【００３８】
補正手段には、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つの補正の指定を行えることを可能にするインタフェースを設けることができる。このインタフェースは、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示する画像表示部と、混合音響信号、既知音響信号及び合成手段の出力信号を音響として再生する音響再生部とを備えているのが好ましい。このインタフェースを用いると、画像表示部に表示された混合音響信号の振幅スペクトル及び既知音響信号の振幅スペクトルの画像表示及び／または音響再生部からの再生音に基づいて、混合音響信号中に含まれている既知の音響信号の区間を指定できるだけでなく、この区間について既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つの補正を指定できる。その結果、混合音響信号中に含まれている既知の音響信号の態様が多少複雑であっても、高い除去精度で既知音響信号を除去することができる。
【００３９】
なお画像表示部は、既知の音響信号が含まれている混合音響信号中の区間の振幅スペクトルと、既知音響信号の対応区間の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した補正振幅スペクトルとを時間軸上で位置を合わせて表示できるように構成されているのが好ましい。このようにすると補正振幅スペクトルの状態を視覚で確認できるので、補正スペクトルをどのようにすれば、除去精度を高めることができるのかを、画像を見ながら推測することができるので、除去作業が速くなる。
【００４０】
また画像表示部は、前記混合音響信号の前記振幅スペクトルから前記補正振幅スペクトルを除去した音響信号の振幅スペクトルを画像表示できるように構成すのが好ましい。このようにすると、補正の効果を画像で確認できるので、カットアンドトライ方式で補正を行いながら、混合音響信号中から既知音響信号を最大限除去することができる。
【００４１】
また本発明のプログラムは、既知音響信号除去装置で用いるコンピュータに、混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める混合音響信号変換ステップと、混合音響信号中に含まれている音響信号に相当する既知音響信号を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する除去ステップと、除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、単位波形を合成して既知の音響信号の成分を除去した音響信号を得る合成ステップとを実行させるように構成されている。
【００４２】
【発明の実施の形態】
以下図面を参照して本発明の実施の形態の一例を詳細に説明する。図１は、本発明の既知音響信号除去方法を実施する本発明の既知音響信号除去装置の一実施の形態の構成を示すブロックである。この既知音響信号除去装置は、混合音響信号変換手段１と、既知音響信号変換手段２と、補正手段３と、インタフェース４と、除去手段５と、逆変換手段６と、合成手段７とから構成される。混合音響信号変換手段１は、所望の音声や物音等の音響信号ｓ（ｔ）（ｔは時間軸）に、ＢＧＭ等の音響信号ｂ（ｔ）が混合された混合音響信号ｍ（ｔ）を（この時点ではｓ（ｔ）とｂ（ｔ）は未知でありｍ（ｔ）のみが入力される）、時間周波数表現に変換して混合音響信号の振幅スペクトルＭ（ω，ｔ）と混合音響信号の位相θｍ（ω，ｔ）とを求める。また既知音響信号変換手段２は、除去すべき音響信号ｂ（ｔ）の元となる音源の既知音響信号ｂ’（ｔ）を時間周波数表現に変換して既知音響信号の振幅スペクトルＢ’（ω，ｔ）を求める。そして補正手段３は、混合音響信号の振幅スペクトルＭ（ω，ｔ）に基づいて、混合音響信号の振幅スペクトルＭ（ω，ｔ）に対する既知音響信号の振幅スペクトルＢ’（ω，ｔ）の時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮を補正した既知音響信号の補正振幅スペクトルＢ（ω，ｔ）を求める。自動化のためには、自動で位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮のすべてを自動で推定して補正するように補正手段３を構成することができる。しかしこの実施の形態では、補正手段３は、時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮のすべての補正を、インタフェース４を用いて人間が手作業で指定することができるように構成されている。このインタフェース４は、後に詳しく説明するように、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示をする画像表示部を備えている。そしてインタフェース４は、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとに基づいて混合音響信号中に含まれている既知の音響信号の区間を人間が指定でき且つ前述の補正を指定できるように構成されている。除去手段５は、混合音響信号の振幅スペクトルＭ（ω，ｔ）から既知音響信号の補正振幅スペクトルＢ（ω，ｔ）を除去する。そして逆変換手段６は、除去手段５により得た除去後振幅スペクトルＳ（ω，ｔ）と混合音響信号の位相θｍ（ω，ｔ）とに基づいて時間表現に逆変換を行って単位波形ｓ’（ｔ）を求める。最後に、合成手段７は、逆変換手段６から出力される単位波形ｓ’（ｔ）を合成して既知の音響信号の成分を除去した音響信号ｓ（ｔ）を得る。インタフェース４は、除去手段５から出力された除去後振幅スペクトルＳ（ω，ｔ）を画像表示部（図６参照）に表示する。またインタフェース４は音響再生部を内蔵しており、混合音響信号、既知音響信号及び合成手段７から出力された合成された音響信号を再生する。この構成によれば、補正の効果を画像表示部で視覚により確認し、また音響再生部で聴覚によっても確認できるので、カットアンドトライ方式で補正を行いながら、インタフェース４の表示を見ながら、人間が必要な補正を指定することにより、混合音響信号中から既知音響信号を最大限除去することができる。
【００４３】
次に、図２及び図３を用いて、本発明のより詳細な実施の形態の一例を説明する。図２は、本発明の既知音響信号除去方法を実施する場合のステップを示しており、図３は本発明の既知音響信号除去装置の主要部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。
【００４４】
図４は、ステップＳＴ１０３内の詳細なステップを示すフローチャートである。また図５は、人間がかかわる推定と自動推定のいずれでも推定動作をする場合のステップの詳細を示すフローチャートである。以下これらの図１乃至図５を参照しながら、本発明の方法及び装置における信号除去動作を説明する。
【００４５】
まず以下の説明では、所望の音声や物音等の音響信号ｓ（ｔ）（ｔは時間軸）に、ＢＧＭ等の音響信号ｂ（ｔ）が混合された、混合音響信号ｍ（ｔ）が観測されるものとする。
【００４６】
【数１】

ここでは、ｂ（ｔ）の元となる音源の音響信号ｂ’（ｔ）が既知という条件下で、ｍ（ｔ）が与えられたときに、未知のｓ（ｔ）を求める問題を解く。例えば、人間の声や物音と共にＢＧＭが鳴っているテレビ番組等の音響信号ｍ（ｔ）を入力とし、そのＢＧＭの楽曲が既知でその音響信号ｂ’（ｔ）が別途用意できるときに、そのＢＧＭの音楽音響信号を用いて番組中のＢＧＭを除去し、人間の声や物音だけの音響信号ｓ（ｔ）を得る処理を実現する。
【００４７】
ここで、ｂ（ｔ）とｂ’（ｔ）は完全には一致しないため、
【数２】

の減算に相当する処理では、ｂ’（ｔ）からｂ（ｔ）に相当する成分を推定して、ｓ（ｔ）を求める必要がある。具体的には、既知音響信号ｂ’（ｔ）は、混合音ｍ（ｔ）中では、以下のような変形を伴うことが多いため、補正することでｂ（ｔ）に相当する成分を推定する。補正の対象は、主として以下の時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸あるいは周波数軸方向の伸縮である。
【００４８】
（時間的な位置のずれ）
混合音ｍ（ｔ）中で既知音響信号ｂ’（ｔ）が鳴っている位置は先頭からとは限らない。そこで、既知音響信号ｂ’（ｔ）を時間軸方向にずらし、両者の相対位置を合わせて、混合音から既知音響信号を減算する必要がある。
【００４９】
（周波数特性の時間変化）
混合音ｍ（ｔ）中で既知音響信号ｂ’（ｔ）が鳴る際には、グラフィックイコライザ等の影響で周波数特性が変化することが多い。例えば、低域や高域が強調・減衰されることがある。そこで、ｂ’（ｔ）の周波数特性を同様に変化させて補正し、混合音から既知音響信号を減算する必要がある。
【００５０】
（音量の時間変化）
混合音ｍ（ｔ）中で既知音響信号ｂ’（ｔ）が鳴る際には、混合音作成時のミキサーのフェーダー等の操作で混合比率が変更され、音量が時間変化することが多い。そこで、ｂ’（ｔ）の音量を同様に時間変化させて補正し、混合音から既知音響信号を減算する必要がある。
【００５１】
（時間軸あるいは周波数軸方向の伸縮）
混合音ｍ（ｔ）中で既知音響信号ｂ’（ｔ）が鳴る際には、レコード等の回転数の違いにより、時間軸あるいは周波数軸方向に伸縮されることがある。そこで、ｂ’（ｔ）を時間軸あるいは周波数軸方向に伸縮して補正し、混合音から既知音響信号を減算する必要がある。
【００５２】
本発明の方法においては、図２に示すように、ステップＳＴ１で、まず混合音響信号をフーリエ変換して、混合音響信号の位相（ステップＳＴ２）と混合音響信号の振幅スペクトル（ステップＳＴ３）を求める（混合音響信号変換ステップ）。次に、ステップＳＴ４で混合音響信号中に含まれている音響信号に相当する既知音響信号をフーリエ変換して、既知音響信号の振幅スペクトル（ステップＳＴ５）を求める（既知音響信号変換ステップ）。そしてステップＳＴ６により、混合音響信号の振幅スペクトルに基づいて、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した既知音響信号の補正振幅スペクトル（ステップＳＴ７）を求める（補正ステップ）。次に、ステップＳＴ８で、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去して除去後振幅スペクトル（ステップＳＴ９）を求める（除去ステップ）。そしてステップＳＴ１０により、除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて逆フーリエ変換を行って単位波形を求める（逆変換ステップ）。最後に、ステップＳＴ１１で、単位波形をオーバーラップ・アド法により合成して既知の音響信号の成分を除去した音響信号を得る（合成ステップ）。
【００５３】
また図３のアルゴリズムでは、ステップＳＴ１０１で、混合音響信号をフーリエ変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める。次にステップＳＴ１０２で、混合音響信号中に含まれている音響信号に相当する既知音響信号をフーリエ変換して既知音響信号の振幅スペクトルを求める。次にステップＳＴ１０３で、混合音響信号の振幅スペクトルに基づいて、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した既知音響信号の補正振幅スペクトルを求める。その後、ステップＳＴ１０４で、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去して除去後振幅スペクトルを求める。次にステップＳＴ１０５で、ステップＳＴ１０４で得た除去後振幅スペクトルと混合音響信号の位相とに基づいて逆フーリエ変換を行って単位波形を求め、ステップＳＴ１０６で単位波形をオーバーラップ・アド法により合成して既知の音響信号の成分を除去した音響信号を得る。その後ステップＳＴ１０７で、除去後の音響信号をユーザが満足したと評価したか否かの判定が加わり、判定結果が不満足であれば、ステップＳＴ１０３へと戻って補正がやり直される。ユーザが満足するまでは、ステップＳＴ１０３からステップＳＴ１０７が繰り返される。
【００５４】
以下更に各ステップで実行される内容を詳細に説明する。本発明の実施の形態の方法では、時間領域で波形を減算処理をせずに、時間周波数領域での振幅スペクトル上で減算処理を行う。音響信号ｍ（ｔ），ｂ’（ｔ）に対する窓関数ｈ（ｔ）を用いた時刻ｔにおける短時間フーリエ変換（ＳＴＦＴ）Ｘｍ（ω，ｔ），Ｘｂ’（ω，ｔ）が
【数３】

【数４】

【数５】

【数６】

で定義されるとき、それらの振幅スペクトルＭ（ω，ｔ），Ｂ’（ω，ｔ）は、
【数７】

【数８】

【数９】

【数１０】

で求まる。
【００５５】
現在の実装では、音響信号を標本化周波数４４．１ｋＨｚ、量子化ビット数１６ｂｉｔでＡ／Ｄ変換し、窓関数ｈ（ｔ）として窓幅８１９２点のハニング窓を用いた短時間フーリエ変換（ＳＴＦＴ）を、高速フーリエ変換（ＦＦＴ）によって計算する。その際、高速フーリエ変換（ＦＦＴ）のフレームを４４１点ずつシフトするため、フレームシフト時間（１フレームシフト）は１０ｍｓとなる。このフレームシフトを、処理の時間単位とする。
【００５６】
既知音響信号除去後の所望の音響信号ｓ（ｔ）の振幅スペクトルＳ（ω，ｔ）は、振幅スペクトルＭ（ω，ｔ），Ｂ’（ω，ｔ）から以下の式によって求める。ここで、Ｂ（ω，ｔ）はＢ’（ω，ｔ）を補正した後の振幅スペクトルである。
【００５７】
【数１１】

【数１２】

上記の式における各種パラメータ関数ａ（ｔ），ｇ（ω，ｔ），ｐ（ω），ｑ（ｔ），ｒ（ｔ），ｃ（ω，ｔ）を順に説明する。
【００５８】
ａ（ｔ）は、混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための任意の形状の関数であり、通常、ａ（ｔ）≧１とする。これが大きいほど、減算量が大きくなる。
【００５９】
ｇ（ω，ｔ）は、周波数特性の時間変化と音量の時間変化を補正するための関数であり、
【数１３】

のように定義する。ここで、ｇω（ω，ｔ）は、周波数特性の時間変化を表し、周波数特性の変化がないときはｇω（ω，ｔ）＝１となる。一方、ｇｔ（ｔ）は、音量の時間変化を表し、音量の変化がないときは定数となる。Ｍ（ω，ｔ）とＢ’（ω，ｔ）との音量差は、基本的にｇｔ（ｔ）で補正される。ｇｒ（ｔ）は、主にｇ（ω，ｔ）の値を全体的に持ち上げるための関数で、補正時の微調整に使用される。使用しない場合には、ｇｒ（ｔ）＝０とする。
【００６０】
ｐ（ω）は、周波数軸方向の伸縮を補正するための関数であり、振幅スペクトルＢ’（ω，ｔ）の周波数軸ωを変換することで、周波数軸方向の線形・非線型な伸縮を可能にする。なお、Ｂ’（ω，ｔ）は本来のωの定義域外では０をとり、離散化して実装する際には適宜補間することとする。
【００６１】
ｑ（ｔ）は、時間軸方向の伸縮を補正するための関数であり、振幅スペクトルＢ’（ω，ｔ）の時間軸ｔを変換することで、時間軸方向の線形・非線型な伸縮を可能にする。なお、Ｂ’（ω，ｔ）は本来のｔの定義域外では０をとり、離散化して実装する際には適宜補間することとする。
【００６２】
ｒ（ｔ）は、時間的な位置のずれを補正するための関数であり、通常は定数を設定することで、一定のずれ幅を補正する。ずれ幅が時間変化するときには、各時刻での幅を補正する関数を設定する。なお、Ｂ’（ω，ｔ）は本来のｔの定義域外では０をとり、離散化して実装する際には適宜補間することとする。ｑ（ｔ）とｒ（ｔ）を統合した一つの関数で表現することも可能だが、ここでは、ｑ（ｔ）は連続的な伸縮を表す目的で設定し、ｒ（ｔ）は不連続な位置のずれを表す目的で設定することとする。
【００６３】
ｃ（ω，ｔ）は、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数である。ω方向の形状により、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整することができる。また、ｔ方向の形状により、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。使用しない場合には、ｃ（ω，ｔ）＝１とする。
【００６４】
こうして求めた振幅スペクトルＳ（ω，ｔ）と、混合音ｍ（ｔ）の位相θｍ（ω，ｔ）を用いてＸｓ（ω，ｔ）を求め、それを逆フーリエ変換（ＩＦＦＴ）することで、単位波形ｓ’（ｔ）を得る。
【００６５】
【数１４】

【数１５】

【数１６】

この単位波形ｓ’（ｔ）を、オーバーラップ・アド（ＯｖｅｒｌａｐＡｄｄ）法によって配置することにより、既知音響信号除去後の所望の音響信号ｓ（ｔ）を合成する。
【００６６】
以上では、混合音響信号ｍ（ｔ）の中に、既知音響信号ｂ’（ｔ）が一種類含まれている場合を説明したが、ｂ’１（ｔ），ｂ’２（ｔ），．．．，ｂ’Ｎ（ｔ）のように複数含まれている場合には、それらの振幅スペクトルＢ’１（ω，ｔ），Ｂ’２（ω，ｔ），．．．，Ｂ’Ｎ（ω，ｔ）からそれぞれに応じたパラメータ関数の設定で［数１２］によって求めたＢ１（ω，ｔ），Ｂ２（ω，ｔ），．．．，ＢＮ（ω，ｔ）を用いて、
【数１７】

のようにＳ（ω，ｔ）を求める処理へ拡張できる。その際には、Ｂｎ（ω，ｔ）の各種パラメータ関数を順に設定するか、全体のバランスを取りながら、複数のＢｎ（ω，ｔ）の各種パラメータ関数を平行して設定する。
【００６７】
また、以上では、モノラル信号を対象に説明したが、ステレオ信号は、左右を混合してモノラル信号に変換して適用してもよいし、ステレオ信号の左右の各信号に対して適用してもよい。また、ステレオ信号中の音源方向を利用して、適用してもよい。
【００６８】
上記各種パラメータ関数の設定について説明する。本発明の方法を適用する際に、［数１１］、［数１２］、［数１３］の各種パラメータ関数ａ（ｔ），ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ），ｇｒ（ｔ）），ｐ（ω），ｑ（ｔ），ｒ（ｔ），ｃ（ω，ｔ）の形状は、自動推定してもよいし、人間が手作業で設定してもよい。あるいは、自動推定後に人間が修正してもよい。以下では、具体的な自動推定方法と、人間の手作業による修正を可能にする既知音響信号除去エディタ上のインタフェース４を用いる場合について説明する。
【００６９】
最初に、［数１１］、［数１２］、［数１３］の各種パラメータ関数ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ）），ｐ（ω），ｑ（ｔ），ｒ（ｔ）の形状を推定する方法を図４を用いて以下に述べる。まずステップＳＴ２０１でＢＧＭ区間ψの集合Ψの指定・自動推定を行い、ステップＳＴ２０２でｐ（ω），ｑ（ｔ）の自動推定を行い、ステップＳＴ２０３でｇω（ω，ｔ），ｇｔ（ｔ），ｒ（ｔ）の自動推定を行う。そして推定結果のパラメータ関数が収束するまでこれらのステップが継続される（ステップＳＴ２０４）。ステップＳＴ２０５以降では、補正動作がインタフェース４を用いて実行される。
【００７０】
ｇ（ω，ｔ）の推定では、まず、周波数特性の時間変化ｇω（ω，ｔ）を推定し、次に、音量の時間変化ｇｔ（ｔ）を推定する。ただし、ｇ（ω，ｔ）の推定に先立ち、ｐ（ω），ｑ（ｔ），ｒ（ｔ）は決定されている必要がある。ここでは便宜上、Ｂ’（ｐ（ω），ｑ（ｔ）＋ｒ（ｔ））をＢ’（ω，ｔ）と記述する。
【００７１】
周波数特性の時間変化ｇω（ω，ｔ）の推定では、原則として、人間の声や物音だけの音響信号ｓ（ｔ）がほとんど含まれていない区間（以下、ＢＧＭ区間と呼ぶ）を用いる。ＢＧＭ区間は、複数用いてもよい。ＢＧＭ区間では、混合音ｍ（ｔ）の振幅スペクトルＭ（ω，ｔ）は、既知音響信号ｂ’（ｔ）によるＢＧＭに相当する振幅スペクトルＢ’（ω，ｔ）に由来の成分がほとんどとなる。そこで、周波数特性が時間変化せずに定常、すなわち、ｇω（ω，ｔ）＝ｇ’ω（ω）と仮定できるときには、ｇ’ω（ω）を
【数１８】

により推定する。ただし、ψは一つのＢＧＭ区間（時間軸上の領域）を表し、Ψは、ψの集合とする。一方、周波数特性が時間変化していくときには、ｇω（ω，ｔ）の時刻ｔに近いＢＧＭ区間ψから
【数１９】

を求め、補間（内挿あるいは外挿）することによりｇω（ω，ｔ）を推定する（両側にＢＧＭ区間があるときには、両側から内挿する）。最後に、ｇω（ω，ｔ）を周波数軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
【００７２】
音量の時間変化ｇｔ（ｔ）の推定では、Ｍ（ω，ｔ）と、周波数特性補正後のｇω（ω，ｔ）Ｂ’（ω，ｔ）の各時刻における振幅を比較する。しかし、Ｍ（ω，ｔ）には、Ｂ’（ω，ｔ）に由来の成分以外に、ｓ（ｔ）に由来の成分も含まれる。そこで、周波数軸ωを複数の周波数帯域Φに分割し、各帯域φ（φ∈Φ）ごとに
【数２０】

を求める（Φはφの集合を表す）。Φとして任意の分割が適用できるが、例えば、音楽で用いる平均律の１オクターブごとに分割（対数周波数軸上で等間隔に分割）するとよい。そして、ｇｔ（ｔ）は、ｍｉｎ（ｇ’ｔ（φ，ｔ））あるいは
【数２１】

により推定する。ｍｉｎ（ｇ’ｔ（φ，ｔ））の場合には、Ｍ（ω，ｔ）とｇω（ω，ｔ）Ｂ’（ω，ｔ）が一番が近い周波数帯域において振幅が比較されることになる。最後に、ｇｔ（ｔ）を時間軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
【００７３】
ｐ（ω），ｑ（ｔ）の推定では、Ｍ（ω，ｔ）とＢ（ω，ｔ）との距離（例えば、対数スペクトル距離等）が最小となるように、ｐ（ω）とｑ（ｔ）を変更する。その際、Ｂ（ω，ｔ）＝ａ（ｔ）ｇ（ω，ｔ）Ｂ’（ｐ（ω），ｑ（ｔ）＋ｒ（ｔ））の右辺のうち、ａ（ｔ）＝１とし、
１．（推定途中の）ｐ（ω）とｑ（ｔ）を仮に固定した上で、ｇ（ω，ｔ）とｒ（ｔ）を推定
２．（推定途中の）ｇ（ω，ｔ）とｒ（ｔ）を仮に固定した上で、ｐ（ω）とｑ（ｔ）を推定
の二つを反復的に繰り返して、適切なｐ（ω），ｑ（ｔ）を推定する。これは、音響信号の全区間に対して一度に実行せず、時間軸を分割して、区分的におこなうとよい。初期値は前後の区間の連続性を考慮して定める。また、ＢＧＭ区間ψの集合Ψを用いて、それらの複数の区間におけるＭ（ω，ｔ）とＢ（ω，ｔ）との対応関係の時間軸を合わせるように、ｐ（ω），ｑ（ｔ）を推定するとよい。
【００７４】
ｒ（ｔ）の推定では、原則として、ＢＧＭ区間ψの集合Ψを用いて、それらの区間におけるＭ（ω，ｔ）とＢ（ω，ｔ）との対応関係の時間軸を合わせるように、ｒ（ｔ）を求める。ｒ（ｔ）は定数であることが多いが、既知音響信号ｂ’（ｔ）の一部区間が使われずに、飛び飛びで使用されながら混合されていたとき等には、その区間を飛ばすようにｒ（ｔ）が不連続関数となる。
【００７５】
上記のｇ（ω，ｔ）やｒ（ｔ）等の推定では、ＢＧＭ区間ψの集合Ψを用いていた。これは、人間が手作業で指定してもよい。あるいは、手作業で指定したＢＧＭ区間の集合に自動推定で追加してもよい。図５は、人間が手作業で指定する場合と自動推定する場合のいずれでも対応するプログラムのソフトウエアのアルゴリズムを示すフローチャートである。自動推定する場合には、図５のステップＳＴ３０２〜ＳＴ３１３を実行する。Ψの自動推定では、基本的に、どこか一箇所のＢＧＭ区間ψ１を手掛かりとして、残りのＢＧＭ区間の集合を求める。まず、最初のψ１は、人間が手作業で指定するか、音響信号の時間軸を細かく分割して、それらの短い分割区間の対応関係を判定して求める。人間が手作業で指定しない場合、Ｂ（ω，ｔ）を仮に計算し（ステップＳＴ３０２）、Ｍ（ω，ｔ）とＢ（ω，ｔ）を細かく分割した時間窓の振幅スペクトル間の距離（類似度に相当）を計算する（ステップＳＴ３０３）。そして、その最小距離の時間窓の対応関係を調べ（ステップＳＴ３０４）、その結果を含む区間をψ１に設定して初期のΨとする（ステップＳＴ３０５）。次に、ψ１を含むΨに基づいて、Ｂ（ω，ｔ）の各種パラメータ関数を推定し（ステップＳＴ３０６乃至ステップＳＴ３０９）、Ｂ（ω，ｔ）を計算する（ステップＳＴ３１０）。各パラメータの推定値が収束しているかを調べ、収束していない場合には、Ψの全区間に対して、Ｍ（ω，ｔ）とＢ（ω，ｔ）との振幅スペクトル間の距離（類似度に相当）を求める。ここでその最大値（もしくは平均値）の定数倍をＢＧＭ区間判定用閾値とする（ステップＳＴ３１２）。そして、ＢＧＭ区間判定用閾値以下の距離を持つ区間を検出し、新たにΨに追加する（ステップＳＴ３１３）。ただし、追加には上限を設けることもできる。この推定と追加を繰り返すことで、Ψが更新され、各種パラメータ関数が適切に求まっていく。ここで、Ｍ（ω，ｔ）とＢ（ω，ｔ）との距離としては、例えば、二乗平均対数スペクトル距離
【数２２】

が有効である。
【００７６】
次に既知音響信号除去エディタ上のインタフェースによる各種パラメータ関数の調整について説明する。
【００７７】
［数１１］〜［数１３］のすべてのパラメータ関数ａ（ｔ），ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ），ｇｒ（ｔ）），ｐ（ω），ｑ（ｔ），ｒ（ｔ），ｃ（ω，ｔ）の形状を、人間が手作業で設定できる既知音響信号除去エディタを以下に説明する。エディタのユーザは、最初から任意の関数形状を描いて指定してもよいし、最初はまず自動推定をして、その結果を修正してもよい。
【００７８】
エディタのインタフェース４の画面構成を図６に示す。本エディタは、大別して、混合音響信号ｍ（ｔ）操作用のサブウィンドウＷ１、既知音響信号ｂ’（ｔ）操作用のサブウィンドウＷ２、既知音響信号除去後の所望の音響信号ｓ（ｔ）操作用のサブウィンドウＷ３の三つで構成されている。既知音響信号ｂ’（ｔ）が複数種類ある場合には、切り替えスイッチＷ２Ｓにより、サブウィンドウＷ２で操作する既知音響信号ｂ’（ｔ）を切り替えることができる。このインタフェースでは、図４に示したステップＳＴ２０５からステップＳＴ２１９が実行される。
【００７９】
まず、全サブウィンドウに共通の機能を述べる。操作範囲スライダーＰ１は、音響信号中のどこを現在表示しているかを表す。カーソルＰ２は、現在の操作対象の時間軸上の位置を表す。アイコン化（折り畳み）ボタンＰ３は、これを押すと一時的にそのボタンの属するサブウィンドウが折り畳まれ、小さくなる。現在操作対象以外の未使用のサブウィンドウを隠して、狭い画面を有効活用できる。
フロート化（拡大）ボタンＰ４は、これを押すと一時的にそのボタンの属するサブウィンドウが、親ウィンドウから切り離され（フロート化）、さらに拡大されて操作・編集が容易になる。フロート化（拡大）ボタンＰ４しか描かれていない場合には、このボタンを押すと、それに関連づけられたサブウィンドウがフロート化されて新たに出現する。
【００８０】
サブウィンドウＷ１には、混合音響信号ｍ（ｔ）のパワーのグラフＥ１とその振幅スペクトルＭ（ω，ｔ）のグラフＥ２が表示されている。サブウィンドウＷ２には、既知音響信号ｂ’（ｔ）のパワーのグラフＥ３とその振幅スペクトルＢ’（ω，ｔ）のグラフＥ４が表示されている。サブウィンドウＷ３には、既知音響信号除去後の音響信号ｓ（ｔ）のパワーのグラフＥ５とその振幅スペクトルＳ（ω，ｔ）のグラフＥ６が表示されている。各振幅スペクトルでは、左側に濃淡で振幅が描かれ（横軸が時間軸、縦軸が周波数軸）、右側にカーソル位置での振幅が描かれている（横軸がパワー、縦軸が周波数軸）。
【００８１】
また再生制御操作パネルＰ５１には、人間が聞いて確認するために、混合音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルＰ５１の操作により、インタフェース４は、内蔵する音響再生部によって混合音響信号を再生する。
【００８２】
既知音響信号ｂ’（ｔ）操作用のサブウィンドウＷ２が操作の中心となるウィンドウであり、［数１２］、［数１３］のすべてのパラメータ関数ａ（ｔ），ｇ（ω，ｔ）（ｇω（ω，ｔ），ｇｔ（ｔ），ｇｒ（ｔ）），ｐ（ω），ｑ（ｔ），ｒ（ｔ）の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
【００８３】
１．周波数特性の時間変化の補正用操作パネルＣ１（Ｅ７の右側）
ｇω（ω，ｔ）を表示・操作するためのパネルで、カーソル位置の時刻ｔでのｇω（ω，ｔ）が描かれている（横軸が大きさ、縦軸が周波数軸）。設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される（ステップＳＴ２０５，ＳＴ２０６）。Ｅ７には、濃淡でｇ（ω，ｔ）の値の大きさが描かれている（横軸が時間軸、縦軸が周波数軸）。
【００８４】
２．音量の時間変化の補正用操作パネルＣ２（Ｅ７の下側）
ｇｔ（ｔ）を表示・操作するためのパネルで、設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される（ステップＳＴ２０７，ＳＴ２０８）。
【００８５】
３．ｇ（ω，ｔ）の値を全体的に持ち上げるための操作パネルＣ３（Ｅ７の下側）
ｇｒ（ｔ）を表示・操作するためのパネルで、設定操作結果は、ｇ（ω，ｔ）の表示パネルＥ７に即座に反映される（ステップＳＴ２０９，ＳＴ２１０）。
【００８６】
４．混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための操作パネルＣ４
ａ（ｔ）を表示・操作するためのパネルである。このパネルを操作するとａ（ｔ）の変更が即座に表示に反映する（ステップＳＴ２１１，ＳＴ２１２）。
【００８７】
５．周波数軸方向の伸縮を補正するための操作パネルＣ５
ｐ（ω）を表示・操作するためのパネルである。このパネルを操作するとｐ（ｔ）の変更が即座に表示に反映する（ステップＳＴ２１３，ＳＴ２１４）。
【００８８】
６．時間軸方向の伸縮を補正するための操作パネルＣ６
ｑ（ｔ）を表示・操作するためのパネルである。このパネルを操作するとｑ（ｔ）の変更が即座に表示に反映する（ステップＳＴ２１５，ＳＴ２１６）。
【００８９】
７．時間的な位置のずれを補正するための操作パネルＣ７
ｒ（ｔ）を表示・操作するためのパネルである。このパネルを操作するとｒ（ｔ）の変更が即座に表示に反映する（ステップＳＴ２１７，ＳＴ２１８）。
【００９０】
また再生制御操作パネルＰ５２には、人間が聞いて確認するために、既知音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルＰ５２の操作により、インタフェース４は、内蔵する音響再生部によって既知音響信号を再生する。
【００９１】
次に、既知音響信号除去後の音響信号ｓ（ｔ）操作用のサブウィンドウＷ３では、［数１１］のパラメータ関数ｃ（ω，ｔ）の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
【００９２】
１．グラフィックイコライザ（ＧＥＱ）操作パネルＣ８（Ｅ８の右側）
ｃ（ω，ｔ）のω方向の形状を表示・操作するためのパネルで、カーソル位置の時刻ｔでのｃ（ω，ｔ）が描かれている（横軸が大きさ、縦軸が周波数軸）。設定操作結果は、ｃ（ω，ｔ）の表示パネルＥ８に即座に反映される。Ｅ８には、濃淡でｃ（ω，ｔ）の値の大きさが描かれている（横軸が時間軸、縦軸が周波数軸）。
【００９３】
２．ボリュームフェーダー操作パネルＣ９（Ｅ８の下側）
ｃ（ω，ｔ）のｔ方向の形状を表示・操作するためのパネルで、設定操作結果は、ｃ（ω，ｔ）の表示パネルＥ８に即座に反映される。
【００９４】
また再生制御操作パネルＰ５３には、人間が聞いて確認するために、合成した音響信号（合成手段７の出力）の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルＰ５３の操作により、インタフェース４は、内蔵する音響再生部によって合成した音響信号を再生する。
【００９５】
次に本実施の形態の実装について説明する。まず音声や物音等の音響信号ｓ（ｔ）にＢＧＭ等の音響信号ｂ（ｔ）が加えられている混合音響信号ｍ（ｔ）が観測されたときに、ｂ（ｔ）の元となる音源の音響信号ｂ’（ｔ）が既知という条件下で、未知のｓ（ｔ）を求めることが可能なプログラムを、各種オペレーティングシステム（Ｌｉｎｕｘ２．４，ＳＧＩＩＲＩＸ６．５，ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓＸＰ：登録商標）上に実装した。本プログラムに、ｍ（ｔ）とｂ’（ｔ）が収録されたオーディオファイルを与えると、ｓ（ｔ）のオーディオファイルを得ることができる。
【００９６】
人間の音声や物音にバックグラウンドミュージック（ＢＧＭ）が加えられた様々な混合音に対して実験した結果、そのＢＧＭの原曲の音響信号を用いて、混合音中のＢＧＭを除去し、人間の音声や物音が得られることを確認した。ドラムスの鳴っている曲や鳴っていない曲、ポピュラー音楽やクラシック音楽等の様々なジャンルの曲がＢＧＭとして含まれていても、除去が可能であった。
【００９７】
実験結果の例として、二人の男女の対話のＢＧＭにクラシック音楽が鳴っている混合音を実際に処理した結果を図７〜図１２に示す。図７、図８に示す混合音響信号ｍ（ｔ）を入力として、図９、図１０に示す元音源の既知音響信号ｂ’（ｔ）を用いてＢＧＭ成分を除去した結果が、図１１、図１２に示す既知音響信号除去後の音響信号ｓ（ｔ）となる。この処理結果の例の混合音は、「ＲＷＣＰ音声対話データベース」から抜粋した二人の男女の対話の音響信号に、「ＲＷＣ研究用音楽データベース」から抜粋したクラシック音楽の音響信号が加えられたものである。
【００９８】
【発明の効果】
本発明によれば、補正ステップにより、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した既知音響信号の補正振幅スペクトルを求め、この補正振幅スペクトルを混合音響信号の振幅スペクトルから除去するため、混合音響信号中に非定常な雑音として含まれている既知音響信号を高い精度で除去することができる利点が得られる。
【００９９】
また本発明によれば、人間の声や物音の背景にＢＧＭが鳴っているテレビ番組や映画等の音響信号を入力とすると、別途用意したＢＧＭの音楽音響信号を用いて番組中のＢＧＭを除去し、人間の声や物音だけの音響信号を得ることが可能となる。
【０１００】
更に、ＢＧＭ除去後の音響信号に、別の音楽をＢＧＭとして付与することで、テレビ番組や映画等の音楽を差し換えた再利用が可能となる。
【０１０１】
既知音響信号は、任意の音響信号でよいため、音楽のジャンルを問わず、ボーカルの有無を問わず、伴奏の有無を問わずに適用できる。また、音楽に限らず、定常雑音及び非定常雑音を含めた、任意の既知の雑音に適用できる。
【０１０２】
また、既知音響信号除去エディタ上のインタフェースを使用して、人間が手作業で修正することで、実務の現場でより高品質な除去作業が実現できる。
【図面の簡単な説明】
【図１】本発明の既知音響信号除去装置の実施の形態の一例の構成を示すブロック図である。
【図２】本発明の既知音響信号除去方法を実施する場合のステップを示す図である。
【図３】本発明の既知音響信号除去装置の主要部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。
【図４】ステップＳＴ１０３内の詳細なステップを示すフローチャートである。
【図５】人間がかかわる推定と自動推定のいずれでも推定動作をする場合のステップの詳細を示すフローチャートである。
【図６】エディタのインタフェースの画面構成を示す図である。
【図７】混合音響信号のパワーの時間変化を示す図である。
【図８】混合音響信号の振幅スペクトルの時間変化を示す図である。
【図９】ＢＧＭの元となる音源の既知音響信号のパワーの時間変化を示す図である。
【図１０】ＢＧＭの元となる音源の既知音響信号の振幅スペクトルの時間変化を示す図である。
【図１１】既知音響信号除去後の所望の音響信号のパワーの時間変化を示す図である。
【図１２】既知音響信号除去後の所望の音響信号の振幅スペクトルの時間変化を示す図である。
【符号の説明】
Ｗ１，Ｗ２，Ｗ３サブウィンドウ
Ｐ１操作範囲スライダー
Ｐ２カーソル
Ｐ３，Ｐ４ボタン
Ｐ５１〜Ｐ５３再生制御操作パネル
Ｅ１〜Ｅ６グラフ
Ｅ７，Ｅ８表示パネル
Ｃ１〜Ｃ９操作パネル

Claims

複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去するために下記の各ステップをコンピュータで実施する既知音響信号除去方法であって、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換ステップと、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去ステップと、
前記除去ステップにより得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成ステップとからなり、
前記補正ステップでは、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正することを特徴とする既知音響信号除去方法。
前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示する画像表示ステップと、
前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音として音響再生する音響再生ステップとを更に備え、
前記画像表示と前記音響再生とに基づいて人間が前記混合音響信号中における前記既知の音響信号が含まれている区間を定め、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを実行することを特徴とする請求項１に記載の既知音響信号除去方法。
前記混合音響信号の振幅スペクトルに基づいて前記混合音響信号中における前記既知音響信号が含まれている区間を自動推定し、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを実行することを特徴とする請求項１に記載の既知音響信号除去方法。
前記混合音響信号中に含まれている前記既知音響信号に相当する複数の前記既知音響信号が存在する場合に、前記複数の既知音響信号のすべてに関して前記既知音響信号変換ステップ及び前記補正ステップを実行し、
前記混合音響信号の振幅スペクトルから前記複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップによって得た除去後振幅スペクトルを用いて、前記逆変換ステップ及び前記合成ステップを実行する請求項１に記載の既知音響信号除去方法。
前記補正ステップを実行する際に、前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも１つの補正を指定することを可能にする操作パネルを備えたインタフェースを用いることを特徴とする請求項１に記載の既知音響信号除去方法。
前記インタフェースは、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示部を備えていることを特徴とする請求項５に記載の既知音響信号除去方法。
前記インタフェースは、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生部を備えていることを特徴とする請求項５に記載の既知音響信号除去方法。
前記インタフェースは、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示部と、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生部とを備えていることを特徴とする請求項５に記載の既知音響信号除去方法。
複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去する既知音響信号除去装置であって、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換手段と、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換手段と、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正手段と、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去手段と、
前記除去手段により得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換手段と、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成手段とからなり、
前記補正手段では、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正することを特徴とする既知音響信号除去装置。
前記補正手段は、前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも１つの補正を指定することを可能にする操作パネルを備えたインタフェースを備えていることを特徴とする請求項９に記載の既知音響信号除去装置。
前記インタフェースは、前記混合音響信号の前記振幅スペクトルと前記既知音響信号の前記振幅スペクトルとを視覚により対比できるように画像表示する画像表示部と、前記混合音響信号、前記既知音響信号及び前記合成手段の出力信号を音響として再生する音響再生部とを備え、
前記画像表示部に表示された前記混合音響信号の前記振幅スペクトルと前記既知音響信号の前記振幅スペクトルと、前記音響再生部からの再生音とに基づいて、前記混合音響信号中に含まれている前記既知の音響信号の区間の指定と、前記既知音響信号の振幅スペクトルの前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも１つの補正の指定を行うための操作パネルを備えていることを特徴とする請求項１０に記載の既知音響信号除去装置。
前記画像表示部は、前記既知の音響信号が含まれている前記混合音響信号中の区間の前記振幅スペクトルと、前記混合音響信号中に含まれている前記既知の音響信号の対応区間の前記既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも１つを補正した補正振幅スペクトルとを時間軸上で位置を合わせて表示できるように構成されている請求項１１に記載の既知音響信号除去装置。
前記画像表示部は、前記混合音響信号の前記振幅スペクトルから前記補正振幅スペクトルを除去した音響信号の振幅スペクトルを画像表示できるように構成されている請求項１１または１２に記載の既知音響信号除去装置。
複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去する既知音響信号除去装置で用いるコンピュータに、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換ステップと、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去ステップと、
前記除去ステップにより得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成ステップとを実行させ、
前記補正ステップでは、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正する既知音響信号除去装置用プログラム。
前記コンピュータに、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示ステップを更に実行させることを特徴とする請求項１４に記載の既知音響信号除去装置用プログラム。
前記コンピュータに、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生ステップを更に実行させることを特徴とする請求項１４に記載の既知音響信号除去装置用プログラム。
前記混合音響信号の振幅スペクトルに基づいて前記混合音響信号中における前記既知の音響信号が含まれている区間を自動推定するステップを前記コンピュータに更に実行させ、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを前記コンピュータに実行させることを特徴とする請求項１４に記載の既知音響信号除去装置用プログラム。
前記混合音響信号中に含まれている前記既知の音響信号に相当する複数の前記既知音響信号が存在する場合に、
前記複数の既知音響信号のすべてに関して前記既知音響信号変換ステップ及び前記補正ステップを前記コンピュータに実行させ、
前記混合音響信号の振幅スペクトルから前記複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップによって得た除去後振幅スペクトルを用いて、前記逆変換ステップ及び前記合成ステップを前記コンピュータに実行させることを特徴とする請求項１４に記載の既知音響信号除去装置用プログラム。