JP4272107B2

JP4272107B2 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Info

Publication number: JP4272107B2
Application number: JP2004144177A
Authority: JP
Inventors: 安優中田; 智之岡村; 裕信高橋
Original assignee: 株式会社フジテレビジョン
Priority date: 2004-05-13
Filing date: 2004-05-13
Publication date: 2009-06-03
Anticipated expiration: 2024-05-13
Also published as: JP2005326587A; WO2005112007A1

Description

本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、コンテンツ中に混合されたＢＧＭや音声等の音響を除去する音響信号除去装置、音響信号除去方法及び音響信号除去プログラムに関する。

近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が混合している映像素材から、使用されている音楽だけを消去することで、新たな素材として活用することがある。このように、既存の混合音響から特定の音声を減算する技術としては、例えば特許文献１に開示された技術がある。
特開２０００−３１２３９５号公報

しかしながら、放送番組の音声作成時には、製作意図に合わせて周波数特性や音量を調整する場合が多い。このため、音の位相が予測不能な変化をしているために、単に電子的な減算処理を行ったのみでは、適切に消去することはできない。

詳述すると、除去しようとする音響が、例えば番組のＢＧＭのような既知の音楽であっても、番組作成時に、番組効果のためにＢＧＭの低音や高音の強調や減衰を行ったり、録音・再生を繰り返したりする過程で、ＢＧＭの周波数特性が変化している場合もあり、単純に減算処理をすることはできない。

本発明は、上記問題を解決すべくなされたものであり、混合音響中から既知の音響を消去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しようとする音響の変化を自動的且つ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プログラムを提供することを目的とする。

上記課題を解決するために、本発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音響振幅スペクトルに対する既知音響振幅スペクトルの時間的位置を変位させ、既知音響振幅スペクトルと、混合音響振幅スペクトル内に混合された既知音響振幅スペクトルとの時間位置を合致させ、時間位置が変位された既知音響振幅スペクトルを、混合音響振幅スペクトルから除去する。

特に、上記一致度の算定においては、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。

このような本発明によれば、既知音響が含まれている混合音響から、既知音響を除去する際に行っていた、混合音響と既知音響の開始時刻を一致させる処理を、自動で且つ精度良く行うことができる。

この結果、従来より行っていた、正確に時刻を一致させるための、既知音響だけの区間を指定するオペレータによる手動の作業を省略することができる。また、混合音響中に既知音響だけの区間がない場合や発見できない場合であっても、既知音の除去処理を実行することが可能となる。

また、他の発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、既知音響振幅スペクトルの周波数特性を補正し、周波数特性が補正された既知音響振幅スペクトルを、混合音響振幅スペクトルから除去する。

本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。

このような本発明によれば、既知音響が含まれている混合音響から、既知音響を除去する際に行っていた、既知音響振幅スペクトルの周波数特性を補正する処理を、自動で且つ精度良く行うことができる。

特に、本発明によれば、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、全ての定常ブロックについて、スペクトル強度点の乖離度から、混合音響と既知音響との一致度を推定するため、混合音響中に既知音響以外の大きな音が含まれている場合であっても、強度推定を実際よりも大きく推定する等の誤処理が低減され、既知音響を実際の音量（強度や振幅スペクトル）より大きいとして、過剰に音響信号を除去することがなく、処理後の音声が劣化するのを回避することができる。

この結果、混合音響中に含まれる既知音響が、既知音響として与えた音楽ＣＤ等の音を、制作意図に合わせて周波数特性や音量を調整して、他の音と混合して制作されている場合であっても、混合音の各時刻に含まれる既知音響の、強度とその周波数特性を正確に推定することかできる。

これにより、従来行っていた、既知音響を調整した周波数特性を推定するための、混合音響の中における既知音響のみが含まれている時間区間を、オペレータが聴いて選択する作業などを省略することができ、また、混合音響中で音楽だけの区間がない場合であっても、既知音響の除去を確実に行うことができる。

さらに、本発明では、推定のためにサンプルを取得する区間の指定を行わず、混合音響全域について一致度を算定することから、サンプル区間のみで周波数特性を推定することによる、その区間の既知音響に含まれない周波数についての特性が予測できないという問題を解決することができ、この問題を回避するために従来行っていた、周波数ごとに飛び飛びにしか得られない特性を、補完したり、なめらかにしたりといった処理を不要とすることができるとともに、これら従来の処理に付随していた、周波数補正グラフを表示し、オペレータが手動で修正するという作業等を省略することができる。この結果、既知音響除去作業の効率化、高精度化を図ることができる。

本発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する。

このような本発明によれば、既知音響のみの範囲を混合音響ごと除去するため、混合音響中における既知音響のみの時間区間において、既知音響の推定誤差等により除去されない音が残ってしまうという問題を解消することができる。

このような本発明によれば、音響信号において振幅スペクトルは、位相に依存しないため、位相が変化してもその影響を受けることなく、混合音響信号中の既知音響信号の周波数特性や音量変化を、適切に推定することができる。この結果、本発明によれば、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽ＣＤ等の音のデータを使って、音楽だけを的確に消去することができる。なお、本発明は、音楽に限らず、番組作成時に混入した背景雑音等も、雑音のみが同時に録音された音のデータを使って消去することができる。

特に、本発明によれば、混合音響に含まれる既知音響について、自動的にその開始時刻や周波数特性と強度を自動的に推定することにより、従来、既知音響の推定を行うために行っていた既知音響のみの範囲の指定等、繁雑な作業を省略し、効率よく既知音響の除去を行うことができる。

［既知音響除去システムの構成］
本発明の実施形態について図面を参照しながら説明する。図１は、本実施形態に係る既知音響除去システムの全体構成を示すブロック図である。

図１に示すように、本実施形態に係る既知音響除去システムは、混合音響や既知音響を入力する入力I/F１及びＤＶキャプチャー２を備えている。これら入力I/F１及びＤＶキャプチャー２から入力されたファイル（例えば、ＡＶＩファイルやＷＡＶファイル）は、記憶装置５に蓄積される。入力I/F１は、ＣＤプレーヤーやＭＤプレーヤー等の再生装置から音響信号を取り込むインターフェースである。また、ＤＶキャプチャー２は、映像や音声が混合した混合音響信号である消去対象用のＭＩＸ音声を取り出すインターフェースである。

また、既知音響除去システムは、記憶装置５に蓄積された各種データに対して音声データ抽出処理や音声変換処理を行う音声変換部（PreWav/PostWav）４及び音声データ抽出部（DVReMix）３とを備えている。これら音声変換部４及び音声データ抽出部３は、指定されたファイル（ＡＶＩファイルやＷＡＶファイル）を記憶装置５から読み出し、所定の処理を施した後、処理後のファイル（ＷＡＶファイル）を記憶装置５に蓄積する。

音声変換部４は、周波数変換、及びステレオからモノラルの分離を行う（Ｓ１０３）。すなわち、音響除去エンジン１００のフォーマットに合うように、ＷＡＶファイルを左右２チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、２つのＷＡＶファイル（出力ファイル名：左チャンネルがＭＩＸ-L.ＷＡＶ、右チャンネルがＭＩＸ-R.ＷＡＶ）として生成し、記憶装置５に蓄積する。

音声データ抽出部３は、映像データ及び音声データから構成されるコンテンツから音声データのみを抽出するモジュールであり、本実施形態では、ＡＶＩファイルから音声データをＷＡＶ形式で抽出する。ここでのＷＡＶファイルは、ステレオ形式であり、そのサンプリングレートはＤＶの音声と同じ32kHz又は48kHzである。この抽出されたＷＡＶファイルは、記憶装置５に蓄積される。

そして、既知音響除去システムは、混合音響信号から既知音響信号を除去する音響除去エンジン１００を備えている。この音響除去エンジン１００は、記憶装置５に蓄積された各音声ファイル（ＷＡＶファイル）を読み出し、除去したデータや除去処理に係る各種データを、一時メモリ７を介して、記憶装置５に蓄積したり、出力I/F８を通じて、モニタ１０やスピーカー１１から出力する。モニタ１０は、ユーザーインターフェース６による操作や処理結果を表示するＧＵＩを表示し、スピーカー１１は、ユーザーインターフェース６によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する。

また、音響除去エンジン１００は、キーボード６ａやマウス６ｂ等の入力デバイスによるユーザー操作に基づく操作信号を、ユーザーインターフェース６を通じて取得し、この操作信号に基づいて、各種処理を行う。この音響除去エンジン１００による既知音響除去処理については、後述する。

また、既知音響除去システムは、同期制御部９を備えており、これにより記憶装置５からのデータの読み出し、音響除去エンジン１００による除去処理、メモリ７や出力I/F８によるデータの入出力を同期させる。これにより、モニタに表示される映像と、スピーカー１１から出力される音声を、音響除去エンジン１００による処理やユーザーインターフェース６におけるユーザー操作に同期させることができる。

さらに、音響除去エンジン１００は、パラメータの設定に際し、そのデフォルト値をシミュレーションにより設定し、ユーザーの作業を支援するシミュレーション部１４を備えている。

具体的に、シミュレーション部１４は、一定振幅の単音（480Hz）を混合音として入力し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを比較して差分量を計測し、その差分量が０となるように、ユーザーインターフェース６における除去強度のデフォルト値を設定する。

［既知音響除去システムの動作］
以上説明した構成を有する既知音響除去システムは、以下のように動作する。図２は、既知音響除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声がステレオで記録された映像ファイル（ＤＶ）を混合音響（ＭＩＸ音声）とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中にＢＧＭとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、（１）前処理、（２）音楽消去処理、（３）後処理に大別される。以下、各処理について詳述する。

（１）前処理
前処理では、ＤＶから消去対象用のＭＩＸ音声を取り出すとともに、ＢＧＭ用音声（オリジナル曲）を用意する。具体的には、ＤＶキャプチャー２からＤＶ用のビデオ編集ソフトを使用して動画をキャプチャーし（Ｓ１０１）、このキャプチャーしたファイルを、タイプ１のＡＶＩファイル（出力ファイル名：ＭＩＸ.ＡＶＩ）として、記憶装置５に蓄積する。

次いで、音声データ抽出部（DVReMix）３により、ＡＶＩファイルから音声データをＷＡＶ形式（出力ファイル名：ＭＩＸ.ＷＡＶ）で抽出する（Ｓ１０２）。ここでのＷＡＶファイルは、ステレオ形式であり、そのサンプリングレートはＤＶの音声と同じ32kHz又は48kHzである。この抽出されたＷＡＶファイルは、記憶装置５に蓄積される。

その後、音声変換部（PreWav）４により、周波数変換及び、ステレオからモノラルの分離を行う（Ｓ１０３）。すなわち、音響除去エンジン１００のフォーマットに合うように、ＷＡＶファイルを左右２チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、２つのＷＡＶファイル（出力ファイル名：左チャンネルがＭＩＸ-L.ＷＡＶ、右チャンネルがＭＩＸ-R.ＷＡＶ）として生成し、記憶装置５に蓄積する。また、このステップＳ１０３では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル（ファイル名：ＭＩＸ.time）に出力し、記憶装置５に蓄積する。

これらステップＳ１０１〜Ｓ１０３と並行して、オリジナル曲の取り込みを行う（Ｓ１０４）。具体的には、オリジナル曲（ＢＧＭ曲）をＣＤなどから取り込み、44.1kHzステレオのＷＡＶファイル（出力ファイル名：ＢＧＭ.ＷＡＶ）として、記憶装置５に蓄積する。次いで、音声変換部（PreWav）３により、周波数変換、ステレオからモノラルの分離を行う（Ｓ１０５）。すなわち、音響除去エンジン１００のフォーマットに合うように、ステップＳ１０４で取り込んだＷＡＶファイルを、左右２チャンネルに分離し、サンプリングレートを48kHzに変換し２つのＷＡＶファイル（出力ファイル名：左チャンネルがＢＧＭ-L.ＷＡＶ、右チャンネルがＢＧＭ-R.ＷＡＶ）として、記憶装置５に蓄積する。

（２）音楽消去処理
音楽消去処理では、除去エンジンプログラム（GEQ）１００により、ＭＩＸ音声からＢＧＭ音声を消去する（Ｓ１０６）。この消去後出力される音声ファイルは、左右チャンネルともにモノラル48kHzのＷＡＶファイル（出力ファイル名：左チャンネルがERASE-L.ＷＡＶ、右チャンネルがERASE-R.ＷＡＶ）として、メモリ７又は記憶装置５に蓄積される。

（３）後処理
後処理では、除去エンジンプログラムで消去した音声を、ＤＶ用の音声に変換し、ＤＶ（ＡＶＩファイル）に復元する。先ず、音声変換部（PostWav）３により、周波数変換、及びモノラルからステレオへの変換を行う（Ｓ１０７)。すなわち、音響除去エンジン１００から出力された左右２チャンネルのＷＡＶファイルをステレオに合成し、必要ならば元のＤＶの音声と同じサンプリングレートに変換し、ＷＡＶファイル（ファイル名：ERASE.ＷＡＶ）として、記憶装置５に蓄積する。次いで、音声データ抽出部（DVReMix）４において、キャプチャーしたＡＶＩファイル（ＢＧＭ.ＡＶＩ）の音声を、消去後の音声(ERASE.ＷＡＶ)と入れ替え、除去後音響ファイル（ファイル名：ERASE.ＡＶＩ）として、記憶装置５に蓄積する。

なお、例えば、１回目の作業で、ステレオ放送の左音声（Ｌ）について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース６におけるデフォルト値として設定する。

［音響除去エンジンの構成］
以上説明した理論に基づく音響除去エンジン１００の構成について説明する。図３は、音響除去エンジン１００の機能を示すブロック図である。なお、本実施形態に係る音響除去エンジン１００は、ＣＰＵ等の演算処理装置上で音響除去プログラムを実行することにより、ＣＰＵ上に仮想的に構築されるモジュールである。

具体的には、図３に示すように、音響除去エンジン１００は、信号入力手段として、混合音響信号が入力される混合音響入力部１０１と、除去しようとする既知音響信号を入力する既知音響信号入力部１０２とを有し、除去処理が施された音響信号の出力手段として除去後音響信号出力部１０７を有している。

また、音響除去エンジン１００は、入力された音響信号から振幅スペクトルを抽出する振幅スペクトル抽出部２００を備えている。具体的に、この振幅スペクトル抽出部２００は、データ分割部２０１と、窓関数処理部２０２と、フーリエ変換部２０３とを備えている。

データ分割部２０１は、混合音響信号を、特定の長さ（窓サイズ）の区間に分割する。一般の音声認識等では、一区間の長さを２0ミリ秒程度とするが、音声に比べて、音楽では同じ音が長く継続することから、本実施形態では、これよりも10倍程度長い、２のべき乗である8192サンプル（8192÷48,000=0.170約170ミリ秒）としている。

窓関数処理部２０２は、データ分割部２０１により分割された窓サイズ区間（170m秒）の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分において、なだらかにゼロに収束させる信号波形に変換する。

フーリエ変換部２０３は、混合音響信号及び既知音響信号それぞれのデータをフーリエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。なお、振幅スペクトルのみからなるデータは「時間周波数データ」として出力される。

詳述すると、このフーリエ変換部２０３は、ハニング関数処理された音声データに対して、高速フーリエ変換（FFT）を行う。なお、入力される音声データは実数のみで、虚数部が含まれ、このFFTでは入出力を複素数で計算することから、2回の窓の変換を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関係を使って分離して2倍の速度向上を実現している。なお、本システムではインテル社のPentium４プロセッサ（登録商標）等で利用できるSSE2命令を使用し、処理の高速化を図っている。

そして、振幅スペクトル抽出部２００では、フーリエ変換する区間を480サンプル（480÷48,000=0.01：10ミリ秒）単位で移動させ、窓関数処理部２０２及びフーリエ変換部２０３によるハニング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅のみ」を表すデータである「時間周波数データ」を取得する。このようにして得られた周波数チャンネルは、0Hz,5.86Hz,11,72Hz,17.57Hz….23,994.14Hzというように、０Hz（直流）から約5.86Hz毎に約24kHzまでの4096チャンネルとなる。

なお、振幅スペクトル抽出部２００は、入力された信号が混合音響信号であるときには、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部として機能し、入力された信号が除去しようとする既知音響信号であるときには、この除去し音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。

また、音響除去エンジン１００は、振幅スペクトル抽出部２００から抽出された既知音響の振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動推定結果をユーザー操作により修正するパラメータ推定部３００を備えている。このパラメータ推定部３００は、既知音響の周波数特性や強度、時間位置を推定し、混合音響中の既知音響と一致させるべく、各パラメータの補正を行うモジュールであり、この補正は、一致度算定部３０４において算定された一致度に基づいて実行される。

さらに、パラメータ推定部３００は、周波数特性変化補正部３０１と、強度補正部３０２と、時間位置補正部３０３とを備え、これらにより(1)混合音響と既知音響の時間的な位置ずれ、(2)既知音響の周波数特性、及び(3)既知音響の音量の時間変化を推定する。

周波数特性変化補正部３０１は、周波数分布の推定を行うモジュールであり、この周波数分布の推定に際し、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数であるｃ(ω，ｔ)について、ω方向の形状を変化させることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整する。

また、周波数特性変化補正部３０１は、音声チャンネルのうちＢＧＭの音量が小さい部分ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。この平滑化は、前後のチャンネルの平均値をとってなめらかにすることによって実現される。

強度補正部３０２は、音量の時間変化の推定と平滑化とを行う。この音量の時間変化の推定に際しては、スペクトル関数ｃ(ω，ｔ)のｔ方向の形状を補正することにより、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。

本実施形態において強度補正部３０２は、混合音全時間域にわたって、既知音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを１オクターブ毎（周波数で2倍毎）にまとめて合計する。同じ時刻毎に比較し、既知音響に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させることができる。これをその時刻での既知音響と混合音の音量比とする。

なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなることを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計的手法など自動的に判断する方法を採用してもよい。

また、強度補正部３０２は、時間変化の推定でも平滑化を行い、時間前後の既知音響の音量の平均値をとってなめらかにする。

時間位置補正部３０３は、混合音響の開始点と、既知音響の開始点の時間的な位置ずれを補正するモジュールである。なお、本システムでは、上記手順を実行して自動推定することも、予め決めた時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもよい。

さらに、音響除去エンジン１００は、振幅スペクトル抽出部２００によって抽出された混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部１０４と、逆フーリエ変換して、除去後の音響を重畳変換し復元するオシレータ部１０５及び配置処理部１０６を備えている。除去処理部１０４は、既知音響をパラメータ推定部３００で生成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数データ」から、消去する。

前記オシレータ部１０５は、差し引き計算によって得られた「時間周波数データ」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを重畳変換により復元する。なお、このオシレータ部においては、かかる重畳変換によらず、逆フーリエ変換を行ってもよい。なお、逆フーリエ変換に際しては、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換するが、このときの各チャンネルの音声の位相は、消去する前の既知音響又は混合音響の位相と同じ値を取るようにする。この操作によって、消去前の音声の位相が維持でき、また区間毎に「ブチブチ」というノイズが発生するのを防ぐことができる。なお、IFFTの高速化については時間周波数データを作成する場合と同じ手法を用いている。

配置処理部１０６は、ハニング窓の幅である170ミリセカンドの幅をもつ各時刻の音声について、同じ幅の窓の出力をOverlapAdd法で重ね合わせて、最終的に音楽が消去された音声を復元する。

除去後音響信号出力部１０７は、既知音が除去された混合音響を音声データとして出力するモジュールである。なお、本実施形態では、一致度算定部３０４において算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する機能を備えている。

［音響除去エンジンプログラム］
次いで、上述した音響除去エンジン１００について詳述する。本プログラムの処理の流れを図４に示す。

同図に示すように、先ず、ステップＳ２０１において、フーリエ変換により、混合音響信号から混合音響信号の位相及び振幅スペクトルを取得する。本実施形態では、音響信号を標本化周波数48kHz、量子化ビット数16bitでA/D変換し、窓関数ｈ（ｔ）として窓幅8192点のハニング窓を用いたＳＴＦＴを、高速フーリエ変換(FFT)によって計算する。その際、FFTのフレームを480点ずつシフトし、フレームシフト時間(1フレームシフト)は10msとなったフレームシフトを、処理の時間単位とする。なお、本プログラムは、他の標本化周波数(16kHz、44kHz等)や窓幅、フレームシフトにも容易に対応できるようになっている。

これと併せて、ステップＳ２０２において、既知音響信号のフーリエ変換を行い、既知音響信号の振幅スペクトルを取得する。

そして、一致度算定部３０４により、混合音響の振幅スペクトルと既知音響の振幅スペクトルを用いて、混合音響及び既知音響信号の時刻ごとの周波数特性と強度点をプロットし、プロットされた強度点に対する共通直線からの乖離度から一致度を比較し（Ｓ２０３）、また、共通線の傾きから周波数特性及び強度の推定を行う。この一致度の算定、及び共通線の傾きの算定は後述する。

一致度算定部３０４により算定された一致度に応じて、時間位置補正部３０３により既知音響信号の開始時刻を検出するとともに、既知音響信号の振幅スペクトルを補正する（Ｓ２０４及びＳ２０５）。

そして、混合音響信号の振幅スペクトルから既知音響信号の補正後の振幅スペクトルを除去し（Ｓ２０６）、除去後の振幅スペクトルを、オシレータ部１０５において、混合音響信号の位相に対して重畳変換し（Ｓ２０７）、配置処理部１０６においてオーバーラップアド（Overlap Add）法により、配置変換する（Ｓ２０８）。また、ステップＳ２０３において算定された一致度により、既知音響のみの範囲を判別し、既知音響のみの範囲を除去後音響信号出力部１０７において除去する（Ｓ２０９及びＳ２１０）。

（一致度及び強度の算定）
そして、上述したステップＳ２０４では、混合音響と既知音響の一致度を計算する。具体的には、一致度算定部３０４により、混合音響と既知音響の振幅スペクトルの強度を比較し、これらの一致度を算定する。具体的には、以下の手順による。

（１）手順１
混合音響信号、既知音響信号およびそれぞれをフーリエ変換して得られた振幅スペクトルに対して与えられた混合音響の区間（Tms,Tme）と既知音響の区間（Tms,Tme）と仮定される開始時刻のずれ（Td）より一致度を求め。なお、TdがTf（フーリエ変換時のフレーム長）の倍数となっている場合は、ステップＳ２０１で求めた振幅スペクトルを使用することができる。それ以外の場合は、毎回振幅スペクトルを計算する。

（２）手順２
混合音響内に既知音響が含まれている共通区間を求める。これを（Ts,Te）とすると、以下の式が求められる。

この区間内での音響フレーム数Nは次の式で与えられる。

このため範囲内のフレームの時刻Tiは以下の式を満たすNf個の値をとる。

（３）手順３
そして、図６に示すように、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定する。

具体的には、混合音響振幅スペクトルＭ（ω、ｔ）、既知音響振幅スペクトルＢ（ω、ｔ）について、時間軸方向および周波数軸方向（対数プロット）に時刻と周波数を単位とした定常ブロックに分割する（例えば図６のように、定常ブロックの横幅の時間は200ミリ秒（２０フレーム）、縦幅は約0.5オクターブとなっている）。

（４）手順４
次いで、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定する。具体的には、定常ブロックごとに、そのブロックを囲むさらに大きな推定ブロックを設定する（例えば図６では、横幅は400ミリ秒（４０フレーム）、音程は約１オクターブとなっている。この推定ブロックに含まれるデータを使用して実際の既知音響（ＢＧＭ）の強度を推定する）。

なお、ブロックの大きさは任意の大きさが可能である。すなわち、本実施形態では、図６に示すように、定常ブロックと周波数低域幅と時間幅とで矩形状に画定したが、例えば、図７に示すように、時間幅で区切った短冊状のブロックとしてもよい。計算量（計算速度）を問わなければ、「定常ブロック」の横幅や縦幅は最小（横10ミリ秒、縦１チャンネル）でもよく、それだけより精密な推定が可能である。逆に大きくすると計算量を小さくし高速化が可能である。

（５）手順５
その後、ブロックごとの平均信号強度（スペクトル強度）を算出する。具体的には、全ての推定ブロックについて以下の処理を行う。混合音響振幅スペクトルでのある推定ブロックの範囲が時間軸（Tks＜Ti＜Tke）、周波数軸（ωks<ωi<ωke）とするときに、該当する全てのTiとωiでの混合音響振幅スペクトル値Ｍ（ωi、Ｔi）と、開始時刻のずれTdを仮定した場合の対応する既知音響振幅スペクトル値Ｂ（ωＴi+Ｔd）の全ての組を求める。

（６）手順６
次いで、この推定ブロック内での一致度を以下のいずれかの手順で求める。具体的には、一致度算定部３０４により、図８に示すように、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロックのスペクトル強度を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定するとともに、乖離度が最も低い共通線を求め、その共通線の傾きによって、スペクトル強度を求める。図８（ａ）では、強度点が共通直線上にほぼ位置することから一致度が高く、図８（ｂ）では、既知音響以外の音響（音声やノイズ）や、同一周波数上での干渉により、一致度が低下している。

かかる共通線の算定には、以下の手順が挙げられる。

（６−１）単純相関法
該当する全てのＴiとωiについて以下の式に従い総和を求める。

次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど１に近い大きな値をとる。なお推定ブロック内の標本数（全てのωiとＴiを尽くした場合の数）をNsとする。

（６−２）離散型ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きとする。すなわち、この手法は、典型的なロバスト統計手法であり、原点を通る直線となる一次回帰手法等を用いてあてはまる直線を求め、次に、この直線から遠い点を探し、遠い方から10％の点を排除する。そして、残った点について再度、あてはまる直線を求め、残った点のうちさらに、新しい直線から遠い点を10％ほど排除する。この処理を５回程度繰り返すと、あてはめるべき点として50％の点が残り、最後にあてはめられた直線の傾きが結果となる。削減する量や設定方法についてはいろいろな手法を用いてよい。

一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
具体的には、該当する全てのＴiとωiについて初期値を１としたWを定める。このとき、

とし、標本の比率をＲs≡1.0とおく。

そして、該当する全てのＴiとωiについて以下の式に従い総和を求める。標本の比率Ｒsが0.5以下の場合は手順５にすすむ。

手順３．標準比αを次の式で求める。

手順４．該当する全てのＴiとωiについて標準比からのずれを求める。

手順５．Rsより一定値Csを引く。一定値は0.0より大きく0.5より小さな値とする。（例えばCsとして０．１を用いる）

ずれの小さなものから順に（標本数＊Rs）個について、Wを１に設定する。

残りの（標本数＊（1.0-Rs））個についてはWを0に設定する。

ここで、最後に求めたαを既知音響のこの定常ブロック内での強度とする。また、該当する全てのＴiとωiについて以下の式に従い総和を求める。

次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど１に近い大きな値をとる。

（６−３）連続ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きを求める。上記（６−２）の手法では、選ばれなかった点は全て捨てられてしまうが、本手法では、捨てずに直線からの距離にしたがった重みをつけて計算する。距離に対する重み関数により、距離に従って、それらの関数を重みとして掛けて統計を取る。

具体的には、該当する全てのＴiとωiについて初期値を１としたWを定める。

該当する全てのＴiとωiについて以下の式に従い総和を求める。

標準比αを次の式で求める。

最後に求めたαを既知音響のこの定常ブロック内での強度とする。また、該当する全てのＴiとωiについて標準比からのずれを求める。

ずれの小さなものから順に（標本数＊0.5）個目のずれの大きさDmidiumを求める。常に正値をとり、０より大で単調減少する関数Ωを用いてＷ（ωi，Ｔi）の値を定める。例えばΩとしては、

等の関数を用い、

により、Ｗを求める。そして、該当する全てのＴiとωiについて以下の式に従い総和を求める。

（６−４）重みつき統計
この手法では、共通線の傾きを、平面のＸ軸及びＹ軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きとする。すなわち、X軸Y軸のスケールがほぼ同じという性質を使った計算量の小さい簡単な方法であり、例えば、一次回帰を計算する場合に、例えば重みとして X*Y をかけ、X軸やY軸に近い点を軽視し、（X*Y）の二乗や高次の項を掛ける方法がある。

具体的には、Ｗ（ωi、Ｔi）を定め、Ｍ（ωi、Ｔi）及びＢ（ωi，Ｔi+Ｔd）が大きくなるほど大きくなる重み関数Ｗ（ωi、Ｔi）を定める。例としては以下のようなものがある。

その後、標準比αを次の式で求める。

このαを既知音響のこの定常ブロック内での強度とする。また、以下の式で一致度を求める。これは相関値を表しており、一致しているほど１に近い大きな値をとる。

求めた一致度を、全ての推定ブロックについて求め、平均を求める。なお、経験上明らかにノイズが多いと思われる周波数帯域（極度に低い周波数、高い周波数）について除外し、一致度の精度を向上させることもできる。

（６−５）順位法
なお、共通線の傾きは、以下の手順によっても求めることができる。この手順では、原点から各スペクトル強度点を通る全直線のうち、Ｎ／２番目のスペクトル強度点を通る直線の傾きを求める。すなわち、上記のグラフ内の全てのプロット点についてその原点から見こんだ傾きを求め（各点の混合音/ＢＧＭの値）、ある点の値が（ＢＧＭ＝20、混合音=30）であれば、その傾きは混合音/ＢＧＭで1.5となり、同じように「推定ブロック」内の全ての点についてこの傾きを求める。

これらを大きい順にソートし、半数以上がＢＧＭのみの音であればちょうど順位が中央の点は求めるべき直線上にあることが明らかなので求めることができる。

詳述すると、オペレータが混合音響中に含まれていると期待できる、既知音響の最大限の比率を与える。この値をEｒとする。

該当する全てのＴiとωiについて以下のように比を求める。

該当する全てのＴiとωiについてＲ（ωi，Ｔi）を小さい順にならべ、小さい方から数えて「標本数×Er」番目のＲ（ωi，Ｔi）を既知音響のこの定常ブロック内での強度とする。

［プログラムを記録したコンピュータ読み取り可能な記録媒体］
なお、上述した実施形態及びその変更例に係る既知音響除去プログラムでは、ユーザー端末やWebサーバ等のコンピュータやＩＣチップにインストールすることにより、上述した各機能を有する装置やシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

そして、このようなプログラムは、図９に示すような、汎用コンピュータ１２０で読み取り可能な記録媒体１１６〜１１９に記録することができる。具体的には、同図に示すような、フレキシブルディスク１１６やカセットテープ１１９等の磁気記録媒体、若しくはＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ１１７等の光ディスクの他、ＲＡＭカード１１８など、種々の記録媒体に記録することができる。

そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述した既知音響除去システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

［実施形態における作用・効果］
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらないので、位相に依存しない処理が可能となる。したがって、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽ＣＤ等の音のデータを使って、音楽だけを消去することができる。

例えば、二人の男女の対話のＢＧＭにクラシック音楽が鳴っている混合音を実際に処理した結果を図５（ａ）〜（ｃ）に示す。図５（ａ）に示す混合音から、図５（ｂ）に示す元音源の既知音響信号（ＢＧＭ成分）を除去した結果、図５（ｃ）に示す既知音響信号除去後の音響信号が得られる。

特に、番組音声作成時において、製作意図に合わせて周波数特性や音量が調整され、音の位相が予測不能な変化をしている場合であっても、混合音響中における音楽の変化を自動的且つ高精度に予測し、位相に依存せず消去することができる。

本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部９により、映像と音声とを同期させてモニタ１０及びスピーカー１１から出力するため、音楽消去前、音楽消去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながらの操作が可能となり、作業効率を向上させることができる。

本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローイングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するなどユーザーの意図に基づいて、音楽消去の効果を調節することができる。

実施形態に係る既知音響除去システムの構成を示すブロック図である。実施形態に係る既知音響除去システムの動作を示すフロー図である。実施形態に係る音響除去エンジンの機能ブロック図である。実施形態に係る音響除去エンジンの動作を示すフロー図である。実施形態に係る既知音響除去方法による効果を示す説明図である。実施形態に係る既知音響方法において定常ブロックの設定を示す説明図である。実施形態に係る既知音響方法において定常ブロック設定の変更例を示す説明図である。実施形態に係る既知音響方法においてスペクトル強度点をプロットした状態を示す説明図である。実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。

符号の説明

１…入力I/F
２…ＤＶキャプチャー
３…音声データ抽出部
４…音声変換部
５…記憶装置
６…ユーザーインターフェース
６ａ…キーボード
６ｂ…マウス
７…メモリ
８…出力I/F
９…同期制御部
１０…モニタ
１１…スピーカー
１４…シミュレーション部
１００…音響除去エンジン
１０１…混合音響入力部
１０２…既知音響信号入力部
１０３…制御部
１０４…除去処理部
１０５…オシレータ部
１０６…配置処理部
１０７…除去後音響信号出力部
１１６〜１１９…記録媒体
１２０…汎用コンピュータ
２００…振幅スペクトル抽出部
２０１…データ分割部
２０２…窓関数処理部
２０３…フーリエ変換部
３００…パラメータ推定部
３０１…周波数特性変化補正部
３０２…強度補正部
３０３…時間位置補正部
３０４…一致度算定部

Claims

除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる時間位置補正部と、
前記時間位置補正部により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正する周波数特性補正部と、
前記時間位置補正部により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する音響消去部と
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
前記共通線は直線であり、
前記除去処理部は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項１又は２に記載の音響信号除去装置。
共通線の傾きは、前記スペクトル強度点がＮ個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、Ｎ／２番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項４に記載の音響信号除去装置。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項４に記載の音響信号除去装置。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項４に記載の音響信号除去装置。
共通線の傾きは、
前記平面のＸ軸及びＹ軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項４に記載の音響信号除去装置。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ（３）と、
前記ステップ（３）により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ（４）と
を有し、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ（３）と、
前記ステップ（３）により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ（４）と
を有し、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
前記ステップ（２）により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ（４）と
を有し、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
前記共通線は直線であり、
前記ステップ（４）は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項９又は１０に記載の音響信号除去方法。
共通線の傾きは、前記スペクトル強度点がＮ個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、Ｎ／２番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項１２に記載の音響信号除去方法。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項１２に記載の音響信号除去方法。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項１２に記載の音響信号除去方法。
共通線の傾きは、
前記平面のＸ軸及びＹ軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項１２に記載の音響信号除去方法。
コンピュータに、
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ（３）と、
前記ステップ（３）により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ（４）と
を有する処理を実行させるプログラムであって、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
コンピュータに、
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ（３）と、
前記ステップ（３）により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ（４）と
を有する処理を実行させるプログラムであって、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ（１）と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（２）と、
前記ステップ（２）により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ（４）と
を有する処理を実行させるプログラムであって、前記ステップ（２）では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
前記共通線は直線であり、
前記ステップ（４）は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項１７又は１８に記載の音響信号除去プログラム。
共通線の傾きは、前記スペクトル強度点がＮ個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、Ｎ／２番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項２０に記載の音響信号除去プログラム。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項２０に記載の音響信号除去プログラム。
共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項２０に記載の音響信号除去プログラム。
共通線の傾きは、
前記平面のＸ軸及びＹ軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項２０に記載の音響信号除去プログラム。