JP4272107B2 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム - Google Patents

音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Download PDF

Info

Publication number
JP4272107B2
JP4272107B2 JP2004144177A JP2004144177A JP4272107B2 JP 4272107 B2 JP4272107 B2 JP 4272107B2 JP 2004144177 A JP2004144177 A JP 2004144177A JP 2004144177 A JP2004144177 A JP 2004144177A JP 4272107 B2 JP4272107 B2 JP 4272107B2
Authority
JP
Japan
Prior art keywords
amplitude spectrum
mixed
acoustic amplitude
acoustic signal
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004144177A
Other languages
English (en)
Other versions
JP2005326587A (ja
Inventor
安優 中田
智之 岡村
裕信 高橋
Original Assignee
株式会社フジテレビジョン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社フジテレビジョン filed Critical 株式会社フジテレビジョン
Priority to JP2004144177A priority Critical patent/JP4272107B2/ja
Priority to PCT/JP2004/013168 priority patent/WO2005112007A1/ja
Publication of JP2005326587A publication Critical patent/JP2005326587A/ja
Application granted granted Critical
Publication of JP4272107B2 publication Critical patent/JP4272107B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、コンテンツ中に混合されたBGMや音声等の音響を除去する音響信号除去装置、音響信号除去方法及び音響信号除去プログラムに関する。
近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が混合している映像素材から、使用されている音楽だけを消去することで、新たな素材として活用することがある。このように、既存の混合音響から特定の音声を減算する技術としては、例えば特許文献1に開示された技術がある。
特開2000−312395号公報
しかしながら、放送番組の音声作成時には、製作意図に合わせて周波数特性や音量を調整する場合が多い。このため、音の位相が予測不能な変化をしているために、単に電子的な減算処理を行ったのみでは、適切に消去することはできない。
詳述すると、除去しようとする音響が、例えば番組のBGMのような既知の音楽であっても、番組作成時に、番組効果のためにBGMの低音や高音の強調や減衰を行ったり、録音・再生を繰り返したりする過程で、BGMの周波数特性が変化している場合もあり、単純に減算処理をすることはできない。
本発明は、上記問題を解決すべくなされたものであり、混合音響中から既知の音響を消去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しようとする音響の変化を自動的且つ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プログラムを提供することを目的とする。
上記課題を解決するために、本発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音響振幅スペクトルに対する既知音響振幅スペクトルの時間的位置を変位させ、既知音響振幅スペクトルと、混合音響振幅スペクトル内に混合された既知音響振幅スペクトルとの時間位置を合致させ、時間位置が変位された既知音響振幅スペクトルを、混合音響振幅スペクトルから除去する。
特に、上記一致度の算定においては、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。
このような本発明によれば、既知音響が含まれている混合音響から、既知音響を除去する際に行っていた、混合音響と既知音響の開始時刻を一致させる処理を、自動で且つ精度良く行うことができる。
この結果、従来より行っていた、正確に時刻を一致させるための、既知音響だけの区間を指定するオペレータによる手動の作業を省略することができる。また、混合音響中に既知音響だけの区間がない場合や発見できない場合であっても、既知音の除去処理を実行することが可能となる。
また、他の発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、既知音響振幅スペクトルの周波数特性を補正し、周波数特性が補正された既知音響振幅スペクトルを、混合音響振幅スペクトルから除去する。
本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。
このような本発明によれば、既知音響が含まれている混合音響から、既知音響を除去する際に行っていた、既知音響振幅スペクトルの周波数特性を補正する処理を、自動で且つ精度良く行うことができる。
特に、本発明によれば、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、全ての定常ブロックについて、スペクトル強度点の乖離度から、混合音響と既知音響との一致度を推定するため、混合音響中に既知音響以外の大きな音が含まれている場合であっても、強度推定を実際よりも大きく推定する等の誤処理が低減され、既知音響を実際の音量(強度や振幅スペクトル)より大きいとして、過剰に音響信号を除去することがなく、処理後の音声が劣化するのを回避することができる。
この結果、混合音響中に含まれる既知音響が、既知音響として与えた音楽CD等の音を、制作意図に合わせて周波数特性や音量を調整して、他の音と混合して制作されている場合であっても、混合音の各時刻に含まれる既知音響の、強度とその周波数特性を正確に推定することかできる。
これにより、従来行っていた、既知音響を調整した周波数特性を推定するための、混合音響の中における既知音響のみが含まれている時間区間を、オペレータが聴いて選択する作業などを省略することができ、また、混合音響中で音楽だけの区間がない場合であっても、既知音響の除去を確実に行うことができる。
さらに、本発明では、推定のためにサンプルを取得する区間の指定を行わず、混合音響全域について一致度を算定することから、サンプル区間のみで周波数特性を推定することによる、その区間の既知音響に含まれない周波数についての特性が予測できないという問題を解決することができ、この問題を回避するために従来行っていた、周波数ごとに飛び飛びにしか得られない特性を、補完したり、なめらかにしたりといった処理を不要とすることができるとともに、これら従来の処理に付随していた、周波数補正グラフを表示し、オペレータが手動で修正するという作業等を省略することができる。この結果、既知音響除去作業の効率化、高精度化を図ることができる。
本発明は、除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スペクトルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する。
本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。
このような本発明によれば、既知音響のみの範囲を混合音響ごと除去するため、混合音響中における既知音響のみの時間区間において、既知音響の推定誤差等により除去されない音が残ってしまうという問題を解消することができる。
このような本発明によれば、音響信号において振幅スペクトルは、位相に依存しないため、位相が変化してもその影響を受けることなく、混合音響信号中の既知音響信号の周波数特性や音量変化を、適切に推定することができる。この結果、本発明によれば、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを的確に消去することができる。なお、本発明は、音楽に限らず、番組作成時に混入した背景雑音等も、雑音のみが同時に録音された音のデータを使って消去することができる。
特に、本発明によれば、混合音響に含まれる既知音響について、自動的にその開始時刻や周波数特性と強度を自動的に推定することにより、従来、既知音響の推定を行うために行っていた既知音響のみの範囲の指定等、繁雑な作業を省略し、効率よく既知音響の除去を行うことができる。
[既知音響除去システムの構成]
本発明の実施形態について図面を参照しながら説明する。図1は、本実施形態に係る既知音響除去システムの全体構成を示すブロック図である。
図1に示すように、本実施形態に係る既知音響除去システムは、混合音響や既知音響を入力する入力I/F1及びDVキャプチャー2を備えている。これら入力I/F1及びDVキャプチャー2から入力されたファイル(例えば、AVIファイルやWAVファイル)は、記憶装置5に蓄積される。入力I/F1は、CDプレーヤーやMDプレーヤー等の再生装置から音響信号を取り込むインターフェースである。また、DVキャプチャー2は、映像や音声が混合した混合音響信号である消去対象用のMIX音声を取り出すインターフェースである。
また、既知音響除去システムは、記憶装置5に蓄積された各種データに対して音声データ抽出処理や音声変換処理を行う音声変換部(PreWav/PostWav)4及び音声データ抽出部(DVReMix)3とを備えている。これら音声変換部4及び音声データ抽出部3は、指定されたファイル(AVIファイルやWAVファイル)を記憶装置5から読み出し、所定の処理を施した後、処理後のファイル(WAVファイル)を記憶装置5に蓄積する。
音声変換部4は、周波数変換、及びステレオからモノラルの分離を行う(S103)。すなわち、音響除去エンジン100のフォーマットに合うように、WAVファイルを左右2チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、2つのWAVファイル(出力ファイル名:左チャンネルがMIX-L.WAV、右チャンネルがMIX-R.WAV)として生成し、記憶装置5に蓄積する。
音声データ抽出部3は、映像データ及び音声データから構成されるコンテンツから音声データのみを抽出するモジュールであり、本実施形態では、AVIファイルから音声データをWAV形式で抽出する。ここでのWAVファイルは、ステレオ形式であり、そのサンプリングレートはDVの音声と同じ32kHz又は48kHzである。この抽出されたWAVファイルは、記憶装置5に蓄積される。
そして、既知音響除去システムは、混合音響信号から既知音響信号を除去する音響除去エンジン100を備えている。この音響除去エンジン100は、記憶装置5に蓄積された各音声ファイル(WAVファイル)を読み出し、除去したデータや除去処理に係る各種データを、一時メモリ7を介して、記憶装置5に蓄積したり、出力I/F8を通じて、モニタ10やスピーカー11から出力する。モニタ10は、ユーザーインターフェース6による操作や処理結果を表示するGUIを表示し、スピーカー11は、ユーザーインターフェース6によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する。
また、音響除去エンジン100は、キーボード6aやマウス6b等の入力デバイスによるユーザー操作に基づく操作信号を、ユーザーインターフェース6を通じて取得し、この操作信号に基づいて、各種処理を行う。この音響除去エンジン100による既知音響除去処理については、後述する。
また、既知音響除去システムは、同期制御部9を備えており、これにより記憶装置5からのデータの読み出し、音響除去エンジン100による除去処理、メモリ7や出力I/F8によるデータの入出力を同期させる。これにより、モニタに表示される映像と、スピーカー11から出力される音声を、音響除去エンジン100による処理やユーザーインターフェース6におけるユーザー操作に同期させることができる。
さらに、音響除去エンジン100は、パラメータの設定に際し、そのデフォルト値をシミュレーションにより設定し、ユーザーの作業を支援するシミュレーション部14を備えている。
具体的に、シミュレーション部14は、一定振幅の単音(480Hz)を混合音として入力し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを比較して差分量を計測し、その差分量が0となるように、ユーザーインターフェース6における除去強度のデフォルト値を設定する。
[既知音響除去システムの動作]
以上説明した構成を有する既知音響除去システムは、以下のように動作する。図2は、既知音響除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声がステレオで記録された映像ファイル(DV)を混合音響(MIX音声)とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中にBGMとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、(1)前処理、(2)音楽消去処理、(3)後処理に大別される。以下、各処理について詳述する。
(1)前処理
前処理では、DVから消去対象用のMIX音声を取り出すとともに、BGM用音声(オリジナル曲)を用意する。具体的には、DVキャプチャー2からDV用のビデオ編集ソフトを使用して動画をキャプチャーし(S101)、このキャプチャーしたファイルを、タイプ1のAVIファイル(出力ファイル名:MIX.AVI)として、記憶装置5に蓄積する。
次いで、音声データ抽出部(DVReMix)3により、AVIファイルから音声データをWAV形式(出力ファイル名:MIX.WAV)で抽出する(S102)。ここでのWAVファイルは、ステレオ形式であり、そのサンプリングレートはDVの音声と同じ32kHz又は48kHzである。この抽出されたWAVファイルは、記憶装置5に蓄積される。
その後、音声変換部(PreWav)4により、周波数変換及び、ステレオからモノラルの分離を行う(S103)。すなわち、音響除去エンジン100のフォーマットに合うように、WAVファイルを左右2チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、2つのWAVファイル(出力ファイル名:左チャンネルがMIX-L.WAV、右チャンネルがMIX-R.WAV)として生成し、記憶装置5に蓄積する。また、このステップS103では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル(ファイル名:MIX.time)に出力し、記憶装置5に蓄積する。
これらステップS101〜S103と並行して、オリジナル曲の取り込みを行う(S104)。具体的には、オリジナル曲(BGM曲)をCDなどから取り込み、44.1kHzステレオのWAVファイル(出力ファイル名:BGM.WAV)として、記憶装置5に蓄積する。次いで、音声変換部(PreWav)3により、周波数変換、ステレオからモノラルの分離を行う(S105)。すなわち、音響除去エンジン100のフォーマットに合うように、ステップS104で取り込んだWAVファイルを、左右2チャンネルに分離し、サンプリングレートを48kHzに変換し2つのWAVファイル(出力ファイル名:左チャンネルがBGM-L.WAV、右チャンネルがBGM-R.WAV)として、記憶装置5に蓄積する。
(2)音楽消去処理
音楽消去処理では、除去エンジンプログラム(GEQ)100により、MIX音声からBGM音声を消去する(S106)。この消去後出力される音声ファイルは、左右チャンネルともにモノラル48kHzのWAVファイル(出力ファイル名:左チャンネルがERASE-L.WAV、右チャンネルがERASE-R.WAV)として、メモリ7又は記憶装置5に蓄積される。
(3)後処理
後処理では、除去エンジンプログラムで消去した音声を、DV用の音声に変換し、DV(AVIファイル)に復元する。先ず、音声変換部(PostWav)3により、周波数変換、及びモノラルからステレオへの変換を行う(S107)。すなわち、音響除去エンジン100から出力された左右2チャンネルのWAVファイルをステレオに合成し、必要ならば元のDVの音声と同じサンプリングレートに変換し、WAVファイル(ファイル名:ERASE.WAV)として、記憶装置5に蓄積する。次いで、音声データ抽出部(DVReMix)4において、キャプチャーしたAVIファイル(BGM.AVI)の音声を、消去後の音声(ERASE.WAV)と入れ替え、除去後音響ファイル(ファイル名:ERASE.AVI)として、記憶装置5に蓄積する。
なお、例えば、1回目の作業で、ステレオ放送の左音声(L)について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース6におけるデフォルト値として設定する。
[音響除去エンジンの構成]
以上説明した理論に基づく音響除去エンジン100の構成について説明する。図3は、音響除去エンジン100の機能を示すブロック図である。なお、本実施形態に係る音響除去エンジン100は、CPU等の演算処理装置上で音響除去プログラムを実行することにより、CPU上に仮想的に構築されるモジュールである。
具体的には、図3に示すように、音響除去エンジン100は、信号入力手段として、混合音響信号が入力される混合音響入力部101と、除去しようとする既知音響信号を入力する既知音響信号入力部102とを有し、除去処理が施された音響信号の出力手段として除去後音響信号出力部107を有している。
また、音響除去エンジン100は、入力された音響信号から振幅スペクトルを抽出する振幅スペクトル抽出部200を備えている。具体的に、この振幅スペクトル抽出部200は、データ分割部201と、窓関数処理部202と、フーリエ変換部203とを備えている。
データ分割部201は、混合音響信号を、特定の長さ(窓サイズ)の区間に分割する。一般の音声認識等では、一区間の長さを20ミリ秒程度とするが、音声に比べて、音楽では同じ音が長く継続することから、本実施形態では、これよりも10倍程度長い、2のべき乗である8192サンプル(8192÷48,000=0.170約170ミリ秒)としている。
窓関数処理部202は、データ分割部201により分割された窓サイズ区間(170m秒)の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分において、なだらかにゼロに収束させる信号波形に変換する。
フーリエ変換部203は、混合音響信号及び既知音響信号それぞれのデータをフーリエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。なお、振幅スペクトルのみからなるデータは「時間周波数データ」として出力される。
詳述すると、このフーリエ変換部203は、ハニング関数処理された音声データに対して、高速フーリエ変換(FFT)を行う。なお、入力される音声データは実数のみで、虚数部が含まれ、このFFTでは入出力を複素数で計算することから、2回の窓の変換を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関係を使って分離して2倍の速度向上を実現している。なお、本システムではインテル社のPentium4プロセッサ(登録商標)等で利用できるSSE2命令を使用し、処理の高速化を図っている。
そして、振幅スペクトル抽出部200では、フーリエ変換する区間を480サンプル(480÷48,000=0.01:10ミリ秒)単位で移動させ、窓関数処理部202及びフーリエ変換部203によるハニング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅のみ」を表すデータである「時間周波数データ」を取得する。このようにして得られた周波数チャンネルは、0Hz,5.86Hz,11,72Hz,17.57Hz….23,994.14Hzというように、0Hz(直流)から約5.86Hz毎に約24kHzまでの4096チャンネルとなる。
なお、振幅スペクトル抽出部200は、入力された信号が混合音響信号であるときには、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部として機能し、入力された信号が除去しようとする既知音響信号であるときには、この除去し音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。
また、音響除去エンジン100は、振幅スペクトル抽出部200から抽出された既知音響の振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動推定結果をユーザー操作により修正するパラメータ推定部300を備えている。このパラメータ推定部300は、既知音響の周波数特性や強度、時間位置を推定し、混合音響中の既知音響と一致させるべく、各パラメータの補正を行うモジュールであり、この補正は、一致度算定部304において算定された一致度に基づいて実行される。
さらに、パラメータ推定部300は、周波数特性変化補正部301と、強度補正部302と、時間位置補正部303とを備え、これらにより(1)混合音響と既知音響の時間的な位置ずれ、(2)既知音響の周波数特性、及び(3)既知音響の音量の時間変化を推定する。
周波数特性変化補正部301は、周波数分布の推定を行うモジュールであり、この周波数分布の推定に際し、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数であるc(ω,t)について、ω方向の形状を変化させることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整する。
また、周波数特性変化補正部301は、音声チャンネルのうちBGMの音量が小さい部分ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。この平滑化は、前後のチャンネルの平均値をとってなめらかにすることによって実現される。
強度補正部302は、音量の時間変化の推定と平滑化とを行う。この音量の時間変化の推定に際しては、スペクトル関数c(ω,t)のt方向の形状を補正することにより、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。
本実施形態において強度補正部302は、混合音全時間域にわたって、既知音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを1オクターブ毎(周波数で2倍毎)にまとめて合計する。同じ時刻毎に比較し、既知音響に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させることができる。これをその時刻での既知音響と混合音の音量比とする。
なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなることを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計的手法など自動的に判断する方法を採用してもよい。
また、強度補正部302は、時間変化の推定でも平滑化を行い、時間前後の既知音響の音量の平均値をとってなめらかにする。
時間位置補正部303は、混合音響の開始点と、既知音響の開始点の時間的な位置ずれを補正するモジュールである。なお、本システムでは、上記手順を実行して自動推定することも、予め決めた時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもよい。
さらに、音響除去エンジン100は、振幅スペクトル抽出部200によって抽出された混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部104と、逆フーリエ変換して、除去後の音響を重畳変換し復元するオシレータ部105及び配置処理部106を備えている。除去処理部104は、既知音響をパラメータ推定部300で生成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数データ」から、消去する。
前記オシレータ部105は、差し引き計算によって得られた「時間周波数データ」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを重畳変換により復元する。なお、このオシレータ部においては、かかる重畳変換によらず、逆フーリエ変換を行ってもよい。なお、逆フーリエ変換に際しては、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換するが、このときの各チャンネルの音声の位相は、消去する前の既知音響又は混合音響の位相と同じ値を取るようにする。この操作によって、消去前の音声の位相が維持でき、また区間毎に「ブチブチ」というノイズが発生するのを防ぐことができる。なお、IFFTの高速化については時間周波数データを作成する場合と同じ手法を用いている。
配置処理部106は、ハニング窓の幅である170ミリセカンドの幅をもつ各時刻の音声について、同じ幅の窓の出力をOverlapAdd法で重ね合わせて、最終的に音楽が消去された音声を復元する。
除去後音響信号出力部107は、既知音が除去された混合音響を音声データとして出力するモジュールである。なお、本実施形態では、一致度算定部304において算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する機能を備えている。
[音響除去エンジンプログラム]
次いで、上述した音響除去エンジン100について詳述する。本プログラムの処理の流れを図4に示す。
同図に示すように、先ず、ステップS201において、フーリエ変換により、混合音響信号から混合音響信号の位相及び振幅スペクトルを取得する。本実施形態では、音響信号を標本化周波数48kHz、量子化ビット数16bitでA/D変換し、窓関数h(t)として窓幅8192点のハニング窓を用いたSTFTを、高速フーリエ変換(FFT)によって計算する。その際、FFTのフレームを480点ずつシフトし、フレームシフト時間(1フレームシフト)は10msとなったフレームシフトを、処理の時間単位とする。なお、本プログラムは、他の標本化周波数(16kHz、44kHz等)や窓幅、フレームシフトにも容易に対応できるようになっている。
これと併せて、ステップS202において、既知音響信号のフーリエ変換を行い、既知音響信号の振幅スペクトルを取得する。
そして、一致度算定部304により、混合音響の振幅スペクトルと既知音響の振幅スペクトルを用いて、混合音響及び既知音響信号の時刻ごとの周波数特性と強度点をプロットし、プロットされた強度点に対する共通直線からの乖離度から一致度を比較し(S203)、また、共通線の傾きから周波数特性及び強度の推定を行う。この一致度の算定、及び共通線の傾きの算定は後述する。
一致度算定部304により算定された一致度に応じて、時間位置補正部303により既知音響信号の開始時刻を検出するとともに、既知音響信号の振幅スペクトルを補正する(S204及びS205)。
そして、混合音響信号の振幅スペクトルから既知音響信号の補正後の振幅スペクトルを除去し(S206)、除去後の振幅スペクトルを、オシレータ部105において、混合音響信号の位相に対して重畳変換し(S207)、配置処理部106においてオーバーラップアド(Overlap Add)法により、配置変換する(S208)。また、ステップS203において算定された一致度により、既知音響のみの範囲を判別し、既知音響のみの範囲を除去後音響信号出力部107において除去する(S209及びS210)。
(一致度及び強度の算定)
そして、上述したステップS204では、混合音響と既知音響の一致度を計算する。具体的には、一致度算定部304により、混合音響と既知音響の振幅スペクトルの強度を比較し、これらの一致度を算定する。具体的には、以下の手順による。
(1)手順1
混合音響信号、既知音響信号およびそれぞれをフーリエ変換して得られた振幅スペクトルに対して与えられた混合音響の区間(Tms,Tme)と既知音響の区間(Tms,Tme)と仮定される開始時刻のずれ(Td)より一致度を求め。なお、TdがTf(フーリエ変換時のフレーム長)の倍数となっている場合は、ステップS201で求めた振幅スペクトルを使用することができる。それ以外の場合は、毎回振幅スペクトルを計算する。
(2)手順2
混合音響内に既知音響が含まれている共通区間を求める。これを(Ts,Te)とすると、以下の式が求められる。
Figure 0004272107
この区間内での音響フレーム数Nは次の式で与えられる。
Figure 0004272107
このため範囲内のフレームの時刻Tiは以下の式を満たすNf個の値をとる。
Figure 0004272107
(3)手順3
そして、図6に示すように、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定する。
具体的には、混合音響振幅スペクトルM(ω、t)、既知音響振幅スペクトルB(ω、t)について、時間軸方向および周波数軸方向(対数プロット)に時刻と周波数を単位とした定常ブロックに分割する(例えば図6のように、定常ブロックの横幅の時間は200ミリ秒(20フレーム)、縦幅は約0.5オクターブとなっている)。
(4)手順4
次いで、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定する。具体的には、定常ブロックごとに、そのブロックを囲むさらに大きな推定ブロックを設定する(例えば図6では、横幅は400ミリ秒(40フレーム)、音程は約1オクターブとなっている。この推定ブロックに含まれるデータを使用して実際の既知音響(BGM)の強度を推定する)。
なお、ブロックの大きさは任意の大きさが可能である。すなわち、本実施形態では、図6に示すように、定常ブロックと周波数低域幅と時間幅とで矩形状に画定したが、例えば、図7に示すように、時間幅で区切った短冊状のブロックとしてもよい。計算量(計算速度)を問わなければ、「定常ブロック」の横幅や縦幅は最小(横10ミリ秒、縦1チャンネル)でもよく、それだけより精密な推定が可能である。逆に大きくすると計算量を小さくし高速化が可能である。
(5)手順5
その後、ブロックごとの平均信号強度(スペクトル強度)を算出する。具体的には、全ての推定ブロックについて以下の処理を行う。混合音響振幅スペクトルでのある推定ブロックの範囲が時間軸(Tks<Ti<Tke)、周波数軸(ωks<ωi<ωke)とするときに、該当する全てのTiとωiでの混合音響振幅スペクトル値M(ωi、Ti)と、開始時刻のずれTdを仮定した場合の対応する既知音響振幅スペクトル値B(ωTi+Td)の全ての組を求める。
(6)手順6
次いで、この推定ブロック内での一致度を以下のいずれかの手順で求める。具体的には、一致度算定部304により、図8に示すように、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロックのスペクトル強度を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定するとともに、乖離度が最も低い共通線を求め、その共通線の傾きによって、スペクトル強度を求める。図8(a)では、強度点が共通直線上にほぼ位置することから一致度が高く、図8(b)では、既知音響以外の音響(音声やノイズ)や、同一周波数上での干渉により、一致度が低下している。
かかる共通線の算定には、以下の手順が挙げられる。
(6−1)単純相関法
該当する全てのTiとωiについて以下の式に従い総和を求める。
Figure 0004272107
次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど1に近い大きな値をとる。なお推定ブロック内の標本数(全てのωiとTiを尽くした場合の数)をNsとする。
Figure 0004272107
(6−2)離散型ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きとする。すなわち、この手法は、典型的なロバスト統計手法であり、原点を通る直線となる一次回帰手法等を用いてあてはまる直線を求め、次に、この直線から遠い点を探し、遠い方から10%の点を排除する。そして、残った点について再度、あてはまる直線を求め、残った点のうちさらに、新しい直線から遠い点を10%ほど排除する。この処理を5回程度繰り返すと、あてはめるべき点として50%の点が残り、最後にあてはめられた直線の傾きが結果となる。削減する量や設定方法についてはいろいろな手法を用いてよい。
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
具体的には、該当する全てのTiとωiについて初期値を1としたWを定める。このとき、
Figure 0004272107
とし、標本の比率をRs≡1.0とおく。
そして、該当する全てのTiとωiについて以下の式に従い総和を求める。標本の比率 Rsが0.5以下の場合は手順5にすすむ。
Figure 0004272107
手順3.標準比αを次の式で求める。
Figure 0004272107
手順4.該当する全てのTiとωiについて標準比からのずれを求める。
Figure 0004272107
手順5.Rsより一定値Csを引く。一定値は0.0より大きく0.5より小さな値とする。(例えばCsとして0.1を用いる)
Figure 0004272107
ずれの小さなものから順に(標本数*Rs)個について、Wを1に設定する。
Figure 0004272107
残りの(標本数*(1.0-Rs))個についてはWを0に設定する。
Figure 0004272107
ここで、最後に求めたαを既知音響のこの定常ブロック内での強度とする。また、該当する全てのTiとωiについて以下の式に従い総和を求める。
Figure 0004272107
次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど1に近い大きな値をとる。
Figure 0004272107
(6−3)連続ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きを求める。上記(6−2)の手法では、選ばれなかった点は全て捨てられてしまうが、本手法では、捨てずに直線からの距離にしたがった重みをつけて計算する。距離に対する重み関数により、距離に従って、それらの関数を重みとして掛けて統計を取る。
具体的には、該当する全てのTiとωiについて初期値を1としたWを定める。
Figure 0004272107
該当する全てのTiとωiについて以下の式に従い総和を求める。
Figure 0004272107
標準比αを次の式で求める。
Figure 0004272107
最後に求めたαを既知音響のこの定常ブロック内での強度とする。また、該当する全てのTiとωiについて標準比からのずれを求める。
Figure 0004272107
ずれの小さなものから順に(標本数*0.5)個目のずれの大きさDmidiumを求める。常に正値をとり、0より大で単調減少する関数Ωを用いてW(ωi,Ti)の値を定める。例えばΩとしては、
Figure 0004272107
等の関数を用い、
Figure 0004272107
により、Wを求める。そして、該当する全てのTiとωiについて以下の式に従い総和を求める。
Figure 0004272107
次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど1に近い大きな値をとる。
Figure 0004272107
(6−4)重みつき統計
この手法では、共通線の傾きを、平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きとする。すなわち、X軸Y軸のスケールがほぼ同じという性質を使った計算量の小さい簡単な方法であり、例えば、一次回帰を計算する場合に、例えば重みとして X*Y をかけ、X軸やY軸に近い点を軽視し、(X*Y)の二乗や高次の項を掛ける方法がある。
具体的には、 W(ωi、Ti)を定め、M(ωi、Ti)及びB(ωi,Ti+Td)が大きくなるほど大きくなる重み関数W(ωi、Ti)を定める。例としては以下のようなものがある。
Figure 0004272107
該当する全てのTiとωiについて以下の式に従い総和を求める。
Figure 0004272107
その後、標準比αを次の式で求める。
Figure 0004272107
このαを既知音響のこの定常ブロック内での強度とする。また、以下の式で一致度を求める。これは相関値を表しており、一致しているほど1に近い大きな値をとる。
Figure 0004272107
求めた一致度を、全ての推定ブロックについて求め、平均を求める。なお、経験上明らかにノイズが多いと思われる周波数帯域(極度に低い周波数、高い周波数)について除外し、一致度の精度を向上させることもできる。
(6−5)順位法
なお、共通線の傾きは、以下の手順によっても求めることができる。この手順では、原点から各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きを求める。すなわち、上記のグラフ内の全てのプロット点についてその原点から見こんだ傾きを求め(各点の混合音/BGMの値)、ある点の値が(BGM=20、混合音=30)であれば、その傾きは混合音/BGMで1.5となり、同じように「推定ブロック」内の全ての点についてこの傾きを求める。
これらを大きい順にソートし、半数以上がBGMのみの音であればちょうど順位が中央の点は求めるべき直線上にあることが明らかなので求めることができる。
詳述すると、オペレータが混合音響中に含まれていると期待できる、既知音響の最大限の比率を与える。この値をErとする。
該当する全てのTiとωiについて以下のように比を求める。
Figure 0004272107
該当する全てのTiとωiについてR(ωi,Ti)を小さい順にならべ、小さい方から数えて「標本数×Er」番目のR(ωi,Ti)を既知音響のこの定常ブロック内での強度とする。
[プログラムを記録したコンピュータ読み取り可能な記録媒体]
なお、上述した実施形態及びその変更例に係る既知音響除去プログラムでは、ユーザー端末やWebサーバ等のコンピュータやICチップにインストールすることにより、上述した各機能を有する装置やシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
そして、このようなプログラムは、図9に示すような、汎用コンピュータ120で読み取り可能な記録媒体116〜119に記録することができる。具体的には、同図に示すような、フレキシブルディスク116やカセットテープ119等の磁気記録媒体、若しくはCD−ROMやDVD−ROM117等の光ディスクの他、RAMカード118など、種々の記録媒体に記録することができる。
そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述した既知音響除去システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
[実施形態における作用・効果]
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらないので、位相に依存しない処理が可能となる。したがって、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを消去することができる。
例えば、二人の男女の対話のBGMにクラシック音楽が鳴っている混合音を実際に処理した結果を図5(a)〜(c)に示す。図5(a)に示す混合音から、図5(b)に示す元音源の既知音響信号(BGM成分)を除去した結果、図5(c)に示す既知音響信号除去後の音響信号が得られる。
特に、番組音声作成時において、製作意図に合わせて周波数特性や音量が調整され、音の位相が予測不能な変化をしている場合であっても、混合音響中における音楽の変化を自動的且つ高精度に予測し、位相に依存せず消去することができる。
本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部9により、映像と音声とを同期させてモニタ10及びスピーカー11から出力するため、音楽消去前、音楽消去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながらの操作が可能となり、作業効率を向上させることができる。
本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローイングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するなどユーザーの意図に基づいて、音楽消去の効果を調節することができる。
実施形態に係る既知音響除去システムの構成を示すブロック図である。 実施形態に係る既知音響除去システムの動作を示すフロー図である。 実施形態に係る音響除去エンジンの機能ブロック図である。 実施形態に係る音響除去エンジンの動作を示すフロー図である。 実施形態に係る既知音響除去方法による効果を示す説明図である。 実施形態に係る既知音響方法において定常ブロックの設定を示す説明図である。 実施形態に係る既知音響方法において定常ブロック設定の変更例を示す説明図である。 実施形態に係る既知音響方法においてスペクトル強度点をプロットした状態を示す説明図である。 実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。
符号の説明
1…入力I/F
2…DVキャプチャー
3…音声データ抽出部
4…音声変換部
5…記憶装置
6…ユーザーインターフェース
6a…キーボード
6b…マウス
7…メモリ
8…出力I/F
9…同期制御部
10…モニタ
11…スピーカー
14…シミュレーション部
100…音響除去エンジン
101…混合音響入力部
102…既知音響信号入力部
103…制御部
104…除去処理部
105…オシレータ部
106…配置処理部
107…除去後音響信号出力部
116〜119…記録媒体
120…汎用コンピュータ
200…振幅スペクトル抽出部
201…データ分割部
202…窓関数処理部
203…フーリエ変換部
300…パラメータ推定部
301…周波数特性変化補正部
302…強度補正部
303…時間位置補正部
304…一致度算定部

Claims (24)

  1. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
    前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
    算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる時間位置補正部と、
    前記時間位置補正部により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
    を備え、前記一致度算定部は、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去装置。
  2. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
    前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
    算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正する周波数特性補正部と、
    前記時間位置補正部により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
    を備え、前記一致度算定部は、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去装置。
  3. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
    前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
    算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する音響消去部と
    を備え、前記一致度算定部は、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去装置。
  4. 前記共通線は直線であり、
    前記除去処理部は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
    ことを特徴とする請求項1又は2に記載の音響信号除去装置。
  5. 共通線の傾きは、前記スペクトル強度点がN個ある場合、
    原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
    ことを特徴とする請求項4に記載の音響信号除去装置。
  6. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
    ことを特徴とする請求項4に記載の音響信号除去装置。
  7. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
    ことを特徴とする請求項4に記載の音響信号除去装置。
  8. 共通線の傾きは、
    前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
    各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
    ことを特徴とする請求項4に記載の音響信号除去装置。
  9. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ(3)と、
    前記ステップ(3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
    を有し、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去方法。
  10. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ(3)と、
    前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
    を有し、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去方法。
  11. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    前記ステップ(2)により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ(4)と
    を有し、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去方法。
  12. 前記共通線は直線であり、
    前記ステップ(4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
    ことを特徴とする請求項9又は10に記載の音響信号除去方法。
  13. 共通線の傾きは、前記スペクトル強度点がN個ある場合、
    原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
    ことを特徴とする請求項12に記載の音響信号除去方法。
  14. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
    ことを特徴とする請求項12に記載の音響信号除去方法。
  15. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
    ことを特徴とする請求項12に記載の音響信号除去方法。
  16. 共通線の傾きは、
    前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
    各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
    ことを特徴とする請求項12に記載の音響信号除去方法。
  17. コンピュータに、
    除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ(3)と、
    前記ステップ(3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
    を有する処理を実行させるプログラムであって、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去プログラム。
  18. コンピュータに、
    除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ(3)と、
    前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
    を有する処理を実行させるプログラムであって、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去プログラム。
  19. 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
    前記ステップ(2)により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ(4)と
    を有する処理を実行させるプログラムであって、前記ステップ(2)では、
    前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
    前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
    全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
    ことを特徴とする音響信号除去プログラム。
  20. 前記共通線は直線であり、
    前記ステップ(4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
    ことを特徴とする請求項17又は18に記載の音響信号除去プログラム。
  21. 共通線の傾きは、前記スペクトル強度点がN個ある場合、
    原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
    ことを特徴とする請求項20に記載の音響信号除去プログラム。
  22. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
    ことを特徴とする請求項20に記載の音響信号除去プログラム。
  23. 共通線の傾きは、
    一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
    ことを特徴とする請求項20に記載の音響信号除去プログラム。
  24. 共通線の傾きは、
    前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
    各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
    ことを特徴とする請求項20に記載の音響信号除去プログラム。
JP2004144177A 2004-05-13 2004-05-13 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Expired - Lifetime JP4272107B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004144177A JP4272107B2 (ja) 2004-05-13 2004-05-13 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
PCT/JP2004/013168 WO2005112007A1 (ja) 2004-05-13 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004144177A JP4272107B2 (ja) 2004-05-13 2004-05-13 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Publications (2)

Publication Number Publication Date
JP2005326587A JP2005326587A (ja) 2005-11-24
JP4272107B2 true JP4272107B2 (ja) 2009-06-03

Family

ID=35394384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004144177A Expired - Lifetime JP4272107B2 (ja) 2004-05-13 2004-05-13 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Country Status (2)

Country Link
JP (1) JP4272107B2 (ja)
WO (1) WO2005112007A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5365380B2 (ja) * 2009-07-07 2013-12-11 ソニー株式会社 音響信号処理装置、その処理方法およびプログラム
JP5057535B1 (ja) 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP7344649B2 (ja) * 2019-02-25 2023-09-14 株式会社ベネッセコーポレーション 情報端末装置およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JP3135937B2 (ja) * 1991-05-16 2001-02-19 株式会社リコー 雑音除去装置
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3418855B2 (ja) * 1996-10-30 2003-06-23 京セラ株式会社 雑音除去装置
JP4026198B2 (ja) * 1997-06-25 2007-12-26 株式会社デンソー 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP4119112B2 (ja) * 2001-11-05 2008-07-16 本田技研工業株式会社 混合音の分離装置
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP3786038B2 (ja) * 2002-03-14 2006-06-14 日産自動車株式会社 入力信号処理方法および入力信号処理装置

Also Published As

Publication number Publication date
JP2005326587A (ja) 2005-11-24
WO2005112007A1 (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
US6405163B1 (en) Process for removing voice from stereo recordings
TWI493541B (zh) 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式
US8891778B2 (en) Speech enhancement
JP6576934B2 (ja) 圧縮済みオーディオ信号の信号品質ベース強調及び補償
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
US9646592B2 (en) Audio signal analysis
US20140122068A1 (en) Signal processing apparatus, signal processing method and computer program product
JP4274419B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
WO2015092492A1 (en) Audio information processing
US20150262589A1 (en) Sound processor, sound processing method, program, electronic device, server, client device, and sound processing system
US20190172477A1 (en) Systems and methods for removing reverberation from audio signals
US9071215B2 (en) Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
US8660845B1 (en) Automatic separation of audio data
KR101008250B1 (ko) 기지 음향신호 제거방법 및 장치
JP4272107B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP2005284163A (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
JP4274418B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
CN113411663B (zh) 一种用于非编工程中的音乐节拍提取方法
JP2009282536A (ja) 既知音響信号除去方法及び装置
JP2018072723A (ja) 音響処理方法および音響処理装置
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
JP2006180392A (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
US20230057082A1 (en) Electronic device, method and computer program
Łopatka Detection of dialogue in movie soundtrack for speech intelligibility enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050920

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20081127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4272107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250