JP4608650B2 - 既知音響信号除去方法及び装置 - Google Patents
既知音響信号除去方法及び装置 Download PDFInfo
- Publication number
- JP4608650B2 JP4608650B2 JP2003167118A JP2003167118A JP4608650B2 JP 4608650 B2 JP4608650 B2 JP 4608650B2 JP 2003167118 A JP2003167118 A JP 2003167118A JP 2003167118 A JP2003167118 A JP 2003167118A JP 4608650 B2 JP4608650 B2 JP 4608650B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- amplitude spectrum
- mixed
- known acoustic
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000001228 spectrum Methods 0.000 claims abstract description 254
- 230000008859 change Effects 0.000 claims abstract description 103
- 230000002123 temporal effect Effects 0.000 claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 230000008602 contraction Effects 0.000 claims description 81
- 238000012937 correction Methods 0.000 claims description 59
- 230000005236 sound signal Effects 0.000 claims description 47
- 241000282414 Homo sapiens Species 0.000 claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000011410 subtraction method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、複数の音響信号が混合された混合音響信号の中から、既知の音響信号の成分を除去する方法及び装置、該装置に用いるインタフェース並びにプログラムに関するものである。
【0002】
【従来の技術】
従来よりスペクトルサブトラクション法(非特許文献1)と呼ばれる方法が知られている。従来のスペクトルサブトラクション法とは、定常雑音(スペクトルが時間的に変化せず、周波数特性や音量等がほぼ一定な雑音)と所望の音(ターゲット音)が混合された音響信号(混合音)から定常雑音を除去してターゲット音を得る方法である。この方法では、事前に定常なスペクトルの平均を求める等の簡易な方法で定常雑音のスペクトルを学習しておき、入力された混合音のスペクトルから定常雑音のスペクトルを引き去る処理を行う(つまり雑音の平均を引き去る処理を行う)。また、一般に音響信号除去に関しては、複数のマイクロホンからの入力を用いる方法も多数提案されている。またスペクトルサブトラクション法には様々な改良もなされている(特許文献)。
【0003】
【非特許文献1】
Steven Boll,“Suppression of Acoustic Noise in Speech Using Spectral Subtraction”,IEEE Transactionson Acoustics,Speech,and Signal Processing,Vol.ASSP−27,No.2,April 1979.
【0004】
【特許文献1】
特開2002−175099号「雑音抑制方法および雑音抑制装置」
【0005】
【特許文献2】
特開2002−014694号「音声認識装置」
【0006】
【特許文献3】
特開2001−228892号「ノイズ除去装置およびノイズ除去方法並びに記録媒体」
【0007】
【特許文献4】
特開2001−215992号「音声認識装置」
【0008】
【特許文献5】
特開平11−003094号「ノイズ除去装置」
【0009】
【特許文献6】
特開平10−240294号「雑音軽減方法及び雑音軽減装置」
【0010】
【特許文献7】
特開平08−221092号「スペクトルサブトラクションを用いた雑音除去システム」)
【0011】
【発明が解決しようとする課題】
しかし、従来のスペクトルサブトラクション法は、定常雑音を前提としており、非定常雑音(スペクトルが時間的に大きく変化し、周波数特性や音量等も変化する雑音)には適用できなかった。特に、音楽のような時間的に大きく変化する非定常雑音を除去することは不可能であった。これは非定常雑音のスペクトルの変化が大きすぎて学習ができないからである。また、仮に従来の方法で非定常雑音が事前に与えられた条件を扱おうとしても、非定常雑音の周波数特性、音量、振幅スペクトルの時間軸方向の伸縮及び周波数軸方向の伸縮等の変化の影響で、引き去る処理を適切に行うことはできなかった。また、複数のマイクロホンからの入力を用いる方法は、モノラル音響信号には適用することができなかった。また改良された従来のスペクトルサブトラクション法のいずれの方法も、主に音声認識の前処理を目的としている。そのため、非定常雑音が事前に与えられ、その非定常雑音を除去する用途には利用できなかった。
【0012】
本発明の目的は、複数の音響信号が混合された混合音響信号の中から、既知の音響信号(非定常でも定常でもよい)の成分を、それに対応する元音源の既知音響信号を用いて除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0013】
本発明の他の目的は、既知の音響信号が音楽であり、その音楽音響信号が、人間の音声や物音に対するバックグラウンドミュージック(BGM)として使用されている混合音から、既知の音響信号に対応する元音源の既知音響信号(CDやレコード等から同一音楽の音響信号を別途入手したもの)を用いてBGMを除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0014】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中での既知の音響信号の正確な位置を自動推定し、その位置の既知の音響信号を除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0015】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中での既知の音響信号の正確な位置を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【0016】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号の周波数特性や音量が時間的に変化しているときに、それらの変化を自動推定して補正しながら除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0017】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号の周波数特性や音量が時間的に変化しているときに、それらの変化を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【0018】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号が時間軸あるいは周波数軸方向に伸縮しているときに、それらの伸縮を自動推定して補正しながら除去することができる既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0019】
本発明の他の目的は、複数の音響信号が混合された音響信号(混合音)の中から、既知の音響信号の成分を除去する際に、混合音中では既知の音響信号が時間軸あるいは周波数軸方向に伸縮しているときに、それらの伸縮を人間が指定できるインタフェースを備えた既知音響信号除去装置を提供することにある。
【0020】
本発明の他の目的は、複数の音響信号が混合された音響信号の中から、複数の既知の音響信号の成分を除去する際に、既知の音響信号を一つずつ繰り返し除去できるようにした既知音響信号除去方法及び装置並びに該装置に用いるプログラムを提供することにある。
【0021】
【課題を解決するための手段】
本発明は、複数の音響信号が混合された混合音響信号から、既知の音響信号(非定常でも定常でもよい)の成分を、それに対応する元音源の既知音響信号を用いて除去するために下記の各ステップをコンピュータで実施する既知音響信号除去方法を対象とする。本発明の方法では、まず混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める(混合音響信号変換ステップ)。音響信号を時間周波数表現に変換する方法としては、フーリエ変換やウェーブレット変換など公知の変換方法を用いることができる。次に、混合音響信号中に含まれている既知の音響信号に対応(類似)している既知音響信号(CDやレコード等から同一音楽の音響信号を別途入手したもの)を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める(既知音響信号変換ステップ)。そして混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した前記既知音響信号の補正振幅スペクトルを求める(補正ステップ)。次に、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する(除去ステップ)。この除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める(逆変換ステップ)。最後に、単位波形をオーバーラップ・アド法等の各種の合成方法を用いて合成して既知の音響信号の成分を除去した音響信号を得る(合成ステップ)。
【0022】
本発明では、補正ステップにより、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した既知音響信号の補正振幅スペクトルを求め、この補正振幅スペクトルを混合音響信号の振幅スペクトルから除去するため、混合音響信号中に非定常雑音として含まれている既知音響信号を高い精度で除去することができる。理想的には、既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の中で、実際に混合音響信号中でその現象または変化が起きていたものを全て補正するのが好ましい。しかしながら何も補正しない場合よりも、実際に混合音響信号中でその現象または変化が起きているものの1つでも補正すれば、既知音響信号の除去精度を高めることができるので、必要な補正のすべてを行わなくてもよい。もちろん必要な補正のすべてを行ってもよいのは当然である。
【0023】
補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の時間的な位置を推定し、推定した時間的な位置に基づいて既知音響信号の振幅スペクトルの時間的な位置のずれを補正することができる。推定方法は、例えば、混合音響信号の振幅スペクトルの所定の区間と既知音響信号の振幅スペクトルの所定の区間の距離(類似度)を求め、距離が最も近い区間を混合音響信号に含まれる既知の音響信号の時間的な位置と推定することができる。なお推定手法は、任意である。
【0024】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの周波数特性の変化を推定し、推定した周波数特性の時間変化に基づいて既知音響信号の振幅スペクトルの周波数特性の時間変化を補正することができる。この周波数特性の変化の推定は、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間の周波数特性とこの区間に対応する既知音響信号の周波数特性との対比から、混合音響信号に含まれる既知の音響信号の周波数特性の変化を推定することができる。なおこの推定手法は、任意である。
【0025】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの音量の時間変化を推定し、推定した音量の時間変化に基づいて既知音響信号の振幅スペクトルの音量の時間変化を補正することができる。音量の時間変化の推定は、周波数特性の補正を行った後に、例えば、混合音響信号に含まれる既知音響信号に相当する振幅を持つ周波数帯域を各時刻において特定し、その周波数帯域における混合音響信号の振幅と既知音響信号の振幅との対比から推定することができる。なおこの推定手法は、任意である。
【0026】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の時間軸方向の伸縮を推定し、推定した時間軸方向の伸縮に基づいて既知音響信号の振幅スペクトルの時間軸方向の伸縮を補正することができる。時間軸方向の伸縮の推定には、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間に対応する既知音響信号の区間との時間軸の対比により、時間軸方向の伸縮を推定することができる。あるいは、時間軸を短い区間に分割した全区間の対比によって推定してもよい。なおこの推定手法は、任意である。
【0027】
また補正ステップでは、混合音響信号の振幅スペクトルに含まれる既知の音響信号の振幅スペクトルの周波数軸方向の伸縮を推定し、推定した周波数軸方向の伸縮に基づいて既知音響信号の振幅スペクトルの周波数軸方向の伸縮を補正することができる。周波数軸方向の伸縮の推定には、例えば、混合音響信号中の既知の音響信号だけが含まれている区間を特定し、この区間に対応する既知音響信号の区間との周波数軸の対比により、周波数軸方向の伸縮を推定することができる。なおこの推定手法は、任意である。
【0028】
また本発明の方法では、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルを視覚により認識できるように画像表示する画像表示ステップを更に備えることができる。この場合には、画像表示に基づいて人間が混合音響信号中における既知の音響信号が含まれている区間を定め、この区間について補正ステップ、除去ステップ、逆変換ステップまたは合成ステップを実行する。
【0029】
本発明の方法では、混合音響信号、既知音響信号及び合成ステップの出力信号を音響として再生する音響再生ステップを更に備えることができる。この場合には、音響再生ステップからの再生音に基づいて人間が混合音響信号中における既知の音響信号が含まれている区間を定め、この区間について補正ステップ、除去ステップ、逆変換ステップ及び合成ステップを実行する。
【0030】
また混合音響信号の振幅スペクトルに基づいて混合音響信号中における既知の音響信号が含まれている区間を自動推定し、この区間について補正ステップ、除去ステップ、逆変換ステップ及び合成ステップを実行することができる。混合音響信号中に比較的はっきりと既知の音響信号が含まれている場合(例えば、混合音響信号中で既知の音響信号が単独で鳴っている区間がある場合)には、自動推定により区間を特定することが可能である。自動推定を利用できれば、既知の音響信号の除去作業を速く実施できる。なお混合音響信号中に含まれる既知の音響信号の存在があまりはっきりとしていない場合には、人間が区間を指定するようにしてもよいのは勿論である。
【0031】
更に混合音響信号中に含まれている音響信号に相当する既知音響信号が複数種類存在する場合には、それら複数の既知音響信号のすべてに関して既知音響信号変換ステップ及び補正ステップを実行し、混合音響信号の振幅スペクトルから複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップを実行して得た除去後振幅スペクトルを用いて、逆変換ステップ及び合成ステップを実行すればよい。このようにすれば混合音響信号中から複数種類のすべての既知音響信号を除去することができる。
【0032】
また補正ステップを実行する際に、時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つの補正を指定することを可能にする操作パネルを備えたインタフェースを用いることができる。
【0033】
このインタフェースは、複数の音響信号が混合された混合音響信号の中から、既知の音響信号の成分を除去する際に、混合音響信号中での既知の音響信号の正確な位置を指定できる操作パネルを備えている。
【0034】
またこのインタフェースは、混合音響信号中で既知の音響信号の周波数特性が時間的に変化しているときに、それらの変化を指定できるように構成することができる。またこのインタフェースは、混合音響信号中で既知の音響信号の音量が時間的に変化しているときに、それらの変化を指定する操作パネルを備えている。
【0035】
更にこのインタフェースは、混合音響信号中で既知の音響信号が時間軸または周波数軸方向に伸縮しているときに、それらの伸縮を指定する操作パネルを備えている。
【0036】
またこのインタフェースは、混合音響信号と既知音響信号の対応する区間を指定できるように構成することができる。
【0037】
本発明の既知音響信号除去装置は、混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める混合音響信号変換手段と、混合音響信号中に含まれている音響信号に相当する既知音響信号を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める既知音響信号変換手段と、混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した既知音響信号の補正振幅スペクトルを求める補正手段と、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する除去手段と、除去手段により得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換手段と、単位波形を合成して既知の音響信号の成分を除去した音響信号を得る合成手段とから構成される。
【0038】
補正手段には、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つの補正の指定を行えることを可能にするインタフェースを設けることができる。このインタフェースは、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示する画像表示部と、混合音響信号、既知音響信号及び合成手段の出力信号を音響として再生する音響再生部とを備えているのが好ましい。このインタフェースを用いると、画像表示部に表示された混合音響信号の振幅スペクトル及び既知音響信号の振幅スペクトルの画像表示及び/または音響再生部からの再生音に基づいて、混合音響信号中に含まれている既知の音響信号の区間を指定できるだけでなく、この区間について既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つの補正を指定できる。その結果、混合音響信号中に含まれている既知の音響信号の態様が多少複雑であっても、高い除去精度で既知音響信号を除去することができる。
【0039】
なお画像表示部は、既知の音響信号が含まれている混合音響信号中の区間の振幅スペクトルと、既知音響信号の対応区間の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した補正振幅スペクトルとを時間軸上で位置を合わせて表示できるように構成されているのが好ましい。このようにすると補正振幅スペクトルの状態を視覚で確認できるので、補正スペクトルをどのようにすれば、除去精度を高めることができるのかを、画像を見ながら推測することができるので、除去作業が速くなる。
【0040】
また画像表示部は、前記混合音響信号の前記振幅スペクトルから前記補正振幅スペクトルを除去した音響信号の振幅スペクトルを画像表示できるように構成すのが好ましい。このようにすると、補正の効果を画像で確認できるので、カットアンドトライ方式で補正を行いながら、混合音響信号中から既知音響信号を最大限除去することができる。
【0041】
また本発明のプログラムは、既知音響信号除去装置で用いるコンピュータに、混合音響信号を時間周波数表現に変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める混合音響信号変換ステップと、混合音響信号中に含まれている音響信号に相当する既知音響信号を時間周波数表現に変換して既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、混合音響信号の振幅スペクトルを入力として、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去する除去ステップと、除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、単位波形を合成して既知の音響信号の成分を除去した音響信号を得る合成ステップとを実行させるように構成されている。
【0042】
【発明の実施の形態】
以下図面を参照して本発明の実施の形態の一例を詳細に説明する。図1は、本発明の既知音響信号除去方法を実施する本発明の既知音響信号除去装置の一実施の形態の構成を示すブロックである。この既知音響信号除去装置は、混合音響信号変換手段1と、既知音響信号変換手段2と、補正手段3と、インタフェース4と、除去手段5と、逆変換手段6と、合成手段7とから構成される。混合音響信号変換手段1は、所望の音声や物音等の音響信号s(t)(tは時間軸)に、BGM等の音響信号b(t)が混合された混合音響信号m(t)を(この時点ではs(t)とb(t)は未知でありm(t)のみが入力される)、時間周波数表現に変換して混合音響信号の振幅スペクトルM(ω,t)と混合音響信号の位相θm(ω,t)とを求める。また既知音響信号変換手段2は、除去すべき音響信号b(t)の元となる音源の既知音響信号b’(t)を時間周波数表現に変換して既知音響信号の振幅スペクトルB’(ω,t)を求める。そして補正手段3は、混合音響信号の振幅スペクトルM(ω,t)に基づいて、混合音響信号の振幅スペクトルM(ω,t)に対する既知音響信号の振幅スペクトルB’(ω,t)の時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮を補正した既知音響信号の補正振幅スペクトルB(ω,t)を求める。自動化のためには、自動で位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮のすべてを自動で推定して補正するように補正手段3を構成することができる。しかしこの実施の形態では、補正手段3は、時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮のすべての補正を、インタフェース4を用いて人間が手作業で指定することができるように構成されている。このインタフェース4は、後に詳しく説明するように、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示をする画像表示部を備えている。そしてインタフェース4は、混合音響信号の振幅スペクトルと既知音響信号の振幅スペクトルとに基づいて混合音響信号中に含まれている既知の音響信号の区間を人間が指定でき且つ前述の補正を指定できるように構成されている。除去手段5は、混合音響信号の振幅スペクトルM(ω,t)から既知音響信号の補正振幅スペクトルB(ω,t)を除去する。そして逆変換手段6は、除去手段5により得た除去後振幅スペクトルS(ω,t)と混合音響信号の位相θm(ω,t)とに基づいて時間表現に逆変換を行って単位波形s’(t)を求める。最後に、合成手段7は、逆変換手段6から出力される単位波形s’(t)を合成して既知の音響信号の成分を除去した音響信号s(t)を得る。インタフェース4は、除去手段5から出力された除去後振幅スペクトルS(ω,t)を画像表示部(図6参照)に表示する。またインタフェース4は音響再生部を内蔵しており、混合音響信号、既知音響信号及び合成手段7から出力された合成された音響信号を再生する。この構成によれば、補正の効果を画像表示部で視覚により確認し、また音響再生部で聴覚によっても確認できるので、カットアンドトライ方式で補正を行いながら、インタフェース4の表示を見ながら、人間が必要な補正を指定することにより、混合音響信号中から既知音響信号を最大限除去することができる。
【0043】
次に、図2及び図3を用いて、本発明のより詳細な実施の形態の一例を説明する。図2は、本発明の既知音響信号除去方法を実施する場合のステップを示しており、図3は本発明の既知音響信号除去装置の主要部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。
【0044】
図4は、ステップST103内の詳細なステップを示すフローチャートである。また図5は、人間がかかわる推定と自動推定のいずれでも推定動作をする場合のステップの詳細を示すフローチャートである。以下これらの図1乃至図5を参照しながら、本発明の方法及び装置における信号除去動作を説明する。
【0045】
まず以下の説明では、所望の音声や物音等の音響信号s(t)(tは時間軸)に、BGM等の音響信号b(t)が混合された、混合音響信号m(t)が観測されるものとする。
【0046】
【数1】
ここでは、b(t)の元となる音源の音響信号b’(t)が既知という条件下で、m(t)が与えられたときに、未知のs(t)を求める問題を解く。例えば、人間の声や物音と共にBGMが鳴っているテレビ番組等の音響信号m(t)を入力とし、そのBGMの楽曲が既知でその音響信号b’(t)が別途用意できるときに、そのBGMの音楽音響信号を用いて番組中のBGMを除去し、人間の声や物音だけの音響信号s(t)を得る処理を実現する。
【0047】
ここで、b(t)とb’(t)は完全には一致しないため、
【数2】
の減算に相当する処理では、b’(t)からb(t)に相当する成分を推定して、s(t)を求める必要がある。具体的には、既知音響信号b’(t)は、混合音m(t)中では、以下のような変形を伴うことが多いため、補正することでb(t)に相当する成分を推定する。補正の対象は、主として以下の時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸あるいは周波数軸方向の伸縮である。
【0048】
(時間的な位置のずれ)
混合音m(t)中で既知音響信号b’(t)が鳴っている位置は先頭からとは限らない。そこで、既知音響信号b’(t)を時間軸方向にずらし、両者の相対位置を合わせて、混合音から既知音響信号を減算する必要がある。
【0049】
(周波数特性の時間変化)
混合音m(t)中で既知音響信号b’(t)が鳴る際には、グラフィックイコライザ等の影響で周波数特性が変化することが多い。例えば、低域や高域が強調・減衰されることがある。そこで、b’(t)の周波数特性を同様に変化させて補正し、混合音から既知音響信号を減算する必要がある。
【0050】
(音量の時間変化)
混合音m(t)中で既知音響信号b’(t)が鳴る際には、混合音作成時のミキサーのフェーダー等の操作で混合比率が変更され、音量が時間変化することが多い。そこで、b’(t)の音量を同様に時間変化させて補正し、混合音から既知音響信号を減算する必要がある。
【0051】
(時間軸あるいは周波数軸方向の伸縮)
混合音m(t)中で既知音響信号b’(t)が鳴る際には、レコード等の回転数の違いにより、時間軸あるいは周波数軸方向に伸縮されることがある。そこで、b’(t)を時間軸あるいは周波数軸方向に伸縮して補正し、混合音から既知音響信号を減算する必要がある。
【0052】
本発明の方法においては、図2に示すように、ステップST1で、まず混合音響信号をフーリエ変換して、混合音響信号の位相(ステップST2)と混合音響信号の振幅スペクトル(ステップST3)を求める(混合音響信号変換ステップ)。次に、ステップST4で混合音響信号中に含まれている音響信号に相当する既知音響信号をフーリエ変換して、既知音響信号の振幅スペクトル(ステップST5)を求める(既知音響信号変換ステップ)。そしてステップST6により、混合音響信号の振幅スペクトルに基づいて、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した既知音響信号の補正振幅スペクトル(ステップST7)を求める(補正ステップ)。次に、ステップST8で、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去して除去後振幅スペクトル(ステップST9)を求める(除去ステップ)。そしてステップST10により、除去ステップにより得た除去後振幅スペクトルと混合音響信号の位相とに基づいて逆フーリエ変換を行って単位波形を求める(逆変換ステップ)。最後に、ステップST11で、単位波形をオーバーラップ・アド法により合成して既知の音響信号の成分を除去した音響信号を得る(合成ステップ)。
【0053】
また図3のアルゴリズムでは、ステップST101で、混合音響信号をフーリエ変換して混合音響信号の振幅スペクトルと混合音響信号の位相とを求める。次にステップST102で、混合音響信号中に含まれている音響信号に相当する既知音響信号をフーリエ変換して既知音響信号の振幅スペクトルを求める。次にステップST103で、混合音響信号の振幅スペクトルに基づいて、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した既知音響信号の補正振幅スペクトルを求める。その後、ステップST104で、混合音響信号の振幅スペクトルから既知音響信号の補正振幅スペクトルを除去して除去後振幅スペクトルを求める。次にステップST105で、ステップST104で得た除去後振幅スペクトルと混合音響信号の位相とに基づいて逆フーリエ変換を行って単位波形を求め、ステップST106で単位波形をオーバーラップ・アド法により合成して既知の音響信号の成分を除去した音響信号を得る。その後ステップST107で、除去後の音響信号をユーザが満足したと評価したか否かの判定が加わり、判定結果が不満足であれば、ステップST103へと戻って補正がやり直される。ユーザが満足するまでは、ステップST103からステップST107が繰り返される。
【0054】
以下更に各ステップで実行される内容を詳細に説明する。本発明の実施の形態の方法では、時間領域で波形を減算処理をせずに、時間周波数領域での振幅スペクトル上で減算処理を行う。音響信号m(t),b’(t)に対する窓関数h(t)を用いた時刻tにおける短時間フーリエ変換(STFT)Xm(ω,t),Xb’(ω,t)が
【数3】
【数4】
【数5】
【数6】
で定義されるとき、それらの振幅スペクトルM(ω,t),B’(ω,t)は、
【数7】
【数8】
【数9】
【数10】
で求まる。
【0055】
現在の実装では、音響信号を標本化周波数44.1kHz、量子化ビット数16bitでA/D変換し、窓関数h(t)として窓幅8192点のハニング窓を用いた短時間フーリエ変換(STFT)を、高速フーリエ変換(FFT)によって計算する。その際、高速フーリエ変換(FFT)のフレームを441点ずつシフトするため、フレームシフト時間(1フレームシフト)は10msとなる。このフレームシフトを、処理の時間単位とする。
【0056】
既知音響信号除去後の所望の音響信号s(t)の振幅スペクトルS(ω,t)は、振幅スペクトルM(ω,t),B’(ω,t)から以下の式によって求める。ここで、B(ω,t)はB’(ω,t)を補正した後の振幅スペクトルである。
【0057】
【数11】
【数12】
上記の式における各種パラメータ関数a(t),g(ω,t),p(ω),q(t),r(t),c(ω,t)を順に説明する。
【0058】
a(t)は、混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための任意の形状の関数であり、通常、a(t)≧1とする。これが大きいほど、減算量が大きくなる。
【0059】
g(ω,t)は、周波数特性の時間変化と音量の時間変化を補正するための関数であり、
【数13】
のように定義する。ここで、gω(ω,t)は、周波数特性の時間変化を表し、周波数特性の変化がないときはgω(ω,t)=1となる。一方、gt(t)は、音量の時間変化を表し、音量の変化がないときは定数となる。M(ω,t)とB’(ω,t)との音量差は、基本的にgt(t)で補正される。gr(t)は、主にg(ω,t)の値を全体的に持ち上げるための関数で、補正時の微調整に使用される。使用しない場合には、gr(t)=0とする。
【0060】
p(ω)は、周波数軸方向の伸縮を補正するための関数であり、振幅スペクトルB’(ω,t)の周波数軸ωを変換することで、周波数軸方向の線形・非線型な伸縮を可能にする。なお、B’(ω,t)は本来のωの定義域外では0をとり、離散化して実装する際には適宜補間することとする。
【0061】
q(t)は、時間軸方向の伸縮を補正するための関数であり、振幅スペクトルB’(ω,t)の時間軸tを変換することで、時間軸方向の線形・非線型な伸縮を可能にする。なお、B’(ω,t)は本来のtの定義域外では0をとり、離散化して実装する際には適宜補間することとする。
【0062】
r(t)は、時間的な位置のずれを補正するための関数であり、通常は定数を設定することで、一定のずれ幅を補正する。ずれ幅が時間変化するときには、各時刻での幅を補正する関数を設定する。なお、B’(ω,t)は本来のtの定義域外では0をとり、離散化して実装する際には適宜補間することとする。q(t)とr(t)を統合した一つの関数で表現することも可能だが、ここでは、q(t)は連続的な伸縮を表す目的で設定し、r(t)は不連続な位置のずれを表す目的で設定することとする。
【0063】
c(ω,t)は、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数である。ω方向の形状により、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整することができる。また、t方向の形状により、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。使用しない場合には、c(ω,t)=1とする。
【0064】
こうして求めた振幅スペクトルS(ω,t)と、混合音m(t)の位相θm(ω,t)を用いてXs(ω,t)を求め、それを逆フーリエ変換(IFFT)することで、単位波形s’(t)を得る。
【0065】
【数14】
【数15】
【数16】
この単位波形s’(t)を、オーバーラップ・アド(Overlap Add)法によって配置することにより、既知音響信号除去後の所望の音響信号s(t)を合成する。
【0066】
以上では、混合音響信号m(t)の中に、既知音響信号b’(t)が一種類含まれている場合を説明したが、b’1(t),b’2(t),...,b’N(t)のように複数含まれている場合には、それらの振幅スペクトルB’1(ω,t),B’2(ω,t),...,B’N(ω,t)からそれぞれに応じたパラメータ関数の設定で[数12]によって求めたB1(ω,t),B2(ω,t),...,BN(ω,t)を用いて、
【数17】
のようにS(ω,t)を求める処理へ拡張できる。その際には、Bn(ω,t)の各種パラメータ関数を順に設定するか、全体のバランスを取りながら、複数のBn(ω,t)の各種パラメータ関数を平行して設定する。
【0067】
また、以上では、モノラル信号を対象に説明したが、ステレオ信号は、左右を混合してモノラル信号に変換して適用してもよいし、ステレオ信号の左右の各信号に対して適用してもよい。また、ステレオ信号中の音源方向を利用して、適用してもよい。
【0068】
上記各種パラメータ関数の設定について説明する。本発明の方法を適用する際に、[数11]、[数12]、[数13]の各種パラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω),q(t),r(t),c(ω,t)の形状は、自動推定してもよいし、人間が手作業で設定してもよい。あるいは、自動推定後に人間が修正してもよい。以下では、具体的な自動推定方法と、人間の手作業による修正を可能にする既知音響信号除去エディタ上のインタフェース4を用いる場合について説明する。
【0069】
最初に、[数11]、[数12]、[数13]の各種パラメータ関数g(ω,t)(gω(ω,t),gt(t)),p(ω),q(t),r(t)の形状を推定する方法を図4を用いて以下に述べる。まずステップST201でBGM区間ψの集合Ψの指定・自動推定を行い、ステップST202でp(ω),q(t)の自動推定を行い、ステップST203でgω(ω,t),gt(t),r(t)の自動推定を行う。そして推定結果のパラメータ関数が収束するまでこれらのステップが継続される(ステップST204)。ステップST205以降では、補正動作がインタフェース4を用いて実行される。
【0070】
g(ω,t)の推定では、まず、周波数特性の時間変化gω(ω,t)を推定し、次に、音量の時間変化gt(t)を推定する。ただし、g(ω,t)の推定に先立ち、p(ω),q(t),r(t)は決定されている必要がある。ここでは便宜上、B’(p(ω),q(t)+r(t))をB’(ω,t)と記述する。
【0071】
周波数特性の時間変化gω(ω,t)の推定では、原則として、人間の声や物音だけの音響信号s(t)がほとんど含まれていない区間(以下、BGM区間と呼ぶ)を用いる。BGM区間は、複数用いてもよい。BGM区間では、混合音m(t)の振幅スペクトルM(ω,t)は、既知音響信号b’(t)によるBGMに相当する振幅スペクトルB’(ω,t)に由来の成分がほとんどとなる。そこで、周波数特性が時間変化せずに定常、すなわち、gω(ω,t)=g’ω(ω)と仮定できるときには、g’ω(ω)を
【数18】
により推定する。ただし、ψは一つのBGM区間(時間軸上の領域)を表し、Ψは、ψの集合とする。一方、周波数特性が時間変化していくときには、gω(ω,t)の時刻tに近いBGM区間ψから
【数19】
を求め、補間(内挿あるいは外挿)することによりgω(ω,t)を推定する(両側にBGM区間があるときには、両側から内挿する)。最後に、gω(ω,t)を周波数軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
【0072】
音量の時間変化gt(t)の推定では、M(ω,t)と、周波数特性補正後のgω(ω,t)B’(ω,t)の各時刻における振幅を比較する。しかし、M(ω,t)には、B’(ω,t)に由来の成分以外に、s(t)に由来の成分も含まれる。そこで、周波数軸ωを複数の周波数帯域Φに分割し、各帯域φ(φ∈Φ)ごとに
【数20】
を求める(Φはφの集合を表す)。Φとして任意の分割が適用できるが、例えば、音楽で用いる平均律の1オクターブごとに分割(対数周波数軸上で等間隔に分割)するとよい。そして、gt(t)は、min(g’t(φ,t))あるいは
【数21】
により推定する。min(g’t(φ,t))の場合には、M(ω,t)とgω(ω,t)B’(ω,t)が一番が近い周波数帯域において振幅が比較されることになる。最後に、gt(t)を時間軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
【0073】
p(ω),q(t)の推定では、M(ω,t)とB(ω,t)との距離(例えば、対数スペクトル距離等)が最小となるように、p(ω)とq(t)を変更する。その際、B(ω,t)=a(t)g(ω,t)B’(p(ω),q(t)+r(t))の右辺のうち、a(t)=1とし、
1.(推定途中の)p(ω)とq(t)を仮に固定した上で、g(ω,t)とr(t)を推定
2.(推定途中の)g(ω,t)とr(t)を仮に固定した上で、p(ω)とq(t)を推定
の二つを反復的に繰り返して、適切なp(ω),q(t)を推定する。これは、音響信号の全区間に対して一度に実行せず、時間軸を分割して、区分的におこなうとよい。初期値は前後の区間の連続性を考慮して定める。また、BGM区間ψの集合Ψを用いて、それらの複数の区間におけるM(ω,t)とB(ω,t)との対応関係の時間軸を合わせるように、p(ω),q(t)を推定するとよい。
【0074】
r(t)の推定では、原則として、BGM区間ψの集合Ψを用いて、それらの区間におけるM(ω,t)とB(ω,t)との対応関係の時間軸を合わせるように、r(t)を求める。r(t)は定数であることが多いが、既知音響信号b’(t)の一部区間が使われずに、飛び飛びで使用されながら混合されていたとき等には、その区間を飛ばすようにr(t)が不連続関数となる。
【0075】
上記のg(ω,t)やr(t)等の推定では、BGM区間ψの集合Ψを用いていた。これは、人間が手作業で指定してもよい。あるいは、手作業で指定したBGM区間の集合に自動推定で追加してもよい。図5は、人間が手作業で指定する場合と自動推定する場合のいずれでも対応するプログラムのソフトウエアのアルゴリズムを示すフローチャートである。自動推定する場合には、図5のステップST302〜ST313を実行する。Ψの自動推定では、基本的に、どこか一箇所のBGM区間ψ1を手掛かりとして、残りのBGM区間の集合を求める。まず、最初のψ1は、人間が手作業で指定するか、音響信号の時間軸を細かく分割して、それらの短い分割区間の対応関係を判定して求める。人間が手作業で指定しない場合、B(ω,t)を仮に計算し(ステップST302)、M(ω,t)とB(ω,t)を細かく分割した時間窓の振幅スペクトル間の距離(類似度に相当)を計算する(ステップST303)。そして、その最小距離の時間窓の対応関係を調べ(ステップST304)、その結果を含む区間をψ1に設定して初期のΨとする(ステップST305)。次に、ψ1を含むΨに基づいて、B(ω,t)の各種パラメータ関数を推定し(ステップST306乃至ステップST309)、B(ω,t)を計算する(ステップST310)。各パラメータの推定値が収束しているかを調べ、収束していない場合には、Ψの全区間に対して、M(ω,t)とB(ω,t)との振幅スペクトル間の距離(類似度に相当)を求める。ここでその最大値(もしくは平均値)の定数倍をBGM区間判定用閾値とする(ステップST312)。そして、BGM区間判定用閾値以下の距離を持つ区間を検出し、新たにΨに追加する(ステップST313)。ただし、追加には上限を設けることもできる。この推定と追加を繰り返すことで、Ψが更新され、各種パラメータ関数が適切に求まっていく。ここで、M(ω,t)とB(ω,t)との距離としては、例えば、二乗平均対数スペクトル距離
【数22】
が有効である。
【0076】
次に既知音響信号除去エディタ上のインタフェースによる各種パラメータ関数の調整について説明する。
【0077】
[数11]〜[数13]のすべてのパラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω),q(t),r(t),c(ω,t)の形状を、人間が手作業で設定できる既知音響信号除去エディタを以下に説明する。エディタのユーザは、最初から任意の関数形状を描いて指定してもよいし、最初はまず自動推定をして、その結果を修正してもよい。
【0078】
エディタのインタフェース4の画面構成を図6に示す。本エディタは、大別して、混合音響信号m(t)操作用のサブウィンドウW1、既知音響信号b’(t)操作用のサブウィンドウW2、既知音響信号除去後の所望の音響信号s(t)操作用のサブウィンドウW3の三つで構成されている。既知音響信号b’(t)が複数種類ある場合には、切り替えスイッチW2Sにより、サブウィンドウW2で操作する既知音響信号b’(t)を切り替えることができる。このインタフェースでは、図4に示したステップST205からステップST219が実行される。
【0079】
まず、全サブウィンドウに共通の機能を述べる。操作範囲スライダーP1は、音響信号中のどこを現在表示しているかを表す。カーソルP2は、現在の操作対象の時間軸上の位置を表す。アイコン化(折り畳み)ボタンP3は、これを押すと一時的にそのボタンの属するサブウィンドウが折り畳まれ、小さくなる。現在操作対象以外の未使用のサブウィンドウを隠して、狭い画面を有効活用できる。
フロート化(拡大)ボタンP4は、これを押すと一時的にそのボタンの属するサブウィンドウが、親ウィンドウから切り離され(フロート化)、さらに拡大されて操作・編集が容易になる。フロート化(拡大)ボタンP4しか描かれていない場合には、このボタンを押すと、それに関連づけられたサブウィンドウがフロート化されて新たに出現する。
【0080】
サブウィンドウW1には、混合音響信号m(t)のパワーのグラフE1とその振幅スペクトルM(ω,t)のグラフE2が表示されている。サブウィンドウW2には、既知音響信号b’(t)のパワーのグラフE3とその振幅スペクトルB’(ω,t)のグラフE4が表示されている。サブウィンドウW3には、既知音響信号除去後の音響信号s(t)のパワーのグラフE5とその振幅スペクトルS(ω,t)のグラフE6が表示されている。各振幅スペクトルでは、左側に濃淡で振幅が描かれ(横軸が時間軸、縦軸が周波数軸)、右側にカーソル位置での振幅が描かれている(横軸がパワー、縦軸が周波数軸)。
【0081】
また再生制御操作パネルP51には、人間が聞いて確認するために、混合音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルP51の操作により、インタフェース4は、内蔵する音響再生部によって混合音響信号を再生する。
【0082】
既知音響信号b’(t)操作用のサブウィンドウW2が操作の中心となるウィンドウであり、[数12]、[数13]のすべてのパラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω),q(t),r(t)の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
【0083】
1.周波数特性の時間変化の補正用操作パネルC1(E7の右側)
gω(ω,t)を表示・操作するためのパネルで、カーソル位置の時刻tでのgω(ω,t)が描かれている(横軸が大きさ、縦軸が周波数軸)。設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される(ステップST205,ST206)。E7には、濃淡でg(ω,t)の値の大きさが描かれている(横軸が時間軸、縦軸が周波数軸)。
【0084】
2.音量の時間変化の補正用操作パネルC2(E7の下側)
gt(t)を表示・操作するためのパネルで、設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される(ステップST207,ST208)。
【0085】
3.g(ω,t)の値を全体的に持ち上げるための操作パネルC3(E7の下側)
gr(t)を表示・操作するためのパネルで、設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される(ステップST209,ST210)。
【0086】
4.混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための操作パネルC4
a(t)を表示・操作するためのパネルである。このパネルを操作するとa(t)の変更が即座に表示に反映する(ステップST211,ST212)。
【0087】
5.周波数軸方向の伸縮を補正するための操作パネルC5
p(ω)を表示・操作するためのパネルである。このパネルを操作するとp(t)の変更が即座に表示に反映する(ステップST213,ST214)。
【0088】
6.時間軸方向の伸縮を補正するための操作パネルC6
q(t)を表示・操作するためのパネルである。このパネルを操作するとq(t)の変更が即座に表示に反映する(ステップST215,ST216)。
【0089】
7.時間的な位置のずれを補正するための操作パネルC7
r(t)を表示・操作するためのパネルである。このパネルを操作するとr(t)の変更が即座に表示に反映する(ステップST217,ST218)。
【0090】
また再生制御操作パネルP52には、人間が聞いて確認するために、既知音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルP52の操作により、インタフェース4は、内蔵する音響再生部によって既知音響信号を再生する。
【0091】
次に、既知音響信号除去後の音響信号s(t)操作用のサブウィンドウW3では、[数11]のパラメータ関数c(ω,t)の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
【0092】
1.グラフィックイコライザ(GEQ)操作パネルC8(E8の右側)
c(ω,t)のω方向の形状を表示・操作するためのパネルで、カーソル位置の時刻tでのc(ω,t)が描かれている(横軸が大きさ、縦軸が周波数軸)。設定操作結果は、c(ω,t)の表示パネルE8に即座に反映される。E8には、濃淡でc(ω,t)の値の大きさが描かれている(横軸が時間軸、縦軸が周波数軸)。
【0093】
2.ボリュームフェーダー操作パネルC9(E8の下側)
c(ω,t)のt方向の形状を表示・操作するためのパネルで、設定操作結果は、c(ω,t)の表示パネルE8に即座に反映される。
【0094】
また再生制御操作パネルP53には、人間が聞いて確認するために、合成した音響信号(合成手段7の出力)の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。再生制御操作パネルP53の操作により、インタフェース4は、内蔵する音響再生部によって合成した音響信号を再生する。
【0095】
次に本実施の形態の実装について説明する。まず音声や物音等の音響信号s(t)にBGM等の音響信号b(t)が加えられている混合音響信号m(t)が観測されたときに、b(t)の元となる音源の音響信号b’(t)が既知という条件下で、未知のs(t)を求めることが可能なプログラムを、各種オペレーティングシステム(Linux2.4,SGI IRIX6.5,Microsoft Windows XP:登録商標)上に実装した。本プログラムに、m(t)とb’(t)が収録されたオーディオファイルを与えると、s(t)のオーディオファイルを得ることができる。
【0096】
人間の音声や物音にバックグラウンドミュージック(BGM)が加えられた様々な混合音に対して実験した結果、そのBGMの原曲の音響信号を用いて、混合音中のBGMを除去し、人間の音声や物音が得られることを確認した。ドラムスの鳴っている曲や鳴っていない曲、ポピュラー音楽やクラシック音楽等の様々なジャンルの曲がBGMとして含まれていても、除去が可能であった。
【0097】
実験結果の例として、二人の男女の対話のBGMにクラシック音楽が鳴っている混合音を実際に処理した結果を図7〜図12に示す。図7、図8に示す混合音響信号m(t)を入力として、図9、図10に示す元音源の既知音響信号b’(t)を用いてBGM成分を除去した結果が、図11、図12に示す既知音響信号除去後の音響信号s(t)となる。この処理結果の例の混合音は、「RWCP音声対話データベース」から抜粋した二人の男女の対話の音響信号に、「RWC研究用音楽データベース」から抜粋したクラシック音楽の音響信号が加えられたものである。
【0098】
【発明の効果】
本発明によれば、補正ステップにより、混合音響信号の振幅スペクトルに対する既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した既知音響信号の補正振幅スペクトルを求め、この補正振幅スペクトルを混合音響信号の振幅スペクトルから除去するため、混合音響信号中に非定常な雑音として含まれている既知音響信号を高い精度で除去することができる利点が得られる。
【0099】
また本発明によれば、人間の声や物音の背景にBGMが鳴っているテレビ番組や映画等の音響信号を入力とすると、別途用意したBGMの音楽音響信号を用いて番組中のBGMを除去し、人間の声や物音だけの音響信号を得ることが可能となる。
【0100】
更に、BGM除去後の音響信号に、別の音楽をBGMとして付与することで、テレビ番組や映画等の音楽を差し換えた再利用が可能となる。
【0101】
既知音響信号は、任意の音響信号でよいため、音楽のジャンルを問わず、ボーカルの有無を問わず、伴奏の有無を問わずに適用できる。また、音楽に限らず、定常雑音及び非定常雑音を含めた、任意の既知の雑音に適用できる。
【0102】
また、既知音響信号除去エディタ上のインタフェースを使用して、人間が手作業で修正することで、実務の現場でより高品質な除去作業が実現できる。
【図面の簡単な説明】
【図1】本発明の既知音響信号除去装置の実施の形態の一例の構成を示すブロック図である。
【図2】本発明の既知音響信号除去方法を実施する場合のステップを示す図である。
【図3】本発明の既知音響信号除去装置の主要部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。
【図4】ステップST103内の詳細なステップを示すフローチャートである。
【図5】人間がかかわる推定と自動推定のいずれでも推定動作をする場合のステップの詳細を示すフローチャートである。
【図6】エディタのインタフェースの画面構成を示す図である。
【図7】混合音響信号のパワーの時間変化を示す図である。
【図8】混合音響信号の振幅スペクトルの時間変化を示す図である。
【図9】BGMの元となる音源の既知音響信号のパワーの時間変化を示す図である。
【図10】BGMの元となる音源の既知音響信号の振幅スペクトルの時間変化を示す図である。
【図11】既知音響信号除去後の所望の音響信号のパワーの時間変化を示す図である。
【図12】既知音響信号除去後の所望の音響信号の振幅スペクトルの時間変化を示す図である。
【符号の説明】
W1,W2,W3 サブウィンドウ
P1 操作範囲スライダー
P2 カーソル
P3,P4 ボタン
P51〜P53 再生制御操作パネル
E1〜E6 グラフ
E7,E8 表示パネル
C1〜C9 操作パネル
Claims (18)
- 複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去するために下記の各ステップをコンピュータで実施する既知音響信号除去方法であって、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換ステップと、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去ステップと、
前記除去ステップにより得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成ステップとからなり、
前記補正ステップでは、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正することを特徴とする既知音響信号除去方法。 - 前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルとを視覚により対比できるように画像表示する画像表示ステップと、
前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音として音響再生する音響再生ステップとを更に備え、
前記画像表示と前記音響再生とに基づいて人間が前記混合音響信号中における前記既知の音響信号が含まれている区間を定め、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを実行することを特徴とする請求項1に記載の既知音響信号除去方法。 - 前記混合音響信号の振幅スペクトルに基づいて前記混合音響信号中における前記既知音響信号が含まれている区間を自動推定し、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを実行することを特徴とする請求項1に記載の既知音響信号除去方法。 - 前記混合音響信号中に含まれている前記既知音響信号に相当する複数の前記既知音響信号が存在する場合に、前記複数の既知音響信号のすべてに関して前記既知音響信号変換ステップ及び前記補正ステップを実行し、
前記混合音響信号の振幅スペクトルから前記複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップによって得た除去後振幅スペクトルを用いて、前記逆変換ステップ及び前記合成ステップを実行する請求項1に記載の既知音響信号除去方法。 - 前記補正ステップを実行する際に、前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも1つの補正を指定することを可能にする操作パネルを備えたインタフェースを用いることを特徴とする請求項1に記載の既知音響信号除去方法。
- 前記インタフェースは、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示部を備えていることを特徴とする請求項5に記載の既知音響信号除去方法。
- 前記インタフェースは、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生部を備えていることを特徴とする請求項5に記載の既知音響信号除去方法。
- 前記インタフェースは、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示部と、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生部とを備えていることを特徴とする請求項5に記載の既知音響信号除去方法。
- 複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去する既知音響信号除去装置であって、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換手段と、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換手段と、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正手段と、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去手段と、
前記除去手段により得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換手段と、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成手段とからなり、
前記補正手段では、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正することを特徴とする既知音響信号除去装置。 - 前記補正手段は、前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも1つの補正を指定することを可能にする操作パネルを備えたインタフェースを備えていることを特徴とする請求項9に記載の既知音響信号除去装置。
- 前記インタフェースは、前記混合音響信号の前記振幅スペクトルと前記既知音響信号の前記振幅スペクトルとを視覚により対比できるように画像表示する画像表示部と、前記混合音響信号、前記既知音響信号及び前記合成手段の出力信号を音響として再生する音響再生部とを備え、
前記画像表示部に表示された前記混合音響信号の前記振幅スペクトルと前記既知音響信号の前記振幅スペクトルと、前記音響再生部からの再生音とに基づいて、前記混合音響信号中に含まれている前記既知の音響信号の区間の指定と、前記既知音響信号の振幅スペクトルの前記時間的な位置のずれ、前記周波数特性の時間変化、前記音量の時間変化、前記時間軸方向の伸縮及び前記周波数軸方向の伸縮の少なくとも1つの補正の指定を行うための操作パネルを備えていることを特徴とする請求項10に記載の既知音響信号除去装置。 - 前記画像表示部は、前記既知の音響信号が含まれている前記混合音響信号中の区間の前記振幅スペクトルと、前記混合音響信号中に含まれている前記既知の音響信号の対応区間の前記既知音響信号の振幅スペクトルの時間的な位置のずれ、周波数特性の時間変化、音量の時間変化、時間軸方向の伸縮及び周波数軸方向の伸縮の少なくとも1つを補正した補正振幅スペクトルとを時間軸上で位置を合わせて表示できるように構成されている請求項11に記載の既知音響信号除去装置。
- 前記画像表示部は、前記混合音響信号の前記振幅スペクトルから前記補正振幅スペクトルを除去した音響信号の振幅スペクトルを画像表示できるように構成されている請求項11または12に記載の既知音響信号除去装置。
- 複数の音響信号が混合された混合音響信号から、既知の音響信号の成分を除去する既知音響信号除去装置で用いるコンピュータに、
前記混合音響信号を時間周波数表現に変換して前記混合音響信号の振幅スペクトルと前記混合音響信号の位相とを求める混合音響信号変換ステップと、
前記混合音響信号中に含まれている既知の音響信号に相当する既知音響信号を時間周波数表現に変換して前記既知音響信号の振幅スペクトルを求める既知音響信号変換ステップと、
前記混合音響信号の振幅スペクトルを入力として、前記混合音響信号の振幅スペクトルに対する前記既知音響信号の振幅スペクトルの時間的な位置のずれ、前記振幅スペクトルの周波数特性の時間変化、前記振幅スペクトルの音量の時間変化、前記振幅スペクトルの時間軸方向の伸縮及び前記振幅スペクトルの周波数軸方向の伸縮を補正した前記既知音響信号の補正振幅スペクトルを求める補正ステップと、
前記混合音響信号の振幅スペクトルから前記既知音響信号の補正振幅スペクトルを除去する除去ステップと、
前記除去ステップにより得た除去後振幅スペクトルと前記混合音響信号の位相とに基づいて時間表現に逆変換を行って単位波形を求める逆変換ステップと、
前記単位波形を合成して前記既知の音響信号の成分を除去した音響信号を得る合成ステップとを実行させ、
前記補正ステップでは、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間的な位置を推定し、推定した前記時間的な位置に基づいて前記既知音響信号の前記振幅スペクトルの時間的な位置のずれを補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を推定し、推定した前記周波数特性の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの周波数特性の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの音量の時間変化を推定し、推定した前記音量の時間変化に基づいて前記既知音響信号の前記振幅スペクトルの音量の時間変化を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を推定し、推定した前記時間軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの時間軸方向の伸縮を補正し、
前記混合音響信号の前記振幅スペクトルに含まれる前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を推定し、推定した前記周波数軸方向の伸縮に基づいて前記既知音響信号の前記振幅スペクトルの周波数軸方向の伸縮を補正する既知音響信号除去装置用プログラム。 - 前記コンピュータに、前記混合音響信号の振幅スペクトルと前記既知音響信号の振幅スペクトルを視覚により対比できるように画像表示する画像表示ステップを更に実行させることを特徴とする請求項14に記載の既知音響信号除去装置用プログラム。
- 前記コンピュータに、前記混合音響信号、前記既知音響信号及び前記合成ステップの出力信号を音響として再生する音響再生ステップを更に実行させることを特徴とする請求項14に記載の既知音響信号除去装置用プログラム。
- 前記混合音響信号の振幅スペクトルに基づいて前記混合音響信号中における前記既知の音響信号が含まれている区間を自動推定するステップを前記コンピュータに更に実行させ、
前記区間について前記補正ステップ、前記除去ステップ、前記逆変換ステップ及び前記合成ステップを前記コンピュータに実行させることを特徴とする請求項14に記載の既知音響信号除去装置用プログラム。 - 前記混合音響信号中に含まれている前記既知の音響信号に相当する複数の前記既知音響信号が存在する場合に、
前記複数の既知音響信号のすべてに関して前記既知音響信号変換ステップ及び前記補正ステップを前記コンピュータに実行させ、
前記混合音響信号の振幅スペクトルから前記複数の既知音響信号の補正振幅スペクトルをすべて除去する除去ステップによって得た除去後振幅スペクトルを用いて、前記逆変換ステップ及び前記合成ステップを前記コンピュータに実行させることを特徴とする請求項14に記載の既知音響信号除去装置用プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003167118A JP4608650B2 (ja) | 2003-05-30 | 2003-06-11 | 既知音響信号除去方法及び装置 |
GB0526570A GB2418577B (en) | 2003-05-30 | 2004-05-26 | Method and device for removing known acoustic signal |
KR1020057021034A KR101008250B1 (ko) | 2003-05-30 | 2004-05-26 | 기지 음향신호 제거방법 및 장치 |
US10/558,608 US20070021959A1 (en) | 2003-05-30 | 2004-05-26 | Method and device for removing known acoustic signal |
PCT/JP2004/007587 WO2004107319A1 (ja) | 2003-05-30 | 2004-05-26 | 既知音響信号除去方法及び装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003154964 | 2003-05-30 | ||
JP2003167118A JP4608650B2 (ja) | 2003-05-30 | 2003-06-11 | 既知音響信号除去方法及び装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009170514A Division JP2009282536A (ja) | 2003-05-30 | 2009-07-21 | 既知音響信号除去方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005049364A JP2005049364A (ja) | 2005-02-24 |
JP4608650B2 true JP4608650B2 (ja) | 2011-01-12 |
Family
ID=33492453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003167118A Expired - Lifetime JP4608650B2 (ja) | 2003-05-30 | 2003-06-11 | 既知音響信号除去方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070021959A1 (ja) |
JP (1) | JP4608650B2 (ja) |
KR (1) | KR101008250B1 (ja) |
GB (1) | GB2418577B (ja) |
WO (1) | WO2004107319A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006243664A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 |
WO2007029536A1 (ja) | 2005-09-02 | 2007-03-15 | Nec Corporation | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
WO2007069150A1 (en) | 2005-12-13 | 2007-06-21 | Nxp B.V. | Device for and method of processing an audio data stream |
US9299362B2 (en) * | 2009-06-29 | 2016-03-29 | Mitsubishi Electric Corporation | Audio signal processing device |
EP2600344B1 (en) | 2010-07-26 | 2015-02-18 | Panasonic Corporation | Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit |
US8849199B2 (en) | 2010-11-30 | 2014-09-30 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
US20120136658A1 (en) * | 2010-11-30 | 2012-05-31 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
JP5703807B2 (ja) * | 2011-02-08 | 2015-04-22 | ヤマハ株式会社 | 信号処理装置 |
US9449611B2 (en) * | 2011-09-30 | 2016-09-20 | Audionamix | System and method for extraction of single-channel time domain component from mixture of coherent information |
US9195431B2 (en) * | 2012-06-18 | 2015-11-24 | Google Inc. | System and method for selective removal of audio content from a mixed audio recording |
US9373320B1 (en) | 2013-08-21 | 2016-06-21 | Google Inc. | Systems and methods facilitating selective removal of content from a mixed audio recording |
JP6432597B2 (ja) * | 2014-03-17 | 2018-12-05 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
US10052494B2 (en) * | 2014-12-23 | 2018-08-21 | Medtronic, Inc. | Hemodynamically unstable ventricular arrhythmia detection |
CN110970045B (zh) * | 2019-11-15 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 混音处理方法、装置、电子设备和存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5204969A (en) * | 1988-12-30 | 1993-04-20 | Macromedia, Inc. | Sound editing system using visually displayed control line for altering specified characteristic of adjacent segment of stored waveform |
JPH05197385A (ja) * | 1992-01-20 | 1993-08-06 | Sanyo Electric Co Ltd | 音声認識装置 |
JP3410789B2 (ja) * | 1993-12-28 | 2003-05-26 | 株式会社リコー | 音声認識装置 |
JPH08107375A (ja) * | 1994-10-06 | 1996-04-23 | Hitachi Ltd | 音響信号記録再生装置 |
US5792971A (en) * | 1995-09-29 | 1998-08-11 | Opcode Systems, Inc. | Method and system for editing digital audio information with music-like parameters |
JP3501199B2 (ja) * | 1997-02-17 | 2004-03-02 | 日本電信電話株式会社 | 音響信号分離方法 |
JPH10307595A (ja) * | 1997-03-07 | 1998-11-17 | Seiko Epson Corp | 入力音声抽出方法および入力音声抽出装置 |
US6343268B1 (en) * | 1998-12-01 | 2002-01-29 | Siemens Corporation Research, Inc. | Estimator of independent sources from degenerate mixtures |
US6446041B1 (en) * | 1999-10-27 | 2002-09-03 | Microsoft Corporation | Method and system for providing audio playback of a multi-source document |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US6879952B2 (en) * | 2000-04-26 | 2005-04-12 | Microsoft Corporation | Sound source separation using convolutional mixing and a priori sound source knowledge |
JP4028680B2 (ja) * | 2000-11-01 | 2007-12-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体 |
US7076433B2 (en) * | 2001-01-24 | 2006-07-11 | Honda Giken Kogyo Kabushiki Kaisha | Apparatus and program for separating a desired sound from a mixed input sound |
JP2003022100A (ja) * | 2001-07-09 | 2003-01-24 | Yamaha Corp | 雑音除去方法、雑音除去装置およびプログラム |
JP2003099085A (ja) * | 2001-09-25 | 2003-04-04 | National Institute Of Advanced Industrial & Technology | 音源の分離方法および音源の分離装置 |
US7243060B2 (en) * | 2002-04-02 | 2007-07-10 | University Of Washington | Single channel sound separation |
US6971323B2 (en) * | 2004-03-19 | 2005-12-06 | Peat International, Inc. | Method and apparatus for treating waste |
-
2003
- 2003-06-11 JP JP2003167118A patent/JP4608650B2/ja not_active Expired - Lifetime
-
2004
- 2004-05-26 US US10/558,608 patent/US20070021959A1/en not_active Abandoned
- 2004-05-26 WO PCT/JP2004/007587 patent/WO2004107319A1/ja active Application Filing
- 2004-05-26 GB GB0526570A patent/GB2418577B/en not_active Expired - Fee Related
- 2004-05-26 KR KR1020057021034A patent/KR101008250B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
WO2004107319A1 (ja) | 2004-12-09 |
KR101008250B1 (ko) | 2011-01-17 |
GB2418577B (en) | 2007-10-17 |
JP2005049364A (ja) | 2005-02-24 |
GB0526570D0 (en) | 2006-02-08 |
US20070021959A1 (en) | 2007-01-25 |
GB2418577A (en) | 2006-03-29 |
KR20060034637A (ko) | 2006-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6178456B2 (ja) | デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法 | |
JP4608650B2 (ja) | 既知音響信号除去方法及び装置 | |
JP5642882B2 (ja) | 時間展開情報をもつ基底関数を使用する音楽信号の分解 | |
JPH0997091A (ja) | 予め記録された背景音楽のピッチ変化方法およびカラオケシステム | |
US8027487B2 (en) | Method of setting equalizer for audio file and method of reproducing audio file | |
JP2004505304A (ja) | デジタルオーディオ信号の連続可変時間スケール変更 | |
KR20130108391A (ko) | 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체 | |
KR20180050652A (ko) | 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 | |
JP2008233672A (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体 | |
JP6641027B2 (ja) | チャネル間時間差パラメータの安定性を増加させるための方法および装置 | |
JP4940888B2 (ja) | オーディオ信号伸張圧縮装置及び方法 | |
US6487536B1 (en) | Time-axis compression/expansion method and apparatus for multichannel signals | |
JP4274419B2 (ja) | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム | |
JP2009282536A (ja) | 既知音響信号除去方法及び装置 | |
CN115699160A (zh) | 电子设备、方法和计算机程序 | |
JP3511360B2 (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JP4952368B2 (ja) | 収音装置 | |
CN115910009A (zh) | 电子设备、方法和计算机程序 | |
WO2020179472A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP4274418B2 (ja) | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム | |
JP2005309464A (ja) | 雑音除去方法、雑音除去装置およびプログラム | |
US11348596B2 (en) | Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice | |
JP7276469B2 (ja) | 波源方向推定装置、波源方向推定方法、およびプログラム | |
JP4512008B2 (ja) | 楽音情報生成装置、方法及びプログラム | |
JP2008262140A (ja) | 音程変換装置及び音程変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20081017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4608650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |