JP5153389B2 - 音響信号処理装置 - Google Patents

音響信号処理装置 Download PDF

Info

Publication number
JP5153389B2
JP5153389B2 JP2008057483A JP2008057483A JP5153389B2 JP 5153389 B2 JP5153389 B2 JP 5153389B2 JP 2008057483 A JP2008057483 A JP 2008057483A JP 2008057483 A JP2008057483 A JP 2008057483A JP 5153389 B2 JP5153389 B2 JP 5153389B2
Authority
JP
Japan
Prior art keywords
signal
band
acoustic signal
signal processing
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008057483A
Other languages
English (en)
Other versions
JP2009218663A (ja
Inventor
昌弘 吉田
誠 山中
智岐 奥
一眞 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2008057483A priority Critical patent/JP5153389B2/ja
Publication of JP2009218663A publication Critical patent/JP2009218663A/ja
Application granted granted Critical
Publication of JP5153389B2 publication Critical patent/JP5153389B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響信号処理装置に関し、特に、特定の音源からの音の信号成分を分離抽出する技術に関する。
複数のマイクロホンを用いて、特定の音源からの音の信号成分を分離して抽出する方法が提案されている。図13に、代表的な従来方法を採用した音響信号処理装置の内部ブロックを示す(例えば、下記特許文献1及び2参照)。この方法では、信号の周波数帯域が複数の帯域に細分化される。この際、細分化された各帯域の信号が1つの音源の信号成分しか含まない程度に、細かな帯域分割がなされる。
図13に対応する従来方法では、複数のマイクロホンから出力される時間領域上の検出信号を離散フーリエ変換を用いて周波数領域上の信号(周波数スペクトル)に変換する。そして、信号の周波数帯域を複数の帯域に細分化し、周波数スペクトルにおけるパラメータ(位相情報又はパワー情報)に基づいて細分化した各帯域を必要な帯域又は不要な帯域に分類判定する。そして、その判定結果を基づいて各周波数帯域の信号のパワーを制御し(例えば、不要な帯域成分を除去し)、その結果を時系列データに変換して出力する。尚、図13の音響信号処理装置では、複数のマイクロホンの左側に位置する音源からの音響信号と複数のマイクロホンの右側に位置する音源からの音響信号とを分離抽出してステレオ信号を出力する。
但し、この従来方法では、複数のマイクロホンの検出信号を所定の区間長にて区切って区間毎に周波数スペクトルを生成し、その周波数スペクトルのパラメータ(位相情報など)に基づいて区間毎に周波数領域上で信号のパワー制御を行うため、信号の不連続性が顕著に発生して所謂ミュージカルノイズが発生する。
特開2000−81900号公報 特開平10−313497号公報
そこで本発明は、ミュージカルノイズの抑制に寄与する音響信号処理装置を提供することを目的とする。また、その音響信号処理装置を利用した録音装置、音響信号再生装置及び撮像装置を提供することを目的とする。
本発明に係る音響信号処理装置は、複数のマイクロホンの検出信号に基づく複数のチャンネル信号を受ける信号入力部と、各チャンネル信号のパラメータを抽出して前記複数のチャンネル信号間で前記パラメータを比較する比較部と、前記複数のチャンネル信号に含まれるチャンネル信号に対してデジタルフィルタ処理を行うデジタルフィルタと、前記パラメータの比較結果に基づいて前記デジタルフィルタにおけるフィルタ係数を更新する係数更新部と、を有することを特徴とする。
これにより、ミュージカルノイズの抑制が期待される。また、ミュージカルノイズを抑制するために必要となる処理量を少なく抑えることが可能であり、実用性が極めて高い。
具体的には例えば、前記比較部において、前記複数のチャンネル信号の夫々は周波数スペクトルにて表現され、前記比較部は、前記周波数スペクトルに含まれる帯域を複数の細分化帯域に分割して前記細分化帯域ごとに前記パラメータを抽出し、同一細分化帯域における前記パラメータを前記複数のチャンネル信号間で比較することによって各細分化帯域を複数の種別の何れかに分類し、当該音響信号処理装置は、その分類結果列を時系列データに変換する周波数/時間変換部を更に備え、前記係数更新部は、前記時系列データに基づいて前記フィルタ係数を更新する。
或いは具体的には例えば、前記比較部において、前記複数のチャンネル信号の夫々は周波数スペクトルにて表現され、前記比較部は、前記周波数スペクトルに含まれる帯域を複数の細分化帯域に分割して前記細分化帯域ごとに前記パラメータを抽出し、同一細分化帯域における前記パラメータを前記複数のチャンネル信号間で比較することによって各細分化帯域を複数の種別の何れかに分類し、当該音響信号処理装置は、前記複数のチャンネル信号に含まれるチャンネル信号の各細分化帯域の信号レベルを前記分類の結果に基づき周波数領域上で制御して、周波数領域上における信号レベル制御後のチャンネル信号を出力する信号レベル制御部と、前記信号レベル制御部の出力信号を時系列データに変換する周波数/時間変換部と、を更に備え、前記係数更新部は、前記時系列データと前記デジタルフィルタの出力データとの差に基づいて、前記フィルタ係数を更新する。
そして例えば、前記周波数スペクトルは、時間領域上で表現されたチャンネル信号の時系列データを複数の区間で区切り、区切られた区間内の時系列データを周波数領域上のデータに変換することによって得られ、前記係数更新部による前記フィルタ係数の更新周期は、前記区間の時間長さよりも短い。
より具体的には例えば、前記デジタルフィルタには、時間領域上で表現されたチャンネル信号の時系列データが順次入力され、前記係数更新部による前記フィルタ係数の更新周期は、前記デジタルフィルタへのデータ入力周期に等しい。
また例えば、前記比較部は、前記細分化帯域ごとに、当該細分化帯域における信号の位相、パワー又はそれらの双方を前記パラメータとして抽出する。
本発明に係る録音装置は、複数のマイクロホンと、前記複数のマイクロホンの検出信号を受ける前記音響信号処理装置と、を備えたことを特徴とする。
本発明に係る音響信号再生装置は、前記音響信号処理装置を備えた音響信号再生装置であって、前記音響信号処理装置における前記信号入力部は、前記複数のマイクロホンの検出信号に基づくデータを記録した記録媒体から前記複数のチャンネル信号を受けることを特徴とする。
本発明に係る撮像装置は、複数のマイクロホンと、前記複数のマイクロホンの検出信号を受ける、前記音響信号処理装置と、撮像手段と、を備えたことを特徴とする。
本発明によれば、ミュージカルノイズの抑制に寄与する音響信号処理装置、録音装置、音響信号再生装置及び撮像装置を提供することが可能となる。
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。
以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。後に第1〜第4実施例を説明するが、まず、各実施例に共通する事項又は各実施例にて参照される事項について説明する。
後述の音響信号処理装置及び音響信号処理装置を有する各装置は、2つのマイクロホン1L及び1Rの検出信号を利用する。図1を参照して、マイクロホン1L及び1R並びに音源2L及び2Rの位置関係を説明する。今、互いに直交するX軸及びY軸を座標軸として有する二次元の座標面を想定する。X軸とY軸は原点Oにて直交する。原点Oを基準として、X軸の正の方向側を右側、X軸の負の方向側を左側、Y軸の正の方向側を前方側、Y軸の負の方向側を後方側とする。
マイクロホン1L及び1RはX軸上の互いに異なる位置に配置されている。マイクロホン1Lは原点Oから左側に距離lだけ離れた位置に配置され、マイクロホン1Rは原点Oから右側に距離lだけ離れた位置に配置されている。また、原点Oを通り且つY軸に対して30°だけ傾いた、上記座標面上の2つの直線を直線3L及び3Rとする。上記座標面上において、直線3Lは負の傾きを有し、直線3Rは正の傾きを有する。そして、直線3L上における音源を音源2Lと呼び、直線3R上における音源を音源2Rと呼ぶ。Y軸に対して、音源2Lは左側に配置され且つ音源2Rは右側に配置されることになる。以下、特に断りなき限り、距離lは1cm(センチメートル)であるとする。また、音速は340m/秒であるとする。
マイクロホン1Lは、自身が集音した音を検出して該音を表す検出信号を出力する。マイクロホン1Rは、自身が集音した音を検出して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン1L及び1Rの検出信号であるアナログ音響信号は、夫々、図示されないA/D変換器によってデジタル音響信号に変換される。このA/D変換器における、アナログ音響信号からデジタル音響信号に変換する際のサンプリング周波数は48kHz(キロヘルツ)であるとする。
マイクロホン1Lを左チャンネルに対応させ、マイクロホン1Rを右チャンネルに対応させて考える。マイクロホン1L及び1Rの検出信号をデジタル変換することによって得たデジタル音響信号を、夫々、原信号L及び原信号Rと呼ぶ。原信号L及びRは、時間領域上の信号である。
以下、第1〜第4実施例を個別に説明するが、或る実施例に記載した事項は、矛盾なく且つ特に記述なき限り、他の実施例にも適用される。
<<第1実施例>>
まず、本発明の第1実施例を説明する。図2に、第1実施例に係る音響信号処理装置10の内部ブロック図を示す。音響信号処理装置10は、原信号L及びRを入力音響信号として受け、その入力音響信号に含まれる音源2Lからの音響信号及び音源2Rからの音響信号を独立して抽出し、この抽出によって得た信号をステレオ信号として出力する。
音響信号処理装置10は、符号11L〜13L及び16L〜18L、符号11R〜13R及び16R〜18R並びに符号14及び15によって参照される各部位を備える。
原信号L及びRは、夫々、ローパスフィルタ(以下、LPFという)11L及び11Rに入力される。LPF11Lは原信号Lから所定の高域周波数成分を除去した信号を出力し、LPF11Rは原信号Rから所定の高域周波数成分を除去した信号を出力する。ダウンサンプリング部12L及び12Rは、夫々、LPF11L及び11Rの出力信号を48kHz未満のサンプリング周波数で再サンプリングし、その再サンプリングによって得たデジタル信号を出力する。FFT部13L及び13Rは、夫々、高速フーリエ変換(Fast Fourier Transform)の一形態である離散フーリエ変換を用いてダウンサンプリング部12L及び12Rの出力信号を周波数領域上の信号に変換して出力する。
比較部14は、FFT部13L及び13Rから得られる周波数スペクトルの位相情報に基づいて、左チャンネルと右チャンネルの信号の内、どちらの位相が進んでいるのか(或いは遅れているのか)を判断する。この判断結果に基づいてステレオ化に対する信号制御がなされる。この判断が可能となる信号は、マイクロホン間隔(即ち、マイクロホン1Lと1Rとの間の間隔)が半波長に相当する周波数以下の信号である。今の例の場合、音速が340m/秒であって且つマイクロホン間隔が2cmであるため、8.5kHz以下の帯域の信号に対してのみ上記判断は可能である。
そこで、第1実施例では、ステレオ化に対する信号制御の帯域を6kHz以下の帯域に限定する。この限定に対応するように、LPF11L及び11Rは夫々原信号L及びRの高域周波数成分を除去し、ダウンサンプリング部12L及び12Rは、1/4のダウンサンプリングを行う。即ち、ダウンサンプリング部12L及び12Rは、夫々、LPF11L及び11Rの出力信号を12kHzのサンプリング周波数で再サンプリングする。
ダウンサンプリング部12L及び12Rの出力信号は時系列データである。時系列データとは、時間領域上で表現された時系列で並ぶデータ列を意味する。第1実施例において、この時系列データの標本間隔(サンプリング間隔)ΔtSは1/12kHzである。ダウンサンプリング部12L及び12Rの出力信号(時系列データ)を、夫々、時間tの関数であるL[t]及びR[t]にて表す。
FFT部13L及び13Rに入力される信号L[t]及びR[t]は、図3に示す如く、夫々、時間軸上で連続的に連なる複数のフレームで区切られ、フレームを単位にして離散フーリエ変換が行われる。複数のフレームを、時刻の早い方から順番に、第1、第2、第3番目・・・のフレームと呼ぶ。各フレームは256個のデータから成る。信号L[t]の内、第i番目のフレームに属する信号を特にLi[t]と表現し、信号R[t]の内、第i番目のフレームに属する信号を特にRi[t]と表現する(iは自然数)。
FFT部13Lは、信号Li[t]に対して離散フーリエ変換を行うことにより、左チャンネルの第i番目のフレームにおける周波数スペクトルを算出する。この周波数スペクトルを表す信号をLi[m・Δf]にて表記する。FFT部13Rは、信号Ri[t]に対して離散フーリエ変換を行うことにより、右チャンネルの第i番目のフレームにおける周波数スペクトルを算出する。この周波数スペクトルを表す信号をRi[m・Δf]で表す。FFT部13L及び13Rによる離散フーリエ変換の結果を表すデータは、比較部14に出力される。
ここで、Δfは、離散フーリエ変換における周波数の標本間隔であり、mは0以上の整数値をとる。信号Li[t]に対して離散フーリエ変換を行うことにより、Δf間隔でM個の信号が算出されるものとする(Mは2以上の整数であり、例えば128)。そうすると、mは0≦m≦(M−1)の範囲内の各整数値をとる。即ち、左チャンネルの第i番目のフレームにおける周波数スペクトルは、周波数領域上の信号Li[0・Δf]〜[255・Δf]を含んで形成される。右チャンネルに対しても同様である。
L[t]及びR[t]にて表される音響信号の周波数帯域が離散フーリエ変換によってM個の周波数帯域に細分化されることとなるが、細分化によって得られた帯域の夫々が1つの音源からの音響信号成分しか含まない程度に、この細分化はなされる。即ち、そうなるようにΔfは設定される。このような設定を行うことで、複数音源の音響信号を含む信号より各音源の音響信号成分を分離抽出することが可能となる。細分化された各周波数帯域を、以下、細分化帯域と呼ぶ。
説明の明確化のため、便宜的に記号mOを導入する。mOは0以上(M−1)以下の一定整数値であるとする。Li[mO・Δf]は、信号Li[t]に含まれる、m=mOの細分化帯域の信号成分を表しており、その信号成分の位相及びパワー(パワーレベル)はLi[mO・Δf]によって定まる。Ri[mO・Δf]は、信号Ri[t]に含まれる、m=mOの細分化帯域の信号成分を表しており、その信号成分の位相及びパワー(パワーレベル)はRi[mO・Δf]によって定まる。m=mOの細分化帯域とは、mO・Δfを中心とする、Δfの帯域幅を持った帯域である。
比較部14は、FFT部13Lの出力データに基づき、細分化帯域ごとに、当該細分化帯域における左チャンネルの信号成分の位相を算出する(換言すれば、Δfで離散化された、信号Li[t]の位相スペクトルを算出する)。同様に、比較部14は、FFT部13Rの出力データに基づき、細分化帯域ごとに、当該細分化帯域における右チャンネルの信号成分の位相を算出する(換言すれば、Δfで離散化された、信号Ri[t]の位相スペクトルを算出する)。そして、各細分化帯域を個別に着目し、着目した細分化帯域における位相を左右チャンネル間で比較することにより、その細分化帯域における信号の主成分が何れの方向から到来したものであるのかを判定する。この判定方法を、より具体的に説明する。
音源2Lから到来する音を想定した場合、マイクロホン1L及び1Rと音源2Lとの距離がマイクロホン間隔に対して十分大きいとすれば、音源2Lよりマイクロホン1Lに到来する音の信号の位相から、音源2Lよりマイクロホン1Rに到来する音の信号の位相を差し引くことによって得た位相差Δφは、「Δφ=2π×(Freq×(20×sin30°)/340000)」にて表される。ここで、Freqは、着目した周波数であり、πは円周率である。Δφによって表される位相差を、以下、基準位相差と呼ぶ。
比較部14は、基準位相差Δφと対比するべく、信号成分Li[m・Δf]の位相から信号成分Ri[m・Δf]の位相を差し引いた位相差Δφmを、m=0、1、2、・・・、(M−1)の夫々に対して求める。これにより、各細分化帯域に対する位相差(Δφ0〜ΔφM-1)が求まる。Δφmによって表される位相差を、以下、実位相差と呼ぶ。
比較部14は、着目した細分化帯域の実位相差が(Δφ−R・Δφ)以上(Δφ+R・Δφ)以下の範囲内に収まる場合、着目した細分化帯域における信号の主成分が音源2Lからの音響信号であると判断し、着目した細分化帯域を第1必要帯域に分類する。
着目した細分化帯域の実位相差が(−Δφ−R・Δφ)以上(−Δφ+R・Δφ)以下の範囲内に収まる場合、着目した細分化帯域における信号の主成分が音源2Rからの音響信号であると判断し、着目した細分化帯域を第2必要帯域に分類する。
着目した細分化帯域の実位相差が(Δφ−R・Δφ)以上(Δφ+R・Δφ)以下の範囲内にも(−Δφ−R・Δφ)以上(−Δφ+R・Δφ)以下の範囲内にも収まらない場合、着目した細分化帯域における信号の主成分が音源2L及び2R以外の音源からの音響信号であると判断し、着目した細分化帯域を不要帯域に分類する。
ここで、Rは、事前に設定された係数であり、例えば0.1である。
マスク作成部15は、比較部14による分類結果に基づいて、第1必要帯域の信号成分を抽出するためのマスクデータ列及び第2必要帯域の信号成分を抽出するためのマスクデータ列を生成する。第i番目のフレームに対する前者のマスクデータ列はマスクデータMS1i[0]〜MS1i[M−1]から形成され、第i番目のフレームに対する後者のマスクデータ列はマスクデータMS2i[0]〜MS2i[M−1]から形成される。
第i番目のフレームに関して、m=mOの細分化帯域が第1必要帯域に分類された場合、マスクデータMS1i[mO]は1とされる共にマスクデータMS2i[mO]は0以上1未満の規定値MSREFとされ、且つ、m=mOの細分化帯域が第2必要帯域に分類された場合、マスクデータMS1i[mO]は規定値MSREFとされる共にマスクデータMS2i[mO]は1とされ、且つ、m=mOの細分化帯域が不要帯域に分類された場合、マスクデータMS1i[mO]及びMS2i[mO]は共に規定値MSREFとされる。
規定値MSREFを0に設定した場合、音源2L以外の音源に由来すると判断された帯域成分が完全に除去された音響信号と、音源2R以外の音源に由来すると判断された帯域成分が完全に除去された音響信号と、から成るステレオ信号が音響信号処理装置10より出力されることになる。それらの完全なる除去を行わない場合は、規定値MSREFを0より大きく且つ1より小さな値とすればよい。図4(a)及び(b)に、夫々、規定値MSREFを0に設定した場合におけるマスクデータ列MS1i[m]及びMS2i[m]の例を示す。
m=2の場合に着目して具体例を挙げる。比較部14は、信号成分Li[2・Δf]の位相から信号成分Ri[2・Δf]の位相を差し引いた実位相差Δφ2を求め、第1不等式「(Δφ−R・Δφ)≦Δφ2≦(Δφ+R・Δφ)」と第2不等式「(−Δφ−R・Δφ)≦Δφ2≦(−Δφ+R・Δφ)」の成立/不成立を判断する。第1及び第2不等式におけるΔφは、「Freq=2×Δf」とした場合におけるΔφである。
第1不等式が成立する場合は、信号成分Li[2・Δf]及びRi[2・Δf]の主成分が音源2Lからの音響信号であると判断されて、m=2の細分化帯域が第1必要帯域に分類され、この結果、MS1i[2]=1且つMS2i[2]=MSREFとされる。
第2不等式が成立する場合は、信号成分Li[2・Δf]及びRi[2・Δf]の主成分が音源2Rからの音響信号であると判断されて、m=2の細分化帯域が第2必要帯域に分類され、この結果、MS1i[2]=MSREF且つMS2i[2]=1とされる。
第1及び第2不等式の双方が不成立の場合は、信号成分Li[2・Δf]及びRi[2・Δf]の主成分が音源2L及び2R以外の音源からの音響信号であると判断されて、m=2の細分化帯域が不要帯域に分類され、この結果、MS1i[2]=MSREF且つMS2i[2]=MSREFとされる。
m=2の場合に着目して具体例を挙げたが、m≠2の場合も同様である。
IFFT部16L及び16Rは、夫々、逆高速フーリエ変換(Inverse Fast Fourier Transform)の一形態である逆離散フーリエ変換を用いて、周波数領域上のマスクデータ列MS1i[m]及びMS2i[m]を、時間領域上の時系列データである信号FIL1i[n]及びFIL2i[n]に変換する。信号FIL1i[n]及びFIL2i[n]における標本間隔は、ダウンサンプリング部12L及び12Rにおける標本間隔ΔtS(=1/12kHz)と同じである。故に、nは0以上255以下の各整数値をとる。即ち、第i番目のフレームに対してIFFT部16Lから出力される信号は、時間間隔ΔtSで離散化された計256個のデータ列FIL1i[0]〜FIL1i[255]から成り、第i番目のフレームに対してIFFT部16Rから出力される信号は、時間間隔ΔtSで離散化された計256個のデータ列FIL2i[0]〜FIL2i[255]から成る。
FIRフィルタ18L及び18Rの夫々は、256個のタップを有する、255次のFIR(Finite Impulse Response)型のデジタルフィルタである。
図5に、1つのFIRフィルタ18の内部構成図を示す。FIRフィルタ18は、データ入力端子101及びデータ出力端子102と、直列接続された255個のフリップフロップから成るシフトレジスタと、第1〜第256番目のタップにおけるデータに夫々フィルタ係数FIR[0]〜FIR[255]を乗算する256個の乗算器と、各乗算器の出力値を合算して合算値をデータ出力端子102から出力する合算器と、を備える。シフトレジスタは、与えられるクロックパルスに従って、各フリップフロップにセットされている値を次段のフリップフロップに送るが、このクロックパルスの周期はΔtS(=1/12kHz)である。データ入力端子101に、ΔtSの間隔で、順次、入力データが入力される。或る時刻tにおいて、データ入力端子101に入力データDIN[t]が入力され且つデータ出力端子102から下記式(1)に従う出力データDOUT[t]が出力される。ここで、tは、ΔtSが経過する毎に1だけ増加する。尚、全フィルタ係数FIR[0]〜FIR[255]の初期値はゼロである。
Figure 0005153389
図2のFIRフィルタ18L及び18Rの夫々は、図5のFIRフィルタ18と同様の構成を有する。但し、フィルタ係数FIR[0]〜FIR[255]に対応する、FIRフィルタ18Lのフィルタ係数はFIR1[0]〜FIR1[255]であり、且つ、フィルタ係数FIR[0]〜FIR[255]に対応する、FIRフィルタ18Rのフィルタ係数はFIR2[0]〜FIR2[255]であるとする。全フィルタ係数FIR1[0]〜FIR1[255]及びFIR2[0]〜FIR2[255]の初期値はゼロである。
図2の係数更新部17L及び17Rは、夫々、IFFT部16Lからの信号FIL1i[n]及びIFFT部16Rからの信号FIL2i[n]に基づいてFIRフィルタ18Lのフィルタ係数FIR1[n]及びFIRフィルタ18Rのフィルタ係数FIR2[n]を更新する。この更新はΔtSが経過する毎に1回行われる。
信号FIL1i[n]に基づくフィルタ係数FIR1[n]の更新方法と、信号FIL2i[n]に基づくフィルタ係数FIR2[n]の更新方法は同じであるため、主として前者の更新方法を詳細に説明する。
係数更新部17Lは、n=0、1、2・・・255の夫々に対して、下記式(2a)に基づき更新量ΔW1[n]を算出する。式(2a)におけるFIR1[n]の値として、前回のフィルタ係数の値が用いられる。前回のフィルタ係数を用いて求めた更新量を前回のフィルタ係数に加算することによって更新を行い、この更新後の値を、今回のフィルタ係数の値とする。即ち、下記式(2b)に従って更新がなされる。更新量ΔW1[n]を用いたフィルタ係数の更新を開始してから、離散フーリエ変換の解析長である256サンプル分の時間経過後(即ち、ΔtS×256に相当する時間経過後)に、FIL1i[n]とFIR1[n]は等価となる。
ΔW1[n]=(FIL1i[n]−FIR1[n])/256 ・・・(2a)
FIR1[n+1]=ΔW1[n]+FIR1[n] ・・・(2b)
FIRフィルタ18Lにおけるデータ入力端子101には、ダウンサンプリング部12Lからの信号Li[t]が入力される。上述したように、信号Li[t]はΔtSの間隔で並ぶ時系列データであり、FIRフィルタ18Lにおけるデータ入力端子101に、ΔtSの間隔で順次、信号Li[t]を形成するデータ列が入力される。信号Li[t]に含まれる1番目のデータがFIRフィルタ18Lのデータ入力端子101に入力される直前に、信号FIL1i[n]に基づく1回目のフィルタ係数FIR1[n]の更新が実行され、信号Li[t]に含まれる256番目のデータがFIRフィルタ18Lのデータ入力端子101に入力される直前に、信号FIL1i[n]に基づく256回目のフィルタ係数FIR1[n]の更新が実行される。この後、信号FIL1i[n]に基づく256回目の更新がなされたフィルタ係数FIR1[n]を基準として、信号Li+1[n]に対するフィルタ係数FIR1[n]が上述と同様の更新を介して求められる。
FIRフィルタ18Rにおけるデータ入力端子101にも、ΔtSの間隔で順次、信号Li[t]を形成するデータ列が入力される。信号Li[t]に含まれる1番目のデータがFIRフィルタ18Rのデータ入力端子101に入力される直前に、信号FIL2i[n]に基づく1回目のフィルタ係数FIR2[n]の更新が実行され、信号Li[t]に含まれる256番目のデータがFIRフィルタ18Rのデータ入力端子101に入力される直前に、信号FIL2i[n]に基づく256回目のフィルタ係数FIR2[n]の更新が実行される。この後、信号FIL2i[n]に基づく256回目の更新がなされたフィルタ係数FIR2[n]を基準として、信号Li+1[n]に対するフィルタ係数FIR2[n]が上述と同様の更新を介して求められる。
FIRフィルタ18L及び18Rにおける各データ出力端子102から夫々第1及び第2の抽出信号が出力される。第1の抽出信号は、信号Li[t]の中より、音源2Lからの音の成分を抽出した信号であり、第2の抽出信号は、信号Li[t]の中より、音源2Rからの音の成分を抽出した信号である。尚、抽出を、強調と読み替えることもできる。
本実施例では、時間領域上の信号にデジタルフィルタ処理を行うことで、特定の音源からの音を強調、抽出、低減又は除去する。この際、デジタルフィルタにおけるフィルタ係数をフレームの時間長さよりも短い周期でステップ的に更新する。上述の例では、フィルタ係数がΔtSの間隔で更新される。これにより、図13に対応する従来方法では顕著に発生していたミュージカルノイズが大幅に低減される。
ところで、ミュージカルノイズを低減するべく、図13に対応する従来方法を以下のように改良することも考えられる。即ち、図14に示す如く、時間−周波数変換時に用いる窓関数を時系列上でオーバラップさせて各窓関数に対応する周波数スペクトルを生成し、図13に対応する従来方法の処理を経て各周波数スペクトルを合成する。このようにすれば、信号の不連続性が緩和され、ミュージカルノイズの低減も期待できる。但し、この場合、多くの処理量を必要とする時間−周波数変換を短時間周期で多数回行う必要があるため、リアルタイム動作を実現するためには、動作クロックの速い高価なハードウェアが必要となる(或いは実現そのものが困難である)。
一方、本実施例では、1サンプリング時間当たりに1回、更新量をフィルタ係数に加算するだけでミュージカルノイズを大幅に抑制することが可能である。つまり、ミュージカルノイズを抑制するために必要となる処理は軽微であり、実用性が極めて高い。
尚、図2の音響信号処理装置10では、FIRフィルタ18L及び18Rへの入力信号が共に左チャンネルの信号Li[t]となっているが、左右チャンネルの信号の内の、どちらの信号をFIRフィルタに与えるかは任意である(これは、後述の他の実施例でも同様)。例えば、図6に示すように、FIRフィルタ18Rへの入力信号を信号Ri[t]に変更しても構わない。マイクロホン1L及び1Rと抽出すべき音源との距離がマイクロホン間隔に対して十分大きければ、この変更を行っても、第2の抽出信号は殆ど変化しない。
<<第2実施例>>
次に、本発明の第2実施例を説明する。図7に、第2実施例に係る音響信号処理装置20の内部ブロック図を示す。音響信号処理装置20は、原信号L及びRを入力音響信号として受け、正面方向から到来した音の信号成分を入力音響信号より抽出して、抽出によって得た信号をモノラル信号として出力する。
音響信号処理装置20は、符号11L〜13L及び11R〜13R並びに符号24〜28によって参照される各部位を備える。
LPF11L及び11R、ダウンサンプリング部12L及び12R並びにFFT部13L及び13Rは、図2に示すそれらと同じものである。但し、第2実施例において、FFT部13L及び13Rの出力データは比較部24に与えられる。
比較部24は、FFT部13Lの出力データに基づき、細分化帯域ごとに、当該細分化帯域における左チャンネルの信号成分の位相を算出する(換言すれば、Δfで離散化された、信号Li[t]の位相スペクトルを算出する)と共に、FFT部13Rの出力データに基づき、細分化帯域ごとに、当該細分化帯域における右チャンネルの信号成分の位相を算出する(換言すれば、Δfで離散化された、信号Ri[t]の位相スペクトルを算出する)。そして、図2の比較部14と同様、各細分化帯域を個別に着目し、着目した細分化帯域における位相を左右チャンネル間で比較することにより、その細分化帯域における信号の主成分が何れの方向から到来したものであるのかを判定する。
但し、比較部24は、比較部14と異なり、正面方向から到来した音の信号成分が主成分となっている帯域を必要と判断する。図8において、符号5が付された矢印群は「正面方向から到来した音」の伝播方向を表している。第2実施例及び後述の第3実施例において、「正面方向から到来した音」とは、マイクロホン1L及び1Rの前方側に位置し且つ音源2Lと2Rとの間に位置する音源(音源2L及び2Rを含む)から音を指す。
具体的には、比較部24は、着目した細分化帯域の実位相差が(−Δφ)以上Δφ以下の範囲内に収まる場合、着目した細分化帯域における信号の主成分が正面方向から到来した音の信号成分であると判断し、着目した細分化帯域を必要帯域に分類する。一方、着目した細分化帯域の実位相差が(−Δφ)以上Δφ以下の範囲内に収まらない場合、着目した細分化帯域における信号の主成分が正面方向以外から到来した音の信号成分であると判断し、着目した細分化帯域を不要帯域に分類する。
マスク作成部25は、比較部24による分類結果に基づいて、必要帯域の信号成分を抽出するためのマスクデータ列を生成する。第i番目のフレームに対するマスクデータ列はマスクデータMSi[0]〜MSi[M−1]から形成される。
第i番目のフレームに関して、m=mOの細分化帯域が必要帯域に分類された場合、マスクデータMSi[mO]は1とされ、m=mOの細分化帯域が不要帯域に分類された場合、マスクデータMSi[mO]は規定値MSREFとされる。規定値MSREFは、上述したように、0以上1未満の値とされる。規定値MSREFを0に設定した場合、正面方向以外から到来した音に由来すると判断された帯域成分が完全に除去された音響信号が音響信号処理装置20から出力されることになる。それの完全なる除去を行わない場合は、規定値MSREFを0より大きく且つ1より小さな値とすればよい。
m=2の場合に着目して具体例を挙げる。比較部24は、信号成分Li[2・Δf]の位相から信号成分Ri[2・Δf]の位相を差し引いた実位相差Δφ2を求め、不等式「−Δφ≦Δφ2≦Δφ」の成立/不成立を判断する。この不等式におけるΔφは、「Freq=2×Δf」とした場合におけるΔφである。この不等式が成立する場合は、m=2の細分化帯域が必要帯域に分類され、この結果、MSi[2]=1とされる。この不等式が不成立の場合は、m=2の細分化帯域が不要帯域に分類され、この結果、MSi[2]=MSREFとされる。m=2の場合に着目して具体例を挙げたが、m≠2の場合も同様である。
IFFT部26は、逆離散フーリエ変換を用いて、周波数領域上のマスクデータ列MSi[m]を、時間領域上の時系列データである信号FILi[n]に変換する。信号FILi[n]における標本間隔は、ダウンサンプリング部12L及び12Rにおける標本間隔ΔtS(=1/12kHz)と同じである。故に、nは0以上255以下の各整数値をとる。即ち、第i番目のフレームに対してIFFT部26から出力される信号は計255個のデータ列FILi[0]〜FILi[255]から成る。
FIRフィルタ28は、図5のFIRフィルタ18と同じものであり、FIRフィルタ28の計256個のフィルタ係数を、FIRフィルタ18と同じく、FIR[0]〜FIR[255]と表記する。全フィルタ係数FIR[0]〜FIR[255]の初期値はゼロである。
係数更新部27は、IFFT部26からの信号FILi[n]に基づいてFIRフィルタ28のフィルタ係数FIR[n]を更新する。この更新はΔtSが経過する毎に1回行われる。信号FILi[n]に基づくフィルタ係数FIR[n]の更新方法は、第1実施例で述べた信号FIL1i[n]に基づくフィルタ係数FIR1[n]の更新方法と同じである。
即ち、係数更新部27は、n=0、1、2・・・255の夫々に対して、下記式(3a)に基づき更新量ΔW[n]を算出する。式(3a)におけるFIR[n]の値として、前回のフィルタ係数の値が用いられる。前回のフィルタ係数を用いて求めた更新量を前回のフィルタ係数に加算することによって更新を行い、この更新後の値を、今回のフィルタ係数の値とする。即ち、下記式(3b)に従って更新がなされる。更新量ΔW[n]を用いたフィルタ係数の更新を開始してから、離散フーリエ変換の解析長である256サンプル分の時間経過後(即ち、ΔtS×256に相当する時間経過後)に、FILi[n]とFIR[n]は等価となる。
ΔW[n]=(FILi[n]−FIR[n])/256 ・・・(3a)
FIR[n+1]=ΔW[n]+FIR[n] ・・・(3b)
FIRフィルタ28におけるデータ入力端子101に、ΔtSの間隔で順次、信号Li[t]を形成するデータ列が入力される。信号Li[t]に含まれる1番目のデータがFIRフィルタ28のデータ入力端子101に入力される直前に、信号FILi[n]に基づく1回目のフィルタ係数FIR[n]の更新が実行され、信号Li[t]に含まれる256番目のデータがFIRフィルタ28のデータ入力端子101に入力される直前に、信号FILi[n]に基づく256回目のフィルタ係数FIR[n]の更新が実行される。この後、信号FILi[n]に基づく256回目の更新がなされたフィルタ係数FIR[n]を基準として、信号Li+1[n]に対するフィルタ係数FIR[n]が上述と同様の更新を介して求められる。
FIRフィルタ28におけるデータ出力端子102から、モノラル信号としての第1の抽出信号が出力される。FIRフィルタ28からの第1の抽出信号は、信号Li[t]の中より、正面方向から到来した音の成分を抽出した信号である。
本実施例のように音響信号処理装置を形成しても、特定音源からの音の抽出等を行う際においてミュージカルノイズの発生が抑制される。また、ミュージカルノイズを抑制するために必要となる処理は軽微であり、実用性が極めて高い。
正面方向から到来した音の信号成分を位相情報に基づいて抽出する方法を説明したが、パワー情報によってこの抽出を実現してもよい。音は伝播距離に応じて減衰するため、正面方向から到来した音の成分が信号の主成分となっている場合、左右チャンネルからの信号のパワー(パワーレベル)は同程度となる一方で、横方向から到来した音の成分が信号の主成分となっている場合、左右チャンネル間で信号のパワーに差が生じる。この原理を利用する。
パワー比較によって正面方向から到来した音の信号成分を抽出する場合、以下のように処理すればよい。比較部24は、FFT部13Lの出力データに基づき、細分化帯域ごとに、当該細分化帯域における左チャンネルの信号成分のパワー(パワーレベル)を算出する(換言すれば、Δfで離散化された、信号Li[t]のパワースペクトルを算出する)と共に、FFT部13Rの出力データに基づき、細分化帯域ごとに、当該細分化帯域における右チャンネルの信号成分のパワー(パワーレベル)を算出する(換言すれば、Δfで離散化された、信号Ri[t]のパワースペクトルを算出する)。そして、各細分化帯域を個別に着目し、着目した細分化帯域におけるパワー(パワーレベル)を左右チャンネル間で比較することにより、その細分化帯域における信号の主成分が何れの方向から到来したものであるのかを判定する。
実際には、比較部24において、信号成分Li[m・Δf]のパワー(パワーレベル)と信号成分Ri[m・Δf]のパワー(パワーレベル)との間におけるパワー差ΔPmを、m=0、1、2、・・・、(M−1)の夫々に対して求め、各パワー差ΔPmを予め設定された基準パワー差ΔPREFと比較する。そして、着目した細分化帯域のパワー差ΔPmが基準パワー差ΔPREFよりも小さい場合、着目した細分化帯域における信号の主成分が正面方向から到来した音の成分であると判断し、着目した細分化帯域を必要帯域に分類する。一方、着目した細分化帯域のパワー差ΔPmが基準パワー差ΔPREF以上である場合、着目した細分化帯域における信号の主成分が正面方向以外から到来した音の成分であると判断し、着目した細分化帯域を不要帯域に分類する。この分類後の動作は、上述したとおりである。
パワー比較を用いる方法は、マイクロホン間隔が十分に広く(例えば、数10cm)、音の距離減衰の差が判別可能な場合に有効である。パワー情報は、マイクロホンの感度ばらつきの影響を受けやすく、また、パワー情報のみの利用では厳密な音源方向の推定が比較的難しい。しかしながら、位相情報を用いる場合と異なり上限周波数の制約を受けない利点がある。
これを考慮し、位相情報及びパワー情報の双方を用いるようにしてもよい。即ち、各細分化帯域が必要帯域及び不要帯域の何れに分類されるべきかの判断を、所定の上限周波数未満の各細分化帯域に対しては位相情報に基づいて行い、上限周波数以上の各細分化帯域に対してはパワー情報に基づいて行うようにしてもよい。位相情報(実位相差Δφm)に基づく分類方法及びパワー情報(パワー差ΔPm)に基づく分類方法は、上述した通りである。
<<第3実施例>>
本発明の第3実施例を説明する。図9に、第3実施例に係る音響信号処理装置30の内部ブロック図を示す。音響信号処理装置30は、原信号L及びRを入力音響信号として受け、正面方向から到来した音の信号成分を入力音響信号より抽出して、抽出によって得た信号をモノラル信号として出力する。
音響信号処理装置30は、符号11L〜13L及び11R〜13R並びに符号34〜39によって参照される各部位を備える。
LPF11L及び11R、ダウンサンプリング部12L及び12R並びにFFT部13L及び13Rは、図2に示すそれらと同じものである。但し、第3実施例において、FFT部13L及び13Rの出力データは比較部34に与えられる。
比較部34は、FFT部13L及び13Rの出力データに基づき、第2実施例で述べた方法と同じ方法を用いて、m=0、1、2、・・・、M−1の夫々の細分化帯域を必要帯域又は不要帯域に分類する。この分類の際、第2実施例で述べたように、位相情報(実位相差Δφm)、パワー情報(パワー差ΔPm)又はそれらの双方を用いる。
FFT部13Lによって時間領域上の信号Li[t]は周波数領域上の信号Li[m・Δf]に変換される。不要帯域除去部35は、比較部34による必要帯域及び不要帯域についての分類結果に基づいて、信号Li[m・Δf]より、不要帯域に分類された細分化帯域の信号成分を除去し、この除去後の信号Li’[m・Δf]を出力する。この除去は、完全なる除去でも一部の除去であっても構わない。
例えば、m=2の細分化帯域のみが不要帯域に分類され、その他の細分化帯域が必要帯域に分類された場合を考える。この場合、0≦m≦1又は3≦m≦M−1の範囲内ではLi’[m・Δf]=Li[m・Δf]となる。一方で、Li’[2・Δf]≠Li[2・Δf]となる。不要帯域に分類された細分化帯域の信号成分の信号レベル(信号強度)は低減される。即ち、信号成分Li’[2・Δf]の信号レベルは、ゼロとされる又は信号成分Li[2・Δf]の信号レベルよりも小さくされる。
不要帯域に分類された細分化帯域の信号成分の信号レベルを低減するのではなく、必要帯域に分類された細分化帯域の信号成分の信号レベルを増大させることによって信号Li’[m・Δf]を生成しても良い。つまり、不要帯域除去部35は、比較部34による必要帯域及び不要帯域についての分類結果に基づいて不要帯域又は必要帯域の信号成分の信号レベルを制御し、これによって信号Li’[m・Δf]を出力する。信号Li’[m・Δf]は、不要帯域の信号成分が除去された信号と考えることもできるし、必要帯域の信号成分が強調された信号とも考えることができる。
IFFT部36は、逆離散フーリエ変換を用いて、周波数領域上の信号Li’[m・Δf]を時間領域上の時系列データである信号Si[t]に変換する。この逆離散フーリエ変換の標本間隔は、ダウンサンプリング部12L及び12Rにおける標本間隔ΔtS(=1/12kHz)と同じであるとする。従って、第i番目のフレームに対してIFFT部36から出力される信号は、時間間隔ΔtSにて離散化された計256個のデータから成る。
IFFT部36から出力される信号そのものは、図13に対応する従来方法と同様、ミュージカルノイズを含むが、第3実施例では、この信号をそのまま出力するのではなく、この信号を教師信号として用いる。即ち、この教師信号とFIRフィルタ38の出力信号と差がゼロに収束するように、FIRフィルタ38における各フィルタ係数を短時間周期でステップ更新する。より具体的に説明する。
FIRフィルタ38は、図5に示すFIRフィルタ18と同じものである。FIRフィルタ38のデータ入力端子101には、ダウンサンプリング部12Lの出力信号L[t]が入力される。
今、或る時刻tを基準として考え、ΔtSの間隔で、順次、ダウンサンプリング部12LからデータL[t]、L[t+1]、L[t+2]、・・・、L[t+255]がFIRフィルタ38のデータ入力端子101に入力されると考える。そうすると、時刻tにおける、FIRフィルタ38のデータ出力端子102からの出力データDOUT[t]は、下記式(4)に従って算出される。時刻tにおける出力データDOUT[t]の算出の際には、時刻tにおけるフィルタ係数FIR[j]が用いられる(jは整数であって、0≦j≦255)。
Figure 0005153389
また、データL[t]〜L[t+255]に対して、FFT部13Lによる離散フーリエ変換、不要帯域除去部35による信号レベル制御及びIFFT部36による逆離散フーリエ変換を施すことによって得たIFFT部36の出力データを、S[t]〜S[t+255]にて表す。減算器39は、時刻tにおけるFIRフィルタ38の出力データDOUT[t]から、対応する時刻のIFFT部36の出力データS[t]を減算し、その減算結果(DOUT[t]−S[t])を係数更新部37に与える。係数更新部37は、下記式(5)に従って時刻tのフィルタ係数に対する更新量ΔFIR[j]を算出する。そして、時刻tのフィルタ係数に対する更新量ΔFIR[j]を時刻tにおけるフィルタ係数FIR[j]に加えた係数が時刻(t+1)におけるフィルタ係数FIR[j]となるように、FIRフィルタ38のフィルタ係数FIR[j]を更新する。時刻(t+1)における出力データDOUT[t+1]の算出の際には、時刻(t+1)におけるフィルタ係数FIR[j]が用いられる。このようなフィルタ係数FIR[j]の更新は、ΔtSが経過する毎に1回実行される。
ΔFIR[j]=α×(DOUT[t]−S[t])×L[t−j] ・・・(5)
これにより、IFFT部36の出力データとFIRフィルタ38の出力データとの差がゼロに収束するように、適応的にFIRフィルタ38のフィルタ係数が更新されていく。式(5)におけるαは、この適応の速度を調整するための所定の係数である。
FIRフィルタ38におけるデータ出力端子102から、モノラル信号としての第1の抽出信号が出力される。FIRフィルタ38からの第1の抽出信号は、信号Li[t]の中より、正面方向から到来した音の成分を抽出した信号である。
本実施例のように音響信号処理装置を形成しても、特定音源からの音の抽出等を行う際においてミュージカルノイズの発生が抑制される。但し、第2実施例と比べると、ミュージカルノイズを抑制するために必要となる処理量が多くなる。
尚、第1実施例に記載の方法を第3実施例に適用することで、ステレオ信号を生成するようにしてもよい。この場合、不要帯域除去部35、IFFT部36、係数更新部37、FIRフィルタ38及び減算器39を含む部位を2系統設け、一方の系統における必要帯域及び他方の系統における必要帯域を、夫々、第1実施例で述べた、音源2Lに対応する第1必要帯域及び音源2Rに対応する第2必要帯域として取り扱えばよい。前者の系統からは、音源2Lからの音の成分を抽出した音響信号が出力され、後者の系統からは、音源2Rからの音の成分を抽出した音響信号が出力される。
<<第4実施例>>
次に、本発明の第4実施例を説明する。第1〜第3実施例で説明した音響信号処理装置(10、20又は30)は、複数のマイクロホンの検出信号を利用する任意の装置に搭載される。複数のマイクロホンの検出信号を利用する任意の装置には、録音装置(ICレコーダなど)、撮像装置(デジタルビデオカメラなど)、携帯端末(携帯電話機など)及び音響信号再生装置が含まれる。尚、撮像装置及び携帯端末の夫々において、録音装置としての機能若しくは音響信号再生装置としての機能又はそれらの双方の機能を実現することも可能である。
例として、図10に、録音装置200の概略構成図を示す。録音装置200は、音響信号処理装置201と、磁気ディスクやメモリカード等の記録媒体202と、撮像装置200の筐体上の互いに異なる位置に設置されたマイクロホン1L及び1Rと、を備える。音響信号処理装置201は、音響信号処理装置10によって実現される機能と音響信号処理装置20(又は30)によって実現される機能を択一的に実現可能であり、ユーザが録音装置200に所定操作を施すことによって、一方の機能を択一的に有効とする。前者の機能を第1機能と呼び、後者の機能を第2機能と呼ぶ。
第1機能が有効とされた場合、音響信号処理装置201は、マイクロホン1L及び1Rの検出信号から第1実施例で述べたステレオ信号(第1実施例における第1及び第2の抽出信号)を生成し、そのステレオ信号を記録媒体202に記録する。第2機能が有効とされた場合、音響信号処理装置202は、マイクロホン1L及び1Rの検出信号から第2実施例(又は第3)で述べたモノラル信号を生成し、そのモノラル信号を記録媒体202に記録する。
また、図11に、音響信号再生装置220の概略構成図を示す。音響信号再生装置220は、音響信号処理装置221と、磁気ディスクやメモリカード等の記録媒体222と、を備える。記録媒体222には、マイクロホン1L及び1Rの検出信号が記録されているものとする。音響信号処理装置221は、上記第1及び第2機能を実現可能に形成されており、ユーザが音響信号処理装置221に所定操作を施すことによって、一方の機能を択一的に有効とする。
第1機能が有効とされた場合、音響信号処理装置221は、記録媒体222より読み出したマイクロホン1L及び1Rの検出信号から第1実施例で述べたステレオ信号を生成する。このステレオ信号は、例えば、音としてスピーカ(不図示)から出力される、或いは、記録媒体222に記録される、或いは、他の装置(不図示)に対して送信される。第2機能が有効とされた場合、音響信号処理装置221は、記録媒体222より読み出したマイクロホン1L及び1Rの検出信号から第2実施例(又は第3)で述べたモノラル信号を生成する。このモノラル信号は、例えば、音としてスピーカ(不図示)から出力される、或いは、記録媒体222に記録される、或いは、他の装置(不図示)に対して送信される。
また、図12に、撮像装置240の概略構成図を示す。撮像装置240は、図10の録音装置200の構成要素に、CCD(Charge Coupled Devices)又はCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどから成る撮像素子243、画像処理部及び表示部(不図示)を付加することによって形成される。撮像装置240に内在する、音響信号処理装置201、記録媒体202並びにマイクロホン1L及び1Rの機能は、上述した通りである。撮像装置240は、撮像素子243を用いて被写体に応じた動画像又は静止画像を撮影し、その動画像又は静止画像の画像データを記録媒体202に記録する。
注目すべき話者の音声を録音する場合、通常、その話者は装置の正面に位置する。このため、第2機能を、撮像装置、録音装置又は携帯電話機などにおける話者音声強調に利用可能である。携帯電話機における話者音声強調は、所謂ハンズフリー通話時において特に有益である。
<<変形等>>
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1及び注釈2を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
[注釈1]
2つのマイクロホンを用いて特定音源からの音を抽出したステレオ信号又はモノラル信号を生成する方法を例示したが、本発明において、マイクロホンの本数は3以上であってもよい。例えば、上述の各実施例に記載した技術を3以上のマイクロホンの検出信号に対して適用し、3以上のマイクロホンの検出信号から3以上のチャンネル信号を有するマルチチャンネル信号を生成することも可能である。
[注釈2]
音響信号処理装置(10、20又は30)によって実現される機能の全部又は一部は、ハードウェア、ソフトウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。ソフトウェアを用いて音響信号処理装置(10、20又は30)を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。音響信号処理装置(10、20又は30)にて実現される機能の全部または一部を、プログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしてもよい。
本発明の実施形態に係り、2つのマイクロホンと2つの音源との位置関係を表す図である。 本発明の第1実施例に係る音響信号処理装置の内部ブロック図である。 時系列データがフレーム単位で区切られる様子を示す図である。 図2のマスク作成部から出力されるマスクデータ列を例示する図である。 FIRフィルタの内部構成図である。 図2の音響信号処理装置の変形例を示す図である。 本発明の第2実施例に係る音響信号処理装置の内部ブロック図である。 正面方向から到来する音の伝播方向を説明するための図である。 本発明の第3実施例に係る音響信号処理装置の内部ブロック図である。 本発明の第4実施例に係る録音装置の概略構成図である。 本発明の第4実施例に係る音響信号再生装置の概略構成図である。 本発明の第4実施例に係る撮像装置の概略構成図である。 従来の特定音源分離方法が適用された音響信号処理装置の内部ブロック図である。 時間−周波数変換時に用いる窓関数を時系列上でオーバラップさせた様子を示す図である。
符号の説明
1L、1R マイクロホン
2L、2R 音源
10、20、30、201、221 音響信号処理装置
14、24、34 比較部
15、25 マスク作成部
16L、16R、26、36 IFFT部
17L、17R、27、37 係数更新部
18、18L、18R、28、38 FIRフィルタ

Claims (8)

  1. 複数のマイクロホンの検出信号に基づく複数のチャンネル信号を受ける信号入力部と、
    各チャンネル信号のパラメータを抽出して前記複数のチャンネル信号間で前記パラメータを比較する比較部と、
    前記複数のチャンネル信号に含まれるチャンネル信号に対してデジタルフィルタ処理を行うデジタルフィルタと、
    前記パラメータの比較結果に基づいて前記デジタルフィルタにおけるフィルタ係数を更新する係数更新部と、を有する音響信号処理装置であって、
    前記比較部において、前記複数のチャンネル信号の夫々は周波数スペクトルにて表現され、
    前記比較部は、前記周波数スペクトルに含まれる帯域を複数の細分化帯域に分割して前記細分化帯域ごとに前記パラメータを抽出し、同一細分化帯域における前記パラメータを前記複数のチャンネル信号間で比較することによって各細分化帯域を複数の種別の何れかに分類し、
    当該音響信号処理装置は、その分類結果列を時系列データに変換する周波数/時間変換部を更に備え、
    前記係数更新部は、前記時系列データに基づいて前記フィルタ係数を更新する
    ことを特徴とする音響信号処理装置。
  2. 複数のマイクロホンの検出信号に基づく複数のチャンネル信号を受ける信号入力部と、
    各チャンネル信号のパラメータを抽出して前記複数のチャンネル信号間で前記パラメータを比較する比較部と、
    前記複数のチャンネル信号に含まれるチャンネル信号に対してデジタルフィルタ処理を行うデジタルフィルタと、
    前記パラメータの比較結果に基づいて前記デジタルフィルタにおけるフィルタ係数を更新する係数更新部と、を有する音響信号処理装置であって、
    前記比較部において、前記複数のチャンネル信号の夫々は周波数スペクトルにて表現され、
    前記比較部は、前記周波数スペクトルに含まれる帯域を複数の細分化帯域に分割して前記細分化帯域ごとに前記パラメータを抽出し、同一細分化帯域における前記パラメータを前記複数のチャンネル信号間で比較することによって各細分化帯域を複数の種別の何れかに分類し、
    当該音響信号処理装置は、
    前記複数のチャンネル信号に含まれるチャンネル信号の各細分化帯域の信号レベルを前記分類の結果に基づき周波数領域上で制御して、周波数領域上における信号レベル制御後のチャンネル信号を出力する信号レベル制御部と、
    前記信号レベル制御部の出力信号を時系列データに変換する周波数/時間変換部と、を更に備え、
    前記係数更新部は、前記時系列データと前記デジタルフィルタの出力データとの差に基づいて、前記フィルタ係数を更新する
    ことを特徴とする音響信号処理装置。
  3. 前記周波数スペクトルは、時間領域上で表現されたチャンネル信号の時系列データを複数の区間で区切り、区切られた区間内の時系列データを周波数領域上のデータに変換することによって得られ、
    前記係数更新部による前記フィルタ係数の更新周期は、前記区間の時間長さよりも短い
    ことを特徴とする請求項1または請求項2に記載の音響信号処理装置。
  4. 前記デジタルフィルタには、時間領域上で表現されたチャンネル信号の時系列データが順次入力され、
    前記係数更新部による前記フィルタ係数の更新周期は、前記デジタルフィルタへのデータ入力周期に等しい
    ことを特徴とする請求項3に記載の音響信号処理装置。
  5. 前記比較部は、前記細分化帯域ごとに、当該細分化帯域における信号の位相、パワー又はそれらの双方を前記パラメータとして抽出する
    ことを特徴とする請求項1〜請求項4の何れかに記載の音響信号処理装置。
  6. 複数のマイクロホンと、
    前記複数のマイクロホンの検出信号を受ける、請求項1〜請求項5の何れかに記載の音響信号処理装置と、を備えた
    ことを特徴とする録音装置。
  7. 請求項1〜請求項5の何れかに記載の音響信号処理装置を備えた音響信号再生装置であって、
    前記音響信号処理装置における前記信号入力部は、前記複数のマイクロホンの検出信号に基づくデータを記録した記録媒体から前記複数のチャンネル信号を受ける
    ことを特徴とする音響信号再生装置。
  8. 複数のマイクロホンと、
    前記複数のマイクロホンの検出信号を受ける、請求項1〜請求項5の何れかに記載の音響信号処理装置と、
    撮像手段と、を備えた
    ことを特徴とする撮像装置。
JP2008057483A 2008-03-07 2008-03-07 音響信号処理装置 Expired - Fee Related JP5153389B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008057483A JP5153389B2 (ja) 2008-03-07 2008-03-07 音響信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008057483A JP5153389B2 (ja) 2008-03-07 2008-03-07 音響信号処理装置

Publications (2)

Publication Number Publication Date
JP2009218663A JP2009218663A (ja) 2009-09-24
JP5153389B2 true JP5153389B2 (ja) 2013-02-27

Family

ID=41190146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008057483A Expired - Fee Related JP5153389B2 (ja) 2008-03-07 2008-03-07 音響信号処理装置

Country Status (1)

Country Link
JP (1) JP5153389B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593852B2 (ja) * 2010-06-01 2014-09-24 ソニー株式会社 音声信号処理装置、音声信号処理方法
JP5821584B2 (ja) * 2011-12-02 2015-11-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理プログラム
EP2809086B1 (en) * 2012-01-27 2017-06-14 Kyoei Engineering Co., Ltd. Method and device for controlling directionality
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
KR102047276B1 (ko) * 2018-07-25 2019-11-21 주식회사 이엠텍 음향 제공 장치
CN109830245B (zh) * 2019-01-02 2021-03-12 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
JP3582712B2 (ja) * 2000-04-19 2004-10-27 日本電信電話株式会社 収音方法および収音装置

Also Published As

Publication number Publication date
JP2009218663A (ja) 2009-09-24

Similar Documents

Publication Publication Date Title
EP3204945B1 (en) A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
Hänsler et al. Acoustic echo and noise control: a practical approach
JP5153389B2 (ja) 音響信号処理装置
CN110970057B (zh) 一种声音处理方法、装置与设备
KR101244232B1 (ko) 오디오 신호 분석 및 변경을 위한 시스템 및 방법
CN106463106B (zh) 用于音频接收的风噪声降低
KR20120063514A (ko) 오디오 신호를 처리하기 위한 방법 및 장치
JP2004187283A (ja) マイクロホン装置および再生装置
JP6482173B2 (ja) 音響信号処理装置およびその方法
JP2011027825A (ja) 音声処理装置、音声処理方法およびプログラム
JP2012189907A (ja) 音声判別装置、音声判別方法および音声判別プログラム
KR100751921B1 (ko) 멀티채널 음성신호의 잡음제거 방법 및 장치
TW202135047A (zh) 電子裝置、方法和電腦程式
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
CN109451398B (zh) 声反馈消除设备、声反馈消除方法、音频处理系统
JP4901542B2 (ja) 音声信号生成装置及び方法
JP2008052117A (ja) 雑音除去装置、方法及びプログラム
TWI767696B (zh) 自我語音抑制裝置及方法
JP2006227328A (ja) 音声処理装置
JP4568193B2 (ja) 収音装置とその方法とそのプログラムとその記録媒体
Zheng et al. Low-latency monaural speech enhancement with deep filter-bank equalizer
KR20080038714A (ko) 크로스토크를 제거하기 위한 후처리 방법
JP5327735B2 (ja) 信号再生装置
JP2013048360A (ja) 音場収音再生装置、方法及びプログラム
JP2022002361A (ja) 信号処理装置、信号処理プログラム及び信号処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5153389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees