以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。第1実施形態は、他の実施形態の基本となる実施形態であり、第1実施形態にて述べられた事項は、矛盾なき限り他の実施形態にも適用される。また、矛盾なき限り、或る実施形態に記載した事項と他の実施形態に記載した事項とを組み合わせて実施することも可能である。
<<第1実施形態>>
本発明の第1実施形態を説明する。まず、図1を参照して、後述の音響信号処理装置に利用可能なマイクロホン1L及び1Rの位置関係を説明する。
今、互いに直交するX軸及びY軸を座標軸として有する二次元の座標面を想定する。X軸とY軸は原点Oにて直交する。原点Oを基準として、X軸の正の方向側を右側、X軸の負の方向側を左側、Y軸の正の方向側を前方側、Y軸の負の方向側を後方側とする。Y軸の正方向が主たる音源が存在すべき方向である。
マイクロホン1L及び1RはX軸上の互いに異なる位置に配置されている。マイクロホン1Lは原点Oから左側に距離lだけ離れた位置に配置され、マイクロホン1Rは原点Oから右側に距離lだけ離れた位置に配置されている。距離lは、例えば数cm(センチメートル)である。また、原点OからXY座標面上の第1、第2、第3及び第4象限に向かって伸びる4つの線分を、夫々、2R、2L、2SL及び2SRにて参照する。線分2RはY軸に対して時計回り方向に30°だけ傾いており、線分2LはY軸に対して反時計回り方向に30°だけ傾いている。線分2SRはY軸に対して反時計回り方向に45°だけ傾いており、線分2SLはY軸に対して時計回り方向に45°だけ傾いている。
今、図2に示す如く、X軸及びY軸並びに線分2R、2L、2SL及び2SRを境界としてXY座標面を6つのエリア3C、3L、3SL、3B、3SR及び3Rに分割して考える。エリア3Cは、線分2R及び2L間に挟まれた、XY座標面の第1及び第2象限の一部エリアである。エリア3Lは、線分2L及びX軸間に挟まれた、XY座標面の第2象限の一部エリアである。エリア3SLは、X軸及び線分2SL間に挟まれた、XY座標面の第3象限の一部エリアである。エリア3Bは、線分2SL及び2SR間に挟まれた、XY座標面の第3及び第4象限の一部エリアである。エリア3SRは、線分2SR及びX軸間に挟まれた、XY座標面の第4象限の一部エリアである。エリア3Rは、X軸及び線分2R間に挟まれた、XY座標面の第1象限の一部エリアである。
マイクロホン1Lは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。マイクロホン1Rは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン1L及び1Rの検出信号であるアナログ音響信号は、夫々、図示されないA/D変換器によってデジタル音響信号に変換される。このA/D変換器における、アナログ音響信号からデジタル音響信号に変換する際のサンプリング周波数は48kHz(キロヘルツ)であるとする。マイクロホン1L及び1Rとして、指向性を有さない無指向性マイクロホンを採用することができる。
マイクロホン1Lを左チャンネルに対応させ、マイクロホン1Rを右チャンネルに対応させて考える。マイクロホン1L及び1Rの検出信号をデジタル変換することによって得たデジタル音響信号を、夫々、原信号L及び原信号Rと呼ぶ。原信号L及びRは、時間領域(time domain)上の信号である。
図3に、第1実施形態に係る音響信号処理装置10の内部ブロック図を示す。音響信号処理装置10は、空間上に散在する複数の音源からの音を収音することで得られた音響信号であって各音源からの信号を分離抽出した音響信号を生成及び出力する音源分離部11と、音源分離部11からの音響信号に基づいて各音源の種類を検出する音種検出部12と、音源分離部11からの音響信号に基づいて各音源の音量を検出する音量検出部13と、音種検出部12及び音量検出部13の検出結果に基づいて各音源の音量に対する増幅量を決定する音量制御量決定部14と、その決定内容に従って音源分離部11の出力音響信号に含まれる各音源の信号レベルを調整することにより各音源の音量を調整する音量制御部15と、を備える。
音源分離部11から出力される音響信号は、上述の如く、音量制御部15による信号レベル調整により補正される。よって、音源分離部11から出力される音響信号を、便宜上、対象音響信号と呼び、対象音響信号に対して上記信号レベル調整を行うことで得られる、音量制御部15の出力音響信号を、便宜上、補正音響信号と呼ぶ。
対象音響信号は、第1の音源からの音を表す第1の単位音響信号と、第2の音源からの音を表す第2の単位音響信号と、・・・、第(n−1)の音源からの音を表す第(n−1)の単位音響信号と、第nの音源からの音を表す第nの単位音響信号と、を含む音響信号である。ここで、nは2以上の整数である。実空間に見立てたXY座標面上に第1〜第nの音源が散在しているものとする。
[音源分離部]
音源分離部11は、各音源についての単位音響信号を生成及び出力する。例えば、音源分離部11は、複数のマイクロホンの検出信号に基づき、特定の方向から到来した音の信号成分を指向性制御によって強調することにより各単位音響信号を生成することができる。指向性制御の方法として様々な方法が既に提案されており、音源分離部11は、公知の方法を含む任意の指向性制御方法(例えば、特開2000−81900号公報、特開平10−313497号公報に記載の方法)を用いて各単位音響信号を生成することができる。
より具体的な例として、マイクロホン1L及び1Rの検出信号である原信号L及びRから各単位音響信号を生成する方法を説明する。図4は、図3の音源分離部11として利用可能な音源分離部11aの内部ブロック図である。音源分離部11aは、FFT部21L及び21R、比較部22、不要帯域除去部23[1]〜23[n]並びにIFFT部24[1]〜24[n]を備える。
FFT部21L及び21Rは、時間領域上の信号である原信号L及びRに対して離散フーリエ変換を行うことにより、周波数領域(frequency domain)上の信号である左及び右チャンネルの周波数スペクトルを算出する。離散フーリエ変換により、原信号L及びRの周波数帯域が複数の周波数帯域に細分化されることになるが、細分化によって得られた帯域の夫々が1つの音源からの音響信号成分しか含まない程度に、FFT部21L及び21Rの離散フーリエ変換における周波数標本間隔が設定される。このような設定を行うことで、複数音源の音響信号を含む信号より各音源の音響信号成分を分離抽出することが可能となる。細分化された各周波数帯域を、以下、細分化帯域と呼ぶ。
比較部22は、FFT部21L及び21Rによる離散フーリエ変換の結果を表すデータに基づき、細分化帯域ごとに、当該細分化帯域における左及び右チャンネルの信号成分の位相を算出する。そして、各細分化帯域を個別に着目し、着目した細分化帯域における左右チャンネル間の位相差に基づいて、その細分化帯域における信号の主成分が何れの方向から到来したものであるのかを判定する。この判定を全ての細分化帯域に対して実行した後、信号の主成分が第iの方向から到来したと判定された細分化帯域を第iの必要帯域として設定する。信号の主成分が第iの方向から到来したと判定された細分化帯域が複数個ある場合は、その複数の細分化帯域の合成帯域を第iの必要帯域に設定する。この設定処理は、i=1、2、・・・(n−1)、nの夫々に対して実行され、結果、第1〜第nの方向に対応する第1〜第nの必要帯域が設定される。
不要帯域除去部23[1]は、第1の必要帯域に属さない細分化帯域を不要帯域とみなし、FFT部21Lによって算出された周波数スペクトルの内、不要帯域の信号レベルを一定量低減する。例えば、この低減にて、不要帯域の信号レベルを電圧比で12dB(デシベル)だけ低下させる。不要帯域除去部23[1]において、第1の必要帯域の信号レベルは低下せしめられない。IFFT部24[1]は、逆離散フーリエ変換を用いて、不要帯域除去部23[1]による信号レベル低減後の周波数スペクトルを時間領域上の信号に変換し、この変換によって得られた信号を第1の単位音響信号として出力する。尚、信号レベルとは、注目した信号のパワーを表す。但し、信号レベルを、注目した信号の振幅と捉えることも可能である。
不要帯域除去部23[2]〜23[n]及びIFFT部24[2]〜24[n]についても同様である。即ち例えば、不要帯域除去部23[2]は、第2の必要帯域に属さない細分化帯域を不要帯域とみなし、FFT部21Lによって算出された周波数スペクトルの内、不要帯域の信号レベルを一定量低減する。例えば、この低減にて、不要帯域の信号レベルを電圧比で12dBだけ低下させる。不要帯域除去部23[2]において、第2の必要帯域の信号レベルは低下せしめられない。IFFT部24[2]は、逆離散フーリエ変換を用いて、不要帯域除去部23[2]による信号レベル低減後の周波数スペクトルを時間領域上の信号に変換し、この変換によって得られた信号を第2の単位音響信号として出力する。
このようにして得られた第iの単位音響信号は、マイク部にて収音された、第iの音源からの音のみを表す音響信号である(但し、誤差等を無視)。iは、1、2、・・・(n−1)又はnである。今の例において、マイク部はマイクロホン1L及び1Rから成る。第1〜第nの単位音響信号は、それぞれ第1〜第nの音源の音響信号として、音源分離部11aから出力される。
第iの方向(第iの音源の方向)及びそれに関連して述べられる方向とは、原点Oを基準とする方向を指す(図1参照)。第1〜第nの方向は、注目した音源から原点Oに向かう方向であり、第1〜第nの方向は互いに異なる。例えば、図5に示す如く、エリア3C内に第1の音源としての音源4Cが位置すると共にエリア3L内に第2の音源としての音源4Lが位置している場合、音源4Cから原点Oに向かう方向が第1の方向であると共に音源4Lから原点Oに向かう方向が第2の方向であり、音源分離部11aによって音源4C及び4Lからの音の表す音響信号が第1及び第2の単位音響信号として別々に抽出される。第iの方向は或る程度の幅を持った方向であると解釈することができ、例えば、エリア3C内の任意の点から原点Oに向かう方向及びエリア3L内の任意の点から原点Oに向かう方向を夫々第1及び第2の方向と解釈することができる。
尚、音源分離部11aでは、不要帯域の信号レベルを低減することによって各単位音響信号を生成しているが、必要帯域の信号レベルを増大させることによって、或いは、不要帯域の信号レベルを低減させ且つ必要帯域の信号レベルを増大させることによって各単位音響信号を生成するようにしてもよい。また、左右チャンネル間の位相差の代わりに、左右チャンネル間のパワー差を用いて上述と同様の処理を行っても良い。また、音源分離部11aでは、n個の単位音響信号を生成するためにn組の不要帯域除去部及びIFFT部を設けているが、1組の不要帯域除去部及びIFFT部に対して複数の単位音響信号を割り当てて1組の不要帯域除去部及びIFFT部を時分割で用いるようにすれば、不要帯域除去部及びIFFT部の組数をn個未満とすることもできる。また、音源分離部11aでは、2つのマイクロホンの検出信号に基づいて各単位音響信号を生成しているが、互いに異なる位置に配置された3つ以上のマイクロホンの検出信号に基づいて各単位音響信号を生成するようにしてもよい。
また、音源分離部11aで実行されるような指向性制御を利用するのではなく、単体でステレオ収音が可能なステレオマイクを用いて各音源からの音を個別に収音することにより、互いに分離された複数の単位音響信号を直接的に取得するようにしてもよい。或いは、指向性マイクロホン(指向性を有するマイクロホン)をn個用い、第1〜第nの指向性マイクロホンの感度の高い方向を第1〜第nの音源に対応する第1〜第nの方向に向けて各音源からの音を個別に収音することにより、第1〜第nの単位音響信号を互いに分離された形で直接的に取得するようにしてもよい。
更に或いは、第1〜第nの音源の位置が予め分かっている場合は、第1〜第nのコードレスマイクを用い、第iのコードレスマイクが第iの音源の音を収音するように第1〜第nのコードレスマイクを第1〜第nの音源の位置に配置するようにしても良い(i=1、2、・・・(n−1)、n)。このようにすれば、第1〜第nのコードレスマイクによって、第1〜第nの音源に対応する第1〜第nの単位音響信号が互いに分離された形で直接的に取得される。
更に或いは、独立成分分析(Independent Component Analysis)を用いて、複数のマイクロホン(例えば、マイクロホン1L及び1R)の検出信号から第1〜第nの単位音響信号を生成するようにしてもよい。独立成分分析では、同一の時刻に同一の音源からの音響信号は複数個存在しないという仮定の下、音源の独立性を用いて各音源の音響信号が分離収音される。
音源分離部11から出力される第1〜第nの単位音響信号には、上記第1〜第nの方向を表す又は第1〜第nの音源の存在位置を表す音源位置情報が付加される。この音源位置情報は、図3の音量制御量決定部14及び音量制御部15の処理において利用される。第iの音源の方向を表す第iの方向は、第iの音源に対応する、上記の位相差、上記ステレオマイクの指向性の方向又は上記指向性マイクロホンの指向性の方向から定まる(i=1、2、・・・(n−1)、n)。第iの音源の存在位置は、第iの音源に対応する上記コードレスマイクの配置位置から定まる(i=1、2、・・・(n−1)、n)。
音源分離部11から出力される各単位音響信号は、時間領域上のデジタル音響信号であって、そのデジタル化のサンプリング周波数は48kHzであるとする。図6に示す如く、時間領域上の各単位音響信号は、1024サンプル、即ち、約21.3msec(≒1024×1/48kHz)を単位として区切られ、1024サンプルにて1つのフレームが形成される。時間領域上で連なるフレームを、時刻の早い方から順に、第1、第2、第3フレーム・・・と呼ぶ。
[音種検出部]
次に、図3の音種検出部12の機能について説明する。音種検出部12は、音源分離部11から出力される第1〜第nの単位音響信号に基づき、第1〜第nの音源の種類を音源ごとに判定する。
デジタルビデオカメラやICレコーダなどの用途においては、人の声についての音響信号が最も重要である。また、録音環境において流れている音楽は、その場の雰囲気を再現する上で重要であるため、人の声を妨げない程度の音量で記録されることが好ましい。一方で、雑音は、極力音量が小さくなるように制御されるべきである。そこで、本実施形態では、各音源の種類を3つの種類、即ち、人の声、音楽及び雑音の何れかに分類する方法を説明する。
音種検出部12は、第1〜第nの単位音響信号の夫々を個別に注目し、注目した単位音響信号に基づいて、その注目単位音響信号に対応する音源の種類を判定する。以下の説明では、第1の単位音響信号に基づいて第1の音源の種類を判定する方法を説明するが、第2〜第nの音源の種類も第2〜第nの単位音響信号に基づいて同様に判定される。
まず、第1の音源の種類が人の声であるか否かを判定する方法を説明する。一般的に、人の声による音響信号は100Hz〜4kHz程度にパワーが集中しており、有声音に関しては、比較的低周波のピッチ周波数とその倍音成分から成る調波構造を有している。ピッチ周波数とは、声帯振動による音響信号の基本周波数のことである。
図7に、人の声による音響信号の周波数スペクトル例を示す。図7の周波数スペクトルを示すグラフにおいて、横軸は周波数であって縦軸は音圧レベル(sound pressure level)である。図7に示す如く、人の声の周波数スペクトルにおいては、音圧レベルが極大となる周波数と極小となる周波数が概ね一定周波数間隔で繰り返し存在する。音圧レベルが極大となる複数の周波数の内、最小の周波数がピッチ周波数f0であり、その倍音成分の周波数であるf0×2、f0×3、f0×4、・・・においても音圧レベルが極大値をとる。このような特性に注目して第1の単位音響信号の周波数解析を行い、所定の周波数帯域において調波構造を有する信号成分が存在する場合には、第1の音源の種類が人の声であると判定することができる。
第1の音源の種類が人の声であるか否かを判定する方法として既に様々な方法が公知となっており、音種検出部12では、公知の方法を含む任意の方法を利用可能である。以下に、利用可能な具体的方法例を簡単に説明する。
音種検出部12は、約21.3msec間隔で、即ちフレームごとに、第1の単位音響信号を離散フーリエ変換する(図6参照)。これによって得られた、第jフレームにおける第1の単位音響信号の周波数スペクトルを示す信号をSj[m・Δf]にて表す。jは自然数である。Δfは、離散フーリエ変換における周波数の標本間隔である。今、単位音響信号に対する離散フーリエ変換によってΔf間隔でM個の信号が算出されるものとする(Mは2以上の整数であって、例えばM=256)。そうすると、mは0≦m≦(M−1)の範囲内の各整数値をとり、第jフレームにおける第1の単位音響信号の周波数スペクトルは、周波数領域上の信号Sj[0・Δf]〜Sj[M−1・Δf]から形成される。図8に、周波数スペクトルを表す信号Sj[m・Δf]の例を示す。
音種検出部12は、得られた周波数スペクトルの、所定の帯域成分に対して自己相関処理を行う。例えば、信号Sj[0・Δf]〜Sj[M−1・Δf]の内の、100Hz〜4kHzの帯域内の信号からピッチ周波数を探索し、更にピッチ周波数の倍音成分の有無を探索する。そして、ピッチ周波数及びそれの倍音成分の存在が確認された場合、第1の単位音響信号に対応する第1の音源の種類は人の声であると判定し、そうでない場合は、第1の音源の種類は人の声でないと判定する。
次に、第1の音源の種類が音楽であるか否かを判定する方法を説明する。一般的に、音楽による音響信号は広帯域信号であって且つ一定の周期性を有している。そのため、第1の単位音響信号の帯域が比較的広く且つ第1の単位音響信号が時間領域において一定の周期性を有している場合に、第1の音源の種類は音楽であると判定することができる。
具体的方法を例示する。第1の単位音響信号を形成する、48kHzにて離散化されたデジタル音響信号列の内、或る基準時刻から見て、t番目のデジタル音響信号の信号値又はパワーをx(t)で表す(tは整数)。そして、図9に示す如く、上記基準時刻から見て1〜t0番目のx(t)から成るブロックを基準ブロックとして用いた上で、自己相関を計算する(t0は2以上の整数)。即ち、t0番目以降のx(t)に対して、t0個の連続するx(t)から成る評価ブロックを定義し、評価ブロックの位置を時間方向に順次ずらしながら基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式(1)に従って自己相関値S(p)を算出する。自己相関値S(p)は、評価ブロックの位置を決める変数pの関数である(pは整数)。
図10に、求められた自己相関値S(p)の変数p依存性を示す。図10において、横軸及び縦軸はそれぞれ変数p及び自己相関値S(p)を表す。図10は、第1の音源の種類が音楽である場合に対応している。この場合、変数pの変化に対して自己相関値S(p)が周期的に大きな値をとる。音種検出部12は、第1の単位音響信号体に対して求めた自己相関値S(p)が周期的に所定の閾値THを超えていると判断される場合、第1の音源の種類は音楽であると判定し、そうでない場合は、第1の音源の種類は音楽でないと判定する。例えば、不等式「S(p)>TH」を満たす変数pの間隔が一定(或いは略一定)の場合に、自己相関値S(p)が周期的に所定の閾値THを超えていると判断すればよい。
また、第1の単位音響信号の帯域をも更に考慮するようにしてもよい。例えば、第1の単位音響信号体に対して求めた自己相関値S(p)が周期的に所定の閾値THを超えていると判断される場合であっても、第1の単位音響信号に所定の周波数帯域の信号成分が全く或いは殆ど含まれないと判断される場合、第1の音源の種類は音楽でないと判定するようにしてもよい。例えば、第1の単位音響信号の、5kHz以上且つ15kHz以下の周波数帯域における信号レベルの最大値が所定レベル以下である時、第1の単位音響信号に所定の周波数帯域の信号成分が全く或いは殆ど含まれないと判断することができる。
次に、第1の音源の種類が雑音であるか否かを判定する方法を説明する。空調機騒音や回路ノイズ(正弦波状のノイズ)などに代表される雑音は、定常的な信号であって周波数特性に時間的変動が少ない。よって、第1の単位音響信号がこのような信号特性を有しているかを判断することで雑音判定が可能である。
具体的には例えば以下のようにすればよい。数秒間分のフレームに注目し、注目フレームの第1の単位音響信号に対してフレームごとに離散フーリエ変換を施す。注目フレームが第1〜第Jフレームである場合を想定する(Jは整数であって例えばJ=200)。そして、下記式(2)に従って雑音評価値ENOISEを算出し、雑音評価値ENOISEが所定の基準値以下である場合は、周波数特性の時間的変動が少ないと判断して第1の音源の種類は雑音であると判定し、そうでない場合は、第1の音源の種類は雑音でないと判定する。
ここで、SAVE[m・Δf]は、第1の単位音響信号における周波数(m×Δf)の信号成分の、第1〜第Jフレームの平均を表す。即ち、SAVE[m・Δf]は、S1[m・Δf]〜SJ[m・Δf]の平均値である。図11に示す如く、雑音の周波数スペクトルの時間的変動は少ないため、雑音に対して算出された雑音評価値ENOISEは比較的小さな値をとる。
尚、上述した方法に従うことにより、第1の音源の種類が人の声、音楽及び雑音の何れにも当てはまらないと判断された場合、第1の音源の種類は、人の声、音楽及び雑音以外の第4の種類であると判断される。
[音量検出部]
次に、図3の音量検出部13の機能について説明する。音量検出部13は、音源分離部11から出力される第1〜第nの単位音響信号の信号レベルを検出することで各単位音響信号における音源の音量を検出する。この際、各単位音響信号の帯域を8つに分割し、分割によって得られた帯域ごとに信号レベルを検出する。
より具体的には以下のようにして、単位音響信号ごとに単位音響信号の信号レベルを検出する。説明の明確化のため、第1の単位音響信号にのみ注目して信号レベル検出方法を説明する。第1の単位音響信号に対してフレームごとに離散フーリエ変換を施すことで、フレームごとの周波数スペクトルを算出する。第1の単位音響信号のサンプリング周波数は48kHzであるため、算出される周波数スペクトルの帯域は0〜24kHzである。この帯域(即ち、0〜24kHz)を8つの帯域に分割し、分割によって得られた帯域を、周波数が小さい方から第1、第2、・・・第8サブ帯域と呼ぶ(図12参照)。
音量検出部13は、フレームごとに且つサブ帯域ごとに、周波数スペクトルの信号レベルの最大値を特定する。例えば、第1サブ帯域が0kHz以上且つ(10・Δf)kHz以下の帯域である場合、周波数スペクトルにおける信号S1[0・Δf]〜S1[10・Δf]に基づき、周波数0・Δf、1・Δf、・・・、9・Δf及び10・Δfの内、最も信号レベルが大きくなる周波数を特定し、特定した周波数における信号レベルを、第1フレームにおける第1サブ帯域の代表信号レベルとして抽出する(図12参照)。この代表信号レベルが、音量検出部13によって検出されるべき、第1フレームにおける第1サブ帯域の信号レベルとして取り扱われる。同様にして第1フレームにおける第2〜第8サブ帯域の代表信号レベルも抽出し、更に、同様の抽出処理を第1フレーム以降の各フレームに対して順次実行する。
第1の単位音響信号について説明したが、第2〜第nの単位音響信号の代表信号レベルも、第1の単位音響信号の代表信号レベルと同様にして検出される。
[音量制御量決定部]
次に、図3の音量制御量決定部14の機能について説明する。音量制御量決定部14は、まず、上記音源位置情報と音種検出部12によって判定された各音源の種類とに応じて、予め定められたテーブルデータに従い、単位音響信号ごとに上限増幅量を決定する。各単位音響信号は音量制御部15によって増幅されるが、上限増幅量は、その増幅の上限値を規定する。尚、単位音響信号の信号レベルが音量制御部15によって低下させられることもあるが、この場合における信号レベルの変動は負の増幅である。増幅量を、制御量又は調整量に読み替えることも可能である。
音源位置情報によって、各音源が6つのエリア3C、3L、3SL、3B、3SR及び3Rの何れに存在しているかが特定され (図2参照)、その特定内容に従って、単位音響信号ごとに第1増幅量が決定される。図13(a)は、第1増幅量を決定するためのテーブルデータの内容を示している。即ち、第1〜第nの単位音響信号の夫々を個別に注目し、注目した単位音響信号に対応する音源が、エリアCに位置している場合、エリア3L又は3Rに位置している場合、エリア3SL又は3SRに位置している場合、エリアBに位置している場合、第1増幅量は、電圧比で夫々6dB、3dB、0dB、(−3dB)に設定される。
音種検出部12によって判定された各音源の種類に応じて、単位音響信号ごとに第2増幅量が決定される。図13(b)は、第2増幅量を決定するためのテーブルデータの内容を示している。即ち、第1〜第nの単位音響信号の夫々を個別に注目し、注目した単位音響信号に対応する音源の種類が、人の声である場合、音楽である場合、雑音である場合、第4の種類である場合、第2増幅量は、電圧比で夫々12dB、6dB、(−6dB)、0dBに設定される。但し、注目した単位音響信号に対応する音源の種類が人の声である場合、注目した単位音響信号の全帯域中の音声帯域に対してのみ第2増幅量は12dBに設定され、注目した単位音響信号の全帯域中の非音声帯域に対しては第2増幅量は0dBに設定される。音声帯域とは、人の声のパワーが集中している帯域である。例えば、100Hz以上且つ4kHz以下の帯域が音声帯域に設定され、それ以外の帯域が非音声帯域に設定される。
音量制御量決定部14は、図13(c)に示す如く、第1増幅量と第2増幅量を足し合わせたものを上限増幅量に設定する。今、図14に示す如く(図2も参照)、n=4であって、音源位置情報から第1、第2、第3及び第4の音源が夫々エリア3C、3R、3SR及び3B内に位置していることが示され且つ音種検出部12によって第1、第2、第3及び第4の音源の種類が夫々人の声、音楽、雑音及び人の声であると判定された場合を想定する。この想定を、便宜上、想定αと呼ぶ。この想定αの下では、第1の単位音響信号に対する上限増幅量は音声帯域において18dB(=6dB+12dB)とされると共に非音声帯域において6dB(=6dB+0dB)とされ、第2及び第3の単位音響信号に対する上限増幅量はそれぞれ9dB(=3dB+6dB)及び−6dB(=0dB−6dB)とされ、第4の単位音響信号に対する上限増幅量は音声帯域において9dB(=−3dB+12dB)とされると共に非音声帯域において−3dB(=−3dB+0dB)とされる。
単位音響信号を含む各音響信号は、電圧信号であり、その電圧の振幅が増大するにつれて対応する音量及び信号レベルは増大する。音量制御量決定部14及び音量制御部15の説明において述べられる単位“dB(デシベル)”は、所定の全範囲振幅(フルスケール)を有する電圧信号を基準とした注目信号の電圧比を表す。
上限増幅量を決定した後、音量制御量決定部14は、音量検出部13にて検出された第1〜第8サブ帯域の夫々における代表信号レベルの電圧振幅が、音量制御部15による増幅処理によって−20dB(即ち、全範囲振幅の1/10)となるように実際の増幅量を決定する。この増幅量の決定及び決定された増幅量に従う増幅処理は、単位音響信号ごとに且つサブ帯域ごとに実行される。
但し、実際の増幅量が上限増幅量を超えないように増幅量の決定値には制限が加えられる。また、急激な音量変化によって聞き手が違和感を覚えるのを防止すべく、隣接フレーム間における増幅量の変動の大きさは6dB以下に制限される。また更に、主たる音源が存在すべきエリア3Cからの音が他のエリアからの音にてマスクされないように、エリア3L、3SL、3B、3SR及び3R内の音源に対する増幅量がエリア3C内の音源に対する増幅量よりも6dB程度小さくなるように、前者の増幅量に制限が加えられる。これらの制限により、音量制御部15の増幅処理後において、各サブ帯域の代表信号レベルの電圧振幅は目標振幅(即ち、−20dB)と異なる場合がある。
図15及び図16を参照して、これらの要求に対応する増幅量の決定動作手順を詳細に説明する。図15は、対応する音源がエリアC内に位置している単位音響信号に対する増幅量の算出手順フローチャートである。図16は、対応する音源がエリア3L、3SL、3B、3SR又は3R内に位置している単位音響信号に対する増幅量の算出手順フローチャートである。対応する音源がエリアC内に位置している単位音響信号を正面音響信号と呼び、対応する音源がエリア3L、3SL、3B、3SR又は3R内に位置している単位音響信号を非正面音響信号と呼ぶ。想定αの下では、第1の単位音響信号が正面音響信号であり、第2〜第4の単位音響信号の夫々が非正面音響信号である。正面音響信号の増幅量は、図15のステップS11〜S18における処理によってサブ帯域ごとに決定され、非正面音響信号の増幅量は、図16のステップS21〜S30における処理によってサブ帯域ごとに決定される。
図15を参照し、正面音響信号(例えば、想定αの下における第1の単位音響信号)に対して実行されるステップS11〜S18の処理を説明する。ここで、第jフレームにおける、正面音響信号の第kサブ帯域の代表信号レベルの電圧振幅をPk[j]にて表す。その電圧振幅の、全範囲振幅(フルスケール)に対する電圧比を対数表現したものがPk[j]である。従って、Pk[j]の単位はdBである。Pk[j]は、音量検出部13にて検出される。kは1以上8以下の整数をとる。
第jフレームに対するステップS11〜S18の処理に先立って実行された第(j−1)フレームに対するステップS11〜S18の処理により、第(j−1)フレームにおける、正面音響信号の第kサブ帯域に対する増幅量が決定されており、その決定値をAMPk[j−1]にて表す。更に、第jフレームにおける、正面音響信号の第kサブ帯域に対する増幅量の暫定値又は決定値をAMPk[j]にて表す。AMPk[j−1]及びAMPk[j]の単位もdBである。
まず、ステップS11において、音量制御量決定部14は、第1不等式“Pk[j]+AMPk[j−1]≦−20dB”が成立するかを判定する。即ち、第(j−1)フレームに対して決定した増幅量にて第jフレームの信号を増幅したと仮定した時において、増幅後の信号の電圧振幅が所定の全範囲振幅以下となるかを判定する。第1不等式が成立する場合、即ち、電圧振幅Pk[j]を増幅量AMPk[j−1]分だけ増幅させた時の電圧振幅が−20dB以下である場合は、ステップS12に移行してステップS12の処理を実行する一方、第1不等式が成立しない場合はステップS17に移行してステップS17の処理を実行する。
ステップS12において、音量制御量決定部14は、第2不等式“Pk[j]+AMPk[j−1]+6dB≦−20dB”が成立するかを判定する。第2不等式が成立する場合、即ち、電圧振幅Pk[j]を増幅量(AMPk[j−1]+6dB)分だけ増幅させた時の電圧振幅が−20dB以下である場合は、ステップS13にて(AMPk[j−1]+6dB)を増幅量AMPk[j]に代入してからステップS15に移行する一方、第2不等式が成立しない場合は、ステップS14にて(−20dB−Pk[j])を増幅量AMPk[j]に代入してからステップS15に移行する。
ステップS15では、ステップS13又はS14において暫定的に設定した増幅量AMPk[j]が上限増幅量以下であるかを確認し、暫定的に設定した増幅量AMPk[j]が上限増幅量以下である場合は、その暫定的に設定した増幅量AMPk[j]を、第jフレームにおける、正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS18)。
一方、ステップS13又はS14において暫定的に設定した増幅量AMPk[j]が上限増幅量を超える場合は、ステップS16において増幅量AMPk[j]を修正する。即ち、増幅量AMPk[j−1]に上限増幅量を加算したものを増幅量AMPk[j]に新たに代入することによって増幅量AMPk[j]を修正し(ステップS16)、修正後の増幅量AMPk[j]を、第jフレームにおける、正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS18)。
また、ステップS11において上記第1不等式が不成立である場合と判定した場合は、ステップS17において増幅量AMPk[j−1]を6dBだけ減少させたものを増幅量AMPk[j]に代入し、その代入後の増幅量AMPk[j](=AMPk[j−1]−6dB)を、第jフレームにおける、正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS18)。
図16を参照し、非正面音響信号(例えば、想定αの下における第2の単位音響信号)に対して実行されるステップS21〜S30の処理を説明する。ここで、第jフレームにおける、非正面音響信号の第kサブ帯域の代表信号レベルの電圧振幅をP’k[j]にて表す。その電圧振幅の、全範囲振幅(フルスケール)に対する電圧比を対数表現したものがP’k[j]である。従って、P’k[j]の単位はdBである。P’k[j]は、音量検出部13にて検出される。kは1以上8以下の整数をとる。
第jフレームに対するステップS21〜S30の処理に先立って実行された第(j−1)フレームに対するステップS21〜S30の処理により、第(j−1)フレームにおける、非正面音響信号の第kサブ帯域に対する増幅量が決定されており、その決定値をAMP’k[j−1]にて表す。更に、第jフレームにおける、非正面音響信号の第kサブ帯域に対する増幅量の暫定値又は決定値をAMP’k[j]にて表す。AMP’k[j−1]及びAMP’k[j]の単位もdBである。
まず、ステップS21において、音量制御量決定部14は、第3不等式“P’k[j]+AMP’k[j−1]+6dB≦Pk[j]+AMPk[j]”が成立するかを判定する。第3不等式及び後述の第4不等式において、Pk[j]は、図15のフローチャートの説明において述べたそれと同じものであり、AMPk[j]は、図15のステップS18にて最終決定された、第jフレームにおける、正面音響信号の第kサブ帯域に対する増幅量である。第3不等式が成立する場合、即ち、電圧振幅P’k[j]を増幅量(AMP’k[j−1]+6dB)分だけ増幅させた時の電圧振幅が電圧振幅Pk[j]を増幅量AMPk[j]分だけ増幅させた時の電圧振幅以下である場合は、ステップS22に移行してステップS22の処理を実行する一方、第3不等式が成立しない場合はステップS27に移行してステップS27の処理を実行する。
ステップS22において、音量制御量決定部14は、第4不等式“P’k[j]+AMP’k[j−1]+12dB≦Pk[j]+AMPk[j]”が成立するかを判定する。第4不等式が成立する場合は、ステップS23にて(AMP’k[j−1]+6dB)を増幅量AMP’k[j]に代入してからステップS25に移行する一方、第4不等式が成立しない場合は、ステップS24にて(−20dB−P’k[j])を増幅量AMP’k[j]に代入してからステップS25に移行する。
ステップS25では、ステップS23又はS24において暫定的に設定した増幅量AMP’k[j]が上限増幅量以下であるかを確認し、暫定的に設定した増幅量AMP’k[j]が上限増幅量以下である場合は、その暫定的に設定した増幅量AMP’k[j]を、第jフレームにおける、非正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS30)。
一方、ステップS23又はS24において暫定的に設定した増幅量AMP’k[j]が上限増幅量を超える場合は、ステップS26において増幅量AMP’k[j]を修正する。即ち、増幅量AMP’k[j−1]に上限増幅量を加算したものを増幅量AMP’k[j]に新たに代入することによって増幅量AMP’k[j]を修正し(ステップS26)、修正後の増幅量AMP’k[j]を、第jフレームにおける、非正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS30)。
また、ステップS21において上記第3不等式が不成立である場合と判定した場合は、ステップS27にて更に第5不等式“AMP’k[j−1]≦−26dB”が成立するかを確認する。そして、第5不等式が成立する場合は、ステップS28において増幅量AMP’k[j−1]をそのまま増幅量AMP’k[j]に代入し、その代入後の増幅量AMP’k[j](=AMP’k[j−1])を、第jフレームにおける、非正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS30)。一方、第5不等式が成立しない場合は、ステップS29において増幅量AMP’k[j−1]を6dBだけ減少させたものを増幅量AMP’k[j]に代入し、その代入後の増幅量AMP’k[j](=AMP’k[j−1]−6dB)を、第jフレームにおける、非正面音響信号の第kサブ帯域に対する増幅量として最終的に決定する(ステップS30)。
[音量制御部]
次に、図3の音量制御部15の機能について説明する。音量制御部15は、音量制御量決定部14において単位音響信号ごとに且つサブ帯域ごとに決定された増幅量にて、第1〜第nの単位音響信号を単位音響信号ごとに且つサブ帯域ごとに増幅する。この増幅は、周波数領域上にて行われる。従って、離散フーリエ変換によって得られた各単位音響信号の周波数スペクトルに対して上記の増幅を行い、増幅後の各周波数スペクトルを逆離散フーリエ変換によって時間領域上の信号に戻す。これにより、信号レベルが補正された第1〜第nの単位音響信号が音量制御部15から出力される。音量制御部15の出力音響信号である補正音響信号は、この信号レベル補正後の第1〜第nの単位音響信号から形成される。
このように、音響信号処理装置10は、第1〜第nの音源の存在方向又は存在位置、各音源の種類及び各音源に対応する各単位音響信号の信号レベルに基づいて、単位音響信号ごとに且つサブ帯域ごとに増幅量を決定して各単位音響信号の信号レベルを調整し、これによって対象音響信号における各音源の音量を個別に調整する。
[様々な機器への応用例]
上述のような音響信号処理装置10は、複数のマイクロホンの検出信号を利用する任意の機器に搭載される。複数のマイクロホンの検出信号を利用する任意の機器には、録音装置(ICレコーダなど)、撮像装置(デジタルビデオカメラなど)及び音響信号再生装置などが含まれる。尚、撮像装置において、録音装置としての機能若しくは音響信号再生装置としての機能又はそれらの双方の機能を実現することも可能である。また、録音装置、撮像装置又は音響信号再生装置は、携帯端末(携帯電話機等)に組み込まれうる。
例として、図17に、録音装置100の概略構成図を示す。録音装置100は、音響信号処理装置101と、磁気ディスクやメモリカード等の記録媒体102と、録音装置100の筐体上の互いに異なる位置に設置されたマイクロホン1L及び1Rと、を備える。音響信号処理装置101として、上述の音響信号処理装置10を用いることができる。音響信号処理装置101は、マイクロホン1L及び1Rの検出信号から補正音響信号を生成し、その補正音響信号を記録媒体102に記録する。
また、図18に、音響信号再生装置120の概略構成図を示す。音響信号再生装置120は、音響信号処理装置121と、磁気ディスクやメモリカード等の記録媒体122と、スピーカ部123と、を備える。記録媒体122には、マイクロホン1L及び1Rの検出信号が記録されているものとする。音響信号処理装置121として、上述の音響信号処理装置10を用いることができる。但し、音響信号再生装置120においては、記録媒体122より読み出したマイクロホン1L及び1Rの検出信号が音響信号処理装置121に入力され、この入力されたマイクロホン1L及び1Rの検出信号から音響信号処理装置121によって補正音響信号が生成される。
音響信号再生装置120において生成された補正音響信号は、音としてスピーカ部123から再生出力される。補正音響信号は、互いに異なる方向に指向性を有するn個の音響信号(信号レベル補正後の第1〜第nの単位音響信号)より成るステレオ信号又はマルチチャンネル信号として、スピーカ部123から或いは音響信号再生装置120外に設けられたスピーカ部(不図示)から再生出力される。また、音響信号再生装置120において生成された補正音響信号を記録媒体122に記録することも可能である。
尚、スピーカ部123は、ステレオ信号又はマルチチャンネル信号を再生出力するため、複数のスピーカから形成される(後述のスピーカ部146も同様)。また、音響信号再生装置120を、コンピュータとコンピュータ上で動作するソフトウェアとで実現することもできる。また、録音装置100と音響信号再生装置120の機能を併せ持つ録音再生装置を形成することもできる。
更に、図19に、撮像装置140の概略構成図を示す。撮像装置140は、図17の録音装置100の構成要素に、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどから成る撮像素子143、撮像素子143を用いた撮影によって得られた画像に所定の画像処理を施す画像処理部144、撮影画像の表示を行う表示部145及び音声出力を行うスピーカ部146等を付加することによって形成される。撮像装置140に設けられる、音響信号処理装置101、記録媒体102並びにマイクロホン1L及び1Rは、録音装置100のそれらと同じものである。マイクロホン1L及び1Rとは、撮像装置140の筐体上の互いに異なる位置に設置される。
撮像装置140は、撮像素子143を用いて被写体に応じた動画像又は静止画像を撮影する。その動画像又は静止画像を表す画像信号(例えば、YUV形式の映像信号)は、画像処理部144を介して記録媒体102に記録される。特に、動画像の撮影時においては、マイクロホン1L及び1Rの検出信号に基づく補正音響信号と動画像の画像信号とが時間的に関連付けられた上で記録媒体102に記録される。また、撮像装置140は、記録媒体102に記録された音響信号(補正音響信号)を再生する音響信号再生装置としての機能も備えている。従って、表示部145及びスピーカ部146を用いて、撮影された動画像を補正音響信号と共に再生することができる。尚、マイクロホン1L及び1Rの検出信号そのものと動画像の画像信号とを時間的に関連付けて記録媒体102に記録しておき、動画像の再生時において、記録媒体102に記録されたマイクロホン1L及び1Rの検出信号より補正音響信号を生成するようにしてもよい。
撮像装置140は、原点Oから見てY軸の正の方向に位置する被写体を撮影する(図1参照)。例えば、エリア3C、3L、3SL、3B、3SR及び3Rの内、撮像装置140の視野にはエリア3Cのみが含まれる(図2参照)。但し、撮像装置140の画角によっては、エリア3L及び3Rの一部が撮像装置140の視野に含まれていても構わないし、エリア3Cの一部が撮像装置140の視野に含まれていなくても構わない。
本実施形態によれば、音源の方向(又は位置)と音源の種類に応じて周波数帯域別に各音源の音量が調整されるため、必要な音(主として人の声)を比較的大きな音量にて且つ不要な音(雑音など)を比較的小さな音量にて記録又は再生することが可能である。特定方向に雑音の音源がある場合は、音の種類判定を介して雑音の音量が低減されるため、最終的に記録又は再生される音響信号において雑音の影響が小さくなる。一方で、音楽などの背景音は必要な音(主として人の声)をマスクしない程度の適切な音量にて記録されるため、臨場感のある再生が可能となる。
尚、細分化された周波数帯域別に音量制御を行う上記第2従来方法では、特定の周波数帯域に存在する雑音成分を低減することが可能であるものの、雑音成分と必要な信号成分の周波数が重複する場合には、雑音成分のみを低減することは不可能である。これに対し、本実施形態では、音源の方向(又は位置)に応じて更には音源の種類に応じて音量調整(信号レベル調整)がなされるため、雑音成分のみを低減する事が可能となる。
また、本実施形態に係る撮像装置によれば、撮影画像にマッチした音を大きく明瞭に記録又は再生することが可能となる。特に、撮影画像に写っている正面方向の人の声が、他の音よりも大きな音量にて記録又は再生されるため、撮影者が注目している被写体についての音声が聴き取りやすくなる。
<<第2実施形態>>
次に、本発明の第2実施形態を説明する。第2実施形態においても図3の音響信号処理装置10が用いられる。但し、第2実施形態では、エリア3C、3L、3R、3SL及び3SR内の任意の点から原点Oに向かう方向を夫々第1、第2、第3、第4及び第5の方向として取り扱い、音源分離部11における指向性制御を用いて、エリア3C、3L、3R、3SL及び3SR内に位置する音源からの音を強調した音響信号を、それぞれ、第1、第2、第3、第4及び第5の単位音響信号として生成する。
この結果、対象音響信号(図4参照)は、前方(正面方向)からの音の信号成分が強調された第1の単位音響信号(センター信号)と、左斜め前方からの音の信号成分が強調された第2の単位音響信号(レフト信号)と、右斜め前方からの音の信号成分が強調された第3の単位音響信号(ライト信号)と、左斜め後方からの音の信号成分が強調された第4の単位音響信号(サラウンドレフト信号)と、右斜め後方からの音の信号成分が強調された第5の単位音響信号(サラウンドライト信号)とから成る5チャンネルのマルチチャンネル信号となる。
音量制御部15は、このようにして得られた第1〜第5の単位音響信号の信号レベルを第1実施形態で述べた方法により補正し、信号レベル補正後の第1〜第5の単位音響信号を生成する。この信号レベル補正後の第1〜第5の単位音響信号を、5チャンネルのマルチチャンネル信号として記録媒体(例えば、図19の記録媒体102)に記録又はスピーカ部(例えば、図19のスピーカ部146)で再生出力することもできるが、第2実施形態では、ダウンミキシングを行うことで2チャンネルの信号を記録又は再生する。
即ち、信号レベル補正後の第1、第2及び第4の単位音響信号を所定の比率にて混合することにより第1チャンネル信号を生成すると共に、信号レベル補正後の第1、第3及び第5の単位音響信号を所定の比率にて混合することにより第2チャンネル信号を生成する。具体的に例えば、音量制御部15において、以下の式(3)及び(4)に従ってダウンミキシングを行う。ここで、xC(t)、xL(t)、xR(t)、xSL(t)及びxSR(t)は、夫々、上記信号レベル補正後における第1、第2、第3、第4及び第5の単位音響信号の信号値を表し、x1(t)及びx2(t)は、夫々、ダウンミキシングによって得られる第1チャンネル信号及び第2チャンネル信号の信号値を表す。尚、x1(t)を算出する際における、xC(t)、xL(t)及びxSL(t)の混合比率は変更可能である(x2(t)についても同様)。
x1(t)=0.7×xC(t)+xL(t)+xSL(t) …(3)
x2(t)=0.7×xC(t)+xR(t)+xSR(t) …(4)
第1及び第2チャンネル信号は、ステレオ信号を形成する。第1及び第2チャンネル信号から成るステレオ信号は、補正音響信号として音量制御部15から出力される。第2実施形態に係る音響信号処理装置10も、音響信号処理装置101又は121として利用可能である(図17〜図19参照)。
<<第3実施形態>>
次に、本発明の第3実施形態を説明する。第3実施形態では、図3の音響信号処理装置10、図17〜図19の録音装置100、音響信号再生装置120及び撮像装置140(以下、夫々、装置10、100、120及び140と略記することがある)にて利用可能な第1〜第5応用技術を説明する。矛盾なき限り、第1〜第5応用技術の内の2以上の応用技術を組み合わせて実施することも可能である。
[第1応用技術]
音量制御部15による信号レベル補正(換言すれば、音量調整)を実行するか否かを手動操作にて指示することができるように装置10、100、120又は140を形成しておいてもよい。信号レベル補正の不実行が指示された場合、音源分離部11にて生成された第1〜第nの単位音響信号又はマイクロホン1L及び1Rの検出信号が、そのまま記録媒体(例えば、図19の記録媒体102)に記録される又はスピーカ部(例えば、図19のスピーカ部146)から再生出力される。
[第2応用技術]
音量制御部15による信号レベル補正(換言すれば、音量調整)の方法を、第1実施形態で述べた方法と他の方法とで切り替え実行できるようにしてもよい。ユーザは、この切り替えを手動操作にて指示することができる。例えば、第1音量調整方法と第2音量調整方法を択一的に選択可能としておき、第1音量調整方法が選択された場合は、第1実施形態で述べた通りの動作を行って補正音響信号を記録又は再生する。
一方、第2音量調整方法が選択された場合は、音量制御部15において各単位音響信号に対するAGC又はALCを行う。即ち、音量制御部15から出力される各単位音響信号の電圧振幅が一定振幅に保たれるように音源分離部11から音量制御部15へ入力される各単位音響信号の電圧振幅を信号増幅処理によって補正する。AGC又はALCによる電圧振幅補正後の第1〜第nの単位音響信号も補正音響信号を形成する音響信号として、記録媒体(例えば、図19の記録媒体102)に記録される又はスピーカ部(例えば、図19のスピーカ部146)にて再生出力される(以下の第3及び第4応用技術においても同様)。
[第3応用技術]
音量制御部15による信号レベル補正(換言すれば、音量調整)の方法を、第1実施形態で述べた方法と他の方法とで切り替え実行できるように装置10、100、120又は140を形成しておき、主要な音声成分が含まれる8kHz以下の周波数帯域に対しては第1実施形態で述べた方法にて音量調整を行って補正音響信号を生成する一方で、8kHzより大きな周波数帯域に対しては他の方法(例えば、AGC又はALC)によって音量調整を行うようにしても良い。
[第4応用技術]
音量制御部15による信号レベル補正(換言すれば、音量調整)の方法を、第1実施形態で述べた方法と他の方法とで切り替え実行できるように撮像装置140を形成しておき、撮影装置140による撮影画像中に人物が写っていると判断される場合には前者の方法にて音量調整を行って補正音響信号を生成する一方で、撮影画像中に人物が写っていないと判断される場合には後者の方法(例えば、AGC又はALC)によって音量調整を行うようにしても良い。図19の画像処理部144は、撮影画像の画像信号に基づき、周知の顔検出処理等を利用して、撮影画像中に人物が写っているか否かを判断することができる。
[第5応用技術]
図3の音種検出部12により、単位音響信号に対応する音源の種類を4種類の内の何れか、即ち、人の声、音楽、雑音及び第4の種類の何れかに分類する例を上述したが、分類される音源の種類数は4以外であってもよい。
実際の環境下においては、同一又は近似する方向から複数種類の複数音源による音響信号が同時にマイクロホンに到来することもある。このような場合に備え、第iの単位音響信号に対応する音源が2種類以上の音源の混合音源であると判断できるように音種検出部12を形成しておいても良い。
例えば、第1実施形態で述べた方法に基づき、第iの単位音響信号の周波数領域上における自己相関を調べることで第iの単位音響信号に対応する音源に人の声が含まれているか否かを判断すると共に第iの単位音響信号の時間領域上における自己相関を調べることで第iの単位音響信号に対応する音源に音楽が含まれているか否かを判断し、これによって、第iの単位音響信号に対応する音源が人の声と音楽の混合音源であるか否かを判断するようにしてもよい。更に、周波数領域上における自己相関と時間領域上における自己相関の強弱関係から、混合音源の全音量に占める人の声の音量割合と音楽の音量割合を検出することもできる。音量制御量決定部14は、第iの単位音響信号に対応する音源が混合音源であるか否かや混合音源に対して検出された上記音量割合をも考慮して、各単位音響信号に対する増幅量を決定するようにしてもよい。
<<第4実施形態>>
本発明の第4実施形態を説明する。図21に、第4実施形態に係る録再装置200の概略構成図を示す。録再装置200は、音響信号の記録時には録音装置として機能し、音響信号の再生時には再生装置として機能する。従って、録再装置200を録音装置又は再生装置と捉えることも可能である。また、図19の撮像素子143及び画像処理部144を録再装置200に追加することも可能であり、この追加が成された録再装置200は、撮像装置とも言える。
録再装置200は、録再装置200の筐体上の互いに異なる位置に設置されたマイクロホン1L及び1Rと、磁気ディスクやメモリカード等の記録媒体201と、音響信号処理装置202と、スピーカ部203と、液晶ディスプレイ等から成る表示部204と、操作受付部として機能する操作部205と、を備える。
マイクロホン1L及び1Rは、第1実施形態にて述べたものと同様のものであり、原点Oとマイクロホン1L及び1Rの位置関係も、第1実施形態にて述べたものと同様である(図1参照)。記録媒体201には、マイクロホン1L及び1Rの検出信号をデジタル変換することによって得られた原信号L及び原信号R、又は、それらの圧縮信号が記録音響信号として記録される。
図22は、音響信号処理装置202の内部ブロック図を含む、録再装置200の一部ブロック図である。音響信号処理装置202には、信号分離部211と、音特性解析部212と、再生音響信号生成部(信号処理部)213と、が備えられている。
信号分離部211は、記録媒体201からの記録音響信号より第1〜第mの方向信号を生成する。ここで、mは2以上の整数である。各方向信号は、記録音響信号より抽出された指向性を有する音響信号であり、i及びjを互いに異なる整数であると捉えた場合、指向性の向きは第i及び第jの方向信号間で異なる。本実施形態では、特に断りなき限り、m=3であるとする。勿論、mは3以外であっても良い。そして、第1、第2及び第3の方向信号として、夫々、L方向信号、方向信号及びR方向信号が生成される場合を想定する。
図23は、信号分離部211の内部ブロック図である。信号分離部211には、音源分離部221及び方向分離処理部222が備えられている。音源分離部221は、空間上に散在する複数の音源からの音を収音することで得られた音響信号であって且つ各音源からの信号を分離抽出した音響信号を生成して出力する。音源分離部221として図3の音源分離部11を用いることができ、本実施形態では、音源分離部221が音源分離部11と同じものであるとする。従って、音源分離部221から出力される音響信号は、第1実施形態で述べた対象音響信号である。第1実施形態で述べたように、対象音響信号は、第1の音源からの音を表す第1の単位音響信号と、第2の音源からの音を表す第2の単位音響信号と、・・・、第(n−1)の音源からの音を表す第(n−1)の単位音響信号と、第nの音源からの音を表す第nの単位音響信号と、を含む音響信号であり(上述したように、nは2以上の整数)、第1〜第nの単位音響信号は、それぞれ第1〜第nの音源の音響信号として、音源分離部221から出力される。第iの単位音響信号は、第iの方向から録再装置200(より詳細には、録再装置200上の原点O)に向かって到来した音響信号である(iは整数)。第iの到来方向とも言うべき第iの方向の意義は、第1実施形態で述べた通りである。
音源分離部221は、第1実施形態で述べた指向性制御により、記録音響信号から各単位音響信号を分離抽出することができる。更に、第1実施形態と同様、音源分離部221から出力される第1〜第nの単位音響信号には、第1〜第nの方向を表す又は第1〜第nの音源の存在位置を表す音源位置情報が付加される。
方向分離処理部222は、音源位置情報に基づいて、対象音響信号からL方向信号、C方向信号及びR方向信号を分離抽出する。この分離の方法を説明する。方向分離処理部222は、図24に示す如く、線分301〜304を境界としてXY座標面上に3つのエリア300L、300C及び300Rを設定する。線分301〜304の夫々とX軸及びY軸との関係をユーザ指示等によって変更することも可能であるが(詳細は後述)、この変更がなき限り、線分301は原点OからX軸の負方向に向かってX軸と平行に伸びる線分であり、線分304は原点OからX軸の正方向に向かってX軸と平行に伸びる線分であり、線分302は原点OからXY座標面上の第2象限に向かって伸びる線分であり、線分303は原点OからXY座標面上の第1象限に向かって伸びる線分であるとする。この場合、線分301及び304はX軸上の線分であるが、図示の便宜上、図24では、線分301及び304をX軸から若干ずらして示している(後述の図25等も同様)。例えば、線分302はY軸に対して反時計周り方向に30°だけ傾いており、線分303はY軸に対して時計周り方向に30°だけ傾いている。エリア300Lは、線分301及び302間に挟まれた、XY座標面の第2象限の一部エリアであり、エリア300Cは、線分302及び303間に挟まれた、XY座標面の第1及び第2象限の一部エリアであり、エリア300Rは、線分303及び304間に挟まれた、XY座標面の第1象限の一部エリアである。
方向分離処理部222は、音源位置情報に基づいて、第1の単位音響信号をL、C及びR方向信号の何れかに含める。具体的には、第1の単位音響信号の到来方向、即ち、第1の単位音響信号に対応する第1の方向がエリア300L内の何れかの位置から原点Oに向かう方向であれば第1の単位音響信号をL方向信号に含め、該第1の方向がエリア300C内の何れかの位置から原点Oに向かう方向であれば第1の単位音響信号をC方向信号に含め、該第1の方向がエリア300R内の何れかの位置から原点Oに向かう方向であれば第1の単位音響信号をR方向信号に含める。これと同様の操作を、第2〜第nの単位音響信号に対しても行う。これにより、各々の単位音響信号が、L、C及びR方向信号の何れかに含められる。
例えば、n=3であって、図25に示す如く、第1の音源としての音源311、第2の音源としての音源312及び第3の音源としての音源313が夫々エリア300L、300C及び300Rに位置しているならば、L、C及びR方向信号は、夫々、第1、第2及び第3の単位音響信号となる。1つのエリア内に複数の音源が存在している場合も同様である。即ち例えば、n=6であって、第1、第2及び第3の音源がエリア300Lに位置し、且つ、第4及び第5の音源がエリア300Cに位置し、第6の音源がエリア300Rに位置しているならば、L方向信号は第1、第2及び第3の単位音響信号の合成信号となり、C方向信号は第4及び第5の単位音響信号の合成信号となり、R方向信号は第6の単位音響信号となる。
上述の説明から理解されるように、L方向信号は、エリア300L内に位置する音源からの音響信号を対象音響信号から分離抽出したものである。L方向信号は、エリア300L内の何れかの位置から到来した音響信号である、とも言える。C及びR方向信号についても同様である。以下、説明の便宜上、エリア300L内の何れかの位置から原点Oに向かう方向をL方向と呼び、エリア300C内の何れかの位置から原点Oに向かう方向をC方向と呼び、エリア300R内の何れかの位置から原点Oに向かう方向をR方向と呼ぶ。
尚、本例では、単位音響信号の生成を介してL、C及びR方向信号を生成するようにしているが、単位音響信号の生成を行うことなく、入力音響信号としての記録音響信号から、即ち、複数のマイクロホンの検出信号から、L、C及びR方向信号を指向性制御によって直接抽出するようにしてもよい。対象音響信号又は記録音響信号の内、音の到来方向がL方向である信号成分がL方向信号である(C及びR方向信号についても同様)。
図22の解析部212L、212C及び212Rから成る音特性解析部212は、音の到来方向ごとに対象音響信号を解析することにより(換言すれば記録音響信号を解析することにより)、到来方向ごとに音の特性を表す特性情報を生成する。音響信号処理装置202では、音の到来方向がL、C及びR方向に分類されており、L、C及びR方向の信号成分としてL、C及びR方向信号が抽出されている。このため、解析部212L、212C及び212Rにおいて、夫々、L、C及びR方向信号を個別に解析する。解析部212Lは、L方向信号に基づき、L方向信号によって表される音の特性を解析して該音の特性を表すL特性情報を生成する。同様に、解析部212Cは、C方向信号に基づき、C方向信号によって表される音の特性を解析して該音の特性を表すC特性情報を生成し、解析部212Rは、R方向信号に基づき、R方向信号によって表される音の特性を解析して該音の特性を表すR特性情報を生成する。
図26にL、C及びR特性情報の構成を示す。L特性情報の構成と、C及びR特性情報の夫々との構成は同じであり、解析部212Lの動作と、解析部212C及び212Rの各動作は同じである。故に、解析部212L、212C及び212Rを代表して、解析部212Lの動作を説明する。
解析部212Lは、L方向信号によって表される音の音量を表す音量情報をL特性情報に含める。L方向信号によって表される音の音量はL方向信号の信号レベルの増大に伴って増大するため、L方向信号の信号レベルを検出することで該音量を検出して音量情報を生成する。尚、「音の音量」という言葉と、第1実施形態にて述べられた「音源の音量」という言葉は、同義である。
解析部212Lは、L方向信号によって表される音の種類を表す音種情報をL特性情報に含める。「音の種類」という言葉と、第1実施形態にて述べられた「音源の種類」という言葉は、同義である。また、音の種類を単に音種とも呼ぶ。解析部212Lは、L方向信号に基づき、L方向信号によって表される音の種類(換言すれば、L方向信号の音源の種類)を判定する。この判定方法として、図3の音種検出部12のそれを用いることができる。従って、解析部212Lでは、L方向信号の音源の種類を、人の声、音楽及び雑音の何れかに分類することができ、その分類結果を音種情報に含めることができる。L方向信号が複数の単位音響信号の合成信号である場合には、単位音響信号ごとに単位音響信号の音源を判定すると良い。この場合、或る区間におけるL特性情報には、複数の音源についての音種情報が含められる。
解析部212Lは、L方向信号によって表される音に人の声が含まれているか否かを、L方向信号に基づいて検出し、その検出結果を示す人声有無情報をL特性情報に含める。上述の音種情報を生成する過程において、L方向信号の音源の種類が解析されているため、その解析結果を流用すれば人声有無情報を生成可能である。
解析部212Lは、L方向信号によって表される音に人の声が含まれている場合には、その声の発言者(以下、話者という)をL方向信号に基づいて検出し、検出された話者を表す話者情報をL特性情報に含める。解析部212Lによる話者の検出は、L方向信号によって表される声の人物が、予め登録された人物(以下、登録人物という)である場合に達成される。登録人物は1人であっても良いが、今、登録人物として、互いに異なる第1及び第2登録人物が存在することを想定する。ユーザは、各登録人物の声の音響信号を録再装置200に設けられた登録人物用メモリ(不図示)に予め記録させておくことができる。解析部212Lは、登録人物用メモリを用いて各登録人物の声の特徴を解析し、その解析結果を用いて話者情報を生成する。話者情報を生成するための解析技術として、公知の任意の話者認識技術を利用可能である。
図22の再生音響信号生成部213は、L、C及びR方向信号から再生音響信号を生成する。この再生音響信号は、1又は複数のスピーカから成るスピーカ部203に送られて、音として再生される。詳細は後述されるが、L、C及びR方向信号から再生音響信号を生成する方法は、音特性解析部212からの特性情報及び/又は操作部205から入力操作情報に基づいて決定される。ユーザは、スイッチ等から成る操作部205に対して様々な操作(以下、入力操作という)を成すことができ、入力操作を介して所望の指示を録再装置200に与えることができる。入力操作情報とは、入力操作の内容を表す情報である。本実施形態及び後述の第5実施形態では、表示部204に所謂タッチパネル機能が設けられていることを想定する。従って、入力操作の一部又は全部は、表示部204に対するタッチパネル操作にて実現される。
[特性情報の表示]
録再装置200には、特異な機能として、特性情報を表示する機能が備えられている。ユーザは、この表示内容を見た上で入力操作を成すことができる。表示部204による特性情報の表示方法を説明する。尚、本実施形態及び後述の第5実施形態において、表示とは、特に記述なき限り、表示部204における表示を指す。従って例えば、単に表示画面といった場合、それは表示部204の表示画面を指す。
まず、図27を参照し、基礎となる画像350を説明する。画像350は、スピーカを模したアイコン351、エリア300L、300C及び300Rを模したエリアアイコン352L、352C及び352Rから成る。図27に示す例では、エリアアイコン352L、352C及び352Rの夫々の形状は三角形となっている。画像350上に図24のXY座標面と同様の二次元座標面を定義し、画像350上において、原点Oに対応する位置にアイコン351を配置すると共に、エリア300L、300C及び300Rに対応する位置に夫々エリアアイコン352L、352C及び352Rを配置する。
表示部204は、アイコン351、352L、352C及び352Rを含む画像350を表示すると共に、特性情報に応じて、音源アイコンを画像350上に重畳表示する。図28(a)〜(c)に示す如く、音源アイコンには、音源が人物の声であることを示す人物アイコン361、音源が音楽であることを示す音楽アイコン362、音源が雑音であることを示す雑音アイコン363がある。
従って例えば、C方向信号の音源が音楽であって且つR方向信号の音源が人の声であることが特性情報に示されている場合には、図29(a)に示すような画像350aが表示される。画像350aは、画像350に音楽アイコン362及び人物アイコン361を重畳したものであり、画像350a上において、音楽アイコン362及び人物アイコン361は、夫々、エリアアイコン352C内及びエリアアイコン352R内に配置される。また例えば、C方向信号の音源が人物であって且つR方向信号の音源が雑音であることが特性情報に示されている場合には、図29(b)に示すような画像350bが表示される。画像350bは、画像350に人物アイコン361及び雑音アイコン363を重畳したものであり、画像350b上において、人物アイコン361及び雑音アイコン363は、夫々、エリアアイコン352C内及びエリアアイコン352R内に配置される。L方向に音源が存在する場合も同様に処理される。尚、以下の説明では、方向別の音種を明示する画像の代表として、図29(a)の画像350aが適宜参照される。
以下の説明において、図30(a)に示す如く、或る音響信号の存在する区間(時間的な区間)の全体を全区間と呼ぶ。記録音響信号の全区間の時間長さは、記録音響信号の録音時間の長さに等しい。記録音響信号から生成される音響信号(対象音響信号、L、C及びR方向信号)の全区間の時間長さは、記録音響信号のそれに等しい。また、以下の説明では、全区間中の一部の区間を特定区間、第1区間又は第2区間と呼ぶことがある(図30(b)及び(c)参照)。但し、第1及び第2区間は互いに異なる区間であって、第1区間の終了後に第2区間が存在するものとする。例えば、図30(c)に示す如く、第1及び第2区間は連続する区間である。
特性情報の表示は、特性情報に対応する再生音響信号の再生時にリアルタイムで行うことができる。これを、特性情報のリアルタイム表示と呼ぶ。特性情報のリアルタイム表示では、特定区間のL、C及びR方向信号に基づく再生音響信号をスピーカ部203にて再生している時に、特性区間のL、C及びR方向信号に基づく特性情報を表示部204に表示する。この場合において、例えば、特定区間のL、C及びR方向信号に基づく再生音響信号に特定区間のC及びR方向信号が含まれていて、且つ、特定区間のC及びR方向信号の音源が夫々音楽及び人の声であるならば、特定区間のL、C及びR方向信号に基づく再生音響信号をスピーカ部203にて再生している最中に、図29(a)の画像350aが表示される。更に、R方向信号についての人の声が実際にスピーカ部203から出力される時点において、その出力をユーザに知らしめる発話表示を行うと良い。例えば、その時点において、図31に示す如く、画像350a上の人物アイコン361又は人物アイコン361が配置されたエリアアイコン352Rを明滅させると良い。
記録音響信号に基づく再生音響信号を実際にスピーカ部203にて再生する前に、記録音響信号から特性情報を生成して該特性情報を表示部204にて表示するようにしても良い。これを、特性情報の事前表示と呼ぶ。特性情報の事前表示を行う際は、再生音響信号の生成に先立って、記録音響信号を記録媒体201から読み出して特性情報の生成を行えば良い。この際、特性情報生成用の解析区間は全区間であっても良いが、全区間中の限られた一部区間であっても良い。特性情報の事前表示では、解析区間の記録音響信号に基づく特性情報が表示部204にて表示される。
更に、特性情報の事前表示を行う場合、方向別に代表音響信号を抽出し、再生音響信号の再生に先立って、代表音響信号をスピーカ部203から出力するようにしても良い。具体的には、解析区間中におけるL方向信号の内、人の声による音響信号をL方向の代表音響信号として抽出する、或いは、解析区間中におけるL方向信号の内、最大の音量を有する区間のL方向信号をL方向の代表音響信号として抽出する、或いは、全区間のL方向信号の内、最初に発生した音の音響信号をL方向の代表音響信号として抽出する。そして、特性情報の事前表示を行っている時に、ユーザの指示に従って或いはユーザの指示の有無に関わらず、L方向の代表音響信号をスピーカ部203から出力するようにしても良い。C方向及びR方向についても同様とされる。
また、特性情報に含まれる音量情報に基づき、L、C及びR方向信号の音量を個別に示す図32のような画像370を生成し、該画像370を表示するようにしても良い。各方向の音量は刻一刻と変化するため、画像370の表示は、特性情報のリアルタイム表示において成される。画像370を単体で表示部204に表示することも可能であるし、画像370を図29(a)の画像350aと同時に表示するようにしても良い。また、複数の色にて発光することが可能な、L方向用、C方向用及びR方向用のLED(Light Emitting Diode;不図示)を録再装置200に設けておき、特性情報に応じて各LEDの発光色を変化させることで方向別の音量をユーザに報知しても良い。この場合、L特性情報の音量情報によってL方向用のLEDの発光色が定められる。C方向及びR方向についても同様である。
図29(a)の画像350aでは方向別の音種が明示され、図32の画像370では方向別の音量が明示されているが、L、C及びR特性情報についての人声有無情報及び話者情報(図26参照)を、画像350a及び/又は画像370とは別個に、或いは、画像350a及び/又は画像370上に表示するようにしても良い。但し、人声有無情報は、図29(a)の画像350aに既に示されているとも言える。話者情報を、図29(a)の画像350aに重畳表示するようにしても良い。即ち例えば、図29(a)の画像350aの表示時において、R方向信号の音源としての人の声が第1登録人物であることがR特性情報に示されている場合には、第1登録人物の人名等を画像350a上のエリアアイコン352R内に重畳表示するようにしても良い。
音量や音種等をユーザに明示するための画像の構成を上述したが、上述の画像の構成は例示であり、方向別の特性情報をユーザに知らしめることができる限り、画像の構成を様々に変形することが可能である。更に、画像の表示やLEDによって特性情報を視覚的にユーザに報知する方法(即ち、表示部204又はLEDを報知部として用いる方法)を説明したが、方向別の特性情報をユーザに知らしめることができる限り、特性情報の報知の方法は任意である。
[入力操作情報に応じた再生音響信号の生成]
次に、入力操作情報に応じた再生音響信号の生成方法を説明する。ユーザは、第1〜第mの方向(換言すれば、第1〜第mの到来方向)の内、1つ以上であって且つm個以下の方向を指定する方向指定操作を操作部205に対して成すことができる。入力操作には少なくとも方向指定操作が含まれている。方向指定操作によって指定された方向を、指定方向(又は指定到来方向)と呼ぶ。本実施形態の例では、m=3であって、第1〜第mの方向は、L、C及びR方向から成る。ユーザは、例えば、図29(a)の画像350aが表示されている時に、画像350a上の人物アイコン361又はエリアアイコン352Rをタッチパネル操作で指定することでR方向を指定方向として指定することができ、画像350a上の音楽アイコン362又はエリアアイコン352Cをタッチパネル操作で指定することでC方向を指定方向として指定することができる(L方向についても同様)。ユーザは、タッチパネル操作以外の操作によって指定方向を指定することもできる。例えば、操作部205に十字キー(不図示)やジョイスティック等を設けておいた場合には、それらを用いて指定方向を指定することもできる。
再生音響信号生成部213は、記録音響信号又は対象音響信号をそのまま再生音響信号として出力することもできるが、ユーザによる入力操作に応じた信号処理をL、C及びR方向信号から成る対象音響信号に対して施すことで、以下のような再生音響信号を生成することができる。上記信号処理として、第1〜第3信号処理を例示する。
――第1信号処理――
第1信号処理を説明する。第1信号処理では、L、C及びR方向信号から成る対象音響信号より、指定方向の信号成分を抽出することで再生音響信号を生成する。第1信号処理は、指定方向の個数が(m−1)以下の時に(即ち、1又は2の時に)、有益に機能する。
例えば、方向指定操作によってC方向のみが指定されている場合には、L、C及びR方向信号の中からC方向信号のみを選択して、C方向信号を再生音響信号として生成する。L方向又はR方向のみが指定された場合も同様である。また例えば、方向指定操作によってC及びR方向が指定されている場合には、L、C及びR方向信号の中からC及びR方向信号を選択して、C及びR方向信号を合成した信号を再生音響信号として生成する。尚、再生音響信号を生成する際の合成は、図33に示す如く、合成対象となる複数の音響信号を共通の区間上で足し合わせることで実現される。
第1信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望方向を指定し、所望方向からの音のみを聴くことが可能となる。
――第2信号処理――
第2信号処理を説明する。第2信号処理では、指定方向の信号成分を強調又は減衰させる処理をL、C及びR方向信号から成る対象音響信号に施すことで再生音響信号を生成する。第2信号処理は、指定方向の個数がm以下の時に(即ち、1、2又は3の時に)、有益に機能する。
例えば、ユーザは、C方向を指定方向として指定した状態で、C方向信号の増幅又は減衰を入力操作によって指示することができる。この際、増幅の程度又は減衰の程度も入力操作によって自由に指示することができる。C方向信号の増幅とは、C方向信号の信号レベルを増大させることを意味し、C方向信号の減衰とは、C方向信号の信号レベルを減衰させることを意味する。当然の如く、C方向信号の増幅が成された場合、C方向の信号成分は強調され、C方向信号の減衰が成された場合、C方向の信号成分は減衰される。C方向信号の増幅又は減衰を指示する入力操作を受けた後、再生音響信号生成部213は、信号分離部211から送られてきたL方向信号及びR方向信号と、増幅又は減衰が成されたC方向信号と、を合成した信号を再生音響信号として生成する。C方向が指定方向として指定された場合における再生音響信号の生成方法を説明したが、L又はR方向が指定方向として指定された場合のそれも同様である。
ユーザは、L、C及びR方向の内の、2つ又は3つの方向を指定方向として指定し、指定方向ごとに、指定方向に対応する方向信号の増幅又は減衰を入力操作によって指示することもできる。例えば、C方向信号の増幅及びR方向信号の減衰を指示する入力操作が操作部205に対して成されると、その入力操作後において、再生音響信号生成部213は、信号分離部211から送られてきたL方向信号と、増幅が成されたC方向信号と、減衰が成されたR方向信号と、を合成した信号を再生音響信号として生成する。
方向別の音量情報を示す図32の画像370が表示されているときには、ユーザは、表示画面上の、C方向に対応する部位に対して所定のタッチパネル操作を行うことで、C方向を指定方向として設定することができ、更に、C方向信号の増幅又は減衰の指示及び増幅又は減衰の程度の指示も行うことができる。図29(a)の画像350aが表示されている時においても、タッチパネル操作で信号の増幅等を指示することができる。例えば、図29(a)の画像350aが表示されている時、図34(a)に示す如く、アイコン351とエリアアイコン352Cの境界部分にユーザの指を置き、表示画面上で該指を滑らせながら、該指をアイコン351から遠ざかる方向にエリアアイコン352C内で移動させるとC方向信号の増幅が指示されて該増幅が実現される。逆に、図34(b)に示す如く、上記の指の動きと逆方向の指の動きをユーザが成すと、C方向信号の減衰が指示されて該減衰が実現される。
第2信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望方向を指定し、所望方向からの音を強調又は減衰させた状態で記録音響を聴くことが可能となる。
――第3信号処理――
第3信号処理を説明する。第3信号処理では、各方向の信号成分を所望の混合比率にて混合することで再生音響信号を生成する。
第3信号処理は、指定方向の個数が3の時に実現される第2信号処理と等価である、とも言える。ユーザは、方向信号ごとに、方向信号を増幅させるのか又は減衰させるのか、及び、方向信号の増幅の程度又は減衰の程度を入力操作を介して指示することができる。この指示の方法を、第2信号処理のそれと同様とすることができる。
再生音響信号生成部213は、この指示に従って、増幅又は減衰の成されたL、C及びR方向信号を合成することで再生音響信号を生成する。但し、入力操作の内容によっては、L、C及びR方向信号の内、1つ又は2つの方向信号に対しては増幅又は減衰が成されないこともある。
ユーザは、特定の音源からの音響信号(例えば、第1登録人物についての音響信号や、最も大きな音量又は最も小さな音量を有する音響信号)を抽出又は強調して聞くことを望む場合もあるし、全ての方向の音量を均等レベルにした再生音響信号を聞きたい場合もある。第1〜第3信号処理を用いれば、これらの要望に応えることが可能となる。
尚、予め規定特性情報が音響信号処理装置202に記録されている場合には、入力操作とは関係なく、再生音響信号生成部213が、規定特性情報及び特性情報に基づき自動的に指定方向を選択して、第1又は第2信号処理を実施するようにしても良い。規定特性情報には、音量情報、音種情報、人声有無情報及び話者情報の内、何れか1以上の情報が定められている。そして、再生音響信号生成部213は、規定特性情報がL特性情報と合致する時、L方向を指定方向として選択し、規定特性情報がC特性情報と合致する時、C方向を指定方向として選択し、規定特性情報がR特性情報と合致する時、R方向を指定方向として選択する。
ユーザは、操作部205を介して規定特性情報を予め設定しておくことができ、規定特性情報によって選択された指定方向の方向信号に対して、どのような信号処理を再生音響信号生成部213で成すべきかを予め設定しておくことができる。
例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、C方向信号の音種が人の声であることがC特性情報に示されているならば規定特性情報がC特性情報と合致するため、C方向を指定方向として選択した上で第1信号処理を成す。即ち、C方向信号を再生音響信号として生成する。或いは、C方向を指定方向として選択した上で第2信号処理を成す。即ち例えば、信号分離部211から送られてきたL方向信号及びR方向信号と、増幅又は減衰が成されたC方向信号と、を合成した信号を再生音響信号として生成する。増幅又は減衰の度合いも、ユーザは予め設定可能である。規定特性情報がL又はR特性情報と合致する場合も同様とされる。
[エリア変更操作]
また、ユーザは、操作部205に対する所定の操作(タッチパネル操作を含む)によって、エリア300L、300C及び300Rに対応する方向及び方向の幅を変更することができ(図24参照)、この変更によって、エリア300L、300C及び300Rに対応する音の到来方向が変化する。エリア300L、300C及び300Rに関する上記変更を実現する操作を、特に、エリア変更操作と呼ぶ。エリア変更操作は入力操作に含まれる、と考えるようにしても良い。
図24に示すように、エリア300Lは線分301及び302間に挟まれたエリアであるため、線分301及び/又は302とX軸との成す角度が変化するように、線分301及び/又は302を原点Oを軸として回転させることで、エリア300Lに対応する音の到来方向を変化させることができる。エリア300C及びRについても同様である。即ち、ユーザは、エリア変更操作を介して、線分301〜304を原点Oを軸として回転させることで、エリア300L、300C及び300Rに対応する音の到来方向を自由に設定することができる。
エリア変更操作の具体的な操作方法として、以下のような操作方法を採用可能である。図29(a)の画像350aが表示されている状態において、エリア300Cを拡大し、これに伴ってエリア300L及びRを縮小するエリア変更操作をユーザが成す場合を考える。この場合、まず、ユーザは、タッチパネル操作等を介してエリアアイコン352Cを選択する。これにより、図35(a)に示す如く、三角形状のエリアアイコン352Cが強調表示される。エリアアイコン352Cが選択されている状態において、エリアアイコン352C及び352L間の境界部分よりもエリアアイコン352L側に位置する点401と、エリアアイコン352C及び352R間の境界部分よりもエリアアイコン352R側に位置する点402を、2本の指で押す。
指による、このエリア変更操作の内容は、図23の方向分離処理部222に伝達され、方向分離処理部222は、このエリア変更操作に従って図24の線分302及び303を原点Oを軸として回転させる。即ち、線分302が原点Oを起点として点401に対応する方向に伸びる線分になるように線分302を修正し、線分303が原点Oを起点として点402に対応する方向に伸びる線分になるように線分303を修正する。この線分302及び303の修正によって、エリア300Cは拡大修正され、エリア300L及びRは縮小修正される。更に、表示部204は、エリア300L、C及びRの修正に伴って、その修正の内容に沿うように、表示画面上におけるエリアアイコン352Cを拡大修正すると共にエリアアイコン352L及びRを縮小修正する。この修正が成されることで、表示画面上における画像は、図35(a)の画像350aから図35(b)の画像350a’へと変更される。上記のエリア300Cの拡大修正によって、修正前にはL方向信号に属していた人の声の音響信号が修正後にはC方向信号に属するようになる場合もある。この場合には、修正前にはエリアアイコン352R内に表示されていた人物アイコン361が、図35(c)に示す如く、修正後にはエリアアイコン352C内に表示されることとなる。
また、スピーカ部203が複数のスピーカから形成される場合、ユーザは、操作部205に対する所定操作を介して、スピーカごとに再生する音の方向を指定することができる。例えば、スピーカ部203が左スピーカ及び右スピーカから成る場合において、仮に、ユーザが左スピーカからL方向の音を再生すべきこと及び右スピーカからR方向の音を再生すべきことを操作部205を介して指定した場合、再生音響信号生成部213は、その指定に基づき、L方向信号を左スピーカ用の再生音響信号として選択して、該L方向信号を左スピーカに送ることでL方向信号を左スピーカにて再生させると共に、R方向信号を右スピーカ用の再生音響信号として選択して、該R方向信号を右スピーカに送ることでR方向信号を右スピーカにて再生させる。この際、エリア変更操作をも成すことで、左90°方向からの音を左スピーカにて再生させ、右90°方向からの音を右スピーカにて再生させる、といったことも可能となる。
また、上記左スピーカにて複数の方向からの音を再生させることも可能である。右スピーカについても同様である。例えば、仮に、ユーザがL及びC方向の音を左スピーカにて再生すべきことを操作部205を介して指定した場合、再生音響信号生成部213は、その指定に基づき、L及びC方向信号を左スピーカ用の再生音響信号として選択して、L及びC方向信号を合成した信号を左スピーカに送って左スピーカにて再生させる。
[音源追尾機能]
録再装置200には、音源追尾機能が備えられており、ユーザは、音源追尾機能を有効にするか無効にするかを自由に設定することができる。図36を参照して、音源追尾機能の動作について説明する。図36は、音源追尾機能が有効になっている時における、録再装置200の再生動作手順を表すフローチャートである。
まず、ステップS11において通常再生を開始する。通常再生とは、上述の第1〜第3信号処理を行うことなく、記録音響信号(即ち、L、C及びR方向信号を単純に合成した信号)を再生音響信号としてスピーカ部203に与えて再生する動作を指す。ステップS11における通常再生の開始後、ステップS12以降の各処理が実行されるが、それと並行して記録音響信号に基づく再生音響信号の再生が進行する。
通常再生の開始後、ステップS12において、再生音響信号生成部213は、方向指定操作があったか否かをチェックし、方向指定操作があった場合にのみ、ステップS12からステップS13への遷移が実行される。
ステップS13において、再生音響信号生成部213は、方向指定操作にて指定された指定方向を選択方向として設定し、方向指定操作があった時点における選択方向の特性情報を録再装置200に設けられた特性情報記録メモリ(不図示)に記録する。
ステップS13にて記録が成された後、ステップS14において、再生音響信号生成部213は、選択方向の方向信号を対象音響信号から抽出することにより、或いは、選択方向の方向信号を強調することにより再生音響信号を生成する。即ち、選択方向を指定方向と捉えた上で、上述の第1又は第2信号処理をL、C及びR方向信号から成る対象音響信号に施すことで再生音響信号を生成する。但し、上述の第2信号処理では指定方向の方向信号の強調又は減衰が成されるが、音源追尾機能では強調が成されるものとする。
ステップS14の再生と並行して、再生音響信号生成部213は、ステップS15において、選択方向の特性情報に変化が生じたか否かをチェックする。即ち、特性情報記録メモリに記録されている特性情報(以下、記録特性情報と呼ぶ)と、現時点における選択方向の特性情報とを対比する。そして、両者の特性情報に差異がない場合にはステップS14の再生をそのまま継続するが、両者の特性情報に差異がある場合にはステップS15からステップS16に移行する。
ステップS16において、再生音響信号生成部213は、記録特性情報と現時点におけるL、C及びR特性情報の夫々とを対比し、記録特性情報に合致する特性情報がL、C及びR特性情報の中に存在するかをチェックする。その存在が認められた場合には、ステップS16からステップS17に移行する。ステップS17において、再生音響信号生成部213は、記録特性情報に合致すると判断された特性情報に対応する方向を選択方向として再設定し、再設定された選択方向の特性情報を特性情報記録メモリに更新記録する。即ち、再設定された選択方向の特性情報にて記録特性情報を置き換える。ステップS17の処理の後、ステップS14に戻り、再設定された選択方向の方向信号の抽出又は強調再生が成される。
ステップS16において、記録特性情報に合致する特性情報がL、C及びR特性情報の中に存在していない場合には、ステップS18に移行して通常再生を再開する。ステップS18にて通常再生を行っている最中に、記録特性情報に合致する特性情報がL、C及びR特性情報の中に存在すると判断された場合には、ステップS17の処理を介してステップS14に戻るようにしても良い。また、ステップS18にて通常再生を行っている最中に方向指定操作が成されたならば、ステップS13に戻ってステップS13以降の処理を行うようにしても良い。
ステップS12の方向指定操作によりR方向が指定された場合を想定して、ステップS12以降の処理内容の具体例を説明する。
この場合、ステップS13において、R方向が選択方向として設定され、方向指定操作があった時点におけるR特性情報が特性情報記録メモリに記録される。
続くステップS14において、R方向信号がL、C及びR方向信号から成る対象音響信号より選択抽出され、R方向信号が再生音響信号として生成されてスピーカ部203にて再生される。或いは、R方向信号が増幅され、信号分離部211から送られてきたL方向信号及びC方向信号と、増幅が成されたR方向信号と、を合成した信号が再生音響信号として生成されてスピーカ部203にて再生される。増幅の程度は、予め定められていても良いし、ユーザが指定しても良い。
現時点における選択方向がR方向であるという想定に加え、ステップS15及びS16にてチェックされる特性情報の変化及び合致性が音種情報における変化及び合致性であり、且つ、記録特性情報にて示される音の種類が人の声であることを想定して、ステップS15及びS16の処理内容の具体例を説明する。
現時点における選択方向がR方向である場合、ステップS15では、記録特性情報と現時点のR特性情報とが対比される。今、記録特性情報にて示される音の種類が人の声であることが想定されているため、現時点のR特性情報にて示される音の種類が人の声であれば、対比特性情報間に差異はないため(即ち選択方向の特性情報に変化がないため)、ステップS15からステップS14に戻る。一方、現時点のR特性情報にて示される音の種類が人の声でなければ、対比特性情報間に差異があると判断されて(即ち、選択方向の特性情報に変化があると判断されて)ステップS15からステップS16に移行する。
ステップS16では、記録特性情報と現時点におけるL、C及びR特性情報の夫々とが対比される。
仮に、ステップS16において、L、C及びR特性情報にて示される音の種類がそれぞれ「雑音」、「人の声」及び「雑音」である場合にはC特性情報が記録特性情報に合致すると判断されて、続くステップS17においてC方向が選択方向として再設定され、以後、C方向信号が抽出又は強調再生される(ステップS14)。
或いは仮に、ステップS16において、L、C及びR特性情報にて示される音の種類がそれぞれ「人の声」、「雑音」及び「雑音」である場合にはL特性情報が記録特性情報に合致すると判断されて、続くステップS17においてL方向が選択方向として再設定され、以後、L方向信号が抽出又は強調再生される(ステップS14)。
つまり、「人の声」という条件に合致する音源を追尾するように再生が成される。
更に或いは、ステップS16において、L、C及びR特性情報にて示される音の種類がそれぞれ「人の声」、「人の声」及び「雑音」であるならば、L及びC特性情報が記録特性情報に合致すると判断されて、続くステップS17においてL及びC方向が選択方向として再設定され、以後、L及びC方向信号が抽出又は強調再生される(ステップS14)。但し、基本的に音源は連続的に移動するものであるため、R方向の音源が次の瞬間にL方向のエリアに位置する可能性は比較的低い。従って、ステップS16において、L、C及びR特性情報にて示される音の種類がそれぞれ「人の声」、「人の声」及び「雑音」であるならば、続くステップS17においてC方向のみを選択方向として再設定するようにしても良い。
次に、現時点における選択方向がR方向であるという想定に加え、ステップS15及びS16にてチェックされる特性情報の変化及び合致性が話者情報における変化及び合致性であり、且つ、記録特性情報にて示される話者が第1登録人物であることを想定して、ステップS15及びS16の処理内容の具体例を説明する。
現時点における選択方向がR方向である場合、ステップS15では、記録特性情報と現時点のR特性情報とが対比される。今、記録特性情報にて示される話者が第1登録人物であることが想定されているため、現時点のR特性情報にて示される話者が第1登録人物であれば、対比特性情報間に差異はないため(即ち選択方向の特性情報に変化がないため)、ステップS15からステップS14に戻る。一方、現時点のR特性情報にて示される話者が第1登録人物でなければ、対比特性情報間に差異があると判断されて(即ち、選択方向の特性情報に変化があると判断されて)ステップS15からステップS16に移行する。
ステップS16では、記録特性情報と現時点におけるL、C及びR特性情報の夫々とが対比される。
仮に、ステップS16において、L、C及びR特性情報にて示される話者がそれぞれ「話者無し」、「第1登録人物」及び「話者不明」である場合にはC特性情報が記録特性情報に合致すると判断されて、続くステップS17においてC方向が選択方向として再設定され、以後、C方向信号が抽出又は強調再生される(ステップS14)。尚、特性情報にて示される話者が「話者無し」であるとは、当該特性情報に対応する方向信号に人の声が含まれていないことを意味する。特性情報にて示される話者が「話者不明」であるとは、当該特性情報に対応する方向信号に人の声が含まれてはいるものの、その声の話者を検出できていないことを意味する。
或いは仮に、ステップS16において、L、C及びR特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「話者無し」である場合には、何れの特性情報も記録特性情報と合致しない。しかしながら、この場合、C特性情報に対応するC方向信号にのみ人の声が含まれているため、L、C及びR特性情報の内、C特性情報は記録特性情報に最も近いと言える。そこで、ステップS16において、C及びR特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「話者無し」である場合には、C特性情報が記録特性情報に近似的に合致する(或いは最も近似する)と判断し、続くステップS17においてC方向を選択方向として再設定するようにしても良い。L、C及びR特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「第2登録人物」である場合においても、同様である。
ステップS15及びS16にてチェックされる特性情報の変化及び合致性が話者情報における変化及び合致性であることを想定した上で、音源の追尾例を、図37(a)及び(b)を参照して補足説明する。図37(a)及び(b)では、記録音響信号の録音時における話者に第1登録人物が含まれ、第1登録人物が、録音中に、エリア300Rからエリア300Cを介してエリア300Lへと移動したことを想定している。
ステップS12の方向指定操作によりR方向が選択方向として設定され、方向指定操作の成された時点におけるR方向信号に第1登録人物の声が含まれていた場合を考える。この場合、記録特性情報の話者情報は第1登録人物を示すこととなる。R特性情報の話者情報に第1登録人物が含まれている区間においては、R方向が選択方向であり続けてR方向信号が抽出又は強調再生される(ステップS14)。その後に訪れる第1区間において、R特性情報の話者情報に第1登録人物が含まれず、代わりにC特性情報の話者情報に第1登録人物が含まれるようになると、ステップS15〜S17の処理を介して、C方向が選択方向として再設定される。C特性情報の話者情報に第1登録人物が含まれている第1区間においては、C方向が選択方向となってC方向信号が抽出又は強調再生される(ステップS14)。更に後に訪れる第2区間において、C特性情報の話者情報に第1登録人物が含まれず、代わりにL特性情報の話者情報に第1登録人物が含まれるようになると、ステップS15〜S17の処理を介して、L方向が選択方向として再設定される。L特性情報の話者情報に第1登録人物が含まれている第2区間においては、L方向が選択方向となりL方向信号が抽出又は強調再生される(ステップS14)。
このように、音源追尾機能では、第1区間の対象音響信号から生成された第1区間におけるL、C及びR特性情報に基づいて第1区間における選択方向(選択到来方向)を決定すると共に、第2区間の対象音響信号から生成された第2区間におけるL、C及びR特性情報に基づいて第2区間における選択方向(選択到来方向)を決定する。この際、追尾の対象となる音源の信号成分の到来方向、即ち、特定の特性を有する音(例えば、種類が人の声である音、又は、話者が第1登録人物である音)の信号成分の到来方向が第1及び第2区間における選択方向に共通して含まれるように、第1及び第2区間の選択方向は設定される。
上記の音源追尾機能により、特定の特性を有する音を追尾したような再生音を出力することが可能となる。
ステップS15及びS16にてチェックされる特性情報の変化及び合致性が、音種情報又は話者情報における変化及び合致性であることを想定して、音源追尾機能の具体的動作を上述したが、この具体的動作は例に過ぎない。
また、音源追尾機能の上述の説明では、まず、方向指定操作によって選択方向が設定されているが、予め規定特性情報が音響信号処理装置202に記録されている場合には、方向指定操作とは関係なく、再生音響信号生成部213が、規定特性情報及び特性情報に基づき自動的に選択方向を設定するようにしても良い。上述したように、ユーザは、操作部205を介して規定特性情報を予め設定しておくことができる。再生音響信号生成部213は、規定特性情報がR特性情報と合致する時、方向指定操作とは関係なく、ステップS13において、R方向を選択方向として設定すると共に規定特性情報を記録特性情報として記録することができる(C及びL方向についても同様)。
例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、C方向信号の音種が人の声であることがC特性情報に示されているならばC特性情報が規定特性情報と合致するため、C方向を選択方向として設定すると共に該規定特性情報を記録特性情報として記録する(ステップS13)。その後に行われるステップS14以降の処理は、上述した通りである。
また、上述の説明では、各々の時点で選択方向として設定される方向は1つとなっているが、複数の方向を同時に選択方向として設定するようにしても良い。即ち、ステップS12においてL及びC方向が指定された場合には、L及びC方向の夫々を選択方向として設定して該指定の成された時点のL及びC特性情報を第1及び第2記録特性情報として記録し、上述した方法に従い、各記録特性情報と合致する方向信号を抽出又は強調再生するようにしても良い。
[応用技術]
録再装置200にて利用可能な応用技術を以下に列記する。
指定方向又は選択方向に対して第1信号処理を適用する場合、即ち、指定方向又は選択信号の方向信号を再生音響信号として選択的に再生する場合において、指定方向又は選択信号の方向信号に無音区間が存在するときには、該無音区間の再生をスキップするようにしてもよいし、公知の話速変換を用いて早送り再生を行うようにしても良い。無音区間とは、注目した音響信号の信号レベルが一定レベル以下となっている区間を指す。
録再装置200が撮像装置としての機能を備えている場合において、記録音響信号の録音前に静止画像又は動画像の撮影が行われて該静止画像又は動画像の画像データが記録媒体201に記録されている場合、記録音響信号の再生時に、該静止画像又は動画像を表示部204に表示するようにしても良い。この静止画像又は動画像は、記録音響信号の再生時において、図29(a)の画像350a上又は図32の画像370上に表示される、或いは、画像350a及び/又は画像370と並列表示される。
ユーザの方向指定操作に従って生成された再生音響信号を、記録音響信号とは別に記録媒体201に記録するようにしても良い。
記録音響信号の記録条件に応じて、音響信号処理装置202にて行う信号処理のパラメータを変更するようにしても良い。例えば、比較的低いビットレートで記録音響信号が記録されている場合(即ち、比較的高い圧縮率にて記録音響信号が圧縮されている場合)、記録音響信号には大きな歪みが含まれているため、本来行おうとしている理想的な信号処理は実現しがたい。従って、比較的低いビットレートで記録音響信号が記録されている場合には、指向性制御等を弱めると良い。具体的には例えば、比較的高いビットレートで記録音響信号が記録されている場合には、上述の第2信号処理においてL方向信号の信号レベルを5倍に増幅していたところを、比較的低いビットレートで記録音響信号が記録されている場合には、該信号レベルの増幅倍率を3倍に減らすようにしても良い。
第1〜第3信号処理又は音源追尾機能が有効に働きがたいと推定される場合には、再生前に、その旨をユーザに提示し、それでも第1〜第3信号処理又は音源追尾機能を使用するか否かを、録再装置200がユーザに問うようにしても良い。例えば、比較的低いビットレートで記録音響信号が記録されている場合は、大きな歪みの影響により、第1〜第3信号処理又は音源追尾機能が有効に働きがたいと推定される。指向性方向が互いに異なる複数の指向性マイクロホンから成るマイク部を用いて記録音響信号が生成されている場合も同様である。指向性マイクロホンにて得た指向性を有する音響信号に対して、図22の信号分離部211にて更に指向性制御を行おうとしても、期待した効果は得がたいからである。
第1〜第3信号処理又は音源追尾機能が有効に働かず、意図通りの再生音響信号を得ることができないと判断される場合(例えば、指向性制御を意図通りに行うことができず、記録音響信号からL、C及びR方向信号を作り出せない場合)には、第1〜第3信号処理又は音源追尾機能の実施を中断し、その旨を表示部204等を用いてユーザに提示するようにしても良い。
規定特性情報に合致する音の発生区間を、L方向信号の全区間、C方向信号の全区間、R方向信号の全区間の中から夫々抽出し、抽出区間が複数ある場合には、複数の抽出区間を時系列順に個別に再生するようにしても良い。例えば、音種が人の声であるという音種情報が規定特性情報として設定されている場合において、図38(a)に示す如く、L方向信号の区間451におけるL特性情報、C方向信号の区間452におけるC特性情報及びR方向信号の区間453におけるR特性情報の夫々が規定特性情報に合致しているとき、区間451におけるL方向信号461、区間452におけるC方向信号462及び区間453におけるR方向信号463を、全区間のL、C及びR方向信号から抽出する。そして、抽出した信号を発生時間順に並べて個別に再生するようにする。即ち例えば、区間451の開始時点が区間452の開始時点よりも早く、且つ、区間452の開始時点が区間453の開始時点よりも早いならば、図38(b)に示す如く、信号461、462及び463を、この順番で結合したものを再生音響信号に含め、信号461、462及び463を、この順番で個別に再生するようにしても良い。この方法を利用すれば、3人の人物が略同時に発話した時の音声を録音した場合において、各人物の発話内容を個別に再生するといったことが可能となる。
<<第5実施形態>>
本発明の第5実施形態を説明する。第5実施形態においても録再装置200の動作を説明する。但し、第4実施形態では、記録音響信号がマイクロホン1L及び1Rの検出信号に基づく音響信号であることが想定されているのに対して、第5実施形態では、記録音響信号の生成元のマイクロホンが、マイクロホン1L及び1Rとは異なる。以下、具体的に説明する。
第5実施形態では、以下のようにして第1〜第nの単位音響信号が取得され、第1〜第nの単位音響信号を含む音響信号が記録媒体201に記録音響信号として記録されていることを想定する。
単体でステレオ収音が可能なステレオマイクを用いて各音源からの音を個別に収音することにより、互いに分離された第1〜第nの単位音響信号を直接的に取得する。或いは、
第1〜第nの指向性マイクロホン(指向性を有するマイクロホン)用い、第1〜第nの指向性マイクロホンの感度の高い方向を第1〜第nの音源に対応する第1〜第nの方向に向けて各音源からの音を個別に収音することにより、第1〜第nの単位音響信号を互いに分離された形で直接的に取得する。更に或いは、
第1〜第nの音源の位置が予め分かっている場合は、第1〜第nのコードレスマイクを用い、第iのコードレスマイクが第iの音源の音を収音するように第1〜第nのコードレスマイクを第1〜第nの音源の位置に配置するようにしても良い(i=1、2、・・・(n−1)、n)。このようにすれば、第1〜第nのコードレスマイクによって、第1〜第nの音源に対応する第1〜第nの単位音響信号が互いに分離された形で直接的に取得される。
上記のステレオマイク、又は、第1〜第nの指向性マイクロホン、又は、第1〜第nのコードレスマイクを録再装置200に設けておくことで、録再装置200において第1〜第nの単位音響信号の取得を行うようにしても良いし、録再装置200と異なる録音装置にて第1〜第nの単位音響信号の取得を行って、第1〜第nの単位音響信号を含む音響信号を記録媒体201に保存するようにしても良い。
第5実施形態に係る録再装置200に設けられた音響信号処理装置202を、特に、音響信号処理装置202aと呼ぶ。図39は、音響信号処理装置202aの内部ブロック図を含む、録再装置200の一部ブロック図である。音響信号処理装置202aは、信号分離部211aと、音特性解析部212aと、再生音響信号生成部(信号処理部)213aと、が備えられている。
第5実施形態の想定下において、信号分離部211aには記録媒体201から、上述のようにして取得された記録音響信号が与えられる。信号分離部211aは、記録音響信号から第1〜第nの単位音響信号を分離抽出し、第1〜第nの単位音響信号を音特性解析部212a及び再生音響信号生成部213aに出力する。指向性マイクロホン等を用いて記録音響信号が生成されているため、この分離抽出は容易に実現される。
音情報解析部212aは、単位音響信号ごとに単位音響信号を解析することにより単位音響信号ごとに音の特性を表す特性情報を生成する。即ち、音情報解析部212aは、第iの単位音響信号に基づき、第iの単位音響信号によって表される音の特性を解析して該音の特性を表す第iの特性情報を生成する(iは整数)。第iの単位音響信号に基づく第iの特性情報は、第4実施形態で述べたL方向信号に基づくL特性情報と同様のものである。従って、音情報解析部212aは、第iの特性情報に、音量情報、音種情報、人声有無情報及び話者情報の内の、何れか1以上の情報を含めることができる。第iの特性情報において、音量情報は第iの単位音響信号によって表される音の音量を表し、音種情報は第iの単位音響信号によって表される音の種類を表し、人声有無情報は第iの単位音響信号によって表される音に人の声が含まれているか否かを表し、話者情報は、第iの単位音響信号に含まれている人の声の話者を表す。音情報解析部212aによる音響信号の解析法方法及び特性情報の生成方法は、音情報解析部212のそれと同じである。
音情報解析部212aにて生成された各特性情報は表示部204に表示される。再生音響信号生成部213aは、第1〜第nの単位音響信号から再生音響信号を生成する。この再生音響信号は、1又は複数のスピーカから成るスピーカ部203に送られて、音として再生される。
ユーザは、第1〜第nの単位音響信号(換言すれば、第1〜第nの音源)の内、1つ以上であって且つn個以下の単位音響信号を指定する音源指定操作を操作部205に対して成すことができる。操作部205に対する入力操作には、少なくとも音源指定操作が含まれているものとする。音源指定操作によって指定された単位音響信号及び音源を指定単位信号及び指定音源と呼ぶ。
上述したように、nは2以上の任意の整数であるが、本実施形態では、n=3であることを想定する。
表示部204は、第1〜第3の特性情報を個別に切り替え表示することも可能であるし、第1〜第3の特性情報を同時に表示することも可能である。表示部204において表示することのできる画像の例として、図40に画像500を示す。画像500においては、第1〜第3の音源についての(即ち、第1〜第3の単位音響信号についての)、音量情報、音種情報及び話者情報が明示されている。第1〜第3の音源についての(即ち、第1〜第3の単位音響信号についての)人声有無情報を、画像500の代わりに或いは画像500と併せて表示部204に表示するようにしても良い。図40では、各音源の音種が文字にて表現されているが、第4実施形態のように音種を表すアイコンを表示するようにしても良い。話者情報等についても同様である。第4実施形態と同様、音響信号処理装置202aにおいても、特性情報のリアルタイム表示が可能であるし、特性情報の事前表示も可能である。更に、単位音響信号ごとに特性情報をユーザに報知することができる限り、特性情報の報知方法を様々に変形することが可能である。
ユーザは、タッチパネル操作や、操作部205に設けられた十字キー(不図示)に対する操作によって、音源指定操作を行うことができる。再生音響信号生成部213aは、記録音響信号をそのまま再生音響信号として出力することもできる(即ち、第1〜第3の単位音響信号を単純に合成した信号を再生音響信号として出力することもできる)が、ユーザによる入力操作に応じた信号処理を第1〜第3の単位音響信号から成る記録音響信号に対して施すことで、再生音響信号を生成することもできる。再生音響信号生成部213aにて実行可能な上記信号処理は、第4実施形態で述べた第1〜第3信号処理の何れかである。
――第1信号処理――
再生音響信号生成部213aによる第1信号処理を説明する。第1信号処理では、第1〜第3の単位音響信号から成る記録音響信号より指定単位信号を抽出することで再生音響信号を生成する。第1信号処理は、指定単位信号の個数が(n−1)以下の時に(即ち、1又は2の時に)、有益に機能する。
例えば、音源指定操作によって第1の単位音響信号のみが指定されている場合には、第1の単位音響信号を再生音響信号として生成する。第2又は第3の単位音響信号のみが指定された場合も同様である。また例えば、音源指定操作によって第1及び第2の単位音響信号が指定されている場合には、第1及び第2の単位音響信号を合成した信号を再生音響信号として生成する。
第1信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望の音源からの音のみを聴くことが可能となる。
――第2信号処理――
再生音響信号生成部213aによる第2信号処理を説明する。第2信号処理では、指定単位信号を強調又は減衰させる処理を第1〜第3の単位音響信号から成る記録音響信号に施すことで再生音響信号を生成する。第2信号処理は、指定単位信号の個数がn以下の時に(即ち、1、2又は3の時に)、有益に機能する。
例えば、ユーザは、第1の単位音響信号を指定単位信号として指定した状態で、第1の単位音響信号の増幅又は減衰を入力操作によって指示することができる。この際、増幅の程度又は減衰の程度も入力操作によって自由に指示することができる。音響信号の増幅と音響信号の強調は同義である。第1の単位音響信号の増幅又は減衰を指示する入力操作を受けた後、再生音響信号生成部213aは、信号分離部211aから送られてきた第2及び第3の単位音響信号と、増幅又は減衰が成された第1の単位音響信号と、を合成した信号を再生音響信号として生成する。第1の単位音響信号が指定単位信号として指定された場合における再生音響信号の生成方法を説明したが、第2又は第3の単位音響信号が指定単位信号として指定された場合のそれも同様である。
ユーザは、第1〜第3の単位音響信号の内の、2つ又は3つの単位音響信号を指定単位信号として指定し、指定単位信号ごとに、指定単位信号の増幅又は減衰を入力操作によって指示することもできる。例えば、第1の単位音響信号の増幅及び第2の単位音響信号の減衰を指示する入力操作が操作部205に対して成されると、その入力操作後において、再生音響信号生成部213aは、信号分離部211aから送られてきた第3の単位音響信号と、増幅が成された第1の単位音響信号と、減衰が成された第2の単位音響信号と、を合成した信号を再生音響信号として生成する。
第2信号処理を用いれば、ユーザは、特性情報の表示内容を考慮し、所望音源からの音を強調又は減衰させた状態で記録音響を聴くことが可能となる。
――第3信号処理――
再生音響信号生成部213aによる第3信号処理を説明する。第3信号処理では、各単位音響信号を所望の混合比率にて混合することで再生音響信号を生成する。
第3信号処理は、指定単位信号の個数が3の時に実現される第2信号処理と等価である、とも言える。ユーザは、指定単位信号ごとに、指定単位信号を増幅させるのか又は減衰させるのか、及び、指定単位信号の増幅の程度又は減衰の程度を入力操作を介して指示することができる。再生音響信号生成部213aは、この指示に従って、個別に増幅又は減衰の成された第1〜第3の単位音響信号を合成することで再生音響信号を生成する。但し、入力操作の内容によっては、第1〜第3の単位音響信号の内、1つ又は2つの単位音響信号に対しては増幅又は減衰が成されないこともある。
ユーザは、特定の音源からの音響信号(例えば、第1登録人物についての音響信号や、最も大きな音量又は最も小さな音量を有する音響信号)を抽出又は強調して聞くことを望む場合もあるし、全ての音源からの音量を均等レベルにした再生音響信号を聞きたい場合もある。第1〜第3信号処理を用いれば、これらの要望に応えることが可能となる。
尚、予め規定特性情報が音響信号処理装置202aに記録されている場合には、入力操作とは関係なく、再生音響信号生成部213aが、規定特性情報及び特性情報に基づき自動的に指定単位信号を選択して、第1又は第2信号処理を実施するようにしても良い。規定特性情報には、音量情報、音種情報、人声有無情報及び話者情報の内、何れか1以上の情報が定められている。そして、再生音響信号生成部213aは、規定特性情報が第iの特性情報と合致する時、第iの単位音響信号を指定単位信号として選択する(ここで、iは、1,2又は3)。
ユーザは、操作部205を介して規定特性情報を予め設定しておくことができ、規定特性情報によって選択された指定単位信号に対して、どのような信号処理を再生音響信号生成部213aで成すべきかを予め設定しておくことができる。
例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、第1の単位音響信号の音種が人の声であることが第1の特性情報に示されているならば規定特性情報が第1の特性情報と合致するため、第1の単位音響信号を指定単位信号として選択した上で第1信号処理を成す。即ち、第1の単位音響信号を再生音響信号として生成する。或いは、第1の単位音響信号を指定単位信号として選択した上で第2信号処理を成す。即ち例えば、信号分離部211aから送られてきた第2及び第3の単位音響信号と、増幅又は減衰が成された第1の単位音響信号と、を合成した信号を再生音響信号として生成する。増幅又は減衰の度合いも、ユーザは予め設定可能である。規定特性情報が第2又は第3の特性情報と合致する場合も同様とされる。
本実施形態において上述した各技術の他、第4実施形態にて述べた任意の技術を音響信号処理装置202aに適用することができる。この際、第1〜第3の音源が夫々図25の音源311、312及び313であるならば、第4実施形態におけるL、C及びR方向を第1、第2及び第3の音源の方向に対応させた上で、第4実施形態にて述べた技術を音響信号処理装置202aに適用すればよい。即ち例えば、第1〜第3の音源が夫々音源311〜313であるならば、
第4実施形態におけるL、C及びR方向を第5実施形態においては夫々第1、第2及び第3の音源の方向に読み替え、且つ、
第4実施形態におけるL、C及びR方向信号を第5実施形態においては夫々第1、第2及び第3の単位音響信号に読み替え、且つ、
第4実施形態におけるL、C及びR特性情報を第5実施形態においては夫々第1、第2及び第3の特性情報に読み替え、且つ、
第4実施形態における方向指定操作を第5実施形態においては音源指定操作に読み替え、且つ、
第4実施形態における指定方向を第5実施形態においては指定単位信号又は指定音源に読み替えた上で、第4実施形態にて述べた技術を音響信号処理装置202aに適用すればよい(これらの読み替えを行った上で、第4実施形態にて述べた事項は、矛盾なき限り音響信号処理装置202aに適用される)。
<<変形等>>
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1及び注釈2を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
[注釈1]
説明の簡略化及び便宜上、二次元のXY座標面上に複数の音源が散在していることを想定して各実施形態の説明を行ったが、三次元空間内に複数の音源が散在している場合も同様である。
[注釈2]
音響信号処理装置(10、202等)によって実現される機能の全部又は一部は、ハードウェア、ソフトウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。ソフトウェアを用いて音響信号処理装置(10、202等)を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。音響信号処理装置(10、202等)にて実現される機能の全部または一部を、プログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしてもよい。