以下に、添付図面を参照して本発明の実施の形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
[実施形態1]以下、図1乃至図5を参照して、本発明の音声信号処理装置を撮影装置に適用した実施形態1について説明する。
図1において、1は撮影装置、2は撮影装置1に装着された撮影レンズ、3は撮影光学系、4はレンズの光軸、5はレンズ鏡筒、6は撮像素子、7は撮影装置1に設けられ、装置周囲の音声を集音するマイク、8は撮影装置1の背面に設けられた表示装置である。また、9は撮影光学系3の調整のための光学系駆動部、10は撮影装置1と撮影レンズ2を接続する接点、11はいわゆるクイックリターンミラー機構、12はAF(オートフォーカス)センサを含む焦点検出部、32aおよび32bはマイク7の開口部である。本実施形態の撮影装置は2つの第1のマイク7aと第2のマイク7bとを備えており、いわゆるステレオの音声を取得/記録することができる。33は光軸4を中心とする円を示している。2つのマイク7a,7bは光軸4を基準として対称に矩形状の撮像素子6の長手方向に離間して配置されている。また、光軸4に垂直な略同一の平面上に存在しており、光軸4からの距離も略等しい。34はレリーズボタンである。
なお、マイク7の開口部32a,32bは、図1(c)には投影されない箇所に設けられているが、マイク7とマイク開口部32の位置を明確にするために、図1(c)ではこれを模式的に1つにしてマイク7およびマイク開口部32として示している。
ここで、静止画の撮影動作について説明する。撮影装置1は撮影レンズ2と焦点検出部12および不図示の露出検出部を用いて、焦点/露出検出を行うとともに、撮影光学系3の一部を駆動/調整することによって被写体像を撮像素子6の受光面近傍に結像させる。さらに、適正な露光になるように絞りを調整する。更にユーザによるレリーズボタン34の操作と同期させて、撮像素子6により光電変換された被写体の画像情報を取得して図2に示すメモリ24へ記録する。
次に、動画の撮影動作について説明する。動画の撮影に先立って、不図示のライブビューボタンを押すことで、撮像素子6で撮像された画像が表示装置8に表示される。ライブビューは、撮像素子6で撮像された画像情報を、表示装置8にリアルタイムで表示することである。撮影装置1は不図示の動画撮影ボタンの操作と同期させて、撮像素子6から画像情報を予め設定されたフレームレートで取得するとともに、マイク7から音声情報を取得して、これらを同期させてメモリ24へ記録する。動画撮影中において、撮影光学系3の調整が必要となった場合は、適宜光学系駆動部9により調整を行う。そして、動画撮影ボタンの操作と同期させて撮影動作を終了する。
次に、図2を参照して、撮影装置1としてのデジタルカメラと撮影レンズ2の構成について説明する。図2において、撮影装置1は主として、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系3および撮像素子6を含み、画像処理系は、A/D変換回路20および画像処理回路21を含み、音声処理系は2つのマイク7a,7bおよび音声信号処理回路26を含む。記録再生系は、記録処理回路23およびメモリ24を含み、制御系は、カメラシステム制御回路25、焦点検出部(AFセンサ含む)12、露出検出部(AEセンサ含む)13、操作検出回路27、およびレンズシステム制御回路28、光学系駆動部9を含む。光学系駆動部9は、焦点レンズ駆動回路9a、ブレ補正駆動回路9b、絞り駆動回路9cなどから構成される。
撮像系は、被写体からの光を、撮影光学系3を介して撮像素子6の撮像面に結像する光学処理を行う。エイミングなどの撮影予備動作中は、クイックリターンミラー機構11に設けられたミラーを介して、焦点検出部12にも光束の一部が導かれる。また後述するように制御系によって適切に撮影光学系3が調整されることで、適正な光量の被写体光を撮像素子6に露光するとともに、撮像素子6の近傍で被写体像が結像する。画像処理回路21は、A/D変換回路20を介して撮像素子6から取り込んだ画像信号の処理を行う、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路等を有する。
音声処理系は、2つのマイク7a,7bからの音声信号に音声信号処理回路26によって適切な処理を施して録音用音声信号を生成する。録音用音声信号は、動画撮影時においては、後述する記録処理回路23により撮影画像と関連付けして圧縮処理される。記録処理回路23は、メモリ24へ画像信号を出力するとともに、表示部22へ出力する表示信号を生成/保存する。また、記録処理回路23は、予め決められた方法を用いて静止画、動画、音声などの関連付け/圧縮を行う。
カメラシステム制御回路25は、撮像時のタイミング信号などを生成して撮像素子6へ出力する。焦点検出部12は撮影光学系3の合焦状態を検出する。静止画撮影では露出検出部13が直接検出し、動画撮影では撮像素子6からの画像信号を処理することで被写体の輝度を検出する。レンズシステム制御回路28はカメラシステム制御回路25からの制御信号に応じて適切にレンズを駆動させて撮影光学系3の調整を行う。本実施形態では、交換レンズタイプのカメラを前提にしており、交換レンズの駆動をレンズシステム制御回路28により制御する例を説明している。交換レンズタイプでない場合は、レンズシステム制御回路28の機能を、カメラシステム制御回路25が代わりに実行しても良い。
さらに、制御系は、ユーザの操作に応動して撮像系、画像処理系、記録再生系をそれぞれ制御する。例えば、レリーズボタン34の押下を操作検出回路27が検出して、撮像素子6の駆動、画像処理回路21の動作、記録処理回路23の圧縮処理などを制御する。さらに表示部22によって光学ファインダー、液晶モニタ等に情報の表示を行うため表示部22の各セグメントの状態を制御する。
ここで、上記制御系での撮影光学系の調整動作について説明する。カメラシステム制御回路25には焦点検出部12および露出検出部13が接続されており、これらの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御回路25は、電気接点10を介してレンズシステム制御回路28に指令を出し、レンズシステム制御回路28は焦点レンズ駆動回路9aおよび絞り駆動回路9cを適切に駆動制御する。さらにレンズシステム制御回路28には不図示の手ブレ検出センサが接続されており、手ブレ補正を行うモードにおいては、手ブレ検出センサからの検出信号を元にブレ補正駆動回路9bを適切に駆動制御する。ここで、手ぶれ検出センサは、加速度検出センサなどにより構成されており、ユーザによるカメラ全体の振動を検出することができる。
ここで、動画撮影などの音声記録を伴う撮影動作について説明する。音声記録を伴う撮影動作では、カメラ本体およびレンズなどの機械的な駆動に伴う音(以下、機械駆動音)は不要な音であり雑音となる。本明細書において雑音とは、ホワイトノイズのような背景雑音ではなく前述した機械駆動音を指すものとする。
図3を参照して、音声信号処理回路26と雑音処理部について説明する。図5において、41はゲイン調整部、42はフィルタ、43はA/Dコンバータ、44は雑音処理部、45はフィルタである。2つのマイク7a,7bから得られた信号はゲイン調整部41に出力される。ゲイン調整部41はA/Dコンバータ43のダイナミックレンジが十分に活用できるように各マイク7a,7bの信号レベルを調整する。つまり、マイク7a,7bの信号レベルが小さいときはゲインアップして信号を増幅し、マイク7a,7bの信号レベルが大きいときはゲインを下げて飽和を防ぐ。
フィルタ42はA/Dコンバータ43のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイク7a,7bが特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。A/Dコンバータ43はゲイン調整部41およびフィルタ42で処理された信号をデジタル変換する。
雑音処理部44は複数の雑音低減手段で構成されている。図5の例ではSS処理44a、フィルタ処理44b、ミュート処理44cから構成されている。SS処理とはスペクトルの減算(Spectral Subtraction)に基づく処理であり、本明細書ではスペクトル減算による手法をSS法、SS法による処理をSS処理と呼ぶが、正式な名称ではない。SS処理の詳細については後述する。カメラシステム制御回路25からの指令に応じて、複数の雑音低減手段を選択的に又は組み合わせて動作させることができる。フィルタ45は雑音処理を行った後に必要であれば適当なフィルタ処理を施すためにある。フィルタ処理44bは低域通過や帯域通過などの適当な処理を行うことによって機械的な駆動に伴う雑音成分を低減する。ミュート処理44cは雑音成分の信号を無音に置き換えることによって雑音成分を低減する。不要であれば雑音処理を行わずスルーまたは適当な遅延のみ行うこともできる。これらの雑音低減手段はカメラシステム制御回路25により動作が制御されている。
ここで、各雑音低減手段による雑音処理方法について説明する。SS法はその名のとおりスペクトルの減算を行う処理である。予め雑音スペクトル(本明細書では、雑音をフーリエ変換するなどして得たスペクトルを雑音スペクトルと呼ぶ。)を用意しておき、取得した音声スペクトルから減算する。本実施形態では雑音スペクトルは、予め同定して撮影装置1のメモリ24に格納されているものとする。他の雑音スペクトルの取得方法としては、近傍の無音区間と思われる区間のスペクトルを用いることもできる。但し、本明細書で対象とする雑音は機械駆動音であり、これらのスペクトルは予め求めることが可能であるために、撮影装置1のメモリ24に格納されているものとした。
SS法は雑音が加算的に被写体音に混入していると仮定しており、これを式で表すと、
となる。但し、x(t)は取得した音声を、s(t)は被写体音を、n(t)は雑音を、tは時間を夫々示している。数1をフーリエ変換すると、
となる。但し、X(ω)、S(ω)、N(ω)は、夫々x(t)、s(t)、n(t)をフーリエ変換したものであり、ωは周波数である。撮影装置1においては、適当な窓関数を適用して音声信号をフレーム分割して、順次処理を行うが、ここでは簡略化のため、特定のフレームに着目して説明を行う。数2を見ると明らかなように、S(ω)を求めるにはX(ω)からN(ω)を減算すればよい。そこで、
但し、N’(ω)はN(ω)の推定値、S’(ω)はN’(ω)を用いて求めたS(ω)の推定値、βはフロアリング係数である。∠は複素数の偏角を求める演算を示している。数3から分かるように、スペクトルは予め求められた雑音スペクトルを利用して減算するとともに、位相はX(ω)の値をそのまま用いる。また、フロアリング係数βはSS法による音声のひずみを抑制するために導入される係数である(オリジナルのSS法はβ=0である。)。数1で示したようにSS法においては、ノイズは加算的に作用していると仮定している。しかしながら、実際には位相が反転して加算され取得音声では弱めあっている場合も有る。このため、X(ω)からN’(ω)を減算した差分値が負になることがある。そこで、SS法ではβよりも小さいときはβとなる様に処理する。
最後に、S’(ω)を逆フーリエ変換してs’(t)を得てこれをSS処理後の音声とする。
上述したSS処理を図4(a)に模式的に示している。図4(a)において、FFTは窓関数処理を含めた高速フーリエ変換処理を、IFFTは高速逆フーリエ変換を、S’(ω)推定は数3の処理をそれぞれ示している。図4(a)から明らかなようにSS法は、単一チャンネル信号(モノラル音声)にも適用可能な手法である。一方で、事前に何らかの方法でN’(ω)を与える必要がある。
フィルタ処理は適当なスペクトル領域を遮断する処理である。ノイズのモデルはSS法と同じく雑音が加算的に被写体音に混入していると仮定している。ここで数2の両辺にフィルタを適用すると、
となる。但し、S’(ω)はS(ω)の推定値、F(ω)はフィルタの周波数特性を示す値である。ここで、
を満たすようにF(ω)を決めることができれば、数4から明らかなようにF(ω)X(ω)はS(ω)と概略等しくなる。数5および数6は周波数領域で、被写体音が存在する領域と、雑音の存在する領域が分かれており、F(ω)は雑音の存在する領域を遮断するように設計されていることを意味する。最後に、S’(ω)を逆フーリエ変換してs’(t)を得てこれをフィルタ処理後の音声とする。
実際の装置では、フーリエ変換を省くために、時間領域でフィルタを適用することも多く行われている。時間領域で数7を計算している。
但し、数7において*は畳み込み積分を、s’(t)は被写体信号の推定値を示している。f(t)はF(ω)とほぼ等価な周波数特性をもつ時間領域のフィルタであり、REMEZ法などのデジタルフィルタ設計法によって設計することが可能である。
フィルタ処理を周波数領域で行うか、時間領域で行うかは設計時に適当なものを選択している。フィルタ特性や性能を得るための時間領域フィルタの次数などを勘案して決定される。
フィルタ処理を周波数領域で行う場合を図4(b)に模式的に示している。図4(b)において、FFTは窓関数処理を含めた高速フーリエ変換処理を、IFFTは高速逆フーリエ変換を、S’(ω)推定は数4の処理をそれぞれ示している。フィルタ処理を時間領域で行う場合を図4(c)に模式的に示している。図4(c)において、畳み込み積分は数7の処理を示している。図4(b)および(c)からも明らかなようにフィルタは、単一チャンネル信号(モノラル音声)にも適用可能な手法である。一方で、事前に何らかの方法でF(ω)またはf(t)を与える必要がある。
ミュート処理は前述したように雑音成分の信号を無音に置き換える処理のことである。つまり雑音が発生していると想定される時間において、
とする。但し、数8においてs’(t)は被写体信号の推定値を示している。
最後にスルーの場合の処理を数9に、遅延を行う時の処理を数10に示す。
但し、数10においてTは遅延時間を示す。
以上の雑音処理の説明において、取得信号x(t)は図3の雑音処理部44の入力に対応しており、被写体音の推定値s’(t)は図3の雑音処理部44の出力信号に対応している。
ここで前述した雑音処理を多チャンネル化することを考える。多チャンネル化した場合でも各チャンネルにSS処理、フィルタ処理などを適用することで雑音の抑制を図ることが可能である。しかしながら、モノラルからステレオのように、音声が多チャンネル化していくにしたがってその処理量は増大してしまう。本発明は、撮影装置1内に存在するノイズ発生源の位置と、マイク7a,7bの位置関係が固定的であるという特徴を生かして多チャンネル化した場合でも演算量を増大させない音声処理を実現している。
図5は音声信号処理回路のブロック図である。図5において、51は図3で説明した、ゲイン調整部41、フィルタ42、A/Dコンバータ43を含む前処理部をそれぞれ示している。52は図3で説明した、フィルタ45を含む後処理部を、61aは第1の減算器を、61bは第1の加算器を夫々示している。また、62bは第1の調整手段としての第1のゲイン調整器を、62aは第2の調整手段としての第2のゲイン調整器を、63aは第2の加算器を、63bは第2の減算器を夫々示している。
時刻tにおいて、マイク7aの信号を前処理部で処理した結果をx1(t)、マイク7bの信号を前処理部で処理した結果をx2(t)とする。第1の加算器61bの出力信号は数11のようになる。
一方、第1の減算器61aの出力信号は数12のようになる。
さらにゲイン調整器62a,62bは加算/減算したチャンネル数で正規化する。図5ではステレオ音声のため2で割ることになる。その結果、第1のゲイン調整器62bの出力信号は数13のように、第2のゲイン調整器62aの出力信号は数14のようになる。
まずSS処理を例に本実施形態の要部について説明する。
機械駆動音発生部(雑音発生部)からマイク7aまでの伝達関数をHn1、マイク7bまでの伝達関数をHn2、雑音発生部で発生した雑音をn、マイク7aで捕捉する雑音をn1、マイク7bで捕捉する雑音をn2とすると、
但し、数15において、*は畳み込み積分を示している。また、Hn1およびHn2はtの関数とはせずに時不変システムを想定している。
一方、マイク7a,7bは図1で説明したように、光軸4に対して等距離に配置されている。雑音発生部は、光学調整を行うものなので、光軸4の近傍にあると考えられる。そのため、
が成り立っていると考えることができる。Hn1=Hn2=Hnとして、この関係を数13および数14に代入すると、
を得ることができる。ここで大切なことは、数17にはn(t)を含まないことである。つまり、雑音発生部とマイク7a,7bの配置を工夫し、それに適した演算を行うことで、雑音の影響を第1のゲイン調整器62bの出力(数16に対応)に集めることができる。
第1のゲイン調整器62bの出力信号に対して、図4(a)で説明した単一チャンネルのSS処理を施せばよい。その結果得られる被写体音の推定値は数18のようになる。
但し、数18においてs1’(t)およびs2’(t)は、SS処理後のs1(t)およびs2(t)の推定値であり、s’(t)はs1’(t)およびs2’(t)の加算信号である。
また、図5に示す推定雑音スペクトルN’(ω)は数16のHn*n(t)が与えられる。これはノイズのスペクトルに伝達関数を畳み込んでいるので、ノイズのスペクトルそのものではなく、ノイズが発生したときにマイクで収音されると想定されるスペクトルに相当する。
このとき、第2の加算器63aの出力信号は数19のように、第2の減算器63bの出力信号は数20のようになる。
s1’(t)およびs2’(t)が良い推定値であれば、数19および数20は夫々s1(t)およびs2(t)とほぼ等しくなる。これは、第2の加算器63aの出力信号はマイク7aが取得した被写体音s1(t)に等しく、第2の減算器63bの出力信号はマイク7bが取得した被写体音s2(t)に等しくなっていることを意味している。
以上説明したように、簡単な加算、減算およびゲイン調整という処理を施すことで、SS処理に必要なフーリエ変換、S’(ω)推定、逆フーリエ変換という演算を1チャンネルのみで演算すればよい。2チャンネル夫々に対してSS処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。
ここまではSS処理を例に説明をしたが、これは容易にフィルタ処理にも適用できる。
図4(b)で説明した周波数領域でのフィルタ処理について、図5に示した音声信号処理回路26のSS処理44aを、図4(b)のフィルタ処理44bに置換したものとして説明する。図5において、フィルタ処理44bにおけるF(ω)は数16の{s1(t)+s2(t)}/2とHn*n(t)を分離するようなフィルタである。すなわち数5および数6を満たすようなF(ω)であればよい。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
また、図4(c)で説明した時間領域でのフィルタ処理について、図5に示した音声信号処理回路26のSS処理44aを、図4(c)のフィルタ処理44bに置換したものとして説明する。フィルタ処理44bにおけるf(t)は数16の{s1(t)+s2(t)}/2とHn*n(t)を分離するようなフィルタである。すなわち数7を満たすようなf(t)であればよい。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
上述した雑音処理のために用いた雑音スペクトル推定値N’(ω)、雑音処理フィルタF(ω)、f(t)は装着されるレンズ2や雑音源の種類によって適当に選択されてカメラシステム制御回路25から与えられる。これらの情報は、カメラシステム制御回路25内に保持しても良いし、レンズ2に保持させても良い。
以上に説明したように、実施形態1によれば、いわゆるステレオ音声入力を持つ撮影装置において、少ない演算負荷で雑音抑制することを可能にした音声信号処理技術を実現することができる。また、本実施形態では、マイクの位置を雑音源たる駆動部からほぼ等距離に配置した例について説明したが、多少ずれていたとしても、演算量を低減させる効果を得ることはできる。
[実施形態2]次に、図6乃至図11を参照して、実施形態2について説明する。
図6において、101は撮影装置、103は撮影光学系、104はレンズの光軸、106は撮像素子、107aおよび107bは撮影装置101に設けられたマイクをそれぞれ示している。また、109a,109c,109dは撮影光学系103の調整のための光学系駆動部、132は撮影装置101に設けられたマイク107a,107bの開口部をそれぞれ示している。本実施形態の撮影装置101は4つの無指向性マイクを備えており、信号処理を施すことで、いわゆる5.1chオーディオを作成することができる。マイク107a,107bの具体的な配置については後述する。
マイクの具体的配置について説明する。図6(b)および(c)において、実際には図6(b)にマイク107a、107bは見えないが、マイク107a,107bとマイク開口部132の存在を明確にするために、図6(b)ではこれを模式的に示している。マイク107a,107b,107c,107dは、撮影装置101の上面に上向きに4つ設けられており、各マイクからの音声信号を記録しておき、後段で信号処理を施すことで5.1chオーディオを作成することができる。
次に、図7を参照して、撮影装置101としてのデジタルビデオカメラの構成について説明する。図7において、撮影装置101は主として、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系103、撮像素子106を含み、画像処理系は、A/D変換回路120、画像処理回路121を含み、音声処理系はマイク107a,107b,107c,107dおよび音声信号処理回路126を含む。また、記録再生系は、記録処理回路123、メモリ124を含み、制御系は、カメラシステム制御回路125、操作検出回路127、および光学系駆動部109を含む。光学系駆動部109は、焦点レンズ駆動回路109a、絞り駆動回路109c、ズーム駆動回路109dなどから構成される。
なお、上記撮像系における、撮影光学系103、撮像素子106、A/D変換回路120、画像処理回路121の機能や動作は、図2で説明した撮影光学系3、撮像素子6、A/D変換回路20、画像処理回路21とほぼ同様であるため、説明を省略する。
また、上記音声処理系においては、記録処理回路123がメモリ124への画像信号の出力を不図示の測距センサを用いて行う以外は、図2で説明した記録処理回路23とほぼ同様である。
カメラシステム制御回路125は、撮像時のタイミング信号などを生成して撮像素子106へ出力する。また、カメラシステム制御回路125は、焦点調整駆動回路109aとその時点での像のコントラストを観察することにより、撮影装置101の合焦状態を検出する。なお、本実施形態では、合焦状態の検出は撮像素子106からの撮像信号のコントラストを用いているが、他の測距センサを用いた方法や、他の測距センサとコントラスト法を組み合わせた方法でも、本発明は適用できる。さらに、撮像素子106からの撮像信号を処理することで被写体の輝度を検出する。光学系駆動部109は、カメラシステム制御回路125の制御信号に応じて適切にレンズを駆動して撮影光学系103の調整を行う。
制御系は、ユーザの操作に応動して撮像系、画像処理系、記録再生系をそれぞれ制御する。例えば、不図示の静止画用レリーズボタンや動画撮影開始ボタンの押下を操作検出回路127が検出して、撮像素子106の駆動、画像処理回路121の動作、記録処理回路123の圧縮処理などを制御する。さらに表示部122によって液晶モニタ等に情報の表示を行うため表示部122の各セグメントの状態を制御する。
ここで、上記制御系での撮影光学系の調整動作について説明する。カメラシステム制御回路125は前述したように撮像素子106からの撮像信号を解析することで、適切な焦点位置、絞り位置を求める。以下では、光量調整を行う動作を絞り駆動と総称するが、グラディエーションNDなどを用いた方法でも、本発明を適用できる。カメラシステム制御回路125は、光学系駆動部109に指令を出し、焦点レンズ駆動回路109a、絞り駆動回路109cおよびズーム駆動回路109dを適切に制御する。
ここで、動画撮影動作について説明する。前述したように、エイミングなどの撮影予備動作中においても、カメラシステム制御回路125は撮像素子106からの撮像信号を解析し、適当な光学調整などを行う。不図示の動画撮影開始ボタンの押下を操作検出回路127が検出すると、予め設定されたフレームレートにしたがって、撮像素子106からの撮像信号を断続的に取得する。撮像素子106により撮像された画像は、前述したように画像処理回路121で適切な信号処理が施され、記録処理回路123に出力される。これと同時に、マイク107a,107b,107d,107dからの音声信号を予め設定されたサンプリングレートに従って取得する。マイク107a,107b,107d,107dから得られた音声は、音声信号処理回路126で適当な信号処理が施されてカメラシステム制御回路125に出力される。このようにして取得した画像と音声は、時間的に対応付けられて、圧縮記録される。
図8を参照して、音声信号処理回路126と雑音処理部について説明する。図8において、141はゲイン調整部、142はフィルタ、143はA/Dコンバータ、144は雑音処理部、145はフィルタをそれぞれ示している。図8の各部の機能および動作はチャンネル数が増加しただけで、実施形態1の図3の対応するブロックと同様であるので説明を省略する。
図9を参照して、音声信号処理回路の構成について説明する。図9において、151は図8における、ゲイン調整部141、フィルタ142、A/Dコンバータ143を含む前処理部、152は図8における、フィルタ145を含む後処理部をそれぞれ示している。161a,161b,161cは第1の加算器、162はゲイン調整器、163a、163b,163c,163dは第1の減算器、164a,164b,164c,164dは第2の加算器をそれぞれ示している。
時刻tにおいて、マイク107a,10b,107c,107dからの音声信号を前処理部151で処理した結果をそれぞれx1(t)、x2(t)、x3(t)、x4(t)とする。第1の加算器161a,161b,161cを通過した出力信号は数21のようになる。
さらにゲイン調整器162を通過した出力信号は数22のようになる。
第1の減算器163a,163b,163c,163dの出力信号は、それぞれ数23のようになる。
但し、数23は上から第1の減算器163a,163b,163c,163dの出力信号を夫々示している。
絞り駆動回路109cからマイク107a、107b,107c,107dまでの伝達関数をそれぞれhnc1、hnc2、hnc3、hnc4、雑音をn、マイク107a、107b,107c,107dで捕捉する雑音をn1,n2,n3,n4とすると、
但し、数24において*は畳み込み積分を示している。また、hnc1、hnc2、hnc3、hnc4はtの関数とはせずに時不変システムを想定している。
一方、マイク107a,107b、107c,107dは図6に示したように、絞り駆動回路109cに対してほぼ等距離に配置されている。そのため、
が成り立っていると考えることができる。hnc1=hnc2=hnc3=hnc4=hnc、被写体音とノイズは数1のように加算的になっていると仮定して、数22および数23に代入すると、それぞれ数26、数27を得る。
ここで大切なことは、数27にはn(t)を含まないことである。つまり、雑音発生部とマイク107a,107b、107c,107dの配置を工夫し、それに適した演算を行うことで、雑音の影響をゲイン調整器162の出力(数26に対応)に集めることができる。
ゲイン調整器162の出力信号に対しては、実施形態1で説明した単一チャンネルのSS処理を施せばよい。その結果得られる被写体音の推定値は数28のようになる。
但し、数28においてs1’(t)、s2’(t)、s3’(t)、s4’(t)は、SS処理後のs1(t),s2(t),s3(t),s4(t)の推定値であり、s’(t)はs1’(t),s2’(t),s3’(t),s4’(t)の加算信号である。
また、図9に示した推定雑音スペクトルN’(ω)は数26のhnc*n(t)をフーリエ変換したものが与えられる。これはノイズのスペクトルに伝達関数を畳み込んでいるので、ノイズのスペクトルそのものではなく、ノイズが発生したときにマイクで収音されると想定されるスペクトルに相当する。
このとき、第2の加算器164a、164b、164c、164dの出力信号は数29のようになる。
s1’(t)、s2’(t)、s3’(t)およびs4’(t)が良い推定値であれば、数29は夫々s1(t)、s2(t)、s3(t)およびs4(t)とほぼ等しくなる。これは、第2の加算器164a、164b、164c、164dの出力信号はマイク107a、107b,107c,107dが取得した被写体音s1(t),s2(t),s3(t),s4(t)に等しくなっていることを意味している。
以上説明したように、簡単な加算、減算およびゲイン調整という処理を施すことで、SS処理に必要なフーリエ変換、S’(ω)推定、逆フーリエ変換という演算を1チャンネルのみで演算すればよい。4チャンネル夫々に対してSS処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。
ここまではSS処理を例に説明をしたが、実施形態1と同様に、容易にフィルタ処理にも適用できる。
周波数領域でのフィルタ処理は、図9に示した音声信号処理回路26のSS処理144aを、フィルタ処理144bに置換したものとなる。すなわち、フィルタ処理44bにおけるF(ω)が数26の{s1(t)+s2(t)+s3(t)+s4(t)}/4とhnc*n(t)を分離するようなフィルタ処理を行う。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
また、時間領域でのフィルタ処理は、図9に示した音声信号処理回路26のSS処理44aを、フィルタ処理44bに置換したものとなる。すなわち、フィルタ処理44bにおけるf(t)が数26の{s1(t)+s2(t)+s3(t)+s4(t)}/4とhnc*n(t)を分離するようなフィルタ処理を行う。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
上述した雑音処理のために用いた雑音スペクトル推定値N’(ω)、雑音処理フィルタF(ω)、f(t)は装着されるレンズや雑音源の種類によって適当に選択されてカメラシステム制御回路125から与えられる。これらの情報は、カメラシステム制御回路125内に保持しても良いし、レンズに保持させても良い。また、本実施形態では、マイクの位置を雑音源たる駆動部からほぼ等距離に配置した例について説明したが、多少ずれていたとしても、演算量を低減させる効果を得ることはできる。
ここで、図10を参照して、別の雑音源からの雑音を処理するための音声信号処理回路について説明する。図10の構成は、第1の遅延器171a,171b,171c,171dおよび第2の遅延器172a,172b,172c,172dを備えている点が図9と異なる。その他の構成は図9と同様であるので説明を省略し、以下に遅延器の機能および動作について詳述する。
図6で説明したように、焦点レンズ駆動回路109aおよびズーム駆動回路109dから各マイク107a,107b、107c,107dまでの距離は等しくない。一方で、空間的なエリアシングを避けるためにマイク107a,107b、107c,107dは近接して配置されている。このような条件では、焦点レンズ駆動回路109aおよびズーム駆動回路109dからの雑音はマイク107a,107b、107c,107における音圧は等しいが、遅延を持って取得される。ステレオマイクにおいて、ステレオ感=遅延はあるが、2つのチャンネル間に音圧差が小さいのと同じ状況である。
第1の遅延器171a,171b,171c,171dは前述の遅延をキャンセルするように設定される。例えば、遅延器107aに対して遅延器107bの信号が遅延して取得されるときには、遅延器171aの遅延量よりも小さい遅延量を遅延器171bが与える。結果として、第1の遅延器171a,171b,171c,171dを通過した信号は焦点レンズ駆動回路109aおよびズーム駆動回路109dからの信号位相が全て揃っている状態となる。第1の遅延器171a,171b,171c,171dで与える遅延量を夫々Ta1、Tb1、Tc1、Td1とする。
時刻tにおいて、マイク107a,10b,107c,107dからの音声信号を前処理部151で処理した結果をそれぞれx1(t)、x2(t)、x3(t)、x4(t)とする。第1の加算器161a,161b,161cを通過した出力信号は数30のようになる。
但し、数30において*は畳み込み積分を示す。d(T)は遅れTの遅延を示すフィルタで有る。d(T)は例えば、図11に示すタップ付き遅延線フィルタで実現できる。具体的には遅延量に応じたa(T)のみが1で他は0とすれば良い。
さらにゲイン調整器162を通過した出力信号は数31のようになる。
第1の減算器163a,163b,163c,163dの出力信号は、それぞれ数32のようになる。
但し、数32は上から第1の減算器163a,163b,163c,163dの出力信号を夫々示している。
絞り駆動回路109aから各マイク107a〜107dまでの伝達関数をそれぞれhna1、hna2、hna3、hna4、雑音発生部をn、マイク107a、107b,107c,107dで捕捉する雑音をn1,n2,n3,n4とすると、
但し、数33において*は畳み込み積分を示している。また、hna1、hna2、hna3、hna4はtの関数とはせずに時不変システムを想定している。
前述したように、第1の遅延器171a,171b,171c,171dは雑音源から各マイク107a、107b,107c,107dまでの遅延を打ち消すように設定されているので、これを式で表すと数34のようになる。
数34の値をhnaとして、数31および数32を整理すると、
ここで大切なことは、数36はn(t)を含まないことである。つまり、雑音発生部とマイク107a,107b,107c,107dの配置を工夫し、それに適した演算を行うことで、雑音の影響をゲイン調整器162の出力(数35に対応)に集めることができた。
但し、数37においてs1’(t)、s2’(t)、s3’(t)、s4’(t)は、SS処理後のs1(t)およびs2(t)の推定値である。
また、図10に示した推定雑音スペクトルN’(ω)は数35のhna*n(t)をフーリエ変換したものが与えられる。これは雑音のスペクトルに伝達関数を畳み込んでいるので、雑音のスペクトルそのものではなく、雑音が発生したときにマイクで収音されると想定されるスペクトルに相当する。
このとき、第2の加算器164a、164b、164c、164dの出力信号は数38のようになる。
s1’(t)、s2’(t)、s3’(t)およびs4’(t)が良い推定値であれば、数29はそれぞれs1(t)、s2(t)、s3(t)およびs4(t)をTa1,T2a,Ta3,Ta4遅延させた信号とほぼ等しくなる。更に第2の遅延器171a,171b,171c,171dを通すことで数39の信号を得る。
ここで、第2の遅延器172a〜172dはそれぞれ、第1の遅延器171a〜171dとの遅延量の和が等しくなるように設定されている。よって、d(Ta1)*d(Ta2)=d(Tb1)*d(Tb2)=d(Tc1)*d(Tc2)=d(Td1)*d(Td2)=d(T)とすると、数40となる。
これは、第2の遅延器172a〜172dの出力信号はマイク107a〜107dが取得した被写体音s1(t),s2(t),s3(t),s4(t)を各チャンネルで等しく遅延させた信号になっていることを意味している。そのため、遅延を考慮して画像と関連付けすることでステレオ感などを損なわず、雑音を低減した音声信号を得ることができる。
以上説明したように、簡単な遅延器、加算、減算およびゲイン調整という処理を施すことで、SS処理に必要なフーリエ変換、S’(ω)推定、逆フーリエ変換という演算を1チャンネルのみで演算すればよい。4チャンネル夫々に対してSS処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。
ここまではSS処理を例に説明をしたが、実施形態1と同様に、容易にフィルタ処理にも適用できる。
周波数領域でのフィルタ処理は、図10に示した音声信号処理回路26のSS処理144aを、フィルタ処理144bに置換したものとなる。すなわち、フィルタ処理44bにおけるF(ω)が数35のhna*n(t)とその他の項を分離するようなフィルタ処理を行う。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
また、時間領域でのフィルタ処理は、図10に示した音声信号処理回路26のSS処理44aを、フィルタ処理44bに置換したものとなる。すなわち、フィルタ処理44bにおけるf(t)が数35のhna*n(t)とその他の項を分離するようなフィルタ処理を行う。その他はSS処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。
上述したように、雑音処理のために用いた雑音スペクトル推定値N’(ω)、雑音処理フィルタF(ω)、f(t)は装着されるレンズや雑音源の種類によって適当に選択されてカメラシステム制御回路125から与えられる。これらの情報は、カメラシステム制御回路25内に保持しても良いし、レンズ2に保持しても良い。
本実施形態においては、マイクが4つの場合について説明をしたが、複数のマイクであれば更に少数のマイクでも、更に多数のマイクであっても、本発明は適用できる。
以上説明したように、実施形態2によれば、多チャンネルの音声入力を持つ撮影装置において、少ない演算負荷で雑音抑制することを可能にした音声信号処理技術を実現することができる。
上述した各実施形態においては、本発明をデジタル(ビデオ)カメラに適用した場合を例に説明したが、これに限定されず、雑音発生部を持ち音声を録音する装置であれば適用可能である。
[他の実施形態]また、本発明は、以下の処理を実行することによっても実現される。即ち、上記実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、および該プログラムを記憶した記憶媒体は本発明を構成することになる。