JP2011259319A

JP2011259319A - 音声信号処理装置および撮影装置

Info

Publication number: JP2011259319A
Application number: JP2010133348A
Authority: JP
Inventors: Masashi Kimura; 正史木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-06-10
Filing date: 2010-06-10
Publication date: 2011-12-22
Anticipated expiration: 2030-06-10
Also published as: JP5548529B2

Abstract

【課題】チャンネル数の増加に比例して演算量が増加せず、演算処理に係る負荷を低減できる音声処理技術を実現する。
【解決手段】駆動部の駆動を制御する駆動制御手段と、装置周囲の音声を集音して音声信号を取得する第１および第２のマイクと、音声信号に含まれる駆動部の駆動に伴う雑音成分を低減する雑音処理手段とを有し、雑音処理手段は記第１および第２のマイクから入力した音声信号を加算する第１の加算手段と、第１および第２のマイクから入力した音声信号の差分をとる第１の減算手段と、第１の加算手段の出力信号を調整する第１の調整手段と、第１の減算手段の出力信号を調整する第２の調整手段と、第１の調整手段の出力信号から雑音成分を低減する雑音低減手段と、雑音低減手段の出力信号と第２の調整手段の出力信号とを加算する第２の加算手段と、雑音低減手段の出力信号と第２の調整手段の出力信号との差分をとる第２の減算手段とを有する。
【選択図】図５

Description

本発明は音声信号処理技術に関する。

近年、音声信号処理装置として動画を撮影可能なデジタルカメラなどの撮影装置が知られている。このような音声信号処理装置で音声信号を記録する際には撮影装置内部の駆動部の駆動により発生する雑音の影響を受けないことが望まれる。この雑音の影響を低減するために、特許文献１には、単一チャンネルの音声信号を記録可能な撮影装置において、撮影操作に伴って駆動部から発生する雑音をスペクトル減算によって除去する技術が提案されている。

特開２００６−２７０５９１号公報

しかしながら、特許文献１に記載されたスペクトル減算では、音声信号が多チャンネル化すると、複数の音声チャンネルをそれぞれ処理するためには、チャンネルが増えるごとに演算量が単純にチャンネル数分増加していく。例えば、ステレオ録音では２倍の演算量になり、５．１ｃｈオーディオなどではさらに演算量が増大し、制御部（音声処理部）の負荷増大につながる。

本発明は、上記課題に鑑みてなされ、その目的は、チャンネル数の増加に比例して演算量が増加せず、演算処理に係る負荷を低減できる音声信号処理技術を実現することである。

上記課題を解決し、目的を達成するために、本発明の音声信号処理装置は、機械的な駆動を行う駆動部を有する音声信号処理装置であって、前記駆動部の駆動を制御する駆動制御手段と、前記装置周囲の音声を集音して音声信号を取得する第１および第２のマイクと、前記第１および第２のマイクにより取得した音声信号に含まれる、前記駆動部の駆動に伴う雑音成分を低減する雑音処理手段と、を有し、前記雑音処理手段は、前記第１および第２のマイクから入力した音声信号を加算する第１の加算手段と、前記第１および第２のマイクから入力した音声信号の差分をとる第１の減算手段と、前記第１の加算手段の出力信号を調整する第１の調整手段と、前記第１の減算手段の出力信号を調整する第２の調整手段と、前記第１の調整手段の出力信号から前記雑音成分を低減する雑音低減手段と、前記雑音低減手段の出力信号と前記第２の調整手段の出力信号とを加算する第２の加算手段と、前記雑音低減手段の出力信号と前記第２の調整手段の出力信号との差分をとる第２の減算手段と、を有する。

本発明によれば、チャンネル数の増加に比例して演算量が増加せず、演算処理に係る負荷を低減できる。

本発明に係る実施形態の撮影装置の斜視図（ａ）、レンズを未装着の状態での撮影装置の正面図（ｂ）、及び撮影装置の側断面図（ｃ）。撮影装置のブロック図。音声信号処理回路のブロック図。ＳＳ処理回路のブロック図（ａ）、フィルタ処理回路のブロック図（ｂ）、（ｃ）。ＳＳ処理を用いた音声信号処理回路のブロック図。実施形態２の撮影装置の斜視図（ａ）、側断面図（ｂ）、及び上面図（ｃ）。撮影装置のブロック図。音声信号処理回路のブロック図。ＳＳ処理を用いた音声信号処理回路のブロック図。ＳＳ処理を用いた音声信号処理回路のブロック図。遅延回路を例示する図。

以下に、添付図面を参照して本発明の実施の形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

［実施形態１］以下、図１乃至図５を参照して、本発明の音声信号処理装置を撮影装置に適用した実施形態１について説明する。

図１において、１は撮影装置、２は撮影装置１に装着された撮影レンズ、３は撮影光学系、４はレンズの光軸、５はレンズ鏡筒、６は撮像素子、７は撮影装置１に設けられ、装置周囲の音声を集音するマイク、８は撮影装置１の背面に設けられた表示装置である。また、９は撮影光学系３の調整のための光学系駆動部、１０は撮影装置１と撮影レンズ２を接続する接点、１１はいわゆるクイックリターンミラー機構、１２はＡＦ（オートフォーカス）センサを含む焦点検出部、３２ａおよび３２ｂはマイク７の開口部である。本実施形態の撮影装置は２つの第１のマイク７ａと第２のマイク７ｂとを備えており、いわゆるステレオの音声を取得／記録することができる。３３は光軸４を中心とする円を示している。２つのマイク７ａ，７ｂは光軸４を基準として対称に矩形状の撮像素子６の長手方向に離間して配置されている。また、光軸４に垂直な略同一の平面上に存在しており、光軸４からの距離も略等しい。３４はレリーズボタンである。

なお、マイク７の開口部３２ａ，３２ｂは、図１（ｃ）には投影されない箇所に設けられているが、マイク７とマイク開口部３２の位置を明確にするために、図１（ｃ）ではこれを模式的に１つにしてマイク７およびマイク開口部３２として示している。

ここで、静止画の撮影動作について説明する。撮影装置１は撮影レンズ２と焦点検出部１２および不図示の露出検出部を用いて、焦点／露出検出を行うとともに、撮影光学系３の一部を駆動／調整することによって被写体像を撮像素子６の受光面近傍に結像させる。さらに、適正な露光になるように絞りを調整する。更にユーザによるレリーズボタン３４の操作と同期させて、撮像素子６により光電変換された被写体の画像情報を取得して図２に示すメモリ２４へ記録する。

次に、動画の撮影動作について説明する。動画の撮影に先立って、不図示のライブビューボタンを押すことで、撮像素子６で撮像された画像が表示装置８に表示される。ライブビューは、撮像素子６で撮像された画像情報を、表示装置８にリアルタイムで表示することである。撮影装置１は不図示の動画撮影ボタンの操作と同期させて、撮像素子６から画像情報を予め設定されたフレームレートで取得するとともに、マイク７から音声情報を取得して、これらを同期させてメモリ２４へ記録する。動画撮影中において、撮影光学系３の調整が必要となった場合は、適宜光学系駆動部９により調整を行う。そして、動画撮影ボタンの操作と同期させて撮影動作を終了する。

次に、図２を参照して、撮影装置１としてのデジタルカメラと撮影レンズ２の構成について説明する。図２において、撮影装置１は主として、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系３および撮像素子６を含み、画像処理系は、Ａ／Ｄ変換回路２０および画像処理回路２１を含み、音声処理系は２つのマイク７ａ，７ｂおよび音声信号処理回路２６を含む。記録再生系は、記録処理回路２３およびメモリ２４を含み、制御系は、カメラシステム制御回路２５、焦点検出部（ＡＦセンサ含む）１２、露出検出部（ＡＥセンサ含む）１３、操作検出回路２７、およびレンズシステム制御回路２８、光学系駆動部９を含む。光学系駆動部９は、焦点レンズ駆動回路９ａ、ブレ補正駆動回路９ｂ、絞り駆動回路９ｃなどから構成される。

撮像系は、被写体からの光を、撮影光学系３を介して撮像素子６の撮像面に結像する光学処理を行う。エイミングなどの撮影予備動作中は、クイックリターンミラー機構１１に設けられたミラーを介して、焦点検出部１２にも光束の一部が導かれる。また後述するように制御系によって適切に撮影光学系３が調整されることで、適正な光量の被写体光を撮像素子６に露光するとともに、撮像素子６の近傍で被写体像が結像する。画像処理回路２１は、Ａ／Ｄ変換回路２０を介して撮像素子６から取り込んだ画像信号の処理を行う、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路等を有する。

音声処理系は、２つのマイク７ａ，７ｂからの音声信号に音声信号処理回路２６によって適切な処理を施して録音用音声信号を生成する。録音用音声信号は、動画撮影時においては、後述する記録処理回路２３により撮影画像と関連付けして圧縮処理される。記録処理回路２３は、メモリ２４へ画像信号を出力するとともに、表示部２２へ出力する表示信号を生成／保存する。また、記録処理回路２３は、予め決められた方法を用いて静止画、動画、音声などの関連付け／圧縮を行う。

カメラシステム制御回路２５は、撮像時のタイミング信号などを生成して撮像素子６へ出力する。焦点検出部１２は撮影光学系３の合焦状態を検出する。静止画撮影では露出検出部１３が直接検出し、動画撮影では撮像素子６からの画像信号を処理することで被写体の輝度を検出する。レンズシステム制御回路２８はカメラシステム制御回路２５からの制御信号に応じて適切にレンズを駆動させて撮影光学系３の調整を行う。本実施形態では、交換レンズタイプのカメラを前提にしており、交換レンズの駆動をレンズシステム制御回路２８により制御する例を説明している。交換レンズタイプでない場合は、レンズシステム制御回路２８の機能を、カメラシステム制御回路２５が代わりに実行しても良い。

さらに、制御系は、ユーザの操作に応動して撮像系、画像処理系、記録再生系をそれぞれ制御する。例えば、レリーズボタン３４の押下を操作検出回路２７が検出して、撮像素子６の駆動、画像処理回路２１の動作、記録処理回路２３の圧縮処理などを制御する。さらに表示部２２によって光学ファインダー、液晶モニタ等に情報の表示を行うため表示部２２の各セグメントの状態を制御する。

ここで、上記制御系での撮影光学系の調整動作について説明する。カメラシステム制御回路２５には焦点検出部１２および露出検出部１３が接続されており、これらの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御回路２５は、電気接点１０を介してレンズシステム制御回路２８に指令を出し、レンズシステム制御回路２８は焦点レンズ駆動回路９ａおよび絞り駆動回路９ｃを適切に駆動制御する。さらにレンズシステム制御回路２８には不図示の手ブレ検出センサが接続されており、手ブレ補正を行うモードにおいては、手ブレ検出センサからの検出信号を元にブレ補正駆動回路９ｂを適切に駆動制御する。ここで、手ぶれ検出センサは、加速度検出センサなどにより構成されており、ユーザによるカメラ全体の振動を検出することができる。

ここで、動画撮影などの音声記録を伴う撮影動作について説明する。音声記録を伴う撮影動作では、カメラ本体およびレンズなどの機械的な駆動に伴う音（以下、機械駆動音）は不要な音であり雑音となる。本明細書において雑音とは、ホワイトノイズのような背景雑音ではなく前述した機械駆動音を指すものとする。

図３を参照して、音声信号処理回路２６と雑音処理部について説明する。図５において、４１はゲイン調整部、４２はフィルタ、４３はＡ／Ｄコンバータ、４４は雑音処理部、４５はフィルタである。２つのマイク７ａ，７ｂから得られた信号はゲイン調整部４１に出力される。ゲイン調整部４１はＡ／Ｄコンバータ４３のダイナミックレンジが十分に活用できるように各マイク７ａ，７ｂの信号レベルを調整する。つまり、マイク７ａ，７ｂの信号レベルが小さいときはゲインアップして信号を増幅し、マイク７ａ，７ｂの信号レベルが大きいときはゲインを下げて飽和を防ぐ。

フィルタ４２はＡ／Ｄコンバータ４３のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイク７ａ，７ｂが特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。Ａ／Ｄコンバータ４３はゲイン調整部４１およびフィルタ４２で処理された信号をデジタル変換する。

雑音処理部４４は複数の雑音低減手段で構成されている。図５の例ではＳＳ処理４４ａ、フィルタ処理４４ｂ、ミュート処理４４ｃから構成されている。ＳＳ処理とはスペクトルの減算（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）に基づく処理であり、本明細書ではスペクトル減算による手法をＳＳ法、ＳＳ法による処理をＳＳ処理と呼ぶが、正式な名称ではない。ＳＳ処理の詳細については後述する。カメラシステム制御回路２５からの指令に応じて、複数の雑音低減手段を選択的に又は組み合わせて動作させることができる。フィルタ４５は雑音処理を行った後に必要であれば適当なフィルタ処理を施すためにある。フィルタ処理４４ｂは低域通過や帯域通過などの適当な処理を行うことによって機械的な駆動に伴う雑音成分を低減する。ミュート処理４４ｃは雑音成分の信号を無音に置き換えることによって雑音成分を低減する。不要であれば雑音処理を行わずスルーまたは適当な遅延のみ行うこともできる。これらの雑音低減手段はカメラシステム制御回路２５により動作が制御されている。

ここで、各雑音低減手段による雑音処理方法について説明する。ＳＳ法はその名のとおりスペクトルの減算を行う処理である。予め雑音スペクトル（本明細書では、雑音をフーリエ変換するなどして得たスペクトルを雑音スペクトルと呼ぶ。）を用意しておき、取得した音声スペクトルから減算する。本実施形態では雑音スペクトルは、予め同定して撮影装置１のメモリ２４に格納されているものとする。他の雑音スペクトルの取得方法としては、近傍の無音区間と思われる区間のスペクトルを用いることもできる。但し、本明細書で対象とする雑音は機械駆動音であり、これらのスペクトルは予め求めることが可能であるために、撮影装置１のメモリ２４に格納されているものとした。

ＳＳ法は雑音が加算的に被写体音に混入していると仮定しており、これを式で表すと、

となる。但し、ｘ（ｔ）は取得した音声を、ｓ（ｔ）は被写体音を、ｎ（ｔ）は雑音を、ｔは時間を夫々示している。数１をフーリエ変換すると、

となる。但し、Ｘ（ω）、Ｓ（ω）、Ｎ（ω）は、夫々ｘ（ｔ）、ｓ（ｔ）、ｎ（ｔ）をフーリエ変換したものであり、ωは周波数である。撮影装置１においては、適当な窓関数を適用して音声信号をフレーム分割して、順次処理を行うが、ここでは簡略化のため、特定のフレームに着目して説明を行う。数２を見ると明らかなように、Ｓ（ω）を求めるにはＸ（ω）からＮ（ω）を減算すればよい。そこで、

但し、Ｎ’（ω）はＮ（ω）の推定値、Ｓ’（ω）はＮ’（ω）を用いて求めたＳ（ω）の推定値、βはフロアリング係数である。∠は複素数の偏角を求める演算を示している。数３から分かるように、スペクトルは予め求められた雑音スペクトルを利用して減算するとともに、位相はＸ（ω）の値をそのまま用いる。また、フロアリング係数βはＳＳ法による音声のひずみを抑制するために導入される係数である（オリジナルのＳＳ法はβ＝０である。）。数１で示したようにＳＳ法においては、ノイズは加算的に作用していると仮定している。しかしながら、実際には位相が反転して加算され取得音声では弱めあっている場合も有る。このため、Ｘ（ω）からＮ’（ω）を減算した差分値が負になることがある。そこで、ＳＳ法ではβよりも小さいときはβとなる様に処理する。

最後に、Ｓ’（ω）を逆フーリエ変換してｓ’（ｔ）を得てこれをＳＳ処理後の音声とする。

上述したＳＳ処理を図４（ａ）に模式的に示している。図４（ａ）において、ＦＦＴは窓関数処理を含めた高速フーリエ変換処理を、ＩＦＦＴは高速逆フーリエ変換を、Ｓ’（ω）推定は数３の処理をそれぞれ示している。図４（ａ）から明らかなようにＳＳ法は、単一チャンネル信号（モノラル音声）にも適用可能な手法である。一方で、事前に何らかの方法でＮ’（ω）を与える必要がある。

フィルタ処理は適当なスペクトル領域を遮断する処理である。ノイズのモデルはＳＳ法と同じく雑音が加算的に被写体音に混入していると仮定している。ここで数２の両辺にフィルタを適用すると、

となる。但し、Ｓ’（ω）はＳ（ω）の推定値、Ｆ（ω）はフィルタの周波数特性を示す値である。ここで、

を満たすようにＦ（ω）を決めることができれば、数４から明らかなようにＦ（ω）Ｘ（ω）はＳ（ω）と概略等しくなる。数５および数６は周波数領域で、被写体音が存在する領域と、雑音の存在する領域が分かれており、Ｆ（ω）は雑音の存在する領域を遮断するように設計されていることを意味する。最後に、Ｓ’（ω）を逆フーリエ変換してｓ’（ｔ）を得てこれをフィルタ処理後の音声とする。

実際の装置では、フーリエ変換を省くために、時間領域でフィルタを適用することも多く行われている。時間領域で数７を計算している。

但し、数７において＊は畳み込み積分を、ｓ’（ｔ）は被写体信号の推定値を示している。ｆ（ｔ）はＦ（ω）とほぼ等価な周波数特性をもつ時間領域のフィルタであり、ＲＥＭＥＺ法などのデジタルフィルタ設計法によって設計することが可能である。

フィルタ処理を周波数領域で行うか、時間領域で行うかは設計時に適当なものを選択している。フィルタ特性や性能を得るための時間領域フィルタの次数などを勘案して決定される。

フィルタ処理を周波数領域で行う場合を図４（ｂ）に模式的に示している。図４（ｂ）において、ＦＦＴは窓関数処理を含めた高速フーリエ変換処理を、ＩＦＦＴは高速逆フーリエ変換を、Ｓ’（ω）推定は数４の処理をそれぞれ示している。フィルタ処理を時間領域で行う場合を図４（ｃ）に模式的に示している。図４（ｃ）において、畳み込み積分は数７の処理を示している。図４（ｂ）および（ｃ）からも明らかなようにフィルタは、単一チャンネル信号（モノラル音声）にも適用可能な手法である。一方で、事前に何らかの方法でＦ（ω）またはｆ（ｔ）を与える必要がある。

ミュート処理は前述したように雑音成分の信号を無音に置き換える処理のことである。つまり雑音が発生していると想定される時間において、

とする。但し、数８においてｓ’（ｔ）は被写体信号の推定値を示している。

最後にスルーの場合の処理を数９に、遅延を行う時の処理を数１０に示す。

但し、数１０においてＴは遅延時間を示す。

以上の雑音処理の説明において、取得信号ｘ（ｔ）は図３の雑音処理部４４の入力に対応しており、被写体音の推定値ｓ’（ｔ）は図３の雑音処理部４４の出力信号に対応している。

ここで前述した雑音処理を多チャンネル化することを考える。多チャンネル化した場合でも各チャンネルにＳＳ処理、フィルタ処理などを適用することで雑音の抑制を図ることが可能である。しかしながら、モノラルからステレオのように、音声が多チャンネル化していくにしたがってその処理量は増大してしまう。本発明は、撮影装置１内に存在するノイズ発生源の位置と、マイク７ａ，７ｂの位置関係が固定的であるという特徴を生かして多チャンネル化した場合でも演算量を増大させない音声処理を実現している。

図５は音声信号処理回路のブロック図である。図５において、５１は図３で説明した、ゲイン調整部４１、フィルタ４２、Ａ／Ｄコンバータ４３を含む前処理部をそれぞれ示している。５２は図３で説明した、フィルタ４５を含む後処理部を、６１ａは第１の減算器を、６１ｂは第１の加算器を夫々示している。また、６２ｂは第１の調整手段としての第１のゲイン調整器を、６２ａは第２の調整手段としての第２のゲイン調整器を、６３ａは第２の加算器を、６３ｂは第２の減算器を夫々示している。

時刻ｔにおいて、マイク７ａの信号を前処理部で処理した結果をｘ１（ｔ）、マイク７ｂの信号を前処理部で処理した結果をｘ２（ｔ）とする。第１の加算器６１ｂの出力信号は数１１のようになる。

一方、第１の減算器６１ａの出力信号は数１２のようになる。

さらにゲイン調整器６２ａ，６２ｂは加算／減算したチャンネル数で正規化する。図５ではステレオ音声のため２で割ることになる。その結果、第１のゲイン調整器６２ｂの出力信号は数１３のように、第２のゲイン調整器６２ａの出力信号は数１４のようになる。

まずＳＳ処理を例に本実施形態の要部について説明する。

機械駆動音発生部（雑音発生部）からマイク７ａまでの伝達関数をＨｎ１、マイク７ｂまでの伝達関数をＨｎ２、雑音発生部で発生した雑音をｎ、マイク７ａで捕捉する雑音をｎ１、マイク７ｂで捕捉する雑音をｎ２とすると、

但し、数１５において、＊は畳み込み積分を示している。また、Ｈｎ１およびＨｎ２はｔの関数とはせずに時不変システムを想定している。

一方、マイク７ａ，７ｂは図１で説明したように、光軸４に対して等距離に配置されている。雑音発生部は、光学調整を行うものなので、光軸４の近傍にあると考えられる。そのため、

が成り立っていると考えることができる。Ｈｎ１＝Ｈｎ２＝Ｈｎとして、この関係を数１３および数１４に代入すると、

を得ることができる。ここで大切なことは、数１７にはｎ（ｔ）を含まないことである。つまり、雑音発生部とマイク７ａ，７ｂの配置を工夫し、それに適した演算を行うことで、雑音の影響を第１のゲイン調整器６２ｂの出力（数１６に対応）に集めることができる。

第１のゲイン調整器６２ｂの出力信号に対して、図４（ａ）で説明した単一チャンネルのＳＳ処理を施せばよい。その結果得られる被写体音の推定値は数１８のようになる。

但し、数１８においてｓ１’（ｔ）およびｓ２’（ｔ）は、ＳＳ処理後のｓ１（ｔ）およびｓ２（ｔ）の推定値であり、ｓ’（ｔ）はｓ１’（ｔ）およびｓ２’（ｔ）の加算信号である。

また、図５に示す推定雑音スペクトルＮ’（ω）は数１６のＨｎ＊ｎ（ｔ）が与えられる。これはノイズのスペクトルに伝達関数を畳み込んでいるので、ノイズのスペクトルそのものではなく、ノイズが発生したときにマイクで収音されると想定されるスペクトルに相当する。

このとき、第２の加算器６３ａの出力信号は数１９のように、第２の減算器６３ｂの出力信号は数２０のようになる。

ｓ１’（ｔ）およびｓ２’（ｔ）が良い推定値であれば、数１９および数２０は夫々ｓ１（ｔ）およびｓ２（ｔ）とほぼ等しくなる。これは、第２の加算器６３ａの出力信号はマイク７ａが取得した被写体音ｓ１（ｔ）に等しく、第２の減算器６３ｂの出力信号はマイク７ｂが取得した被写体音ｓ２（ｔ）に等しくなっていることを意味している。

以上説明したように、簡単な加算、減算およびゲイン調整という処理を施すことで、ＳＳ処理に必要なフーリエ変換、Ｓ’（ω）推定、逆フーリエ変換という演算を１チャンネルのみで演算すればよい。２チャンネル夫々に対してＳＳ処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。

ここまではＳＳ処理を例に説明をしたが、これは容易にフィルタ処理にも適用できる。

図４（ｂ）で説明した周波数領域でのフィルタ処理について、図５に示した音声信号処理回路２６のＳＳ処理４４ａを、図４（ｂ）のフィルタ処理４４ｂに置換したものとして説明する。図５において、フィルタ処理４４ｂにおけるＦ（ω）は数１６の｛ｓ１（ｔ）＋ｓ２（ｔ）｝／２とＨｎ＊ｎ（ｔ）を分離するようなフィルタである。すなわち数５および数６を満たすようなＦ（ω）であればよい。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

また、図４（ｃ）で説明した時間領域でのフィルタ処理について、図５に示した音声信号処理回路２６のＳＳ処理４４ａを、図４（ｃ）のフィルタ処理４４ｂに置換したものとして説明する。フィルタ処理４４ｂにおけるｆ（ｔ）は数１６の｛ｓ１（ｔ）＋ｓ２（ｔ）｝／２とＨｎ＊ｎ（ｔ）を分離するようなフィルタである。すなわち数７を満たすようなｆ（ｔ）であればよい。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

上述した雑音処理のために用いた雑音スペクトル推定値Ｎ’（ω）、雑音処理フィルタＦ（ω）、ｆ（ｔ）は装着されるレンズ２や雑音源の種類によって適当に選択されてカメラシステム制御回路２５から与えられる。これらの情報は、カメラシステム制御回路２５内に保持しても良いし、レンズ２に保持させても良い。

以上に説明したように、実施形態１によれば、いわゆるステレオ音声入力を持つ撮影装置において、少ない演算負荷で雑音抑制することを可能にした音声信号処理技術を実現することができる。また、本実施形態では、マイクの位置を雑音源たる駆動部からほぼ等距離に配置した例について説明したが、多少ずれていたとしても、演算量を低減させる効果を得ることはできる。

［実施形態２］次に、図６乃至図１１を参照して、実施形態２について説明する。

図６において、１０１は撮影装置、１０３は撮影光学系、１０４はレンズの光軸、１０６は撮像素子、１０７ａおよび１０７ｂは撮影装置１０１に設けられたマイクをそれぞれ示している。また、１０９ａ，１０９ｃ，１０９ｄは撮影光学系１０３の調整のための光学系駆動部、１３２は撮影装置１０１に設けられたマイク１０７ａ，１０７ｂの開口部をそれぞれ示している。本実施形態の撮影装置１０１は４つの無指向性マイクを備えており、信号処理を施すことで、いわゆる５．１ｃｈオーディオを作成することができる。マイク１０７ａ，１０７ｂの具体的な配置については後述する。

マイクの具体的配置について説明する。図６（ｂ）および（ｃ）において、実際には図６（ｂ）にマイク１０７ａ、１０７ｂは見えないが、マイク１０７ａ，１０７ｂとマイク開口部１３２の存在を明確にするために、図６（ｂ）ではこれを模式的に示している。マイク１０７ａ，１０７ｂ，１０７ｃ，１０７ｄは、撮影装置１０１の上面に上向きに４つ設けられており、各マイクからの音声信号を記録しておき、後段で信号処理を施すことで５．１ｃｈオーディオを作成することができる。

次に、図７を参照して、撮影装置１０１としてのデジタルビデオカメラの構成について説明する。図７において、撮影装置１０１は主として、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系１０３、撮像素子１０６を含み、画像処理系は、Ａ／Ｄ変換回路１２０、画像処理回路１２１を含み、音声処理系はマイク１０７ａ，１０７ｂ，１０７ｃ，１０７ｄおよび音声信号処理回路１２６を含む。また、記録再生系は、記録処理回路１２３、メモリ１２４を含み、制御系は、カメラシステム制御回路１２５、操作検出回路１２７、および光学系駆動部１０９を含む。光学系駆動部１０９は、焦点レンズ駆動回路１０９ａ、絞り駆動回路１０９ｃ、ズーム駆動回路１０９ｄなどから構成される。

なお、上記撮像系における、撮影光学系１０３、撮像素子１０６、Ａ／Ｄ変換回路１２０、画像処理回路１２１の機能や動作は、図２で説明した撮影光学系３、撮像素子６、Ａ／Ｄ変換回路２０、画像処理回路２１とほぼ同様であるため、説明を省略する。

また、上記音声処理系においては、記録処理回路１２３がメモリ１２４への画像信号の出力を不図示の測距センサを用いて行う以外は、図２で説明した記録処理回路２３とほぼ同様である。

カメラシステム制御回路１２５は、撮像時のタイミング信号などを生成して撮像素子１０６へ出力する。また、カメラシステム制御回路１２５は、焦点調整駆動回路１０９ａとその時点での像のコントラストを観察することにより、撮影装置１０１の合焦状態を検出する。なお、本実施形態では、合焦状態の検出は撮像素子１０６からの撮像信号のコントラストを用いているが、他の測距センサを用いた方法や、他の測距センサとコントラスト法を組み合わせた方法でも、本発明は適用できる。さらに、撮像素子１０６からの撮像信号を処理することで被写体の輝度を検出する。光学系駆動部１０９は、カメラシステム制御回路１２５の制御信号に応じて適切にレンズを駆動して撮影光学系１０３の調整を行う。

制御系は、ユーザの操作に応動して撮像系、画像処理系、記録再生系をそれぞれ制御する。例えば、不図示の静止画用レリーズボタンや動画撮影開始ボタンの押下を操作検出回路１２７が検出して、撮像素子１０６の駆動、画像処理回路１２１の動作、記録処理回路１２３の圧縮処理などを制御する。さらに表示部１２２によって液晶モニタ等に情報の表示を行うため表示部１２２の各セグメントの状態を制御する。

ここで、上記制御系での撮影光学系の調整動作について説明する。カメラシステム制御回路１２５は前述したように撮像素子１０６からの撮像信号を解析することで、適切な焦点位置、絞り位置を求める。以下では、光量調整を行う動作を絞り駆動と総称するが、グラディエーションＮＤなどを用いた方法でも、本発明を適用できる。カメラシステム制御回路１２５は、光学系駆動部１０９に指令を出し、焦点レンズ駆動回路１０９ａ、絞り駆動回路１０９ｃおよびズーム駆動回路１０９ｄを適切に制御する。

ここで、動画撮影動作について説明する。前述したように、エイミングなどの撮影予備動作中においても、カメラシステム制御回路１２５は撮像素子１０６からの撮像信号を解析し、適当な光学調整などを行う。不図示の動画撮影開始ボタンの押下を操作検出回路１２７が検出すると、予め設定されたフレームレートにしたがって、撮像素子１０６からの撮像信号を断続的に取得する。撮像素子１０６により撮像された画像は、前述したように画像処理回路１２１で適切な信号処理が施され、記録処理回路１２３に出力される。これと同時に、マイク１０７ａ，１０７ｂ，１０７ｄ，１０７ｄからの音声信号を予め設定されたサンプリングレートに従って取得する。マイク１０７ａ，１０７ｂ，１０７ｄ，１０７ｄから得られた音声は、音声信号処理回路１２６で適当な信号処理が施されてカメラシステム制御回路１２５に出力される。このようにして取得した画像と音声は、時間的に対応付けられて、圧縮記録される。

図８を参照して、音声信号処理回路１２６と雑音処理部について説明する。図８において、１４１はゲイン調整部、１４２はフィルタ、１４３はＡ／Ｄコンバータ、１４４は雑音処理部、１４５はフィルタをそれぞれ示している。図８の各部の機能および動作はチャンネル数が増加しただけで、実施形態１の図３の対応するブロックと同様であるので説明を省略する。

図９を参照して、音声信号処理回路の構成について説明する。図９において、１５１は図８における、ゲイン調整部１４１、フィルタ１４２、Ａ／Ｄコンバータ１４３を含む前処理部、１５２は図８における、フィルタ１４５を含む後処理部をそれぞれ示している。１６１ａ，１６１ｂ，１６１ｃは第１の加算器、１６２はゲイン調整器、１６３ａ、１６３ｂ，１６３ｃ，１６３ｄは第１の減算器、１６４ａ，１６４ｂ，１６４ｃ，１６４ｄは第２の加算器をそれぞれ示している。

時刻ｔにおいて、マイク１０７ａ，１０ｂ，１０７ｃ，１０７ｄからの音声信号を前処理部１５１で処理した結果をそれぞれｘ１（ｔ）、ｘ２（ｔ）、ｘ３（ｔ）、ｘ４（ｔ）とする。第１の加算器１６１ａ，１６１ｂ，１６１ｃを通過した出力信号は数２１のようになる。

さらにゲイン調整器１６２を通過した出力信号は数２２のようになる。

第１の減算器１６３ａ，１６３ｂ，１６３ｃ，１６３ｄの出力信号は、それぞれ数２３のようになる。

但し、数２３は上から第１の減算器１６３ａ，１６３ｂ，１６３ｃ，１６３ｄの出力信号を夫々示している。

絞り駆動回路１０９ｃからマイク１０７ａ、１０７ｂ，１０７ｃ，１０７ｄまでの伝達関数をそれぞれｈｎｃ１、ｈｎｃ２、ｈｎｃ３、ｈｎｃ４、雑音をｎ、マイク１０７ａ、１０７ｂ，１０７ｃ，１０７ｄで捕捉する雑音をｎ１，ｎ２，ｎ３，ｎ４とすると、

但し、数２４において＊は畳み込み積分を示している。また、ｈｎｃ１、ｈｎｃ２、ｈｎｃ３、ｈｎｃ４はｔの関数とはせずに時不変システムを想定している。

一方、マイク１０７ａ，１０７ｂ、１０７ｃ，１０７ｄは図６に示したように、絞り駆動回路１０９ｃに対してほぼ等距離に配置されている。そのため、

が成り立っていると考えることができる。ｈｎｃ１＝ｈｎｃ２＝ｈｎｃ３＝ｈｎｃ４＝ｈｎｃ、被写体音とノイズは数１のように加算的になっていると仮定して、数２２および数２３に代入すると、それぞれ数２６、数２７を得る。

ここで大切なことは、数２７にはｎ（ｔ）を含まないことである。つまり、雑音発生部とマイク１０７ａ，１０７ｂ、１０７ｃ，１０７ｄの配置を工夫し、それに適した演算を行うことで、雑音の影響をゲイン調整器１６２の出力（数２６に対応）に集めることができる。

ゲイン調整器１６２の出力信号に対しては、実施形態１で説明した単一チャンネルのＳＳ処理を施せばよい。その結果得られる被写体音の推定値は数２８のようになる。

但し、数２８においてｓ１’（ｔ）、ｓ２’（ｔ）、ｓ３’（ｔ）、ｓ４’（ｔ）は、ＳＳ処理後のｓ１（ｔ），ｓ２（ｔ），ｓ３（ｔ），ｓ４（ｔ）の推定値であり、ｓ’（ｔ）はｓ１’（ｔ），ｓ２’（ｔ），ｓ３’（ｔ），ｓ４’（ｔ）の加算信号である。

また、図９に示した推定雑音スペクトルＮ’（ω）は数２６のｈｎｃ＊ｎ（ｔ）をフーリエ変換したものが与えられる。これはノイズのスペクトルに伝達関数を畳み込んでいるので、ノイズのスペクトルそのものではなく、ノイズが発生したときにマイクで収音されると想定されるスペクトルに相当する。

このとき、第２の加算器１６４ａ、１６４ｂ、１６４ｃ、１６４ｄの出力信号は数２９のようになる。

ｓ１’（ｔ）、ｓ２’（ｔ）、ｓ３’（ｔ）およびｓ４’（ｔ）が良い推定値であれば、数２９は夫々ｓ１（ｔ）、ｓ２（ｔ）、ｓ３（ｔ）およびｓ４（ｔ）とほぼ等しくなる。これは、第２の加算器１６４ａ、１６４ｂ、１６４ｃ、１６４ｄの出力信号はマイク１０７ａ、１０７ｂ，１０７ｃ，１０７ｄが取得した被写体音ｓ１（ｔ），ｓ２（ｔ），ｓ３（ｔ），ｓ４（ｔ）に等しくなっていることを意味している。

以上説明したように、簡単な加算、減算およびゲイン調整という処理を施すことで、ＳＳ処理に必要なフーリエ変換、Ｓ’（ω）推定、逆フーリエ変換という演算を１チャンネルのみで演算すればよい。４チャンネル夫々に対してＳＳ処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。

ここまではＳＳ処理を例に説明をしたが、実施形態１と同様に、容易にフィルタ処理にも適用できる。

周波数領域でのフィルタ処理は、図９に示した音声信号処理回路２６のＳＳ処理１４４ａを、フィルタ処理１４４ｂに置換したものとなる。すなわち、フィルタ処理４４ｂにおけるＦ（ω）が数２６の｛ｓ１（ｔ）＋ｓ２（ｔ）＋ｓ３（ｔ）＋ｓ４（ｔ）｝／４とｈｎｃ＊ｎ（ｔ）を分離するようなフィルタ処理を行う。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

また、時間領域でのフィルタ処理は、図９に示した音声信号処理回路２６のＳＳ処理４４ａを、フィルタ処理４４ｂに置換したものとなる。すなわち、フィルタ処理４４ｂにおけるｆ（ｔ）が数２６の｛ｓ１（ｔ）＋ｓ２（ｔ）＋ｓ３（ｔ）＋ｓ４（ｔ）｝／４とｈｎｃ＊ｎ（ｔ）を分離するようなフィルタ処理を行う。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

上述した雑音処理のために用いた雑音スペクトル推定値Ｎ’（ω）、雑音処理フィルタＦ（ω）、ｆ（ｔ）は装着されるレンズや雑音源の種類によって適当に選択されてカメラシステム制御回路１２５から与えられる。これらの情報は、カメラシステム制御回路１２５内に保持しても良いし、レンズに保持させても良い。また、本実施形態では、マイクの位置を雑音源たる駆動部からほぼ等距離に配置した例について説明したが、多少ずれていたとしても、演算量を低減させる効果を得ることはできる。

ここで、図１０を参照して、別の雑音源からの雑音を処理するための音声信号処理回路について説明する。図１０の構成は、第１の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄおよび第２の遅延器１７２ａ，１７２ｂ，１７２ｃ，１７２ｄを備えている点が図９と異なる。その他の構成は図９と同様であるので説明を省略し、以下に遅延器の機能および動作について詳述する。

図６で説明したように、焦点レンズ駆動回路１０９ａおよびズーム駆動回路１０９ｄから各マイク１０７ａ，１０７ｂ、１０７ｃ，１０７ｄまでの距離は等しくない。一方で、空間的なエリアシングを避けるためにマイク１０７ａ，１０７ｂ、１０７ｃ，１０７ｄは近接して配置されている。このような条件では、焦点レンズ駆動回路１０９ａおよびズーム駆動回路１０９ｄからの雑音はマイク１０７ａ，１０７ｂ、１０７ｃ，１０７における音圧は等しいが、遅延を持って取得される。ステレオマイクにおいて、ステレオ感＝遅延はあるが、２つのチャンネル間に音圧差が小さいのと同じ状況である。

第１の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄは前述の遅延をキャンセルするように設定される。例えば、遅延器１０７ａに対して遅延器１０７ｂの信号が遅延して取得されるときには、遅延器１７１ａの遅延量よりも小さい遅延量を遅延器１７１ｂが与える。結果として、第１の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄを通過した信号は焦点レンズ駆動回路１０９ａおよびズーム駆動回路１０９ｄからの信号位相が全て揃っている状態となる。第１の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄで与える遅延量を夫々Ｔａ１、Ｔｂ１、Ｔｃ１、Ｔｄ１とする。

時刻ｔにおいて、マイク１０７ａ，１０ｂ，１０７ｃ，１０７ｄからの音声信号を前処理部１５１で処理した結果をそれぞれｘ１（ｔ）、ｘ２（ｔ）、ｘ３（ｔ）、ｘ４（ｔ）とする。第１の加算器１６１ａ，１６１ｂ，１６１ｃを通過した出力信号は数３０のようになる。

但し、数３０において＊は畳み込み積分を示す。ｄ（Ｔ）は遅れＴの遅延を示すフィルタで有る。ｄ（Ｔ）は例えば、図１１に示すタップ付き遅延線フィルタで実現できる。具体的には遅延量に応じたａ（Ｔ）のみが１で他は０とすれば良い。

さらにゲイン調整器１６２を通過した出力信号は数３１のようになる。

第１の減算器１６３ａ，１６３ｂ，１６３ｃ，１６３ｄの出力信号は、それぞれ数３２のようになる。

但し、数３２は上から第１の減算器１６３ａ，１６３ｂ，１６３ｃ，１６３ｄの出力信号を夫々示している。

絞り駆動回路１０９ａから各マイク１０７ａ〜１０７ｄまでの伝達関数をそれぞれｈｎａ１、ｈｎａ２、ｈｎａ３、ｈｎａ４、雑音発生部をｎ、マイク１０７ａ、１０７ｂ，１０７ｃ，１０７ｄで捕捉する雑音をｎ１，ｎ２，ｎ３，ｎ４とすると、

但し、数３３において＊は畳み込み積分を示している。また、ｈｎａ１、ｈｎａ２、ｈｎａ３、ｈｎａ４はｔの関数とはせずに時不変システムを想定している。

前述したように、第１の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄは雑音源から各マイク１０７ａ、１０７ｂ，１０７ｃ，１０７ｄまでの遅延を打ち消すように設定されているので、これを式で表すと数３４のようになる。

数３４の値をｈｎａとして、数３１および数３２を整理すると、

ここで大切なことは、数３６はｎ（ｔ）を含まないことである。つまり、雑音発生部とマイク１０７ａ，１０７ｂ，１０７ｃ，１０７ｄの配置を工夫し、それに適した演算を行うことで、雑音の影響をゲイン調整器１６２の出力（数３５に対応）に集めることができた。

但し、数３７においてｓ１’（ｔ）、ｓ２’（ｔ）、ｓ３’（ｔ）、ｓ４’（ｔ）は、ＳＳ処理後のｓ１（ｔ）およびｓ２（ｔ）の推定値である。

また、図１０に示した推定雑音スペクトルＮ’（ω）は数３５のｈｎａ＊ｎ（ｔ）をフーリエ変換したものが与えられる。これは雑音のスペクトルに伝達関数を畳み込んでいるので、雑音のスペクトルそのものではなく、雑音が発生したときにマイクで収音されると想定されるスペクトルに相当する。

このとき、第２の加算器１６４ａ、１６４ｂ、１６４ｃ、１６４ｄの出力信号は数３８のようになる。

ｓ１’（ｔ）、ｓ２’（ｔ）、ｓ３’（ｔ）およびｓ４’（ｔ）が良い推定値であれば、数２９はそれぞれｓ１（ｔ）、ｓ２（ｔ）、ｓ３（ｔ）およびｓ４（ｔ）をＴａ１，Ｔ２ａ，Ｔａ３，Ｔａ４遅延させた信号とほぼ等しくなる。更に第２の遅延器１７１ａ，１７１ｂ，１７１ｃ，１７１ｄを通すことで数３９の信号を得る。

ここで、第２の遅延器１７２ａ〜１７２ｄはそれぞれ、第１の遅延器１７１ａ〜１７１ｄとの遅延量の和が等しくなるように設定されている。よって、ｄ（Ｔａ１）＊ｄ（Ｔａ２）＝ｄ（Ｔｂ１）＊ｄ（Ｔｂ２）＝ｄ（Ｔｃ１）＊ｄ（Ｔｃ２）＝ｄ（Ｔｄ１）＊ｄ（Ｔｄ２）＝ｄ（Ｔ）とすると、数４０となる。

これは、第２の遅延器１７２ａ〜１７２ｄの出力信号はマイク１０７ａ〜１０７ｄが取得した被写体音ｓ１（ｔ），ｓ２（ｔ），ｓ３（ｔ），ｓ４（ｔ）を各チャンネルで等しく遅延させた信号になっていることを意味している。そのため、遅延を考慮して画像と関連付けすることでステレオ感などを損なわず、雑音を低減した音声信号を得ることができる。

以上説明したように、簡単な遅延器、加算、減算およびゲイン調整という処理を施すことで、ＳＳ処理に必要なフーリエ変換、Ｓ’（ω）推定、逆フーリエ変換という演算を１チャンネルのみで演算すればよい。４チャンネル夫々に対してＳＳ処理を行う場合に比べて、大幅に演算量を低減することができる。結果として、安価な演算器で演算可能なため安価に装置を実現できるという利点がある。

周波数領域でのフィルタ処理は、図１０に示した音声信号処理回路２６のＳＳ処理１４４ａを、フィルタ処理１４４ｂに置換したものとなる。すなわち、フィルタ処理４４ｂにおけるＦ（ω）が数３５のｈｎａ＊ｎ（ｔ）とその他の項を分離するようなフィルタ処理を行う。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

また、時間領域でのフィルタ処理は、図１０に示した音声信号処理回路２６のＳＳ処理４４ａを、フィルタ処理４４ｂに置換したものとなる。すなわち、フィルタ処理４４ｂにおけるｆ（ｔ）が数３５のｈｎａ＊ｎ（ｔ）とその他の項を分離するようなフィルタ処理を行う。その他はＳＳ処理と同様な処理を行うことで、被写体音の推定値を得ることが可能となる。

上述したように、雑音処理のために用いた雑音スペクトル推定値Ｎ’（ω）、雑音処理フィルタＦ（ω）、ｆ（ｔ）は装着されるレンズや雑音源の種類によって適当に選択されてカメラシステム制御回路１２５から与えられる。これらの情報は、カメラシステム制御回路２５内に保持しても良いし、レンズ２に保持しても良い。

本実施形態においては、マイクが４つの場合について説明をしたが、複数のマイクであれば更に少数のマイクでも、更に多数のマイクであっても、本発明は適用できる。

以上説明したように、実施形態２によれば、多チャンネルの音声入力を持つ撮影装置において、少ない演算負荷で雑音抑制することを可能にした音声信号処理技術を実現することができる。

上述した各実施形態においては、本発明をデジタル（ビデオ）カメラに適用した場合を例に説明したが、これに限定されず、雑音発生部を持ち音声を録音する装置であれば適用可能である。

［他の実施形態］また、本発明は、以下の処理を実行することによっても実現される。即ち、上記実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、および該プログラムを記憶した記憶媒体は本発明を構成することになる。

Claims

機械的な駆動を行う駆動部を有する音声信号処理装置であって、
前記駆動部の駆動を制御する駆動制御手段と、
前記装置周囲の音声を集音して音声信号を取得する第１および第２のマイクと、
前記第１および第２のマイクにより取得した音声信号に含まれる、前記駆動部の駆動に伴う雑音成分を低減する雑音処理手段と、を有し、
前記雑音処理手段は、
前記第１および第２のマイクから入力した音声信号を加算する第１の加算手段と、
前記第１および第２のマイクから入力した音声信号の差分をとる第１の減算手段と、
前記第１の加算手段の出力信号を調整する第１の調整手段と、
前記第１の減算手段の出力信号を調整する第２の調整手段と、
前記第１の調整手段の出力信号から前記雑音成分を低減する雑音低減手段と、
前記雑音低減手段の出力信号と前記第２の調整手段の出力信号とを加算する第２の加算手段と、
前記雑音低減手段の出力信号と前記第２の調整手段の出力信号との差分をとる第２の減算手段と、を有することを特徴とする音声信号処理装置。
機械的な駆動を行う駆動部を有する音声信号処理装置であって、
前記駆動部の駆動を制御する駆動制御手段と、
前記装置周囲の音声を集音して音声信号を取得する複数のマイクと、
前記複数のマイクにより取得した音声信号に含まれる、前記駆動部の駆動に伴う雑音成分を低減する雑音処理手段と、を有し、
前記雑音処理手段は、
前記複数のマイクごとに入力した音声信号を加算する第１の加算手段と、
前記第１の加算手段の出力信号を調整する調整手段と、
前記複数のマイクごとに入力した音声信号と前記調整手段の出力信号との差分をとる減算手段と、
前記調整手段の出力信号から前記雑音成分を低減する雑音低減手段と、
前記雑音低減手段の出力信号と前記減算手段の出力信号とを加算する第２の加算手段と、を有することを特徴とする音声信号処理装置。
機械的な駆動を行う駆動部を有する音声信号処理装置であって、
前記駆動部の駆動を制御する駆動制御手段と、
前記装置周囲の音声を集音して音声信号を取得する複数のマイクと、
前記複数のマイクにより取得した音声信号に含まれる、前記駆動部の駆動に伴う雑音成分を低減する雑音処理手段と、を有し、
前記雑音処理手段は、
前記複数のマイクごとに入力した音声信号の位相を合わせる第１の遅延手段と、
前記第１の遅延手段の出力信号を加算する第１の加算手段と、
前記第１の加算手段の出力信号を調整する調整手段と、
前記調整手段の出力信号から前記雑音成分を低減する雑音低減手段と、
前記第１の遅延手段の出力信号と前記調整手段の出力信号との差分をとる第１の減算手段と、
前記雑音低減手段の出力信号と前記第１の減算手段の出力信号とを加算する第２の加算手段と、
前記第２の加算手段の出力信号の位相を、前記複数のマイクごとに前記第１の遅延手段から出力される前の位相に戻すような遅延量に設定された第２の遅延手段と、を有することを特徴とする音声信号処理装置。
前記第１のマイクと前記第２のマイクとは、前記駆動部に対してほぼ等距離に配置されていることを特徴とする請求項１記載の音声信号処理装置。
前記雑音低減手段は、前記マイクにより取得された音声信号から得られた音声スペクトルから雑音スペクトルを減算する処理を行うことを特徴とする請求項１乃至４のいずれか１項に記載の音声信号処理装置。
前記雑音低減手段は、前記マイクにより取得された音声信号について周波数又は時間を用いたフィルタ処理を行うことを特徴とする請求項１乃至４のいずれか１項に記載の音声信号処理装置。
前記雑音低減手段は、前記雑音成分を無音に置き換える処理を行うことを特徴とする請求項１乃至４のいずれか１項に記載の音声信号処理装置。
撮影光学系を通して結像される被写体の光を取り込んで光電変換する撮像手段と、
前記撮像手段により生成された画像信号に信号処理を施す画像処理手段と、
請求項１乃至７のいずれか１項に記載の音声信号処理装置と、
前記画像処理手段により信号処理された画像信号と、前記音声信号処理装置により雑音成分が低減された音声信号とを関連付けして記録する記録処理手段と、を有することを特徴とする撮影装置。
前記撮像手段の受光面は矩形状であり、前記マイクは、前記受光面の長手方向に離間して配置されることを特徴とする請求項８に記載の撮影装置。
前記マイクは、前記撮影光学系の光軸を基準として対称に配置されていることを特徴とする請求項８または９に記載の撮影装置。
前記駆動部は、前記撮影光学系の光軸の近傍に設けられていることを特徴とする請求項８乃至１０のいずれか１項に記載の撮影装置。